Czy PC przemówi w 2001 roku ?

Był rok 1968. Nixon został wybrany prezydentem USA, Apollo 8 krążył dookoła księżyca, a przeciwników wojny w Wietnamie przybywało z każdym miesiącem. Na ekrany kin wszedł właśnie film science fiction Odyseja Kosmiczna. Być może niektórzy pamiętają jeszcze głównego bohatera tego filmu. To mówiący ludzkim głosem robot czy raczej inteligentny komputer HAL.

Był rok 1968. Nixon został wybrany prezydentem USA, Apollo 8 krążył dookoła księżyca, a przeciwników wojny w Wietnamie przybywało z każdym miesiącem. Na ekrany kin wszedł właśnie film science fiction Odyseja Kosmiczna. Być może niektórzy pamiętają jeszcze głównego bohatera tego filmu. To mówiący ludzkim głosem robot czy raczej inteligentny komputer HAL.

Uosabiał on ówczesne tęsknoty projektantów systemów komputerowych, którzy kreślili wtedy w wyobraźni plany zbudowania w przyszłości mówiącego komputera, obdarzonego na dodatek sztuczną inteligencją. I tak oto dzisiaj plany te stają się powoli rzeczywistością. Projektanci komputerów już od 20 lat pracują nad udoskonaleniem technik rozpoznawania głosu i syntezy mowy. Znaczący rozwój techniki komputerowej w ostatnich latach pozwala już budować takie słuchające i mówiące systemy. Apple Computer Inc., IBM, Microsoft Corp. i wiele innych mniejszych firm oferują już szereg tego typu systemów, pracując ciągle nad ich udoskonaleniem.

Nie tylko mówi, ale i słyszy

Proces syntezy mowy, zwany też w skrócie TTS (Text-To Speech), polega na odczytywaniu przez komputer na głos pliku tekstowego. Z kolei system AVR (Automatic Voice Recognition) przekłada wypowiadane przez użytkownika polecenia, na zrozumiały dla komputera ciąg bitów, które w efekcie tworzą pliki audio. Można więc w ten sposób sterować pracą komputera nie korzystając z pomocy klawiatury lub podyktować mu np. list, który w formie pliku tekstowego przesłany zostanie pocztą e-Mail do adresata.

Oczywiście dużo prostszą operacją dla komputera jest synteza mowy. Nie musi on tu niczego interpretować, a przekłada tylko tekst ASCII na odpowiedni ciąg bitów, które po obróbce ich przez kartę dźwiękową przybierają formę mowy maszynowej. Rozbudowane programy syntezy mowy posiłkują się specjalnymi bazami danych, które zawierają po jednej stronie używane najczęściej w tekście akronimy, wyrażenia, skróty i symbole graficzne, a po drugiej odpowiadające im, zapisane w formie ciągu bitów, gotowe dźwięki.

Aplikacje używające techniki TTS stosowane są dzisiaj w wielu różnych dziedzinach, począwszy od centrali telefonicznych (odpowiadający automatycznie głos maszynowy), a skończywszy na arkuszach kalkulacyjnych czy edytorach tekstów, które informują i uczą użytkownika poprawnej wymowy słów. Niektórzy producenci zaczynają już stosować systemy TTS w aplikacjach poczty elektronicznej. Zamiast odczytywać pocztę z ekranu komputera użytkownik nastawia ucha, a głośnik odczytuje mu treść listu. Jest to być może atrakcyjne rozwiązanie dla użytkowników podróżujących z laptopem przy boku (możliwość wysłuchania poczty na dworcu lotniczym czy w czasie prowadzenia samochodu). Bowiem dłuższe odczytywanie przez komputer całych plików tekstowych jest jak się okazuje rzeczą nader uciążliwą. Jak twierdzi wielu użytkowników jest to operacja zbyt czasochłonna i dużo wygodniej i szybciej jest jednak przejrzeć całą pocztę e-Mail na ekranie.

Nowe zastosowania

Są jednak też takie dziedziny, w których system TTS zdaje doskonale egzamin, jak np. praca z komputerem osób słabo widzących. Firma First Byte z Kalifornii oferuje pakiet Monologue for Windows, który korzystając z techniki TTS wspomaga osoby słabowidzące przy pracy pod systemem Windows 3.1. Wiele informacji i ostrzeżeń jest tu odczytywanych przez komputer na głos. Użytkownicy komputerów Macintosh mają z kolei do dyspozycji pakiet OutSpoken firmy Berkley Speech Technology Inc. Programy te jednak mogą tylko wypowiadać pewne informacje, a nie są w stanie słuchać wydawanych przez użytkownika poleceń.

Technika rozpoznawania mowy AVR nie oferuje jeszcze tak atrakcyjnych rozwiązań, jak system TTS. Producenci systemów AVR głowią się obecnie nad trzema podstawowymu problemami: rozpoznawaniem ciągu wypowiadanych bez przerwy słów, zakresem stosowanego przez mówcę słownictwa i indywidualnymi cechami mowy poszczególnych osób. Wszystkie te trzy czynniki są równie ważne i jak na razie jest bardzo trudno zaprojektować system, który oferuje zadowalające rozwiązania w każdej z tych dziedzin.

Dlatego też oferowane obecnie pakiety AVR potrafią rozpoznawać w miarę poprawnie wypowiadane cyfry i wolno mówione pojedyncze słowa. Ale już dodanie akcentu czy wypowiedziane szybciej słowo powoduje, że program staje się bezradny. Stan obecnej techniki stawia projektantom systemów AVR do wyboru: albo rozpoznawanie szybko mówionego tekstu, przy bardzo zawężonym słownictwie, albo rozpoznawanie wielu słów, przy mówionym wolno i wyraźnie tekście.

Perspektywy

Ograniczenia te powodują, że firmy koncentrują się głównie na tworzeniu aplikacji AVR, które znajdują zastosowanie w pewnych wąskich dziedzinach, takich jak: medycyna czy bankowość, gdzie zakres stosowanego słownictwa jest niewielki. Firma KorTeam International pracuje aktualnie nad systemem, który znajdzie zastosowanie w szpitalach. Używany on będzie przez lekarzy i pielęgniarki do wprowadzania do komputera danych o pacjencie za pomocą głosu. Stanowiska takie instalowane będą przy każdym łóżku w szpitalu.

System ten testowany jest obecnie w jednym ze szpitali w Santa Rosa. Niektóre informacje, takie jak np. nazwiska pacjentów wprowadzane są jeszcze ręcznie, ale cała reszta przekazywana jest do bazy danych głosem. Do budowy systemu użyto pakietu narzędziowego Spot/VBX, opracowanego przez Speech Systems Inc. Produkt ten pozwala programiście wbudowywać moduły rozpoznawania mowy do Microsoft Visual Basic. Firma Speech Systems oferuje też podobne produkty do pracy z C++ i Visual C++. Programy te używają specjalnych algorytmów, które tłumaczą mowę na kody onetyczne. Kody te są następnie dekodowane przez specjalny program i przybierają postać zrozumiałych dla komputera poleceń czy i tumaczonych na tekst ASCII słów. Program narzędziowy firmy Speech pozostaje cały czas pod kontrolą systemu Visual Basic, który wywołuje go jako jedno z narzędzi, posługując się interfejsem DDL (Dynamic Link Library).

Pakiet AVR firmy KorTeam nie jest niezawodny i zdarza się niejednokrotnie, że niektóre wyrazy trzeba powtarzać. System przed zaakceptowaniem każdego z poleceń powtarza je lub wyświetla jego treść na ekranie, a mówiący musi potwierdzić, że jego głos został zinterpretowany poprawnie. Dopiero tak zaakceptowana informacja przesyłana jest do bazy danych komputera.

Po wielu próbach zespół badawczy firmy KoeTeam doszedł do wniosku, że kluczem do stworzenia sprawnie działającego systemu AVR jest skoncentrowanie się na rozpoznawaniu ograniczonej ilości słów i kontekstów w jakich są one wypowiadane. Dobrym przykładem takiego wąskiego stosowania systemu AVR jest np. przyjmowanie zamówień od klientów w sklepie, gdzie używane są i ciągle powtarzane te same słowa.

AVR będzie też stosowany we wszelkiego rodzaju grach audiowideo i interakcyjnych systemach, gdzie użytkownik odstawi na bok klawiaturę i będzie mógł z powodzeniem wydawać głosem pojedyncze polecenia: koniec gry, stop, ognia, zmień itp.

Inna firmą pracującą od dawna nad systemem AVR jest Dragon Systems Inc. Jej produkt VoiceTools składa się ze sterowników rozpoznawania mowy pracujących pod systemami DOS i Windows oraz ze specjalnych modułów do rejestrowania i przetwarzania mowy. Każdy ze sterowników zawiera zestaw funkcji języka C, które mogą być dołączane do kodu języka. Programista może wybrać z bazy danych jeden z odpowiadających mu zbiorów słów (zestaw ok. 1000 słów), które służyć mu będą do obsługi konkretnej aplikacji.

Firmy oferują

Zajmująca się badaniem rynku firma Voice Information Associates szacuje, że w 1997 r. użytkownicy wydadzą 750 mln USD na systemy rozpoznawania mowy i 550 na układy syntezy mowy. Ten nowy prężnie się rozwijający rynek jest oczywiście przedmiotem zainteresowania wielu producentów sprzętu i oprogramowania. Przewodzi tu firma Apple, z wyposażonymi w systemy audio komputerami Quadra 840av i Centris 660av oraz nową linią komputerów Power Mac. Komputery te budowane są na bazie rodzimego rozwiązania firmy Apple o nazwie PlainSpeech, które umożliwia tak rozpoznawanie mowy, jak i odczytywanie tekstu. Użytkownik może wydawać komputerowi polecenia ustnie oraz tworzyć swoje własne wersje poleceń, posiłkując się prostymi językami skryptowymi AppleScript lub QuicKeys.

Użytkownicy komputerów Macintosh mają też do dyspozycji zestaw pakietów narzędziowych PlainTalk Text-to-Speech Developers Toolkit. Służy on do budowania aplikacji, które zamieniają komputer z niemowy w gadułę. W skład zestawu wchodzą: złącze programowe aplikacji Text-to-Speech Manager i dwa programy do przetwarzania plików tekstowych na mowę.

Pakiet PlainTalk jest bardzo wydajny, ponieważ stosuje do zapisywania danych audiotechniki . Jest to dużą zaletą tego systemu, ponieważ większość tego rodzaju programów jest bardzo pamięciożerna, co uniemożliwia ich stosowanie na szerszą skalę.

Firma IBM oferuje z kolei pakiet Personal Dictation System, który może być stosowany do przetwarzania mowy na tekst przez różne grupy zawodowe. Firma twierdzi, że pakiet rozpoznaje bezbłędnie i przekłada na tekst 95-98 wypowiadanych przez użytkownika słów. Stosuje on przy tym dość skomplikowane algorytmy i wzory matematyczne. System jest w stanie zapamiętać nawet indywidualne cechy głosu poszczególnych osób, na co potrzebuje od jednej do dwóch godzin wsłuchiwania się w głos mówcy. Osoba taka jest przy następnym podejściu rozpoznawana przez system a jej głos przetwarzany na tekst łatwiej i szybciej. Pakiet może być ładowany na systemy z procesorami 486SX, 486DX i Pentium. Zajmuje 8 MB pamięci RAM i 32 MB na dysku twardym.

Produkt firmy IBM stosowany jest już przez WordPerfect Corp. i Lotus Development Corp., które wbudowały go do poczt e-Mail, procesorów tekstu i arkuszy kalkulacyjnych. I tak np. użytkownik po włączeniu komputera i przywitaniu się z nim (polecenie "good morning"), inicjuje automatyczne uruchomienie aplikacji "kalendarz", która przypomina mu na głos zaplanowane na dzisiaj zadania.

Microsof oferuje natomiast, opracowany wspólnie z firmą Dragon Software, pakiet rozpoznawania mowy, który jest częścią większego systemu o nazwie Window Sound System. Do pakietu dołączane są: mikrofon, 16-bitowa karta audio, syntetyzator MIDI i pakiety arzędziowe (Dragon Voice Pilot - system rozpoznawania mowy; pakiet dczytywania plików tekstowych i pakiet edukacyjny, który uczy wymowy różnych wyrazów i zwrotów.

Pakietu Voice Pilot pozwala na wydawanie poleceń systemowi Windows głosem, a użytkownik ma do dyspozycji zestaw 64 poleceń (Open, Close, Save itp.). Jednak nawet sam Microsoft traktuje ten produkt jako pewien dodatek uatrakcyjniający użytkownikowi pracę, nie na tyle jednak doskonały, by można go stosować w bardziej krytycznych i poważnych aplikacjach.

I chociaż systemy rozpoznawania głosu w ostatnich latach rozwinęły się bardzo, to jednak wizja swobodnego porozumiewania się człowieka i komputera za pomocą głosu pozostaje nadal w sferze fantazji. Jak na razie, nie wypracowano jeszcze jednego określonego sposobu postępowania przy projektowaniu tego typu systemów i nie istnieją ogólnie akceptowane specyfikacje i standardy. Systemy AVR są na tyle jeszcze niedojrzałe, że jak już wcześniej wspomniano albo znajdują zastosowanie w niezwykle wąskich, konkretnych dziedzinach, albo traktowane są raczej jako swego rodzaju ciekawostka.