Mówiące i słyszące komputery

Rozmawiające z użytkownikiem komputery były traktowane do tej pory jako swego rodzaju ciekawostka techniczna czy temat na powieść 'science fiction'. Gwałtowny rozwój nowych technologii powoduje jednak, że komputery rozpoznające mowę czy przetwarzające pliki tekstowe na elektroniczne dźwięki (przypominające do złudzenia głos człowieka), mogą szybciej trafić na nasze biurka, niż to się wydaje.

Rozmawiające z użytkownikiem komputery były traktowane do tej pory jako swego rodzaju ciekawostka techniczna czy temat na powieść 'science fiction'. Gwałtowny rozwój nowych technologii powoduje jednak, że komputery rozpoznające mowę czy przetwarzające pliki tekstowe na elektroniczne dźwięki (przypominające do złudzenia głos człowieka), mogą szybciej trafić na nasze biurka, niż to się wydaje.

Wszystko wskazuje na to, że królujące od lat urządzenia I/O, czyli tradycyjne klawiatury i mysz, będą już wkrótce zastępowane powoli rozwiązaniami bazującymi na technice audio. Chodzi tu o technologie AVR (Automatic Voice Recognition - automatyczne rozpoznawanie mowy) i TTS (Text To Speech - przetwarzanie tekstu na mowę). Pierwsze tego rodzaju komputery pojawiają się już zresztą na rynku np. IBM Aptiva wyposażane w oprogramowanie AVR (rozpoznawanie mowy). W ślad za IBM pójdą już wkrótce Compaq i Apple.

Z kolei Microsoft testuje oprogramowanie Speech Software Development Kit, które pozwoli programistom tworzyć aplikacje przemawiające własnym głosem. Główną barierą uniemożliwiającą szybszy rozwój tego rodzaju aplikacji jest jak dotąd brak ogólnie akceptowanych interfejsów programowych typu API. Daje się tu zaobserwować jednak pewien postęp. I tak Novell kończy już prace nad procedurami API typu AVR. Produkt ten ma być dostępny jeszcze pod koniec br.

Obserwatorzy rynku podkreślają, że zapotrzebowanie na tego rodzaju aplikacje wzrośnie po ściślejszym zintegrowaniu komputera PC z telefonem. Użytkownik będzie mógł wtedy np. zadzwonić do komputera PC, a ten odczyta mu na głos (uruchamiając program elektronicznej syntezy mowy) stosowny dokument czy odebraną przed chwilą pocztę E-mail. Nie bez znaczenia jest też znaczny wzrost potencjału obliczeniowego komputerów PC nowej generacji. Dla komputera wyposażonego w procesor z zegarem 120 MHz nie będzie już żadnym problemem obsłużenie aplikacji TTS czy wsłuchanie się w głos użytkownika wydającego mu polecenie, drukując jednocześnie

plik czy transmitując dane przez sieć Internet.

Dzięki komputerom rozpoznającym mowę, pracownik może poświęcić o wiele mniej czasu na pisanie listów i dokumentów. Przeciętna osoba potrafi pisać na maszynie z szybkością 20-45 słów na minutę. Najnowsze produkty rozpoznawania mowy pracują na tyle szybko, że mogą przetworzyć na plik ASCII tekst wypowiadany z szybkością 200 słów na minutę. Wszystko wskazuje więc na to, że po pewnym okresie zastoju nadchodzą lepsze czasy. Przewiduje się, że obroty na rynku aplikacji obsługujących mowę wzrosną w przyszłym roku o 30% i osiągną w 1998 r. poziom 1,5 mld USD.

Systemy rozpoznające mowę mają szczególne wzięcie w takich dziedzinach, jak medycyna czy sądownictwo, a na systemy przetwarzające tekst na mowę czeka już handel i pewne działy przemysłu. Czynnikiem powstrzymującym użytkowników przed śmielszym sięganiem po tego rodzaju aplikacje jest stosunkowo słabej jakości sprzęt audio, dołączany do komputerów. Stosowane obecnie mikrofony przenoszą np. szumy generowane przez zasilacz komputera czy świat zewnętrzny, co zmniejsza niezawodność pracy systemu AVR. Można mieć tylko nadzieję, że rozwój oprogramowania AVR i TTS zmusi wreszcie producentów do wyposażania komputerów w sprzęt audio lepszej jakości.

Wiele firm już oferuje lub też przygotowuje się do wprowadzenia na rynek programów typu AVR i TTS. A oto krótki przegląd tych produktów:

1. IBM: pakiet rozpoznawania mowy VoiceType Dictation, uruchamiany pod systemami OS/2 lub Windows. Cena - 100 USD. Produkt może rozpoznać 22 tys. słów i przetwarza mowę na dane cyfrowe z szybkością 70-100 słów na minutę. Użytkownik może też przywoływać głosem do pracy pewne elementy systemu operacyjnego, np. ikony czy narzędzia. Klient ma do wyboru kilka wersji językowych: angielską, francuską, włoską, hiszpańską, niemiecką lub arabską. IBM wyposaża już w ten pakiet komputery linii Aptiva.

2. Apple Computer Inc.: firma ta poinformowala, że komputery linii Power Macintosh 7500 i 8500 będą sprzedawane razem z pakietem PlainTalk, przetwarzającym pliki tekstowe na mowę i rozpoznającym ograniczoną liczbę wydawanych ustnie poleceń. Wersja 1.4 tego pakietu jest już zresztą dostępna za darmo w sieci Internet. Pakiet potrafi odczytywać na głos tekst ASCII (może to robić używając 22 rodzajów głosu) i wykonywać pewne polecenia systemowe wymawiane w kilku językach.

3. Novell: w skład pakietu PerfectOffice 3.0 wchodzi już program SpeechAware (rozpoznawanie prostych poleceń). SpeechAware sprzedawany jako pracująca autonomicznie aplikacja kosztuje 25 USD. Rozbudowana wersja tego pakietu o nazwie SpeechAware Dictation kosztuje już 395 USD. Pakiet rozpoznaje 5000 słów.

4. Microsoft Corp.: Microsoft oferuje producentom systemów komputerowych pakiet o nazwie Windows Sound System.

5. Dragon Systems Inc.: firma sprzedaje pakiet DragonDictate for Windows w trzech różnych wersjach: wersja podstawowa (395 USD), wersja standardowa (695 USD) i wersja profesjonalna (1695 USD).

6. Kurzweil Applied Intelligence Inc.: pakiet Voice for Windows (rozpoznawanie mowy). Cena - 995 USD.

7. Berkley Spech Technologies Inc. i Centigram Communication Corp.: obie firmy sprzedają producentom systemów komputerowych technologię przetwarzania tekstu ASCII na mowę elektroniczną. Oprogramowanie nie jest oferowane w sprzedaży detalicznej.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200