Mikrofon zamiast myszy

Czy systemy rozpoznawania mowy to przyszłość interfejsu użytkownika?

Czy systemy rozpoznawania mowy to przyszłość interfejsu użytkownika?

Wydaje się nieprawdopodobne, ale już za kilka lat narzędzia, takie jak mysz czy klawiatura, tak charakterystyczne dla świata informatyki, mogą okazać się przeżytkiem. Zamiast tego, domowy lub firmowy komputer będzie wyposażony w mikrofon oraz kamerę śledzącą ruchy rąk i twarzy. Opracowanie efektywnych algorytmów, umożliwiających komunikację z komputerem przez naturalny tok słów, pozwala sądzić, że następny etap ewolucji interfejsu użytkownika to systemy rozpoznawania mowy. Firmy specjalizujące się w analizach rynku komputerowego, np. Gartner Group, przewidują, że początek "rewolucji" nastąpi już w 1998 r.

To, że systemy rozpoznawania mowy należy traktować jako ważne, komercyjne aplikacje, potwierdza niedawna inwestycja Microsoftu (45 mln USD) w akcje firmy Lernout & Hauspie, która jest producentem oprogramowania Kurzweil Voice Commands, pozwalającego na korzystanie z komend wydawanych głosem przy edycji dokumentów Microsoft Word 7. Mimo że skuteczność algorytmów rozpoznających mowę jeszcze nie zadowala Billa Gatesa, jego wizja to uzupełnienie systemu Windows o mechanizmy eliminujące tradycyjne interfejsy w postaci myszki i klawiatury. Warto też podkreślić, że do najpoważniejszych firm inwestujących w badania i od dawna produkujących oprogramowanie do rozpoznawania mowy należy IBM.

Nowe techniki rozpoznawania mowy

Przełom w dziedzinie oprogramowania Voice Recognition wiąże się z faktem niedawnego opracowania algorytmów pozwalających na rozpoznawanie naturalnego toku słów w czasie rzeczywistym przy korzystaniu z komputera klasy PC. Dotychczasowe programy umożliwiały jedynie rozpoznanie zdefiniowanych wcześniej komend lub dyktowanie pojedynczych wyrazów (wymagało to sporego wysiłku, gdyż każde słowo musiało być oddzielane pauzą). Mimo iż starsze technologie są nadal bardziej skuteczne, tzn. rozpoznają prawidłowo większą liczbę słów, to naturalny tok mowy pozwala na ponad dwukrotnie szybszą prędkość komunikacji.

Uciążliwym elementem korzystania z programów klasy Voice Recognition jest konieczność "wytrenowania" systemu tak, aby prawidłowo odbierał tembr głosu użytkownika, akcent itp. Dopiero po kilkudziesięciu godzinach pracy można oczekiwać, że skuteczność rozpoznawania będzie przekraczała 95%. Na początku program zazwyczaj prawidłowo rozpoznaje zaledwie ok. 80% wymawianych wyrazów. Dlatego też niektórzy producenci tego typu systemów starają się ułatwić ten proces, oferując jako metodę uczenia komputera np. lekturę książek na głos.

Oprogramowanie Voice Recognition wymaga jednak dużej mocy obliczeniowej. Dopiero system wyposażony w Pentium 200 MHz (najlepiej z MMX), 32 MB pamięci i ok. 50 MB wolnej przestrzeni na dysku pozwala na w miarę bezproblemową komunikację werbalną z komputerem.

Jakie systemy rozpoznawania mowy są dostępne?

Istnieją trzy firmy oferujące e profesjonalne programy, wyposażone w technologię rozpoznawania naturalnego toku mowy ludzkiej: IBM, Dragon Systems i Lernout & Hauspie, która przejęła Kurzweil Intelligence Systems. Oferują one programy IBM ViaVoice, Dragon NaturallySpeaking i Lernout & Hauspie Kurzweil VoiceCommands. Najbardziej dopracowaną technologią dysponuje IBM. Oprócz ViaVoice, z technologii IBM VoiceType korzystają m.in. edytor tekstu Lotus WordPro 97 (element zestawu SmartSuite 97) oraz Wizard VoiceE-mail - oprogramowanie do obsługi poczty elektronicznej za pomocą komend głosowych.

Ceny oprogramowania do rozpoznawania głosu są niskie - NaturallySpeaking kosztuje 149 USD, ViaVoice - 99 USD, a VoiceCommands - tylko 59.95 USD. Więcej informacji, a także wersje demonstracyjne niektórych programów można uzyskać w Internecie pod adresami:http://www.ibm.com, http://www.lhs.com,http://www.naturalspeech.com.

W Polsce przydatność systemów rozpoznawania mowy zależy także od tego, czy producent zamierza przygotować polską wersję językową. Nie jest to proste, w przypadku programów Voice Recognition nie wystarczy bowiem jedynie proste przetłumaczenie zawartości kilku okienek - musi powstać nowy słownik, nowe algorytmy itp. Prawdopodobnie jedynie IBM planuje przygotowanie polskiej wersji technologii VoiceType.

Przyszłość i użyteczność nowej technologii

Na konferencji Gartner Group, która odbyła się niedawno w Orlando na Florydzie, poinformowano o planach związanych z systemami komputerowymi wykorzystującymi nowe typy interfejsów użytkownika. Zaprezentowano system Face-It - oprogramowanie pozwalające na rozpoznawanie użytkownika poprzez jego głos i rysy twarzy (co eliminuje konieczność korzystania z identyfikatorów i haseł) i komputer Xybernaut, który można nosić umocowany na pasku spodni, zaś komunikować się z nim za pomocą mikrofonu i małego ekranu umieszczonego przed oczami użytkownika. Natomiast na targach Comdex IBM zademonstrował system pozwalający na komunikację z komputerem za pomocą mowy i gestów - części ciała użytkownika oznaczono różnymi kolorami, dzięki czemu będąca elementem systemu kamera mogła określić ich dokładną pozycję.

Mimo tak zaawansowanych prac prowadzących do ewolucji (a raczej rewolucji) interfejsu użytkownika, pozostaje pytanie - czy nowe technologie mogą znaleźć powszechne zastosowanie? Czy np. rozpoznawanie mowy będzie użyteczne w firmowych systemach komputerowych? Istnieje kilka powodów, które pozwalają sądzić, że zastosowanie interfejsu głosowego będzie jednak ograniczone. Pierwszy problem to hałas. Jeśli wszyscy pracownicy firmy będą komunikować się z komputerami za pomocą głosu, zamiast cichego stukotu klawiatur, można spodziewać się atmosfery przypominającej halę dworca kolejowego. Jednocześnie efektywność systemów rozpoznawania mowy w hałaśliwym otoczeniu drastycznie spadnie, a ich skuteczne zastosowanie będzie prawie niemożliwe. Ponadto większość tego typu systemów nie działa obecnie w środowisku sieciowym, a jedynie na pojedynczych komputerach PC. Warto też zauważyć, że firmy wykorzystują najczęściej komputery o mocy mniejszej niż wymaga tego większość aplikacji Voice Recognition.

Jednocześnie nowa technologia ma wiele zalet. Umiejętność sprawnego posługiwania się klawiaturą nie będzie stanowiła bariery - pozwoli uniknąć niektórych chorób zawodowych wynikających z nieprawidłowej pozycji ciała przy pracy z komputerem, a także ułatwić i rozszerzyć możliwości pracy zawodowej dla osób niepełnosprawnych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200