Cyfrowa mowa

Nie ma wątpliwości, że kolejną rewolucją interfejsu użytkownika będzie wprowadzenie systemów rozpoznawania i syntezy mowy. Przyczyni się do tego popularyzacja palmtopów, telefonów komórkowych i innego rodzaju przenośnego sprzętu.

Nie ma wątpliwości, że kolejną rewolucją interfejsu użytkownika będzie wprowadzenie systemów rozpoznawania i syntezy mowy. Przyczyni się do tego popularyzacja palmtopów, telefonów komórkowych i innego rodzaju przenośnego sprzętu.

Wraz ze wzrostem wydajności mikroprocesorów, przy jednoczesnej miniaturyzacji urządzeń, korzystanie z pojawiających się nowych funkcji i możliwości, jak dostęp do Internetu lub poczty elektronicznej, wymusza szukanie nowych rozwiązań dla interfejsu użytkownika - trudno jest nosić miniaturowy palmtop i ogromną, w porównaniu z nim, klawiaturę.

Istniejące technologie już obecnie umożliwiają implementację systemów rozpoznawania mowy w komputerach PC, a pośrednio również we współpracujących z nimi palmtopach. Ich popularyzacja napotyka jednak przeszkody. Jak w przypadku każdej nowości, w znacznej mierze wynikają one z dotychczasowych przyzwyczajeń, ale także z nieuzasadnionych oczekiwań użytkowników. Według dyrektora IBM Voice Systems, "filmy science fiction wytworzyły określone wymagania" - użytkownicy spodziewają się, że system rozpoznawania mowy umożliwi swobodną konwersację z komputerem. Na to trzeba będzie jeszcze zaczekać co najmniej kilka lat. Natomiast nawet względnie proste urządzenia o ograniczonym zasobie rozpoznawanych dźwięków mogą znacznie rozszerzyć funkcjonalność, np. komputerów naręcznych lub telefonów komórkowych.

Oprogramowanie do rozpoznawania mowy dla komputerów PC jest dostępne na rynku już od kilku lat. Oferują je m.in. IBM, Dragon Systems, Lernout & Hauspie, a ostatnio również Philips. Warto zauważyć, że rośnie liczba prototypów sprzętu przenośnego wykorzystującego tę technologię. Pojawiają się pierwsze tego typu produkty rynkowe, jak NaturallySpeaking Mobile Organizer firmy Dragon Systems.

Nie tylko dyktafony

IBM zaprezentował ostatnio prototyp naręcznego komputera wyposażonego w głośnik, mikrofon, specjalny dodatkowy koprocesor do przetwarzania dźwięku i oprogramowanie Personal Speech Assistant, które umożliwia głosowe sterowanie funkcjami palmtopa, np. wyszukiwanie rekordów w książce adresowej, liście zadań itd. Ponadto komputer pozwala na zapisanie w 4 MB standardowej pamięci ok. 30 minut nagrania dźwiękowego. Po jego podłączeniu do komputera PC z zainstalowanym oprogramowaniem ViaVoice możliwa jest automatyczna transmisja pliku audio do PC, przekształcenie w tekst i zapisanie ponownie w pamięci palmtopa. Wersja handlowa może być wyposażona w gniazdo do instalacji wymiennych kart pamięci CompactFlash lub miniaturowych dysków MicroDrive o pojemności 340 MB.

Nieco prostsze urządzenie wprowadza do sprzedaży inny znany producent oprogramowania do rozpoznawania mowy - Dragon Systems. Firma oferuje zestaw NaturallySpeaking Mobile Organizer. W jego skład wchodzi aplikacja NaturallySpeaking i cyfrowy dyktafon NaturallyMobile Recorder. Dyktafon umożliwia zapisanie do 40 min wypowiedzi, a przy zastosowaniu dodatkowej karty pamięci SmartMedia - nawet do 120 min. Pliki dźwiękowe mogą być umieszczane w różnych katalogach i mieć charakter zarówno zwykłego tekstu, jak i różnego rodzaju poleceń, umożliwiających np. zaadresowanie i zredagowanie listu elektronicznego. Po podłączeniu dyktafonu do komputera PC przez złącze szeregowe oprogramowanie NaturallySpeaking analizuje zapisane pliki dźwiękowe i wykonuje polecenia, współpracując m.in. z programami Act! 2000, Lotus Notes, Outlook i GoldMine. Można na przykład powiedzieć: "wyślij e-mail do Jana Kowalskiego na temat jego strony WWW kropka treść listu", a aplikacja automatycznie uruchomi program pocztowy, wyszuka adres i wpisze temat oraz treść listu w odpowiednie pola.

Również Microsoft po raz pierwszy zaprezentował publicznie pod koniec marca br. prototyp naręcznego komputera MiPad, który umożliwia głosowe redagowanie listów elektronicznych, sterowanie nawigacją w Internecie, przeszukiwanie książki adresowej i dyktowanie tekstów. Urządzenie ma budowę i wymiary podobne do komputerów PalmPilot.

Dużo języków - dużo problemów

Barierą popularyzacji systemów rozpoznawania mowy jest m.in. naturalna konieczność dostosowania ich do różnych języków. Podstawowe wersje aplikacji obsługują oczywiście język angielski, choć prawie wszyscy producenci oferują również wersje dla niektórych języków zachodnioeuropejskich. Szybko rozwija się też technologia rozpoznawania języka chińskiego i innych języków azjatyckich. Rynki Dalekiego Wschodu są atrakcyjne dla producentów oprogramowania ze względu na rodzaj używanego tam pisma, które jest trudne do wprowadzania z klawiatury.

Pod tym względem Polska jest wciąż krajem drugiej kategorii i można się spodziewać, że grozi nam wyraźne opóźnienie w możliwości korzystania z zaawansowanych systemów rozpoznawania mowy. Wynika to przede wszystkim z obecnych ocen popytu na tego rodzaju oprogramowanie w Polsce, które nie uzasadniają inwestycji w lokalizację programów, co jest znacznie trudniejsze i bardziej kosztowne niż w przypadku klasycznych aplikacji.

Jednak przedstawiciele producentów zdają sobie sprawę, że w przypadku oprogramowania do rozpoznawania mowy kluczem do sukcesu rynkowego jest udostępnianie jak największej liczby wersji językowych. "Poza krajami anglojęzycznymi, nie więcej niż 5% ludzi zna język angielski. Można być pewnym, że Francuz nie będzie chciał kierować samochodem wymagającym wydawania komend głosowych po angielsku" - twierdzi Jo Lernout, współzałożyciel firmy Lernout & Hauspie. Czy Polacy będą pod tym względem bardziej liberalni niż Francuzi?

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200