Koniec epoki niemych komputerów

W bazie lotniczej Hill Air Force Base w Ogden w stanie Utah wybrana grupa mechaników wykonuje rutynowy przegląd silnika samolotowego. Nie mają ze sobą kartek, ołówków czy jakiejkolwiek dokumentacji, a za to na głowach słuchawki i mikrofon, podłączone do komputera. Mając obie ręce wolne mogą swobodniej dokonywać pomiaru elementów. O tym co robią opowiadają komputerowi, który sprawdza, czy uzyskane informacje są zgodne z dokumentacją techniczną i ewentualnie sugeruje monterowi dalszy ciąg czynności.

W bazie lotniczej Hill Air Force Base w Ogden w stanie Utah wybrana grupa mechaników wykonuje rutynowy przegląd silnika samolotowego. Nie mają ze sobą kartek, ołówków czy jakiejkolwiek dokumentacji, a za to na głowach słuchawki i mikrofon, podłączone do komputera. Mając obie ręce wolne mogą swobodniej dokonywać pomiaru elementów. O tym co robią opowiadają komputerowi, który sprawdza, czy uzyskane informacje są zgodne z dokumentacją techniczną i ewentualnie sugeruje monterowi dalszy ciąg czynności.

Taki system, zwany Automated Remanufacture of Cylindrical Objects znacznie skraca czas wykonywania przeglądów i praktycznie redukuje do minimum możliwości dokonania błędnych pomiarów. Air Force mają zamiar nabyć dalsze 14 stanowisk tego typu.

Sterujące tym systemem oprogramowanie, rodem prosto z opowiadań fantastyczno-naukowych, opracowała firma Grumman Data Systems. Współpracuje ono ze sprzętem z firmy Verbex Voice Systems i wykorzystuje technikę znaną pod nazwą rozpoznawania mowy (speech recognition).

Rozwój komputerowych systemów rozpoznawania mowy jest finansowany przez rząd USA za pośrednictwem agencji ARPA (Advanced Research Project Agency), która w ciągu ostatnich 9 lat wydała na ten cel powyżej 100 mln USD. Całkiem niedawno Biuro ds. Nauki i Techniki przy Białym Domu postanowiło włączyć badania do programu "National Information Infrastructure", który jest tworzony przez administrację prezydenta Clintona.

Jeden z kierowników ARPA, George Doddington, sformułował cele rozwoju technik komputerowego rozpoznawania mowy - "Jest naszym obowiązkiem skierować potęgę komputeryzacji do coraz szerszych rzesz ludzkich - wiele osób będzie mogło korzystać z tej siły porozumiewając się z komputerami swoim własnym, wrodzonym językiem, bez dodatkowego uczenia się pisania czy korzystania z różnych menu".

Komputerowe rozpoznawanie mowy jest częścią szerszej dziedziny techniki, zwanej przetwarzaniem głosu (voice processing). Powiązane są z nią synteza głosu (voice synthesis), tworząca "mowę" komputera oraz systemy interaktywnej odpowiedzi przy użyciu głosu (IVR Interactive Voice Response), pozwalające użytkownikowi przy użyciu mowy nawigować poprzez różne menu oprogramowania, zależnie od wprowadzanej i otrzymywanej informacji.

Systemy IVR spotyka się już przy automatycznym kierowaniu połączeniami telefonicznymi. Zdaniem firmy analizującej prognozy dotyczące rynku komputerowego, Frost & Sullivan Market Intelligence, synteza i rozpoznawanie mowy w ciągu najbliższych 5 lat zdominuje ten "mówiony" rynek.

Analitycy i producenci zgadzają się przy tym, że ukazanie się nowych typów silnych i niezbyt kosztownych mikroprocesorów przyczyni się znacznie do tego, aby rozpoznawanie mowy stało się wkrótce czymś najzupełniej normalnym w takich zastosowaniach, jak wprowadzanie danych, wydawanie poleceń, komputerowe rozmowy telefoniczne, identyfikacja rozmówcy itp. Nie przypadkowo szefowie Digital Equipment Corporation inaugurując na wystawie Comdex '93 w Atlancie wyposażony w 64-bitowy procesor Alpha APX komputer DECpc Alpha AXP 150 uruchomili na nim oprogramowanie DAVE (Desktop Audio Visual Environment). Na wydawane przy użyciu głosu polecenia, system DAVE odpowiadał syntetycznym głosem, prezentował rozkład lotów i dokonywał rezerwacji połączeń lotniczych.

Oprogramowanie typu "speech recognition" pojawiło się już w latach 80. Systemy takie miały słowniki kilkuset rozumianych słów, mogły się "uczyć" głosu każdego z użytkowników (speaker dependent) ale rozpoznawały wyłącznie słowa rozdzielane pauzą (discrete speech).

Dzisiejsze duże systemy rozpoznawania mowy mają słowniki rozumianych słów (zawierające nawet do 20 tys. wyrazów), nie muszą "uczyć" się wymowy każdego z użytkowników z osobna (speaker independent), a także rozpoznają mowę ciągłą, bez zaznaczanych przerw między wyrazami (continuous speech). Na rynku przeważają jednak systemy, które oferują słowniki składające się z liter, liczb i kilkudziesięciu słów. Inne mogą rozpoznawać kilka tysięcy słów, ale użytkownik musi "przećwiczyć" ich wymowę z komputerem.

Bureau of Labor Statistics opracowało oprogramowanie IVR typu speaker "independent", które współpracując ze sprzętem firmy Voice Processing Corp. pozwala na wyeliminowanie klawiatur liczbowych typu telefonicznego. Korzystać z niego mogą np. urządzenia zadające pytania i wyświetlające kilka możliwych wersji odpowiedzi. Zamiast nacisnąć odpowiednią liczbę reprezentującą prawidłową odpowiedź, możemy wypowiedzieć ją po prostu na głos.

Federal Aviation Administration testuje oprogramowanie typu "speech recognition" udostępniające kontrolerom ruchu lotniczego łatwy dostęp do danych, dotyczących poszczególnych lotów. Advanced Automation System używa pakietu rozpoznającego mowę CADRE (Communication Actuated Data Retrieval Equipment). Po wypowiedzeniu przez kontrolera numeru lotu, na ekranie podręcznego komputera ukazuje się zestaw danych, konkretnego rejsu samolotu.

Szef firmy BNN Systems & Technologies, która opracowała CADRE powiedział, że "postęp w dziedzinie rozwiązań, które dotyczą dokładności i szybkości przetwarzania dźwięku umożliwia dzisiejszą realizację takich projektów. Kilka lat temu projekt taki jak CADRE byłby nie do pomyślenia". Jeśli badania przydatności systemu zakończą się pomyślnie, zostanie on zainstalowany na 183 lotniskach cywilnych i pewnej liczbie lotnisk wojskowych w USA.

Jednym z zastosowań systemów rozpoznawania dźwięku jest umożliwienie adaptacji komputera dla osób niepełnosprawnych. Pracownicy, którzy np. nie mogą używać rąk, dzięki aplikacjom wykorzystującym rozpoznawanie głosu potrafią wykonywać normalne prace biurowe, jak wprowadzanie danych czy redakcję tekstu. Wymaga to często przystosowania używanego w biurze oprogramowania do interfejsu głosowego. Jeszcze nie tak dawno wykonywano podobne zabiegi, aby dostosować aplikację do użycia myszy.

Dla programistów pracujących nad pakietami typu "speech recognition" kolejnym etapem pracy jest dodanie gramatyki do działania takich systemów. Pozwoli to na prawidłowe, zależące od kontekstu, zrozumienie przez komputer znaczenia ciągu wyrazów.

Możliwości takich rozwiązań, szczególnie w dziedzinach związanych z multimediami, są bardzo obiecujące. Przykładem wstępnych prób jest, opracowana pod kierunkiem National Library of Medicine i używana w trzech medycznych szkołach, metoda nauczania studentów. Firma Interactive Drama Inc. sfilmowała rozmowy z wieloma pacjentami cierpiącymi na różne dolegliwości, nagrała je na dysk optyczny po czym połączyła z systemem rozpoznawania głosu firmy Votan. Studenci korzystający z tej formy nauczania, zadając pytania symulują dialog pacjent - lekarz, przy czym prawidłowa diagnoza zależy od zadania właściwych pytań. Obecnie firma IDI pracuje nad podobną metodą nauki języków obcych.

Pojawienie się nowej generacji procesorów: Pentium, PowerPC, R4000 czy Alpha pozwala przypuszczać, że powstałe dzięki temu możliwości szybko dadzą znać o sobie także w dziedzinie rozpoznawania głosu. Po epoce interfejsu graficznego, kiedy to użytkownicy komputerów kontaktują się z nimi korzystając głównie z myszy czy piórka elektronicznego może już wkrótce nadejść era zwykłego rozmawiania z komputerem. Czekając na to - już teraz warto ćwiczyć poprawną dykcję.