Komputerowe rozpoznawanie mowy

Zapewne jednym z największych hitów targów CeBIT '94 był system rozpoznawania mowy prezentowany w stoisku IBM. Informacje o tym systemie pojawiały się w prasie fachowej już od pewnego czasu. Przedstawiany wcześniej system wymagał jednak do poprawnego działania mocnej stacji roboczej RS/6000. Pokazywany system działa na komputerze PS/2 ValuePoint, z systemem OS/2, wyposażonym w specjalną kartę rozpoznawania mowy.

Zapewne jednym z największych hitów targów CeBIT '94 był system rozpoznawania mowy prezentowany w stoisku IBM. Informacje o tym systemie pojawiały się w prasie fachowej już od pewnego czasu. Przedstawiany wcześniej system wymagał jednak do poprawnego działania mocnej stacji roboczej RS/6000. Pokazywany system działa na komputerze PS/2 ValuePoint, z systemem OS/2, wyposażonym w specjalną kartę rozpoznawania mowy.

Jak działa?

W trakcie dyktowania tekstu do specjalnego mikrofonu zamocowanego na wygodnym uchwycie na głowie, system analizuje i pokazuje na ekranie dyktowany tekst. Tempo dyktowania może być bardzo duże, gdyż system jest w stanie rozpoznawać 70-100 słów angielskich na minutę! Trzeba jednak pamiętać, że słowa angielskie są krótsze niż polskie. Daje to jednak i tak tempo wynoszące ok. 400 zn./min, podczas gdy rekordzistki pisania na maszynie osiągają szybkość ok. 600 zn./min. Tempo jest więc imponujące.

System korzysta ze statystycznego modelu używania słów w języku angielskim w celu polepszenia jakości rozpoznania. Jest więc w stanie rozróżnić jednakowo brzmiące wyrazy to, too czy two albo our od hour. Poprawnie rozpoznane wyrazy wpisywane są do używanego edytora bez błędów, nie ma więc potrzeby korzystania z modułu poprawiania pisowni. Zresztą w każdej chwili istnieje możliwość przerwania dyktowania i dokonania ręcznych poprawek lub dopisania części tekstu, gdyż system dyktowania wpisuje tekst bezpośrednio do naszego ulubionego edytora (pod warunkiem, że działa pod OS/2).

Dodatkowe możliwości systemu polegają na automatyzacji dopisywania standardowych fraz, zdań czy całych akapitów za pomocą jednego polecenia głosowego.

Słowniki

Standardowo system jest wyposażony w słownik 32 tys. wyrazów angielskich do ogólnego użytku. Dla wielu zastosowań (lekarze dyktujący opis choroby, prawnicy przygotowujący dokumenty, dziennikarze) można dokupić słownik związany z daną dziedziną, ułatwiający rozpoznawanie specjalistycznego tekstu.

Czy będzie po polsku?

Sądzę, że na razie nie mamy co prędko oczekiwać takiego systemu przystosowanego do języka polskiego, odbiegającego znacznie od języka angielskiego nie tylko w sposobie wymowy, ale także trudniejszego do rozpoznawania z powodu swej fleksyjności.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200