IBM VoiceType Dictation

Jeśli pozytywne przyjęcie przez rynek, opracowanego na początku 1994 r. systemu rozpoznawania głosu Personal Dictation System for OS/2, świadczyć by miało o popularności tego typu produktów, to firma IBM może być pewna, że jej najnowszy pakiet typu AVR (Automatic Voice Recognition) VoiceType Dictation dla Windows będzie się cieszyć nie mniejszym powodzeniem. Produkt ten powinien być atrakcyjny zwłaszcza dla tych użytkowników, którzy przyzwyczajeni są już do pracy w środowisku interfejsów graficznych Microsoft.

Jeśli pozytywne przyjęcie przez rynek, opracowanego na początku 1994 r. systemu rozpoznawania głosu Personal Dictation System for OS/2, świadczyć by miało o popularności tego typu produktów, to firma IBM może być pewna, że jej najnowszy pakiet typu AVR (Automatic Voice Recognition) VoiceType Dictation dla Windows będzie się cieszyć nie mniejszym powodzeniem. Produkt ten powinien być atrakcyjny zwłaszcza dla tych użytkowników, którzy przyzwyczajeni są już do pracy w środowisku interfejsów graficznych Microsoft.

VoiceType Dictation rozróżnia 32 tys. angielskich słów, (rozpoznaje je z szybkością do 70 słów na minutę) i kosztuje mniej niż 1 tys. USD. Razem z pakietem dostępne są karty standardów PCMCIA oraz MCA (Micro Channel Architecture), które pozwalają stosować system AVR w komputerach przenośnych typu laptop.

Systemy AVR znajdują wielu nabywców wśród osób niepełnosprawnych. Przykładem może być David McFarland, były pracownik firmy Honeywell Inc., który przeszedł na rentę z powodu stwardnienia rozsianego. Od tego czasu próbował używać wielu różnych systemów rozpoznawania mowy i chociaż jak sam twierdzi, nie przepada za produktami firmy IBM, to VoiceType Dictation nie ma sobie równych na rynku. Twierdzi on, że IBM zaprojektował system, który oferuje rozwiązania nie spotykane w wyrobach innych producentów i jest to idealny produkt dla kogoś, kto nie może lub nie lubi wklepywać danych z klawiatury.

Pakiety AVR oferowane przez inne firmy pracują z reguły niepewnie i nie rozpoznają prawidłowo wielu słów wypowiadanych nieco odmiennie czy z innym akcentem. System firmy IBM jest produktem inteligentnym, który uczy się rozpoznawania słów wypowiadanych przez konkretnego użytkownika. System analizuje i poznaje z czasem coraz lepiej indywidualne sposoby wymawiania wielu poleceń i wyrazów. Pierwsza lekcja rozpoznawania użytkownika trwa ok. 90 minut. Przez tyle bowiem czasu należy czytać jedną z nowel M. Twaina, aby pakiet skorygował swoją pracę i przyzwyczaił się do wymowy konkretnej osoby. Taki sposób uczenia się i zapamiętywania przez system indywidualnych cech wymowy użytkownika powoduje, że program jest w stanie zrozumieć bezbłędnie ok. 97% odczytywanego na głos tekstu.

Innym nowatorskim rozwiązaniem zastosowanym przez IBM jest system, który posługując się metodami statystycznymi (i co ważne znając sposób formułowania zdań przez użytkownika) potrafi przewidzieć trzecie słowo w wypowiadanych zdaniach. Przyspiesza to znacznie proces rozpoznawania brzmiących podobnie angielskich słów, np. "to", "two" i "too".

Voice Dictation System stosowany jest często przez lekarzy. Jednym z nich jest Ted Fifer, chirurg pracujący w szpitalu w Illinois. Używa on systemu AVR do opisywania historii chorób pacjentów i komentowania na żywo przebiegu operacji. Fifer twierdzi, że system pracuje poprawnie i dlatego zamierza dokupić oferowaną przez IBM kartę PCMCIA, a po zainstalowaniu jej w laptopie stosować system AVR podczas wizyt u pacjentów w domu oraz w czasie pobytu na konsultacjach w innych szpitalach.

Ci użytkownicy, którzy zamierzają pozostać wierni 32-bitowemu systemowi operacyjnemu OS/2 wyrażają nadzieję, że IBM pracować będzie dalej nad udoskonaleniem pakietu Voice Dictation System for OS/2. Chcieliby oni mieć możliwość używania szerszego zakresu słów. Doktor Paul White, chirurg pracujący w szpitalu Beth Israel (Nowy Jork), twierdzi że wiele stosowanych obecnie w medycynie słów nie jest rozpoznawanych poprawnie przez Voice Dictation System. Prowadzi to do wolniejszej pracy systemu i wielu przekłamań. White ocenia, że system rozpoznaje poprawnie tylko ok. 90% wypowiadanych przez niego słów.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200