Rozmowa z serwerem WWW

Niewiele osób zdaje sobie sprawę, że technologie efektywnego rozpoznawania i generowania mowy są już dostępne.

Niewiele osób zdaje sobie sprawę, że technologie efektywnego rozpoznawania i generowania mowy są już dostępne.

Ich upowszechnienie prawdopodobnie zajmie jeszcze kilka lat, gdyż wymaga wprowadzenia odpowiednich mechanizmów do systemów operacyjnych i programów użytkowych, a przede wszystkim opracowania aplikacji umożliwiających zastosowania. Popularyzacja interfejsów głosowych przyniesie rewolucję podobną do transformacji od znakowego do graficznego interfejsu użytkownika, która - warto przypomnieć - trwała kilka lat. Opinię tę zdaje się podzielać wielu potentatów rynku informatycznego, jak Intel, Microsoft lub Philips, które ostatnio rozpoczęły inwestycje w technologie rozpoznawania mowy, lub niezależne firmy zajmujące się tą dziedziną. Można więc przypuszczać, iż rozwój zastosowań nabierze tempa. Do niedawna technologie rozpoznawania mowy rozwijały przede wszystkim IBM i dwie specjalizujące się w tym mniejsze firmy Dragon Systems i Lernout & Hauspie.

Moc przyzwyczajeń

Obszar zastosowań systemów rozpoznawania mowy trudno w pełni przewidzieć, ale wydaje się ogromny. Dotychczas temat ten nie przyciągał zbyt dużej uwagi, być może dlatego że typowe marketingowe prezentacje polegały na dyktowaniu tekstów do edytora, wprowadzaniu danych do arkusza kalkulacyjnego oraz sterowaniu aplikacjami lub systemem za pomocą komend wydawanych głosem. Takie zastosowania, choć oryginalne i dla niektórych użytkowników przydatne, trudno jednak uznać za szczególnie atrakcyjne w przypadku . Ich popularyzacja napotyka m.in. silną barierę przyzwyczajeń.

Interfejsy głosowe istotnie przyspieszą już obserwowany proces integracji systemów komputerowych i telekomunikacyjnych. Ich wykorzystanie w komputerach PC należy do najmniej interesujących przykładów, chyba że jest to miniaturowy komputer nowej generacji, który można schować w kieszeni, i wyposażony w wyświetlacz noszony podobnie jak okulary, taki jak IBM VisionPad. Przekonujące natomiast przykłady zastosowań interfejsów głosowych to komputerowe centrale telefoniczne, które np. automatycznie łączą z odpowiednim pracownikiem firmy analizując takie informacje podawane przez dzwoniącego, jak numer wewnętrzny, nazwisko lub problem i temat rozmowy. Bardziej zaawansowane systemy mogą również udzielać odpowiedzi na typowe pytania, a także podawać automatycznie informacje. Zaletą takich rozwiązań jest ułatwienie dostępu i możliwość obsługi praktycznie dowolnej liczby klientów przez całą dobę, bez potrzeby zatrudniania i szkolenia dodatkowych pracowników. Interfejsy głosowe ułatwiają też dostęp do Internetu przy wykorzystaniu urządzeń przenośnych, np. telefonów komórkowych. Niedawno IBM zaprezentował tego typu rozwiązanie - użytkownik łączy się z odpowiednim serwerem WWW i uzyskuje dźwiękową informację o dostępnych usługach, np. może sprawdzić stan konta, najnowszą ofertę księgarni internetowej, rozkład połączeń lotniczych lub innych, odsłuchać treść listów elektronicznych lub przekazać wiadomość. Komunikacja ta nie wymaga posiadania komputera PC, choć telefon komórkowy z wyświetlaczem umożliwiającym przeglądanie obrazów graficznych na pewno by się przydał.

Tego typu systemy mogą być zarówno systemami ogólnie dostępnymi, jak i wewnątrzfirmowymi - pozwalającymi na połączenie z korporacyjną bazą danych.

Decydujące decyzje

Warunkiem popularyzacji systemów rozpoznawania mowy jest wzrost liczby aplikacji i zainteresowania nimi dostawców usług, ponieważ wymagają one nie tylko wyposażenia serwera WWW w odpowiednie oprogramowanie, ale również modyfikacji struktury i organizacji treści informacji.

W opinii specjalistów, już za 2-3 lata interfejsy głosowe staną się standardem. Należy podkreślić, że dostępne systemy rozpoznawania mowy są przystosowane do analizy języków angielskiego, chińskiego, niemieckiego itd., ale jeszcze nie polskiego. Czy oznacza to, że ich zastosowanie w Polsce może być znacznie opóźnione? Wydaje się, że nie należy się tego obawiać. Opracowanie polskich wersji oprogramowania nie zajmie wiele czasu, jeśli tylko pojawi się zapotrzebowanie na nie. Podstawowe mechanizmy rozpoznawania i generowania mowy są bowiem podobne.


TOP 200