Szukając partnera do rozmowy

Stare rozwiązania i nowe perspektywy

W powszechnym odczuciu synteza mowy poczyniła znacznie większe postępy niż jej automatyczne rozpoznawanie. Różnica wynika między innymi z nieporównywalnego stopnia trudności tych zadań. Nietrudno nauczyć się kilku zdań w obcym języku, ale jeśli przyjdzie nam rozmawiać z kimś, dla kogo to język ojczysty, kto w każdej chwili może użyć prawie dowolnej konstrukcji gramatycznej i słownictwa, jesteśmy bezradni.

Rozpoznawanie sygnału mowy niesie wiele trudności. Na przykład jak podzielić sygnał na segmenty, skoro każdy mówca inaczej je tworzy? Wiele systemów wymaga zatem przejścia przez stadium uczenia się głosu użytkownika (lub użytkowników). Cóż jednak, gdy ten dostanie chrypki albo zmieni głos po urazie krtani? Przyjaciele zapewne będą go nadal rozumieli, lecz czy zrozumie go komputer?

Od kilku lat za najbardziej obiecujące rozwiązanie problemów związanych z "rozmytością" zjawisk językowych uznaje się sieci neuronowe i ukryte modele Markowa. Próbujemy zatem uciekać od jawnego analizowania struktur języka i powierzać to zadanie samouczącym się programom. Zapewne w niektórych zastosowaniach warto będzie spróbować programowania genetycznego. Być może komputer mógłby przyswajać język podobnie jak dziecko, a potem nauczać inne komputery?

Ku zrozumieniu

Załóżmy, że komputer potrafi już zidentyfikować wyrazy składające się na wypowiedź. I cóż mu po tym? Jeśli ktoś w jego pamięci zapisał wcześniej, że na daną sekwencję dźwięków ma zareagować w taki czy inny sposób, zapewne to uczyni. Jednak język naturalny to teoretycznie nieskończona liczba gramatycznych zdań i stosunkowo elastyczne zasady słowotwórstwa. By w pełni go wykorzystać, komputer musi nauczyć się rozumienia takiego języka, a nie tylko identyfikacji segmentów wypowiedzi. Konieczne jest zatem wyposażenie go w umiejętność analizy gramatycznej, w bazę wiedzy o sytuacji, której ma dotyczyć rozmowa, jak też w pewien zasób wiedzy ogólnej (by z niej korzystał, powinien dysponować swoistą inteligencją).

Rozpoznawanie mowy musi zostać zastąpione jej rozumieniem, zdolnością do przekładania słów na fakty i odnoszenia ich do posiadanego przez maszynę "obrazu świata".

Polska mowa

Dysponujemy już kilkoma komercyjnymi syntezatorami mowy polskiej (Kubuś, Lektor czy Syntalk) oraz powstałymi w kraju programami rozpoznającymi mowę, ale nasze osiągnięcia prezentują się mizernie na tle rozmachu prac podejmowanych w Niemczech, Francji czy Japonii.

Do najaktywniejszych polskich ośrodków badawczych w tej dziedzinie należą politechniki w Gdańsku, Gliwicach, Warszawie i Wrocławiu, a także AGH w Krakowie oraz Uniwersytet im. Adama Mickiewicza w Poznaniu i Politechnika Poznańska. Prowadzone na tych uczelniach prace wiążą się jednak głównie z syntezą mowy. Badania nad pełnymi systemami dialogowymi są tymczasem bardzo ograniczone.

Pewną orientację w zakresie i skali badań prowadzonych w kraju powinno dać przejrzenie baz danych na stronach projektu EUROMAP, do którego Polska właśnie przystępuje (http://www.hltcentral.org/euromap ).

W Instytucie Językoznawstwa UAM w Poznaniu realizuje się obecnie dwa duże, finansowane przez KBN, projekty związane z technologią mowy: system konkatenacyjnej syntezy mowy (projekt kierowany przez prof. Grażynę Demenko) i intonacyjna baza danych dla języka polskiego (projekt kierowany przez dr. Macieja Karpińskiego).

Język, którym posługujemy się na co dzień, pełen jest skrywanych i jawnie demonstrowanych emocji czy uczuć. Można je wyrazić, posługując się odpowiednim słownictwem, konstrukcjami gramatycznymi czy przenośniami. To jednak często nie wystarcza. Cóż efektywnie zastąpi kwaśny uśmiech czy przymrużenie oka? W szczególności zaś, co zastąpi odpowiedni "ton" wypowiedzi, który informuje słuchacza o emocjach przeżywanych przez mówcę częstokroć lepiej niż jej zawartość leksykalna? Niekiedy ów "ton" od początku sugeruje, w jaki sposób wypowiedź należy interpretować: na przykład, czy nasz rozmówca mówi serio czy może żartuje. Komputer inteligentnie posługujący się mową powinien zostać wyposażony w syntezę opartą na pojęciach, dzięki której sam będzie od podstaw i od samej "idei" począwszy budował odpowiednie wypowiedzi (nie zaś tylko przetwarzał na mówioną postać zapisany tekst).


TOP 200