Szukając partnera do rozmowy

Złożoność problemów w komunikacji głosowej człowiek - komputer sprawia, że mimo intensywnych wysiłków badawczych w tej dziedzinie, ciągle jest więcej oczekiwań i obietnic niż praktycznych zastosowań.

Złożoność problemów w komunikacji głosowej człowiek - komputer sprawia, że mimo intensywnych wysiłków badawczych w tej dziedzinie, ciągle jest więcej oczekiwań i obietnic niż praktycznych zastosowań.

Umiejętność posługiwania się językiem mówionym jest wśród ludzi normą, zaś ten, kto ma z tym trudności, naraża się na zepchnięcie na margines społeczeństwa. Dlatego powszechne i efektywne wykorzystanie języka mówionego w komunikacji międzyludzkiej pozwala przypuszczać, że w przyszłości będzie on także najlepszą formą porozumiewania się z komputerem.

Od powstania komputerów programowalnych ludzie porozumiewali się z nimi za pomocą sztucznego, ograniczonego i sformalizowanego języka. W pewnym sensie komputer działa dzięki takiemu językowi - językowi programowania. Programy wykorzystujące "linię poleceń" wymagały od użytkownika stosowania określonej składni i słownictwa.

Epoka graficznego interfejsu użytkownika wcale nas od języka nie oddaliła. Ikony możemy wszak uznać za powrót do pisma obrazkowego. Do niedawna wydawało się, że kolejnym oczywistym krokiem będzie upowszechnienie głosowego interfejsu użytkownika. Dlaczego jeszcze do tego nie doszło? Czy stanie się to w przewidywalnej przyszłości?

Tu pojawia się kluczowa kwestia: czy rzeczywiście chcemy, żeby komputery w pełni nas rozumiały, tj. żeby nie tylko identyfikowały słownikowe znaczenia wyrazów składających się na wypowiedź, ale potrafiły zinterpretować zawarte w niej zależności, jej jawną i ukrytą "między wierszami" treść, niesione przez nią uczucia i emocje?

(Zbyt) trudny język

Język naturalny ciągle zaskakuje badaczy swoją różnorodnością i stopniem skomplikowania. Próby definiowania lub formalizacji opisu niektórych oczywistych zjawisk napotykają nieoczekiwane trudności.

Chociaż wypowiedzi językowe są ciągłe z natury, to zakłada się, że na ich różnych poziomach mamy do czynienia z pewnymi minimalnymi segmentami, rodzajem ułożonych liniowo, chociaż niekiedy i hierarchicznie, "cegiełek". Są to np. fonemy: hipotetyczne, abstrakcyjne byty, które przejawiają się w realizacjach konkretnych, podobnie brzmiących dźwięków mowy. Użytkownicy danego języka operują tym samym lub bardzo podobnym systemem fonemów, dzięki czemu mogą się zrozumieć - a przynajmniej identyfikować odpowiednie segmenty w wypowiedzi współrozmówcy.

Realizacje fonemów w dużym stopniu zależą od mówcy i kontekstu. O tym pozwala przekonać się nagranie dowolnej spontanicznej wypowiedzi (wystarczy jedno zdanie) i odsłuchanie jej, fragment po fragmencie, w dowolnym edytorze dźwięków. Widać wówczas, jak trudno ustalić granice między poszczególnymi segmentami i jak bardzo różnią się realizacje tego samego fonemu w zależności od otoczenia. System rozpoznający mowę musi zatem nie tylko wyodrębniać z ciągłego sygnału mowy poszczególne segmenty, ale również doszukiwać się w nich cech, które pozwolą je odpowiednio klasyfikować. Z kolei system syntezy mowy, który skleja wypowiedź z takich elementów, powinien "wiedzieć", jak zmienia się ich brzmienie w zależności od sąsiedztwa.

Istotne sąsiedztwo

W sygnale mowy mamy do czynienia ze zjawiskami, które są widoczne na przestrzeni wielu segmentów - głosek, sylab, wyrazów czy nawet fraz. Takie zjawiska określa się mianem prozodii. Obejmuje ona m.in. rytm i melodię wypowiedzi. Melodia może czasami odgrywać zaledwie rolę "estetyczną", zaś innym razem całkowicie zmieniać znaczenie, np. wpływając na postrzeganie granic wyrazów. Prozodia może nadać wypowiedzi określoną wartość emocjonalną. To, w jaki sposób można wykorzystać prozodię, stanowi obecnie jedną z głównych trosk twórców systemów syntezy i rozpoznawania mowy. Z uwagi na złożoność problemu prace badawcze w tym obszarze potrwają jeszcze długo.

Na różnych poziomach języka, a właściwie systemu, jakim jest język, niezmiernie istotną rolę odgrywa kontekst. Można to zaobserwować już na poziomie dźwiękowym wypowiedzi. W opisanej wcześniej sytuacji stanowił on raczej dodatkowe utrudnienie przy identyfikacji poszczególnych segmentów wypowiedzi, które pod wpływem swojego otoczenia zaczynają brzmieć inaczej (dlatego że są inaczej artykułowane lub odbierane). Jednak na poziomie składni czy leksyki, kontekst zaczyna być poważnym ułatwieniem.

Większość odbieranych wypowiedzi potrafimy zrozumieć tylko dzięki "językowej domyślności". Na to, co do nas dociera i co potrafimy usłyszeć, patrzymy przez pryzmat znanych nam struktur, wypełniając domyślną treścią luki w odbieranym przekazie. Posługujemy się przy tym również wiedzą o sytuacji, o osobie rozmówcy i wielu innych, pozornie odległych faktach. To dzięki niej odpowiednio interpretujemy docierające do nas słowa. W jaki sposób tę wiedzę i umiejętności miałby zdobyć komputer?


TOP 200