Szukając partnera do rozmowy

Od kilku lat trwa intensywny rozwój badań nad detekcją emocji w mowie i syntezą mowy emocjonalnej. Powstają korpusy mowy emocjonalnej oraz eksperymentalne systemy, które - na razie w ograniczony sposób - potrafią wykrywać pewne emocje w sygnale mowy i robić z tego praktyczny użytek. Istnieją syntezatory, które umożliwiają generowanie wypowiedzi "podszytych" emocjami (odsyłam np. do stron o syntezatorze emoSynhttp://www.kgw.tu-berlin.de/~felixbur/emoSyn.html oraz stron Janet Cahnhttp://xenia.media.mit.edu/~cahn/emot-speech.html).

Dominującym typem syntezy mowy jest obecnie synteza konkatenacyjna, która polega na budowaniu wypowiedzi z gotowych segmentów (np. difonów, czyli połączeń spółgłosek z samogłoskami). Jakkolwiek idea tej syntezy jest prosta, można wskazać na liczne problemy, jakie napotyka jej realizacja. Do praktycznych testów należy dysponować odpowiednio przygotowanym zbiorem difonów, opracować metodę ich płynnego łączenia, odpowiedniego "rozciągania" w czasie czy nakładania na nie "melodii" (zainteresowanych eksperymentami z tym rodzajem syntezy odsyłam do stron projektu Festivalhttp://www.speech.cs.cmu.edu/festival ).

Nieco rzadziej stosowany typ syntezy opiera się na swoistym modelowaniu akustycznym. Syntezator na podstawie strumienia danych modeluje widmo (brzmienie) kolejnych porcji (rzędu np. dziesiątek milisekund) sygnału mowy. Dane muszą pochodzić z jakiegoś modelu mowy lub z przetworzonych wzorców wypowiedzi mówcy-człowieka. Taka synteza powinna być znacznie bardziej elastyczna, lecz jest pod wieloma względami mniej wygodna w zastosowaniach. Być może za jakiś czas nastąpi jej renesans, chociaż na razie popularność zyskują prostsze metody. Należy do nich synteza oparta na korpusach, czyli nagranych i odpowiednio przygotowanych zbiorach wypowiedzi. Zadanie syntezatora sprowadza się do wyszukania w tym korpusie jak największych "klocków", z których mógłby zbudować żądaną wypowiedź. Czasami będą to tylko wyrazy, niekiedy całe frazy. Stało się to możliwe dopiero niedawno, dzięki niebywałemu rozwojowi technologii przechowywania danych.

Co dalej

Najbliższa przyszłość technologii mowy to prawdopodobnie systemy samouczące, czyli takie, które potrafią wykorzystać dane z odpowiednio przygotowanych korpusów. Można zatem zaryzykować tezę, że punkt ciężkości badań przynajmniej na jakiś czas przesunie się właśnie w stronę gromadzenia i anotacji danych (opisywania, dzielenia na segmenty itp.). Biorąc pod uwagę złożoność języka i tego, co w nim opisujemy, zadanie to wcale nie jest banalne, chociaż powstają już narzędzia anotujące teksty automatycznie. Korpusy językowe mogą stanowić nie tylko źródło wiedzy o języku, ale również o świecie pozajęzykowym. Zawierają przecież pewne treści, tworzą wirtualny świat, w którym odpowiednio przygotowany komputer może zdobywać doświadczenie.

Z czysto pragmatycznych względów mowa raczej nie stanie się powszechnym środkiem przekazywania informacji maszynom (wyobraźmy sobie biuro, w którym stu pracowników przemawia do swoich komputerów...). Jednak w wielu sytuacjach komunikacja głosowa jest świetnym rozwiązaniem. Jest to chociażby obsługa systemu nawigacji w samochodzie, sterowanie urządzeniami domowymi przez osobę niepełnosprawną ruchowo, posługiwanie się komputerem przez niewidomego, telefoniczne systemy informacyjne, "komputerowe" nauczanie języka obcego, porozumiewanie się w wirtualnej rzeczywistości gier komputerowych itd.

Tutaj istotna jest odpowiedź na pytanie, kiedy komputer przebrnie przez słynny test Turinga (dla zainteresowanych:http://cogsci.ucsd.edu/~asaygin/tt/ttest.html), tj. kiedy człowiek przestanie dostrzegać, że ma do czynienia z maszyną? Granica ta, do której zbliżyliśmy się teraz na wyciągnięcie ręki, staje się bardziej rozmyta, płynna i trudniejsza do zdefiniowania. Jej bliskość skłania nas do zastanowienia nad tym, kim sami jesteśmy, co stanowi o człowieczeństwie. Być może nie doceniamy "skutku ubocznego" rozwoju technik komputerowych, jakim jest głębsze poznanie mechanizmów rządzących umysłem człowieka, będącego przecież źródłem mowy.

Dr Maciej Karpiński jest adiunktem w Zakładzie Psycholingwistyki Instytutu Językoznawstwa Uniwersytetu im. Adama Mickiewicza w Poznaniu. Zajmuje się m.in. analizą dialogu oraz badaniami prozodii zarówno w kontekście komunikacji międzyludzkiej, jak i porozumiewania się człowieka z maszyną.


TOP 200