Mówił chłop do...

Mały Michał opowiada dowcip: "Pani mówi do służącej - powycieraj kurze. Zamiast pointy, a gdzie jest ta kura?" mówi "gdzie jest ścierka?" Chłopczyk kładzie dowcip, bo nie rozumie dwuznaczności słów. Ale już czuje, że idzie o ich grę; szybko się w tym wyćwiczy. Gdy kiedyś rzuci na powitanie swojemu komputerowi: "Cześć, stary gracie", to być może obaj się zrozumieją i pociągną dalej pogawędkę.

Komputerowe systemy przetwarzania i rozumienia języka naturalnego są jedną z pierwszych gałęzi sztucznej inteligencji. Wymownym przykładem zaprzęgnięcia maszyny cyfrowej do rozmowy z człowiekiem była słynna gra w udawanie Alana Turinga z 1950 r., w której zgadujący miał rozpoznać po udzielanych mu odpowiedziach, które z nich są zadane przez maszynę, które przez człowieka. Alan Turing założył, że komputer mógłby nawet ułożyć krótki poemat na zadany mu temat (faktycznie w scenariuszu odpowiedzi maszyna się wyłgała, mówiąc: "Nie licz na mnie"). Uważał, że do końca stulecia uda się skonstruować komputer, który będzie mógł prowadzić inteligentną, nieodróżnialną od człowieka rozmowę, czym dowiedzie, że możliwe są maszyny myślące.

Pierwsi badacze i teoretycy sztucznej inteligencji ochoczo podjęli pomysł Alana Turinga. Inspirowali ich filozofowie i językoznawcy, jak Noam Chomsky czy Jerry Fodor, którzy twierdzili, że w mózgu istnieje genetyczne podłoże wrodzonych mechanizmów językowych (rozumienia i uczenia się języka), a także to, że istnieje swoisty język myśli, który jest przetwarzaniem informacji. Język i myślenie można dzięki temu modelować i symulować na komputerach, a więc maszyny rozumiejące języki naturalne i mówiące są możliwe, gdyż sam język jest informacją do przetworzenia, a umysł - maszyną tego dokonującą.

Zaczęto tworzyć systemy przetwarzające język naturalny, przede wszystkim angielski, które miały ułatwiać człowiekowi komunikowanie się z innymi systemami wykonującymi złożone zadania (np. systemami ekspertowymi). Już przez to, że stały się one częścią interfejsu człowieka i maszyny cyfrowej, spełniły swoje zadanie - są narzędziem pracy informatyków i programistów. Ale mogą być także tematem i celem badań samych w sobie - narzędziem pracy językoznawców, psychologów, tłumaczy.

Systemy przetwarzające język dzielą się zasadniczo na dwa rodzaje - systemy rozumienia i przetwarzania języka naturalnego (w tym przekładu) w postaci tekstów pisanych oraz systemów syntezy i wytwarzania mowy i jej rozumienia (także przekładu). Każdy z nich ma swoje problemy badawcze, różne tak jak różne są własności języka pisanego i mówionego. Niemniej każdy z nich napotyka podstawowe problemy i trudności związane z dwiema grupami zagadnień - syntaktycznych i semantycznych. Są to kwestie słownictwa niezbędnego do używania przez system danego języka, przekładu terminów i fraz z tego słownika, idiomatyczności terminów, ale przede wszystkim kwestie semantyczne - znaczenia słów, ich wieloznaczności, zmienności zakresów nazw itp. Są to zasadnicze kwestie problemu, które są wciąż jeszcze głównymi trudnościami, z jakimi boryka się teoria i praktyka komputerowego przetwarzania języka i mowy.

Nowa perspektywa

Z wymienionych względów systemy te wykazują ostatnio stagnację i zbyt małe tempo rozwoju. Tak przynajmniej sądzi Nicholas Negroponte, profesor technologii mediów w MIT, dla wielu guru informatyki. "Głównym powodem małego postępu w rozpoznawaniu mowy jest brak właściwej perspektywy, nie zaś brak technologii" - stwierdza zaskakująco w swojej książce Cyfrowe życie. Jak się odnaleźć w świecie komputerów. Winne stagnacji są odziedziczone po poprzednich epokach technologicznych przyzwyczajenia, aby komputera używać jako mówiącej maszyny do pisania czy też telefonu, który miałby rozumieć swego rozmówcę niezależnie od jego akcentu. Innymi słowy, od komputerowych systemów rozumienia mowy oczekuje się takiej użyteczności i złożoności, jak od pisania na klawiaturze. A przecież to zbyt proste - stwierdza Nicholas Negroponte. Od systemów syntezy mowy należy oczekiwać czegoś znacznie bardziej złożonego i ambitnego.

Należy tylko odstąpić od trzech nierealnych wymagań, stawianych dotychczas systemom analizy i syntezy mowy: budowy bogatego słownika rzędu kilku tysięcy słów, wysokiego stopnia niezależności systemu rozpoznawania mowy od mówiącego oraz unikania zlewania się słów w wypowiedziach. Negroponte stwierdza, że wymaganie, aby system sprostał wszystkim tym warunkom w maksymalnym stopniu, jest trudne do osiągnięcia. Lepiej jest postąpić inaczej - podzielić słownictwo na podzbiory i w zależności od potrzeby wgrywać je do pamięci komputera dla wykonania konkretnego zadania. Zamiast budować jeden uniwersalny (o wysokim stopniu niezależności) system, lepiej jest powierzyć zindywidualizowane rozpoznawanie mowy peryferyjnym elementom sieci (połączyć np. komputer PC zawierający próbkę mojej mowy z głównym komputerem dokonującym syntezy mowy). Wreszcie można wytrenować neuropodobną sieć, tak aby rozpoznawała nie pojedyncze słowa, lecz całe ich ciągi - to już się udaje.

To wszystko upodobni kontakt z komputerem do naturalnej rozmowy międzyludzkiej. Komputer musi wystąpić w roli rozmówcy. Interfejs z maszyną należy tak zaprojektować, aby była to rozmowa obustronnie rozumiana na tym samym poziomie. Jak to zrobić?

Trzeba dwóch rzeczy - wytwarzania w systemach komputerowych określonej mowy (np. odtworzenia nagranego głosu) oraz syntezy mowy z liter, sylab i fonemów. Połączenie wytwarzania z syntezą daje zawsze jakąś próbkę - jest to maszynowo brzmiący zestaw terminów czy zdań, jednolity w wymowie, bez intonacji czy rytmu. Uzyskany efekt jest najczęściej mizerny - komputerowa mowa nie ma współistnienia tonu, rytmu czy intonacji syntetyzowanych (nawet bardzo perfekcyjnie) słów i całych ich fraz z ich treścią. Jak pisze ironicznie Nicholas Negroponte, przypomina to wszystko wciąż "gadaninę pijanego Szweda". Czy tak jednak musi być?

Niekoniecznie. Specjaliści od syntezy i analizy mowy muszą odstąpić tylko od usilnych, dawno zakorzenionych (lecz bezskutecznych) starań o doskonałość komputerowej mowy. Okazuje się bowiem, że syntetyzator mowy, któremu zaprogramuje się (jak wykonano to w 1978 r. w MIT) pewne przerywniki typu "aha", "aaha" lub "ahaa", zdecydowanie lepiej współpracuje z użytkownikiem, który słysząc takie odgłosy sam przestaje być spięty i zwraca się do maszyny w zrozumiały, rozpoznawalny dla niej sposób. Tak oto powstaje co najmniej namiastka potocznej konwersacji, jaka ma pierwotne miejsce między ludźmi.

Mowa ma przyszłość

Kierunek, w jakim zmierza komputerowa synteza mowy, wyznacza rosnąca w zawrotnym tempie miniaturyzacja sprzętu i nanotechnologia. Miniaturowe urządzenia wyposażone w cyfrowe zespoły nie mogą już być ani produkowane, ani sterowane ręcznie, poprzez klawiaturę, drążki sterownicze itp. Gdy mikrokomputery mieszczą się w główce szpilki, nie można nimi inaczej sterować jak głosem. Graficzny interfejs komputera powoli traci sens na rzecz mowy, której moc rozdzielcza jest zdecydowanie większa niż ręki i palców. Istnieje granica technologiczna przy ręczno-wzrokowym sterowaniu urządzeniami komputerowymi, której nie ma (tak nam się bynajmniej jeszcze teraz wydaje) w przypadku głosu.

Sterowanie głosem musi jednak opierać się na szczególnie wyrafinowanym wytwarzaniu i syntezie mowy. Urządzenia i oprogramowanie muszą uwzględniać różnorodność i zmienność mowy ludzkiej, do której wzrastające moce obliczeniowe komputerów i ich architektura przetwarzania informacji powinna się dostosowywać.

Głos użytkownika musi nie tylko sterować, ale również komunikować urządzeniom bardzo szerokie spektrum poleceń, decyzji czy pytań. Z maszyną trzeba będzie prowadzić dosłowną konwersację - ożywioną, wymowną, zmienną. Widok użytkownika mówiącego do komputera (wszelkich urządzeń weń wyposażonych) nie będzie dziwić, gdyż inaczej nie da się nimi posługiwać. Jak pisze Nicholas Negroponte: "Pomysł, że za dwadzieścia lat będziemy przemawiać do grupy 20-centymetrowych holograficznych asystentów maszerujących po naszym biurku, nie jest zbyt abstrakcyjny. Pewne jest, że głos będzie głównym kanałem łączności między nami a naszymi agentami interfejsu, czyli pośrednikami komunikacyjnymi". Dzięki intonacji głosu czy zmianie rytmu wypowiedzi będzie można zakomunikować inteligentnej maszynie zdecydowanie więcej niż za pomocą znakowego i graficznego interfejsu, tak bardzo jednoznacznego i dosłownego, a przez to ograniczonego.

Wieloznaczna mowa jest przykładem wielokanałowego medium komunikacyjnego między człowiekiem a komputerem i jest bardziej skuteczna niż jednokanałowe media, jak znaki pisane czy obrazy. W mowie potocznej, w zwykłej konwersacji między ludźmi ważną role odgrywają nie tylko dźwięki, ale również gesty i mimika twarzy. Są one bardzo wymowne, niosą ze sobą dużo informacji, nawet ich nadmiarowość (redundancja) nie zawsze jest przeszkodą i może odgrywać ważną funkcję komunikacyjną. Gdyby maszyny cyfrowe i urządzenia nimi sterowane wyposażyć w zdolność rozumienia nie tylko dźwięków mowy, lecz i gestów ludzkich interlokutorów, osiągnęłoby się ideał sztucznej syntezy mowy. Rozumienie języka naturalnego przez maszyny będzie możliwe w pełni dopiero wtedy, gdy system będzie mógł z różnych dźwięków i ich fraz oraz wieloznaczności powstałej między nimi wyróżnić sensowne całości. Wyznacznikiem takiego zaawansowania byłoby rozumienie przez system syntezy mowy podawanych mu dowcipów językowych, być może również opowiadanie własnych. Do takiej umiejętności zresztą system musiałby dojść drogą podobną (choć może skróconą) do nauki dowcipów przez małego Michała.

Dr Marek Hetmański: [email protected]

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

Computerworld.pl

Mówił chłop do...

Nowa perspektywa

Mowa ma przyszłość

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Mówił chłop do...

Nowa perspektywa

Mowa ma przyszłość

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830