Mów do mnie

W nie tak znowu odległej przyszłości urządzenia elektroniczne powszechnego użytku będzie można obsługiwać za pomocą głosu. Dzięki udziałowi Polski w projekcie Speecon będziemy mogli porozumiewać się z lodówką, telewizorem czy odkurzaczem w naszym języku.

W nie tak znowu odległej przyszłości urządzenia elektroniczne powszechnego użytku będzie można obsługiwać za pomocą głosu. Dzięki udziałowi Polski w projekcie Speecon będziemy mogli porozumiewać się z lodówką, telewizorem czy odkurzaczem w naszym języku.

Firmy, produkujące telewizory, magnetowidy, odbiorniki radiowe i magnetofony, telefony komórkowe, przenośne urządzenia komputerowe typu palmtop, systemy samochodowej nawigacji satelitarnej czy kuchenki mikrofalowe, uważają, że urządzenia te staną się atrakcyjną ofertą rynkową, gdy zostaną wyposażone w systemy rozpoznawania mowy. Zamiast długiego i męczącego wertowania skomplikowanych i niezrozumiałych często instrukcji obsługi, użytkownicy będą mogli korzystać ze wszystkich funkcji urządzenia poprzez wydawanie mu poleceń głosem. Producenci liczą, że znajdzie się duża grupa klientów, która - chcąc ułatwić sobie życie - będzie skłonna zrezygnować z przycisków, wyłączników, klawiatur i pokręteł na rzecz tzw. interfejsów głosowych.

Przeprowadzone badania marketingowe są zachęcające. Zainteresowanie tego typu rozwiązaniami ma rosnąć. Wartość nowego rynku jest oceniana na kilkadziesiąt milionów euro. Gdy pojawią się atrakcyjne propozycje, może on przyrastać w tempie 100% rocznie. Przewiduje się, że znaczny w nim udział będą miały zabawki i inne gadżety dla dzieci, reagujące na głos.

Do realizacji tych zamierzeń ma się przyczynić europejski projekt badawczo-rozwojowy Speecon. Jest on realizowany przez konsorcjum przemysłowo-naukowe pod patronatem i przy udziale finansowym Komisji Europejskiej. Wchodzi w skład programu na rzecz rozwoju technologii dla społeczeństwa informacyjnego (IST), części składowej 5. Programu Ramowego.

Uczestniczą w nim przede wszystkim producenci urządzeń elektronicznych (Ericsson, Nokia, Philips, Sony), systemów komputerowych (IBM), samochodów (DaimlerChrysler) oraz wytwórcy systemów rozpoznawania mowy (L&H). Koordynacją działań zajmuje się Siemens. Każda firma współpracuje z wybranymi uczelniami lub instytutami naukowo-badawczymi. Ze strony polskiej w programie bie- rze udział Polsko-Japońska Wyższa Szkoła Technik Komputerowych. Jej partnerem jest Sony. "Projekt ma typowo rynkowy charakter" - mówi Ryszard Gubrynowicz, koordynator prac polskiego zespołu. - "Jego efekty mają znaleźć zastosowanie w przedmiotach codziennego użytku". Komisja Europejska zdecydowała się wspierać projekt, licząc m.in. na to, że dzięki interfejsom głosowym wzrośnie np. bezpieczeństwo jazdy samochodem (w trakcie słuchania radia czy rozmów przez telefon komórkowy w razie istotnej potrzeby byłyby wysyłane komunikaty głosowe - uwaga kierowcy skupia się bowiem wówczas głównie na przekazie akustycznym).

Statystyka języka

Planowane systemy rozpoznawania mowy będą tworzone z wykorzystaniem metod statystycznych. "W latach 60. zakładano, że maszyny będą mogły rozpoznawać ludzką mowę na podstawie zbioru reguł językowych, na przykład na podstawie znajomości poszczególnych głosek" - tłumaczy Ryszard Gubrynowicz. - "Okazało się jednak, że rzeczywistość językowa jest bardziej skomplikowana niż sobie wyobrażano i prace nie przynosiły spodziewanych efektów". Przeszkodą okazał się także brak dostatecznej znajomości akustycznych aspektów mowy. Charakter wypowiedzi człowieka może zależeć od wielu zmiennych czynników. Ważne jest, kto mówi, jak mówi i gdzie mówi. Na brzmienie słów wpływa otoczenie, w którym są wypowiadane, pojawiające się w nim zakłócenia, stan emocjonalny mówiącej osoby, jej wiek, płeć czy stan zdrowia (np. chrypka).

"Postęp prac odnotowano wówczas, gdy posługując się metodami statystycznymi zaczęto tworzyć uśrednione modele jednostek językowych dla poszczególnych języków. Powstają one w wyniku analizy zarejestrowanych wypowiedzi wielu osób" - mówi Ryszard Gubrynowicz. - "Dzisiaj metoda ta jest uzna- wana za jedną z najskuteczniejszych". Aby można było z niej skorzystać, trzeba dysponować jak największym zbiorem nagranych wypowiedzi. W akustycznej bazie danych powinny znaleźć się typowe dla danego języka wyrazy, zdania czy frazy słowne wypowiedziane przez jak największą liczbę osób.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200