Dążenie do doskonałości

Technologia syntezy mowy opracowana przez firmę IVO Software coraz doskonalej imituje naturalne ludzkie wypowiedzi.

Technologia syntezy mowy opracowana przez firmę IVO Software coraz doskonalej imituje naturalne ludzkie wypowiedzi.

Nie jestem idealna, ale mówię naprawdę dobrze" - przekonuje IVONA. "Owszem, czasem powiem coś nienaturalnie, ale można mnie nauczyć poprawnej wymowy" - dodaje. Zresztą IVONA powie dokładnie wszystko - łącznie z przekleństwami - jeśli tylko się ją o to poprosi. Można się o tym przekonać, wchodząc na stronę demonstrującą możliwości technologii syntezy mowy opracowanej przez firmę IVO Software z Gdyni.

Trwają prace nad udoskonalaniem produktu. Wkrótce zostanie rozszerzony o kolejny polski głos, tym razem żeński. Prowadzone są też prace nad wersjami w innych językach. "W pierwszej kolejności pojawi się IVONA mówiąca po angielsku" - mówi Łukasz Osowski, prezes IVO Software. "Stworzenie nowego języka do syntezatora mowy jest trudne. Wymaga dogłębnej znajomości reguł wymowy w konkretnym języku i przeniesienia ich do programu komputerowego. IVONA posiada jednak mechanizmy półautomatycznego znajdowania zasad rządzących pisownią i wymową, w związku z czym opracowanie nowego języka jest stosunkowo łatwe" - dodaje.

Oczekiwanie na narodziny

Dążenie do doskonałości

Łukasz Osowski, prezes zarządu IVO Software

Firma IVO Software powstała w 2001 r. Jej twórcom - Łukaszowi Osowskiemu i Michałowi Kaszczukowi - przyświecała idea współpracy biznesu i nauki, której owocem miało być opracowanie nowych technologii. "Pomysł prac nad technologią syntezy mowy zrodził się z zainteresowania technikami sztucznej inteligencji podczas studiów na wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej. Technologia syntezy mowy była wtedy stosunkowo mało zaawansowana, wymagała dużej interdyscyplinarnej wiedzy. Postanowiliśmy zmierzyć się z tym wyzwaniem" - wspomina Łukasz Osowski.

Pierwszym produktem był syntezator mowy Spiker. Po wprowadzeniu produktu na rynek nie zaprzestano prac rozwojowych. Firma przygotowała przez kilkunaście miesięcy pięć aktualizacji programu. Pojawił się także Speaker Mobile, syntezator mowy dla urządzeń przenośnych, który został wykorzystany w telefonach komórkowych przeznaczonych dla osób niewidomych i niedowidzących. Za to rozwiązanie firma otrzymała medal "Gdynia bez Barier". IVO Software stworzyła także przeglądarkę internetową Intelligent Web Reader, która umożliwia odczytanie zawartości stron, dając możliwość korzystania z Internetu osobom niewidomym i niedowidzącym.

Wreszcie narodziła się IVONA. Prace nad nową technologią trwały trzy lata. Jak podkreślają przedstawiciele firmy, w całości prowadzone były w Polsce. Zajmował się tym kilkuosobowy zespół. Pomimo stosunkowo niewielkiego budżetu, efekty są imponujące.

Nieustanne doskonalenie

Możliwość wygenerowania przez komputer dźwięków przypominających ludzką mowę na podstawie zapisanego tekstu nie jest nowinką ostatnich lat. Sposoby na to znane są od kilkudziesięciu lat. Polegają na przekształceniu tekstu do zapisu fonetycznego (głoskowego), a następnie generowaniu dźwięków odpowiadających tym głoskom. Bardzo trudno jest jednak uzyskać naturalne brzmienie generowanej w ten sposób mowy. Jakość poprawia się poprzez budowanie algorytmów z wykorzystaniem rozmaitych technik. W Spikerze były to np. drzewa decyzyjne, reguły logiki rozmytej, czy nawet sieci neuronowe. Ich zadaniem jest znalezienie odpowiedniej długości, wysokości i głośności każdej głoski. Celem, jaki przyświecał twórcom IVONY, było uzyskanie mowy możliwie jak najbliższej naturalnym ludzkim wypowiedziom. Autorzy chcieli, aby słuchacze nie mogli zorientować się, że słuchają syntezatora mowy, a nie nagranego głosu człowieka. IVONA miała całkowicie naturalnie wymawiać, akcentować i intonować zdania. "Opracowaliśmy szereg algorytmów pozwalających na doskonałe oznaczenie i modyfikację dźwięku. Okazało się, że musimy do syntezy używać jak najwięcej rzeczywistych nagrań lektora, gdyż sztuczne tworzenie dźwięków mowy ludzkiej nie przynosi idealnych rezultatów" - mówi Łukasz Osowski.

W ten sposób powstały algorytmy, które IVONA może inteligentnie wybierać z olbrzymiej bazy nagrań fragmentów rzeczywistych wypowiedzi lektora, modyfikować je i ostatecznie sklejać w pożądaną wypowiedź. Niezwykle przydatna okazała się technika rozpoznawania mowy. Dokładne oznaczenie nagrań lektora trwałoby bowiem kilka lat. Tymczasem zastosowanie odpowiedniego mechanizmu pozwoliło na automatyczne opisanie nagrań milisekunda po milisekundzie.

Język ojczysty

O wyjątkowym charakterze IVONY można przekonać się samodzielnie. Wystarczy porównać wypowiedzi generowane przez konkurencyjne produkty, takie jak RealSpeak amerykańskiej firmy Nuance (dawniej ScanSoft) czy francuskiej firmy Acapela Group. Obydwie technologie - co może się nawet wydać zaskakujące - oferują obsługę, obok wielu znacznie bardziej popularnych na świecie języków, również języka polskiego. Mimo to nie brzmią - choć jakość jest całkiem niezła - tak naturalnie, jak IVONA. Zabawne nawet, że zdania wypowiadane po polsku przez produkt Acapela brzmią z francuskim akcentem.

Z pewnością jednak IVO Software nie jest w stanie - przynajmniej na razie - konkurować z Nuance i Acapela Group pod względem liczby obsługiwanych języków, czy możliwych do wyboru głosów odczytujących tekst. IVONA udostępnia na razie wyłącznie głos Jacka. Ma to się wprawdzie zmienić, ale z pewnością upłynie trochę czasu, zanim pojawi się np. język portugalski czy szwedzki.

Synteza dla każdego

Rynek na produkty przekształcające tekst na mowę rośnie stosunkowo szybko. IVO Software sprzedała dotychczas kilka tysięcy licencji na oprogramowanie. Przełomem okazała się jednak dopiero IVONA. Klientami są osoby niewidome i niedowidzące (mogą uzyskać dofinansowanie na zakup tego rozwiązania z Państwowego Funduszu Rehabilitacji Osób Niepełnosprawnych), ale także firmy integrujące rozwiązania teleinformatyczne, producenci elektroniki, a nawet firmy tworzące urządzenia wojskowe.

Obecnie IVO Software koncentruje się na specjalizowanych wersjach IVONY: SDK - dla producentów sprzętu i oprogramowania, którzy chcą wbudować tę technologię we własne produkty, Serwer - do zastosowań telekomunikacyjnych i masowego przekształcania tekstu na mowę i Website - przeznaczoną dla serwisów internetowych, które mają zostać rozszerzone o funkcję ich odczytu. Powstaje również wersja oprogramowania przeznaczona dla użytkowników domowych, która ma spopularyzować technologię syntezy mowy wśród zwykłych użytkowników komputerów. Być może dzięki temu mowa ludzka stanie się interfejsem komunikacji ludzi z maszynami?

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200