EnFace: Łukasz Brocki...

... założyciel firmy Primespeech rozwijającej oprogramowanie umożliwiające rozpoznawanie mowy.

O NISZY DLA INTERFEJSU GŁOSOWEGO

Głos jest najpowszechniej używanym nośnikiem komunikatów, a telefon - najczęściej używanym kanałem komunikacyjnym na świecie. Ludzie nie zawsze mają pod ręką komputer z dostępem do Internetu, lecz prawie zawsze telefon. To właśnie dlatego przybywa coraz więcej infolinii i call center, a telekomunikacja jest naturalnym rynkiem dla systemów rozpoznawania mowy.

O ZASTOSOWANIACH SYSTEMÓW ROZPOZNAWANIA MOWY

Systemy tego typu są czymś stosunkowo nowym i - szczególnie w Polsce - obecnym od niedawna. Jedną z naszych sztandarowych implementacji jest telefoniczny portal głosowy przeznaczony dla klientów warszawskiego Zarządu Transportu Miejskiego. Na początku może się wydawać, że system tonowy byłby w stanie spełnić te same funkcje, ale szybko okazuje się, że nie poradziłby sobie np. z podaniem rozkładu jazdy na każdym z kilku tysięcy przystanków. Dzięki systemowi rozpoznawania mowy korporacje taksówkowe mogą zautomatyzować przyjmowanie zamówień, a kina pozwolić potencjalnym widzom na szybkie zorientowanie się przez telefon w repertuarze, bez konieczności wysłuchiwania listy czasem kilkudziesięciu wyświetlanych w ciągu tygodnia filmów. Dzięki takim systemom pracownicy międzynarodowych korporacji nie muszą wywieszać nad biurkami listy wszystkich telefonów wewnętrznych, wystarczy że wyraźnie wymówią nazwisko osoby, do której chcą się dodzwonić. Infolinie podające informacje teleadresowe mogą zostać zautomatyzowane, a żywi konsultanci obsługiwać jedynie najtrudniejsze przypadki.

O AUTOMATYCZNEJ TRANSKRYPCJI I PLANACH NA PRZYSZŁOŚĆ

Portal głosowy i ASR Server to tak naprawdę dwa z kilku produktów, nad którymi pracujemy. Następnym ważnym tematem jest oprogramowanie umożliwiające profesjonalną transkrypcję. Chodzi o systemy automatyzujące pracę ludzi, którzy zmuszeni są pisać lub przepisywać duże ilości tekstów, pracując np. w sądownictwie czy ochronie zdrowia. Systemy takie pozwoliłyby również na napisanie listu elektronicznego głosem. Automatyczna transkrypcja ma jednak o wiele więcej zastosowań: umożliwia zapis przebiegu konferencji, audycji radiowych i telewizyjnych, automatyczną aktualizację archiwów audio. Co więcej, otwiera nowe możliwości pełnotekstowego przeszukiwania owych archiwów, do tej pory kategoryzowanych jedynie za pomocą wątłych metadanych. Trudno powiedzieć, kiedy ten produkt uda nam się wypuścić na rynek. Możliwe, że pierwsza wersja pojawi się już w tym roku, chociaż bardziej realistycznie patrząc oczekiwałbym jej w perspektywie dwóch lat. Tego rodzaju systemy istnieją już od kilku lat, ale zostały opracowane dla języków bardziej rozpowszechnionych na świecie niż polski.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200