Biometria głosowa i rozpoznawanie mowy w call center

Autoryzacja głosem podczas kontaktu z bankiem czy dostawcą innych usług może oznaczać szybszą i wygodniejszą obsługę. Jednak nawet w skali globalnej wielu zastosowań biometrii głosowej nie ma, w Polsce ani jednego.

Najbardziej naturalnym odbiorcą tej technologii jest sektor bankowy. Jednak banki to instytucje preferujące rozwiązania sprawdzone chcące zobaczyć system biometrii w użyciu i polskie instytucje finansowe nie stanowią tu wyjątku. "Liczymy, że uda się przerwać to błędne koło" - mówi Peter Martis, dyrektor regionu CEE w Nuance Communications. Spółka prowadzi rozmowy z kilkoma bankami. Pilotażowe wdrożenie powinno pojawić się do końca roku. Pozyskanie pierwszych klientów zapewne nada rynkowi dynamiki, gdyż o samej technologii mówi się od dłuższego czasu. Zapewne zyskają także konkurenci m.in. obecny już w Polsce Algotech, stosujący technologię PerSay, czy irlandzka spółka Speechstorm z biurem w Gdańsku, która również opracowała własne rozwiązania biometryczne.

Zrozumieć mowę

Biometria głosowa to rozwiązania Nuance z półki enterprise, które firma chce w Polsce i regionie najbardziej promować. Należą do nich także systemy rozpoznawania mowy (NLU/ASR), które z powodzeniem mogą być zastosowane w call center oraz zamiany głosu na tekst, które Nuance kieruje w pierwszym rzędzie do operatorów telekomunikacyjnych w Polsce. Z takich rozwiązań korzystają w Niemczech np. Deutsche Bank (nagrodzony niedawno na konkursie Voice Day) czy Hypovereinsbank. Dla przykładu, kolejny klient, T-Mobile w Niemczech podaje, że dzięki automatyzacji zaoszczędził w ciągu roku ok. 10 mln euro, a równocześnie poprawiła się satysfakcja obsługi klienta. Jest to możliwe, bo system rozpoznawania mowy dzwoniących pozwala im zgłaszać potrzeby w "naturalnym języku", klienci rozmawiają z systemem obsługowym niemalże tak jak z "żywym agentem". Inny operator - Vodafone w Hiszpanii - również zaobserwował mierzalne oszczędności oraz znaczny wzrost wskaźnika satysfakcji klientów, w stosunku do obsługi wykorzystującej nieelastyczny IVR, wymagający oczekiwania na właściwą opcję menu i używania klawiatury przy ich wyborze. W Polsce z pomocą komend głosowych, mieszkańcy Warszawy mogą sprawdzić rozkład jazdy komunikacji miejskiej. Stołeczny Zarząd Transportu Miejskiego wdrożył autorski system firmy PrimeSpeech.

Zobacz również:

  • Microsoft zakończył przejęcie Nuance Communications za 19,7 mld dolarów

Abonenci telefonii komórkowej Orange mogą z kolei np. zarządzać pocztą głosową wydając głosowe polecenia. "Większość zastosowań rozpoznawania mowy na polskim rynku ogranicza się do stosowania mniejszego lub większego określonego zbioru słów, które na ogół powtarzamy za automatem" - zwraca uwagę Peter Martis. Nuance opracował system Open Call Steering, który rozumie wypowiadane przez użytkownika naturalnym językiem, pełnymi zdaniami polecenia - 'chcę spłacić kartę kredytową', 'chcę zasilić konto prepaid'.

Technologia rozpoznawania mowy Nuance jest wykorzystywana w Polsce w informacji pogodowej stworzonej przez spółkę AngelFund.

W Niemczech działa infolinia o połączeniach komunikacyjnych, która 'rozumie' zapytanie w rodzaju "'chcę dojechać jutro z Berlina do Warszawy pociągiem'. Podobną usługę wprowadzać będzie także Orange Slovakia. Jak deklaruje Peter Martis, dla Polski takie rozwiązanie będzie gotowe niebawem. Później wystarczy tylko znaleźć klienta. Oprócz banków czy operatorów na celowniku są także firmy świadczące usługi informacyjne, które dzięki wprowadzeniu automatu, redukują konieczność zatrudniania agentów udzielających informacji przez telefon. Nuance wdraża takie rozwiązanie dla operatora w Chorwacji. Wspomniany Speechstorm pracuje w Gdańsku nad rozwiązaniami w polskiej wersji m.in. dla sektora ubezpieczeń.

Podyktować i wysłać...

Trzecim, obok biometrii i rozpoznawania mowy, głównym elementem oferty Nuance w Polsce będzie transkrypcja głosu na tekst. Dla telekomunikacji Nuance oferuje Voicemail to text. "Poczta głosowa jest mało lubiana, niektórzy w ogóle z niej nie korzystają, często też nie odsłuchują nagranych informacji. Nunace ma rozwiązanie, które w przypadku braku możliwości połączenia, umożliwia podyktowanie wiadomości, którą system prześle w postaci wiadomości tekstowej do odbiorcy. Jeśli oddzwoni po otrzymaniu wiadomości, dla operatorów jest to źródło dodatkowego przychodu" - mówi Peter Martis. Podkreśla jednocześnie, że dla operatorów atrakcyjny jest także model, w którym spółka świadczy usługę - per transakcja. Operator płaci za każdą 'przepisaną' wiadomość, nie musi płacić ryczałtów, abonamentów, inwestować w infrastrukturę. "Operatorzy mobilni w Polsce są zainteresowani takim rozwiązaniem" - deklaruje Peter Martis.

Możliwości oprogramowania Nuance w zakresie rozumienia mowy oraz przetwarzania jej na tekst prezentują dwie aplikacje dostępne w AppStore - Dragon Search oraz Dragon Dictation. Dostępne są w amerykańskiej, brytyjskiej i niemieckiej wersji sklepu z programami Apple dla iPhone'a i iPada. Pierwsza aplikacja, Dragon Search umożliwia szukanie z pomocą głosu w bazach Google interesujących nas restauracji czy innych punktów, wystarczy podać komendę (np. sushi bar in New York) i otrzymać wynik z wskazaniem lokalizacji na mapie. Druga aplikacja to Dragon Dictation, która umożliwia nagranie tekstu, który zostanie przepisany na tekst, który można wysłać jako SMS czy opublikować na Twitterze czy Facebooku. Kolejne wersje językowe: francuska, hiszpańska i włoska planowane są na rynku z końcem lata.

W aplikacji Dragon Dictation na urządzenia mobilne przepisywanie mowy na tekst odbywa się na serwerach Nuance w USA i w Europie. Do korzystania z aplikacji potrzebne jest aktywna transmisja danych. Program wysyła jednak niewielkie paczki 3-4 KB danych, dzięki specjalnemu algorytmowi, który przesyła tylko charakterystykę głosowej wiadomości, jej matematyczny model, więc nawet połączenie GPRS może być wystarczające. Natomiast przetwarzanie mowy na tekst wymaga sporej mocy obliczeniowej i bazy językowej, która ma wiele gigabajtów, dlatego odbywa się na serwerach Jest także aplikacja na PC, która te zasoby instaluje lokalnie.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200