Biometria głosowa i rozpoznawanie mowy w call center
TAGI: nuance peter martis NLU ASR Dragon TTS biometria głosowa
Autoryzacja głosem podczas kontaktu z bankiem czy dostawcą innych usług może oznaczać szybszą i wygodniejszą obsługę. Jednak nawet w skali globalnej wielu zastosowań biometrii głosowej nie ma, w Polsce ani jednego.
Najbardziej naturalnym odbiorcą tej technologii jest sektor bankowy. Jednak banki to instytucje preferujące rozwiązania sprawdzone chcące zobaczyć system biometrii w użyciu i polskie instytucje finansowe nie stanowią tu wyjątku. "Liczymy, że uda się przerwać to błędne koło" - mówi Peter Martis, dyrektor regionu CEE w Nuance Communications. Spółka prowadzi rozmowy z kilkoma bankami. Pilotażowe wdrożenie powinno pojawić się do końca roku. Pozyskanie pierwszych klientów zapewne nada rynkowi dynamiki, gdyż o samej technologii mówi się od dłuższego czasu. Zapewne zyskają także konkurenci m.in. obecny już w Polsce Algotech, stosujący technologię PerSay, czy irlandzka spółka Speechstorm z biurem w Gdańsku, która również opracowała własne rozwiązania biometryczne.
Zrozumieć mowę
Biometria głosowa to rozwiązania Nuance z półki enterprise, które firma chce w Polsce i regionie najbardziej promować. Należą do nich także systemy rozpoznawania mowy (NLU/ASR), które z powodzeniem mogą być zastosowane w call center oraz zamiany głosu na tekst, które Nuance kieruje w pierwszym rzędzie do operatorów telekomunikacyjnych w Polsce. Z takich rozwiązań korzystają w Niemczech np. Deutsche Bank (nagrodzony niedawno na konkursie Voice Day) czy Hypovereinsbank. Dla przykładu, kolejny klient, T-Mobile w Niemczech podaje, że dzięki automatyzacji zaoszczędził w ciągu roku ok. 10 mln euro, a równocześnie poprawiła się satysfakcja obsługi klienta. Jest to możliwe, bo system rozpoznawania mowy dzwoniących pozwala im zgłaszać potrzeby w "naturalnym języku", klienci rozmawiają z systemem obsługowym niemalże tak jak z "żywym agentem". Inny operator - Vodafone w Hiszpanii - również zaobserwował mierzalne oszczędności oraz znaczny wzrost wskaźnika satysfakcji klientów, w stosunku do obsługi wykorzystującej nieelastyczny IVR, wymagający oczekiwania na właściwą opcję menu i używania klawiatury przy ich wyborze. W Polsce z pomocą komend głosowych, mieszkańcy Warszawy mogą sprawdzić rozkład jazdy komunikacji miejskiej. Stołeczny Zarząd Transportu Miejskiego wdrożył autorski system firmy PrimeSpeech.
Abonenci telefonii komórkowej Orange mogą z kolei np. zarządzać pocztą głosową wydając głosowe polecenia. "Większość zastosowań rozpoznawania mowy na polskim rynku ogranicza się do stosowania mniejszego lub większego określonego zbioru słów, które na ogół powtarzamy za automatem" - zwraca uwagę Peter Martis. Nuance opracował system Open Call Steering, który rozumie wypowiadane przez użytkownika naturalnym językiem, pełnymi zdaniami polecenia - 'chcę spłacić kartę kredytową', 'chcę zasilić konto prepaid'.
Technologia rozpoznawania mowy Nuance jest wykorzystywana w Polsce w informacji pogodowej stworzonej przez spółkę AngelFund.
W Niemczech działa infolinia o połączeniach komunikacyjnych, która 'rozumie' zapytanie w rodzaju "'chcę dojechać jutro z Berlina do Warszawy pociągiem'. Podobną usługę wprowadzać będzie także Orange Slovakia. Jak deklaruje Peter Martis, dla Polski takie rozwiązanie będzie gotowe niebawem. Później wystarczy tylko znaleźć klienta. Oprócz banków czy operatorów na celowniku są także firmy świadczące usługi informacyjne, które dzięki wprowadzeniu automatu, redukują konieczność zatrudniania agentów udzielających informacji przez telefon. Nuance wdraża takie rozwiązanie dla operatora w Chorwacji. Wspomniany Speechstorm pracuje w Gdańsku nad rozwiązaniami w polskiej wersji m.in. dla sektora ubezpieczeń.
Podyktować i wysłać...
Trzecim, obok biometrii i rozpoznawania mowy, głównym elementem oferty Nuance w Polsce będzie transkrypcja głosu na tekst. Dla telekomunikacji Nuance oferuje Voicemail to text. "Poczta głosowa jest mało lubiana, niektórzy w ogóle z niej nie korzystają, często też nie odsłuchują nagranych informacji. Nunace ma rozwiązanie, które w przypadku braku możliwości połączenia, umożliwia podyktowanie wiadomości, którą system prześle w postaci wiadomości tekstowej do odbiorcy. Jeśli oddzwoni po otrzymaniu wiadomości, dla operatorów jest to źródło dodatkowego przychodu" - mówi Peter Martis. Podkreśla jednocześnie, że dla operatorów atrakcyjny jest także model, w którym spółka świadczy usługę - per transakcja. Operator płaci za każdą 'przepisaną' wiadomość, nie musi płacić ryczałtów, abonamentów, inwestować w infrastrukturę. "Operatorzy mobilni w Polsce są zainteresowani takim rozwiązaniem" - deklaruje Peter Martis.
Możliwości oprogramowania Nuance w zakresie rozumienia mowy oraz przetwarzania jej na tekst prezentują dwie aplikacje dostępne w AppStore - Dragon Search oraz Dragon Dictation. Dostępne są w amerykańskiej, brytyjskiej i niemieckiej wersji sklepu z programami Apple dla iPhone'a i iPada. Pierwsza aplikacja, Dragon Search umożliwia szukanie z pomocą głosu w bazach Google interesujących nas restauracji czy innych punktów, wystarczy podać komendę (np. sushi bar in New York) i otrzymać wynik z wskazaniem lokalizacji na mapie. Druga aplikacja to Dragon Dictation, która umożliwia nagranie tekstu, który zostanie przepisany na tekst, który można wysłać jako SMS czy opublikować na Twitterze czy Facebooku. Kolejne wersje językowe: francuska, hiszpańska i włoska planowane są na rynku z końcem lata.
W aplikacji Dragon Dictation na urządzenia mobilne przepisywanie mowy na tekst odbywa się na serwerach Nuance w USA i w Europie. Do korzystania z aplikacji potrzebne jest aktywna transmisja danych. Program wysyła jednak niewielkie paczki 3-4 KB danych, dzięki specjalnemu algorytmowi, który przesyła tylko charakterystykę głosowej wiadomości, jej matematyczny model, więc nawet połączenie GPRS może być wystarczające. Natomiast przetwarzanie mowy na tekst wymaga sporej mocy obliczeniowej i bazy językowej, która ma wiele gigabajtów, dlatego odbywa się na serwerach Jest także aplikacja na PC, która te zasoby instaluje lokalnie.
Oceń artykuł
Komentarze (2)
alejandro: dzieki za komentarz. Oczywiście weźmiemy pod rozwagę. Jednak zarzutu o monotematyczność źródeł i firm nie mogę do końca przyjąć. Jednym bardziej zależy o informowaniu szerszej publiczności, innym (chyba) mniej. Jakiś czas temu był moment, w którym naprawdę napływało do nas sporo informacji, od naprawdę wielu graczy. Trzymamy kciuki za wszystkich, także za ''nowych''. PS. Jeżeli masz dla nas ciekawe newsy - daj znać!
Artykuł technicznie poprawny - chociaż zauważam tendencję do nadużywania wciąż tych samych źródeł. Dotychczas czytając CW i ContactStandard odnosiło się wrażenie że dla autorów istnieje głównie Interactive Intelligence. Ostatnio są już dwie firmy źródłowe - InIn i Nuance. I mimo niewątpliwej PRowej inteligencji Marcina Grygielskiego i Petera Martinsa - to mam wrażenie że prasa branżowa powinna być trochę bardziej niezależna. Pod rozwagę redaktorom.
Najpopularniejsze
- Ministerstwo Cyfryzacji ma już swoją...
- Microsoft: Kinect dla Windows jeszcze w tym...
- 5 zmian, które mogą zaważyć na...
- Boni powołał członków Rady Informatyzacji
- Jakie skutki będzie miało wprowadzenie ACTA
- Koniec ery nieograniczonego dostępu do...
- Kolejne aresztowania w związku z aferą w...
- ATCA zostało wdrożone w sieci 3G Polkomtela...
- Rejestr Usług Medycznych, czyli największa...
- Nokia w trzy miesiące straciła miliard euro
Rekomendacje
Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88





