Portale głosowe

Głosowa konwersja tekstu TTS

Portale głosowe

Elementarne jednostki językowe rozpoznawania mowy ASR

Nowym elementem w automatycznym rozpoznawaniu informacji, stanowiącym rozszerzenie procedur IVR, jest funkcja komputerowego czytania tekstów TTS (Text to Speech), coraz częściej stosowana do szybkiej interpretacji informacji tekstowych i drukowanych.

Wprowadzenie technologii konwersji TTS podczas dialogu użytkownika z interaktywnym systemem (Call Center, Contact Center, Data Center, Internet Data Center) czy przeglądania i czytania portali znacznie skraca czas uzyskiwania potrzebnej informacji, a sam dialog staje się bardziej naturalny.

Funkcja komputerowego czytania tekstów staje się przydatna w systemach bankowych, w sektorze telekomunikacyjnym i w transporcie, a także podczas przeszukiwania portali internetowych. Dobrym przykładem aplikacji tej usługi jest możliwość odczytywania poczty elektronicznej przez telefon, gdy użytkownik jest pozbawiony w danym momencie możliwości przeglądania zawartości swojej skrzynki pocztowej.

Automatyczne rozpoznawanie mowy ASR

Portale głosowe

Rys 1. Procesy rozpoznawania mowy

Prowadzenie dialogu za pomocą klawiatury tonowej, zarówno z tradycyjnym systemem telefonii komputerowej CTI, jak i w internetowych formach komunikacji - za pomocą klawiatury komputerowej, jest co najmniej uciążliwe. Pokonywanie wielu proponowanych przez systemy komputerowe rozgałęzień algorytmicznych czy zawiłych opcji telefonii komputerowej CTI niewątpliwie zmniejsza komfort korzystania z usług teleinformatycznych za pomocą klawiatury.

Aby rozwiązać ten problem, szereg dużych firm teleinformatycznych podjęło badania podstawowe, eliminujące korzystanie z klawiatury przyciskowej lub komputerowej i zastąpienie jej wyłącznie mową, przetwarzaną za pośrednictwem nowej generacji technologii automatycznego rozpoznawania mowy - ASR (Automatic Speech Recognition).

Nawet teoretycznie proces komputerowego rozpoznawania i syntezy mowy nie należy do zagadnień łatwych. Podstawowym wyróżnikiem systemu automatycznego rozpoznawania mowy jest przyjęcie jednego z dwóch kryteriów poszukiwań: albo interpretacja izolowanych, pojedynczych słów, albo bardziej zaawansowany sposób rozpoznawania mowy ciągłej. W systemach z rozpoznawaniem izolowanych słów poszczególne interpretowane słowa muszą być rozdzielone pauzą, a ich niewielki zbiór zwykle nie przekracza kilkunastu lub najwyżej kilkudziesięciu. Najczęściej reprezentują one cyfry, pojedyncze rozkazy, hasła czy operacje (matematyczne, handlowe, produkcyjne, inne). Dotychczas stosowane proste metody rozpoznawania (ASR) interpretują jedynie pojedyncze słowa bądź niektóre zwroty językowe (frazy) wypowiadane przez człowieka. Do często używanych należą komunikaty zawierające poszczególne cyfry, krótkie polecenia albo ciągi izolowanych cyfr i słów, związanych z numerem karty kredytowej, hasłem czy kodem klienta.

W rozpoznawaniu ciągłym dochodzi dodatkowo trudność w określaniu początku i końca zdania, kontekstu słów, fraz językowych, rozpoznawania ciągu słów izolowanych, pojedynczych słów lub innych, jeszcze mniejszych jednostek elementarnych języka mówionego. W celu bardziej kompleksowego rozwiązania tego problemu przez komputery opracowano statystyczne metody rozpoznawania głosu - oparte na podstawach matematycznych - dające się w prosty sposób adaptować do aplikacji użytkowych. Statystyczna koncepcja takiego rozpoznawania polega na wyszukaniu określonych, wcześniej zarejestrowanych i wyizolowanych, elementarnych składników mowy, których ciągi z największym prawdopodobieństwem odpowiadają odbieranym (odsłuchanym) przez odbiorcę słowom.

Trudności te powodują, że jedynie najbardziej nowoczesne rozwiązania pozwalają na rozpoznawanie mowy ciągłej, oparte na uprzednio zdefiniowanych elementarnych jednostkach językowych, takich jak alofony, fonemy, diafony, sylaby lub nawet krótkie kompletne słowa. Takie podejście do problemu umożliwia kontekstowe rozpoznawanie mowy bądź syntetyczne tworzenie na tej podstawie nowych wyrazów, fraz i zwrotów, także pełnych poleceń sterujących.


TOP 200