Protokół XML w aplikacjach głosowych

NetWorld,
01.03.2002

Technologia aplikacji głosowych osiągnęła stan, w którym wymiana informacji pomiędzy człowiekiem a komputerem staje się coraz bardziej podobna do prawdziwej rozmowy. Wpływa na to wiele czynników, od wykładniczego wzrostu mocy obliczeniowej po ogólny postęp w dziedzinie technologii komunikacji głosowej i rozwiązania w zakresie interfejsu użytkownika.

Jak to działa

Dotychczas rozwijane aplikacje przetwarzające mowę były oparte na oprogramowaniu dostarczanym przez kilku dostawców. Standard VoiceXML (Voice Extensible Markup Language) najprawdopodobniej zmieni ten obraz, gdyż obiecuje niezależność od dostawców w tworzeniu aplikacji głosowych (speech application).

VoiceXML to wyłaniający się standard dla aplikacji przekazujących mowę. Definiuje sposób konstruowania i prowadzenie dialogu pomiędzy rozmówcą a komputerem z oprogramowaniem rozpoznającym mowę i/lub z oprogramowaniem tekst-mowa (text-to-speech).

VoiceXML jest dostatecznie elastyczny, by umożliwić tworzenie treści głosowych w technologii webowej lub budowę aplikacji dla centrów rozpoznawania wywołań opartych na technice telefonicznej.

VoiceXML określa wspólny język do stosowania przy oprogramowywaniu aplikacji mowy. Wiele z tych reguł standardu VoiceXML określa się mianem etykiet (tags), jakie są używane w HTML. Etykiety wyznaczają akcje dla tworzenia dialogu pomiędzy głosem ludzkim a systemem rozpoznawania mowy.

Na przykład etykietą VoiceXML będzie <podpowiedź>, która ustawi kolejkę do jakiegoś wyjścia typu audio. Główne komponenty usług opartych na VoiceXML zawierają etykiety, formuły i reguły definiujące treść, tudzież przeglądarkę mowy niezbędną do interpretacji i prezentowania treści audio.

Podstawowymi komponentami, które definiują wejście na strony umożliwiające komunikację głosową, są słownictwo i gramatyka. Pierwszy zawiera słowa identyfikowane przez maszynę rozpoznającą mowę. Przykładowo słownictwo związane z systemem informacji lotniczej może zawierać nazwy miast i słowa kojarzące się z podróżami, takimi jak np. "wylot" i "lot". Gramatyka dostarcza struktur do identyfikacji wyrażeń znaczących. Słownictwo i gramatyka są zespolone w aplikacji mowy w celu zdefiniowania rozpoznawania mowy w zakresie sprawności, który może przyjąć zarówno mówiący, jak i procesor rozpoznawania mowy.

Projektowanie aplikacji głosowej oznacza przedstawienie danych w celu dostarczenia ich przez telefon, konstruowanie przepływu wywołania, umożliwianie podpowiedzi i uwzględnianie gramatyki. VoiceXML zapewnia wspólny zbiór reguł tworzących elastyczną podstawę, od projektanta zależy tworzenie odpowiedniego przepływu i personalizacji systemu mowy.

Dokładnie tak jak interpretuje się zawartość HTML przez przeglądarkę i prezentuje się ją przez Web, tak samo VoiceXML musi być rozumiany lub interpretowany przez przeglądarkę głosową w celu prezentacji przez telefon. Przeglądarka głosowa działa jak brama pomiędzy wywołaniem a połączeniem internetowym. Interpretuje kod VoiceXML i zarządza dialogiem pomiędzy wywołującym a zawartością VoiceXML zlokalizowaną na stronie Webowej.

Oprogramowanie przeglądarki głosowej utrzymuje również wywołania, prezentuje podpowiedzi głosowe, które są porównywalne do URL, i przesyła strony w celu zapewnienia interakcji głosowej.

Aplikacje VoiceXML używające przeglądarki mowy zapewniają elastyczność, przynosząc korzyść zarówno wywołującym, jak i dostawcom usług. Aby uzyskać pełny zakres usług, wywołujący może użyć telefonu stacjonarnego lub bezprzewodowego. Dostawcy treści mogą zlokalizować przeglądarki mowy na swoim sprzęcie lub u dostawcy usług aplikacyjnych, towarzystwa telekomunikacyjnego lub biura usługowego. Podobnie jak w obecnych modelach wizualizujących Web, wybór musi być wyważony pomiędzy łatwością implementacji, elastycznością, kosztem i innymi czynnikami.

Obecnie przedsiębiorstwa wykorzystują w biznesie zawartość Weba opartą na mowie przez zapewnienie dostępu telefonicznego i prezentację danych w interaktywnych formatach audio. Aplikacje mowy zlokalizowane w biznesowych hostach zapewniają większą skalowalność, utrzymanie i obsługę, pozwalając jednocześnie dostawcom treści skoncentrować się na kwestiach ściśle związanych z biznesem.

Na znaczenie modelu webowego języka VoiceXML wpływa szereg oczywistych i subtelnych czynników. Wielu uważa, że najbardziej widoczną siłą aplikacji VoiceXML jest szerokie poparcie ze strony przemysłu. Ostatnio znacznie poprawiono jakość zamiany tekstu pisanego na mowę, co sprawia, że tekst w formie audio można uzyskać bez kosztownego i pochłaniającego czas zapisu głosu.

Podobnie jak HTML przyczynił się do wzrostu powszechności Weba przez przyjęcie wspólnych formatów prezentacji treści, standard VoiceXML podniesie jego atrakcyjność przez upowszechnienie prezentacji mowy.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem IDGLicensing@theygsgroup.com