Protokół XML w aplikacjach głosowych
- NetWorld,
- 01.03.2002
Technologia aplikacji głosowych osiągnęła stan, w którym wymiana informacji pomiędzy człowiekiem a komputerem staje się coraz bardziej podobna do prawdziwej rozmowy. Wpływa na to wiele czynników, od wykładniczego wzrostu mocy obliczeniowej po ogólny postęp w dziedzinie technologii komunikacji głosowej i rozwiązania w zakresie interfejsu użytkownika.
Technologia aplikacji głosowych osiągnęła stan, w którym wymiana informacji pomiędzy człowiekiem a komputerem staje się coraz bardziej podobna do prawdziwej rozmowy. Wpływa na to wiele czynników, od wykładniczego wzrostu mocy obliczeniowej po ogólny postęp w dziedzinie technologii komunikacji głosowej i rozwiązania w zakresie interfejsu użytkownika.
Jak to działa
VoiceXML to wyłaniający się standard dla aplikacji przekazujących mowę. Definiuje sposób konstruowania i prowadzenie dialogu pomiędzy rozmówcą a komputerem z oprogramowaniem rozpoznającym mowę i/lub z oprogramowaniem tekst-mowa (text-to-speech).
VoiceXML jest dostatecznie elastyczny, by umożliwić tworzenie treści głosowych w technologii webowej lub budowę aplikacji dla centrów rozpoznawania wywołań opartych na technice telefonicznej.
VoiceXML określa wspólny język do stosowania przy oprogramowywaniu aplikacji mowy. Wiele z tych reguł standardu VoiceXML określa się mianem etykiet (tags), jakie są używane w HTML. Etykiety wyznaczają akcje dla tworzenia dialogu pomiędzy głosem ludzkim a systemem rozpoznawania mowy.
Na przykład etykietą VoiceXML będzie <podpowiedź>, która ustawi kolejkę do jakiegoś wyjścia typu audio. Główne komponenty usług opartych na VoiceXML zawierają etykiety, formuły i reguły definiujące treść, tudzież przeglądarkę mowy niezbędną do interpretacji i prezentowania treści audio.
Podstawowymi komponentami, które definiują wejście na strony umożliwiające komunikację głosową, są słownictwo i gramatyka. Pierwszy zawiera słowa identyfikowane przez maszynę rozpoznającą mowę. Przykładowo słownictwo związane z systemem informacji lotniczej może zawierać nazwy miast i słowa kojarzące się z podróżami, takimi jak np. "wylot" i "lot". Gramatyka dostarcza struktur do identyfikacji wyrażeń znaczących. Słownictwo i gramatyka są zespolone w aplikacji mowy w celu zdefiniowania rozpoznawania mowy w zakresie sprawności, który może przyjąć zarówno mówiący, jak i procesor rozpoznawania mowy.
Projektowanie aplikacji głosowej oznacza przedstawienie danych w celu dostarczenia ich przez telefon, konstruowanie przepływu wywołania, umożliwianie podpowiedzi i uwzględnianie gramatyki. VoiceXML zapewnia wspólny zbiór reguł tworzących elastyczną podstawę, od projektanta zależy tworzenie odpowiedniego przepływu i personalizacji systemu mowy.
Dokładnie tak jak interpretuje się zawartość HTML przez przeglądarkę i prezentuje się ją przez Web, tak samo VoiceXML musi być rozumiany lub interpretowany przez przeglądarkę głosową w celu prezentacji przez telefon. Przeglądarka głosowa działa jak brama pomiędzy wywołaniem a połączeniem internetowym. Interpretuje kod VoiceXML i zarządza dialogiem pomiędzy wywołującym a zawartością VoiceXML zlokalizowaną na stronie Webowej.
Oprogramowanie przeglądarki głosowej utrzymuje również wywołania, prezentuje podpowiedzi głosowe, które są porównywalne do URL, i przesyła strony w celu zapewnienia interakcji głosowej.
Aplikacje VoiceXML używające przeglądarki mowy zapewniają elastyczność, przynosząc korzyść zarówno wywołującym, jak i dostawcom usług. Aby uzyskać pełny zakres usług, wywołujący może użyć telefonu stacjonarnego lub bezprzewodowego. Dostawcy treści mogą zlokalizować przeglądarki mowy na swoim sprzęcie lub u dostawcy usług aplikacyjnych, towarzystwa telekomunikacyjnego lub biura usługowego. Podobnie jak w obecnych modelach wizualizujących Web, wybór musi być wyważony pomiędzy łatwością implementacji, elastycznością, kosztem i innymi czynnikami.
Obecnie przedsiębiorstwa wykorzystują w biznesie zawartość Weba opartą na mowie przez zapewnienie dostępu telefonicznego i prezentację danych w interaktywnych formatach audio. Aplikacje mowy zlokalizowane w biznesowych hostach zapewniają większą skalowalność, utrzymanie i obsługę, pozwalając jednocześnie dostawcom treści skoncentrować się na kwestiach ściśle związanych z biznesem.
Na znaczenie modelu webowego języka VoiceXML wpływa szereg oczywistych i subtelnych czynników. Wielu uważa, że najbardziej widoczną siłą aplikacji VoiceXML jest szerokie poparcie ze strony przemysłu. Ostatnio znacznie poprawiono jakość zamiany tekstu pisanego na mowę, co sprawia, że tekst w formie audio można uzyskać bez kosztownego i pochłaniającego czas zapisu głosu.
Podobnie jak HTML przyczynił się do wzrostu powszechności Weba przez przyjęcie wspólnych formatów prezentacji treści, standard VoiceXML podniesie jego atrakcyjność przez upowszechnienie prezentacji mowy.