Serwer wszystko słyszy

Microsoft Speech Server 2004 może wywołać duże zamieszanie na niszowym rynku systemów rozpoznawania mowy.

Microsoft Speech Server 2004 może wywołać duże zamieszanie na niszowym rynku systemów rozpoznawania mowy.

Microsoft zaprezentował Speech Server - oprogramowanie do rozpoznawania mowy. "Naszym celem jest wprowadzenie tej technologii na rynek masowy" - mówi James Mastan, odpowiedzialny za marketing nowego produktu. Jak deklaruje, system ma być łatwiejszy w użyciu i tańszy niż systemy konkurencyjne. Zobaczymy. Speech Server będzie konkurować z produktami takich firm, jak IBM, Nuance Communications i ScanSoft, które od lat zajmują się opracowywaniem tego typu systemów.

Telefon na WWW

Speech Server 2004 umożliwia dodawanie funkcji rozpoznawania mowy do istniejących aplikacji WWW Microsoftu tworzonych przy użyciu kodu opartego na XML i SALT (Speech Application Language Tags) w Visual Studio .Net. W efekcie oprogramowanie to pozwala na budowę systemów obsługujących głosowe połączenia telefoniczne i jednocześnie udostępniających treści zapisane na stronach WWW.

Aplikacja pracuje pod kontrolą Windows Server 2003. Jest dostępna w wersjach Standard Edition i Enterprise Edition. Ta druga wymaga instalacji oprogramowania na oddzielnym serwerze fizycznym, a przeznaczona dla mniejszych firm Standard Edition może być uruchamiana w tym samym komputerze co serwer WWW.

Zamieszanie na rynku

Wejście Microsoftu na ten wciąż niszowy rozwijający się rynek wywoła na nim zamieszanie. Speech Server jest nowym produktem, który musi udowodnić swoje zalety w praktyce, a budowa systemu rozpoznawania mowy jest zadaniem znacznie bardziej złożonym, niż wynikałoby to z towarzyszących premierze pakietu marketingowych przechwałek. Amerykańscy analitycy giełdowi są do nowego produktu Microsoftu nastawieni raczej sceptycznie.

Art Schoeller, analityk Yankee Group, ostrzega potencjalnych klientów, iż "niebezpieczne jest założenie, że każdy programista zajmujący się tworzeniem stron WWW będzie mógł zbudować dobrą aplikację z funkcjami rozpoznawania mowy, bo wymaga to specjalistycznej wiedzy, doświadczenia i umiejętności projektowania dialogów". Z drugiej strony, jak inaczej można się tego nauczyć niż poprzez praktykę...

Steve Cramoysan, analityk Gartnera, uważa, że choć wejście Microsoftu na rynek systemów rozpoznawania rzeczywiście zmienia układ sił, to jednak pierwsza edycja Speech Server nie będzie żadnym przełomem. Dopiero druga, a być może nawet trzecia edycja ma szanse stać się poważną konkurencją dla producentów oferujących analogiczne rozwiązania już od kilku lat. Według niego względnie niska cena licencji nie musi oznaczać oszczędności w dłuższej perspektywie. Wysokie mogą się okazać bowiem koszty tworzenia i utrzymania systemu opartego na technologiach zawartych w Speech Server 2004.

Na razie bez strachu

Kevin Chatow z konkurującej z firmy Nuance Communications mówi, że "Microsoft proponuje tanią alternatywę dla profesjonalnych systemów rozpoznawania mowy, która umożliwi łatwą budowę kiepskich aplikacji". Podkreśla on jednocześnie, że oprogramowanie Nuance jest zgodne z uznanym standardem Voice-XML 2.0, a nie SALT, którego proces standaryzacji jeszcze trwa.

Zwraca też uwagę, że systemy Nuance oferują uniwersalność w postaci możliwości uruchamiania ich nie tylko na platformie Windows, ale także Solaris, a wkrótce także Linux - chodzi o nową, przygotowywaną właśnie wersję Nuance Voice Platform Release 3.0.

VoiceXML kontra SALT

VoiceXML - obszerny standard powszechnie stosowany w praktyce. Oficjalna wersja specyfikacji 2.0 zostanie opublikowana przez organizację W3C w najbliższych tygodniach.

SALT - lekki, zorientowany na konkretne zastosowania standard opisu mowy. Tu proces standaryzacji jest dopiero w początkowej fazie, ale wsparcie dla SALT jest dość duże. Założycielami organizacji SALT Forum są m.in. Cisco Systems, Intel, Microsoft, Philips Electronics, HP i Siemens.