EnFace: Łukasz Brocki...

O PROBLEMIE Z ROZPOZNANIEM JĘZYKA POLSKIEGO

Języki słowiańskie są silnie fleksyjne, a rozmaite odmiany niesłychanie zwiększają liczbę słów, które muszą być rozpoznawane przez system. Oficjalny Słownik Polskiego Scrabblisty zawiera prawie 2,5 mln słów. A wydaje się, że to angielski jest językiem poetów... Do tego wymowa polskich wyrazów może być bardzo zróżnicowana. Przykładowo słowo "sześćset" można wymówić zgodnie z pisownią lub jako "szejset". W języku polskim zachodzą też różne efekty koartykulacyjne, które utrudniają budowę systemów rozpoznawania i syntezy mowy. W gruncie rzeczy synteza mowy jest o rząd wielkości łatwiejsza niż jej rozpoznawanie. Po to zatem, aby powstał sprawny program rozpoznający polską mowę, trzeba dysponować ogromnym językowym korpusem tekstowo-akustycznym. Kiedy przygotowywaliśmy taki korpus, na którym później szkoliliśmy sieć neuronową, 20 osób pracowało wyłącznie nad odsłuchiwaniem i spisywaniem ponad 10 tys. nagranych rozmów.


TOP 200