Brakujące ogniwo

Dla poprawnej interpretacji znaków bada się również kontekst geometryczny (poprzez odniesienie do wysokości sąsiednich znaków), logiczny (do detekcji, czy mamy do czynienia z literą czy cyfrą) bądź formalny (np. do stwierdzenia, że dana grupa znaków wygląda na zapis daty).

W przypadku czarno-białego pisma maszynowego (czy wydruków laserowych) dokładność rozpoznania zbliża się do 100%. "Dla nas dokładność wynika zarówno z prawidłowego rozpoznania znaków, jak i zachowania układu strony" - mówi Mark Erwich z firmy ScanSoft. Takie bowiem kryterium jest istotne przy przenoszeniu na postać elektroniczną złożonych dokumentów (np. layoutu z gazety na plik Worda).

W przypadku analizy ręcznego pisma tzw. drukowanego (wszelkiego rodzaju formularze) dokładność rozpoznania zazwyczaj bywa istotnie niższa, w praktycznych zastosowaniach osiągając ok. 97%. Eliminuje się je w procesie kilkuetapowej korekty, gdzie operuje się prawdopodobieństwem prawidłowego rozpoznania znaków. "Może wydać się to przykre, ale w OCR człowiek musi zajmować się jedynie błędami, zaś cała reszta prawidłowych odczytów pozostaje niezauważalna" - twierdzi Krzysztof Kurkowski.

Semantyczna korekta (bazująca na słownikach i kontekście wystąpienia danego znaku) ma ograniczone możliwości, stąd stosuje się często analizę statystyczną (oceniając prawdopodobieństwo wystąpienia danego znaku na podstawie danych pochodzących z analizy ilościowej słów w wielu przykładowych tekstach). Na przykład we wdrożeniu rozwiązania OCR w ZUS wykorzystano m.in. korektę słownikową, z zastosowaniem listy najbardziej popularnych nazwisk w Polsce.

Choć narzędzia do automatycznej korekty mogą ograniczyć liczbę przypadków wątpliwych o ponad 90%, to i tak pozostają elementy, którymi musi się zająć człowiek - operator systemu OCR (m.in. w przypadku pospolitych kleksów).

Ścisłe dopasowanie

W systemach masowego przetwarzania OCR najdroższym elementem jest wyposażenie sprzętowe, przede wszystkim bardzo dokładne i wydajne skanery (skaner wysokiej klasy może kosztować ponad 100 tys. zł). Kosztowne są również tzw. motory OCR (czyli moduły oprogramowania, które włącza się poprzez interfejs API do aplikacji składających się na system przetwarzania dokumentów). "Jeśli idzie o poziom cen, nie ma tu ścisłych reguł. Wszystko zależy od konkretnego wdrożenia. Poziom wyjściowy jest jednak stosunkowo dość niski, rzędu kilku tysięcy dolarów" - ocenia Michał Bańdo. Oczywiście przy tanich produktach biurkowych poziom wyjściowy jest nieporównanie niższy (kilkaset czy nawet kilkadziesiąt dolarów; często takie oprogramowanie jest dołączane do skanerów).

"W rozwiązaniach profesjonalnych bardzo pracochłonnym etapem jest parametryzacja całego systemu - takie jego dopasowanie, by działał optymalnie, tzn. z możliwie największą dokładnością" - wyjaśnia Adam Nienartowicz, dyrektor poznańskiej spółki Logos. Przygotowanie dużego systemu zajmuje 3-6 miesięcy, a do tego trzeba jeszcze miesiąca na jego dostrojenie. Należy określić również parametry skanowania, czyli przede wszystkim rozdzielczość: z jednej strony, im dokładniejszy obraz, tym większa dokładność rozpoznania; z drugiej jednak, zwiększenie obrazu znacznie wydłuża proces (dlatego w praktyce najczęściej stosuje się 300 dpi, co wystarcza, jeśli analizowane znaki nie są zbyt małe). Te przygotowania to również ustalenie właściwego trybu postępowania przy późniejszej weryfikacji pracy modułów oprogramowania zajmujących się OCR.

"We wdrożeniach systemów OCR pomaga wyraźny wzrost wiedzy wśród zamawiających dotyczącej uwarunkowań takich rozwiązań. Jest to chociażby kwestia potrzeby konsultacji czy odpowiedniego przygotowania zestandaryzowanych dokumentów" - twierdzi Marcin Stawarz.


TOP 200