Automatyczna maszynistka

Zastosowanie oprogramowania typu OCR (Optical Character Recognition) radykalnie ogranicza czasochłonne przenoszenie danych z tradycyjnych nośników na postać elektroniczną. Rosnąca popularność tego typu programów wynika z faktu, że są bardziej niezawodne i obsługują coraz więcej języków naturalnych.

Zastosowanie oprogramowania typu OCR (Optical Character Recognition) radykalnie ogranicza czasochłonne przenoszenie danych z tradycyjnych nośników na postać elektroniczną. Rosnąca popularność tego typu programów wynika z faktu, że są bardziej niezawodne i obsługują coraz więcej języków naturalnych.

Programy typu OCR (Optical Character Recognition) służą do automatycznego rozpoznawania znaków alfanumerycznych.

Przetwarzają mapy bitowe obrazów dokumentów najpierw dzieląc obraz strony na bloki tekstowe (faza rozpoznania struktury dokumentu, tzw. faza dekompozycji), a następnie określają kształty, które mają być rozpoznane jako znaki alfanumeryczne (faza rozpoznawania tekstów). W fazie dekompozycji strony rozpoznawany jest układ oryginalnego dokumentu (akapity, szpalty, marginesy, wcięcia itp.), co umożliwia odczytywanie dokumentów o skomplikowanej strukturze, zawierających obszary grafiki i tekstu. W fazie rozpoznawania podstawową techniką zastosowaną w OCR jest porównywanie map bitowych poszczególnych znaków z wzorcami, zapamiętanymi w bibliotece programu. Niekiedy stosuje się także metodę analizy cech, opartej na badaniu określonych właściwości charakterystycznych dla wybranych kształtów np. konturów liter, co umożliwia rozpoznawanie tekstu niezależne od użytego w dokumencie kroju czcionki.

Niestety, działanie oprogramowania OCR nie jest w pełni doskonałe. Dla wyraźnych druków dokładność odczytu może wynieść nawet 99%, co oznacza, że choć ponad 99 znaków na 100 będzie odczytanych poprawnie, to jeden na kilka wyrazów może być rozpoznany błędnie. A im gorszy wzorzec, tym bardziej fałszywe wyniki. Największe problemy występują podczas przetwarzania mało czytelnych faksów o niskiej rozdzielczości (np. 200 dpi).

Programy OCR umożliwiają użytkownikowi weryfikację rozpoznanych tekstów - wszystkie znaki, które nie spełniły założonych wymagań przy porównaniu z wzorcem graficznym, są specjalnie wyróżniane. Użytkownik pakietu OCR, porównując wyświetlone równocześnie, w dwóch sąsiadujących na ekranie oknach, obraz dokumentu oraz rozpoznany przez program tekst, samodzielnie wybiera właściwą wersję wyróżnionych znaków. W przypadku znaków, dla których program OCR nie może ustalić pasującego do nich wzorca, możliwe jest przejście w tryb nauczania i ich przypisanie.

Oprócz dokładności rozpoznania, istotnym czynnikiem charakteryzującym programy OCR jest ich szybkość działania. O ile zeskanowanie obrazu strony A4 na postać cyfrową może trwać 10-30 s, o tyle czas rozpoznawania tekstu może wynosić od 10 do ponad 100 s. Ponadto należy doliczyć czas niezbędny na dokonanie korekty oraz ręczne wprowadzanie źle rozpoznanych znaków.

Powiększ

Na krajowym rynku oprogramowania oferowanych jest kilka systemów OCR, które rozpoznają polskie znaki diakrytyczne. W porównaniu przetestowano działanie trzech: FineReader firmy ABBYY Software, ReadIris firmy I.R.I.S oraz Recognita Plus firmy Recognita.

Porównując właściwości programów OCR braliśmy pod uwagę: łatwość instalacji i obsługi, oferowany serwis i jakość plików pomocy, cenę programu oraz wybrane funkcje, takie jak formaty plików rozpoznawanych i zapisywanych, liczba obsługiwanych języków, rozpoznawanie dokumentów wielostronicowych, obsługa kodu kreskowego, funkcje nauczania, słowniki. Istotny wpływ na ogólną punktację miały przede wszystkim dokładność rozpoznania wzorcowych tekstów i szybkość działania.

Po podliczeniu ocen okazało się, że pierwsze miejsce zajął program OCR FineReader firmy ABBYY Software. Jest to produkt dość nowy na naszym rynku i choć nie dysponuje tak dużą liczbą różnorodnych funkcji, jak program Recognita, i nie jest tak szybki, jak ReadIris, to posiada imponującą wydajność rozpoznawania - na 1000 znaków zapisanych we wzorcowym dokumencie zaledwie 2 znaki zostały błędnie rozpoznane. Ponadto FineReader oferowany jest w postaci kilku osobnych produktów: od taniej wersji podstawowej (FineReader Standard), poprzez program Professional (który rozpoznaje formularze i może pracować w sieci w systemach klient/serwer), aż do wersji Handprint (rozpoznającej pismo ręczne blokowe).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200