Oprogramowanie OCR - nowe technologie

Oprogramowanie typu OCR (Optical Character Recognition) rozpoznające znaki alfanumeryczne na podstawie analizy treści pliku graficznego (zawierającego elektroniczny obraz dokumentu powstały np. na skutek faksowania) jest coraz bardziej popularne w wielu zastosowaniach związanych z komputerowym zarządzaniem dokumentami. Właśnie wykorzystanie możliwości oprogramowania OCR i zamiana elektronicznego obrazu dokumentu na wiele znaków ASCII w pełni pozwala na wykorzystanie możliwości skomputeryzowania archiwum, stosowanie technik filtrujących informację, przeszukiwanie treści zasobów bazy tekstowej oraz stosowanie technik hipertekstowych itp.

Oprogramowanie typu OCR (Optical Character Recognition) rozpoznające znaki alfanumeryczne na podstawie analizy treści pliku graficznego (zawierającego elektroniczny obraz dokumentu powstały np. na skutek faksowania) jest coraz bardziej popularne w wielu zastosowaniach związanych z komputerowym zarządzaniem dokumentami. Właśnie wykorzystanie możliwości oprogramowania OCR i zamiana elektronicznego obrazu dokumentu na wiele znaków ASCII w pełni pozwala na wykorzystanie możliwości skomputeryzowania archiwum, stosowanie technik filtrujących informację, przeszukiwanie treści zasobów bazy tekstowej oraz stosowanie technik hipertekstowych itp.

Niestety, warto zdać sobie sprawę z tego, że oprogramowanie OCR nie jest doskonałe. Dla bardzo wyraźnego druku dokładność odczytu może być nawet lepsza od 99%, jednak nierzadko nawet kilka procent znaków jest przez oprogramowanie OCR rozpoznane mylnie - liczba błędów bardzo zależy od jakości przetwarzanego obrazu. Wiele programów OCR pomaga użytkownikowi przy weryfikacji otrzymanej treści - wszystkie znaki, wobec których przy porównaniu z "wszytym" wzorcem graficznym program miał jakieś wątpliwości, są odpowiednio wyróżnione. Użytkownik pakietu OCR porównując wyświetlony jednocześnie na ekranie obraz dokumentu oraz rozpoznaną przez program treść może samodzielnie poprawić niewłaściwie odczytane znaki.

Zamiast rozpoznawania znaków - rozpoznawanie słów

Tymczasem na rynku pojawiło się kilka pakietów, które pojęcie rozpoznawania znaków przenoszą na rozpoznawanie całych słów i struktury dokumentów.

Firma Caere Corp. opracowała pakiet WordScan Plus 4.0, który korzysta z technologii POWR (Predictive Optical Word Recognition - rozpoznawanie słów). Oprogramowanie porównuje ze sobą obrazy całych słów, bez zbytniego wdawania się w szczegóły każdego ze znaków. Algorytm interpretacji treści słów korzysta z dopasowania ich obrazów na ściśle określonym poziomie prawdopodobieństwa. WordScan Plus 4.0 kosztuje ok. 600 USD.

Mechanizm POWR opracowała firma Calera Recognition Systems Inc. Po tym, jak w grudniu 1994 r. firmy Caere i Calera połączyły się ze sobą nowe produkty tego związku oferowane są pod szyldem firmy Caere. WordScan Plus 4.0 łączy w swoim działaniu technologię POWR oraz 32-bitową technologię rozpoznawania, dopasowującą znaki do otaczającej je treści. Zdaniem użytkowników wersja 4.0 w porównaniu z poprzednimi wersjami WordScana jest o ok. 40% dokładniejsza.

W podobny sposób działa 32-bitowy program CharacterEyes for Windows 2.5 oferowany przez firmę Ligature Inc. Po wstępnej analizie obrazu następuje dokładniejsza, która "przypatruje" się niezbyt pewnie rozpoznanym znakom alfanumerycznym w powiązaniu z otaczającą je treścią znaków i słów. Pozwala to, zdaniem użytkowników, na zwiększenie dokładności rozpoznania o całe 25%. Warto dodać, że program CharacterEyes wyposażono w technologię Accupage opracowaną przez Hewlett-Packarda, która poprawia wyrazistość rozpoznawanych znaków przez odjęcie tła (także kolorowego) od obrazu dokumentu. Jest to jednocześnie najtańszy z prezentowanej rodziny produktów - program CharacterEyes który kosztuje zaledwie 50 USD.

Produkt Xerox Corp. - pakiet TextBridge Professional Edition 3.0 - umożliwia pełny odczyt nawet bardzo skomplikowanego w swoim układzie dokumentu. Rozpoznaje szpalty tekstu i wkomponowane w treść tabele zawarte w dokumencie. Użytkownik pakietu może połączyć rozpoznane obszary tekstu czy tabel bezpośrednio z aplikacjami typu edytor tekstu, czy arkusz kalkulacyjny. Cena pakietu TextBridge wynosi 350 USD.

Adobe Systems Inc. połączyła możliwość przetwarzania elektronicznego obrazu dokumentu z wykorzystaniem oprogramowania OCR w aplikacji Acrobat Capture. Pakiet ten rozpoznaje rodzaj różnych elementów wchodzących w skład dokumentu i generuje jego dokładną kopię w formie pliku PDF (Portable Document Format). Plik taki może być oglądany zarówno na ekranie monitora (w formie pierwotnego obrazu dokumentu), jak i poddawany działaniu komputerowych technik przeszukiwania tekstu na różnych platormach sprzętowo-systemowych. Wraz z oprogramowaniem Adobe Acrobat i kompletem 41 fontów cały zestaw kosztuje ok. 3 tys USD.

Działanie programu Network Intelligent Fax Mail firmy Mitek jest z góry ukierunkowane na zastosowania związane z rozpoznawaniem treści faksów. W związku z tym jest to jedyny spośród wymienionych program, który obok rozpoznawania liter drukowanych umożliwia rozpoznanie ręcznie pisanych, tzw. drukowanych znaków (nie rozpoznawane jest, niestety, pismo całkiem odręczne).

Po analizie odebranego obrazu pliku faksowego i zamianie go na znaki alfanumeryczne program sprawdza czy dane adresata faksu są zawarte w posiadanej bazie danych. Jeżeli tak - treść faksu jest przesyłana dalej, jeżeli nie - plik trafia do skrzynki (mailbox) administratora systemu. Dla większego bezpieczeństwa treści administrator może odczytać wyłącznie nagłówek faksu. Całość w konfiguracji dla pięciu użytkowników kosztuje ok. 300 USD.

Podane właściwości i ceny opisywanych programów dotyczą rynku amerykańskiego, gdzie sprawa automatyzacji odczytu obrazów dokumentów elektronicznych jest bardzo poważnie traktowana. Przeniesienie nowych technologii rozpoznawania dokumentów na rynek polski może być coraz trudniejsze z tego względu, że odchodzi się od rozpoznawania pojedynczych znaków (co można było względnie łatwo adaptować do krajowych warunków) w kierunku rozpoznawania obrazu całych słów i nadzoru nad kontekstem otrzymywanej treści.

Nowe techniki rozpoznawania treści obrazów elektronicznych dokumentów