Z grafiki na tekst

Najnowocześniejsze skanery z funkcją OCR rozpoznają do 4000 znaków na sekundę.

Najnowocześniejsze skanery z funkcją OCR rozpoznają do 4000 znaków na sekundę.

Coraz częściej technologię OCR wykorzystuje się w elektronicznych systemach zarządzania dokumentami. Dzięki niej możliwe jest tworzenie kompleksowych rozwiązań, które w zautomatyzowany sposób przetwarzają wszystkie dokumenty przychodzące do firmy w papierowej formie.

Wiele osób sądzi, że technologia OCR jest nowym rozwiązaniem, w każdym razie nie starszym niż kilka lat. Jednak korzenie OCR sięgają jeszcze poprzedniego stulecia. Pierwszy patent w dziedzinie optycznego rozpoznawania znaków zgłoszono już w 1809 r. Jednak przełom nastąpił dopiero w roku 1951, kiedy to David Shepard zaprezentował pierwszą maszynę zdolną zamieniać obrazy graficzne na teksty. W latach siedemdziesiątych naszego stulecia już kilkanaście firm pracowało nad przygotowaniem urządzeń OCR. Obecnie czynność ta realizowana jest najczęściej za pośrednictwem zewnętrznego oprogramowania dołączanego do skanerów.

Coraz częściej technologię OCR wykorzystuje się w elektronicznych systemach zarządzania dokumentami. Dzięki niej możliwe jest tworzenie kompleksowych rozwiązań, które w zautomatyzowany sposób przetwarzają wszystkie dokumenty przychodzące do firmy w papierowej formie. Po zeskanowaniu, czyli stworzeniu ich graficznego obrazu, wszystkie znajdujące się na nich teksty są identyfikowane i zapisywane w formie pliku tekstowego.

Dostępną obecnie technologię OCR można uznać za zaawansowaną. Za pośrednictwem specjalnych czytników OCR możliwe jest rozpoznawanie tekstów drukowanych w różnej wielkości, z użyciem różnych czcionek na drukarkach igłowych, laserowych i atramentowych, zapisanych na mikrofilmach, a także pisanych ręcznie. Profesjonalne systemy OCR potrafią "przeczytać" 2400 stron na minutę z rozpoznawaniem tekstów z prędkością 4000 znaków na sekundę. Są to dane z najbardziej zaawansowanych systemów, pracujących przy przetwarzaniu czeków oraz rejestracji płatności. Urządzenia OCR, czytające tekst maszynowy (nie pisany ręcznie), akceptują 98-99% wszystkich przetwarzanych znaków, przy czym dokładność rozpoznawania znaków wynosi 99,999% (jedna pomyłka na 100 tys. znaków).

Rozczytać bazgroły

Specjalne skanery OCR, przeznaczone wyłącznie do rozpoznawania tekstu, już podczas skanowania są szybsze i bardziej efektywne niż skanery graficzne, stosowane w połączeniu z oprogramowaniem rozpoznawania znaków. Praktycznie nie jest już problemem odczytywanie znaków z wydruków komputerowych lub maszyn do pisania. Prawdziwym wyzwaniem jest jednak rozpoznawanie pisma odręcznego, znaków, które wpisywane są przez osoby wypełniające formularze: zeznania podatkowe, informacje o zmianach adresu, czeki, recepty, ankiety itp. Dodatkową niedogodnością jest fakt, że podczas pisania ludzie posługują się różnymi przyrządami: długopisem, ołówkiem, cienkopisem, piórem, przy czym w każdym z przypadków pismo może mieć różny kolor i grubość.

Przy wypełnianiu różnego rodzaju ankiet ludzie często wykraczają poza określone pola, w które powinni wpisywać informacje. Także pisane litery zazębiają się wzajemnie, co utrudnia ich rozczytanie, a jakość i charakter pisma są na tyle słabe, że nawet człowiek ma problemy z ich odczytaniem.

Inną przeszkodą w rozpoznawaniu tekstu z takich dokumentów jest jakość samego nośnika, na którym są one dostarczane. Często papier jest wygnieciony i pozaginany, co powoduje zniekształcenia odbitych na nim czcionek lub wyblaknięcie w niektórych miejscach.

Dlatego też urządzenia OCR, rozpoznające pismo odręczne, działają mniej efektywnie niż profesjonalne skanery do rozpoznawania pisma maszynowego. Według badań statystycznych rozpoznają one 90% +/- 3% znaków znajdujących się w tekście, z czego zaledwie 1% znaków rozpoznanych jest błędnie. Wszystkie nie zidentyfikowane znaki dołączane są do tekstu w postaci graficznej, zaś operator odpowiedzialny za weryfikację końcowej postaci tekstu może je zamienić na właściwe im odpowiedniki tekstowe.

A więc jeśli dokument zawiera 1000 znaków, należy oczekiwać, że 900 z nich zostanie rozpoznanych, natomiast 100 odrzuconych (zostaną one dołączone w graficznej formie). Spośród 900 nie więcej niż 9 znaków może być niepoprawnie zinterpretowanych (zastąpionych niewłaściwą literą).

Niemniej system OCR do rozpoznawania pisma ręcznego pracuje szybciej niż człowiek i skanuje dostarczane dokumenty bez przerwy, pozostawiając jedynie nie rozpoznane znaki do analizy przez operatora.

Dwie techniki

Do rozpoznawania pisma stosuje się dwie techniki: rozpoznawanie topologiczne (Topological Recognition) oraz rozpoznawanie z zastosowaniem techniki sieci neuronowych (Neural Network Recognition).

Pierwsza z nich jest przeznaczona do rozpoznawania pisma maszynowego o regularnych kształtach. Jest zawodna, gdy skanowane znaki są zniekształcone. Metoda ta polega na porównywaniu opisu poszczególnych znaków zawartych w bazie danych programu OCR z obrazem znaków skanowanych. Choć rozpoznawanie topologiczne jest szybkie (od kilkuset do kilku tysięcy znaków na sekundę), to nie nadaje się ono do rozpoznawania pisma odręcznego.

W takim przypadku konieczne jest zastosowanie urządzeń skanujących, które do rozpoznawania znaków wykorzystują technologię sieci neuronowych. Technologia ta znana jest także pod nazwą REDE (Recognition Enhanced Data Entry). Stosujące ją urządzenia składają się zazwyczaj ze skanera i specjalnej stacji roboczej, na której pracuje oprogramowanie sieci neuronowej, wykorzystywanej do analizy podobieństwa skanowanych znaków. Obecnie stosowane skanery OCR potrafią rozpoznawać pismo ręczne z prędkością 100-250 znaków na sekundę.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200