Rozpoznawanie tekstu drukowanego

Możliwość rozpoznania pisma (nawet tylko drukowanego) prowadzi go ogromnych oszczędności czasu i miejsca. Program Recognita GO-CR 2.0 służy do rozpoznawania tekstów drukowanych, także w języku polskim.

Możliwość rozpoznania pisma (nawet tylko drukowanego) prowadzi go ogromnych oszczędności czasu i miejsca. Program Recognita GO-CR 2.0 służy do rozpoznawania tekstów drukowanych, także w języku polskim.

Skaner staje się dopiero wtedy naprawdę użyteczny, gdy możemy go użyć do wczytywania dokumentów drukowanych, wycinków prasowych, sprawozdań z konferencji, artykułów, itp., których treść zostanie od razu rozpoznana przez komputer. 500-stronicowa książka wczytana do komputera jako tekst, zajmuje około 1.5 MB, czyli zmieści się na standardowej dyskietce 3,5 cala, podczas gdy w postaci graficznej zajmie około 500 MB. Oszczędność pamięci jest więc ogromna, zwłaszcza w przypadku dokumentów nie zawierających ilustracji i innych elementów graficznych.

W Polsce dostępna jest już, częściowo spolonizowana, wersja znakomitego węgierskiego programu do rozpoznawania tekstów drukowanych Recognita GO-CR 2.0. Program pracuje w środowisku Windows i jest przystosowany do korzystania m. in. ze skanera ręcznego Logitech Scanman 32 lub Scanman 256.

Instalacja

Instalacja programu nie nastręcza trudności. Podobnie jak w przypadku instalacji wielu programów Windows, należy wywołać polecenia File Run A:\INSTALL z menu File menedżera programów lub menedżera plików.

W trakcie instalacji możliwe jest wybranie języka komunikatów programu instalacyjnego (angielski, niemiecki, francuski, hiszpański i węgierski). Należy także wybrać skaner (w moim przypadku był to skaner Scanman 256, używany w trybie monochromatycznym). Następnie - podajemy nazwę katalogu programu i określamy, z jakiego programu Windows zechcemy wywoływać skanowanie dokumentu. Na rys. 1 pokazano zmodyfikowane menu kontrolne programu Word. Możemy więc, bezpośrednio z tego programu wywołać: operację bezpośredniego rozpoznawania dokumentu za pomocą skanera, rozpoznawanie tekstu na podstawie mapy bitowej, uzyskanej po uprzednim wskanowaniu lub zmianę parametrów skanowania. Z tej opcji można korzystać np. w programie Write lub Word.

Program zakłada na dysku stałym katalog o podanej nazwie, kopiuje do niego wszystkie pliki, zakłada grupę GO-CR 2.0 w Windows i modyfikuje plik systemowy SYSTEM.INI. Program zajmuje tylko około 700 KB na dysku, co jest miłym zaskoczeniem, jeśli wziąć pod uwagę, że większość współczesnych programów do Windows, zajmuje od kilku do kilkunastu megabajtów.

W zasadzie program powinien już nadawać się do pracy. Tymczasem spotkało mnie pierwsze rozczarowanie. Przy próbie uruchomienia programu pojawia się komunikat, że skaner nie jest zainstalowany. Przejrzenie dokumentacji pisanej i pliku READ.ME pokazuje, że przed uruchomieniem programu niezbędne jest umieszczenie w pliku CONFIG.SYS sterownika

DEVICE=C:\GOCR\HHSCAND.SYS

lub

DEVICEHIGH=C:\GOCR\HHSCAND.SYS

dostarczanego ze skanerem. Trzeba go oczywiście najpierw przekopiować z dyskietki dostarczonej ze skanerem do katalogu wskazanego w poleceniu DEVICE, np. C:\GOCR. Ponieważ program instalacyjny nie modyfikuje pliku CONFIG.SYS, musimy wykonać tę operację ręcznie. Po wystartowaniu komputera na nowo, można przystąpić do pracy.

Rozpoznawanie tekstu angielskiego

Rozpoznawanie tekstu angielskiego jest łatwe, gdyż w zasadzie nie zawiera on liter akcentowanych. Po wywołaniu programu, pojawia się okno (rys. 2), w którym znajdują się ikona pustej na razie mapy bitowej (zeskanowany obraz strony) i ikona pustego okienka tekstowego. Naciskając odpowiednie narzędzie z listwy, znajdującej się po lewej

stronie ekranu, wywołujemy operację skanowania, skanowania z rozpoznawaniem lub rozpoznawania na podstawie poprzednio wczytanej (wskanowanej) mapy bitowej strony.

Program rozpoznaje litery w popularnych fontach (np. Times i Helvetica) w rozmiarze do 24 punktów. Na rys. 3 pokazano wskanowaną i rozpoznaną przez program stronicę książki. Z powodu trudności w precyzyjnym prowadzeniu skanera po powierzchni stronicy grubej książki, mapa bitowa jest nieco pochylona w prawo. Nie przeszkodziło to w poprawnym rozpoznaniu tekstu. Na końcu wiersza widać znaki tyldy ("falka") wskazujące, że program nie rozpoznał niektórych znaków. Wynikało to jednak raczej z faktu, że długość wiersza była trochę większa niż szerokość skanowania, niż z niemożności rozpoznania znaków.

Program znacznie gorzej radzi sobie z pochylonymi krojami czcionek oraz z tekstami z maszyny do pisania i drukarki (nawet laserowej). Im lepsza rozdzielczość dokumentu wejściowego, tym większa szansa poprawnego rozpoznania. Skanować należy z maksymalną rozdzielczością używanego skanera, ustawionego na tryb monochromatyczny. Gdy przez pewien czas używałem programu FotoTouch w celu wskanowania zdjęć w 256 poziomach szarości i zapomniałem przestawić go w tryb monochromatyczny, program GO-CR dawał mi tajemniczy komunikat: "Options not adequate for reading". Żadne przestawianie opcji nie dawało rezultatów, dopiero przestawienie przełącznika na skanerze pozwoliło na uruchomienie programu.

Skanowanie tekstu polskiego

Wersja ta jest częściowo spolonizowana na tyle, że jest w stanie rozpoznawać polskie litery, gdyż rozpoznaje wszystkie znaki umieszczone w stronie kodowej 852. W celu ustawienia opcji rozpoznawania polskiego tekstu, należy w oknie dialogowym menu Options (rys. 4) załączyć wszystkie akcenty (Enable All Accents) i wybrać stronę kodową 852 lub Polish Mazowia. Opcja Eliminate Soft CR służy do tworzenia tekstu ciągłego, bez wstawiania końca wiersza tam, gdzie występuje on w oryginale. W efekcie powstają nieco dłuższe wiersze, ale zostaną usunięte podziały wyrazów na końcu wiersza.

Na rys. 5 pokazano część mapy bitowej stronicy książki i rozpoznany tekst. (Mam nadzieję, że Niezależna Oficyna Wydawnicza NOWA i Pan Tadeusz Konwicki wybaczą mi, że bez ich wiedzy posłużyłem się książką "Czytadło".) Na rysunku widać ponadto tablicę zawierającą pełny zestaw znaków strony kodowej 852, co ułatwia poprawianie błędów rozpoznania. Tupnięcie myszą na znaku w tablicy powoduje wstawienie go w miejscu, gdzie znajduje się kursor w tekście. Jak widać z rysunku tekst został rozpoznany bezbłędnie, mimo nieprecyzyjnego prowadzenia skanera.

Polski tekst zapisywany jest w kodach stronicy 852 lub w kodach Mazowii, co utrudnia jego obróbkę za pomocą programów Windows, jeśli nie posiadamy programu pozwalającego na import takiego tekstu i przetworzenie go na stronę kodową 1250, stosowaną w Windows dla Europy środkowo - wschodniej.

Komu polecać program Recognita GO-CR 2.0?

Myślę, że jest to świetne narzędzie pracy dla ludzi piszących i zbierających materiały źródłowe do działalności naukowej i publicystycznej. Zamiast pracowicie przepisywać cytaty, można je wskanować. Bezbłędny wynik otrzymamy znacznie szybciej. Z moich doświadczeń wynika, że program świetnie radzi sobie z tekstami starannie wydrukowanymi, bez plam i kolorowego tła. Gorzej z wycinkami gazetowymi, starodrukami, fontami ozdobnymi i o małym rozmiarze.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200