Opis produktów

ReadIris 5.0 Prom, FineReader 4.0, Recognita Plus 5.0

ReadIris 5.0 Prom, FineReader 4.0, Recognita Plus 5.0

ReadIris 5.0

Instalując program ReadIris 5.0 Pro, mamy do wyboru 6 języków europejskich. Niestety, w tej najnowszej wersji programu nie ma jęz. polskiego. Dopiero po zainstalowaniu programu w wersji np. angielskiej (zarówno napisy menu, jak i pliki pomocy są wtedy dostępne w tym języku), możemy - dzięki modułowi lingwistycznemu - dokonać wyboru języka przetwarzanych dokumentów. Wśród ponad 50 języków (w tym rosyjski, grecki, japoński czy chiński) dostępny jest także język polski, co sprawia, że program może rozpoznawać na przetwarzanych obrazach dokumentów diakrytyczne znaki polskie. Zainstalowanie ReadIris, podobnie jak w przypadku większości tego typu programów, umożliwia obsługę wielu modeli skanerów, w tym zgodnych ze standardem TWAIN.

Po uruchomieniu programu uaktywnia się OCR Wizard - kreator skanowania dokumentu i rozpoznania zeskanowanego tekstu. W trybie dialogu z użytkownikiem kreator pyta o źródło danych wejściowych (plik graficzny czy skaner), ustawienia skanera (jeżeli to on jest źródłem) i o język przetwarzanego dokumentu. Po sprawdzeniu wprowadzonych informacji rozpoczyna się właściwy proces skanowania, określenie struktury obrazu dokumentu i rozpoznawania tekstu. Korzystanie z kreatora OCR to doskonałe rozwiązanie dla początkujących użytkowników, ale automatyczne określenie struktury strony nie zawsze jest poprawne. Czasami wbudowana w tekst grafika składa się z liter (np. stylizowane logo firmy), co program OCR mylnie interpretuje jako blok tekstowy i nie zawsze trafnie próbuje go rozpoznać. Aby uniknąć mylnych nadinterpretacji, możliwe jest zrezygnowanie z automatycznych usług kreatora i "ręczne" ustawienie warunków skanowania, w tym także precyzyjne określenie struktury strony. Bloki tekstu czy grafiki - nawet nieforemne - można opisać przez nakładanie wielu prostokątów na siebie, a wyniki zapisać jako szablon, z którego można będzie w przyszłości skorzystać podczas rozpoznawania tekstu w podobnym dokumencie.

Po zakończeniu procesu rozpoznawania tekstu program przechodzi w tryb nauczania. W przypadkach wątpliwego rozpoznania ReadIris "pyta" użytkownika, czy właściwie zostały zinterpretowane wybrane znaki. Odpowiedź jest zapamiętywana i wprowadzana jako wzorzec. Program pozbawiony jest własnego edytora tekstu, w związku z czym następuje uruchomienie np. edytora MS Word i w nim zostaje wyświetlony rozpoznany tekst. W przypadku bardzo wyraźnie wydrukowanych dokumentów ReadIris bardzo szybko rozpoznaje zapisane teksty. Z dokumentów zawierających tekst w szpaltach z wbudowaną grafiką przenosi do edytora tekst z zachowaniem jego rozmieszczenia na stronie i prawidłowo umieszczoną grafiką. Niestety, zdecydowanie gorzej program radzi sobie z dokumentami zawierającymi tekst niewyraźny, z postrzępionymi literami o różnych grubościach. Wówczas proporcja mylnie rozpoznanych znaków dochodzi do 20%. Ta duża "wrażliwość" na jakość obrazu rozpoznawanego dokumentu jest niewątpliwą wadą programu.Program ReadIris jest najczęściej dołączanym programem klasy OCR do skanerów firmy Agfa.

FineReader 4.0

FineReader 4.0 dostępny jest na polskim rynku w dwóch wersjach: standardowej i profes-jonalnej. Oba programy rozpoznają teksty napisane w ponad 50 językach, w tym także w języku polskim. Wersja standardowa przeznaczona jest do przekształcania tekstów i tabel, a profesjonalna, także formularzy, ankiet (OMR) i kodów kreskowych, ponadto może pracować w architekturze klient/serwer.

Rozszerzeniem FineReader jest FineReader 4.0 Handprint do rozpoznawania blokowego pisma ręcznego w wielu językach, między innymi: w jęz. polskim, angielskim i rosyjskim.

Program FineReader 4.0 może pracować w trybie importu plików graficznych lub bezpośredniej współpracy ze skanerem. Współpracuje z dowolnymi skanerami wyposażonymi w sterowniki zgodne ze standardem TWAIN i może obsługiwać ich automatyczne podajniki. Zeskanowany lub wczytany obraz dokumentu poddawany jest wstępnemu przetworzeniu. Analizowana jest orientacja dokumentu, dokonywane jest też "czyszczenie" tła tekstu. Wstępnie przetworzony obraz poddawany jest dalszej obróbce: ustalany jest rodzaj układu dokumentu i jego struktura, w wyniku czego zostaje odpowiednio zakwalifikowany np. jako formularz. Następnie FineReader wyznacza obszary obrazu przeznaczone do rozpoznawania tekstu.

Po wybraniu przez użytkownika trybu pracy programu (m.in. rozpoznawanie automatyczne, druk maszynowy, wydruk z drukarki igłowej), rozpoczyna się proces rozpoznania tekstu w wydzielonych fragmentach obrazu z jednoczesnym zastosowaniem słowników (do każdego pola w dokumencie można zdefiniować osobny słownik). Proces ten przebiega w dwóch etapach. Pierwszy polega na automatycznej weryfikacji odczytu za pomocą słowników i sprawdzeniu tekstu z uwzględnieniem złożonych reguł integralności tekstów. W drugim użytkownik sam poprawia zaznaczone błędy rozpoznania - porównując wyświetlany równolegle na ekranie obraz dokumentu z rozpoznanym przez program tekstem, wybiera odpowiednią wersję wyróżnionych znaków.

Po sprawdzeniu poprawności odczytanego tekstu, można go zapisać w wybranej postaci pliku np. *.doc czy eksportować do tekstowej bazy danych. Zastosowane w tym programie algorytmy rozpoznawania i weryfikacji tekstu odznaczają się wysoką efektywnością. Podczas testów dokładność pracy FineReadera okazała się bezkonkurencyjna. Rozpoznawane przy jego użyciu teksty zawierały najmniej błędnych znaków.

Recognita Plus 5.0

Recognita to znany i ceniony od lat program klasy OCR, opracowany w węgierskiej firmie Recognita Corp. - firmie, która połączyła się kapitałowo z amerykańską firmą Caere Corp. Dzięki temu mariażowi najnowsza, piąta wersja programu Recognita zawiera aż dwa systemy OCR - Caere i Recognity - i korzysta z opracowanego w Caere modułu Scanner Manager. Inne nowości, w jakie wyposażono Recognita Plus 5.0, to obsługa kolorowych dokumentów, możliwość eliminowania skrzywień tekstu, rozpoznawanie cyrylicy. Program jest w pełni spolonizowany, wyświetla napisy menu i pliki pomocy w języku polskim, może rozpoznawać teksty aż w 114 językach. Ponadto program dysponuje możliwością rozpoznawania kodów kreskowych, a nawet pisma Braille'a. Dzięki temu niewidomi mogą korzystać z oprogramowania do przekształcania drukowanych brajlem tekstów dokumentów na zwykły tekst w postaci elektronicznej i odsłuchiwać go wykorzystując syntezator mowy.

Poważnym ograniczeniem programu jest to że, maksymalna dokładność rozpoznawania (tzw. 6 poziom dokładności uzyskiwany dzięki dwusystemowemu rozpoznawaniu tekstów) jest dostępna tylko dla 11 języków europejskich, wśród których nie ma jęz. polskiego. Recognita obsługuje kolorowe dokumenty, dzięki czemu możliwe jest skanowanie, wyświetlanie, drukowanie i zapamiętywanie stron zawierających kolorowe ilustracje. Kolorowy obraz (zeskanowany lub z dowolnego pliku) może być zapamiętywany w postaci pliku obrazu i dołączany do plików tekstowych zawierających rozpoznany tekst.

Rozwiązaniem zdecydowanie poprawiającym efektywność rozpoznawania tekstów w słabej jakości obrazach dokumentów jest zastosowanie nowego modułu eliminowania skrzywienia tekstu na stronie. Zadaniem tego modułu jest korygowanie zniekształceń powstających w procesie skanowania, kopiowania czy faksowania dokumentu.

W Recognita 5.0 wprowadzono kilka nowych elementów interfejsu. Najważniejszy z nich to Weryfikator Dynamiczny, pozwalający użytkownikom na łatwe porównywanie rezultatów rozpoznawania z obrazem strony oryginału oraz korzystanie z wzorców (szablonów) dwustronicowych do skanowania i łatwego rozpoznawania dwustronicowych formularzy czy książek o stałym układzie strony.

Sprawdzanie przez użytkownika wyników skanowania i rozpoznawania tekstu dokumentu jest często żmudne i czasochłonne. Weryfikator Dynamiczny pomaga podczas korekty rezultatów rozpoznania - śledzi pozycję edycyjną kursora w rozpoznanym tekście, a w niewielkim okienku, tuż nad pozycją edycji, stale wyświetla obraz oryginału bieżącego znaku wraz ze znakami sąsiednimi. Taka organizacja pracy zdecydowanie ułatwia i przyspiesza proces porównania rozpoznanego tekstu z obrazem oryginału.

Program Recognita Plus 5.0. dobrze sobie radzi ze skomplikowanymi stronami, zawierającymi barwne ilustracje oraz tekst wydrukowany czcionkami różnej wielkości i kroju: rozpoznawanie tekstu odbywało się szybko i z wystarczającą dokładnością. W przypadku błędnego automatycznie wykonanego określenia struktury strony można dokonywać ręcznej dekompozycji obrazu strony. Program pracuje pod kontrolą Windows 95, 98, Windows NT 4.0 i Windows 2000.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200