Rozpoznawanie na dużą skalę

Dodatkowa opcja kserokopiarki

Compact PDF

Dość ciekawym formatem niektórych rozwiązań skanujących z opcją OCR jest Compact PDF, który zapewnia znacznie lepszą kompresję pliku dzięki dekompozycji obiektów i kompresji w pojedynczym strumieniu, wsparciu dla bardzo sprawnego standardu kompresji Bzip2 (popularnego w systemach typu UNIX) oraz nieszyfrowanym czcionkom Type 1. W ten sposób oszczędza się bardzo wiele miejsca na dyskach, gdyż ten sam dokument, zajmujący około 12 MB w formacie PDF 1.5, zapisany jako Compact PDF zajmie jedynie 4,4 MB. PDF Compact może zawierać warstwę tekstową, będzie indeksowany przez zgodne motory wyszukiwarek w systemach obiegu dokumentów.

OCR może być wbudowany w urządzenie wielofunkcyjne. Typowo jest to drukarka laserowa oraz skaner, czasami może także odbierać faksy i dokonywać ich obróbki. Urządzenia takie potrafią umieścić skanowane lub odbierane dokumenty we właściwym folderze (SMB/CIFS, FTP) bądź wysłać pocztą elektroniczną. Motor OCR może być częścią firmware, przygotowującą przeszukiwalny PDF natychmiast po jego zeskanowaniu. Dla firmy, która posiada własną infrastrukturę obiegu dokumentów (na przykład istniejący portal intranetowy, firmowe archiwum itd.), jest to najprostsze w implementacji rozwiązanie. Nie wymaga żadnego serwera, dobrze integruje się z firmowymi zasobami, potrafi od razu publikować skanowany plik, wspiera praktycznie wszystkie najważniejsze sposoby uwierzytelnienia.

Zakup wielofunkcyjnego urządzenia wyposażonego w dobry OCR może być bardzo korzystną inwestycją, gdyż zazwyczaj zawiera ono dobry i szybki skaner, jest bardzo trwałe i proste w obsłudze. Nie wymaga również osobnego komputera, nie przywiązuje licencji do konkretnej stacji roboczej, bo najczęściej jest licencjonowana na konkretne urządzenie. Odpada wówczas także problem zarządzania kilkoma urządzeniami biurkowymi oraz licencjami na oprogramowanie OCR. Dodatkowo moduł OCR wbudowany w urządzenie, nie wymaga wsparcia technicznego na stacjach roboczych ani instalacji żadnego oprogramowania, poza - być może - czytnikiem PDF. Wadą jest koszt samego urządzenia lub licencji na ten moduł.

Rozpoznawać może także serwer

Czasami firmy decydują się na wdrożenie osobnego serwera OCR, gdy w przedsiębiorstwie pracuje już jakiś wydajny skaner, którego nie można rozbudować o moduł OCR, względnie dostępne pakiety nie radzą sobie z polskimi tekstami. Jest to szczególnie dokuczliwe w przypadku starszych urządzeń, gdzie nie zawsze istnieje motor, który posiada obsługę naszego języka.

Serwer OCR można skonfigurować tak, by pobierał pliki ze skrzynki pocztowej lub obserwowanego folderu, dokonywał transformacji, dodając warstwę tekstową, a następnie umieszczał gotowy plik (PDF lub DOC) w ustalonym zasobie sieciowym. Umożliwia to masową konwersję plików z różnych źródeł (także z różnych skanerów) do wspólnych zasobów. Gdy firma posiada kilka lub kilkanaście urządzeń wielofunkcyjnych, skanerów i tym podobnych, zamiast wyposażać każde z nich w moduł OCR, korzystniejszym zakupem będzie pojedynczy serwer dla tej usługi. Typowa realizacja obejmuje pojedynczą maszynę Windows lub UNIX/Linux (są komercyjne OCR także dla tej platformy). Takie rozwiązania dobrze pracują w maszynach wirtualnych VMware, chociaż cechują się dużym zapotrzebowaniem na moc obliczeniową oraz pamięć.


TOP 200