Rozpoznawanie na dużą skalę

Dodatek do obiegu dokumentów

Jeśli firma posiada oprogramowanie do obiegu dokumentów, może także zastanowić się nad wykorzystaniem opcji modułu OCR. Tego typu moduły pracują w najbogatszych wersjach systemów obiegu dokumentów, w oprogramowaniu do prowadzenia komputerowego archiwum i tym podobnych aplikacjach. Wadą takiego rozwiązania jest przywiązanie usługi do konkretnej aplikacji. Jeśli firma i tak wszystkie najważniejsze dokumenty przetwarza w tym środowisku, nie jest to krytyczne ograniczenie. W odróżnieniu od rozbudowy urządzeń do przetwarzania obrazu czy zakupu nowego serwera, rozbudowanie systemu obiegu dokumentów może być najtańszym rozwiązaniem. Tego typu moduły są dostępne, na przykład, dla oprogramowania Docushare firmy Xerox, jako osobna opcja.

Przykładowa realizacja

Dla biura, które skanuje dużo dokumentów, można wykorzystać bardzo sprawne urządzenie, na przykład z serii WC 7665, posiadające szybki aparat skanujący (z prędkością rzędu 80 str/min) oraz pojemny podajnik na 250 arkuszy. Skanowany dokument jest obrabiany za pomocą motoru Scan Flow Store, który opisuje, czyta i wprowadza dokument do odpowiedniego miejsca w archiwum elektronicznym (w tym przypadku DocuShare firmy Xerox). Czas od skanowania do publikacji jest bardzo krótki, systemy te są skalowalne i mogą być stosowane zarówno przez małe firmy, jak i gigantyczne archiwa.

Integrację można przeprowadzić na dwa sposoby. Pierwsze podejście zakłada automatyczny OCR wszystkich dokumentów wprowadzanych do systemu obiegu dokumentów. Ta operacja wykonywana jest jako element procesu digitalizacji i wspierana przez oprogramowanie, takie jak ABBYY Recognition Server, IRISPdf Server, Xerox ScanFlowStore lub Xerox SmartDocument Tavel. Produkty te umożliwiają rozpoznawanie plików graficznych w praktycznie dowolnym formacie i dodatkowo konwersję zeskanowanych dokumentów do uniwersalnego formatu PDF z warstwą tekstową. Tak przygotowane dokumenty są przekazywane do systemu obiegu dokumentów (najczęściej poprzez mechanizm śledzonego folderu), gdzie dzięki rozpoznanej warstwie tekstowej mogą zostać szybko zaindeksowane i łatwo odnalezione przez użytkowników. Integracja ta powinna uwzględniać także dodanie metadanych, które będą umieszczone w systemie. Bardzo ciekawym podejściem jest wykorzystanie stron wiodących lub specjalnych znaków graficznych, umieszczanych na pierwszej stronie dokumentu, dzięki czemu system obiegu dokumentów automatycznie utworzy odpowiednie metadane na podstawie zakodowanych tam informacji. Integracja z serwerem OCR przy użyciu śledzonych folderów ma bardzo ważną zaletę - jest niezależna od zastosowanych rozwiązań OCR, skanerów czy systemów obiegu dokumentów, chociaż nie zawsze udaje się zrealizować automatyczne przekazywanie metadanych.

Druga metoda zakłada, że OCR dokumentów jest jednym z kroków procesu obiegu dokumentów. W takim przypadku oprogramowanie obiegu może wykorzystać swój wewnętrzny silnik OCR. Dokumenty są kierowane do OCR wybiórczo, na podstawie decyzji podjętych automatycznie lub przez użytkowników w procesie obiegu dokumentów. Efekt OCR jest zapisywany bezpośrednio w systemie i jest od razu dostępny dla użytkowników, na przykład jako kolejna wersja oryginalnego dokumentu. W ten sposób można skonfigurować wiele systemów, na przykład Xerox Docushare.


TOP 200