Rozpoznawanie na dużą skalę

Optyczne rozpoznawanie znaków, czyli OCR, powszechnie kojarzy się z oprogramowaniem na stacji roboczej. Gdy jednak dokumentów jest dużo, wystarczającą wydajność zapewni jedynie OCR klasy enterprise pracujący na serwerze lub w urządzeniu.

Rozpoznawanie na dużą skalę
Biurkowy skaner oraz oprogramowanie OCR jest standardowym zestawem do skanowania dokumentów w małej firmie. Dlatego właśnie technologia ta jest postrzegana jako istotny dodatek do skanera, "odzyskujący" treść. Gdy firma skanuje bardzo wiele dokumentów, stosuje się zupełnie inne rozwiązania. Skanery są przystosowane do przetwarzania w sposób zautomatyzowany, podajnik mieści kilkaset kartek, a urządzenie skanuje naraz obie strony albo posiada duplekser odwracający kartkę. Masowe skanowanie dokumentów wymaga także bardzo sprawnego OCR-u, który automatycznie wykona dekompozycję strony na bloki tekstu i obrazy, rozpozna ich orientację i formatowanie, rozpozna tabele i zależności między blokami tekstu, a następnie przetworzy znaki na tekst. Ponieważ litery w skanowanym dokumencie nigdy nie są idealnym odwzorowaniem czcionki użytej do wydruku, tekst wynikowy może zawierać błędy. Nowoczesne motory OCR wykorzystują słowniki ortograficzne danego języka, by na podstawie porównań ustalić najbardziej prawdopodobne słowo.

Należy pamiętać, że nie wszystkie motory OCR prawidłowo rozpoznają tekst w języku polskim. Problemy wynikają z tego, że polski alfabet jest bogatszy niż łaciński - zawiera znaki diakrytyczne, które nie zawsze są prawidłowo rozpoznawane przez rozwiązanie dostosowane do języków zachodnich. Obecnie wszystkie pakiety oprogramowania sprzedawane w Polsce wspierają rozpoznawanie zdań w naszym języku, ale nie zawsze wykorzystują poprawnie słownik. W przypadku OCR wbudowanego w urządzenia (skanery, kopiarki z opcją skanowania dokumentów, maszyny wielofunkcyjne) nie zawsze tak jest. Nie zawsze moduły takie radzą sobie z dokumentami zawierającymi znaki specjalne z różnych języków. Przy skanowaniu dokumentów czasami trzeba włączyć rozpoznawanie znaków charakterystycznych dla danej języka, gdyż wybór alfabetu i języka nie działa automatycznie.

80

stron na minutę potrafi przeskanować i przetworzyć biurowy skaner, wykonując przy tym operacje OCR.

Typowym formatem powstałego pliku jest PDF, który może zawierać dodatkowo warstwę tekstową. Powstaje ona w wyniku obróbki OCR, polegającej na przetwarzaniu zawartości tekstowej i dołączonej do PDF-a jako przezroczysta treść. Taki dokument, zwany przeszukiwalnym, może być zaimportowany do systemu obiegu dokumentów, by jego treść mogła być zaindeksowana w wyszukiwarce. Niekiedy użytkownicy wybierają inny format (RTF, DOC, XLS), by móc takie dokumenty obrabiać w edytorze tekstu czy arkuszu kalkulacyjnym.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200