Rozpoznawanie na dużą skalę

Subskrybuj RSS A A A
7 kwietnia 2009
Marcin Marciniak

Optyczne rozpoznawanie znaków, czyli OCR, powszechnie kojarzy się z oprogramowaniem na stacji roboczej. Gdy jednak dokumentów jest dużo, wystarczającą wydajność zapewni jedynie OCR klasy enterprise pracujący na serwerze lub w urządzeniu.

Biurkowy skaner oraz oprogramowanie OCR jest standardowym zestawem do skanowania dokumentów w małej firmie. Dlatego właśnie technologia ta jest postrzegana jako istotny dodatek do skanera, "odzyskujący" treść. Gdy firma skanuje bardzo wiele dokumentów, stosuje się zupełnie inne rozwiązania. Skanery są przystosowane do przetwarzania w sposób zautomatyzowany, podajnik mieści kilkaset kartek, a urządzenie skanuje naraz obie strony albo posiada duplekser odwracający kartkę. Masowe skanowanie dokumentów wymaga także bardzo sprawnego OCR-u, który automatycznie wykona dekompozycję strony na bloki tekstu i obrazy, rozpozna ich orientację i formatowanie, rozpozna tabele i zależności między blokami tekstu, a następnie przetworzy znaki na tekst. Ponieważ litery w skanowanym dokumencie nigdy nie są idealnym odwzorowaniem czcionki użytej do wydruku, tekst wynikowy może zawierać błędy. Nowoczesne motory OCR wykorzystują słowniki ortograficzne danego języka, by na podstawie porównań ustalić najbardziej prawdopodobne słowo.

Należy pamiętać, że nie wszystkie motory OCR prawidłowo rozpoznają tekst w języku polskim. Problemy wynikają z tego, że polski alfabet jest bogatszy niż łaciński - zawiera znaki diakrytyczne, które nie zawsze są prawidłowo rozpoznawane przez rozwiązanie dostosowane do języków zachodnich. Obecnie wszystkie pakiety oprogramowania sprzedawane w Polsce wspierają rozpoznawanie zdań w naszym języku, ale nie zawsze wykorzystują poprawnie słownik. W przypadku OCR wbudowanego w urządzenia (skanery, kopiarki z opcją skanowania dokumentów, maszyny wielofunkcyjne) nie zawsze tak jest. Nie zawsze moduły takie radzą sobie z dokumentami zawierającymi znaki specjalne z różnych języków. Przy skanowaniu dokumentów czasami trzeba włączyć rozpoznawanie znaków charakterystycznych dla danej języka, gdyż wybór alfabetu i języka nie działa automatycznie.

80
stron na minutę potrafi przeskanować i przetworzyć biurowy skaner, wykonując przy tym operacje OCR.
Typowym formatem powstałego pliku jest PDF, który może zawierać dodatkowo warstwę tekstową. Powstaje ona w wyniku obróbki OCR, polegającej na przetwarzaniu zawartości tekstowej i dołączonej do PDF-a jako przezroczysta treść. Taki dokument, zwany przeszukiwalnym, może być zaimportowany do systemu obiegu dokumentów, by jego treść mogła być zaindeksowana w wyszukiwarce. Niekiedy użytkownicy wybierają inny format (RTF, DOC, XLS), by móc takie dokumenty obrabiać w edytorze tekstu czy arkuszu kalkulacyjnym.

Oceń artykuł

średnio: 5 liczba ocen: 1
1  2  3  4  dalej »

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

Zarządzanie po japońsku

W praktyce przemysłowej wypracowano szereg skutecznych metod zarządzania. Wiele powstało w Japonii. Dlaczego, mimo ich efektywności, nie zawsze są stosowane w biznesie?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88