Rozpoznawanie na dużą skalę
Optyczne rozpoznawanie znaków, czyli OCR, powszechnie kojarzy się z oprogramowaniem na stacji roboczej. Gdy jednak dokumentów jest dużo, wystarczającą wydajność zapewni jedynie OCR klasy enterprise pracujący na serwerze lub w urządzeniu.
Biurkowy skaner oraz oprogramowanie OCR jest standardowym zestawem do skanowania dokumentów w małej firmie. Dlatego właśnie technologia ta jest postrzegana jako istotny dodatek do skanera, "odzyskujący" treść. Gdy firma skanuje bardzo wiele dokumentów, stosuje się zupełnie inne rozwiązania. Skanery są przystosowane do przetwarzania w sposób zautomatyzowany, podajnik mieści kilkaset kartek, a urządzenie skanuje naraz obie strony albo posiada duplekser odwracający kartkę. Masowe skanowanie dokumentów wymaga także bardzo sprawnego OCR-u, który automatycznie wykona dekompozycję strony na bloki tekstu i obrazy, rozpozna ich orientację i formatowanie, rozpozna tabele i zależności między blokami tekstu, a następnie przetworzy znaki na tekst. Ponieważ litery w skanowanym dokumencie nigdy nie są idealnym odwzorowaniem czcionki użytej do wydruku, tekst wynikowy może zawierać błędy. Nowoczesne motory OCR wykorzystują słowniki ortograficzne danego języka, by na podstawie porównań ustalić najbardziej prawdopodobne słowo.
Należy pamiętać, że nie wszystkie motory OCR prawidłowo rozpoznają tekst w języku polskim. Problemy wynikają z tego, że polski alfabet jest bogatszy niż łaciński - zawiera znaki diakrytyczne, które nie zawsze są prawidłowo rozpoznawane przez rozwiązanie dostosowane do języków zachodnich. Obecnie wszystkie pakiety oprogramowania sprzedawane w Polsce wspierają rozpoznawanie zdań w naszym języku, ale nie zawsze wykorzystują poprawnie słownik. W przypadku OCR wbudowanego w urządzenia (skanery, kopiarki z opcją skanowania dokumentów, maszyny wielofunkcyjne) nie zawsze tak jest. Nie zawsze moduły takie radzą sobie z dokumentami zawierającymi znaki specjalne z różnych języków. Przy skanowaniu dokumentów czasami trzeba włączyć rozpoznawanie znaków charakterystycznych dla danej języka, gdyż wybór alfabetu i języka nie działa automatycznie.
Oceń artykuł
Komentarze (0)
Najpopularniejsze
- Pierwsze w Polsce testy transmisji danych z...
- Magdalena Gaj została Przewodniczącą Rady...
- Asseco wątpi w obiektywny wybór dostawcy w...
- Raport Państwo 2.0, czyli nowa wizja...
- Sygnity: wezwanie Asseco i sezonowość...
- Ogromna liczba komputerów Mac wciąż...
- Nasza Klasa uruchomiła inkubator...
- Google prezentuje okulary z Augmented Reality
- Oracle daje klientom bezpłatny system do...
- CBA kontroluje przetargi związane z CEPiK
Rekomendacje
Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88






