Z papieru na HTML

Program OmniPage konwertuje zeskanowane dokumenty na format HTML.

Program OmniPage konwertuje zeskanowane dokumenty na format HTML.

W firmach i instytucjach duża część dokumentów jest dostępna jedynie w postaci papierowej. Tworzenie intranetu wymaga ich żmudnej zamiany na postać elektroniczną poprzez skanowanie, optyczne rozpoznawanie pisma (OCR) i ręczne lub po części automatyzowane przekształcenie tak uzyskanego pliku na strony HTML. OmniPage, produkt amerykańskiej firmy Caere, umożliwia przeprowadzenie tych operacji za pomocą jednego narzędzia.

W kilka sekund

Wbudowane do programu elementy sieci neuronowych służą nie tylko do rozpoznawania pisma, lecz także wstępnej klasyfikacji struktury skanowanego dokumentu (Logical Structure Recignition). OmniPage czerpie wiedzę o sformatowaniu tego dokumentu, rozpoznając, co jest tytułem, podtytułem, a co tekstem właś-ciwym. W rezultacie, po konwersji dokumentu do HTML przypomina on w dużej mierze oryginał - właściwie bez konieczności prowadzenia dalszej ręcznej edycji.

Program dodaje dowiązania do stron i tabelę zawartości. Przetworzenie kilkudziesięciostronicowego dokumentu (rozpoznanie struktury i konwersja do HTML) zajmuje OmniPage zaledwie sekundy.

Ręczna praca

Interfejs programu wyświetla w trzech jednocześnie widocznych oknach zeskanowany dokument, jego strukturę i docelową postać HTML, jaka będzie widoczna w przeglądarce WWW. Dzięki temu łatwo prowadzić korektę, czy na pewno proces konwersji przebiegł prawidłowo. Okna są powiązane - np. wprowadzanie zmian w strukturze (choćby określenie wielkości liter nagłówków) automatycznie zmienia wyjściową postać HTML. Podgląd struktury można zawężać, stosując filtry. Stale dostępne są narzędzia edycyjne, pozwalające na wprowadzenie zmian do stworzonej stron HTML.

Program udostępnia wiele opcji pozwalających na sprawowanie kontroli nad tym, jak ma wyglądać wyjściowa postać strony HTML. Użytkownik może określić, w jaki sposób dzielić otrzymane strony (mogą być one dzielone inaczej niż w oryginale). Skanowana grafika z dokumentów zostaje zachowana na tworzonej stronie (w ten sposób można też umieszczać inne fragmenty skanowanego dokumentu, których nie rozpoznano w procesie OCR). Program ma problemy z prawidłowym rozpoznawaniem tabel i odczytem zawartości kolumn.

Do każdej z tworzonych stron można dodawać automatycznie elementy nawigacyjne (tak aby np. zbudowany dokument HTML był pod tym względem zgodny z innymi stronami firmowego intranetu).

OmniPage zawiera ok. 20 szablonów stron, a także umożliwia zastosowanie techniki Cascading Style Sheets (do zmiany stylów poszczególnych obiektów).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200