Imaging czyli kompleksowe przetwarzanie dokumentów

"Postęp nie jest możliwy bez zmian a ci, którzy nie mogą zmienić własnego umysłu, nie zmienią niczego" - George Bernad Shaw.

"Postęp nie jest możliwy bez zmian a ci, którzy nie mogą zmienić własnego umysłu, nie zmienią niczego" - George Bernad Shaw.

Ocenia się, że w każdym dniu pracy w USA produkuje się ok. 1 mld oryginalnych dokumentów papierowych, nie licząc kopii. Lawina papieru zasypuje każde biurko, biuro, firmę czy redakcję. Obserwujemy to na co dzień także w naszej pracy dziennikarskiej: liczba dokumentów, które otrzymujemy w codziennej poczcie wymyka się wszelkiej kontroli i realnej możliwości ich przetworzenia. Dlatego często pytania Czytelnika typu: "W nr. 34 CW napisaliście o Super Gadżecie. Proszę podać więcej szczegółów lub kontakt do dystrybutora", pozostają bez echa. Jeśli bowiem przez przeoczenie (bijemy się w piersi, przeoczenia zdarzają się nam dość często) nie zamieściliśmy tej informacji już wtedy, małe są szanse na jej odnalezienie w stosach dokumentów zapełniających nasze redakcyjne szafy, prywatne biurka czy po prostu wyrzuconych na makulaturę.

Co to jest imaging?

Właściwie termin ten nie ma dobrego tłumaczenia na język polski zwłaszcza, że kryje się pod nim wiele różnorodnych znaczeń. Wydaje mi się, że najlepsze jest tłumaczenie zaproponowane w tytule, czyli kompleksowe przetwarzanie dokumentów papierowych w celu przechowywania ich w postaci elektronicznej.

Wyobraźmy sobie pracę działu biura ubezpieczeniowego, który zajmuje się wypłatą odszkodowań. Formularz szkody, wypełniony przez klienta jest przyjmowany "na dziennik". W celu ułatwienia pracy zakłada się teczkę papierową z nazwiskiem klienta, do której powinny być wkładane wszystkie dokumenty dotyczące jego sprawy. Do teczki wkłada się natychmiast kopię umowy ubezpieczeniowej klienta (żeby jej nie szukać za każdym razem, gdy będzie poptrzebna). Agent ubezpieczeniowy lub specjalista od oceny szkód wypisuje kilka dodatkowych dokumentów, robi zdjęcia uszkodzonego samochodu (lub dołącza inne dokumenty związane ze sprawą, np. świadectwo zdrowia, jeśli jest to roszczenie zdrowotne). Kolejne osoby zajmujące się sprawą uzupełniają zawartość teczki. Może się na dodatek okazać, że z teczki trzeba wyjąć jakieś dokumenty w celu weryfikacji. Stwarza to oczywiście świetną okazję do ich zagubienia, nie mówiąc o zagubieniu całej teczki w stosach papierów zasypujących biurka agentów.

W trakcie całego procesu oceny szkody i wypłacania odszkodowania przyrasta liczba dokumentów, niektóre wymagają kopiowania w celu dołączenia do archiwum klienta (w przyszłym roku wypomnimy mu, że miał dwa wypadki i już nie przysługuje mu taka zniżka). W końcu odszkodowanie jest wypłacane, teczka wędruje do archiwum. Kłopot zacznie się w momencie, gdy do sprawy trzeba będzie wrócić po kilku latach.

Imaging w biurze

Wyobraźmy sobie teraz to samo biuro, w którym zastosowano nowoczesny system imagingu, pracujący w sieci komputerowej. Na biurku sekretarki przyjmującej formularze klientów znajduje się skaner, wczytujący dokument i zapisujący go na dysku stałym w znormalizowanej postaci. Sekretarka uzupełnia tekstową bazę danych klientów o podstawowe dane, związane z dochodzeniem odszkodowania (data przyjęcia dokumentu, kategoria szkody) i wiąże dokument z danymi klienta, od dawna znajdującymi się w bazie. Jednocześnie system zarządzania dokumentów otwiera nowy folder, który od tej pory zawierać będzie wszystkie dane dotyczące tej konkretnej sprawy. Każdy nowy papierowy dokument w sprawie zostaje zeskanowany i włączony do folderu, zaś nowe ustalenia i orzeczenia wykonywane na miejscu w ogóle nie przechodzą przez fazę papierową - są od razu wpisywane jako elektroniczne załączniki do folderu. Nie ma potrzeby tworzenia żadnych kopii dokumentów, ponieważ każdy zainteresowany sprawą może skonsultować dane dostępne w sieci. Jeżeli potrzeba załączyć kopię jakiegoś dokumentu do innych folderów, wystarczy wpisać tam odwołanie do folderu bazowego.

Imaging w praktyce

W celu realizacji procesu przejścia z dokumentów papierowych na pełną obsługę elektroniczną, system elektroniczny imagingu musi stale wykonywać sześć kroków tego procesu.

1. Skanowanie lub utworzenie dokumentu

Proces rozpoczyna się od przetworzenia dokumentu papierowego na postać elektroniczną, zwykle za pomocą skanera. Jeśli dokument powstaje od razu w formie elektronicznej, to być może nigdy nie będzie musiał przechodzić przez fazę kopii papierowej. Sam proces skanowania też nie jest wolny od problemów. Trzeba zakupić skanery o wydajności zależnej od przewidywanej liczby przetwarzanych dokumentów oraz przygotować lub zainstalować sterowniki skanera do systemu przetwarzania dokumentów. Już w w tym kroku procesu niesłychanie ważna okazuje się standaryzacja. Zamiana skanera na nowy model nie powinna mieć wpływu na system zarządzania dokumentami. Konieczne jest więc, aby skanery posługiwały się coraz bardziej popularnym interfejsem TWAIN (p. CW nr. 40 z dnia 1.11.93), ułatwiającym dostosowanie ich do aplikacji.

Dokumenty po zeskanowaniu zajmują niestety zbyt dużo miejsca na dysku stałym i prosty proces kompresji może nie wystarczyć do uzyskania zadowalających oszczędności, wynikających z wyeliminowania papieru. Najczęściej bowiem trzeba je przechowywać w postaci mapy bitowej, pozwalającej na odtworzenie ich początkowej postaci z zadowalającą dokładnością.

Na szczęście technika przetwarzania obrazów przeszła już dawno z laboratoriów naukowych do praktyki. Istnieją dostatecznie bogate zestawy funkcji bibliotecznych, pozwalające na usunięcie szumów skanowania, zmniejszenie zakresu poziomów szarości bez widocznego pogorszenia jakości, czy przetworzenie dokumentu z reprezentacji w postaci mapy bitowej na postać wektorową.

W pracy biurowej największe nadzieje wiąże się jednak z usuwaniem formularza. Jeśli dokumenty wejściowe zawierają dane wpisane przez użytkownika w ramki standardowego formularza, to nie ma żadnej potrzeby przechowywania go przy każdym skanowanym dokumencie. Jeżeli z dokumentu uda się usunąć rubryki, ich nazwy, ramki, stałe pozycje i objaśnienia, to oszczędności mogą dochodzić do 95% jego początkowej objętości. W razie potrzeby zawsze można nałożyć formularz (przechowywany w jednym egzemplarzu) na tak zminimalizowany dokument, odtwarzając oryginał. Oczywiście, im mniej typów formularzy, tym prostszy będzie moduł do ich usuwania.

Na tym etapie realizacji systemu imagingu także ważna jest standaryzacja. Dokumenty po zeskanowaniu powinny być przechowywane w postaci plików o dobrze wybranym standardzie. Może on być inny w biurze meldunkowym nie mającym częstych kontaktów z innymi instytucjami oraz inny w dużym przedsiębiorstwie przemysłowym, posługującym się techniką elektronicznej wymiany dokumentów (EDI - p. CW nr 27 z dnia 5.07.93) dla wykonywania operacji handlowych.

OCR. Optyczne rozpoznawanie pisma tylko pozornie może wspomóc system elektronicznej obsługi dokumentów. Jeśli dokumenty są pisane ręcznie, a nawet jeśli są przygotowane na maszynie do pisania lub drukarce, to ich jakość na ogół nie pozwala na pełne odczytanie treści. Trzeba więc posługiwać się ręcznym wspomaganiem procesu odczytywania, co znacznie spowalnia proces, a nie daje wielkich oszczędności miejsca. Najlepsze wyniki osiągnie się w przypadku w pełni tekstowych dokumentów drukowanych, które da się kompletnie zeskanować i odczytać. Jest to jednak przypadek dość rzadki w praktyce.

2. Indeksowanie

Mapy bitowe dokumentów równie źle nadają się do wyszukiwania informacji, jak ich papierowe odpowiedniki. System imagingu musi być więc oparty na wykorzystaniu rozbudowanej i dobrze indeksowanej bazy opisów tekstowych poszczególnych dokumentów. Można ją tworzyć ręcznie przy okazji skanowania dokumentu lub częściowo wspomagać ten proces przez odczytywanie za pomocą OCR kluczowych partii dokumentu.

Imaging zastosowany do dokumentów tekstowych odczytywanych przez OCR umożliwia stworzenie pełnych indeksów tekstowych. Systemy takie tworzą jednak indeksy o rozmiarach zbliżonych (lub większych) do rozmiarów dokumentów wejściowych. Nie nadają się więc do przetwarzania dużej liczby dokumentów.

Wybór odpowiedniej bazy indeksowej będzie miał znaczenie w przyszłości, gdy zechcemy przejść na system potężniejszy, na większym komputerze.

3. Przechowywanie

Dokument pisany, nawet po bardzo efektywnym upakowaniu, zajmuje wiele miejsca na dysku. Z tego powodu w systemach imagingu podstawowym środkiem do przechowywania są dyski optyczne (o pojemności do 650 MB każdy) i zestawy do ich automatycznego zmieniania ("szafy grające"). Niestety większość współczesnych sieci lokalnych nie jest dobrze przystosowana do obsługi tak dużych modułów pamięciowych, na dodatek przesyłających ogromne zbiory informacji przez łącza sieciowe.

Jeżeli system obsługi dokumentów oparty jest na architekturze klient/serwer, to problem rozproszonego dostępu do tych magazynów informacji może mieć zasadnicze znaczenie dla wydajności całego systemu. Powstają np. problemy, gdzie należy przechowywać bazę indeksową, jaki będzie sposób jej aktualizacji i odniesienia do magazynów obrazów, itp.

4. Pobieranie dokumentów

Jest ściśle związane z indeksową bazą danych, opisującą przechowywane dokumenty w sposób pozwalający na jednoznaczne ich odczytywanie. Współczesne techniki przetwarzania obrazów nie pozwalają na wyciąganie użytecznej informacji z mapy bitowej obiektu. Nie można więc żądać dostarczenia zdjęcia osoby o brązowych oczach, blond włosach i lekkim zezie, jeśli te dane nie zostały ręcznie wprowadzone do bazy danych o osobach.

5. Obieg dokumentów i organizacja pracy

Jest to proces dystrybucji obrazów do użytkowników sieci. Mogą różnić się znacznie w różnych systemach imagingu. Najprostszy polega na dostarczaniu upakowanych obrazów tylko tym użytkownikom, którzy tego zażądają. Oprogramowanie stacji roboczej dokonuje dekompresji pliku i pokazuje go na ekranie. W wielu przypadkach jest to system zadowalający, chociaż nie nadaje się do obsługi przykładowego biura ubezpieczeniowego. Istnieje bowiem ryzyko, że niektóre dokumenty zostaną całkowicie zapomniane, pogrzebane pod stosami (tym razem wirtualnego) papieru. Ten sposób jest stosowany w systemach imagingu dostępnych z półki, w formie pakietów programowych.

Znacznie trudniejszy w realizacji jest dobrze sprecyzowany obieg dokumentów, oparty na organizacji pracy w biurze czy urzędzie. We wspomnianym już biurze ubezpieczeniowym, regionalna przynależność klienta do biura pozwoli skierować dokument wejściowy do odpowiedniego agenta, który załatwi sprawę sam, szkody przekaże do oceny specjaliście lub innej osobie, jeśli sprawa przekracza jego kompetencje. Nie może być sytuacji, w której sprawa nie ma dalszego ciągu. O tym powinien decydować dobrze określony system obiegu dokumentów, zarządzany centralnie dla całego biura, wsparty przez moduły kontroli przebiegu i oceny wydajności pracy.

6. Drukowanie i wyświetlanie

Nawet w najlepszym systemie kompleksowego przetwarzania dokumentów nie uda się zupełnie uniknąć ich papierowej wersji. Do poprawnego odtwarzania zeskanowanych dokumentów nadają się jedynie drukarki laserowe. Wyświetlanie dokumentów na komputerze użytkownika wymaga monitora na tyle dużego, aby widać było na nim cały dokument, bez potrzeby przesuwania i poruszania się po nim. W wielu wypadkach potrzebny będzie monitor pokazujący dwie pełne stronice dokumentu.

Trudności i kłopoty

Przedstawiony obraz imagingu jest zbyt ładny, aby w całości mógł być prawdziwy. Największy kłopot sprawia problem zablokowania dostępu do danych dla osób niepowołanych. Systemy logowania z hasłem w sieci nie wystarczają, gdyż może okazać się konieczne przydzielanie praw dostępu na poziomie pojedynczych tablic lub rekordów w bazie tekstowej, a czasem nawet poszczególnych obrazów w bazie. Wymaga to wyrafinowanego systemu zarządzania i kontroli.

Inny dość zasadniczy problem, to aspekt legalności dokumentów. Na ile wiążący dla sądu będzie dokument odtworzony z zawartości bazy obrazowej? Czy podpis klienta ma wartość, jeżeli istnieje tylko w postaci mapy bitowej i da się go dokładnie wydrukować, ale nie ma oryginału?

Systemy imagingu

Praktycznie w Polsce są nieznane. Firma Emax z Poznania prezentowała w br. w Katowicach system Allfont firmy CGK, przystosowany do szybkiego przetwarzania ogromnej liczby dokumentów tekstowych. Nie należy on jednak ściśle do kategorii imagingu według przedstawionego wyżej opisu.

Firma Digital ma w swych ofertach kilka systemów imagingu, działających na komputerach VAX z systemem VMS lub na serwerach intelowskich pod kontrolą SCO Unix. Wyposażenie obejmuje wiele typów skanerów od niewielkich modeli stołowych po szybkie modele stacjonarne, indywidualne napędy dysków optycznych, zmieniacze dysków optycznych aż po monitory o dużych rozmiarach ekranu.

Rozwiązania programowe to np. kompletny system imagingu MEGADOC 250, pracujący w konfiguracji klient/serwer na komputerach DEC, działających pod kontrolą systemu operacyjnego SCO Unix, z możliwościami rozszerzonymi za pomocą produktów DECvantage. DOS-owe stacje klientów systemu z procesorem i386 lub lepszym, korzystają z interfejsu graficznego Windows. Do zarządzania dyskami optycznymi ze zmieniaczami korzysta się z programów Storage Server. System może działać w sieciach PCT/IP, OSI i in.

Kompletny zestaw narzędzi i bibliotek funkcji, DECimage Application Services, pozwala na tworzenie systemów imagingu, przystosowanych do specyfiki pracy.

Do zastosowania w małym biurze firma Digital oferuje personalny system zarządzania dokumentami DECimage Personal Edition. Jest to rozwiązanie z półki, chociaż zawiera możliwości indywidualizacji w trakcie instalowania. System wymaga komputera z procesorem i486 i specjalnej karty Xionics IPB do przetwarzania i kompresji obrazów. System korzysta z bazy Gupta SQL do zarządzania danymi. Folderami do przechowywania obrazów zarządza program Folder Digitala. Dla pamiętania obrazów wykorzystuje się dyski optyczne, zgodne ze sterownikami Corel. Niezbędne uzupełnienie systemu to drukarka laserowa.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200