Niezniszczalne dane

Komputerowe systemy rozpoznawania obrazów pozwalają na odczytanie dokumentów pociętych przez niszczarkę do papieru.

Komputerowe systemy rozpoznawania obrazów pozwalają na odczytanie dokumentów pociętych przez niszczarkę do papieru.

Maszyna do cięcia papieru, tzw. niszczarka, to dzisiaj już stały element wyposażenia każdego biura i urzędu. Kończą w niej żywot dokumenty papierowe, które, choć niepotrzebne z różnych powodów, nie powinny trafić w niepowołane ręce. Poczucie bezpieczeństwa - jakie towarzyszy każdemu, kto niszcząc w ten sposób dokumenty, jest przekonany, że nikt już tego nigdy nie przeczyta - może być jednak złudne.

Przekonał się o tym Sascha Anderson, jeden z dysydentów byłego NRD, a tak naprawdę agent Stasi, o czym w lecie br. pisał The New York Times. Wiedział, że dotycząca jego działalności teczka została zniszczona, był więc przekonany, że nikt nigdy nie odkryje jego prawdziwej przeszłości, a on będzie mógł chodzić w glorii niezłomnego bohatera. Stało się inaczej.

Lekcja historii

W roku 1989, gdy upadał reżim komunistyczny we wschodnich Niemczech, służby specjalne pocięły tony akt w niszczarkach do papieru i spakowały je do kilkunastu tysięcy dużych toreb na śmieci. Inaczej jednak niż w Polsce, nie zdążyły wywieźć ich do zmielenia w papierni. Pocięte akta zostały zabezpieczone, ale nikt nie był w stanie złożyć ich w sensowną całość. Jak bowiem można z powrotem skleić cieniutkie paski papieru pochodzące z wielu różnych stron, odtwarzając dokument strona po stronie?

Oczywiście, sztuka odczytywania pociętych dokumentów ma równie długą historię jak niszczarki. Najbardziej znany przypadek to udane odtworzenie pociętych dokumentów znalezionych w ambasadzie USA w Teheranie przez Irańczyków, którzy wdarli się doń w 1979 r. Przydała się tutaj manualna i wzrokowa sprawność tkaczy dywanów, którzy otrzymali od władz zadanie odczytania zawartości znalezionych ścinków.Dzisiaj to zadanie można prawie w całości zautomatyzować. Rozwój systemów przetwarzania i rozpoznawania obrazów pozwolił na automatyczne dopasowanie zawartości bazy danych z zeskanowanymi obrazami pociętych dokumentów (w praktyce wystarcza rozdzielczość 200 dpi).

Poszczególne ścinki są naklejane równolegle obok siebie, potem skanowane i tak kolejno, aż do wyczerpania zapasu ścinków, które mogą pochodzić z tych samych dokumentów. Wyrafinowane oprogramowanie dokonuje analizy uzyskanych obrazów, starając się dopasować poszczególne ścinki względem pasujących do siebie fragmentów, co ostatecznie pozwala na ułożenie swoistych puzzli i odtworzenie oryginalnych dokumentów.

Odtworzenie tekstu z pociętych w niszczarce dokumentów to przedsięwzięcie niezwykle trudne, biorąc pod uwagę, że mogą zawierać zarówno informacje drukowane, jak i napisane odręcznie. Potrzebne są skomplikowane algorytmy sztucznej inteligencji. Są zresztą stosowane narzędzia pracujące na bardzo różnych poziomach. Można zarówno dopasowywać nie zawsze równe krawędzie ścinków, jak i stosować narzędzia analizy tekstów, dobierając fragmenty na podstawie przypuszczalnych ciągów leksykalnych zbiorów ich fragmentów.

Takie systemy oczywiście nie gwarantują odniesienia sukcesu, czyli odczytania pociętych dokumentów. Wszystko zależy od tego, czy do dyspozycji jest cały materiał i w jaki sposób został zniszczony. W typowym przypadku udaje się odtworzyć 70-80% oryginalnych dokumentów.

80% - nawet w takim stopniu istnieje możliwość odtworzenia zniszczonych dokumentów przy wykorzystaniu nowoczesnych narzędzi

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200