Nietrwałe cyfrowe archiwum

Im dłuższy czas przechowywania danych w postaci cyfrowej, tym większe ryzyko ich utraty i trudności z odczytaniem. Jak sobie z tym radzić?

Technologia cyfrowa czy papier?

Ciekawym przykładem problemów z cyfrową technologią po latach, był projekt BBC Domesday, zainicjowany w 1986 r. dla upamiętnienia dziewięćsetnej rocznicy oryginalnego spisu Domesday Book. Dostarczone teksty, zdjęcia oraz filmy zostały opublikowane na laserowym nośniku w standardzie LV-ROM firmy Philips. Format ten, dziś zupełnie nieznany, wywodził się z nośników wideo LaserDisc, które zostały całkowicie wyparte przez dzisiejsze nośniki CD-ROM i DVD. Po niecałych 25 latach odczytanie tych informacji z oryginalnego nośnika wymaga specjalnych urządzeń, niedostępnych już na rynku oraz odpowiedniego oprogramowania emulującego pracę czytnika LV-ROM firmy Philips i ośmiobitowego komputera osobistego Accorn BBC Master, który synchronizował obraz z tekstem. Aby odtworzyć i udostępnić zarchiwizowane informacje, Centrum Historii Techniki Obliczeniowej w Haverhill posiada działający emulator i ma nadzieję, że komplet zasobów z nośnika zostanie opublikowany w Internecie. Tymczasem oryginał Domesday Book, spisany ręcznie na wyprawionej skórze owczej, nadal jest czytelny, mimo że został sporządzony 900 lat temu.

Podmioty, które dokonują archiwizacji danych, muszą być przygotowane do składowania bardzo obszernych archiwów, niejednokrotnie liczonych w petabajtach. Dla przykładu, amerykański instytut geologiczny USGS, który zarządza obecnie około 4,5 PB danych (wliczając kopie) i co miesiąc dochodzi do tego około 50 TB danych z satelitów badawczych. Biblioteka Kongresu USA przechowuje około 167 terabajtów cyfrowej treści, wliczając w to strony WWW związane z wyborami oraz informacjami o wszystkich większych wydarzeniach, takich jak huragan Katrina. Podobnie jak inne archiwa, przechowywane są także kopie danych i podejmuje się działania mające na celu utrzymanie czytelności informacji mimo zmian formatów. Z kolei archiwum prowadzone przez amerykańskie Centrum Naukowo-Obserwacyjne Zasobów Ziemskich stara się migrować do nowych nośników co trzy do pięciu lat. W ten sposób archiwum chce uniknąć wykorzystywania rozwiązań, które nie są wspierane przez dostawcę. Corocznie przeprowadzane są tam badania na temat rynku i perspektyw rozwoju mediów składowania danych.

Jak odczytać dane

O ile migracja danych między nośnikami jest stosunkowo prostym zabiegiem, nie można tego powiedzieć o zachowaniu formatu danych. Ze względu na postęp techniczny stare, zamknięte formaty odchodzą do lamusa i dokumenty w nich zapisane stają się nieczytelne. Dla dokumentów tekstowych najlepszym formatem jest obecnie XML, ale w przypadku innych danych należy regularnie dokonywać konwersji do aktualnie popularnego formatu.

Problem dotyczy także Polski. Przykładem może być archiwum zawierające arkusze kalkulacyjne i dokumenty tekstowe pochodzące z programów QR-Plan i QR-Tekst. Oprogramowanie to było niegdyś popularne także w instytucjach państwowych, a obecnie żaden z pakietów Office nie potrafi otworzyć takiego pliku, zatem informacje stają się niedostępne, mimo że sam plik można odczytać z nośnika.

Problem jest znacznie poważniejszy w przypadku formatów graficznych oraz baz danych. W takim przypadku firma musi posiadać informację na temat aktualnie stosowanego formatu i obserwować jaki format jest aktualnie najpopularniejszy. Migracji należy dokonywać we właściwym momencie, gdy jeszcze oprogramowanie konwertujące jest dostępne. Najmniej problemów sprawiają przy tym dokumenty zapisane w otwartych formatach, takich jak OpenDocument.

Kosztowne archiwum filmów

Przemysł filmowy, który przez całe dekady doskonale radził sobie z taśmą filmową, doznał szoku związanego z przejściem na technologię cyfrową, która nie zapewnia trwałości przechowywania danych. W poprzedniej epoce można było z powodzeniem założyć, że kopia filmu przechowywana na taśmie może przetrwać sto lat. Nawet stare, celuloidowe filmy mają taką trwałość, przy czym kopia nie wymaga żadnej konwersji przy przechowywaniu w optymalnych warunkach. O wiele niższe są także koszty tradycyjnego archiwum. Badania przeprowadzone przez amerykańską Akademię Sztuki i Techniki Filmowej udowadniają, że długoterminowy koszt przechowywania głównej kopii komercyjnego filmu na taśmie wynosi 1059 USD rocznie. Tymczasem składowanie filmu w postaci elektronicznej podnosi ten koszt aż 11 razy - do 12514 USD rocznie. Tak duża różnica wynika stąd, że w technologii cyfrowej należy co 3 do 5 lat dokonywać migracji między standardami, formatami i mediami.

Jak oryginał

Archiwista musi zachować autentyczną kopię informacji, zatem należy wprowadzić system opisu z użyciem skrótów kryptograficznych. Ponadto należy zachować oryginalny format, gdyż niekiedy konwersja powoduje zmiany w charakterystyce dokumentu lub atrybutach treści (na przykład zmienia formatowanie tekstu). Właśnie z tych powodów nagrania znajdujące się w cyfrowym archiwum Polskiego Radia są przechowywane w bezstratnym formacie, zapewniającym odtworzenie materiału maksymalnie zbliżonego jakością do oryginału. Razem z dokumentem przekonwertowanym do jakiegoś uniwersalnego formatu przechowuje się wszystkie jego metadane, oryginalne informacje w cyfrowej postaci i dodatkowe informacje. Całość kompresuje się za pomocą ustalonego, udokumentowanego algorytmu.


TOP 200