Nietrwałe cyfrowe archiwum
- 07.09.2010
Im dłuższy czas przechowywania danych w postaci cyfrowej, tym większe ryzyko ich utraty i trudności z odczytaniem. Jak sobie z tym radzić?
Ciekawym przykładem problemów z cyfrową technologią po latach, był projekt BBC Domesday, zainicjowany w 1986 r. dla upamiętnienia dziewięćsetnej rocznicy oryginalnego spisu Domesday Book. Dostarczone teksty, zdjęcia oraz filmy zostały opublikowane na laserowym nośniku w standardzie LV-ROM firmy Philips. Format ten, dziś zupełnie nieznany, wywodził się z nośników wideo LaserDisc, które zostały całkowicie wyparte przez dzisiejsze nośniki CD-ROM i DVD. Po niecałych 25 latach odczytanie tych informacji z oryginalnego nośnika wymaga specjalnych urządzeń, niedostępnych już na rynku oraz odpowiedniego oprogramowania emulującego pracę czytnika LV-ROM firmy Philips i ośmiobitowego komputera osobistego Accorn BBC Master, który synchronizował obraz z tekstem. Aby odtworzyć i udostępnić zarchiwizowane informacje, Centrum Historii Techniki Obliczeniowej w Haverhill posiada działający emulator i ma nadzieję, że komplet zasobów z nośnika zostanie opublikowany w Internecie. Tymczasem oryginał Domesday Book, spisany ręcznie na wyprawionej skórze owczej, nadal jest czytelny, mimo że został sporządzony 900 lat temu.
Jak odczytać dane
O ile migracja danych między nośnikami jest stosunkowo prostym zabiegiem, nie można tego powiedzieć o zachowaniu formatu danych. Ze względu na postęp techniczny stare, zamknięte formaty odchodzą do lamusa i dokumenty w nich zapisane stają się nieczytelne. Dla dokumentów tekstowych najlepszym formatem jest obecnie XML, ale w przypadku innych danych należy regularnie dokonywać konwersji do aktualnie popularnego formatu.
Problem dotyczy także Polski. Przykładem może być archiwum zawierające arkusze kalkulacyjne i dokumenty tekstowe pochodzące z programów QR-Plan i QR-Tekst. Oprogramowanie to było niegdyś popularne także w instytucjach państwowych, a obecnie żaden z pakietów Office nie potrafi otworzyć takiego pliku, zatem informacje stają się niedostępne, mimo że sam plik można odczytać z nośnika.
Problem jest znacznie poważniejszy w przypadku formatów graficznych oraz baz danych. W takim przypadku firma musi posiadać informację na temat aktualnie stosowanego formatu i obserwować jaki format jest aktualnie najpopularniejszy. Migracji należy dokonywać we właściwym momencie, gdy jeszcze oprogramowanie konwertujące jest dostępne. Najmniej problemów sprawiają przy tym dokumenty zapisane w otwartych formatach, takich jak OpenDocument.
Kosztowne archiwum filmów
Przemysł filmowy, który przez całe dekady doskonale radził sobie z taśmą filmową, doznał szoku związanego z przejściem na technologię cyfrową, która nie zapewnia trwałości przechowywania danych. W poprzedniej epoce można było z powodzeniem założyć, że kopia filmu przechowywana na taśmie może przetrwać sto lat. Nawet stare, celuloidowe filmy mają taką trwałość, przy czym kopia nie wymaga żadnej konwersji przy przechowywaniu w optymalnych warunkach. O wiele niższe są także koszty tradycyjnego archiwum. Badania przeprowadzone przez amerykańską Akademię Sztuki i Techniki Filmowej udowadniają, że długoterminowy koszt przechowywania głównej kopii komercyjnego filmu na taśmie wynosi 1059 USD rocznie. Tymczasem składowanie filmu w postaci elektronicznej podnosi ten koszt aż 11 razy - do 12514 USD rocznie. Tak duża różnica wynika stąd, że w technologii cyfrowej należy co 3 do 5 lat dokonywać migracji między standardami, formatami i mediami.
Jak oryginał
Archiwista musi zachować autentyczną kopię informacji, zatem należy wprowadzić system opisu z użyciem skrótów kryptograficznych. Ponadto należy zachować oryginalny format, gdyż niekiedy konwersja powoduje zmiany w charakterystyce dokumentu lub atrybutach treści (na przykład zmienia formatowanie tekstu). Właśnie z tych powodów nagrania znajdujące się w cyfrowym archiwum Polskiego Radia są przechowywane w bezstratnym formacie, zapewniającym odtworzenie materiału maksymalnie zbliżonego jakością do oryginału. Razem z dokumentem przekonwertowanym do jakiegoś uniwersalnego formatu przechowuje się wszystkie jego metadane, oryginalne informacje w cyfrowej postaci i dodatkowe informacje. Całość kompresuje się za pomocą ustalonego, udokumentowanego algorytmu.