Nietrwałe cyfrowe archiwum

Na czym składować dane?

Dysk twardy zawodzi

Typowy dysk twardy dzisiejszego komputera nie zapewnia długotrwałego przechowywania danych. Przy gęstościach zapisu typowych dla dzisiejszych napędów, nawet pozostawienie dysku w archiwum nie sprawi, że dane będą dostępne przez długi czas. W miarę wydłużania czasu eksploatacji, zapis magnetyczny na dysku będzie stopniowo tracony w wyniku spontanicznego odwracania namagnesowania spowodowanego przez fluktuacje energii cieplnej. Zjawisko to nie jest problemem w krótkim horyzoncie czasowym, do około 10 lat, ale po tym czasie trudno określić prawdziwą trwałość zapisu na dyskach.

Taśma przetrwa wiele lat

Taśmy magnetyczne są tradycyjnie uznawane za bardzo trwały nośnik. Wynika to stąd, że gęstość zapisu na nośniku taśmowym jest o wiele mniejsza niż przy dyskach twardych. Taśmy udowodniły swoją trwałość już przez dziesiątki lat, problemem może być tylko dostępność odpowiednich napędów oraz zjawisko delaminacji, które wiąże się z oddzieleniem warstwy nośnika danych od podłoża. Z oddzielaniem warstwy magnetycznej poradzono sobie, opracowując specjalny proces termicznej obróbki nośnika przed odczytaniem danych i skopiowaniem na nową taśmę. Zatem prawdziwym problemem w przypadku taśm nie jest jedynie trwałość samego nośnika, ale napędów do jego odczytania. Przykładem może być inicjatywa odtworzenia taśm pochodzących z misji kosmicznych Apollo. Nośniki te są zachowane w bardzo dobrym stanie, ale poważnym problemem było uruchomienie napędu IBM 729 Mark V, który posłużył do odczytania danych.

Na mniejszą skalę dotyczy to także typowych archiwów elektronicznych, które co pewien czas przechodzą migrację do nowych napędów - razem z taką migracją musi iść w parze skopiowanie kompletu danych do nowych nośników. Proces ten jest czasochłonny, ale niezbędny, by zachować ciągłość przechowywanej informacji.

Nie korzystać z pendrive'a

Pamięci flash, takie jak popularne i niedrogie nośniki USB, nie zapewnią długotrwałego przechowywania danych. Trwałość zapisu w poszczególnych komórkach pamięci pozostawia wiele do życzenia. Podobnie w wyniku wieloletniego przechowywania, część danych ulegnie zamazaniu. Typowe pamięci USB nie posiadają zaawansowanych kontrolerów, tylko najprostsze, najtańsze. Ponadto nie można założyć, że za 20 lat komputery będą posiadały złącze kompatybilne z dzisiejszym USB. Zatem nawet w codziennych zastosowaniach, zewnętrzne pamięci USB powinny być wykorzystywane tylko do przechowywania danych w krótkim horyzoncie czasowym.

Płyty mają swoje wady

Nagrywalne płyty CD i DVD nigdy nie były uznawane za bardzo trwały nośnik, wbrew reklamom ich producentów. Przyspieszone testy starzenia płyt przeprowadzane w Bibliotece Kongresu USA udowodniły, że występuje duża rozbieżność trwałości między różnymi egzemplarzami, nawet tej samej marki. Niektóre z tych płyt przetrwają 10 lat, inne znacznie krócej. Granicą w miarę bezpiecznego przechowywania informacji zapisanej na CD/DVD w optymalnych warunkach pomieszczeń archiwum jest około 5 lat. Nadal jednak nie wiadomo czy format CD/DVD przetrwa następne dekady, niemniej prawdopodobnie nie powinien odejść w szybkie zapomnienie, gdyż obecnie jest bardzo popularny. Zatem problemem przy długotrwałej archiwizacji danych na płytach DVD wydaje się być przede wszystkim niska trwałość nośnika oraz wysoka prędkość nagrywarek skutkująca gorszą jakością zapisu.

Dodatkową niedogodnością płyt jest wolny transfer danych, szczególnie przy zapisie. W porównaniu do napędów taśmowych, zapis na DVD jest co najmniej cztery razy wolniejszy i ma mniejszą pojemność, czyli nośnik musi być wymieniany co kilka gigabajtów. Zaletą nagrywalnych płyt jest ich niska cena i dostępność tanich napędów. Jest to zatem dobry nośnik do archiwizacji w firmach z sektora MSP, ale nie nadaje się do długotrwałego przechowywania danych.

Dużo kopii chroni dane

Dyski pracujące w serwerach działają non stop i cały czas przechowują dane, przy czym można zapewnić wysoką dostępność i ochronić system przed utratą informacji w przypadku awarii dysku. Aby uzyskać odporność na utratę pojedynczego węzła, opracowano projekt LOCKSS ("Lots of Copies Keep Stuff Safe" - ang. mnogość kopii chroni zasoby), który ma za zadanie utworzenie oprogramowania do bezpiecznego składowania danych w modelu peer to peer. Całe oprogramowanie jest tworzone w modelu open source. Obecnie w sieci LOCKSS współpracuje około 200 bibliotek, głównie uniwersyteckich. Każda z bibliotek wybiera materiał z listy lub uzyskuje zgodę na archiwizację samodzielnie. Do składowania danych wystarczy zwykły pecet, wyposażony w pojemne dyski. Oprogramowanie przegląda źródła i kopiuje materiał do lokalnych zasobów, jednocześnie stając się lokalnym serwerem pośredniczącym (proxy). Maszyny współdziałające w sieci LOCKSS porównują swoje zasoby i naprawiają je w miarę potrzeb. Nie ma zatem konieczności przechowywania danych na taśmie, gdyż każdy z węzłów jest kopią bezpieczeństwa pozostałych z tej sieci. W praktyce minimalna liczba węzłów, która zapewni ochronę danych to sześć lub siedem.

Niestety, ciągła replikacja danych sprawia, że systemy peer to peer są niezbyt dobrym narzędziem do długotrwałego przechowywania informacji, gdyż nie zapewnią ochrony przed rozpropagowaniem błędów lub zmian. Zatem replikacja peer to peer jest bardzo dobrym narzędziem do przechowywania danych, ale w krótkim horyzoncie czasowym. Tego zdania jest nawet David S.H. Rosenthal, naukowiec zaangażowany w projekt LOCKSS.


TOP 200