Utrwalanie z zasadami

Problem z archiwizacją, wbrew temu, co próbują nam wmówić dostawcy, nie polega na rozwiązaniu dylematu związanego z nośnikami. Naprawdę ważne są pytania o cel archiwizacji, zakres danych oraz organizację całego procesu.

Problem z archiwizacją, wbrew temu, co próbują nam wmówić dostawcy, nie polega na rozwiązaniu dylematu związanego z nośnikami. Naprawdę ważne są pytania o cel archiwizacji, zakres danych oraz organizację całego procesu.

Że archiwizować trzeba, wiedzą wszyscy. Jedni muszą, inni lubią, według jeszcze innych to się po prostu opłaca. Cel archiwizacji przesądza tak naprawdę o wszystkich innych czynnikach, jak zakres danych, procedury wykonawcze i weryfikacyjne oraz oczywiście technologia. Rozpoczęcie analizy od wyboru technologii albo dostawcy nie doprowadzi do optymalnego rozwiązania - to pewne. Przed zaproszeniem dostawców na prezentacje warto poświęcić czas, by bez pośpiechu i w porozumieniu z użytkownikami biznesowymi przyszłego archiwum wypracować spójną listę wymagań.

Po co archiwizować

Archiwizacja nie jeden ma cel. W większości firm występować będzie kilka celów równolegle i to trzeba wziąć pod uwagę. Przykładowo, prywatna klinika musi archiwizować informacje o pacjentach, przebiegu leczenia, podawanych lekach, dawkach itp. Równocześnie klinika podlega prawu o rachunkowości, które wymaga składowania dokumentów finansowych przez co najmniej 5 lat.

Niezależnie od tego dział biznesowy kliniki może gromadzić dane na temat kosztów leczenia według określonych procedur medycznych i prowadzić na danych z wielu lat analizy porównawcze. Jeśli klinika jest podmiotem z udziałem kapitału amerykańskiego, prawdopodobnie prowadzi znacznie bardziej szczegółową rejestrację przebiegu leczenia i będzie ją przechowywać nie kilka, tylko kilkadziesiąt lat.

Cel archiwizacji zwykle wskazuje na długość okresu przechowywania danych oraz w dużej mierze na to, jaki powinien być ich zakres i szczegółowość. Cel określa także, jak często dane będą odczytywane. W przypadku archiwizacji na podstawie obowiązku prawnego dane zwykle odczytywane są rzadko, np. przy okazji kontroli lub audytu wewnętrznego.

Dane gromadzone dobrowolnie są zwykle odczytywane częściej, co jednak nie znaczy, że będą często pobierane z archiwum. Mogą być przecież jednorazowo kopiowane z archiwum do systemów analitycznych lub trafiać do nich jeszcze zanim zostaną umieszczone w archiwum. Inaczej sprawę widzieć będą wielkie korporacje, inaczej uniwersytety, a jeszcze inaczej małe i średnie firmy. Różne będą bowiem priorytety, a skala będzie tylko jednym z wielu kierunkowskazów.

Co archiwizować

Dane to pojęcie bardzo ogólne. Mieszczą się w nim dokumenty stworzone w edytorze tekstu, arkusze kalkulacyjne, bazy danych, wydruki... Nawet jeśli wyłączyć z rozważań te ostatnie, powstaje pytanie: czy archiwizować dane w oryginalnym (egzotycznym) formacie, który w przyszłości (zwłaszcza dalszej) może nie być wspierany, czy też może konwertować je do jakiegoś formatu uniwersalnego.

Takie sprawy trzeba ustalić od razu - masowa konwersja danych wiąże się z zakupem i utrzymaniem wydzielonego systemu zajmującego się tym właśnie, jak również z opłaceniem administratora, który będzie czuwać, by konwersja przebiegała właściwie. A jeśli nie konwersja, to czy w archiwum umieszczać od razu binaria aplikacji, za pomocą których plik był modyfikowany? Tyle że aplikacja też nie jest słowem precyzyjnym - bardzo często nie jest to program, lecz wielki wieloaplikacyjny system, w którym logika i opis struktury danych są całkowicie rozdzielne.

Każda postać danych elektronicznych żyje, tzn. jest na przestrzeni czasu aktualizowana. Rekordy w bazach danych są nadpisywane, dokumenty stają się szablonami dla innych dokumentów, są wymieniane za pośrednictwem poczty elektronicznej itd. Którą wersję zarchiwizować? Każdą? Z wiadomościami e-mail to nie problem, ale w systemie plików jest to co najmniej karkołomne. Może więc po prostu zapisywać wszystkie dokumenty określonej kategorii każdego dnia wieczorem? Niektóre firmy działają 24/7 i tu bez kopii błyskawicznych się nie obejdzie.

Kolejna sprawa to poziom abstrakcji, na którym ma odbywać się archiwizacja. Kiedyś można było archiwizować zawartość całych wolumenów na poziomie blokowym. Dziś i w przyszłości ta metoda nie zda egzaminu. Po pierwsze dlatego, że "archiwizacja w stylu amerykańskim" (tam powstaje gros rozwiązań do archiwizacji i tam najprężniej powstaje prawo wymuszające ją) zakłada, że zapisywane są wszystkie zmiany. Po drugie, wymaga wielkiej pojemności od systemu pamięci masowych - nawet wtedy, gdy archiwum zawiera pełną kopię danych oraz pliki z historią zapisów w formie kopii typu "copy-on-write".

Jak archiwizować

Pytanie, jak archiwizować dane, odnosi się także do kwestii poruszonej wcześniej, czyli częstości sięgania po nie. Jeśli danych jest dużo, a z biegiem czasu na pewno będzie, trzeba zapewnić możliwość ich sprawnego odnalezienia. W tym celu dane muszą zostać zapisane w repozytorium, które to umożliwia. Nie będzie to wielka baza danych, a raczej system plików z mechanizmami wyszukiwania lub rozwiązanie, które potrafi system plików skutecznie zaindeksować.

Pytanie, czy indeksy mają być tworzone na podstawie metadanych opisujących plik, czy też pełnotekstowo. Im częściej dane będą odczytywane z archiwum, tym bardziej rozsądnie jest zastosować to drugie podejście. Ale... może zastosować obiektowy system plików, który jednoznacznie zidentyfikuje każdy plik bądź jego fragment? Tu także powstaje pytanie o skalowalność systemu plików wykorzystywanego na potrzeby archiwum - dziś być może wystarczającą, ale w przyszłości? Pytania o architekturę trzeba stawiać jak najwcześniej, zanim skalowalność stanie się problemem.

Kolejna kwestia: czy dane powinny być szyfrowane? To zależy od celu archiwizacji. Jeśli sprawa dotyczy danych wrażliwych lub poufnych, z pewnością tak, ponieważ system kontroli dostępu może nie wystarczyć. Trzeba jeszcze rozważyć, czy szyfrować tylko dane, czy również indeksy. Jeśli decyzja o szyfrowaniu zostanie podjęta, pojawia się nowy problem, związany z budową całej infrastruktury do szyfrowania danych i ich bezpiecznego odczytu w razie potrzeby. Nie tylko dziś - również w przyszłości.

W przypadku firm rozproszonych wyzwaniem jest ustalenie topologii i zasad działania systemu archiwizacji. Archiwizacja może być prowadzona na podstawie danych online, albo kopii zapasowych, lokalnie (w oddziałach) lub też na podstawie danych na bieżąco replikowanych do centrali, co w wielu wypadkach może być rozsądniejsze finansowo, choć też - nie w każdym przypadku.

Na co archiwizować

Pytania dotyczące nośników danych przeznaczonych do archiwizacji znajdą odpowiedź dopiero po wskazaniu satysfakcjonujących odpowiedzi na powyższe pytania. Całkiem prawdopodobne, że sztuczny dylemat "dysk czy taśma" przestanie mieć znaczenie w obliczu faktu, że coraz więcej firm będzie stosować obie technologie jednocześnie. Oprogramowanie już dziś potrafi skopiować dane na odpowiedni nośnik, w zależności od tego, jak długo mają być przechowywane. Może nawet automatycznie przenosić dane między nośnikami - zgodnie z tym, jak często pojawiają się żądania odczytu.

Nawet jednak przy wyborze nośnika trzeba pozostać czujnym i nie ulegać stereotypom. Przykładowo, dyski generalnie oferują dobrą wydajność, z długowiecznością są jednak na bakier. Ale współczesne dyski SATA można automatycznie wyłączać, więc wcale nie jest powiedziane, że ich trwałość jest ograniczona. Poza tym dzięki dyskom można stosunkowo łatwo uzyskać zabezpieczenie danych przed awarią nośnika i okresową weryfikację spójności danych.

Taśmy oferują dobry współczynnik pojemności do ceny, ale w połączeniu z koniecznymi do ich odczytu napędami taśmowymi ich cena już tak nie zachwyca. Jako medium z definicji offline taśmy są mniej wymagające pod względem kosztów energii zużywanej na utrzymanie archiwum, ale jednocześnie są mniej trwałe. Nośniki o podwyższonej trwałości są bardzo kosztowne.

Nośniki optyczne jako takie mają niską cenę, ale w wersach popularnych. Do zastosowań archiwizacyjnych typowe nośniki CD-R/DVD-R i podobne niezbyt się nadają, zwłaszcza jeśli chodzi o zapis długoterminowy - to wciąż niesprawdzona technologia. Ale nośniki magnetooptyczne - to już inna klasa jakościowa, ale również cenowa. Barierą bywa cena napędów i bibliotek z robotyką.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200