Hurtownia, baza czy archiwum?

Projektując bazę danych czy hurtownię, trzeba pamiętać, że dane mają być przechowywane przez długie lata. Warto więc zapytać dostawcę, jak proponuje rozwiązać ten problem.

Projektując bazę danych czy hurtownię, trzeba pamiętać, że dane mają być przechowywane przez długie lata. Warto więc zapytać dostawcę, jak proponuje rozwiązać ten problem.

Jednym z celów hurtowni danych jest przechowywanie danych archiwalnych na temat operacji, jakich dokonywano w bazach transakcyjnych. Żaden rozsądny informatyk nie może jednak zapewnić, że będą one dostępne "po wieczne czasy" i zawsze w trybie online. Zwykle obiecuje się, że dane archiwalne będą dostępne w hurtowni, z pewnym opóźnieniem, w razie potrzeby. Ile lat należy przechowywać kopie archiwalne? Na jakim nośniku? Jaki sprzęt do archiwizacji danych zatrzymać, a jaki wymienić na nowszy?

Kilka lat temu zarchiwizowałem pakiet do składu tekstów TeX na dyskietkach za pomocą popularnego wówczas programu Fastback. Gdy po 2 latach chciałem go odtworzyć na nowym komputerze z Pentium, okazało się, że Fastback nie działa. Na szczęście miałem kopię na taśmie 1 GB i napęd przechowywany na dnie szafy. Nie rozwiązało to jednak problemu. Napędu taśmowego nie dało się zainstalować pod Windows 95. Z takimi problemami, tylko na znacznie większą skalę, na co dzień stykają się administratorzy.

Na dłuższą metę

Niektóre z danych trzeba będzie odtworzyć po 10, 20, 50, a nawet po 100 latach! Niestety, na razie nie rozwiązano problemu archiwizacji. Zacznijmy od nośników. Producenci taśm magnetycznych deklarują, że ich produkty zachowują informację przez 5-10 lat, chociaż zalecają przepisywanie jej na nowy nośnik co 5 lat. Bardziej optymistyczni są producenci CD, określający czas trwałości nośnika na dziesiątki lat, chociaż ich prognoz nikt nie przetestował.

Problemy te mogą wydawać się błahe, gdy przyjrzymy się stosowanym formatom danych, urządzeniom do odczytu i programom do ich obsługi. Gdzie można teraz znaleźć program do odczytu 0,5" taśm magnetycznych o małej gęstości, stosowanych kiedyś w minikomputerach i mainframe'ach? Żaden współczesny napęd ich nie odczyta. Nawet gdybyśmy taki znaleźli, nikt nie pamięta formatu kodowania i struktury danych. To obecnie równie trudny i archaiczny format, jak hieroglificzne pismo egipskie lub linearne pismo fenickie.

Standardy nie istnieją

Przyjmijmy, że wykazujemy ponadprzeciętną staranność i konsekwentnie kopiujemy bazę na nośniki magnetyczne w formatach zgodnych z aktualną technologią, a dawne taśmy przepisujemy na nowy format. Wcale nie daje to gwarancji odczytania danych, jeśli nie będziemy mieć systemu bazodanowego, umożliwiającego odtworzenie struktury informacji - tabel, indeksów, połączeń, referencji itp. Systemy zarządzania bazami rozwijają się i jednocześnie znikają z nich opcje nieprzydatne lub o małej funkcjonalności.

Można sobie też wyobrazić, że będziemy używać wyłącznie baz relacyjnych i systematycznie przenosić wszystkie dane na taśmę. Nawet stosowanie najmniejszego wspólnego mianownika istniejących obecnie baz relacyjnych (zapewne jest to podzbiór standardu SQL 89) nie zapewni dostępności danych. Kto zagwarantuje, że za 30 lat będą istniały bazy relacyjne? Czy ktoś przeniósł wszystkie dane z baz sieciowych z lat 60. do relacyjnych, gdy te ostatnie opanowały rynek?

Migracja danych do nowych wersji baz to rozwiązanie zapewniające dostęp do danych. Ma jednak tę wadę, że jest niesłychanie praco- i czasochłonna oraz może powodować utratę pewnych właściwości funkcjonalnych aplikacji. Co gorsza, nie wystarczy przeniesienie danych na nowe technologie i nośniki. Równie ważne jest przeniesienie informacji o strukturze danych (metadanych).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200