Skazani na archiwum

Od archiwizacji na masową skalę nie ma już ucieczki. Firmy będą przechowywać coraz więcej coraz bardziej różnorodnych danych przez coraz dłuższy czas. Nowe technologie pomogą złagodzić tę boleść, ale tylko nieznacznie. Kluczowe koncepcje trzeba będzie wypracować samodzielnie.

Od archiwizacji na masową skalę nie ma już ucieczki. Firmy będą przechowywać coraz więcej coraz bardziej różnorodnych danych przez coraz dłuższy czas. Nowe technologie pomogą złagodzić tę boleść, ale tylko nieznacznie. Kluczowe koncepcje trzeba będzie wypracować samodzielnie.

Bez względu na ceny rozwiązań opartych na dyskach twardych, systemy archiwizacyjne wykorzystujące tradycyjne nośniki - taśmy magnetyczne i płyty optyczne - nie znikną z dnia na dzień. Firmy i instytucje rządowe na całym świecie zainwestowały w opartą na nich infrastrukturę miliardy dolarów - zakupiły rozwiązania, dostosowały oprogramowanie, przeszkoliły personel. Rewolucji nie będzie. Wszystko wskazuje jednak na to, że będzie wielka ewolucja. W ciągu ostatnich kilku lat znacznie zmieniły się potrzeby firm w zakresie archiwizacji.

Archiwizacja na poważnie

Kiedyś archiwizowano dane w pewnym sensie dla zasady: "a nuż dane się przydadzą". W praktyce potrzeba sięgania do danych starszych niż np. 3-5 lat w zasadzie nigdy nie występowała. Sprawy nieco się zmieniły, ale dopiero niedawno - pod koniec lat 90., gdy na rynku pojawiły się hurtownie danych i narzędzia analityczne OLAP. Lawinowo wzrastająca moc obliczeniowa procesorów Intela i rosnąca pojemność macierzy pozwoliła budować relatywnie niedrogie systemy analityczne zdolne tworzyć analizy trendów na podstawie danych z wielu lat wstecz. Pojawił się dobry powód, by dane jednak przechowywać dłużej - nawet dziesięć lat.

W przypadku banków, a zwłaszcza ubezpieczalni, dane będą prawdopodobnie przechowywane kilkadziesiąt lat. Dzięki ich porównaniu z danymi bieżącymi z czasem będzie można opracowywać coraz lepsze modele statystyczne. W tych przypadkach archiwizacja jest decyzją dobrowolną i ma długofalową wizję biznesową. Kamyczek do archiwizacyjnego ogródka coraz częściej zaczynają jednak dorzucać ustawodawcy. Obowiązek przechowywania danych o transakcjach przez pięć lat od zakończenia roku kalendarzowego, w którym się odbyły, już daje się firmom we znaki.

Plasmon-G - kilkadziesiąt terabajtów na płytach MO, z których każda ma pojemność 30 GB

Plasmon-G - kilkadziesiąt terabajtów na płytach MO, z których każda ma pojemność 30 GB

To wszystko jednak nic w porównaniu z tym, co nadejdzie. Mając na względzie ewentualne wykorzystanie dokumentów elektronicznych jako materiał dowodowy, prawodawcy na całym świecie chcą, aby obowiązek przechowywania danych przez dłuższy czas rozszerzyć na inne nietransakcyjne obszary, takie jak poczta elektroniczna czy systemy interakcji z klientami. W tym ostatnim przypadku coraz bardziej realne staje się np. widmo obowiązkowego archiwizowania nie tylko dokumentów tekstowych, ale też rozmów telefonicznych z klientami.

Samo archiwizowanie danych już zresztą nie wystarczy. Coraz częściej do danych sprzed lat trzeba sięgać ad hoc. Dane transakcyjne to być może zły przykład, ale stary e-mail albo umowa to już całkiem prawdopodobne obiekty poszukiwań. Nie wszystkie rozwiązania archiwizacyjne spełnią tak wyśrubowane oczekiwania. Problem leży nie tylko w tym, ile czasu zajmie dotarcie do właściwych informacji na takim czy innym nośniku, ale także w możliwości indeksowania i wygodnego przeszukiwania archiwów. Kwestią, która bardzo często uchodzi uwagi, jest bezpieczeństwo gromadzonych archiwów. Jeżeli bowiem dostęp do zarchiwizowanych informacji ma być łatwiejszy, prostsze stanie się także potencjalne manipulowanie nimi.

Taśma dzieli i rządzi

Rosnący wolumen danych skłania firmy do wybierania systemów archiwizacyjnych zapewniających niski koszt przechowywania 1 GB danych. Pod tym względem taśma wciąż sprawdza się znakomicie. Systemy taśmowe zgodne z otwartym standardem LTO 2 oferują surową pojemność 200 GB na jednym nośniku (400 GB przy standardowej kompresji 2:1). W przyszłym roku na rynku pojawią się produkty zgodne ze specyfikacją LTO 3 pozwalające zapisać do 800 GB na jednej taśmie (po kompresji).

Konkurencyjne wobec LTO rozwiązania SDLT nie ustępują im osiągami. Oferowane dziś produkty SDLT 600 pozwalają zapisać na jednej taśmie do 300 GB bez kompresji (600 GB z kompresją 2:1). Liderem pojemności jest jednak Sony, której system SAIT już obecnie pozwala zapisać na jednej taśmie 500 GB bez kompresji! Na drugą połowę br. O-Mass - spółka zależna Tandberg Data - przewiduje premierę długo zapowiadanych napędów mających umożliwić zapis 1,2 TB danych na jednym nośniku (bez kompresji) z prędkością 64 MB/s.

Podobnie jak w 2002 r., w ub.r. największą popularnością cieszyły się rozwiązania LTO - wg szacunków Gartner Group sprzedano ponad 260 tys. napędów LTO, a więc o ok. 50% więcej niż rok wcześniej. Sprzedaż napędów SDLT zamknęła się na poziomie 123,5 tys. sztuk wobec ok. 109 tys. w 2002 r. Równolegle zmniejszyła się jednak liczba sprzedanych bibliotek taśmowych. Według firmy analitycznej Freeman Reports w 2003 r. sprzedano ok. 62 tys. bibliotek, tj. ok. 5% mniej niż w 2002 r. Według tego samego źródła w 2004 r. popyt powinien wynieść ok. 67 tys. sztuk. Wartość światowego rynku bibliotek stanowiła w ub.r. ok. 1,7 mld USD.

EMC CX700 Disk Library - macierz emulująca biblioteki taśmowe (na razie tylko firmy ADIC)

EMC CX700 Disk Library - macierz emulująca biblioteki taśmowe (na razie tylko firmy ADIC)

Równocześnie rośnie sprzedaż rozwiązań dyskowych. Wzrost zainteresowania systemami dyskowymi to bezpośrednia konsekwencja wzrostu ilości przetwarzanych danych i skracających się okien back-upowych. Na fali zainteresowania szybkimi, a jednocześnie pojemnymi i coraz tańszymi dyskami powstała nowa kategoria rozwiązań dyskowych emulujących biblioteki taśmowe. Pozwalają one firmom przyspieszyć kopiowanie danych bez wprowadzania zmian w oprogramowaniu. Nie chcąc zasypiać gruszek w popiele, do produkcji systemów dyskowych wzięli się dostawcy rozwiązań taśmowych.

Przykładem są tu np. rozwiązania Quantum DX30 i DX100 (w Polsce oferuje je Tandberg Data), biblioteki REO 4000 firmy Overland Storage (w Polsce firmę tę reprezentuje Alstor). Najnowszym rozwiązaniem tego typu jest wprowadzony ostatnio system EMC Clariion Disk Library oparty na macierzy Clariion CX700 (na zdjęciu). EMC pozycjonuje go jako system do konsolidacji bibliotek, umożliwia bowiem emulowanie do 32 bibliotek zawierających łącznie do 256 napędów. Doszło do tego, że dyski są montowane bezpośrednio w bibliotekach taśmowych. Dotyczy to zwłaszcza bibliotek z najwyższego segmentu rynku jak ADIC i2000 czy Storage PowderHorn, ale nie tylko. Rozwiązania łączące taśmy i dyski w jednej obudowie i zarządzane za pomocą tego samego oprogramowania, a przeznaczone dla małych i średnich firm oferuje Tandberg Data.

Czy systemy dyskowe zastąpią rozwiązania taśmowe? W zastosowaniach backupowych jest to całkiem prawdopodobne. Jeżeli upowszechni się funkcjonalność polegająca na bieżącym wykonywaniu kopii każdej operacji dyskowej, np. usługi VSS w Windows Server 2003, taśma może dla wielu (choć nie dla wszystkich) okazać się zbędna. Losy taśmy jako nośnika archiwizacyjnego, podobnie jak płyt magnetooptycznych (MO), będą zależeć od indywidualnych potrzeb firm.

Tam, gdzie będzie istnieć potrzeba relatywnie częstego odwoływania się do danych archiwalnych, np. w urzędach, służbie zdrowia czy w instytucjach finansowych, taśmy i płyty optyczne będą z czasem przegrywać z dyskami twardymi z powodu szybkości dostępu do danych. To ta grupa klientów będzie zainteresowana zakupem dyskowych rozwiązań archiwizacyjnych w rodzaju EMC Centera (pisaliśmy o tym szerzej w CW 20/2002). Tam, gdzie potrzeba sięgania do danych sprzed lat będzie występować sporadycznie, a więc w większości firm, taśma raczej utrzyma swoją pozycję ze względów ekonomicznych.


TOP 200