Archiwum problemów

Archiwizacja danych staje się coraz większym wyzwaniem, przy czym pojemność i ceny nośników stały się problemami drugorzędnymi.

Archiwizacja danych staje się coraz większym wyzwaniem, przy czym pojemność i ceny nośników stały się problemami drugorzędnymi.

Tworzenie zapasowych kopii danych na wypadek awarii systemu to standardowa procedura wykorzystywana do zabezpieczania systemów IT. Jak jednak wykazują badania ankietowe przeprowadzone m.in. przez organizację AIIM (Association for Information and Image Management) i niektórych dostawców, użytkownicy często mylą systemy do backupu z systemami do archiwizacji danych. Efektem braku zrozumienia są nie zawsze całkiem trafne decyzje zakupowe i w konsekwencji wydatki większe, niż początkowo planowano.

Podstawowe problemy

Dość oczywiste jest to, że backup służy do względnie krótkotrwałego przechowywania bieżących informacji i danych transakcyjnych, które można dostatecznie szybko odtworzyć w razie awarii. Archiwizacja również służy do przechowywania danych, choć przez czas znacznie dłuższy, który często jest liczony w latach, a nawet dziesiątkach lat. Najważniejsze jest to, że system do archiwizacji powinien być wyposażony w mechanizmy selekcji, indeksowania, przeszukiwania, zabezpieczania i zarządzania danymi, które mają zasadniczą rolę dla jego użyteczności.

Inaczej niż w przypadku backupu, archiwizacja wymaga określenia, które dokumenty i pliki muszą być przechowywane i przez jaki czas. Przechowywanie wszystkiego lub zbyt długo jest niepotrzebnym obciążeniem zasobów. Wymaga także późniejszego, dostatecznie szybkiego udostępniania informacji (pojedynczych plików) osobom uprawnionym, co mogą zapewnić tylko efektywne mechanizmy indeksowania i wyszukiwania plików powiązane z własnymi lub zewnętrznymi mechanizmami zarządzania tożsamością.

Jednym z najważniejszych problemów współczesnej archiwizacji danych jest ich indeksowanie. Zwłaszcza wtedy, gdy przechowywane mają być tzw. pliki niemające struktury, jak grafika, dźwięk lub listy elektroniczne, a liczba użytkowników mających takie wymagania systematycznie rośnie. Producenci oprogramowania i sprzętu starają się dopasować do zmieniających się wymagań użytkowników. Z oczywistych względów łatwo można znaleźć informacje o ofercie znanych producentów. Często jednak warto poszukać wśród rozwiązań prezentowanych przez młode, innowacyjne firmy. Warto jednak przy tym zwracać uwagę na zgodność ze standardami.

Szperanie w metadanych

Organizacja SNIA (Storage Networking Industry Association) przygotowuje nowy standard XAM (eXtensible Access Method). XAM jest specyfikacją interfejsu API, który ma umożliwić szybkie przeszukiwanie informacji zapisanych w bazach przy wykorzystaniu metadanych skojarzonych z plikami tekstowymi, dźwiękowymi, graficznymi, a także listami e-mail przechowywanymi w systemach plików i innych repozytoriach.

W założeniu ma to być uniwersalny, abstrakcyjny standard ułatwiający przeszukiwanie treści niepodlegających edycji (fixed content) przechowywanych w dyskowych lub taśmowych pamięciach masowych dowolnego producenta. Implementacja XAM może istotnie przyspieszyć dostęp do zarchiwizowanych informacji, bo nie będzie wymagać pracochłonnego odtwarzania całej bazy danych, pozwalając na wyszukanie tylko pojedynczych niezbędnych plików.

Taki rozwiązania były dotychczas proponowane klientom przez różne firmy, jednak klienci obawiali się ich ze względu na brak jakiejkolwiek standaryzacji w tym zakresie. XAM i stojąca za nim idea uniwersalności uzyskała szerokie wsparcie ze strony producentów pamięci i oprogramowania. Według przedstawicieli SNIA 36 firm będących członkami tej organizacji współpracuje przy tworzeniu interfejsu XAM. Grupa zajmująca się opracowaniem standardu - SNIA Fixed Content Aware Storage Technical Working Group zapowiada pierwszą prezentację jego specyfikacji już na początku 2007 r.

Współpraca Microsoftu i EMC

Microsoft i EMC zapowiedziały integrację EMC Documentum i (w pierwszej kolejności SharePoint Portal Server 2007) w zakresie mechanizmów do zarządzania treścią. Jest to pierwsze znaczące ogłoszenie dotyczące współpracy między tymi firmami, choć - jak podkreśla Melissa Webster, analityk z IDC - wcale nie oznacza ono współpracy nad rozwojem technologii i kolejnych wersji oprogramowania.

Jednocześnie z planowaną na początek 2007 r. premierą Office 2007, EMC udostępni aktualizację pakietu Documentum, która umożliwi współpracę tego systemu z aplikacjami Microsoftu bez potrzeby aktualizacji tego oprogramowania lub modyfikacji baz danych.

Integracja jest dobrą wiadomością dla użytkowników oprogramowania obu tych firm, którzy nie będą musieli korzystać z dwóch różnych interfejsów i dwukrotnie logować się do systemów zarządzania treściami. Umożliwi ona m.in. wprowadzanie dokumentów tworzonych przy wykorzystaniu aplikacji Office bezpośrednio do repozytorium Documentum, automatycznie, przy wykorzystaniu zdefiniowanej przez administratora polityki lub też za pomocą funkcji udostępnianych przez interfejs SharePoint.

Microsoft wprowadził nowe funkcje: Content Services for SharePoint, która umożliwia dostęp do plików znajdujących się w repozytorium Documentum (odczyt, zapis, zarządzanie metadanymi i wirtualnymi dokumentami), oraz Archive Services for SharePoint, pozwalającą na ręczne lub automatyczne publikowanie archiwalnych treści przez SharePoint.

Szyfrowanie w standardzie

Jak już donosiliśmy, IBM i Sun Microsystems wprowadziły do swoich ofert pamięci taśmowe ze zintegrowanymi mechanizmami szyfrowania danych, a także oprogramowanie do zarządzania kluczami szyfrującymi.

Jeśli chodzi o streamery, dostępne są na razie tylko wysokiej klasy napędy taśmowe IBM TS1120 i Sun StorageTek Crypto-Ready T10000. Urządzenia te zawierają napędy z wbudowanymi procesorami na bieżąco szyfrującymi zapisywane na taśmach informacje. Tego rodzaju rozwiązanie jest wygodniejsze i tańsze od stosowania dodatkowego oprogramowania lub urządzeń typu appliance do zabezpieczania danych. Według IBM zwiększa ono cenę streamerów o ok. 10% (w USA napędy te kosztują 3,5 tys. USD). Napędy Sun T10000 mają cenę katalogową ok. 5 tys. USD.

Natomiast oprogramowanie do zarządzania kluczami szyfrującymi IBM Encryption Key Manager for Java jest oferowane bez dodatkowych opłat, ale jako element oprogramowania IBM Java Virtual Machine i IBM Tivoli Storage Manager dla systemów operacyjnych z/OS, AIX, i5/OS i Linux. Z kolei Sun oferuje zestawy sprzętowo-programowe Sun StorageTek Crypto Key Management Station kosztujące ok. 45 USD.

IBM zamierza udostępnić specyfikację swojej technologii szyfrowania dla organizacji LTO (Linear Tape Open) Consortium, która planuje wprowadzenie w przyszłym roku kolejnej wersji standardu LTO 4 obejmującej również mechanizmy szyfrowania danych.

Szyfrowanie wkracza też coraz szerzej do świata dysków. Fujitsu Computer Systems wprowadziła do sprzedaży dwa nowe modele dyskowych pamięci masowych - Eternus 8000 i 4000 - o pojemności do 1,4 PB i wyposażone w zintegrowane mechanizmy szyfrowania danych wykorzystujące 128-bitowy algorytm AES (Advanced Encryption Standard).

Urządzenia są odpowiednio 2,5- i 1,5-raza wydajniejsze od starszych modeli Eternus 6000 oraz 3000 i mogą współpracować z serwerami Solaris, HP-UX, AIX, Windows lub Linux.

Automatyczne indeksowanie EMC wprowadziła Infoscape, oprogramowanie łączące technologie przejętych wcześniej firm Legato, SMARTS i Documentum w jeden system. Infoscape umożliwia automatyczne analizowanie zawartości, daty utworzenia lub modyfikacji itp., a następnie indeksowanie i klasyfikowanie wszystkich plików CIFS (Microsoft Common Internet File System) oraz dokumentów przechowywanych w pamięciach NAS EMC Celerra.

Z kolei Index Engines zaprezentowała system eDiscovery Tape Engine analizujący treści zapisywane w pamięciach taśmowych i tworzący bazę danych zawierającą informacje o zawartości archiwizowanych plików. Rozwiązanie eDiscovery Tape Engine ułatwia i przyspiesza dostęp do informacji zapisanych na taśmach i jest niezależne od rodzaju streamera. System współpracuje z oprogramowaniem do backupu Tivoli, EMC/Legato lub Symantec Veritas, a jego katalogowa cena zaczyna się od 29 500 USD.

Dyski optyczne dla centrum danych

Hitachi Maxell opracowała dyski optyczne SVOD (Stacked Volumetric Optical Disc) o grubości zaledwie 0,1 mm, które mogą znaleźć zastosowanie do budowy systemów pamięci optycznych o pojemności rzędu terabajtów na jednym nośniku. Prototypy SVOD zostały ostatnio zaprezentowane podczas targów CEATEC w Japonii. Dyski wykorzystują standardową technologię DVD umożliwiającą zapis 4,7 GB danych na jednej płycie. Hitachi Maxell planuje opracowanie kaset o wysokości kilku centymetrów, które będą mieściły nawet 100 takich płyt. Zapewni to całkowitą pojemność jednego nośnika na poziomie przynajmniej 470 GB, choć pokazywano też nośniki o dwukrotnie większej pojemności. Zapis/odtwarzanie danych wymaga zastosowania specjalnych napędów wyposażonych w mechanizm automatycznego wysuwania pojedynczych dysków z kasety, a także system zapobiegający deformacji tak cienkiej płyty podczas obrotów. Ten ostatni problem firma rozwiązała, stosując płytkę podkładową z otworami, przez które wypompowywane jest powietrze, a wytwarzane w ten sposób podciśnienie powoduje dokładne przyleganie dysku do podłoża w czasie obrotów. Hitachi Maxell nie ujawnia na razie planów wprowadzenia na rynek tego typu rozwiązania, ale ewentualnie ma ono znaleźć zastosowanie przede wszystkim do budowy profesjonalnych, optycznych pamięci masowych.