Dane spięte w archiwum

W macierzy Centera EMC zastosowała nowatorską technologię zarządzania treścią. Czy koncepcja Content Addressed Storage przyjmie się w rozwiązaniach archiwizacyjnych?

W macierzy Centera EMC zastosowała nowatorską technologię zarządzania treścią. Czy koncepcja Content Addressed Storage przyjmie się w rozwiązaniach archiwizacyjnych?

Dane spięte w archiwum

Koncepcja CAS - Content Addressed Strorage

Nowa macierz wyprodukowana przez EMC jest przeznaczona dla firm, które przechowują i udostępniają duże ilości danych archiwalnych. Na liście potencjalnych klientów EMC zainteresowanych macierzą Centera są m.in. instytucje finansowe, przechowujące korespondencję z klientami, firmy medialne, a także instytucje ochrony zdrowia, archiwizujące zdjęcia rentgenowskie, wyniki USG itp.

Szybko i tanio

Do przechowywania danych archiwalnych najczęściej są wykorzystywane pojemne, a przy tym stosunkowo tanie biblioteki taśmowe lub optyczne. Coraz częściej dane archiwalne muszą być jednak udostępniane online, co sprawia, że tradycyjne metody ich przechowywania stają się zbyt mało wydajne. Najszybsze rozwiązania taśmowe (np. biblioteki z napędami typu 9840) zapewniają średni czas dostępu do danych rzędu 10 s - oczywiście pod warunkiem że taśma znajduje się w napędzie.

Aby zwiększyć wydajność archiwum, EMC proponuje częściową rezyg- nację z taśm i dysków optycznych na rzecz dysków twardych. Ponieważ nie jest potrzebna wydajność spotykana w macierzach obsługujących aplikacje transakcyjne, firma zastąpiła dyski SCSI znacznie tańszymi dyskami z interfejsem IDE, a złącza Fibre Channel - technologią Ethernet. W efekcie Centera jest kilkakrotnie tańsza niż tradycyjna macierz wyprodukowana przez tę firmę. Według wyliczeń EMC, cena rozwiązania wynosi 0,045 USD za megabajt pojemności użytkowej. Za pojedynczą szafę w pełnej konfiguracji wraz z oprogramowaniem (9,6 TB pojemności użytkowej, 19,2 TB "surowej") trzeba zapłacić ok. 423 tys. USD. Wydaje się że to dużo, ale dla porównania, macierz EMC Symmetrix o podobnej pojemności kosztuje 1,5-2,5 mln USD.

EMC nie pozycjonuje Centery jako zamiennik systemów taśmowych czy optycznych, lecz raczej jako rozwiązanie uzupełniające. Centera może też spełniać funkcję systemu buforowego, udostępniającego zasoby bibliotek taśmowych czy optycznych.

Spinacz zamiast ścieżki

Zastosowanie dysków IDE i Ethernetu nie jest jednak nowe - rozwiązania typu NAS oferuje większość producentów. Atutem Centery, ważniejszym w tym przypadku niż sprzęt, jest wbudowane linuxowe oprogramowanie do zarządzania treścią CentraStar. EMC stworzyła je z wykorzystaniem rozwiązań pierwotnie opracowanych przez niewielką belgijską firmę FilePool, przejętą wiosną ub.r.

Choć Centera posiada system plików, to nie udostępnia go aplikacjom. Podczas zapisu pliku oprogramowanie wykonuje 128-bitowy skrót dokumentu, stanowiący jego unikalny adres, tzw. CA - Content Address (stąd nazwa rozwiązania - Content Addressed Storage). CA jest następnie osadzany w dokumencie XML wraz z informacjami podanymi przez aplikację, np. nazwą aplikacji, nazwiskiem użytkownika, godziną zapisu, numerem wersji itp. Dokument ten nazywa się C-Clip Descriptor File - CDF. W kolejnym kroku oprogramowanie macierzy wykonuje skrót pliku CDF - tzw. C-Clip i wysyła go do aplikacji. Ta zaś zapisuje go w swojej bazie danych. Proces odczytu danych wygląda następująco: aplikacja wysyła skrót C-Clip do macierzy, gdzie jest on kojarzony z plikiem CDF, zawierającym właściwy adres pliku.

Czemu służy ta wielostopniowość? Ten sam dokument może być używany przez wiele aplikacji, dla każdej z nich tworzony jest plik CDF, a na jego podstawie skrót C-Clip. Dzięki temu mechanizmowi duży załącznik pocztowy wysłany do 10 użytkowników będzie przechowywany w macierzy nie w 10 kopiach, lecz w postaci jednej kopii z 10 niewielkimi odnośnikami.

Skróty to jedyny sposób identyfikacji dokumentów w macierzy. Ma to daleko idące konsekwencje. Po pierwsze, aplikacja nie musi znać ścieżki dostępu do swoich danych, co umożliwia ich swobodne przemieszczanie w ramach macierzy. Po drugie, zapobiega to przypadkowemu nadpisaniu dokumentu przez nową wersję - zmiana dokumentu choćby o jeden bit powoduje wygenerowanie jego nowej wersji z przypisanym do niej nowym skrótem CA. Po trzecie, system unikalnych adresów stwarza prosty, lecz skuteczny mechanizm bezpieczeństwa - aby uzyskać dostęp do pliku, trzeba znać jego numer. Innej metody dostępu do danych nie ma.

API zamiast dysków

Komunikacja aplikacji z macierzą Centera odbywa się wyłącznie poprzez interfejsy API. Interfejsy wysokiego poziomu pozwalają na zapis i odczyt za pośrednictwem odwołań w języku C. Niskopoziomowe interfejsy API - dostępne zarówno dla C i Javy - umożliwiają m.in. tworzenie własnych znaczników XML w dokumentach CDF, użycie kilku różnych sposobów dostępu do plików itp. API są dostępne w formie bibliotek dla środowisk Windows NT/2000, Solaris i Linux. Wkrótce mają się pojawić wersje dla systemów AIX, HP-UX i kilku innych.

EMC twierdzi, że udało się jej pozyskać ponad 30 partnerów - dostawców aplikacji dla pamięci masowych, którzy włączają API CentraStar do swoich rozwiązań (m.in. Legato Systems, Quest Software, FileTek, Fujitsu).

Węzły, klastry, domeny

Macierze Centera można skalować zarówno pod kątem pojemności, jak i wydajności. Każda szafa może pomieścić do 32 urządzeń zawierających po 4 dyski 160 GB. Szesnaście szaf tworzy klaster, a siedem klastrów - jedną, centralnie zarządzaną domenę o maksymalnej pojemności użytkowej nieco powyżej 1 petabajta (2 petabajty pojemności "surowej").

W ramach pojedynczej szafy można utworzyć maksymalnie 16 węzłów. Każdy z nich składa się z pary urządzeń zapisujących dane w trybie lustrzanym. Węzły można skonfigurować na jeden z dwóch sposobów: jako front-end lub jako backend. Urządzenia frontowe spełniają funkcję bufora dla danych przechowywanych "na zapleczu" - liczbę zarówno jednych, jak i drugich można dowolnie zmieniać.

Urządzenia frontowe są połączone z zapleczem za pomocą zwielokrotnionych interfejsów Fast Ethernet, natomiast szafy - zdwojonych łączy Gigabit Ethernet. Choć na jedną szafę przypada jedynie 8 zewnętrznych interfejsów Fast Ethernet, EMC twierdzi, że rozwiązanie zapewnia czas odpowiedzi poniżej 1 s.đ

Nietypowe wsparcie za oceanem

Centera jest rozwiązaniem prawie bezobsługowym. Administrator systemu ma do dyspozycji jedynie proste narzędzia pozwalające udostępnić urządzenia w sieci firmowej oraz monitorować obciążenie. W związku z tym EMC zdecydowała się wprowadzić w USA nietypowy program wsparcia technicznego.

W razie awarii Centera samodzielnie izoluje uszkodzone elementy i przenosi dane na wolne dyski. Serwisanci EMC dokonają wymiany wadliwych komponentów podczas najbliższej wizyty: z reguły raz na 6-12 miesięcy. Klientowi pozostaje więc jedynie określenie maksymalnej pojemności macierzy. Koszt takiego wsparcia wynosi 0,025 USD za megabajt "surowej" powierzchni dyskowej. Tradycyjna obsługa serwisowa jest dostępna opcjonalnie, za dodatkową opłatą.

Nie wiadomo jeszcze jaki model wsparcia technicznego urządzeń Centera zaproponuje klientom polski oddział EMC.


TOP 200