ILM - konkret czy marketing?

Information Lifecycle Management - spośród nowych haseł to niewątpliwie najbardziej rozpowszechnione wśród firm zajmujących się rozwiązaniami pamięci masowych. Przez wielu tłumaczone jako "it's lot of marketing", oficjalnie oznacza zarządzanie cyklem życia informacji. Opinie w branży wciąż są podzielone - jedni twierdzą, że ta idea nigdy nie zostanie zrealizowana, podczas gdy inni mówią, że pełne rozwiązania ILM już funkcjonują.

Information Lifecycle Management - spośród nowych haseł to niewątpliwie najbardziej rozpowszechnione wśród firm zajmujących się rozwiązaniami pamięci masowych. Przez wielu tłumaczone jako "it's lot of marketing", oficjalnie oznacza zarządzanie cyklem życia informacji. Opinie w branży wciąż są podzielone - jedni twierdzą, że ta idea nigdy nie zostanie zrealizowana, podczas gdy inni mówią, że pełne rozwiązania ILM już funkcjonują.

Na rosnącą w tak dużym tempie popularność systemów ILM mają wpływ głównie dwa czynniki - bardzo szybko zwiększające się koszty zarządzania pamięciami masowymi i konieczność zgodności z obowiązującym prawem na Zachodzie (magiczne słowo "compliance" otwiera tam wszystkie drzwi rozwiązaniom ILM), ale coraz częściej i w Polsce.

ILM opiera się na dwóch prostych obserwacjach - informacje mają różną wartość dla firm, a wartość ta zmienia się w czasie. Mając tę cechę na uwadze, część informacji można przenieść na wolniejsze i mniej bezpieczne, ale zdecydowanie tańsze nośniki. W niektórych przypadkach czynność ta daje przede wszystkim ogromne oszczędności, a także eliminuje potrzebę kupowania kolejnych drogich macierzy dyskowych, gdyż w pełni będą wykorzystane te, które już są przez firmę posiadane.

Rezultatem skutecznie wprowadzonego wdrożenia ILM jest odblokowanie systemów krytycznych dla funkcjonowania przedsiębiorstwa od zbędnych danych, stworzenie ich bardziej stabilnymi i wydajniejszymi. Możliwe jest zmniejszenie okna backupowego, krótsze są (lub wyeliminowane całkowicie) przestoje pamięci masowych, rzadziej konieczne są ich rozbudowy, spada też ogólny koszt zarządzania pamięciami masowymi.

O tym jak duże oszczędności może przynieść właściwe zarządzanie danymi przekonuje Piotr Szular, Technology Consultant w EMC Computer Systems: - Jeden z naszych klientów w Polsce miał 1 TB danych na bardzo drogich macierzach EMC Symmetrix udostępnionych w sieci. Po przeprowadzonej analizie wykorzystania plików okazało się, że tylko 350 GB danych było aktywnych. Firma do tej analizy przyjęła bardzo konserwatywne założenia - uznała, że dane są nieaktywne dopiero po roku ich niewykorzystywania. 650 GB danych przeniesiono na macierz EMC Centera, która dzięki wbudowanej funkcji deduplikacji plików umiała sobie poradzić z nadmiarowymi danymi. Z 650 GB danych zostało tylko 300 GB. Co najważniejsze, operacja migracji odbyła się całkowicie bez udziału administratora, a użytkownicy systemu w ogóle nie zauważyli, że część plików została usunięta, a część przeniesiona na wolniejszy nośnik.

Naturalne jest, że wdrożenie rozwiązań ILM najbardziej opłacalne jest w dużych środowiskach. Przy paru serwerach oszczędności będą stosunkowo niewielkie. Nie ma natomiast górnej granicy, gdyż rozwiązania te są skalowalne, a zresztą same w sobie pochodzą z największych, mainframe'owych systemów.

Czym ILM jest, a czym nie

Struktura ILM

Struktura ILM

ILM to rozbudowana i uzupełniona wersja znanej już wcześniej technologii HSM (Hierarchical Storage Management). Ta opierała się jednak tylko na jednym aspekcie - częstotliwości odczytywania i modyfikowania danego pliku. Plik, do którego od dawna nikt nie zaglądał, przenoszony był na nośnik tańszy, ale o zdecydowanie wolniejszym czasie dostępu (rzędu nawet kilkudziesięciu sekund) - płytę CD, dysk magnetooptyczny lub taśmę, dostępne w zautomatyzowanym systemie. ILM oprócz plików analizuje także dane (HSM jest jednym z wielu różnych modułów składających się na ILM), a w swojej podstawie ma również analizę wartości tych danych. Dane także przenoszone są na tańszy nośnik, ale ten coraz częściej stanowią po prostu mniej wydajne i gwarantujące mniejsze bezpieczeństwo twarde dyski. Czas dostępu do rzadziej używanych danych pozostaje praktycznie niezmieniony.

Proces projektowania rozwiązania ILM rozpoczyna się od podziału posiadanej infrastruktury pamięci masowych na warstwy. Do zaspokojenia potrzeb tej fazy procesu tworzenia rozwiązań ILM gotowi są wszyscy więksi producenci pamięci masowych (m.in. EMC, HP, IBM, Sun-StorageTek). Każda warstwa w rozwiązaniu ILM powinna być zabezpieczana oddzielnie i według innej polityki. Kopie migawkowe najważniejszej warstwy pierwszej powinny być wykonywane co parę godzin, a backup przyrostowy codziennie. Warstwę drugą można backupować raz na tydzień. Warstwa trzecia, jako najmniej ważna, może być backupowana bardzo rzadko lub wcale. Warstwa czwarta to z reguły rozwiązania archiwizacyjne.

W warstwie pierwszej najczęściej są wysoko wydajne twarde dyski Fibre Channel lub SCSI, umieszczone w profesjonalnych macierzach dyskowych. W warstwie drugiej stosuje się mniej wydajne dyski SCSI, które lada chwila zastąpią napędy Serial Attached SCSI. Warstwa trzecia z reguły składa się z macierzy z dyskami Serial ATA. Warstwę czwartą najczęściej stanowią zautomatyzowane rozwiązania taśmowe.

Często jednak zdarza się, że w systemach warstwowych pamięci masowych dyski Serial ATA obdarzane są zbyt dużym zaufaniem: - Klienci nie są jeszcze w pełni świadomi, że dyski Serial ATA mogą stać się pułapką na dane - mówi Zbigniew Swoczyna, konsultant IT Consultant w Sun Microsystems Poland. - Często są instalowane w celu wypełnienia wszystkich luk systemu pamięci masowych. Administratorzy myślą, że nie muszą już przykładać do zarządzania tak dużej wagi, bo wreszcie wszystkie dane są na dyskach. Problem w tym, że powolnych, bardziej zawodnych niż te SCSI czy FC, a przy tym bardzo pojemnych. Dopóki sięgamy tam po jakiś dokument od czasu do czasu, to dyski SATA będą sprawować się świetnie. Gdy musimy przeszukać cały dysk lub odzyskać całość zapisanych tam danych, może to trwać wiele godzin, zwłaszcza w sytuacji, gdy całe 400 czy 500 GB zapełniają małe pliki.

Ważne jest, że proces tworzenia ILM-u nie powinien kończyć się na przygotowaniu warstw pamięci masowych - to jest tylko punkt początkowy. Najważniejsze to móc dotrzeć do informacji we właściwym czasie, aby spełniać wymagania ustanowione przez różne regulacje, przede wszystkim prawne. Jeśli nie jesteśmy w stanie "zrozumieć" przechowywanej, zabepieczanej, przenoszonej, duplikowanej i kasowanej informacji, szanse wypełnienia wspomnianych regulacji są bardzo małe.

Marcin Kabaj - Data Management Group, Sun Microsystems Poland

Polski rynek jest wciąż na etapie przyglądania się automatycznym rozwiązaniom HSM, chociaż większość firm stosuje jakieś manualne mechanizmy ekonomicznego składowania swoich danych. Jeszcze kilka lat temu po prostu danych było dużo mniej i jakakolwiek rozmowa o oszczędnościach kosztów składowania nie miała sensu, a wiec siłą rzeczy HSM-y nie mogły się przyjąć. Dziś duże firmy dysponujące terabajtami wykładniczo przyrastających danych i ograniczonym budżetem na ich składowanie są wyraźnie zainteresowane automatyzacją strategii ILM w celu obniżenia kosztów składowania i zarządzania danymi. Mniejsze firmy mają na razie zbyt mało danych, aby wdrażanie automatycznych rozwiązań HSM było ekonomicznie uzasadnione.