Hamulec na dane

Deduplikacja danych to obiecująca technologia, która może doprowadzić do ograniczenia niepohamowanego wzrostu pojemności centrów danych.

Deduplikacja danych to obiecująca technologia, która może doprowadzić do ograniczenia niepohamowanego wzrostu pojemności centrów danych.

Systemy do tworzenia kopii zapasowych chroniące ciągłość działania i zapobiegające utracie danych w wypadku awarii systemu IT pożerają coraz większe zasoby pamięci masowych, wymagają wciąż nowych inwestycji w zwiększanie przepustowości sieci, a okna backupowe ograniczają wydajność lub ciągłość pracy podstawowego systemu. Naturalne jest więc, że wszelkie pomysły i koncepcje, jak spowolnić zapotrzebowanie na pamięć masową, a więc także koszty inwestycji w nowe , przyciąga coraz więcej uwagi. Jedną z takich obiecujących idei jest deduplikacja danych, czyli systemy automatycznie eliminujące wielokrotne zapisywanie tych samych plików i informacji.

Pomysł wydaje się prosty i oczywisty, ale w systemach korporacyjnych systemy deduplikacji były dotychczas dość rzadko stosowane, przede wszystkim ze względu na obawę, że technologia ta jest niedojrzała i może spowodować, że jakieś istotne dane zostaną utracone w procesie analizy i eliminacji powtarzających się plików. Z drugiej strony zaburza ona także względnie prosty i standardowy obecnie proces tworzenia kopii bezpieczeństwa, gdzie zabezpieczane są po prostu wszystkie dane, wprowadzając dodatkowe mechanizmy analizy zawartości plików, których pewność działania nie jest do końca zrozumiała.

Redukcja gigabajtów

Ostatnio jednak techniki deduplikacji danych zaczynają być uznawane za dostatecznie niezawodne i dojrzałe do poważnych zastosowań, a ich rozwojem zainteresowały się nie tylko małe specjalizowane firmy, ale również potentaci związani z rynkiem pamięci masowych, jak np. EMC i Symantec. W listopadzie 2006 r. EMC kupiła Avamar Technologies, specjalizującą się w oprogramowaniu do deduplikacji danych. Jej technologie zostały zintegrowane z pamięciami rodzin Clariion, Centera i NetWorker. Z kolei Symantec planuje wprowadzenie jako standardowych mechanizmów deduplikacji w nowej wersji Veritas NetBackup.

Potencjalne korzyści z zastosowania mechanizmów deduplikacji są ogromne. Zdaniem analityków badających praktyczne zastosowania tej technologii, realnym założeniem jest 20-, a nawet 50-krotne zmniejszenie zapotrzebowania na pojemność pamięci masowej niezbędnej do wykonania kopii zapasowych. W praktyce oznacza to, że 20 TB oryginalnych informacji, które musiałyby być zapisane w pamięci masowej przy wykorzystaniu mechanizmów backupu można ograniczyć nawet do 1 TB. Deduplikacja jest wykorzystywana obecnie głównie w systemach do tworzenia kopii zapasowych, ale warto zastanowić się, czy nie rozszerzyć jej zastosowania na systemy disaster recovery i archiwizacji.

Skąd się biorą tak ogromne oszczędności? Można to wyjaśnić na prostym przykładzie. Jeśli ktoś prześle w sieci kilkumegabajtowy dokument np. w formacie Word, a jego adresat doda lub zmieni w nim jedno słowo, to standardowe systemy do backupu uznają ten dokument za nowy plik i w całości zapiszą go do kopii bezpieczeństwa. W korporacyjnej sieci z reguły krążą tysiące takich dokumentów.

Różne rozwiązania

Planując instalację rozwiązania do deduplikacji danych, zawsze trzeba odpowiedzieć na pytanie, gdzie najlepiej zainstalować jego funkcje, bo systemy do eliminacji powtarzających się danych mogą być instalowane w komputerze klienckim, serwerze będącym źródłem plików dla kopii zapasowej, albo w serwerach pamięci masowej lub bibliotekach VTL (Virtual Tape Library). Z drugiej strony systemy deduplikacji mogą być oprogramowaniem niezależnym lub zintegrowanym z aplikacją do backupu, dedykowanymi urządzeniami typu appliance lub oprogramowaniem bezpośrednio zainstalowanym w czy bibliotekach VTL. Każde z tych rozwiązań ma wady i zalety.

Przykładowo, firmy Avamar i Asigra zdecydowały się na instalację oprogramowania deduplikacyjnego w pobliżu źródła danych - na specjalnie chronionym, wydzielonym serwerze, który dopiero po przeprowadzeniu analizy informacji przesyła dane przez sieć do repozytorium, gdzie zapisywane są bieżące kopie bezpieczeństwa lub pliki archiwalne. W tym wypadku analiza polega na porównaniu, zgodnie z ustalonym przez administratora harmonogramem, plików zapisanych w serwerze i komputerach klienckich, a następnie przesyłanie do kopii bezpieczeństwa tylko informacji, które uległy modyfikacji. Tego typu system wymaga odpowiednio dużej pamięci oraz mocy obliczeniowej po stronie komputerów klienckich, jednocześnie pozwala na istotne zmniejszenie wymagań i oszczędność pasma przepustowości sieci.

Takie firmy, jak: Data Domain, Diligent Technologies lub ExaGrid Systems stosują inne rozwiązanie - pliki są przesyłane do repozytorium danych i dopiero tam następuje ich analiza i eliminacja powtarzających się informacji bezpośrednio przed ich zapisem w kopii bezpieczeństwa. Data Domain oferuje urządzenia appliance z oprogramowaniem do deduplikacji, które mogą być podłączane do centralnych pamięci masowych lub instalowane w rozproszonych oddziałach firm wykorzystujących systemy lokalnej replikacji danych.

Trzecia metoda, stosowana m.in. przez FalconStor Software, Quantum lub Sepaton, polega na zastosowaniu deduplikacji jako dodatkowego mechanizmu rozszerzającego funkcjonalność systemu do tworzenia kopii zapasowych wykorzystującego biblioteki VTL. W tym wypadku najpierw realizowany jest standardowy proces backupu, a dopiero później uruchamiany jest mechanizm czyszczenia danych i eliminacji powtarzających się plików. Jak twierdzą wymienieni producenci, największą zaletą tej metody jest brak możliwości pojawienia się kolizji z mechanizmami backupu i eliminacja wpływu deduplikacji na wielkość okien backupowych.

Nic za darmo

Niezależnie od tego, jaki system deduplikacji zostanie zastosowany, warto pamiętać, że praktycznie zawsze oznacza to wzrost wymagań na dostępną moc przetwarzania. Jeśli deduplikacja jest realizowana w pobliżu źródła danych, należy wziąć pod uwagę, że uruchomienie procesu analizy danych może mieć negatywny wpływ na wydajność serwera, a także spowolnić proces backupu. W wypadku systemów wykonujących czyszczenie danych w już zapisanej kopii zapasowej proces backupu przebiega bez zakłóceń, ale wymagana jest czasowa dostępność znacznie większej pojemności pamięci masowej zanim proces deduplikacji zmniejszy objętość plików.

Matematyczna analiza

Trudno jest dokładnie porównać oferty różnych producentów, bo algorytmy i techniki deduplikacji są z zasady pieczołowicie chronione tajemnicą firmową. Wiadomo jednak, że najpopularniejsze są metody wykorzystujące algorytm MD-5 (Message Digest Algorithm 5 ) dzielący dane na fragmenty, które są matematycznie analizowane w celu określenia występujących w nich różnic definiowanych następnie przez tzw. wartość hash. W rzadkich wypadkach możliwe jest, że dwóm fragmentom różniących się danych jest przypisywana ta sama wartość hash (jest to określane jako "hash collision"). W takim wypadku następuje błędne zakwalifikowanie danych jako identycznych. Jednak jak twierdzi David Russell, analityk Gartnera, matematyczne prawdopodobieństwo wystąpienia takiej kolizji jest znacznie mniejsze niż prawdopodobieństwo awarii dysku prowadzącej do nieodwracalnej utraty danych. Mimo to niektórzy dostawcy oprogramowania do deduplikacji już zaczęli stosować algorytmy SHA-1 lub SHA-2 (Secure Hash Algorithms) opracowane przez amerykańską National Security Agency, które mają zapewnić wyeliminowanie potencjalnych problemów z kolizją wartości hash.