ABC Wirtualizacji: Ochrona danych

Wolumen danych w przedsiębiorstwach rośnie niemal wykładniczo. Firmy nie tylko tworzą coraz więcej nowych danych, ale także wymaganych przez różne regulacje prawne, nakazujące przechowywanie danych wielokrotnie w ich cyklu życia. Przy okresie przechowywania jednego roku, dla cotygodniowego pełnego składowania oraz dziesięciu dniach dla składowania przyrostowego, jeden terabajt danych wymaga, w całym cyklu życia danych, pamięci o pojemności 53 TB. Składowanie, zarządzanie i przechowywanie danych to istotne koszty dla działów IT, wynikające zarówno z nakładu pracy, jak i kosztów zasilania, chłodzenia i powierzchni.

Pocieszeniem w tej sytuacji może być jedynie to, że koszt pamięci dyskowej stale spada, co czyni z niej coraz bardziej atrakcyjny nośnik archiwalny. Ponadto technologia deduplikacji danych - którą można spotkać zazwyczaj w wirtualnych bibliotekach taśmowych (VTL - Virtual Tape Library) - może pomóc w efektywnej kontroli przyrostu danych, poprzez jednokrotne składowanie i przechowywanie poszczególnych obiektów danych.

VTL to system oparty na dyskach, który emuluje technologię taśm magnetycznych, pozwalając na instalowanie go bez większych problemów w istniejących środowiskach składowania, z minimalnymi zakłóceniami jego funkcjonowania. Oprogramowanie deduplikacji, dostępne w niektórych rozwiązaniach VTL, przechowuje podstawowe zestawy danych i następnie sprawdza kolejne składowania pod kątem duplikatów już zeskładowanych danych. Po znalezieniu takiego duplikatu, przechowywana jest tylko niewielka jego reprezentacja, która pozwala na odtworzenie całego pliku, jeżeli zajdzie taka potrzeba.

ABC Wirtualizacji: Ochrona danych

Deduplikacja danych

Istnieją dwie podstawowe metody deduplikacji danych: oparta na binarnym skrócie danych i oparta na porównywaniu na poziomie bajtów - bajt do bajta. Metoda wykorzystująca skróty przepuszcza wpływające dane przez tzw. algorytm haszujący, który tworzy unikatowy identyfikator (skrót) tych danych. Taki skrót jest porównywany z listą wcześniej zapisanych skrótów w odpowiedniej tablicy wyszukiwań. Gdy skrót zostanie odnaleziony w tablicy, dane są zastępowane przez odniesienie do istniejącego już skrótu. Jeśli brak jest takiego skrótu, to dopisywany jest do tablicy. Jednak używanie tablicy wyszukiwań do identyfikowania duplikatów danych może mieć istotny wpływ na wydajność, a uzyskanie optymalnej efektywności wymaga pewnego czasu.

Bardziej efektywną metodą jest proste porównywanie elementów obiektów tej samej klasy. Na przykład porównywanie dokumentu Word z innymi dokumentami Word. Niektóre techniki wykonują takie porównanie, używając algorytmów porównywania wzorców. Jednak bardziej efektywną technologią jest stosowanie inteligentnych procesów, analizujących składowane pliki i powiązane zestawy danych w celu identyfikacji danych, które są prawdopodobnie nadmiarowe, przed bardziej szczegółowym porównaniem dwóch plików. Skupiając się na "prawdopodobnych duplikatach", mogą one deduplikować bardziej gruntownie i unikać niepotrzebnego przetwarzania nowych plików.

Niektóre technologie wykonują deduplikację w czasie składowania danych. Taka duplikacja "inline" spowalnia składowanie i wprowadza dodatkową złożoność do tego procesu. Inne technologie wykonują deduplikację "pozapasmowo" - najpierw dane składowane z pełną szybkością łącza, a potem deduplikacja.

Deduplikacja na poziomie bajtów pozwala na osiąganwanych danych. Taki stopień redukcji danych umożliwia zastosowanie w większym stopniu składowania online i dłuższe ich przechowywanie. Pozwala to na oszczędność pracy i wykorzystanie zalet składowania na dyskach.

Przechowywanie danych na dysku zajmuje mniej przestrzeni fizycznej niż rozwiązania taśmowe i znacząco redukuje zapotrzebowanie na zasilanie, chłodzenie, zabezpieczanie i inne koszty operacyjne i infrastrukturalne. Według badań Gartnera, w roku bieżącym 50% obecnych centrów danych będzie odczuwać niedostatek mocy zasilania i zdolności chłodzenia, związany z ciągle zagęszczającą się powierzchnią wypełnioną nowym sprzętem.

Inne korzyści z deduplikacji danych to także możliwość wydłużenia czasu przechowywania danych online. Redukcja wolumenu składowanych danych w stosunku 50:1 dla typowej mieszanki danych biznesowych (poczty elektronicznej i plików) oznacza, że dane mogą być utrzymywane online w dłuższym okresie. Dzięki temu mogą być spełnione coraz bardziej wygórowane wymagania dotyczące ochrony danych i ich dostępności.

Duże znaczenie mogą mieć też mniejsze obciążenie personelu IT i zwiększenie niezawodności. Przedsiębiorstwo z wolumenem danych liczonym na ok. 65 TB, którego roczny przyrost szacowany jest na 56%, na cotygodniowe składowanie, korzystając z deduplikacji potrzebuje dwóch stelaży dyskowych, zamiast 49 bez takiej możliwości. Mniejsza liczba stelaży i obracających się dysków, to jednocześnie mniejsze prawdopodobieństwo awarii oraz mniejsze zapotrzebowanie na zasilanie, chłodzenie i administrowanie.

Rozwiązania sprzętowe, które wykonują deduplikację poza pierwotną ścieżką danych, mogą zapewniać składowanie nie zakłócające normalnej pracy systemu i odtwarzanie z szybkością połączenia, co znacznie przyspiesza składowanie i odtwarzanie.

Nie bez znaczenia jest też eliminacja fizycznego zagrożenia danych. Taśmy magnetyczne mogą być łatwiej zagubione, skradzione lub zniszczone, natomiast dane na dyskach są utrzymywane w bardziej bezpiecznym, wysoce dostępnym środowisku.

Deduplikacja danych zmienia ekonomikę ochrony danych, znacząco obniżając koszty składowania. Jest istotnym elementem obniżania spiralnie rosnących kosztów energii, roboczogodzin, przestrzeni fizycznej oraz zarządzania ciągłym niedostatkiem zasilania i chłodzenia, związanych z utrzymywaniem danych.


TOP 200