Koszty składowania: deduplikacja danych

Zdolność deduplikacji składowanych danych - tzn. składowania lub kopiowania jedynie unikatowych bloków danych - szybko zmienia ekonomikę ochrony danych. Wolumen danych w przedsiębiorstwach rośnie bowiem niemal wykładniczo. Firmy nie tylko generują coraz większą liczbę nowych danych, ale także muszą spełniać wymagania różnych regulacji prawnych nakazujących przechowywanie danych przez okres wielokrotnie przekraczający ich cykl życia.

Przy okresie zachowania wynoszącym jeden rok i cotygodniowym składowaniem pełnym i co 10 dni składowaniem przyrostowym, terabajt danych pierwotnych wymaga pamięci o wielkości 53 TB do przechowania tych danych przez ich okres życia. Składowanie, zarządzanie i przechowywanie takich danych to istotne koszty dla działów IT.

Pocieszeniem w tej sytuacji może być jedynie to, ze koszt pamięci dyskowej stale spada, co czyni ja coraz częściej atrakcyjnym nośnikiem archiwalnym. Ponadto technologia deduplikacji danych - którą można spotkać zazwyczaj w opartych na dyskach wirtualnych bibliotekach taśmowych (VTL) - może pomóc w efektywnej kontroli przyrostu danych, poprzez jednokrotne składowanie i przechowywanie poszczególnych obiektów danych.

VTL to system oparty na dyskach, który emuluje technologię taśm magnetycznych, pozwalając na instalowanie go bez większych problemów w istniejących środowiskach składowania. Oprogramowanie deduplikacji, dostępne w niektórych rozwiązaniach VTL, przechowuje podstawowe zestawy danych i następnie sprawdza kolejne składowania pod kątem duplikatów już zeskładowanych danych. Po znalezieniu takiego duplikatu, przechowywana jest tylko niewielka jego reprezentacja, która pozwala na odtworzenie całego pliku, jeżeli zajdzie taka potrzeba.

Istnieją dwie podstawowe metody deduplikacji danych: oparta na binarnym skrócie danych i porównywaniu bajt do bajta. Metoda wykorzystująca skróty przepuszcza wpływające dane przez algorytm haszujący, który tworzy unikatowy identyfikator (skrót) tych danych. Taki skrót jest porównywane z wcześniej zapisanymi w odpowiedniej tablicy wyszukiwań. Jeżeli wyszukiwanie jest pozytywne, dane są zastępowane przez odniesienie do istniejącego już skrótu. Jeśli brak jest takiego skrótu, to dopisywany jest do tablicy. Jednak używanie tablicy wyszukiwań do identyfikowania duplikatów danych może mieć istotny wpływ na wydajność i uzyskanie optymalnej efektywności wymaga pewnego czasu.

Bardziej efektywną metodą jest proste porównywanie elementów obiektów tej samej klasy. Np. porównywanie dokumentu Word z innymi dokumentami Word. Niektóre technologie wykonują takie porównania używając algorytmów porównywania wzorców. Aczkolwiek bardziej efektywną technologią jest stosowanie inteligentnych procesów, które analizują składowane pliki i powiązane zestawy danych w celu identyfikacji plików, są które prawdopodobnie redundantne - zanim porówna się szczegółowo pliki.

Deduplikacja na poziomie bajta może zapewniać stopień redukcji danych nawet 25:1. W połączeniu z technologią kompresji - typowy mechanizm VTL - można nawet uzyskać pięćdziesięciokrotne zmniejszenie wolumenu składowanych danych. Taki stopień redukcji danych pozwala już na zastosowanie w większym stopniu składowania online.

Przechowywanie danych na dysku zabiera mniej przestrzeni fizycznej, znacząco redukuje zapotrzebowanie na zasilanie, chłodzenie, ochronę i inne koszty operacyjne i infrastrukturalne. Według raportu Gartnera, 50 proc. dzisiejszych centrów danych w roku 2008 będzie odczuwać niedostatek mocy zasilania i zdolności chłodzenia, związane z ciągle zagęszczającą się powierzchnią, wypełnioną nowym sprzętem.

Deduplikacja danych zmienia ekonomikę ochrony danych, zmniejszając koszty składowania i staje się niezwykle istotna dla centrów danych z powodu spiralnie rosnących kosztów energii, roboczogodzin, przestrzeni fizycznej oraz zarządzania ciągłym niedostatkiem zasilania i chłodzenia.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

Computerworld.pl

Koszty składowania: deduplikacja danych

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Koszty składowania: deduplikacja danych

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830