Jak przechować więcej za mniej

Jeśli zaczyna brakować pojemności pamięci masowej, najprostszym rozwiązaniem jest zakup dodatkowych macierzy. Są jednak również inne sposoby.

Jeśli zaczyna brakować pojemności pamięci masowej, najprostszym rozwiązaniem jest zakup dodatkowych macierzy. Są jednak również inne sposoby.

K ażdy administrator odpowiedzialny w centrum danych za pamięci masowe z pewnością zauważył, że ilość przechowywanych tam danych jest znacznie większa od ilości przechowywanych informacji. Backup, nad którym utracono kontrolę, często wykonywany jest po kilka razy na różnych nośnikach, wielokrotne zabezpieczane są te same pliki, nie mówiąc już o kopiach systemu operacyjnego, czy kopiach migawkowych maszyn wirtualnych. Takie przykłady można mnożyć. Gdy wolna przestrzeń w macierzach dyskowych i bibliotekach taśmowych kurczy się, trzeba zaplanować zakup dodatkowego sprzętu, a może lepiej bliżej przyjrzeć się temu problemowi i ograniczyć ilość przechowywanych danych lub poprawić organizację ich przetwarzania.

Eliminacja zbędnych danych

Od przynajmniej dwóch lat rynek pamięci masowych szturmem zdobywa nowa koncepcja - deduplikacja. To odpowiedź na przeładowanie danymi systemów backupu, kurczące się okno backupowe lub brak pieniędzy w budżecie na rozbudowę i powiększanie pojemności systemu. Technologie deduplikacji pozwalają na przeprowadzenie automatycznej, skrupulatnej analizy danych w celu wyszukania dwu lub wielokrotnie powtarzających się plików. Efekty jej działania są czasem zadziwiające.

Deduplikacja to operacja wykonywana automatycznie przez oprogramowanie, najczęściej w macierzy dyskowej, dzięki której możliwe jest wyeliminowanie powtarzających się danych (ich duplikatów). Umożliwia ona przechowywanie jedynie unikatowych plików lub bloków z danymi powodując w ten sposób znaczne oszczędności w postaci uwolnienia przestrzeni dyskowych w macierzach. Oprogramowanie to często pozwala jednocześnie na kompresję danych, co oczywiście daje dodatkowy zysk. Przy szybko rosnącej ilości przechowywanych informacji funkcje te zaczynają nabierać szczególnie istotnego znaczenia. Tym bardziej że regulacje prawne coraz częściej zmuszają firmy do archiwizowania danych nawet przez dziesiątki lat.

Eksplodujący rynek deduplikacji

Firma analityczna The 451 Group opracowała raport, w którym wskazuje deduplikację jako technologię, która będzie miała w najbliższych latach wielki wpływ na kształt całego rynku ochrony danych. Bo deduplikacja jest już obecnie przyjmowana z otwartymi rękoma przez firmy, które cierpią na problem ogromnego przyrostu danych. Zdaniem analityków z The 451 Group, przez ostatnie trzy lata rynek deduplikacji wzrósł ze stanu zerowego do ponad 100 mln USD w 2006 r. i 260 mln USD w 2007 r. Realną prognozą na 2009 r. jest możliwość osiągnięcia sprzedaży na poziomie 1 mld USD. Oprócz tego warto zauważyć, że technologia deduplikacji bardzo szybko ewoluuje od oferty niezależnych produktów do funkcji standardowo integrowanych w zaawansowanych rozwiązaniach infrastruktury backupowej. Kolejnymi etapami tej ewolucji będzie zastosowanie tej technologii w systemach do archiwizacji, a następnie również rozwiązaniach do bieżącego przetwarzania danych.

Technologie deduplikacyjne świetnie sprawdzają się też jako mechanizm eliminacji powtarzających się załączników poczty elektronicznej, przechowywanych w serwerach pocztowych lub archiwach. Jedną z najbardziej efektywnych metod wdrażania deduplikacji jest wykorzystanie wirtualnych bibliotek taśmowych VTL (Virtual Tape Library) - macierzy dyskowych z wbudowanym oprogramowaniem, które emuluje napędy taśmowe bądź całe urządzenie automatyki taśmowej, czyli zmieniacze i biblioteki. To właśnie w tym oprogramowaniu mogą być dodatkowo zaszyte funkcje deduplikacji.

Chociaż w swej idei eliminacja powtarzających się danych jest pomysłem oczywistym, to jej praktyczna realizacja wymaga zastosowania zaawansowanych mechanizmów analizy i zarządzania danymi. Bo nie wystarczy sama eliminacja tych samych plików przechowywanych w różnych katalogach, załączników poczty lub nawet pojedynczych bloków w bazach danych, trzeba jeszcze zapewnić użytkownikom lub aplikacjom dostęp do informacji oraz odpowiedni poziom bezpieczeństwa, by nie okazało się, że ważne informacje nieoczekiwanie zniknęły z systemu. Zyski mogą być jednak ogromne. Według analityków, wdrożenie oprogramowania do deduplikacji często pozwala na nawet 20-krotną redukcję liczby przechowywanych danych.

Metody deduplikacji

Systemy deduplikacji jeszcze przez dość długi czas nie znajdą powszechnego zastosowania jako oprogramowanie zintegrowane w macierzach dyskowych wykorzystywanych jako pamięć masowa obsługująca aplikacje. Wynika to głównie z ograniczonej wydajności przetwarzania danych, ale także braku ogólnie przyjętych standardów. Deduplikacja świetnie sprawdza się jednak tam, gdzie zabezpieczone dane można dodatkowo przetworzyć w późniejszym czasie, czyli na przykład w systemach do backupu.

Sposób na deduplikację

  • Avamar, Asigra i Symantec - element oprogramo-wania do tworzenia kopii bezpieczeństwa;
  • Data Domain, Diligent Technologies i ExaGrid Systems - brama filtrująca dane przed zapisaniem na dysku lub macierzy dyskowej;
  • FalconStor Software, Quantum i Sepaton - wirtualna biblioteka taśmowa, gdzie wszystkie dane są najpierw zapisywane, a dopiero później jest uruchamiany proces deduplikacji;
  • EMC i NetApp - macierz dyskowa wyposażona w zintegrowane mechanizmy deduplikacji.
W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200