Dyskowy backup danych z wirtualnymi bibliotekami taśmowymi

Deduplikacja

Dyskowy backup danych z wirtualnymi bibliotekami taśmowymi

Podział sekwencji danych na bloki o zmiennej długości

Proces deduplikacji polega na zredukowaniu ilości danych, przeznaczonych do przechowania. Odbywa się to poprzez eliminację informacji redundantnej i zastąpienie kolejnych jej powtórzeń wskaźnikiem do informacji oryginalnej. W szczególności proces deduplikacji segmentuje strumień danych na bloki i zapisuje je na dysku. W celu identyfikacji danego bloku w transmitowanym strumieniu, silnik deduplikacji nadaje mu cyfrową sygnaturę, a następnie tworzy indeks sygnatur.

Indeks sygnatur jest listą referencyjną, określającą, czy dany blok istnieje już w repozytorium dyskowym, czy też nie. Określa on również to, które segmenty danych mają być przechowane, a które zreplikowane przez sieć WAN. Kiedy oprogramowanie do deduplikacji odnajduje blok, który został przez nie już zapisany w przeszłości, do zbioru metadanych zostaje wstawiony wskaźnik do miejsca, gdzie przechowywany jest oryginalny blok. Jeśli ten sam podstawowy blok występuje w strumieniu danych wielokrotnie, wskaźniki do niego są generowane wielokrotnie. Jeżeli dane muszą zostać odzyskane, w procesie przywracania następuje ich odbudowa na bazie tablicy wskaźników.

Istnieje kilka rodzajów deduplikacji implementowanych w rozwiązaniach VTL. Dane mogą być analizowane na poziomie plików, bloków i bitów. Deduplikacja na poziomie plików nazywana jest inaczej Single Instance Storage (SIS). Umożliwia ona przechowanie tylko jednej wersji pliku w przypadku wystąpienia dokładnie dwóch takich samych. Nie jest to jednak sposób tak efektywny, jak deduplikacja na poziomie bloków.

W sposobach działania deduplikacji na poziomie bloków wyróżniamy dwa ich rodzaje. Pierwszy polega na wyszukiwaniu duplikatów danych w strumieniu przy użyciu stałego rozmiaru bloku, granularność np. 4 KB, 8 KB, 128 KB. Natomiast drugi rodzaj - na przeszukiwaniu blokiem zmiennym, o granularności od 4 KB do 16 KB.

Wybrana metoda deduplikacji nie pozostaje bez wpływu na rezultaty. Deduplikacja ze stałą długością bloku jest mniej skuteczna, aniżeli deduplikacja wykorzystująca zmienną długość bloku.

Dyskowy backup danych z wirtualnymi bibliotekami taśmowymi

Podział sekwencji danych na bloki o stałej długości

O tym, jak efektywna będzie deduplikacja, decydują również wykonywany rodzaj backupu (pełen, przyrostowy, różnicowy) oraz natura samych danych, ich zmienność i współczynnik przyrostu. Największe zyski z deduplikacji otrzymamy przy wykonywaniu pełnych kopii zapasowych danych, takich jak katalogi domowe użytkowników, środowiska plikowe i niektóre bazodanowe, poczta e-mail oraz środowiska wirtualne. Maszyny wirtualne często mają te same binaria systemów operacyjnych i pliki konfiguracyjne, dlatego uzyskiwane są wysokie rezultaty oszczędności miejsca. Przy spełnieniu powyższych warunków, dostępne metody deduplikacji pozwalają uzyskać bardzo wysoką wartość współczynnika deduplikacji danych.

Również ze względu na miejsce wykonywania deduplikacji można wyróżnić kilka jej rodzajów. Producenci wirtualnych bibliotek taśmowych umożliwiają wykonywanie deduplikacji inline, czyli na napływającym strumieniu danych. Dane są deduplikowane segment po segmencie, a następnie zapisywane na dyski. Metodę tę cechuje duży wpływ na wydajność operacji tworzenia kopii zapasowych, przy zmniejszonym zapotrzebowaniu na pojemność dyskową. Wariantem metody inline jest metoda adaptive, która na dyskach tworzy bufor, w celu dostosowania się do odbierania zwiększonego transferu danych z serwerów. Metoda ta skraca okno backupu, w porównaniu z metodą inline. Deduplikacja typu inline wykorzystuje najmniej przestrzeni dyskowej i pozwala na natychmiastowe rozpoczęcie replikacji danych do centrali. Metoda trzecia, wymagająca zagwarantowania odpowiedniej przestrzeni dyskowej - post processing deduplication, rozpoczyna działanie chwilę po tym, jak zakończy się proces zapisu danych backupu na dyskach. W porównaniu z dwiema poprzednimi, nie ma ona wpływu na wydajność procesu tworzenia kopii zapasowych, jednak potrzebuje więcej przestrzeni dyskowej.

Wirtualne biblioteki taśmowe oferują również możliwość kompresji danych. Nie wolno jednak mylić deduplikacji z kompresją, gdyż są to dwie zupełnie różne technologie. Kompresja ma na celu zakodowanie danych, aby zredukować ich wymagania pojemnościowe. Dane zdeduplikowane mogą zostać skompresowane, ale nie na odwrót.

Istotnym faktem jest to, że w przypadku posiadania danych skompresowanych lub zaszyfrowanych, przeprowadzenie deduplikacji nie będzie możliwe.

Konsolidacja backupu

Zdeduplikowanie kopii zapasowych pozwala organizacjom mającym kilka lokalizacji wyposażonych w wirtualne biblioteki taśmowe - wdrożyć w swoich środowiskach centralne repozytorium backupu. Kopie zapasowe danych z oddziałów mogą zostać zreplikowane do głównego centrum danych, a tam z kolei zapisane na nośniki taśmowe. Po przesłaniu inicjalizującego wolumenu danych przez sieć WAN, w dalszej kolejności przesyłane są tylko unikalne dane wraz z opisującymi je metadanymi. Zastosowanie replikacji umożliwia globalną deduplikację danych. Wirtualne biblioteki taśmowe wymieniają pomiędzy sobą listy posiadanych bloków danych, aby wyeliminować transmisję danych, które już raz zostały przez sieć przesłane. W celu zapewnienia bezpieczeństwa dane te mogą zostać przez VTL zaszyfrowane na czas transmisji przez publiczną sieć WAN.

Podsumowanie

Dyskowy backup danych z wirtualnymi bibliotekami taśmowymi

Kopie zapasowe danych z oddziałów mogą być replikowane do centralnego repozytorium backupu

Rozwiązania VTL stanowią alternatywę dla typowego rozwiązania disk-to-disk, opartego na macierzy dyskowej pełniącej rolę pośrednika w procesie backupu na taśmę.

W porównaniu z macierzami dyskowymi SAN lub serwerami NAS, zdecydowanie łatwiej w dużym środowisku zarządzać VTL-em oraz eksportować dane na taśmy.

Na pewno w najbliższych latach VTL-e nie zastąpią fizycznych bibliotek taśmowych, które wyposażone w najtańszy nośnik danych, jakim jest poczciwa, stara taśma - stanowią ostatnią warstwę składowania danych i jeszcze długo sytuacja ta się nie zmieni. Istotną zaletą VTL jest to, że łatwo daje się je wpasować w procedury wykonywania kopii zapasowych. Jako element rozwiązania backupu w metodyce D2D oferuje szybkie tworzenie i przywracanie kopii zapasowych. Ponadto udostępniana przez nie technologia deduplikacji pozwala ekonomicznie wykorzystywać dostępną przestrzeń dyskową, zwiększając jednocześnie czas retencji danych. Backup może być częściej wykonywany, tworząc na osi czasu bliższe punkty RPO.

W przypadku organizacji mających kilka lokalizacji rozrzuconych geograficznie, w połączeniu z replikacją poprzez sieć WAN, wirtualna biblioteka taśmowa umożliwia skonsolidowanie kopii zapasowych w centrum danych oraz wdrożenie zasad polityki Disaster Recovery.

Sama technologia deduplikacji, ponieważ pozwala przechować więcej kopii danych bez dodawania kolejnych dysków, wpływa na ograniczenie poboru energii wymaganej do zasilania i chłodzenia serwerowni, a przez to sprzyja ochronie środowiska, wpisując się w ogólny trend "green IT".

Z drugiej strony należy pamiętać o tym, że skuteczność technologii deduplikacji pozostaje ściśle uzależniona od wielu czynników, między innymi od natury danych oraz wykorzystywanej w środowisku metodologii backupu. Rozważając dany model VTL, należy zwrócić szczególną uwagę na jej kompatybilność z posiadanym oprogramowaniem backupowym, rodzaje emulowanych taśm oraz na to, czy nie będzie wymagana dodatkowa licencja na serwer backupu w celu jej obsługi. Często koszty serwisowania przestarzałego sprzętu taśmowego potrafią być bardzo wysokie. W zależności od wolumenu danych, warto rozważyć zastąpienie takiej starej biblioteki fizycznej, biblioteką wirtualną oraz np. autoloaderem do nagrywania danych na nośnik magnetyczny. Może okazać się, że będzie to rozwiązanie dużo tańsze i z pewnością zdecydowanie efektywniejsze.

Producenci tacy jak FalconStore, DataDomain, Quantum, Sepaton, EMC czy NetApp oferują na rynku szerokie portfolio rozwiązań przeznaczonych dla różnej klasy firm, od SMB aż po enterprise.


TOP 200