Dostępne kopie bezpieczeństwa

Kopia bezpieczeństwa podstawową usługą IT, nawet w najmniejszych organizacjach. Przez lata zmienił się jednak model jej realizacji - zamiast taśm coraz częściej stosuje się dyski.

Taśma przechowa dane przez lata

W instytucjach finansowych głównym powodem robienia kopii bezpieczeństwa na taśmie są przepisy, które wymagają realizacji trwałej kopii, przechowywanej przez czas mierzony w latach. Oczywiście, technicznie nie ma przeciwwskazań do długotrwałego przechowywania kopii na praktycznie każdym medium. Jednak z uwagi na to, że odtworzenia danych archiwalnych zdarzają się rzadko, jak również nie ma specjalnych oczekiwań wobec funkcjonalności czy czasu takiego odtworzenia, to taśma jako niskokosztowe medium wciąż ma rację bytu. Dlatego nadal jest bardzo dobrym nośnikiem do przechowywania informacji archiwalnej, którą rzadko się odtwarza, ale którą organizacja musi posiadać.

Gdyby zapytać dyrektora IT, której kopii bezpieczeństwa potrzebuje, odpowie, że ostatniej dostępnej, najlepiej tej sprzed chwili. Gdyby natomiast zapytać go, kiedy odtwarzał dane sprzed dwóch miesięcy, prawdopodobnie odpowiedziałby, że nigdy. Jest to logiczne następstwo szybko zmieniającej się w wielu organizacjach sytuacji, gdzie stan sprzed dwóch miesięcy ma o wiele mniejszą wartość niż obecny. Oznacza to, że dla pracy przedsiębiorstwa coraz mniejsze znaczenie ma procedura realizowania kopii na nośnikach offline przenoszonych do alternatywnej lokalizacji, na przykład robienie kopii na taśmach, które następnie są przewożone do miejsc takich jak skrytka bankowa.

Przyrostowa i różnicowa

Proces wykonywania kopii bezpieczeństwa odbywa się w firmach w ściśle zaplanowanym czasie, podczas tzw. okna backupowego. Pierwszym usprawnieniem procesu było wprowadzenie kopii przyrostowej oraz różnicowej. Wykonywano je bardzo szybko, gdyż kopiowane były tylko pliki, które uległy zmianie. Metoda ta, jakkolwiek skuteczna, wymagała jednak okresowego wykonywania kopii pełnej lub tworzenia jej z kilku taśm, by archiwum zawierało komplet informacji.

Pomocny bufor dyskowy

Drugim usprawnieniem było wprowadzenie bufora dyskowego, na który odkładane były dane kopiowane z chronionych maszyn. W miarę wzrostu ilości danych i wydajności streamerów okazywało się, że na cele backupu niezbędna była szybka macierz dyskowa, niekiedy porównywalna z macierzą produkcyjną. Wynika to stąd, że streamer pracuje najsprawniej wtedy, gdy jest wysycony danymi, które dostarczane są do niego z prędkością większą lub równą jego maksymalnej wydajności. Aby to osiągnąć, do dziś stosuje się różne metody, polegające na łączeniu strumieni danych z różnych serwerów na jeden lub kilka napędów. Metoda ta wymaga kosztownego oprogramowania, ponadto sprawia, że odtwarzanie danych jest bardzo wolne.

Deduplikacja kluczem do sukcesu

Podstawową zmianą, która sprawiła, że kopia bezpieczeństwa coraz chętniej realizowana jest na dyskach, było wprowadzenie medium deduplikującego. Zadaniem deduplikatora jest redukcja nadmiaru informacji, by wraz z każdą kopią zapisywać na zasób dyskowy jedynie zmienione fragmenty. Gdy pojawiły się takie rozwiązania techniczne, zaczęły konkurować z taśmami, gdyż są bardziej elastyczne.

To samo oprogramowanie

Część firm ma już oprogramowanie do robienia kopii bezpieczeństwa. Nie jest to jednak najważniejszy element przy wdrażaniu nowoczesnych kopii dyskowych. Jeśli wdrożenie backupu przeprowadzane jest poprawnie, do środowiska IT wprowadzony zostanie deduplikator, który potrafi pobrać dane zarówno blokowe w sieci SAN (także FibreChannel), jak i plikowe, pozwalając, zależnie od potrzeb, na deduplikację "na źródle" i "na celu". Typowe oprogramowanie do kopii bezpieczeństwa można zintegrować z deduplikatorem. Nie ma potrzeby zmiany narzędzi, do których są przyzwyczajeni administratorzy. Różnica polega jedynie na innym medium backupowym.

Trudne przypadki

W wielu firmach znajdują się obiekty, którym trudno zapewnić backup, na przykład laptopy w zdalnych oddziałach oraz środowiska wirtualizowane, gdzie w data center pracują setki lub tysiące bardzo podobnych maszyn wirtualnych. W pierwszym przypadku pomoże deduplikacja przeprowadzana "na źródle", za pomocą inteligentnego oprogramowania, które potrafi przesłać zmienione porcje plików przez sieć. Można tutaj wykorzystać także backup w modelu cloud, gdyż ilość danych jest niewielka, a cały proces bezobsługowy.

Backup środowisk wirtualizowanych za pomocą agentów w każdej maszynie jest możliwy, ale wymaga kopii każdej z nich osobno. Zastosowanie deduplikacji umożliwia skopiowanie 60 GB podobnych do siebie maszyn w ciągu kilku minut na przeciętnym sprzęcie.

Pięć powodów, dla których dyski wygrywają

Niezawodność. Dopracowane przez lata macierze dyskowe dają gwarancję przechowywania danych nawet w wypadku awarii napędu. Powszechnie stosowany mechanizm RAID-6 z dwoma dyskami parzystości sprawia, że utrata danych mogłaby się zdarzyć, gdyby tego samego dnia uszkodzeniu uległy aż trzy dyski. Dodatkowo deduplikatory najnowszej generacji sprawdzają możliwość odtworzenia danych i odłączają file system w przypadku możliwości problemów. Mają też wiele innych mechanizmów zabezpieczających zarówno sprzęt, jak i same dane. Dzięki takim zabezpieczeniom oraz posiadaniu rezerwowej lokalizacji (patrz: punkt 4), niektóre przedsiębiorstwa przechowują krytyczne dane na dwóch deduplikatorach w dwóch centrach przetwarzania danych z zaplanowanym okresem retencji rzędu 5-6 lat.

Wielozadaniowość. Każdy system dyskowy pozwala na kilka operacji na zbiorze danych jednocześnie. W tym samym czasie można przeprowadzać klonowanie, wykonywanie kopii zapasowych, duplikowanie, przenoszenie. Przy napędzie taśmowym w tym samym czasie można wykonywać tylko jedno zadanie. Gdy jest wykonywany backup lub konsolidacja, informacji nie można odtwarzać.

Wydajność. Dzisiejsze napędy taśmowe oferują bardzo dużą wydajność, ale musi być ona zapewniona po obu stronach, także w systemie dostarczającym dane. Nie wszystkie systemy w czasie okna backupowego mogą dostarczyć taki strumień, zatem wydajność bardzo maleje. Przy zapisie za pomocą istniejącego oprogramowania, ale na deduplikator, na dyski zapisywanych jest około 1-3% nowych danych. Z typowego zbioru danych 10 TB, na dyski będzie zapisana porcja danych o rozmiarze około 300 GB (jest to praktyczna wielkość bloków, zmierzona w większości polskich firm po wdrożeniu deduplikatora). Mniejsza wydajność dysków nie ma praktycznie znaczenia, liczy się wydajność procesora i ilość pamięci RAM w urządzeniu deduplikującym. Wydajność podobną do dwóch napędów LTO5 (koszt około 40 tys. euro, plus oprogramowanie realizujące multistreaming i multipleksing) można osiągnąć za pomocą deduplikatora z macierzą sześciu dysków za mniej niż 20 tys. euro.

Disaster recovery. Dzięki temu, że deduplikator zapisuje od 1 do 3% danych, można bardzo łatwo osiągnąć odkładanie drugiej kopii tych samych informacji w lokalizacji zapasowej. Ponieważ trzeba przesłać o wiele mniej danych, do kopii wystarczą łącza o mniejszej przepustowości. Różnica w kosztach łączy jest tak duża, że oszczędności osiągnięte po wdrożeniu deduplikacji pokrywają koszt urządzenia w ciągu roku.

Łatwa obsługa i niższe koszty. Aby kopia na taśmę była wykonywana poprawnie, w napędzie musi znajdować się właściwa kasetka. W bibliotekach taśmowych zapewnia to mechanizm robota, ale w mniejszych firmach kasetki nadal są wymieniane ręcznie. Przy kopii dyskowej nie ma problemu niewłaściwej lub zapomnianej kasetki - kopie są realizowane automatycznie, oprogramowanie pilnuje także retencji danych. Typowe narzędzie deduplikacyjne w cenie około 12 tys. euro zapewni utrzymywanie kopii miesiąc wstecz dla zbioru danych o rozmiarze kilku terabajtów. Aby osiągnąć to samo zadanie bez deduplikacji, należałoby zakupić macierz 120 TB lub użyć 60 kasetek LTO-5 i dwóch streamerów, co na pewno kilkukrotnie przekroczy zakładany próg cenowy.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200