Prawdy i mity na temat backupu

Ochrona danych to bardzo nielubiany obszar informatyki, którego przydatność jest często kwestionowana (do czasu, aż coś się wydarzy). Dlatego warto przyjrzeć się wyzwaniom, z jakimi zmagają się firmy w zakresie backupu i przywracania, a także rozwiać szereg błędnych przekonań i metod funkcjonujących w tym obszarze.

Często backup i przywracanie są na końcu listy priorytetów. Szczególnie osoby spoza IT mogą sądzić, że to proste zadania – naciskamy magiczny przycisk i wszystkie dane są zabezpieczone. Każdy, kto zarządza systemem tworzenia kopii zapasowych, zapewne spotkał się z tym problemem. Administratorzy backup nie są wystarczająco doceniani w stosunku do tego, co robią dla firm – chronią najcenniejsze zasoby organizacji. Przykładowo, często są obwiniani, jeśli nie mogą odzyskać określonego pliku z komputera użytkownika, niezależnie od przyczyny braku dostępu do tego pliku. A regularnie zdarza się, że przyczyna jest trywialna i leży po stronie użytkownika, np. plik został zapisany w innej niż zwykle lokalizacji. Tak więc przekonanie, że backup chroni wszystkie pliki przed każdym nieszczęściem to tylko jedno z wielu błędnych przekonań dotyczących backupu, które funkcjonują zarówno wśród laików jak i specjalistów IT.

Duża liczba małych plików

Jest to odwieczne wyzwanie dla osób odpowiedzialnych za backup – jak efektywnie wykonać kopię zapasową klienta, który przechowuję dużą liczbę małych plików. Często nieuporządkowanych i dawno nie używanych. To nieustrukturyzowane dane, do których administratorzy backupu podchodzą z rezerwą. Wynika to z kilku powodów:

Zobacz również:

  • z reguły są to największe, zagregowane zbiory danych w środowisku,
  • ciągle się zmieniają i stanowią mieszankę kluczowych oraz nieistotnych danych,
  • kopie tworzy się dla całych zagregowanych zbiorów, ale najczęściej przywraca się tylko pojedyncze pliki,
  • trudno wykryć fakt uszkodzenia lub skasowania pliku.

Niezależnie od tych komplikacji, biznes oczekuje, że nieustrukturyzowane dane, jak każdy inny typ danych, również będą dobrze chronione i da się je szybko odzyskać. W czym więc tkwi problem? W tym, że nieustrukturyzowane dane rządzą się swoimi prawami. Przede wszystkim w ich przypadku nie sprawdza się następujące równanie: (większa przepustowość)+(więcej serwerów backupu)+(więcej celów backupu)=(szybki, niezawodny backup). Niestety, wiele osób sądzi, że takie podejście można stosować również do nieustrukturyzowanych danych.

Ogranicznikiem w tym przypadku nie jest jednak przepustowość. Aby wykonać kopię zapasową, system musi skopiować nie tylko dane, ale również metadane. Tych drugich w przypadku dużych zbiorów małych plików robi się całkiem sporo. Nawet jeśli chodzi o wykonanie kopii przyrostowej czy różnicowej, system backupu musi sprawdzić każdy plik, czy zaszły w nim zmiany. Nawet jeśli plik nie wymaga skopiowania, to jego sprawdzenie zajmuje czas. Dlatego zwiększanie szybkości kopiowania nie rozwiązuje problemu. W przypadku dużych systemów plików metadane raczej nie są zapisywane w pamięci cache, ale jako plik, co dodatkowo wydłuża proces sprawdzania.

Ryzyko, jakie wiąże się z dużymi zbiorami małych plików, to zainwestowanie w wydajny sprzęt i oprogramowanie, co raczej nie rozwiąże problemu. To jednak nie jedyny błąd, jaki popełniają administratorzy, szukając sposobu wyjścia z tej kłopotliwej sytuacji. Niewiele dadzą różne triki z oprogramowaniem (multiplexing, równoważenie obciążenia, kompresja, deduplikacja, itd.) czy sprzętem (dodatkowe, szybsze urządzenia, więcej portów, wydajniejsze dyski). Nie pomoże też wymiana oprogramowania backupowego.

W praktyce skutecznie może pomóc ograniczenie ilości danych do skopiowania (dopracowanie metodologii backup), zastąpienie mechanizmów programowych rozwiązaniami sprzętowymi (macierze są znaczniejsze wydajniejsze od oprogramowania) oraz przechowywanie źródłowych danych na nośnikach, które dobrze radzą sobie z dostępem do małych bloków danych.

Mity dotyczące tworzenia kopii zapasowych

1. Wszystkie dane można chronić w ten sam sposób

Absolutnie nie da się chronić każdego typu danych w taki sam sposób. Poszczególne rodzaje zasobów. żeby wymienić kilka: obrazy maszyn wirtualnych i duże zbiory ustrukturyzowanych danych, wymagają specyficznych środków ochrony. Każdy rodzaj wymaga zaplanowania harmonogramu backupu i wybrania odpowiedniego rodzaju nośnika. Co istotne, jest więcej czynników, które wpływają na wybór techniki tworzenia kopii zapasowej, np. parametry RPO i RTO czy wymagania zapisane w SLA.

2. Deduplikacja rozwiązuje wszystkie problemy backupu

Oczywiście ta technologia przynosi ogromne korzyści i, jeśli wdrożona poprawnie, może znacznie ulepszyć przebieg zadań backupowych, jak również ograniczyć ilość miejsca zajmowanego przez kopie zapasowe. Jednakże błędne przekonanie polega na tym, iż sądzi się, że deduplikacja nie ma wpływu na chronione środowisko. Przeciwnie, wdrożenie tej funkcjonalności wymaga planowania i zrozumienia struktury danych.

3. Wystarczy zrobić backup i gotowe

Zrobienie kopii zapasowej to nie koniec, a jedynie krok mający finalnie umożliwić odzyskanie danych, gdy zajdzie taka konieczność. Problemy z odzyskaniem danych mają różne podłoże, mogą, np. wynikać wyboru niewłaściwego dobrania oprogramowania. Chodzi przede wszystkim o funkcje weryfikujące, czy kopia zapasowa została utworzona poprawnie. Dobrym pomysłem jest też testowanie od czasu do czasu procesu przywracania danych. Niestety w praktyce często sądzi się, że nie ma potrzeby robienia takich testów. Tymczasem umożliwiają one wykrycie ewentualnych błędów w kopiach zapasowych.

4. Backup to archiwum i odwrotnie

To też nie jest prawdą. Backup służy temu, aby móc odzyskać dane, natomiast archiwum służy eksploracji danych. Backup i archiwizacja to komplementarne funkcje, ale nie są takie same. Jeśli wymagana jest retencja danych w określonym cyklu, lepiej przenieść je do archiwum lub chmury. W ten sposób zachowuje się dostęp do tych danych i można je chronić. Ponadto przeniesienie do archiwum dużych ilość starszych danych ograniczy czas tworzenia backupów.

5. Taśmy wyszły z użycia

W tej kwestii odpowiedzi są różne, w zależności kogo się pyta. Część ekspertów uważa, że można obejść się bez taśm. Jednak wciąż są one przydatne, a nawet znalazły ostatnio nowe, bardzo interesujące zastosowania.

Duże zbiory danych

W wymarzonym świecie administratorów backupu wszystkie firmowe dane są równomiernie rozmieszczone na poszczególnych zasobach IT (macierzach dyskowych, serwerach, systemach plików, itd.). Dzięki temu jest niewielkie zróżnicowanie pomiędzy poszczególnymi zadaniami backupu czy przywracania. Środowisko jest elastyczne – można je skalować horyzontalnie poprzez zwiększanie liczby zasobów. Zasoby backupowe skalują się liniowo wraz z rosnącą ilością danych, dzięki czemu zadania backupu i przywracania zawsze trwają tyle samo czasu, niezależnie czy chodzi o 10 GB danych czy o 10 TB.

Obecnie żadna organizacja nie dorobiła się jeszcze takiego idealnego środowiska ochrony danych. Zbiory danych są nierównomiernie rozproszone w środowisku IT. W przypadku 80 % przedsiębiorstw dane mogą być przechowywane w pojedynczej bazie danych lub w jednym serwerze. To stwarza problemy z dystrybucją zasobów, jeśli firma ma duży zbiór zasobów służących do wykonywania kopii zapasowych, ale dane są rozproszone, więc tylko część tych zasobów da się zaprząc do wykonania backupu największego zbioru danych. W tych rozważaniach termin duży zbiór danych nie odnosi się do agregatu wszystkich danych posiadanych przez organizację, ale raczej do wielkości pojedynczego zbioru danych, który wymaga ochrony.


TOP 200