Więcej danych i więcej wolnego miejsca

Wszystkie algorytmy redukcji danych mają jedną wspólną cechę – wykorzystują zasoby obliczeniowe do wykonywania algorytmu oraz do śledzenia określonych bitów danych. Jeśli więc chcemy korzystać z deduplikacji na macierzach obsługujących aplikacje produkcyjne, to trzeba liczyć się z tym, że urządzenie będzie przeznaczało część zasobów na zadania związane z deduplikacją. W efekcie pozostanie ich mniej do dyspozycji dla innych zadań, jak obsługa klientów, aplikacji oraz użytkowników przestrzeni dyskowej danej macierzy. Zasoby obliczeniowe są wykorzystywane nie tylko w momencie deduplikacji danych, ale również później. Konieczna jest bowiem defragmentacja lub inny proces umożliwiający odzyskiwanie wolnej przestrzeni dyskowej, aby uporządkować pule wolnych bloków.

Moc obliczeniowa oraz pamięć operacyjna RAM potrzebna do przeprowadzania deduplikacji muszą skądś pochodzić. Z tego względu deduplikację najlepiej realizować sprzętowo dedykowanymi do tego zasobami. Mogą być wbudowane w macierzach lub funkcjonować jako samodzielne urządzenie. Natomiast deduplikację kopii zapasowych najlepiej realizować poza oknem backupowym, ponieważ w tym czasie pamięci masowe są mocno obciążone.

Zobacz również:

  • Plikowa, blokowa czy obiektowa pamięć masowa?
Więcej danych i więcej wolnego miejsca

Stopień redukcji danych w różnych formatach

Deduplikacja umożliwia nie tylko ograniczenie ilości danych, ale jest również jedną z ważnych technologii chmurowych. Umożliwia bowiem efektywną replikację przy znacznie mniejszych wymaganiach dotyczących przepustowości sieci. Mechanizmy deduplikacji stosowane w replikacji są podobne do tych używanych w systemach pamięci masowych. Po utworzeniu dwóch identycznych kopii, jedyne co jest konieczne do utrzymania kopii w pełnej zgodności z oryginałem to regularne przesyłanie nowych lub zmienionych segmentów danych oraz powiązanych z nimi metadanych.

Migawki

Zwane również kopiami migawkowymi (snapshot) to kopie danych z określonego punktu w czasie. Są szczególnie przydatne w kontekście backupu. Niektóre rozwiązania tego typu umożliwiają ograniczenie ilości danych poprzez kopiowanie wyłącznie zmian i użycie podstawowej migawki jako punktu odniesienia. Kilka lat temu powszechną praktyką było tworzenie kopii zapasowych całych woluminów, co było mało efektywne. Stosując kopie migawkowe można znacznie zredukować ilość miejsca potrzebną do przechowywania logicznej kopii woluminu.

Thin provisioning

Dział IT może poprawić poziom wykorzystania macierzy za pomocą technologii thin provisioning, która alokuje przestrzeń dyskową na żądanie, zamiast rezerwować ją na stałe. Różne aplikacje i systemy wymagają określonej przestrzeni dyskowej, którą rezerwuje się na macierzy, nawet jeśli faktyczna ilość zapisanych przez nie danych jest znacznie mniejsza. W efekcie część miejsca pozostaje niewykorzystana, ale jednocześnie jest niedostępna do zapisu danych z uwagi na fakt rezerwacji. Zamiast rezerwować przestrzeń fizycznie, można informować o dostępności wymaganej ilości miejsca, a na macierzy zapisywać jedynie dane bez wcześniejszego rezerwowania miejsca.

Optymalizacja na całego

Producenci macierzy przeprowadzili szereg przejęć mniejszych firm specjalizujących się w technologiach SCO. Po skompletowaniu potrzebnego zestawu technologii następował proces integrowania ich ze sobą, aby stworzyć kompleksowe rozwiązanie do ograniczania ilości danych. Niestety rezultaty tych działań nie były zadowalające, ponieważ często próbowano integrować niekompatybilne ze sobą technologie.

Największymi przegranymi w tej grze są użytkownicy. Rozważmy następujący scenariusz. Administrator IT wybiera narzędzie do deduplikacji, które potrafi zredukować rozmiar danych o 90 % podczas tworzenia kopii zapasowych. Nie ma z tym większego problem, ale spróbujmy zrobić z tymi danymi coś więcej. Przykładowo, pojawia się potrzeba przeniesienia nieaktywnych porcji zdeduplikowanych danych do archiwum, które można przeszukiwać. Nie da się jednak tego zrobić bez przywrócenia danych do ich oryginalnego formatu. To jednak oznacza, że dane powrócą również do swojego pierwotnego rozmiaru.

Aby rozwiązać ten problem, w systemie produkcyjnym można zastosować kompresję. Z tym również wiążą się pewne ograniczenia, np. dane mogą wymagać dekompresji przy próbie przeniesienia ich na inny rodzaj pamięci masowych. To samo dotyczy ponownej deduplikacji skompresowanych danych. Nie wydaje się to dużym problemem, ale przywracanie danych do ich oryginalnego formatu wymaga mocy obliczeniowej, jak również przestrzeni dyskowej do ich przechowywania. Dlatego nie ma prostego sposobu na korzystanie z różnych rozwiązań SCO, a dla każdego rodzaju pamięci masowych (backup, archiwum, system produkcyjny) trzeba wybrać inne, optymalne rozwiązanie i liczyć się z niedogodnościami przy przenoszeniu danych między macierzami pełniącymi różne funkcje.

Sytuacja raczej się nie poprawi, ponieważ producenci są skupieni na rozwijaniu własnych, zastrzeżonych rozwiązań i kwestie interoperacyjności schodzą na drugi plan. To czyni próbę opracowania strategii planowania pojemności na okres kilku lat sporym wyzwaniem. Dlatego w krótszej perspektywie dobrym pomysłem wydaje się wybór pamięci masowych od jednego producenta, co zapewni większą skuteczność SCO.

Natomiast długoterminowa strategia powinna zakładać poszukiwanie rozwiązań od różnych producentów, ale zgodnych z jednym standardem, co zapewni interoperacyjność między różnymi mechanizmami optymalizacji pojemności. Jedną z korzyści wynikających z zastosowania standardowych dróg komunikacji jest możliwość przenoszenia danych bez konieczności ich przywracania do oryginalnego formatu. Dodatkowo standaryzacja technologii SCO dawałaby możliwość przenoszenia licencji pomiędzy różnymi urządzeniami. Niestety, na razie standaryzacja wydaje się mało prawdopodobna. Pozostańmy jednak optymistami, licząc na to, że lepsze dni dla optymalizacji pojemności są jeszcze przed nami.


TOP 200