Więcej danych i więcej wolnego miejsca

Optymalizacja przestrzeni dyskowej to parasol, pod którym kryją się różne rozwiązania redukujące ilość danych, jak deduplikacja czy kompresja. Istotną rolę odgrywa również thin provisioning, dzięki któremu nie dochodzi do niepotrzebnego rezerwowania miejsca na dyskach.

Tradycyjnie wykorzystanie przestrzeni dyskowej w macierzach oscyluje w przedziale 30-50 %. Ten współczynnik mógł satysfakcjonować w czasach, kiedy budżet IT nie były napięte tak, jak dzisiaj. Tymczasem ilość danych, które trzeba przechowywać, rośnie błyskawicznie i trzeba szukać innowacyjnych sposobów, jak je pomieścić. Jedną z pierwszych prób zoptymalizowania macierzy podjął 3PAR (obecnie marka należy do HP), wprowadzając technologię zwaną thin provisioning. Wprawdzie część producentów niechętnie spoglądała na rozwiązanie, którego ograniczało sprzedaż. Obecnie oferuje je większość dostawców, choć w nieco różnych formach. Wprawdzie thin provisioning nie zapobiegnie całkowicie konieczności kupowania dodatkowej pojemności, ale umożliwia odłożenie tego momentu na przyszłość, kiedy ceny będą niższe i pojawią się nowe technologie.

Rozwiązania do ograniczania ilości danych to również ważny obszar innowacji. Można tutaj wymienić deduplikację (w świecie Windows znaną jako Single Instance Storage) czy kompresję. Tego rodzaju technologie najpierw stosowano w rozwiązaniach do backupu. Okazały się tak skuteczne, że trafiły również do systemów produkcyjnych. Mimo że stopień kompresji jest niższy niż w przypadku kopii zapasowych, nadal możliwe jest znaczne ograniczenia ilości danych do przechowywania i osiągnięcie wyraźnych oszczędności.

Zobacz również:

Gdyby koszty nie grały roli, wszystkie dane, nawet te mało ważne, można by przechowywać w najwyższej klasy systemach pamięci masowych. Ponieważ jednak koszty odgrywają istotną rolę, duże znaczenie ma fakt, gdzie dane są przechowywane. Zautomatyzowane rozwiązania umieszczające dane na różnych klasach nośników (tzw. automated tiering) eliminują ten problem, wymagając jedynie niewielkiej, ręcznej ingerencji ze strony administratorów. W szeregu modeli macierzy dyskowych, głównie tych z górnej półki, dane są dynamicznie rozmieszczane w zależności od aplikacji i częstotliwości korzystania z danych.

Po pierwsze: skasować

Najbardziej efektywną metodą redukcji danych jest kasowanie niepotrzebnych plików. Niestety trudno przekonać do tego użytkowników. Ponieważ to rozwiązanie w praktyce jest niewykonalne, dział IT powinien zwrócić się w kierunku rozwiązań technologicznych, jak deduplikacja, kompresja oraz thin provisioning, dzięki którym można zwiększyć poziom wykorzystania przestrzeni dyskowej, a także ograniczyć koszty zasilania. Im mniej danych się posiada, tym mniej energii potrzeba na ich przechowywanie.

Schemat działania różnych typów deduplikacji

Schemat działania różnych typów deduplikacji

Eksperci zalecają jednak mimo wszystko przed wdrożeniem rozwiązań technologicznych podjęcie próby usunięcia jak największej ilości zbędnych danych i skonfigurowanie automatycznej retencji. W ten sposób będzie można bezpiecznie przenieść dane do kopii zapasowych lub usunąć je w momencie, kiedy upłynie ich okres retencji. Również mechanizmy klasyfikacji mogą pomóc w pozbyciu się zbędnych danych. Jeśli użytkownicy nie są skłonni, żeby zająć się kasowaniem zbędnych danych, trzeba poszukać kreatywnych sposób lub środków nacisku, aby ich do tego przekonać. Jeśli mimo wszystko wyzwanie okaże się zbyt duże, nie ma wyjścia, trzeba stosować techniki ograniczające ilość danych, które umożliwiają także lepsze wykorzystania dostępnej powierzchni dyskowej.

Kompresja w systemach produkcyjnych

Technologie SCO (Storage Capacity Optimization) tradycyjnie największą skuteczność mają w odniesieniu do kopii zapasowych. Wiodącą rolę gra tutaj deduplikacja, która potrafi zredukować ilość danych o 90, a nawet 95 %. To oznacza, że backup może zajmować 10-20 razy mniej miejsca. Jednakże deduplikacja wymaga sporej mocy obliczeniowej, więc początkowo w systemach produkcyjnych skupiono się na rozwoju mechanizmów kompresji. Deduplikacja umożliwia wyeliminowanie powtarzających się danych, natomiast kompresja ogranicza rozmiar każdego rodzaju danych, wykorzystując specjalne algorytmy. Kompresja może być wykonywana w połączenie z deduplikacją. Główni dostawcy macierzy dyskowych oferują różne mechanizmy kompresji. IBM promuje kompresję w systemach produkcyjnych od momentu przejęcia firmy Storwize. Dell wszedł w posiadanie takich rozwiązań wraz z przejęciem firmy Ocarina Networks, natomiast EMC oferuje kombinację deduplikacji i kompresji w systemach produkcyjnych.

W odróżnieniu od systemów backupowych w macierzach wykorzystywanych produkcyjne dane mają inną charakterystykę, która utrudnia ograniczenie ich ilości. Przede wszystkim znacznie rzadziej powtarzają się te same dane. Ponadto trzeba pamiętać o wymaganiach dotyczących wydajności, na którą procesy związane z optymalizacją danych mają negatywny wpływ. Jednymi z pierwszych macierzy mających wbudowane funkcje kompresji nie wpływające na wydajności były modele Storwize. Początkowo stosowano oddzielne urządzenie instalowane między macierzą (NFS lub CIFS) a użytkownikiem, które było w stanie ograniczyć rozmiar danych o 50 do 90 %. Takie rozwiązanie miało jedną istotną zaletę – urządzenie kompresujące dane współpracowało z macierzami różnych producentów. Obecnie realizowane sprzętowo funkcje kompresji w czasie rzeczywistym są wbudowane w systemy pamięci masowych wielu producentów

Schemat działania deduplikacji

Schemat działania deduplikacji

Inne podejście opracowała przejęta przez Della firma Ocarina Networks. W tym przypadku dane są kompresowane dopiero po zapisaniu na dyskach. Mechanizm ten potrafi rozpoznać format danych i dobrać do niego optymalne algorytmy kompresji. Ogólnie, poziom kompresji jest jednak zbliżony jak w przypadku rozwiązań innych producentów.

Warto też zwrócić uwagę na firmę Permabit Technology, która specjalizuje się w rozwoju programowych mechanizmów SCO. Oprogramowanie to można wbudować w sprzętowe systemy pamięci masowych. Z Permatib Technology współpracują, m.in. EMC, NetApp oraz HDS, w ramach umów OEM wykorzystując w swoich macierzach rozwiązania opracowane przez tę firmę.


TOP 200