Macierze dostosowane do zmiennych obciążeń

Dzisiejsza mała firma może mieć duże wymagania odnośnie do składowania danych. Potrzebuje rozwiązań, które kilka lat temu były dostępne tylko w produktach korporacyjnych.

Podstawowym problemem, z którym borykają się małe i średnie firmy, jest uzyskanie oczekiwanej wydajności przy jak najmniejszych kosztach zakupu i utrzymania macierzy. Osiągnięcie dobrej wydajności przy wykorzystaniu dysków mechanicznych wymaga bardzo dużych nakładów finansowych, zatem producenci coraz częściej stosują napędy półprzewodnikowe. Moduły SSD są już obecne nawet w niewielkich macierzach klasy midrange, gdyż przynoszą istotne korzyści w postaci dużej wydajności w operacjach wejścia/wyjścia.

Chociaż moduły SSD są nadal kosztowne, ich cena spadła na tyle, że w obecnych projektach nie spotyka się w ogóle instalacji pozbawionych pierwszego poziomu macierzy, korzystającego z pamięci półprzewodnikowych typu Flash. Wprowadzenie SSD sprawia, że można zwiększyć upakowanie danych (w mniejszej przestrzeni zajmowanej przez macierz można przechować więcej informacji) oraz szczytową wydajność operacji dyskowych.

"Moduły Flash stały się standardowym wyposażeniem macierzy od około dwóch lat, nawet w najmniejszych instalacjach. Nie wyobrażam sobie dziś sprzedaży macierzy bez dysków SSD. Cena dysków półprzewodnikowych, liczona per operacja, jest już teraz niższa od ceny dysków mechanicznych. Zależnie od charakterystyki ruchu możemy liczyć na przyspieszenie pracy od kilku do nawet 30 razy. Ponadto występuje redukcja miejsca w serwerowni i mniejsze zapotrzebowanie na moc zasilania oraz klimatyzacji. Klienci zaczynają na to zwracać uwagę" - mówi Jakub Bałchan z EMC.

Samo posiadanie nie oznacza jednak automatycznie redukcji kosztów. Każda sztuka napędu SSD jest nadal kosztowna, a zatem wymaga optymalnego wykorzystania. Na dyskach półprzewodnikowych powinny się znajdować tylko te porcje danych, dla których jest to uzasadnione. Tak więc nie będą to całe bazy danych czy systemy, ale raczej ich "gorące" bloki (temat doboru ilości pamięci Flash i ich optymalnego wykorzystania za pomocą oprogramowania w macierzach dyskowych był omawiany w poprzednim wydaniu Computerworld).

Macierz rozumie, co robi hypervisor

Wirtualizacja jest dziś standardem, więc firmy każdej wielkości oczekują bezproblemowej współpracy z najpopularniejszymi hypervisorami. Integracja z rozwiązaniami VMware jest niezbędna praktycznie w każdej firmie, gdyż, niezależnie od wielkości organizacji, firma albo już posiada wdrożoną wirtualizację, albo rozważa taką możliwość w najbliższej przyszłości. VMware jest standardem w biznesie, zatem macierze muszą się integrować z tym hypervisorem, a także ze standardowymi systemami operacyjnymi.

Coraz częściej pojawia się też konieczność integracji z hypervisorem Microsoftu, Red Hata lub Citriksa. Nawet małe firmy mogą mieć heterogeniczne środowisko, producenci muszą to więc uwzględniać w swojej ofercie. Integracja może obejmować nie tylko tworzenie zasobów na potrzeby systemów wirtualizacji, ale też, na przykład, integrację kopii migawkowych lub klonowania. Realizacja tych samych zadań za pomocą logiki macierzy jest znacznie sprawniejsza niż przez oprogramowanie hypervisora.

Kurczenie balonu z danymi

Zazwyczaj oprócz danych produkcyjnych w firmach występuje duża liczba różnych kopii tych samych zasobów. Wynika ona po części z polityki retencji informacji, z założeń wykonywania backupów, ale także z niedostatecznego zarządzania obiegiem dokumentów w przedsiębiorstwach. Razem z ilością składowanych danych rośnie koszt ich przechowywania i firmy oczekują rozwiązań, które sprawią, że dane nie będą zajmować dużo miejsca. Dostępna technologia obejmuje deduplikację na poziomie obiektu, która zastępuje kopie tego samego pliku z odnośnikami, oraz deduplikację na poziomie bloków, która jest o wiele sprawniejsza od plikowej, ale wymaga większego nakładu mocy obliczeniowej.

Pośród deduplikacji na poziomie bloków wyróżnia się dwa podejścia: deduplikację na blokach o stałym rozmiarze oraz podejście ze zmiennym rozmiarem bloku. Najsprawniej deduplikuje się informacje za pomocą zmiennych bloków, gdyż sprytny algorytm podzieli plik w taki sposób, by jak najmniej jego części przesyłać ponownie. Połączenie wszystkich tych opcji sprawia, że kopia bezpieczeństwa wykonywana po raz kolejny przesyła ułamki (rzędu promili) ogólnego rozmiaru chronionych danych. W takiej technologii 50% pierwotnej powierzchni chronionych zasobów wystarcza do przechowania backupu wraz z trzydziestoma różnymi jego, logicznie pełnymi, kopiami z różnych okresów.

Według Jakuba Bałchana, firmy są zainteresowane nie tyle radykalnym deduplikowaniem danych produkcyjnych, ile raczej redukcją rozmiaru przechowywanych kopii bezpieczeństwa lub innych, rzadko wykorzystywanych zasobów. "Każda operacja kompresji i deduplikacji powoduje narzut obciążenia i wprowadza opóźnienia, zatem w pierwszej kolejności należy te technologie stosować przy kopiach bezpieczeństwa oraz archiwach" - tłumaczy Jakub Bałchan.

Dwa miejsca, jeden komplet danych

Nawet niewielkie firmy mogą mieć biura zlokalizowane w dwóch miejscach. Pojawia się więc potrzeba replikacji danych przez łącza WAN. Jest to standard w macierzach przeznaczonych dla średnich i dużych firm. Problemem nie jest deduplikacja, gdyż ona działa bez zarzutu. Najważniejszym wyzwaniem jest zapewnienie automatyzacji wszystkich operacji z nią związanych. Gdy wydarzy się awaria, niezbędne są automatyczne, szybko podejmowane działania, takie jak przełączenie do drugiego ośrodka, podłączenie zasobów do drugiego hosta i odwrócenie kierunku replikacji.

Obecnie podobne działania wymagają zazwyczaj interwencji administratora macierzy albo są realizowane programowo, co wydłuża czas odzyskiwania sprawności po awarii. "Na rynku dostępne są już narzędzia, które automatyzują procesy przy replikacji przez WAN. Ponadto umożliwiają przeprowadzenie testów «na sucho». Bez zmiany topologii i układu sieci można przetestować czy procedury działają, czy są dobrze skonfigurowane i wykonują się w odpowiednich sekwencjach" - mówi Jakub Bałchan.

Machina czasu wróci do wybranego miejsca

Replikacja do drugiego ośrodka, chociaż skutecznie chroni przed utratą danych w przypadku zniszczenia serwerowni, nie zabezpieczy przed celowym lub przypadkowym działaniem człowieka. Każda zmiana wprowadzona w środowisku będzie replikowana do obiektów zapasowych. Oczywiście, stan bieżący można zachować w kopiach migawkowych, ale ich liczba jest ograniczona, dlatego nie zawsze można będzie wrócić do stanu dokładnie sprzed niszczącej operacji.

Jakub Bałchan wyjaśnia: "Nawet jeśli kopie migawkowe są wykonywane co minutę, awaria może spowodować utratę 59 sekund wprowadzanych informacji. Jeśli są one istotne, warto skorzystać z ochrony, jaką dają narzędzia umożliwiające powrót do dokładnie wybranego momentu w czasie, z odtworzeniem stanu zasobów dyskowych w tej chwili. Dzięki temu można cofnąć skutki błędów lub awarii".

Jedna osoba zmienia profil danych

W przypadku mniejszej firmy praca jednej osoby z aplikacją biznesową może radykalnie wpływać na ruch i sposób wykorzystania macierzy dyskowej. Jeśli osoba ta od poniedziałku do czwartku wprowadza dane do programu, zazwyczaj nie generuje bardzo dużego ruchu. Z kolei w piątek uruchamia narzędzia raportowe i ruch jest bardzo duży, obejmując wiele obszarów bazy danych. Narzędzia macierzy dyskowych reagują na ten ruch, przenosząc najbardziej obciążone bloki do pamięci SSD, ale reakcja odbywa się z pewnym opóźnieniem zależnym od konstrukcji urządzenia i parametrów wbudowanego oprogramowania. Przy czasie reakcji liczonym w dniach piątkowe obciążenie spowoduje migrację bloków do szybkiej warstwy storage, ale odbędzie się to w sobotę i dane pozostaną tam nawet wtedy, gdy nie będą potrzebne. Dla porównania, czas reakcji liczony w minutach spowoduje szybkie przeniesienie "gorących" bloków do modułów SSD, gdzie będą przetwarzane bardzo szybko, a gdy raporty zostaną wykonane, macierz dostosuje się do zmienionego obciążenia. Szybka zmienność obciążenia spowodowana pracą jednej osoby (lub kilku osób) jest charakterystyczna dla niewielkich firm, a zatem macierze dla sektora MSP muszą uwzględniać tę specyfikę organizacji.


TOP 200