Co potrafi pamięć

Systemy pamięci masowych kojarzą się głównie ze składowaniem danych na wielu dyskach i wykonywaniem kopii bezpieczeństwa. Nowoczesne rozwiązania potrafią o wiele więcej.

Systemy pamięci masowych kojarzą się głównie ze składowaniem danych na wielu dyskach i wykonywaniem kopii bezpieczeństwa. Nowoczesne rozwiązania potrafią o wiele więcej.

Najważniejszym obiektem przy składowaniu danych jest wolumin. W nim zapisywane są dane, które następnie są składowane na dyskach w sposób zorganizowany przez macierz. Do macierzy można dołączyć szybkie dyski SAS, wolne dyski SATA, a także ultraszybkie dyski półprzewodnikowe (SSD). Ponieważ dane w woluminach są oddzielone logicznie od ich fragmentów zapisywanych do różnych urządzeń dyskowych, woluminy mogą być w elastyczny sposób konfigurowane.

W nowoczesnych macierzach wolumin może być dynamicznie przeniesiony na inną grupę urządzeń składowania, zależnie od potrzeb. Po zmianie dane są sukcesywnie przenoszone do wybranych urządzeń w tle, a nowe dane zapisywane do woluminu trafiają już na swoje docelowe miejsce. Przeprowadzana w ten sposób migracja danych może być podejmowana na przykład wtedy, gdy przeszacowano potrzeby aplikacji i można jej dane przenieść do wolniejszych, ale tańszych zasobów storage.

Planowanie z wyprzedzeniem

Tradycyjny wolumin RAID-5 (na przykład realizowany przez kontroler w tanich serwerach entry-level i midrange) posiada ustalony rozmiar w momencie jego kreowania. Późniejsza zmiana rozmiaru tego woluminu nie jest możliwa podczas pracy serwera. Natomiast nowoczesne macierze wspierają rozszerzenie rozmiaru, a także deklarację zasobu o rozmiarze większym niż przestrzeń dyskowa dostępna w tej chwili (opcja thin provisioning).

W ten sposób można wykreować wolumin, którego rozmiar zwracany do systemu operacyjnego będzie większy, zachowując rezerwę na rozwój firmy. Zasoby dyskowe są wykorzystywane dopiero w momencie zapisu do nowego obszaru, podczas tworzenia woluminu nie wymaga się prealokacji miejsca. Przy czym wolumin utworzony z użyciem opcji thin provisioning będzie wymagał rozbudowy zasobów pamięci masowej dopiero wtedy, gdy rzeczywista ilość składowanych danych będzie wzrastać. Proces rozbudowy może być całkowicie niezależny od zmiany rozmiaru woluminu, oczywiście pod warunkiem dostarczenia miejsca dla rzeczywiście składowanych danych.

Integracja z antywirusem

Na macierzy mogą być składowane różne pliki, w tym także typowe dokumenty biurowe. W odróżnieniu od woluminów tworzonych na serwerach plików, pracujących z wbudowanym systemem pamięci masowej, na macierzach nie pracuje żadne oprogramowanie antywirusowe. W zamian za to, można skorzystać z integracji z zewnętrznym motorem antywirusowym.

Skaner antywirusowy współpracujący z macierzą sprawdza pliki i ustawia odpowiedni znacznik, który określa stan skanowania pliku. W przypadku pobrania pliku, wystarczy sprawdzenie znacznika, w ten sposób można uniknąć wielokrotnego skanowania tego samego, bardzo często otwieranego pliku. Z macierzami najczęściej integruje się motory antywirusowe firm Trend Micro, Symantec, McAfee i Sophos.

Wirtualizacja

Rozmiar woluminu może być bardzo duży, gdyż NetApp FAS980 wspiera 16 TB (limit ten dotyczy także agregatów w przypadku urządzeń R200, DataONTAP 6.5), pojedynczy system plików w przypadku macierzy BlueArc może zawierać 256 TB danych. W odróżnieniu od popularnego systemu plików NTFS w systemach Windows Server, macierze dyskowe radzą sobie bardzo dobrze także z dużą ilością plików. W macierzach NetApp ilość plików jest limitowana przez ilość i-węzłów. System plików macierzy BlueArc potrafi sprawnie obsłużyć 8 mld plików, przy czym 4 mln plików mogą być umieszczone w jednym folderze.

Pojedyncze woluminy można złożyć w jeden wirtualny, przy czym nowoczesne macierze dają spójną przestrzeń nazw. Oznacza to, że wszystkie pliki ze wszystkich woluminów są dostępne w tym samym czasie. Gdy przestrzeń nie jest spójna, pojawiają się problemy z pobraniem plików z różnych woluminów.

Przy składowaniu danych w wirtualnych woluminach nie ma ograniczenia rozmiaru pojedynczego urządzenia. Pliki mogą być fizycznie przechowywane w różnych urządzeniach, o różnej konstrukcji i różnej prędkości pracy, zależnie od potrzeb. W jednym wirtualnym woluminie mogą się znajdować mocno wykorzystywane zasoby umieszczone na najszybszych dyskach SSD oraz dane archiwalne, składowane na najwolniejszych dyskach SATA.

Niezawodność

Od nowoczesnej macierzy oczekuje się wysokiej niezawodności. Niektórzy producenci to oferują na piśmie, np. Pillar Data Systems, gwarantuje dostępność rzędu 99,9999%. Typowe rozwiązanie (spotykane u wszystkich najważniejszych producentów macierzy) obejmuje konstrukcję z nadmiarowymi podzespołami i/lub wykorzystanie klastra active-active. W tej konfiguracji węzły przetwarzają dane zgodnie z zaprojektowaną ścieżką, ale w przypadku awarii jednego z nich, drugie urządzenie może przejąć wszystkie zadania. Dzięki synchronizacji pamięci podręcznej, nie ma żadnej przerwy w pracy ani utraty danych, nie następuje faktyczne przełączenie klastra, ale raczej przekierowanie przepływu danych.

Dla celów nowoczesnych centrów danych wspierany jest mirroring w obrębie jednej sieci światłowodowej oraz synchronizacja poprzez WAN. W ten sposób można zrealizować połączenie między dwoma centrami danych, zachowując gorącą rezerwę. Nawet całkowite zniszczenie jednej serwerowni (przez pożar czy katastrofę budowlaną) nie powoduje utraty danych. Niektóre rozwiązania umożliwiają niemal natychmiastowe przejęcie całej pracy ośrodka głównego przez lokalizację rezerwową. Osiągnięcie takiego poziomu niezawodności środowiska klasy Enterprise bez nowoczesnej macierzy jest bardzo trudne.

Wydajność

Bardzo ważną cechą nowoczesnych urządzeń pamięci masowych jest wysoka wydajność. Wydajność ta może dotyczyć bardzo dużej ilości operacji odczytu i zapisu (duża ilość drobnych plików, transakcyjne bazy danych) albo bardzo szerokiego pasma (multimedia, prace obliczeniowe z bardzo dużymi plikami). Przy projektowaniu systemu pamięci masowej uwzględnia się wszystkie potrzeby aplikacji, dzięki temu gotowe rozwiązanie może spełnić na pozór sprzeczne żądania – praca przy obróbce olbrzymich plików wideo w ogóle nie ma wpływu na wydajność silnie obciążonej transakcyjnej bazy danych.

Przykładem takiej konfiguracji jest klaster active-active, gdzie w odpowiedni sposób określono ścieżkę danych. Dane związane z renderowaniem filmów wideo (do takich zastosowań nowoczesne macierze świetnie się nadają) nie powodują powstawania opóźnień pracy w innych woluminach. Optymalizacja dostępu do danych wideo sprawia, że w procesie renderowania można wprowadzić większą ilość iteracji, całość zadania trwa krócej niż trwałaby, gdyby zastosowano wspólną, nieoptymalną ścieżkę wszystkich danych.

Priorytetyzacja dostępu

Zasoby dyskowe w nowoczesnej firmie można podzielić pod kątem wymaganej prędkości dostępu. Najbardziej wymagające zasoby to pliki bardzo obciążonych baz danych oraz multimedia, mniejsze wymagania dotyczą na przykład plików archiwalnych baz Oracle, dokumentów biurowych, najmniejsze wymagania mają dane archiwalne. W tradycyjnym modelu przechowywania danych, należałoby przygotować osobne urządzenia systemu pamięci masowej, zależnie od potrzeb. Przy wykorzystaniu macierzy można uzyskać ten sam efekt w jednym urządzeniu. Niektóre macierze wykorzystują niedrogie dyski SATA, przy czym rozróżniają prędkość dostępu do danych w zależności od lokalizacji danych na talerzach dysku. Organizacja danych w macierzy obejmuje ich podział pod kątem jakości obsługi (QoS). Jest to szczególnie ważne w środowiskach wirtualnych, takich jak VMWare o dużym stopniu koncentracji. W tradycyjnym modelu, gdzie fizyczne LUN są prezentowane serwerom ESX przez kontroler pamięci, nie stosuje się w ogóle QoS. Podział zasobów odbywa się za pomocą osobnych urządzeń o różnej prędkości, pojemności i cenie, przypisując LUN do odpowiednich maszyn i urządzeń.

Macierz wspierająca QoS umożliwia prezentowanie serwerom ESX wirtualnych LUN w taki sposób, aby oddzielić zasoby wymagające szybszego dostępu. Za rozmieszczenie danych, które odpowiadają każdemu z wirtualnych LUN, odpowiada kontroler macierzowy, który organizuje ich składowanie na dyskach, uwzględniając ich prędkość dostępu.

Klasa dostępu QoS niejednokrotnie może być zmieniana dynamicznie, w trakcie pracy wszystkich zasobów. Zmiany takie mogą występować dość często, choćby podczas prac deweloperskich. Aplikacja podczas jej tworzenia nie wymaga wysokiego priorytetu dla swoich danych, zatem wolumin, z którego korzysta, może mieć niski QoS. W momencie pełnowymiarowych testów wydajnościowych, które powinny być przeprowadzone w wiarygodny sposób, wystarczy zmienić klasę QoS. Zmiana klasy obsługi sprawia, że aplikacja może być szybko testowana z dostępem odzwierciedlającym pracę produkcyjną.

Najszybciej jak się da

W pewnych zastosowaniach liczy się wyłącznie prędkość odczytu. Nowoczesne urządzenia storage umożliwiają dołączenie ultraszybkich pamięci SSD, które radykalnie przyspieszą pracę z często przetwarzanymi danymi. Jako najszybszą pulę zasobów można wykorzystać urządzenie SSD RamSan 440 firmy Texas Memory Systems, które potrafi obsłużyć ponad 600 tys. losowych operacji odczytu na sekundę z ciągłym pasmem 4500 MB na sekundę, z deklarowanym opóźnieniem poniżej 15 mikrosekund.

Od takich rozwiązań szybsze są tylko moduły Violin 1010 firmy Violin Memory, które dostarczają 4 TB pamięci Flash albo 500 GB DRAM (dwie wersje) w jednym, niewielkim urządzeniu 2U. Moduł ten jest łączony za pomocą kart PCI-E bezpośrednio z serwerem, dzięki niemu pojedynczy serwer z systemem Linux może obsłużyć ponad 1 mln IOPS, co odpowiada wydajności 3000 szt. dysków o prędkości 15 tys. RPM. W ten sposób można akcelerować rozwiązania storage FalconStor IPStor, które są zgodne z modułami Violin Memory.

Szybkie odbudowywanie

Bardzo duże woluminy potrafią sprawiać problemy przy uszkodzeniu dysków. Chociaż awaria nie powoduje utraty danych (po to są nadmiarowe dyski), po wymianie uszkodzonego dysku następuje proces odbudowywania pełnej sprawności systemu. Gdy macierz odbudowuje swoją strukturę, jej wydajność spada, gdyż część operacji dyskowych jest zużywane na ten proces. Czas odbudowy zależy od wielu czynników. Macierz, która posiada jeden zestaw kontrolerów na półkę i rozrzuca dane na wiele półek, odbuduje system znacznie szybciej, przy mniejszym wpływie na bieżącą pracę.

Wirtualna taśma

Magazynowanie danych wiąże się z zadaniem wykonania kopii bezpieczeństwa. Wszystkie nowoczesne macierze wspierają kopiowanie za pomocą NDMP, co jest wielokrotnie szybsze od kopii plikowej, wykonywanej za pomocą serwera.

Kopie bezpieczeństwa mogą być wykonywane tradycyjnie (z dysków na taśmę) albo w modelu disk-to-disk-to-tape, gdzie pierwszym etapem jest kopia na dysk, a następnie dopiero na taśmę. To zadanie ułatwiają wirtualne biblioteki taśmowe (VTL), takie jak Falconstor Virtual Tape Library, lidera rynku. Przyczyną coraz większej popularności VTL jest wzrost ilości danych, które muszą być skopiowane w jak najkrótszym oknie backupowym. Tradycyjne rozwiązania już nie wystarczają do backupu dużej ilości danych, więc biblioteka VTL umożliwi szybką kopię danych do zasobu dyskowego i ewentualną późniejszą, wolniejszą kopię na taśmę. Kopia ta może być wykonana za pomocą NDMP.

Najważniejszym etapem kopii bezpieczeństwa jest odtwarzanie danych. Urządzenia taśmowe charakteryzują się długim czasem wyszukiwania żądanych porcji danych, co przekłada się na prędkość odtwarzania danych. Wirtualne biblioteki taśmowe, składujące dane na dyskach, nie mają opóźnienia w ogóle. Przy zastosowaniu VTL wraz z innymi mechanizmami, możliwe jest odtworzenie dowolnego pliku w czasie krótszym niż kilka minut.


TOP 200