Jak osiągnąć wartość, wybierając odpowiednią pamięć masową?


Firmy mają coraz więcej danych, z których chcą wydobywać wartość. Dlatego trzeba zwiększyć efektywność przechowywania i analizowania danych. Na szczęście istnieje wiele rozwiązań, które pomagają osiągnąć cel.

Jeśli XX wiek był charakteryzowany jako wyścig po ropę naftową, to jest jasne, że od początku XXI wieku nowym olejem są dane. Gdyby potrzebny był dowód, to Google, firma, która specjalizuje się w zarządzaniu danymi, zastąpiła w 2014 r. koncern Exxon Mobil jako przedsiębiorstwo nr 1 pod względem globalnej kapitalizacji rynkowej.

W miarę wzrostu znaczenia informacji, pojawiły się i rozwinęły koncepcje oraz narzędzia, które umożliwiają firmom zarządzanie zgromadzonymi danymi. „Kiedy pojawił się internet rzeczy, uczenie maszynowe i demokratyzacja Big Data, przedsiębiorstwa zostały zmuszone do odświeżenia infrastruktury IT. Tylko w ten sposób mogą wydobyć z danych pełną wartość” – mówi Ludovic Levé, dyrektor zarządzający francuskim oddziałem Lenovo Data Centre Group.

Badanie Big Data Executive Survey przeprowadzone przez New Vantage Partners LLC pokazuje, że 80% firm rozważa inwestycję w Big Data, ponieważ ma to zapewnić im sukces. Natomiast prawie połowa organizacji twierdzi, że osiągnęła zwrot z inwestycji. W szczególności 37% przedsiębiorstw z listy Fortune 1000 w ciągu ostatnich pięciu lat zainwestowało w Big Data ponad 100 mln USD.

„Jednak te projekty nie zakończą się sukcesem, jeśli zastosowanie infrastruktury i pamięci masowej nie będzie optymalne. Obecnie wiele różnych technologii, rozproszone pamięci masowe, skalowalne horyzontalnie pamięci NAS i pamięci obiektowe, wykorzystujące dyski twarde albo SSD, współistnieje w jednym środowisku, żeby można było zaspokoić zróżnicowane wymagania” – wyjaśnia Nicolas Mahé, szef produktów serwerowych w Lenovo France.

Grid computing to podstawa

Rozproszona pamięć masowa, która często powiązana jest z użyciem systemu HDFS (Hadoop Distributed File System) oraz technologii grid computing, ma kilka zalet w porównaniu z tradycyjnymi rozwiązaniami. Pierwsza to wysoka efektywność kosztowa – można ją bowiem uruchomić bezpośrednio na istniejących dyskach oraz na serwerach.

Kolejna przewaga to bliskość względem środowisk, w których przetwarzane są dane. Każdy węzeł klastra składa się bowiem z pamięci masowej i mocy obliczeniowej. Warto jednak zauważyć, że rozproszona pamięć masowa, jeśli ma być optymalnie wykorzystana, wymaga znacznego wysiłku włożonego w konfigurację - przykładowo, jeżeli chcemy jej używać do obsługi Big Data.

Klastry NAS (Network-Attached Storage) to także propozycja warta rozważenia. Niemniej, w przeciwieństwie do rozproszonej pamięci masowej, dane nie są przetwarzane bezpośrednio na węzłach klastra. Zamiast tego, cała moc procesorów jest przeznaczona w całości na potrzeby funkcji pamięci masowej. Wydajność oferowana przez skalowalne horyzontalnie pamięci NAS sprawiła, że obecnie są one powszechnie wykorzystywane do przetwarzania bardzo dużych wolumenów danych, w takich obszarach jak systemy superkomputerowe (HPC) oraz obliczenia naukowe. Ich przewaga polega na tym, że poza większą pojemnością, dodanie węzła przekłada się na zwiększenie przepustowości.

To infrastruktura, jaką Lenovo zainstalowało w Cineca, włoskim konsorcjum badawczym, na potrzeby rozwiązania HPC. System pamięci masowej został oparty na NeXtScale oraz System x, a jako oprogramowanie zastosowano IBM GPFS (General Parallel File System). Skalowalny horyzontalnie NAS oferuje także większą funkcjonalność (backup, odtwarzanie, kompresja, replikacja itd.) w porównaniu z konwencjonalnymi rozwiązaniami rozproszonej pamięci masowej. Jedynym niewielkim minusem jest fakt, że wydajność tych systemów spada, jeśli są wykorzystywane do przechowywania małych plików. Dlatego należy je stosować przede wszystkim do obsługi dużych plików.

Flash ma swoje miejsce

Choć powszechnie uważa się, że jest zbyt kosztowna do obsługi Big Data, pamięć masowa Flash staje się coraz bardziej popularna. W pewnych przypadkach przedsiębiorstwa potrzebują rezultatów w czasie rzeczywistym, a to właśnie mogą zapewnić rozwiązania Flash. Zwłaszcza, jeśli przetwarzane wolumeny są mniejsze niż te charakterystyczne dla Big Data. Te rozwiązania sprawdzają się również w organizacjach, które używają baz danych in-memory (IMDB), takich jak SAP HANA. Przy tym, jeśli pamięć masowa definiowana programowo (SDS), np. vSAN jest wykorzystywana w systemach hybrydowych (SSD oraz HDD), Flash może zaoferować satysfakcjonujące efekty w kategoriach kosztów i wydajności.

Wreszcie, zalety ma także obiektowa pamięć masowa. Podobnie jak w przypadku dwóch wymienionych wcześniej, opiera się na rozproszonych węzłach i umożliwia przechowywanie zbiorów danych zawierających miliardy czy nawet biliony obiektów. Dzięki temu, że można ją replikować w różnych lokalizacjach geograficznych, zbiory mogą być stosowane do obsługi różnych zapytań dotyczących tych samych danych znajdujących się w różnych częściach świata. Wielu producentów próbuje zaoferować rozwiązania oparte bezpośrednio na obiektowej pamięci masowej: Lenovo, przykładowo, zawarło porozumienie z Cloudian i oferuje urządzenie dedykowane.

SAN kontra SDS

Wszystkie te technologie wymagają sprytnego używania rozwiązań do zarządzania pamięcią masową. Prosta sieć SAN (Storage Area Network) już nie wystarcza. Kluczowe staje się zastosowanie SDS, zwłaszcza w połączeniu z rozwiązaniami VMware vSAN (lub podobnymi) oraz open ,source, np. OpenStack czy Red Hat Ceph Storage. Stawiając na te technologie, można sprawić, że infrastruktura centrum danych stanie się znacznie bardziej skalowalna, a przede wszystkim administracja będzie łatwiejsza. SDS może również zaoferować bezpośrednią integrację funkcji, takich jak backup, odtwarzanie, kompresja czy merge/purge.

Obiektowa pamięć masowa zapewnia też większe możliwości ochrony danych. Kwestia ochrony danych zyskała priorytetowe znaczenie dla działów IT, zwłaszcza w kontekście nowego, bardzo restrykcyjnego europejskiego rozporządzenia o ochronie danych osobowych (General Data Protection Regulation). Poza konwencjonalnymi sieciami SDN, systemami SIEM (Security Information and Event Management) oraz rozwiązaniami chroniącymi infrastrukturę, niektórzy dostawcy proponują model bezpieczeństwa domyślnego, który gwarantuje bezpieczeństwo na poziomie sprzętowym. Lenovo stworzyło rozwiązanie wbudowane bezpośrednio w układy sprzętowe, które weryfikuje integralność oprogramowania firmware, co oznacza, że złośliwe oprogramowanie nie zostanie wykonane w systemie.

Poznać swoje ograniczenia

Osiągnięcie postawionych celów kosztowych i wydajnościowych jest możliwe, ponieważ na rynku dostępnych jest wiele rozwiązań pozwalających na przetwarzanie oraz przechowywanie dużych wolumenów danych. „Ważne jest zapewnienie, że infrastruktura jest w pełni skalowalna i będzie w stanie przetwarzać duże wolumeny nieustrukturyzowanych danych. Jedno jest przy tym pewne: niezależnie od tego, czy firma wybierze prostą rozproszoną pamięć masową, która jest łatwa do wdrożenia i względnie tania, czy postawi na skalowalne horyzontalnie pamięci NAS, które są bardziej kosztowne, ale oferują lepszą wydajność – jeśli celem jest wydobycie maksymalnej wartości z danych – systemy te będą się rozwijać” - podsumowuje Ludovic Levé.

Zapisz się na bezpłatny newsletter. Dowiesz się o webinarach, nowych case study oraz white paperach.