Gdy chmura spotyka duże ilości danych

Na konferencji EMC World 2011 przedstawiono nowości w dziedzinie przetwarzania danych oraz cloud computing.

Przedsiębiorstwa mające bardzo duże zbiory danych, liczone w petabajtach, przeważnie przetwarzają je w jednym dużym środowisku, które stawia bardzo wysokie wymagania odnośnie do centralizowanego składowania danych, a także mocy obliczeniowej bazy danych. Inne podejście zakłada przetwarzanie rozproszone za pomocą oprogramowania Apache Hadoop. Takim rozwiązaniem klasy Enterprise są urządzenia Greenplum HD, które łączą oprogramowanie Apache Hadoop z bazą Greenplum, opierającą się na Postgresie. Wspierają one zewnętrzne tabele Hadoop, dając dostęp do danych składowanych w systemie plików HDFS (Hadoop Distributed File System), co umożliwia ich szybką analizę za pomocą Greenplum SQL oraz zaawansowanych narzędzi dostępu do danych.

Rozwiązania są dostępne w dwóch wydaniach - Community i Enterprise. W odróżnieniu od samodzielnych instalacji oferowane są gotowe urządzenia klasy appliance wraz z usługami instalacji, szkolenia i wsparcia technicznego. Rozwiązania te są liniowo skalowalne, zatem dodanie kolejnego urządzenia do systemu sprawia, że staje się on kolejnym węzłem rozproszonego przetwarzania danych.

Zobacz również:

Wersja Enterprise jest całkowicie kompatybilna na poziomie interfejsu ze stosem Apache Hadoop, oferując dodatkowo narzędzia zarządzania danymi, takie jak: kopie migawkowe i replikacja przez WAN, ładowanie danych za pomocą systemu plików NFS oraz rozwinięte narzędzia zarządzania. Wersja ta działa 2-5 razy szybciej w porównaniu do standardowego wydania Apache Hadoop. Dodatkową ofertą EMC jest wsparcie przy migracji danych i konsolidacji z istniejącymi rozwiązaniami Oracle oraz .

Wersja EMC Greenplum HD Community Edition wykorzystuje open source Apache Hadoop, obejmując system plików HDFS, a także MapReduce, Zookeeper, Hive i HBase. Greenplum oferuje wysoką dostępność dla węzłów Name Node i Job Tracker, które w odróżnieniu od typowej instalacji Hadoop są pojedynczymi punktami awarii systemu. Urządzenia EMC Greenplum będą dostępne w trzecim kwartale bieżącego roku.

SSD do serwera

Chociaż nowoczesne macierze są już standardowo wyposażane w moduły SSD, nadal taka pamięć znajduje się daleko od serwerów przetwarzających dane. Aby usprawnić ich pracę, firma EMC opracowała kartę, która dostarcza bardzo szybkiej pamięci cache tak blisko serwera, jak to tylko jest możliwe. Dla silnie obciążonych aplikacji pamięć podręczna będzie optymalizowana, podobnie jak FAST w macierzach. Pat Gelsinger, prezes i COO Działu Infrastruktury Przetwarzania Informacji, mówi: "Lighting jest kartą PCI Express, która umożliwi wykorzystanie pamięci SSD jako cache serwera. W odróżnieniu od modułów oferowanych przez firmę Oracle, które są dobre dla ich bazy, karty EMC są połączone z logiką składowania danych. Są nakierowane na dostarczenie szerokiego pasma dostępu przy lokalnie podłączonych dyskach (DAS) albo jako cache dla danych". Produkt ten ukaże się jeszcze w tym roku.

Klaster GEOgraficzny

Do zapewnienia niezawodnej eksploatacji krytycznych aplikacji stosuje się klastry geograficzne, które oferują utrzymanie ciągłości działania nawet w przypadku utraty jednej lokalizacji. Barierą jest jednak odległość między maszynami, gdyż sygnał podróżujący z prędkością światła w światłowodach może pokonać tylko określony dystans, co ogranicza zasięg synchronicznej replikacji. Problem ten można rozwiązać za pomocą nowego urządzenia EMC VPLEX Geo, które zapewni bezpieczny dostęp, współdzielenie i dynamiczne przenoszenie danych na odległości tysięcy kilometrów.

VPLEX Geo współpracuje z macierzami różnych producentów, umożliwiając przenoszenie lub kopiowanie zasobów udostępnionych dla środowiska wirtualizowanego. Najnowsza wersja obejmuje dodatkowo wsparcie macierzy klasy midrange firm NetApp i HP oraz maszynę wirtualną VPLEX Witness, która kontroluje pracę ośrodków i w razie awarii może podjąć decyzję o przełączeniu zasobów, jeśli to będzie potrzebne. Rozwiązanie to umożliwia przeniesienie kilkudziesięciu maszyn wirtualnych na odległość ponad 4 tys. km przy zachowaniu ciągłości działania klastra VMware. W ten sposób można także rozszerzyć zasięg klastra geograficznego Oracle RAC, aplikacji SAP, Oracle, Exchange na odległości, które dotąd były poza zasięgiem typowych klastrów ze względu na opóźnienia w transmisji danych w sieci SAN.

Połączenie VPLEX z rozwiązaniami sieciowymi firmy Ciena lub Cisco umożliwia dostarczenie usług wysokiej klasy zarówno w chmurze publicznej, prywatnej, jak i mieszanej. Jest to szczególnie korzystne dla operatorów , gdyż umożliwi dynamiczne przydzielanie pasma i dynamiczne przenoszenie obciążeń do tańszych centrów przetwarzania danych w miarę potrzeb.

VPLEX jest urządzeniem włączanym między serwerami a siecią SAN, prezentującym wirtualne woluminy do aplikacji i przełączając ścieżki między nimi w miarę potrzeb. W wersji Metro obsługuje odległości do 100 km, wersja Geo działa do opóźnień rzędu 50 ms (w obie strony), co wystarczy do konstrukcji rozległych międzynarodowych klastrów active-active.

Z VNX do chmury

Macierze VNX zostały wyposażone w dodatkową funkcjonalność - jest to możliwość przenoszenia danych do chmury, w tym także obsługiwanych przez różnych dostawców. Plik obecny w VNX może być przenoszony do chmury (np. do usług oferowanych przez Orange w Europie) zależnie od założeń przechowywania danych w przedsiębiorstwie. Obecnie obsługiwane są chmury z użyciem rozwiązań EMC Atmos, ale jeszcze w tym roku zostanie dodana obsługa usług takich dostawców, jak Amazon. Nowością jest także wyposażenie urządzeń VNX w interfejs do połączenia z urządzeniem indeksującym klasy Enterprise - Google Search Appliance.