X EMC Forum z systemami składowania danych Isilon i Greenplum

Na tegorocznej konferencji poruszano zagadnienia związane z przetwarzaniem i składowaniem dużej ilości danych. Jednym z problemów firm z tym związanych jest ciągły wzrost ilości niestrukturyzowanej informacji, przechowywanej w plikach.

Powstała w 2001 r. firma Isilon miała na celu opracowanie klastra NAS. Charakteryzować się miał poziomą skalowalnością, czyli rozwojem pojemności i wydajności poprzez dodawanie kolejnych modułów. Obecnie rozwiązania Isilon rozwija EMC. Dziś jej system osiąga skalowalność do 144 węzłów, przy czym limit ten wynika z ograniczeń połączeń InfiniBand.

Urządzenia korzystają z systemu plików OneFS, który rozprasza zasoby na wszystkie węzły klastra. Przy odczycie węzeł, do którego kierowane jest zapytanie o dany zasób, żąda od innych węzłów brakujących elementów pliku, a następnie składa go i prezentuje do użytkownika. Przy zapisie plik jest dzielony na części i dystrybuowany pomiędzy węzłami klastra. Aby uodpornić system na awarię, dostępna jest protekcja na poziomie n+1 lub lepszym, przy czym może być ona definiowana niezależnie dla wybranych plików lub folderów. System zezwala na zastosowanie aż ośmiokrotnego mirrora. Charakteryzuje się także dobrą wydajnością, osiągając do 1,6 mln operacji wejścia/wyjścia na sekundę w protokole sieciowego udostępniania plików CIFS. Klaster urządzeń Isilon można zrealizować za pomocą węzłów o różnej charakterystyce i koszcie, zależnie od potrzeb.

Zobacz również:

  • Oracle znosi ograniczenia w zarządzaniu danymi

Z kolei prezentowana przez EMC baza danych Greenplum pracuje w standardowym środowisku serwerowym x86 i została zaprojektowana pod kątem wysokiej dostępności i odporności na awarie. W odróżnieniu od klastrów bazodanowych nie potrzebuje współdzielonych zasobów składowania danych. Rozwiązanie jest znacznie szybsze od typowych hurtowni danych, dlatego że zapytania są przetwarzane równolegle przez wiele maszyn. Przy połączeniu jeden z węzłów (master) jest odpowiedzialny za uwierzytelnienie, pozostałe segmenty przetwarzają wybrany zestaw danych.

Podzielenie zadania na wiele maszyn umożliwi rozwiązanie typowych problemów związanych z zasilaniem hurtowni, wielokrotnie skraca czas przetwarzania zapytania i poprawia skalowalność. Greenplum umożliwia konsolidację danych pochodzących z różnych baz. Przykładowo może pobierać część informacji z niedużej bazy SQL Server, a większość z dużej, produkcyjnej bazy Oracle. Dane niestrukturyzowane mogą pochodzić z Apache Hadoop (do tego służy moduł Greenplum HD). Greenplum może następnie realizować zaawansowane zapytania analityczne na całym zbiorze danych pobranych z różnych źródeł, wykorzystując standardowe narzędzia, w tym oprogramowanie SAS High-Performance Analysis.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200