Ujarzmione dane

Na konferencji EMC Forum poruszano zagadnienia przetwarzania i składowaniem dużej ilości danych.

Przedstawiona baza danych Greenplum, która pracuje w standardowym środowisku serwerowym x86, została zaprojektowana pod kątem wysokiej dostępności i odporności na awarie. W odróżnieniu od klastrów bazodanowych nie potrzebuje współdzielonych zasobów składowania danych. Rozwiązanie jest znacznie szybsze od typowych hurtowni danych, dlatego że zapytania są przetwarzane równolegle przez wiele maszyn - przy połączeniu jeden z węzłów (master) jest odpowiedzialny za uwierzytelnienie, pozostałe segmenty przetwarzają wybrany zestaw danych. Podzielenie zadania na wiele maszyn umożliwi rozwiązanie typowych problemów związanych z zasilaniem hurtowni, wielokrotnie skraca czas przetwarzania zapytania i poprawia skalowalność. Greenplum umożliwia konsolidację danych pochodzących z różnych baz - przykładowo może pobierać część informacji z niedużej bazy SQL Server, a większość z dużej, produkcyjnej bazy Oracle; dane niestrukturyzowane mogą pochodzić z Apache Hadoop (do tego służy moduł Greenplum HD). Greenplum może następnie realizować zaawansowane zapytania analityczne na całym zbiorze danych pobranych z różnych źródeł, wykorzystując standardowe narzędzia, w tym oprogramowanie SAS High-Performance Analysis.

Składowanie danych skalowane poziomo

Jednym z problemów związanych ze składowaniem danych w firmach jest ciągły wzrost ilości niestrukturyzowanej informacji, przechowywanej w plikach. W 2001 powstała firma Isilon, której rozwiązania miały na celu opracowanie klastra NAS. Klaster charakteryzowałby się poziomą skalowalnością, czyli rozwojem pojemności i wydajności poprzez dodawanie kolejnych modułów. Obecnie rozwiązania Isilon są rozwijane przez EMC, osiągając skalowalność do 144 węzłów, przy czym limit ten wynika z ograniczeń połączeń InfiniBand. Urządzenia korzystają z systemu plików OneFS, który rozprasza zasoby na wszystkie węzły klastra. Przy odczycie węzeł, do którego kierowane jest zapytanie o dany zasób, żąda od innych węzłów brakujących elementów pliku, a następnie go składa i prezentuje użytkownikowi. Przy zapisie plik jest dzielony na części i dystrybuowany między węzły klastra. Aby uodpornić system na awarię urządzeń, dostępna jest protekcja na poziomie n+1 lub lepszym, przy czym może być ona definiowana niezależnie dla wybranych plików lub folderów. System zezwala na zastosowanie aż ośmiokrotnego mirrora, zatem jest to rozwiązanie odporne na awarie. Charakteryzuje się także bardzo dobrą wydajnością - osiąga do 1,6 mln operacji wejścia/wyjścia na sekundę w protokole sieciowego udostępniania plików CIFS. Klaster urządzeń Isilon można zrealizować za pomocą węzłów o różnej charakterystyce i koszcie, zależnie od potrzeb.


IBM Think Digital Summit Poland, 16-17 września 2020
TOP 200