Partner merytoryczny

IBM dashDB – hurtownia danych in-memory

dashDB to bardzo wydajna hurtowania danych udostępniana jako usługa chmurze IBM (SaaS), dostępna także jako „software appliance”, którą można wdrożyć na własnym sprzęcie (dashDB Local). Wydajność została osiągnięta dzięki zintegrowanym funkcjom analitycznym i mechanizmom przetwarzania in-memory. Doświadczenia klientów pokazują, że w porównaniu do klasycznej, relacyjnej bazy danych wykorzystanie dashDB pozwala skrócić czas wykonywania raportów nawet od 20 do 80 razy. Zintegrowane mechanizmy klastrowania umożliwiają wykorzystanie technologii in-memory do sprawnego zarządzania dużymi zbiorami danych o rozmiarach peta bajtów (Big Data). Wykorzystanie najnowszych algorytmów pozwoliło na uzyskanie ogromnej szybkości przetwarzania danych, całkowicie eliminując konieczność strojenia, czyli przeprowadzania takich operacji, jak indeksowanie czy tworzenie agregatów. To istotna własność tej bazy danych, ponieważ prowadzi do obniżenia kosztów IT oraz umożliwia szybsze wdrażanie aplikacji Business Intelligence.

dashDB pracuje na niezawodnej i bezpiecznej infrastrukturze chmurowej IBM SoftLayer, w ramach platformy Bluemix, na której dostępne są także inne usługi, np. związane z integracją danych (m.in. DataWorks Forge) czy narzędziami analizy danych (np. Watson Analytics). Rozwiązanie to oferowane jest jako kompletna usługa (SaaS) obejmująca sprzęt, oprogramowanie oraz usługi utrzymania bazy, takie jak monitorowanie czy tworzenie kopii bezpieczeństwa. dashDB dostępne jest w kilku wariantach usługowych zależnych od konfiguracji sprzętu, płatnych za każdy miesiąc użytkowania środowiska. W ramach podstawowego planu (Entry Plan) usługi dashDB są bezpłatne, jeśli zbiór danych nie przekracza 1 GB. dashDB Local dostępne jest w postaci miesięcznej subskrypcji za każdy wirtualny rdzeń przydzielony oprogramowaniu.

dashDB wykorzystuje zestaw technologii optymalizujących przetwarzanie w pamięci operacyjnej znanych pod określeniem „BLU Acceleration”albo „BLU”. „BLU” to kolumnowe składowanie danych, opatentowana kompresja niewymagająca dekompresji przy realizacji zapytań SQL, mechanizmy eliminujące konieczność tworzenia indeksów, opatentowany algorytm buforowania dużych zbiorów danych w pamięci RAM oraz, co najważniejsze, zestaw algorytmów pozwalających na równoległe przetwarzanie zbiorów danych bez konieczności odwoływania się do dysku (np. równoległe sortowanie).

„BLU” nie wymaga umieszczenia całej bazy danych w pamięci RAM – w praktyce do uzyskania optymalnej wydajności wystarczy pamięć operacyjna odpowiadająca 10–25% rozmiaru surowych danych. W zależności od wybranych parametrów pojedynczy serwer z bazą dashDB standardowo pozwala na obsłużenie do 4–12 TB surowych danych. Większe zbiory można obsłużyć poprzez klastrowanie wydajnościowe wielu maszyn (architektura MPP). Wykorzystanie architektury klastrowej pozwala liniowo skalować hurtownię danych ze względu na wolumen danych, a także proporcjonalnie przyśpieszać zapytania analityczne. Dodatkowo posiada wbudowaną obsługę wysokiej dostępności – w przypadku awarii jednego z serwerów pozostałe automatycznie przejmują dane uszkodzonego serwera, zapewniając ciągłość pracy hurtowni (wymagane są trzy lub więcej serwerów).

dashDB posiada także szereg standardowo skonfigurowanych funkcjonalności, bardzo przydatnych w systemach analizy danych, a których implementacja wymagałaby sporego wysiłku. Obok klastrowania wydajnościowego, klastrowania wysokiej dostępności, dashDB ma wbudowane środowisko języka R (analiza predykcyjna), zintegrowany z bazą silnik SPARK, wbudowaną obsługę danych przestrzennych, zintegrowaną usługę LDAP czy funkcje analityczne Netezza do przetwarzania predykcyjnego i statystycznego bezpośrednio w bazie danych. Na uwagę zasługują także integracja z chmurowymi usługami składowania danych (Amazon S3 czy OpenStack object storage „Swift”) upraszczającymi proces ładowania danych. Zdalne ładowanie danych do dashDB wykorzystuje protokół Aspera (FASP®), który pozwala na transfer danych po sieci WAN do 100 razy szybciej niż FTP czy HTTP.

dashDB zintegrowany jest także z usługą Twitter, umożliwiając ładowanie i analizę treści generowanych na tym serwisie społecznościowym. Użytkownicy bazy IBM Cloudant (NOSQL jako SaaS) dostępnej w serwisie Bluemix docenią możliwość zestawienia automatycznej replikacji danych pomiędzy repozytorium JSON a dashDB.

dashDB to także bezpieczne rozwiązanie – posiada certyfikaty bezpieczeństwa ISO 27001 i 27002, baza standardowo chroniona jest zgodnie z najlepszymi praktykami, dane na dysku są zaszyfrowane, a komunikacja z bazą wykorzystuje protokół SSL.

dashDB wykorzystuje ten sam silnik SQL co baza IBM DB2 v11.1 oraz silnik SQL dostarczany w ramach dystrybucji Hadoop (IBM Big SQL). dashDB jest także zgodne z bazami Oracle na poziomie języka SQL, PL/SQL oraz wbudowanych pakietów, co pozwala na łatwe przenoszenie aplikacji działających w środowisku tej bazy danych.

Zobacz film:

Instalacja IBM dashDB local

Analityka oraz zintegrowane zarządzanie bazami danych w chmurze

Skontaktuj się:

Artur Wroński
Specjalista z zakresu BigData
IBM Polska Sp. z o.o.
Napisz do nas