BIG DATA - jak się do nich dobrać?

Coraz więcej zautomatyzowanych systemów będzie miało możliwość dołączania analityki Big Data do procesów biznesowych, pozwalając systemom działającym na poziomie operacyjnym reagować na przekroczenia różnorodnych progów w czasie zbliżonym do rzeczywistego. Będzie to analityka zagnieżdżona, która może być tworzona programistycznie lub konfigurowana w narzędziach wspierających takie usługi.

Przykładem może być analizowanie dostaw w czasie rzeczywistym i kierowanie zamówień do dostawców, którzy mają korzystniejsze zapisy w rekordach śledzenia dostaw, lub automatyczne dostosowanie harmonogramów produkcji w oparciu o przewidywane trendy sprzedaży, wykorzystujące znane korelacje z kluczowymi danymi prognostycznymi.

Zobacz również:

  • IDC CIO Summit – potencjał drzemiący w algorytmach
  • Kwanty od OVHCloud dla edukacji
  • Inteligentna chmura danych

Korzyści z większej liczby źródeł danych

Kluczowym wyzwaniem dla analityków Big Data jest gwałtowne rozprzestrzenianie się źródeł danych w tym również strukturalizowanych. Takie źródła danych agreguje się wokół specjalistycznej struktury tworzonej dla celów kwerendy danych i prezentuje się te strukturę API analityki/usługi lub narzędziu analityki biznesowej - dla celów wizualizacji informacji (zob. rys.1).

Należy przy tym pamiętać, że dominującym trendem jest analizowanie mieszanki danych strukturalizowanych i niestrukturalizowanych. Dane niestrukturalizowane mogą pochodzić z różnych źródeł: stron WWW, plików dźwiękowych i wideo, dokumentów, API do sieci społecznościowych lub usług zapewniających dane o trendach, zewnętrznych źródeł danych (dostawcy IaaS, PaaS). Mogą to być też starsze rodzaje danych niestrukturalizowanych, takie jak proste tekstowe bazy danych.

BIG DATA - jak się do nich dobrać?

Struktura tworzona na bieżąco

Dane strukturalizowane i niestrukturalizowane mogą być gromadzone w specjalistycznym systemie plików, np. HDFS (Hadoop Distributed File System), gdzie magazynowane są w blokach na różnych węzłach klastrów Hadoop (zob. rys. 1). System plików tworzy wiele replikacji bloków danych, rozmieszczając je w klastrze w taki sposób, aby mogły być szybko wyszukiwane. Rozmiar bloków może być różny, ale typowy blok HDFS to 128 MB, który jest replikowany w wielu węzłach klastra.

Mamy tu do czynienia z plikami, co oznacza, że zawartość nie jest odwzorowana w strukturę dopóki istnieje w systemie plików. Do takiej niestrukturalizowanej zawartości stosuje się odwzorowania danych definiujące podstawowe metadane dla niej. Odwzorowania mogą być wiele razy zmieniane w celu odzwierciedlenia zmieniających się wymagań na metadane ze strony narzędzi analitycznych lub innych, wykorzystujących te dane.

W niektórych przypadkach wykorzystuje się Hadoop Hive - systemem hurtowni danych zapewniający "podsumowanie" danych, kwerendy ad hoc i analizy dużych zbiorów danych przechowywanych w klastrach Hadoop. Zapewnia on mechanizmy projekcji struktury na te dane i kwerendowania danych z wykorzystaniem języka HiveQL (podobnego do SQL).

Inną opcją jest skorzystanie z Apache Pig. Pig jest platformą do tworzenia programów MapReduce używanych z Hadoop. Wydziela on programowanie z silnika MapReduce. Podobnie jak Hive, Pig wykorzystuje własny język do interakcji z danymi.

Wykonanie kwerendy z narzędzia analityki biznesowej przebiega generalnie w następującym scenariuszu:

• Narzędzie BI podejmuje próbę skomunikowanie się z klastrem w celu uzyskania informacji o metadanych pliku. Zazwyczaj będzie mieć do czynienia bezpośrednio ze strukturą danych, która może być specyficzna dla używanego modelu lub przypadku analizy (zob. rys. 2). Taka struktura jest abstrakcyjną reprezentacją stosownych danych fizycznych (strukturalizowanych lub nie).

• Następnie system podejmuje próbę skomunikowania się z węzłami danych w celu uzyskania realnych bloków i sprowadzenia ich do tej struktury. Może to być dowolna liczba węzłów logicznych lub fizycznych, w zależności od architektury systemu.

• MapReduce (model programowania równoległego) zbiera te dane z klastra Hadoop. Zajmuje się szczegółami operacyjnymi, zarządzając obciążeniami przetwarzania na dostępnych zasobach serwerowych.

• Żądany zestaw wyników jest przekazywany do narzędzia analityki biznesowej w celu wizualizacji lub dalszego przetwarzania, zazwyczaj ograniczonego do specyficznych struktur danych.

• Narzędzie analityki biznesowej może rozdzielić te dane na zdefiniowane modele, obejmujące ładowanie danych z zestawów wyników bezpośrednio do modeli wielowymiarowych - w celu złożonych przetwarzań analitycznych lub graficznej reprezentacji danych.

• Dane takie mogą być odświeżane w określonych przedziałach czasowych poprzez powtórzenie całego procesu.


TOP 200