BIG DATA - jak się do nich dobrać?

Wprowadzenie analityki Big Data do biznesu

Big Data będzie odgrywać coraz większą rolę w biznesie, a duże organizacje mają coraz większą potrzebę utrzymywania olbrzymich zbiorów danych strukturalizowanych i niestrukturalizowanych - od rekordów związanych z transakcjami, przechowywanymi w hurtowniach danych po rekordy pracownicze czy rekordy dostawców - wynikającą często z konieczności spełniania wymogów obowiązujących przepisów wewnętrznych i zewnętrznych. Taka potrzeba wynika też z przebiegu wielu procesów sądowych, zmuszających firmy do zachowywania coraz większej masy dokumentów, wiadomości e-mail i zapisów innej komunikacji elektronicznej (komunikatory i telefonia IP), które mogą okazać się niezbędne jako materiały dowodowe w procesach sądowych, jeżeli pojawią się sprawy sporne.

Do pełnego wykorzystania możliwości analityki Big Data konieczne jest uwolnienie się od ograniczeń tradycyjnej analityki biznesowej. Często osoby tworzące analitykę biznesową próbują wymuszać podejście tradycyjne. W rezultacie tracą możliwość pełnego wykorzystania potencjału tej technologii.

Zobacz również:

  • IDC CIO Summit – potencjał drzemiący w algorytmach
  • Kwanty od OVHCloud dla edukacji
  • Inteligentna chmura danych

Oto kilka porad, jak implementować analitykę Big Data:

• Rozpoznać podstawowe wymagania biznesowe odnośnie tej technologii i przygotować założenia.

• Zdefiniować źródła danych: Gdzie się znajdują? Co w nich jest? Jaki jest najlepszy sposób ich replikacji?

• Zdefiniować niezbędne modele analityczne.

• Przygotować proces weryfikacji koncepcji - w celu lepszego opanowania technologii oraz rozpoznania komplikacji związanych z wprowadzeniem tej technologii do przedsiębiorstwa.

• Rozważyć efektywność, bezpieczeństwo i zarządzanie danymi. Kwestie te są często pomijane, ale ostatecznie będą miały wpływ na pomyślną implementację.

• Poświęcić czas (i pieniądze) na ocenę technologii analityki biznesowej w zakresie mechanizmów i funkcji.

• Po roku obcowania z tą technologią ocenić, co działa, a co nie. Dopasowanie powinno wywoływać tylko niewielkie zakłócenia w IT.

• I na koniec - określenie mapy drogowej dla tej technologii. Jak będzie wykorzystywana w krótkim i długim horyzoncie czasowym?

Hadoop: platforma Big Data

Znany w świecie open source Projekt Hadoop jest administrowany przez Apache Software Foundation i opiera się na technologiach wywodzących się z Google. Służy do tworzenia platform konsolidujących, łączących i rozpoznających znaczenie danych. Umożliwia tworzenie działających w rozproszeniu aplikacji, które przetwarzają olbrzymie zbiory danych.

Technicznie Hadoop składa się z dwóch kluczowych usług: pamięci masowej, wykorzystującej Hadoop Distributed File System (HDFS), i równoległego przetwarzania danych, wykorzystującego technikę MapReduce (Google). Zadaniem tych dwóch usług jest zapewnienie podstaw wdrożenia wydajnych i bardziej wiarygodnych analiz zarówno danych strukturalizowanych, jak i niestrukturalizowanych. Hadoop pozwala na łatwą eksplorację złożonych danych, z użyciem specjalistycznych analiz dostosowanych do ich zasobów informacyjnych i zagadnień.

MapReduce pozwala na tworzenie aplikacji, które przetwarzają olbrzymie wolumeny niestrukturalizowanych danych w sposób równoległy na rozproszonych klastrach procesorów lub niezależnych komputerów. Struktura MapReduce jest podzielona na dwa obszary: Map - funkcja parcelująca zadania między różne węzły w rozproszonym klastrze, oraz Reduce - funkcja zestawiająca zadania i przetwarzająca wyniki w pojedynczą wartość.

Jedną z ważnych zalet MapReduce jest tolerancja uszkodzeń, osiągana poprzez monitorowanie każdego węzła w klastrze. Każdy węzeł okresowo przekazuje raporty o wykonaniu zadania i stanie uaktualnienia. Jeżeli węzeł milczy dłużej niż określony czas, węzeł nadrzędny odnotowuje ten fakt i przekazuje jego zadania do innych węzłów.

Hadoop zapewnia platformę dla magazynowania danych i równoległego przetwarzania, ale o jej wartość decydują też dodatki, możliwość integracji i możliwość specjalistycznej implementacji tej technologii. Oprócz MapReduce - struktury programowej dla rozproszonego przetwarzania dużych zbiorów danych w klastrach, i HDFS - rozproszonego systemu plików zapewniającego dużą przepustowość w dostępie do danych aplikacyjnych, Hadoop oferuje podprojekty, dające platformie dodatkowe możliwości:

• Hadoop Common - narzędzia wspólne obsługujące pozostałe podprojekty;

• Chukwa - system zbierania danych dla zarządzania dużymi systemami rozproszonymi;

• HBase - skalowalna, rozproszona baza danych, obsługująca strukturalizowane zbiory danych dla dużych tabel baz danych;

• Hive - infrastruktura hurtowni danych zapewniające "streszczanie" danych i kwerendy ad hoc.

• Pig - język wysokiego poziomu do opis przepływu danych oraz struktura wykonawcza dla przetwarzania równoległego;

• ZooKeeper - usługa koordynacji o wysokiej przepustowości dla aplikacji rozproszonych.

Hadoop jest oczywiście najczęściej wymienianym środowiskiem, ale nie jest ani jedyną formą zarządzania danymi, ani jedyną formą implementacji funkcji MapReduce.

Opracowano na podstawie "Info-World Big Data Analytics Deep Dive"


TOP 200