Hadoop - platforma do eksploracji Big Data

Hadoop to platforma umożliwiająca tworzenie działających w rozproszeniu aplikacji do wyszukiwania informacji w olbrzymich zbiorach danych niestrukturalizowanych, korzystając z klastrów złożonych z taniego sprzętu.

Duże organizacje w coraz większym stopniu odczuwają potrzebę wykorzystywania olbrzymich zbiorów danych, których konieczność utrzymywania wynika często z obowiązujących przepisów ogólnych i wewnętrznych. Firmy zachowują też coraz więcej dokumentów, wiadomości e-mail, komunikatorów czy informacji telefonii IP, ponieważ mogą okazać się niezbędne w procesach sądowych, jeżeli pojawią się sprawy sporne. Wykorzystanie tych repozytoriów do wyszukiwania trendów, statystyk i innych użytecznych informacji, może usprawniać proces podejmowania decyzji biznesowych. Te zbiory danych, wraz z powiązanymi z nimi narzędziami, platformami i analitykami, są często określane terminem "Big Data".

Termin ten wymyka się precyzyjnym definicjom, ale w uproszczeniu stosuje się go w odniesieniu do zbiorów danych, które są zbyt kosztowne lub nieporęczne do zarządzania przez tradycyjne techniki. Za Big Data uważa się ogólnie zbiory danych liczone w terabajtach, zazwyczaj niestrukturalizowane lub częściowo strukturalizowane.

Zobacz również:

Kluczową rolę w wykorzystaniu potencjału informacyjnego Big Data odgrywa Hadoop, rozproszona struktura gromadzenia i przetwarzania bardzo dużych zbiorów danych. Hadoop stała się de facto platformą dla analiz niestrukturalizowanych danych Big Data. Dzięki Hadoop, która może rozdzielać olbrzymie obciążenia przetwarzania na tanie serwery, analizy Big Data stają się możliwe do wykonania.

Big Data, Hadoop i nowe oblicze analityki

Atrybuty związane z Big Data wyrażają się zazwyczaj w trzech V: Volume (ilość danych), Velocity (szybkość przyrostu danych), Variety (różnorodność danych - połączenie wielu typów danych: strukturalizowanych i niestrukturalizowanych, wewnętrznych i zewnętrznych, historycznych i aktualnych). Czasami dodawane jest czwarte V - Value (wartość płynąca z danych).

Wolumen danych o wielkości kilku terabajtów jest uważany za mały; kilkanaście lub setki terabajtów to średni, a duży to zakres petabajtów. Szybkość przyrostu danych rzędu kilku terabajtów na tydzień nie uważa się za rzadką w scenariuszu Big Data. Różnorodność dotyczy zakresu typów danych: poza danymi strukturalizowanymi (Hadoop może je także obsługiwać), mogą być to dane niestrukturalizowane i częściowo strukturalizowane, takie jak wiadomości e-mail, grafiki czy strony WWW.

Zbiór danych może być uznany za Big Data, jeżeli ma te wszystkie cechy, ale niektórzy specjaliści uważają, że wystarczy jedna lub dwie.

Popularne technologie Dig data obejmują bazy danych NoSQL i relacyjne bazy danych MPP (Massively Parallel Pprocessing). Termin NoSQL dotyczy tych baz danych, które nie opierają się na samym SQL (np. zbiory dokumentów czy klony Google BigTable).

Bazy relacyjne MPP także zaliczane są do kategorii Big Data, ponieważ z natury są o dużej skali i rozproszone. Jednak są bardzo kosztowne w zakupie i utrzymaniu.

Jeżeli istnieje jakaś wspólna charakterystyka systemów zarządzania Big Data, to jest nią ciągłe powiększanie funkcjonalności. Hadoop rozwija się poprzez dodawanie rozszerzeń i mechanizmów podobnych do baz danych SQL. Również wiele baz danych Big Data ma już zaczepy do Hadoop i MapReduce. Big data jest czynnikiem wpływającym na konwergencję starych i nowych technologii bazodanowych.


TOP 200