Hadoop - platforma do eksploracji Big Data

Kontrola dostępu jest trochę słabsza. Standardowy model bezpieczeństwa Hadoop zakłada, że użytkownicy nie mogą uzyskać dostępu do katalogu głównego węzła, do współdzielonych klientów ani też czytać i modyfikować pakiety w sieci klastra. Nie zapewnia swobodnego dostępu do danych dla wszystkich. Wymagane jest uwierzytelnianie takie samo jak dla innych systemów wewnętrznych. Hadoop ma system uprawnień określający, który użytkownik może uzyskać dostęp i do których danych.

Hadoop nie ma jeszcze zabezpieczeń na poziomie wierszy czy pól, które są standardem w relacyjnych bazach danych. Czasami użytkownicy uzyskują dostęp do HDFS z założeniem, że będą prawdopodobnie mieć dostęp do wszystkich danych w tym systemie. Ogólnie w tej dziedzinie jest jeszcze dużo do zrobienia.

Zobacz również:

  • Bezpieczeństwo w edge computing: 4 trendy, które należy obserwować
  • Udowadniamy wartość analityki na brzegu sieci

Ale tak jak Big Data wymaga odmiennego spojrzenie na analitykę, także szczegółowego przeanalizowania wymaga odmienność zabezpieczeń informacji Big Data. Nie jest właściwe proste przenoszenie koncepcji bezpieczeństwa struktury relacyjnej na zbiory i charakterystyki danych niestrukturalizowanych.

Technologie powiązane

Chociaż Hadoop zapewnia platformę dla magazynowania danych i równoległego przetwarzania, jej rzeczywistą wartość stanowią dodatki, możliwość integracji i możliwość specjalistycznej implementacji tej technologii. Oprócz MapReduce, struktury programowej dla rozproszonego przetwarzania dużych zbiorów danych w klastrach oraz HDFS, rozproszonego systemu plików zapewniającego dużą przepustowość w dostępie do danych aplikacyjnych, Hadoop oferuje subprojekty, które wnoszą nową funkcjonalność i nowe możliwości do tej platformy. Są to m.in.:

• HBase - skalowalna, rozproszona baza danych NoSQL, obsługująca strukturalizowane zbiory danych. HBase jest bazą danych z rodziny kolumnowych baz danych budowanych nad HDFS, zapewniającą małe opóźnienia kwerend i aktualizacji dużych tablic. Umożliwia szybki dostęp do pojedynczego wiersza w tablicy zawierającej miliardy wierszy. HBase osiąga to poprzez zapamiętanie danych w indeksowanym StoreFiles na HDFS.

• Hive - infrastruktura hurtowni danych, zapewniająca interfejs SQL do Hadoop dla kwerend wsadowych (high-latency). Hive jest powszechnie używany za pośrednictwem tradycyjnych narzędzi business intelligence, ponieważ jego Hive Query Language (HiveQL) jest podobny do podzbioru SQL używanego do kwerendowania relacyjnych baz danych.

• Pig - skryptowy język proceduralny do tworzenia zadań MapReduce. Wydziela programowanie z silnika MapReduce, uwalniając programistę od konieczności wykonywania translacji na zadania MapReduce. Wykorzystuje własny język do interakcji z danymi.

• Sqoop - pozwala na tworzenie transferów dużej liczby danych pomiędzy Hadoop i systemami strukturalnymi, takim jak relacyjne bazy danych czy NoSQL. W implementacji Hadoop jako ETL, Sqoop zapewnia funkcje E (extract) i L (load), podczas gdy MapReduce funkcję T (transform). Sqoop może być wywoływany z tradycyjnych narzędzi ETL.

Wyzwania na przyszłość

Duże wolumeny danych - strukturalizowanych, niestrukturalizowanych, częściowo strukturalizowanych - mogą być dzisiaj niedrogo przechowywane, przetwarzane i kwerendowane z użyciem Hadoop. Hadoop może być używana samodzielnie lub jako rozszerzenie tradycyjnych relacyjnych hurtowni danych o możliwość dodatkowego zapamiętania i przetwarzania. Programiści mogą analizować Big Data bez konieczności zarządzania rozbudowaną architekturą. Wyniki Hadoop mogą być następnie udostępniane użytkownikom biznesowym za pomocą tradycyjnych narzędzi analiz.

Hadoop jest obecnie dominującym kierunkiem analiz Big Data. Używany jest przez takich gigantów jak Amazon.com, Apple, eBay, Facebook, HP, IBM, LinkedIn, Microsoft, Twitter, Yahoo! i wiele innych.

Platforma wymaga jednak specjalistycznych umiejętności jej ustawiania i efektywnego użycia. Dobry programista może ją rozwijać, niemniej jej struktura i podejście są odmienne niż tradycyjne sposoby pracy z danymi strukturalizowanymi. Środowisko powinno być prostsze, aby tradycyjni analitycy mogli łatwo skorzystać z tej technologii. Dwa główne obszary ulepszeń, które mogą zapewnić bezpośrednią dostępność Hadoop dla użytkowników biznesowych, to kwerendy w czasie rzeczywistym i zaawansowane narzędzia wizualizacji.

Hadoop w wydaniu 2.0

Udostępniona niedawno wersja 2.0 zawiera pewną liczbę nowych komponentów, w tym architekturę dla HA i rozszerzenie wielkości indywidualnych klastrów, pozwalające na ich rozbudowę do 4 tys. maszyn. Jednak największą zmianą jest dodanie platformy Yarn.

Hadoop sprawdziła się jako technologia zarządzania olbrzymimi wolumenami danych, stosowana m.in. przez Yahoo czy Google. Systemy Hadoop opierają się na MapReduce w przetwarzaniu danych, ale dołączona do ostatniego wydania platforma Yarn pozwala na uruchamianie innych aplikacji obok MapReduce. Yarn monitoruje potrzeby aplikacji w zakresie zasobów i zapewnia je w ramach rozproszonego systemu przetwarzania.

Ten nowy mechanizm pozwoli na uruchamianie większej liczby aplikacji w ramach otwartych systemów Big Data i powinien doprowadzić do pojawienia się nowej fali aplikacji analitycznych dla Hadoop.

Yarn rozdziela dwie główne funkcje obecnie łączone w jedną przez MapReduce: oddziela planowanie i monitorowanie zadań od zarządzania zasobami. Pracuje na zasadzie monitorowania potrzeb aplikacji i tworzenia na tej podstawie zasobników węzłów CPU i pamięci do obsługi tych aplikacji. Usuwa ograniczenie "jedna aplikacja pracująca w tym samym czasie na Hadoop" i pozwala uruchamiać wiele aplikacji jednocześnie.


TOP 200