Hadoop - a co to takiego?

Rynek dostawców platformy, narzędzi i aplikacji

Najważniejsze firmy oferujące dystrybucje Hadoop i komercyjne usługi wsparcia to: Cloudera, Hortonworks i MapR Technologies.

Jednocześnie rośnie liczba firm oferujących narzędzia i aplikacje współpracujące z Hadoop. Jest to ważne, bo platforma daje tylko podstawę do budowy efektywnego systemu analizy danych, ale nie jest kompletnym, gotowym do wdrożenia rozwiązaniem.

Na przykład VMware uruchomiła w tym roku Project Serengeti, którego efektem jest opracowanie kodu open source optymalizującego funkcjonowanie Hadoop w zwirtualizowanych środowiskach wykorzystujących oprogramowanie tego producenta. Dotyczy to systemów z oprogramowaniem VMware vSphere oraz dystrybucji Hadoop oferowanych obecnie przez: Cloudera, MapR, IBM, Greenplum, a także Hortonworks. "Z punktu widzenia zastosowań Hadoop w firmach, Serengeti może istotnie wpłynąć na popularyzację tej platformy w systemach korporacyjnych" - uważa Tony Baer, analityk z Ovum.

Dell oferuje Apache Hadoop Solution - jest to zestaw serwerów z preinstalowanym oprogramowaniem Hadoop i narzędziami Dell Crowbar do zarządzania systemem. Do analizy danych użytkownik może wykorzystać aplikacje Pentaho.

Również oprogramowanie HP Autonomy IDOL (Intelligent Data Operating Layer) zostało ostatnio wyposażone w interfejsy programowe łączące ten system do przeszukiwania i analizy danych z platformą Apache Hadoop.

Współpracę z dystrybutorami Hadoop nawiązują też inne liczące się na rynku firmy. Teradata i Microsoft na partnera wybrały Hortonworks, Oracle - firmę Cloudera, a EMC Greenplum - MapR. Celem tych porozumień jest wprowadzenie zintegrowanych rozwiązań wykorzystujących Hadoop oraz produktów komercyjnych, takich jak Windows Azure lub Oracle Exadata.

Wymagania sprzętowe i koszty

Według firmy Cloudera, typowa infrastruktura Hadoop składa się z serwera z procesorem średniej klasy, 4-32 GB RAM i interfejsem 1 GbE, oraz 4-12 dysków w konfiguracji non-RAID (jeden węzeł Hadoop). Szafa z wieloma węzłami powinna być wyposażona w przełącznik 10 GbE. System powinien wykorzystywać dedykowane przełączniki i infrastrukturę sieciową, by zapobiec przeciążeniu sieci LAN przez Hadoop. Cloudera szacuje koszt jednego węzła Hadoop na 3000-7000 USD.

Licencyjne kontrowersje

Można oczekiwać sporów i walki między nieugiętymi zwolennikami open source - którzy uważają, że rdzeń systemu Hadoop musi używać tylko kodu opracowanego w ramach projektu Apache - a bardziej pragmatycznie nastawionymi dostawcami narzędzi komercyjnych. W praktyce większość firm i korporacji będzie najprawdopodobniej korzystać ze środowiska Hadoop składającego się zarówno z elementów open source, jak i oprogramowania komercyjnego.

Podobne specyfikacje prezentuje Hortonworks, choć firma unika określania wymagań na przepustowość sieci, uważając, że jej obciążenie istotnie zależy od rodzaju wykorzystywanych aplikacji i może być bardzo różne. "Jako ogólną wskazówkę można przyjąć, że koszt infrastruktury sieciowej to ok. 20% całkowitego kosztu systemu" - mówi Eric Baldeschwieler, CTO w Hortonworks.

Planowanie pojemności i mocy przetwarzania jest w przypadku Hadoop stosunkowo łatwe. System jest bowiem liniowo skalowalny i można zwiększać pamięć masową i liczbę serwerów, dodając kolejne elementy sprzętowe.

Sarah Sproehnle podaje przykład: jeśli przyrost liczby danych wynosi ok. 1 TB na miesiąc, to biorąc pod uwagę trzy ich repliki oraz dodatkową pojemność niezbędną do efektywnego przetwarzania informacji (typowo można ją szacować na 30%), zapotrzebowanie na pojemność pamięci masowej będzie rosło w tempie 4 TB/miesiąc.

Choć skalowanie systemu jest łatwe, to nie można tego powiedzieć o instalacji i zarządzaniu węzłami Hadoop. Na szczęście jest coraz więcej narzędzi ułatwiających to zadanie. Można skorzystać m.in. z Cloudera Manager, Apache Ambari, MapR Control System. A jeśli ktoś stosuje podstawową wersję Apache Hadoop, może użyć narzędzi: Platform Symphony MapReduce, StackIQ Rocs + Big Data lub Zettaset Data Platform.

Koszt wsparcia technicznego na przykładzie Hortonworks zaczyna się od 12 500 USD rocznie za klaster składający się z 10 węzłów.


TOP 200