Hadoop – 5 ważnych dystrybucji

Nowy raport Forrester Wave opublikowany przez Forrester Research prowadzi do wniosków, że Hadoop to narzędzie niezbędne dla każdej organizacji, która zamierza realizować zaawansowaną analizę własnych danych.

Zachęcamy do skorzystania z bezpłatnej prenumeraty
elektronicznej magazynu Computerworld!
Analityka Big Data – czemu szybkość przetwarzania danych jest tak ważna?

Analityka Big Data – czemu szybkość przetwarzania danych jest tak ważna?

Nawet najbardziej zaawansowane systemy analityczne na świecie nie sprawdzą się w Twojej firmie, jeśli na wyniki będziesz czekał "całą wieczność". Kluczem do optymalnego wykorzastania tego typu aplikacji jest infrastruktura tak wydajna, by możliwe stało się przeprowadzanie procesów...

Analiza danych w czasie rzeczywistym dzięki eliminacji opóźnień

Analiza danych w czasie rzeczywistym dzięki eliminacji opóźnień

Nikt nie lubi opóźnień. Wystarczy wyeliminować opóźnienia dostępu do danych analitycznych, a firma może działać znacznie szybciej, wykorzystując informacje, które pozwalają na podejmowanie decyzji w czasie rzeczywistym. Pozostaje pytanie: jak usprawnić i przyspieszyć wdrażanie...

System x Solutions dla Big Data

System x Solutions dla Big Data

Szybka i poprawna analiza danych to klucz do sukcesu w każdym biznesie. By móc trafniej podejmować dezycje w oparciu o dane musisz móc nimi swobodnie zarządzać oraz porządkować. Z pomocą przychodzi narzędzie System x Solutions dla Big Data.

Forrester Research to organizacja zajmującą się analizą i badaniami, także w zakresie Big Data. Analitycy Forrester w raporcie “Big Data Hadoop Distributions, Q1 2016” stwierdzili, że około 60% do 73% danych przechowywanych w przedsiębiorstwach jest trudnych lub niemożliwych do dalszej analizy. W celu rozwiązania tego problemu, organizacje coraz częściej wdrażają Hadoop. W przyszłości większość dużych przedsiębiorstw posiadających Big Data, bedzie wykorzystało to narzędzie. Istnieje jednak wiele implementacji Hadoop. Trudno wskazać najlepszą dystrybucję. Na rynku jest co najmniej kilku dostawców, którzy wykazują kompetencje w tym zakresie, ale każdy z nich ma inne mocne strony. Na rynku pojawiają się też nowe systemy.

Co to jest Hadoop?

Big Data to temat popularny obecnie nie tylko w środowiskach technicznych. Hadoop to jeden z ważniejszych projektów dedykowanych Big Data. Prosta definicja zasady działania Hadoop to zapisywanie plików i przetwarzanie danych. Łatwo wyobrazić sobie plik większy, niż pojemość dysku naszego PC. Tradycyjnym sposobem nie jesteśmy w stanie zapisać takiego pliku. Hadoop umożliwia zapisanie plików większych, niż mogą zostać zmieszczone na danym serwerze czy macierzy, poprzez rozproszenie zapisu informacji na wiele klastrów (macierzy, serwerów). Drugim elementem Hadoop jest możliwość przetwarzania tych danych. Jeżeli ogromna ilość danych powinna zostać udostępniona, tradycyjnie musi zostać przesłana do PC, który najczęściej nie poradzi sobie z tym zadaniem. Hadoop odwraca tą sytuację i dzięki składnikowi MapReduce, przenosi narzędzia przetwarzania w kierunku danych.

Zobacz również:

Hadoop jest rozwijany przez Apache Software Foundation. Ważnym elementem Hadoop jest HDFS. HDFS (Hadoop Distributed File System) jest technologią, zapewniającą efektywne skalowanie warstwy pamięci masowych. HDFS to bazujący na Java system plików, który został dostosowany do pracy nawet na sprzęcie o niewielkich możliwościach. Kolejnym ważnym elementem Hadoop jest Data Processin Framework, który w postaci MapReduce jest wykorzystany do pracy z danymi. MapReduce uruchamia serię procesów, z których każdy jest odseparowaną aplikacją Java, przeszukująca dane. Warto pamiętać, że nie posługujemy się w tym przypadku zapytaniami, jak w relacyjnej bazie danych. W Hadoop istnieją narzędzia takie jak Hive (początkowo rozwijany przez Facebook), które umożliwiają konwertowanie języka zapytań na zadania MapReduce.

Ranking dystrybucji

Najwyższy poziom w zestawieniu Forrester zajmują Cloudera, HortonWorks oraz MapR. IBM i Pivotal uzupełniają zestawienie pięciu najważniejszych dostawców dystrybucji oprogramowania Hadoop. Każda z przedstawionych firm rozwija dodatkowo własne oprogramowanie związane z Hadoop. Dodatkowe narzędzia tworzone są pod kątem kluczowych dla przedsiębiorstw funkcjonalnościach jak bezpieczeństwo, skalowalność, integracja, wydajność, zarządzenie. Dystrybucje mogą zostać wdrożone na sprzęcie klienta, ale także w chmurze prywatnej lub publicznej, gdzie klient zarządza oprogramowaniem. Raport Forrester Wave nie klasyfikuje dystrybucji Hadoop bazujących na chmurze, takich jak Amazon Web Service Elastic MapReduce, Microsoft Azure HDInsight, ponieważ klienci nie mogą uruchomić tego oprogramowania na własnym sprzęcie.

Cloudera to firma założona w 2008 roku. Cloudera jest przedstawiana jako lider raportu, posiadając najwyższą liczbę puntów. Punktacja przyznawana była w oparciu o aktualną ofertę oraz stopień obecności na rynku, bazując na 30 kryteriach. Cloudera wykorzystuje darmowe oprogramowanie Hadoop oraz tworzy własne rozszerzenia w celu poprawy bezpieczeństwa, wysokiej dostepności, zarządzania i administracji oprogramowaniem. HortonWorks jest prawdopodobnie największym konkurentem Cloudera. Hortonworks jest związany w 100% z darmową dystrybucją Hadoop. Wszystko w dystrybucji Hortonworks jest darmowe, co daje użytkownikom ogromną elastyczność (przykładowo w przypadku migracji), ale wprowadza jednocześnie spore ograniczenia. Podczas gdy Cloudera uzyskała 4,53 punktów w skali od 1 do 5, konkurent Hortonworks uzyskał 3,82 punktu. MapR uzyskał 4,34 punktu. MapR jest postrzegany jako produkt zapewniający odpowiedni balans pomiędzy wydajnością i skalowalności, dostarczając maksymalną łatwość użycia. IBM InfoSphere BigInsights jest silnym konkurentem, szczególnie dedykowanym dla istniejących klientów IBM, którzy szukają rozszerzenia istniejącej analityki o możliwość wykorzystania Hadoop. Pivotal jest kolejnym dostawcą wartym rozważenia, ale aktualna oferta firmy i obecność na rynku została oceniona najniżej z 5 przedstawionych dostawców. Dystrybucja Pivotal Hadoop wdraża się idealnie w środowiskach, które wykorzystują również inne rozwiązania zarządzania danymi. Dodatkowo jest elastyczna jeżeli chodzi o prdukty programistyczne oraz usługi, przykładowo oprogramowanie zarządzenia danymi Cloud Foundry PaaS czy Greenplum.

Analitycy twierdzą, że rynek nie jest jeszcze nasycony Hadoop. Przeprowadzone w ubiegłym roku analizy Gartner`a pokazały, że 54% badanych firm nie ma planów wdrożenia Hadoop w 2016 roku. Warto jednak przyglądać się rozwojowi Hadoop, który poza wyżej wymienionymi firmami na celownik wzięły także firmy takie jak Oracle, Vertica, EMC, HP, Cisco, NetApp, Vmware i wiele innych.

Prenumerata Computerworld Zamów teraz bezpłatnie »
Dołącz do dyskusji
Bądź pierwszy i zostaw komentarz.