Hadoop coraz popularniejszy

Platforma do zarządzania bazami danych Hadoop jest coraz szerzej wykorzystywana, choć wymaga sporych umiejętności. Jednak nie we wszystkich zastosowaniach jest przydatna.

Według analityków Forrester Research zaledwie 1% przedsiębiorstw w Stanach Zjednoczonych korzysta z Hadoop w środowiskach produkcyjnych, ale przewidywania wskazują na dwu- lub nawet trzykrotny wzrost w 2012 roku. Przyczyną rosnącego zainteresowania są cechy platformy - Hadoop przewyższa tradycyjne systemy zarządzania bazami danych, gdyż pozwala na wykorzystanie danych strukturalnych (takich jakie znaleźć można w bazach relacyjnych) i nieustrukturyzowanych, przy czym propagacja rosnącej liczby danych odbywa się w nim sprawnie, bez zakłóceń. Korzystanie z platformy wymaga jednak sporej wiedzy, by poradzić sobie, gdy wystąpią problemy - to ciągle rozwijana technologia.

Praktycznie nieograniczona skalowalność

Dla firmy Concurrent, zajmującej się opracowywaniem i sprzedażą systemów strumieniowania obrazu oraz magazynowaniem i analizą wielkich ilości materiałów wideo, Hadoop okazał się remedium na problemy z ogromnymi zbiorami danych. Pozwolił pokonać ograniczenia relacyjnych baz danych, które nie radziły sobie z danymi niestrukturalnymi, takimi jak wideo, oraz ze wzrostem ilości informacji. Skalę problemu nakreślił William Lazzero, główny inżynier w Concurrent, podając, że klienci spółki generują jeden petabajt danych dziennie. Hadoop rozwiązał problem, gdyż do obróbki 2 mld rekordów dziennie dla jednego tylko klienta wystarczyło dodanie do węzła dodatkowego serwera. Podstawową różnicą między Hadoop a tradycyjną bazą danych jest możliwość szybkiego skalowania bez ponoszenia opłat licencyjnych, gdyż cały framework jest rozwijany w modelu open source.

W firmie NextBio, zajmującej się projektami związanymi z sekwencjonowaniem ludzkiego genomu, wdrożenie Hadoop pozwoliło na znaczące usprawnienie całego systemu. Przykładem jest czas potrzeby na analizę pełnego ludzkiego genomu, który według NextBio zawiera ok. 150 GB skompresowanych danych, co wymaga 500 GB miejsca do ich przetworzenia. Wcześniej analiza takich informacji zajmowała trzy dni, z Hadoop i 30-40 działającymi pod jego kontrolą maszynami proces ten nie zajmuje nawet czterech godzin. Inną zaletą jest prosta i tania skalowalność, polegająca na dodaniu kolejnych węzłów do klastra, by samoczynnie zaczęły działać.

Nowe rodzaje aplikacji

Jedną z największych korzyści Hadoopa jest zdolność do szybkiej analizy ogromnej ilości danych i wyszukiwania trendów. Dla sprzedawców oznacza to możliwość zestawiania informacji z Facebooka czy Twittera dotyczących np. kolorów szalika, jakie były modne w zeszłym sezonie, z obecnymi kierunkami w modzie, aby w ten sposób określić, co będzie najlepiej sprzedawać się w kolejnym sezonie.

Tradycyjne bazy danych obsługują sortowania i analizy, ale przy ogromnych zbiorach Hadoop działa efektywniej. Potwierdzeniem tego mogą być zmiany, jakie zaszły w eBayu przez ostatni rok. Mając dostęp do 300 mln wpisów, informacji historycznych i kolosalnej ilości pozostałych danych, można łatwiej zrozumieć potrzeby klientów. Obecnie jest mechanizm, który pozwala stwierdzić, kiedy użytkownicy serwisu zaczynają wpisywać zapytania związane z zakupami na Halloween i na Gwiazdkę. Dzięki temu widać, jakich produktów poszukują klienci. Według Hugh Wiliamsa, wiceprezesa działu platform i wyszukiwania w eBay, pięć lat temu nie wyobrażano sobie takiego wykorzystania danych.

Dodawać, nie wymieniać

Mimo zalet, większość firm używa platformy Hadoop obok innych typów oprogramowania. eBay stale wykorzystuje relacyjne bazy danych, przykładem może być system transakcyjny portalu. Podobne podejście do nowej technologii prezentuje firma Concurrent, gdzie Hadoop nie zastąpił baz opartych na MySQL, PostgreSQL czy Oracle. Jak przyznaje William Lazzero z Concurrent, nowa platforma służy do trudnych zadań, takich jak obróbka danych na wielką skalę. Użycie Map/Reduce w obrębie Hadoop pozwala uzyskać dane, które są później dostępne dla tradycyjnych systemów zarządzania relacyjną bazą danych (RDBMS). Rozwiązanie sprawdza się, gdy system staje się zbyt wielki dla RDBMS, a przetworzenie ogromnej ilości informacji (sięgających 5 mld rekordów) nie jest dla Hadoop żadnym wyzwaniem.

Ostrożnie - nowa technologia

Hadoop nie jest platformą, na której można bezgranicznie polegać. Szczególną ostrożność zalecają nawet branżowi analitycy. Po pierwsze, z uwagi na brak standaryzacji i ciągłe udoskonalanie technologii przez dostawców, którzy wydają swoje wersje Hadoopa. Po drugie, niezbędna jest wykwalifikowana kadra, która poradziłaby sobie z nowymi wyzwaniami stawianymi przez tę technologię.

Kolejnym problemem może okazać się czas potrzebny na nauczenie pracowników firmy korzystania z modelu open source. Czym innym jest użycie oprogramowania do kilku projektów mniejszego kalibru, a czym innym współtworzenie olbrzymiego systemu, który zobaczy cały świat.

Nie należy też zostawić sprawy w rękach wybranego dostawcy. Chociaż przygotuje on system wedle zaleceń, to my będziemy na nim pracować. Lepiej więc być zaangażowanym w cały projekt wewnętrznie, niż potem borykać się z całą masą problemów, których można było uniknąć.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200