Hadoop dostał zadyszki na Facebooku

Facebook ma 1 mld użytkowników i musi analizować 105 terabajtów danych co pół godziny. To chyba największy klaster Apache Hadoop na świecie, który doszedł do granic możliwości oprogramowania.

W połączeniu z BI

Oprócz obsługi bieżącej pracy portali Facebook korzysta z rozwiązań Hadoop, Hive i Prism do wsparcia analiz biznesowych. Oprogramowanie Hive (opracowane wcześniej przez Facebooka) umożliwia użycie zasobów Hadoop ze standardowymi narzędziami BI, a także z własnym narzędziem HiPal, które umożliwia analizę danych, kreowanie zapytań, generowanie wykresów oraz paneli dashboard.

Większość ze 105 petabajtów danych, którymi operuje Facebook, jest przetwarzana i analizowana, w celu optymalizacji opcji produktu oraz działań marketingowych. Codziennie obrabianych jest 2,7 mld kliknięć "Like - Lubię to" oraz 2,5 mld współdzielonych obiektów z treścią. Obecnie zasoby Facebooka rosną w tempie 0,5 petabajta dziennie.

Facebook korzysta z narzędzia Apache Hadoop, przy czym wykorzystuje je nie tylko do analiz. To główny motor obsługujący różne opcje strony internetowej. Skala wdrożenia sprawiła, że Facebook doszedł do granic możliwości dostępnego oprogramowania i musiał opracować narzędzie, które potrafi dokonać rozlokowania klastrów Hadoop w różnych miejscach świata oraz dalszego zrównoleglenia składowania zasobów. Opracowany w tym celu projekt Prism sprawia, że firma może rozlokować klastry w różnych częściach świata oraz określić po testach A/B na platformie Hadoop sprawność podziału poszczególnych porcji danych zależnie od parametrów geograficznych i demograficznych.

Ominąć ograniczenia czasowe

Chociaż Hadoop jest rozproszonym systemem przetwarzania wsadowego, wymaga ścisłego połączenia poszczególnych maszyn i nie toleruje opóźnienia większego niż kilka milisekund pomiędzy węzłami klastra. Oznacza to, że wszystkie informacje muszą być składowane w pojedynczej lokalizacji. Projekt Prism tworzy dodatkową warstwę abstrakcji, która usuwa to ograniczenie, dzięki czemu można rozproszyć dane pomiędzy wiele ośrodków obliczeniowych.

Facebook zamierza wydać oprogramowanie Prism na licencji open source. Chociaż początkowo jego przydatność dla korporacji może wydawać się wątpliwa, warto przypomnieć, że te same wątpliwości towarzyszyły w 2006 r. wydaniu pierwszej wersji oprogramowania Hadoop przez Yahoo! czy NoSQL.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200