Hadoop dostał zadyszki na Facebooku
- 20.11.2012
Facebook ma 1 mld użytkowników i musi analizować 105 terabajtów danych co pół godziny. To chyba największy klaster Apache Hadoop na świecie, który doszedł do granic możliwości oprogramowania.
Oprócz obsługi bieżącej pracy portali Facebook korzysta z rozwiązań Hadoop, Hive i Prism do wsparcia analiz biznesowych. Oprogramowanie Hive (opracowane wcześniej przez Facebooka) umożliwia użycie zasobów Hadoop ze standardowymi narzędziami BI, a także z własnym narzędziem HiPal, które umożliwia analizę danych, kreowanie zapytań, generowanie wykresów oraz paneli dashboard.
Facebook korzysta z narzędzia Apache Hadoop, przy czym wykorzystuje je nie tylko do analiz. To główny motor obsługujący różne opcje strony internetowej. Skala wdrożenia sprawiła, że Facebook doszedł do granic możliwości dostępnego oprogramowania i musiał opracować narzędzie, które potrafi dokonać rozlokowania klastrów Hadoop w różnych miejscach świata oraz dalszego zrównoleglenia składowania zasobów. Opracowany w tym celu projekt Prism sprawia, że firma może rozlokować klastry w różnych częściach świata oraz określić po testach A/B na platformie Hadoop sprawność podziału poszczególnych porcji danych zależnie od parametrów geograficznych i demograficznych.
Ominąć ograniczenia czasowe
Chociaż Hadoop jest rozproszonym systemem przetwarzania wsadowego, wymaga ścisłego połączenia poszczególnych maszyn i nie toleruje opóźnienia większego niż kilka milisekund pomiędzy węzłami klastra. Oznacza to, że wszystkie informacje muszą być składowane w pojedynczej lokalizacji. Projekt Prism tworzy dodatkową warstwę abstrakcji, która usuwa to ograniczenie, dzięki czemu można rozproszyć dane pomiędzy wiele ośrodków obliczeniowych.
Facebook zamierza wydać oprogramowanie Prism na licencji open source. Chociaż początkowo jego przydatność dla korporacji może wydawać się wątpliwa, warto przypomnieć, że te same wątpliwości towarzyszyły w 2006 r. wydaniu pierwszej wersji oprogramowania Hadoop przez Yahoo! czy NoSQL.