Poszukiwanie igły w stogu siana

Książki pod nadzorem

Księgarnia Barnes & Noble korzysta z analizy logów serwerów webowych, do których trafiają informacje o klientach online. W ten sposób można pozyskać informacje o różnych zachowaniach klientów, na przykład o tym, jak wiele klientów podejmuje decyzję o zakupie na podstawie sympatii do konkretnego autora.

Mark Parrish, wiceprezes Działu Marketingu odpowiedzialnego za utrzymanie klientów, przytacza konkretne wartości - logi serwerów webowych, które pobierają żądania z czytników elektronicznych, zajmują już 35 TB i prognoza na bieżący rok to około 20 TB. Jest to duża ilość danych, zawierająca cenne informacje, które można wykorzystać. Obecnie Barnes & Noble pracuje nad sposobami analizy tych logów, by usprawnić pracę księgarni.

NPR przeszukuje logi

Niektóre organizacje analizują strumień danych niemal w czasie rzeczywistym, przykładem może być National Public Radio, amerykańska organizacja medialna, która jest obecnie silnie ukierunkowana na media cyfrowe. Dostarcza ona i dystrybuuje wiadomości, informację i programy muzyczne do sieci ponad 900 niezależnych stacji. Dzięki nim dociera do ponad 30 mln odbiorców co tydzień.

Do analizy zbieranych logów NPR wykorzystuje narzędzie raportowe firmy Splunk, śledząc przy tym niemal w czasie rzeczywistym informacje o słuchaczach sieci. Oprogramowanie dostarczone przez firmę Splunk przegląda logi, metryki oraz informacje z innych aplikacji, serwerów i sieci, indeksując je w przeszukiwalnym repozytorium.

Według Sondry Russell, analityka NPR, poprzednio wykorzystywane oprogramowanie Omniture nie dawało rady przetworzyć spływających masowo informacji, tworząc jedynie niezbyt wydajny system śledzenia klientów. Nie było ono także dopasowane do potrzeb tej organizacji. Sondra Russel mówi: "Chciałam wiedzieć, ile razy ktoś słuchał danego programu w ciągu pewnego okresu, a dotychczas było to dość powolne i kłopotliwe. Obecnie nie mam praktycznie żadnych opóźnień od spłynięcia danych do wygenerowania raportów. Nie muszę czekać ani tygodniami przygotowywać raportów".

Hadoop wykonuje brudną robotę

W odróżnieniu od tradycyjnych technologii zarządzania danymi przechowywanymi w relacyjnych bazach, aplikacje utworzone w projekcie Hadoop zostały zaprojektowane do pracy z różnymi typami i źródłami danych. "Narzędzia te są coraz częściej wykorzystywane przez duże instytucje finansowe, takie jak banki, przez firmy zajmujące się reklamą, a także przez kompanie farmaceutyczne, które chcą lepiej wyzyskać informację składowaną w rozległych zasobach" - twierdzi Stephen O'Grady, analityk firmy RedMonk.

Projekt Apache Hadoop zajmuje się dostarczeniem oprogramowania w modelu open source, przeznaczonego do wiarygodnego i wysoce skalowalnego przetwarzania danych w modelu silnie rozproszonym.


TOP 200