Poszukiwanie igły w stogu siana

Nowoczesne narzędzia do obróbki dużych porcji danych umożliwiają odkrywanie prawidłowości oraz precyzyjne śledzenie działań.

16 eksabajtów

logów i innych informacji zapisano w ubiegłym roku w firmach na świecie.

Bardzo wiele firm posiada duże zbiory danych, z których można wyciągnąć interesujące informacje. W przypadku sklepów może to być aktywność klientów, nawyki oraz ruch, przy czym dzięki odpowiednim narzędziom, niektóre zależności można wyliczyć z dość dużą precyzją. Oprócz typowych dla sklepów zależności, takich jak produkty kupowane we wspólnym koszyku, analizując masowo zbierane logi, można określić z dużym prawdopodobieństwem branżę zatrudnienia klienta, to, co robi on po godzinach albo z kim spędza czas. Pozyskana w ten sposób informacja po dostosowaniu do potrzeb kampanii marketingowych może mieć dużą wartość dla firm, zajmujących się reklamą webową oraz przygotowaniem spersonalizowanych materiałów reklamowych. Pozyskanie takich informacji wymaga jednak zaawansowanej analizy sporych zbiorów danych, które często bywają przechowywane w masowo zrównoleglonych bazach, takich jak framework Apache Hadoop.

Analiza kluczem do informacji

Firmy zbierają bardzo wiele danych i nie zawsze potrafią wyzyskać potencjał, który tkwi w tych zbiorach. Podczas konferencji Structure Big Data 2011, Jeff Jonas, inżynier pracujący w firmie IBM, powiedział: "Trend analizy i wnioskowania na podstawie dużych zbiorów zmieni nasze pojęcie prywatności. Nadejście epoki ciągłego nadzoru jest nie tylko nieuniknione, jest to przemożna chęć, której nie mogą się oprzeć firmy i instytucje".

Termin "big data" jest związany z olbrzymimi zasobami informacji zbieranych ze strumieni generowanych przez maszyny i człowieka, przy czym informacje te mogą pochodzić z logów komputerowych zapisujących działania człowieka, zapisów transakcji finansowych, strumieni wyszukiwań w Internecie, metadanych poczty elektronicznej, zapytań kierowanych do wyszukiwarek oraz aktywności w sieciach społecznościowych.

W samym tylko ubiegłym roku powstało około 1,5 zettabajtów (1,5 mld terabajtów) takich danych, w większości były one wytworzone przez maszyny. Według Jasona Hoffmana, założyciela i głównego specjalisty firmy Joyent, zajmującej się usługami świadczonymi w modelu cloud computing, w ciągu ubiegłego roku firmy zapełniły dyski swoich macierzy porcjami takich danych, zapisując razem około 16 eksabajtów (16 mln terabajtów).

Ilość danych powstająca z magazynowanych strumieni nadal rośnie i przedsiębiorstwa pracują nad sposobami wykorzystania tych zasobów informacji w kreatywny sposób, przynoszący dodatkową wartość dla organizacji.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200