Osiem najważniejszych trendów big data

Oczekiwania i technologie związane z analityką big data zmieniają się w zawrotnym tempie. Wytypowaliśmy osiem najważniejszych nurtów i zagadnień, które należy śledzić, aby pozostać o krok przed swoimi konkurentami.

Analityka wielkich zbiorów danych jest w fazie szybkiego rozwoju i dla wielu osób brak wypracowanych standardów i ciągła zmienność mogą być czynnikami zniechęcającymi do poważnego zastosowania rozwiązań opartych na big data, czyli repozytoriach, w których gromadzone i analizowane są gigantyczne ilości najróżniejszych informacji w natywnej postaci. Jednak ci, którzy mimo to zainteresowali się praktycznym wykorzystaniem takich rozwiązań do usprawnienia pracy organizacji, podkreślają, że jest to inwestycja (czasu i pieniędzy) zdecydowanie godna polecenia.

„Faktycznie jest tak, że narzędzia umożliwiające maksymalne wykorzystanie możliwości, jakie daje ta technologia powstają właściwie na bieżąco, a platforma Hadoop wciąż nie została dopracowana na tyle, by można ją było traktować jako poważne rozwiązanie dla biznesu. Ale firmy tak naprawdę nie mają wyjścia – albo skorzystają z dostępnych obecnie rozwiązań, albo narażają się na ryzyko pozostania z tyłu. Kiedyś faktycznie było tak, że dopracowanie jakiś rozwiązań technologicznych trwało latami – teraz ten proces skraca się do miesięcy, czy nawet tygodni” – komentuje Bill Loconzolo, wiceprezes i szef działu Data Engineering w firmie Intuit.

Zobacz również:

Co więc należy wiedzieć o nowych rozwiązaniach z zakresu big data, by nie pozostać z tyłu? Amerykański Computerworld spytał praktyków – szefów działów IT, konsultantów oraz analityków. Oto ich lista.

1. Analityka big data w chmurze

Hadoop – framework oraz zestaw narzędzi do przetwarzania ogromnych zbiorów danych – stworzony został z myślą o pracy na klastrze lub fizycznych maszynach. Ale sytuacja się zmieniła: „Obecnie dostępnych jest coraz więcej technologii umożliwiających przetwarzanie danych w chmurze – wśród nich: Amazon Redshift, Google BigQuery, IBM Lumix czy Amazon Kinesis. Wydaje się, że w przyszłości rozwiązania big data będą więc hostowane hybrydowe – lokalnie oraz w chmurze” – prognozuje Brian Hopkins, analityk firmy Forrester Research.

Przykładem może być firma Smarter Remarketer, dostawca oferowanych w modelu SaaS narzędzi z zakresu analizy sprzedaży i usług marketingowych, który zdecydował się ostatnio na „przesiadkę” z systemów hostowanych lokalnie (Hadoop oraz MongoDB) do chmurowego „magazynu danych” Amazon Redshift. Firma gromadzi ogromne ilości danych na temat transakcji oraz klientów zarówno ze sklepów internetowych, jak i tradycyjnych, a następnie analizuje je, by umożliwić sprzedawcom lepsze dopasowanie oferty do warunków na rynku.

„Oferta Redshift jest dla nas po prostu lepiej dopasowana finansowo i lepiej odpowiada naszym potrzebom – chodzi tu m.in. o rozbudowane opcje raportowania, również danych ustrukturyzowanych” – wyjaśnia Dean Abbott, Chief Data Scientist w Smarter Remarketer. Dodatkowym atutem oferty Amazon okazała się skalowalność. Abbot tłumaczy, że firmie łatwiej jest zakontraktować kolejną maszynę wirtualną, niż kupować sprzęt i zarządzać nim na własną rękę.

Podobną ścieżką poszła wspomniana już firma Intuit, która również zdecydowała się na chmurę – tyle że prywatną. Jej przedstawicielom zależało na stabilnym, bezpiecznym i łatwym do audytowania środowisku, stąd decyzja o stworzeniu Intuit Analytics Cloud.

2. Hadoop: nowy biznesowy system zarządzania danymi

„Rozproszone frameworki analityczne – takie jak MapReduce – ewoluują w działające w modelu rozproszonym rozwiązania do zarządzania zasobami. To z kolei stopniowo zmienia Hadoop w swego rodzaju system zarządzania danymi ogólnego przeznaczania” – mówi Brian Hopkins. Dzięki takim narzędziom możliwe jest przeprowadzanie najróżniejszych operacji na zbiorach danych – od zarządzania po zaawansowaną analitykę.

Co to właściwie znaczy dla organizacji? Otóż dzięki takim rozwiązaniom możliwe jest wykorzystanie w firmie Hadoop jako centralnego, korporacyjnego huba danych, dzięki któremu będą one analizowane i wykorzystywane z szybkością porównywalną z tradycyjnymi aplikacjami do zarządzania informacją. „Możliwość uruchamiania na zbiorach danych wielu różnych zapytań i operacji sprawi, że Hadoop ma szansę stać się pojedynczą, uniwersalną i tanią w utrzymaniu platformą do przechowywania i analizowania danych” – dodaje Hopkins.

Firmą, która stara się wykorzystać opisany model, jest m.in. Intuit: „Naszym celem jest oparcie infrastruktury na Hadoop Distributed File System, a także ścisła współpraca z MapReduce i Hadoop – nasza długoterminowa strategia zakłada wykorzystanie tych aplikacji do zapewnienia optymalnej interakcji pomiędzy danymi, produktami i osobami” – mówi Loconzolo.