Osiem najważniejszych trendów big data

3. Wielkie akweny danych

Tradycyjne – bazodanowe – podejście do przechowywania danych przewiduje, że zbiór danych musi zostać zaprojektowany przed wprowadzeniem do niego informacji. Rozwiązanie o nazwie „jezioro danych” (data lake) niejako wywraca ten model do góry nogami. „Tu podejście jest zupełnie inne: wychodzimy z założenia, że należy zebrać wszystkie możliwe źródła danych, wrzucić informacje z nich do jednego wspólnego repozytorium Hadoop, nie projektując wcześniej zbioru danych. Zamiast tego dostarczamy użytkownikom narzędzia do analizowania danych oraz precyzyjne definicje tego, jakie dokładnie dane znalazły się w jeziorze” – wyjaśnia Chris Curran, ekspert z firmy doradczej Pricewaterhouse-Cooper’s.

Takie rozwiązanie ma sporo zalet, ale ma również wady – jedną z ważniejszych jest fakt, że do korzystania z takiego repozytorium niezbędne są wysokie kompetencje. Z „jeziora danych” korzysta m.in. Intuit Analytics Cloud – trafiają do niego m.in. dane na temat aktywności użytkowników, działań firmy oraz od firm trzecich. Celem twórców tego „akwenu” było zdemokratyzowanie dostępu do informacji i zapewnienie ich w równym stopniu wszystkim użytkownikom, którzy tego potrzebują.

Zobacz również:

  • IDC CIO Summit – potencjał drzemiący w algorytmach
  • 5 praktycznych powodów, dla których warto wdrożyć Zero Trust

„Obawialiśmy się nieco, że platforma Hadoop sama w sobie nie jest jeszcze gotowa do realizacji takiego przedsięwzięcia, tym bardziej że zależało nam na zachowaniu pewnych kluczowych cech tradycyjnych baz danych: kontroli dostępu, szyfrowania, śledzenia ścieżki danych” – zastrzega Loconzolo.

4. Bardziej przewidywalna analityka

Big data dla analityków to więcej informacji do analizowania – co w założeniu jest oczywiście pozytywne, ale jednocześnie oznacza np. większe zapotrzebowanie na moc obliczeniową do przeanalizowania większej liczby rekordów o wielu atrybutach. „Użytkownik ma możliwość analizowania ogromnej liczby rekordów, z których każdy może mieć wiele atrybutów. To znacznie zwiększa trafność przewidywań” – mówi Hopkins.

Połączenie big data i ogromnej mocy obliczeniowej pozwala analitykom na wykonywanie zupełnie nowych operacji – m.in. analizowanie w czasie rzeczywistym zachowań internautów (np. na podstawie ich lokalizacji lub pory dnia). Oczywiście, wiążą się z tym również poważne wyzwania – przede wszystkim konieczność wyłuskiwania interesujących informacji czy wniosków z ogromnej ilości danych, które są stale przetwarzane. $„Dlatego stosowanie tu tradycyjnych uczących się algorytmów (które operują na danych o skończonej liczbie atrybutów) nie bardzo mam sens” – dodaje ekspert.

„W sytuacji, gdy czas i pamięć przestają być kluczowym problemem, możliwe jest zupełnie inne formułowanie problemów. Jeśli szukamy rozwiązań, możemy po prostu przydzielić temu zadaniu odpowiednio dużo zasobów i szybko znaleźć wszystkie odpowiedzi. To rewolucja” – dodaje Abbott.

„Dla nas problemem była właśnie prędkość – Hadoop czasami potrzebuje do uzyskania odpowiedzi nawet 20 razy więcej czasu niż tradycyjne technologie. Dlatego teraz eksperymentujemy z Apache Spark oraz narzędziem SQL Spark. To pozwala na przechowywanie danych w Hadoop przy jednoczesnym zapewnieniu satysfakcjonującej wydajności” – mówi Bill Loconzolo z Intuit.

5. SQL na Hadoop – szybciej i lepiej

„Pomysłowy programista i matematyk może wrzucić do Hadoop dowolne dane i swobodnie je analizować. To jest zaletą tego środowiska, ale jednocześnie pewnym problemem. Ja na przykład potrzebuję kogoś, kto przygotuje dla mnie takie dane – przedstawi je w odpowiednim formacie i strukturze, którą potrafię się posługiwać”$ – komentuje Mark Beyer, analityk firmy Gartner. Jego zdaniem, w tej sytuacji idealnie sprawdza się SQL dla Hadoop (choć w sumie równie dobrze mógłby to być inny język o podobnych możliwościach).

Narzędzia umożliwiające tworzenie zapytań zbliżonych do SQL pozwalają użytkownikom biznesowym obeznanym z tymi rozwiązaniami na wygodne stosowanie podobnych technik do analizowania big data. SQL on Hadoop otwiera środowisku Hadoop drzwi do zdobycia popularności w biznesie, ponieważ dzięki temu rozwiązaniu korporacje nie muszą inwestować w wysoce wykwalifikowany personel, posługujący się np. skryptami napisanymi w Java, JavaScript czy Pythonie.

Takie narzędzia nie są zresztą niczym nowym. Apache Hive oferuje już od dawna strukturalny, zbliżony do SQL język dla Hadoop. Jednak dostępne komercyjnie alternatywy (proponowane m.in. przez Cloudera, Pivotal Software czy IBM) zapewniają większą wydajność i cały czas stają się coraz szybsze. Dzięki takim rozwiązaniom analitycy mogą wygodnie korzystać z tzw. analityki iteratywnej – czyli modelu, w którym po uzyskaniu odpowiedzi na pierwsze pytanie możemy natychmiast zadać kolejne, pogłębiające temat (i natychmiast otrzymać odpowiedź). Do tej pory do takich rozwiązań niezbędne było budowanie specjalistycznych magazynów danych – SQL na Hadoop być może ich nie zastąpi, ale w pewnych okolicznościach może stanowić skuteczną i znacznie tańszą alternatywę.


TOP 200