Co to jest Big Data

Organizacje przetwarzają dane liczone w setkach terabajtów, ale Big Data dotyczy szczególnych przypadków. Oto różnice między masowym składowaniem danych a tym nowym pojęciem.

Polowanie na oszustów

Przykładem, w którym szybka i sprawna analiza danych klasy Big Data bezpośrednio przekłada się na pieniądze, może być wykrywanie nadużyć w sektorze finansowym. Strumień transakcji może być skojarzony z informacjami o użytkownikach serwisu, z informacjami z serwisów śledzących rozwój złośliwego oprogramowania i spamu oraz z danymi z sieci społecznościowych. Udaje się w ten sposób wykryć kampanię phishingową kierowaną przeciw klientom konkretnej instytucji, określić sposób, zakres i jej potencjalne skutki oraz zaplanować wcześniej sposoby przeciwdziałania. Kojarząc transakcje z informacjami o reklamacjach, można także wykryć konta bankowe osób podstawionych (w Polsce zwanych "słupami"). Podstawową zaletą przetwarzania równoległego zasobów Big Data jest szybkość - raporty powstają niemal w czasie rzeczywistym.

Ilość danych przetwarzanych w firmach stale rośnie. Dotyczy to nie tylko baz danych, obsługujących aplikacje firmowe. Od dawna w zasobach dyskowych przechowywane są dokumenty niestrukturalne, takie jak pliki pakietów biurowych, grafika czy materiały wideo. Samo składowanie czy przetwarzanie typowych zasobów dopracowano już wiele lat temu. Problemy pojawiają się wtedy, gdy trzeba łączyć dane z różnych źródeł, gdy charakterystyka tych strumieni odbiega od typowych podziałów na serwisy transakcyjne, analitykę biznesową i składowanie informacji.

Andrew Sutherland, wiceprezes działu technologii na Europę, Bliski Wschód i Afrykę w firmie Oracle, wyjaśnia: "Zjawisko Big Data polega na tym, że zasoby informacji mają jednocześnie kilka cech: dużą objętość informacji, prędkość zmian, strumienie informacji z różnych źródeł o różnej charakterystyce oraz potencjalnie dużą wartość dla firmy. Do sprawnej pracy z takimi zasobami niezbędne są specjalne narzędzia".

Zobacz również:

  • Zefiryn Tora CIO Roku 2019!
  • Black Friday - ceny rosną, żeby spaść
  • Cloudera: w Polsce szybko rośnie popyt na rozwiązania Big Data
  • Nowe źródła danych

    Klasycznym źródłem danych do analizy są informacje pozyskane z firmowych systemów transakcyjnych. Drugim co do popularności strumieniem informacji, często wykorzystywanym w przemyśle, są informacje z czujników różnych wielkości fizycznych. Dane służą do utrzymania procesów technologicznych, ale jednocześnie po połączeniu z informacjami z innych źródeł mogą posłużyć do zaawansowanych analiz. Dane te mogą zawierać informacje o warunkach pogodowych, o pracy linii technologicznych, a zatem mogą posłużyć nie tylko do analizy kosztów, ale także do prognoz sprzedaży.

    Nowym źródłem danych są informacje pochodzące z sieci społecznościowych. Są one trudne w analizie, gdyż rzadko zawierają konkretne wartości liczbowe, ale można je analizować pod kątem obecności słów kluczowych, częstości wpisów, pojawiania się wpisów związanych z różnymi tematami, konotacji negatywnej lub pozytywnej, a także czasu reakcji na działania w internecie.

    To, czego nie widać

    Analizy danych przeprowadzane w klasyczny sposób mają na celu ocenę kosztów produkcji, charakterystyki produktu lub rynku. Rzadko analizowano obecność luk w portfolio firmy. Takich informacji nie ma w systemach ERP ani w danych o sprzedaży. Tymczasem zestawienie informacji pochodzących z sieci społecznościowych i analiza ruchu internetowego umożliwia wykrycie obszarów, których obecne portfolio firmy nie pokrywa. Ponadto można w ten sposób określić wskazówki rozwoju serwisu webowego, znajdując silne i słabe miejsca.

    Ciekawym przypadkiem jest wykorzystanie różnych źródeł danych do oceny ryzyka przedsięwzięcia jeszcze na etapie jego planów - co ma szczególne znaczenie przy planowaniu działań marketingowych lub w sektorze finansowym. Dane, które mogą posłużyć do takiej analizy, znajdują się w firmie od dawna. Są przechowywane w logach z serwerów webowych, a także mogą być uzupełnione przez informacje z serwisów społecznościowych, pozyskiwane za pomocą API lub automatycznego pobrania treści.

    Nadmiar danych

    Wyścig po dane

    Jednym z praktycznych zastosowań Big Data jest analiza danych dla celów sportu wyczynowego, takiego jak żeglarstwo. Jacht AC45 startujący w regatach America’s Cup ma na pokładzie 250 sensorów mierzących rozmaite parametry, takie jak wiatr w różnych miejscach żagla, siły w olinowaniu stałym i ruchomym oraz działające na kadłub, położenie trymera skrzydła grota, pracę foka i genakera, a także puls każdego z członków załogi. Sensory raportują wartości 10 razy na sekundę, tworząc w tym czasie ponad 2500 punktów danych. Dane te następnie są analizowane za pomocą MapReduce, umożliwiając dalsze usprawnienia sprzętu, szkolenie załogi i ostatecznie lepsze wyniki.

    Połączenie informacji z tak różnych źródeł sprawia, że wynikowa pula danych charakteryzuje się olbrzymim zwielokrotnieniem, zawiera dużo informacji niepotrzebnych z punktu widzenia pojedynczego zapytania raportowego. Przykładem jest dołączenie do puli danych zapisów z różnych sensorów, które zamieniają wielkości fizyczne (takie jak ciśnienie, prędkość przepływu jakiegoś czynnika) lub fizjologiczne (na przykład tętno). Strumienie danych pochodzące z sensorów charakteryzują się dużym nadmiarem informacji, gdyż urządzenia te raportują bieżący stan obiektu w stałych odstępach czasu. Jeśli poszukuje się anomalii lub zależności między wartościami fizycznymi raportowanymi przez sensor a informacjami z innych źródeł, to wartości raportowane na przykład 10 razy na sekundę, w "nieinteresujących" chwilach nie będą miały zastosowania. Nie należy od razu ich usuwać, gdyż przy innych raportach mogą okazać się cennym źródłem danych - określają normalny stan monitorowanego obiektu.

    Andrew Sutherland tak opisuje kłopot, przed jakim staje IT w pracy z tak zróżnicowanymi danymi: "Tak duży rozmiar zasobów oraz ich charakter sprawiają problemy. Bazy danych nie są odpowiednim miejscem do składowania niestrukturalnych danych, trudno osiągnąć oczekiwaną wydajność i pojawiają się problemy z przetwarzaniem obiektów".

    Przypisanie i redukcja

    Aby poradzić sobie z tak dużą ilością różnorodnych danych, należy wybrać najważniejsze z nich, po dokonaniu wyboru, uporządkować i w postaci już gotowej do analizy dostarczyć do typowych narzędzi analitycznych, najlepiej już dostępnych w firmie. Ponieważ zapytania muszą być wykonywane szybko, proces ten należy przeprowadzić równolegle na wielu niezależnych węzłach. Najważniejszym algorytmem do tego celu jest MapReduce, tam zbiór danych zostaje rozproszony między wiele serwerów, które porządkują dane, wybierając właściwe elementy i rekordy zgodnie z regułami zapytania. Dane wynikowe są akumulowane i przetwarzane do postaci wynikowej, ale jest ich już znacznie mniej, dzięki przypisaniu (ang. map) oraz wybieraniu i redukcji nadmiaru danych (ang. reduce) dokonywanemu na wielu węzłach równocześnie.

    Andrew Sutherland wyjaśnia: "Proces ten jest bardzo sprawny, umożliwiając wykonywanie zapytań w czasie liczonym w sekundach na zbiorze danych rzędu petabajtów, zarówno strukturalnych, jak i niestrukturalnych. Pozyskane dane można następnie przetwarzać w typowych narzędziach analitycznych, już dostępnych w organizacji. Rozwiązania w tej dziedzinie mają jednak wadę - nie zawsze dysponują łatwymi w użyciu graficznymi narzędziami do zarządzania przetwarzaniem danych w modelu MapReduce. Odpowiedzią firmy Oracle jest urządzenie Big Data Appliance".

    Oracle Big Data Appliance jest gotowym rozwiązaniem składającym się z 18 serwerów Oracle Sun (każdy z nich ma dwa procesory Intel Xeon 5675, 48GB RAM, 12 dysków 3TB SAS) i magistrali InfiniBand. Oprogramowanie obejmuje dystrybucję Cloudera zawierającą Apache Hadoop, Oracle NoSQL Database Community Edition oraz dodatkowe oprogramowanie, w tym Oracle Linux, Oracle Java Hotspot VM i wersję open source oprogramowania R, przeznaczonego między innymi do obliczeń statystycznych. Urządzenie pobiera 12 kW i jest dostarczane jako kompletna szafa 42U.

    Cztery cechy Big Data

    Dużo informacji

    Podstawową cechą Big Data jest duża objętość składowanej i przetwarzanej informacji. Granicą jest zazwyczaj 100 terabajtów, zbiory często liczone są w petabajtach, ale sama wielkość niezbędnej przestrzeni dyskowej nie jest główną cechą charakteryzującą Big Data. Do tej kategorii nie możemy zaliczyć na przykład prostego cyfrowego archiwum filmowego, które składuje petabajty danych, jednak nie przeprowadza na nich żadnych zaawansowanych operacji, poza katalogowaniem, umieszczaniem i odtwarzaniem zasobów.

    Zmienność i szybkość dostaw danych

    Składowane informacje w firmach charakteryzują się istotną cechą - większość z nich zmienia się powoli. W przypadku baz transakcyjnych obsługujących systemy ERP gros danych nie ulega zmianie, dopisywane są tylko nowe rekordy związane z powstałymi dokumentami i aktualizowane są inne zapisy. Dane, na przykład z zamkniętych miesięcy lub poprzedniego roku finansowego, pozostają niezmienne. W przypadku hurtowni danych zasilanie danymi odbywa się strumieniami, ilość tych informacji może być znaczna, ale nadal nie jest to ciągły ruch, który wymagałby użycia specjalnych narzędzi.

    Różne źródła danych

    Organizacje mogą pobierać dane z różnych źródeł. Zazwyczaj wyróżnia się tutaj dane strukturalne pochodzące na przykład z systemów transakcyjnych, ale zasoby Big Data są zasilane także strumieniami danych pochodzącymi z serwisów webowych, sieci społecznościowych, skanerów RFID, a także z różnych sensorów przekładających wartości fizyczne na sygnał elektroniczny. Dane te są niestrukturalne, charakteryzują się pewnym nadmiarem informacji w każdym rekordzie, szerokim strumieniem dostarczanych rekordów i są zależne od formatu źródła, z którego pochodzą. Aby mogły być przystosowane do analizy w typowych rozwiązaniach analitycznych, muszą być przetworzone.

    Potencjalna wartość dla organizacji

    Zebrane dane same w sobie nie umożliwiają natychmiastowej sprawnej analizy. Gdy jednak dokona się operacji, polegających na wyłowieniu rekordów odpowiadających poszukiwanej zależności, ich wartość znacząco wzrasta. Jeśli firma świadcząca usługi online tak przetworzy zapisy aktywności aplikacji, może określić, w jaki sposób klienci korzystają z aplikacji, dlaczego niektóre produkty się nie sprzedają, w jaki sposób zmiany w strukturze aplikacji wpływają na działania klientów i sprzedaż. Takich informacji nie da się pozyskać z systemów z danymi strukturalnymi, gdyż nie ma w nich informacji niezbędnych do wiarygodnej analizy. Dopiero informacja pochodząca z różnych źródeł będzie mieć potencjalnie istotną wartość.


    TOP 200