Dane mają drugie dno

Big Data określane jest przez ilość przetwarzanych danych, liczonych w terabajtach. Prawdziwa jego wartość jest związana nie tyle z ilością informacji, ile z jej jakością i znaczeniem dla organizacji.

U podstaw efektywnego wykorzystania zasobów IT w organizacji leży możliwość łączenia informacji z różnych źródeł. Wiąże się to z koniecznością pobrania dużych zbiorów z wielu strumieni danych. Nie można jednak od razu dokonać filtrowania informacji, gdyż w momencie jej pobierania nie zawsze udaje się określić porcje danych, które będą niezbędne do dalszego przetwarzania. Powoduje to konieczność pobrania dużych ilości danych i umieszczenie ich w pojemnym repozytorium.

Rozwiązania, które potrafią przechować petabajty danych, są dostępne na rynku od dawna. Nie zawsze jednak mogą być zastosowane do zasobów Big Data. Zidentyfikowanie i wykorzystanie wartości, którą zawiera w sobie zasób informacji, wymaga zmiany podejścia do przetwarzania danych oraz innego generowania zapytań.

Zobacz również:

  • Kwanty od OVHCloud dla edukacji
  • Inteligentna chmura danych
  • AI w drodze po pół biliona dolarów

Stara hurtownia odchodzi do lamusa

Typowa hurtownia danych, korzystająca z przetwarzania wsadowego do jej zasilania i ustalonych raportów wielowymiarowych, nie sprawdzi się w dzisiejszym modelu biznesowym, który wymaga szybkich decyzji na podstawie różnych informacji. Obecnie raporty muszą być dynamiczne i bazować na przetwarzaniu o wiele większych porcji danych. Aby to było możliwe, konieczne jest zrównoleglenie procesów, określenie niezbędnych porcji danych do każdego zapytania, redukcja nadmiarowych danych, a następnie przetwarzanie informacji na wielu komputerach jednocześnie. W ten sposób można osiągnąć pożądaną szybkość tworzenia raportu (przetwarzanie zbiorów danych rzędu 1 petabajta w czasie liczonym w sekundach), elastyczność związaną z połączeniem danych z różnych źródeł oraz możliwość predykcji na podstawie informacji o innej jakości niż przy obliczeniach ściśle matematycznych, właściwych dla zastosowań finansowych.

Przy prognozach pojawia się tendencja do obliczeń nie tyle dokładnych, na pewnym poziomie ufności, ile wręcz przybliżonych, na przykład do ustalenia rzędu wielkości danego parametru w przyszłości. Takie wyniki można osiągnąć także przy połączeniu danych ściśle liczbowych z informacjami pozyskanymi z sieci społecznościowych lub innych, podobnych źródeł. Tradycyjnie zasilana hurtownia danych nie potrafi wykorzystać takich informacji, a rozwiązania klasy Big Data są w stanie to zrobić. Dzisiejsze raporty dopasowują się zatem do możliwości, które daje nowe narzędzie, a jego elastyczność może zapewnić menedżerom bardzo dobre wsparcie decyzji biznesowych.

Co Big Data może zmienić w biznesie

Branżą, w której efekty wdrożenia technologii Big Data przekładają się wprost na pieniądze, są ubezpieczenia komunikacyjne, w szczególności ubezpieczenie od odpowiedzialności cywilnej samochodów oraz ubezpieczenia od szkód autocasco. W tej chwili ubezpieczyciele sprawdzają głównie datę pierwszej rejestracji samochodu, miejsce rejestracji pojazdu i jego markę. Na tej podstawie wyliczane jest ryzyko, a w konsekwencji związana z nim wysokość składki ubezpieczeniowej. Firmy mające bardziej nowoczesne oprogramowanie analityczne biorą pod uwagę także wiek kierowcy oraz jego status rodzinny. Zazwyczaj jednak takich informacji nie weryfikuje się, gdyż nie ma możliwości.

Tymczasem rozwiązania Big Data umożliwiają: pobranie informacji ze śladów GPS, by określić sposób jazdy danego kierowcy, przetworzenie informacji o historii mandatów karnych związanych z wykroczeniami drogowymi, pozyskaną z programów lojalnościowych historię zakupów paliwa, by ocenić zużycie paliwa na znanym dystansie między stacjami benzynowymi. Analiza tych danych pozwoli na opracowanie programu atrakcyjnych zniżek dla kierowców, dla których prawdopodobieństwo szkód jest bardzo niskie.

Podobne raporty można będzie wykorzystać przy ubezpieczeniu na życie. Koszt badań genotypu jest na tyle niski, że można sprawdzić DNA klienta ubezpieczeń pod kątem poszukiwań chorób genetycznych, które, chociaż mało prawdopodobne, są możliwe. Informacja ta jest ważna dla firm ubezpieczeniowych, gdyż wraz z większą podatnością na różne choroby rośnie ryzyko ubezpieczenia. Aby móc właściwie ocenić ryzyko, narzędzia analityczne muszą przetworzyć bardzo dużą ilość danych.

Pomoc dla trenera sportowego

W profesjonalnym sporcie od dawna stosuje się sensory, wbudowane na przykład w buty piłkarzy czy biegaczy, a także kamery filmujące mecze i sprzęt naliczający przebiegnięte kilometry. Podobne badania są prowadzone także w sporcie amatorskim, by umożliwić trenerom wychwytywanie potencjalnych talentów wśród nastoletnich pasjonatów sportu, którzy mają predyspozycje do dalszych sukcesów. Jeszcze kilka lat temu dla trenera, oprócz dokonywanych testów sprawności fizycznej, najważniejsze było właśnie wyczucie i doświadczenie. Obecnie trener może zebrać dane dotyczące rozwoju fizycznego danego amatora sportu, porównać je z dostępnymi normami rozwoju dla danej grupy sportowców i na tej podstawie przewidywać szanse rozwojowe w przyszłości. W ten sposób udaje się pomóc trenerowi w wyborze nastoletniego zawodnika, który może mieć na tyle dobre predyspozycje fizyczne, by mógł być mistrzem sportu w przyszłości.

Kierowane reklamy

Użytkownicy różnych sieci społecznościowych pozostawiają w nich istotne informacje, które można przetworzyć, w celu określenia przydatności do celów reklamy. W serwisach, takich jak Endomondo, magazynowane są ślady GPS umieszczone przez użytkowników. Analiza tych śladów umożliwia wskazanie miejsc, w których reklama, kierowana do ludzi o podobnym profilu, będzie najbardziej skuteczna. Na przykład reklama napoju izotonicznego, umieszczona w miejscu, obok którego biega wielu miłośników sportu, będzie miała prawdopodobnie dużą skuteczność, gdyż wcześniej będzie można oszacować, ilu biegaczy na nią spojrzy. Można też na przykład na podstawie informacji o przebiegniętych przez każdego uczestnika serwisu kilometrach w danym terenie, zaplanować precyzyjnie kierowaną reklamę butów sportowych.

Sześć warstw Big Data

Rozwiązania przeznaczone do przetwarzania danych klasy Big Data różnią się od typowych aplikacji analitycznych. Przyczyną jest łączenie danych z różnych zasobów, niezgodność formatów i ogólny nadmiar informacji, który wymaga redukcji przed ostatecznym zaprezentowaniem wyników.

Najwyższą warstwą są aplikacje, które prezentują użytkownikowi wyniki zgodnie z jego potrzebami, korzystając z danych pozyskanych z niższych warstw. Niższą warstwą jest raportowanie - jego zadaniem jest przetworzenie danych do postaci gotowych raportów, które będą wyświetlane przez aplikacje. W warstwie raportowania standardowo generowane są dane dla informacji syntetycznych (dashboard). Coraz częściej nie są to już diagramy statyczne, dwuwymiarowe, ale zmienne, interaktywne obiekty, różne od wykresów. Do określenia trendów nie wystarczy dziś obliczenie i wykreślenie linii wyznaczonej metodą najmniejszych kwadratów, zazwyczaj predykcje oblicza się w bardziej skomplikowany sposób. Ponieważ od dzisiejszych aplikacji raportowych wymaga się interaktywności, coraz częściej te dwie warstwy - prezentacji i raportowania - łączą się ze sobą.

Za magazynowanie danych odpowiada warstwa repozytorium, która pobiera informacje z niżej znajdującej się warstwy integracji. Najczęściej stosuje się magazynowanie wszystkich możliwych do pobrania danych w repozytorium, a ewentualną redukcję nadmiarowej informacji przeprowadza się na późniejszym etapie przetwarzania.

Aby móc dostarczyć dane do repozytorium, należy je doprowadzić do stanu zgodności, łącząc różne schematy i wymiary. Za usystematyzowanie informacji odpowiada warstwa integracji, która pobiera surowe dane i wprowadza je do repozytorium w takiej postaci, by nie utracić informacji, a jednocześnie możliwie sprawnie zasilić repozytorium. Bywa, że jest to trudne zadanie, szczególnie gdy dane spływają z różnych źródeł, mają różne wielkości fizyczne i wymiary.

Najniższą warstwę stanowią surowe dane generowane w różnych źródłach - są to nie tylko standardowe bazy danych czy informacje z systemów transakcyjnych, ale także liczniki różnych mediów: woda, energia elektryczna czy gaz. Strumień danych związany z wielkościami fizycznymi jest stosunkowo prosty do uporządkowania, ale nie można tego powiedzieć o informacjach pochodzących z sieci społecznościowych. W natywnym formacie informacje te są niezgodne ze sobą, zatem zadanie stojące przed warstwą integracji jest poważniejsze, niż się zazwyczaj sądzi.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200