Od danych do raportów

Podczas konferencji DATA+ przedstawiliśmy całą drogę od źródeł danych, aż po gotowy raport, bo od podejmowania istotnych decyzji biznesowych, przez planowanie działań, aż po pracę specjalizowanych aplikacji – wszędzie przetwarzamy duże ilości danych.

Istotą dzisiejszych systemów klasy Big Data jest korzystanie z różnych źródeł informacji, z których powstają szczegółowe analizy. Zazwyczaj pewna część tych informacji znajduje się w dobrze znanych bazach relacyjnych RDBMS, ale aby uzyskać komplet informacji, niezbędne jest wprowadzenie także danych, które pochodzą z innych źródeł – takich jak pliki, zapisy w logach lub informacje pochodzące z komunikacji maszyna-maszyna. Pierwszym krokiem zazwyczaj jest inwentaryzacja zasobów, obejmująca opisanie dostępnych baz danych, zasobów plikowych, typów danych oraz sposobów dotarcia do zawartej w nich informacji. Razem z nowymi źródłami danych pojawia się jednak pytanie o sposób tworzenia modelu danych.

Mark Barringer menedżer działu Data Architecture Tools w firmie Embarcadero mówi : „podejście polegające na modelowaniu, projektowaniu, zasilaniu danych, a następnie analizy sprawdza się dobrze przy wykrywaniu powtórzeń – ogólnie przy zjawiskach określanych jako «znane nieznane». Jeśli celem jest eksploracja i wykrywanie zjawisk zupełnie nieznanych, dla których nie ma jeszcze modelu, o wiele lepsze będzie podejście, w którym dane w zasobach NoSQL będzie można przeszukiwać przy pomocy zapytań, a następnie szybko i sprawnie utworzyć model”.

Zobacz również:

Rozwój technologii przynosi radykalne zmiany

Jeszcze dziesięć lat temu nowością było pełnotekstowe przeszukiwanie, które w późniejszych etapach uwzględniało lokalny kontekst, a także uwarunkowania geograficzne. Technologia ta ewoluowała dalej, tworząc dziś komputerowe przetwarzanie naturalnego języka, obejmujące wyszukiwanie semantyczne, rozpoznawanie określeń obiektów (ang. named entity recognition) oraz N-gramy przy rozpoznawaniu mowy. Podobne zmiany można zaobserwować także w innych dziedzinach.

Charles Cai, specjalista do spraw Big Data i Data Science mówi: „systemy przetwarzania i analizy danych rozwijają się coraz szybciej – zamiast rozpoznawania słów pojawia się rozumienie naturalnego języka. Miejsce prostych technik rozpoznawania obrazu z kamery zajęła komputerowa kontekstowa wizja z rozpoznawaniem złożonych kształtów, tekstur oraz akcesoriów. Zmienia się także cel, gdyż zamiast rozwiązań business intelligence, które odpowiadały na pytania o przeszłość i teraźniejszość, potrzebujemy analizy predyktywnej i określania trendu w przyszłości”.

Od reakcji po planowanie i odpowiedź

Obecnie systemy przetwarzania informacji stały się obowiązkowym narzędziem wspomagającym biznes w zakresie podejmowania decyzji. W miarę rozwoju technologii zmieniały się potrzeby biznesowe związane z systemami analitycznymi. Początkowo była to analiza opisowa (descriptive), opisywała ona zdarzenia, które miały miejsce. Kolejnym krokiem w rozwoju, było wprowadzenie analizy diagnostycznej, której zadaniem było znajdowanie przyczyn wystąpienia różnych zjawisk. Prawdziwy przełom nastąpił w momencie radykalnego rozwoju analizy predyktywnej, której zadaniem jest przewidywanie zdarzeń w przyszłości. Największą wartość dla biznesu będą miały systemy analizy preskryptywnej, które nie tylko będą przewidywać korzystne dla firmy zdarzenia, ale także określać działania, które należy podjąć, by dany cel osiągnąć.

Kontenery i chmura zamiast kilkuwarstwowej architektury

Klasyczne aplikacje biznesowe są budowane w architekturze warstwowej, wykorzystują bazę danych, serwery aplikacyjne i front end webowy. Architektura ta sprawdza się dobrze w przypadku typowych aplikacji, ale przy przetwarzaniu klasy Big Data o wiele sprawniejsze jest nieco inne podejście.

Charles Cai wyjaśnia: „zamiast klasycznej architektury warstwowej stosuje się konteneryzację. Lekkie kontenery z mikrousługami i API harvesting umożliwiają sprawną budowę oprogramowania, które ma jednocześnie wysoką skalowalność i odporność - na awarię właściwe dla chmury. W takim modelu całe datacenter można traktować jak jeden komputer”.

Raport, tabele, grafika

Wynikiem pracy nowoczesnego systemu informatycznego jest informacja, która powinna być odpowiednio zaprezentowana. Komponentami wizualizacji takiego raportu, jego częścią składni są wykresy, mapy i diagramy.

Ken Cherven, starszy analityk i specjalista do spraw wizualizacji w General Motors mówi: „Dobra wizualizacja bardzo podnosi wartość każdej prezentacji. Wykresy są zazwyczaj najlepszym sposobem pokazania złożonych danych, ale należy z nich mądrze korzystać, bo zły dobór może bardzo osłabić nawet mocne wystąpienie. Tabele są najlepsze, gdy dotyczą niewielu wartości, niewielkiej liczby metryk. Najwięcej skorzysta z nich dział finansowy, w którym niezbędne są dokładne wartości. Z kolei mapy są bardzo intuicyjnym sposobem przedstawienia wartości, w których lokalizacja geograficzna ma istotne znaczenie dla przekazu. Ostatnim elementem, bardzo często nadużywanym, są diagramy. Służą one do pokazania sekwencji zdarzeń, ale niestety często psują proporcję między danymi. Ogólnie poprawne wykresy są najsprawniejsze i warto z nich korzystać”.