Repozytoria i hurtownie danych

Prawidłowe zarządzanie danymi przez przedsiębiorstwa to skomplikowane zadanie. Jak wynika z opublikowanego ponad dziesięć lat temu raportu IDC „Oswajanie chaosu informacyjnego”, 75% firm miało wówczas do czynienia ze zjawiskiem, które określa się mianem przeładowania informacyjnego – do dzisiaj niewiele się pod tym względem zmieniło.

Repozytoria i hurtownie danych

Technologią, która pozwala zarządzać ogromną ilością danych płynących z internetu, urządzeń IoT czy z systemów zarządzania produkcją i sprzedażą jest Big Data. Sama jednak analiza ogromnych ilości danych nie wystarczy, jeśli dane te nie będą odpowiednio gromadzone. I tu przychodzą z pomocą dwa uzupełniające się wzajemnie rozwiązania służące do przechowywania informacji: hurtownie i repozytoria danych, czyli Data Warehous i Data Lake.

Ustrukturyzowane informacje, czyli hurtownia danych

Zazwyczaj pojęcie hurtowni danych odnosi się do centralnie zarządzanej, ustrukturyzowanej i zintegrowanej bazy danych, w której gromadzone są zarówno dane historyczne, jak i spływające na bieżąco informacje związane z działalnością organizacji. Warto zaznaczyć, że zgromadzone w hurtowni dane mogą pochodzić z wielu różnych źródeł. Są to zwykle używane w przedsiębiorstwie systemy ERP, CRM, czy też systemy związane z zarządzaniem cyklem życia produktu, czyli systemy PLM. Informacje spływające do hurtowni danych pochodzą również wprost z urządzeń przemysłowego internetu rzeczy, linii produkcyjnych, systemów marketingowych, sklepów internetowych, a nawet z mediów społecznościowych, gdzie mogą być wyrażane opinie na temat produktów lub usług oferowanych przez daną firmę.

Zobacz również:

  • 83 miliony urządzeń IoT zagrożonych włamaniem

Dane te jednak nie są gromadzone w takiej postaci, jak zostały zebrane. Przed zasileniem hurtowni informacjami pochodzącymi z zewnętrznych systemów niezbędny jest proces ich oczyszczenia, wzbogacenia znacznikami i tagami pomagającymi w późniejszej ich analizie oraz sprowadzenie do spójnej dla całej hurtowni danych struktury. Bardzo często przygotowane do zasilenia hurtowni dane są dodatkowo agregowane, dzięki czemu zapobiec można rozrośnięciu się hurtowni danych do zbyt dużych rozmiarów.

Głównym zadaniem hurtowni danych jest udostępnianie użytkownikom informacji, które niezbędne są do tworzenia raportów, zestawień i analiz. Dzięki nim menedżerowie mogą w skuteczny sposób podejmować optymalne decyzje biznesowe. Istotne jest też, że hurtownie danych pozwalają zebrać w jednym miejscu dane z kilku lub kilkunastu rozproszonych źródeł. To sprawia, że firmowi analitycy są w stanie szybko odpowiedzieć na pytania związane z bieżąca działalnością firmy, np. dotyczące sprzedaży, stanów magazynowych, zamówień i co najważniejsze powiązań pomiędzy nimi. Co ważne, za sprawą ustrukturyzowania wszystkich informacji, które zgromadzono w hurtowni, znacznie łatwiej wyszukiwać zależności, wzorce i prawidłowości, dzięki czemu można podejmować i planować działania nastawione na klientów. To dlatego coraz ważniejszym zagadnieniem jest gromadzenie i analiza informacji pochodzących z mediów społecznościowych.

Ustrukturyzowane informacje, czyli hurtownia danych

Repozytorium danych, nazywane często jeziorem danych od angielskiej nazwy Data Lake, to miejsce w którym przechowuje się w uporządkowany sposób duże ilości zarówno danych strukturalnych, półstrukturalnych, jak i informacji nieustrukturyzowanych. Wszystkie informacje, co odróżnia repozytorium od hurtowni, przechowywane są w ich rodzimej postaci i formacie. Nie mamy więc do czynienia z ich oczyszczaniem i sprowadzeniem do wspólnej struktury. To dlatego w wielu opracowaniach repozytorium porównuje się do jeziora, do którego spływają dane niczym woda z różnych rzek, a dane te można w odpowiedni sposób „odławiać”.

W repozytorium nie ma bałaganu. Każdy element znajdujący się w nim ma przypisany unikatowy identyfikator oraz oznaczany jest zestawem znaczników metadanych. Dzięki temu, gdy pojawia się zapytanie, bez problemu można przeszukać repozytorium pod kątem określonych, otamowanych informacji. Tak wydzielony, i co najważniejsze, znacznie mniejszy zbiór informacji poddawany jest analizie za pomocą standardowych narzędzi Big Data do analiz biznesowych oraz eksploracji danych.

Wbrew pozorom, repozytorium pozwala na wyjątkowo szybką i zaawansowaną, kontekstową analizę danych. Zaletą systemów Data Lake jest to, że analizowane dane nie musza być zgromadzone w jeziorze, ale mogą być dostarczane na bieżąco, w czasie rzeczywistym. Dopływ aktualnych danych do repozytorium możliwy jest m.in. dzięki implementacji w tych systemach technologii pozwalającej na przetwarzanie informacji bezpośrednio w pamięci – tzw. systemy in-memory.

Warto zauważyć, że dostarczanie danych do repozytorium realizowane jest stopniowo, krok po kroku. W jeziorze najpierw gromadzone są surowe dane z opisującymi je znacznikami. W miarę dojrzewania repozytorium, a więc przybywania danych, przybywa również opisujących je znaczników, na podstawie których tworzy się metadane. Dzięki temu z jeziora „wyłowić” można coraz więcej informacji – te niejednoznaczne lub sprzeczne wraz z napływem informacji zamieniają się w dane, z których można wyczytać coraz więcej kluczowych dla firmy informacji. Interakcje użytkowników nieustannie doskonalą zatem repozytorium, co przekłada się na większe możliwości analiz i nie jest przy tym wymagana dokładna klasyfikacja danych w nim zgromadzonych. Warto podkreślić, że proces dojrzewania repozytorium następuje na poziomie warstwy zarządzania metadanymi.

Zgrana para do składowania danych

Na podstawie koncepcji widać, że podstawową różnicą pomiędzy repozytorium i hurtownią danych jest postać, w jakiej gromadzone są informacje – surowej jedynie otagowanej lub obrobionej i ustrukturyzowanej wraz z ich atrybutami. Co za tym idzie, jeziora danych wymagają znacznie większej pojemności pamięci masowej w stosunku do pamięci potrzebnej do przechowywania danych hurtowni.

Warto zwrócić uwagę na fakt, że

nieprzetworzone, nieustrukturyzowane dane są znacznie bardziej elastyczne i można je szybko analizować w dowolnym celu. Co więcej, dane te idealnie nadają się do uczenia maszynowego, ale wymagają znacznie większych nakładów na ich prawidłowe przetworzenie.
Zaletą hurtowni jest to, że wymagają one mniej miejsca na dyskach na serwerze, a już na etapie wstępnym usuwa się wszystkie informacje, które nigdy nie będą wykorzystane. Inna zaleta hurtowni polega na tym, że dane mogą być łatwo analizowane przez znacznie większą grupę odbiorców, co ma istotne znaczenie w działaniach biznesowo-analitycznych. Jak widać, hurtownia i jezioro danych w sporym obszarze funkcjonowania wzajemnie się uzupełniają.

Jeziora danych powstały z potrzeby chwili. W pewnym momencie firmy wraz z rozwojem kanałów komunikacji z klientem i dostawcami oraz kanałów marketingowych i mediów społecznościowych zorientowały się , że mają do dyspozycji i do wykorzystania ogromne zbiory danych, z których nie mają jak skorzystać – dane te idealnie uzupełniają informacje gromadzone w tradycyjnych hurtowniach.

Zastosowania

Jeśli chodzi o typową analitykę finansową i typowe aplikacje biznesowe, gdzie wymagane jest generowanie, często automatyczne, raportów, to rynek wciąż preferuje hurtownie danych. Dobrze zaprojektowana hurtownia oferuje bowiem dostęp do danych wszystkim pracownikom organizacji, którzy ich potrzebują. Bez problemu mogą oni samodzielnie przygotowywać raporty i sprawozdania, bo do obróbki danych zgromadzonych w hurtowi nie potrzeba specjalistycznej, zaawansowanej wiedzy. Dzięki temu dostęp do danych dla średniego i wysokiego szczebla personelu zarządzającego pozwala na sprawne kierowanie działaniami firmy.

Z kolei repozytoria danych rewelacyjnie sprawdzają się w transporcie i logistyce, gdzie idealnie zobrazować można, aktualizowany na bieżąco łańcuch dostaw. Chodzi przede wszystkim o zdolność, na podstawie nieustrukturyzowanych, elastycznych danych, przewidywania, zdawałoby się, losowych sytuacji występujących w tej branży. Niestety, wyłowienie danych z jeziora wymaga specjalistycznej, często wręcz naukowej wiedzy, dlatego niezbędne jest zatrudnienie odpowiednio przygotowanych pracowników.

Drugą dziedziną, w której repozytoria danych okazują się bezkonkurencyjne, są kontakty z klientami. Dzięki mediom społecznościowym firmy mogą nawiązać bezpośrednią więź z klientami.

W ten sposób bardzo szybko otrzymują informację zwrotną, co myślą klienci o działaniach marketingowych, promocjach czy o funkcjonalności i jakości oferowanych towarów lub usług. W ten sposób warto mierzyć poziom zadowolenia klienta.

Jezioro danych przyda się też w sytuacji kryzysowej, np. wpadki wizerunkowej. Informacje zebrane bezpośrednio w czasie rzeczywistym z mediów społecznościowych można poddać analizie i dzięki zatrudnionym przy Big Data fachowcom, tzw. naukowcom danych, udaje się poznać opinie klientów, a co za tym idzie, przewidzieć nadchodzący kryzys wizerunkowy. Wiedząc, to można spróbować mu zapobiec, zanim spowoduje on uszczerbek na wizerunku firmy.

Dziedziną, w której warto skorzystać z zalet zarówno repozytoriów, jak i hurtowni danych, jest medycyna. Mamy tu bowiem do czynienia z bardzo dobrze ustrukturyzowanymi danymi (dane finansowe, koszty leczenia, karty pacjenta) i danymi pochodzącymi wprost z aparatury medycznej czy opisami lekarskimi, które nie są w ogóle ustrukturyzowane. Dzięki połączeniu możliwości standardowego tworzenia raportów i analiz, na podstawie danych finansowych, kosztów i wyników badań i oraz przeszukiwania zgromadzonych w repozytorium danych dotyczących pacjenta i jego chorób można znacznie lepiej zarządzać budżetem i zoptymalizować dostępne środki na leczenie.


TOP 200