Jak zadbać o firmowe "jezioro danych" - Computerworld

Jak zadbać o firmowe "jezioro danych"


Nie przez przypadek "wodne" metafory tak dobrze pasują do zarządzania dużymi zbiorami danych w przedsiębiorstwach. Kiedy ilość informacji zbieranych i przechowywanych przez organizację staje się tak wielka, że przestają one być dostępne, przepływ danych zostaje zatamowany. Natomiast kiedy informacji nie można nigdzie przenieść, firmowe "jezioro danych" staje się bagienkiem.

Łatwość i szybkość, z jaką powstaje jezioro danych (data lake), stanowią część problemu. W bardzo krótkim czasie pojawiły się one w wielu organizacjach. Tylko nieliczni byli na to przygotowani i wiedzieli jak o nie zadbać. Na co dzień mamy do czynienia z ogromnymi ilościami danych, a naprawdę niewielu ludzi ma pojęcie, jak ich używać, a nawet jak zyskać do nich dostęp. Efekty? Kolejny mokry trop kojarzący się z nieco nieprzyjemnym zapachem: zbiorniki stojących danych. Niezintegrowane zbiory informacji, których nie można w prosty sposób zintegrować lub zinterpretować.

Ken Tsai, odpowiedzialny w SAP za platformę cloud i zarządzanie danymi, tak mówił w wywiadzie dla TechRepublic: "Nazywamy to zjawisko "dysonansem danych", ponieważ danych nie można zharmonizować ani uczynić kompatybilnymi bez ich wcześniejszego przygotowania w sposób, który umożliwiłby ich współpracę z innymi typami danych".

W związku z tym, że tak dużo danych przeglądanych jest w stanie surowym, nie ma powiązanych z nimi przydatnych metadanych, np. kiedy ostatni raz zostały zmodyfikowane czy używane. To oznacza, że bardzo trudno je monitorować. To tak jakby szukać konkretnej igły w pudełku z igłami.

Przy tym jest ich tak dużo. Firmy bardzo często są skłonne zachowywać nawet najmniej istotne dane – na wszelki wypadek, np. na potrzeby audytu albo jakichś przyszłych analiz. Niemniej, jeśli nie są one w jakiś sensowny sposób zintegrowane, dane jedynie zapychają serwery.

Co zatem biznes może zrobić, żeby zadbać o swoje jezioro danych? Jak zbudować ‘urokliwe’ repozytorium przydatnych i "świeżych" danych?

1. Na początek potrzebny jest cel

Jaki problem biznesowy trzeba rozwiązać? Kiedy sobie to uświadomimy, będzie dużo łatwiej namierzyć dane, które trzeba zgromadzić, a także określić sposób ich interpretacji. Startowanie z konkretnym celem pomaga kontekstualizować zbierane informacje. Oznacza to, że gromadzone będą wyłącznie potrzebne informacje.

2. Ograniczenie ilości zbieranych danych

Gromadzenie informacji jest tanie, praktycznie bezkosztowe i właśnie dlatego tak wiele firm ma ich tak dużo. Prawdopodobne jest, że większość z nas myśli tak: "uporządkuję to później" – podobnie jak robimy ze wszystkim, co przechowujemy.

Identyfikowanie problemu do rozwiązania na samym początku pomoże tworzyć wyłącznie określone zbiory danych i zatrzymać powszechną "informacyjną powódź".

3. Automatyzacja przetwarzania danych

Kiedy zidentyfikowane zostały potrzebne dane, należy wypracować sposób ich przetwarzania. W tym przypadku optymalnym rozwiązaniem jest stworzenie systemu zautomatyzowanego. Wzbogacone o poprawne metadane, posiadane zbiory mogą być obsługiwane przez systemy sztucznej inteligencji, które będą przeszukiwać dane oraz formułować płynące z nich wnioski. Szczególnie przydatne jest uczenie maszynowe. To doskonały sposób na porcjowanie danych, które następnie będą analizowane i interpretowane przez zespół specjalistów.

To dobrze, jeśli jesteśmy bardzo selektywni pod względem zbieranych informacji. Tak naprawdę, to kluczowa sprawa, jeśli zależy nam na uzyskaniu dzięki nim realnej wartości biznesowej.

Zapisz się na bezpłatny newsletter. Dowiesz się o webinarach, nowych case study oraz white paperach.