Nie przez przypadek "wodne" metafory tak dobrze pasują do zarządzania dużymi zbiorami danych w przedsiębiorstwach. Kiedy ilość informacji zbieranych i przechowywanych przez organizację staje się tak wielka, że przestają one być dostępne, przepływ danych zostaje zatamowany. Natomiast kiedy informacji nie można nigdzie przenieść, firmowe "jezioro danych" staje się bagienkiem.
Łatwość i szybkość, z jaką powstaje jezioro danych (data lake), stanowią część problemu. W bardzo krótkim czasie pojawiły się one w wielu organizacjach. Tylko nieliczni byli na to przygotowani i wiedzieli jak o nie zadbać. Na co dzień mamy do czynienia z ogromnymi ilościami danych, a naprawdę niewielu ludzi ma pojęcie, jak ich używać, a nawet jak zyskać do nich dostęp. Efekty? Kolejny mokry trop kojarzący się z nieco nieprzyjemnym zapachem: zbiorniki stojących danych. Niezintegrowane zbiory informacji, których nie można w prosty sposób zintegrować lub zinterpretować.
Ken Tsai, odpowiedzialny w SAP za platformę cloud i zarządzanie danymi, tak mówił w wywiadzie dla TechRepublic: "Nazywamy to zjawisko "dysonansem danych", ponieważ danych nie można zharmonizować ani uczynić kompatybilnymi bez ich wcześniejszego przygotowania w sposób, który umożliwiłby ich współpracę z innymi typami danych".
W związku z tym, że tak dużo danych przeglądanych jest w stanie surowym, nie ma powiązanych z nimi przydatnych metadanych, np. kiedy ostatni raz zostały zmodyfikowane czy używane. To oznacza, że bardzo trudno je monitorować. To tak jakby szukać konkretnej igły w pudełku z igłami.
Przy tym jest ich tak dużo. Firmy bardzo często są skłonne zachowywać nawet najmniej istotne dane – na wszelki wypadek, np. na potrzeby audytu albo jakichś przyszłych analiz. Niemniej, jeśli nie są one w jakiś sensowny sposób zintegrowane, dane jedynie zapychają serwery.
Co zatem biznes może zrobić, żeby zadbać o swoje jezioro danych? Jak zbudować ‘urokliwe’ repozytorium przydatnych i "świeżych" danych?
1. Na początek potrzebny jest cel
Jaki problem biznesowy trzeba rozwiązać? Kiedy sobie to uświadomimy, będzie dużo łatwiej namierzyć dane, które trzeba zgromadzić, a także określić sposób ich interpretacji. Startowanie z konkretnym celem pomaga kontekstualizować zbierane informacje. Oznacza to, że gromadzone będą wyłącznie potrzebne informacje.
2. Ograniczenie ilości zbieranych danych
Gromadzenie informacji jest tanie, praktycznie bezkosztowe i właśnie dlatego tak wiele firm ma ich tak dużo. Prawdopodobne jest, że większość z nas myśli tak: "uporządkuję to później" – podobnie jak robimy ze wszystkim, co przechowujemy.
Identyfikowanie problemu do rozwiązania na samym początku pomoże tworzyć wyłącznie określone zbiory danych i zatrzymać powszechną "informacyjną powódź".
3. Automatyzacja przetwarzania danych
Kiedy zidentyfikowane zostały potrzebne dane, należy wypracować sposób ich przetwarzania. W tym przypadku optymalnym rozwiązaniem jest stworzenie systemu zautomatyzowanego. Wzbogacone o poprawne metadane, posiadane zbiory mogą być obsługiwane przez systemy sztucznej inteligencji, które będą przeszukiwać dane oraz formułować płynące z nich wnioski. Szczególnie przydatne jest uczenie maszynowe. To doskonały sposób na porcjowanie danych, które następnie będą analizowane i interpretowane przez zespół specjalistów.
To dobrze, jeśli jesteśmy bardzo selektywni pod względem zbieranych informacji. Tak naprawdę, to kluczowa sprawa, jeśli zależy nam na uzyskaniu dzięki nim realnej wartości biznesowej.