Data mesh, data fabric oraz data cloud – co oznaczają te pojęcia?

Wzmocnienie organizacji opartych na danych wymaga odpowiednich narzędzi i praktyk - oraz szefa, który to rozumie. Oto jak wyjaśnić kluczowe pojęcia dotyczące danych swojemu CEO.

Rawpixel/ Unsplash

Przyjmijmy, że sytuacja wygląda tak: twój prezes wie, czym jest baza danych i prawdopodobnie uważa, że hurtownia danych to duży skarbiec danych wykorzystywany do raportowania i analizy. Jednak niewiele wie o hurtowniach danych NoSQL, dlaczego potrzebuje klastra Spark lub jak jeziora danych (data lake), są wykorzystywane do pobierania danych strukturalnych i niestrukturalnych. Po prostu prezesi i liderzy biznesowi koncentrują się na wartości biznesowej danych, analityce i uczeniu maszynowym, a mniej dbają o technologie leżące u ich podstaw. Jednakże w tym wszystkim tkwi paradoks, ponieważ chcą oni zrozumieć wartość inwestowania czasu i pieniędzy w nowe technologie. Jeżeli będziesz potrafić wyjaśniać najnowsze technologie zarządzania danymi, w tym data mesh, data fabrics i rozproszonych chmur danych, a zobaczysz, jak dyrektor generalny zacznie na tobie polegać.

Nie chodzi tu tylko o prezesów. Technologia danych była ważna już u zarania internetu, kiedy to główną debatą było to, czy zbudować hurtownię danych na technologii Oracle, Microsoft czy open source. Wielu liderów nieinformatycznych zadowala się dziś przekonaniem, że dane są „w chmurze”, a integracja danych, ich jakość i wydajność to „kwestie informatyczne”.

Każdy, kto pracuje z danymi, powinien być przygotowany do wyjaśnienia najbardziej krytycznych technologii i praktyk w przystępnym języku. W mojej książce „Digital Trailblazer” opisuję historię, w której wyjaśniam członkom zarządu naszego startupu, czym jest cookie w przeglądarce, kiedy internet jeszcze raczkował. Nigdy nie wiesz, kiedy dostaniesz mikrofon, by odpowiedzieć na pytanie techniczne. Odpowiadanie technobełkotem może łatwo zniechęcić lub spowolnić kluczowe inwestycje.

Gordon Allott, prezes i dyrektor generalny firmy K3, proponuje zacząć od prostej odpowiedzi: „Jezioro danych (data lake), hurtownia danych (warehouse), siatka (mesh) i tkanina (fabric) - wszystkie te pojęcia odnoszą się po prostu do ogólnej strategii firmy w zakresie danych”.

Czym jest jest siatka danych (data mesh)?

Udzielanie prostych odpowiedzi jest ważne, ale często nie wystarcza. Kiedy członek zarządu pyta mnie o jakiś termin techniczny, chcę odpowiedzieć na pytanie w sposób, który zachęca do ciekawości i zadawania kolejnych pytań.

Zacznijmy od wyjaśnienia, czym jest siatka danych. Steven Lin, product marketing manager w Semarchy, podzielił się tą zwięzłą odpowiedzią: „Siatka danych to zdecentralizowane podejście do zarządzania danymi, w którym wiele zespołów w firmie jest odpowiedzialnych za własne dane, promując współpracę i elastyczność”.

W tej definicji nie ma skomplikowanych słów, a wprowadza ona problemy, które siatki danych mają rozwiązać, rodzaj rozwiązania i dlaczego jest ono ważne. Spodziewaj się jednak, że zostaniesz zapytany o więcej szczegółów technicznych, zwłaszcza jeśli osoba zarządzająca ma wcześniejszą wiedzę na temat innych technologii zarządzania danymi. Na przykład: „Czy hurtownie danych i jeziora danych nie miały rozwiązać problemu zarządzania danymi?”

To pytanie może być pułapką, jeśli odpowiesz na nie za pomocą technicznych różnic pomiędzy hurtowniami danych, jeziorami i siatkami. Zamiast tego skup swoją odpowiedź na celu biznesowym.

Satish Jayanthi, współzałożyciel i CTO firmy Coalesce, oferuje taką sugestię: „Jakość danych często wpływa na dokładność analityki biznesowej i podejmowania decyzji. Poprzez wdrożenie paradygmatów siatki danych można poprawić jakość i dokładność danych, co skutkuje zwiększonym zaufaniem wśród przedsiębiorstw, aby szerzej wykorzystywać dane do świadomego podejmowania decyzji”.

Podoba mi się ta odpowiedź i mam nadzieję, że dyrektor wykonawczy chce zanurzyć się głębiej w to, jak paradygmaty siatki danych pomagają poprawić jakość danych. Jayanthi odpowiada: „Jedna z podstawowych zasad, własność domeny, gwarantuje, że zespół wytwarzający dane jest odpowiedzialny za jakość i dokładność. Ta zasada danych jako produktu zapewnia, że dane dzielone z innymi grupami są dokładne, wielokrotnego użytku, samodzielnie udokumentowane i spełniają wysokie standardy”.

Jeśli jesteś nowicjuszem w tematyce siatki danych i chcesz wgłębić się w szczegóły techniczne, sugeruję przejrzenie wnikliwego artykułu Zhamaka Dehghaniego na temat wyjścia poza monolityczne jezioro danych do rozproszonej siatki danych.

Co to jest tkanina danych (data fabric)?

Dyrektor finansowy podsłuchał rozmowę o siatkach danych i teraz chce wiedzieć, dlaczego dyrektor ds. danych woli zainwestować w tkaninę danych zamiast w siatkę danych.

Dyrektor finansowy zadaje tak naprawdę trzy pytania: Co to jest ta data fabric (tkanina danych)? Czym różni się od siatki danych (data meshes)? Dlaczego główny dyrektor ds. danych chce zainwestować w tkaninę danych?

Kiedy stajemy przed złożonym pytaniem, proponuję zwolnić, wziąć głęboki oddech, rozważyć kontekst tego, kto zadaje pytanie i udzielić zdekonstruowanej odpowiedzi. Mogę zacząć od słów: „Porozmawiajmy najpierw o strukturze danych i jej znaczeniu”. Ross Stuart, starszy architekt rozwiązań w AHEAD, sugeruje, aby pomóc dyrektorowi finansowemu w pracy nad wizualizacją tego, jak wygląda i jak funkcjonuje struktura danych. „Data fabric to termin używany do opisania architektury polegającej na wzięciu rozbieżnych systemów i spleceniu ich razem, jak tkanina, w celu stworzenia spójnej warstwy na wierzchu danych organizacji” - mówi. Ivan Batanov, starszy wiceprezes ds. inżynierii w firmie Crux, dodaje: „Architektura data fabric może skutecznie dostarczać rozszerzone spostrzeżenia i analitykę oraz wspiera połączoną naturę danych z rozbieżnych źródeł”.

W tym momencie należy zrobić pauzę i dać słuchaczom kilka sekund na zrozumienie relacji między siatkami danych a tkaninami danych, w tym pozornego konfliktu między tymi dwoma podejściami. W jaki sposób możesz je połączyć? Proponuję powiedzieć coś takiego: Siatki danych (data meshes) pomagają zespołom biznesowym wykorzystywać dane do analityki i poprawiać jakość danych, podczas gdy tkaniny danych pomagają głównemu oficerowi danych i zespołowi ds. zarządzania danymi zarządzać dostępem do połączonych źródeł danych niezależnie od tego, gdzie są przechowywane - w tym hurtowni danych, jezior danych, systemów plików i aplikacji SaaS.

W tych pytaniach i odpowiedziach przedstawiamy różne role organizacyjne i ich odpowiedzialność za dane. Chcemy, aby zespoły biznesowe przyjęły obywatelską naukę o danych i wykorzystywały dane do podejmowania decyzji, podczas gdy organizacje potrzebują, aby dyrektor ds. danych skupił się na proaktywnym zarządzaniu danymi, dążąc do zmniejszenia tarć i ryzyka podczas demokratyzacji danych.

Czym jest rozproszona chmura danych (distributed data cloud)?

Czym jest rozproszona chmura danych (distributed data cloud)?

Teraz dochodzimy do trzeciej grupy zarządzania danymi, której zadaniem jest przechowywanie i strukturyzacja danych w celu wsparcia potrzeb użytkowych, celów wydajnościowych i wymogów bezpieczeństwa. „Gdzie powinniśmy przechowywać zbiór danych X” - to wyzwanie, a odpowiedź nie jest prosta. W większości przedsiębiorstw nie ma uniwersalnej architektury do przechowywania, zarządzania i wykorzystywania danych.

James Malone, dyrektor ds. zarządzania produktami w firmie Snowflake, mówi: „Zamiast określać, jak należy przechowywać informacje, chmura danych reprezentuje to, co można uzyskać dzięki odpowiedniej kombinacji technologii. Chmura danych daje organizacjom możliwość wyboru tego, co działa dla nich, w przeciwieństwie do zalecania i forsowania tylko jednego sposobu robienia rzeczy. Przypadki użycia się zmieniają, potrzeby się zmieniają, a technologia się zmienia - dlatego chmura danych skupia się na elastyczności i użyteczności”.

Hillary Ashton, Chief Product Officer w firmie Teradata, dodaje ważny szczegół, którym należy się podzielić z dyrektorem finansowym. „Chmury danych mogą być wdrażane w dowolnej kombinacji chmur publicznych, prywatnych chmur on-premises, chmur hybrydowych i multichmur, aAle 'mózgiem' każdej chmury danych jest platforma analityczna w chmurze, która przetwarza i łączy dane z każdego źródła i architektury. Aby uzyskać największą wartość ze swoich danych, najważniejsza jest możliwość skalowania silnika analitycznego i możliwości w całej organizacji, umożliwiając zespołom poza naukowcami zajmującymi się danymi dostęp, wyszukiwanie i przekształcanie danych w spostrzeżenia” – wyjaśnia.

Wszystko wszędzie naraz

W tym momencie CEO i CFO mogą szukać przycisku z napisem „łatwe rozwiązanie”, więc przypominam im o rzemiośle wymaganym w najprostszych rzeczach. „Aby zrobić smaczny bochenek chleba, potrzebujesz pięciu składników: mąki, wody, drożdży, soli i cukru, w odpowiednich proporcjach, przygotowanych przy użyciu właściwych technik i przez odpowiednią ilość czasu”. Każdy, kto kiedykolwiek próbował robić chleb, wie jak trudno jest upiec konsekwentnie smaczny i ładny bochenek. Książki o chlebie zawierają setki przepisów, a techniki wciąż się rozwijają. Każdy może wziąć przepis, nie każdy umie gotować czy piec.

Przechowywanie, zarządzanie, integrowanie, rządzenie i wykorzystywanie danych brzmi prosto, ale potrzebujesz odpowiednich składników, narzędzi i praktyk, aby wzmocnić pozycję organizacji sterowanej danymi.

Źródło: Infoword

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200