Czas na metadane

Metadane opisują informacje zapamiętane w hurtowni danych: co znaczą, skąd pochodzą, jak zostały obliczone, kiedy zostały załadowane, kto ma do nich prawa itd. W praktyce metadane wykorzystują bazy, aplikacje i procesy biznesowe w trakcie definiowania struktur, tworzenia zależności i operowania na danych.

Metadane opisują informacje zapamiętane w hurtowni danych: co znaczą, skąd pochodzą, jak zostały obliczone, kiedy zostały załadowane, kto ma do nich prawa itd. W praktyce metadane wykorzystują bazy, aplikacje i procesy biznesowe w trakcie definiowania struktur, tworzenia zależności i operowania na danych.

W ostatnich latach zarządzanie metadanymi stało się przedmiotem licznych publikacji naukowych i informacji prasowych oraz powodem szczególnej troski osób odpowiedzialnych za zarządzanie i obsługę hurtowni danych. Na rynku pojawiło się sporo narzędzi do zarządzania metadanymi oraz interfejsów API dostępu do metadanych. Konsorcja przemysłowe intensywnie debatują nad ustanowieniem standardu wymiany metadanych.

Zapomniane dane

Jak pokazują badania prowadzone podczas największych konferencji na temat hurtowni danych, wykorzystanie metadanych to wciąż teoria, nie praktyka. Ponad połowa osób odpowiedzialnych za hurtownie nie ma żadnego planu dotyczącego metadanych. Około 20% opracowało plan, ale go nie wdrożyło, a tylko co czwarty respondent praktycznie zajmuje się metadanymi.

Model MOF jest na tyle ogólny, że można w nim zapisać również OIM. Uczestnicy OMG pracują nad ściślejszą integracją modeli i ujednoliceniem protokołu wymiany metadanych.

W opracowywaniu jest również - oparty na MOF - zestaw Java API do wymiany metadanych między różnymi repozytoriami.

Wprawdzie użytkownicy największych hurtowni doceniają potrzebę posiadania repozytorium metadanych, ale niewiele osób inwestuje czas, pieniądze i pracę ludzi w stworzenie solidnego systemu zarządzania metadanymi. Problem polega na tym, że bardzo trudno jest wykazać korzyści z posiadania takiego repozytorium. Ponadto większą wagę przykłada się do projektowania hurtowni niż do jej utrzymywania w działaniu, do czego właśnie niezbędne jest repozytorium metadanych. W efekcie, nawet tworząc hurtownię, nie dokumentuje się dokładnie danych ani nie wykorzystuje metadanych do zarządzania hurtownią.

Innym problemem jest brak standardów. Każdy twórca hurtowni lub aplikacji bazującej na niej tworzy własną "wyspę informacyjną". W efekcie trudno jest zintegrować produkty posługujące się różną składnią, strukturami danych i semantyką (kontekstem) danych. Brak kontekstu danych (lub błędne przekazanie) utrudnia posługiwanie się różnymi narzędziami do raportowania danych z tej samej hurtowni.

Każdy dla siebie

Typowy proces aktualizacji danych w hurtowni polega na pobraniu ich ze źródeł operacyjnych, oczyszczeniu, dokonaniu niezbędnych transformacji, załadowaniu do hurtowni i wreszcie uaktualnieniu widoku, jaki na te dane mają końcowi użytkownicy aplikacji analitycznych, współpracujących z hurtownią. Każdy etap tego procesu wymaga korzystania z metadanych. Ponieważ nie posługują się one tymi samymi składnicami metadanych, praktycznie nie jest możliwe zautomatyzowanie całości tego procesu.

Producenci narzędzi do pobierania, transformacji i ładowania danych do hurtowni na ogół dostarczają zestawy funkcji API, pozwalające na posługiwanie się ich składnicami metadanych w celu modelowania hurtowni, administrowania nią oraz dostępu do danych z aplikacji analitycznych i aplikacji do wspomagania procesów podejmowania decyzji. Jednakże te repozytoria metadanych dotyczą głównie procesów zaplecza i niezbyt przystają do zastosowań analitycznych. Ponadto, posługując się narzędziami różnych producentów, można używać jedynie "najmniejszego wspólnego mianownika" funkcji dostępu do metadanych, a to w znacznym stopniu ogranicza możliwości ich wykorzystania.

Problem używania metadanych pojawia się również na drugim końcu łańcucha - przy posługiwaniu się narzędziami analitycznymi. W większości hurtowni korzysta się z różnorodnych narzędzi analitycznych, dostosowanych do specyfiki biznesu, potrzeb lub możliwości finansowych. Narzędzia te nie są zintegrowane i nie mogą korzystać ze wspólnej składnicy metadanych. W efekcie z każdym nowym produktem powstaje lokalna składnica metadanych, a środowisko hurtowni staje się zbiorem nie przystających do siebie aplikacji, z których wyniki mogą być sprzeczne.

Zarządzanie hurtownią i portalem

Jednolity zestaw metadanych ma kluczowe znaczenie dla możliwości zarządzania hurtownią. Administrator powinien móc dodawać/usuwać użytkowników oraz określać ich uprawnienia i prawa dostępu w jednym miejscu, nie w każdej aplikacji z osobna. Musi również wiedzieć, co się stanie z aplikacjami, gdy usunie tabelę czy kolumnę lub zmieni jej nazwę. To może mu zapewnić tylko centralne repozytorium metadanych.

Wiele firm tworzy obecnie portale, pozwalające na dostęp z sieci Web do różnych zasobów informacyjnych - danych numerycznych, dokumentów tekstowych czy poczty elektronicznej. Repozytorium metadanych umożliwia automatyczną identyfikację zapytań do portalu i przypisanie im danych z hurtowni, systemów transakcyjnych lub dokumentów opisowych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200