Hurtownia danych - pomoc czy koszmar?

''Data warehouse'' (hurtownia danych lub zbiorcza baza danych) jest to pomysł niesłychanie prosty a więc też bardzo pociągający dla wielu informatyków i ich szefów, przekonanych że za pomocą zbiorczej bazy danych rozwiążą większość swoich problemów informacyjnych.

''Data warehouse'' (hurtownia danych lub zbiorcza baza danych) jest to pomysł niesłychanie prosty a więc też bardzo pociągający dla wielu informatyków i ich szefów, przekonanych że za pomocą zbiorczej bazy danych rozwiążą większość swoich problemów informacyjnych.

Prymitywna analogia do hurtowni towarów pokazuje hurtownię danych jako miejsce, gdzie zebrane z całego przedsiębiorstwa dane, podzielone na części, oczyszczone, poklasyfikowane i połączone z innymi danymi są umieszczone na półkach, czekając na swych potencjalnych użytkowników. Wystarczy podjechać z odpowiednim wózkiem, zrzucić je z pojemnika i mamy to, czego od dawna poszukiwaliśmy.

Koncepcja wydaje się być prosta, ale jej realizacja jest często trudniejsza, niż sądzi się początkowo. W efekcie otrzymuje się często wcale nie to co się zamierzyło; czasem wręcz przeciwnie uzyskuje się raczej śmietnik danych niż hurtownię. Dane są niekompletne, błędne, przestarzałe, bezwartościowe z punktu widzenia prowadzonej działalności i bardzo złej jakości (cokolwiek by pod jakością danych rozumieć). Źle zdefiniowana struktura hurtowni danych ma szansę szybko rozpaść się w wyniku działań użytkowników albo doprowadzić do sytuacji, że nikt nie będzie chciał z danych w hurtowni korzystać.

Wyzwanie związane z budową użytecznej hurtowni danych jest - w przeciwieństwie do problemu budowy śmietnika danych - ogromne. Konsultanci oceniają, że koszt budowy zarysów czy szkieletu hurtowni wynosi 2-3 mln USD i trwa to co najmniej 2 lub 3 lata.

Jak oceniają największe firmy konsultingowe, potencjalny rynek hurtowni danych w 1997 r. wyniesie 13 mld USD (w roku 1994 wynosił 2,7 mld USD). Nic więc dziwnego, że wszystkie firmy software'owe, mające narzędzia do magazynowania i dostępu do danych oraz jakie takie szanse do wejścia na tę lukratywną działkę informatyki, proponują potencjalnym użytkownikom swe rozwiązania.

Oczywiście szefowie działów informatyki nie pozostają całkowicie zamknięci na te wezwania, ale podobnie jak w przypadku systemów do planowania produkcji czy obsługi finansowej firmy, chętniej kupiliby gotowe rozwiązanie od jednego dostawcy. Tymczasem muszą borykać się z nawałem oferty narzędzi, ale co najważniejsze muszą odpowiedzieć na wiele pytań co do sposobu i celowości budowy hurtowni danych.

Choćby na takie pytania: Co naprawdę znajduje się w danych produkcyjnych (operacyjnych)? Jak dane przenieść do hurtowni? Na ile są one dokładne? Czy J. Kowalski, Jan Kowalski i J. A. Kowalski to ta sama osoba czy nie? Czy obroty filii w Katowicach były już policzone w obrotach macierzystej jednostki w Warszawie całkowicie, częściowo czy wcale? Jak użytkownicy dostaną się do danych? Itd. itd...

Zestaw narzędziowy

Specjaliści niezależni od hurtowni danych definiują siedem kategorii narzędzi, potrzebnych do ułatwienia bądź uzyskania odpowiedzi na te pytania:

* narzędzia do modelowania

* repozytorium danych o danych

* system zarządzania bazą danych

* narzędzia do przenoszenia i ekstrakcji danych

* programy do wyciągania, oczyszczania i normalizacji (denormalizacji)

* pośrednia warstwa oprogramowania (middleware) do połączenia różnych platform sprzętowych i systemowych

* narzędzia dostępu do danych, przeznaczone dla użytkownika końcowego.

Niestety, to nie koniec potrzeb. Potrzeba jeszcze systemu do zarządzania danymi w hurtowni, zarządzania replikacją i synchronizacją hurtowni departamentalnych (jeśli takie powstaną), narzędzi do opracowania aplikacji korzystających z hurtowni i in.

Narzędzia z pierwszej grupy służące do modelowania danych pozwalają zorientować się jakie dane mamy do dyspozycji, jaka jest ich wartość, jak są połączone z innymi danymi i kto z nich korzysta. Zwykle takie narzędzia wchodzą w skład pakietów CASE lub narzędzi wysokiego poziomu od opracowania aplikacji bazodanowych, ale są one także użyteczne do konstrukcji hurtowni danych.

Repozytorium (zwane czasem słownikiem) danych zawiera informacje o danych: gdzie się znajdują, jaki mają format, jak się do nich dostać itp. Najlepsze repozytorium powinno być dostępne ze wszystkich narzędzi używanych do konstruowania hurtowni oraz z narzędzi dostępu do danych, przeznaczonych dla użytkownika końcowego. Istnieje wiele realizacji repozytorium o takich właściwościach, ale ich koszt jest na ogół wysoki! Co gorsze jednak, wiele narzędzi cząstkowych korzysta z własnych słowników danych. Informatycy muszą więc móc zintegrować te słowniki w jeden lub umożliwić korzystanie z globalnego słownika przez wszystkie narzędzia. Niestety nie istnieje akceptowany powszechnie standard słownika danych, ani format informacji w nim zawartych; pierwsze próby czyni Metadata Council (p. materiał "Standaryzacja słownika danych").

Co gorsza wielu potencjalnych użytkowników hurtowni danych nie ma jeszcze dostatecznego rozeznania w zakresie kłopotów i problemów, które ich czekają przy jej uruchamianiu i nie zdaje sobie sprawy z konieczności korzystania ze słownika danych.

Baza danych

Jest to także jeden z punktów debaty na temat najlepszego systemu do obsługi hurtowni danych. Prawda zaś jest taka, że do obsługi hurtowni w zasadzie nadaje się każdy system: relacyjny, hierarchiczny czy nawet unikatowy firmowy system obsługi baz danych. Hurtownia danych nie jest związana na stałe z żadnym modelem obsługi. Niektórzy z dostawców hurtowni danych twierdzą, że ich system obsługi bazy danych jest optymalizowany do celów obsługi hurtowni. Opinie specjalistów na ten temat są podzielone, jednakże wydaje się, że ci dostawcy hurtowni, którzy mają już duże doświadczenie w tej dziedzinie są istotnie w stanie optymalizować swe produkty w potrzebnym im kierunku.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200