Hurtownie danych dla przyszłości

Migawka prowadzi w ślepy zaułek

B. Inmon zdefiniował konieczność pobierania do hurtowni "migawki" danych, reprezentującej spójny stan danych operacyjnych w konkretnej chwili czasowej. To jest oczywiście podstawowe wymaganie spójności danych, ale wprowadziło ono wiele projektów w ślepy zaułek. Najpopularniejsza, ale błędna interpretacja tego wymagania, to zalecenie, by skopiować źródło danych (wykonać migawkowy zapis danych) do tabeli w hurtowni. W każdym cyklu ładowania hurtowni usuwano zawartość tej tabeli i wgrywano ją na nowo. Inmon nie proponował takiej operacji, natomiast jego zalecenie zapewnienia historycznej ciągłości i nieulotności danych sprowadza się do konieczności uchwycenia inkrementalnej zmiany w danych i załadowania jej do hurtowni. Zadanie, jak wykryć i zapamiętać zmiany, nie jest łatwe.

Koncepcja migawki danych doprowadziła do szerokiego rozwoju narzędzi ETL przeznaczonych do ekstrakcji, czyszczenia i ładowania danych do hurtowni. Początkowo zakładano, że hurtownia danych w organizacji i aplikacja transakcyjna będą powstawały jednocześnie oraz że ta ostatnia będzie tak zaprojektowana, aby optymalnie dostarczać dane do hurtowni. To jednak prawie nigdzie się nie udało, stąd problemy z wykorzystaniem narzędzi ETL, które miały wykryć zmiany, wybrać je i załadować do hurtowni.

W efekcie ograniczano się do ładowania danych do hurtowni raz na miesiąc, przeznaczając na to najczęściej cały weekend. Obecnie typowe jest ładowanie danych raz dziennie, co można uznać za teoretyczną normę wydajności narzędzi ETL i możliwości wydzielenia na ten proces okna czasowego, gdyż hurtownia nie działa podczas ładowania danych.

Konieczność udostępniania w czasie rzeczywistym danych z hurtowni w sieci Web spowodowała, że problem ładowania danych stał się niezwykle istotny. Wydaje się, że rozwiązaniem może być powrót do pomysłu jednoczesnego realizowania projektu systemu transakcyjnego i hurtowni oraz ładowanie do niej danych w czasie rzeczywistym.

Modele danych w hurtowni

Na temat najlepszego modelu danych w hurtowni napisano wiele. Inmon jest zwolennikiem modelu relacyjnego (trzecia postać normalna 3NF); zaproponował również zapisywanie daty dla oznaczenia początku i końca zmian w danych w celu ich załadowania do hurtowni. Obecnie znane są również inne metody oznaczania zmian w danych w tym modelu.

Inny teoretyk hurtowni Ralph Kimball (R. Kimball: The Data Warehouse Kit: Practical Techniques for Building Dimensional Data Warehouses, Wiley, 1996) jest zwolennikiem modelu wielowymiarowego w formie gwiazdy i uogólnionego modelu płatka śniegu (zagnieżdżony model gwiazdowy). Zaproponował również kilka metod zapisywania zmian.

Hurtownie tematyczne na ratunek

Wiele projektów hurtowni, mimo zaangażowania dużych środków finansowych, nie udało się lub nie spełniało oczekiwań użytkowników. A trudno uzasadnić wydatek 2 mln USD potrzebami 5-10 użytkowników (a są to dane typowe dla wczesnych hurtowni danych).

Wydawało się, że dostawcy programów, analitycy i konsultanci stracą pracę. W 1994 r. wprowadzono więc pojęcie hurtowni tematycznej lub minihurtowni (data mart), coś w rodzaju "osiedlowego sklepiku z danymi", przeznaczonego dla potrzeb analitycznych jednego oddziału, na ogół marketingu lub działu finansowego. Taki model zakłada jednak, że ma on w tle dużą hurtownię, która zaopatruje go w dane. Koncepcja minihurtowni bez dużej hurtowni korporacyjnej nie ma sensu.

Hurtownie tematyczne łamią jednak główną zasadę działania hurtowni: jeden punkt dystrybucji danych. Nie da się w tym modelu osiągnąć integracji i spójności danych, gdy każdy oddział firmy pobiera, czyści i ładuje dane dla własnych potrzeb. Kilka minihurtowni w organizacji to ryzyko powstania chaosu, gdy z tych samych danych w różnych oddziałach będzie się wysnuwać różne wnioski.

OLAP, ROLAP, MOLAP...

Rok 1994 to ofensywa narzędzi analitycznych OLAP, korzystających z gwiazdowego modelu hurtowni do zapewnienia wysokiej wydajności i szybkości realizowania standardowych zapytań analitycznych. Dostawcy hurtowni opartych na modelu relacyjnym nie pozostawali w tyle, proponując narzędzia ROLAP o podobnych właściwościach i wydajności.

Wydajne wielowymiarowe bazy danych cieszą się powodzeniem, chociaż nie mogą efektywnie obsługiwać dużych masywów danych, typowych dla hurtowni. Zapewniają jednak dobrą wydajność do lokalnych analiz danych, za pomocą specjalnie przystosowanych narzędzi typu MOLAP. Powstają więc dwustopniowe rozwiązania architektoniczne - korzystające z dużej hurtowni, na ogół relacyjnej, oraz z pośredniego serwera wielowymiarowej bazy danych - do zarządzania lokalnymi "hiper-sześcianami" danych.


TOP 200