Siedem mitów

Hurtownia danych służy do eksploracji danych (data mining)

Owszem, hurtownia danych jest przydatna, ale jedynie jako źródło danych. Hurtownia danych sama z siebie przeszukiwania danych nie zrealizuje, trzeba wspomóc działanie specjalizowanym oprogramowaniem analitycznym. Według SAS Institute, data mining to zaawansowane metody do badania i modelowania relacji w dużych zbiorach danych.

Kolejne analizy nie muszą być przeprowadzane (i zazwyczaj nie są) w ten sam sposób. Jest to raczej zestaw procedur (modeli) analitycznych, które należy samodzielnie parametryzować i uruchamiać. Eksploracja danych nie jest udostępniana jako gotowa aplikacja. Stosowanie tej techniki zawsze wymaga zaangażowania osoby, znającej struktury danych korporacyjnych i mającej odpowiednie przygotowanie teoretyczne do analizy statystycznej.

Data mining może działać na podstawie dowolnego źródła danych, spełniającego podstawowe wymogi: danych tych musi być dużo i powinny być one jednorodne. O ile spełnienie pierwszego warunku nie stanowi problemu, o tyle z drugim jest nieco gorzej. W zestawie systemów pracujących w korporacji praktycznie nie można utrzymać jednorodnego modelu danych. Rozwiązaniem jest zastosowanie hurtowni danych, w której dane byłyby przechowywane (z założenia) w sposób dogodny do dalszej ich analizy. I tutaj już wyraźnie widać relację między hurtownią danych a szczegółowym ich przeszukiwaniem.

Hurtownia danych dostarcza informacji online

Sytuacja jest odwrotna - hurtownia danych dostarcza informacji archiwalnych z opóźnieniem minimalnym równym czasowi ładowania danych i maksymalnym, odpowiadającym okresowi ładowania danych powiększonym o odstęp między kolejnymi ładowaniami. Opóźnienie to może oscylować między godziną a miesiącem (przeciętnie hurtownie danych ładowane są co dekadę, czyli 3 razy w miesiącu, choć istnieją instalacje o bardzo nietypowych odstępach czasu między kolejnymi ładowaniami danych).

To, że w hurtowni danych znajdują się dane archiwalne, wynika też z jej konstrukcji. Hurtownia danych zawsze opiera się na systemach źródłowych, dostarczających dane. Dane pojawiające się w hurtowni istnieją więc już przez pewien czas w pracujących w firmie systemach, z których są pobierane.

Hurtownia danych jest systemem wspomagania decyzji klasy DSS

Tak czy nie? Zamieszanie jest jeszcze większe, gdyż w wielu pakietach wspomagających hurtownię danych można budować od razu systemy analityczne. Rozwiązanie hurtownia danych - system DSS jest w takiej sytuacji rozwiązaniem zintegrowanym i łatwym do rozwoju. Jednakże czy stanowi jedność z punktu widzenia teorii hurtowni danych? Spróbujmy dowiedzieć się, czym jest hurtownia danych w opinii uznanych autorytetów

Definicje różnią się między sobą. Bliskie prawdy wydaje się stwierdzenie, że ilu użytkowników (przynajmniej tych, którzy mają za sobą budowanie hurtowni danych), tyle definicji. Wszystkie z nich (również nie przytoczone) można podzielić na trzy kategorie:

Hurtownia danych to:

1. Repozytorium danych wraz z procedurami ich ładowania.

2. Definicja z pkt. 1 rozszerzona o tematyczne minihurtownie danych (data marts), będące ukierunkowanymi tematycznie wyciągami danych z głównego "składowiska".

3. Definicja z pkt. 2 rozszerzona o wszelkie aplikacje analityczne klasy DSS.

Trudno się spierać, która z definicji jest słuszna, tym bardziej że stale ich przybywa. Pewne jednak jest to, że tam, gdzie pojawia się pojęcie hurtowni danych, prędzej czy później zaistnieje system DSS. I nie jest szczególnie istotne, czy jest on składową hurtowni danych, czy aplikacją z niej korzystającą. Bardziej istotne jest bowiem stwierdzenie, że system DSS nie występuje bez dedykowanej mu hurtowni danych.


TOP 200