Siedem mitów

Hurtownia danych służy do eksploracji danych (data mining)

Owszem, hurtownia danych jest przydatna, ale jedynie jako źródło danych. Hurtownia danych sama z siebie przeszukiwania danych nie zrealizuje, trzeba wspomóc działanie specjalizowanym oprogramowaniem analitycznym. Według SAS Institute, data mining to zaawansowane metody do badania i modelowania relacji w dużych zbiorach danych.

Kolejne analizy nie muszą być przeprowadzane (i zazwyczaj nie są) w ten sam sposób. Jest to raczej zestaw procedur (modeli) analitycznych, które należy samodzielnie parametryzować i uruchamiać. Eksploracja danych nie jest udostępniana jako gotowa aplikacja. Stosowanie tej techniki zawsze wymaga zaangażowania osoby, znającej struktury danych korporacyjnych i mającej odpowiednie przygotowanie teoretyczne do analizy statystycznej.

Data mining może działać na podstawie dowolnego źródła danych, spełniającego podstawowe wymogi: danych tych musi być dużo i powinny być one jednorodne. O ile spełnienie pierwszego warunku nie stanowi problemu, o tyle z drugim jest nieco gorzej. W zestawie systemów pracujących w korporacji praktycznie nie można utrzymać jednorodnego modelu danych. Rozwiązaniem jest zastosowanie hurtowni danych, w której dane byłyby przechowywane (z założenia) w sposób dogodny do dalszej ich analizy. I tutaj już wyraźnie widać relację między hurtownią danych a szczegółowym ich przeszukiwaniem.

Hurtownia danych dostarcza informacji online

Sytuacja jest odwrotna - hurtownia danych dostarcza informacji archiwalnych z opóźnieniem minimalnym równym czasowi ładowania danych i maksymalnym, odpowiadającym okresowi ładowania danych powiększonym o odstęp między kolejnymi ładowaniami. Opóźnienie to może oscylować między godziną a miesiącem (przeciętnie hurtownie danych ładowane są co dekadę, czyli 3 razy w miesiącu, choć istnieją instalacje o bardzo nietypowych odstępach czasu między kolejnymi ładowaniami danych).

To, że w hurtowni danych znajdują się dane archiwalne, wynika też z jej konstrukcji. Hurtownia danych zawsze opiera się na systemach źródłowych, dostarczających dane. Dane pojawiające się w hurtowni istnieją więc już przez pewien czas w pracujących w firmie systemach, z których są pobierane.

Hurtownia danych jest systemem wspomagania decyzji klasy DSS

Tak czy nie? Zamieszanie jest jeszcze większe, gdyż w wielu pakietach wspomagających hurtownię danych można budować od razu systemy analityczne. Rozwiązanie hurtownia danych - system DSS jest w takiej sytuacji rozwiązaniem zintegrowanym i łatwym do rozwoju. Jednakże czy stanowi jedność z punktu widzenia teorii hurtowni danych? Spróbujmy dowiedzieć się, czym jest hurtownia danych w opinii uznanych autorytetów

Definicje różnią się między sobą. Bliskie prawdy wydaje się stwierdzenie, że ilu użytkowników (przynajmniej tych, którzy mają za sobą budowanie hurtowni danych), tyle definicji. Wszystkie z nich (również nie przytoczone) można podzielić na trzy kategorie:

Hurtownia danych to:

1. Repozytorium danych wraz z procedurami ich ładowania.

2. Definicja z pkt. 1 rozszerzona o tematyczne minihurtownie danych (data marts), będące ukierunkowanymi tematycznie wyciągami danych z głównego "składowiska".

3. Definicja z pkt. 2 rozszerzona o wszelkie aplikacje analityczne klasy DSS.

Trudno się spierać, która z definicji jest słuszna, tym bardziej że stale ich przybywa. Pewne jednak jest to, że tam, gdzie pojawia się pojęcie hurtowni danych, prędzej czy później zaistnieje system DSS. I nie jest szczególnie istotne, czy jest on składową hurtowni danych, czy aplikacją z niej korzystającą. Bardziej istotne jest bowiem stwierdzenie, że system DSS nie występuje bez dedykowanej mu hurtowni danych.

Computerworld.pl

Siedem mitów

Hurtownia danych służy do eksploracji danych (data mining)

Hurtownia danych dostarcza informacji online

Hurtownia danych jest systemem wspomagania decyzji klasy DSS

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Siedem mitów

Hurtownia danych służy do eksploracji danych (data mining)

Hurtownia danych dostarcza informacji online

Hurtownia danych jest systemem wspomagania decyzji klasy DSS

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830