Skarby w hurtowni

Poważnym nieporozumieniem jest przyjmowanie, że dane w hurtowni nie są równie szczegółowe, jak dane w bazach operacyjnych. Dane w hurtowni mogą mieć inny format, będą pozbawione pewnych pól istotnych dla sprawnego działania aplikacji transakcyjnej, ale można je tam przemieścić z bazy operacyjnej w całości.

Jeżeli przedsiębiorstwo ma duże zasoby danych, które chce wykorzystać w hurtowni, pojawi się problem dystrybucji danych na wiele serwerów i/lub lokalizacji. Utrudni to niewątpliwie budowanie aplikacji, ewentualnie podniesie koszty komunikacji między lokalizacjami, warto więc ten problem rozstrzygnąć wcześniej. Z tego powodu budowanie hurtowni tematycznych (minihurtowni, zwanych po angielsku data mart) może rozwiązać problemy przedsiębiorstw o rozczłonkowanej strukturze organizacyjnej.

Największe kłopoty zawsze sprawia zapełnianie hurtowni danymi. Każde przedsiębiorstwo ma specyficzne zbiory danych, własne formaty i struktury baz danych, co powoduje, że nie istnieją uniwersalne narzędzia pozwalające na zapełnienie danymi hurtowni na podstawie zawartości tych baz. Opracowanie własnych metod i technik do zapełniania hurtowni może okazać się wysiłkiem przekraczającym możliwości firmowych informatyków, a koszty zatrudnienia zewnętrznych konsultantów nie do przyjęcia przez dyrektora finansowego przedsiębiorstwa. Wybór narzędzia do częściowo automatycznego zapełniania hurtowni danymi ma ogromne znaczenie dla sukcesu przedsięwzięcia. Dostępne narzędzia są, niestety, dość drogie.

Poważny problem to jakość danych. Jak wynika z doświadczeń osób zajmujących się tworzeniem hurtowni danych, jeśli 80% danych historycznych kwalifikuje się bezpośrednio do użycia, można uznać to za sukces. Najczęściej jednak dane są niespójne, nieaktualne, sprzeczne z sobą, powtarzające się wielokrotnie (Czy Jan Kowalski i Jan A. Kowalski to ta sama osoba, czy nie, mimo że mają te same pozostałe dane osobowe?). W zasadzie nie istnieją narzędzia do automatycznego czyszczenia danych. Wprawdzie opracowano programy do analizy danych adresowych, ale są one skuteczne jedynie w ograniczonym zakresie; nie znam żadnego produktu, który potrafi powiązać poprawnie polski kod pocztowy z adresem.

Trudny jest także problem transformacji danych do wspólnego formatu. Najprostszy przykład to data. Mimo stosunkowo powszechnej akceptacji pisania daty w formie rrrr.mm.dd, nadal spotyka się formaty dd.mm.rrrr, dd,mm,rrrr lub dd/mm/rrrr i inne. Co gorsza, zbliżający się rok 2000 komplikuje sprawę przystosowania danych o dacie zapisywanej w formacie z dwoma cyframi roku (rr.mm.dd). Na rynku pojawiły się narzędzia przeznaczone do dokonywania transformacji danych do wspólnego formatu; pozwalają one na zdefiniowanie wielu reguł transformacji, ale jeśli jakość danych nie będzie najwyższa, wymaga ręcznej interwencji operatora lub odrzucenia dużej części danych.

Metadane

Baza danych o danych (repozytorium metadanych) to jeden z ważniejszych elementów składowych hurtowni. To tu przechowuje się informacje o lokalizacji danych, formacie, strukturze tabel poszczególnych baz danych, zależnościach między nimi, reguły transformacji danych w trakcie ładowania ich z baz operacyjnych, wiadomości o prawach dostępu do poszczególnych baz i szczegółowe informacje o strukturze docelowej bazy danych w hurtowni.

Na rynku istnieje wiele repozytoriów danych, na ogół dość ściśle powiązanych z narzędziami do tworzenia aplikacji bazodanowych. Dobre repozytorium powinno być wyposażone w samodzielne narzędzie do odczytywania struktury istniejących baz danych, ich transformacji w strukturę docelową i tworzenia ich reguł w postaci poleceń SQL lub programu w języku 4GL. Rzadko oferują one jednak możliwości specyficzne dla hurtowni danych.

Nawet najlepiej opracowana hurtownia nie spełni swoich zadań, jeśli użytkownicy nie będą mieli pełnej informacji o jej zawartości i możliwościach analitycznych narzędzi dostępu do niej. Błędne lub niezrozumiałe informacje o wzajemnych powiązaniach danych w hurtowni może prowadzić do niewłaściwej interpretacji. Wszystkie powiązania między danymi muszą być precyzyjnie zdefiniowane w bazie metadanych i dostępne dla użytkowników hurtowni w formie dla nich zrozumiałej. A nie jest to łatwa sprawa.

Narzędzia dla użytkownika

Na rynku dostępnych jest wiele narzędzi do analizy danych w hurtowni, poczynając od prostych systemów raportowania, korzystających z gotowych formatek elektronicznych, przygotowanych przez informatyków firmowych, przez narzędzia tworzące raporty lokalnie w komputerze PC na podstawie danych wybieranych z bazy i przenoszonych do PC, po ogromne systemy analityczne dokonujące analizy na oddzielnym serwerze i komunikujące wyniki w postaci końcowego raportu.

Im większa hurtownia, tym większa potrzeba korzystania z oddzielnego motoru analitycznego, dokonującego analiz na specjalizowanym serwerze obliczeniowym lub serwerze bazy danych, nie wymagającego przesyłania dużych masywów danych przez sieć lokalną lub rozległą. Specjalny motor analityczny ułatwia także przygotowanie standardowych raportów, nie wymagających od użytkownika znajomości języka SQL ani podstaw techniki analitycznej.

Zróżnicowane są też wymagania dotyczące umiejętności zadawania pytań do hurtowni: od programów posługujących się pseudoangielskim językiem, tłumaczonym przez program na zapytania SQL, przez proste graficzne systemy tworzenia zapytań, po wyrafinowane systemy analityczne, wymagające znakomitej znajomości nie tylko języka SQL, ale także szczegółów dotyczących struktury baz w hurtowni.


TOP 200