Narzędzia poprawy

Ciekawymi narzędziami są PowerCenter i PowerMart z firmy Informatica. Tym, co wyróżnia ten pakiet, jest bardzo dobrze zdefiniowany interfejs dostępowy do repozytorium metadanych, który pozwala wykorzy-stać go w dowolnych aplikacjach. Pakiet jest także wyposażony w debugger, który potrafi inteligentnie śledzić proces ładowania. System dysponuje także minibazą danych, w której może przechowywać wartości rekordów wskazywane przez klucz obcy w głównej tabeli faktów. W ten sposób można uniknąć dodatkowych zapytań do systemu bazodanowego i równocześnie uzyskać w hurtowni danych płaską strukturę. Ciekawe rozwiązania oferuje również Computer Associates (DecisionBase).

Podobne narzędzia dostarczają obecnie także producenci baz danych, na których tworzona jest hurtownia danych. W przypadku MS SQL 2000 jest to wyjątkowo łatwy w użyciu mechanizm DTS (Data Transformation Services). Pozwala on graficznie definiować przepływy między poszczególnymi etapami transformacji (w tym graficznie rysować diagram), zaś dodatkowo w każdym węźle można umieścić skrypt w Visual Basic, który przekształca dane.

Tego typu rozwiązanie ma kilka ograniczeń. Po pierwsze, dane są przesyłane na komputer, na którym działa motor DTS. Po drugie, system zakłada, że do danego źródła danych dostępny jest sterownik OLE DB (lub że jest to baza plikowa; obsługiwana przez DTS). W efekcie zastosowanie DTS czasami sprawia, że część informacji może zaniknąć podczas transformacji.

Inne podejście zastosował SAP w ramach oferty mySAP Business Intelligence. Częścią rozwiązania może być specjalny interfejs SAP Staging BAPI. Pozwala on na manipulację repozytorium metadanych. Jednak w odróżnieniu od mechanizmów typu DTS cały mechanizm synchroniza- cji danych opiera się na skryptach BAPI. Pozwalają one na zdefiniowanie logicznych źródeł danych. Można definiować relacje między poszczególnymi polami z tych źródeł (typami/kategoriami pól) czy wręcz logicznymi źródłami danych, które są podpinane pod różne tabele źródłowe.

Podstawową zaletą Staging BAPI jest stosunkowo proste modyfikowanie całych drzew zależności. W przypadku kreatorów i projektantów graficznych powstaje rozbudowany graf przepływów, ale trudno jest wykonać operację na całym diagramie. W SAP definiowane są tak naprawdę struktury drzewiaste, a następnie określane zasady transformacji drzew. W ten sposób doświadczony programista, znający BAPI, może stworzyć dosyć uniwersalne narzędzie, integrujące w jednej hurtowni danych różne elementy systemu ERP.

Główny problem związany z integracją danych w hurtowni polega na tym, że co prawda niemal każdy z systemów zawiera pewne repozytorium metadanych, jednak obecnie te repozytoria nie są ustandaryzowane i w różny sposób opisują te same informacje. Istnienie metadanych upraszcza integrację danych, jednak nie jest to aż tak proste, jak być powinno. Stosunkowo niedawno, w ramach OMG (Object Management Group) powstała organizacja Meta Data Coalition, która ma za zadanie stworzyć spójny standard metadanych, pozwalający opisywać dowolne informacje występujące w systemach typu Enterprise. Powstaje specjalny system klasyfikacyjny, a także ogólne zasady integracji systemów za pośrednictwem przekształcania metabaz. Zdefiniowany został także pewien "język" przekształceń.

Microsoft (uczestniczący w pracach MDC) opracował narzędzie Meta Data Services (implementujące standard Open Information Model), które pozwala stosunkowo wygodnie tworzyć i przekształcać dowolne modele informacyjne. Repozytorium (oparte na XML) jest przechowywane w dowolnej bazie, z którą można połączyć się przez ODBC. MDS można wykorzystać do niemal automatycznego generowania definicji przekształceń danych przy zasilaniu hurtowni, a także jako uniwersalny motor metadanych w aplikacjach.

Żmudna lustracja

Problem sprawdzania poprawności danych to drugie wyzwanie, przed którym staje administrator hurtowni danych. Zdarza się, że do hurtowni ładowane są dane z błędami ortograficznymi, dane, w których nazwy własne są zapisywane w różny sposób, czy część pól jest pusta. Kłopotliwe może być także wyszukiwanie duplikatów.

Stosunkowo prosta sytuacja występuje wtedy gdy do hurtowni wczytywane są informacje pochodzące z pomiarów (czy generalnie - dane numeryczne). W takim przypadku, po stworzeniu modelu aproksymującego wartości na podsta- wie wzorcowego zestawu danych, można łatwo wyeliminować wpisy, które zbyt odstają od wyznaczonego przebiegu zmienności. Toteż nieocenione są narzędzia do analizy statystycznej, np. Statistica czy StatGraph.


TOP 200