Narzędzia poprawy
- Tomasz Kopacz,
- 04.02.2002
Do poprawy jakości danych można stosować rozwiązania ETL albo specjalizowane narzędzia, których dostawcy na ogół niestety nie są reprezentowani w Polsce.
Do poprawy jakości danych można stosować rozwiązania ETL albo specjalizowane narzędzia, których dostawcy na ogół niestety nie są reprezentowani w Polsce.
Przy konstruowaniu hurtowni danych często pojawia się problem zapewnienia odpowiedniej jakości informacji przechowywanych w systemie. O ile w systemie transakcyjnym (sprzedaży, finansowo-księgowym itp.) wprowadzenie zmiany jest dosyć proste - wystarczy modyfikacja dokumentu bazowego albo wystawienie korekty, w czym pomaga szczegółowość informacji bazowych, o tyle w przypadku hurtowni danych sytuacja jest nieporównanie bardziej skomplikowana.
Przy zasilaniu hurtowni danymi mówimy o procesie ETL (Extract-Transform-Load), czyli ciągu operacji, które pozwalają uzyskać dane z systemów operacyjnych, przekształcić je do postaci akceptowanej przez hurtownię i wczytać do bazy. Właśnie dwa pierwsze etapy sprawiają najwięcej trudności. Extract - dlatego że trzeba wiedzieć, które informacje z wielu systemów funkcjonujących w przedsiębiorstwie należy przetwarzać. Transform - bo tak naprawdę mamy do czynienia z wieloma różnymi reprezentacjami tej samej informacji, która dodatkowo może być obarczona pewnym błędem. Z punktu widzenia systemu analitycznego konieczne jest ujednolicenie formy danych.
Metadane i kłopotliwe schematy
Często stosowanym narzędziem ETL jest Cognos DecisionStream (www.cognos.com). Pozwala ono tworzyć schematy uzyskiwania informacji z dowolnych systemów transakcyjnych. Integralną częścią tego pakietu jest kreator, pozwalający graficznie definiować przepływ informacji w systemie. Na tej podstawie powstają metadane, wykorzystywane przez motor Cognosa do przesyłania informacji, określających również strukturę hurtowni.
Dzięki takiej organizacji system potrafi minimalizować wykonywane operacje. Chociażby część przekształceń może być wykonana na tym serwerze, który zawiera dane informacje (nie muszą być wczytywane na inną maszynę i tam obrabiane). Producent twierdzi, że w większości przypadków wystarczy pojedyncze przejście jednostkowej informacji przez system. Równocześnie motor dobrze sobie radzi ze schematem gwiazdy w hurtowni danych, gdy dane źródłowe pochodzą z różnych systemów. DecisionStream ma wbudowaną obsługę mechanizmu tzw. bulk load dla wielu różnych systemów bazodanowych, co pozwala na najszybsze zapisywanie danych na serwer. Interesującą funkcją pakietu Cognos jest automatyczne zarządzanie wymiarami, a także możliwość minimalizacji niezbędnych obliczeń przy definiowaniu tzw. wolno zmiennych wymiarów. Tworząc tymczasowe wymiary, buduje połączenia między wymiarami a tabelą faktów, generując w razie potrzeby odpowiednie tymczasowe klucze, przyspieszające proces ETL.
Dostać się do ERP
Interfejsy dostępu do danych w systemach ERP znajdują się w ofercie wielu firm. Zarówno SAS, jak i IBM zawierają rozwiązania, które dzięki znajomości postaci metadanych w PeopleSoft czy SAP/R3 potrafią uzyskać dostęp do rekordów opisujących poszczególne przychody czy wydatki. Dopiero tego typu interfejsy pozwalają na rzeczywistą analizę danych w rozwiązaniach klasy ERP.