Narzędzia poprawy

Do poprawy jakości danych można stosować rozwiązania ETL albo specjalizowane narzędzia, których dostawcy na ogół niestety nie są reprezentowani w Polsce.

Do poprawy jakości danych można stosować rozwiązania ETL albo specjalizowane narzędzia, których dostawcy na ogół niestety nie są reprezentowani w Polsce.

Przy konstruowaniu hurtowni danych często pojawia się problem zapewnienia odpowiedniej jakości informacji przechowywanych w systemie. O ile w systemie transakcyjnym (sprzedaży, finansowo-księgowym itp.) wprowadzenie zmiany jest dosyć proste - wystarczy modyfikacja dokumentu bazowego albo wystawienie korekty, w czym pomaga szczegółowość informacji bazowych, o tyle w przypadku hurtowni danych sytuacja jest nieporównanie bardziej skomplikowana.

Przy zasilaniu hurtowni danymi mówimy o procesie ETL (Extract-Transform-Load), czyli ciągu operacji, które pozwalają uzyskać dane z systemów operacyjnych, przekształcić je do postaci akceptowanej przez hurtownię i wczytać do bazy. Właśnie dwa pierwsze etapy sprawiają najwięcej trudności. Extract - dlatego że trzeba wiedzieć, które informacje z wielu systemów funkcjonujących w przedsiębiorstwie należy przetwarzać. Transform - bo tak naprawdę mamy do czynienia z wieloma różnymi reprezentacjami tej samej informacji, która dodatkowo może być obarczona pewnym błędem. Z punktu widzenia systemu analitycznego konieczne jest ujednolicenie formy danych.

Metadane i kłopotliwe schematy

Często stosowanym narzędziem ETL jest Cognos DecisionStream (www.cognos.com). Pozwala ono tworzyć schematy uzyskiwania informacji z dowolnych systemów transakcyjnych. Integralną częścią tego pakietu jest kreator, pozwalający graficznie definiować przepływ informacji w systemie. Na tej podstawie powstają metadane, wykorzystywane przez motor Cognosa do przesyłania informacji, określających również strukturę hurtowni.

Dzięki takiej organizacji system potrafi minimalizować wykonywane operacje. Chociażby część przekształceń może być wykonana na tym serwerze, który zawiera dane informacje (nie muszą być wczytywane na inną maszynę i tam obrabiane). Producent twierdzi, że w większości przypadków wystarczy pojedyncze przejście jednostkowej informacji przez system. Równocześnie motor dobrze sobie radzi ze schematem gwiazdy w hurtowni danych, gdy dane źródłowe pochodzą z różnych systemów. DecisionStream ma wbudowaną obsługę mechanizmu tzw. bulk load dla wielu różnych systemów bazodanowych, co pozwala na najszybsze zapisywanie danych na serwer. Interesującą funkcją pakietu Cognos jest automatyczne zarządzanie wymiarami, a także możliwość minimalizacji niezbędnych obliczeń przy definiowaniu tzw. wolno zmiennych wymiarów. Tworząc tymczasowe wymiary, buduje połączenia między wymiarami a tabelą faktów, generując w razie potrzeby odpowiednie tymczasowe klucze, przyspieszające proces ETL.

Narzędzia poprawy

dane pobierane z różnych źródeł do hurtowni danych powinny być czyszczone w procesie ich trasformacji

Podobnym rozwiązaniem jest pakiet Hummingbird Genio Suite (www.hummingbird.com). Zawiera on także graficzne narzędzie do projektowania czy wyrafinowany motor przekazywania danych. W tym pakiecie ciekawie rozwiązano problem automatyzacji procesu ETL. Zazwyczaj ustala się, że np. hurtownia danych zasilana jest w nocy, w czasie gdy jest najmniejsze obciążenie systemów analitycznych. Genio zawiera dodatkowy moduł, w którym można zdefiniować warunki, wymuszające aktualizację (np. fragmentu hurtowni - w przypadku gdy zostanie zarejestrowana transakcja na wysoką kwotę). Narzędzie to ma silnie rozbudowane mechanizmy obsługi metadanych. Zawiera moduł MetaLink, gdzie zdefiniowane są interfejsy do systemów ERP (obecnie SAP/R3). Dzięki temu można zasilać hurtownię, definiując transformacje na wyższym poziomie abstrakcji niż tabele ERP. Ciekawą opcją jest korzystanie z metada- nych opisujących SAP/R3 w przypadku informacji, pochodzących z innych systemów (by prościej identyfikować wszystkie elementy wchodzące w skład transformacji).

Dostać się do ERP

Interfejsy dostępu do danych w systemach ERP znajdują się w ofercie wielu firm. Zarówno SAS, jak i IBM zawierają rozwiązania, które dzięki znajomości postaci metadanych w PeopleSoft czy SAP/R3 potrafią uzyskać dostęp do rekordów opisujących poszczególne przychody czy wydatki. Dopiero tego typu interfejsy pozwalają na rzeczywistą analizę danych w rozwiązaniach klasy ERP.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200