Narzędzia poprawy

Znacznie trudniejsze do weryfikacji są dane biznesowe, ponieważ nie sposób wskazać jednoznacznie reguł, które pozwolą określić, czy dane są prawidłowe. Większość narzędzi opiera się na analizie słownikowej. Przykładem takiego pakietu może być SAS Data Quality-Cleanse (www.sas.com/rnd/warehousing/cleanse/index.html), który potrafi poprawić dane po wczytaniu do hurtowni. Rozwiązanie to składa się z dwu elementów: procedur w języku programowania SAS, które potrafią szybko znaleźć i ewentualnie zamienić wpisy nie pasujące do wzorca (mechanizm porównywania i zamiany jest bardzo szybki, ale niestety nie są obsługiwane pełne wyrażenia regularne), oraz aplikacji, która pozwala graficznie definiować sposób ujednolicania wpisów. Użytkownik określa typ informacji przechowywanych w danym polu. Następnie system analizuje rozkład danych i wyświetla te rekordy, w których wpisy zbyt różnią się, by je automatycznie ujednolicić. W ten sposób można szybko przekształcić całą hurtownię, tak by nawet nazwy własne (np. firm) wyglądały tak samo. SAS przygotowuje dane słownikowe, zawierające np. nazwy ulic, miast, nazwiska osób czy nawet nazwy firm dla niemal każdego kraju na świecie (także Polski). Warto jednak podkreślić, że takie postępowanie nie pozwoli na wyeliminowanie wszystkich błędnych wpisów, jednak przy odpowiednio dobranej czułości zwiększy prawdopodobieństwo, że przeprowadzane analizy opierają się na prawidłowych informacjach. Dzięki pracy z graficzną aplikacją może powstać skrypt, który będzie wykonywany automatycznie podczas zasilania hurtowni.

Różne firmy proponują rozwiązania podobnego typu (np. FirstLogic), lecz na ogół nie mają one wsparcia dla języka polskiego. Ciekawym pakietem jest propozycja Integrity (www.integrity.com). Oprócz danych słownikowych, system próbuje "zgadywać", które rekordy są błędne. Posługując się metodami statystycznymi, pewnymi elementami logiki rozmytej i sieci neuronowych, pakiet - analizując wycinek danych w systemie - określa postać "prawidłowych" wpisów. Dysponując listą błędnych rekordów, użytkownik może samodzielnie określić reguły wypełniania braków czy transformacji wpisów.

Na świecie dość powszechnie jest stosowany pakiet Trillium Data Quality (www.trilliumsoft.com), zawierający mechanizm uzupełniania danych na podstawie zewnętrznej bazy teleadresowej. Dzięki temu można np. uzupełnić brakujące wpisy kodu pocztowego czy zmienić nazwę miasta, gdy nie zgadza się ona z ulicą i kodem. Ponadto system zawiera wsparcie baz z danymi osobowymi, tak że może identyfikować poszczególnych klientów w systemie, nawet gdy będą próbowali oni ukryć część informacji o sobie - to już jest jednak specyfika czysto amerykańska.

"Niezależna państwowo" jest seria produktów DataStage firmy Ascential Software (www.ascentialsoftware.com), przeznaczona do integracji danych, pochodzących z różnych systemów informatycznych. Ciekawym modułem jest narzędzie, w którym można zdefiniować reguły poprawności danych, rozproszonych w różnych bazach. Dzięki temu, gdy dane są niepełne czy niespójnie, moduł odpowiedzialny za jakość danych próbuje automatycznie wprowadzić korekty. Może uzupełniać brakujące wpisy (gdy są one dostępne w innych systemach) albo według podanych przez administratora zasad określić, która wersja informacji jest prawdziwa. Oprócz tego przedstawia listę konfliktów, których nie jest w stanie automatycznie rozwiązać.

Dostępne są także wyspecjalizowane usługi, takie jak rozwiązanie firmy Sagent (www.sagent.com), które pozwala weryfikować, czy dany adres istnieje (dla niemal każdego kraju). Jednak wraz ze wzrostem popularności Internetu coraz bardziej istotny stał się problem weryfikacji danych, pochodzących z najróżniejszych formularzy. Nie chodzi tu o weryfikację, czy dane są spójne i kompletne, a raczej o odrzucenie nieprawidłowych wpisów. Coraz większa liczba osób w celu ochrony prywatności wprowadza nieprawdziwe czy wręcz bzdurne informacje, które są niestety akceptowane przez automaty weryfikujące. Nie ma tu jednak dobrych rozwiązań - można tylko próbować wspierać się pakietami typu Integrity.

Wymagające maszyny

Można się zastanowić, czy zamiast oczyszczać dane źródłowe, nie lepiej tak zorganizować obieg informacji, aby dane zasilające hurtownię były od razu prawidłowe (i spójne). Osiągnięcie tego celu niemal nigdy nie jest możliwe, jednak warto tak pro- jektować aplikacje, by odpowiednia jakość danych była w pewnym sensie wymuszona.

W ciągu ostatnich trzech lat powstało kilka metodologii, które pozwalają w taki sposób organizować proces tworzenia aplikacji, jej wdrażania, a także ogólne zasady pracy w przedsiębiorstwie, by osiągnąć możliwie wysoką jakość informacji. Jedną z takich metodologii jest TQdM, firmy Information Impact (www.infoimpact.com). Niestety, taki schemat postępowania nie zapewni, że dane zawsze będą prawidłowe. Metodologia ta to jedynie zbiór pewnych elementów, na które projektant powinien zwrócić uwagę, planując obieg informacji.

Walka o jakość danych wynika w pewnym stopniu z ograniczonych możliwości języków zapytań (jak SQL czy MDX). Dane muszą być dobrej jakości, bowiem pytania kierowane do systemu mają sztywno określone warunki. Można pytać np. o to, czy najwięcej towaru kupują mieszkańcy Warszawy, pod warunkiem że w systemie mamy jednoznacznie określony adres. Gdy będzie on niepełny (np. podane tylko województwo), trzeba będzie dane uzupełniać. Jeszcze bardziej rygorystyczne wymagania będą postawione przed systemem, który będzie rozkładał pewne informacje w podziale geograficznym i równocześnie wymagał dodatkowej cechy prezentowanych encji. Nieprawidłowa informacja czy jej brak mo-że uniemożliwić przeprowadzenie analizy. Na razie żaden język zrozumiały dla komputera nie pozwoli na sformułowanie zapytania: "Gdzie mieszkają nasi najlepsi klienci?". Programista co najwyżej może spytać się: "Przy jakich ulicach mieszkają klienci, którzy przynoszą nam więcej niż 2000 zł przychodu".


TOP 200