Trudny porządek

Choć powszechnie wiadomo, jak ważna jest wysoka jakość danych gromadzonych w bazach, to w praktyce wciąż zbyt mało uwagi poświęca się temu, by w nowych systemach informatycznych od początku wykorzystywać narzędzia wymuszające ową wysoką jakość.

Choć powszechnie wiadomo, jak ważna jest wysoka jakość danych gromadzonych w bazach, to w praktyce wciąż zbyt mało uwagi poświęca się temu, by w nowych systemach informatycznych od początku wykorzystywać narzędzia wymuszające ową wysoką jakość.

Wydaje się, że w przypadku jakości danych wciąż wpadamy w tę samą pułapkę: problem narasta z czasem - niczym choroba nowotworowa - bez żadnych zewnętrznych oznak, bez śladu niszczycielskiego potencjału. Stan uśpienia może trwać latami, danych przybywa i przybywa, aż orientujemy się, że mamy ogromne ilości bezużytecznych informacji.

Zjawisko ujawnia się zazwyczaj w chwili łączenia zbiorów danych. Nierzadko również przy okazji masowego wykorzystania danych z repozytorium. Wiele projektów budowy hurtowni danych zakończyło się niepowodzeniem, właśnie dlatego że zawartość repozytoriów okazała się zlepkiem danych marnej jakości. Niepoprawność danych rzuca cień nawet na najlepiej skonstruowany system informatyczny. Zaśmiecone repozytoria to najkrótsza droga do upadku prestiżu działu informatyki w oczach użytkowników biznesowych.

Problemy z czasem

Zwykle źródeł problemu należy upatrywać w lekceważeniu tematu. Gdy zła jakość danych zaczyna być dokuczliwym problemem, najczęściej jest już za późno. Poprawienie zgromadzonych danych w przeciętnym, średniej wielkości przedsiębiorstwie wymaga ogromnych nakładów żmudnej pracy. Dopiero wówczas przychodzi czas wyciągania wniosków i usprawnienia procedur organizacyjnych, które pozwalają wyeliminować wprowadzanie danych o złej jakości.

Zazwyczaj są to proste i niezbyt kosztowne zabiegi, rzeczy w swej prostocie wręcz trywialne. Jednak przynoszą znakomite rezultaty, jeśli tylko konsekwentnie stosuje się je w praktyce dnia codziennego. Są to zarówno automaty weryfikująco-korygujące, wbudowane do aplikacji, za pomocą których wprowadza się te dane do systemu, jak i organizacyjne procedury kontrolno-audytowe. Tak często jednak - z fałszywie pojmowanej oszczędności, zwykłej niekompetencji czy braku wyobraźni i doświadczenia - pomija się je przy budowie systemów informatycznych.

Dane wysokiej jakości to takie, które są dokładne, kompletne, spójne, unikalne (w tym sensie, że nie są niepotrzebnie dublowane) oraz - co istotne - ważne (na podstawie założonych kryteriów). Według badania przeprowadzonego przez The Data Warehousing Institute w blisko połowie ankietowanych amerykańskich firm respondenci przyznali, że obawiają się, iż jakość danych zgromadzonych w ich systemach informatycznych jest gorsza niż się tego ktokolwiek spodziewa.

Na polu bitwy

O tym, że jakość danych może mieć znaczenie wykraczające poza zwykły rachunek biznesowy, przekonała się armia brytyjska, która jeszcze przed operacją wojskową w Iraku w 2003 r. przeprowadziła złożony projekt informatyczny, mający na celu integrację systemów logistycznych. Znaczącą część pracy stanowiło czyszczenie różnych źródeł i baz danych. Skoncentrowano się na poprawie 6 atrybutów opisujących dostawy dla wojska - złe wartości w tych atrybutach miałyby bowiem największy wpływ na zakłócenia dostaw (kod klasyfikacyjny NATO, kody: dostawy, towaru, dostawcy, opakowania i kod określający poziom bezpieczeństwa).

Najpierw poradzono sobie z homonimami (czyli różnymi towarami o tym samym kodzie) oraz synonimami (różnymi kodami na oznaczenie tego samego towaru). O ile synonimy mogły skutkować nieefektywnością w dostawach, o tyle homonimy stanowiły prawdziwe zagrożenie, zwłaszcza na polu walki (np. gdy zamiast amunicji oddział otrzymałby mleko w proszku...). Źródłem problemów były również niekonsekwencje w klasyfikacji oraz błędy przy wprowadzaniu informacji z klawiatury (tutaj pomocne okazały się narzędzia automatyzujące proces wykrywania i korekty błędów). Do identyfikacji błędów w nietypowych formatach danych wykorzystywano wizualizację graficzną - to ułatwiało także lokalizowanie danych, które w ogóle miały niedopuszczalną zawartość (np. spoza zakresu).

Trwający kilka lat projekt czyszczenia danych kosztował armię brytyjską 11 mln USD, ale uzyskane dzięki niemu oszczędności przyniosły kilkakrotnie więcej. Dobrze dobrany zakres projektu poprawy jakości danych może więc charakteryzować się wysokim współczynnikiem ROI (zwrot inwestycji). Czasem oszczędności można uzyskać niejako przy okazji czyszczenia danych (eliminacja duplikatów, informacji nieaktualnych bądź niepełnych pozwala na ograniczenie rozmiarów bazy danych o kilkadziesiąt procent, a więc oszczędność na pamięciach masowych), choć oczywiście nie to powinno być główną motywacją.

Czyszczenie w procesie

Rynek narzędzi i rozwiązań służących poprawie jakości danych jest bardzo rozbudowany. To zarówno specjalizowane pakiety, jak i dodatkowe funkcjonalności wbudowywane do rozwiązań ETL (ekstrakcji, przetworzenia i ładowania danych) wykorzystywane do budowania hurtowni i innych repozytoriów danych. Przykładowo, SAS Institute oferuje narzędzie ETLQ, gdzie końcowa litera ma oznaczać właśnie quality, czyli jakość danych.

Na świecie - aczkolwiek nie w Polsce - dostępne są również usługi czyszczenia danych, w szczególności danych teleadresowych. U nas rozwój tego rodzaju usług utrudnia obowiązująca legislacja, zwłaszcza prawo o ochronie danych osobowych.

Podstawowe wskazówki

Co się powinno robić, aby uzyskać dane o wysokiej jakości:

1. Należy zacząć od ustalenia priorytetów. Proces czyszczenia danych może być bardzo kosztowny i długotrwały, więc warto wskazać dane o największym znaczeniu. Części danych nie warto poprawiać wcale, jeśli ich wartość biznesowa jest na tyle mała, że nie uzasadnia wydatków na podniesienie ich jakości.

2. Należy zaangażować właścicieli danych (czyli odpowiednie jednostki biznesowe). Bez nich nie uda się ustalić przyczyn powstawania błędów i przekłamań w danych, a także miarodajnie stwierdzić, jaki stopień czystości danych będzie optymalny (np. czy należy dane czyścić w 100%, czy też może 98%; współczynnik z biznesowego punktu widzenia będzie całkowicie wystarczający).

3. Bezwzględnie należy dbać o to, by wszystkie dane, które dopiero w przyszłości zostaną wprowadzone do systemu, były możliwie wysokiej jakości.

4. Warto doprowadzić do trwałej współpracy pracowników działu IT z pracownikami merytorycznymi przy bieżącej poprawie danych i właściwym oznakowaniu danych, których jakość budzi wątpliwości, a których z tych czy innych przyczyn nie można poprawić. Uzyskiwanie danych o wysokiej jakości wymaga działań proaktywnych!


TOP 200