Poprawka z danych

Celem nie jest osiągnięcie ideału. W przypadku większości zastosowań wystarczy, jeśli w hurtowni danych tych dobrej jakości jest 80% (decyzje bowiem są podejmowane na poziomie strategicznym), zaś w aplikacjach służących do sprawozdawczości znacznie wyższy odsetek, na poziomie 95-97%. W dużych zbiorach dane nigdy nie będą doskonałe w 100% i trzeba się z tym pogodzić. "W polskich firmach typowa sytuacja to 40% jakościowo dobrych danych źródłowych" - mówi Wojciech Sypko. Często okazuje się, że występują duże braki w polach danych. "Gdy braki dotyczą np. 70% danych, to właściwie ich analiza nie ma sensu. Takie rozpoznanie jakości danych źródłowych pozwala ocenić, czy w ogóle warto podejmować się wdrożenia rozwiązania analitycznego" - twierdzi Grzegorz Bartler, konsultant z SAS Institute. Zastosowanie najlepszych narzędzi nic tu nie zmieni. "Jakość danych dla analityka ma zasadnicze znaczenie. Jeśli będzie ona zbyt niska, zazwyczaj danych nie da się zastosować w analizie albo wyniki tej analizy będą nieprawdziwe. I nie pomogą tu nawet duże doświadczenie i rozwinięta intuicja analityka" - dodaje Tomasz Kibil, dyrektor Departamentu Systemów Wspomagających Zarządzanie w Polkomtelu.

Według danych Gartner Group, zatrważająco mała liczba dużych instytucji finansowych (zaledwie kilkanaście procent) uznaje swoje dane za wystarczająco dokładne, by mogła prowadzić w pełni wiarygodne analizy. W jednej z polskich firm ubezpieczeniowych w danych opisujących osoby płeć zastała zapisana na 18 sposobów! Każdy z oddziałów firmy miał bowiem własne standardy - trzeba było docierać do lokalnych definicji (a zdarzały się nawet takie przypadki, jak trzecia płeć, np. ksiądz). Podobne problemy często występują z nazwami, w szczegól-ności w odniesieniu do miast, które grają główną rolę we wszystkich analizach geograficznych (w jednym z systemów nazwa "Łódź" była za-pisana na kilkanaście różnych sposobów). Błędy te wynikają przede wszystkim z położenia nacisku na szybką rejestrację danych, później dokonuje się co najwyżej analiz segmentowych, w których nie ma znaczenia większość błędów w danych.

Istotna wartość

W firmie potrzebna jest polityka jakości danych, czyli stałe kontrolo-wanie danych. Można tworzyć wewnętrzne procedury i rozwiązania, dzięki którym od początku dba się o jakość danych: jest to np. koncepcja stworzenia stanowiska data stewardess (steward jakości danych) lub data quality gatekeeper (strażnik jakości danych), obejmujące odpowiedzialność za jakość danych przy każdym źródle ich wprowadzania. Na szczeblu kierowniczym są to odpowiednio stanowiska: Data Validity Officer (DVO) lub Strategic Information Officer (SIO).

Do wprowadzania poprawek zawsze potrzebna jest procedura organizacyjna, nie można tego robić ad hoc. Z tych względów raczej nie stosuje się automatycznej poprawy danych - podobnie jak w księgowości dokumenty zawsze muszą być sprawdzane przez człowieka, tak samo w systemach informatycznych decyzje powinien podejmować człowiek, czy dokonać konkretnej zmiany. Oczywiście nie jest to regułą absolutną i w wielu sytuacjach, gdy np. koryguje się proste błędy w danych teleadresowych, można to zadanie zlecić maszynie. Na rynku polskim są dostępne co najwyżej bazy słownikowe, nie ma natomiast gotowych rozwiązań do takiej rafinacji danych ani oferty outsourcingowej. Na razie taki outsourcing sprowadza się co najwyżej do wynajęcia osób, które będą ręcznie poprawiać duże zbiory danych. Na świecie działają wyspecjalizowane firmy konsultingowe, zajmujące się stricte jakością danych (np. Information Impact International czy Innovative Systems), które w ofercie mają czyszczenie na zlecenie baz typowych danych. To również audyt jakości danych, który proponują najbardziej znane firmy konsultingowe. Taka forma zewnętrznej oceny jest zazwyczaj elementem prowadzonych wdrożeń, choć na ogół nie przybiera formalnej postaci audytu (ale np. w PZU rozwiązania dotyczące zapewnienia jakości danych były tworzone w ścisłej współpracy z audytorem).

Ostatnio wzrasta zainteresowanie teoretycznymi modelami, do- tyczącymi jakości danych. Na uniwersytecie MIT jest prowadzony projekt TDQM (Total Data Qua- lity Management Program), mający stworzyć teoretyczny model dbania o jakość danych w przedsiębiorstwie (na wzór programu jakości TQM). Ukazują się publikacje poświęcone temu tematowi, np. książka Improving Datawarehouse and Business Information Quality: Methods for reducing cost and increasing profits, Larry'ego P. Englisha (Wiley & Sons). Pojawiają się również pierwsze regulacje prawne (np. w Australii prawnie została narzucona określona norma jakoś- ciowa, którą muszą spełniać dane w systemach billingowych operatorów telekomunikacyjnych)..


TOP 200