Na straży jakości danych
- 01.06.2010
Nawet przy dzisiejszym, relatywnie wysokim poziomie technologicznym dbałość o jakość danych w dużej mierze zależy wciąż od racjonalnej polityki człowieka.
Jakość danych stanowiąca o ich używalności, obok dostępności, integralności i bezpieczeństwa, jest jednym z elementów szeroko pojętego zarządzania danymi (data governance). Stara zasada mówiąca, że jeśli do systemu informatycznego włoży się śmieci, to otrzyma się w wyniku również śmieci, jest w dalszym ciągu prawdziwa. Pomimo wielu narzędzi automatyzacji, ze złych danych trudno otrzymać dobre wyniki, a czasami wręcz, wskutek działań niedoskonałych procedur algorytmicznych, może nastąpić pogorszenie jakości informacyjnej.
Przyczyn błędów danych wprowadzanych ręcznie należy doszukiwać się w następujących źródłach:
- Pomyłka klawiaturowa, literówka.
- Brak staranności lub nieznajomość zasad językowych, np. niedotrzymanie standardów stosowania małych i wielkich liter.
- Wprowadzenie wartości do niewłaściwego pola.
- Niezrozumienie znaczenia danych wynikające z niezrozumienia sensu formularza.
- Nieznajomość wymaganej informacji.
- Lekceważenie znaczenia informacji, co jest typowe dla rejestracji w serwisach internetowych.
- Błędy generowane przez niedoskonałe mechanizmy automatycznej walidacji, gdy pomimo wprowadzenia prawdziwych danych, aplikacja i tak forsuje swoje zasady wpisu.
Zaburzenia w procesach
Każdy z procesów pozyskiwania danych jest potencjalnym źródłem zaburzeń ich jakości. Dane źródłowe nigdy nie są doskonałe, a błędne dane mają tendencję do propagowania się i mutowania, podczas gdy procesy migracji i konwersji dodatkowo nasilają to zjawisko. Takie zagregowane błędy są bardzo trudne lub wręcz niemożliwe do wykrycia w okresie późniejszym.
Gromadzenie danych osobowo-adresowych jest przykładem zbierania informacji tekstowej, a więc z definicji dosyć swobodnie i opisowo traktowanej, nie biorącej udziału w procesach obliczeniowych. Powszechność tego zjawiska upoważnia go do pełnienia roli reprezentatywnego przykładu dla dyskusji nad zagadnieniem jakości danych.
Zauważmy na wstępie, że te same wartości używane dla jednych celów nie muszą być wcale odpowiednie dla innych. Na przykład, baza adresowa z przeznaczeniem marketingowym może być w jakimś stopniu "zanieczyszczona". Dla tego zastosowania stopa zanieczyszczenia na poziomie kilkunastu procent nie powinna burzyć krwi w żyłach - najwyżej nie do każdego klienta dotrze informacja reklamowa. Nie jest to być może zbyt budujące, ale weźmy dla przeciwwagi taki sam odsetek błędnych adresów w bazie o znaczeniu handlowym - jeśli do takiej samej ilości klientów nie dotrą faktury, to już można mówić o porażce.