Na straży jakości danych

Piotr Kowalski,
01.06.2010

Nawet przy dzisiejszym, relatywnie wysokim poziomie technologicznym dbałość o jakość danych w dużej mierze zależy wciąż od racjonalnej polityki człowieka.

Jakość danych stanowiąca o ich używalności, obok dostępności, integralności i bezpieczeństwa, jest jednym z elementów szeroko pojętego zarządzania danymi (data governance). Stara zasada mówiąca, że jeśli do systemu informatycznego włoży się śmieci, to otrzyma się w wyniku również śmieci, jest w dalszym ciągu prawdziwa. Pomimo wielu narzędzi automatyzacji, ze złych danych trudno otrzymać dobre wyniki, a czasami wręcz, wskutek działań niedoskonałych procedur algorytmicznych, może nastąpić pogorszenie jakości informacyjnej.

Skąd się biorą błędy?

Przyczyn błędów danych wprowadzanych ręcznie należy doszukiwać się w następujących źródłach:

- Pomyłka klawiaturowa, literówka.

- Brak staranności lub nieznajomość zasad językowych, np. niedotrzymanie standardów stosowania małych i wielkich liter.

- Wprowadzenie wartości do niewłaściwego pola.

- Niezrozumienie znaczenia danych wynikające z niezrozumienia sensu formularza.

- Nieznajomość wymaganej informacji.

- Lekceważenie znaczenia informacji, co jest typowe dla rejestracji w serwisach internetowych.

- Błędy generowane przez niedoskonałe mechanizmy automatycznej walidacji, gdy pomimo wprowadzenia prawdziwych danych, aplikacja i tak forsuje swoje zasady wpisu.

W pierwszym rzędzie postarajmy się usystematyzować kilka spraw związanych z "obrotem" danymi. Otóż, dane pierwotne pojawiają się w systemie informatycznym poprzez ręczne wprowadzanie lub automatyczną rejestrację. Ręczne wprowadzanie jest w dalszym ciągu bardzo rozpowszechnione i pomimo rozwoju technologicznego, nie znajduje godnego następcy, zwłaszcza w dziedzinie pozyskiwania informacji bezpośrednio od jej właścicieli. Natomiast automatyczne rejestrowanie danych związane jest z istnieniem odpowiednich interfejsów pozwalających na pobieranie danych przekazywanych z urządzeń technicznych. Dane wtórne natomiast stanowią przetworzoną i w takiej postaci pamiętaną grupę informacji, a także mogą pojawić się wskutek migracji z innego systemu bądź konsolidacji danych z różnych baz. Chociaż w momencie pozyskiwania i przetwarzania tych danych dobrze znane jest ich źródło jak i metoda pozyskiwania, to po dłuższym czasie zależność ta ulega daleko posuniętemu rozmyciu, a pierwotne źródło bywa często już niedostępne.

Zaburzenia w procesach

Każdy z procesów pozyskiwania danych jest potencjalnym źródłem zaburzeń ich jakości. Dane źródłowe nigdy nie są doskonałe, a błędne dane mają tendencję do propagowania się i mutowania, podczas gdy procesy migracji i konwersji dodatkowo nasilają to zjawisko. Takie zagregowane błędy są bardzo trudne lub wręcz niemożliwe do wykrycia w okresie późniejszym.

Gromadzenie danych osobowo-adresowych jest przykładem zbierania informacji tekstowej, a więc z definicji dosyć swobodnie i opisowo traktowanej, nie biorącej udziału w procesach obliczeniowych. Powszechność tego zjawiska upoważnia go do pełnienia roli reprezentatywnego przykładu dla dyskusji nad zagadnieniem jakości danych.

Zauważmy na wstępie, że te same wartości używane dla jednych celów nie muszą być wcale odpowiednie dla innych. Na przykład, baza adresowa z przeznaczeniem marketingowym może być w jakimś stopniu "zanieczyszczona". Dla tego zastosowania stopa zanieczyszczenia na poziomie kilkunastu procent nie powinna burzyć krwi w żyłach - najwyżej nie do każdego klienta dotrze informacja reklamowa. Nie jest to być może zbyt budujące, ale weźmy dla przeciwwagi taki sam odsetek błędnych adresów w bazie o znaczeniu handlowym - jeśli do takiej samej ilości klientów nie dotrą faktury, to już można mówić o porażce.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem IDGLicensing@theygsgroup.com