Nieosiągalny ideał i smutna rzeczywistość

Kolejną przyczyną powstawania zaburzeń w danych jest świadome kodowanie różnych sytuacji za pomocą wartości niedozwolonych. Z sytuacją taką spotkaliśmy się w wielooddziałowej firmie ubezpieczeniowej. W polu o długości jednego znaku dozwolone były wartości A, B, C, D, E i F, określające typ umowy. W większości lokalnych oddziałów dyrektorzy używali jednak pozostałych kodów (G... Z), dla oznaczenia wariantów umowy danego typu. Przykładowo, kod K oznaczał umowę typu B z pewnymi wykluczeniami, opisanymi w lokalnym (oddziałowym) dokumencie. Taka lokalna inicjatywa ułatwiała pracę w oddziale, natomiast problem pojawił się wtedy gdy trzeba było wykonać w centrali zbiorcze zestawienie według typów umów. W danych nadesłanych z większości oddziałów występowały umowy o kodach od A do Z, z tym że dla każdego z oddziałów kody powyżej F oznaczały zupełnie co innego.

Na Śląsku kody "nielegalne" wykorzystano do oznaczania różnych typów ubezpieczeń górników, w dużych miastach na Wybrzeżu - do ubezpieczeń stoczniowców. Pogrupowanie wszystkich umów w kraju według typów umów nie było możliwe na poziomie centrali, w konsekwencji nie sposób było określić, który typ umowy jest najbardziej popularny, dochodowy itp. Problem rozwiązano poprzez ręczne przyporządkowanie wszystkich kodów lokalnych kodom podstawowym po konsultacjach z poszczególnymi oddziałami. Oczywiście było to zadanie czasochłonne i kosztowne.

Konsekwencje

Informacje przygotowane na podstawie danych niskiej jakości z natury rzeczy muszą być obarczone błędem. W przypadku braku wspólnej definicji pojęć w raportach z poszczególnych oddziałów wielkości dotyczące tej samej pozycji (np. sprzedaży, zysku, liczby klientów) będą się różnić, a ponadto każdy oddział będzie gwarantował poprawność swoich obliczeń (i ze swojego, lokalnego punktu widzenia będzie miał rację).

Błędy spowodowane dowolnością formatu wpisywanych danych przekładają się na trudności w identyfikacji klienta w bazie danych, co może spowodować błędną ocenę jego sytuacji lub trudności przy jego bieżącej obsłudze. Dla firm ubezpieczeniowych taka sytuacja występuje przy łączeniu ze sobą dokumentów wniosku, umowy i wypłaty odszkodowania. W branży bankowej odnosi się do wniosków, umów kredytowych i np. procesu windykacji. Jeśli systemy obsługi nie są zintegrowane, to często wyszukanie informacji o historii klienta od złożenia wniosku do rozwiązania umowy (poprzez np. spłacenie kredytu, wygaśnięcie umowy lub wypłacenie odszkodowania) jest zadaniem godnym Herkulesa.

Błędne wartości w opisie cech klienta (typ pracy, wykształcenie, palenie papierosów itp.), traktowanych zresztą często drugoplanowo, może być przyczyną błędów w analizie sytuacji, a w konsekwencji błędnych decyzji. Nikt nie chciałby się zapewne dowiedzieć, że jego decyzja o ograniczeniu rezerwy na wypłaty odszkodowań spowodowanych chorobami wywołanymi przez palenie tytoniu została podjęta na podstawie błędu w danych (ankietujący przeważnie nie zadawał tego pytania, a domyślna wartość pola była ustawiona na "Niepalący").

Kolejną kwestią jest tzw. segmentacja klientów, czyli dzielenie ich na grupy według przyjętych kryteriów. Do tak wydzielonych grup kieruje się określone propozycje, dostosowane do ich potrzeb i moż- liwości. Dzięki temu liczba rozsy- łanych materiałów jest znacznie ograniczana przy zachowanym efekcie (poszczególni klienci będą reagować wyłącznie na właściwie dobrane oferty, np. samotny artysta malarz nie dokupi dodatkowego telefonu nawet w promocji, w przeciwieństwie do aktywnego przed-siębiorcy, a z kolei pracownik przeżywającej obecnie kryzys branży motoryzacyjnej raczej niechętnie będzie dokupywał dodatkowy pakiet usług). Kluczem do prawidłowego dobrania segmentów klientów jest posiadanie informacji o nich. Ale co zrobić, jeśli 30% klientów zostaje przydzielonych do poszczególnych grup, a 70% otrzymuje status "Niesklasyfikowany" z powodu niekompletnych lub błędnych danych?

Porady

Z błędami w danych postępuje się jak z chorobą - pacjenta należy wyleczyć. Pytanie, czy leczyć objawy czy przyczyny?

Błędne dane są przyczyną otrzymywania błędnych wyników. Sytuację taką można zmienić poprzez wykonanie poprawek w raportach lub wyeliminowanie błędów w danych źródłowych. Zazwyczaj zastosowanie znajduje pierwszy sposób, co oczywiście kończy się nawrotem objawów w następnym okresie sprawozdawczym.

Normy bezpośrednio dotyczące jakości danych podają najczęściej wzorce wraz z ewentualnymi dopuszczalnymi odstępstwami. Przykładami takich norm są brytyjski OFTEL i australijski ACI, które dotyczą operatorów telekomunikacyjnych i określają precyzyjnie m.in. dopuszczalną liczbę błędnych rekordów w danych billingowych. Standardy odnoszące się do jakości danych najczęściej wynikają w sposób pośredni z innych uregulowań lub ogólnie przyjętych wzorców. Przykładem takiego standardu jest Ustawa o rachunkowości, która mówi nam m.in. jakie informacje i w jakim stopniu szczegółowości muszą być dostępne przez 5 lat. Ma to bezpośredni wpływ na jakość danych, które mają być dostępne dla systemu przez co najmniej 5 lat.

Te sposoby oceny jakości danych nie są jednak metodą na doprowadzenie danych do poprawnego stanu, dają jedynie możliwość określenia, na ile stan aktualny odpowiada przyjętym standardom i na ile jest zgodny z normami.

Procedury

Podstawowym czynnikiem w zapewnieniu jakości danych jest opracowanie i wdrożenie odpowiednich procedur, pozwalających na monitorowanie i sukcesywne podnoszenie jakości danych. Należy przy tym zwrócić uwagę na odpowiednie tempo wprowadzania kolejnych wymogów, jakie muszą spełniać dane. Wprowadzenie za jednym zamachem rozbudowanego zestawu zasad warunkujących przyjęcie danych może spowodować znaczące opóźnienia w ich dostarczaniu. Warto więc czynić to stopniowo, poczynając od najprostszych (np. od kontroli kompletności wypełnienia pól).

Opracowanie najlepszych nawet procedur, mających na celu zapewnienie wysokiej jakości danych, nie przyniesie efektów, jeżeli procedury te nie będą stosowane. Zazwyczaj są one postrzegane jako dodatkowe obowiązki, szczególnie uciążliwe w pierwszej fazie wdrożenia. Jak zatem zachęcić pracowników do ich stosowania?

Jednym ze sposobów motywowania do przestrzegania procedur i w konsekwencji poprawy jakości jest monitorowanie stanu danych i prowadzenie rankingów. Nie jest zbyt istotne, czy rankingi będą obsługiwane i publikowane przez specjalnie w tym celu opracowane systemy komputerowe, czy też za pomocą zwykłej tablicy, na której będzie przedstawiana aktualna sytuacja. Istotne, że poszczególne zespoły czy oddziały będą ze sobą porównywane (ważny jest dobór odpowiedniego miernika jakości), zaś informacja o bieżącej pozycji względem innych będzie dostępna wszystkim. Widok siebie (swojego zespołu, działu) na ostatnim miejscu moty- wuje znacznie bardziej do działań, niż np. rozmowa z przełożonym, o której w praktyce poza bezpośrednio zainteresowanymi nikt się nie dowie. Również świadomość, że np. średnia liczba błędnych danych w oddziałach firmy oscyluje wokół 5%, a w moim oddziale wynosi 25%, motywuje do podjęcia szybkich działań. Skoro inni mogą zapewnić wyższą jakość, to naturalne będzie zainteresowanie kierownictwa, dlaczego ten konkretny oddział ma tak niskie wskaźniki.

Niezależnie od podejmowanych działań w praktyce nie występują duże zbiory danych pozbawione błędów. Tam gdzie pojawia się człowiek, pojawiają się błędy - jest to naturalne. Jednak można i należy minimalizować liczbę błędów.

Większość osób odpowiedzialnych za dostarczanie informacji (szefowie działów analiz, administratorzy aplikacji) zapytana o problem jakości danych stwierdza, że w ich firmie (oddziale, zespole) problem nie występuje. Jednak po zbadaniu jakości danych zazwyczaj okazuje się, że odsetek tych dobrych nie przekracza 40% i jest to stan- dardowy punkt startu w projektach, związanych z poprawą lub zarządzaniem jakością.

Piotr Badylak i Wojciech Sypko są menedżerami w Arthur Andersen.


TOP 200