Poprawka z danych

O nieprzywiązywaniu wagi do jakości danych decydowała być mo- że również zbyt mała widoczność tego problemu ze strony zarządu. Do jego członków docierają informacje zagregowane, które zazwyczaj przechodzą przez wiele komórek, co stwarza niemało okazji do eliminowania wystąpień błędnych danych (czasem jest to efekt zamierzonej manipulacji przez menedżerów średniego szczebla - dla nich sytuacja, w której zarząd sam byłby w stanie generować szczegółowe sprawozdania, może być niewygodna). W efekcie z perspektywy zarządu prob- lem jakby nie istniał. Z czasem może jednak urosnąć do rozmiarów istotnych zagrożeń. Właśnie zła jakość danych była jedną z głównych przyczyn pojawienia się Problemu Roku 2000 (Y2K).

Tak wiele projektów rozwiązań business intelligence kończy się niepowodzeniem z uwagi na niedocenienie wagi czynnika jakości. To nieodpowiednia architektura danych, niespójne definicje danych w posz-czególnych systemach, niemożność powiązania danych pochodzących z różnych źródeł, brakujące albo niedokładne zawartości pół informacyjnych, niekonsekwencje w używaniu tych pól, brak wykorzystania jednolitych słowników danych.

"Znajomość jakości danych pozwala na ocenę wiarygodności wyników prowadzonych analiz" - twierdzi Piotr Badylak, menedżer w Arthur Andersen. "Na ogół w dużych firmach, w których działy IT są stabilne, informatycy mają dobrą świadomość stanu gromadzonych danych" - mówi Krzysztof Kardaś. Niestety, nie zawsze tak jest. Świadczy o tym przykład ubiegłorocznej fuzji Citibanku i Handlobanku, która skończyła się pasmem dwutygodniowych kłopotów dla klientów. Zbyt mocno wierzono w jakość danych w połączonych systemach informatycznych obu banków.

Dopiero gdy dokona się prezentacji, biorąc dostępne zbiory przykładowych danych, można zobrazować skalę problemów. Wówczas reakcja decydentów wygląda dwojako: albo jest to zdumienie ("nie mogę w to uwierzyć"), albo powątpiewanie ("to nie mogą być moje dane").

Jakościowy użytkownik

Ważną sprawą jest przekonanie pracowników, że jedną z miar wyznaczających wartość ich pracy jest jakość wprowadzanych przez nich danych. Muszą wprowadzać jak najbardziej dokładne dane (przy zakładanych wymaganiach), pamiętając, że nie znikają one w systemie, ale są później wykorzystywane przez innych. Dbanie o jakość danych musi być procesem ciągłym.

Poprawka z danych

Podział odpowiedzialności za jakość danych w przedsiębiorstwie

W największych firmach na świecie standardowo stosuje się już techniki weryfikacji danych na etapie ich wprowadzania (wg danych Gartner Research w blisko 60% największych firm to narzędzia kontroli zawartości pól wprowadzanych danych), w ok. 25% przypadków stosuje się moduły służące do czyszczenia danych, zaś jedynie w nielicznych przypadkach wdrożono rozwiązania organizacyjne, dzięki którym pracownicy są nagradzani za wprowadzanie dobrych jakościowo danych. Metody zachęt są odpowiednie dla firm o dużej kulturze, gdzie indziej nacisk powinien być położony na narzędzia automatyczne.

Narzędzia kontroli poprawności danych na etapie ich wprowadzania (weryfikacja poszczególnych pól) nie wykrywają błędów pozostających w zakresie dopuszczalnych wartości (np. gdy operator ma wprowadzić wiek danej osoby, a nie ma tych danych bądź po prostu nie chce mu się ich wypisywać, standardowo więc "wklepuje" 99 - wiek dopuszczalny, lecz są to dane fałszywe, które później mogą sprawić wiele kłopotów). Tego typu błędy można wykryć później, np. stosując metody analizy statystycznej. Pozwalają one również na znalezienie istotnych odchyleń od średniej (np. błędnie wystawionej faktury zamiast w tysiącach - w milionach złotych).

W Stanach Zjednoczonym sektorem, w którym jakość danych zawsze była sprawą pierwszorzędną, jest służba zdrowia. Normą jest tam stosowanie specjalizowanych pakie-tów oprogramowania, zajmującego się weryfikacją i rafinacją gromadzonych danych.


TOP 200