Jakość i rzeczywistość

Aby szczegółowo rozważyć kwestie jakości danych, będzie nam potrzebne skrótowe zdefiniowanie takich terminów, jak: dane, informacje, wiedza i mądrość. Przypomnijmy, że dane to reprezentacje faktów czy realnych zdarzeń. Dane są zawsze już jakoś zinterpretowane przez obserwatora. Informacją są dane w kontekście, pozwalającym nadać im sens i znaczenie, czyli informacja jest funkcją trzech elementów: danych jako takich, definicji tych danych oraz sposobu ich prezentacji. Wiedza powinna być traktowana jako umiejętność wskazania na istotę rzeczy. Jest zatem funkcją: informacji (trzeba wiedzieć, o czym się mówi), osoby (sprawność wiedzy jest przymiotem człowieka) oraz istotności tematu. Mądrość jest z kolei umiejętnoś-cią widzenia skutków z pozycji przyczyn. Jej istotą jest zdolność do przewidywania konsekwencji czynności, czyli użycie wiedzy w kontekście działania.

Jakość niejedno ma imię

Niedomagania w każdym z ww. elementów (dane, informacje, wiedza i mądrość) są potencjalnym źródłem problemów z jakością danych. Przykładowo, dane mogą być niepoprawne (np. źle podana jest w systemie ilość towarów), informacja może być trudno dostępna (np. wielkość sprzedaży jest dostępna tylko w zagregowanej formie), wiedza na temat przyszłego popytu jest niedostateczna (nie rozpatrzono istotnych czynników), zaś w systemie wykonywane są zbędne operacje, bowiem błędnie przyjęto, że warunkują one inne działania (niedostatek mądrości). Chcąc zatem poprawić jakość danych, musimy prowadzić działania korygujące w każdym z tych obszarów. Ponadto musimy zwracać uwagę na różnicę między literalną jakością danych (na ile dane są zgodne z tym, co miały reprezentować) a jakością pragmatyczną, odnoszącą się do tego, w jakim stopniu dane są użyteczne (jak wiadomo dane bardzo dokładne i nieużyteczne są zazwyczaj mniej potrzebne niż dane niedokładne, a przydatne w biznesie).

Przy dokonywaniu wyboru technik i metod ulepszania jakości danych, trzeba zawsze pamiętać, do którego aspektu jakości się odnosimy. Zwykle zawężamy całe zagadnienie tylko do literalnej jakości danych, analizując, na ile dane w systemie są zgodne z wielkościami fizycznymi, które obrazują. To istotny aspekt, ale niekoniecznie najważniejszy.

Technikami, które znajdują zastosowanie w tym obszarze, są metody statys-tyczne. Zakładając na bazie badań empirycznych pewien rozkład wielkości lub cechy, możemy badać odchylenia standardowe i wariancje wielu danych. Jest to użyteczna technika, gdy dysponujemy hurtownią danych. Na przykład analizujemy kształtowanie się wielkości sprzedaży na przestrzeni pewnego okresu i staramy się wychwycić te wielkości, które w istotny sposób odbiegają od rozkładu. Szczegółowe badanie tych wielkości może prowadzić do wykrycia, że dane w systemie ERP nie odzwierciedlają rzeczywistości (popełniono np. "czeski błąd" lub świadomie zafałszowano informacje). Jednak badanie takie może stać się asumptem do głębszej analizy przyczyn, w co będą włączone wiedza: i mądrość. Przykładowo, nie tak dawno pisano w prasie, że pewne przedsiębiorstwo produkujące przyprawy, po przeanalizowaniu sprzedaży wg regionów, stwierdziło niepokojący spadek wolumenu sprzedaży w pewnym województwie. Badania "na miejscu" pozwoliły ustalić, że produkty przedsiębiorstwa są przez kogoś podrabiane i sprzedawane w sklepach jako oryginalne. Czyli zanim odkryto rzeczywiste przyczyny, dokładność danych była wysoka, ale ich jakość zła. Podjęte działania przyczyniły się do zwiększenia jakości danych, lecz na innym poziomie.

Rozumieć wspólnie

Często nie docenianym obszarem poprawy jakości danych jest uzyskiwanie spójności terminologicznej. Na co dzień mało komu przeszkadza, że jeden dział interpretuje termin "sprzedaż" jako ilość zafakturowaną, drugi jako wydaną z magazynu, zaś trzeci jako dostarczoną. Dopiero w czasie wdrożenia hurtowni danych lub problemów rynkowych zaczynamy się zastanawiać, o czym tak naprawdę mówimy. Jest to aspekt definicji danych. Poprawa jakości odbywa się tu poprzez budowę słownika danych, który jest przez wszystkich rozumiany i akceptowany. Dlatego też mówi się często, że hurtownia danych jest cezurą jakości danych w systemie transakcyjnym. Można powiedzieć więcej, że jest cezurą integracji działań wewnątrz przedsiębiorstwa - bowiem stosunkowo mniej istotne jest, czy dane są dokładne w 100 czy tylko w 90%, od tego, że wszyscy używają tych samych danych i rozumieją skąd one pochodzą (w tym skąd się biorą niedokładności).


TOP 200