Dbaj o jakość danych

Trudno przecenić rolę informacji w biznesie. Czy jednak nasze dane są odpowiedniej jakości?

Trudno przecenić rolę informacji w biznesie. Czy jednak nasze dane są odpowiedniej jakości?

Rola danych w osiąganiu przewagi konkurencyjnej jest dobrze udokumentowana; każdy kto ma dostęp do informacji krytycznych dla działania przedsiębiorstwa może je wykorzystać do osiągnięcia sukcesu. Czyste, dokładne, aktualne i użyteczne dane stanowią o sukcesie wielu przedsięwzięć handlowych, przemysłowych i organizacyjnych.

W miarę jak przedsiębiorstwa usiłują osiągnąć wyższą jakość i efektywność pracy i zaczynają używać hurtowni danych do dzielenia się danymi między aplikacjami i jednostkami organizacyjnymi, pojawia się ważny problem jakości danych.

Problem ten jest szczególnie ważny, gdy przedsiębiorstwo zamierza przeprowadzić gruntowną restrukturyzację metod działania, zmienić reorganizację lub wprowadzić nowe techniki informatyczne do wspomagania zarządzania. Jak podaje Gartner Group: "Większość wysiłków restrukturyzacyjnych w przedsiębiorstwach nie udaje się z powodu nieodpowiedniej jakości danych w systemach informatycznych".

Firma konsultingowa Ken Orr Institute opracowała sześć reguł jakości danych, wskazujących co należy czynić, aby ich jakość w informatycznych systemach operacyjnych i hurtowni była utrzymywana na wysokim poziomie.

1. Dane nie używane nie mogą być poprawne przez długi czas

Innymi słowy "używasz danych albo je tracisz". Popularna praktyka korzystania z danych polega na ich systematycznym gromadzeniu w przekonaniu, że pewnego dnia komuś się przydadzą, ponieważ taniej jest umieścić je w systemie obecnie niż wprowadzać wtedy, gdy będą potrzebne. Prowadzi to do rozbudowywania aplikacji "na zapas" i wymagania od pracowników wprowadzania pól, które "może kiedyś się przydadzą". Ludzie dość szybko spostrzegą, że w niektóre pola można wprowadzić cokolwiek, a system i tak nie reaguje, gdyż dane nie są kontrolowane.

Jeżeli dane adresowe są używane tylko do drukowania nalepek adresowych i nikt ich nie koryguje na podstawie zwrotów przesyłek nie doręczonych, dane te nie mogą być dokładne. Tylko dane powiązane stale ze światem, którego dotyczą, mogą być precyzyjne.

2. Jakość danych zależy od ich używania, nie zaś od zbierania

Problem jakości danych jest bardzo widoczny w firmach, które zaczynają tworzyć hurtownie danych. Po ustaleniu reguł spójności i jakości danych na wejściu hurtowni często okazuje się, że prawie połowa danych nie spełnia tych reguł. Można to było przewidzieć wcześniej, choćby z uwagi na częstotliwość ich używania.

Jednakże próba stworzenia hurtowni danych może uświadomić informatykom i kierownictwu firmy problem jakości i wskaże drogi rozwiązania.

3. Jakość danych nie będzie lepsza niż najbardziej wymagające użycie

Ken Orr Institute cytuje problem roku 2000 jako klasyczne zastosowanie tej reguły. Mało kto używa dat z roku 2000 i obliczeń z nimi związanych w codziennej działalności, może z wyjątkiem banków udzielających kredytów o czasie zakończenia przekraczającym rok 2000 i długoterminowych kredytów hipotecznych, nie ma więc możliwości sprawdzenia poprawności danych.

4. Jakość danych pogarsza się z wiekiem systemu

W latach 60. i 70. uważało się, że czas "życia" systemów informatycznych wyniesie kilka lat. Nie widziano więc potrzeby wprowadzania kosztownych procedur testowania jakości danych, gdyż wszelkie pojawiające się problemy można było rozwiązać w kolejnej wersji aplikacji.

Jednak okazało się, że systemy informatyczne "żyją" dłużej niż sądzili najwięksi pesymiści. Istnieją aplikacje i systemy używane nieprzerwanie przez 20 lub więcej lat. Chyba nikt nie potrafi powiedzieć, jaka jest jakość danych.

W przypadku systemów długowiecznych gorszym problemem jest jakość metadanych (danych o danych). Podczas używania systemu dość szybko okazuje się, że pewne dane nie są używane lub inne pola wprowadzono bez sprecyzowanej potrzeby. Zamiast wprowadzać do nich poprawne dane, użytkownicy wpisują dane potrzebne im lokalnie, a każdy czyni to na swój sposób. Ponieważ nikt nie przekazuje działowi informatyki wiadomości na temat wprowadzonych przez siebie zmian, model danych w systemie zaczyna znacznie odbiegać od rzeczywistości. Problem ujawnia się ewidentnie przy próbie użycia takich danych w hurtowni.

5. Im dane bardziej poufne, tym ich jakość niższa

Tu nasuwa się analogia do dyktatury i demokracji. Niektórym osobom wydaje się, że dyktatura to efektywny sposób rządzenia, ale demokracja ze swoimi nieefektywnościami działa jednak lepiej, głównie z tego powodu, iż więcej osób może wpływać na jakość stosowanych procedur. To samo dotyczy danych.

6. Większa liczba danych nie oznacza wyższej jakości

Aby zachować jakość danych w społeczeństwie szeroko korzystającym ze zdobyczy technologicznych, trzeba ograniczać ich ilość. Jedną z konsekwencji nadmiaru danych jest trudność w znalezieniu tych ważnych i w porównywaniu danych, pochodzących z różnych źródeł.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200