Poprawka z danych

Jakość danych przechowywanych w systemach informatycznych jest problemem technologicznym, jednak o konsekwencjach natury czysto biznesowej.

Jakość danych przechowywanych w systemach informatycznych jest problemem technologicznym, jednak o konsekwencjach natury czysto biznesowej.

Problem jakości danych, choć początkowo niedoceniany, staje się teraz istotny dla polskich firm i urzędów. Jego wagę można ocenić właściwie dopiero przy przekroczeniu fazy wstępnego rozwoju systemów informatycznych, gdy dochodzi do integracji zbiorów przechowywanych danych. "Dzisiaj budowanie systemów IT to w dużej mierze centralizacja baz danych" - uważa Krzysztof Kardaś, członek zarządu Prokom Software.

Poprawka z danych

Dobra jakość danych to większa wydajność pracownika

Dane jakościowe to takie, które są dokładne (wolne od błędów powstałych przy ich wprowadzaniu, transformacji, analityce, prze- chowywaniu czy przesyłaniu), kompletne (zawierają wypełnione wszystkie pola dostępnych rekordów) oraz spójne (w całej bazie danych w warstwie definicji i zawartości). Dane jakościowe muszą być dokumentowane i administrowane: by utrzymywać ich jakość w czasie, by wiedzieć, w jaki sposób powinno się je analizować. Nie ma jednej miary jakości danych, zależy ona bowiem od konkretnego systemu i jego aktualnego zastosowania.

Firmy zazwyczaj zbyt mało troszczą się o jakość danych w systemach produkcyjnych. "Trudno się temu dziwić, bo na początku - tzn. wtedy, gdy funkcjonują tylko takie systemy - w ogóle nie widać takiej potrzeby. Dla firm problem, który wystąpi za rok, nie jest problemem" - mówi Wojciech Sypko, menedżer w Arthur Andersen.

Różnice w definicjach danych, wydawałoby się tak subtelne, że zgoła zupełnie nieistotne, w czasie integracji danych urastają do rozmiarów przeszkód trudnych do pokonania. Rozproszone, nie powiązane bazy danych mogą szybko się rozrastać. Tymczasem to nie one są zasobem strategicznym. Tym, co najcenniejsze, jedynym nadającym się do wielokrotnego wykorzystania zasobem, są dane. Ich wartość maleje, gdy można z nich korzystać tylko w jednym konkretnym systemie. Obecnie wymagania jakościowe, jakie na dane nakłada źródłowa podstawowa aplikacja, przestały być wystarczające. Wzrasta bowiem liczba interakcji między systemami. W dużych repozytoriach istotne stają się błędy niemożliwe czy trudne do zaobserwowania na poziomie pojedynczych rekordów. Wychodzą one na jaw np. dopiero w czasie analizy wielowymiarowej kostki, w której znajduje się kilkadziesiąt tysięcy elementów.

Konsultanci twierdzą, że zauważalna część kosztów działalności dużych firm to działania pozwalające na obejście albo poprawienie błędów w danych. Zdaniem Billa Inmona, autorytetu w dziedzinie rozwiązań business intelligen- ce, w procesie budowy korporacyjnej hurtowni danych przeciętnie 80-90% wysiłków specjalistów skupia się na sprawach związanych z budową interfejsów łączących środowiska systemów operacyjnych i hurtownię danych. Zadanie jest trudne w przypadku braku zintegrowanego środowiska danych. Iluż informatyków jest zaangażowanych tylko po to, by tworzyć rozwiązania, które służą do pobierania danych z jednej bazy, ich transformacji i załadowania do innego repozytorium? Czy ta praca jest niezbędna? Jak wyznaczyć całkowity (w większości ukryty) koszt złej jakości danych?

Błąd zamaskowany

Do tej pory błędy w danych były traktowane jako rzecz nieunikniona, jeden z kosztów działalności biz- nesowej. Dopiero techniki zaawansowanej analizy danych czy pró- by agregacji danych pochodzących z różnych systemów w jednej korporacyjnej hurtowni danych sprawiły, że sprawa jakości danych zaczęła być postrzegana jako problem kluczowy, który wymaga rozwiązania systemowego. Poprawa jakości danych to proces nietrywialny, który niemało kosztuje (czasem nawet do kilkunastu czy ponad 20% całego budżetu działu IT), ale być może jeszcze więcej kosztują błędy (np. poprzez nietrafione akcje mailingowe, brak właściwej obsługi dużych czy stałych klientów). Przy analizie danych istotne są wychwytywanie i lokalizowanie pewnych wzorców charakteryzujących klientów. W tym celu są podejmowane inwestycje w tematyczne hurtownie danych. Tymczasem zbyt duży odsetek błędnych danych może sprawić, że tych wzorców nie da się prawidłowo zlokalizować.

Powszechne jest błędne przekonanie, że złe jakościowo (brudne) dane to proste przekłamania, jak literówki, niepełne adresy czy brakujące pola w danych. Wystarczy skierować grupę osób do czyszczenia zawartości bazy i problem zniknie. Tymczasem to działanie doraźne. Podstawową sprawą jest stworzenie standardów reprezentacji klientów, produktów i innych obiektów w bazach danych, tak aby utrzymać ich integralność. Istotne są nie tylko błędy syntaktyczne (niejednolity format danych), lecz również semantyczne (znaczeniowe).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200