Ulepszanie danych

Kolejnym krokiem jest wyławianie wrażliwych danych przepływających do autoryzowanych pracowników firmy. Ma to na celu ustanowienie wystarczających barier, aby uniemożliwić samotnemu napastnikowi dokonanie znaczących zniszczeń. Po prostu należy wprowadzić takie procedury, które wykluczą możliwość samodzielnego wykonania wycieku - procedura wymusza konieczność włączenia większej liczby osób, co znakomicie utrudnia sprawę.

Dane pierwszej jakości

Zapewnienie jakości danych jest zawsze trudniejsze niż to się wydaje, ale nowe narzędzia czynią to zadanie trochę łatwiejszym.

Integralność danych, czy też jakość danych, jak to się ostatnio określa, staje się powoli gorącym tematem w wielu działach IT. Zarząd będący pod wrażeniem witryny WWW z formularzami wypełnianymi przez klientów często dziwi się, dlaczego te dane są takie nieuporządkowane. Grupa marketingowa potrzebuje realnego wsparcia ze strony dokładnych i wiarygodnych danych, a nie składowiska niespójnego i niedokładnego.

Kilku dostawców oprogramowania podjęło ten problem oferując narzędzia i pakiety, które traktują dane jako coś więcej niż zbiór bitów: tworzą one skomplikowane, logiczne struktury dla informacji i opisu modeli dla liczb i ciągów w polach baz danych. Problem jakości danych istnieje przede wszystkim dlatego, że bity nigdy perfekcyjnie nie odzwierciedlały właściwości informacji.

Szlifowanie danych

Takie systemy mają często błyskotliwe opakowanie, ale typowe, praktyczne narzędzia zaprojektowane do wspomagania działów IT generalnie przybierają formę działania według prostego wyrażenia: "if-then-else". Systemy czyszczą dane poprzez zastosowanie reguł, które usuwają wszystkie możliwe lub fałszywe duplikaty. Mogą one np. podmienić wszystkie Instancje "Bob" na "Robert" lub dodawać do starych numerów telefonów nowy przedrostek strefowy.

Jednym z najstarszych i najbardziej popularnych zastosowań oprogramowania jakości danych jest oczyszczanie, proces uaktualniania np. list wysyłkowych, po którym adresy są aktualne, poprawne i kompletne - w możliwym do osiągnięcia zakresie. Są też technologie agregujące reguły normalizacji adresów w modularne aplikacje, które mogą rozpoznawać błędy, korygować je i dodawać bardziej kompletne kody adresowe.

Po pierwszych sukcesach czyszczenia list adresowych, opracowuje się narzędzia, które mogą wspomóc inne części przedsiębiorstwa. Dotyczy to rekordów z danymi klientów, które można konsolidować. Gdy pojawia się rekord nowego klienta, jest on standaryzowany i sprawdzany, a następnie kompletowany. Jeżeli taki klient już istnieje w głównym zbiorze danych, to synchronizuje się wszystkie systemy z najnowszą informacją.

Taki proces czyszczenia może być skomplikowany. Istnieje nawet pewne ryzyko nadmiernego "przeszlifowania" danych, zwłaszcza wtedy gdy próbuje się decydować, które niepoprawne wartości mogą być odrzucone, ponieważ w takim postępowaniu można zgubić dane użyteczne.

Uzyskanie danych wejściowych do podjęcia decyzji o tym co jest poprawne, lub oczyszczone, staje się łatwiejsze, ponieważ wiele nowych produktów ma prosty interfejs użytkownika, który umożliwia każdemu w przedsiębiorstwie wzięciu udziału w tym procesie. Wizualne języki programowania pozwalają tworzyć reguły i przepływy zadań dla czyszczenia danych. Taki język nie wymaga kwalifikacji programisty, jeżeli używany jest do dodawania reguł lub zmiany istniejących w związku ze zmieniającymi się warunkami biznesu.

Struktura i role takich narzędzi szybko się zmieniają. Pierwsze narzędzia były projektowane do pracy w tle, w celu usuwania niedokładności drogą analizy składniowej informacji, stosowania reguł i porównywania rozmaitych źródeł. Nowe wersje pracują w ramach architektury SOA, zapewniając odpowiedź w czasie rzeczywistym, co pozwala programistom na eliminowanie dwuznaczności lub niedokładności zanim się pojawią.

Jednym z zastosowań takich narzędzi jest zgodność z regulacjami. Oprogramowanie, które zapewnia jakość danych, może zapobiegać, aby firmy nie ignorowały prawa.

Dostawcy oferują systemy, które w bardziej wyrafinowany sposób wykonują operacje porównywania i które mogą być łatwo powiązane z tradycyjnymi, relacyjnymi bazami danych. Narzędzia te wstępnie przetwarzają informacje i zapewniają, że porównywanie jest szybsze i bardziej spójne.

Podnoszenie poziomu dostępności danych

Problem dostępności danych to nie tylko błędy IT, prowadzące do nieplanowanych przestojów. Za głównego sprawcę firma badawcza Gartner uważa błędy oprogramowania, a "błędy operatorskie" za drugą powszechną przyczynę - przed uszkodzeniami sprzętu, katastrofami budynków i zjawiskami, takimi jak burze czy powodzie. Ale spośród wszystkich wymienionych głównych przyczyn błędy ludzkie są tymi, z którymi IT może realnie coś zrobić.

Błędy oprogramowania często wynikają z błędów konfiguracyjnych, a czasami pojawiają się jako rezultat niewłaściwego testowania: niekompatybilność nie zostaje wykryta, ponieważ aplikacja testowana była np. na odmiennej niż produkcyjna konfiguracji systemu.

Nawet uszkodzenia sprzętu mogą być przypisane niewłaściwym praktykom w IT. Jeżeli system nie jest chłodzony odpowiednio, jeżeli nie jest prawidłowo rozmieszczony, lub jeśli procedury startowe i zamykania nie są przeprowadzane poprawnie, żywot wyposażenia często ulega skróceniu i mogą pojawić się przedwczesne uszkodzenia. Nawet proste urządzenia wymagają, aby przeczytać ich instrukcję obsługi.

Jednak niezależnie od tego, czy jest to praktyka testowania oprogramowania, procedura konserwacji sprzętu czy po prostu błędy ludzkie, pytanie brzmi: Co z tym zrobić?

Computerworld.pl

Ulepszanie danych

Dane pierwszej jakości

Szlifowanie danych

Podnoszenie poziomu dostępności danych

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Ulepszanie danych

Dane pierwszej jakości

Szlifowanie danych

Podnoszenie poziomu dostępności danych

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830