Czyste dane

Z uwagą przeczytaliśmy Pański artykuł "Czyste dane" w nr 6/226 Computerworldu. Tak się składa, że opisywane problemy nie są nam obce.

Z uwagą przeczytaliśmy Pański artykuł "Czyste dane" w nr 6/226 Computerworldu. Tak się składa, że opisywane problemy nie są nam obce.

Nasza firma produkuje oprogramowanie do obsługi masowych ilości dokumentów, nazywane też czasami systemami automatycznej identyfikacji (produktem ubocznym tej działalności jest program dmt_label (Projektant Etykiet) opisywany na Państwa łamach). W naszej działalności wielokrotnie spotykaliśmy się z problemami czystości baz danych, a szczególnie adresowych baz danych. Jest to oczywiście wąski wycinek całego problemu, ale dobrze prezentujący specyfikę całego zagadnienia.

Rzeczywiście, istniejące na rynku polskim orpgramowanie zachodnie nie daje jasnych i prostych metod oczyszczania baz danych ze względu na specyfikę naszego języka. Niemniej istotna jest specyfika kulturowa narzucająca określony sposób pisania adresów (np. inicjały praktycznie nie są stosowane).

W problemach czystych baz napotykamy na podstawowe problemy:

1. Problem błędów: literówki, choć nie tylko.

2. Migracja - szczególnie istotna przy braku innego niż adres, a powszechnie znanego identyfikatora osoby (jak PESEL czy NIP).

3. Zmiany nazwiska (kobiety).

"Uwieńczeniem" tych problemów jest (uwaga na żargon) deduplikacja baz danych, czyli (po ludzku) znalezienia identycznych rekordów.

Od paru lat pracujemy nad tego typu tematami, dochodząc do dość interesujących rezultatów. Część z tych problemów może być rozwiązana automatycznie lub półautomatycznie. Dużo pracy włożyliśmy w systemy automatycznej korekcji adresów. Problem nie został rozwiązany całościowo, ale częściowe rezultaty są obiecujące i - co najważniejsze - przynoszą realną poprawę stanu bazy danych.

Przy usuwaniu identycznych (w sensie: opisujących ten sam obiekt) rekordów bez klucza głównego ważne jest stworzenie takiego klucza. Tu rówież prowadziliśmy szerokie analizy uwieńczone metodami automatycznej generacji semiüunikalnych identyfikatorów. Dzięki takim rozwiązaniom poszukiwanie identycznych rekordów nie jest już problemem o złożoności kwadratowej.

Nasze prace nie mają postaci pakietu z półki, powstały one i są doskonalone w ramach dużych projektów jako niezależne algorytmy i techniki.

<div align="right">Tomasz Macura

dmt s.c

Systemy informatyczne</div>

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200