Nie ma jak identyfikator

Problemy kojarzenia danych mają obecnie nieporównywalnie większe znaczenie, aniżeli miało to miejsce przed wiekami. Może wynikać to z faktu, że teraz zajmujemy się gromadzeniem wszelkiej maści danych, próbując w razie potrzeby dokonać na ich podstawie niezbędnych analiz. Dysponujemy technologią oferującą składowanie i przeszukiwanie ogromnych ilości informacji - czym różnią się czasy obecne od niezbyt odległej przeszłości, kiedy to nawet nie podejmowano się wykonywania pewnych analiz z racji braków warsztatowo-narzędziowych. Być może technologia jest dzisiaj wystarczająca, natomiast ciągle zależna od ludzkiej logiki postępowania, a kojarzenie pewnych informacji może okazać się w dalszym ciągu niemożliwe ze względu na brak wyznaczników określających możliwości sprzężeń pomiędzy zbiorami.

Problemy kojarzenia danych mają obecnie nieporównywalnie większe znaczenie, aniżeli miało to miejsce przed wiekami. Może wynikać to z faktu, że teraz zajmujemy się gromadzeniem wszelkiej maści danych, próbując w razie potrzeby dokonać na ich podstawie niezbędnych analiz. Dysponujemy technologią oferującą składowanie i przeszukiwanie ogromnych ilości informacji - czym różnią się czasy obecne od niezbyt odległej przeszłości, kiedy to nawet nie podejmowano się wykonywania pewnych analiz z racji braków warsztatowo-narzędziowych. Być może technologia jest dzisiaj wystarczająca, natomiast ciągle zależna od ludzkiej logiki postępowania, a kojarzenie pewnych informacji może okazać się w dalszym ciągu niemożliwe ze względu na brak wyznaczników określających możliwości sprzężeń pomiędzy zbiorami.

Całkiem niedawno kierowałem projektem integrującym trzy niezależne bazy danych osobowych w jedną całość. Każda z baz zawierała dane podstawowe, czyli imię, nazwisko oraz adres zamieszkania, co w zasadzie na zdrowy rozsądek powinno wystarczyć, aby zidentyfikować osobnika w każdej z nich w sposób jednoznaczny, tym bardziej że wszystkie kojarzone zbiory danych dotyczyły tych samych klientów jednej firmy. Okazało się jednak, że nazwisko nie zawsze równe jest nazwisku, a z adresem zamieszkania to bywa już całkiem różnie. W każdym z dwóch przypadków spajania baz (dwa zbiory dopasowywano do trzeciego) stopień udanej, tzn. jednoznacznej identyfikacji wahał się w okolicach 80%, co oznaczało, że dla 20% klientów nie znaleziono punktów wspólnych jeśli chodzi o imię, nazwisko i miejscowość zamieszkania. Wpływ na to ma wiele czynników, wydawać by się mogło natury prozaicznej. Po pierwsze literówki - wystarczy, że w jednej z baz danych w nazwisku bądź imieniu pominięta zostanie litera lub chociażby zgubiony ogonek w "ą" czy "ę", żeby nie wspominać o jakże ciągle jeszcze nagminnym wpisywaniu "ż" zamiast "ź" (część operatorów komputerów ciągle jeszcze nie wie, że litery te są rozróżnialne).

Okrawanie danych z polskich znaków diakrytycznych do celów porównawczych nie wydaje się dobrym pomysłem na osiągnięcie niewątpliwej pewności identyfikacyjnej, zwłaszcza w przypadku nazwisk. Stosowanie dodatkowych mechanizmów weryfikacji, na przykład adresu zamieszkania może być tylko częściowo pomocne, a to szczególnie w przypadku osób o powtarzających się imionach i nazwiskach. Stopień powodzenia zależy w głównej mierze od aktualności danych adresowych w spajanych bazach oraz ich jednolitości, która może być zachwiana wskutek niedopatrzeń natury projektowej, gdyż często (co nie jest najszczęśliwszym wyborem) ulicę wraz z numerem domu i mieszkania zapisuje się jako jedno pole informacyjne, co wynika tylko i wyłącznie z lenistwa, braku roztropności projektantów i przysparza wielu problemów przy dalszym przetwarzaniu tego typu danych, że o generowaniu bardziej wysublimowanych raportów nie wspomnę.

Muszę powiedzieć, że byłem zaskoczony, gdy po kilku miesiącach przerwy postanowiłem wznowić prenumeratę Computerworlda, korzystając tym razem z internetowego kiosku IDG, zamiast wysyłać papierowy druk zamówienia, co czyniłem do tej pory. Zapisałem się więc jako nowy klient, nie dysponując żadnym nadanym wcześniej identyfikatorem. Ku mojemu zdumieniu okazało się, że system mnie "wyłapał", pokazując historię moich wcześniejszych prenumerat. Gdy zacząłem dociekać, na jakiej podstawie wiedział, że ja to ja, doszedłem do wniosku, że jednak chyba NIP był moim demaskatorem. Jak widać, w informatyce, dziedzinie ścisłej, najwygodniej posługiwać się wszelkiego rodzaju jednoznacznymi identyfikatorami i nie ma wówczas najmniejszych problemów. O ile dla człowieka Jan Nowak i Janowi Nowakowi oznacza tę samą osobę, o tyle dla komputera bez kawałka niezłego oprogramowania sprawa jest zupełnie niezrozumiała.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200