Nie ma jak identyfikator

Subskrybuj RSS A A A
9 czerwca 2003
Piotr Kowalski

Problemy kojarzenia danych mają obecnie nieporównywalnie większe znaczenie, aniżeli miało to miejsce przed wiekami. Może wynikać to z faktu, że teraz zajmujemy się gromadzeniem wszelkiej maści danych, próbując w razie potrzeby dokonać na ich podstawie niezbędnych analiz. Dysponujemy technologią oferującą składowanie i przeszukiwanie ogromnych ilości informacji - czym różnią się czasy obecne od niezbyt odległej przeszłości, kiedy to nawet nie podejmowano się wykonywania pewnych analiz z racji braków warsztatowo-narzędziowych. Być może technologia jest dzisiaj wystarczająca, natomiast ciągle zależna od ludzkiej logiki postępowania, a kojarzenie pewnych informacji może okazać się w dalszym ciągu niemożliwe ze względu na brak wyznaczników określających możliwości sprzężeń pomiędzy zbiorami.

Problemy kojarzenia danych mają obecnie nieporównywalnie większe znaczenie, aniżeli miało to miejsce przed wiekami. Może wynikać to z faktu, że teraz zajmujemy się gromadzeniem wszelkiej maści danych, próbując w razie potrzeby dokonać na ich podstawie niezbędnych analiz. Dysponujemy technologią oferującą składowanie i przeszukiwanie ogromnych ilości informacji - czym różnią się czasy obecne od niezbyt odległej przeszłości, kiedy to nawet nie podejmowano się wykonywania pewnych analiz z racji braków warsztatowo-narzędziowych. Być może technologia jest dzisiaj wystarczająca, natomiast ciągle zależna od ludzkiej logiki postępowania, a kojarzenie pewnych informacji może okazać się w dalszym ciągu niemożliwe ze względu na brak wyznaczników określających możliwości sprzężeń pomiędzy zbiorami.

Całkiem niedawno kierowałem projektem integrującym trzy niezależne bazy danych osobowych w jedną całość. Każda z baz zawierała dane podstawowe, czyli imię, nazwisko oraz adres zamieszkania, co w zasadzie na zdrowy rozsądek powinno wystarczyć, aby zidentyfikować osobnika w każdej z nich w sposób jednoznaczny, tym bardziej że wszystkie kojarzone zbiory danych dotyczyły tych samych klientów jednej firmy. Okazało się jednak, że nazwisko nie zawsze równe jest nazwisku, a z adresem zamieszkania to bywa już całkiem różnie. W każdym z dwóch przypadków spajania baz (dwa zbiory dopasowywano do trzeciego) stopień udanej, tzn. jednoznacznej identyfikacji wahał się w okolicach 80%, co oznaczało, że dla 20% klientów nie znaleziono punktów wspólnych jeśli chodzi o imię, nazwisko i miejscowość zamieszkania. Wpływ na to ma wiele czynników, wydawać by się mogło natury prozaicznej. Po pierwsze literówki - wystarczy, że w jednej z baz danych w nazwisku bądź imieniu pominięta zostanie litera lub chociażby zgubiony ogonek w "ą" czy "ę", żeby nie wspominać o jakże ciągle jeszcze nagminnym wpisywaniu "ż" zamiast "ź" (część operatorów komputerów ciągle jeszcze nie wie, że litery te są rozróżnialne).

Okrawanie danych z polskich znaków diakrytycznych do celów porównawczych nie wydaje się dobrym pomysłem na osiągnięcie niewątpliwej pewności identyfikacyjnej, zwłaszcza w przypadku nazwisk. Stosowanie dodatkowych mechanizmów weryfikacji, na przykład adresu zamieszkania może być tylko częściowo pomocne, a to szczególnie w przypadku osób o powtarzających się imionach i nazwiskach. Stopień powodzenia zależy w głównej mierze od aktualności danych adresowych w spajanych bazach oraz ich jednolitości, która może być zachwiana wskutek niedopatrzeń natury projektowej, gdyż często (co nie jest najszczęśliwszym wyborem) ulicę wraz z numerem domu i mieszkania zapisuje się jako jedno pole informacyjne, co wynika tylko i wyłącznie z lenistwa, braku roztropności projektantów i przysparza wielu problemów przy dalszym przetwarzaniu tego typu danych, że o generowaniu bardziej wysublimowanych raportów nie wspomnę.

Muszę powiedzieć, że byłem zaskoczony, gdy po kilku miesiącach przerwy postanowiłem wznowić prenumeratę Computerworlda, korzystając tym razem z internetowego kiosku IDG, zamiast wysyłać papierowy druk zamówienia, co czyniłem do tej pory. Zapisałem się więc jako nowy klient, nie dysponując żadnym nadanym wcześniej identyfikatorem. Ku mojemu zdumieniu okazało się, że system mnie "wyłapał", pokazując historię moich wcześniejszych prenumerat. Gdy zacząłem dociekać, na jakiej podstawie wiedział, że ja to ja, doszedłem do wniosku, że jednak chyba NIP był moim demaskatorem. Jak widać, w informatyce, dziedzinie ścisłej, najwygodniej posługiwać się wszelkiego rodzaju jednoznacznymi identyfikatorami i nie ma wówczas najmniejszych problemów. O ile dla człowieka Jan Nowak i Janowi Nowakowi oznacza tę samą osobę, o tyle dla komputera bez kawałka niezłego oprogramowania sprawa jest zupełnie niezrozumiała.

Oceń artykuł

średnio: 4 liczba ocen: 1

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

Zarządzanie po japońsku

W praktyce przemysłowej wypracowano szereg skutecznych metod zarządzania. Wiele powstało w Japonii. Dlaczego, mimo ich efektywności, nie zawsze są stosowane w biznesie?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88