Na straży jakości danych
- 01.06.2010
Gromadzenie z korektą
Aby dyskutować zagadnienie poprawności danych, powinniśmy w pierwszym kroku przeanalizować sposoby ich gromadzenia i możliwości automatycznej korekty na wejściu. Znakomita większość danych, zwłaszcza o charakterze tekstowym, jest gromadzona ręcznie, co przyczynia się oczywiście do większej stopy błędów.
Podawanie adresu poczty elektronicznej w przypadku niektórych formularzy rejestracyjnych jest opcją, w innych stanowi obligatoryjną część rejestracji. Nie powinni się zatem dziwić, że korespondencja do nich nie dociera, ci użytkownicy, którzy na przykład z domeny gmail zrobili gamil, gami lub gmial, a interię przechrzcili na inetria, inteia, intera. Błędy takie wynikają zazwyczaj z nieuwagi, pośpiechu, niestaranności. Poza tym, istnieje określona podatność na zniekształcenia pisowni, statystycznie obserwowalna. Część z tych błędów można w jakiś sposób korygować automatycznie, konstruując stosowne algorytmy walidujące. Nie należy jednak zapominać, że informacja tekstowa jest trudna w tego rodzaju obróbce i czasami efekt końcowy jest, pomimo starań programistów, dosyć opłakany.
Na wiele sposobów
Wystarczy przyjrzeć się zawartości bazy adresowej wypełnianej osobiście przez właścicieli informacji, aby ocenić, jak duża bywa niedokładność zapisów dotyczących podstawowych danych wprowadzonych w trybie niekontrolowanym. Im nazwa miejscowości trudniejsza, bardziej złożona, tym więcej odmian jej pisowni. Na przykład, Jastrzębie-Zdrój pojawiać się będzie we wszystkich możliwych odmianach: z polskimi ogonkami i bez, modulowane wszystkimi możliwymi kombinacjami ustawienia liter członu "strz". Największe jednak zawsze utrapienie jest z myślnikiem, jak również z ilością spacji pomiędzy wyrazami. Gdyby oprogramowanie miało automatycznie korygować ten zapis, to jego poprawna forma (z myślnikiem), zgodna z decyzją Rady Języka Polskiego, mogłaby nie przypaść oprotestowującym ten werdykt władzom miasta i niektórym jego obywatelom.