Na straży jakości danych

Gromadzenie z korektą

Aby dyskutować zagadnienie poprawności danych, powinniśmy w pierwszym kroku przeanalizować sposoby ich gromadzenia i możliwości automatycznej korekty na wejściu. Znakomita większość danych, zwłaszcza o charakterze tekstowym, jest gromadzona ręcznie, co przyczynia się oczywiście do większej stopy błędów.

Nie pod ten adres

Podawanie adresu poczty elektronicznej w przypadku niektórych formularzy rejestracyjnych jest opcją, w innych stanowi obligatoryjną część rejestracji. Nie powinni się zatem dziwić, że korespondencja do nich nie dociera, ci użytkownicy, którzy na przykład z domeny gmail zrobili gamil, gami lub gmial, a interię przechrzcili na inetria, inteia, intera. Błędy takie wynikają zazwyczaj z nieuwagi, pośpiechu, niestaranności. Poza tym, istnieje określona podatność na zniekształcenia pisowni, statystycznie obserwowalna. Część z tych błędów można w jakiś sposób korygować automatycznie, konstruując stosowne algorytmy walidujące. Nie należy jednak zapominać, że informacja tekstowa jest trudna w tego rodzaju obróbce i czasami efekt końcowy jest, pomimo starań programistów, dosyć opłakany.

Dane wprowadzane są zazwyczaj przez dwie klasy użytkowników: pracownika firmy merytorycznie odpowiedzialnego za zaistnienie informacji w systemie oraz przez użytkownika zewnętrznego, zazwyczaj wprowadzającego dane, których jest właścicielem. O ile pracownik firmy stara się wykonać swoje zadanie poprawnie i starannie, gdyż zdaje sobie sprawę z konsekwencji, o tyle użytkownik zewnętrzny może do sprawy podchodzić dwojako. Gdy wprowadzane informacje mają nieść ze sobą jakiś konkretny skutek, użytkownik ten stara się podołać ciążącemu na nim zadaniu i utrzymywać odpowiedni poziom jakości informacyjnej. Ten rodzaj gromadzenia danych pojawia się w różnego rodzaju frontonach rejestracyjnych, gdzie skuteczność procesu jest uzależniona od jakości podanej informacji. Typowymi przykładami tego są: rejestracja w sklepie internetowym, zapisy na kursy i do szkół. Jeśli jednak gromadzone informacje nie służą żadnemu konkretnemu celowi, jak to jest w przypadku rejestracji w różnego rodzaju serwisach internetowych, użytkownik wpisze tam byle co, byle zapełnić wymagane pola jakąkolwiek informacją. Najczęściej prawidłowy pozostaje tylko adres mailowy, wymagany do potwierdzenia rejestracji. W przypadku korzystania z formularzy różnego typu, gdzie jakość i prawdziwość podanej informacji ma znaczenie drugorzędne, zazwyczaj nie zmienia się wartości ustawionych jako domyślne, a z list rozwijalnych wybierane są pozycje pierwsze.

Na wiele sposobów

Wystarczy przyjrzeć się zawartości bazy adresowej wypełnianej osobiście przez właścicieli informacji, aby ocenić, jak duża bywa niedokładność zapisów dotyczących podstawowych danych wprowadzonych w trybie niekontrolowanym. Im nazwa miejscowości trudniejsza, bardziej złożona, tym więcej odmian jej pisowni. Na przykład, Jastrzębie-Zdrój pojawiać się będzie we wszystkich możliwych odmianach: z polskimi ogonkami i bez, modulowane wszystkimi możliwymi kombinacjami ustawienia liter członu "strz". Największe jednak zawsze utrapienie jest z myślnikiem, jak również z ilością spacji pomiędzy wyrazami. Gdyby oprogramowanie miało automatycznie korygować ten zapis, to jego poprawna forma (z myślnikiem), zgodna z decyzją Rady Języka Polskiego, mogłaby nie przypaść oprotestowującym ten werdykt władzom miasta i niektórym jego obywatelom.


TOP 200