Polska do spisania

Formularze po zeskanowaniu mają być przenoszone na nośniki magnetooptyczne. Otrzymane obrazy przejdą proces komputerowego rozpoznawania pisma (OCR). Później dane będą poddawane wielostopniowej kontroli i korekcie. "Oczywiście, można było nastawić się na pracę w całości ręczną, ale z przeprowadzonej wcześniej analizy wynikało, że wariant "ręczny" byłby bardziej pracochłonny, czasochłonny i dużo droższy" - mówi Krzysztof Kurkowski. Przykładowo, przy bardzo licznych w ankietach polach wyboru (check-box) operator popełnia ok. pół procenta błędów, zaś skaner co najmniej 10 razy mniej. Chociaż w przypadku znaków literowych odsetek błędów może wzrosnąć do 10, to większość powinna zostać wyeliminowana dzięki zastosowaniu korekty graficznej (w tym także tzw. korekty tablicowej).

Największych korzyści upatruje się w automatycznej symbolizacji, walidacji danych i poprawie ich jakości. Wyniki spisu próbnego pokazały, że jedynie połowa formularzy nie zawiera błędów logicznych. "Główny problem z jakością danych to kwestia ich przygotowania, pozostająca w rękach ankieterów. Ich zadaniem jest rzetelne zebranie informacji o odpowiednim stopniu szczegółowości, pozwalającym na ustalenie właściwych kategorii statystycznych na etapie przetwarzania" - uważa Krzysztof Kurkowski. Dlatego oprogramowanie ma dokonywać tzw. symbolizacji zapisu poszczególnych pól, czyli ich ujednolicenia w postaci przypisania kodu numerycznego, przy wykorzystaniu tezaurusów. Symbolizacji mają podlegać nazwy województw, powiatu, gminy, kraju, obywatelstwa, narodowości, zawodu i rodzaju działalności.

Oczywiście, nie wyeliminuje to przypadków, gdy pewne decyzje muszą być podejmowane przez człowieka (skuteczność symbolizacji automatycznej ma być nie mniejsza niż 65%). "Chodzi jednak o to, aby ten obszar zawęzić do niezbędnego minimum, by wskazywaniem przypadków, w których potrzebna jest decyzja człowieka, zajmowała się maszyna" - dodają przedstawiciele GUS.

Ostatecznie dokona się kontroli kompletności i spójności logicznej danych w ramach pojedynczego obwodu spisowego (60-70 mieszkań). Formularzom lokalowym będą nadawane unikalne numery (dodatkowo kody kreskowe), które wiążą ankiety osobowe zamieszkujących dany lokal. Rachmistrz otrzyma spis lokali znajdujących się na jego terenie dzięki wykorzystaniu danych z prowadzonego przez GUS rejestru terytorialnego TERYT.

Przetwarzanie rozproszone

Proces przetwarzania będzie się odbywał w 16 regionalnych jednostkach organizacyjnych GUS. Skalowalność rozwiązania to mniej więcej 1:3, w największych miastach (Warszawa i Katowice) trzeba było uruchomić po dwie instalacje. Dodatkowo w Centralnym Ośrodku Informacji Statystycznej w Radomiu będzie działał ośrodek zapasowy.

W innych krajach, np. w USA, spis jest przeprowadzany na zasadach outsourcingu, specjalizowane firmy stawiają na centralizację - cały kraj obsługują zaledwie 4 ośrodki. "Gdy zaczęliśmy prowadzić przygotowania do spisu, w Polsce nie było zadowalającej oferty, by można było skorzystać z outsourcingu. Firmy proponowały tak wysokie ceny albo na warunkach nie przystosowanych do zasad budżetowania w administracji państwowej, że lepiej było to zadanie realizować samodzielnie" - uważa Krzysztof Kurkowski.

Można się oczywiście zastanawiać, czy GUS będzie w stanie później efektywnie wykorzystać urządzenia zakupione na potrzeby przeprowadzenia spisu. "Wynegocjowaliśmy podniesienie gwarantowanego reżimu wykorzystania urządzeń. Jeśli producent standardowo wskazuje maksymalną wartość przetwarzanych dokumentów w jednostce czasu, to uzyskaliśmy możliwość zwielokrotnienia tej wartości" - mówi Krzysztof Kurkowski. Oznacza to, że wydajność urządzeń została tak dobrana, by w znacznym stopniu zamortyzowały się one podczas trwania spisu.

W całym systemie łącznie będzie pracować 40 wydajnych skanerów, 100 serwerów oraz 1,5 tys. komputerowych stanowisk pracy. Całość zrealizowano z wykorzystaniem oprogramowania Microsoftu (Windows 2000, SQL Server, Visual FoxPro) oraz systemu Citrix (obsługa terminali).

Banpol dostarczył rozwiązania OCR i narzędzia symbolizacji, natomiast pozostałe elementy systemu, poczynając od kontroli logicznej (redagowanie danych), poprzez naliczanie tablic kontrol- nych i tablic wynikowych, aż po analizy i publikacje elektroniczne, są dziełem informatyków GUS.

Analityka Polaków

Zagregowane dane, zebrane w centrali GUS, zostaną umieszczone w hurtowni danych zbudowanej na bazie narzędzi OracleŐa. Pełna funkcjonalność analityczna tej hurtowni będzie dostępna w wewnętrznym intranecie GUS. Natomiast podstawowym mechanizmem dystrybucji danych uzyskanych ze spisu będą standardowe tablice statystyczne (ok. 2 tys.), tworzone w programie SuperStar. Jest to australijska aplikacja, specjalizowana pod kątem publikacji wyników spisów powszechnych. Dane powinny zostać opublikowane na początku 2003 r.

Niestety, pierwszego od ponad 10 lat spisu powszechnego nie wykorzystano, aby poprawić jakość podstawowego rejestru państwowego, jakim jest PESEL. W przyjętych regulacjach ustawowych założono bowiem, że dane zbierane są jedynie do celów statystycznych. Rachmistrze nie będą więc pytać o numery identyfikacyjne.


TOP 200