Szybkie liczenie Polaków

W rekordowo krótkim czasie, niecały rok po zakończeniu spisów powszechnego i rolnego, Główny Urząd Statystyczny opublikował ich wyniki.

W rekordowo krótkim czasie, niecały rok po zakończeniu spisów powszechnego i rolnego, Główny Urząd Statystyczny opublikował ich wyniki.

W czerwcu 2002 r. przeprowadzono Narodowy Spis Powszechny (NSP) i Powszechny Spis Rolny (PSR). Jak podkreśla Tadeusz Toczyński, prezes Głównego Urzędu Statystycznego i zarazem generalny komisarz spisowy, publikacja wyników w rok po ich zakończeniu to sukces w skali światowej. Dotąd w żadnym kraju wielkości Polski nie dokonano tak sprawnie i szybko tego typu przedsięwzięcia. Poprzedni spis powszechny przeprowadzono w 1988 r., a spis rolny w 1996 r. Na decyzję o przeprowadzeniu obu spisów w 2002 r. miały wpływ m.in. wymagania ze strony Unii Europejskiej wiążące się z perspektywą przystąpienia do niej Polski.

Mimo że spis, a właściwie dwa spisy - powszechny i rolny - były realizowane przez ogromną rzeszę ludzi (ok. 200 tys. rachmistrzów zbierało dane), to tak szybka analiza danych była możliwa dzięki zastosowaniu systemów informatycznych automatyzujących proces przetwarzania informacji. Na potrzeby tej operacji GUS zakupił ok. 100 serwerów, 1200 stacji roboczych, 36 skanerów wysokiej wydajności oraz unikalne oprogramowanie, przystosowane do przetwarzania danych z formularzy spisowych.

Szybkie liczenie Polaków

Krzysztof Kurkowski, dyrektor Departamentu Infrastruktury Technicznej GUS

Koncepcję systemu informatycznego na potrzeby spisów oraz np. System Kontroli Logicznej GUS opracował samodzielnie. Przedstawiciele GUS zdecydowali się na budowę systemu rozproszonego. "Dane były przetwarzane w 18 wojewódzkich ośrodkach regionalnych. W Warszawie i Katowicach stworzono po dwa takie systemy. Oprócz tego istniał jeden ośrodek zapasowy, który początkowo był wykorzystywany do testów i szkoleń, a podczas spisu wspomagał skanowanie w województwie mazowieckim. Był on jednak przeznaczony przede wszystkim do zastąpienia dowolnego z systemów regionalnych, gdyby w którymś wystąpiła awaria uniemożliwiająca jego normalne funkcjonowanie" - wyjaśnia Krzysztof Kurkowski, dyrektor Departamentu Infrastruktury Technicznej Głównego Urzędu Statystycznego.

Wykorzystano również 800 terminali z systemami Windows i Citrix oraz aplikacjami własnymi GUS (opracowanymi przez COIS) do kontroli i korekty logicznej zarejestrowanych danych. Umożliwiły one zaangażowanie dodatkowych zespołów pracowników bez potrzeby zatrudniania ich w ośrodkach wojewódzkich. Do transmisji danych - na czas spisu i przetwarzania informacji - Główny Urząd Statystyczny zakupił dodatkową przepustowość łączy od Telekomunikacji Polskiej.

Z góry papieru górka CD

W wyniku pracy rachmistrzów powstało ok. 270 mln stron formularzy. Wpisane ręcznie dane zostały przetworzone na format elektroniczny. Formularze zeskanowano, a zapisane w nich dane poddano obróbce przy wykorzystaniu oprogramowania OCR. Oryginalne formularze zostały zapisane na płytach optycznych CD-R, co pozwoliło na łatwy dostęp do danych w razie potrzeby wprowadzenia poprawek lub korygowania błędów.

"Powstała w ten sposób graficzna baza danych ma pojemność 13 TB" - mówi Krzysztof Kurkowski. "W porównaniu z objętością papieru oznacza to 3000 kompresję nośnika" - dodaje.

Przechowywanie archiwum papierowych formularzy przy zapewnieniu odpowiedniego poziomu zabezpieczeń jest kosztowne i kłopotliwe (jest to ok. 3 tys. m3 papieru). Dlatego rozważane jest ich zniszczenie.

Skanowanie, OCR i korekta

Operacja skanowania danych zapisanych na dokumentach papierowych i rozpoznawania ich przy wykorzystaniu programu OCR trwała bez przerwy przez pięć miesięcy. W tym czasie analizowano średnio 1400 str./min. "W ciągu jednego dnia przetwarzano tyle dokumentów, ile normalnie Statystyka przetwarza przez rok" - opowiada Krzysztof Kurkowski. Skanery firmy Fujitsu, oprogramowanie OCR do rozpoznawania pisma ręcznego, korekty i walidacji danych, a także kodowania informacji dostarczył Banpol.

"W aplikacji OCR wykorzystano motor firmy Oce, który w testach okazał się najbardziej efektywny w rozpoznawaniu pisma odręcznego bez konieczności wprowadzania procedur dopasowywania oprogramowania do charakteru pisma" - mówi Mariusz Walicki, dyrektor działu projektów strategicznych Banpol. "Większość tego typu aplikacji wykorzystuje mechanizmy uczenia się indywidualnych cech pisma, co w przypadku 200 tys. rachmistrzów wprowadzających dane w praktyce okazało się niemożliwe" - dodaje. Mechanizm OCR został poprawiony i dopasowany przez specjalistów z Oce na potrzeby spisu. W efekcie osiągnięto dokładność rozpoznawania sięgającą nawet 99%. Jednak przy 270 mln stron liczba niezbędnych poprawek była ogromna, dlatego też w systemie zastosowano mechanizm tzw. korekty tablicowej przygotowany na potrzeby GUS przez Banpol. Umożliwia on przyspieszenie korekty źle rozpoznanych znaków.

Firma ta opracowała również oprogramowanie do automatyzacji procesu kodowania informacji. Jest to, jak mówi Krzysztof Kurkowski, jedna z najbardziej pracochłonnych czynności, polegająca na przypisywaniu odpowiednich kodów identyfikacyjnych danym wpisywanym w rubryki formularzy. Problem z kodowaniem polega na tym, że w polach formularzy są wpisywane informacje podawane przez osoby poddawane spisowi, które mogą udzielać różnych odpowiedzi - np. rolnik, farmer, hodowca itp., a system lub osoba analizująca dane powinna tym określeniom przypisać jeden odpowiedni kod statystyczny.

Jak ocenia Krzysztof Kurkowski, ręczne wykonanie takiej pracy wymagałoby zatrudnienia na pół roku co najmniej 2000 wykwalifikowanych pracowników zajmujących się wyłącznie wpisywaniem kodów. Proces ten udało się jednak zautomatyzować w 90%, a jedynie pozostałe 10% wymagało ręcznego opracowania.

Zabezpieczenia informacji

Zgodnie z prawem informacje zawarte w formularzach spisowych muszą być zabezpieczone przed ujawnieniem danych indywidualnych i dostępem osób nieuprawnionych. W przypadku dokumentów papierowych - zanim zostaną one zniszczone - oznacza to konieczność fizycznej ochrony ośrodków przetwarzania i magazynów.

W systemie informatycznym obsługującym spis zastosowano tak że mechanizmy zabezpieczające. Ze względów bezpieczeństwa wykorzystano sieć wydzieloną, odseparowaną nawet od sieci informatycznej Głównego Urzędu Statystycznego. Dane były kodowane przy zastosowaniu 1024-bitowego klucza szyfrującego, a pliki graficzne zapisano w nietypowym formacie, który nie jest odczytywany przez żadne standardowe oprogramowanie.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200