Szybkie liczenie Polaków

Subskrybuj RSS A A A
30 czerwca 2003
Wiesław Pawłowicz

W rekordowo krótkim czasie, niecały rok po zakończeniu spisów powszechnego i rolnego, Główny Urząd Statystyczny opublikował ich wyniki.

W rekordowo krótkim czasie, niecały rok po zakończeniu spisów powszechnego i rolnego, Główny Urząd Statystyczny opublikował ich wyniki.

W czerwcu 2002 r. przeprowadzono Narodowy Spis Powszechny (NSP) i Powszechny Spis Rolny (PSR). Jak podkreśla Tadeusz Toczyński, prezes Głównego Urzędu Statystycznego i zarazem generalny komisarz spisowy, publikacja wyników w rok po ich zakończeniu to sukces w skali światowej. Dotąd w żadnym kraju wielkości Polski nie dokonano tak sprawnie i szybko tego typu przedsięwzięcia. Poprzedni spis powszechny przeprowadzono w 1988 r., a spis rolny w 1996 r. Na decyzję o przeprowadzeniu obu spisów w 2002 r. miały wpływ m.in. wymagania ze strony Unii Europejskiej wiążące się z perspektywą przystąpienia do niej Polski.

Mimo że spis, a właściwie dwa spisy - powszechny i rolny - były realizowane przez ogromną rzeszę ludzi (ok. 200 tys. rachmistrzów zbierało dane), to tak szybka analiza danych była możliwa dzięki zastosowaniu systemów informatycznych automatyzujących proces przetwarzania informacji. Na potrzeby tej operacji GUS zakupił ok. 100 serwerów, 1200 stacji roboczych, 36 skanerów wysokiej wydajności oraz unikalne oprogramowanie, przystosowane do przetwarzania danych z formularzy spisowych.

Krzysztof Kurkowski, dyrektor  Departamentu  Infrastruktury Technicznej GUSKrzysztof Kurkowski, dyrektor Departamentu Infrastruktury Technicznej GUSKoncepcję systemu informatycznego na potrzeby spisów oraz np. System Kontroli Logicznej GUS opracował samodzielnie. Przedstawiciele GUS zdecydowali się na budowę systemu rozproszonego. "Dane były przetwarzane w 18 wojewódzkich ośrodkach regionalnych. W Warszawie i Katowicach stworzono po dwa takie systemy. Oprócz tego istniał jeden ośrodek zapasowy, który początkowo był wykorzystywany do testów i szkoleń, a podczas spisu wspomagał skanowanie w województwie mazowieckim. Był on jednak przeznaczony przede wszystkim do zastąpienia dowolnego z systemów regionalnych, gdyby w którymś wystąpiła awaria uniemożliwiająca jego normalne funkcjonowanie" - wyjaśnia Krzysztof Kurkowski, dyrektor Departamentu Infrastruktury Technicznej Głównego Urzędu Statystycznego.

Wykorzystano również 800 terminali z systemami Windows i Citrix oraz aplikacjami własnymi GUS (opracowanymi przez COIS) do kontroli i korekty logicznej zarejestrowanych danych. Umożliwiły one zaangażowanie dodatkowych zespołów pracowników bez potrzeby zatrudniania ich w ośrodkach wojewódzkich. Do transmisji danych - na czas spisu i przetwarzania informacji - Główny Urząd Statystyczny zakupił dodatkową przepustowość łączy od Telekomunikacji Polskiej.

Z góry papieru górka CD

W wyniku pracy rachmistrzów powstało ok. 270 mln stron formularzy. Wpisane ręcznie dane zostały przetworzone na format elektroniczny. Formularze zeskanowano, a zapisane w nich dane poddano obróbce przy wykorzystaniu oprogramowania OCR. Oryginalne formularze zostały zapisane na płytach optycznych CD-R, co pozwoliło na łatwy dostęp do danych w razie potrzeby wprowadzenia poprawek lub korygowania błędów.

"Powstała w ten sposób graficzna baza danych ma pojemność 13 TB" - mówi Krzysztof Kurkowski. "W porównaniu z objętością papieru oznacza to 3000 kompresję nośnika" - dodaje.

Przechowywanie archiwum papierowych formularzy przy zapewnieniu odpowiedniego poziomu zabezpieczeń jest kosztowne i kłopotliwe (jest to ok. 3 tys. m3 papieru). Dlatego rozważane jest ich zniszczenie.

Skanowanie, OCR i korekta

Operacja skanowania danych zapisanych na dokumentach papierowych i rozpoznawania ich przy wykorzystaniu programu OCR trwała bez przerwy przez pięć miesięcy. W tym czasie analizowano średnio 1400 str./min. "W ciągu jednego dnia przetwarzano tyle dokumentów, ile normalnie Statystyka przetwarza przez rok" - opowiada Krzysztof Kurkowski. Skanery firmy Fujitsu, oprogramowanie OCR do rozpoznawania pisma ręcznego, korekty i walidacji danych, a także kodowania informacji dostarczył Banpol.

"W aplikacji OCR wykorzystano motor firmy Oce, który w testach okazał się najbardziej efektywny w rozpoznawaniu pisma odręcznego bez konieczności wprowadzania procedur dopasowywania oprogramowania do charakteru pisma" - mówi Mariusz Walicki, dyrektor działu projektów strategicznych Banpol. "Większość tego typu aplikacji wykorzystuje mechanizmy uczenia się indywidualnych cech pisma, co w przypadku 200 tys. rachmistrzów wprowadzających dane w praktyce okazało się niemożliwe" - dodaje. Mechanizm OCR został poprawiony i dopasowany przez specjalistów z Oce na potrzeby spisu. W efekcie osiągnięto dokładność rozpoznawania sięgającą nawet 99%. Jednak przy 270 mln stron liczba niezbędnych poprawek była ogromna, dlatego też w systemie zastosowano mechanizm tzw. korekty tablicowej przygotowany na potrzeby GUS przez Banpol. Umożliwia on przyspieszenie korekty źle rozpoznanych znaków.

Firma ta opracowała również oprogramowanie do automatyzacji procesu kodowania informacji. Jest to, jak mówi Krzysztof Kurkowski, jedna z najbardziej pracochłonnych czynności, polegająca na przypisywaniu odpowiednich kodów identyfikacyjnych danym wpisywanym w rubryki formularzy. Problem z kodowaniem polega na tym, że w polach formularzy są wpisywane informacje podawane przez osoby poddawane spisowi, które mogą udzielać różnych odpowiedzi - np. rolnik, farmer, hodowca itp., a system lub osoba analizująca dane powinna tym określeniom przypisać jeden odpowiedni kod statystyczny.

Jak ocenia Krzysztof Kurkowski, ręczne wykonanie takiej pracy wymagałoby zatrudnienia na pół roku co najmniej 2000 wykwalifikowanych pracowników zajmujących się wyłącznie wpisywaniem kodów. Proces ten udało się jednak zautomatyzować w 90%, a jedynie pozostałe 10% wymagało ręcznego opracowania.

Zabezpieczenia informacji

Zgodnie z prawem informacje zawarte w formularzach spisowych muszą być zabezpieczone przed ujawnieniem danych indywidualnych i dostępem osób nieuprawnionych. W przypadku dokumentów papierowych - zanim zostaną one zniszczone - oznacza to konieczność fizycznej ochrony ośrodków przetwarzania i magazynów.

W systemie informatycznym obsługującym spis zastosowano tak że mechanizmy zabezpieczające. Ze względów bezpieczeństwa wykorzystano sieć wydzieloną, odseparowaną nawet od sieci informatycznej Głównego Urzędu Statystycznego. Dane były kodowane przy zastosowaniu 1024-bitowego klucza szyfrującego, a pliki graficzne zapisano w nietypowym formacie, który nie jest odczytywany przez żadne standardowe oprogramowanie.

Oceń artykuł

średnio: 0 liczba ocen: 0

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

Zarządzanie po japońsku

W praktyce przemysłowej wypracowano szereg skutecznych metod zarządzania. Wiele powstało w Japonii. Dlaczego, mimo ich efektywności, nie zawsze są stosowane w biznesie?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88