Polska do spisania

W spisie powszechnym kluczową rolę odegrają rozwiązania OCR i narzędzia automatycznej poprawy jakości danych.

W spisie powszechnym kluczową rolę odegrają rozwiązania OCR i narzędzia automatycznej poprawy jakości danych.

Spis powszechny w liczbach

  • 300 mln stron ankiet wypełnią ankieterzy

  • 490 mln zł będzie kosztować jego przeprowadzenie

  • 180 tys. rachmistrzów zostanie zatrudnionych do zbierania danych

  • 1,5 tys. stanowisk komputerowych, 100 serwerów i 40 wysoko wydajnych skanerów przeznaczono do skanowania i weryfikacji danych

  • Spis ludności i mieszkań, który ma się odbyć w maju i czerwcu br., będzie gigantycznym przedsięwzięciem logistycznym. Obejmie on wszystkich mieszkańców Polski. Ostatecznym celem jest uzyskanie danych potrzebnych do określenia kierunków przemian demograficznych i społecznych w Polsce. Skala przedsięwzięcia jest jeszcze większa, jednocześnie będzie bowiem prowadzony spis rolny, czyli weryfikacja ewidencji ogólnego areału ziem uprawnych i gospodarstw rolnych.

    Dane będzie zbierać 180 tys. ankieterów, którzy w sumie, w skali całej Polski, będą musieli wypełnić formularze w liczbie ponad 300 mln stron A4.

    Maszyna zamiast człowieka

    "Poziom rozwiązań informatycznych, które będą zastosowane w spisie powszechnym, nie odbiega od standardów światowych" - mówi Krzysztof Kurkowski, zastępca dyrektora Centralnego Ośrodka Informatyki Statystycznej w Głównym Urzędzie Statystycznym. Dzięki tym rozwiązaniom spłaszczono całą strukturę przetwarzania, zaś jednostkowe dane wynikowe mogą być przechowywane w jednej bazie.

    Koszt stworzenia systemu informatycznego to zaledwie kilka procent w budżecie przeznaczonym na realizację spisu. "Tymczasem od tego systemu zależy suk-ces całego przedsięwzięcia" - podkreśla Krzysztof Kurkowski. W ustawie regulującej kwestie finansowania spisu powszechnego sprawy podziału pieniędzy zostały jednak potraktowane dość sztywno.

    Niecałe dwa lata temu przeprowadzono próbny spis, którym objęto 7 gmin. Testowane wówczas rozwiązania miały znaleźć zastosowanie przy właściwym spisie. Kwestia wyboru głównego dostawcy i wykonawcy systemu wzbudzała spore kontrowersje. Wyłoniono go dopiero w trzecim przetargu, pod koniec 2001 r. W trakcie przedłużającej się procedury wyboru GUS częściowo odstąpił od początkowych wymagań, w zamian zyskując niższą cenę. Najdłużej rywalizowały firmy Emax, i Banpol. Wygrała ta ostatnia, która na tyle wierzyła w zwycięstwo, że zaczęła prowadzić prace nad systemem jeszcze przed ostatecznym rozstrzygnięciem przetargu.

    70 tirów formularzy

    Zeskanowanie 300 mln stron A4 to ogromna praca. "Dlatego tak duże znaczenie ma jakość formularzy. Nawet minimalnie gorszy papier zwiększa odsetek błędów przy skanowaniu, co oznacza zdecydowanie mniejszą wydajność, a więc konieczność zainstalowania większej liczby skanerów i zatrudnienia nowych operatorów" - twierdzi Krzysztof Kurkowski. Chodzi nie tyle o odczyt dokumentu, ile o właściwą segregację wejściowych dokumentów papierowych. Skanery będą pracować z wydajnością kilkudziesięciu tysięcy stron dziennie. GUS przyjął, że lepszą jakość gwarantuje papier wyprodukowany zgodnie z niemiecką normą, co spotkało się z dość gwałtownymi protestami producentów papieru w Polsce. Dostawą i dystrybucją ankiet (do ponad 3000 punktów w całym kraju) zajął się Bertelsmann.

    Obsługą aplikacji, pozwalającej na obróbkę uzyskanych danych, będzie zajmować się 3 tys. osób przez ok. pół roku.