GUS: Big Data to nasz priorytet

Działamy jak hub informatyczny państwa. Tworzymy infrastrukturę informacyjną państwa i dostarczamy wiedzy niezbędnej do rozwoju społeczno-gospodarczego, niemożliwej do pozyskania w jakikolwiek inny sposób. Chcemy być centrum kompetencji danych w przestrzeni publicznej – mówi w rozmowie z „Computerworldem” Dominik Rozkrut, prezes Głównego Urzędu Statystycznego.

Computerworld: Główny Urząd Statystyczny od wielu lat dostarcza istotne dla państwa dane. Urząd istnieje ponad 100 lat. Przez tak długi okres zmieniały się metody, wsparcie technologiczne. Jak dziś, w cyfrowej rzeczywistości, prowadzi się statystyki?

Dominik Rozkrut: Nasza instytucja powstała w lipcu 1918 roku, czyli jeszcze przed odzyskaniem niepodległości. Ówczesne elity już dostrzegały rolę statystyki, rolę GUS jako niezbędnej instytucji, która musi dostarczyć informacje do świadomego i udanego kształtowania rozwoju społecznego i gospodarczego kraju. Ta rola nie zmieniła się zresztą do dziś. Ponieważ przedmiotem działalności urzędu jest statystyka i praca na dużych zbiorach, GUS zawsze starał się wykorzystywać najnowsze, dostępne w danym okresie technologie informatyczne. To na potrzeby GUS były kupowane pierwsze systemy mainframe, które miały nam pomagać w przetwarzaniu dużych zbiorów danych. Dynamiczna rzeczywistość wokół zmusza nas do tego, by ciągle być na froncie rozwoju technologii informatycznych. Nasz sukces warunkowany jest tym, jak dobrze posługujemy się nowoczesnymi narzędziami.

Zobacz również:

A kto kreuje potrzebę sięgania po nowe technologie?

Obywatel, który będąc członkiem demokratycznego państwa, ma gwarantowany prawami człowieka dostęp do prawdy. A dostęp do prawdy interpretuje się jako dostęp do pewnej określonej wiedzy, niezbędnej do funkcjonowania w społeczeństwie, w gospodarce. Wiedza jest definiowana poprzez określanie zakresu badań, którymi się statystyka zajmuje. Służą one dostarczaniu informacji niezbędnej do podejmowania przez obywateli świadomych decyzji, do rozeznawania się w otoczeniu. Ale ma też służyć politykom, by mogli umiejętnie kształtować rozwój gospodarczy i społeczny kraju, któremu służą poprzez pełnione funkcje.

Jak więc zatem tworzyć taką wiedzę, która ma kreować nasz rozwój? Za pomocą jakich technologii robi to GUS?

Informację można wygenerować na różne sposoby. Można, tak jak robiło się to kiedyś, wysyłać kwestionariusze do respondentów, licząc, że poświęcą swój czas i odpowiedzą na pytania zadane w kwestionariuszu. Ale można też wspierać statystykę nowoczesnymi narzędziami prowadzenia badań. Postępuje transformacja cyfrowa.

Efektem tego jest fakt, że możemy opierać się już nie tylko na tradycyjnych metodach prowadzenia badań, czy rejestrach administracyjnych, bo cała otaczająca nas rzeczywistość jest coraz lepiej opisana, zmierzona cyfrowo. To olbrzymie transfery danych, nieskończone źródła. I my możemy je wykorzystać.

GUS sięga po analizę wielkich zbiorów danych?

Tak, naszym obecnym wyzwaniem jest właściwe i skuteczne wykorzystanie nowych źródeł danych, określanych jako Big Data. Te źródła pozwolą agregować statystyki szybciej i z większą granularnością. Istnieje kilka obszarów, gdzie jest to w statystyce publicznej już możliwe. My chcemy być w gronie tych najbardziej zaawansowanych krajów, które rozwijają takie metodyki. Myślę, że już jesteśmy, potwierdza to nasze uczestnictwo w wielu grupach międzynarodowych. Jako prezes GUS osobiście przewodniczę grupie specjalistów przy ONZ zajmującej się rozwojem umiejętności na potrzeby statystyki publicznej w zakresie Big Data. Ale takich aktywności i organizacji jest więcej.

Chcecie być dobrzy we wszystkim? Czy tak się da?

Na pewno mamy kompetencje by rozwijać poszczególne zakresy badań. Obecnie na przykład pracujemy nad wykorzystaniem zdjęć satelitarnych – dostępnych za darmo w ramach europejskiego projektu Copernicus – do obserwacji procesów wegetacyjnych w rolnictwie. Tradycyjnie takie badania prowadziło się w ten sposób, że wysyłany był w dane miejsce rzeczoznawca, który sprawdzał m.in. jak postępuje wegetacja, jak wyglądają rośliny. Na bazie swoich obserwacji określał, jakie mogą być przewidywalne plony. Teraz za pomocą zdjęć satelitarnych możemy zestawiać szacunki ziemiopłodów w sposób zautomatyzowany.

Oczywiście, aby wdrożyć wykorzystanie zdjęć satelitarnych na stałe do badań rolnych, wymaga to od nas odpowiednich działań rozwojowych. Trzeba wysłać najpierw rzeczoznawców - jak w tradycyjnym badaniu - do zweryfikowania sytuacji naocznie. Potem zbieramy zdjęcia z tego okresu i uczymy algorytmy odpowiedniego estymowania plonów w oparciu o posiadane dane satelitarne. Prowadzimy taki projekt w ramach programu „GOSPOSTRATEG” Narodowego Centrum Badań i Rozwoju. Służy on wsparciu jednostek administracji publicznej, które wchodzą w konsorcja z ośrodkami naukowymi. My realizujemy taki projekt wspólnie z Centrum Badań Kosmicznych PAN i Instytutem Geodezji i Kartografii.

Wasz projekt na badanie wegetacji roślin został zakwalifikowany do programu. Duża była konkurencja?

Nie tylko ten. Wśród 40 projektów zakwalifikowanych do „GOSPOSTRATEG” znalazły się trzy nasze zgłoszenia, które, co warto odnotować, zajęły trzy pierwsze miejsca w rankingu. Wszystkie projekty dotyczyły wejścia w wykorzystanie źródeł Big Data do produkcji statystyk oficjalnych.

Tak wysokie noty są dla nas potwierdzeniem, że posiadamy wysokie kompetencje i podążamy we właściwym kierunku. Drugi z projektów dotyczy statystyki transportu. Mamy dwie płaszczyzny działań – jedna to obserwowanie poruszania się statków po morzu, a druga to badanie transportu drogowego w oparciu o systemy sensoryczne. Chcemy wykorzystywać do tego bramownice na drogach. Nie tylko największy funkcjonujący obecnie system, ale też inne, czasem wręcz lokalne systemy pomiaru. Chcemy z sensorów pobierać dane i szacować ruch i transport na polskich drogach. Do tej pory prowadzimy badanie transportu drogowego poprzez wysyłanie ankiet do właścicieli 50 tysięcy wylosowywanych rocznie samochodów ciężarowych, aby określić co i gdzie dany pojazd woził w okresie tygodniowym.

Jeśli teraz będziemy w stanie wyłapywać te ciężarówki na drodze za pomocą sensorów, to, po pierwsze, ograniczymy obciążenie właścicieli pojazdów sprawozdaniami, a po drugie znacznie zmniejszą się koszty obsługi 50 tysięcy ankiet. Zarówno ludzkie, jak i materiałowe. Chcielibyśmy też skorzystać z danych Ministerstwa Finansów, np. z programu monitoringu pojazdów przewożących towary wrażliwe. To będzie kolejny etap zmniejszania obciążenia sprawozdawczością podmiotów gospodarczych, a do tego zwiększy się precyzja i szybkość generowania statystyk.

Trzeci projekt dotyczy statystyki inflacji i cen, w którym współpracujemy z Instytutem Informatyki PAN, w zakresie technologii web scraping. Dzięki temu partnerowi będziemy pozyskiwać informację na potrzeby badania w sposób zautomatyzowany z sieci. Ale mamy też dużo nowych danych, które możemy pozyskiwać bezpośrednio. Są to informacje od sieci handlowych o tym, w jakich cenach zostały sprzedane poszczególne produkty. Taką statystykę prowadzi już Holandia, GUS również do tego dąży.

Wejście w technologie analizy dużych zbiorów danych odbywa się bezboleśnie?

Napotykamy na problemy natury prawnej, ponieważ chcielibyśmy korzystać z pewnych źródeł, ale one nie są w łatwy sposób dostępne, z różnych przyczyn. Choćby wynika to z ochrony prywatności. Musimy rozwiązać szereg przeszkód prawnych, na przykład w prawie telekomunikacyjnym. Wiemy, że każdy z nas ma telefon przy sobie, który generuje dane. Na świecie sią są już opracowywane statystyki, które uwzględniają dane o aktywności użytkownika. Na przykład określając populację dzienną i nocną, czy nawet godzinową w poszczególnych dzielnicach miasta. Taka szczegółowość danych możliwych do wygenerowania jest nieosiągalna dla tradycyjnych badań. Podmioty, które posiadają dziś te dane, nie mają wszystkich kompetencji, które są u nas, i które pozwoliłyby wzbogacić generowane wyniki.

To rozwiązania przyszłości – my, jako statystyka, generowalibyśmy na przykład informacje, jaka jest przeciętna populacja o konkretnej godzinie w konkretnym obszarze. Proszę sobie wyobrazić, że w razie zdarzenia o charakterze katastrofy moglibyśmy szybko poinformować, ile potencjalnie osób jest na danym obszarze. Służby ratunkowe, biorąc pod uwagę te dane, podejmowałyby decyzję jak zorganizować ewakuację z zagrożonego terenu. Marzę o tym, by w przyszłości móc takie rzeczy robić, bo mamy ku temu możliwości.

Dziś takie dane, które pozyskujecie, są walutą...

Ale my jesteśmy instytucją gwarantującą wszystkim otwarte dane. Co do zasady, nasze wyniki udostępniamy nieodpłatnie. Taki jest nasz model biznesowy, jesteśmy finansowani z podatków. Generujemy podstawowe zestawy informacji, z których ktoś może skorzystać we właściwy dla siebie sposób, na przykład tworząc aplikację bazującą na naszych danych, poprzez interfejsy API. Jeśli ktoś jest w stanie zbudować coś z naszych danych, to niech na tym zarabia. Na tym polega nasza rola. Tworzymy infrastrukturę informacyjną państwa i dostarczamy wiedzy niezbędnej do rozwoju społeczno-gospodarczego.

W jaki sposób w takim razie chcecie dostarczać swoje dane na zewnątrz?

Nie tylko swoje dane. My działamy trochę jak hub informatyczny państwa. Pełnimy specyficzną rolę w cyfrowym systemie kraju. Mamy wiedzę, jakie dane istnieją nie tylko u nas, ale we wszystkich jednostkach administracji publicznej. Posiadamy bazę wszystkich rejestrów administracyjnych w Polsce. Jest ich ponad 600. Chcemy być centrum kompetencji danych w przestrzeni publicznej. Propagujemy wykorzystanie określonych standardów, które umożliwiają interoperacyjność zbiorów, staramy się być w komunikacji z organami administracji publicznej, kiedy one budują swoje zasoby informacyjne. Chcemy by robiły to w oparciu o powszechnie obowiązujące standardy, aby później możliwe było powtórne wykorzystanie tych danych. Na dane z rejestrów nakładamy dane pochodzące naszych z badań statystycznych, które są unikatowe i bezpiecznie przetwarzane. Mamy swoją silną relację z respondentami, polegającą na zapewnieniu ochrony przekazywanych informacji w postaci tajemnicy statystycznej. Dostarczamy więc wiedzę niemożliwą do pozyskania w jakikolwiek inny sposób.

Dobrze, ale jaki jest ten sposób komunikacji z odbiorcą? Kto ma wiedzieć i gdzie ma szukać tych otwartych danych?

Zastanawialiśmy się, w jaki sposób to komunikować, by nasze dane były łatwo dostępne w różnych formatach i dla osób o różnych kompetencjach. Ostatnim osiągnięciem urzędu jest stworzenie dedykowanego portalu api.stat.gov.pl. Mamy tam udostępnione trzy duże API – do bazy REGON, do rejestru terytorialnego TERYT oraz do Banku Danych Lokalnych. BDL to nasz największy zasób z danymi schodzącymi do poziomu gmin czy nawet miejscowości. Te dane mają charakter danych oficjalnych, czyli rzetelnie opracowanych i udokumentowanych.

Zaczynamy też teraz, wspólnie z Ministerstwem Cyfryzacji, projekt opracowania API dla wszystkich naszych pozostałych baz danych. Te same dane można również w różny sposób zestawiać, w zależności od kontekstu i potrzeb związanych z prezentowaniem określonego problemu. Publikujemy bardzo dobrą bazę Strateg, która zestawia wszystkie wskaźniki monitorujące wpisane do strategii rozwojowych obowiązujących w kraju – od Strategii Odpowiedzialnego Rozwoju aż do lokalnych miejskich czy wojewódzkich strategii zawierających określone wskaźniki. My to inwentaryzujemy, a jeśli określone dane są dostępne w naszych źródłach, to je zestawiamy i każdy ma do tego dostęp. Wystawienie API dla wszystkich baz to nasze zadanie na najbliższe dwa lata. A oprócz tego musimy pracować cały czas nad polepszeniem form komunikacji, by bezpośrednio trafiać do różnych grup użytkowników i zminimalizować barierę dostępu do generowanej przez nas wiedzy.

A ta, z tego co słyszymy, jest przeogromna. No właśnie, czy GUS-owi Big Data jest potrzebna do tego, by mieć lepsze dane, czy po to, by generować nowe zestawienia i rozpoznawać te obszary, które do tej pory nie były rozpoznane?

Jedno i drugie. Jesteśmy w stanie wejść z eksploracją na obszary do tej pory nie objęte naszą obserwacją ze względu chociażby na możliwości techniczne. Teraz to jest możliwe. Z drugiej strony chcemy poprawy efektywności i skuteczności tego, co do tej pory robiliśmy. Jeśli jesteśmy w stanie łączyć nowe źródła ze starymi, to możemy również zapewnić wyższą precyzję wyników, przy zmniejszonym koszcie realizacji badania i szybszej publikacji danych.

Big Data wymaga nowych narzędzi i kompetencji. Co jest dziś takim narzędziem potrzebnym do analizy wielkich zbiorów danych w GUS?

Mamy do czynienia z jakościową zmianą, jeśli chodzi o otoczenie informatyczne, które warunkuje też funkcjonowanie takiego systemu jak my. Wiele lat temu korzystając z narzędzi informatycznych trzeba było się wiązać umowami z komercyjnymi dostawcami jedynych na rynku rozwiązań, które umożliwiały funkcjonowanie naszej serwerowni czy sieci. Kiedyś trudno było się dostać do nowoczesnego oprogramowania, umożliwiającego zaawansowane badania statystyczne. Teraz środowisko open source pozwala prowadzić obliczenia poprzez chmurę i umożliwia urzędom administracji wchodzenie w tak nowoczesne rozwiązania jak Big Data.

Czyli nastąpi przesiadka z mainframe na środowisko x86? Teraz w ZUS-ie mamy do czynienia z taką próbą migracji.

Wydaje mi się, że najlepszym rozwiązaniem jest odpowiedni miks. Tam gdzie wchodzą kwestie np. bezpieczeństwa sieci, zabezpieczenia poufności czy przetwarzania bardzo dużych zbiorów danych i usadawiania ich w jednym miejscu, istnieją rozwiązania infrastrukturalne, które są pewnym standardem i one będą funkcjonować u nas nadal.

Ale pojawia się także ta druga strona rozwiązań open source, które wykorzystywane są w zastosowaniach analitycznych. Kwestią sukcesu jest uzyskanie odpowiedniej symbiozy pomiędzy tymi rozwiązaniami.

Czy analiza wielkich zbiorów danych ma jakąś barierę wejścia dla instytucji publicznej?

Kiedyś dużą barierą wejścia by rozpocząć określone działania w statystyce publicznej były wysokie koszty inwestycji infrastrukturalnych. Teraz, w erze analizy nowych źródeł danych, jest nią kapitał ludzki. Nie jesteśmy w stanie konkurować z podmiotami komercyjnymi. Swoje kompetencje musimy budować głównie wewnętrznie, ponieważ osoby o odpowiedniej wiedzy funkcjonują już na rynku komercyjnym i trudno je skusić do pracy w sektorze publicznym.

Ale możemy wspierać się wiedzą międzynarodową. Realizujemy, np. wspólnie z Eurostatem, wiele projektów rozwojowych. Mamy różne instrumenty, ludzie spotykają się w grupach roboczych, zadaniowych, następuje naturalny przepływ wiedzy i kompetencji. To pozwala nam optymistycznie patrzeć w przyszłość na nasz priorytet, jakim jest analiza Big Data.


TOP 200