Data scientist poszukiwany

Specjaliści od zaawansowanej analizy wielkich zbiorów danych - data scientists to wciąż wąska i elitarna grupa pracowników, dobrze zarabiających i bardzo przez firmy poszukiwanych.

80% firm na świecie twierdzi, że specjalistów data scientists jest na rynku za mało. McKinsey Global Institute szacuje, że do 2018 roku, w samych Stanach Zjednoczonych brakować może od 140 000 do 190 000 osób o wysokich umiejętnościach analitycznych, a do 2020 roku globalny deficyt zatrudnienia w tym sektorze obejmie 4 miliony miejsc pracy.

Skąd się bierze tak wysokie zapotrzebowanie na data scientists? Są poszukiwani, gdyż zaczynają odgrywać bardzo ważna rolę we współczesnym biznesie. O skutecznym rozwoju i przewadze konkurencyjnej przedsiębiorstw decyduje dziś w dużym stopniu umiejętność analizowania coraz większych zbiorów różnorodnych danych. Jednak bez specjalistów od zaawansowanych analiz predykcyjnych firmy nie dadzą rady wydobyć z tych danych wartości i wiedzy.

Zobacz również:

Kim jest data scientist i jak wygląda jego praca

Data scientist to "renesansowy" pracownik XXI wieku. Musi posiadać bardzo szeroki zakres umiejętności, począwszy od takich zagadnień jak: matematyka i informatyka, poprzez programowanie, uczenie maszynowe, stosowanie zaawansowanych narzędzi analitycznych, na wiedzy i praktyce biznesowej kończąc. Specjaliści data science bardzo często zaczynali swoją karierę jako analitycy danych lub statystycy, jednak ich rola znacznie się poszerzyła w momencie, kiedy okazało się, że o skutecznym rozwoju i przewadze konkurencyjnej przedsiębiorstw decyduje umiejętność analizowania dużych wolumenów różnorodnych, także nieustrukturyzowanych danych. Data scientists poproszeni przez autorów raportu CrowdFlower "2015, Data Scientist Report" o określenie uprawianej specjalności nazywali siebie różnie. Większość respondentów określiła się jako badacze (54,35) lub computer scientist (52,3%), niektórzy uważają się za specjalistów od analityki biznesowej (36%), matematyków (19%), edukatorów (18,3%), przedsiębiorców (12,4%).

Chociaż data scientist powinien posiadać jak najszerszą wiedzę, to nie musi być ona udokumentowana tytułami naukowymi. Według badania przeprowadzonego w 2015 przez firmę rekrutacyjną Burtch Works tylko 28% data scientists posiadało stopień doktora, a 59% nic więcej poza stopniem magistra. Jest to zawód wymagający nie tytułów, dyplomów i certyfikatów (choć podwyższają one zarobki), ale przede wszystkim ogromnego doświadczenia, o czym świadczy mediana czasu jego wykonywania, która w 2014 wynosiła 9 lat, w 2015 - 6 lat.

Narzędzia jakimi posługują się w swojej pracy data scientists są bardzo różnorodne, począwszy od bardzo tradycyjnych, po zaawansowane technologicznie. Wiele z nich to rozwiązania open source. Respondenci badania Crowd Flower wymienili w sumie 48 technologii, których używają w codziennej pracy. Najczęściej wymieniany był Excel (55,6%), później Python (22%). Oprogramowanie open-source jest bardzo często używanym narzędziem w warsztacie data scientistc, stosuje je 98%, a 43,1% uważa je za bardzo ważne. Z technologii open source najczęściej wymieniany był język R.

Specjaliści data scientists zapytani o to jakie zadanie w swojej pracy uważają za najciekawsze odpowiedzieli, że jest to analiza predykcyjna (53,6%) oraz wydobycie danych (52,3%). Natomiast za najbardziej żmudne i czasochłonne uważali czyszczenie i segregowanie danych (66,7%). Gromadzenie zbiorów danych było wskazane przez 52,9% tuż po ich czyszczeniu. Czasochłonność czyszczenia danych została ponadto uznana za jedną z największych przeszkód utrudniających pracę, drugim istotnym problemem jest słaba jakość danych (52,3%). Ograniczenia technologiczne zostały uznane za przeszkodę w pracy nad danymi tylko przez 30,1% data scientists.

Zarobki z górnej półki

Data scientists to bardzo dobrze zarabiająca grupa zawodowa. Ich podstawowe zarobki są o 39% wyższe niż zarobki innych specjalistów od analiz. Średnie zarobki w USA przedstawił portal Data Jobs według którego specjaliści ds. Big Data mogą liczyć na pensje w granicach 50 tys. USD - 75 tys. USD rocznie. W przypadku doświadczonych analityków widełki zwiększają się do 65 tys. USD - 110 tys. USD. Osoby pracujące w branży od przynajmniej trzech lat mogą liczyć na 150 tys. USD.

Glassdor Survey, po przeanalizowaniu blisko 2 tysięcy aktywnych ogłoszeń na stanowisko data scientist, szacuje medianę wynagrodzeń pracowników tego sektora na ponad 116 tys. USD.

Raport firmy O'Reilly "2015 Data Science Salary Survey Tools, Trends, What Pays (and What Doesn’t) for Data Professionals" jeszcze bardziej szczegółowo omówił kwestię zarobków. Przyjmując za bazową pensję w wysokości 70 577 USD uważa, że należy dodać do niej 1467 USD za każdy rok pracy pracownika mającego ukończone 18 lat (tak więc bazowe wynagrodzenie dla 48 latka to już 111 587 USD). Wynagrodzenie w większych firmach bywa wyższe - należy wówczas dodać do bazowej stawki 401 USD jeśli jest to firma zatrudniająca ponad 3000 pracowników, ale odjąć 3468 USD jeśli zatrudnia mniej niż 500.

Wysokość zarobków data scientist jest też uzależniona od miejsca zatrudnienia, płci i wykształcenia. Najwyższe zarobki są w Kalifornii (+ 16000 USD do bazowej stawki), następnie na całym północnym zachodzie USA od Nowego Jorku po New Jersey (+12000 USD). Podobne zarobki występują też w Wielkiej Brytanii, Irlandii, Australii i Nowej Zelandii. W innych krajach Europy praca data scientists jest niżej płatna (-23000 USD). W Azji należy odjąć 26000 USD od pensji bazowej, w Ameryce Łacińskiej jest to mniej o 21000 USD.

Niestety, jak wszędzie na świecie tak i w przypadku specjalistów data science wysokość zarobków jest zależna od płci. Według O'Reilly kobiety zarabiają w tym zawodzie o 8025 USD mniej niż mężczyźni w tej samej lokalizacji i w takim samym typie przedsiębiorstwa.

Lepszym zarobkom sprzyja natomiast edukacja. Tytuł doktora przynosi rocznie o 7500 USD więcej.

Czy w Polsce data scientists są poszukwani?

Z badania "Ruchomy cel: dane o kliencie, 2015" przeprowadzonego przez IBM i portal Decyzje IT.pl wynika, że tylko w 3% badanych przedsiębiorstw występuje stanowisko data scientist i najczęściej pracuje on w dziale IT (50%) lub w działach ds. analiz i controllingu. Tylko 1% przedsiębiorstw planuje w najbliższym czasie powołanie stanowiska data scientist do życia. Wynagrodzenia takich specjalistów są w polskich warunkach trudne do określenia, często zakwalifikowani są oni do tej samej grupy płac co programiści.

Przyglądając się planowanym inwestycjom w narzędzia analityczne widać, że potrzeba głębokiej analizy wielkich zbiorów danych jest jeszcze dość odległa. Rozwiązań Big Data i data mining używa dziś odpowiednio 7% i 5% polskich firm, a w planach inwestycyjnych ma je 9% przedsiębiorstw.

Chociaż coraz więcej przedsiębiorstw w naszym kraju rozumie, że analityka danych umożliwia szybkie podejmowanie lepszych decyzji i pozwala lepiej poznać potrzeby i preferencje klientów, to w polskich przedsiębiorstwach wciąż wyzwaniem jest zbudowanie infrastruktury umożliwiającej skuteczne zbieranie i analizę danych, jak również sama jakość danych.

Chociaż zapotrzebowanie na data scientists jest obecnie w Polsce niewielkie, to ogólnoświatowy trend nie ominie naszego rynku. Przedsiębiorstwa mają tego świadomość, według badania autorstwa InsightExpress 8 na 10 polskich menedżerów IT sądzi, że Big Data będzie stanowiło trzon strategii ich przedsiębiorstw w ciągu najbliższych pięciu lat.

- Olbrzymie zapotrzebowanie na dobrze kwalifikowanych data scientists stanowi unikalną szansę dla naszego kraju. Polska słynie w świecie z dobrej jakości kształcenia informatyków i matematyków, a polscy studenci od wielu lat wygrywają międzynarodowe konkursy informatyczne. Kluczowym wyzwaniem jest jednak dostosowanie istniejących programów edukacyjnych do potrzeb kształcenia specjalistów w zakresie zaawansowanej analityki danych. - mówi Jerzy Kalinowski, partner, szef grupy doradczej w sektorze nowych technologii, telekomunikacji i mediów w KPMG w Polsce i w Europie Środkowo-Wschodniej.

Polskie uczelnie mają tego świadomość i zaczynają uruchamiać coraz więcej kierunków, które będą kształcić specjalistów od analiz wielkich zbiorów danych. Przykłady uczelni, które oferują programy nauczania w tym zakresie to miedzy innymi Szkoła Główna Handlowa w Warszawie, która oferuje studia magisterskie: Advanced Analytics – Big Data oraz podyplomowe: Analizy Statystyczne i Data Mining w Biznesie, Akademia analityka - analizy statystyczne i data mining w biznesie oraz Inżynieria Danych – Big Data. Z kolei w Szkole Głównej Gospodarstwa Wiejskiego można odbyć studia podyplomowe Systemy Informacyjne i Analiza Danych.

Narzędzia najczęściej używane przez data scientists w proc. - języki, platformy, technologie analityczne

SQL - 70

Excel - 62

Python - 55

R - 54

MySQL - 43

Python: nump, scipy, scitkit-learn - 38

ggplot - 37

MicrosoftSQL Server - 35

Tableau - 34

JavaScript - 29

Matplotlit (Python) - 28

Java - 27

PostgreSQL - 26

Oracle - 26

D3 - 26

Homegrown analysis tools - 22

Hive - 22

Spark - 21

Cloudera - 19

VisualBasic/VBA - 18

MongoDB - 17

Apache Hadoop - 16

SAS - 16

C++ - 15

PowerPivot - 15

Scala - 14

SQLite - 14

C - 13

Pig - 13

Amazon RedShift - 13

Weka - 13

Hbase - 13

Amazon Elastic MapReduce (EMR) - 12

Perl - 12

SPSS - 12

Teradata - 10

źródło: raport O'Reilly, 2015 Data Science Salary Survey

Narzędzia wykorzystywane do analizy danych w polskich firmach

- raportowanie standardowe , w tym kostki OLAP - 46%

- systemy typu business intelligence - 42%

- data mining - 5%

- analityka Big Data - 7%

Narzędzia w jakie będę inwestować polskie działy analiz

- raportowanie standardowej kostki OLAP - 55%

- business intelligence - 36%

- Big Data i data mining - 9%

źródło: Ruchomy cel: dane o kliencie, 2015. IBM, Decyzje IT.pl