Cel warsztatów:

W czasie warsztatów przedstawimy technologie z ekosystemu Hadoop wraz z ilustracją rozwiązywania problemów biznesowych.

Pokażemy jak te technologie mogą być użyte do kompleksowej analizy danych społecznościowych — począwszy od gromadzenia danych pochodzących z Twittera, poprzez różnorodne analizy danych zarówno w trybach ad-hoc oraz batchowym. Celem scenariusza ćwiczeń jest zasymulowanie rzeczywistych problemów i rozwiązań, które często spotykane są przez firmy, które wykorzystują dane do budowania i ulepszania swojego produktu.

Kluczowe korzyści z udziału w warsztatach.

Zapoznanie się z klasterem Hadoopa zainstalowanym w publicznej chmurze
Przykładowe pobieranie danych społecznościowych z Twittera
ETL oraz analizy tweetów przy użyciu popularnych narzędzi z ekosystemu Hadoop
Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości

W programie warsztatów:

I WPROWADZENIE:

Zwięzłe wprowadzenie do ekosystemu Apache Hadoop
Omówienie narzędzi Apache Pig i stacku Apache Spark
Omówienie zastosowań Hadoop-a
Demonstracja klastra Hadoop w publicznej chmurze

II CZĘŚĆ INTERAKTYWNA:

Pobieranie danych społecznościowych z Twittera
Implementacja procesu ETL do filtrowania i parsowania tweetów przy użyciu Apache Pig
Analiza sentymentu zawartego w tweetach przy użyciu Apache Spark
Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości

Prowadzący

dr Łukasz Bolikowski

Head of Applied Data Analysis Lab, ICM, University of Warsaw

Founder and leader of Applied Data Analysis Lab at ICM, University of Warsaw. His group specializes in large-scale text and data mining, with particular emphasis on research analytics using Apache Big Data Stack.

Piotr Jan Dendek

Data Scientist, Applied Data Analysis Lab, ICM, University of Warsaw

Data Scientist with almost 5 year experience in Apache Hadoop ecosystem, mainly interested in large-scale research analytics. Developing code in Java, Apache Pig and Scala, occasionally also in Python and R, focusing on applications of scalable machine learning techniques.

Michał Oniszczuk