Cel warsztatów:
Kluczowe korzyści z udziału w warsztatach.
- Zapoznanie się z klasterem Hadoopa zainstalowanym w publicznej chmurze
- Przykładowe pobieranie danych społecznościowych z Twittera
- ETL oraz analizy tweetów przy użyciu popularnych narzędzi z ekosystemu Hadoop
- Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości
W programie warsztatów:
I WPROWADZENIE:
- Zwięzłe wprowadzenie do ekosystemu Apache Hadoop
- Omówienie narzędzi Apache Pig i stacku Apache Spark
- Omówienie zastosowań Hadoop-a
- Demonstracja klastra Hadoop w publicznej chmurze
II CZĘŚĆ INTERAKTYWNA:
- Pobieranie danych społecznościowych z Twittera
- Implementacja procesu ETL do filtrowania i parsowania tweetów przy użyciu Apache Pig
- Analiza sentymentu zawartego w tweetach przy użyciu Apache Spark
- Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości
Prowadzący

dr Łukasz Bolikowski
Head of Applied Data Analysis Lab, ICM, University of WarsawFounder and leader of Applied Data Analysis Lab at ICM, University of Warsaw. His group specializes in large-scale text and data mining, with particular emphasis on research analytics using Apache Big Data Stack.
.jpg)
Piotr Jan Dendek
Data Scientist, Applied Data Analysis Lab, ICM, University of WarsawData Scientist with almost 5 year experience in Apache Hadoop ecosystem, mainly interested in large-scale research analytics. Developing code in Java, Apache Pig and Scala, occasionally also in Python and R, focusing on applications of scalable machine learning techniques.

Michał Oniszczuk
Data Scientist, Applied Data Analysis Lab, ICM, University of WarsawJava and Scala developer passionate about software craftsmanship, functional programming and technologies for processing large datasets. Participated in several ICM projects using Apache Hadoop, Apache Pig, and Apache Spark.