Warsztat I: Skuteczna wizualizacja danych i jej wpływ na czas i trafność decyzji biznesowych - Data + Manage Analyze Predict: Computerworld
Grafika tła

Warsztat I: Analiza danych społecznościowych przy użyciu ekosystemu Apache Hadoop

PROFIL WARSZTATU: TECHNICZNY

PROWADZĄCY: dr Łukasz Bolikowsk, Head of Applied Data Analysis, ICM, University of Warsaw
Piotr Jan Dendek, Data Scientist, Applied Data Analysis Lab, ICM, University of Warsaw
Michał Oniszczuk, Data Scientist, Applied Data Analysis Lab, ICM, University of Warsaw

Cel warsztatów:

W czasie warsztatów przedstawimy technologie z ekosystemu Hadoop wraz z ilustracją rozwiązywania problemów biznesowych.
Pokażemy jak te technologie mogą być użyte do kompleksowej analizy danych społecznościowych — począwszy od gromadzenia danych pochodzących z Twittera, poprzez różnorodne analizy danych zarówno w trybach ad-hoc oraz batchowym. Celem scenariusza ćwiczeń jest zasymulowanie rzeczywistych problemów i rozwiązań, które często spotykane są przez firmy, które wykorzystują dane do budowania i ulepszania swojego produktu. 

Kluczowe korzyści z udziału w warsztatach. 

 • Zapoznanie się z klasterem Hadoopa zainstalowanym w publicznej chmurze
 • Przykładowe pobieranie danych społecznościowych z Twittera
 • ETL oraz analizy tweetów przy użyciu popularnych narzędzi z ekosystemu Hadoop
 • Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości


W programie warsztatów:

I WPROWADZENIE:

 • Zwięzłe wprowadzenie do ekosystemu Apache Hadoop
 • Omówienie narzędzi Apache Pig i stacku Apache Spark
 • Omówienie zastosowań Hadoop-a
 • Demonstracja klastra Hadoop w publicznej chmurze

II CZĘŚĆ INTERAKTYWNA:

 • Pobieranie danych społecznościowych z Twittera
 • Implementacja procesu ETL do filtrowania i parsowania tweetów przy użyciu Apache Pig
 • Analiza sentymentu zawartego w tweetach przy użyciu Apache Spark
 • Wykorzystanie podstawowych metod analizy danych na potrzeby zrozumienia ich zawartości

Prowadzący

Speaker

dr Łukasz Bolikowski

Head of Applied Data Analysis Lab, ICM, University of Warsaw

Founder and leader of Applied Data Analysis Lab at ICM, University of Warsaw. His group specializes in large-scale text and data mining, with particular emphasis on research analytics using Apache Big Data Stack. 

Speaker

Piotr Jan Dendek

Data Scientist, Applied Data Analysis Lab, ICM, University of Warsaw

Data Scientist with almost 5 year experience in Apache Hadoop ecosystem, mainly interested in large-scale research analytics. Developing code in Java, Apache Pig and Scala, occasionally also in Python and R, focusing on applications of scalable machine learning techniques.

Speaker

Michał Oniszczuk

Data Scientist, Applied Data Analysis Lab, ICM, University of Warsaw

Java and Scala developer passionate about software craftsmanship, functional programming and technologies for processing large datasets. Participated in several ICM projects using Apache Hadoop, Apache Pig, and Apache Spark.