Kto jest królem: Ekstraklasa w liczbach i wizualizacjach
- Ken Cherven,
- 14.11.2015, godz. 20:11
Jak można przedstawić schematy rozkładu danych w Ekstraklasie za lata 1994-2015 w sposób przystępny i atrakcyjny.
Niniejsze opracowanie poświęcone Ekstraklasie, czyli najwyższej lidze polskiej piłki nożnej, napisałem jako uzupełnienie mojej przyszłej prezentacji na konferencję Data+, która odbędzie się w Warszawie pod koniec listopada 2015. Wykorzystam przedstawione w nim dane do zilustrowania licznych schematów, które wystąpiły w lidze w ubiegłych 21 sezonach począwszy od rozgrywek z sezonu 1994-95 do roku 2014-15. Na podstawie danych, które dostępne są na stronie us.soccerway.com, można przedstawić kilka różnych wariantów narracji. Interaktywną wersję niniejszego dokumentu znajdą Państwo na stroniehttp://visualidity.com/grav/blog/ekstraklasa. Wszystkie zamieszczone tu wykresy i mapy są dostępne w wersji internetowej, zaś większość z nich będzie interaktywna.
Zanim zaczniemy, zatrzymajmy się na chwilę po to, aby przeanalizować szereg możliwych narracji, które możemy wyprowadzić na podstawie przytoczonych danych. Poniższe akapity skupiają się jedynie na niektórych możliwych scenariuszach.
Zobacz również:
Jeden z prostszych wariantów narracji polegałby na przeanalizowaniu liczby sezonów, w których dany zespół grał w Ekstraklasie, z całego 21-letniego okresu. W odróżnieniu od wielu innych dyscyplin sportowych, w piłce nożnej obowiązuje system, w którym zespoły grające słabo spadają do niższych lig. Ciekawe byłoby zatem zbadanie, które zespoły (jeśli w ogóle) grały w Ekstraklasie przez wszystkie 21 sezonów, a które weszły do niej jedynie na kilka. Kolejnym wariantem narracji mogłoby być wybranie zespołów już nieistniejących z przyczyn finansowych lub biznesowych.
Jeszcze innym aspektem jest rzut oka na niektóre wspólne parametry wpływające na sukces (lub porażkę) zespołów. Niniejszy zbiór danych zawiera szereg miar o znaczeniu krytycznym poczynając od punktów zdobytych w danym sezonie, poprzez liczbę zwycięstw, porażek, bramek strzelonych i straconych, aż po miejsce w tabeli. Dane te można badać w odniesieniu do pojedynczych sezonów lub jako dane zbiorcze dla wszystkich 21 sezonów.
Kolejny ciekawy aspekt wyłania się z prezentacji wykorzystującej dane geograficzne. W tym przypadku dysponujemy dziesiątkami zespołów z wielu miast obecnych w lidze przez co najmniej jeden sezon. Interesującą może się okazać prezentacja miejscowości, skąd pochodzą poszczególne zespoły, na podstawie lokalizacji z wykorzystaniem współrzędnych szerokości i długości geograficznej.
Prezentacja Kena Chervena, autora artykułu, otworzy konferencję Computerworld „Data+ Big Data & Business Analytics”, która odbędzie się w dniach 26-27 listopada 2015 w Warszawie. Ponadto podczas konferencji swoimi pomysłami i rekomendacjami w obszarze analizy danych podzielą się menedżerowie z: BP, mBanku, Allegro, ITAKI i wielu innych firm. Więcej szczegółów: „Data+ Big Data & Business Analytics”.
Ponadto, każdy zespół ma własne logo, które można wykorzystać do jego łatwej identyfikacji. Zestawienie nazwy zespołu i jego logo wzbogaca wizualizację i może przydać się szczególnie wówczas, jeśli będziemy chcieli przyciągnąć uwagę widzów rozpoznających logotypy swoich ulubionych zespołów.
Tak oto, mimo na razie pobieżnej analizy dostępnych danych udało nam się wskazać co najmniej kilka potencjalnie ciekawych kierunków analizy. Pozostałe możliwe do wykorzystania dane obejmują statystyki poszczególnych graczy, wyniki spotkań, liczbę widzów i wiele innych informacji. Możliwe jest także dołączenie zewnętrznych zbiorów danych w celu uzupełnienia naszej narracji o dodatkowy kontekst. Największe bowiem wyzwanie podczas przekazu tego czy innego wątku stanowi eliminacja danych. Chcemy, aby nasza narracja była logiczna i składna. Pragniemy także wzbogacić ją o liczne elementy wizualne.
Określenie elementów narracji
Po przeanalizowaniu wspomnianych wcześniej danych oraz niektórych dodatkowych możliwości, postanowiłem skoncentrować moją narrację na kilku znaczących elementach. Są to te elementy, które po zebraniu posłużą następnie do przedstawienia informacji o Ekstraklasie i drużynach występujących w niej w trakcie ubiegłych 21 sezonów. Składają się na nie:
1. Statystyki zespołów w poszczególnych sezonach, w tym zdobyte punkty, miejsce w tabeli oraz szereg innych wskaźników, które posłużą nam do wizualnego przedstawienia stopnia powodzenia (lub niepowodzenia) danego zespołu w rozgrywkach.
2. Dane geograficzne, które pozwolą nam osadzić narrację w pewnym kontekście i nadać jej lokalny koloryt, którego nie da się oddać li tylko za pomocą wykresów i tabel. Aby zrobić do właściwie, musimy użyć map pozwalających na interaktywne badanie obiektów z możliwością przesuwania i zbliżania. Możemy również sięgnąć do innych map aby wzbogacić naszą narrację.
3. Logotypy lub symbole drużyn, które posłużą do poszerzenia kontekstu i nadania przekazowi większej autentyczności. Sposób i miejsce korzystania z nich pozostają jeszcze do ustalenia ale po ułożeniu różnych elementów narracji sposoby te staną się bardziej oczywiste.
4. W miarę rozwoju narracji można będzie dodawać kolejne elementy; osobiście zawsze lubię pozostawić trochę marginesu na nowe odkrycia i improwizację w miarę rozkręcania się wątku. Dlatego ostateczna wersja narracji może zawierać linie czasu, zdjęcia i inne odpowiednie elementy uzupełniające.
Ogólne informacje o Ekstraklasie
Ekstraklasa została oficjalnie założona w roku 1927 i stanowi najwyższą ligę klubową w Polsce. W ostatnich latach liczba klubów grających w Ekstraklasie z reguły wynosiła 16, przy czym ulegała ona niewielkim wahaniom.
Zespoły nie mają gwarancji pozostania w lidze. Mogą one spaść z tabeli na podstawie słabych wyników gry lub opuścić ją ze względu na uwarunkowania ekonomiczne, jeśli klub nie przynosi dochodu. Z tego względu, jak Państwo wkrótce zobaczą, tylko garstka klubów była w stanie utrzymać się w lidze przez większość lub przez wszystkie sezony w latach 1994-2015.
Profile zespołów
Celem niniejszego rozdziału jest dokonanie przeglądu poszczególnych drużyn, które zagrały w Ekstraklasie co najmniej w jednym sezonie począwszy od roku 1994-95. Rozwijając narrację opartą o dane dowiemy się także, z których miejscowości wywodzą się zespoły, na podstawie danych geograficznych. Dane mogą mieć różną dokładność zależną od ich dostępności, szczególnie w odniesieniu do zespołów nieistniejących. Mimo to, dołożymy wszelkich wysiłków aby dokładnie umieścić na mapie każdy klub.
W następnych dwóch rozdziałach spróbujemy przekazać najważniejsze informacje o każdym klubie. Najpierw rzucimy okiem na Podsumowania wyników zespołów a potem na Rozkład geograficzny.
Zacznijmy od wizualnego podsumowania informacji o każdym z ponad 40 zespołów, które znalazły się w tabeli w trakcie 21 sezonów. W tym rozdziale umieściliśmy zespoły w porządku alfabetycznym analizując trzy podstawowe parametry; w kolejnych zaś rozdziałach wykresy będą ułożone na podstawie osiągnięć każdej drużyny na tle konkurentów. Da to nie tylko sporą dawkę informacji czytelnikom lecz pomoże także wykazać zalety wizualnej prezentacji danych w porównaniu z tradycyjną prezentacją tekstową.
Podsumowania wyników zespołów
Niniejszy rozdział zawiera krótkie informacje o każdym zespole z uwzględnieniem trzech prostych parametrów: liczby sezonów w Ekstraklasie (z 21 możliwych), sezonów zakończonych na 1 miejscu i sezonów zakończonych w pierwszej trójce tabeli. Dla uproszczenia pominiemy rozgrywki posezonowe.
Powyższe zestawienie, samo w sobie ciekawe i nieco ożywione umieszczeniem w nim symboli drużyn, było jednak przydługie i nie pozbawione wad. Parafrazując słowa Edwarda Tufte»a, guru wizualizacji, powyższe podejście wykazuje mało opłacalny stosunek zużytego atramentu do przekazanych informacji. Oto kilka ograniczeń, jakie format taki ma:
1. Trudno jest porównać wyniki poszczególnych drużyn bez włożenia w to dodatkowej sporej pracy.
2. Zestawienie nie ma kategorycznego uszeregowania, które nadałoby mu sensowny kontekst.
3. Nie otrzymujemy informacji o tym, kiedy poszczególne zespoły odnosiły większe, a kiedy mniejsze sukcesy.
4. Nie dostrzegamy żadnych schematów geograficznych wśród drużyn.
Za chwile zobaczymy jednak, że szereg dobrze opracowanych prezentacji wizualnych (wykresy, mapy, tabele) pozwoli nam te niedostatki usunąć.
Rozkład geograficzny
Kolejny szereg kwestii wartych poruszenia i ewentualnej odpowiedzi obraca się wokół rozkładu geograficznego zespołów na przestrzeni 21 lat. Na podstawie map poszczególnych sezonów powinniśmy być w stanie przeanalizować główne zmiany, jakie miały miejsce w tym okresie. Mówiąc prosto - czy zmienił się kształt Ekstraklasy? Zmiany w lidze mogą zachodzić na dwa główne sposoby:
1. Słabe wyniki zespołu mogą zepchnąć go do niższej klasyfikacji. Aby powrócić do Ekstraklasy, drużyna musi zakończyć sezon na jednym z czołowych miejsc niższej ligi. Dlatego jest całkiem możliwa sytuacja, w której bardzo słabo grający zespół, po spadku z tabeli Ekstraklasy, nigdy do niej nie wróci.
2. Do zniknięcia zespołu z Ekstraklasy mogą prowadzić także kwestie finansowe. Jeśli właściciele klubu zdecydują o jego zamknięciu, nie zobaczymy go już w Ekstraklasie oczywiście nigdy więcej.
Biorąc wszystko to pod uwagę, przyjrzymy się teraz mapom drużyn aby sprawdzić, czy badanym okresie istniały jakieś zauważalne geograficzne schematy rozkładu. Naszym celem bowiem jest nie tylko stworzenie ciekawych wizualizacji danych lecz wykorzystanie ich do dostarczenia czytelnikowi informacji o ewentualnych kryjących się wśród nich schematach.
Przy użyciu CartoDB możemy w łatwy sposób utworzyć szereg map na potrzeby analizy schematów. Nasze pierwsze zadanie będzie polegało na zobrazowaniu geograficznego rozkładu w czasie klubów grających w Ekstraklasie w latach od 1994-95 do 2014-15. Po interaktywnych mapach można poruszać się za pomocą funkcji przesuwania i zbliżania. Oto statyczne obrazy uzyskanych map.
Mapa Ekstraklasy z podziałem na kluby w czasie
Pojawia się tu kilka następujących schematów:
- W całym analizowanym okresie w Ekstraklasie grała co najmniej jedna drużyna z Warszawy.
- Wiele drużyn pochodzi z południowej środkowej części Polski w pobliżu granicy czeskiej.
- Mniej zespołów jest skupionych w północnej połowie kraju.
Popatrzmy na mapę znowu, tym razem próbując przeanalizować całkowitą liczbę sezonów rozgrywanych w Ekstraklasie przez poszczególne drużyny. Pobieżne spojrzenie odkrywa statyczny obraz wszystkich klubów, na którym podkreślone są tylko kluby o największej liczbie sezonów w rozgrywkach.
Mapa największej liczby sezonów rozegranych w Ekstraklasie
Na mapie tej widać, że drużyny o największej liczbie rozgrywek w ekstraklasie są rozrzucone po całym kraju - w Warszawie, Krakowie i innych miejscowościach. Nie zaznacza się przewaga większych miast, przynajmniej jeśli chodzi o liczbę rozegranych sezonów. Później sprawdzimy, czy jest to także prawda w odniesieniu do wysokiego miejsca w tabeli.
Nasza trzecia i ostatnia mapa grupuje zespoły pod kątem geograficznym, dzięki czemu możemy przeanalizować, gdzie toczyło się najwięcej rozgrywek.
Teraz pojawia się wyraźny schemat, o którym wspominaliśmy wcześniej, ponieważ widać, ze najwięcej sezonów rozegrały drużyny z południowo-środkowego regionu Polski. Jest to zrozumiałe biorąc pod uwagę dużą liczbę zespołów z tego terenu grających w Ekstraklasie w okresie ubiegłych 21 lat. Widzimy tutaj także wpływ klubów z Warszawy, z których dwa zaliczyły w Ekstraklasie 36 z 42 możliwych sezonów. Aby obejrzeć bardziej szczegółowe informacje, prosimy podwójnie kliknąć na zbiór. Da to możliwość analizy zespołów tworzących grupę lub skorzystać z funkcji wyszukiwania, aby kontynuować analizę.
Jak pokazuje ten krótki przykład, dostępnych jest sporo możliwości analizy danych geograficznych na podstawie map.
Schematy zbiorcze dla Ekstraklasy w latach 1994-2015
Kolejny rozdział zajmuje się konkretną analizą osiągnięć poszczególnych zespołów w Ekstraklasie na podstawie miejsca w tabeli, zdobytej liczby punktów, zwycięstw, bramek itd. Wykorzystanie wykresów do śledzenia tych parametrów umożliwi dokonanie trafniejszych obserwacji w porównaniu z przeglądaniem tych samych danych przedstawionych w układzie tabelarycznym. Niekiedy układ tabelaryczny jest jak najbardziej przydatny a nawet preferowany, jednakże w większości przypadków możemy przekazać nasz komunikat w znacznie bardziej wyrazisty sposób wykorzystując odpowiedniego rodzaju wykresy.
Miejsca w tabeli
Najistotniejszą zmienną mierzącą sukces klubu jest jego miejsce w tabeli rozgrywek na koniec sezonu. Ponieważ w kontekście naszej narracji nie zajmujemy się rozgrywkami posezonowymi, miejsce na zakończenie oficjalnego sezonu rozgrywek będzie stanowiło najlepszy wskaźnik sukcesu lub porażki drużyny. Wszystkie inne miary - punkty, bramki zdobyte i stracone i tym podobne - mają jedynie wpływ na końcowe miejsce klubu w tabeli.
Spojrzyjmy na ten element najpierw w sposób zbiorczy analizując, jak często poszczególne zespoły zakończyły rozgrywki na danym miejscu w klasyfikacji. Idealnym sposobem takiej analizy jest skorzystanie ze zmodyfikowanego wykresu bąbelkowego, przy czym modyfikacja polegałaby na umieszczeniu na osi poziomej klubów (a nie liczb). Oś pionowa będzie zawierała liczby od 1 do 18 odzwierciedlające faktyczne miejsce zajęte przez drużynę w rozgrywkach w danym roku. Aby wykres taki stał się intuicyjny, należałoby także odwrócić oś poziomą, ponieważ liczba 1 oznacza pierwsze miejsce w tabeli. Wykres będzie czytany od góry do dołu, co oznacza, że częstsze wartości znajdujące się u góry wykresu będą oznaczały wyższą skuteczność drużyny.
Częstotliwość zajmowania przez zespół miejsca w tabeli, 1994-2015