Klęska urodzaju danych

Jak dużo to 165 tys. samochodów i czemu wszyscy mogą się nauczyć matematyki? Na temat fascynującej statystyki, umiejętności analizowania pokazywania danych oraz klątwie wiedzy rozmawiamy z Janiną Bąk, statystyczką, naukowczynią, pisarką.

Janina Bąk, fot. Krystian Lipiec

Za co kochasz statystyki?

Nigdy nie żywiłam żadnej antypatii do matematyki czy statystyki, ale dużo czasu zajęło mi zobaczenie, jak bardzo jest przydatna i ciekawa. Na pewnym etapie swoich studiów natrafiłam na wspaniałego nauczyciela, człowieka, który pokazał mi, jak wiele możliwości daje statystyka, na jak wiele pytań pozwala odpowiedzieć. Te same testy, modele, analizy są wykorzystywane w medycynie, ekonomii, socjologii, fizyce, a nawet literaturoznawstwie! W statystyce świetne jest to, że daje nam narzędzia, które pozwalają dowiedzieć się najróżniejszych rzeczy – czy dany lek działa? Z czego wynikają nierówności na rynku pracy? Jak wygląda struktura awansu w danej organizacji? Jest coś fascynującego w tych niemal nieograniczonych możliwościach.

Prowadzisz wykłady m.in. z Data Driven Marketing. To jeden z tematów, które my również poruszamy, oczywiście głównie pod kątem narzędzi IT. Jaką radę dałabyś osobom, które chcą w interesujący sposób mówić czy pisać o danych?

Zobacz również:

  • Firmy ponoszą coraz większe straty w wyniku ataków hakerów na ich systemy IT

Istnieje coś takiego jak klątwa wiedzy, zwykle nieuświadomione przekonanie, że wszyscy wiedzą dokładnie tyle, co my. To sprawia, że np. prowadzimy wykład czy prezentację i używamy terminów specjalistycznych, nie wyjaśniając ich, albo korzystamy ze skrótów myślowych, bo mamy wrażenie, że absolutnie wszyscy na widowni już to wszystko wiedzą. Musimy być na to wyczuleni, przed każdą prezentacją zadać sobie pytanie: jak dużo wie moja publiczność? Które terminy czy definicje mogą być dla nich nowe? A następnie dostosować swój przekaz do naszych odbiorców. Nie infantylizując, ale wyjaśniając szczegółowo to, co wymaga wyjaśnienia. Zadbajmy również o łatwość poznawczą, to jest taki sposób mówienia o danych, który powoduje, że percepcyjnie są one dla nas łatwiejsze do zrozumienia i interpretacji. Na ogół jesteśmy nienajlepsi w rozumieniu konkretnych liczb, ale jesteśmy doskonali w interpretowaniu relacji między nimi. Podam przykład: zastanawiamy się, ile samochodów osobowych musi przejechać po drodze, żeby dokonać zniszczeń, jakich dokona jeden TIR. Okazuje się, że jest to 165 tys. samochodów osobowych - czujemy, że to jest dużo, ale jak dużo dokładnie? Trudno nam to sobie wyobrazić. Ale jakbym powiedziała, że 165 tys. samochodów to jest tyle, że jeśli pierwszy postawimy w Zakopanem, a później będziemy je ustawiać w szeregu jeden po drugim, to ta kolejka ciągnęłaby się aż do Gdańska, to już trochę łatwiej nam to sobie percepcyjnie przetworzyć, wyobrazić, zrozumieć. Więc myślmy o łatwości poznawczej, o klątwie wiedzy, a także o poprawnej wizualizacji. Wykres to nie pisanka, nie chodzi w nim o to, żeby było tam jak najwięcej kolorów, udziwnień i animacji – ma po prostu przekazywać informacje w jak najprostszy i rzetelny sposób.

Jesteśmy bombardowani różnymi danymi, skąd wiedzieć, które są ważne, na które zwracać uwagę?

Ja sama używam takiej podstawowej checklisty. Zawsze sprawdzam po pierwsze źródło danej informacji – kto ją napisał, kto ją przytacza, czy jest to fragment oryginalnej publikacji, czy też artykuł, który ją tylko cytuje? W tym drugim wypadku zawsze namawiam do tego, by jednak sięgać po oryginał, wtedy mamy pewność, że nic nie zniekształciło pierwotnego przekazu. Warto też pamiętać, że wypowiedzi anonimowych ekspertów czy internautów, opinie sąsiadki czy kolegi z pracy, personalne poglądy - to nie jest dobre źródło faktów naukowych (chyba, że te osoby są ekspertami wykształconymi w tych dziedzinach). Krok drugi to sprawdzenie, w jaki sposób pozyskano dane, jak dane badanie przeprowadzono – za pomocą badania ankietowego? Analizy danych zastanych, np. z Google Analytics? Analizy wydźwięku? Metod pozyskiwania danych jest bardzo dużo, zawsze warto się przyjrzeć temu, która została użyta w tym konkretnym wypadku. I krok trzeci: sprawdźmy, kiedy powstała dana informacja. Zdarza się, że niektóre informacje dezaktualizują się lub są uzupełniane z tygodnia na tydzień – na przykład w szybko rozwijających się branżach typu technologia, czy też obecnie – epidemiologia koronawirusa.

Firmy, instytucje zbierają ogromne ilości danych, ustrukturyzowanych i nie – mimo, że czasami ma to ograniczony sens. Jak podejść do tego problemu, czyli jak odróżnić wartościowe od nie wartościowych danych?

To jest swoista klęska urodzaju, obecnie zbieranie danych jest prostsze, szybsze i tańsze niż kiedykolwiek wcześniej. To tworzy iluzję, że potrzebujemy zbierać i przetwarzać je wszystkie. Szczęśliwie nie jest to prawda. Spójrzmy na przykład na statystyki naszego konta firmowego na Facebooku. Gdy je eksportujemy, to w oryginalnym raporcie jest ponad 70 zmiennych. Nie potrzebujemy ich wszystkich. To, które będą dla nas istotne wynika z celu naszej analizy, pytania, na które chcemy znaleźć odpowiedź. Jeśli interesuje nas charakterystyka naszych odbiorców, to sięgnijmy po dane demograficzne. Jeśli trendy czasowe – to spójrzmy na to jak dana zmienna zmieniała się (lub nie) w czasie. Jeśli jakość strony - zdecydujmy jakie wskaźniki są dla nas kluczowe; zaangażowanie? Wyświetlenia filmów? Możliwości są niemal nieograniczone. Paradoksalnie jeszcze trudniejszą sytuacją jest ta, gdy korzystamy z narzędzi, które oferują generowanie automatycznych raportów. Wtedy klikamy guzik „pobierz raport” i chwilę później dostajemy kilkadziesiąt stron z mnóstwem statystyk, z czego część jest totalnie zbędna.

Nie ma uniwersalnej odpowiedzi na pytanie, jakie statystyki są kluczowe i jakie powinniśmy analizować, bo to zależy od charakterystyki naszego biznesu, od naszego celu biznesowego i wielu innych czynników.

Jak się nauczyć odpowiedniego analizowania danych? Czy to wiedza tajemna specjalistów statystyki?

Mamy ogromne możliwości w tym zakresie - artykuły open access, blogi, mamy studia podyplomowe, zaawansowane szkolenia, mnóstwo darmowych materiałów w internecie. Nie trzeba mieć studiów wyższych z ekonometrii czy statystyki, by analizować dane. Najważniejszym jest, by pamiętać, że analiza danych to dziedzina, która szybko się zmienia, więc musimy się cały czas uczyć, być czujni na zmiany i nowości na przykład te aplikowane na odpowiednich platformach social media czy w narzędziach analitycznych. Ale jeśli ktoś jest zainteresowany tym tematem, to jest się od kogo i z czego się uczyć.

Jak radzić sobie z zalewem fałszywych informacji w internecie?

Ten temat jest dla mnie bardzo ważny, bo obecnie mamy mnóstwo fake newsów, które bywają bliźniaczo podobne, nawet graficznie, do prawdziwych informacji. Ponadto bardzo trudno jest rozróżnić, czy dany komentujący jest trollem, fałszywym kontem, czy też prawdziwym człowiekiem. W kontekście fake newsów istnieje wiele stron, które je na bieżąco weryfikują, na przykład FactCheck.org czy Fakenews.pl. Zdecydowanie powinniśmy z nich korzystać, zwłaszcza zanim udostępnimy jakąś informację czy ją skomentujemy. Na przykład zanim zareagujemy na skrin jakiegoś tweeta warto wejść na konto jego autora i sprawdzić, czy faktycznie coś takiego napisał. Bo przecież sfałszowanie zrzutu z ekranu jest teraz prostsze niż kiedykolwiek wcześniej.

Bardzo rozpowszechnionymi fake newsami są informacje o śmierci jakiejś znanej osoby – nawet poważne media potrafią powtórzyć taką fałszywą informację za kimś innym. Sprawdzajmy to, czekajmy na oficjalne potwierdzenie informacji, na przykład oświadczenia rodziny. Jeśli natrafimy na fake newsa czy po prostu jakąś szkodliwą, na przykład pseudonaukową teorię, to nie szerujmy dalej tych treści – często robimy to prześmiewczo, ale tak naprawdę w ten sposób nadajemy tej informacji drugie życie, dajemy sygnał Facebookowi czy innej platformie, że powinien pokazać tę treść większej liczbie osób.

Jako redakcja Computerworld pracujemy w kręgu branży IT, która jest zmaskulinizowana – nie umiem podać prawdziwych statystyk, ale na oko to 95% mężczyzn. Co najmniej. Jak zachęcić młode dziewczyny do studiowania przedmiotów związanych z technologią? W tej chwili stanowią zaledwie ok. 16% studentów takich kierunków.

Dla porządku powiem, ze jako statystyczka nie jestem fanką oceniania „na oko”. Wracając jednak do tematu, to ostatnio czytałam wiele badań na temat „number sense”, czyli naszych intelektualnych możliwościach liczenia i szacowania. Badano dzieci w różnym wieku, żeby sprawdzić ich zdolności matematyczne - okazało się, że wszyscy posiadamy te zdolności, są w nas obecne od urodzenia i niezależne od rozwoju języka – czyli nie ma takiej opcji, że ktoś mówi, że jest głąbem matematycznym, nigdy się liczenia nie nauczy i może to traktować jako wymówkę. Ale najważniejsze jest to, że do pewnego wieku, do ok. 16 roku życia – te badania nie wykazały żadnych różnic między płciami, jeśli chodzi o zdolności matematyczne. Te różnice pojawiają się dopiero później - dlatego, że nasza kultura, również często szkolna, wciąż opiera się o stereotypowe myślenie, że przedmioty ścisłe są zarezerwowane dla mężczyzn, a kobiety mają pisać wiersze, biegać po polu i rozmawiać z motylami… Cieszę się, że pojawiają się coraz częściej akcje skierowane do dzieci, pokazujące, że dziewczynki mogą osiągnąć to samo, co chłopcy, że mogą zostać astronautkami, matematyczkami, kimkolwiek chcą. Są też akcje skierowane do maturzystów w kontekście wyboru studiów – próbujące zachęcić kobiety do studiowania na politechnice. Dajmy spokój, mamy XXI wiek i najwyższy czas wyjść ze stereotypów narzucających, że coś jest „typowo kobiece” czy „typowo męskie”.

Jak zachęcić dzieci do nauki, eksperymentowania, uczenia się nowych rzeczy? Później wszyscy narzekają, że brakuje specjalistów np. w IT, albo ogólnie – jesteśmy mało innowacyjni.

Dzieci mają w sobie naturalne zainteresowanie światem. Lubię czytać książki popularnonaukowe, zwłaszcza z dziedzin w zakresie których mam braki – to jest głównie fizyka czy chemia. Te przedmioty są fascynujące! Tylko szkoła przedstawiała te tematy tak, że nie wydawały mi się ani ciekawe, ani użyteczne. Raczej kazano nam się uczyć się wzorów i definicji na pamięć. Rozstrzał pomiędzy tym, jak ciekawe są dyscypliny naukowe i w jaki sposób są przedstawiane w szkole, jest najczęściej - niestety - gigantyczny. Jeśli nie robi tego szkoła, to my jako dorośli, jako rodzice, powinniśmy tę dziecięcą ciekawość pielęgnować, wszak mamy mnóstwo książek i publikacji popularnonaukowych dla dzieci, jak np. komiks „Róża, a co chciałabyś wiedzieć”. Warto je dzieciom podsuwać. Sama idea tego komiksu powstała wtedy, gdy Artur Kurasiński zobaczył ogłoszenie zachęcające dzieci do udziału w zajęciach pozalekcyjnych z programowania i było to ogłoszenie skierowane tylko do chłopców. Co jest totalnym kuriozum. Takie rzeczy także musimy piętnować.

Nad czym teraz pracujesz?

Pracuję nad nową książką, będzie to kontynuacja „Statystycznie rzecz biorąc”, wejdziemy na trochę wyższy poziom analityki i interpretacji statystyk. Ale to powoli, na tę książkę jeszcze poczekamy. Oprócz tego intensywnie rozwijam swój kanał na YouTubie „Statystycznie rzecz biorąc”, gdzie w prostu sposób tłumaczę naukę i statystykę, a także rozmawiam z wspaniałymi ekspertami. Chcę popularyzować naukę i wiedzę – głównie, ale nie tylko statystyczną.

Janina Bąk jest współautorką komiksu „Róża, a co chcesz wiedzieć”

Computerworld jest patronem medialnym publikacji


TOP 200