Uroda danych

Na ogół jednak w projektach z dziedziny Business Intelligence nie biorą udziału ani specjaliści od grafiki, ani od ergonomii prezentacji wizualnej. Nie jest to problem braku fachowców.

"Gdyby tacy byli potrzebni, to by się znaleźli" - twierdzi Tomasz Mierzwa, dyrektor konsultacji w Infovide. Najczęściej klienci nie mają motywacji, żeby wychodzić poza standard oferowany przez gotowe narzędzia do graficznej prezentacji danych. "Użytkownicy co prawda nie godzą się na to, by systemy prezentowały im wyłącznie dane liczbowe, ale z drugiej strony wykresy, którymi chcą się posługiwać, są dosyć proste.

To bariera poznawcza. Brakuje im wiedzy, że mogą oczekiwać znacznie więcej" - mówi Tomasz Mierzwa. Chodzi przede wszystkim o rozwiązania z zakresu statystyki, daleko wykraczające poza kręg prostych wizualizacji typu wykres kołowy czy słupkowy. "Nie zdarza się, by w realizowanych projektach klienci zwracali uwagę na tak rozumianą jakość. Wyjątek stanowiło rozwiązanie realizowane dla jednego z portali, ale to w końcu firma bliska branży medialnej, gdzie jakość wizualizacji informacji zawsze była istotną kwestią. Zagadnienie jakości prezentacji informacji wciąż jest niedoceniane. Znacznie lepiej jest już z rozumieniem znaczenia jakości, czyli czystości danych na różnych poziomach. Uwaga skupia się na zagadnieniach pozyskania, oczyszczenia i integracji danych" - twierdzi Tomasz Mierzwa.

Statystyczne subtelności

Komputery pozwalają nie tylko na dodanie do wykresów osi czasu i prezentację zmian w postaci animacji. Oferują także możliwość interaktywnej zmiany parametrów wykresu, której efekty od razu widać na ekranie. Specjalizowane narzędzia pozwalają na manipulacje wyświetlanym obrazem (obracanie struktur trójwymiarowych, zmiany kolorów, grubości linii itp.). Dochodzenie do optymalnej drogi zdobywania wiedzy poprzez analizę danych ułatwiają bogate biblioteki różnych form prezentacji i szablonów.

Oszustwa i niedoskonałości wykresów
  • Złe interpretowanie danych wejściowych (bazowych) przy tworzeniu wykresu

  • Zniekształcenie wynikające z braku spójności wizualnej prezentacji z rzeczywistą wartością numeryczną danych - chodzi zarówno o zniekształcenia na poziomie fizycznym, jak i w czasie odbioru danych (przykładowo, człowiek postrzega, że pole koła rośnie wolniej niż w rzeczywistości)

  • Modyfikacje wykresu, będące skutkiem niekonsekwencji: najczęściej nieoczekiwane zmiany skali

  • Dane pozbawione kontekstu, np. współczynniki cenowe powinny być podawane z uwzględnieniem inflacji, dane zaś z dłuższego przedziału czasowego nie powinny być pokazywane w wycinkowym obszarze, w którym trend zmian nie odpowiada całości

  • Niedopasowanie przestrzeni i wartości liczbowych: generalnie obrazowanie liniowej wielkości numerycznej jako obrazu przestrzennego jest "oszustwem", mierzonym współczynnikiem kłamstwa (współczynnik kłamstwa definiuje się jako iloraz wielkości elementów wykresu do wielkości danych, które te elementy obrazują, tj. gdy dana liczba rośnie dwa razy, to jej graficzna reprezentacja rośnie np. cztery razy)

  • Znane jest powiedzenie, że istnieją kłamstwa, wielkie kłamstwa i statystyki. Jest ono wyrazem obaw, że zebrane dane statystyczne można tak wykorzystać, by posługując się prawdziwymi wskaźnikami dowodzić tez nieprawdziwych. W praktyce można manipulować nie tylko danymi, lecz również ich graficzną wizualizacją. Odbiorca, który nie ma wiele czasu na studiowanie prezentacji, zadowoli się pierwszym wrażeniem, ten ogląd zaś może być fałszywy, gdy wizualizacja została odpowiednio zmodyfikowana - dane są prawdziwe, ale tak zobrazowane, by odbiorca zobaczył co innego, niż w istocie wyrażają. Najczęściej nie jest to efekt zamierzonego działania, lecz niewiedzy lub niechlujstwa (tego efekty często widać w infografikach pokazywanych w mediach). Rzecz w tym, by takich "kłamstw mimo woli" unikać w prezentacji danych w systemach komputerowych. Dostępność różnych narzędzi, bogatych bibliotek wizualizacji w rękach użytkownika nie będącego profesjonalistą może doprowadzić do zafałszowań w warstwie wizualizacji.

    Potrzebna jest wiedza o tym, jak unikać zagrożeń, jak właściwie wizualizować informacje. W tej dziedzinie kanonem są książki profesora Edwarda Tufte z Yale University (The Visual Display of Quantitive Information, Envisioning Information czy Visual Explanations), chociaż nie brakuje innych podręczników poświęconych prezentacji danych w postaci graficznej (np. Designing Visual Interfaces Kevina Mulleta oraz Darrella Sano, Information Graphics Roberta Harrisa, Digital Diagrams Trevora Bounforda, Information Visualisation Stuarta Carda i inne).

    Wizualizację danych rozumie się jako "wykorzystanie punktów, linii, układu współrzędnych, symboli, słów, cieniowania, perspektywy i kolorów do wyświetlania zbiorów mierzalnych wartości" (wg definicji prof. E. Tufte). Graficzna elegancja zasadza się w prostocie projektu użytego do prezentacji skomplikowanych danych. Przenosi się to wprost do wizualizacji, z jakimi mamy do czynienia w systemach informatycznych - a w szczególności w systemach prezentacyjnych, gdzie są obrazowane rezultaty analizy danych.

    Nowe i stare narzędzia

    W przypadku narzędzi komputerowych mieliśmy do czynienia z dwiema rewolucjami: pojawieniem się graficznego interfejsu użytkownika i wprowadzeniem technologii OLAP, dzięki której użytkownik zamiast statycznych raportów mógł dynamicznie badać zbiory danych. Graficzne narzędzia OLAP są standardowym wyposażeniem współczesnych pakietów typu Business Intelligence.

    Zaawansowane rozwiązania graficznej prezentacji dużych zbiorów danych od dawna były integralnym elementem składowym pakietów analizy statystycznej (SPSS, Statsoft). Stosunkowo nową koncepcją są rozwiązania pozwalające na wizualizację na jednym ekranie danych pochodzących z wielu różnych systemów i źródeł. To koncepcja tzw. digital dashboard (wykorzystano ją w projekcie zrealizowanym dla telewizji Canal+).

    Coraz bardziej popularne stają się rozwiązania portalowe, pozwalające na współdzielenie wizualizowanych informacji. Graficzne prezentacje informacji stosuje się tam, gdzie mamy do czynienia z napływem dużych ilości danych z różnych źródeł - w systemach monitorowania sieci i rozwiązaniach obrazujących aktualny stan procesów biznesowych w przedsiębiorstwie.


    TOP 200