Portal, portal, pokaż logi

W Wirtualnej Polsce do analizy plików log zaczęto stosować rozwiązania hurtowni danych.

W Wirtualnej Polsce do analizy plików log zaczęto stosować rozwiązania hurtowni danych.

Rozmiary pliku log w portalu Wirtualna Polska mają od kilku kilobajtów do 2 GB. Górna granica nie wynika z dużej odwiedzalności portalu, ale jest narzucona przez wymogi systemu operacyjnego. Codziennie przybywa plików log o łącznych rozmiarach kilku gigabajtów. Dane po wstępnym przetworzeniu i skompresowaniu są kierowane do hurtowni tematycznej. Jest ona zasilana co tydzień. "Dane zawsze ładowane są w weekend, tak aby w poniedziałek były już dostępne nowe zestawienia" - mówi Adam Czerski z działu statystyk i analiz z Wirtualnej Polski. W hurtowni zastosowano kilkunastowymiarowy model danych.

Interakcja analityka

Wykorzystanie technik hurtowni pozwala na znacznie pełniejszą analizę danych z plików log. Typowe analizatory opracowują jedynie zadane raporty, natomiast za pomocą danych skierowanych do hurtowni, gdzie zostają one zgromadzone w postaci wielowymiarowych agregatów, można je przeglądać i analizować interaktywnie na różne sposoby, z uwzględnianiem wielu zadanych warunków. "Wielowymiarowość hurtowni pozwala nam spoglądać na te same dane z różnych perspektyw" - twierdzi Adam Czerski. Nie chodzi tu jedynie o uzyskanie możliwości drążenia danych, czyli tzw. drill-down. "Wykorzystanie hurtowni do badania danych pochodzących z plików log pozwala nam na uzyskanie całościowego spojrzenia na aktywność użytkowników korzystających z portalu bez konieczności wyodrębniania poszczególnych fizycznych serwerów. Podsumowując dane archiwalne, możemy jednocześnie analizować trendy i prognozować" - mówi Adam Czerski.

Użytkownik nie musi znać struktury bazodanowej hurtowni, posługuje się bowiem znanymi mu pojęciami. Są one definiowane przez administratora, który przekłada je na poszczególne wymiary zbiorów danych w hurtowni. Użytkownik dysponuje kreatorem zawartym w Oracle Discoverer - podstawowym narzędziu do analizy danych z hurtowni plików log, za pomocą którego są tworzone nowe zestawienia i analizy. "Hurtownia danych daje nam przede wszystkim to, czego nie dają standardowe analizatory plików log. Te zaś wykorzystujemy nadal do prowadzenia podstawowych analiz. Tygodniowy rytm zasilania hurtowni nie pozwalałby na bieżące śledzenie ruchu w portalu" - wyjaśnia Adam Czerski. Tak powstałe raporty można zapisywać w formacie Excela (do dalszej analizy) lub PDF (do prezentacji).

Narzędzie na swoim miejscu

W Wirtualnej Polsce są również stosowane narzędzia do monitorowania bieżącego wykorzystania ser-wisów WWW - zasadniczo w celu wykrywania sytuacji awaryjnych, wymagających szybkich reakcji administra- torów. To tzw. sniffery - rozwiązania czasem niesłusznie postrzegane jako alternatywne dla analizatorów plików log.

"Hurtownia danych nigdy nie jest projektem skończonym. Rozwijamy jej strukturę i dodajemy nowe elementy do Discoverera w zależności od zapotrzebowania różnych działów w naszej firmie" - mówi Adam Czerski. Wkrótce planowane jest wykorzystanie innych narzędzi Oracle, m.in. Sale & Financial Analyzer (analiza OLAP) oraz Darwin (narzędzie do data mining).


TOP 200