Ślady wizyt na stronach

Prowadzenie analizy plików log to jedno z podstawowych zadań administratora WWW.

Prowadzenie analizy plików log to jedno z podstawowych zadań administratora WWW.

W plikach log archiwizowana jest informacja o wszelkiej aktywności serwerów WWW. Analiza gromadzonych danych pozwala na ocenę wykorzystania serwisu i działań jego użytkowników, a także na wyszukiwanie błędów. Do analizy plików log właściwie od początku WWW są wykorzystywane proste skrypty i liczne bezpłatne narzędzia, w tym najbardziej popularny Analog. Dzisiaj zaczynają dominować pakiety komercyjne, takie jak WebTrends, WebTracker, net.Analysis czy HitList, które w obecnych wersjach są zaawansowanymi narzędziami, pozwalającymi na automatyzację tworzenia raportów czy bieżące monitorowanie pracy serwisu WWW. Zmieniła się skala tych zadań. Największe serwisy, z których korzystają miliony użytkowników, muszą obsługiwać ogromne pliki log. Liczba gromadzonych w nich danych jest porównywalna z tą, z którą mają do czynienia firmy telekomunikacyjne w systemach billingowych. Dlatego od niedawna zaczęto mówić o webhouse (od data warehouse), czyli o hurtowni danych z logów WWW.

Coś dla dużych

Serwis, do którego każdego dnia kierowanych jest 100 milionów żądań dostępów, może tworzyć plik log o objętości przekraczającej 1 GB. Dla dużych serwisów dzienny log może wynosić nawet ponad 10 GB. Oczywiście, przydatne są narzędzia do kompresowania danych, z których korzysta większość wyspecjalizowanych programów do analizy plików log. Ograniczają one objętości takich plików do 5-10% pierwotnych rozmiarów, ale i tak obciążenie dysków pozostaje problemem, którego nie można zaniedbać.

Kwestię wydajności rozwiązuje się najczęściej poprzez wydzielenie dedykowanego serwera do obróbki plików log. Gdy danych, które powinny być poddane analizie, jest faktycznie dużo, warto rozważyć możliwość użycia narzędzi znanych z hurtowni danych. Niestety, nie zawsze nadają się do tego dane. Techniki data mining, czyli dogłębnego eksplorowania danych z wykorzystaniem zaawansowanych metod statystycznych, które mają na celu wychwycenie trudnych do zauważenia na pierwszy rzut oka zależności i zjawisk, najlepiej sprawdzają się w przypadku danych jednorodnych, zbieranych przez dłuższy okres. Tymczasem w przypadku serwisów internetowych badany obiekt zmienia się bardzo dynamicznie. Przede wszystkim lawinowo przyrasta liczba użytkowników, zmienia się profil tzw. przeciętnego użytkownika. Zmienia się również nie tylko zawartość, ale i struktura badanego serwisu. O ile serwisy zazwyczaj gromadzą archiwa plików log, o tyle dane te są w miarę jednorodne jedynie w małych przedziałach czasu. Sprawia to, że narzędziami z hurtowni danych trzeba się tutaj posługiwać dość rozważnie.

Przy zaawansowanej analizie danych pochodzących z plików log i skorelowaniu otrzymywanych raportów z danymi pochodzącymi z innych systemów, np. e-commerce, dotyczących poszczególnych klientów czy produktów oferowanych za pośrednictwem stron serwisu internetowego, można budować złożone systemy klasy VRM (Visitor Relationship Management), odmianę rozwiązań CRM. Profesjonalne rozwiązania klasy VRM są drogie. Ich cena zazwyczaj wynosi co najmniej 100 tys. USD, co nawet dla największych polskich serwisów internetowych stanowi poważną barierę.

Podobnie, ale inaczej

Oprócz możliwości badania wykorzystania serwisu WWW czy analizy błędów, pliki log pozwalają na przeprowadzenie zewnętrznego audytu wykorzystania serwisu.

W wielu serwerach WWW zaimplementowano standard zdefiniowany przez NCSA, jednak najważniejsze komercyjne rozwiązania - produkty Microsoftu i Netscape - posługują się własnymi formatami. W efekcie można mieć do czynienia aż z 40 różnymi formatami plików log w przypadku serwerów WWW, nie licząc dodatkowych dla serwerów proxy, serwerów danych multimedialnych czy zapór firewall. Wszystkie jednak logi mogą być oferowane w postaci łatwo dostępnych plików ASCII, z których mogą korzystać analizatory.

Same narzędzia nie spra-wią, że analiza plików log będzie rzetelna. Wiele zależy bowiem od ich skonfigurowania. W przypadku wykorzys-tywania analizy danych do prezentowania na zewnątrz raportów o popularności serwisu WWW, potrzebna jest in- formacja o przyjętych założeniach, np. jak definiuje się pojedynczą sesję (wśród polskich serwisów przyjęto już nie- formalny standard, że jest to aktywność użytkownika nie przedzielona dłuższą niż półgodzinna przerwą).

To samo narzędzie po analizie tych samych danych może dać różne wyniki! Dotyczy to również poszczególnych wersji komercyjnych pakietów. Zazwyczaj wynika to nie z błędu w oprogramowaniu, lecz drobnych różnic w konfiguracji założeń potrzebnych do analizy serwerów internetowych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200