Od informacji do oferty

Bogactwo zasobów internetowych kojarzy się nam zazwyczaj z ogromem informacji dostępnych w sieci. Tymczasem odpowiednio wyselekcjonowane informacje mogą być tylko wstępem do znacznie głębszych zasobów wiedzy.

Od informacji do oferty
W książce "Eksploracja zasobów internetowych" dosyć szczegółowo i dogłębnie omówione zostały metody i sposoby przekształcania informacji pozyskanych z Internetu w użyteczną dla wielu działań i decyzji wiedzę. Jest to już trzecia publikacja z serii poświęconej eksploracji danych. Wcześniej ukazały się dwie prace Daniela Larose’a: Odkrywanie wiedzy z danych oraz Metody i modele eksploracji danych.

Autorzy zaczynają od omówienia podstawowych idei i technik wydobywania informacji tekstowej z sieci. Opisują sposoby zbierania i indeksowania dokumentów sieciowych oraz tworzenia rankingów stron internetowych według kryterium zawartości tekstowej i struktury hiperpołączeń. Piszą o powszechnie znanych metodach indeksowania i wyszukiwania informacji według słów kluczowych, jak również o bardziej zaawansowanych metodach, takich jak model przestrzeni wektorowej, szeregowanie dokumentów czy metody relevance feedback.

To wszystko stanowi jednak tylko wstęp, etap przygotowawczy do procesu analizy struktury i zawartości sieci WWW. Bardzo przydatne w tym zakresie okazują się być metody uczenia maszynowego i eksploracji danych. To one pozwalają porządkować zasoby sieciowe, doszukiwać się w nich pewnych wzorów czy stałych relacji, a nie tylko traktować je jako źródło dostępu do wyizolowanych informacji.

Dzięki tym metodom możliwa jest z kolei analiza użytkowania sieci. Według autorów, jest ona "stosowaniem metod eksploracji danych, w celu odkrycia wzorców korzystania z sieci, po to, by zrozumieć i lepiej zaspokoić potrzeby użytkowników programów sieciowych". Inaczej mówiąc, odtwarza ona zachowania użytkowników podczas korzystania z Internetu. Ze zrozumiałych względów cieszy się szczególnym zainteresowaniem specjalistów od handlu, marketingu i reklamy. Bazując na jej wynikach, mogą oni sprawować swoistą kontrolę nad działaniami internautów, oferując im na przykład w odpowiednim momencie odpowiednie produkty, wyselekcjonowane przy użyciu algorytmów grupowania lub metod asocjacyjnych.

Autorzy szczegółowo piszą o tym, jak korzystać z danych dostępnych w sieci, by uzyskać po ich przetworzeniu jak najbardziej przydatną wiedzę. Wiele miejsca poświęcają na przykład czyszczeniu danych i filtrowaniu danych oraz zapewnieniu ich właściwej jakości. Piszą o metodach modelowania zachowań użytkowników Internetu, stosowanych do tego celu metodach grupowania, regułach asocjacyjnych, algorytmach apriori, drzewach klasyfikacyjnych i regresyjnych. Zajmują się też bardziej znanymi metodami, jak na przykład metoda identyfikacji użytkownika za pomocą plików cookies. Nie po to jednak, by omawiać szczegółowo zasady ich działania, lecz by wskazać, jak sobie poradzić, gdy użytkownik je zablokował lub skasował. (AG)

Zdravko Markov, Daniel T. Larose: Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW; Wydawnictwo Naukowe PWN, Warszawa 2009

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200