Od informacji do oferty
Bogactwo zasobów internetowych kojarzy się nam zazwyczaj z ogromem informacji dostępnych w sieci. Tymczasem odpowiednio wyselekcjonowane informacje mogą być tylko wstępem do znacznie głębszych zasobów wiedzy.
W książce "Eksploracja zasobów internetowych" dosyć szczegółowo i dogłębnie omówione zostały metody i sposoby przekształcania informacji pozyskanych z Internetu w użyteczną dla wielu działań i decyzji wiedzę. Jest to już trzecia publikacja z serii poświęconej eksploracji danych. Wcześniej ukazały się dwie prace Daniela Larose’a: Odkrywanie wiedzy z danych oraz Metody i modele eksploracji danych.
Autorzy zaczynają od omówienia podstawowych idei i technik wydobywania informacji tekstowej z sieci. Opisują sposoby zbierania i indeksowania dokumentów sieciowych oraz tworzenia rankingów stron internetowych według kryterium zawartości tekstowej i struktury hiperpołączeń. Piszą o powszechnie znanych metodach indeksowania i wyszukiwania informacji według słów kluczowych, jak również o bardziej zaawansowanych metodach, takich jak model przestrzeni wektorowej, szeregowanie dokumentów czy metody relevance feedback.
To wszystko stanowi jednak tylko wstęp, etap przygotowawczy do procesu analizy struktury i zawartości sieci WWW. Bardzo przydatne w tym zakresie okazują się być metody uczenia maszynowego i eksploracji danych. To one pozwalają porządkować zasoby sieciowe, doszukiwać się w nich pewnych wzorów czy stałych relacji, a nie tylko traktować je jako źródło dostępu do wyizolowanych informacji.
Dzięki tym metodom możliwa jest z kolei analiza użytkowania sieci. Według autorów, jest ona "stosowaniem metod eksploracji danych, w celu odkrycia wzorców korzystania z sieci, po to, by zrozumieć i lepiej zaspokoić potrzeby użytkowników programów sieciowych". Inaczej mówiąc, odtwarza ona zachowania użytkowników podczas korzystania z Internetu. Ze zrozumiałych względów cieszy się szczególnym zainteresowaniem specjalistów od handlu, marketingu i reklamy. Bazując na jej wynikach, mogą oni sprawować swoistą kontrolę nad działaniami internautów, oferując im na przykład w odpowiednim momencie odpowiednie produkty, wyselekcjonowane przy użyciu algorytmów grupowania lub metod asocjacyjnych.
Autorzy szczegółowo piszą o tym, jak korzystać z danych dostępnych w sieci, by uzyskać po ich przetworzeniu jak najbardziej przydatną wiedzę. Wiele miejsca poświęcają na przykład czyszczeniu danych i filtrowaniu danych oraz zapewnieniu ich właściwej jakości. Piszą o metodach modelowania zachowań użytkowników Internetu, stosowanych do tego celu metodach grupowania, regułach asocjacyjnych, algorytmach apriori, drzewach klasyfikacyjnych i regresyjnych. Zajmują się też bardziej znanymi metodami, jak na przykład metoda identyfikacji użytkownika za pomocą plików cookies. Nie po to jednak, by omawiać szczegółowo zasady ich działania, lecz by wskazać, jak sobie poradzić, gdy użytkownik je zablokował lub skasował. (AG)
Zdravko Markov, Daniel T. Larose: Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW; Wydawnictwo Naukowe PWN, Warszawa 2009
Oceń artykuł
Komentarze (0)
Najpopularniejsze
- Ministerstwo Cyfryzacji ma już swoją...
- Microsoft: Kinect dla Windows jeszcze w tym...
- Jakie skutki będzie miało wprowadzenie ACTA
- 5 zmian, które mogą zaważyć na...
- Boni powołał członków Rady Informatyzacji
- Koniec ery nieograniczonego dostępu do...
- Kolejne aresztowania w związku z aferą w...
- ATCA zostało wdrożone w sieci 3G Polkomtela...
- Rejestr Usług Medycznych, czyli największa...
- Nokia w trzy miesiące straciła miliard euro
Rekomendacje
Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88





