Od informacji do oferty

Subskrybuj RSS A A A
27 października 2009
, (ag)

Bogactwo zasobów internetowych kojarzy się nam zazwyczaj z ogromem informacji dostępnych w sieci. Tymczasem odpowiednio wyselekcjonowane informacje mogą być tylko wstępem do znacznie głębszych zasobów wiedzy.

W książce "Eksploracja zasobów internetowych" dosyć szczegółowo i dogłębnie omówione zostały metody i sposoby przekształcania informacji pozyskanych z Internetu w użyteczną dla wielu działań i decyzji wiedzę. Jest to już trzecia publikacja z serii poświęconej eksploracji danych. Wcześniej ukazały się dwie prace Daniela Larose’a: Odkrywanie wiedzy z danych oraz Metody i modele eksploracji danych.

Autorzy zaczynają od omówienia podstawowych idei i technik wydobywania informacji tekstowej z sieci. Opisują sposoby zbierania i indeksowania dokumentów sieciowych oraz tworzenia rankingów stron internetowych według kryterium zawartości tekstowej i struktury hiperpołączeń. Piszą o powszechnie znanych metodach indeksowania i wyszukiwania informacji według słów kluczowych, jak również o bardziej zaawansowanych metodach, takich jak model przestrzeni wektorowej, szeregowanie dokumentów czy metody relevance feedback.

To wszystko stanowi jednak tylko wstęp, etap przygotowawczy do procesu analizy struktury i zawartości sieci WWW. Bardzo przydatne w tym zakresie okazują się być metody uczenia maszynowego i eksploracji danych. To one pozwalają porządkować zasoby sieciowe, doszukiwać się w nich pewnych wzorów czy stałych relacji, a nie tylko traktować je jako źródło dostępu do wyizolowanych informacji.

Dzięki tym metodom możliwa jest z kolei analiza użytkowania sieci. Według autorów, jest ona "stosowaniem metod eksploracji danych, w celu odkrycia wzorców korzystania z sieci, po to, by zrozumieć i lepiej zaspokoić potrzeby użytkowników programów sieciowych". Inaczej mówiąc, odtwarza ona zachowania użytkowników podczas korzystania z Internetu. Ze zrozumiałych względów cieszy się szczególnym zainteresowaniem specjalistów od handlu, marketingu i reklamy. Bazując na jej wynikach, mogą oni sprawować swoistą kontrolę nad działaniami internautów, oferując im na przykład w odpowiednim momencie odpowiednie produkty, wyselekcjonowane przy użyciu algorytmów grupowania lub metod asocjacyjnych.

Autorzy szczegółowo piszą o tym, jak korzystać z danych dostępnych w sieci, by uzyskać po ich przetworzeniu jak najbardziej przydatną wiedzę. Wiele miejsca poświęcają na przykład czyszczeniu danych i filtrowaniu danych oraz zapewnieniu ich właściwej jakości. Piszą o metodach modelowania zachowań użytkowników Internetu, stosowanych do tego celu metodach grupowania, regułach asocjacyjnych, algorytmach apriori, drzewach klasyfikacyjnych i regresyjnych. Zajmują się też bardziej znanymi metodami, jak na przykład metoda identyfikacji użytkownika za pomocą plików cookies. Nie po to jednak, by omawiać szczegółowo zasady ich działania, lecz by wskazać, jak sobie poradzić, gdy użytkownik je zablokował lub skasował. (AG)

Zdravko Markov, Daniel T. Larose: Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW; Wydawnictwo Naukowe PWN, Warszawa 2009

Oceń artykuł

średnio: 0 liczba ocen: 0

Komentarze (0)

Najnowsze

MAC, czyli ministerstwo reformowania rządzenia

Premier wspiera lojalnie w kryzysie najbliższego współpracownika, Michała Boniego, przyjmując na siebie atak oburzonych internautów podczas debaty o ACTA.

Nowe, unijne zamówienia publiczne

Komisja Europejska proponuje ważne zmiany prawa wspólnotowego w obszarze zamówień publicznych. Warto im się przyjrzeć bo to jeden z elementów nowej perspektywy finansowej UE. Warto zatem przyjrzeć się owej propozycji bliżej.

Bezpieczeństwo rządowych stron - analiza

Zespół zadaniowy ds. ochrony portali rządowych opublikował wytyczne. Trudno stwierdzić, że to najlepsze rekomendacje, jakie można było przy okazji zaistniałych ataków wypracować.

DEBATA: Kiedy walka polityczna w sieci przemienia się w cyberterroryzm?

Skuteczny atak cybernetyczny przyniesie opłakane skutki dla państwa i gospodarki. Boleśnie się o tym przekonaliśmy, gdy nie można było dostać się na strony internetowe najważniejszych instytucji w Polsce.

Czy MSW chce unieważnienia przetargu na pl.ID?

Rośnie ryzyko całkowitego unieważnienia przetargu na nowe dowody osobiste. Krajowa Izba Odwoławcza odrzuciła odwołanie firmy Sygnity, która nie zgadzała się na wydłużenie o trzy miesiące terminu składania ofert na dostawę blankietów nowych dowodów osobistych. Wydłużenie całego postępowania o trzy miesiące może spowodować skargi uczestniczących w nim firm, a w konsekwencji unieważnienie przetargu.

Garść rad dla roztropnego szefa IT

Trudne czasy w gospodarce to okres, kiedy szczególnego znaczenia nabiera hasło: Jak cię widza, tak cię piszą. Osłabienie rynku przekłada się na oszczędności w przedsiębiorstwie, a oszczędności najłatwiej szukać w działach, które, w opinii zarządu, nie są bezpośrednio związane z prowadzoną działalnością - czyli również w dziale IT.

Sprzeczne wizje e-dowodu

Koncepcja elektronicznego dowodu osobistego powstała w Polsce wiele lat temu. Starsze są koncepcje elektronicznego systemu świadczeń ochrony zdrowia. Mimo to, nadal są w trakcie budowy.

Rekomendacje

Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88