Poszukiwacze przyszłości

Wyszukiwarka internetowa to narzędzie codziennej pracy milionów ludzi. Pomimo ogromnych możliwości, jest ona jednak daleka od ''rozumienia intencji'' jej użytkownika.

Wyszukiwarka internetowa to narzędzie codziennej pracy milionów ludzi. Pomimo ogromnych możliwości, jest ona jednak daleka od ''rozumienia intencji'' jej użytkownika.

Rezultaty przeszukiwania sieci po wpisaniu słowa "Linux" są wyświetlane błyskawicznie. Cóż z tego, skoro lista składa się z blisko 100 mln pozycji. Jeśli poszukiwana strona znajduje się gdzieś w jej połowie, mamy po prostu pecha. Naukowcy są zdeterminowani, by w ciągu najbliższych lat dokonać przełomu w obszarze technologii wyszukiwawczych. Wysiłki badaczy zmierzają najczęściej do wykorzystania mechanizmów personalizujących procesy wyszukiwania. Przykładowo, gdyby wyszukiwarka "wiedziała", że osoba wpisująca słowo "mysz" jest informatykiem, wyświetlałaby jedynie strony poświęcone komputerom PC, a nie zwierzętom.

Bystry pośrednik

Jeden z projektów w zakresie nowych technologii wyszukiwania realizowany przez profesor Adele Howe z Uniwersytetu Colorado oraz studenta Gabriela Somlo to QueryTracker. Oprogramowanie pośredniczyw interakcji pomiędzy użytkownikiem a konwencjonalną wyszukiwarką. QueryTracker przekazuje zapytania użytkownika do wyszukiwarkiraz dziennie i zwraca wyniki z listąnowych stron oraz tych, na których zaszły zmiany od ostatniej wizyty.

Najważniejszą zaletą QueryTracker jest automatyczne generowanie dodatkowych codziennych zapytań (które zdaniem naukowców dają często lepsze efekty niż oryginalne zapytanie) na podstawie tego, czego aplikacja uczy się z czasem o peferencjach użytkownika. Rezultaty zapytań są filtrowane pod kątem ich zgodności z ustalonymi ograniczeniami, a wyniki przesyła do użytkownika.

Zdolność oprogramowania QueryTracker do generowania własnych zapytań pozwala rekompensowaćwadliwie skonstruowane zapytania tworzone przez wielu użytkowników. "Nawet ludzie swobodnie poruszający się po Internecie są często albo leniwi, albo nie wiedzą, jak konstruować zapytania" - mówią naukowcy.

Indeks na wyszukiwanie

Profesor matematyki Jeannette Jenssen z Uniwersytetu Dalhousie w Halifax pracuje nad wykorzystaniem technologii personalizacji w mechanizmach, które indeksują treść na stronach WWW. Jej zdaniem popularne wyszukiwarki mają obecnie trzy zasadnicze wady: pobierają opłaty od przedsiębiorstw za swoje usługi, zniekształcają wyniki na korzyść ogłoszeniodawców, a także często otrzymują ogromne ilości informacji nieistotnych.

Odpowiednio skonstruowane mechanizmy mogą indeksować jedynie strony związane z określonymi wcześniej tematami i następnie tworzyć ranking zgodnie z zainteresowaniami użytkownika. Przykładowo, stowarzyszenie medyczne może uruchamiać system indeksujący, który będzie koncentrował się wyłącznie na stronach związanych z medycyną. Będzie on tworzył ranking rezultatów, zoptymalizowany pod kątem wykorzystania go przez pracowników służby zdrowia, a nie ogłoszeniodawców czy przeciętnych internautów. Z czasem oprogramowanie coraz skuteczniej indeksuje strony, obserwując zachowanie użytkowników.

Działające już obecnie takie "specjalizowane" mechanizmy indeksujące poszukują informacji spełniających specyficzne kryteria. Jednak projekt opracowany przez profesor Jenssen może rozpoznawać ukryte lub pośrednie odnośniki dzięki procesowi podobnemu do dziecięcej zabawy ciepło-zimno. Publikowane przez naukowców badania często zawierają odnośniki do stron internetowych domowych autorów, a z kolei na ich stronach znajdują się odnośniki do uniwersytetów, na których pracują. Kiedy mechanizm trafi na strony uniwersytetu, przeszukuje bardziej dokładnie niż na stronach przedsiębiorstw - robi się "cieplej". Mechanizm analizuje zachowania użytkowników oraz sposoby powiązań stron i automatycznie uczy się, jak przebiegają takie trajektorie.

Profesor Filippo Menczer z Uniwersytetu Indiana uważa, że konwencjonalne motory wyszukiwawcze określają, czy dokument odpowiada kryteriom wyszukiwania, badając różne aspekty w izolacji - bez właściwego kontekstu. Najpierw wybierają dokument, ponieważ zawiera słowo wymienione w zapytaniu. Następnie, by stworzyć ranking rezultatów, sprawdzają, ile odnośników prowadzi do dokumentu. Lepsze wyniki można uzyskać, badając te same parametry łącznie - analizując grupy stron, a nie pojedyncze strony. Takie złożone wyszukiwanie będzie możliwe do przeprowadzenia w ciągu 3-5 lat, kiedy komputery będą dysponować odpowiednią mocą obliczeniową.

Menczer uważa, że będzie możliwe prowadzenie już nie wyszukiwania, lecz "eksplorowania" terabajtów danych.

Dane jak z fontanny

IBM prowadzi projekt pod nazwą WebFountain. Ogromny klaster linuxowy, na którym jest uruchomionych jednocześnie 9 tys. programów, indeksuje 50 mln nowych stron dziennie.

Działanie WebFountain nie polega na prostym indeksowaniu słów kluczowych, lecz analizie tekstu podobnie jak w analizie języka naturalnego Przykładowo, określa on, czy dany obiekt jest nazwą osoby, nazwą firmy, lokalizacji, produktu, ceną itp. Następnie dołącza do nich znaczniki XML, które umożliwiają wyszukiwanie wg kategorii. To metoda "naturalna". "Tagi są dołączane do wszystkich wiadomości pojawiających się na grupach dyskusyjnych itp." - mówi główny architekt projektu WebFountain Dan Gruhl.

Oprogramowanie radzi sobie całkiem nieźle w wydobywaniu i oznaczaniu semantycznego znaczenia tekstu, niemniej wymaga jeszcze dopracowania, aby umożliwić, dajmy na to, "analizę sentymentów", która pozwoli z kolei firmom na bieżąco monitorować reputację ich produktów.

Inżynierowie skupieni wokół projektu WebFountain eksperymentują z programem Sentiment Analyzer, który pozwala na wydobywanie opinii z dokumentów tekstowych. Jeśli np. klient na stronie WWW napisał "Daewoo tico jest fantastyczny", łatwo będzie to sklasyfikować. Jeśli jednak sarkastycznie dodał, że "jest prawie tak dobry jak maluch", analiza semantyczna sobie nie poradzi. To jeden z problemów do rozwiązania stojących przed inżynierami IBM.

Na podstawie amerykańskiego wydania Computerworld opracował raj.

Szukanie z Microsoftem

Microsoft uruchomi wkrótce usługi wyszukiwawcze - MSN Newsbot i MSN Blogbot. Serwisy te pozwolą na przeszukiwanie grup dyskusyjnych. MSN Newsbot będzie przeszukiwać grupy dyskusyjne na ponad 4 tys. serwerów. Testy usługi są prowadzone na stronachhttp://newsbot.msn.com/. Usługi tego typu są obecnie w ofercie Google i Yahoo! Microsoft zamierza także uruchomić serwis MSN Blogbot. Będzie on przeszukiwać internetowe blogi: osobiste dzienniki, które w ostatnim czasie zyskały ogromną popularność. Według przedstawicieli firmy to pierwsza taka usługa na rynku.

Microsoft pracuje nad własnym motorem wyszukiwawczym ogólnego zastosowania. Jego premiera została zaplanowana na drugą połowę tego roku. Firma zaprojektowała go od początku do końca samodzielnie. Obecnie dostępne usługi wyszukiwawcze na stronach MSN są oferowane dzięki partnerstwu z Yahoo! Firma pracuje także nad usługą (MSN Answerbot), która, otrzymując pytanie od użytkownika, będzie odnajdywać odpowiedzi na stronach WWW. Podobną usługę oferuje obecnie serwis Ask Jeeves.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200