Metaszperacze

Wyszukiwarka dla zuchwałych

W prostym trybie zwykłych zapytań (simple queries) nie dostrzeżemy nic szczególnego, niemniej bardziej zaawansowani potrafią z tej wyszukiwarki "wycisnąć" znacznie więcej tzn. mniej, mając nawadze fizyczny rozmiar danych. Umiejętne posługiwanie się wyszukiwarkami polega na ograniczaniu liczby informacji do najbardziej interesujących. Załóżmy, że formułujemy zapytanie: roger moore. Na takie dictum AltaVista po chwili (dosłownie) odpowiada: "Znalazłam ok. 300000 dokumentów" (about 300000 matching the query). Faktycznie w tym przypadku znaleziono 398191 stron z wyrazem moore i 610771 z wyrazem roger. Jest więc co czytać, a przecież nie o to nam chodziło.

Może więc lepiej użyć także dużych liter? Roger Moore. W tym przypadku - Moore odnaleziony 323314 razy, a Roger "tylko" 519873. W pierwszym wersji wyszukiwarka ignoruje wielkość liter, w drugim natomiast "rozumie", że ma to dla nas znaczenie. Czas na frazy (phrases), czyli ciągi słów. Istnieje kilka sposobów ich definiowania, wybierzmy zalecany przez AltaVistę: cudzysłowy i spacje jako separatory, czyli: "Roger Moore" - zaledwie 1000 stron.

Skorzystajmy teraz ze znaków plus i minus, które odpowiednio specyfikują elementy obowiązkowe bądź zabronione na stronie: +"Roger Moore" + "James Bond". Odpowiedź: 400. Jeszcze zmodyfikujmy nasze zapytanie: +"Roger Moore" + "James Bond" + "007". Ograniczamy liczbę do 100 dokumentów.

W trybie zaawansowanym - obok powszechnie znanych operatorów logicznych AND, OR i NOT - na uwagę zasługuje NEAR, sprawdzający czy definiowane słowa znajdują się obok siebie (w obrębie 10 wyrazów). W ten sposób zbiór 26 odpowiedzi na zapytanie: powiat AND region, ograniczamy do 6: powiat NEAR region. Wymusimy odpowiednią interpretację naszych zapytań, stosując nawiasy np.: (gmina NEAR powiat) OR (makroregion AND wojew*dztwo). To tylko teoretyczny przykład, a nie określona opcja polityczna, niemniej gwiazdka jest tu bardzo przydatna, gdyż "omija" różne standardy kodowania polskich znaków diakrytycznych.

Z innych ciekawszych własności wyszukiwarki wymieńmy możliwość ustalania własnych kryteriów określających kolejność wyświetlanych stron (results ranking criteria) czy specyfikowanie obszaru dokumentu, w którym mogą wystąpić poszukiwane ciągi, np.:

* title:"tajemnica" - szuka stron z wyrazem tajemnica w tytule

* applet:Tekst Programu - szuka appletów JAVY z frazą Tekst Programu w nazwie.

Istnieje kilkanaścietego typu opcji "z dwukropkiem".

Kto za tym stoi?

Adres aplikacji wskazuje na firmę DEC i faktycznie podstawowa konfiguracja sprzętowo-programowa jest dziełem Digitala. Projekt rozpoczęto w laboratoriach Palo Alto latem 1995 r. i po kilku miesiącach udostępniono jego efekty internetowej społeczności. W hardware'owej bazie AltaVisty główną rolę pełnią 4 maszyny:

* AltaVista (AlphaStation 500, 256 MB pamięci operacyjnej, 6 GB dyskowej) odpowiedzialna za komunikację ze światem zewnętrznym

* Web Indexer (AlphaServer 8400 5/300, 6 GB RAM, 210 GB na dyskach, 10 procesorów) zawiera indeksy o rozmiarach 40 GB

* Scooter (AlphaServer 4100 5/300, 1,5 GB RAM, 30 GB na dyskach)

* pająk (spider) przeszukujący sieć

* Vista (AlphaServer 4100 5/300, 2 GB RAM. 180 GB na dyskach, 2 procesory) indeksuje dane dostarczane przez Scootera.

Ponadto wykorzystywane są dwa serwery 600 5/333 oraz paleta urządzeń zewnętrznych, natomiast sam program został napisany w języku C pod Unixem.


TOP 200