Metaszperacze
- Jarosław Badurek,
- 28.04.1997
Wyszukiwarka dla zuchwałych
W prostym trybie zwykłych zapytań (simple queries) nie dostrzeżemy nic szczególnego, niemniej bardziej zaawansowani potrafią z tej wyszukiwarki "wycisnąć" znacznie więcej tzn. mniej, mając nawadze fizyczny rozmiar danych. Umiejętne posługiwanie się wyszukiwarkami polega na ograniczaniu liczby informacji do najbardziej interesujących. Załóżmy, że formułujemy zapytanie: roger moore. Na takie dictum AltaVista po chwili (dosłownie) odpowiada: "Znalazłam ok. 300000 dokumentów" (about 300000 matching the query). Faktycznie w tym przypadku znaleziono 398191 stron z wyrazem moore i 610771 z wyrazem roger. Jest więc co czytać, a przecież nie o to nam chodziło.
Może więc lepiej użyć także dużych liter? Roger Moore. W tym przypadku - Moore odnaleziony 323314 razy, a Roger "tylko" 519873. W pierwszym wersji wyszukiwarka ignoruje wielkość liter, w drugim natomiast "rozumie", że ma to dla nas znaczenie. Czas na frazy (phrases), czyli ciągi słów. Istnieje kilka sposobów ich definiowania, wybierzmy zalecany przez AltaVistę: cudzysłowy i spacje jako separatory, czyli: "Roger Moore" - zaledwie 1000 stron.
Skorzystajmy teraz ze znaków plus i minus, które odpowiednio specyfikują elementy obowiązkowe bądź zabronione na stronie: +"Roger Moore" + "James Bond". Odpowiedź: 400. Jeszcze zmodyfikujmy nasze zapytanie: +"Roger Moore" + "James Bond" + "007". Ograniczamy liczbę do 100 dokumentów.
W trybie zaawansowanym - obok powszechnie znanych operatorów logicznych AND, OR i NOT - na uwagę zasługuje NEAR, sprawdzający czy definiowane słowa znajdują się obok siebie (w obrębie 10 wyrazów). W ten sposób zbiór 26 odpowiedzi na zapytanie: powiat AND region, ograniczamy do 6: powiat NEAR region. Wymusimy odpowiednią interpretację naszych zapytań, stosując nawiasy np.: (gmina NEAR powiat) OR (makroregion AND wojew*dztwo). To tylko teoretyczny przykład, a nie określona opcja polityczna, niemniej gwiazdka jest tu bardzo przydatna, gdyż "omija" różne standardy kodowania polskich znaków diakrytycznych.
Z innych ciekawszych własności wyszukiwarki wymieńmy możliwość ustalania własnych kryteriów określających kolejność wyświetlanych stron (results ranking criteria) czy specyfikowanie obszaru dokumentu, w którym mogą wystąpić poszukiwane ciągi, np.:
* title:"tajemnica" - szuka stron z wyrazem tajemnica w tytule
* applet:Tekst Programu - szuka appletów JAVY z frazą Tekst Programu w nazwie.
Istnieje kilkanaścietego typu opcji "z dwukropkiem".
Kto za tym stoi?
Adres aplikacji wskazuje na firmę DEC i faktycznie podstawowa konfiguracja sprzętowo-programowa jest dziełem Digitala. Projekt rozpoczęto w laboratoriach Palo Alto latem 1995 r. i po kilku miesiącach udostępniono jego efekty internetowej społeczności. W hardware'owej bazie AltaVisty główną rolę pełnią 4 maszyny:
* AltaVista (AlphaStation 500, 256 MB pamięci operacyjnej, 6 GB dyskowej) odpowiedzialna za komunikację ze światem zewnętrznym
* Web Indexer (AlphaServer 8400 5/300, 6 GB RAM, 210 GB na dyskach, 10 procesorów) zawiera indeksy o rozmiarach 40 GB
* Scooter (AlphaServer 4100 5/300, 1,5 GB RAM, 30 GB na dyskach)
* pająk (spider) przeszukujący sieć
* Vista (AlphaServer 4100 5/300, 2 GB RAM. 180 GB na dyskach, 2 procesory) indeksuje dane dostarczane przez Scootera.
Ponadto wykorzystywane są dwa serwery 600 5/333 oraz paleta urządzeń zewnętrznych, natomiast sam program został napisany w języku C pod Unixem.