Przeszukiwanie Internetu

Serwer, na którym można znaleźć wszystko co dotyczy przeszukiwania WWW.

Serwer, na którym można znaleźć wszystko co dotyczy przeszukiwania WWW.

Korzystając z usług sieci Web (a prawie każda firma próbuje dzisiaj zaistnieć w Internecie prezentując własną stronę), warto wiedzieć, w jaki sposób użytkownik tej sieci może odszukać konkretną elektroniczną witrynę. Nawet jeśli Internet jeszcze nie dotarł do przedsiębiorstwa, to poznanie kilku sekretów związanych z tym zagadnieniem również okaże się przydatne.

W obu przypadkach wiedzę o sposobach przeszukiwania sieci WWW można powiększyć przeglądając zawartość serwera Search Engine Watch (http://www.searchenginewatch.com), którego twórcą jest Danny Sullivan. Zawiera on bogaty zestaw wiadomości o tym, co należy uczynić, aby stronę WWW odwiedzała jak największa liczba użytkowników, oraz w jaki sposób samodzielnie wyszukiwać w sieci WWW serwery, które zawierają interesujące tematy.

Danny Sullivan opisuje działanie siedmiu obecnie najbardziej popularnych serwerów, które indeksują zasoby sieci Web. Kolejność ich ustalono, biorąc pod uwagę liczbę przeglądanych przez serwery stron !WWW. Są to: AltaVista, Excite, HotBot, Northern Light, Infoseek, Lycos i WebCrawler. Dokładne liczby na ten temat zamieszczono pod adresem www.searchenginewatch.com.

Autor Search Engine Watch podaje, że np. serwer AltaVista przegląda 100 milionów stron WWW, podkreślając jednocześnie, że do liczb tam prezentowanych należy podchodzić z rezerwą. Wiele zależy bowiem od sposobu ich liczenia. Wykorzystując inne metody niż Danny Sullivan, uzyskano listę, na której w czołówce są serwery Excite i HotBot, dopiero na trzecim miejscu umieszczono AltaVistę. Parametry Internetu jest niezwykle trudno zmierzyć.

Ważniejszym kryterium niż liczba przeglądanych stron jest sposób ich odświeżania przez serwer przeszukujący sieć !WWW. Jeśli motor wyszukujący nowe zasoby i budujący bazę danych gromadzi wiele informacji, ale nie są one uaktualniane, to nie warto korzystać z jego usług.

Nie ma takiego oprogramowania, które mogłoby przeszukać i następnie zgromadzić aktualne informacje o wszystkich zasobach rezydujących na komputerach podłączonych do sieci WWW, toteż może się zdarzyć np. że lista wyszukanych adresów URL zawierających interesujące informacje nie była aktualizowana np. przez ostatnie trzy miesiące. Dla twórców opracowujących strony WWW jest to ważny sygnał - powinni oni sami dbać, aby nowa strona została jak najszybciej dołączona do bazy danych serwera indeksującego strony !WWW. Danny Sullivan dokładnie podaje, jak należy postępować, aby osiągnąć ten cel. Twórcy serwerów przeszukujących zasoby sieci WWW zapewniają, że ich produkt gromadzi nie tylko pierwsze strony elektronicznych witryn (home page), ale też kolejne zasoby (strony podrzędne) dowiązane do strony głównej. D. Sullivan zauważa jednak, że w zależności od zastosowanych rozwiązań, proces ten może trwać od tygodnia do trzech miesięcy.

Dla przeciętnego użytkownika korzystającego z usług tego rodzaju serwerów ważne jest jak często odświeżają one bazy danych stron !WWW. Danny Sullivan podaje, że HotBot, Lycos i Northern Light modyfikują bazy danych co dwa tygodnie. Inne serwery zaś mogą zawierać informacje, które nie są aktualne od trzech miesięcy.

Niektóre serwery stosują wyrafinowane mechanizmy indeksowania zasobów WWW, śledząc jak częstotliwość modyfikowania poszczególnych stron. Jeśli zawartość strony jest często zmieniana, to i serwer odczytuje jej zawartość częściej. Strony statyczne są natomiast odwiedzane rzadziej. Funkcjonowanie serwerów AltaVista, HotBot i Northern Light bazuje na takiej metodzie.

Inny trik polega na tym, że częstotliwość odświeżania danej strony zależy od liczby odwołań do niej, umieszczanych na innych serwerach !WWW. Danny Sullivan wyjaśnia, jak określić tę liczbę dla własnej strony firmowej, korzystając z usług serwerów indeksujących zasoby sieci.

Jedną z ciekawszych usług oferowanych na serwerze Danny'ego Sullivana jest możliwość wyświetlenia na ekranie monitora pytań kierowanych w danym momencie do serwera przeszukującego sieć !WWW. Nie występuje tu problem związany z ochroną prywatności, ponieważ wyświetlane informacje nie pozwalają na identyfikację użytkowników zadających pytania. Interesująca i jednocześnie zabawna jest obserwacja serii różnego rodzaju zapytań wymieniających hasła, które nie mają ze sobą nic wspólnego lub są sprzeczne (np. - proszę odszukać stronę zawierającą wszystkie trzy hasła: "wolny handel", "zaawansowana cywilizacja" i "statystyka demograficzna").

Search Engine Watch świadczy usługi bezpłatnie, ale jej autor proponuje roczną subskrypcję za 25 USD, dzięki której użytkownik może skorzystać z dodatkowych opcji. Adres: Danny Sullivan, 2836 Judah St., San Francisco, CA 94122.

<hr size=1 noshade>Brian Livingston jest współautorem książki pt. „Windows 95 Secrets Gold” i innych pozycji o systemie Windows: [email protected]

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200