Metaszperacze

Wirtualna Polska

Do tej pory pracowaliśmy w sieci posługując się jęz. angielskim z uwagi na dominację tego języka w technologii informacyjnej, również w Internecie, tym bardziej że i tu mamy do czynienia głównie z aplikacjami amerykańskimi. Ale przecież hasło Reja: "Polacy nie gęsi i swój język mają" powinno być aktualne także w branży komputerowej. Możemy np. skorzystać z usług wyszukiwacza "Wirtualna Polska" - WP (http://wp.cnt.pl ). Podstawowa strona tego serwera wita nas przejrzystym układem haseł zebranych w 19 grup tematycznych:

* biznes i ekonomia (firmy, fundacje, targi, wystawy)

* edukacja i nauka (uczelnie, szkoły, instytuty, akademiki)

* ekologia

* informacje regionalne (województwa, miasta, gminy)

* komputery i sieci (Internet, programy, gry)

* kultura (filmy, muzyka, literatura, religia, sztuka)

* ludzie (strony domowe, kluby internetowe)

* media i informacje (prasa, radio, telewizja)

* medycyna i służba zdrowia (szpitale, uczelnie medyczne)

* motoryzacja

* organizacje (fundacje, izby gospodarcze, harcerstwo)

* prawo i podatki

* rekreacja (sport, turystyka)

* rozrywka (kawiarnie internetowe, humor)

* serwisy informacyjne (bazy danych, komunikacja, poradniki)

* gospodarka morska (stocznie, porty)

* władza i polityka (partie, związki zawodowe, ambasady)

* wydarzenia (wydarzenia kulturalne, konferencje naukowe)

* zakupy przez Internet (księgarnie, płyty, komputery).

Oczywiście, podhasła podane przykładowo w nawiasach mają także charakter hipertekstowy tzn. możemy wybrać bezpośrednio dowolne z nich. Z kolei wyszukiwarka WP ma dwie podstawowe opcje:

* wyszukiwanie z katalogu Wirtualnej Polski, gdzie znajdują się wyłącznie strony, które zostały zgłoszone za pomocą odpowiedniego formularza bądź dodano je "ręcznie" do katalogu

* wyszukiwanie na wszystkich stronach zaindeksowanych przez automat osługujący bazę danych stron (jedynie strony WWW).

Podstawowa metoda wyszukiwania umożliwia definiowanie sposobu łączenia podanych słów kluczowych: w wariancie "wszystkie" one będą wiązane warunkiem "i", z kolei przy wyborze opcji "jedno z" mamy do czynienia z operatorem "lub". Ponadto można szperać metodą złożoną dopuszczającą indywidualne specyfikowanie wyrażeń logicznych korzystających z operatorów "i" oraz "lub", a także z nawiasów.

Do wyboru mamy też dwa formaty prezentacji wyników szukania:

* krótki (pokazywane są tytuły stron)

* długi (adresy stron z tytułem i opisem).

Operatory logiczne przydadzą się podczas podawania słów z typowo polskimi literami. Różny sposób kodowania stron internetowych powoduje, że wszystko co ma "ogonki" warto formułować w dwóch konwencjach: "po polsku" i "po polskawemu" łącząc słowa kluczowe warunkiem "lub" czyli np.: preambuła lub preambula. Polskimi znakami diakrytycznymi zajmowaliśmy się na naszych łamach w ramach "Tematu tygodnia" (CW, nr 3 z 20.01.97). Warto w tym kontekście zauważyć, że mamy tu własną Polską Normę (PN-93 T-42118), która przychyla się do standardu ISO 8859-2, choć w praktyce problem jest bardziej złożony.

Nie tylko dla socjologa

Pozostańmy jeszcze na serwerze WP, bo jego statystyka dostarcza interesujących wiadomości. I tak dla 2 miesięcy: grudzień 1996 r. - styczeń 1997 r. liczba zapytań do serwera wynosiła prawie milion (ok. 15 tys. na dobę) przy całkowitym wolumenie transferu danych 4,5 GB, co daje średnio 4,5 kB na zapytanie. Z innych diagramów dowiadujemy się, że najwięcej zapytań jest w czwartki. Statystyka dzienna dowodzi, iż godziną szczytu jest czas między 14.00 a 15.00, ale nawet między 3.00 a 4.00 rano mamy średnio ponad 20 tys. zapytań na godzinę. Natomiast statystyka domenowa wskazuje, że króluje .pl (Polska), na którą przypada 2/3 zapytań. Ciekawe, że np. więcej zapytań związanych jest z domeną .cr (Kostaryka) niż z .sk (Słowacja), a Dominikana wyprzedza Litwę, Rumunię, Argentynę czy Portugalię.

W technologii hipertekstowej z pozoru martwy dokument może być mapą poruszania się po zasobach Internetu. Jeżeli np. z różnych rodzajów statystyk wybierzemy raport zapytań (request report), to uzyskamy odnośniki do całej palety stron, które możemy bezpośrednio wybierać: np.

/Komputery i Sieci/Internet/Listy najlepszych stron WWW/ czy

/Informacje Regionalne/Miasta/Warszawa/Dokąd można pójść/.


TOP 200