Metaszperacze
- Jarosław Badurek,
- 28.04.1997
Wirtualna Polska
Do tej pory pracowaliśmy w sieci posługując się jęz. angielskim z uwagi na dominację tego języka w technologii informacyjnej, również w Internecie, tym bardziej że i tu mamy do czynienia głównie z aplikacjami amerykańskimi. Ale przecież hasło Reja: "Polacy nie gęsi i swój język mają" powinno być aktualne także w branży komputerowej. Możemy np. skorzystać z usług wyszukiwacza "Wirtualna Polska" - WP (http://wp.cnt.pl ). Podstawowa strona tego serwera wita nas przejrzystym układem haseł zebranych w 19 grup tematycznych:
* biznes i ekonomia (firmy, fundacje, targi, wystawy)
* edukacja i nauka (uczelnie, szkoły, instytuty, akademiki)
* ekologia
* informacje regionalne (województwa, miasta, gminy)
* komputery i sieci (Internet, programy, gry)
* kultura (filmy, muzyka, literatura, religia, sztuka)
* ludzie (strony domowe, kluby internetowe)
* media i informacje (prasa, radio, telewizja)
* medycyna i służba zdrowia (szpitale, uczelnie medyczne)
* motoryzacja
* organizacje (fundacje, izby gospodarcze, harcerstwo)
* prawo i podatki
* rekreacja (sport, turystyka)
* rozrywka (kawiarnie internetowe, humor)
* serwisy informacyjne (bazy danych, komunikacja, poradniki)
* gospodarka morska (stocznie, porty)
* władza i polityka (partie, związki zawodowe, ambasady)
* wydarzenia (wydarzenia kulturalne, konferencje naukowe)
* zakupy przez Internet (księgarnie, płyty, komputery).
Oczywiście, podhasła podane przykładowo w nawiasach mają także charakter hipertekstowy tzn. możemy wybrać bezpośrednio dowolne z nich. Z kolei wyszukiwarka WP ma dwie podstawowe opcje:
* wyszukiwanie z katalogu Wirtualnej Polski, gdzie znajdują się wyłącznie strony, które zostały zgłoszone za pomocą odpowiedniego formularza bądź dodano je "ręcznie" do katalogu
* wyszukiwanie na wszystkich stronach zaindeksowanych przez automat osługujący bazę danych stron (jedynie strony WWW).
Podstawowa metoda wyszukiwania umożliwia definiowanie sposobu łączenia podanych słów kluczowych: w wariancie "wszystkie" one będą wiązane warunkiem "i", z kolei przy wyborze opcji "jedno z" mamy do czynienia z operatorem "lub". Ponadto można szperać metodą złożoną dopuszczającą indywidualne specyfikowanie wyrażeń logicznych korzystających z operatorów "i" oraz "lub", a także z nawiasów.
Do wyboru mamy też dwa formaty prezentacji wyników szukania:
* krótki (pokazywane są tytuły stron)
* długi (adresy stron z tytułem i opisem).
Operatory logiczne przydadzą się podczas podawania słów z typowo polskimi literami. Różny sposób kodowania stron internetowych powoduje, że wszystko co ma "ogonki" warto formułować w dwóch konwencjach: "po polsku" i "po polskawemu" łącząc słowa kluczowe warunkiem "lub" czyli np.: preambuła lub preambula. Polskimi znakami diakrytycznymi zajmowaliśmy się na naszych łamach w ramach "Tematu tygodnia" (CW, nr 3 z 20.01.97). Warto w tym kontekście zauważyć, że mamy tu własną Polską Normę (PN-93 T-42118), która przychyla się do standardu ISO 8859-2, choć w praktyce problem jest bardziej złożony.
Nie tylko dla socjologa
Pozostańmy jeszcze na serwerze WP, bo jego statystyka dostarcza interesujących wiadomości. I tak dla 2 miesięcy: grudzień 1996 r. - styczeń 1997 r. liczba zapytań do serwera wynosiła prawie milion (ok. 15 tys. na dobę) przy całkowitym wolumenie transferu danych 4,5 GB, co daje średnio 4,5 kB na zapytanie. Z innych diagramów dowiadujemy się, że najwięcej zapytań jest w czwartki. Statystyka dzienna dowodzi, iż godziną szczytu jest czas między 14.00 a 15.00, ale nawet między 3.00 a 4.00 rano mamy średnio ponad 20 tys. zapytań na godzinę. Natomiast statystyka domenowa wskazuje, że króluje .pl (Polska), na którą przypada 2/3 zapytań. Ciekawe, że np. więcej zapytań związanych jest z domeną .cr (Kostaryka) niż z .sk (Słowacja), a Dominikana wyprzedza Litwę, Rumunię, Argentynę czy Portugalię.
W technologii hipertekstowej z pozoru martwy dokument może być mapą poruszania się po zasobach Internetu. Jeżeli np. z różnych rodzajów statystyk wybierzemy raport zapytań (request report), to uzyskamy odnośniki do całej palety stron, które możemy bezpośrednio wybierać: np.
/Komputery i Sieci/Internet/Listy najlepszych stron WWW/ czy
/Informacje Regionalne/Miasta/Warszawa/Dokąd można pójść/.