WebQL - język do przeszukiwania zasobów Internetu

Poszukiwanie określonej informacji w Internecie przypomina raczej szukanie igły w stogu siana niż materiałów w dobrze opracowanej bibliotece. Publicznie dostępne motory wyszukiwawcze - Yahoo!, AltaVista czy Wirtualna Polska - mają wprawdzie w swoich zasobach miliony zindeksowanych stron, ale w odpowiedzi na dowolne zapytanie dostajemy listę setek lub tysięcy stron, mało powiązanych z tematem zapytania.

Poszukiwanie określonej informacji w Internecie przypomina raczej szukanie igły w stogu siana niż materiałów w dobrze opracowanej bibliotece. Publicznie dostępne motory wyszukiwawcze - Yahoo!, AltaVista czy Wirtualna Polska - mają wprawdzie w swoich zasobach miliony zindeksowanych stron, ale w odpowiedzi na dowolne zapytanie dostajemy listę setek lub tysięcy stron, mało powiązanych z tematem zapytania.

Problem przeszukiwania baz danych rozwiązano już prawie 30 lat temu dzięki językowi SQL. Relacyjne bazy danych, posługujące się tym językiem, opanowały ponad 90% rynku przechowywania informacji strukturalnych. Gdyby podobne możliwości były dostępne w Internecie, poszukiwanie potrzebnej informacji stałoby się o wiele łatwiejsze.

Strukturalne poszukiwania

Niewielka firma Caesius, założona w 1999 roku przez byłych pracowników Microsoftu i Cisco opracowała język zapytań strukturalnych WebQL, pozwalający na precyzyjne definiowanie zapytań dotyczących zasobów Internetu. Firma stworzyła również program (motor wyszukiwania) o tej samej nazwie, realizujący zapytania.

Rozwiązanie WebQL śledzi na bieżąco informacje pojawiające się w Internecie za pomocą specjalizowanego motoru wyszukiwania, o różnych możliwościach, zależnych od wersji produktu. Motor jest programowany za pomocą języka o składni zbliżonej do SQL, chociaż język ten ma więcej wspólnego ze skryptowym Perlem niż z innymi językami programowania.

WebQL działa w pełni jawnie, jedynie na stronach powszechnie dostępnych, nie używa plików cookie ani nie posługuje się agentami, działającymi na przeglądanym serwerze, bez wiedzy właściciela. Posługując się WebQL do zabierania informacji, nie ma ryzyka posądzenia o naruszenie prywatności ani wejścia w chronione zasoby.

Dobre wyniki

Rozwiązanie firmy Caesius pozwala na uzyskiwanie wyników typowych dla motorów przeszukiwania, takich jak lista witryn czy lista dokumentów, ale również umożliwia zbieranie informacji statystycznych m.in. o liczbie klientów przeglądanej witryny, przeglądanych przez nich stronach, liczbie odnośników znajdujących się na wszystkich stronach serwisu internetowego. Wyniki pracy Web-QL są zapisywane w lokalnej bazie danych MySQL w postaci tabel, dostępnych również z arkusza Excel.

Zbiory gotowych skryptów zapytań WebQL, oferowane wraz z oprogramowaniem, są przeznaczone głównie do zbierania informacji handlowych i marketingowych: ile kosztują określone produkty u konkurencji, kto może być zainteresowany oferowanymi produktami, jak najlepiej opisać produkt, aby znalazł się w czołówce list dostarczanych przez motory wyszukiwania Internetu, który motor podaje najbardziej wiarygodne wyniki itp. Graficzny edytor skryptów ułatwia pisanie zapytań, ale autorzy przyznają, że przygotowanie dobrego skryptu wymaga doświadczenia.

WebQL jest dostępny w trzech wersjach. Najprostszą, czasowo limitowaną wersję można bezpłatnie pobrać z Internetu (http://www.webql.com ).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200