Lepiej znaleźć niż szukać

Systematycznie rośnie ilość informacji przechowywanych w zasobach IT. Analitycy są zgodni: mechanizmy wyszukiwania będą coraz ważniejszym elementem systemów korporacyjnych.

Systematycznie rośnie ilość informacji przechowywanych w zasobach IT. Analitycy są zgodni: mechanizmy wyszukiwania będą coraz ważniejszym elementem systemów korporacyjnych.

Wszystko wskazuje na to, że technologie umożliwiające efektywne przeszukiwanie informacji w Internecie oraz systemach korporacyjnych będą w najbliższych latach szczególnie gorącym tematem. Dlatego też na rynku pojawia się coraz więcej pomysłów na nowe techniki i rozwiązania ułatwiające dotarcie do użytecznych danych. Wyszukiwanie można podzielić na dwie zasadnicze grupy funkcjonalne: wyszukiwanie informacji dostępnej w Internecie lub firmowym intranecie oraz wyszukiwanie w treści dokumentów składowanych w zasobach lokalnych. W pierwszym wypadku dominującą, prawie monopolistyczną pozycję na rynku zdobył Google, choć wiele innych firm i usługodawców oferuje konkurencyjne rozwiązania. W drugim oferta jest bardziej zróżnicowana. Na rynku jest wiele motorów wyszukiwawczych, przystosowywanych do specjalizowanych zadań.

Semantyczna przyszłość

Jak przewidują analitycy, przyszłość mechanizmów wyszukiwania informacji - w szczególności tych, które znajdują zastosowanie w systemach korporacyjnych - to technologie wykraczające znacznie dalej niż tylko przetwarzanie zapytań i indeksowanie treści. Przede wszystkim oprogramowanie będzie rozpoznawało indywidualnych użytkowników lub ich grupy i automatycznie dopasowywało się do ich preferencji lub wymagań, a nie tylko przetwarzało, analizowało i indeksowało informacje.

"To, co jest interesujące dla jednej osoby, niekoniecznie jest takie dla innej. Dlatego oprogramowanie wyszukiwarek nowej generacji będzie wykorzystywać informacje o profilu użytkownika (jego zainteresowania, słownictwo, poprzednie wyszukiwania, rodzaj wykonywanej pracy, stanowisko itp.) oraz profile przypisane do indeksowanych treści (autor, temat, data utworzenia, profile innych czytelników itd.) i analizować te dane łącznie przed zaprezentowaniem wyników wyszukiwania" - uważa Guy Creese, analityk z Burton Group. Jeśli więc na przykład inżynier zajmujący się systemami sieciowymi wprowadzi do wyszukiwarki zapytanie "atm" to inteligentny mechanizm określi, że znacznie wyższe jest prawdopodobieństwo, że użytkownikowi chodzi o "asynchronous transfer mode", a nie "automated teller machine".

Szukanie w portalu

Typową realizacją wyszukiwania w portalu jest kupienie usługi polegającej na indeksowaniu zasobów przez zewnętrzną wyszukiwarkę i osadzenie linków do niej w treści portalu. Tego typu usługi są wykorzystywane przez wiele firm. Mają one jedną wadę - indeks powstaje poza firmą. Proces wyszukiwania wygląda inaczej przy wykorzystaniu rozwiązań sprzedawanych jako urządzenia appliance wyposażone w odpowiednie oprogramowanie. Tego typu gotowe urządzenia są integrowane z istniejącymi systemami i proces ich wdrożenia jest bardzo szybki. Dzięki temu, że motor indeksowania pracuje w obrębie sieci firmy, możliwe jest bezpieczne analizowanie zasobów, które nie powinny być dostępne poza nią.

Wbudowanie gotowych mechanizmów indeksowania i wyszukiwania do portalu intranetowego jest prostym rozwiązaniem, umożliwiającym istotną poprawę dostępności publikowanych informacji. Warto jednak zauważyć, że przystosowanie portalu do współpracy z wyszukiwarką czasami wymaga więcej pracy niż tylko jej włączenie do istniejącej infrastruktury. Należy zadbać o to, aby informacje były publikowane w odpowiednim formacie obsługiwanym przez oprogramowanie.

Polska igła w stogu siana

W dzisiejszych czasach absolutne minimum to mechanizm wyszukiwania dokumentów obsługujący format Unicode, zapytania ze znakami spoza alfabetu łacińskiego, a także wyrażenia wieloznaczne. Niektóre z motorów rozpoznają również polską fleksję, np. wpisanie słowa "wieś" spowoduje wyświetlenie dokumentów, w których wystąpi to słowo także w przypadkach zależnych ("wsi", "wsią" i tak dalej). Drugim kryterium są formaty dokumentów obsługiwane przez daną wyszukiwarkę. Coraz większego znaczenia nabiera obsługa nowych formatów zgodnych z ISO: Open Document Format i Microsoft Open XML. Ponieważ ODF stał się standardem wielu administracji w krajach UE, warto więc zwrócić uwagę, czy wyszukiwarka go obsługuje.

Wyszukiwarka Exalead

Wykorzystuje indeks zawierający 8 mld stron (Google ma ok. 10 mld). Jest dostępna zarówno w formie usługi Web, jak i jako niezależne oprogramowanie. Jest też wbudowana w platformy webowe wielu firm, gdyż producent udostępnia narzędzia umożliwiające jej łatwą integrację.

DocuShare z polską semantyką

Jest to przykład dobrej integracji wyszukiwarki z systemem obiegu dokumentów. Oprogramowanie firmy Xerox wykorzystuje popularny motor Autonomy (dawniej K2 firmy Verity). Uwzględnia też polską odmianę wyrazów.

W poszukiwaniu wydajności

Dla informatyków pracujących w działach IT interesująca może być usługa SaaS oferowana przez Paglo - przeszukiwanie wewnętrznych zasobów IT firm w celu analizy danych, takich jak wydajność sieci lub serwerów. Dostępna jest na razie bezpłatna wersja beta. Oferta komercyjna ma się pojawić na jesieni. Użytkownik musi ściągnąć i uruchomić program zbierający informacje z systemu (crawler). Dane te są wysyłane do serwera Paglo, gdzie następuje ich indeksowanie i analiza. Następnie użytkownik wykorzystując przeglądarkę może uzyskać dostęp do wyników analizy.

Testowanie na Wikipedii

Powerset to nowa firma, która zwróciła uwagę mediów prezentując wersję beta semantycznego motoru wyszukiwania, wykorzystującego do zapytań język naturalny, a opartego na technologii opracowanej w instytucie badawczym Xerox PARC. Oprogramowanie analizuje znaczenie treści zawartych na stronach WWW i tworzy ich semantyczny wzorzec umożliwiający inteligentne dopasowywanie wyników wyszukiwania. System Powerset jest w fazie testów wykorzystujących treści zawarte w artykułach Wikipedii. Powerset potrafi zebrać fakty dotyczące zapytania, a także podsumować zebrane informacje.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200