Lepiej znaleźć niż szukać

Subskrybuj RSS A A A
8 lipca 2008
Wiesław Pawłowicz, Marcin Marciniak

Systematycznie rośnie ilość informacji przechowywanych w zasobach IT. Analitycy są zgodni: mechanizmy wyszukiwania będą coraz ważniejszym elementem systemów korporacyjnych.

Systematycznie rośnie ilość informacji przechowywanych w zasobach IT. Analitycy są zgodni: mechanizmy wyszukiwania będą coraz ważniejszym elementem systemów korporacyjnych.

Wszystko wskazuje na to, że technologie umożliwiające efektywne przeszukiwanie informacji w Internecie oraz systemach korporacyjnych będą w najbliższych latach szczególnie gorącym tematem. Dlatego też na rynku pojawia się coraz więcej pomysłów na nowe techniki i rozwiązania ułatwiające dotarcie do użytecznych danych. Wyszukiwanie można podzielić na dwie zasadnicze grupy funkcjonalne: wyszukiwanie informacji dostępnej w Internecie lub firmowym intranecie oraz wyszukiwanie w treści dokumentów składowanych w zasobach lokalnych. W pierwszym wypadku dominującą, prawie monopolistyczną pozycję na rynku zdobył Google, choć wiele innych firm i usługodawców oferuje konkurencyjne rozwiązania. W drugim oferta jest bardziej zróżnicowana. Na rynku jest wiele motorów wyszukiwawczych, przystosowywanych do specjalizowanych zadań.

Semantyczna przyszłość

Jak przewidują analitycy, przyszłość mechanizmów wyszukiwania informacji - w szczególności tych, które znajdują zastosowanie w systemach korporacyjnych - to technologie wykraczające znacznie dalej niż tylko przetwarzanie zapytań i indeksowanie treści. Przede wszystkim oprogramowanie będzie rozpoznawało indywidualnych użytkowników lub ich grupy i automatycznie dopasowywało się do ich preferencji lub wymagań, a nie tylko przetwarzało, analizowało i indeksowało informacje.

"To, co jest interesujące dla jednej osoby, niekoniecznie jest takie dla innej. Dlatego oprogramowanie wyszukiwarek nowej generacji będzie wykorzystywać informacje o profilu użytkownika (jego zainteresowania, słownictwo, poprzednie wyszukiwania, rodzaj wykonywanej pracy, stanowisko itp.) oraz profile przypisane do indeksowanych treści (autor, temat, data utworzenia, profile innych czytelników itd.) i analizować te dane łącznie przed zaprezentowaniem wyników wyszukiwania" - uważa Guy Creese, analityk z Burton Group. Jeśli więc na przykład inżynier zajmujący się systemami sieciowymi wprowadzi do wyszukiwarki zapytanie "atm" to inteligentny mechanizm określi, że znacznie wyższe jest prawdopodobieństwo, że użytkownikowi chodzi o "asynchronous transfer mode", a nie "automated teller machine".

Szukanie w portalu

Typową realizacją wyszukiwania w portalu jest kupienie usługi polegającej na indeksowaniu zasobów przez zewnętrzną wyszukiwarkę i osadzenie linków do niej w treści portalu. Tego typu usługi są wykorzystywane przez wiele firm. Mają one jedną wadę - indeks powstaje poza firmą. Proces wyszukiwania wygląda inaczej przy wykorzystaniu rozwiązań sprzedawanych jako urządzenia appliance wyposażone w odpowiednie oprogramowanie. Tego typu gotowe urządzenia są integrowane z istniejącymi systemami i proces ich wdrożenia jest bardzo szybki. Dzięki temu, że motor indeksowania pracuje w obrębie sieci firmy, możliwe jest bezpieczne analizowanie zasobów, które nie powinny być dostępne poza nią.

Wbudowanie gotowych mechanizmów indeksowania i wyszukiwania do portalu intranetowego jest prostym rozwiązaniem, umożliwiającym istotną poprawę dostępności publikowanych informacji. Warto jednak zauważyć, że przystosowanie portalu do współpracy z wyszukiwarką czasami wymaga więcej pracy niż tylko jej włączenie do istniejącej infrastruktury. Należy zadbać o to, aby informacje były publikowane w odpowiednim formacie obsługiwanym przez oprogramowanie.

Polska igła w stogu siana

W dzisiejszych czasach absolutne minimum to mechanizm wyszukiwania dokumentów obsługujący format Unicode, zapytania ze znakami spoza alfabetu łacińskiego, a także wyrażenia wieloznaczne. Niektóre z motorów rozpoznają również polską fleksję, np. wpisanie słowa "wieś" spowoduje wyświetlenie dokumentów, w których wystąpi to słowo także w przypadkach zależnych ("wsi", "wsią" i tak dalej). Drugim kryterium są formaty dokumentów obsługiwane przez daną wyszukiwarkę. Coraz większego znaczenia nabiera obsługa nowych formatów zgodnych z ISO: Open Document Format i Microsoft Open XML. Ponieważ ODF stał się standardem wielu administracji w krajach UE, warto więc zwrócić uwagę, czy wyszukiwarka go obsługuje.

Wyszukiwarka Exalead

Wykorzystuje indeks zawierający 8 mld stron (Google ma ok. 10 mld). Jest dostępna zarówno w formie usługi Web, jak i jako niezależne oprogramowanie. Jest też wbudowana w platformy webowe wielu firm, gdyż producent udostępnia narzędzia umożliwiające jej łatwą integrację.

DocuShare z polską semantyką

Jest to przykład dobrej integracji wyszukiwarki z systemem obiegu dokumentów. Oprogramowanie firmy Xerox wykorzystuje popularny motor Autonomy (dawniej K2 firmy Verity). Uwzględnia też polską odmianę wyrazów.

W poszukiwaniu wydajności

Dla informatyków pracujących w działach IT interesująca może być usługa SaaS oferowana przez Paglo - przeszukiwanie wewnętrznych zasobów IT firm w celu analizy danych, takich jak wydajność sieci lub serwerów. Dostępna jest na razie bezpłatna wersja beta. Oferta komercyjna ma się pojawić na jesieni. Użytkownik musi ściągnąć i uruchomić program zbierający informacje z systemu (crawler). Dane te są wysyłane do serwera Paglo, gdzie następuje ich indeksowanie i analiza. Następnie użytkownik wykorzystując przeglądarkę może uzyskać dostęp do wyników analizy.

Testowanie na Wikipedii

Powerset to nowa firma, która zwróciła uwagę mediów prezentując wersję beta semantycznego motoru wyszukiwania, wykorzystującego do zapytań język naturalny, a opartego na technologii opracowanej w instytucie badawczym Xerox PARC. Oprogramowanie analizuje znaczenie treści zawartych na stronach WWW i tworzy ich semantyczny wzorzec umożliwiający inteligentne dopasowywanie wyników wyszukiwania. System Powerset jest w fazie testów wykorzystujących treści zawarte w artykułach Wikipedii. Powerset potrafi zebrać fakty dotyczące zapytania, a także podsumować zebrane informacje.

Oceń artykuł

średnio: 3 liczba ocen: 1

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

Zarządzanie po japońsku

W praktyce przemysłowej wypracowano szereg skutecznych metod zarządzania. Wiele powstało w Japonii. Dlaczego, mimo ich efektywności, nie zawsze są stosowane w biznesie?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88