W stogu cyfrowego siana

Sprawne przeszukiwanie korporacyjnych zasobów danych to wielkie wyzwanie naukowe i techniczne. Zwycięzców tego wyścigu czeka jednak sowita nagroda.

Sprawne przeszukiwanie korporacyjnych zasobów danych to wielkie wyzwanie naukowe i techniczne. Zwycięzców tego wyścigu czeka jednak sowita nagroda.

Poszukiwanie interesującego nas dokumentu pośród tysięcy plików to źródło frustracji wielu z nas. Problemem jest z reguły nadmiar odpowiedzi wynikający ze zbyt ogólnego - jak na możliwości współczesnych mechanizmów wyszukiwawczych - określenia poszukiwanych informacji. Im więcej informacji będziemy przechowywać w formie cyfrowej, a na to się zanosi, tym problem będzie większy.

Z wyszukiwaniem informacji w Internecie jest już jako tako, ale firmowe zasoby informacyjne to wciąż wyzwanie. Wiele firm dostrzegło ten problem już dawno i oferuje korporacyjne systemy wyszukiwawcze. Niestety, ich jakość, w tym przede wszystkim zdolność do analizy kontekstu informacji, nadal pozostawia wiele do życzenia. Problem chcą rozwiązać największe tuzy rynku technologicznego, jak Microsoft, IBM, Oracle czy BEA Systems.

Co oczywiste, rynkiem rozwiązań enterprise search zainteresowane są także firmy oferujące dotychczas rozwiązania do przeszukiwania Internetu i intranetów, jak Google czy Fast. Na razie trudno przesądzać o czyimkolwiek zwycięstwie. Kompetencje internetowe nie przekładają się jednak wprost na możliwość efektywnego (z punktu widzenia użytkownika) przeszukiwania baz danych czy tysięcy podobnych do siebie dokumentów.

Potrzeby w dziedzinie wyszukiwania informacji rosną w zawrotnym tempie. "Jeśli spojrzeć na współczesną korporację, właściwie nie ma obszaru, w którym nie dałoby się uzyskać jakiś wymiernych korzyści dzięki polepszeniu metod pozyskiwania informacji z systemów wewnętrznych" - mówi Matthew Berk, dyrektor w Jupiter Research.

Tłok na rynku

Zatrudniając Dave'a Girouarda na stanowisku dyrektora ds. rozwiązań korporacyjnych, Google postawił przed nim jedno zadanie: zbudować pozycję Google na rynku rozwiązań korporacyjnych porównywalną z tą, jaką firma cieszy się w dziedzinie przeszukiwania zasobów Internetu. Google oferuje swoje rozwiązania korporacji w formie "żółtego pudełka" zwanego oficjalnie Google Search Appliance (GSA) już od 2002 r. Korzystają z nich m.in. T-Online, Procter & Gamble i armia USA. Najnowsza wersja GSA obsługuje ponad 250 formatów plików i jest dostępna w wersjach umożliwiających zaindeksowanie do 150 tys. dokumentów (ok. 35 tys. USD) lub do 1,5 mln dokumentów (175 tys. USD).

Programiści z Google pracują usilnie nad poszerzeniem możliwości wyszukiwawczych GSA o repozytoria niedostępne w sieci WWW i intranetach (protokoły dostępu do danych inne niż HTTP/HTTPS, przede wszystkim o dane przechowywane na komputerach osobistych, w systemach zarządzania treścią i CRM). "Tylko taki rozwój ma sens. Jaka część z korporacyjnych zasobów ma postać plików HTML? Relatywnie niewielka. Reszta to dane przechowywane w bazach rozrzuconych po sieciach korporacyjnych na całym świecie" - komentuje Whit Andrews, analityk Gartner Group.

Chcący zaistnieć na rynku przeszukiwarek zasobów korporacyjnych Google ma dwa atuty: znaną markę oraz możliwość oferowania w przyszłości zintegrowanego przeszukiwania zasobów firmowych i Internetu. Na tym szybko rosnącym rynku jest jednak coraz tłoczniej. Rozwiązania wyszukiwawcze do zastosowań korporacyjnych oferuje cała plejada mniejszych, często relatywnie młodych firm, upatrujących swojej szansy w wybiciu się w jakiejś niszy. Mowa tu m.in. o firmach: Verity, Endeca, Autonomy, Convera, In-Quira, Kanisa, Mercado, iPhrase czy choćby znanej u nas Fast (Fast Search and Transfer ASA).

W długim okresie pozycji Google zagrażają nie tyle "młodzi i gniewni", ile dobrze osadzeni na rynku, zasobni w gotówkę i mający wiele do stracenia dostawcy z pierwszej ligi rynku IT, jak Microsoft, IBM czy Oracle, a także BEA Systems. Każda z tych firm doskonali swoje produkty w dziedzinie zarządzania danymi, w tym również wyszukiwania.

Algorytm zamiast świeczki

Rozwiązania wyspecjalizowanych dostawców można podzielić na dwie grupy. Pierwsza to "wyszukiwarki zewnętrzne", służące do przeszukiwania ogólnodostępnych zasobów WWW przez klientów, partnerów biznesowych czy pracowników terenowych firmy. Należą tu produkty m.in. iPhrase, Kanisa oraz InQuira, które opierają się na technologiach rozpoznawania języka naturalnego, wykraczając poza techniki i metodologie wykorzystywane dotychczas w wyszukiwarkach internetowych. "Dobra wyszukiwarka internetowa nie ogranicza się dziś do precyzyjnej odpowiedzi na nieprecyzyjne zapytanie. Powinna zachowywać się jak dobry przedstawiciel handlowy, który nie tylko odpowiada na zapotrzebowanie, ale mówi o dodatkach, które pozwolą zapobiec przyszłym problemom" - mówi Andre Pino, wiceprezes ds. marketingu w iPhrase Technologies.

Druga kategoria to narzędzia do przeglądania zasobów zabezpieczonych sieci wewnętrznych: baz danych, serwerów plików i aplikacji biznesowych.

Oferowane m.in. przez Verity, Autonomy, Convera i Fast korzystają z kombinacji wielu metod wyszukiwania informacji, w tym metod kontekstowych, a także z technik kategoryzacji, autokategoryzacji, klasyfikacji i personalizacji informacji. Takie zabiegi, w połączeniu z dorobkiem w dziedzinie wyszukiwania pełnotekstowego, pozwalają odnaleźć informacje nawet przy bardzo nieprecyzyjnym zapytaniu.

Aby rozwiązać problemy związane z przeszukiwaniem zasobów korporacyjnych, niektóre rozwiązania wykorzystują dodatkowo metody statystyczne, dzięki którym możliwe jest relatywnie łatwe wyłuskanie haseł pokrewnych, przypisanie informacji konkretnym osobom albo dotarcie do zasobów pozornie niezwiązanych z zapytaniem. Są też wyszukiwarki (np. Endeca), które łączą metody wyszukiwania tekstowego z technologiami nawigacyjnymi, pozwalającymi na rozpoznanie kontekstu i ustalenie relacji pomiędzy poszczególnymi elementami zapytania.

Fast oferuje całą paletę rozwiązań wyszukiwawczych dedykowanych do różnych zastosowań. W skład Enterprise Search Platform (ESP) wchodzą aplikacje: Fast Data Search for Site Search, służąca do przeszukiwania ogólnodostępnych stron WWW; Fast Data Search for Compliance, stanowiąca uniwersalny system przeszukiwania dokumentów w sieciach korporacyjnych, transakcji, poczty elektronicznej; Fast Data Search for eCommerce, stworzona na potrzeby analiz związanych z handlem elektronicznym; Fast Data Search for Intranets, a także Fast Data Search 360, kompletna platforma wyszukiwawcza dla baz danych, intranetów i sieci Web.

Niezależnie od ESP Fast oferuje także specjalizowaną aplikacje AdVisor, która pozwala na indeksowanie ustrukturyzowanych i nieustrukturyzowanych danych pochodzących zarówno z baz wewnętrznych, jak i Internetu. AdVisor jest wyposażony w narzędzia do kategoryzacji wyników, tak aby użytkownicy mogli w miarę swobodnie je dalej eksplorować. Pozwala także na zróżnicowanie wyników np. na podstawie czynników geograficznych. Produkt został stworzony przede wszystkim z myślą o firmach zajmujących się dostarczaniem internetowych książek teleadresowych i informatorów.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200