Złoto w indeksach ukryte

Rynek systemów i usług do wyszukiwania informacji rozwija się bardzo dynamicznie. Google, jego lider, musi uważnie się rozglądać, bo konkurencja stale czyha na swoją szansę.

Rynek systemów i usług do wyszukiwania informacji rozwija się bardzo dynamicznie. Google, jego lider, musi uważnie się rozglądać, bo konkurencja stale czyha na swoją szansę.

Google udostępniło nową wersję beta aplikacji desktop search przeznaczonej dla przedsiębiorstw. Firmy nie zniechęciła niedawna burza wywołana przez specjalistów od bezpieczeństwa i ochrony prywatności oraz obrońców swobód obywatelskich w związku z kontrowersyjną funkcją służącą do przeszukiwania wielu komputerów. Po raz pierwszy ujrzała ona światło dzienne w ubiegłym miesiącu po udostępnieniu wersji beta Google Desktop 3, aplikacji przeznaczonej na rynek konsumencki. Wersja dla przedsiębiorstw posiada wszystkie funkcje wersji konsumenckiej uzupełnione o narzędzia do zarządzania aplikacjami w firmach i instytucjach. Pozwala administratorom m.in. na centralne blokowanie potencjalnie groźnych funkcji.

Instalować, ale ostrożnie

Kontrowersyjna funkcja umożliwia użytkownikom, którzy zainstalowali oprogramowanie na kilku komputerach PC, synchronizowanie indeksów między nimi. Jednocześnie udostępnia wyniki wyszukiwania na wszystkich komputerach, co jest możliwe dzięki temu, że indeksy są przechowywane przez 30 dni na serwerach Google.

Choć funkcja jest domyślnie wyłączona (w obu wersjach - konsumenckiej i dla przedsiębiorstw), a w edycji "firmowej" jej obsługa jest możliwa wyłącznie przez administratorów, to według analityków Gartnera stwarza ona zagrożenie bezpieczeństwa dla organizacji oraz może skutkować naruszeniem regulacji prawnych związanych z zarządzaniem danymi. Gartner przygotował rekomendację dotyczącą wprowadzenia zakazu instalowania konsumenckiej wersji Google Desktop 3. Ostatecznie jednak nie zniechęca do zainstalowania wersji dla przedsiębiorstwa właśnie ze względu na możliwość centralnego zarządzania.

Postawa Gartnera jest ostrożna, ponieważ synchronizacja indeksów między wieloma komputerami to jednak nie jedyna nowość wersji 3. Rozszerza bowiem możliwości funkcji Sidebar - panelu, który umożliwia dostarczanie informacji z różnych źródeł, m.in. poczty elektronicznej, internetowych serwisów informacyjnych, danych o pogodzie czy akcjach oraz wątków RSS. W nowej wersji Sidebar może być podzielony na indywidualne panele, które można umieścić w dowolnym miejscu ekranu. Ponadto nowa wersja umożliwia współdzielenie treści z innymi użytkownikami poprzez wysyłanie ich bezpośrednio na panel Sidebar za pośrednictwem komunikatora Google Talk oraz poczty elektronicznej.

Niezawodnie i heterogenicznie

Na wykorzystanie zamieszania wokół oprogramowania Google liczy firma X1 Technologies, która zaprezentowała niedawno wersję własnego produktu desktop search dla przedsiębiorstw. Nowości wersji 2.5 produktu X1 Enterprise Edition obejmują rozszerzenie możliwości zdalnego zarządzania serwerami indeksów, integrację z repozytorium danych oprogramowania Worksite 8.0 firmy Interwoven oraz pakiet SDK, który umożliwia wbudowanie platformy wyszukiwawczej X1 do innych aplikacji. Architektura nowej wersji została przepisana w technologii Java. Według przedstawicieli firmy zapewni to większą skalowalność oraz umożliwi uruchamianie w środowiskach heterogenicznych.

Od wersji 2.5 oprogramowanie X1 Enterprise Edition można uruchamiać w klastrach (dodatek Cluster Manager w celu podniesienia skalowalności i wydajności rozwiązania). Ponadto umożliwia administratorom zdalne instalowanie i zarządzanie funkcjami serwerów. Natomiast oprogramowanie klienckie w wersji 2.5 dostarcza użytkownikom ujednolicony widok danych zgromadzonych na komputerze oraz tych znajdujących się w sieci firmowej, co pozwala na prezentowanie jednolitych wyników, bez względu na to gdzie znajdują się dane.

Wyszukiwanie w kategoriach

Co szeroko rozumiana konkurencja szykuje dla Google, można było podpatrzeć na amerykańskiej konferencji Demo. Firma Cosmix pokazała nowy motor wyszukiwawczy pod nazwą Kosmix. Technologia ta pozwala na wyszukiwanie informacji według kategorii. Aktualnie udostępnione są trzy kategorie: zdrowie (beta), podróże (alpha) i polityka (alpha). Technologia Kosmix została opracowana z myślą o przedsiębiorstwach, które chciałyby dostarczać internautom spersonalizowane motory wyszukiwawcze.

Przykładowo wpisanie hasła "Warsaw" w kategorii podróże (travel) pozwala na przejrzenie wyników uporządkowanych w kategoriach: hotele, przewodniki, magazyny podróżnicze, recenzje, blogi podróżnicze, muzea oraz rajdy ekspedycyjne. Wiele motorów wyszukiwawczych podejmowało próbę sortowania wyników, jednak efekty takiego podejścia bardzo często okazywały się przypadkowe i nie spełniały obietnicy "inteligentnej" segregacji wyników.

W przypadku Kosmix jest inaczej. Dostrzec można to jednak wyłącznie w przypadku kategorii zdrowie. Pozostałe - podróże i polityka - nie odbiegają od poprzednich, niezbyt udanych prób. Widać przed twórcami zostało jeszcze sporo pracy. Kluczowa sprawa w ocenie nowego podejścia do wyszukiwania to porównanie z referencyjnymi wynikami takiego samego zapytania zadanego wyszukiwarce Google. To jednak będzie możliwe, dopiero kiedy zakończy się faza testów beta rozwiązania Kosmix.

Rozmyty tekst

Z kolei firma Transparensee Systems zaprezentowała na Demo technologię BestMatch, motor wyszukiwawczy, który przeszukuje dane ustrukturyzowane. Efektem jego działania jest zaprezentowanie wyników obejmujących tzw. najwyższą zgodność (best match), nawet jeśli parametry, słowa kluczowe i metadane, wyszukiwania nie pozwalają na precyzyjne ustalenie zgodności. W odróżnieniu od większości technologii przeszukiwania danych ustrukturyzowanych, w których rezultaty wyszukiwania odpowiadają terminom wpisanym do okienka wyszukiwarki, BestMatch potrafi również wskazać rezultaty (i uporządkować w kolejności od najlepszych do najgorszych), które są zbliżone do tego, czego poszukuje użytkownik.

Technologia Transparensee Systems jest adresowana do firm zajmujących się handlem elektronicznym, których klienci poszukują często produktu o "zgrubnie" nakreślonych parametrach. Oparte na niej rozwiązanie wykorzystuje algorytm określany jako fuzzy search (wyszukiwanie stosujące logikę rozmytą), który pozwala na przesiewanie bazy danych w poszukiwaniu rezultatów w oparciu o "zgrubne" parametry wskazane przez użytkownika.

Na demo pokazano także technologie pozwalające na przeszukiwanie nie tylko tekstu, ale także multimediów. Produkt Media Search firmy Nexidia umożliwia np. wyszukiwanie plików audio lub wideo zawierających ludzką mowę. Nowością tego rozwiązania jest rezygnacja z oznaczania plików dźwiękowych tekstem (możliwa dzięki przekształcaniu mowy na tekst), jak robiono to dotychczas, na rzecz przekształcenia tekstowego zapytania na kod fonetyczny i porównywania go z bazą plików.

Co ważne, pozwala to na wyszukiwanie nawet w przypadku kiedy użytkownik nie wie dokładnie jak wymawia się poszukiwane słowo. Musi jednak wiedzieć, jak poprawnie je zapisać. Mimo to takie podejście znacznie ułatwia przeszukiwanie dużych baz danych plików multimedialnych. Media Search został opracowany z myślą o agencjach reklamowych, które posiadają duże bazy multimediów.

Motor ERP

Do bitwy motorów wyszukiwawczych postanowił włączyć się... SAP. Firma oferowała dotychczas prosty motor wyszukiwawczy jako element pakietu NetWeaver. W kolejnej jego wersji możliwości wyszukiwania mają zostać znacznie rozbudowane. SAP chce umożliwić przeszukiwanie nie tylko nieustrukturyzowanych danych, ale również ustrukturyzowanych, które znajdują się w repozytorium systemu. Przeszukiwanie nieustrukturyzowanych danych, takich jak poczta elektroniczna, komunikatory internetowe w połączeniu z informacjami z repozytorium, np. adresami klientów, historią sprzedaży czy informacjami o zamówieniach, może być bardzo przydatnym uzupełnieniem np. dla systemu CRM.

Semantyka z Polski

Pod koniec grudnia ub.r. Prokom Software zaangażował się w amerykański projekt o nazwie Hakia, wyszukiwarkę nowej generacji, która potrafi przetwarzać zapytania zadawane w języku naturalnym (pełnymi zdaniami). W założeniu Hakia.com ma odpowiadać na pytania w wielu językach. Na razie jednak nie obsługuje języka polskiego.

Twórcy Hakia podkreślają, że to pierwsza wyszukiwarka, której wyniki będą odpowiedzią na pytania, które użytkownicy zadają w języku naturalnym. Co więcej, Hakia podpowiada bardziej skomplikowane pytania - co z pewnością można docenić, poszukując odpowiedzi w obszarach, w których użytkownik nie posiada rozległej wiedzy. Prezentując wyniki, wyszukiwarka dodatkowo podświetla fragmenty, które stanowią dokładną (na razie należy powiedzieć zbliżoną) odpowiedź na zadane pytanie. Przedsięwzięcie znajduje się nadal w fazie wstępnej.

Z kolei krakowski Software Mind na zlecenie brytyjskiej firmy Richmond Informatics, założonej przez Toma Ilube, twórcę słynnego banku internetowego Egg, prowadzi projekt, którego celem jest dostarczenie rozwiązania z zakresu analizy zbiorów danych, opracowywania znaczenia gromadzonych informacji oraz intuicyjnej prezentacji danych i ich relacji. Powstająca w Krakowie technologia opiera się na wykorzystaniu semantycznie zorganizowanych baz danych oraz narzędzi z zakresu sztucznej inteligencji. Firma zakończyła właśnie pierwszy etap projektu, w trakcie którego powstał prototyp rozwiązania. Przedstawiciele żadnej z firm nie chcą na razie zdradzić więcej szczegółów.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200