W stogu cyfrowego siana

Bez prostych odniesień

Jak nietrudno się domyślić, każda z grup rozwiązań korzysta z różnych metod wyszukiwań. Te sprawdzające się przy przeglądaniu stron WWW, na czele z najważniejszą - analizą popularności stron, okazują się całkowicie nieprzydatne przy przeglądaniu zasobów korporacyjnych. W szczególności w środowisku korporacyjnym bardzo zawodna okazuje się metoda wyszukiwania opartego na słowach kluczowych - tak przydatna w przebogatym i zróżnicowanym wewnętrznie środowisku internetowym.

Dzieje się tak dlatego, ponieważ w obrębie tej samej firmy te same słowa pojawiają się niemal w każdym dokumencie. Na przykład firma zajmująca się tworzeniem planów lojalnościowych będzie odmieniała przez wszystkie przypadki sformułowanie "zarządzanie relacjami z klientem", zaś producent systemów ERP będzie nagminnie wspominać o "procesach biznesowych". W takich warunkach znacznie lepiej sprawdzają się wykorzystanie mechanizmów kojarzenia słów (pattern matching) i wszelkie inne metody statystyczne. Na podstawie wyników ich działania oprogramowanie wyszukiwawcze stara się rozpoznać rzeczywiste intencje pytającego.

Oddzielnym problemem jest fakt, że dokumenty w firmach podlegają często różnym obostrzeniom, a dostęp do najbardziej szczegółowych wersji ma tylko wąskie grono osób. "Przy przeszukiwaniu zasobów wewnętrznych istotne jest nie tylko to, czego szukamy, ale także to, do czego możemy mieć dostęp" - tłumaczy Andrew Feit, wiceprezes ds. marketingu w firmie Verity. Z tych właśnie powodów można założyć, że w dłuższym okresie systemy wyszukiwania informacji będą musiały być zintegrowane z systemami katalogowymi oraz systemami DRM, o ile takie kiedykolwiek się upowszechnią. W takim kierunku będą zapewne rozwijać się rozwiązania Microsoftu, który chce zostać liderem zarówno w dziedzinie wyszukiwania, jak i systemów DRM. Oddzielny problem stanowić będzie w tym kontekście opisywanie treści innych niż tekstowe, a więc np. multimediów.

Wielcy zainteresowani

Usprawnienie mechanizmów wyszukiwawczych to jeden z najważniejszych kierunków rozwoju największych producentów oprogramowania. W ostatnich miesiącach głośno było o problemach Microsoftu i opóźnieniu planowanej premiery nowego subsystemu do przechowywania danych WinFS, który nie ukaże się wraz z nową wersją Windows znaną pod nazwą Longhorn, a dopiero w 2007 r. WinFS ma zapewnić stałe indeksowanie plików i dynamiczne zestawianie ich zgodnie z aktualnymi potrzebami. Na potrzeby wyszukiwania informacji w Internecie i w intranetach Microsoft rozwija oddzielne oprogramowanie, które testuje w ramach serwisu MSN Search.

IBM kilka tygodni temu opublikował długo oczekiwany pakiet DB2 Information Integrator o dźwięcznej nazwie Masala. Nowe narzędzie ma umożliwić korporacyjnym użytkownikom przeszukiwanie i analizę danych pochodzących z baz opartych na rozwiązaniach IBM, a także firm trzecich. Jak zapewniają przedstawiciele koncernu, ma to być rozwiązanie dalece wykraczające poza przeszukiwarkę plików w formacie HTML, pomagające w uporaniu się z rosnącą ilością danych i ich wewnętrznym zróżnicowaniem.

Masala jest częścią większej strategii wprowadzanej przez IBM i mającej na celu usprawnienie administracji danymi pochodzącymi z różnych źródeł. W tym kontekście IBM mówi wręcz o "wirtualnych bazach danych" - zbiorach danych pochodzących z różnych źródeł, które z punktu widzenia użytkowników korporacyjnych mają być traktowane jak jedna spójna i dostępna baza danych. Federacyjne podejście do zarządzania danymi i ich przeszukiwania reprezentują także Oracle i Sybase, choć trzeba przyznać, że to IBM ma sporo do nadrobienia, i przynajmniej na razie nie akcentuje bardzo funkcjonalności wyszukiwawczej w swoich ofertach.

Od szukania do analizy

Skomplikowanie infrastruktury informatycznej sprawia, że do zdobycia poszukiwanych informacji w zasobach korporacyjnych nie wystarczy już jedno rozwiązanie. Zgodnie z wynikami badań przeprowadzonych przez Delphi Group w grupie 300 przedsiębiorstw prawie 30% użytkowników systemów korporacyjnych spędza co najmniej 8 godz. tygodniowo na poszukiwaniu potrzebnych informacji. Dalsze 40% poświęca temu zajęciu co najmniej 7 godz. w tygodniu. Większość z nich (62% respondentów) jest rozczarowana lub bardzo rozczarowana tymi problemami.

W celu ich rozwiązania największe przedsiębiorstwa powołują specjalne kilku-, kilkunastoosobowe działy specjalistów odpowiedzialnych za usprawnienie metod i opracowanie strategii wyszukiwania informacji. "To już nie jest problem usprawnienia mechanizmów wyszukiwawczych w poszczególnych aplikacjach. Korporacje muszą pomyśleć o stworzeniu architektury, która pozwoliłaby na kompleksowe przeszukiwanie wszystkich zasobów informacyjnych" - mówi Matthew Berk.

Zdaniem analityków wkrótce doprowadzi to do stworzenia wyspecjalizowanych narzędzi, które opierając się na podobnych metodach wyszukiwania (analizie tekstowej, sieciach neuronowych i algorytmach) będą wdrażane w kluczowych węzłach sieci. W każdej z nich będą one korzystać z dostępnych metod indeksacji i wyszukiwania w swój specyficzny sposób po to, by nadrzędny mechanizm dokonał na podstawie ich pracy "wielkiej syntezy".

Przeszukiwanie danych z różnych źródeł może stać się niespodziewanie ważnym kierunkiem rozwoju narzędzi do raportowania, zwłaszcza w kontekście koncepcji w rodzaju BAM (Business Activity Monitoring). Wystarczy rzut oka na opisywane na naszych łamach BEA Liquid Data czy Crystal Reports, by dojść do takich właśnie wniosków. Podobny trend rysuje się także przed narzędziami analitycznymi i oprogramowaniem do analizy statystycznej - wykorzystywane przez nie algorytmy będą przydatne w przyszłych systemach wyszukiwawczych.

Istniejące rozwiązania musiały zostać dopasowane nie tylko do obowiązujących wymogów prawnych, ale także do przyjętej strategii w zakresie zarządzania wiedzą i analizy danych. "Już wkrótce mechanizmy przeszukiwania zasobów staną się kolejnym elementem business intelligence i czymś więcej niż tylko sposobem na sprawne wyszukanie informacji" - przewiduje Matthew Berk.

Nie wiesz? Podaj dalej...

Do tej pory rozwiązania wyszukiwawcze opierały się na serwerach, które zdalnie przeszukiwały zasoby innych systemów i dokonywały ich indeksacji i kategoryzacji. To zgodne z najnowszym trendem w dziedzinie rozwiązań do zarządzania infrastrukturą, których producenci pomni na narzekania klientów starają się nie instalować agentów w zarządzanych środowiskach. Na horyzoncie rysuje się całkiem nowy model mechanizmów wyszukiwawczych, wykorzystujący rozproszone architektury typu peer-to-peer. Praktyczna weryfikacja założeń technicznych takich usług ma miejsce tu i teraz - sieci wymiany plików w rodzaju eDonkey czy Morpheus z powodzeniem radzą sobie bez centralnego zarządzania. Jeżeli lokalny węzeł nie wie nic o poszukiwanym pliku, przekazuje zapytanie do innych węzłów. Takie możliwości, wbudowane w aplikacje biznesowe, mogą okazać się bardzo atrakcyjne. Zwłaszcza w połączeniu z nadrzędną, rozproszoną warstwą logiki opartą na Web Services.

Standard pilnie potrzebny

Zmagając się z wymaganiami ustawy Sarbanes-Oxley nakładającej na firmy obowiązek długotrwałego przechowywania danych jako potencjalnych dowodów sądowych, amerykańskie firmy stwierdzają z przerażeniem, że dane, które mają być przechowywane i wyszukiwane na życzenie, nie były indeksowane. Pojawiają się głosy, że skoro problem jest powszechny, należy wypracować otwarty standard indeksacji danych archiwalnych. Dostawcy rozwiązań do zarządzania danymi, zwłaszcza ci, którzy podpisują się pod hasłem ILM, muszą czym prędzej uzgodnić wspólne stanowisko, by w oczach klientów nie wyjść na amatorów.


TOP 200