W stogu cyfrowego siana

Subskrybuj RSS A A A
18 października 2004
Antoni Bielewicz

Sprawne przeszukiwanie korporacyjnych zasobów danych to wielkie wyzwanie naukowe i techniczne. Zwycięzców tego wyścigu czeka jednak sowita nagroda.

Bez prostych odniesień

Jak nietrudno się domyślić, każda z grup rozwiązań korzysta z różnych metod wyszukiwań. Te sprawdzające się przy przeglądaniu stron WWW, na czele z najważniejszą - analizą popularności stron, okazują się całkowicie nieprzydatne przy przeglądaniu zasobów korporacyjnych. W szczególności w środowisku korporacyjnym bardzo zawodna okazuje się metoda wyszukiwania opartego na słowach kluczowych - tak przydatna w przebogatym i zróżnicowanym wewnętrznie środowisku internetowym.

Dzieje się tak dlatego, ponieważ w obrębie tej samej firmy te same słowa pojawiają się niemal w każdym dokumencie. Na przykład firma zajmująca się tworzeniem planów lojalnościowych będzie odmieniała przez wszystkie przypadki sformułowanie "zarządzanie relacjami z klientem", zaś producent systemów ERP będzie nagminnie wspominać o "procesach biznesowych". W takich warunkach znacznie lepiej sprawdzają się wykorzystanie mechanizmów kojarzenia słów (pattern matching) i wszelkie inne metody statystyczne. Na podstawie wyników ich działania oprogramowanie wyszukiwawcze stara się rozpoznać rzeczywiste intencje pytającego.

Oddzielnym problemem jest fakt, że dokumenty w firmach podlegają często różnym obostrzeniom, a dostęp do najbardziej szczegółowych wersji ma tylko wąskie grono osób. "Przy przeszukiwaniu zasobów wewnętrznych istotne jest nie tylko to, czego szukamy, ale także to, do czego możemy mieć dostęp" - tłumaczy Andrew Feit, wiceprezes ds. marketingu w firmie Verity. Z tych właśnie powodów można założyć, że w dłuższym okresie systemy wyszukiwania informacji będą musiały być zintegrowane z systemami katalogowymi oraz systemami DRM, o ile takie kiedykolwiek się upowszechnią. W takim kierunku będą zapewne rozwijać się rozwiązania Microsoftu, który chce zostać liderem zarówno w dziedzinie wyszukiwania, jak i systemów DRM. Oddzielny problem stanowić będzie w tym kontekście opisywanie treści innych niż tekstowe, a więc np. multimediów.

Wielcy zainteresowani

Usprawnienie mechanizmów wyszukiwawczych to jeden z najważniejszych kierunków rozwoju największych producentów oprogramowania. W ostatnich miesiącach głośno było o problemach Microsoftu i opóźnieniu planowanej premiery nowego subsystemu do przechowywania danych WinFS, który nie ukaże się wraz z nową wersją Windows znaną pod nazwą Longhorn, a dopiero w 2007 r. WinFS ma zapewnić stałe indeksowanie plików i dynamiczne zestawianie ich zgodnie z aktualnymi potrzebami. Na potrzeby wyszukiwania informacji w Internecie i w intranetach Microsoft rozwija oddzielne oprogramowanie, które testuje w ramach serwisu MSN Search.

IBM kilka tygodni temu opublikował długo oczekiwany pakiet DB2 Information Integrator o dźwięcznej nazwie Masala. Nowe narzędzie ma umożliwić korporacyjnym użytkownikom przeszukiwanie i analizę danych pochodzących z baz opartych na rozwiązaniach IBM, a także firm trzecich. Jak zapewniają przedstawiciele koncernu, ma to być rozwiązanie dalece wykraczające poza przeszukiwarkę plików w formacie HTML, pomagające w uporaniu się z rosnącą ilością danych i ich wewnętrznym zróżnicowaniem.

Masala jest częścią większej strategii wprowadzanej przez IBM i mającej na celu usprawnienie administracji danymi pochodzącymi z różnych źródeł. W tym kontekście IBM mówi wręcz o "wirtualnych bazach danych" - zbiorach danych pochodzących z różnych źródeł, które z punktu widzenia użytkowników korporacyjnych mają być traktowane jak jedna spójna i dostępna baza danych. Federacyjne podejście do zarządzania danymi i ich przeszukiwania reprezentują także Oracle i Sybase, choć trzeba przyznać, że to IBM ma sporo do nadrobienia, i przynajmniej na razie nie akcentuje bardzo funkcjonalności wyszukiwawczej w swoich ofertach.

Od szukania do analizy

Skomplikowanie infrastruktury informatycznej sprawia, że do zdobycia poszukiwanych informacji w zasobach korporacyjnych nie wystarczy już jedno rozwiązanie. Zgodnie z wynikami badań przeprowadzonych przez Delphi Group w grupie 300 przedsiębiorstw prawie 30% użytkowników systemów korporacyjnych spędza co najmniej 8 godz. tygodniowo na poszukiwaniu potrzebnych informacji. Dalsze 40% poświęca temu zajęciu co najmniej 7 godz. w tygodniu. Większość z nich (62% respondentów) jest rozczarowana lub bardzo rozczarowana tymi problemami.

W celu ich rozwiązania największe przedsiębiorstwa powołują specjalne kilku-, kilkunastoosobowe działy specjalistów odpowiedzialnych za usprawnienie metod i opracowanie strategii wyszukiwania informacji. "To już nie jest problem usprawnienia mechanizmów wyszukiwawczych w poszczególnych aplikacjach. Korporacje muszą pomyśleć o stworzeniu architektury, która pozwoliłaby na kompleksowe przeszukiwanie wszystkich zasobów informacyjnych" - mówi Matthew Berk.

Zdaniem analityków wkrótce doprowadzi to do stworzenia wyspecjalizowanych narzędzi, które opierając się na podobnych metodach wyszukiwania (analizie tekstowej, sieciach neuronowych i algorytmach) będą wdrażane w kluczowych węzłach sieci. W każdej z nich będą one korzystać z dostępnych metod indeksacji i wyszukiwania w swój specyficzny sposób po to, by nadrzędny mechanizm dokonał na podstawie ich pracy "wielkiej syntezy".

Przeszukiwanie danych z różnych źródeł może stać się niespodziewanie ważnym kierunkiem rozwoju narzędzi do raportowania, zwłaszcza w kontekście koncepcji w rodzaju BAM (Business Activity Monitoring). Wystarczy rzut oka na opisywane na naszych łamach BEA Liquid Data czy Crystal Reports, by dojść do takich właśnie wniosków. Podobny trend rysuje się także przed narzędziami analitycznymi i oprogramowaniem do analizy statystycznej - wykorzystywane przez nie algorytmy będą przydatne w przyszłych systemach wyszukiwawczych.

Istniejące rozwiązania musiały zostać dopasowane nie tylko do obowiązujących wymogów prawnych, ale także do przyjętej strategii w zakresie zarządzania wiedzą i analizy danych. "Już wkrótce mechanizmy przeszukiwania zasobów staną się kolejnym elementem business intelligence i czymś więcej niż tylko sposobem na sprawne wyszukanie informacji" - przewiduje Matthew Berk.

Nie wiesz? Podaj dalej...
Do tej pory rozwiązania wyszukiwawcze opierały się na serwerach, które zdalnie przeszukiwały zasoby innych systemów i dokonywały ich indeksacji i kategoryzacji. To zgodne z najnowszym trendem w dziedzinie rozwiązań do zarządzania infrastrukturą, których producenci pomni na narzekania klientów starają się nie instalować agentów w zarządzanych środowiskach. Na horyzoncie rysuje się całkiem nowy model mechanizmów wyszukiwawczych, wykorzystujący rozproszone architektury typu peer-to-peer. Praktyczna weryfikacja założeń technicznych takich usług ma miejsce tu i teraz - sieci wymiany plików w rodzaju eDonkey czy Morpheus z powodzeniem radzą sobie bez centralnego zarządzania. Jeżeli lokalny węzeł nie wie nic o poszukiwanym pliku, przekazuje zapytanie do innych węzłów. Takie możliwości, wbudowane w aplikacje biznesowe, mogą okazać się bardzo atrakcyjne. Zwłaszcza w połączeniu z nadrzędną, rozproszoną warstwą logiki opartą na Web Services.

Standard pilnie potrzebny
Zmagając się z wymaganiami ustawy Sarbanes-Oxley nakładającej na firmy obowiązek długotrwałego przechowywania danych jako potencjalnych dowodów sądowych, amerykańskie firmy stwierdzają z przerażeniem, że dane, które mają być przechowywane i wyszukiwane na życzenie, nie były indeksowane. Pojawiają się głosy, że skoro problem jest powszechny, należy wypracować otwarty standard indeksacji danych archiwalnych. Dostawcy rozwiązań do zarządzania danymi, zwłaszcza ci, którzy podpisują się pod hasłem ILM, muszą czym prędzej uzgodnić wspólne stanowisko, by w oczach klientów nie wyjść na amatorów.

Oceń artykuł

średnio: 0 liczba ocen: 0
« wstecz 1  2 

Komentarze (0)

Najnowsze

Państwo do konsolidacji

Obywatele uważają administrację publiczną za jeden organizm. W rzeczywistości jest to kilka tysięcy oddzielnych struktur, obrosłych biurokratycznymi naroślami. Czy można zracjonalizować działanie państwa? Jak w tym może pomóc informatyka?

e-Sąd z odsieczą sprawiedliwości

Polski wymiar sprawiedliwości postrzegany jest jako skostniały i opieszały. Tymczasem kolejne e-usługi udostępniane przez Ministerstwo Sprawiedliwości ułatwiają życie przedsiębiorcom i usprawniają pracę sądów.

e-Zdrowie w Polsce i na świecie

Projekty informatyzacji służby zdrowia realizowane są na świecie z różnym powodzeniem. Skąd Polska mogłaby czerpać wzorce? A może jesteśmy skazani na własne rozwiązania?

Raport Państwo 2.0, czyli nowa wizja informatyzacji państwa

Michał Boni, minister administracji i cyfryzacji, zaprezentował raport "Polska 2.0. Nowy start dla e-administracji". Przedstawia on informacje na temat stanu realizacji projektów będących w gestii nowo utworzonego ministerstwa oraz prezentuje kierunki dalszych działań związanych z informatyzacją i cyfryzacją administracji publicznej w naszym kraju.

Cyberprzestępcy podążają za użytkownikami

Już dwie na trzy polskie firmy odnotowały ataki lub awarie, które spowodowały spadek produkcji. Co trzecia firma utraciła dane. Liczba takich przypadków będzie rosła, bo hakerzy biorą na cel najbardziej masowe technologie. Szybko reagują też na zmiany w firmowej architekturze.

Jak zaplanować karierę w branży IT

Doświadczenia łączone na różnych stanowiskach w firmach o odmiennych profilach są szczególnie cenione przez pracodawców. Dlatego warto głęboko przeanalizować możliwości rozwoju kariery, które obecnie stwarza rynek IT.

Jakie są różnice między chmurą a wirtualizacją

Wirtualizacja jest obecnie standardową technologią, stosowaną powszechnie w IT. Od środowiska chmury prywatnej dzieli ją jednak długa droga, gdyż wymaga ona uzupełnienia o istotne składniki.

Rekomendacje



Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88