Gdzie z tym indeksem

W dłuższej perspektywie usługi indeksujące zostaną oddzielone od architektur pozwalających na podłączenie wielu indeksów. Wiele wskazuje też, że indeksowanie stanie się funkcją systemów plików.

W dłuższej perspektywie usługi indeksujące zostaną oddzielone od architektur pozwalających na podłączenie wielu indeksów. Wiele wskazuje też, że indeksowanie stanie się funkcją systemów plików.

Indeksowanie treści w celu jej łatwego przeszukiwania stało się w ciągu kilku ostatnich lat na tyle powszechne, że można właściwie mówić o rewolucji w tej dziedzinie. Masowa zmiana podejścia do zarządzania informacją objęła zarówno użytkowników korporacyjnych, jak i indywidualnych. W ciągu najbliższych kilku lat może z tego wyniknąć sporo zmian rynkowych, które doprowadzą do pojawienia się nowych klas produktów i liderów nowych rynków.

Indeks ceni samodzielność

Dotychczasowe doświadczenia w dziedzinie zarządzania treścią wskazują, że mechanizmy indeksujące pozostaną czymś oddzielnym od systemów operacyjnych, a być może nawet od baz danych, nawet jeśli w niektórych przypadkach będą z nimi ściśle integrowane. Przyczynkiem do takiego myślenia jest fakt, że systemy operacyjne ulegają zmianom, powstają i zanikają, tymczasem dla wielu indeksów zaplanowano okres życia rzędu kilkudziesięciu lat. To po pierwsze.

Po drugie, efektywny indeks to taki, który mieści w sobie informacje ze wszystkich możliwych źródeł, a więc z baz danych, systemów plików i specjalizowanych repozytoriów opisanych metadanymi. Niewykluczone, że zarówno producenci systemów indeksujących, jak i producenci baz danych będą w przyszłości starać się wysforować przed siebie nawzajem, oferując "jednolite środowiska do indeksowania i wyszukiwania informacji". Dziś nie ma wcale pewności, co będzie interfejsem dla czego.

Z jednej strony już dziś mamy na rynku rozwiązania rozszerzające przeszukiwanie zewnętrznych zbiorów danych (choćby Liquid Data firmy BEA Systems, rozwiązania SAP, IBM, Oracle i Microsoft), ale także bardzo obiecujące rozwiązania młodych innowacyjnych firm, takich jak Index Engines, czy też produkty indeksujące doświadczonych firm specjalistycznych, takich jak Fast czy Google.

Swoją rolę znać

Jest całkiem możliwe, że z biegiem czasu powstanie gama systemów specjalistycznych. Każdy z nich będzie służyć do indeksowania określonych zasobów (witryny WWW, dokumenty, bazy danych itd.) i udostępniać indeksy za pośrednictwem ustandaryzowanych interfejsów API producentom systemów operacyjnych i aplikacji, jak już ma to miejsce w przypadku Google i Microsoftu.

Dostawcy systemów operacyjnych muszą na dłuższą metę zdecydować, czy indeksowanie informacji należy do ich kompetencji. Wiele wskazuje, że będą musieli oddać pole firmom specjalistycznym. Zamiast próbować specjalizować się we wszystkim, znacznie lepszym pomysłem dla Microsoftu, IBM, Sun Microsystems oraz środowiska open source rozwijającego systemy Linux, BSD itd. jest stworzenie uniwersalnych architektur, w ramach których klienci mogliby osadzać mechanizmy indeksujące wielu różnych producentów.

Takie podejście wydaje się słuszne tym bardziej, że z biegiem czasu wiele systemów pamięci masowych będzie posiadać własne mechanizmy indeksujące. Powstaną one w ramach aliansów z firmami specjalizującymi się w indeksowaniu, co już się zresztą dzieje.

Z punktu widzenia systemu operacyjnego istotne jest jednolite traktowanie indeksów, bez względu na to, czy są one usługami w lokalnym środowisku, czy też funkcją wewnątrz systemu pamięci masowych.

Biznes nie dla sieci

W dzisiejszych czasach podział na rozwiązania sprzętowe i programowe mocno się zaciera, jednak podział na warstwy infrastruktury wciąż funkcjonuje, nawet pomimo postępującej wirtualizacji usług. Można więc rozważać, czy usługi indeksowania powinny działać jako niezależne moduły w sieci, w systemach pamięci masowych, czy też gdzieś pomiędzy serwerami a pamięciami. Problem jest istotny np. z punktu widzenia szyfrowania - indeksowanie wymaga danych niezaszyfrowanych. Ale nie tylko. Chodzi też o to, aby jednolicie indeksować dane bieżące, zabezpieczane i archiwizowane.

Jest całkiem prawdopodobne, że firmy takie jak Cisco i uznają, że to warstwa sieciowa jest najlepsza do uruchamiania usług indeksowania, a to dlatego, że widzi całą komunikację i może indeksować całość dostępnej w sieci informacji. Argumentacja ta ma jednak mankamenty. Sieć wydaje się warstwą dobrą do ustalania logiki działania aplikacji, zarządzania regułami ruchu danych i metadanych. Nie jest jednak z zasady warstwą do przechowywania wielkich indeksów.

Prędzej dojdzie do integracji polegającej na wchłonięciu platform sieciowych, indeksujących i wszelkich innych do jednej wielkiej obudowy na serwery kasetowe niż powstanie przełącznik indeksujący dane w sieci. To nie ten poziom abstrakcji. Nawet jeśli dostawcy rozwiązań sieciowych mówią niekiedy o inspekcji treści pakietów, a nie tylko ich nagłówków, to z punktu widzenia celu indeksowania, czyli szybkiego wyszukiwania informacji (a nie bitów czy bloków), platforma sieciowa nie wydaje się właściwa.

Indeks w systemie plików

W ciągu najbliższych kilku lat w dziedzinie indeksowania treści zobaczymy zapewne jeszcze niejedno. Może się okazać, że wśród wielu różnych pomysłów zwycięży ten najmniej dziś faworyzowany, a mianowicie integracja indeksowania z systemem plików. To spore wyzwanie technologiczne, czego dowodzi fakt, że Microsoft przez kilka lat nie radził sobie z ukończeniem prac nad metasystemem plików WinFS, by w końcu zarzucić prace nad nim. To jednak nie znaczy, że sam kierunek myślenia jest zły, a jedynie to, że próba rozwiązania problemu nie udała się. Duża część doskonałych dziś technologii ma za sobą wiele nieudanych prób. To, co obecnie dzieje się wokół systemu plików Lustre, ma szansę stać się podstawą dla przyszłego megasystemu indeksującego dla korporacji. Istotą indeksowania jest dostęp do informacji, a jednocześnie skalowalność.


TOP 200