Archiwa nieuczesane

Wracając do Google, jej rozwiązania (a także wielu innych firm, które wyrosły z rynku wyszukiwarek internetowych) nie oferują nic, co mogłoby być pomocne w zarządzaniu cyklem życia informacji, np. zabezpieczeniem jej przed skasowaniem. Można przyjąć, że jest to strategia zamierzona, polegająca na specjalizacji. Z punktu widzenia klienta najlepiej byłoby zastosować jeden produkt do rozwiązania wielu problemów. W tym przypadku chodziłoby nie tylko o możliwość efektywnego wyszukiwania informacji, ale także zarządzanie nią, co byłoby pożyteczne nie tylko ze względu na wymogi prawa.

Na razie, jak się wydaje, hasło ILM przynależy do dostawców pamięci masowych i rozwiązań backupowych. Pytanie, czy takie oddawanie pola przez producentów rozwiązań indeksujących nie jest krótkowzrocznością. W świetle wymagań SOX itp. producenci oprogramowania do zarządzania pamięciami masowymi i danymi mają bowiem coraz więcej powodów, by swoje rozwiązania rozbudowywać właśnie o indeksowanie i wyszukiwanie.

Powrót do macierzy

Już teraz są na to bardzo konkretne przykłady. EMC właśnie ogłosiło, że wzbogaca swoje rozwiązanie archiwizacyjne Centera o oprogramowanie wyszukiwawcze. Centera Seek to tak naprawdę licencjonowane od Fast Search oprogramowanie InStream, wzbogacone przez EMC o funkcje sortowania treści według stosowanych w urządzeniach Centera identyfikatorów treści opartych na XML (szerzej o rozwiązaniu Centera pisaliśmy w CW 20/2002).

Na razie oprogramowanie wyszukujące działa na zewnątrz i to na jednym modelu serwerów firmy Dell z systemem Red Hat Linux. Serwer wyceniono na 3,6 tys. USD, zaś oprogramowanie na 4 tys. USD za serwer. Nie wiadomo, czy w kolejnych modelach Centera oprogramowanie wyszukujące zostanie zintegrowane z samym urządzeniem, ale byłoby to rozsądne.

Integracja wyszukiwania (i nie tylko) wewnątrz systemu pamięciowego przyświecała zapewne IBM-owi, gdy projektował DS8000 - najnowszy system pamięci masowych przeznaczony dla największych firm. Macierz zawiera kontrolery, których sercem są procesory Power5, na których można równolegle uruchamiać kilka systemów operacyjnych (i5 OS, AIX oraz Linux).

Choć nie zostało to jeszcze powiedziane wprost, nietrudno wyobrazić sobie, że na jednym z systemów działać może sobie aplikacja indeksująca. W pierwszym rzędzie będzie to prawdopodobnie IBM DB2 Content Manager, ale można przypuszczać, że znajdzie się miejsce dla rozwiązań partnerów. Kontrolery macierzy DS8000 to także idealne miejsce do zainstalowania oprogramowania ILM, np. Tivoli Storage Manager. To tak oczywiste, że jest tylko kwestią czasu.

Głos w dziedzinie indeksowania i przeszukiwania treści archiwów zabrało także HP. Na bazie przejętej w 2003 r. Persist Technologies HP stworzyło Reference Information Storage System (RISS) - rozwiązanie archiwizujące integrujące funkcje indeksowania treści. Architektura RISS opiera się na rozproszonych węzłach (standardowe serwery x86) przechowujących lokalnie do 850 GB danych oraz synchronizujących między sobą indeksy dla podwyższenia niezawodności i dostępności.

Jeszcze w tym roku ma zadebiutować nowinka ze stajni Sun Microsystems o podobnej, choć nie identycznej architekturze. Rozwiązanie tworzone w ramach projektu o kodowej nazwie Honeycomb składa się z półki o wysokości 3U zawierającej 4 serwery z procesorami AMD Opteron. Każdy z nich posiada dysk o pojemności 400 GB i oprogramowanie indeksujące. Czy będzie tam także oprogramowanie ILM - tego na razie nie wiadomo. Tworząc rozwiązanie silnie rozproszone, Sun chce osiągnąć jeszcze jedno: odporność na awarie, co w przypadku przechowywania danych przez wiele lat jest bardzo wskazane.

Skanowanie w międzyczasie

Indeksowanie danych wewnątrz urządzeń przechowujących dane wydaje się kierunkiem rozsądnym. Opisane wyżej inicjatywy oraz niedawne przejęcie Permabit przez StorageTek i EverTrust przez Nexsan wskazują, że trend integracyjny jest już nieodwracalny. Mimo to równolegle rysują się jeszcze inne, również interesujące koncepcje. Jedną z nich przedstawiła niedawno amerykańska firma Index Engines. Opracowana przez nią architektura zakłada - całkiem realistycznie - że przedsiębiorstwa chcą utrzymać możliwość niezależnego skalowania każdej warstwy architektury - serwerów, sieci, pamięci masowych i systemów archiwizujących.

Index Engines dostarcza urządzenia, które instalowane są między serwerem backupowym a archiwum. Dane indeksowane są "w locie" - jak twierdzi producent, opóźnienie z tego wynikające sięga średnio 5%. Według oficjalnych danych urządzenia Index Engines są zdolne zaindeksować dane tekstowe w tempie 3,5 mln słów/s, a indeksowanie danych w postaci dokumentów odbywa się w tempie ok. 70 MB/s. Firma deklaruje, że objętość indeksów wynosi ok. 8% zaindeksowanych danych, co, jeśli jest prawdą, jest całkiem niezłym wynikiem. W jednej instalacji można powiązać do 64 urządzeń, tworząc klaster.

Rozwiązanie Index Engines dostępne jest w dwóch modelach umożliwiających zaindeksowanie do 4 (ES-100) lub do 8 mln (ES-200) dokumentów. Urządzenia wspierają typowe formaty dokumentów biurowych oraz dodatkowo bazy Microsoft Exchange, ale lista powinna z biegiem czasu się wydłużać. Rozwiązania współpracują na razie z trzema pakietami backupowymi: Symantec/Veritas NetBackup, IBM Tivoli Storage Manager oraz EMC Legato Networker.

15 mln - tyle dokumentów jest w stanie zaindeksować GB 8808 - najwyższy model Google Search Appliance. Niestety, rozwiązanie Google, jak też innych firm, które wyrosły z rynku wyszukiwarek internetowych, nie zawiera - przynajmniej na razie - funkcji ILM


TOP 200