Archiwa nieuczesane

Problemy ze składowaniem wielkich ilości danych zostaną wkrótce przyćmione przez niemożność ogarnięcia już zgromadzonych archiwów. Przeczy to celom archiwizacji, dlatego producenci rozwiązań IT pilnie szukają sposobu na efektywne indeksowanie i wyszukiwanie informacji.

Problemy ze składowaniem wielkich ilości danych zostaną wkrótce przyćmione przez niemożność ogarnięcia już zgromadzonych archiwów. Przeczy to celom archiwizacji, dlatego producenci rozwiązań IT pilnie szukają sposobu na efektywne indeksowanie i wyszukiwanie informacji.

Regulacje podobne do amerykańskich ustaw Sarbanes-Oxley (SOX) i HIPPA będą stopniowo wprowadzane także w Europie - wypada więc bacznie śledzić to, co dzieje się za oceanem. Tam zaś dzieją się sceny iście dantejskie. Niewinnie brzmiące zapisy tworzące obowiązek archiwizacji wszelkich danych i dokumentów mogących w przyszłości stanowić dowód w sprawie sądowej oznaczają w praktyce konieczność gromadzenia terabajtów danych rocznie.

Na razie przerażenie budzi to, w jaki sposób zbierać dane, sortować je i bezpiecznie przechowywać. Dostawcy infrastruktury spieszą z pomocą, oferując taśmowe i dyskowe pamięci masowe o wielkiej pojemności oraz odpowiednie oprogramowanie. Jego rola polega na klasyfikowaniu informacji i niedopuszczaniu, by dane określonej klasy zostały usunięte przed upływem określonego terminu. Gdyby działanie ustaw miało się zakończyć na gromadzeniu danych, wszystko to można by uznać za przejściowy kłopot.

Problem w tym, że już wkrótce firmy staną przed kolejnym wyzwaniem - zdolnością do przedstawienia odpowiednim organom informacji na określony temat, gdy te tylko tego zażądają. Owszem, jeśli wiadomo, jakiego okresu, jakiego działu czy produktu sprawa dotyczy, można podjąć poszukiwania na podstawie dat, nazw plików czy katalogów. Gdy jednak (już wkrótce) objętość archiwów będzie liczona w setkach terabajtów albo w petabajtach, proste metody szukania informacji stracą rację bytu.

Aby zasoby przeszukiwać pod kątem słów kluczowych, trzeba je najpierw odpowiednio oznaczyć, a więc zaindeksować. Pomysłów na to jak to robić - w jakiej warstwie infrastruktury, w którym momencie i z jaką dokładnością, jest wiele. Zwykle jest tak, że dostawcy rozwiązań chcący rozszerzyć swoją ofertę o nowe funkcje proponują koncepcje, które są zgodne z planami rozwoju ich dotychczasowych produktów. Nie inaczej jest w tym przypadku.

Rewizja na serwerze

Archiwa nieuczesane
Veritas/Symantec - producent oprogramowania backupowego oferuje pakiet Veritas Data Lifecycle Manager (DLM), który rezyduje na serwerze backupowym i indeksuje pliki przed wysłaniem ich do urządzenia zapisującego nośniki. DLM indeksuje jednak tylko to, co widać z poziomu systemu plików, a więc nazwy plików, podstawowe metadane z nagłówków, ścieżki katalogów itp. Nie indeksuje jednak treści, która z punktu widzenia późniejszego poszukiwania informacji jest najważniejsza.

Podobne mechanizmy indeksujące ma obecnie każdy liczący się system backupowy wyższej klasy, np. IBM Tivoli Storage Manager (TSM). O ile jednak Veritas/Symantec nie oferuje narzędzi do indeksowania pełnotekstowego, o tyle IBM jest w stanie powiązać TSM z rozwiązaniem DB2 Content Manager i indeksować treść w trakcie normalnego użytkowania plików w środowisku produkcyjnym, albo też, już po archiwizacji, wykorzystując, dla podniesienia wydajności, lustrzaną kopię danych.

Microsoft nie ma na razie zapędów do oferowania korporacyjnego rozwiązania do indeksowania i wyszukiwania informacji. Być może nie będzie musiał - serwer baz danych SQL Server 2005 (Yukon), który ukaże się w lecie br., z punktu widzenia użytkownika nie czyni różnicy między danymi składowanymi w plikach bazy i w systemie plików. Nie oznacza to oczywiście, że Yukon będzie stanowić od razu gotowe rozwiązanie do indeksowania wszelkich treści, z backupami włącznie.

Microsoft skłania się ponadto (przynajmniej na razie) ku architekturze zdecentralizowanej, w której same dane, a także indeksy, nie muszą być koniecznie przechowywane centralnie. Zawarte w Windows Server rozwiązanie Indexing Services może bowiem komunikować się z przechowywanymi na innych serwerach (i stacjach roboczych) mechanizmami indeksującymi. Mając do dyspozycji całą gamę "wtyczek" dla popularnych (nie tylko własnych) formatów plików, architektura Microsoftu ma przed sobą przyszłość - o ile na jej fundamentach technologicznych powstaną gotowe rozwiązania.

Biorąc pod uwagę zakup w lipcu ub.r. firmy Lookout Software rozwijającej mechanizm wyszukiwawczy dla Outlooka i innych aplikacji Office oraz ciągłą rozbudowę serwisu MSN Search, można przypuszczać, że Microsoft będzie działać na wielu frontach jednocześnie i że za kilka lat wypracuje skalowalne rozwiązanie zdolne obsłużyć potrzeby korporacyjne. To jednak tylko spekulacje, Microsoft jest bowiem coraz bardziej skrępowany przez tropiących go antymonopolistów. Być może zajmą się tym partnerzy.

Pudełko dedykowane

Oddzielną grupę rozwiązań stanowią dedykowane urządzenia/serwery indeksujące. Komunikują się one z systemami plików, ale potrafią także zaglądać do konkretnych typów plików i indeksować ich zawartość. Rodzina rozwiązań Google Search Appliance potrafi indeksować metadane i zawartość ponad 200 formatów plików - bez względu na ich status (produkcja, backup, archiwum). Systemy Google integrują się z firmowymi systemami uwierzytelniania i kontroli dostępu - użytkownicy otrzymują tylko te rezultaty wyszukiwania, które mają prawo zobaczyć.

Rozwiązania Google, jakkolwiek bogate funkcjonalnie i skalowalne (najwyższy model rozwiązania GB 8008 jest w stanie zaindeksować do 15 mln dokumentów), nie indeksują treści zawartych w bazach danych, choć technicznie nie stanowi to problemu. Być może Google woli poczekać, aż producenci serwerów baz danych rozwiną własne narzędzia indeksujące i dopiero wtedy zintegruje z nimi swoje rozwiązania. Możliwe też, że Google woli nie wchodzić w bezpośrednią konkurencję z producentami baz danych, ale na dłuższą metę to chyba niemożliwe, ponieważ to oni właśnie rozszerzają możliwości indeksujące swoich produktów o treści składowane poza bazami.

Nie wszyscy producenci myślą w ten sposób. Na przykład Fast Search już dziś oferuje możliwość indeksowania treści zarówno dokumentów (podobna liczba formatów co Google), jak i wszystkich ważniejszych baz danych. Jedną z unikalnych cech rozwiązań Fast jest indeksowanie i wyszukiwanie w języku polskim. Podobnie działają rozwiązania firm: Autonomy, iPhrase oraz Verity (Ultraseek).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200