Indeksowanie intranetów

Index Server 1.1 Microsoftu umożliwia pełnotekstowe przeszukiwanie dokumentów.

Index Server 1.1 Microsoftu umożliwia pełnotekstowe przeszukiwanie dokumentów.

Nowi użytkownicy sieci WWW są często zafascynowani prostotą, z jaką mogą przeszukiwać poszczególne serwery tej sieci, oraz ogromem informacji, do jakich mają dostęp za jej pośrednictwem. Obecnie problemem staje się nie brak informacji, ale jej nadmiar. Toteż w Internecie istnieje wiele tzw. search engines, które umożliwiają użytkownikom wyszukiwanie informacji według określonych kryteriów. Problem dotarcia do wymaganych informacji staje się coraz bardziej istotny, także w sieciach korporacyjnych intranet, które na wzór Internetu, również budowane są na bazie serwerów WWW.

Dotychczas administratorzy, którzy chcieli zaopatrzyć zarządzane przez siebie sieci w oprogramowanie umożliwiające indeksowanie i pełnotekstowe przeszukiwanie różnego rodzaju dokumentów zmuszeni byli kupować oddzielne rozwiązania wymagające instalacji odpowiedniego oprogramowania, zarówno po stronie serwera, jak i na komputerach klienckich, pracujących w sieci. Rozwiązaniem upraszczającym operację okazały się intranetowe serwery WWW. Na nich uruchamiane było odpowiednie oprogramowanie indeksujące, a klientem takiego systemu mogła być dowolna przeglądarka WWW. Niemniej wiele mechanizmów indeksujących, współpracujących z serwerami WWW, ma dwie wady. Po pierwsze, umożliwiają one indeksowanie jedynie dokumentów HTML (formatu dokumentów stosowanego w sieci WWW), po drugie trzeba za nie zapłacić. Problem ten rozwiązuje Microsoft Index Server 1.1, współpracujący z serwerem WWW Microsoftu - Internet Information Server 2.0.

Instalacja i konfiguracja

Aby móc korzystać z Index Server 1.1, konieczne jest posiadanie serwera wyposażonego w system operacyjny Windows NT Server 4.0 oraz oprogramowanie Internet Information Server 2.0 (dostarczanego standardowo z NT 4.0). Index Server ma stosunkowo niewielkie wymagania sprzętowe i pracować może na każdym serwerze Windows NT Server 4.0. Jedyne wymagania to minimum 12 MB RAM oraz wolna powierzchnia dyskowa, przeznaczona na tworzony indeks, którego objętość wynosić może do 40% wszystkich indeksowanych dokumentów.

Instalacja oprogramowania trwa 5 min. Użytkownik musi tylko potwierdzić lokalizację katalogów, w których znajdują się skrypty serwera WWW, docelowe umiejscowienie plików z ich indeksem oraz standardową lokalizację plików serwera WWW.

Produkt w pełni administrowany jest za pośrednictwem przeglądarki WWW. Uprawnienia do zarządzania konfiguracją oprogramowania ma każdy użytkownik o statusie administratora sieci. Indeksowane mogą być wszystkie foldery, które uwzględnione są jako wirtualne ścieżki serwera WWW w konfiguracji tego serwera (folder C:\Dokumenty\Archiwum1996 przedstawiony może być na serwerze WWW jako wirtualny katalog /archiwum - dzięki temu użytkownik po podaniu nazwyhttp://www.firma.com/archiwum będzie odczytywał pliki z katalogu C:\Dokumenty\Archiwum1996). Administrator może dynamicznie definiować, które takie wirtualne ścieżki mają być indeksowane, a które nie. Żadna modyfikacja nie wymaga restartowania jakichkolwiek serwisów Windows NT, co należy uznać za niewątpliwą zaletę oprogramowania.

Integracja z Windows NT

Dzięki znakomitej integracji Index Servera z systemem operacyjnym Windows NT działanie oprogramowania jest praktycznie w pełni bezobsługowe. Raz skonfigurowany mechanizm indeksujący działa już samodzielnie i nie wymaga interwencji administratora. Osoba zarządzająca nie musi nawet definiować częstości aktualizowania indeksu. Index Server aktualizuje go bowiem automatycznie po każdej modyfikacji dokumentu, który przeznaczony jest do indeksacji.

Oprogramowanie to działa więc w zupełnie inny sposób niż większość programów indeksujących, dostępnych na rynku, które co jakiś czas sprawdzają wszystkie pliki przeznaczone do indeksowania, by skontrolować, czy ich zawartość została zmieniona. Jeśli odkryją różnicę, to ponownie indeksują te pliki, dodając nowe informacje do istniejącego już wcześniej indeksu. Operacja wyszukiwania modyfikacji we wszystkich plikach jest jednak dosyć zasobochłonna i obciąża zarówno procesor, jak i system dyskowy serwera.

Dzięki wysokiemu stopniowi integracji z Windows NT Index Server inaczej radzi sobie z tym problemem. Program śledzi modyfikację wszystkich plików w systemie operacyjnym. Jeśli stwierdzi, że zmianie uległ dokument znajdujący się w folderze przeznaczonym do indeksowania, to ponownie go indeksuje i dodaje wynik tego procesu do istniejącego wcześniej indeksu. Takie rozwiązanie problemu umożliwia aktualizowanie indeksu od razu po wystąpieniu zmian w dowolnym dokumencie, a nie dopiero po jakimś czasie.

Możliwości indeksowania

Index Server jest dosyć inteligentym oprogramowaniem, które potrafi indeksować nie tylko dokumenty HTML, ale także dokumenty pochodzące z programów Word, Excel i PowerPoint. Dostępny jest już pakiet SDK przeznaczony dla programistów, umożliwiający budowanie dodatkowych filtrów dla Index Servera, pozwalających na indeksowanie dowolnych formatów dokumentów.

Co więcej, indeksowana jest nie tylko zawartość dokumentu, ale także ich właściwości (dotyczy to również tagów HTML), takie jak katalog, w którym się on znajduje, jego tytuł, imię i nazwisko autora dokumentu, data jego utworzenia oraz typ pliku, w którym jest on przechowywany. Wszystkie te parametry mogą być następnie wykorzystywane przy wyszukiwaniu dokumentów.

Index Server potrafi się posługiwać siedmioma językami (angielski, francuski, niemiecki, hiszpański, włoski, holenderski, szwedzki) i indeksować według nich dokumenty. Jeśli np. jeden indeksowany dokument Worda napisany jest w kilku językach, to Index Server odpowiednie jego fragmenty sformatuje zgodnie ze specyfiką jednego języka, a inne zgodnie z wymogami innych. Niestety, jak na razie Index Server nie obsługuje w ten sposób języka polskiego. Nie oznacza to jednak, że produkt nie umożliwia indeksowania pisanych po polsku dokumentów. Jest odwrotnie - Index Server potrafi nawet indeksować teksty z polskimi znakami, czego często nadaremnie oczekuje się od innych programów, umożliwiających pełnotekstowe indeksowanie i przeszukiwanie tekstów.

Niemniej nie potrafi on eliminować w tym procesie polskich łączników (i, oraz, z itp.) oraz wyszukiwać zwrotów według klucza NEAR (np. polecenie wyszukania angielskiego "NEAR swim" wyświetli wyniki, w których pojawiły się wyrazy "swim", "swimming", "swum", "swam" itp.). Microsoft Polska poinformował nas, że lokalizacja Index Servera nie jest planowana.

Wyszukiwanie danych

Najistotniejszym elementem mechanizmu indeksowania i pełnotekstowego przeszukiwania dokumentów jest ostateczny efekt prac, czyli możliwość wyszukiwania określonych tekstów, fraz, danych itp.

Index Server oferuje użytkownikowi wiele możliwości. Jeśli korzysta on ze zwykłej przeglądarki WWW, może wpisywać całe wyrazy i frazy, które wyszukane mają być w identycznej postaci we wszystkich zindeksowanych dokumentach. Może także zawęzić obszar przeszukiwań, określając, że dany wyraz ma pojawić się we właściwościach dokumentu, np. w jego opisie czy polu tytułu. Może określić typ dokumentów, które chce przeszukać, np. tylko arkusze Excel. Może także stosować popularne operatory logiczne ułatwiające i zawężające obszar poszukiwań, np. operatory <, =, <= itp. stosowane do podawania danych liczbowych, dotyczących przykładowo objętości wyszukiwanych plików; operatorów AND, OR, AND NOT, a także * i ? stosowane przy określaniu nieznanych końcówek lub liter wyrazów.

Index Server przy formowaniu listy wyników przeszukiwania automatycznie uwzględnia prawa dostępu do odnalezionych dokumentów. Dzięki temu użytkownik zobaczy na tej liście tylko te pliki, do których rzeczywiście ma dostęp. Dokumenty odpowiadające podanemu kluczowi wyszukiwania, ale niedostępne dla użytkownika wykonującego przeszukiwanie, nie zostaną wyświetlone na liście wyników wyszukiwania.

Użytkownik może także zdefiniować porządek, według którego sortowana ma być lista rezultatów wyszukiwania, np. mogą być one sortowane według współczynnika procentowego określającego "celność", z jaką dokument spełnia założenia podane w kluczu.

Własny intranet

Index Server instaluje na serwerze WWW specjalne pliki, które umożliwiają komunikację między oprogramowaniem a użytkownikiem. Pliki te mogą być w dowolny sposób zmodyfikowane przez administratora, tak by przedstawiały one najczęściej używane przez użytkowników opcje wyszukiwania oraz, by formatowały rezultaty przeszukiwania w określony sposób, najwygodniejszy dla użytkowników.

Index Server wymaga do pracy dwóch rodzajów plików o rozszerzeniach IDQ i HTX. Pierwszy z nich służy do zdefiniowania formatu zapytania, które wysłane zostanie do Index Servera przez przeglądarkę WWW, pracującą na komputerze klienta. W pliku tym zdefiniowana jest liczba wyników, jakie mają być wyświetlane na jednej stronie WWW, odnotowana jest lokalizacja katalogu, w którym znajduje się indeks oraz określony jest rodzaj danych, które mają być zwrócone do przeglądarki (np. czy sama nazwa dokumentu, czy także wyciąg z niego, data jego utworzenia itp.).

Pliki typu HTX to w rzeczywistości pliki HTML, uwzględniające zmienne, w miejsce których podstawiane są dane wysłane przez Index Server. Określają one sposób formatowania na ekranie wyników poszukiwań. Administrator może je odpowiednio zmodyfikować, tak by wyświetlały np. logo firmy itp.

Co jeszcze?

Index Server w połączeniu z Microsoft Internet News Server potrafi także indeksować dokumenty zawarte w artykułach przechowywanych w ramach internetowych grup dyskusyjnych USENET (pracujących na bazie protokołu NNTP).

Istotną cechą jest możliwość podejrzenia zawartości wyszukanych dokumentów wraz z podświetleniami tych miejsc, w których występują wyrazy lub zwroty spełniające warunki wpisanego przez użytkownika klucza wyszukiwania.

Nowy produkt Microsoftu należy polecić tym, którzy zamierzają budować systemy pełnotekstowego indeksowania i przeszukiwania tekstów na bazie serwerów WWW.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200