Poszukiwanie igły w stogu siana

Wiele osób zajmujących się działalnością dziennikarską lub publicystyczną, działalnością naukową i badawczą ma ogromne zbiory tekstowe, często zapisane w różnych formatach (czyste pliki tekstowe, dokumenty Worda czy WordPerfecta, poczta elektroniczna). Jak oceniają specjaliści z Gartner Group, mimo rozwoju różnych systemów zarządzania relacyjnymi bazami danych, nadal ponad 90% danych w świecie ma charakter dokumentów tekstowych.

Wiele osób zajmujących się działalnością dziennikarską lub publicystyczną, działalnością naukową i badawczą ma ogromne zbiory tekstowe, często zapisane w różnych formatach (czyste pliki tekstowe, dokumenty Worda czy WordPerfecta, poczta elektroniczna). Jak oceniają specjaliści z Gartner Group, mimo rozwoju różnych systemów zarządzania relacyjnymi bazami danych, nadal ponad 90% danych w świecie ma charakter dokumentów tekstowych.

Poszukiwanie potrzebnego dokumentu w systemie opartym na dokumentach drukowanych jest nieefektywne już przy kilkudziesięciu dokumentach; przeszukanie setek czy tysięcy dokumentów w celu znalezienia jakiegoś cytatu, frazy, słowa czy tematu nie jest możliwe bez pomocy specjalnych narzędzi. Na szczęście istnieją narzędzia informatyczne wspomagające tę pracę.

Topic

Ze świata Unixa pochodzi bardzo potężne (i niestety dość drogie) narzędzie - program Topic (Verity; przedstawiciel w Polsce Rodan System, tel. w Warszawie 643 92 08). Jest on oparty na quasi-inteligentnej technologii organizowania danych, pozwalającej użytkownikowi lokalizować dokumenty podobne tematycznie. Topic umożliwia na definiowanie tematów (topic) oraz przypisanie im wag liczbowych, co ułatwia wykrywanie, że układy słów, fraz lub pojęć są bardziej lub mniej zgodne z poszukiwanym wzorcem. Dwupoziomowa struktura indeksów powoduje, że wyszukiwanie dokumentów spełniających zadane kryteria jest bardzo szybkie. Topic działa na wielu wersjach Unixa, Windows NT, OS/2 i VMS. Jako stacje klienta mogą być stosowane terminale znakowe lub graficzne (Motif) oraz komputery pod DOS, Windows, OS/2 lub Macintosh.

Najnowsza wersja Topica obsługuje dokumenty tekstowe w ponad 50 formatach oraz może korzystać z poczty elektronicznej, serwisów on-line, a także z Internetu. Topic Client może korzystać z pomocy tzw. inteligentnych agentów. Agent skonfigurowany jako "poszukiwacz" działa w tle, przeglądając dane historyczne dla znalezienia dokumentów spełniających zadane warunki. Skonfigurowany zaś jako "podglądacz" działa na dokumentach z poczty elektronicznej lub serwisu i dołącza je do bazy dokumentowej, jeśli spełniają zadane z góry warunki.

Topic znakomicie nadaje się do obsługi dużych baz tekstowych o objętości kilkudziesięciu do kilkuset megabajtów, przeznaczonych dla wielu użytkowników (archiwa, biblioteki, domy wydawnicze itp.). Wysoka cena właściwie wyklucza stosowanie go dla potrzeb indywidualnego użytkownika na pojedynczym PC.

askSam

Ze środowiska PC pochodzi bardzo popularny w świecie, a zupełnie nie znany w Polsce, program do zarządzania dokumentami tekstowymi o nazwie askSam (askSam Systems). Obecnie askSam 3.0 dostępny jest zarówno w wersji standardowej (w cenie 150 USD), jak i wersji Professional (395 USD). Jednakże tylko wersja askSam Professional jest wyposażona w pełne możliwości indeksowania bazy. Indeksowanie bazy powoduje dość znaczne zwiększenie jej objętości na dysku, ale zapewnia bardzo szybki dostęp do dokumentów.

askSam obsługuje popularne formaty dokumentowe (czysty tekst, Word, WordPerfect) oraz dokumenty z serwisów on-line (HTML, format poczty Eudory). Program może dołączać i prezentować dokumenty w postaci predefiniowanych formatów ekranowych. Na przykład dla dokumentów z poczty elektronicznej format będzie zawierał nadawcę, temat, datę, słowa kluczowe i sam tekst przesyłki. Program obsługuje dołączane do poczty dokumenty, łącznie z grafiką. askSam pozwala także na tworzenie własnych wzorców baz tekstowych o swobodnych rozmiarach pól w celu przygotowania i utrzymywania bibliografii, spisu publikacji lub książek, prowadzenia notatek z działalności czy spotkań z klientami.


TOP 200