Kilka słów na temat TOPIC 'a

Wiele informacji gromadzonych przez przedsiębiorstwa w formie elektronicznej posiada charakter tekstowy. Wyszukiwanie danych w tego typu zbiorach ułatwiają specjalne systemy do wyszukiwania informacji. Jednym z takich programów jest prezentowany ostatnio w Warszawie pakiet TOPIC.

Wiele informacji gromadzonych przez przedsiębiorstwa w formie elektronicznej posiada charakter tekstowy. Wyszukiwanie danych w tego typu zbiorach ułatwiają specjalne systemy do wyszukiwania informacji. Jednym z takich programów jest prezentowany ostatnio w Warszawie pakiet TOPIC.

TOPIC służy do zarządzania informacją w dużych zbiorach dokumentów tekstowych. Pakiet umożliwia precyzyjne wyszukiwanie dokumentów na interesujacy użytkownika temat. Służy on pomocą przy odnajdywaniu dokumentów na podstawie ich zawartości tekstowej oraz tematycznej. Pozwala także uzyskać dostęp do odnalezionych dokumentów. TOPIC jest przeznaczony dla tych użytkowników, którzy muszą radzić sobie z zalewem informacji. Szczególnie nadaje się do wykorzystania w bibliotekach, administracji, ośrodkach informacji wszędzie tam, gdzie istnieją duże zbiory dokumentów.

Pakiet zaprojektowano w ten sposób aby w miarę rozbudowy i użytkowania pracował coraz sprawniej. Wykonując kolejne wyszukiwania TOPIC tworzy tzw. bazę wiedzy wspólną dla wszystkich jego użytkowników. Stanowi ona bibliotekę uporządkowanych haseł wyszukiwawczych zwanych "Topikami". Baza wiedzy jest wspólna dla wszystkich użytkowników dzięki czemu mogą oni dzielić doświadczenie w zakresie odnajdywania terminów z danego zbioru dokumentów.

Program wyposażono w technologię wyszukiwania koncepcyjnego Concept Retrieval. Każdemu Topikowi przyporządkowano jedno znaczenie i wskaźnik walidacji. Dzięki wskaźnikom TOPIC wie, iż pewne terminy są ważniejsze od innych w formułowaniu konkretnych zapytań. Wszystkie Topiki są uporządkowane i tworzą tzw. drzewa kontekstowe. Współzależności między hasłami wyszukiwawczymi odzwierciedlają wskaźniki walidacji (nadają one cyfrową wartość związkom skojarzeniowym między terminami). Wartość taką wybiera się z przedziału 1.00 (Topic w 100% odpowiada znaczeniu w jakim chcemy go użyć np. medycyna - chirurgia), 0.01 (Topik jest w minimalnym stopniu odpowiedni np. medycyna - karetki pogotowia). Oczywiście wartości te może nadawać program automatycznie (dzięki wyświetleniu drzew w formie graficznej można zaobserwować interesujące użytkownika zależności) bądź może ustalać je sam użytkownik (gdy interesuje go zogniskowanie się na konkretnym temacie).

Podstawą działania TOPIC-a jest technika wyszukiwania kontekstowego ACCRUE. Pakiet automatycznie wyszukuje powiązane kontekstowo hasła. Za pomocą drzew kontekstowych pakiet jest w stanie działać prawie inteligentnie. Zbudowane z Topików zapytania korzystają z informacji o zależnościach istniejących między nimi. Taki dynamiczny indeks tematyczny TOPIC-a odnajduje dokumenty na dany temat nawet jeśli słowa charakteryzujące go nie były zawarte explicite w zapytaniu. W celu efektywnego wykorzystania informacji TOPIC używa, tzw. w matematyce, logiki rozmytej.

TOPIC posiada moduł pozwalający na wykonywanie wyszukiwania poprzez przykład. Technologia ta polega na prześledzeniu efektów jakie przyniosło zapytanie. O ile hasło wg którego wyszukano dokumenty sprawdziło się, możemy powtórzyć jego strukturę wypełniając ją innymi terminami ("Znajdź mi wszystkie dokumenty w ten sam sposób jak ten").

Oczywiście terminami wyszukiwawczymi nie muszą być tylko Topiki. Mogą być nimi zwroty i słowa z języka naturalnego lub terminy z tezaurusa. Zapytania powiązane zależnościami typu ACCRUE można zamienić na typowe operatory Boole'owskie (logiczne), odległościowe (współwystępowanie terminów w zdaniu) i in.

Wyszukane dokumenty są wyświetlane w formie listy. TOPIC automatycznie porządkuje je wg wskaźników walidacji terminów. Najlepsze odpowiedzi (najbardziej relewantne do zapytania) znajdują się na początku listy. Typowymi pozycjami na liście są: wskaźniki walidacji, daty stworzenia dokumentu i jego tytuł. Oczywiście możliwe jest uporządkowanie dokumentów wg którejkolwiek z tych cech.

Znalezione dokumenty można wyświetlić na ekranie w odpowiednim dla niego formacie. W tekście dokumentów definiuje się połączenia hiperlinkowe między danym dokumentem, a adnotacjami, plikami skojarzonymi, różnymi typami plików graficznych, zapytaniami, dźwiękiem i obrazem wideo. Dzięki temu można także stworzyć połączenia z innymi aplikacjami np.: pocztą elektroniczną, faksem, procesorami tekstów czy bazami danych w celu wyeksportowania wyszukanych tekstów.

Dokumenty źródłowe pozostają nadal w formatach oryginalnych, system nie wymaga bowiem konwersji plików. Fizycznie baza danych TOPIC-a tworzona jest z wieloźródłowych zbiorów informacji zwanych partycjami. TOPIC pozwala także na rozpowszechnianie danych przez sieci komputerowe. W imporcie tekstów dopuszczalne są różne formaty tekstowe. TOPIC korzysta z ok. 60 formatów importu, m.in. z procesorów tekstu, systemów OCR, arkuszy kalkulacyjnych, baz danych, programów graficznych.

TOPIC działa pod MS-Windows, Macintosh, IBM Presentation Manager, Motif. Dla systemów klient/serwer, pakiet przystosowano do: Novell NetWare, Microsoft LAN Manager, IBM Lan Server, NFS i DECnet. Program działa na 25 platformach: na komputerach PC, Macintoshach, stacjach roboczych i mikrokomputerach działających z systemami operacyjnymi DOS, MAC OS, OS/2, UNIX i VMS.

Program TOPIC jest spolonizowany; praca ta zajęła ok. półtora roku. Pracę tę wykonała Kancelaria Sejmu i Senatu. W systemie TOPIC zaprojektowano na razie dwie bazy danych: stenogramów z posiedzeń Sejmu i informacji PAP-u. Niestety obie aplikacje nie są dotychczas ukończone, a w związku z tym nie udostępnia się ich publicznie. Nie korzystają z nich także urzędnicy Kancelarii.

Lokalizacja TOPICA objęła polonizację znaków, słownika i komunikatów. Do uzyskiwania polskich znaków diakrytycznych wykorzystano stronę kodową 852. Stworzono także słownik polskich form fleksyjnych zawierający tematy słów, końcówki i wyjątki. Za podstawę słownika przyjęto "Mały Słownik Języka Polskiego" Stanisława Skorupki, zawierający 40 tys. haseł. Niestety słownik nie zawiera form słowotwórczych, np. przymiotnik i rzeczownik o tym samym temacie gromadzone są oddzielnie. Nie zaprojektowano nadal listy Topików.

Obok podstawowego pakietu, istnieją pakiety dodatkowe. TOPIC może zostać połączony z Oraclem, Sybasem, Informixem i Rdb dzięki pakietom SQL-BRIDGE, SQL-GATEWAY. Angielski język zapytań TOPIQL i biblioteki TOPIC API "C" pozwalają na łączenie TOPICA z innymi programami. INFOAGENT Development Kit to pakiet do tworzenie własnych aplikacji korzystających z wszelkich możliwości programu podstawowego. TOPIC Real-Time knowledge Agent to program filtrujący napływające dane i przekazujący je dalej. WWW i WAIS są aplikacjami dla Internetu umożliwiają udostępnianie, przeszukiwanie i filtrowanie informacji z poczty komputerowej.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200