Do klasyfikacji i wyszukiwania
- Marek Nahotko,
- 13.06.2005
Dysponujemy coraz doskonalszymi, nowoczesnymi narzędziami informatycznymi służącymi do wyszukiwania informacji. Nierzadko do ich tworzenia wykorzystywane są metody znane od wielu lat, wypracowane i sprawdzone na gruncie bibliotekoznawstwa oraz informacji naukowej.
Dysponujemy coraz doskonalszymi, nowoczesnymi narzędziami informatycznymi służącymi do wyszukiwania informacji. Nierzadko do ich tworzenia wykorzystywane są metody znane od wielu lat, wypracowane i sprawdzone na gruncie bibliotekoznawstwa oraz informacji naukowej.
Rosnąca skuteczność dzisiejszych narzędzi wyszukiwawczych zależy nie tylko od coraz większych możliwości technicznych. Równie ważna jest bowiem także umiejętność właściwego doboru metod tworzenia języków informacyjnych, zasad klasyfikacji dokumentów i sposobów opisu przeszukiwanych zbiorów. W tym zakresie bardzo użyteczna okazuje się być wiedza zgromadzona dotychczas przez środowiska bibliotekarzy i specjalistów od informacji naukowej. Integracja tradycyjnych metod i narzędzi klasyfikacyjnych oraz wyszukiwawczych z najnowszymi możliwościami informatyki wydaje się być obecnie jednym z najważniejszych zadań w zakresie tworzenia systemów wyszukiwania i dostępu do informacji.
Podstawą każdego systemu wyszukiwania informacji są metadane. Często definiuje się je jako dane o danych, co jest definicją bardzo ogólną. W systemach komputerowych na ogół mówi się o metadanych jako o zestawie danych posiadającym określoną reprezentację, taką jak schemat danych, informacja administracyjna itp. Z punktu widzenia zarządzania treściami i informacją metadane oznaczają informację o obiektach - takich jak dokumenty, grafika, baza danych itp. Metadane opisują obiekty, a jednym ze sposobów realizacji tego zadania jest łączenie obiektów z terminami, które je opisują.
Wyszukiwanie określonej informacji w wielkim zasobie obiektów, takim jak Internet, bez jakiejkolwiek formy stosowania metadanych jest zadaniem skazanym najczęściej na niepowodzenie. Szczególną rolę odgrywają metadane informujące o zakresie obiektów, czyli o ich temacie. Dla tworzenia metadanych tego typu niezbędne jest stosowanie różnego typu narzędzi wyszukiwawczych. Narzędzia te pozwalają na grupowanie obiektów według ich treści. Większość ich form jest od dawna znana i stosowana w bibliotekoznawstwie i informacji naukowej.
Do najczęściej wykorzystywanych narzędzi wyszukiwania informacji należą:
Klasyfikacja np. książki o polskiej architekturze wiejskiej w XVII w. może w uproszczeniu wyglądać tak: P - architektura, M - drewno, E - budownictwo, S - Polska, T - XVII w.
Dotychczas przedstawione narzędzia służące indeksowaniu informacji omawiane były w kolejności wzrastającego stopnia złożoności opisu. Ontologie stoją w tym wyliczeniu na najwyższym poziomie - w takim sensie, że wszystkie wymienione wcześniej narzędzia bazują na stałym, zamkniętym słowniku, natomiast ontologie stosują słowniki otwarte. W taksonomiach środki dla indeksowania dysponują zasadniczo jedną relacją - szerszy/węższy pozwalającą tworzyć hierarchie. Zbiór terminów jest otwarty, jednak język służący do tworzenia opisów jest zamknięty, gdyż zawiera tylko jedną zależność. Tezaurus oferuje dodatkowo relacje kojarzeniowe, synonimię i włączanie uwag pozwalających na lepszy opis terminów. Słownik również jest zamknięty. Tezaurus może być uznany za ontologię, w której istnieje jeden obiekt, termin, jedna cecha, uwagi i trzy relacje (hierarchiczna, synonimia i kojarzeniowa). W praktyce tezaurusy nie są uważane za ontologie, ponieważ mają one zbyt słabe możliwości opisu ze względu na ograniczony słownik. Klasyfikacja fasetowa nie wprowadza niczego nowego, żadnych nowych cech czy relacji, umożliwia jedynie lepsze uporządkowanie opisu. W przypadku ontologii twórca języka opisu rzeczowego ma możliwość dowolnego zdefiniowania tego języka. Ontologie stosowane w informacji naukowej wywodzą się ze sztucznej inteligencji, będąc mocno związane z logicznym wnioskowaniem i podobnymi technikami, a ostatnio coraz częściej stosowane są do wyszukiwania informacji. Jedną z ciekawszych technologii w tym zakresie są mapy tematów (Topic Map).