Do klasyfikacji i wyszukiwania

Dysponujemy coraz doskonalszymi, nowoczesnymi narzędziami informatycznymi służącymi do wyszukiwania informacji. Nierzadko do ich tworzenia wykorzystywane są metody znane od wielu lat, wypracowane i sprawdzone na gruncie bibliotekoznawstwa oraz informacji naukowej.

Dysponujemy coraz doskonalszymi, nowoczesnymi narzędziami informatycznymi służącymi do wyszukiwania informacji. Nierzadko do ich tworzenia wykorzystywane są metody znane od wielu lat, wypracowane i sprawdzone na gruncie bibliotekoznawstwa oraz informacji naukowej.

Rosnąca skuteczność dzisiejszych narzędzi wyszukiwawczych zależy nie tylko od coraz większych możliwości technicznych. Równie ważna jest bowiem także umiejętność właściwego doboru metod tworzenia języków informacyjnych, zasad klasyfikacji dokumentów i sposobów opisu przeszukiwanych zbiorów. W tym zakresie bardzo użyteczna okazuje się być wiedza zgromadzona dotychczas przez środowiska bibliotekarzy i specjalistów od informacji naukowej. Integracja tradycyjnych metod i narzędzi klasyfikacyjnych oraz wyszukiwawczych z najnowszymi możliwościami informatyki wydaje się być obecnie jednym z najważniejszych zadań w zakresie tworzenia systemów wyszukiwania i dostępu do informacji.

Podstawą każdego systemu wyszukiwania informacji są metadane. Często definiuje się je jako dane o danych, co jest definicją bardzo ogólną. W systemach komputerowych na ogół mówi się o metadanych jako o zestawie danych posiadającym określoną reprezentację, taką jak schemat danych, informacja administracyjna itp. Z punktu widzenia zarządzania treściami i informacją metadane oznaczają informację o obiektach - takich jak dokumenty, grafika, baza danych itp. Metadane opisują obiekty, a jednym ze sposobów realizacji tego zadania jest łączenie obiektów z terminami, które je opisują.

Wyszukiwanie określonej informacji w wielkim zasobie obiektów, takim jak Internet, bez jakiejkolwiek formy stosowania metadanych jest zadaniem skazanym najczęściej na niepowodzenie. Szczególną rolę odgrywają metadane informujące o zakresie obiektów, czyli o ich temacie. Dla tworzenia metadanych tego typu niezbędne jest stosowanie różnego typu narzędzi wyszukiwawczych. Narzędzia te pozwalają na grupowanie obiektów według ich treści. Większość ich form jest od dawna znana i stosowana w bibliotekoznawstwie i informacji naukowej.

Do najczęściej wykorzystywanych narzędzi wyszukiwania informacji należą:

  • Słowniki kontrolowane. Termin ten może oznaczać różne narzędzia, na ogół jednak jest on rozumiany jako zamknięty wykaz nazw przedmiotów służących do indeksowania. Najprostszą formą słownika kontrolowanego jest po prostu alfabetyczna lista terminów. Elementy składowe słowników kontrolowanych nazywane są terminami, które są nazwami określonych pojęć (w ten sam sposób zdefiniować możemy słowa kluczowe). Słownik kontrolowany uniemożliwia użytkownikowi używanie terminów o nieznanym znaczeniu, terminów zbyt szerokich lub zbyt wąskich, a także stosowania różnych form tego samego terminu.

  • Taksonomie. Termin ten często był stosowany, a nawet nadużywany do określania wszelkich abstrakcyjnych struktur. Ich początek wywodzi się od Linneusza, który w XVIII w. stworzył hierarchiczną systematykę żywych organizmów. W dziedzinie zarządzania informacją taksonomią nazywa się narzędzie zawierające terminy zgromadzone w słowniku kontrolowanym w obrębie określonej hierarchii. Korzyści dla użytkowników wynikają z możliwości grupowania terminów powiązanych relacjami, co ułatwia odnalezienie odpowiedniego terminu zarówno w procesie tworzenia opisów obiektów (indeksowania), jak i podczas ich wyszukiwania. Taksonomie wspomagają działania użytkowników przez opisywanie pojęć. Z punktu widzenia metadanych nie ma różnicy pomiędzy prostym słownikiem kontrolowanym a taksonomią. Metadane wiążą obiekty z pojęciami, natomiast taksonomie organizują te pojęcia w struktury hierarchiczne.

  • Tezaurusy. Podobnie jak w przypadku taksonomii, termin tezaurus również oznacza różne narzędzia, chociaż dowolność jest tu mniejsza, gdyż istnieją normy opisujące ich strukturę. Ogólnie mówiąc, tezaurus jest taksonomią, lepiej jednak opisującą rzeczywistość dzięki temu, że nie poprzestaje na układzie hierarchicznym pojęć, ale zawiera także inne relacje pomiędzy nimi. Dzięki temu daje znacznie większe możliwości wyszukiwawcze. Zastosowanie tezaurusa zamiast taksonomii pozwala na rozwiązanie wielu praktycznych problemów podczas indeksowania i wyszukiwania obiektów.

  • Klasyfikacje fasetowe. Za twórcę tej metody indeksowania i wyszukiwania informacji uważany jest S. R. Ranganathan, który opracował ją w latach 30. XX w. Terminy podzielone są na wiele tzw. faset. Fasety można uznać za różne aspekty, według których dokumenty mogą być indeksowane. Każda faseta zawiera wiele terminów. W obrębie faset terminy są opisywane w sposób podobny do tezaurusa. Zazwyczaj każdy z terminów może należeć tylko do jednej fasety. Indeksowanie obiektu polega na przydzielaniu mu terminów z każdej fasety, dzięki czemu jest on opisywany wieloaspektowo. Klasyfikacja Ranganathana zawierała pięć faset: Personality - główna faseta przedstawiająca główny temat dokumentu, Matter - materiał lub substancja, której dotyczy dokument, Energy - proces lub czynność opisywana przez dokument, Space - lokalizacje opisywane przez dokument, Time - okres czasu przedstawiony przez dokument.

    Klasyfikacja np. książki o polskiej architekturze wiejskiej w XVII w. może w uproszczeniu wyglądać tak: P - architektura, M - drewno, E - budownictwo, S - Polska, T - XVII w.

  • Ontologie. Termin ontologia stosowany jest w wielu różnych dziedzinach w różny sposób, a w zakresie informacji naukowej rozumiany jest jako model służący do opisywania świata (lub jego wybranych aspektów), zawierający zbiór obiektów, ich cech i relacji między nimi. Ogólnie oczekuje się także możliwie ścisłej odpowiedniości pomiędzy światem rzeczywistym a cechami modelu w ontologii.

    Dotychczas przedstawione narzędzia służące indeksowaniu informacji omawiane były w kolejności wzrastającego stopnia złożoności opisu. Ontologie stoją w tym wyliczeniu na najwyższym poziomie - w takim sensie, że wszystkie wymienione wcześniej narzędzia bazują na stałym, zamkniętym słowniku, natomiast ontologie stosują słowniki otwarte. W taksonomiach środki dla indeksowania dysponują zasadniczo jedną relacją - szerszy/węższy pozwalającą tworzyć hierarchie. Zbiór terminów jest otwarty, jednak język służący do tworzenia opisów jest zamknięty, gdyż zawiera tylko jedną zależność. Tezaurus oferuje dodatkowo relacje kojarzeniowe, synonimię i włączanie uwag pozwalających na lepszy opis terminów. Słownik również jest zamknięty. Tezaurus może być uznany za ontologię, w której istnieje jeden obiekt, termin, jedna cecha, uwagi i trzy relacje (hierarchiczna, synonimia i kojarzeniowa). W praktyce tezaurusy nie są uważane za ontologie, ponieważ mają one zbyt słabe możliwości opisu ze względu na ograniczony słownik. Klasyfikacja fasetowa nie wprowadza niczego nowego, żadnych nowych cech czy relacji, umożliwia jedynie lepsze uporządkowanie opisu. W przypadku ontologii twórca języka opisu rzeczowego ma możliwość dowolnego zdefiniowania tego języka. Ontologie stosowane w informacji naukowej wywodzą się ze sztucznej inteligencji, będąc mocno związane z logicznym wnioskowaniem i podobnymi technikami, a ostatnio coraz częściej stosowane są do wyszukiwania informacji. Jedną z ciekawszych technologii w tym zakresie są mapy tematów (Topic Map).

  • W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

    TOP 200