Do klasyfikacji i wyszukiwania

W tzw. architekturze informacji stosowanych jest obecnie także wiele innych, nowych technik indeksowania. Jedną z nich jest kategoryzacja, wykorzystywana często do grupowania obiektów ze stron WWW . Kategorie są terminami ze słownika kontrolowanego. Może to być prosta lista lub taksonomia. Inną, często używaną techniką jest pierścień synonimów (synonym ring), który pozwala na łączenie ze sobą terminów ekwiwalentnych z punktu widzenia potrzeb wyszukiwawczych. Pierścień synonimów wyraża relację synonimii między terminami, przez co podobny jest do relacji synonimii w tezaurusach, z wyjątkiem tego, że nie wskazuje się tu terminu preferowanego.

Pierścienie synonimów znajdują raczej specjalne zastosowania, najbardziej przydatna jest możliwość wykazania zestawów terminów synonimicznych (tzn. nazywających to samo pojęcie). Nazwa "pierścień synonimów" wskazuje na fakt, że w obrębie pierścienia każdy termin jest synonimiczny do każdego innego w tym pierścieniu; relacja taka nazywana jest klasą ekwiwalencji. Kartoteka autorytarna podobna jest w pewnym zakresie do pierścienia synonimów, z tą różnicą, że jeden z synonimów jest wybrany jako preferowany (tak jak w tezaurusie).

Informacja z automatu

Tym, co wyróżnia dzisiaj wykorzystanie wymienionych narzędzi wyszukiwawczych od ich wcześniejszego zastosowania, jest coraz większa automatyzacja procesów klasyfikacji. To co kiedyś było zadaniem człowieka, dzisiaj w coraz większym zakresie jest możliwe do wykonania przez specjalne programy komputerowe. Rosnące zasoby informacyjne wymuszają automatyzację, a coraz doskonalsze rozwiązania techniczne ją umożliwiają. Oprogramowanie zwiększające jakość funkcjonowania wyszukiwarek, wspomagające architekturę tekstu, tworzenie ontologii, abstraktowanie, indeksowanie treści i konstrukcję taksonomii ma wielki wpływ na zmniejszenie obciążenia inżynierów wiedzy prostymi, rutynowymi czynnościami.

Istnieje wiele sposobów rozwiązywania problemu automatycznego lub częściowo automatycznego tworzenia narzędzi wyszukiwawczych i automatyzacji klasyfikacji. W wielu zastosowaniach sposoby te mogą być w różny sposób łączone. Najczęściej stosowane technologie obejmują:

  • Zastosowanie reguł. Jest to sposób najprostszy i najłatwiejszy do skontrolowania przez użytkownika. Polega na tworzeniu i modyfikacji przez ekspertów zestawu reguł dla dokumentów, które mają być zaindeksowane do dowolnej kategorii. Eksperci definiują reguły typu "jeżeli-to" mogące wspomagać skomplikowane operacje i procesy decyzyjne. W systemach opartych na wnioskowaniu tego typu można precyzyjnie zdefiniować kryteria, według których dokument jest indeksowany. Reguły pozwalają na określenie stopnia, w jakim dany dokument spełnia kryteria przynależności do określonego tematu. Oprócz treści dokumentów reguły mogą także dotyczyć metadanych, a nawet polityki biznesowej. Na przykład reguły mogą określać, że do danej kategorii mogą należeć tylko dokumenty w formacie PDF utworzone po styczniu 2005 r.

  • Analiza statystyczna. Ta technologia dotyczy zarówno tworzenia narzędzi wyszukiwawczych, jak i indeksowania treści dokumentów. Metoda polega na pomiarze częstotliwości występowania słów, ich rozmieszczenia i grupowania, a także odległości pomiędzy słowami w dokumencie. Zazwyczaj analiza statystyczna stosowana do budowy narzędzi wyszukiwawczych wymaga pewnego rodzaju wstępnych prób. Mogą one mieć formę podstawowej taksonomii, stworzonej przez eksperta. Ręcznie identyfikowane są podzestawy dokumentów, które przedstawiane są oprogramowaniu jako "przykłady" dla danego tematu lub węzła narzędzia wyszukiwawczego. Analizowane są przykładowe treści, na podstawie których doskonalone są narzędzia oraz tworzone zasady indeksowania. Zasady te wykorzystywane są następnie do automatycznej analizy nowych dokumentów i ich indeksowania.

  • Rachunek prawdopodobieństwa Bayesa. Stosując teorię Bayesa, wykorzystuje się analizę pojęciową przez badanie prawdopodobieństwa występowania terminów powiązanych relacjami w danej kategorii. Odpowiedni algorytm sortuje dokumenty na podstawie badania elektronicznych wzorców znajdujących się w tekście lub ich treści. Jest to jedna z metod częściej stosowanych do tworzenia kategorii i struktur narzędzi wyszukiwawczych. Przykładem zastosowania teorii Bayesa może być dokument zawierający słowa "jabłka" i "pomarańcze". Na tej podstawie można wnioskować, że bardzo prawdopodobne jest, iż dokument dotyczy owoców, co może doprowadzić nas do założenia, że występują w nim terminy oznaczające inne nazwy owoców, takie jak "grejpfruty" lub "mandarynki".

  • Sieci neuronowe. Tworzą one sieć węzłów obliczeniowych. Węzły te pozwalają na odkrycie i porównanie podobieństwa tematów dokumentów. Sieci neuronowe wykorzystują sztuczną inteligencję w celu tworzenia systemu wzajemnych powiązań elementów przetwarzanych, z których każdy posiada ograniczoną ilość wejść i wyjść. Systemy te, zamiast działać na podstawie niezmiennego oprogramowania, uczą się rozpoznawania wzorców. Sieci neuronowe są techniką przetwarzania informacji opartą na sposobie, w jaki informacja jest przetwarzana w biologicznych systemach nerwowych, takich jak mózg. Składają się one z wielkiej ilości elementów przetwarzających dane, silnie ze sobą powiązanych.

  • Grupowanie semantyczne i lingwistyczne. Ułatwia ono zarówno tworzenie narzędzi wyszukiwawczych, jak i indeksowanie treści. Dokumenty są grupowane w zależności od znaczenia terminów przy użyciu tezaurusów, słowników (np. słowników skrótów), analizy mowy, gramatyki probabilistycznej, rozpoznawania idiomów i łańcuchów czasowników oraz identyfikatorów fraz rzeczownikowych. Odpowiednie oprogramowanie dokonuje także analizy struktury zdań, identyfikując podmiot, orzeczenie i dopełnienia. W celu określenia znaczenia zdań stosowana jest analiza struktury zdań. Do lingwistycznego lub semantycznego grupowania przydatna jest też technika obcinania słów do ich rdzeni. Grupowanie (clustering) jest techniką podziału dokumentów/słów na podzbiory podobnych dokumentów/słów na podstawie identyfikacji wspólnych elementów występujących w dokumentach/słowach.

    Żadna z przedstawionych metod nie dominuje w zakresie wszystkich zastosowań. Wręcz przeciwnie - istnieje silny trend do łączenia różnych metod indeksowania zbioru dokumentów w celu zwiększenia trafności i relewancji grupowania. Każdy ze sposobów, jak również ich kombinacje mają swoje plusy i minusy, a ich stosowanie zależy od wymagań stawianych w trakcie projektowania i późniejszego stosowania systemu zarządzania informacją. Najważniejsze, aby określić, w jaki sposób różnice te wpływają na funkcjonowanie narzędzi wyszukiwawczych w środowisku konkretnego systemu.

    Użycie odpowiednich języków informacyjnych i narzędzi wyszukiwawczych, a nie tylko zastosowanie wybranych narzędzi informatycznych, umożliwia stworzenie spójnej, jednorodnej, zintegrowanej architektury informacyjnej pozwalającej na zaspokajanie różnych potrzeb informacyjnych różnych użytkowników systemu.


  • TOP 200