Maszyna streszcza teksty

Analizator tekstów - TextAnalyst - korzysta z wyrafinowanych algorytmów sieci neuronowych.

Analizator tekstów - TextAnalyst - korzysta z wyrafinowanych algorytmów sieci neuronowych.

Przetwarzanie ogromnych zasobów dokumentów, zgromadzonych przez instytucje międzynarodowe, placówki naukowe lub ustawodawcze, nie może opierać się tylko na pracy ludzkiej. Musi być wspomagane przez zaawansowane komputerowe systemy analizowania, wyszukiwania, abstrahowania koncepcji, streszczania itp. W większości współczesnych systemów wspomagania analiz tekstowych korzysta się z najprostszych mechanizmów wyszukiwania pełnotekstowego, wspomaganego przez ręczne określanie słów kluczowych lub zastosowanie streszczenia wykonanego przez autora. Jeżeli więc nie wiadomo, czego dotyczy dokument, nie da się tego dowiedzieć szybko, gdyż nie istnieją mechanizmy automatycznego tworzenia streszczeń, łączenia dokumentów w zestawy na podstawie ich "pokrewieństwa" treściowego ani klasyfikacji ważności dokumentów np. z poczty elektronicznej.

Tę lukę stara się wypełnić program TextAnalyst, opracowany przez naukowców rosyjskich, sprzedawany przez firmę Megaputer Intelligence.

Semantyczna analiza tekstów

Każda użyteczna analiza tekstów musi zaczynać się od stworzenia semantycznego (znaczeniowego) modelu analizowanego tekstu. Taki model zawiera znaczenie tekstu w formie zbioru koncepcji i powiązań między nimi. Model semantyczny stanowi podstawę do szczegółowej analizy tekstu. Pozwala na automatyczne (bez udziału człowieka) opracowanie streszczenia tekstu, tworzenie łatwej do nawigowania bazy wiedzy, łączenie dokumentów w zestawy, inteligentne przeszukiwanie składnicy tekstowej lub Internetu, tworzenie przyjaznego użytkownikowi narzędzia do przeglądania książek elektronicznych.

Efektywność systemów analizy tekstów zależy głównie od sprawności algorytmów do tworzenia modelu semantycznego tekstu. W większości komercyjnych systemów tekstowych model tekstu powstaje na bazie pewnego zestawu określonych z góry reguł, niezależnych od zawartości tekstu. Jednak z punktu widzenia użytkownika najkorzystniejsza jest możliwość w pełni automatycznego tworzenia modelu jedynie na bazie zawartości informacyjnej tekstu. Względna ważność wyabstrahowanych z tekstu koncepcji jest określana na podstawie połączeń z innymi w tekście.

Model semantyczny tekstu to wielopoziomowa struktura w przestrzeni wielowymiarowej. Każdy węzeł modelu wskazuje pewien fragment tekstu. Całość tekstu to pewna trajektoria w tej strukturze - kolejność węzłów modelu. Model semantyczny zawiera również liczbę powtórzeń każdego fragmentu tekstu. Powtórzony fragment oznacza powtórne przejście przez węzeł modelu.

Tworzenie modelu semantycznego tekstu

Moduł semantyczny TextAnalysta tworzy model tekstu na podstawie technologii sieci neuronowych. Wstępny model tekstu zawiera pojedyncze słowa i ich połączenia oraz częstotliwości ich występowania. Program znajduje również wspólne pojawienie się tych koncepcji we fragmentach tekstu (zdaniach, akapitach). Uwzględnia występowanie rdzeni słów, końcówek fleksyjnych i przedrostków, choć informacje o tym nie są dostępne użytkownikowi systemu.

Kolejne przybliżenie modelu jest tworzone z modelu wstępnego i zawiera tylko te słowa, które nie występują ani zbyt często, ani zbyt rzadko. Często występujące słowa "pospolite" (przyimki, rodzajniki) nie reprezentują istotnych koncepcji semantycznych.

Obecnie uwzględnia się semantyczną ważność znalezionych koncepcji przez nadanie większej wagi koncepcjom o małej częstotliwości występowania, ale połączonych z wieloma innymi. Tę część operacji realizuje się za pomocą sieci neuronowej Hopfielda - sieci jednowarstwowej, w której wszystkie neurony są połączone. Na wejście neuronów sieci wprowadza się poszczególne częstości występowania koncepcji. Jej uruchomienie spowoduje dostosowanie względnych częstości występowania, tak aby potencjał sieci osiągnął wartość minimalną.

Powstająca sieć modeluje wzgórza i doliny modelu semantycznego tekstu. Wzgórza odpowiadają grupom silnie powiązanych koncepcji o dużych wagach, doliny zaś - słabo powiązanym koncepcjom o małej wadze. Model podlega normalizacji, aby częstości występowania poszczególnych koncepcji określać w procentach.

Pakiet TextAnalyst

Pakiet analizy tekstowej TextAnalyst wykonuje automatycznie analizę wskazanego tekstu (może nim być plik tekstowy lub w formacie Worda) i w powiązanych okienkach programu wskazuje strukturę uzyskanego modelu semantycznego oraz względne częstości występowania poszczególnych koncepcji. W oddzielnym oknie są wyświetlane fragmenty tekstu, gdzie występują poszczególne koncepcje modelu oraz ich usytuowanie w tekście głównym.

Istnieje możliwość kontrolowania stopnia szczegółowości prezentacji i używania modelu (zwijania/rozwijania struktury). Model można zmieniać poprzez usunięcie koncepcji i połączenia, które użytkownik uzna za nieistotne.

Wybierając opcję tworzenia streszczenia, otrzymujemy abstrakt tekstu zgodny z modelem semantycznym i poziomem jego szczegółowości, ustawionym w oddzielnym oknie. Domniemana wartość ważności zdań, które wejdą do abstraktu tekstu, wynosi 90%. Wybranie większej wartości spowoduje automatyczne zmniejszenie objętości abstraktu. Gotowy abstrakt można skopiować do edytora tekstu w celu dalszego zredagowania.

Program pozwala również na indeksowanie (wskazywanie w tekście) stworzonych koncepcji, zgodnie z poziomem prezentacji modelu semantycznego.

Przeszukiwanie semantyczne

TextAnalyst pozwala na semantyczne przeszukiwanie tekstów. Różni się ono od przeszukiwania pełnotekstowego tym, że odbywa się jedynie wśród znalezionych koncepcji, zapisanych w modelu semantycznym. Unika się w ten sposób przypadkowości i informacji nieistotnych. Jest ono również znacznie szybsze i dokładniejsze niż zwykłe przeszukiwanie pełnotekstowe lub boolowskie.

Do przeszukiwania semantycznego można podać zapytanie w formie słowa kluczowego lub pełnego zdania w języku naturalnym. Program wskazuje tylko te części tekstu, które wiążą zapytanie z koncepcjami z modelu semantycznego. Ponadto przeszukiwanie semantyczne tworzy subdrzewo modelu semantycznego, związane z podanym zapytaniem. Nawigując po nim, można uściślić zapytanie i zawęzić odpowiedź.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200