Żeby komputer rozumiał słowa

Do wyszukiwania informacji wykorzystuje się metody automatycznego przetwarzania języka naturalnego. Do zrozumienia tekstu wciąż potrzebna jest wiedza człowieka.

Żeby komputer rozumiał słowa

Gwałtownie rosnące ilości informacji wytwarzanych w firmach zmuszają do coraz większego zainteresowania specjalizowanymi rozwiązaniami wyszukiwawczymi klasy enterprise search. Tym bardziej że ok. 80% zgromadzonych w firmowych zasobach informacji ma charakter nieustrukturyzowany. Na dodatek, jak szacują eksperci, 38% czasu pracy menedżerów średniego szczebla zajmuje poszukiwanie informacji. Wiążą się z tym duże koszty dla firmy. Jeżeli można by było usprawnić proces dostępu do informacji, oszczędności byłyby znaczące. "Dlatego tak ważne jest zapewnienie pełnej gamy powiązanych z sobą rozwiązań służących poprawie skuteczności wyszukiwania informacji w zasobach firmowych" - tłumaczył Andrzej Miciałkiewicz z firmy Findwise podczas zorganizowanego staraniem Sekcji Terminologicznej Polskiego Towarzystwa Informatycznego seminarium "Lingwistyka w technologiach wyszukujących, czyli o szybkim docieraniu do informacji i wiedzy".

Firmowe środowisko wyszukiwawcze (findability solutions) musi zapewniać możliwość dotarcia do każdej potrzebnej informacji, niezależnie od tego, gdzie ona się akurat znajduje, bez względu na to, z jakiego źródła pochodzi czy w jakim systemie jest obecnie przechowywana. "Użytkownik nie musi wiedzieć, skąd daną informację trzeba wziąć. Powinien dostać odpowiednio przygotowane narzędzie wyszukiwawcze, które znajdzie za niego odpowiednie dokumenty zawierające pożądaną informację" - uważa Andrzej Miciałkiewicz.

Żeby taki mechanizm wyszukiwawczy dobrze zadziałał, informacje w źródłowych zasobach muszą być odpowiednio uporządkowane - właściwie sklasyfikowane, zaindeksowane czy otagowane. Można to robić "ręcznie", polegając na ludzkiej wiedzy, ocenie zawartości dokumentu czy umiejętnościach katalogowania zbiorów. Można też posłużyć się rozwiązaniami wykonującymi to zadanie w sposób automatyczny. Korzystają one w coraz większym stopniu z osiągnięć analizy semantycznej czy analizy lingwistycznej. "Tagowanie jest potrzebne do właściwego zaklasyfikowania informacji, ale same tagi nie wystarczą do skutecznego wyszukiwania informacji. Wynika to m.in. z tego, że każda osoba dokonuje klasyfikacji z własnego punktu widzenia. Ile osób, tyle właściwie różnych sposobów klasyfikowania informacji i przypisywania im różnych, wybieranych na podstawie indywidualnego punktu odniesienia, tagów" - przekonuje Andrzej Miciałkiewicz. Można powiedzieć, że w wielu przypadkach tagowanie może wręcz ukrywać poszukiwaną informację. Dlatego dla polepszenia wyników wyszukiwania warto uzupełnić tagowanie o analizę semantyczną czy szerzej rozumianą analizą lingwistyczną. W eksperymencie przeprowadzonym przez firmę Findwise wyszukiwarka bazująca na samym tagowaniu dawała o ok. połowę mniej trafnych rezultatów niż wyszukiwarka korzystająca z analizy semantycznej języka.

Na wielu poziomach

Poziom semantyczny jest jednym z wielu, które bierze się pod uwagę przy przetwarzaniu języka naturalnego (NLP - Natural Language Processing) lub w ramach lingwistyki komputerowej (CL - Computational Linguistics). "Określenie znaczenia słów nie jest proste, wymaga uwzględnienia wielu poziomów - począwszy od warstwy morfologicznej, przez syntaktykę i semantykę, aż po pragmatykę" - zwraca uwagę Piotr W. Fuglewicz, założyciel i prezes firmy TiP. Celem tych zabiegów jest, ogólnie rzecz biorąc, umożliwienie używania języka, którym posługuje się człowiek, jako "medium wejścia i wyjścia w dialogu z maszyną".

Początki prac dotyczących przetwarzania języka naturalnego sięgają lat 40. i 50. XX wieku. To wtedy powstały pierwsze prace na temat automatów, pierwsze języki formalne, modelowanie probabilistyczne i teoria informacji, pierwsze systemy mowy i tłumaczenia automatycznego (realizowanego na komputerach o mocy słabszej od dzisiejszego kalkulatora). "Dzisiaj duży wpływ na rozwój NLP ma ogromny wzrost zasobów w internecie" - podkreśla Piotr W. Fuglewicz. Służy mu również dostępność bardziej wydajnych maszyn, coraz lepsze metody modelowania statystycznego, użycie algorytmów uczących się czy też doświadczenia wynikające z powszechnego używania wyszukiwarki Google. Dużo wciąż jest jednak jeszcze do zrobienia. Nie udało się osiągnąć wielu zapowiadanych na początku celów czy oczekiwanych rezultatów. Niespełnioną nadzieją są wciąż technologie maszynowego tłumaczenia tekstu na odpowiednim poziomie.

Jest też jednak już sporo obszarów, w których techniki przetwarzania języka naturalnego radzą już sobie całkiem dobrze. Do tych zastosowań Piotr W. Fuglewicz zalicza: wykrywanie spamu, kategoryzację tekstu (ustalenie, jakiej dziedziny dotyczy treść dokumentu), wykrywanie części mowy, określanie nazw własnych, ekstrakcję informacji (np. automatyczne zapisanie w kalendarzu daty i miejsca imprezy na notki w internecie). Duże postępy widać w zakresie: oceny nastawienia (SA - Sentiment Analysis) czy opinii na temat konkretnych produktów, marek i osób, ujednoznaczniania treści, analizy składniowej, tłumaczenia maszynowego. "Ciągle jeszcze mamy problemy z wyszukiwaniem semantycznym, odpowiadaniem na pytania, wydobywaniem wiedzy, robieniem streszczeń i tworzeniem systemów dialogowych" - wylicza Piotr W. Fuglewicz, kierujący firmą TiP.

Dotychczasowe wyniki prac w zakresie przetwarzania języka naturalnego pokazują, że wcale nie jest tak łatwo zaimplementować reguły lingwistyki do systemów informatycznych, jak twierdzą niektórzy dostawcy narzędzi informatycznych. "Rozumienie tekstu opiera się na posiadanej przez nas wiedzy o świecie, którego tekst dotyczy. Dzięki tej wiedzy podświadomie odrzucamy zdania znaczeniowo niepoprawne bądź mało prawdopodobne, wybierając znaczenia, które autor mógł mieć na myśli" - podkreśla Piotr W. Fuglewicz. Tej umiejętności brakuje komputerowi. Z drugiej strony, jak zauważyli uczestnicy seminarium w trakcie dyskusji, ta przynależna człowiekowi umiejętność rozumienia i interpretacji tekstu może służyć przezwyciężaniu ograniczeń współczesnych technologii. Jest to widoczne np. w zmianie oczekiwań pod adresem tłumaczeń maszynowych. Do celów praktycznych nie jest potrzebne dokładne, literackie tłumaczenie tekstu. W większości przypadków wystarczą już obecne, nawet te ułomne efekty działania automatycznego tłumacza, by móc zrozumieć sens tłumaczonego dokumentu i móc wydać opinię o jego zawartości. Niedoskonałości technologii są nadrabiane przez zdolności ludzkiego umysłu do kontekstowego odczytywania treści.

System korpusem stoi

Dla zbudowania komputerowego systemu przetwarzania języka naturalnego potrzebny jest tzw. korpus. Stanowi go, zapisany w formie elektronicznej, zbiór tekstów reprezentatywnych dla danego języka. Ma on charakter statyczny, jest rodzajem fotografii języka w danym momencie. Jest zbiorem tekstów, w którym szukamy typowych użyć słów i konstrukcji językowych oraz innych informacji o ich znaczeniu i funkcji.

Korpus służy do trenowania systemu. Może być niezrównoważony, czyli obejmować teksty dotyczące jedynie wybranej tematyki, lub zrównoważony - reprezentatywny dla całego języka naturalnego. W bardziej rozwiniętej postaci jest anotowany - zawiera metadane, zwłaszcza interpretacje morfosyntaktyczne (części mowy) i/lub informacje o rozbiorze zdania.

Pierwszy korpus dla języka angielskiego, tzw. Brown Corpus (The Brown University Standard Corpus of Present-Day American English), powstał w latach 60.

XX wieku. Obecnie Anglicy mają też do dyspozycji British National Corpus. Korpusy swoich języków mają także Niemcy, Czesi i Rosjanie.

U nas powstał Narodowy Korpus Języka Polskiego (nkjp.pl). Było to wspólne przedsięwzięcie Instytutu Podstaw Informatyki PAN (koordynator projektu), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego. Został zrealizowany jako projekt badawczo-rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego. Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, lecz także prasę codzienną i specjalistyczną, nagrania rozmów, jak również teksty ulotne i treści internetowe. (ag) 

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200