Wyszukiwarka Nekst uporządkuje polski internet

Szacuje się, że w polskim internecie zgromadzonych jest ok. 1 mld polskojęzycznych dokumentów. Dane porządkują i analizują twórcy semantycznej wyszukiwarki internetowej Nekst. System ma pozwolić precyzyjniej przeszukiwać polskie teksty.

Nad wyszukiwarką pracuje zespół z Instytutu Podstaw Informatyki PAN w Warszawie, a także z Politechniki Wrocławskiej. „Nawet Google czy Yahoo!, przy całej swojej potędze, nie mają zebranego całego polskiego Internetu” – mówi kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Według jego szacunków, wyszukiwarki te gromadzą tylko co piąty dokument napisany po polsku. Do tej pory twórcom polskiej wyszukiwarki udało się zgromadzić 160 mln polskojęzycznych dokumentów, co stanowi ok. 16% polskiego internetu.

Nekst będzie pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka. Nie będzie wyszukiwała na stronie jedynie ciągu znaków, ale analizować gromadzone teksty pod kątem najczęściej pojawiających się w nich istotnych słów i wyrażeń wielosłownych. Dzięki temu wyszukiwarka może „wywnioskować”, o czym jest dany tekst i jak skutecznie go zaklasyfikować.

Pytania zadawane wyszukiwarce mogą być zadawane w języku naturalnym, a więc będą bardziej podobne do pytań zadawanych człowiekowi. Jej twórcy chcą, by Nekst podawała nie tylko linki do stron, ale również wskazywała interesujący fragment strony.

Naukowcy pracują, by system potrafił analizować wydźwięk emocjonalny wypowiedzi. Mechanizm będzie umiał rozpoznać, czy o danym zjawisku, firmie czy osobie pisze się w pozytywny, czy w negatywny sposób. Uczestnicy projektu chcą też, by ich system usprawnił wykrywanie plagiatów. Nekst rozpozna plagiat nawet, jeśli zamieniony będzie szyk zdania, dodane zostaną dodatkowe wyrazy, a niektóre słowa zastąpione synonimami.

Projekt „Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych”, którego wartość to niemal 15 mln zł, finansowany jest z Programu Operacyjnego Innowacyjna Gospodarka.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200