Powstaje internetowy skarbiec polszczyzny

Trwa projekt Narodowy Korpus Języka Polskiego, którego celem jest stworzenie internetowego skarbca polszczyzny.

Trwa projekt Narodowy Korpus Języka Polskiego, którego celem jest stworzenie internetowego skarbca polszczyzny.

Wspierając inicjatywę IDG Poland - wydawca m.in. tygodnika Computerworld - wyraziło zgodę na włączenie do korpusu tekstów przez nie wydanych.

Korpus językowy ma być zbiorem tekstów, w którym można wyszukiwać typowych użyć słów i konstrukcji oraz innych informacji o ich znaczeniu i funkcji. Ma być pomocny zarówno dla naukowców i badaczy literatury oraz języka, jak i informatyków i tłumaczy. Jak podkreślają twórcy korpusu, bez niego nie da się prowadzić badań językoznawczych, pisać słowników ani podręczników języków obcych, tworzyć wyszukiwarek uwzględniających polską odmianę, tłumaczy komputerowych ani innych programów zaawansowanej technologii językowej.

Korpus polszczyzny, który ma być niebawem udostępniony do użytku, będzie zawierał kilkaset milionów słów, które można będzie przeszukiwać zaawansowanymi narzędziami uwzględniającymi odmianę polskich wyrazów, a nawet analizującymi budowę polskich zdań.

Co ważne, w trosce o reprezentatywność i różnorodność słownictwa twórcy zadbali by lista źródeł korpusu zawierała nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Wspierając inicjatywę IDG Poland - wydawca m.in. tygodnika Computerworld - wyraziło zgodę na włączenie do korpusu tekstów przez nie wydanych.

Narodowy Korpus Języka Polskiego jest wspólną inicjatywą Instytutu Podstaw Informatyki PAN, który koordynuje projekt, Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakład Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zarejestrowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200