Słownik frekwencyjny polszczyzny współczesnej

Mam przyjemność przedstawić czytelnikom CW pierwszy polski słownik przygotowany w techniką komputerową. Jest to Słownik frekwencyjny polszczyzny współczesnej, wydany - jak informuje karta tytułowa w roku 1990, a faktycznie - w czerwcu 1991

Mam przyjemność przedstawić czytelnikom CW pierwszy polski słownik przygotowany w

techniką komputerową. Jest to Słownik frekwencyjny polszczyzny współczesnej, wydany - jak informuje karta tytułowa w roku 1990, a faktycznie - w czerwcu 1991

Celem słownika jest informowanie o częstościach wyrazów w języku polskim. Należy on do typu słowników morfo-logiczno- leksykalnych, tzn, podaje informacje o częstościach zarówno wyrazów w sensie słownikowym (odpowiadających hasłom słownika), jak i ich form (zwanych technicznie słowoformami). Według zamierzeń autorów słownik winien reprezentować słownictwo ogólne, znane przeciętnemu Polakowi z wykształceniem średnim.

Słownik został opracowany na podstawie korpusu, obejmującego 500 000 .słów (w .sensie graficznym). Korpus ten składa się z pięciu równych części, z których każda -odpowiadająca jednemu z typowych stylów współczesnej polszczyzny pisanej - została najpierw zanalizowana oddzielnie. Wyróżniono pięć stylów funkcjonalnych: styl popularnonaukowy, styl wiadomoś-

ci prasowych, styl publicystyczny, styl prozy artystycznej, styl dramatu artystycznego. Teksty wchodzące w skład próby poddanej badaniom zostały dobrane metoda, losowania z większej grupy tekstów, uznanych za typowe dla danego stylu. Wszystkie badane teksty pochodziły z lat 1963- -1967.

Aby uzyskać jak najbardziej neutralną próbę tekstów (zminimalizować wpływy ich tematyki oraz indywidualnych cech stylu autorów), zdecydowano przyjąć schemat próby oparty na bardzo licznym kanonie możliwie wielu tekstów. Za podstawowy odcinek tekstu poddany badaniu uznano fragment ciągłego tekstu o długości ok. 50 słów (dokładnie, 50 słów oraz słowa dalsze do końca zdania).

Jednostką wyjściową w badaniach jest były słowa, identyfikowane na czysto zewnętrznej podstawie: składu literowego. Chęć uzyskania danych istotnych z punktu widzenia językoznawczego spowodowała jednak, że tekst wprowadzany do komputera i podda wany obróbce miał nieco inną postać. Chodziło tu o rozróżnienie tzw. homonimów, tj. rozbicie tekstowych słów homonimicznych na odpowiednią liczbę jednostek głębszych, mających różny sens, lecz występujących fizycznie w takiej samej postaci. Jako różne jednostki należało więc, zgodnie z ogólną praktyką, potraktować na przykład jednostki językowe reprezentowane przez słowo lata w zdaniach:

(1) Flaszek łatapo ulicy.

(2) Od zdarzeń tych minęły długie lata.

W zdaniu (1) lata to oczywiście forma czasownika, a w zdaniu (2) - forma rzeczownika, ich znaczenie jest w sposób oczywisty całkiem różne. Aby przeprowadzać obliczenia interesujące z punktu widzenia języka polskiego, obie te jednostki należy więc rozróżnić. W słowniku frekwencyjnym osiągnięto to, dopisując do każdego z tych słów rozróżniające symbole gramatyczne: uzyskano w ten sposób dwie słowoformy (należące do różnych haseł), reprezentowane w zwykłym tekście polskim przez to samo słowo la ta. Właśnie słowoformy były dla autorów słownika przedmiotem operacji i obliczeń. Aby uzyskać jednoznaczną reprezentację słowo-form w pamięci maszyny, takich operacji, jak pokazana wyżej, trzeba było przeprowadzić bardzo wiele. Są szczegółowo o-tnówione w obszernym wstępie do słownika. Materiał dobrany do słownika został po opracowaniu pełnej statystyki poddany dodatkowej selekcji. Usunięto zeń jednostki, które trudno było zaliczyć do polskiego zasobu słownikowego nazwy własne, skróty oraz wtręty i

Cytaty obce (przy wpisywaniu materiału do maszyny były one oznaczane specjalnymi symbolami odróżniającymi) Zgodnie z powszechną opinią autorzy uznali ten materiał za mało charakterystyczny dla języka traktowanego jako system (w materiale hasła takie, jak np. Gomułka albo DRW, miały frekwencję na tyle dużą, że mogłyby się znaleźć w tomie zbiorczym).

Do słownika w postaci drukowanej zostały włączone tylko te hasła, których frekwencja w całej próbie jest nie niższa niż 4. Hasła o frekwencji niższej zostały pominięte.

W skład słownika wchodzą cztery listy - lista główna oraz trzy listy rangowe: według wskaźnika F (częstość absolutna), wskaźnika U (częstość względna) oraz wskaźnika D (wskaźnik równomierności rozkładu w stylach). Pierwszy powstaje przez zwykłe zsumowanie liczby wystąpień poszczególnych jednostek wprowadzonych do słownika; dwa pozostałe wylicza się na podstawie prostych wzorów.

Wszystkie cztery listy zawierają ten sam materiał; zasadnicza różnica między listą główną (alfabetyczną) a listami rangowymi jest taka, że lista główna podaje dane dotyczące zarówno haseł, jak i ich słowo-form, podczas gdy listy rangowe ograniczają się do informacji na temat haseł.

Przyjrzyjmy się informacji podanej na liście głównej.

Artykuł hasłowy składa się z szeregu wierszy (por. przykład: sąd). W pierwszym wierszu podana jest nazwa hasła, w drugim - dane dotyczące hasła w całości, w następnych - dane dotyczące poszczególnych słowoform.

Poczynając od wiersza drugiego, artykuł hasłowy podzielony jest na siedem kolumn. W ostatniej kolumnie wiersza trzeciego i dalszych wypisane są Słowoformy, które wystąpi-, ły w materiale. W pięciu pierwszych kolumnach występują, dane liczbowe wskazujące liczbę wystąpień badanego elementu (dla wiersza drugiego - hasła, dla dalszych wierszy - słowoformy, którym poświęcony jest ten wiersz) w pięciu stylach objętych słownikiem; w szóstej kolumnie - dane liczbowe wskazujące łączną liczbę wystąpień tego elementu we wszystkich stylach. Tak więc liczba podana w drugim wierszu stanowi sumę liczb podanych w danym artykule hasłowym pod nią w tej samej kolumnie, liczba podana w szóstej kolumnie - sumę liczb podanych w danym artykule hasłowym przed nią w tym samym wierszu. Liczba podana w drugim wierszu w szóstej kolumnie określa wartość wskaźnika F dla danego hasła.

Na siódmym miejscu w wierszu drugim artykułu hasłowego podane są trzy liczby. Pierwsza określa wartość wskaźnika D dla danego hasła, druga -wartość wskaźnika U dla tego hasła. Liczba trzecia, przytoczona w nawiasie, podaje informację dodatkową: liczbę wystąpień danego hasła w tekstach polszczyzny mówionej (według badań H. Zgółkowej).

Zwróćmy uwagę na to, że nawet w obrębie jednego hasła zachodziła potrzeba wyróżnienia jednostek homonimicznych: np. słowu sądy odpowiadają dwie słowoformy: mianownikowa i biernikowa (obie: liczby mnogiej).

Wszystkie trzy listy rangowe zbudowane są na jednej zasadzie. Różnią się one tym, ze względu na jaki wskaźnik uporządkowane są zamieszczone w nich hasła: F (częstość absolutna), U (częstość względna) i D (wskaźnik równomierności rozkładu w stylach). Warto przytoczyć tu początek listy rangowej według wskaźnika F:

Lista ta może być punktem wyjścia do opracowania dla ję

zyka polskiego tzw. listy stop (tj. listy słów pomijanych automatycznie przy maszynowym indeksowaniu dokumentów). W odróżnieniu od analogicznej listy dla języka angielskiego elementy uwzględnione w naszym słowniku nie mogą być traktowane jako elementy tekstowe. Już na trzecim miejscu zjawia się na niej czasownik być, który w tekście występuje w wielu formach (np. być, był, jest, są, będzie). Notabene nawet pierwszemu hasłu tej listy odpowiada w tekstach polskich więcej niż jedno słowo (przyimek w przed zbiegami spółgłosek przybiera postać we).

Na listach w dziele opublikowanym w formie książkowej znalazło się 10 355 haseł spo- śród 38 469 znajdujących się na liście zbiorczej, opracowanej na podstawie korpusu wyjściowego.

2 przedmowy do dzieła wynika, że jego przygotowanie było nie tylko przedsięwzięciem żmudnym i pracochłonnym, lecz również napotykało na duże przeszkody zewnętrzne, przede wszystkim zaś było bardzo długie. Ma to zresztą negatywne skutki, jeśli idzie o reprezentatywność materiału: w roku 1991 ukazało się opracowanie materiału językowego z lat 1963— 1967.

Prace rozpoczęto bowiem w roku 1967, od razu zakładając, że słownik w całości zostanie opracowany metodami komputerowymi. Autorem koncepcji opracowania maszynowego był prof. Jerzy Woronczak z Wrocławia. W ciągu kilku lat wprowadzono do maszyny ODRA 1204 materiał, wykonano obliczenia dla poszczególnych stylów, pogrupowano słowoformy w hasła. W latach 1974-77 wydano (w postaci powielonych wydruków) tomy poświęcone pięciu stylom. Prace maszynowe prowadzono wówczas zasadniczo na Uniwersytecie Wrocławskim.

Potem nastąpił kilkuletni zastój, którego przyczynę autorzy upatrują w dysproporcji między rozwojem techniki komputerowej i możliwościami jej opanowania przez konkretny zespół roboczy. Teoretycznie możliwe przeniesienie materiału na fotoskład okazało się nie do zrealizowania w praktyce.

W roku 1985 prace przeniosły się na Uniwersytet Warszawski. Wykonania wszystkich koniecznych prac komputerowych, które jeszcze pozostały, podjął się Krzysztof Szafran. Prace te polegały na przeniesieniu materiałów poszczególnych stylów na współczesne

nośniki informacji (dane przechowywano bowiem na papierowych taśmach perforowanych), udostępnieniu ich na aktualnie używanych komputerach, scaleniu list głównych, wyliczeniu i dodaniu parametrów liczbowych oraz na opracowaniu ostatecznej postaci listy głównej i sporządzeniu list rangowych.

Pod względem edytorskim tom (ostatecznie podzielony na dwa woluminy) opracował również Krzysztof Szafran, posługując się pakietem programów edytorskich \TeX -przy współpracy Janusza Bie-nia i Hanny Kołodziejskiej. Obowiązków redaktora podjął się niżej podpisany.

Warto może z tego względu podzielić się z czytelnikami, wśród których też są może potencjalni wydawcy-amatorzy, kilkoma obserwacjami technicznymi.

Dzieło zostało wydrukowane w Drukarni Uniwersytetu Jagiellońskiego. Do jej zadań należała reprodukcja fotograficzna dostarczonej podstawy oraz czynności introligatorskie. Dobre wrażenie na temat

ich jakości psuje to, że na grzbiecie dwu woluminów słownika tytuł został podany w przeciwnych kierunkach (bo to, że w moim egzemplarzu jeden arkusz jest wszyty od tyłu i do góry nogami, to błąd indywidualny). Natomiast dlaczego w drukarni przeklejono numery stron z ich dolnej części na górną, trudno dociec - chyba że pamięta się o przywileju wykonawcy do obliczenia swej należności za faktycznie wykonane czynności.

Dla przeciwwagi dodajmy jeszcze trzy samokrytyczne uwagi redaktora:

1. Na stronie li wstępu znalazł się następujące przypis: "Dla porządku odnotujmy, że przy przytaczaniu danych w naszym słowniku przyjęliśmy konwencję nie stosowany na ogół w drukach 'polskich: część ułamkowa liczby .jest mianowicie oddzielana, od części całkowitej za pomocą kropki, a nie przecinka." Oczywiście, program robił sam, a my wszystkie czynności redakcyjne nad dziełem wykonywaliśmy, nie zauważając, że to nie

jest polski standard, który powinien być przyjęty w polskiej książce.

2. Podobnie przedmowa ma numerację w postaci liter rzymskich małych, a nie wielkich, jak jest przyjęte w tekstach polskich.

3. Bardzo nieprzyjemne jest znalezienie we wstępie do poważnej i ambitnej książki (s. 1) takiej uwagi: "(dla każdego stylu liczba ta została otrzyma-na[przez zsumowanie liczby wystąpień słowoform, wchodzących w skład hasła)", w której brak jest tekstu ujętego w nawias kwadratowy. Tak jak i w składzie tradycyjnym: wprowadzanie korekty staje się okazją do nowych błędów.

I takie niespodzianki przygotowuje redaktorowi praca nad książką.

Ale nie wyolbrzymiajmy ich. Bo może być ona źródłem satysfakcji. A dodatkowym efektem przyjętego trybu pracy jest to, że zarówno cały słownik, jak i niektóre materiały pomocnicze i dodatkowe są zakodowane na nośniku maszynowym i mogą stanowić podstawę do dalszych badań

nad językiem polskim prowa dzonych metodami kompute rowymi.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200