Jubileusz, czyli cios na korpus

Drodzy Czytelnicy, aniśmy się obejrzeli, a tu już czterechsetny felieton w ciągu ośmiu lat. Wprawdzie do podwójnie okrągłego jubileuszu jeszcze dwa lata jak dla brata oraz setka tekstów, ale myślę, że już teraz mogę świętować z dumnie podniesionym czołem.

Drodzy Czytelnicy, aniśmy się obejrzeli, a tu już czterechsetny felieton w ciągu ośmiu lat. Wprawdzie do podwójnie okrągłego jubileuszu jeszcze dwa lata jak dla brata oraz setka tekstów, ale myślę, że już teraz mogę świętować z dumnie podniesionym czołem.

Na pewno nie w tonacji żałosno-pretensjonalnej, jak się to przydarzyło pewnemu felietoniście tygodnika Polityka (http://polityka.onet.pl/artykul.asp?M=FS&NR=2402-2003-21 ), bo moje układy z Computerworldem uważam za wzorcowe: ja piszę, redakcja drukuje. Tak trzymać! Ale jakoś przecież trzeba uczcić tak wspaniałą cyfrę, jak mawiają humaniści. Właśnie humaniści, którzy w epoce przedkomputerowej mogli sobie pozwalać na wiele, bo tam, gdzie nie ma metryki, to szaleją demony. Na szczęście, umysły ściśnięte komputery wymyśliły i mogę wszystkich Państwa poczęstować jubileuszową statystyką.

Zgodnie z zamówieniem redakcji jeden felieton ma mieć ponad 3000 znaków, ale nie więcej niż 4000. Wszystko zależy jednak od sposobu liczenia. MS Word, w którym obecnie piszę teksty, pozwala rozróżnić prawdziwe znaki od spacji. Typowy felieton, np. poprzedni numer 399, ma 563 słowa, 3127 znaków literowych oraz 3684 wszystkich, łącznie ze spacjami. Używając jednostek miar bliższych sercu komputerowca, powiem, że średni felieton ma nieco mniej niż 4 KB. Całe moje archiwum CW to ledwie jakieś półtora megabajta, lekko zmieściłoby się na dyskietce, gdybym jej jeszcze używał. Aby wypełnić współczesny nośnik, jakim jest CD-R (ca 650 MB), musiałbym pisywać felietony codziennie przez 445 lat, nawet jeśli w rachunkach przyjmę oszukany megabajt o wielkości tysiąca kilobajtów (uwaga dla humanistów, którym udało się dobrnąć do tego miejsca: w języku komputerowym "kilo" to 1024 = 2^10, zaś "mega" to 1 048 576 = 2^20, daszek oznacza podnoszenie do potęgi). Jeśli uda mi się dotrwać na posterunku do emerytury, czyli będę nudził Państwa jeszcze kilkanaście lat, powiedzmy do numeru tysięcznego, to w sumie nie napiszę więcej niż jakieś trzy i pół miliona znaków - obecny milion z ogonkiem nie jest tu też żadnym specjalnym osiągnięciem. Tak mi się wydawało do momentu, gdy zainteresowałem się korpusem. Nie, nie dowodem zbrodni ani też nie dyplomatycznym, tylko Korpusem Języka Polskiego (http://korpus.pwn.pl ).

Redakcja Rzeczpospolitej od jakiegoś czasu prowadzi ranking słów modnych, a być może nadużywanych, podając cotygodniowe notowania, jak na giełdzie (http://www.rzeczpospolita.pl/tematy/pwn/rzplus.html ). To tam znalazłem informację o KJP i natychmiast zdałem sobie sprawę, że moich czterysta felietonów może być ciekawym materiałem porównawczym dla nowoczesnych humanistów, którym komputer nie jest obcy. Zaoferowałem mój towar i został on przyjęty, choć nie bez zgrzytów, bo nawet w Polsce nie da się już nic załatwić bez prawników. Okazało się, że aby panowie Rafał Ludwik Górski z Instytutu Języka Polskiego PAN w Krakowie oraz Adam Przepiórkowski z Instytutu Podstaw Informatyki PAN w Warszawie mogli zrobić analizę moich tekstów, to muszę im na to pozwolić na piśmie. Jakoś udało się cyfrowo podpisać otrzymany plik PDF i odesłać pocztą elektroniczną.

Podobno jest to pierwszy taki przypadek, bo wszyscy inni wolą prawdziwy papier. Dla porządku i ja też go wysłałem. Przy okazji wymiany listów dowiedziałem się, że cały korpus staropolski, czyli do roku 1500, to zaledwie 500 tys. słów, a więc tylko dwa razy więcej niż wszystko, co dotąd napisałem dla CW. Widać jestem takim młodopolskim grafomanem...

Z prawdziwą niecierpliwością i z jakąś taką nieśmiałością czekam teraz na wyniki korpuśnej analizy. Ostatecznie trudno być pionierem, i to jeszcze na styku dwu dziedzin tak odległych, jak polonistyka i komputerologia. Jestem jednak gotów i dzielnie przyjmę na korpus wszelkie ciosy, jakimi z pewnością poczęstują nas badacze. Proszę nikogo nie oszczędzać, warto cierpieć dla rozwoju wiedzy. Nawet gdy dotyczy ona tylko częstotliwości występowania słów. A może właśnie wtedy.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200