Słownik oksfordzki - skomputeryzowany

Na pokazie baz danych dostępnych na dyskach kompaktowych urządzonym w lutym przez Bibliotekę Główną Uniwersytetu Warszawskiego, o którym pisaliśmy w numerze 5, można było (z pewnymi ograniczeniami) obejrzeć nowe - drugie wydanie największego słownika języka angielskiego, zwanego oksfordzkim. Zawierający je dysk jest oferowany w sprzedaży za 995 USD*.

Na pokazie baz danych dostępnych na dyskach kompaktowych urządzonym w lutym przez Bibliotekę Główną Uniwersytetu Warszawskiego, o którym pisaliśmy w numerze 5, można było (z pewnymi ograniczeniami) obejrzeć nowe - drugie wydanie największego słownika języka angielskiego, zwanego oksfordzkim. Zawierający je dysk jest oferowany w sprzedaży za 995 USD*.

Przed kilku laty wydawało się, że życie tego monumentalnego dzieła, pomyślanego przez jego twórców jako przedsięwzięcie ciągłe, oparte na rozwijanym i uzupełnianym archiwum, wisi na włosku. Uratowała słownik - technika komputerowa. Gdyby nie ona, stałby się - jak wiele innych słowników - dziełem martwym, pomnikiem języka i kultury dawnych epok. Istniałby w sztywnej postaci papierowej, która - co najwyżej dla najbardziej zainteresowanych -w pewnej mierze mogłaby być wzbogacana o materiały archiwalne, zgromadzone w kamieniczce na Saint Giles Street w Oksfordzie. Dzięki komputerom tradycja i dorobek poprzednich pokoleń angielskich leksykografów żyją nadal.

Plan stworzenia wielkiego słownika, gromadzącego całe słownictwo języka angielskiego w jego rozwoju historycznym, został sformułowany w roku 1857. W roku 1879 redaktorem Oxford English Dictionary został James Murray, który niemal doprowadził do końca jego podstawowy dwu-nastotomowy ciąg, wydany w latach 1884-1928. W roku 1933 ukazał się jednotomowy suplement do niego, uważany powszechnie przez specjalistów za nie zadowalający', a w latach 1957-1986 nowy czterotomowy suplement pod redakcją Boba Burchfielda, zawierający 120 000 nowych wyrazów angielskich, używanych w różnych krajach. Warto przypomnieć, że wydanie czwartego tomu tego suplementu wymagało pokonania pewnej trudności technicznej. Dla utrzymania jednolitości dzieła postanowiono mianowicie zastosować i w tym tomie tradycyjny skład drukarski: znalezienie zaś w Wielkiej Brytanii drukarni nie przestawionej jeszcze całkowicie na skład komputerowy było już niełatwe.

Zakończenie prac nad suplementem było dla wydawnictwa momentem trudnym. Koszty jego przygotowania przekroczyły o 24 miliony funtów wpływy. Kontynuacja prac powodowałaby dalsze koszty, które mogłyby doprowadzić do bankructwa zarówno wydawnictwo, jak i Uniwersytet Ok-sfordzki. Stawiało to pod znakiem zapytania dalsze prace. Wymagało podjęcia decyzji na temat dalszych losów słownika, który jest najbardziej prestiżowym i reprezentacyjnym dziełem Oxford University Press. Jeśli prace miałyby być kontynuowane, to przedmiotem dyskusji powinien był być ich charakter i sposób prowadzenia. Naturalną kontynuacją prac dotychczasowych byłyby prace nad następnym suplementem. Gdyby taki został sporządzony, użytkownik słownika musiałby szukać informaq'i w trzech niezależnych ciągach alfabetycznych (jednotomowy suplement przygotowany bezpośrednio po ciągu zasadniczym został wchłonięty przez czterotomowy). Utrudniałoby to jednak bardzo korzystanie z dzieła (na rynku polskim funkcjonują wielkie słowniki dwujęzyczne z suplementami, więc wiele osób zdaje sobie sprawę, jak bardzo są one nieporęczne).

Rozwiązaniem znacznie lepszym było z pewnością opracowanie nowego wydania dzieła, gromadzącego w jednym ciągu cały materiał słownika zasadniczego i suplementu oraz materiał dodatkowo zebrany w ostatnich latach (5000 nowych haseł, nie licząc dodatków do haseł istniejących). Przyjęcie go wiązało się jednak z dwoma zasadniczymi problemami. Po pierwsze, podjęcie się takiego zadania wiązałoby się z ogromnymi obciążeniami finansowymi, przekraczającymi możliwości instytucji macierzystej. Po drugie, należało zmienić dotychczasową postać istnienia słownika i archiwum - przenieść je z nośnika papierowego na magnetyczny. Dobrze wiedziano przy tym, że z punktu widzenia zarówno techniki, jak i kultury współczesnej takie rozwiązanie jest konieczne.

Przeniesienie słownika na nośnik informacji i stworzenie z niego bazy danych oznacza, że może on być stale uaktualniany, ulepszany i poprawiany.

Plan takiego przedsięwzięcia został opublikowany jeszcze przed zakończeniem prac nad suplementem - w roku 1983- Oznaczało to zarówno poddanie projektu pod dyskusję publiczną, jak i propozycję dla potencjalnych współsponsorów i współuczestników prac. Projekt był przy tym wysoce niestandardowy z technicznego punktu widzenia. Cel był jasny: należało stworzyć jednolity ciąg na podstawie danych fragmentów. Jasno określone były także poszczególne czynności, które miały być wykonane w trakcie realizacji kolejnych etapów prac: wprowadzenie całego materiału do komputera, dokładna analiza syntaktyczna (parsowanie) artykułów hasłowych, scalenie wszystkich ciągów poprzez scalanie poszczególnych haseł (z koniecznym bezkonfliktowym łączeniem informacji z różnych ciągów), sprawdzenie wszystkich powiązań wewnętrznych (np. odsyłaczy), przygotowanie tekstu do publikacji w różnych formach. Jednak rozmiar prac wymagał stworzenia specjalnych narzędzi, których działanie mogło się okazać dużą niespodzianką.

Współpracownicy znaleźli się. IBM dostarczył sprzęt i podstawowe oprogramowanie oraz pomógł w sformowaniu zespołu projektantów komputerowego systemu obsługi słownika. Firma International Comutaprint Corporation z Fort Washington (Pennsyl-vania) podjęła się wprowadzenia materiałów do pamięci komputera, co zdecydowano się zrobić nie za pomocą czytnika optycznego, lecz ręcznie z klawiatury, ponieważ ten sposób uznano za znacznie bardziej niezawodny. Zaprojektowanie i obsługę bazy danych powierzono Uniwersytetowi w Waterloo (Ontario), posiadającemu silny i dobrze wyposażony wydział matematyki i informatyki, na którym dzięki subwencji z rządowych funduszy kanadyjskich powołano specjalny ośrodek prac nad słownikiem oksfordzkim.

Właściwe prace rozpoczęto w styczniu 1984 roku. Redaktorem II wydania został mianowany Edmund Weiner, nieco później dołączył do niego John Simpson jako współredaktor. Pierwszym etapem prac było zanalizowanie konsekwencji złączenia danych należących do wszystkich ciągów (słownik zasadniczy, suplement, materiały dodatkowe) i związanych z nim problemów. Na przykład informatycy analizujący artykuły hasłowe słownika wyróżnili w nich 50 ważnych elementów strukturalnych. Oceniano, że samo wprowadzenie danych do komputera wymaga 120 roboczolat. Tekst wpisany na taśmy w ciągu 18 miesięcy i poddany starannym korektom został wprowadzony do komputera IBM 4341 w głównym biurze Oxford University Press przy Walton Street w Oksfordzie. Programy analizy składniowej (parso-wania) tekstu zostały przekazane z Waterloo. Gramatyka tekstu słownikowego była dziełem programistów z Oksfordu. Na tej podstawie rozpoczęło się scalanie tekstu. Tekst scalony został wprowadzony do programu OEDIPUS (The Oxford English Dictionary Integrating, Proofreading and Up-dating System), który pozwalał przedstawić go w ośmiu kolorach w bardzo wygodnej i przejrzystej postaci na ekranie, gdzie był poddany redakcji przez zespół leksykografów w celu takiego ostatecznego zintegrowania danych pochodzących z różnych źródeł, aby nie było śladów tej operacji. Oczywiście przy okazji musieli oni wprowadzić konieczne poprawki i modernizacje (tekst oryginalny pochodził przecież w dużej części sprzed stulecia!). Program ten służył również do wprowadzenia poprawek po dwu korektach.

Nie wdając się w podsumowania natury finansowej, odgrywające ważną rolę w reklamie słownika i publikacjach na jego temat, aby zdać sobie sprawę z jego rozmiarów, przytoczymy parę liczb. Praca trwała zaledwie 5 lat, co powinniśmy porównać z podanym wyżej okresem przygotowywania wydania pierwszego. Ocenia się, że praca nad słownikiem pochłonęła 500 roboczolat. Słownik zawiera 290 000 haseł głównych (nie odsy-łaczowych), 2 412 400 cytatów.

Autor artykułu na temat słownika opublikowanego przez „Times" Philip How: rd podał, że słownik zawiera 18 6 )8 cytatów z tego pisma, w tym 1 415 odnoszących się do pierwszych znanych użyć danego wyrazu. Uzyskanie podobnych danych jest możliwe dzięki skomputeryzowanej formie słownika, udostępnionego na dysku kompaktowym. Umożliwia ona oczywiście przeprowadzanie bardzo wyrafinowanych kwerend, dotyczących na przykład zawartej w słowniku ilustracji przykładowej z danego dzieła, danego autora, użycia wyrazów w cytatach, haseł opatrzonych najróżniejszymi kwalifikatorami itp. Postać skomputeryzowana czyni słownik ogromnie elastyczny. Baza danych słownikowych może być wykorzystywana do tworzenia następnych słowników. Już rozpoczęto prace nad trzecim wydaniem pełnego słownika oksfordzkiego, którego opublikowanie przewiduje się w przyszłym stuleciu, oraz nową wersją popularnego słownika skróconego (tzw. Shorter OED).

Warto tu jeszcze raz przypomnieć, że przy przygotowywaniu obecnego wydania korekty wydrukowano na papierze dwukrotnie: po raz pierwszy z ograniczeniem do artykułów hasłowych jako cało-stek, po raz drugi - ze złamaniem na strony. Drugie wydanie słownika istnieje bowiem również na papierze. Składa się z dwudziestu tomów, ważących (bez opakowania) ponad 62 kg.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200