Skład z artykułami

6 lat Gazety Wyborczej, pół miliona tekstów dostępnych jest w jej internetowym archiwum.

6 lat Gazety Wyborczej, pół miliona tekstów dostępnych jest w jej internetowym archiwum.

W rzeczywistości Gazeta Wyborcza ma dwa odrębne archiwa. Jedno zewnętrzne, widoczne w Internecie, drugie umieszczone w dostępnej jedynie pracownikom sieci typu intranet. Przy budowie tego internetowego skorzystano z doświadczeń z wdrożenia wewnętrznego archiwum. O duplikowaniu baz zadecydowały nie tylko względy bezpieczeństwa, ale także kwestie finansowe. Cena zastosowanego narzędzia, służącego do przeszukiwania zawartości archiwum - Search 97 firmy Verity - jest bowiem uzależniona od docelowej liczby użytkowników. Poszukiwania w Internecie przeprowadzane są za pomocą narzędzi Verity, "zaszytych" w produktach innych firm (m.in. Netscape). Narzędzia te mają podobne funkcje przeszukiwania pełnotekstowego, ale bez możliwości tworzenia tzw. topików (pojęć).

Wewnątrz teksty przechowywane są w bazie danych SQL (Sybase), gdzie w odrębnych polach znajdują się podstawowe informacje identyfikacyjne (autor, tytuł, data publikacji) i tekst. "Dzięki zastosowaniu bazy SQL łatwo manipulować zbiorem zgromadzonych tekstów" - mówi Ewa Klupsz, informatyk współpracujący ze spółką Agora, wydawcą Gazety Wyborczej.

Baza zewnętrzna to zbiór plików HTML. Zajmują one ogółem ponad 3 GB pamięci dyskowej. Szybki dostęp do plików zapewnia skomplikowana struktura indeksowa (o podobnej objętości), zbudowana za pomocą narzędzi Verity.

Ich podstawową zaletą jest uwzględnienie fleksji w przeszukiwaniu po zadanych słowach (np. różnych przypadków odmiany rzeczowników). Narzędzie firmy Verity nie jest jednak dostosowane do wszystkich subtelności naszego języka, identycznie traktuje bowiem dwa różne wyrazy zawierające ten sam rdzeń, np. armia i Armenia.

Jak najbardziej aktualne

Dla każdego internetowego wydania czy archiwum gazety największym problemem jest zachowanie zgodności z wydaniem papierowym. W przypadku Gazety Wyborczej jest to tym trudniejsze, że standardowy numer ma nawet ponad 10 różnych wersji ostatecznie drukowanych egzemplarzy (w zależności np. od miejsca ich dystrybucji). "Do archiwum zawsze trafia ostatnia wersja tekstów" - mówi Ewa Klupsz. Są one eksportowane z systemy składu Gazety, działającym na bazie programu Quark Press w rytmie dobowym.

W planach na najbliższą przyszłość leży stworzenie rozwiązań, umożliwiających tworzenie stron Gazety jako plików PDF (Portable Document Format - do odczytania w programie Adobe Acrobat). Wówczas można by archiwizować w postaci elektronicznej także układ typograficzny poszczególnych jej wydań. W archiwum znajdą się także, niedostępne dzisiaj, zdjęcia i wykresy. "Dopiero wówczas problem zacznie stanowić objętość archiwum. Dzisiaj nie ma potrzeby kompresowania plików tekstowych" - twierdzi Ewa Klupsz.

Wygodne otoczenie

"Gazeta Wyborcza jest organizacją wysoko skomputeryzowaną, toteż tworzone archiwum sprawnie udało się wpisać w kontekst funkcjonującej infrastruktury informatycznej" - mówi Ewa Klupsz. Praca nad przygotowaniem internetowego archiwum zajęła Ewie Klupsz półtora roku. Wcześniej dziennikarze korzystali z uproszczonej bazy w systemie ISIS, zbudowanej przez Stanisława Stopkiewicza, również informatyka Gazety Wyborczej. Teksty archiwizowano w postaci elektronicznej od 1992 r.

We wrześniu br., kiedy uruchomiono archiwum, korzystało z niego ok. 700 osób dziennie. Obecnie, kiedy skończył się okres promocji i za dostęp do archiwum trzeba płacić (od 150 zł miesięcznie), udało się pozyskać ok. 150 klientów nie tylko instytucjonalnych, w większości z Polski.

Internetowe archiwum Gazety Wyborczej

Działa na wydzielonym unixowym systemie RISC z 512 MB pamięci RAM (serwishttp://www.gazeta.pl to osobny fizycznie serwer), podłączonym do Internetu równoległymi łączami 512 kb/s (do NASK-u) i 2 Mb/s (do TPnet). Łącza pracują pod protokołem BGP, zapewniającym automatyczną rekonfigurację ruchu w przypadku awarii jednego z nich.

Oprócz archiwum, serwis interetowy Gazety Wyborczej, to aktualne wydanie on-line, tworzone w sposób prawie automatyczny.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200