Próba na żywo

Po roku przygotowań Agora SA, wydawca Gazety Wyborczej, umożliwiła publiczne testowanie swojego portalu internetowego. Oficjalne uruchomienie planowane jest na połowę lutego br.

Po roku przygotowań Agora SA, wydawca Gazety Wyborczej, umożliwiła publiczne testowanie swojego portalu internetowego. Oficjalne uruchomienie planowane jest na połowę lutego br.

Do uruchomienia portalu Agory niezbędne było stworzenie ogromnego zaplecza technologicznego. Obejmuje ono m.in. kilkanaście serwerów Sun i IBM, system publikacji (zbudowany na potrzeby Agory), oparty na oprogramowaniu Bea WebLogic, i bazach danych Oracle, a także rozwiązania telekomunikacyjne umożliwiające właściwą dystrybucję obciążenia i możliwość dostępu kilkoma alternatywnymi łączami.

Zrób to sam

Portal Agory, udostępniony publicznie w styczniu br., miał dostarczać to, co jest największym atutem wydawcy największego ogólnopolskiego dziennika: właściwie skategoryzowaną, bogatą treść. "Przy rozpoczęciu prac nad portalem przyjęto założenie, że treść ma być tworzona tylko raz - zarówno na potrzeby wydania papierowego, jak i Internetu" - mówi Hanna Kasprzyk, szef sekcji technologicznej Projektu Internet w Agora SA w Warszawie. Założenia, choć słuszne, były trudne do realizacji. Wszystkie redakcje Agory zatrudniają łącznie ponad 900 osób i współpracują z dużą liczbą autorów zewnętrznych. Tymczasem w momencie rozpoczęcia prac Gazeta nie dysponowała profesjonalnym systemem do zarządzania treścią.

Zdając sobie sprawę z potencjalnych trudności, kierownictwo Projektu Internet rozpoczęło poszukiwania wzorców wśród współpracujących z Gazetą dzienników zagranicznych. "Oficjalnie wszyscy byli chętni do pomocy, jednak gdy pytaliśmy o szczegóły, większość wydawnictw zasłaniała się tajemnicą rynkową" - mówi Hanna Kasprzyk. Najlepszy kontakt udało się nawiązać z greckim wydawcą Lambrakis. Wnioski z rozmów nie były jednak optymistyczne. Gazeta początkowo chciała posłużyć się gotowym produktem i dostosować go do własnych potrzeb. Grecy jednak twierdzili, że w dłuższej perspektywie żaden gotowy program nie będzie odpowiadać specyficznym potrzebom. Odradzali także budowę jednolitego systemu do zarządzania treścią - jednocześnie dla "papieru" i Internetu, przekonując, że jest to w praktyce niewykonalne.

Również korzystanie z pomocy firmy konsultingowej nie na wiele się zdało. "Po kilku tygodniach znaleźliśmy się prawie w punkcie wyjścia. Wiedziałam już, że możemy liczyć tylko na siebie" - wspomina Hanna Kasprzyk.

Z konsultacji przeprowadzonych w środowisku informatycznym wynikało, że architekturę portalu należy zbudować z wykorzystaniem serwera aplikacji. Zespół Projektu Internet zaprosił na prezentacje wszystkich liczących się dostawców, w tym firmę Oracle (dostarczającą produkt Oracle Application Server) i IBM (producenta WebSphere). Ostatecznie wybrano serwer aplikacji WebLogic, opracowany przez firmę Bea Systems. "Specjaliści z Bea byli najlepiej przygotowani. Przedstawili w pełni działający produkt i zapewnili szeroką obsługę obejmującą konsultacje i szkolenia. Z perspektywy czasu widzę, że wybór rzeczywiście był trafny zarówno technicznie, jak i finansowo" - mówi Hanna Kasprzyk.

Paski łowickie

Mimo wielkiej skali i tempa pracy, zarządzanie treścią w Agorze dotychczas było tylko częściowo zautomatyzowane. Przygotowane przez dziennikarzy i opatrzone metryczką artykuły, napisane w edytorze tekstowym Microsoft Word, trafiały do odpowiednich katalogów na serwerach plików NetWare. Stamtąd były pobierane przez redaktorów, a następnie przez studio DTP. Przeniesienie tego systemu pracy do portalu było bezcelowe, dlatego informatycy Agory zbudowali nowy system do zarządzania treścią portalu. Stworzono go w taki sposób, by z biegiem czasu można nim było objąć także wydanie papierowe. Operacja ta prawdopodobnie odbędzie się jeszcze w tym roku.

Nowy system nie wymusza na dziennikarzach wpisywania tekstu bezpośrednio na stronie internetowej - artykuły nadal pisane są w edytorze Word. Do menu tej aplikacji wprowadzono dodatkowe przyciski, powiązane z odpowiednimi skryptami Visual Basic for Applications. Po ich kliknięciu tekst jest przekształcany z formatu Microsoft Word na XML, a następnie wysyłany do odpowiednich katalogów. Co kilka minut redakcyjna baza danych przeszukuje katalogi w poszukiwaniu nowych plików. Jeżeli je znajdzie, kopiuje je do swoich tabel.

Dokument jednak nie opuści komputera dziennikarza, dopóki nie będzie zawierać wszystkich ważnych informacji. A ich lista jest pokaźna. Potrzebne są m.in. poprawnie wypełniona metryczka, tytuł, lead i podpis autora - najczęściej różne dla wydania papierowego i internetowego. Plik XML zawiera także informacje o priorytecie i okresie publikowania artykułu na stronach portalu. W późniejszym etapie umieszczany jest w nim również identyfikator i dokładny czas otwarcia pliku przez redaktorów i korektorów.

Redakcyjna baza treści nie ma standardowej struktury relacyjnej - informacje o jednym dokumencie są podzielone na wiele rekordów. "System zarządzania treścią podlega ciągłym zmianom. Wprawdzie podzielenie danych na wiele rekordów powoduje szybki wzrost objętości bazy i znacznie utrudnia indeksowanie, ale umożliwia nam wprowadzanie nowych atrybutów i niestandardowych rozwiązań, bez burzenia całej struktury. Na tym etapie jest to bardzo wygodne" - tłumaczy Hanna Kasprzyk.

Gdy tekst trafi do redakcyjnej bazy danych, dostęp do niego można uzyskać już tylko za pomocą przeglądarki internetowej (Agora stosuje Netscape 4). Po zalogowaniu w firmowym intranecie użytkownik widzi na ekranie stronę główną systemu. Dostępne na niej opcje umieszczono w wierszach tabeli i wyróżniono kolorami, dzięki którym system zarządzania treścią zyskał miano "paski łowickie". Wybór opcji o określonym kolorze prowadzi do podstron o tym samym kolorze tła.

Najważniejszym narzędziem systemu, z którego korzystają wszyscy użytkownicy, jest wyszukiwarka artykułów. Oprócz wyszukiwania prostego i złożonego, umożliwia ona także łatwe tworzenie dowolnej liczby indeksów wg wybranych kryteriów. Po akceptacji treści, redaktorzy nadają tekstom "ubranka", czyli przypisują im jeden z szablonów stylu: oddzielnie dla wydania papierowego i internetowego. Akceptacja wszystkich wymaganych parametrów pliku powoduje oznaczenie go w bazie danych jako gotowy do publikacji.

"Paski łowickie" umożliwiają także zakładanie i aktualizowanie własnych baz danych publikowanych w portalu. Część z nich jest tworzona przez pracowników Gazety, część pochodzi od dostawców zewnętrznych. Dane są z reguły dostarczane na nośnikach w formacie tekstowym z podziałem na kolumny, ale jest jeden wyjątek. Agora wykupiła konto dostępowe do systemu publikacji notowań ciągłych firmy Rodan Telekom. Od momentu rozpoczęcia sesji na GPW do jej zakończenia do Agory spływają komunikaty giełdowe (z 15-minutowym opóźnieniem). Program pobiera te dane z serwera firmy Rodan i przenosi do bazy danych. Na ich podstawie tworzone są także tabele dla gazety papierowej.

Królestwo Unixa

Środowisko informatyczne Agory, poza stacjami klienckimi (Windows 98 i NT), wykorzystuje systemy Unix IBM i Sun Microsystems. Podstawą funkcjonowania portalu jest serwer aplikacji WebLogic firmy Bea Systems, działający na dwóch połączonych w klaster serwerach Sun E450 (maszyny 4-procesorowe wyposażone w 4 GB RAM). Logika zarządzania treścią została zawarta w uruchamianych w jego środowisku servletach Javy. WebLogic kontroluje także kolejkowanie publikacji oraz - poprzez mechanizmy Java Server Pages - formatowanie treści. Za pomocą narzędzi dostarczonych wraz z WebLogic programiści Agory samodzielnie wykonali zaawansowany system banerowy (ad server), pozwalający na zarządzanie ogłoszeniami na stronach portalu.

Agora w tej części systemu informatycznego korzysta wyłącznie z baz danych Oracle 8i. Baza redakcyjna funkcjonuje na klastrze dwóch 4-procesorowych serwerów Sun E450, z których każdy jest wyposażony w 4 GB pamięci. Dane z niej są replikowane do bazy portalu, działającej na 6-procesorowym serwerze IBM pSeries H80 (dawniej RS/6000 model H80) pod kontrolą AIX-a. Serwerem docelowym będzie jednak nowy serwer IBM pSeries 680. Na początek zostanie on wyposażony w 24 procesory PowerPC 600 MHz i 32 GB pamięci z możliwością jego rozbudowy do 96 GB RAM. "Korzystanie z serwerów IBM jest już u nas tradycją. Serwery Sun pojawiły się niedawno - właśnie w związku z Projektem Internet. Baza portalu jest licencjonowana od Oracle'a na zasadach jednostek mocy (UPU). Według naszych wyliczeń serwer IBM dawał wyraźnie korzystniejszy stosunek wydajności do ceny" - przekonuje Hanna Kasprzyk.

Większość pamięci masowych Agory to macierze dyskowe Sun A5200. Macierz przechowująca dane bazy redakcyjnej ma obecnie pojemność 11 GB, baza zewnętrzna - 3 GB. Łączna pojemność macierzy bazy portalowej wynosi 5 TB.

Treść z bazy portalu jest udostępniana w sieci przez serwer internetowy iPlanet. Działa on na grupie 6 wydzielonych w tym celu serwerów Sun E450. Każdy z nich ma 2 procesory i 2 GB pamięci. Z testów wydajnościowych wynikało, że każdy z serwerów może wydajnie obsłużyć ponad 150 użytkowników jednocześnie. W najbliższym czasie serwery frontowe zostaną rozbudowane. Do każdego mają być dodane kolejne 2 procesory i 2 GB RAM.

Wszystkie elementy sieci połączone są zdublowanymi łączami Gigabit Ethernet (każdy serwer ma 2 karty sieciowe), obsługiwanymi przez przełącznik klasy Cisco 7200. Na zewnątrz portal Agory podłączony jest do NASK-u łączem o przepustowości 155 Mb/s, do sieci Polpak-T kolejnym łączem 155 Mb/s, Netii (2 Mb/s) oraz Internet Partners (2 Mb/s). Ponadto Agora jest włączona do warszawskiego Węzła Wymiany Międzyoperatorskiej WIX, pracującego z szybkością 100 Mb/s.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200