Archiwa i hurtownie

W klasycznym bibliotekarstwie charakterystyka treściowa powstaje dzięki pracy "katalogerów", którzy zawiłą tematykę różnych publikacji przekształcają na odpowiedni kod semantyczny, czyli na powiązane ze sobą hasła rzeczowe. Hasła mogą mieć charakter wyszczególniający lub uogólniający, zależnie od przyjętego języka haseł i/lub systemu klasyfikacji. Jak to się ma do analizy poczty elektronicznej? Otóż warto się zastanowić, dlaczego pomimo 50 lat rozwoju systemów bibliotecznych nie udało się zautomatyzować opracowania publikacji. Nawet formalnego! Trudno zatem, by istniały narzędzia charakterystyki treściowej wiadomości. Jeszcze trudniej wyobrazić sobie, by jakaś grupa katalogerów usiadła i opracowała rzeczowo kilka milionów listów.

Wszystko to prowadzi do konkluzji, że przetwarzanie poczty elektronicznej ma swoje ograniczenia, których nie da się pokonać środkami stricte informatycznymi. Do analizy poczty możemy zaprząc dowolny silnik bazodanowy. Możemy też skorzystać z oprogramowania chętnie używanego przez bibliotekarzy - systemu MAK. Jakkolwiek jednak będziemy selekcjonować dane, to uzyskamy zawsze wyniki tak trafne, jak trafny jest opis tematu i zwroty użyte w liście. Stąd już tylko krok do wniosku, że kluczowe dla sukcesu wyszukiwania jest świadome stosowanie metadanych, zaś najodpowiedniejszym momentem ich tworzenia jest moment powstawania wiadomości. Mówiąc inaczej, przechodząc od syntaktyki do semantyki, zmieniamy analityka na autora.

Najtańszym zaś sposobem opracowania treściowego jest nauczenie własnych pracowników, że temat (subject) w liście nie powinien brzmieć "oferta", tylko np. "oferta 245/2005/357 ver. 1.2 meble biurowe, zal., neg.", co w przełożeniu na język naturalny oznacza ofertę o numerze 245 w roku 2005 dla klienta o identyfikatorze 357, która dwukrotnie była poprawiana w szczegółach (wersja 1.2), ale wciąż stanowi odmianę oferty pierwotnej (1.0), dotyczy działu "meble biurowe", zaś do wiadomości dołączony jest tekst oferty w pliku, np. DOC (który w nazwie ma np. o_245_2005_375) i jest to etap negocjacji. To oczywiście tylko przykład. Pokazuje on jednak, że wykonując niewielki wysiłek na etapie tworzenia, możemy potem łatwo analizować nawet bardzo amorficzne źródła trywialnym narzędziami informatycznymi, otrzymując trafne odpowiedzi.

Krok 3. Wykorzystanie rozproszonych plików w różnym formacie: Metadane obowiązkowe!

Tworząc repozytoria poczty musimy wziąć pod uwagę, że istnieje tam problem załączników, a więc binarnych plików przekodowanych procedurą uuencode, które dość prosto można przetworzyć do postaci normalnych plików. Jak potraktować te załączniki? Tak samo jak wszelkie inne pliki. Możemy zatem rozszerzyć zagadnienie na wszystkie pliki binarne, jakie tworzymy w wyniku działalności zawodowej, a które mogą mieć postać plików MS Office, obrazów wektorowych lub binarnych, projektów typu CAD i in.

Dane formalne o pliku, to czas zapisu, nazwa i rozszerzenie sugerujące format. To ważne atrybuty, jednakże w wielu przypadkach mogą one mieć wartości przypadkowe. Czas, jakim oznakowany jest plik, wcale nie musi odpowiadać czasowi zapisu, ponieważ może on zostać zmieniony na bieżący podczas przesyłania protokołem FTP lub podczas zapisu na CD, nie mówiąc o przypadku najbardziej trywialnym - kiedy czas systemowy nie jest zsynchronizowany z wzorcowym serwerem czasu (brak synchronizacji nie musi być wynikiem zaniedbania, ale np. świadomego "oszukiwania" oprogramowania). Nazwy pliku, niepoddane określonej konwencji, nie niosą żadnej wartościowej informacji. Rozszerzenie mówi nam o formacie i raczej rzadko zdarza się, że jest ono nieprawdziwe, chociaż jest to również możliwe. Każdy plik binarny ma też warstwę tekstową, którą można z niego wydobyć mniej lub bardziej automatycznie. Trudno ją jednak automatycznie obrabiać. Większość oprogramowania użytkowego pozwala też na wpisywanie rozbudowanych metadanych i należy z tych możliwości korzystać! Tyle tylko, że w praktyce wygląda to jednak inaczej. Kto np. pieczołowicie wypełnia pola "właściwości" w plikach DOC? Przecież można tam wpisać mnóstwo informacji, bezcennych w przypadku wyszukiwania w dużych populacjach plików.

Im mniej znormalizowana struktura zapisu, tym większą rolę odgrywają metadane, pozwalają bowiem na połączenie świata syntaktyki i semantyki. W idealnym przypadku można nawet pokusić się o włączenie plików binarnych do architektury hurtowni danych. Warto zauważyć, że obecnie dostępne pojemności i możliwości komputerów osobistych prowokują do przechowywania tysięcy plików "pod ręką". Problemy przeszukania własnego komputera zaczną powoli osiągać skalę, z którą nie radzi sobie poczciwe wyszukiwanie zaimplementowane w systemie. Stąd rosnąca popularność takich narzędzi jak Google Desktop.

Krok 4. Polityka klasyfikacji źródeł

Jak już wspomniałem, najłatwiejszym sposobem opracowania rzeczowego jest nadanie odpowiednich metadanych zasobom podczas ich tworzenia:

  • wypełnianie metadanych w plikach
  • stosowanie jednolitej konwencji w nazewnictwie plików
  • sformalizowanie zasad tworzenia tematów w wiadomościach pocztowych
Dzięki takim zabiegom można zautomatyzować selekcję i analizę treści, poddając ją podobnej agregacji, jak ma to miejsce w typowych hurtowniach. Najtrudniejszym zagadnieniem nie jest zastosowanie takiej czy innej technologii, ale wdrożenie jednolitych zasad opracowania informacji, analogicznych do tych, jakie stosują bibliotekarze wobec źródeł drukowanych. Wymaga to określenia polityki klasyfikacji źródeł w skali całej firmy i wypracowania takich narzędzi, jak kartoteki haseł wzorcowych, słowniki skrótów i kodów, klasyfikacje obiektów (np. towarów i usług). Ich stosowanie początkowo będzie postrzegane jako uciążliwe, ale w miarę przyrastania zasobów ich operatywność będzie nieporównanie większa niż zasobów opisanych mniej systematycznie.

Należy podkreślić, że amatorsko tworzone charakterystyki w oparciu o dowolne słowa kluczowe dość szybko okazują się niewystarczające. Aby wdrożyć prawdziwie efektywny sposób opisu treści, należy zmierzyć się z takim zagadnieniem, jak kontrola słownictwa i świadome tworzenie adekwatnego zasobu leksykalnego. Być może prócz informatyka i analityka należałoby przy projektach hurtowni danych włączyć też do zespołu projektowego bibliotekarza lub archiwistę.

BI w bibliotece

Zupełnie innym oprogramowaniem niż klasyczne narzędzia Business Intelligence jest system MAK, który powstał w Bibliotece Narodowej i do dziś jest tam rozwijany i dystrybuowany. Zasadniczy profil MAK-a to komputeryzacja biblioteki w oparciu o bazę obsługującą strukturę danych MARC. MAK posiada też specyficzne właściwości, m.in. rozwinięte funkcje selekcji i konwersji danych tekstowych. Dzięki temu może zostać łatwo zaadoptowany do przetwarzania wielkich ilości danych tekstowych, np. archiwum poczty elektronicznej.

Dr Aleksander Radwański kieruje Działem Komputeryzacji w Zakładzie Narodowym im. Ossolińskich, jest członkiem zespołu redakcyjnego elektronicznego serwisu informacyjnego dla bibliotekarzy i specjalistów informacji EBIB - Elektroniczna BIBlioteka.


TOP 200