Hurtownia tekstowa

Technologia pozwala na rozszerzenie możliwości narzędzi do informacji zarządczej o dokumenty tekstowe.

Technologia pozwala na rozszerzenie możliwości narzędzi do informacji zarządczej o dokumenty tekstowe.

Najważniejsze zagadnienia, którymi zajmują się zespoły informatyczne w przedsiębiorstwach, to hurtownie danych, informacja zarządcza (business intelligence) i handel elektroniczny. Sukcesy w tych dziedzinach w znacznej mierze zależą od dostępności niezawodnych, skalowalnych serwerów baz danych, wydajnych narzędzi do pobierania, czyszczenia i ładowania danych z baz operacyjnych do hurtowni oraz od łatwych w użyciu narzędzi analitycznych OLAP.

Jednak jednym z ważniejszych czynników sukcesu hurtowni w ostatnich latach są teoretyczne opracowania, umożliwiające tworzenie łatwych w nawigowaniu, wymiarowych modeli wielkich zasobów danych (schematy gwiazdowe i pochodne). Wiele współczesnych serwerów relacyjnych baz danych jest optymalizowanych pod względem wydajności w obsłudze takich schematów baz danych i realizacji zapytań ad hoc.

Modelowanie wymiarowe zapewnia duże możliwości, ale podobnie jak inne techniki operowania na zasobach danych, ma ograniczenia. Nie jest w żaden sposób wyko- rzystywane do modelowania informacji w nietypowych źródłach: dokumentach tekstowych. Jeżeli udałoby się objąć nimi dokumenty tekstowe, stanowiłoby to potężne rozszerzenie zasięgu i możliwości informacji zarządczej.

Rozmiary tekstu

Dokument tekstowy zwykle jest traktowany jako "dane niestrukturalne". Tymczasem już ponad 50 lat temu lingwista Noam Chomsky i inni naukowcy badali gramatyki transformacyjne, umożliwiające zidentyfikowanie złożonych modeli w strukturze języka. Składnia i semantyka tych gramatyk mogą stanowić podstawę hurtowni tekstowych o podobnych właściwościach, takich jak hurtownie danych numerycznych.

W tekstowej hurtowni danych odpowiednikiem tabeli "faktów" w schemacie gwiazdowym są streszczenia dokumentów. Dokument można identyfikować wg wielu "wymiarów": słów kluczowych, kategorii, tematów. Nie istnieje bezpośrednie odniesienie modelu gwiazdowego tradycyjnej hurtowni danych do modelu hurtowni tekstowej. Również techniki modelowania są różne.

Przykładowo, w hurtowni tekstowej nie można z góry zadeklarować ograniczonej liczby "wymiarów". W zależności od zawartości kolejnych dokumentów dołączanych do hurtowni trzeba tworzyć nowe wymiary. Nie ma również bezpośredniego odpowiednika agregowania (sumowania na podstawie wymiarów). Wprawdzie znane są techniki grupowania dokumentów zgodnie z wybranym kryterium ich "bliskości", ale kryteria są bardziej liberalne.

Budowa składnicy dokumentów

Proces tworzenia hurtowni dokumentów jest zbliżony do procesu budowania hurtowni danych. Najważniejsze operacje to: pobieranie dokumentów w formie elektronicznej, filtrowanie, ekstrahowanie cech dokumentu, tworzenie zbioru słów kluczowych i indeksów tematycznych, przygotowanie streszczenia i grupowanie dokumentów.

Opracowanie metadanych. Metadane do składnicy dokumentów to specyfikacja typów dokumentów, źródeł pochodzenia, operacji na nich wykonywanych (np. decydujemy o przechowywaniu całych dokumentów, streszczeń czy tylko referencji do dokumentu lub jego adresu URL) i sposób przechowywania dokumentów (foldery dyskowe, baza danych). W metadanych powinny być zdefiniowane metody grupowania dokumentów, kategorie i sposoby klasyfikowania. W skład metadanych musi również wchodzić wstępnie zdefiniowany zbiór słów kluczowych, sukcesywnie uzupełniany w miarę powiększania się składnicy dokumentów.

Filtrowanie. Filtrowanie dokumentów wymaga podjęcia decyzji, jakie dokumenty i z jakich źródeł (organizacji, autorów czy bibliotek) będą wprowadzane do hurtow- ni ogólnie dostępnej, a jakie do części "poufnej". Nie ma tu mowy o poprawianiu błędów (czego można dokonywać w przypadku danych numerycznych), ale można wykluczyć dokumenty powtarzające się, zawierające określone słowa lub związane z określonymi zdarzeniami.

Indeksowanie. Aby ułatwić pobieranie dokumentów z hurtowni, stosuje się indeksowanie tematyczne lub wg słów kluczowych. Istnieją narzędzia informatyczne, umożliwiające automatyczne wybieranie z dokumentów słów kluczowych, posługując się kryterium częstości występowania i eliminowaniem słów "pospolitych" (jest, się, w, i, ma).

Indeksowanie tematyczne wymaga przygotowania dość wąskich kategorii tematycznych (np. "archeologia śródziemno- morska", zamiast "archeologia" i "Bliski Wschód"), na podstawie których system może klasyfikować dokumenty.

Streszczanie. Większość publikacji naukowych zawiera gotowe streszczenia, które wystarczy wykorzystać. Również listy z poczty elektronicznej powinny w pierwszym zdaniu zawierać streszczenie komunikatu, co zdecydowanie ułatwi i uprości ich przechowywanie. Na rynku są dostępne narzędzia do tworzenia streszczenia dokumentu, niestety, operują one na ogół tylko na dokumentach w języku angielskim.

Streszczenie to również dokument, można więc stosować do niego techniki indeksowania i wyszukiwania takie same, jak do dokumentów kompleksowych.

Grupowanie. W przypadku dokumentów tekstowych nie istnieje jednoznaczna miara "podobieństwa", pozwalająca na ścisłe przypisanie dokumentu odpowiedniej kategorii.

Miary podobieństwa, stosowane w praktyce, polegają na tworzeniu histogramu częstości występowania określonego zestawu słów kluczowych, przypisaniu wag wymiarom grupowania ze zbioru metadanych i wyliczeniu "miary podobieństwa". Jak pokazują badania, nadmierne zwiększanie liczby wymiarów, wg których odbywa się klasyfikowanie dokumentów, nie polepsza "mocy rozdzielczej" motoru wyszukiwania.

Dokumenty można grupować hierarchicznie w formie drzewa, w którym pień oznacza cały zbiór dokumentów. Liście zaś to dokumenty mające pojedynczą cechę. Węzły na kolejnych poziomach drzewa zawierają dokumenty odpowiadające kombinacji cech składowych liści i węzłów. Dokumenty tak zgrupowane są łatwo dostępne w procesie nawigowania przez coraz bardziej szczegółowe struktury.

Relacyjne grupowanie binarne służy do umieszczenia każdego dokumentu tylko w jednym "koszyku", najlepiej oddającym jego właściwości - każdy koszyk odpowiada jednemu tematowi. W miarę dodawania dokumentów do składnicy i precyzowania kolejnych tematów może następować przenoszenie dokumentów do innego koszyka.

Sieci neuronowe pozwalają na tworzenie zbioru dokumentów samoorganizujących się w formie wielowymiarowej struktury z węzłami o wagach wyliczanych zgodnie z zawartością zbioru. Każdy dokument ma wyliczany wektor cech, który pozwala obliczać jego odległość od węzłów sieci. Podzbiór dokumentów o najmniejszej odległości od danego węzła to grupa tematyczna.

Na rynku istnieje wiele motorów wyszukiwania dokumentów tekstowych wg zadanych kryteriów. Jeżeli jednak dokumenty te mają być istotnym uzupełnieniem procesów podejmowania decyzji, muszą stanowić jedną całość z hurtowniami danych numerycznych. Wydaje się więc, że zarządzanie dokumentami za pomocą tych samych narzędzi co danymi numerycznymi jest rozwiązaniem najlepszym. Bazy danych IBM, Oracle, Informix oferują opcje tekstowe (o różnych możliwościach) i zapewniają przechowywanie dokumentów w różnych formach (w bazie, oddzielnych plikach zarządzanych przez serwer bazy danych lub system operacyjny).

Problemów więcej niż rozwiązań

Największe problemy pojawiają się przy próbie powiązania danych numerycz- nych i tekstowych. Jak powiązać wymiar tekstowy z wymiarem numerycznym w hurtowni danych? Czy można indeksować dokumenty tekstowe wg tych samych kryteriów co dane numeryczne? Jakie dokumenty tekstowe wprowadzać do hurtowni? Jak mierzyć przydatność dokumentów?

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200