Archiwa i hurtownie

Rozwój narzędzi Business Intelligence każe pytać o możliwości ich zastosowania do analizowania stale rosnących archiwów poczty elektronicznej - danych tekstowych i multimedialnych.

Rozwój narzędzi Business Intelligence każe pytać o możliwości ich zastosowania do analizowania stale rosnących archiwów poczty elektronicznej - danych tekstowych i multimedialnych.

Powszechna elektronizacja komunikacji i procedur biznesowych spowodowała, że rosną zasoby archiwalne - i to szybciej niż zasoby tradycyjne. Papier bardzo łatwo weryfikuje zbędne przyrosty, zajmując kolejne segregatory i kartony. Gdy zaczyna brakować fizycznej przestrzeni, to zazwyczaj dokonuje się selekcji. Informacja elektroniczna ma tendencje do puchnięcia, ponieważ zapisujemy zarówno gotowe dokumenty, jak i notatki, wstępne lub niewykorzystane wersje, a nawet materiał źródłowy, czyli surowe dane.

Rozwój rynku nośników, oferujący coraz tańsze archiwizowanie, skłania do archiwizacji nadmiarowej, która jest łatwiejsza i zajmuje mniej czasu, ale utrudnia dotarcie do konkretnych informacji lub dokumentów w wersji dla nas pożądanej (niekoniecznie musi to być wersja ostateczna). Prędzej czy później dochodzimy do tego momentu, że archiwizowane "na wszelki wypadek" dane stają się zasobem, który chcielibyśmy wykorzystać. Wtedy okazuje się często, że nasze "archiwum" to binarny chaos zapisów na setkach CD, którymi "wachlujemy" tak długo w napędach, aż przypadkiem dokopiemy się tej jednej informacji, której właśnie potrzebujemy. Przypadkiem, bowiem taki model poszukiwań wyklucza powtarzalność i przewidywalność wykonanych procedur.

Krok 1. Wykorzystanie danych o zdefiniowanej strukturze: Od hurtowni do BI

Walkę z chaosem rozpoczęto od wypracowania sposobów wykorzystania informacji o zdefiniowanej strukturze. Dane pochodzące z systemów F-K (finansowo-księgowych), ERP (Enterprise Resource Planing), SAP (Systems Applications and Products) i podobnych funkcjonalnie baz danych można składować w hurtowniach danych, umożliwiających wielowymiarowe analizy. Oczywiście budowa hurtowni danych nie jest zadaniem prostym ani szybkim. Im więcej źródeł danych, im bardziej różnorodna jest ich struktura, tym trudniej stworzyć pomost pomiędzy źródłem a hurtownią. W przypadku działających systemów źródłowych pomost musi umożliwiać automatyczne zasilanie hurtowni. Niebagatelna jest też jakość danych, bo pomimo osiągnięcia syntaktycznej spójności zasada GIGO (Garbage In - Garbage Out) wciąż obowiązuje.

W klasycznym przypadku dane z systemów OLTP (On-line Transaction Processing), np. dane z oddziałowych systemów sprzedaży, dane z systemów zarządzania w centrali oraz inne dane operacyjne (magazynowe, logistyczne) przenoszone są poprzez pomosty do hurtowni. Pomost może być w niektórych przypadkach bardzo złożonym systemem konwersji i normalizacji danych. W hurtowni, prócz ujednolicenia syntaktyki, identyfikatorów i innych zabiegów formalnych wykonywanych na danych, dodawane są nowe wymiary - np. wymiar "historii" pozwalający na porównania pomiędzy "obrazami" systemów w różnych momentach. Ta informacja w bieżących systemach OLTP ulega najczęściej zatarciu. Dane w hurtowni zapamiętywane są w różnych modelach, z których bardzo popularny jest model wielowymiarowy. Struktura wielowymiarowa przedstawia elementarne komórki danych, tzw. fakty, w funkcji takich wymiarów, jak: czas, produkt, jednostka organizacyjna i inne. Fakty opisane są atrybutami liczbowymi, np. miarą wielkości sprzedaży (ilość, wartość towaru). Dane wielowymiarowe można sobie zatem wyobrazić jako kostkę umieszczoną w przestrzeni wymiarów. Taką "kostką danych" można manipulować poprzez OLAP (On-line Analytical Processing), uzyskując widoki w dowolnych przekrojach składające się na raporty o trendach, osiągnięciach lub niepowodzeniach konkretnych strategii marketingowych. Łatwo jest też generować bieżące raporty dotyczące efektywności działania filii, oddziałów czy poszczególnych sprzedawców. Liczba możliwych raportów jest praktycznie nieograniczona, ponieważ założeniem architektury OLAP jest dostarczenie narzędzia tak elastycznego, by umożliwiało generowanie raportów potrzebnych w danej praktyce biznesowej.

Upraszczając nieco zagadnienie można stwierdzić, że hurtownie służą do agregowania informacji całej firmy w jednym miejscu, by umożliwić analizy wspomagające proces decyzyjny. Hurtownie składają się funkcjonalnie z trzech zasadniczych części: narzędzi pobierania danych, głównej bazy danych oraz narzędzi selekcji i raportowania. Wszystkie te elementy obejmuje architektura OLAP. Istniejące na rynku rozwiązania mogą traktować serwery OLAP jako źródła danych, co oznacza w praktyce przetwarzanie kaskadowe i tworzenie zagregowanych kostek danych na różnych poziomach. Bez względu na to jednak jak złożone jest przetwarzanie, jego natura jest generalnie syntaktyczna, tj. polega na operowaniu sformalizowanymi zapisami o zdefiniowanej strukturze, poprzez zdeterminowane algorytmy. Semantyka, czyli "znaczenie" raportów rodzi się podczas ich czytania i interpretacji przez czytającego, który świadomy algorytmów odczytuje treść zawartą w zobrazowanych wskaźnikach. W zakres OLAP można włączyć też mechanizmy wnioskowania i inne elementy AI (Artificial Intelligence) i otrzymać nawet komunikaty typu: "jest dobrze" lub "mamy problemy", co jest ulubionym przez szefów poziomem agregacji danych.

Producenci narzędzi informatycznych, pod wspólnym hasłem Business Intelligence (nb. nazwa, jako nośne hasło marketingowe, jest tak samo na wyrost jak w przypadku AI) oferują wiele narzędzi, stanowiących komponenty opisanej powyżej architektury. Są to narzędzia analizy danych z rozbudowanymi możliwościami wizualizacji, serwery OLAP umożliwiające przetwarzanie "kostek danych" oraz narzędzia raportujące, korzystające z rozproszonych źródeł dostępnych poprzez ODBC lub analogiczne mechanizmy.

Krok 2. Wykorzystanie archiwów poczty: Początki semantyki

Poczta elektroniczna stanowi coraz ważniejszy zasób, który może być eksplorowany dla uzyskania dodatkowej wiedzy. Trudno wyobrazić sobie, by cała korespondencja była przenoszona do hurtowni danych, bowiem sposób przeszukiwania tego zasobu jest odmienny. Nie jest to jednak wykluczone, bowiem nagłówki wiadomości mogą zostać dość łatwo sformowane w "kostkę danych". Wynikiem analizy byłoby jednak wtedy wychwycenie trendów związanych z wykorzystaniem poczty elektronicznej, a nie zawarta w korespondencji wiedza. Ta znajduje się w dwóch miejscach, a konkretnie w polu temat (subject) i samym "ciele" listu (message body).

Warto może w tym miejscu wprowadzić rozróżnienie pomiędzy typami metadanych, bo w różnych kontekstach metadane oznaczają różne rzeczy. Pojęcia metadanych używa się w hurtowniach danych dla opisania struktury informacji (lista pól, słowniki kategorii). To są metadane składniowe, determinujące gramatykę zapytań (w przełożeniu na praktykę bibliotekarską będzie to gramatyka haseł indeksowych lub języków informacyjno-wyszukiwawczych). Innym rodzajem metadanych będzie to, co bibliotekarze nazywają opisem formalnym. W rozważanym przykładzie poczty elektronicznej będzie to konkretny nadawca, adresat, czas powstania i dostarczenia poczty, jej wielkość i inne parametry, których "rozumienie" można automatyzować.

Trzecim rodzajem metadanych jest charakterystyka treściowa (opracowanie rzeczowe), która polega na zrozumieniu tematyki wiadomości poprzez analizę jej tematu i zawartości. Tutaj zaczyna się problem, bowiem większość narzędzi informatycznych potrafi głównie porównywać łańcuchy znaków lub ich kombinacje, nie zaś dokonywać takiej interpretacji, jaka jest udziałem człowieka. Możemy znaleźć nazwę, charakterystyczny związek frazeologiczny czy nazwisko, ale już nie treść, która często zawarta jest w kilku mailach o różnych tematach, które dodatkowo skierowane są do różnych adresatów!

Natura ludzkiej percepcji sprawia, że pamiętamy treść jako całość, chociaż taka całość w materiale źródłowym nie istnieje. Nie istnieje też narzędzie, które w sposób automatyczny ją wyodrębni. Bo jaki algorytm miałby odszukać wiadomość, którą "pamiętamy", a która tak naprawdę nigdy nie istniała?


TOP 200