Co to jest i komu jest potrzebny OLAP?

Od początku swego rozwoju informatyka do zastosowań komercyjnych koncentruje się na szybkiej obsłudze transakcji.

Od początku swego rozwoju informatyka do zastosowań komercyjnych koncentruje się na szybkiej obsłudze transakcji.

Przetwarzanie transakcyjne zapewnia wpisanie do bazy danych wszystkich informacji o działalności firmy: sprzedaży, klientach, dostawcach, operacjach finansowych, kontraktach itd. W dużym banku liczba transakcji dziennie może przekraczać kilka milionów. Z tego powodu dostawcy i producenci systemów zarządzania bazami danych koncentrują się właśnie na ich szybkiej obsłudze.

Jednak ludzie, którzy przez całe lata łożyli duże pieniądze na informatykę, nie zapomnieli, że obiecywano im nie tyle zapisanie danych do bazy, co łatwy dostęp do nich w celu wspomagania podejmowania ważnych decyzji gospodarczych. Cel ten nie był nigdy prawidłowo realizowany: systemy transakcyjne są optymalizowane do obsługi dużej liczby małych transakcji, zapisujących dane do bazy, podczas gdy operacje analityczne wymagają odczytywania ogromnych zasobów danych. Większość systemów baz danych wykonuje te operacje zdecydowanie źle.

Wymagania użytkownika

Typowe wymaganie działu sprzedaży firmy to określenie, jak zmienia się sprzedaż poszczególnych produktów we wszystkich województwach w czasie kolejnych miesięcy roku. Pojawia się więc konieczność przeprowadzenia analizy w trzech wymiarach - geograficznej, wg rodzaju produktu i w czasie. Typowe bazy danych nie są zbyt dobrze przystosowane do prowadzenia takiej analizy, gdyż wprawdzie zawierają te wszystkie informacje w relacyjnych tabelach, ale raczej w formie dwuwymiarowej (tabela bazy bardziej przypomina bowiem płaski arkusz niż prostopadłościan). Im więcej potrzebnych "wymiarów" analizy - tym większy kłopot. Co więcej, szybka obsługa transakcji wymaga upraszczania formy tabel (normalizacji) aż poza granice rozsądku - analizę lepiej wykonuje się z danych nie znormalizowanych.

Na rynku istnieje wiele produktów, umożliwiających użytkownikowi zadawanie pytań do bazy, w celu skorzystania z danych w niej zawartych. Jednakże uzyskanie odpowiedzi nawet na proste zapytanie wymaga pisania dość skomplikowanego kodu w języku SQL. A to już na ogół przekracza możliwości i chęci przyswajania nowych umiejętności większości użytkowników.

Stąd popularność narzędzi typu OLAP (Online Analytical Processing), czyli analityczne przetwarzanie danych on-line. Koncentrują się one na reformatowaniu i denormalizacji bazy relacyjnej lub płaskiej (plikowej) do postaci wielowymiarowego "hipersześcianu" i zapamiętywaniu danych w jego "komórkach" wzdłuż osi poszczególnych wymiarów. Wymagania analityczne różnych dziedzin są różne i dotyczą zarówno statystyki, jak np. symulacji (co by było, gdyby...). Dlatego narzędzia oferują różne formy dostępu do danych i różne pakiety analityczne.

Przetnij i obróć

Istnieją dwie główne metody analizy danych - "przetnij i obróć" (slice and dice) oraz analiza dogłębna (drill-down). Po stworzeniu hipersześcianu danych można go dowolnie obracać i przecinać dla uzyskania informacji z różnych punktów widzenia. Proste możliwości obracania zbioru danych dają nawet arkusze obliczeniowe w postaci tzw. pivot tabel. Jednak próba wykonania za ich pomocą analizy danych dla większej liczby rozmiarów lub dużej liczby danych kończy się niepowodzeniem z powodu niedostatecznej mocy obliczeniowej i trudności w wizualizacji na płaskim ekranie wielu wymiarów.

Analiza dogłębna

W analizie danych dużej firmy rzadko korzysta się bezpośrednio z danych operacyjnych: są one zbyt szczegółowe. Dlatego raczej dąży się do wstępnego przygotowania danych zagregowanych (np. zsumowanych w kolejnych miesiącach, poszczególnych obszarach geograficznych itp.). Z takich danych nie udaje się uzyskać odpowiedzi na pytanie typu "Dlaczego w Krakowie sprzedaż supercoli spadła w II i III kwartale?" Aby ją uzyskać należy zajrzeć do danych bardziej szczegółowych, może nawet wręcz do danych poszczególnych sklepów. Jak to zrobić? Musi to zapewnić narzędzie do analizy dogłębnej.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200