Aplikacje analityczne w hurtowniach danych

Narzędzia typu OLAP i narzędzia do drążenia danych uzupełniają się wzajemnie, choć są przeznaczone dla różnych użytkowników.

Narzędzia typu OLAP i narzędzia do drążenia danych uzupełniają się wzajemnie, choć są przeznaczone dla różnych użytkowników.

Poszukiwanie technologii skutecznie wspierającej proces podejmowania decyzji doprowadziło duże firmy do hurtowni danych. "Prawdziwy i najbardziej dalekosiężny zysk z zainstalowania hurtowni danych polega na uzyskaniu solidnej podstawy do podejmowania decyzji" - stwierdza IDC w raporcie na temat hurtowni.

Wiele firm skorzystało z tej rady i zainstalowało hurtownię danych. Dość szybko okazało się, że hurtownia nie rozwiązuje problemów, może jedynie stanowić pierwszy krok w opracowaniu kompleksowego systemu wspierania procesu podejmowania decyzji. To aplikacje analityczne dodane do hurtowni pozwolą na przekształcenie danych w informacje użyteczne w biznesie.

Istnieje szeroka gama gotowych ("z półki") narzędzi analitycznych, promowanych pod różnymi nazwami i o różnym zakresie właściwości funkcjonalnych. Popularne nazwy to system informowania kierownictwa i inteligentne wspieranie biznesu (business intelligence). Niezależnie od nazwy, wszystkie mają wspólną cechę: posługują się pakietem analitycznym. Celem zaś jest przekształcenie danych operacyjnych, zebranych w hurtowni (po przejściu etapu oczyszczania i wstępnego przetwarzania), w użyteczne dla biznesu odpowiedzi na typowe pytania: Jak ustalać ceny produktów? Które z nich promować? Jaki jest aktualny stan firmy?

Narzędzia analityczne można podzielić na trzy klasy: pakiety służące do zadawania pytań w bazie danych i tworzenia raportów, pakiety do analitycznego przetwarzania onüline (OLAP) i produkty do dogłębnego drążenia danych (data mining).

Narzędzia do tworzenia zapytań i raportowania

Pakiety programowe do zadawania pytań w bazie danych i przygotowywania raportów zawierających odpowiedź z bazy pojawiły się najwcześniej, tuż po powstaniu relacyjnych baz danych. Zarówno producenci baz danych, jak i niezależne firmy szybko spostrzegły potrzebę dostarczenia użytkownikowi elastycznego narzędzia, umożliwiającego mu dostęp do danych wykraczający poza możliwości i właściwości standardowych raportów przygotowanych przez lokalny zespół programistów.

Pierwsze takie narzędzia miały kilka wad: wymagały od użytkownika zrozumienia struktury i schematu bazy oraz znaczenia poszczególnych nazw w tabelach bazy, dobrej znajomości języka zapytań SQL oraz na ogół pozwalały na sięganie po dane tylko z jednej bazy.

Wady te skłoniły do opracowania narzędzi, zwanych narzędziami z zarządzaniem (managed query tools), zawierających warstwę semantyczną między narzędziem a bazą. Warstwa semantyczna służy do przekształcenia niezbyt zrozumiałych nazw technicznych na terminy mające znaczenie w prowadzonej działalności, np. przez przekształcenie nazwy pola w tabeli "klnazw12" na "Pełna nazwa klienta".

Pewne narzędzia z tej grupy wspomagają użytkownika w tworzeniu sensownych zapytań do bazy, ukrywają także warstwę zapytań SQL pod postacią graficznego narzędzia do formułowania zapytań lub przekształcają zdania w potocznym języku angielskim na zapytania SQL. Na ogół dopuszczają także zadawanie zapytań do więcej niż jednej bazy jednocześnie, czasem nawet na różnych platformach sprzętowych lub systemowych.

Współczesne narzędzia z tej rodziny mają starannie opracowane moduły do tworzenia raportów do drukowania lub przeglądania na ekranie. Ostatnie produkty mogą tworzyć raporty w postaci stron HTML do rozpowszechniania w wewnętrznej sieci korporacyjnej intranet za pośrednictwem przeglądarek WWW.

Wszystkie narzędzia prawie nie wymagają interwencji administratora bazy danych, choć na ogół zawierają moduł administracyjny, pozwalający na przyznanie użytkownikom praw dostępu do poszczególnych tabel bazy oraz zdefiniowanie warstwy semantycznej.

Zasadniczą wadą narzędzi do raportowania, przeznaczonych dla indywidualnego użytkownika, jest brak ograniczeń w formułowaniu zapytań. Jeśli użytkownik sformułuje zapytanie wymagające przeglądania całej tabeli o milionach rekordów, może całkowicie zablokować działania operacyjne systemu - moc obliczeniowa serwera będzie wykorzystana do wykonania jego zapytania i ustanie działalność transakcyjna bazy. Z tego powodu do niektórych z narzędzi dodano moduł oceny kosztu wykonania zapytania; po przekroczeniu pewnej wartości tego parametru, zapytanie jest wstrzymane do decyzji administratora bazy (może być wykonane np. nocą).

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200