A narzędzi jest wiele...

Narzędzia przeznaczone do analizy mają ten sam zestaw podstawowych funkcji. Jak wybrać najlepsze?

Narzędzia przeznaczone do analizy mają ten sam zestaw podstawowych funkcji. Jak wybrać najlepsze?

Większość aplikacji operacyjnych (i to zarówno systemów małych, jak i rozbudowanych ERP) wspomagających funkcjonowanie przedsiębiorstwa nie zawiera właściwych narzędzi do analizy danych. Oczywiście, każda aplikacja dysponuje możliwością generowania raportów, jednak zwykle prezentują one dane, które są bezpośrednim odwzorowaniem informacji zawartych w bazie danych. Nie umożliwiają przewidywania trendów. Czasami trudne jest nawet tworzenie prostych przekrojów, np. sprzedaży z podziałem na wiek kupującego i region, w którym mieszka. Systemy, zwłaszcza przeznaczone dla średnich przedsiębiorstw, mają problemy z integracją danych pochodzących z różnych źródeł. Producenci popularnych systemów wspomagających pracę przedsiębiorstwa wprawdzie coraz częściej zaczynają dołączać do oferty takie specjalizowane moduły, ale ich funkcjonalność jest dość ograniczona. Przedsiębiorstwo po zakupie kosztownego oprogramowania operacyjnego poszukuje więc odpowiednich aplikacji analitycznych.

Gdzie i jakie dane

Podczas analizy danych jest równolegle wykorzystywanych wiele różnych narzędzi. Używane są wszelkiego rodzaju aplikacje statystyczne (ten rynek jest już dość wyraźnie skonsolidowany), pozwalające na podstawie wybranego zestawu danych przeprowadzić pewne operacje matematyczne zgodne z założonym modelem. Jednak system statystyczny zwykle nie jest przystosowany do samodzielnego przechowywania odpowiedniej ilości danych. Niezbędna jest więc wyspecjalizowana baza, która może przechowywać duże ilości danych i nietypowe struktury, takie jak kostki OLAP.

Przechowywanie kostek danych jest zagadnieniem niebanalnym, chociażby dlatego że są to obiekty, które często mają olbrzymi rozmiar, wielokrotnie większy niż same dane. Kostka OLAP zwykle zawiera dodatkowe pola wyliczane (np. średnią z danego wymiaru). Kostki można przechowywać na trzy sposoby. Może to być MOLAP - po wybraniu interesujących tabel faktów, zdefiniowaniu wymiarów, jest tworzona specjalna kostka, która zawiera kopię danych transakcyjnych i dodatkowo wyliczone statystyki. Dzięki temu, podczas tzw. zagłębiania się w kostkę, nie jest konieczne odwoływanie się do tabel bazowych. ROLAP natomiast to kostka, w której są przechowywane tylko wyliczone statystyki, a każdy dostęp do danych źródłowych wymaga odwoływania się do systemu transakcyjnego. Jest dzięki temu dość mała. HOLAP to kostka, w której są przechowywane tylko niektóre dane źródłowe. Problemem przy tworzeniu tych kostek jest umiejętne dobranie kryterium, które pozwoli zdecydować, jakie informacje mają być skopiowane w kostce. W MS SQL 2000 problem ten rozwiązano w interesujący sposób - użytkownik, wybierając kostkę HOLAP, może określić maksymalny czas oczekiwania na wynik albo ustalić górną granicę rozmiaru kostki.

Hurtownia danych jest dość specyficznym systemem bazodanowym, który w odróżnieniu od systemów transakcyjnych jest zasilany danymi okresowo, jego główną funkcję zaś stanowi odpowiadanie na rozbudowane zapytania analityczne. Projektowanie struktury hurtowni znacznie różni się od projektowania aplikacji transakcyjnych (np. nie stosuje się technik, które minimalizują redundancję danych). Najważniejszą cechą motoru jest szybkie zasilanie hurtowni i zdolność do komunikowania się z szeroką gamą produktów innych firm. Niemal każdy producent baz dostarcza motor hurtowni danych. Warto dodać, że do większości motorów są dołączane także mechanizmy data mining. Takie firmy, jak Oracle czy Microsoft, udostępniają motory do automatycznej klasyfikacji danych i tworzenia reguł asocjacyjnych (określenia związków między wybranymi polami). Tego typu analizy operują zwykle na pełnych zbiorach danych i z tego powodu ich uruchamianie na komputerze klienckim (np. analiza kilkunastogigabajtowej tabeli w systemie typu SPSS na komputerze biurkowym) może trwać zbyt długo. Najważniejszą rolą mechanizmów data mining uruchamianych po stronie serwera bazodanowego jest wstępna obróbka danych i ukierunkowanie dalszej ich klasyfikacji.

Powstają również wyspecjalizowane serwery analityczne, uruchamiane na dedykowanych komputerach. Dobry przykład to Business Objects 2000, gdzie serwer może działać na niemal dowolnej platformie (od HP-UX po Windows) i pozwala na wykonywanie stosunkowo dużej liczby analiz. Ten produkt może być wyposażony w jedną zintegrowaną metabazę (która opisuje rolę danych przechowywanych w hurtowni). Dzięki temu można w jednolity sposób widzieć informacje pochodzące z różnych systemów funkcjonujących w przedsiębiorstwie (metadane generalnie są elementem wprowadzającym porządek i pewną standaryzację, często do ich tworzenia wykorzystuje się XML).

Podobnym systemem jest Segate Info, produkt Crystal Decision, który pozwala integrować informacje pochodzące z różnych hurtowni, także kostek OLAP (Holos, Hyperion Essbase i czy IBM OLAP for DB/2). System współpracuje z motorem Crystal Reports. Podczas analiz korzysta z możliwości, jakie oferuje bazowy serwer i dopiero, gdy np. Holos nie może wykonać danej statystyki, sam przetwarza informacje.

Microsoft prowadzi prace nad API, które pozwoliłoby integrować dane wyjściowe z różnych systemów analitycznych. Obecnie komunikacja pomiędzy aplikacjami statystycznymi sprowadza się do eksportu i importu danych, traktowanych tak samo jak dane źródłowe. Wówczas w sytuacji gdy użytkownik chciałby przeprowadzić analizę opartą na metodach Monte-Carlo w SPSS, a następnie badanie szeregów czasowych w systemie Statistica, musi wstępne wyniki interpolacji eksportować do ustalonego formatu, później zaś importować je korzystając z innego narzędzia. XML for Analysis jest propozycją formatu, który pozwoli odwoływać się za pośrednictwem protokołu SOAP bezpośrednio do funkcji danego systemu statystycznego. Wówczas analizę będzie można wykonać niekoniecznie na stacji klienckiej. Ponadto stanie się możliwe łączenie funkcji różnych produktów.

Co wybrać

Na pytanie, jakie narzędzie analityczne jest najlepsze, nie ma jednoznacznej odpowiedzi. Praktycznie każde narzę-dzie przeznaczone do analizy ma ten sam zestaw możliwości podstawowych (np. nie ma produktu, który nie pozwalałby przeprowadzać analizy regresji). Problem polega na tym, że każde narzędzie może okazać się najlepsze w wąskiej dziedzinie (mogą to być sieci neuronowe czy pewne modele statystyczne). Istotne, czy pakiet pozwala na samodzielne tworzenie modeli, czy jest zamkniętym rozwiązaniem. Aby przeprowadzić prawdziwą biznesową analizę danych firmowych i odkryć rzeczywiste zależności, trzeba dokonywać wielu równoległych analiz, często za pomocą różnych narzędzi. Od doświadczenia analityka zależy, czy wybierze optymalne rozwiązanie. Pod względem technologicznym nie istnieje bariera niemożności - to raczej kwestia zamożności firmy.

Etapy analizy

Analiza biznesowa składa się z kilku standardowych etapów. Najpierw trzeba zdefiniować źródła i zakresy danych źródłowych. Następnie na bazie zaprojektowanego schematu wykonuje się ciąg analiz (nawet bardzo skomplikowanych, np. stworzenie drzewa decyzyjnego na podstawie wyników działania sieci neuronowej), które kolejno przybliżają do ostatecznego wyniku. Można też tworzyć równoległe ciągi analiz tak, by testować różne modele.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200