Analiza zanalizowana

Nowoczesne techniki analizy danych nie ograniczają się do przeszłości, pozwalają również tworzyć prognozy.

Nowoczesne techniki analizy danych nie ograniczają się do przeszłości, pozwalają również tworzyć prognozy.

Liczba danych gromadzonych w systemach informatycznych zwiększa się mniej więcej dwukrotnie w ciągu 20 miesięcy. Ile z tych niezliczonych danych kiedykolwiek zostanie wykorzystanych? Komputery, które miały przynieść strumienie informacji, zalewają nas potopem danych. Zaawansowane narzędzia analizy danych pozwalają ten stan zmienić.

W większości firm podstawowym systemem analizy pozostaje arkusz kalkulacyjny. W praktyce prawie zawsze jest to Excel - narzędzie o coraz bardziej rozbudowanych funkcjach i przyjaznym interfejsie użytkownika. "Excela używa się wszechstronnie, w sposób mniej lub bardziej zgodny z intencją autorów tego oprogramowania. Najbardziej wyrafinowane mechanizmy analizy danych są wykorzystywane bardzo rzadko. Excel pełni natomiast istotne funkcje w gromadzeniu danych" - twierdzi Tomasz Kibil, dyrektor Departamentu Systemów Wspomagających Zarządzanie w Polkomtelu. Chodzi tu chociażby o bazujące na przyzwyczajeniach użytkowników tworzenie wzorców przechowywania danych. Użytkownicy przyznają, że dostawcy rozwiązań EIS czy MIS na razie nie potrafią zaoferować nakładek, które dorównywałyby jakością Excelowi. "Moc przeliczeniowa Excela kończy się dosyć szybko, ale prawie zawsze arkusz kalkulacyjny poradzi sobie z odpowiednio skonstruowanymi agregatami" - mówi Marcin Szumielewicz, starszy specjalista ds. analiz i statystyk w grupie Allianz. Niestety, Excel nie skłania do porządkowania i dokumentowania pracy. "W praktyce rozwiązania tworzone za pomocą Excela są zrozumiałe tylko dla ich autora i funkcjonują sprawnie do czasu wprowadzenia pierwszej poważnej zmiany po jego odejściu z pracy" - twierdzi Tomasz Kibil.

Zwykle pierwszym krokiem w kierunku wprowadzenia analizy danych jest potrzeba mało wyrafinowanego raportowania, wynikająca z tradycyjnego hierarchicznego modelu zarządzania. Tutaj niezastąpione są techniki OLAP (Online Analitycal Processing). OLAP pozwala na analizowanie tego, co się wydarzyło na podstawie danych o przeszłości. Jest najbardziej popularny, bo zrozumiały, a co więcej pracownikom działu IT łatwo stworzyć narzędzia do obsługi OLAP. Predefiniowane raporty są przydatne, ale wystarczają jedynie na początku. Złośliwi twierdzą, że posługiwanie się samym OLAP jest jak prowadzenie samochodu patrząc tylko we wsteczne lusterko - im szybciej się jedzie, tym bardziej staje się to niebezpieczne.

Komputer odgrywa tu pasywną rolę. Użytkownik określa, jakie atrybuty należy wyświetlić, co ma być policzone do wyświetlenia w postaci graficznej czy zaprezentowania w formie raportu. Można oczywiście wchodzić w głąb, dochodząc do danych coraz bardziej szczegółowych, ale nadal użytkownik pozostaje odpowiedzialny za identyfikowanie interesujących trendów czy powiązań. Zalew danych może sprawić, że nawet najlepiej przygotowany użytkownik zgubi wartościowe informacje. Kłopoty pojawiają się wtedy, gdy badane obiekty są opisywane nie przez kilka, lecz kilkaset atrybutów. Prezentacja takich informacji staje się wręcz niemożliwa. Wielowymiarowe kostki nastręczają użytkownikom sporo kłopotów pojęciowych. Typowy arkusz jest łatwo zrozumiałą strukturą dwuwymiarową. "Przy trzecim wymiarze zaczynają się kłopoty, zaś kolejne są już trudne do zaakceptowania z uwagi na brak możliwości odwołania się do otaczającej rzeczywistości" - uważa Tomasz Kibil. Tymczasem większość praktycznych analiz jest prze- prowadzana z wykorzystaniem kostek wielowymiarowych. Tutaj potrzebne są umiejętności analityczne. Można wprawdzie korzystać ze specjalizowanych pakietów (np. do analizy zdolności kredytowej), ale nie sprzyja to budowaniu kompetencji wewnątrz firmy. Zauważalnym zjawiskiem jest natomiast pojawienie się schematów, wg których trzeba prowadzić wdrożenia systemów zaawansowanej analizy danych. To np. standard CRISP-DM (Cross Industry Standard Process for Data Mining), który ma usystematyzować podejście do tworzenia systemów data mining w typowych przypadkach.

Szukać głębiej

Gdy potrzeby informacyjne przedsiębiorstwa rosną, przychodzi czas na stosowanie technik data mining. Przynajmniej w założeniach powinny one stymulować myślenie o tym, co stanie się w przyszłości, często jednak są narzędziem pomocniczym przy rafinacji bardziej standardowych analiz.

Data mining na pierwszy rzut oka wydaje się trudny, nasycony żargonem i tajemniczą dla laika wiedzą matematyczno-sta-tystyczną. Co więcej, sprawia wrażenie narzędzia pomocniczego jedynie dla wąskiej grupy specjalistów w firmie. Tym samym inwestowanie w takie rozwiązania wydaje się mało sensowe i ryzykowne.

Przykłady udanych wdrożeń dowodzą jednak, że taka zaawansowana analiza danych pomaga wykrywać nadużycia i błędy, usprawniać produkcję, poznawać obecnych i potencjalnych klientów, generalnie optymalizować działalność. Umożliwia również przyspieszenie uzyskania zwrotu środków zainwestowanych w inne systemy Business Intelligence, takie jak hurtownie danych. Główna wartość hurtowni leży bowiem w informacjach, które można uzyskać poprzez dogłębną analizę znajdujących się w niej danych.

Z wielu miejsc

Najważniejszą cecha danych jest ich jakość. Dane są surowcem, materiałem, na którym się pracuje. Ocenia się, że w zastosowaniach data mining ponad 70% czasu zajmuje dostęp do danych, ich przygotowanie i czyszczenie. "Intuicja, doświadczenie i podstawy teoretyczne, jakimi dysponuje analityk, bez wątpienia są ważne, ale nie zrównoważą negatywnych efektów korzystania z danych o złej jakości" - uważa Tomasz Kibil. "Intuicja i doświadczenie są bardzo przydatne przy weryfikacji efektów pracy z systemami data minig, w szczególności do oceny danych wejściowych" - twierdzi Jarosław Baluch, naczelnik Wydziału Baz Danych w Departamencie Marketingu w ING Bank Śląski. W przypadku ogromnej ilości analizowanych danych i ich wielowymiarowego charakteru narzędzia wydatnie skracają czas pracy.

Eksploracja danych pozwala na zdiagnozowanie, czy zbiory są spójne i wystarczające, czy przyjęto właściwe miary, na ile pewne są uzyskane konkluzje. Statystyka ma umożliwić zminimalizowanie znaczenia zmienności zjawisk przy określaniu reguł nimi rządzącymi. "Istotnym elementem przy zaawansowanej analizie danych jest kreatywność. Inaczej wpada się w schematy i trudno liczyć na przełomowe wyniki analizy" - podkreśla Tomasz Kibil.

Zastosowanie narzędzi informatycznych nie wystarczy, by osiągnąć sukces, niezbędna jest trafna decyzja menedżera na podstawie dobrze przeprowadzonej i odpowiednio zinterpretowanej analizy. Niewiele jest systemów, w których na podstawie wyników modelowania można automatycznie zmienić działania operacyjne. Nielicznym wyjątkiem są aplikacje CRM, gdzie po niemal automatycznym zidentyfikowaniu grup klientów można zastosować odpowiednią kampanię marketingową. A najważniejsza jest efektywność - dlatego lepsza jest zwykła analiza, które wyniki są dostępne szybko, niż zaawansowany data mining, jeśli uzyskane dzięki niemu wyniki będą spóźnione w stosunku do tempa zmian stanu rynku.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200