Odpowiedzi zamiast pytań

W świecie nauki w dziedzinie data mining dzieje się wiele, ale nie znajduje to prostego przełożenia na zastosowania biznesowe.

W świecie nauki w dziedzinie data mining dzieje się wiele, ale nie znajduje to prostego przełożenia na zastosowania biznesowe.

Pojęcie data mining można tłumaczyć jako "drążenie danych" bądź "dogłębne przeszukiwanie danych". Jest to badanie dużych zbiorów jednorodnych danych po to, aby odnaleźć ukryte związki i relacje, jakie zachodzą między danymi. O ile typowe analizy OLAP/ROLAP tworzą zestawienia poprzez agregację i przetworzenie danych, o tyle data mining pozwala przeszukiwać dane w sytuacji, w której nie wiemy, jakie pytanie można zadać. Tak ogólnie wygląda podstawowa idea data mining, jeszcze jednej dziedziny, wobec której stawiano zbyt wygórowane oczekiwania. Data mining miała bowiem być narzędziem, dzięki któremu w maksymalnym stopniu miało się udać "wyciskać" informacje ze zbiorów zgromadzonych danych. Dziś jest jedynie rozwiązaniem pomocniczym do określonej klasy systemów.

Data mining jest pojęciem wywodzącym się ze świata nauki. Kilka lat temu trafiło ono do nomenklatury biznesowej, ale obecnie firmy informatyczne wolą nie używać tego terminu w kontaktach z klientami. Data mining przestała być dziedziną samą w sobie, stając się jednym z elementów systemów, które służą do zaawansowanej analizy informacji bądź dzięki tej analizie działają. Data mining musi być jednym ze składników systemu wspomagania zarządzania, ale nie można skupiać się na data mining jako wydzielonym elemencie takiego systemu. Rozwiązania data mining adaptowali już producenci takich systemów. Oferują je również producenci rozwiązań hurtowni danych (SAS Institute, NCR czy IBM), narzędzi analitycznych OLAP (np. Cognos, Business Objects) czy też firmy specjalizujące się w zastosowaniach metod sztucznej inteligencji (NeuralWare, HNC Software i in.). Są to również firmy specjalizujące się wyłącznie w aplikacjach bazujących na data mining (np. Information Discovery Inc.).

Z nauki do biznesu

Data mining wywodzi się ze statystyki, w pełni wykorzystując osiągnięcia tej dziedziny. Dotyczy to w szczególności metod estymacji i weryfikacji stawianych hipotez statystycznych. Tutaj postęp teoretyczny nie jest zbyt szybki. Dynamicznie zmienia się natomiast drugi nurt, coraz wyraźniejszy w data mining - nowe metody bazujące na technikach sztucznej inteligencji, maszynowym uczeniu się (machine learing), drzewach decyzyjnych czy asocjacjach. Niektórzy postrzegają data mining jako specjalizowaną gałąź sztucznej inteligencji.

Granica między tymi dwiema podporami data mining w pewnym stopniu zaciera się, w zaawansowanych narzędziach statystycznych bowiem nie tylko stosowane są rozwiązania informatyczne, ale wprowadza się elementy z kręgu sztucznej inteligencji. Istotna różnica to podejście - o ile metody statystyczne to analiza danych z góry na dół (od ogólnych prawideł i wydzielonych agregacji danych schodzi się do bardziej szczegółowych informacji), o tyle w nowym podejściu wychodzi się od atomowych danych, szukając w nich ukrytych związków i zależności, co pozwala na stworzenie ogólnych prawidłowości.

Data mining musi operować na dużych zbiorach danych (na poziomie 1 mln rekordów). Do tego zaś nie wystarczy komputer PC, lecz potrzebne są zaawansowane konfiguracje sprzętowe hurtowni danych. By takie operacje się opłacały, to np. dla firmy mającej dane o 1 mln klientów analizy data mining powinny doprowadzić do wyselekcjonowania 200-tysięcznej grupy klientów, do których warto zwrócić się ze specjalną ofertą. Sposobem na ograniczenie liczby danych jest próbkowanie, czyli wyjmowanie grupy rekordów o typowej dla danego zbioru charakterystyce, i prowadzenie analiz na takiej próbce. Da to jednak zadowalające wyniki jedynie w przypadku analizowania typowych rekordów (klientów). Nie przystaje natomiast do badania nietypowych przypadków, a więc np. wychwytywania sytuacji niebezpiecznych (oszustw przy płatnościach kartami kredytowymi) czy określania przyczyn wzrostu parametru Churn, czyli rezygnowania klientów z usług danej firmy. Aby zapobiec zjawisku Churn np. w firmie telekomunikacyjnej, trzeba spośród wszystkich klientów wyselekcjonować tych, którzy zamierzają skorzystać z usług innego operatora. Oczywiście, nie odbywa się to przez ankietowanie klientów, ale analizę opartą na technikach data mining, m.in. charakterystyki ich billingu. Zakłada się tutaj, że osoby zamierzające opuścić firmę powtarzają pewne charakterystyczne wzorce w zmianach częstotliwości i rodzaju prowadzonych przez siebie rozmów. Można wówczas oddziaływać na takie osoby poprzez specjalnie dla nich przeznaczone akcje marketingowe. Każdego klienta może opisywać kilkaset różnych parametrów składających się na dane przechowywane w bazie (hurtowni danych). Ich analiza za pomocą klasycznych narzędzi może się okazać przede wszystkim zbyt wolna (wcześniej opuszczą oni firmę niż uda się zakończyć potrzebne analizy). Tutaj właśnie przydaje się data mining.


TOP 200