Odkrywanie elektronicznej wiedzy

Firma dysponująca już hurtownią, może eksplorować zgromadzone w niej dane. Oznacza to, że może dotrzeć do niedostępnej jej dotychczas wiedzy.

Firma dysponująca już hurtownią, może eksplorować zgromadzone w niej dane. Oznacza to, że może dotrzeć do niedostępnej jej dotychczas wiedzy.

Znajomość cech, które wyróżniają potencjalnych nabywców określonych towarów czy też wiedza o wzajemnych zależnościach między wartościami sprzedaży różnych typów produktów, może zdecydowanie przyczynić się do powodzenia danego przedsięwzięcia marketingowego.

Choć przez wiele lat tego typu wiedzę pozyskiwano w wyniku statystycznych badań rynkowych, to dzisiaj coraz częściej docenia się ogromny potencjał ukryty wewnątrz hurtowni danych. W efekcie poważnych inwestycji w infrastrukturę informatyczną, zarówno operacyjne bazy danych, jak i hurtownie danych przechowują znaczne ilości danych, między którymi mogą być znalezione pewne statystyczne reguły, związki, trendy i schematy, technicznie nazywane wiedzą.

Pozyskiwanie wiedzy na podstawie zawartości bazy lub hurtowni danych jest zazwyczaj realizowane w dwóch etapach. Najpierw należy sformułować pewną hipotezę (np. "klienci, którzy kupują słone paluszki i orzeszki, kupują również napoje gazowane"), a następnie dokonać weryfikacji jej poprawności w bazie danych (np. zliczając, w ilu przypadkach klienci zakupili wszystkie z wymienionych produktów). Narzędzia OLAP, zwykle kojarzone z hurtowniami danych, pozwalają sprawnie realizować tylko drugi etap podanej procedury. Niestety, hipotezy najczęściej muszą być efektem pomysłowości i intuicji użytkownika. Przy bardzo dużej ilości wymiarów analizowanych danych, co jest cechą charakterystyczną dla hurtowni danych, podejście to zdecydowanie ogranicza jakość uzyskiwanych wyników. Aby zrozumieć skalę problemu wyobraźmy sobie, że dla znalezienia wszystkich statystycznych zależności między dziesięcioma wymiarami użytkownik musiałby wykonać ok. tysiąca różnych zapytań (hipotez), a dla pięćdziesięciu wymiarów liczba zapytań przekroczyłaby 1015! Oczywiście każde z zapytań musiałoby przeszukiwać prawdopodobnie gigabajtową hurtownię danych.

Szukanie zależności

Pomysły na automatyzację obu etapów procesu pozyskiwania wiedzy z baz danych doczekały się praktycznej realizacji dopiero kilka lat temu, pod wspólnym hasłem data mining. Technologia data mining, tłumaczona najczęściej jako eksploracja danych lub odkrywanie wiedzy w bazach danych, polega na automatycznym tworzeniu i weryfi- kowaniu poprawności wszystkich możliwych hipotez, co pozwala na odkrywanie w bazie lub hurtowni danych statystycznie ważnych reguł i zależności, stanowiących wiedzę potencjalnie użyteczną do wspomagania podejmowania decyzji. Algorytmy eksploracji danych są zwykle bardzo czasochłonne i pamięciochłonne, w związku z czym wymagają zaawansowanych platform sprzętowych. Odkrywana wiedza jest najczęściej reprezentowana w formie reguł logicznych "IF... THEN...", drzew decyzyjnych lub sieci neuronowych.

Dla zilustrowania istoty eksploracji danych przyjrzyjmy się kilku jej przykładowym zastosowaniom:

Firma ubezpieczeniowa wykorzystuje swoją hurtownię danych do odkrywania reguł zachodzących między atrybutami opisującymi właściciela pojazdu a wartością spowodowanych przez niego szkód. Znalezione reguły posłużą do precyzyjnego określania optymalnych wysokości przyszłych składek ubezpiecze- niowych. Przykładową regułą tego typu może być: "IF wiek_kierowcyZ THEN wartość_szkody > 25000".

Sieć supermarketów analizuje rejestr zakupów dokonywanych przez klientów w celu odkrycia zbiorów tych towarów, które najczęściej są kupowane wspólnie. Analiza taka może posłużyć do zaplanowania kampanii promocyjnej, projektowania katalogów wysyłkowych, rozmieszczenia towarów w supermarketach itp. Przykładowo, gdybyśmy odkryli, że w 80% zakupowi towaru X towarzyszy zakup towaru Y, wtedy być może bezcelowe byłoby organizowanie promocyjnej obniżki cen dla towarów X i Y w tym samym czasie.

Operator telekomunikacyjny, zaniepokojony regularną utratą swoich dotychczasowych klientów, odkrywa cechy wyróżniające klientów rezygnujących z usług. Następnie można rozpocząć stosowne działania marketingowe, skierowane do aktualnych klientów mających owe cechy (np. poprzez wprowadzenie odpowiednich planów taryfowych).