Przeszukiwanie danych

Informatyk wie, ile wysiłku wymaga znalezienie informacji w operacyjnej bazie danych.

Informatyk wie, ile wysiłku wymaga znalezienie informacji w operacyjnej bazie danych.

Nowoczesne techniki dogłębnego przeszukiwania informacji w operacyjnych bazach danych, znane pod angielską nazwą "data mining", przypominają trochę poszukiwanie szpilki w stogu siana, przy czym wcale nie wiadomo, co jest łatwiejsze.

Znalezienie kilku istotnych faktów w stosach danych w bazie oraz określenie, co te dane oznaczają, to ogromna praca. Poszukiwanie nie znanej uprzednio informacji w bazie danych ma służyć zwykle do podejmowania decyzji, które mogą zmienić całą przyszłość przedsiębiorstwa. Dogłębne przeszukiwanie danych wymaga stosowania zaawansowanych rozwiązań programistycznych, innowacyjnych metod, a czasem korzystania ze specjalistycznych usług konsultingowych.

Do czego używać?

Dogłębne przeszukiwanie danych jest najczęściej stosowane w następujących dziedzinach:

  • Marketing bezpośredni. Ma służyć do wybrania z dziesiątków czy setek tysięcy tych klientów, od których można spodziewać się odzewu na list, telefon, ofertę czy inną formę zachęty. Zwykle stosunek liczby odpowiedzi do liczy wysłanych listów czy ofert jest niesłychanie mały (uważa się, że kampania była udana, jeśli udało się uzyskać 1-2% odpowiedzi). Z tego powodu kampanie marketingu bezpośredniego są kosztowne. Jeżeli udałoby się więc wybrać "dobrych" kandydatów, nie tylko rośnie liczba odpowiedzi, ale także maleje koszt kampanii.

  • Analiza "koszyka" zakupów. Korzystając z nowoczesnych technik sprzedaży i dobrej bazy danych można dokładnie określić średni (typowy) lub największy koszyk zakupów, znaleźć preferencje klientów, korelacje między zakupami, a nawet podać zawartość pojedynczego koszyka. Zrozumienie sposobu wybierania towarów przez klienta pozwala nie tylko dostosować asortyment towarów do wymagań większości klientów, ale także ułatwia określenie najlepszego układu towarów na półkach, przygotowanie akcji promocyjnych i kampanii reklamowych.

  • Analiza odszkodowań. Pozwoli nie tylko określić najlepsze metody opracowania żądania odszkodowania, ale także pomoże wyeliminować wiele przypadków odszkodowań nienależnych lub zawyżonych.

    Jak widać z tych przykładów, główny cel dogłębnego przeszukiwania danych sprowadza się do określenia przyzwyczajeń klientów w celu poprawienia ich obsługi.

    Jak realizować?

    Tradycyjne dogłębne przeszukiwanie danych, to połączenie wielu technik: magazynowanie ogromnych danych w zbiorczej bazie (hurtowni) danych, przeszukiwanie tych danych na podstawie postawionej wcześniej hipotezy, interpretacja wyników, modyfikowanie hipotezy, powtórne przeszukiwanie itd.

    Taki system pracy ma jednak kilka poważnych wad. Po pierwsze, osoba analizująca dane musi najpierw odgadnąć, jakiej informacji poszukuje. Po drugie, musi ona wykazywać niesłychaną intuicję przy interpretacji uzyskanych wyników. Po trzecie zaś, cały proces stawiania hipotezy, weryfikowania, interpretacji jest długotrwały (samo przeszukanie dużej tabeli w bazie może trwać kilka lub kilkanaście godzin). Z tego powodu dużym wzięciem cieszą się techniki automatycznego wykrywania zależności w bazie.

    Jak działa?

    Wykrywanie zależności w bazie (na ogół w hurtowni danych niż w bazie operacyjnej) sprowadza się do kilku operacji:

  • Stworzenia modelu klasyfikacji i przewidywania (zachowania klienta, typowego koszyka zakupów, terminu zgłaszania szkody itp.). Modele tradycyjne posługują się metodami statystycznymi (regresja liniowa lub nieliniowa). W modelach modyfikowanych w miarę badania zależności można posługiwać się zbiorem zależności typu "jeśli ..., to ..." i badać je kolejno lub jednocześnie.

  • Analizy połączeń, służącej do określenia prawdziwych zależności między zapisami w bazie danych. Dom towarowy będzie zainteresowany typową zależnością: czy zakup koszuli wiąże się z zakupem krawata, zaś firma ubezpieczeniowa faktem, że każda szkoda zgłoszona przez Kowalskiego jest związana ze zgłoszeniem Nowaka.

  • Segmentacji bazy danych, służącej do wydzielenia rekordów bazy, które mają wspólne właściwości. Na przykład wydzielenie części bazy związanej z zakupami świątecznymi pozwoli określić typowy profil zakupów w tym czasie, zupełnie inny niż w sierpniu, przed początkiem roku szkolnego.

  • Znalezienia wyjątków, polegającego na wykryciu tych rekordów, które nie należą do poszczególnych segmentów bazy. Zadaniem analizy będzie wykrycie, czy są to przypadkowe zakłócenia standardowego rytmu, czy też też tworzą nowy wzór w bazie.

    Narzędzia

    Niezbyt wiele narzędzi nadaje się bezpośrednio do przeszukiwania danych i weryfikacji hipotez na temat zawartości baz danych. Prawie wszystkie pakiety do tworzenia zapytań ad hoc do bazy, takie jak Esperant (Software AG), Data Explorer (Intersolv), Impromptu (Cognos) i in., dają możliwość zadawania pytania, nie dają jednak możliwości automatycznego zmieniania i testowania warunków. Wiele z narzędzi do analizy danych OnLine Analytical Processing (OLAP) - Commshare Commander, narzędzia firmy SAS Institute, produkty z rodziny Oracle Express (opracowane przez IRI Software, obecnie filia Oracle) i in. mają większe możliwości w zakresie dogłębnej analizy danych. Jednakże ich możliwości w zakresie segmentacji i klasyfikacji są ograniczone.

    Istnieje specjalny pakiet narzędziowy IBM Visualizer and Data Interpretation System, współpracujący z bazami danych DB2 na różnych platformach, opracowany właśnie z myślą o dogłębnym przeszukiwaniu danych. Współpracując z katalogiem IBM DataGuide pozwala na łatwe znalezienie źródeł danych do analizy.

    W większości przypadków operacja dogłębnego przeszukiwania danych wymaga dobrego oprogramowania wybranego narzędzia lub napisania specjalistycznego programu do konkretnych potrzeb. I tu zapewne wielu firmom potrzebne będą usługi firm konsultingowych.


  • TOP 200