Przeszukiwanie danych
- Marian Łakomy,
- 22.04.1996
Informatyk wie, ile wysiłku wymaga znalezienie informacji w operacyjnej bazie danych.
Informatyk wie, ile wysiłku wymaga znalezienie informacji w operacyjnej bazie danych.
Nowoczesne techniki dogłębnego przeszukiwania informacji w operacyjnych bazach danych, znane pod angielską nazwą "data mining", przypominają trochę poszukiwanie szpilki w stogu siana, przy czym wcale nie wiadomo, co jest łatwiejsze.
Znalezienie kilku istotnych faktów w stosach danych w bazie oraz określenie, co te dane oznaczają, to ogromna praca. Poszukiwanie nie znanej uprzednio informacji w bazie danych ma służyć zwykle do podejmowania decyzji, które mogą zmienić całą przyszłość przedsiębiorstwa. Dogłębne przeszukiwanie danych wymaga stosowania zaawansowanych rozwiązań programistycznych, innowacyjnych metod, a czasem korzystania ze specjalistycznych usług konsultingowych.
Do czego używać?
Dogłębne przeszukiwanie danych jest najczęściej stosowane w następujących dziedzinach:
Jak widać z tych przykładów, główny cel dogłębnego przeszukiwania danych sprowadza się do określenia przyzwyczajeń klientów w celu poprawienia ich obsługi.
Jak realizować?
Tradycyjne dogłębne przeszukiwanie danych, to połączenie wielu technik: magazynowanie ogromnych danych w zbiorczej bazie (hurtowni) danych, przeszukiwanie tych danych na podstawie postawionej wcześniej hipotezy, interpretacja wyników, modyfikowanie hipotezy, powtórne przeszukiwanie itd.
Taki system pracy ma jednak kilka poważnych wad. Po pierwsze, osoba analizująca dane musi najpierw odgadnąć, jakiej informacji poszukuje. Po drugie, musi ona wykazywać niesłychaną intuicję przy interpretacji uzyskanych wyników. Po trzecie zaś, cały proces stawiania hipotezy, weryfikowania, interpretacji jest długotrwały (samo przeszukanie dużej tabeli w bazie może trwać kilka lub kilkanaście godzin). Z tego powodu dużym wzięciem cieszą się techniki automatycznego wykrywania zależności w bazie.
Jak działa?
Wykrywanie zależności w bazie (na ogół w hurtowni danych niż w bazie operacyjnej) sprowadza się do kilku operacji:
Narzędzia
Niezbyt wiele narzędzi nadaje się bezpośrednio do przeszukiwania danych i weryfikacji hipotez na temat zawartości baz danych. Prawie wszystkie pakiety do tworzenia zapytań ad hoc do bazy, takie jak Esperant (Software AG), Data Explorer (Intersolv), Impromptu (Cognos) i in., dają możliwość zadawania pytania, nie dają jednak możliwości automatycznego zmieniania i testowania warunków. Wiele z narzędzi do analizy danych OnLine Analytical Processing (OLAP) - Commshare Commander, narzędzia firmy SAS Institute, produkty z rodziny Oracle Express (opracowane przez IRI Software, obecnie filia Oracle) i in. mają większe możliwości w zakresie dogłębnej analizy danych. Jednakże ich możliwości w zakresie segmentacji i klasyfikacji są ograniczone.
Istnieje specjalny pakiet narzędziowy IBM Visualizer and Data Interpretation System, współpracujący z bazami danych DB2 na różnych platformach, opracowany właśnie z myślą o dogłębnym przeszukiwaniu danych. Współpracując z katalogiem IBM DataGuide pozwala na łatwe znalezienie źródeł danych do analizy.
W większości przypadków operacja dogłębnego przeszukiwania danych wymaga dobrego oprogramowania wybranego narzędzia lub napisania specjalistycznego programu do konkretnych potrzeb. I tu zapewne wielu firmom potrzebne będą usługi firm konsultingowych.