Głęboko w danych

Nowe techniki eksploracji danych umożliwiają niemal natychmiastowe uzyskiwanie wyników, na które kiedyś czekało się godzinami. Zdobywają więc popularność wśród analityków biznesowych, choć do niedawna były wyłącznie domeną naukowców.

Nowe techniki eksploracji danych umożliwiają niemal natychmiastowe uzyskiwanie wyników, na które kiedyś czekało się godzinami. Zdobywają więc popularność wśród analityków biznesowych, choć do niedawna były wyłącznie domeną naukowców.

Termin data mining pojawił się w prasie informatycznej i biznesowej przed ok. 5 laty, choć podstawy eksploracji danych sięgają początku XX wieku (rozwój statystyki) i lat 70. (sztuczna inteligencja i "uczenie się" maszyn). Dopiero jednak połączenie dorobku tych dziedzin w latach 90. zaowocowało powstaniem efektywnych technik eksploracji danych.

Bez statystyki nie ma eksploracji danych. Statystyka stanowi podstawę wszystkich technik badania zawartości informacyjnej zbiorów danych, niezależnie od ich charakteru. Klasyczna statystyka posługuje się takimi terminami, jak wnioskowanie statystyczne, testy istotności, przedziały ufności, rozkłady prawdopodobieństwa, analiza skupień (klastrów), analiza wariancji, wartość średnia, odchylenie standardowe i wiele innych.

Sztuczna inteligencja to drugi filar eksploracji danych. Dziedzina ta jest oparta na heurystyce i próbuje stosować metody zbliżone do ludzkiego myślenia do rozwiązywania problemów statystycznych. Największy rozwój sztucznej inteligencji nastąpił w latach 80., gdy pojawiły się stosunkowo tanie komputery o dużych mocach obliczeniowych. Sztuczna inteligencja nie dostarczyła jednak obiecywanych rozwiązań efektywnego symulowania procesów myślowych człowieka i niemal odeszła w zapomnienie.

"Uczenie" maszyn ma również swój udział w rozwoju narzędzi do eksploracji danych. Największe nakłady na tę dziedzinę asygnowało wojsko finansując tworzenie rozwiązań służących np. do rozpoznawania kształtów samolotów lub czołgów, które łączyły heurystyczne techniki sztucznej inteligencji z wyrafinowanymi metodami statystycznymi.

Współczesne narzędzia do eksploracji danych

Komercyjne narzędzia do eksploracji danych korzystają z wielu technik, takich jak:

  • decyzyjne

  • sieci neuronowe

  • analiza szeregów czasowych

  • indukcyjne wyszukiwanie reguł

  • wizualizacja

  • OLAP

  • zapytania ad hoc.
Każda z tych technik ma swoje zalety i wady. Niektóre realizują zadania samoczynnie, inne wymagają stałego udziału użytkownika, decydującego co zrobić z wynikami, jakie podjąć dalsze działania itd. Nie istnieje jedno narzędzie, które spełni wymagania i oczekiwania wszystkich użytkowników. Najczęściej trzeba posługiwać się kombinacją technik. W poszczególnych technikach eksploracji danych różny jest udział systemu i użytkownika.

Drzewa decyzyjne

Drzewa decyzyjne to sposób prezentowania wyników analizy w formie drzewa. Mając do dyspozycji dane zawarte w tabeli z wieloma kolumnami i wierszami, użytkownik wybiera jedną z kolumn jako cel analizy. Drzewo decyzyjne pokaże mu czynnik (kolumnę), która ma największy wpływ na wyniki uzyskiwane we wskazanym celu. Do niej dołączone będą, jak gałęzie do pnia, czynniki o coraz mniejszym wpływie na wynik.

Wynikiem analizy będzie więc drzewo, pokazujące wpływ poszczególnych czynników w tabeli na określony cel. Na podstawie kształtu drzewa użytkownik szybko stwierdza wpływ poszczególnych czynników na założony cel działań. Dobrze zaprojektowane drzewa decyzyjne pozwalają na zagłębianie się w dane i znalezienie tych, których wpływ na określony cel jest największy. Na ogół możliwe jest również "wycięcie" części drzewa (łącznie z danymi) do dalszej analizy za pomocą innych narzędzi, w tym arkuszy obliczeniowych.

Drzewa decyzyjne zostały opracowane w 1983 r. przez Rossa Quinlana z uniwersytetu w Sydney, jako rozwinięcie idei analizy głównych czynników interakcji. Jego algorytmy ID4, ID5 i ID6 są nadal używane, chociaż ostatnio większą popularność zyskuje algorytm Gini, opracowany przez Rona Brymana.

Sieci neuronowe

Ta technika jest najtrudniejsza do zrozumienia bez dogłębnych studiów matematycznych, choć jej stosowanie nie wymaga już specjalistycznej wiedzy.

Sieci neuronowe tworzą modele wzorów zawartych w danych, ale nie prezentują ich użytkownikowi. Oferują największe możliwości w zakresie analizy danych, ale nie pomagają w uzasadnieniu wyników. Nie najlepiej nadają się więc do analiz ekonomicznych i prognozowania przyszłych akcji. Nie są popularne w kręgach biznesowych. Największe zastosowania sieci neuronowych to analiza danych z eksperymentów biologicznych, medycznych itp.

Analiza szeregów czasowych

Analiza szeregów czasowych i inne statystyczne metody analizy danych wymagają od użytkownika dużego zaangażowania i dobrej znajomości matematyki na poziomie uniwersyteckim. Budowanie wiarygodnych modeli danych wymaga również dobrego rozeznania charakteru analizowanych danych, a wyjaśnienie wyników jest obarczone sporym bagażem doświadczenia interpretacyjnego analityka. Metody statystyczne w analizie danych biznesowych na ogół wymagają pomocy ze strony wykwalifikowanego specjalisty analityka.

Indukcyjne wyszukiwanie reguł

Termin ten oznacza wyszukiwanie w danych trendów albo reguł typu "co by było, gdyby".

Indukcyjne wyszukiwanie reguł realizuje oprogramowanie stosujące popularne algorytmy i metody wnioskowania statystycznego: CART, Gini, C4.5, CHAID. Narzędzia do wyszukiwania reguł nie podają informacji o ważności znalezionych reguł, prezentując je w kolejności znajdowania. Do ich uszeregowania można zastosować np. algorytm drzew decyzyjnych.

Wizualizacja

Właściwie trudno ściśle zdefiniować co to jest wizualizacja, mimo iż na rynku istnieją bardzo zaawansowane narzędzia do wizualizacji danych wielowymiarowych i wieloparametrowych, jak też proste programy prezentacyjne.

Dane do prezentacji nie są przetwarzane, z wyjątkiem grupowania, analityk musi więc podejmować decyzje, patrząc na obraz prezentowanych danych. Narzędzia wizualizacyjne zapewniają obszerne możliwości zmiany sposobu prezentacji - inny widok, inny wymiar czy przekrój.

OLAP i analizy ad hoc

Narzędzia do analizy danych online (OLAP) oferują użytkownikowi zaawansowane możliwości studiowania danych w różnych przekrojach i wymiarach przez obracanie hipersześcianów danych, tworzenie wycinków, sumowanie wg poszczególnych wymiarów i ich podzakresów. Pozwala to znaleźć w danych interesujące obiekty lub skierować analizę w pożądanym kierunku. Proces analizy OLAP podlega ścisłej kontroli użytkownika w trakcie ręcznego nawigowania po wielowymiarowych danych z hurtowni.

Analizy ad hoc pozwalają na uzyskanie odpowiedzi na pytania pojawiające się podczas analiz OLAP przez zadanie zapytania SQL do źródłowych baz danych. Wymagają znajomości struktur danych w bazie; mogą być obarczone dużymi błędami w razie niezbyt rygorystycznego sformułowania zapytania. W tym przypadku potrzebna jest dobra znajomość języka SQL. Mogą zakłócać działania aplikacji transakcyjnych, korzystających z bazy danych.

Przyszłość eksploracji

Narzędzia do wspomagania procesów podejmowania decyzji - Business Intelligence (BI) lub Decision Support Systems (DSS) - korzystają z danych operacyjnych i danych z hurtowni w celu dostarczania na biurko użytkownika potrzebnej mu informacji w formie wstępnie przygotowanych raportów lub odpowiedzi na zapytania ad hoc. Do analiz danych biznesowych najczęściej używa się narzędzi typu OLAP, wspomagających użytkownika w ręcznym badaniu zawartości informacyjnej baz danych.

Współczesne narzędzia analityczne coraz częściej korzystają z metod eksploracji danych w celu dostarczania wiarygodnych wyników osobom podejmującym decyzje. Narzędzia do eksploracji danych zapewniają możliwości automatycznego wykrywania zależności, tendencji, klas, grup i wzorów w danych. Wprawdzie użytkownik musi nadal starannie dobierać dane, które mają podlegać procesom obróbki, ale dalsze czynności wykonuje narzędzie. Eksploracja danych jest przydatna do analizy zbiorów zbyt dużych dla OLAP, zawierających dane zbyt "gęste" do ręcznej analizy lub zbyt trudne do intuicyjnego wyjaśnienia.

Do niedawna istniały poważne bariery w akceptacji programów do eksploracji danych jako narzędzi przydatnych w biznesie. Najważniejszy to koszt: najwydajniejsze narzędzia nadal kosztują ok. 20 tys. USD na jednego użytkownika. Ceny pozostałych rzadko wynoszą mniej niż 5 tys. USD. Obecnie pojawiły się już narzędzia, które kosztują ok. 1 tys. USD, co może przezwyciężyć barierę akceptacji w dużych i średnich przedsiębiorstwach.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200