Mity i fakty o eksploracji

Brak rzetelnej wiedzy na temat produktów do eksploracji danych powoduje, że szerzą się mity i obiegowe opinie, które bynajmniej nie ułatwiają decyzji dotyczącej wyboru produktu.

Brak rzetelnej wiedzy na temat produktów do eksploracji danych powoduje, że szerzą się mity i obiegowe opinie, które bynajmniej nie ułatwiają decyzji dotyczącej wyboru produktu.

Przed czterema laty dyżurnym tematem w informatyce były hurtownie danych; dwoma laty - narzędzia i aplikacje analityczne OLAP; obecnie jest to dogłębna eksploracja danych (data mining). Użycie i akceptacja tej technologii - podobnie jak w przypadku innych - przebiega w sposób falowy. Zaczyna się od zachwytu i entuzjazmu dla jej możliwości, a wiele przedsiębiorstw od razu kupuje nowe rozwiązania. Gdy okazuje się, że rzeczywistość wcale nie przystaje do wyobrażeń, przygoda z nową technologią kończy się powrotem sfrustrowanych i niezadowolonych użytkowników do dawnych, sprawdzonych metod.

Wiele z tego, co słyszy się na temat eksploracji danych, mało ma wspólnego z realiami. Tymczasem należy pamiętać, że eksploracja danych służy tylko "do wykrycia wzorów i zależności w danych w celu ułatwienia procesów podejmowania decyzji". Ani mniej, ani więcej.

Mity na temat eksploracji:

Eksploracja danych może dać zaskakujące wyniki, które całkowicie zmienią sposób prowadzenia biznesu.

Faktem jest natomiast, że wyniki eksploracji danych poprawią działanie sprawnej organizacji, ale będą to usprawnienia ewolucyjne, nie rewolucyjne. Eksploracja danych stosowana systematycznie wpłynie na poprawę wyników w każdym roku, dając po latach wymierne korzyści.

Techniki eksploracji danych są tak wyrafinowane, że mogą zastąpić wiedzę na temat biznesu lub doświadczenie w metodach analitycznych i budowaniu modeli.

Praktyka w stosowaniu technik analitycznych i eksploracyjnych dowodzi, że dobrze radzą sobie z nimi tylko osoby mające duże doświadczenie i wiedzę na temat prowadzonej działalności, procesów i zależności. Znajomość technik analitycznych nie wystarczy - analityk musi znać firmę. Nie ma się również co łudzić, że najlepsze techniki analityczne zastąpią myślenie. Prosty przykład: dobry analityk wykryje, że gdy zmieni się pewne parametry inwestowania, szybko można poprawić wyniki banku; jednakże tylko finansista może powiedzieć, czy jest to dopuszczalne (prawnie, zwyczajowo).

Narzędzia do eksploracji danych same wykryją wzorce i zależności, bez podpowiedzi, czego szukamy.

Narzędzia do eksploracji danych są najwydajniejsze wtedy, gdy z góry wskazujemy cel. Nie wystarczy wprowadzić listy klientów i oczekiwać, że narzędzie samo znajdzie nam najlepszą metodę marketingu bezpośredniego. Jeżeli jednak podamy dodatkowe dane określające wartość dokonywanych przez nich zakupów, zwiększymy szansę znalezienia rozwiązania.

Eksploracja jest użyteczna tylko w zastosowaniach marketingowych, analizach sprzedaży i wykrywaniu ozustw finansowych.

Nieprawda. Za pomocą narzędzi i metod eksploracyjnych można analizować każdy zbiór danych: pod kątem wydajności procesów chemicznych, produkcji żywności czy dystrybucji. Nie w każdym przypadku ma to jednak sens; czasem bardziej opłacalne może się okazać zastosowanie tradycyjnych metod.

Metody stosowane w eksploracji danych są fundamentalnie różne od tradycyjnych metod modelowania.

Większość metod stosowanych w eksploracji danych jest naturalnym rozszerzeniem metod analitycznych znanych statystykom od dziesięcioleci, a niektóre z nich były wykorzystywane już na początku XX w. Zasadnicza różnica polega na tym, że dostępność taniej mocy obliczeniowej i dużych zbiorów danych pozwala stosować je do analiz gospodarczych.

Proces eksploracji danych jest zbyt skomplikowany.

To algorytmy analityczne są skomplikowane, natomiast nowe narzędzia pozwalają na łatwe ich użycie, pod warunkiem że mamy dane dobrze przystosowane do działań analitycznych i interpretacji wyników: właściwy model danych, odpowiednia struktura metadanych odwzorowujących wyjściowe dane na procesy biznesowe.

Warto eksplorować tylko bardzo duże bazy danych.

Istotnie, narzędzia analityczne dają bardziej wiarygodne wyniki, gdy stosuje się je do dużych zasobów danych. Jest to normalne zjawisko w badaniach statystycznych. Jednakże nawet operując na niewielkich zasobach, można również uzyskać dobre wyniki.

Eksploracja danych jest bardziej skuteczna, gdy operuje się możliwie kompletnymi danymi na każdy temat.

Niekoniecznie. Większa liczba komponentów danych (kolumn w tabeli) poprawia jakość analiz tylko wtedy, gdy dodatkowe informacje wnoszą coś do przewidywanego celu analizy. Mit ten prowadzi do ładowania do hurtowni danych wszystkich posiadanych danych w przekonaniu, że jakość analiz będzie lepsza. Nie ilość decyduje o jakości i przydatności danych.

Eksploracja danych przeminie, podobnie jak inne modne techniki.

Mało prawdopodobne. Metody analityczne rozwijają się systematycznie od wielu lat, a ich stosowanie w gospodarce również ma wieloletnią historię. Obecnie można je wykonywać w sensownym przedziale czasowym. Będzie się je stosować coraz częściej i w coraz mniejszych organizacjach, gdyż narzędzia analityczne stają się powszechnie dostępne.