Złoto w zasięgu ręki

Czy w wielkich hałdach danych piętrzących się w strukturach informatycznych przedsiębiorstw można znaleźć cenny kruszec? Średniej wielkości przedsiębiorstwo produkuje terabajty danych: informacje o klientach, dostawcach, transakcjach z dostawcami i rekordy danych wewnętrznych. Wśród nich można spotkać prawdziwe skarby, mogące pomóc w rozwiązywaniu problemów biznesowych i właściwym podejmowaniu decyzji strategicznych. Eksploracja danych (data mining) umożliwia ich znalezienie.

Czy w wielkich hałdach danych piętrzących się w strukturach informatycznych przedsiębiorstw można znaleźć cenny kruszec? Średniej wielkości przedsiębiorstwo produkuje terabajty danych: informacje o klientach, dostawcach, transakcjach z dostawcami i rekordy danych wewnętrznych. Wśród nich można spotkać prawdziwe skarby, mogące pomóc w rozwiązywaniu problemów biznesowych i właściwym podejmowaniu decyzji strategicznych. Eksploracja danych (data mining) umożliwia ich znalezienie.

Dzisiejsze możliwożci zarówno zaawansowanego sprzętu, jak i systemów zarządzania bazami danych zachęcają do eksploracji danych. Gwałtownie spadają koszty pamięci dyskowych, pozwalających przedsiębiorstwom na przechowywanie coraz większych wolumenów danych. Także coraz szybsze procesory i zaawansowana technologia przetwarzania symetrycznego usuwają wiele niedawnych jeszcze przeszkód w eksploracji danych.

Data mining nie jest magiczną różdżką i nie zastępuje dobrego analityka biznesowego. Nie dotyczy ona bieżącej obserwacji danych na serwerach w poszukiwaniu interesujących trendów. Jest natomiast procesem rozszerzającym tradycyjne analizy statystyczne, w którym używa się narzędzi analitycznych do odkrywania ukrytych wzorców i powiązań w danych, które mogą być następnie użyte do uzasadniania prognoz biznesowych.

Eksploracja danych ma duże zastosowanie w wielu gałęziach przemysłu. Niektóre przedsiębiorstwa używają eksploracji danych do kierowania interakcjami z klientem.

Poszukiwanie bryły złota

Działania zmierzające do skutecznej eksploracji danych powinny mieć charakter kolejnych przybliżeń, a nie procesu liniowego. Kilka podstawowych kroków jest wspólnych dla wszystkich kategorii eksploracji danych.

Krok pierwszy - zdefiniowanie problemu biznesowego - jest oczywisty. Nawet najlepsza technologia eksploracji danych wymaga, aby problem został określony tak precyzyjnie, jak to tylko możliwe. Na przykład zdefiniowanie problemu w sposób następujący "zwiększenie sprzedaży w regionie X" będzie prowadziło do gorszych wyników niż "zwiększenie zamówień dla linii produktów Y w regionie X". Przykłady można mnożyć. Konkluzja jest taka, że jeżeli stawiane pytania są bardzo ogólne, to w praktyce działania eksploracyjne są często bezowocne. Problemy te muszą być zawężone do specyficznych celów.

W procesie eksploracji danych konstruowanie własnej eksploracyjnej bazy danych może zajmować bardzo dużo czasu - w zależności od warunków i złożoności danych. Po pierwsze, należy określić położenie danych potrzebnych do skonstruowania takiej bazy - mogą one znajdować się w operacyjnych lub transakcyjnych bazach danych albo być przechowywane w składnicach danych (data warehouse).

Po zidentyfikowaniu odpowiednich źródeł danych trzeba opisać dostępne z tych źródeł te elementy danych, które mają być brane pod uwagę. Niezbędne tu będzie utworzenie raportu wyszczególniającego atrybuty danych - ich typ, zakres wartości itp. Następnie należy zidentyfikować, jaki podzbiór danych jest potrzebny do rozwiązania problemu biznesowego.

Po wybraniu podzbiorów danych analitycy powinni eksplorować je pod kątem jakościowym, w celu określenia niezbędnego zakresu ich oczyszczania. Oczyszczanie jest niezwykle istotne dla dokładności wyników eksploracji danych.

Złoto w zasięgu ręki

Przykłady rozwiązań

Proces oczyszczania dotyczy pól, które mogą zawierać niezidentyfikowane lub niepoprawne dane, oraz pól z problemami składniowymi. Prawdopodobnie nie zawsze uda się rozwiązać wszystkie problemy związane z danymi, ale podjęcie próby ich oczyszczenia przed procesem eksploracji może znacznie poprawić szansę uzyskania zadowalających wyników.

W kolejnym kroku analitycy powinni określić, jakie metadane będą potrzebne dla eksploracji, a następnie zdefiniować i wykonać proces ładowania bazy danych eksploracji. Proces ten powinien być powtarzalny, gdyż dane mogą się zmieniać bardzo szybko.

Po zbudowaniu bazy danych eksploracji należy wykonać eksplorację, która pozwoli przygotować właściwe modelowanie. Można używać narzędzi OLAP (OnLine Transaction Processing) lub innych wspomagających eksplorację do wybierania zmiennych i wierszy bazy danych oraz do tworzenia zmiennych pochodnych. Ta wstępna eksploracja danych pozwala określić najlepszy model, jaki należy zastosować do eksploracji danych.

Model właściwie dobrany

W eksploracji danych mogą być stosowane różne modele. Wstępna eksploracja danych może być krokiem w kierunku jednego modelu eksploracji. Jednakże eksploracja, w której stosuje się różne modele do problemów biznesowych, daje większe prawdopodobieństwo znalezienia takiego, który pozwoli osiągnąć najlepsze wyniki.

Po skonstruowaniu modelu danych należy zweryfikować, czy jest to model najlepszy z możliwych. Wymaga to zazwyczaj wykonania wstępnego przebiegu procesu eksploracji danych na małym podzbiorze bazy danych eksploracyjnych. Sprawdzenie współczynnika błędów i rezultatów takiej eksploracji może zapewnić dobrą ocenę tego, czy wybrany model spełnia oczekiwania.

Innym podejściem jest sprawdzenie modelu na małym podzbiorze rzeczywistych danych i porównanie rezultatu z wynikami z bazy danych eksploracyjnych. Jest to szczególnie użyteczne, kiedy pewne elementy danych mogą dawać różne wyniki eksploracji.

Gdy model zostanie zweryfikowany i wykonany, przychodzi moment przeglądania wyników i określenia akcji, jakie mają być podjęte, lub użycia modelu do dołączenia dalszych reguł biznesowych do istniejących zestawów danych. Może to przybierać formę flag, które są ustawiane, gdy poszczególne zestawy danych spełniają reguły modelu.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200