Data mining od podszewki

Klasy lub klasyfikacja. Zawiera informacje mające wspólne właściwości, np. wszystkie osoby mające Eurokonto i konto dewizowe, ale bez kredytu na zakup samochodu. Pakiet do dogłębnej analizy danych korzysta z metod rozpoznawania wzorców do ich znalezienia.

Klastry lub kategorie. Są to podzbiory klas, zawierające wzory i zależności, które nie zostały eksplicite zdefiniowane. Narzędzie, przeszukując dane osobowe w banku, może wykazać, że 80% osób samotnych używa kart kredytowych wyłącznie w restauracjach, podczas gdy 90% osób zamężnych-żonatych używa ich tylko do zakupów.

Asocjacje. Są związane ze zdarzeniami. Typowy przykład podawany w literaturze przedmiotu dotyczy kupowania: 70% osób kupujących garnitur jednocześnie kupuje do niego krawat.

Sekwencje. Podobnie jak asocjacje są związane ze zdarzeniami, ale o charakterze czasowym: istnieje 70% szans, że osoba kupująca samochód, w ciągu miesiąca kupi do niego radio.

Prognozy. Dotyczy możliwości prognozowania faktów w przyszłości, bazując na aktualnej wiedzy. Obejmują właściwie każdą dziedzinę działalności handlowej i produkcyjnej - od przewidywania liczby zamówień, rozwoju sprzedaży, kierunków rozwoju produkcji, liczby zatrudnionych itp.

Podobne sekwencje. Po znalezieniu pewnej sekwencji w danych, analityk może chcieć znaleźć sekwencje o podobnym charakterze, związane z innym obiektem w bazie lub czasem.

Nowe wcielenia i oferta rynkowa

Algorytmy stosowane do dogłębnej analizy danych w większości opracowano w ramach prac nad sztuczną inteligencją. Nie powinno więc dziwić, że większość firm oferujących odpowiednie produkty albo dawniej zajmowała się tą dziedziną nauki, albo została utworzona przez byłych pracowników takich firm. Sieci neuronowe, motory wnioskowania (inference engine), drzewa decyzyjne, klasyfikacje - to techniki z dziedziny sztucznej inteligencji.

Jeden z ojców sztucznej inteligencji Edward A. Feigenbaum i twórca centrum badań w tej dziedzinie na Uniwersytecie Stanford, zauważył, że nawet najlepsza technologia nie wystarczy: trzeba móc ją sprzedać. Założył więc firmę IntelliCorp, wciąż zajmującą się produkcją i sprzedażą obiektowych baz danych, systemów ekspertowych i narzędzi do dogłębnej analizy danych.

Firma HNC Software, jeden z największych dostawców technologii dogłębnej analizy danych, rozpoczęła w 1980 r. działalność jako Hecht-Nielsen Neurocomputer, twórca sieci neuronowych. Jej najnowsze narzędzie - Convectis - służy do analizy danych o niezbyt dokładnie sprecyzowanej strukturze (tekst, ilustracje), dostępnych głównie w Internecie. Pozwala na znajdowanie kontekstu i zawartości w danych. Firma InfoSeek, twórca jednego z serwisów poszukiwań w Internecie, zamierza włączyć Convectis jako składniki robota przeszukującego Internet.

Firma NeuralWare to również weteran sztucznej inteligencji. Obecnie dostarcza pakiet NeuralWorks Predict do dogłębnej analizy danych.

IBM - zwykle wyprzedzająca konkurencję, jeśli chodzi o badania podstawowe w wielu dziedzinach informatyki i jednocześnie znana z opóźnionego ich wprowadzania na rynek - dostarcza bardzo ceniony produkt o nazwie Intelligent Miner.

Inne firmy o ustalonej pozycji w innych dziedzinach działalności informatycznej - SAS Institute, Silicon Graphics, NCR - oferują także pakiety do dogłębnego drążenia danych.

Również twórcy typowych narzędzi do raportowania i analiz typu OLAP, przeznaczonych do aplikacji wspomagania podejmowania decyzji - Business Objects i Cognos - dostosowują swoje produkty do współpracy z komercyjnymi produktami typu data mining. Aby uzyskać lepszą pozycję na rynku, Cognos wykupił firmę Right Information Systems i oferuje produkt 4Thought do modelowania i prognozowania działalności gospodarczej.


TOP 200