Poszukiwanie informacji

Drążenie danych a przeszukiwanie tekstów

Istnieje zasadnicza różnica między sposobem podejścia w drążeniu danych do źródeł danych strukturalnych a danych tekstowych. Dane strukturalne w zasadzie nie mają zawartości semantycznej. Jeżeli wiek osoby został zapisany błędnie, to nie można go skorygować na podstawie innych danych w tym samym rekordzie. Program drążenia może więc dać błędne wyniki, gdyż opiera się na błędnych lub brakujących przesłankach.

Program drążenia musi więc być poprzedzony programami czyszczącymi dane wejściowe, gromadzącymi je w oddzielnej składnicy danych, zwykle zwanej hurtownią danych. Zagadnienie uzyskiwania właściwej jakości danych w składnicy jest zresztą niesłychanie skomplikowane i - z wyjątkiem szczególnych przypadków - nie znalazło zadowalającego rozwiązania.

Natomiast w przypadku danych tekstowych nie ma potrzeby wstępnej obróbki danych. Nie istnieje tu pojęcie poprawności dokumentu: ważna jest poprawność jego zawartości. Programy logiki rozproszonej (fuzzy logic) i sieci neuronowe dobrze radzą sobie z różnymi odmianami tego samego obiektu lub koncepcji, takimi jak prezydent Wałęsa, Lech Wałęsa i Wałęsa, dzięki inteligentnemu zastosowaniu tzw. wyrażeń regularnych i form kanonicznych.

Przykładem czynnika powodującego konieczność dysponowania dobrymi narzędziami do poszukiwania danych w dokumentach tekstowych jest konieczność utrzymywania ścisłych kontaktów z klientami na konkurencyjnym rynku. Większość komunikacji z klientem ma charakter werbalny lub tekstowy; jeżeli więc dysponujemy odpowiednim repozytorium zapisów takiej komunikacji oraz narzędziami do analizy danych tekstowych, możemy lepiej i szybciej obsługiwać klienta oraz oferować mu usługi, które nie są oczywiste ani dla niego, ani dla oferenta.

Drugim czynnikiem wymuszającym rozwój narzędzi do analizy dokumentów jest szybki przyrost ilości informacji w Internecie.

Każdy program poszukiwania informacji w tekstach buduje najpierw indeks - coś w rodzaju katalogu w bibliotece. Podczas poszukiwania nie odwołuje się bezpośrednio do dokumentów (które mogą znajdować się na zdalnych komputerach), lecz do lokalnego pliku indeksowego. Do poszukiwania dokumentów najczęściej stosuje się dwie metody: poszukiwania boolowskiego, klasyfikującego dokumenty na dwie rozłączne klasy - spełniającą kryterium poszukiwania i nie spełniającą kryterium, oraz metodę określania przydatności dokumentu (relevance ranking), wyrażaną na ogół w procentach. W tym drugim przypadku przydatne są metody logiki rozproszonej i teoria miary.

IBM Intelligent Miner for Data

IBM oferuje jeden z najbardziej zaawansowanych programów do drążenia danych strukturalnych: Intelligent Miner for Data. Wbudowano w nim większość znanych algorytmów poszukiwania wzorców w danych numerycznych i alfanumerycznych, wynik wieloletniego doświadczenia firmy i rozległych badań prowadzonych przez jej laboratoria badawcze.

Aby użytkownicy zajmujący się poszczególnymi dziedzinami gospodarki nie musieli zajmować się konkretnymi problemami analitycznymi (np. określeniem schematu klasyfikacji), IBM opracował serię produktów o nazwie IBM Discovery Series, skierowanych dziedzinowo do różnych odbiorców w przemyśle, handlu i usługach.

IBM Intelligent Miner for Text

Podstawę pakietu programów IBM Intelligent Miner for Text stanowi motor poszukiwania TextMiner. Ma on wbudowane zaawansowane cechy funkcjonalne, w tym klasyfikacje i określanie przydatności. Obsługuje boolowskie, pełnotekstowe, hybrydowe (boolowskie połączone z pełnotekstowym) i fonetyczne przeszukiwanie tekstów. Przeszukiwanie fonetyczne (zbliżona wymowa) jest realizowane w jednym z 16 automatycznie rozpoznawanych języków (język polski nie jest jednak obsługiwany). TextMiner może służyć jako baza do budowy specyficznych aplikacji dziedzinowych.

W skład pakietu wchodzi również NetQuestion do budowy w lokalnej sieci intranet zestawu do analizy i przeszukiwania dokumentów tekstowych oraz WebCrawler, samodzielny robot analizujący kolejne lokalizacje Web (łącznie z zawartymi w nich odsyłaczami do innych), tworzący na lokalnym komputerze indeks interesujących nas lokalizacji. Może on aktualizować ten indeks na bieżąco.

Podstawowe koncepcje drążenia danych

Drążenie danych w zasadzie jest stosowane do dwóch typów prac: znajdowania zależności i prognozowania (projekcji). W ramach tych dwóch prac typowe narzędzie analityczne znajduje jedną z sześciu typów informacji:

Klasyfikacja. Grupuje informacje mające wspólne właściwości, np. wszystkie osoby mające Eurokonto i konto dewizowe, ale bez kredytu na zakup samochodu. Do klasyfikacji stosuje się metody rozpoznawania wzorców, wykorzystujących uczenie się maszyn. Schemat klasyfikacji (zasady przydziału do klas) nazywa się taksonomia.

Klastry lub kategorie. Są to podzbiory klas, zawierające wzory i zależności, które nie zostały eksplicite zdefiniowane. Narzędzie przeszukując dane osobowe w banku może stwierdzić, że 80% osób samotnych używa kart kredytowych wyłącznie w restauracjach, podczas gdy 90% osób mających rodzinę używa ich tylko do zakupów.

Asocjacje. Są związane ze zdarzeniami. Typowy przykład podawany w literaturze przedmiotu dotyczy kupowania: 70% osób kupujących garnitur jednocześnie kupuje do niego krawat.

Sekwencje. Podobnie jak asocjacje są związane ze zdarzeniami, ale o charakterze czasowym: istnieje 70% szans, że osoba kupująca samochód w ciągu miesiąca kupi do niego radio.

Prognozy. Dotyczy możliwości prognozowania faktów w przyszłości, bazując na aktualnej wiedzy. Dotyczą właściwie każdej dziedziny działalności handlowej i produkcyjnej - od przewidywania liczby zamówień, rozwoju sprzedaży, kierunków rozwoju produkcji, liczby zatrudnionych itp.

Podobne sekwencje. Po znalezieniu pewnej sekwencji w danych, analityk może chcieć znaleźć sekwencje o podobnym charakterze związane z różnymi obiektami w bazie lub innym czasem.


TOP 200