Poszukiwanie informacji

Dwa najbardziej rozpowszechnione typy danych to dane strukturalne i tekstowe; poszukiwanie informacji musi więc dotyczyć obydwu typów.

Dwa najbardziej rozpowszechnione typy danych to dane strukturalne i tekstowe; poszukiwanie informacji musi więc dotyczyć obydwu typów.

Poszukiwanie lub drążenie informacji (information mining) to pojęcie oznaczające proces znajdowania informacji poprzednio nie znanej, dostarczanej w zrozumiałej formie, dającej podstawy do podejmowania działania. Informacja ta może pochodzić z dowolnego źródła: zapisu transakcji, dokumentów tekstowych, poczty elektronicznej, stron Web i in., i ma służyć podejmowaniu decyzji biznesowych.

Stan współczesnych technologii informatycznych jest taki, że nie brak źródeł informacji do wspierania procesów podejmowania decyzji. Bazy danych operacyjnych zapisują tysiące transakcji dziennie; tworzone dokumenty umieszcza się w dostępnej formie w systemach komputerowych; liczba informacji dostępnych w Internecie jest coraz większa, rośnie również liczba komunikatów poczty elektronicznej wymienianych wewnątrz i zewnątrz firmy.

Dane, informacja, wiedza

Dane to surowy materiał, który otrzymujemy ze wspomnianych źródeł. Może to być zbiór dyskretnych faktów o zdarzeniach, najczęściej w formie rekordów o dobrze określonej strukturze, dotyczących transakcji; rekordy te mają charakter numeryczny lub alfanumeryczny. Dokumenty, komunikaty poczty elektronicznej czy strony Web są źródłem danych bez określonej struktury, tekstami w określonym języku. Ocenia się, że liczba danych niestrukturalnych stanowi 80% całości danych w przedsiębiorstwie, zaś tylko 20% to dane strukturalne.

Same dane mają niewielkie znaczenie. Gdy klient kupuje paliwo na stacji benzynowej CPN, zapisuje się to w systemie informatycznym w postaci rekordu, zawierającego datę zakupu, ilość paliwa, zapłaconą kwotę. Nic natomiast nie wiadomo, dlaczego ten konkretny klient pojawił się na stacji CPN, a nie Shella, nie da się przewidzieć czy jeszcze tu się pojawi ani kiedy. Dane są ważne, ale to zapis jedynie części informacji o zdarzeniu; nie zawierają one interpretacji i nie stanowią źródła informacji dla podjęcia jakichkolwiek działań.

Peter Drucker, znany specjalista w dziedzinie zarządzania, definiuje "informację jako dane zaopatrzone w znaczenie i cel". Informacja jest zwykle wiązana z komunikacją między odbiorcą a nadawcą. Ma największą wartość wtedy, gdy jej otrzymanie jest ważne dla odbiorcy. Jej znaczenie jest związane z kontekstem, np. informacja "znajdujesz się na wysokości 15 m nad Ziemią" znaczy zupełnie co innego dla mieszkańca 5 piętra bloku niż dla pilota samolotu sportowego. W biznesie kontekst informacji jest związany z procesem biznesowym, w którym będzie użyta.

Dane tekstowe są semantycznie znacznie bogatsze niż dane numeryczne, gdyż słowa są tu ściśle powiązane. Z tego powodu mówimy o "dostępie do danych" w przypadku danych numerycznych i "wyszukiwaniu informacji" w wypadku dokumentów: z dokumentu możemy od razu otrzymać informacje. Nie muszą one mieć bezpośredniego zastosowania, jeśli nie zastosujemy ostrych kryteriów wyszukiwania. Próba poszukiwania w Internecie informacji o Szwajcarii zakończy się listą tysięcy dokumentów na temat klimatu, produkcji sera, narciarstwa czy ustroju politycznego. Ten zalew informacyjny (infoglut) powoduje, że ludzie "toną w informacjach" i brakuje im czasu na "wniknięcie w sedno" spraw, co pozwoliłoby na podejmowanie lepszych decyzji.

Wgląd lub wnikanie w sedno (insight) to część świata wiedzy. Wprawdzie wiedzę trudno zdefiniować, ale wszyscy rozpoznajemy wiedzę, gdy się na nią natykamy - u eksperta lub w dokumencie, pokazującym nam jak rozwiązać problem. Jedna z roboczych definicji wiedzy mówi, że "jest to zbiór logicznych powiązań między częściami informacji, których zależności można określić przez podobieństwo kontekstu".

Mówimy o "wiedzy ukrytej" - znajdującej się w głowach ekspertów oraz "wiedzy jawnej", przeniesionej na media dostępne innym. Wiedza jawna może mieć charakter deklaratywny (jest dostępna, ale nie jest zorganizowana w kierunku rozwiązywania konkretnych problemów) lub proceduralny - ma charakter ciągu etapów, gwarantujących sukces przedsięwzięcia. Przykład wiedzy deklaratywnej to opis techniczny urządzenia; wiedza proceduralna na ten sam temat jest zawarta w podręczniku napraw, przeznaczonym dla warsztatu usługowego.

Technologiczne wspomaganie poszukiwania informacji

Na początku podaliśmy definicję procesu poszukiwania (drążenia) informacji dla znajdowania informacji wcześniej nie znanej, dostarczanej w zrozumiałej formie, dającej podstawy do podejmowania działania. Podkreślić tu należy fundamentalną różnicę między drążeniem danych a tradycyjnym podejściem do analizy danych za pomocą narzędzi analitycznych OLAP lub pełnotekstowego przeszukiwania dokumentów. Drążenie informacji ma na celu znalezienie informacji i wiedzy, bez potrzeby wcześniejszego formułowania hipotez. Ponieważ w definicji drążenia informacji mówi się, że poszukujemy informacji wcześniej nie znanych, nie da się z góry postawić hipotezy, czego możemy oczekiwać.

W przypadku przeszukiwania danych strukturalnych drążenie danych to szerokie pole badań naukowych dotyczące uczenia się maszyn, statystyki, technologii baz danych, systemów ekspertowych opartych na regułach, sieci neuronowych i wizualizacji. Poszukiwanie informacji w dokumentach tekstowych to inne zastosowanie tych samych technologii.

Wyróżniającą cechą programów poszukiwania informacji jest jakość algorytmów, które określają sposób, w jaki program może opanować kompletną definicję i spójnie ją stosować. Jeżeli na podstawie analizy wielu operacji dokonywanych za pomocą kart kredytowych, program potrafi określić, które operacje były nielegalne, bo zawarto je przy użyciu kradzionych kart, to ważne jest, aby w przyszłości nie sklasyfikował operacji legalnej jako fałszywej i odwrotnie.