Text mining, czyli nauka z tekstu

W realiach gospodarki cyfrowej biznes musi mierzyć się z prawdziwym zalewem danych. Firmy, które potrafią odpowiednio je przetwarzać i analizować, mogą dokładniej prognozować i wyciągać trafne wnioski, a w rezultacie – lepiej się rozwijać.

Analityka danych to dziś odrębny segment rynku, wykorzystujący zaawansowane technologie takie jak uczenie maszynowe i sztuczna inteligencja. Przydatne informacje można też uzyskiwać z zasobów, które wcześniej były raczej niedostępne do analiz – ogromnej liczby dokumentów tekstowych, listów, e-maili i innych materiałów pisanych. To właśnie istota text miningu (ang.: eksploracja tekstu, drążenie w tekście).

Text mining bazuje na technologiach sztucznej inteligencji i przetwarzania języka naturalnego. Pomaga w uzyskiwaniu cennych informacji z nieustrukturyzowanych danych. Jakie dane można brać pod uwagę? Zakres jest szeroki: rekordy z bazy mogą zawierać zarówno fakty, na przykład liczby i daty, jak i ciągi tekstowe, takie jak fragmenty e-maili.

Zobacz również:

Celem, podobnie zresztą jak w konwencjonalnej analizie danych, jest wydobycie znaczenia z surowych i dostępnych dla firmy zasobów, a następnie wykorzystanie ich do usprawnienia procesów biznesowych czy udoskonalenia oferowanych produktów i usług.

Text mining. Zastosowania

Popularnym sposobem wykorzystania text miningu jest m.in. analizowanie ankiet z pytaniami otwartymi. Respondenci docenią możliwość wyrażania własnej opinii w ankiecie, jednak dla firm późniejsze analizowanie odpowiedzi może dużym wyzwaniem. Text mining pomoże przyspieszyć cały proces, analizując wszystkie teksty i wyłapując wspólne wątki w odpowiedziach.

Kolejne zastosowanie to zautomatyzowane przetwarzanie wiadomości i e-maili do klasyfikowania tekstu – można przykładowo filtrować e-maile w poszukiwaniu konkretnych słów i fraz (wiadomości zawierające wybrane wyrazy będą później automatycznie trafiać do wskazanego folderu lub do spamu). Jeszcze inne to przetwarzanie zawartości wskazanych stron internetowych. Możemy znaleźć np. najczęściej pojawiające się terminy na danej stronie, aby dowiedzieć się co ma duże znaczenie dla danej firmy.

Wreszcie, na podstawie tekstu można przeprowadzić analizę sentymentu, pozwalającą szybko ocenić nastrój odpowiedzi w danych. Popularnym zastosowaniem jest przeprowadzanie takiej analizy w oparciu o dane z serwisu Twitter, gdzie użytkownicy publikują swoje opinie w formie nieustrukturyzowanego tekstu.

Text mining. Analiza sentymentu

Enron mógł uniknąć skandalu

Ciekawym studium przypadku dla text miningu jest Enron. Ten amerykański koncern energetyczny istniejący w latach 1985-2001, zbankrutował w następstwie oskarżeń o oszustwa finansowe.

Kilka lat po upadku Enronu firma KeenCorp, zajmująca się text miningiem, weszła w posiadanie komunikacji e-mail koncernu i w ramach eksperymentu poddała je eksploracji.

Wiadomości analizowane przez KeenCorp wymieniane były pomiędzy 150 menedżerami wysokiego szczebla w Enronie. System przeanalizował je pod kątem morale pracowników. Okazało się, że oprogramowanie było w stanie wskazać dokładną datę, kiedy w firmie zaczynało dziać się źle – 28 czerwca 1999 r. To wtedy zarząd Enrona zaczął wymieniać się wiadomościami na temat LJM, czyli propozycji dokumentacji, która miała ukryć złą sytuację finansową spółki, a która ostatecznie przyczyniła się do upadku firmy.

Dzięki niej można ustalić stosunek (pozytywny, negatywny, neutralny) osób do poszczególnych produktów czy tematów. Firmy wykorzystują analizę sentymentu, aby dowiedzieć się, albo przynajmniej lepiej zrozumieć, jak klienci postrzegają wybrane produkty czy marki. Dla przykładu: przeprowadzenie analizy sentymentu na Twitterze pozwala ocenić nastrój poszczególnych wpisów i komentarzy oraz zsumowanie słów pozytywnych i negatywnych. Kolejno odejmując negatywne słowa otrzymuje się wynik i wiedzę, czy nastroje wobec danej marki lub produktu są pozytywne, czy też nie.

Analizy tego rodzaju nie są oczywiście wolne od błędów – przykładowo problemów nastręczają wypowiedzi sarkastyczne. Biorąc jednak pod uwagę alternatywę – ręczne ocenianie i analizowanie tysięcy komentarzy – analiza sentymentu zyskuje na wartości. To warta uwagi metoda oceny nastawienia klientów.

Dane do analizy sentymentu mogą pochodzić z serwisów społecznościowych, ale też ze stron agregujących opinie i recenzje, wiadomości e-mail lub centrum obsługi klienta lub wsparcia technicznego. Niezależnie od źródła danych, zwykle można zidentyfikować powtarzające się wzorce, które pozwolą ustalić czy trzeba podjąć jakieś kroki w zakresie poprawy produktu czy wizerunku.

W dużych przedsiębiorstwach analiza sentymentu może być także wykorzystana do oceny i monitorowania zachowań pracowników względem siebie. Dane mogą wówczas pochodzić z e-maili czy z narzędzi komunikacyjnych takich jak Slack lub Microsoft Teams. Organizacja może ustalić, jakie nastroje pracownicy przejawiają wobec kolegów z działu czy w stosunku do menedżerów. Będzie to pomocne w późniejszym znalezieniu sposobów na poprawę morale i budowania zaufania w obszarach, w których może go brakować.

Text mining. NLP wymagane przy obróbce

Zasoby tekstowe, które mają zostać poddane eksploracji, wcześniej należy odpowiednio przekształcić w ustrukturyzowaną formę danych. Najczęściej sprowadza się to do przygotowania relacyjnej bazy danych. Przygotowanie danych obejmuje różne metody, takie jak ich parsowanie, czyli przetwarzanie informacji, ich porządkowanie oraz następnie dostarczanie gotowych danych. Finalnie dane mogą być przedstawiane np. w atrakcyjnej wizualnie formie, takiej jak mapy, tabele czy wykresy.

Technologia NLP przetwarza dane w połączeniu z odpowiednimi algorytmami, aby nadać im kontekst w taki sposób, by później komputer mógł je zrozumieć w sposób podobny do tego, jak człowiek rozumie język mówiony. Wszystko sprowadza się do tego, aby najpierw – eksploracją danych – maszyna była w stanie poprawnie zrozumieć wszystkie dane. Proces przygotowawczy jest więc niezbędny, zwłaszcza gdy do czynienia mamy z danymi, w których występują słowa o różnym znaczeniu zależnie od kontekstu, co dotyczy szczególnie języka angielskiego.

Kiedy dane mają już bardziej ustrukturyzowaną formę, można przekazać je do systemu analitycznego, którego algorytmy będą w stanie wyciągnąć przydatne i wysokiej jakości informacje, niemożliwe do uzyskania przy analizie przeprowadzonej przez człowieka.

Gdyby człowiek miałby zajmować się przygotowywaniem tekstów pod kątem późniejszego miningu i analiz, proces ten byłby zbyt czasochłonny i kosztowny. Algorytmy i NLP zrobią to szybciej i taniej.

Text mining. Narzędzia

Szacuje się, że ok. 80 proc. informacji istotnych dla firm pochodzi z danych nieustrukturyzowanych – głównie tekstu (e-maile, raporty, a nawet posty z serwisów społecznościowych). Do eksploracji tekstu wykorzystujemy odpowiednie systemy analityczne, często określane jako text mining lub text analytics systems. Na rynku znajdziemy wiele systemów analitycznych, a ich obsługa nie jest skomplikowana, choć początkowo trzeba poświęcić trochę czasu, aby zrozumieć działanie wszystkich funkcji. Jakie systemy warto polecić?

Zacznijmy od SAS Text Miner. System ten pomaga wydobywać przydatne informacje z nieustrukturyzowanych danych – zwłaszcza treści online, od cyfrowych książek po komentarze z for dyskusyjnych. Możemy tutaj kierować procesem uczenia maszynowego, aby algorytmy po czasie wykonywały zadania w sposób zautomatyzowany i bardziej – dla nas – satysfakcjonujący.

Kolejny system to QDA Miner, który wykorzystuje moduł WordStat do analiz text miningowych, jak również analiz sentymentu. System jest zalecany m.in. do wykorzystywania w serwisach społecznościowych, jak również jako platforma Business Intelligence dla firm. Zawiera szereg narzędzi do wizualizacji danych, które pomagają lepiej interpretować wyniki analiz.

Równie znany system to Microsoft Cognitive Services. To połączenie narzędzi sztucznej inteligencji z funkcjami NLP, więc dobrze radzi sobie z analizowaniem mowy i języka naturalnego. Zawiera usługę Language Understanding, która została zaprojektowana w taki sposób, aby boty aplikacji pracowały i z czasem coraz lepiej rozumiały język naturalny. Podobny system, IBM Watson Natural Language Understanding, również dobrze radzi sobie z rozumieniem język naturalnego, jak również specjalizuje się w analizie sentymentu i ocenie emocji.

Inne, warte uwagi rozwiązania, to DiscoverText, Mozenda, Wolfram Mathematica, Listen360, RapidMiner, NVivo, Chattermill oraz Stratifyd.

Data mining a text mining
Data MiningText mining
OpisWykorzystywany do wyszukiwania wzorców i zależności w danych ustrukturyzowanych. Służy do przekształcania nieustrukturyzowanych danych tekstowych w ustrukturyzowane informacje nadające się do analizy.
Typ danych Ustrukturyzowane dane z dużych zestawów danych, dostępnych w takich bazach jak arkusze kalkulacyjne, systemy ERP, CRM oraz aplikacje do księgowania.Nieustrukturyzowane dane tekstowe znalezione w wiadomościach e-mail, dokumentach, prezentacjach, udostępnianych plikach, serwisach społecznościowych i na stronach www.
Odzyskiwanie danych Ustrukturyzowane dane są jednorodne i zorganizowane, co ułatwia ich wyszukiwanie i odzyskiwanie. Nieustrukturyzowane dane tekstowe są dostępne w wielu różnych formatach i typach, a w dodatku znajdują się w różnych aplikacjach i systemach. Odzyskiwanie i wyszukiwanie jest utrudnione.
Przygotowywanie danych Dane ustrukturyzowane są odpowiednio sformatowane, co ułatwia proces wprowadzania ich do systemów analitycznych. Zanim nieustrukturyzowane dane przyjmą postać nadającą się do analiz, trzeba skorzystać z technik językowych i statystycznych – w tym z technologii NLP – by odpowiednio je przekształcić.
Potrzeba klasyfikowania Nie ma potrzeby stosowania nadrzędnego klasyfikowania dla danych. Ponieważ nieustrukturyzowany tekst występuje w wielu różnych formach i formatach, konieczna jest nadrzędna klasyfikacja danych, aby można było je zorganizować i ująć we wspólne ramy.


TOP 200