Analiza danych tekstowych. SAS Visual Text Analytics

Rozwój technologii spowodował rewolucję zarówno w łatwości dostępu do informacji, jak i możliwości tworzenia i publikowania nowych treści. Dalsze przyśpieszenie pojawiło się wraz z zaistnieniem mediów społecznościowych. Dziś człowiek każdego dnia bombardowany jest olbrzymią ilością informacji, z których tylko część jest w stanie skonsumować. Szacuje się, że objętość danych w postaci nieustrukturyzowanej rośnie wykładniczo i w 2020 roku osiągnie poziom ponad 35 zetabajtów. Rozwój Internetu wiąże się też z zagrożeniami. Spersonalizowane wyszukiwarki internetowe tworzą coś w rodzaju alternatywnej, wirtualnej rzeczywistości. Dopasowywanie wyników wyszukiwania do preferencji internauty może prowadzić do zniekształcenia obrazu rozpatrywanego zagadnienia.

Mariusz Dzieciątko, Business Solution Manager, SAS Technology and Big Data Competency Center

Obecnie właściwie każdy człowiek jest zarówno konsumentem publikowanych treści, jak i publicystą – osobą która tworzy nowe treści. W zasobach polskiego Internetu znajduje się ponad 2,5 mln domen. Dostęp do sieci ma ponad 72% Polaków, 82% użytkowników Internetu korzysta z niego codziennie, a średni czas spędzany w sieci to ponad 5,5 godziny. Z mediów społecznościowych korzysta ponad 15 mln Polaków (1).

Cyfrowe dokumenty wypierają papier

Internet pozwala różnorodnym podmiotom na prosty kontakt ze swoimi klientami. Instytucjom państwowym na podniesienie transparentności wszelkich transakcji, pracy nad ustawami, a także tworzenia cyfrowych wersji dokumentów. Na przykład jeden dzień posiedzenia Sejmu to średnio 130 stron stenogramu czyli mniej więcej tyle co „W pustyni i w puszczy” Henryka Sienkiewicza. W Sejmie obecnej kadencji było już 59 posiedzeń o długości od jednego do czterech dni. To daje łącznie około 21 000 stron tekstu czyli stos ułożony z powyższej książki wysokości ponad dwóch pięter budynku. A to nie wszystko. Do tego dochodzą stenogramy z posiedzeń komisji, druki sejmowe z projektami ustaw, uchwał itp. Najbardziej obszerny projekt ustawy w Sejmie obecnej kadencji liczy aż 1170 stron!

Dzięki rozwojowi technologii mamy jeszcze jedno pokaźne źródło danych tekstowych, którym jest automatyczna transkrypcja plików dźwiękowych. Wiele firm rejestruje przebieg rozmów prowadzonych przez Call Center, aby w sytuacjach spornych móc wrócić do konkretnej rozmowy. Znacznie mniej firm na chwilę obecną posiada narzędzia do przekształcenia nagrań w pliki z zapisem tekstowym rozmowy, a jest to bardzo cenne źródło informacji nie tylko o jakości pracy Call Center, ale także o postrzeganiu firmy przez klientów. Klienci często podpowiadają szereg, często prostych do wdrożenia usprawnień, które mogłyby znacząco podnieść konkurencyjność firmy na rynku. Według badań średnie tempo wypowiedzi to 125 do 150 słów na minutę, czyli osiem godzin pracy jednego konsultanta Call Center może wyprodukować 33 do 40 stron tekstu w formacie A4.

Czym jest text mining?

Ciężko poruszać się w natłoku cyfrowych informacji. Pomocne mogą się okazać narzędzia do text miningu służące do automatycznego przetwarzania danych tekstowych. Pozwalają one z ogromnych zbiorów treści uzyskać dokładny obraz wizerunku firmy, produktu, zachowań i potrzeb klienta czy też pracy parlamentu, rządu, senatorów, posłów, samorządowców z perspektywy chłodnej, przy pomocy nieulegającej emocjom analityki.

Analiza danych tekstowych. SAS Visual Text Analytics

Proces analizy danych tekstowych składa się z trzech głównych faz. Pierwsza to identyfikacja źródeł danych oraz dostęp do nich. Potencjalne źródła to zasoby serwerów pocztowych, przebiegi rozmów na chacie, notatki i transkrypcje rozmów Call Center, media społecznościowe, firmowe repozytoria np. umów, ofert, dokumentacji itd. W drugiej fazie następuje właściwy proces przetwarzania i analizowania danych tekstowych. W celu podniesienia jakości działania algorytmów celowe jest wykonanie automatycznej korekty pisowni.

Analiza danych tekstowych jest złożonym procesem i w zależności od zastosowania używa się różnych podejść. Podstawowe z nich przedstawia poniższy diagram.

Analiza danych tekstowych. SAS Visual Text Analytics

Zdecydowana większość zastosowań związana jest z kategoryzacją treści. Można ją zrealizować w oparciu o taksonomię, tworzoną ręcznie, półautomatycznie lub w oparciu o podejście statystyczne z użyciem algorytmów machine learning lub deep learning. Przykładem takiego zastosowania jest analiza sentymentu, która pomaga monitorować postrzeganie marki, produktu czy reklamy. Przy pracy z dużymi kolekcjami danych dobrze sprawdzają się nienadzorowane algorytmy klasyfikacji treści, które pozwalają w sposób automatyczny wyłapywać główne wątki poruszane w dokumentach tekstowych. Kolejnym zastosowaniem jest tzw. ekstrakcja encji czyli, wydobywanie z dokumentów tekstowych interesujących fragmentów, takich jak np. imiona i nazwiska, adresy, określenia czasu, liczby, nośniki sentymentu czy oceny pracy konsultantów itd. Na podstawie tak przygotowanych danych można w kolejnym kroku dokonać analizy powiązań z użyciem metod grafowych, co istotnie wzbogaca wiedzę firm na temat ich produktów czy jakości obsługi klienta. Metody tej można też użyć w celu automatycznego wykrywania i maskowania danych osobowych i wrażliwych. Rzadszym, ale równie ciekawym, zastosowaniem analizy tekstu jest tworzenie automatycznych streszczeń dokumentów i inteligentne wyszukiwanie treści.

Ostatnią, trzecią fazą analizy danych tekstowych jest konsumpcja wyników z użyciem wizualizacji lub wykorzystanie wyników jako danych wejściowych w modelowaniu wraz z danymi ilościowymi np. przy wykrywaniu nadużyć.

Jednolita platforma SAS

Wszystkie z przedstawionych podejść można zrealizować w oparciu o SAS Visual Text Analytics, wykorzystując interfejs wizualny lub pisząc program w języku SAS 4GL, Java, Python czy R. Dodatkową zaletą użycia powyższego pakietu oprogramowania jest natywne wsparcie dla 30 języków. Co jest szczególnie istotne, przy analizie chociażby języka polskiego, w którym same rzeczowniki mają 292 sposoby odmiany. Wbudowane narzędzia do stemmingu, czyli sprowadzania wyrazów do formy podstawowej, znacznie ułatwiają i przyspieszają proces analizy, pozwalając skupić się na meritum problemu. Wyniki przeprowadzonych analiz mogą być wdrożone zarówno jako tradycyjne kody skoringowe, jak i w podejściu in-database, a także na danych strumieniowych z użyciem SAS Event Stream Processing.

Analiza danych tekstowych. SAS Visual Text Analytics

Pomimo iż dane tekstowe mają charakterystykę Big Data, to warto pochylić się nad ich analizą. Doświadczenia z projektów realizowanych przez firmę SAS wskazują, że możliwe jest uzyskanie lepszej jakości modeli predykcyjnych (na poziomie kilkunastu procent) poprzez wzbogacenie ich o atrybuty pochodzące z notatek tekstowych. W danych tekstowych drzemie wielki potencjał, który na obecnym etapie rozwoju technologii powinien być wykorzystany w celu usprawnienia funkcjonowania zarówno przedsiębiorstw, jak i instytucji publicznych. Pozostawanie danych tekstowych w przepastnych repozytoriach dyskowych wydaje się być zwykłym marnotrawstwem.

(1) Bryks.it, Polski Internet 2017 – dane, statystyki i prognozy, 9 marca 2017 r.