Upadek wieży Babel. Czy technologia wyręczy nas w nauce języków obcych?

Technologie konwersacyjnej sztucznej inteligencji stają się wszechobecne, a na rynek trafia coraz więcej produktów wykorzystujących automatyczne rozpoznawanie mowy, rozumienie języka naturalnego i syntezę mowy. Specjalista od uczenia maszynowego jest zawodem przyszłości.

Unsplash

Markus Winkler/Unsplash

Pamiętają Państwo zakuwanie angielskich czy niemieckich słówek do kartkówki? Dla kolejnych pokoleń będzie to jak rycie trzciną na glinianych tabliczkach.

Już za rok spotkania biznesowe na teamsach i zoome mogą wyglądać tak: kupuję za bitcoiny avatara (taki jak ja, tylko ładniejszy), a następnie tuninguję siebie w wersji office, dodając opcję automatycznego tłumaczenia. Teraz mogę już mówić w języku Urdu. Albo Hindi.

Zobacz również:

  • Nowe możliwości analityki
  • Blaski i cienie AI
  • Na uczelniach AI będzie śledziło plagiaty AI

Na razie to jeszcze fantazja, na świecie jest ok. 6,5 tys. języków i proces uczenia na takiej bazie wymaga czasu i zasobów. Jednak automatyczne tłumaczenie w czasie rzeczywistym na najpopularniejsze języki – angielski, francuski, niemiecki jest już możliwe.

Dlaczego tłumaczenie na żywo jest tak trudne? Zacznijmy od tego, że trzeba połączyć ze sobą 2 różne technologie: pierwszą warstwą jest rozpoznawanie mowy, czyli zamiana głosu na tekst. Drugą kwestią jest tłumaczenie maszynowe. System oprogramowania do tłumaczenia automatycznego interpretuje strukturę zdań w języku źródłowym (z którego tłumaczymy) i generuje tłumaczenie w oparciu o zasady języka docelowego (na który tłumaczymy). Proces ten obejmuje rozbicie złożonych i zróżnicowanych struktur zdań, identyfikację części mowy, rozwiązywanie niejednoznaczności oraz syntezę informacji w składniki i strukturę nowego języka.

Na początku do tych zadań stosowano metody statystyczne. W tłumaczeniu maszynowym i rozpoznawaniu mowy wstępnie stosowano głównie aparat statystyczny, jak np. ukryte łańcuchy Markova. „Od ok. 2013-2015 r. nastąpiła zmiana metod, zaobserwowaliśmy odejście od klasycznych, statystycznych i probabilistycznych modeli do algorytmów opartych na głębokim uczeniu maszynowym. Takie modele właśnie opracowujemy i rozwijamy w OPI PIB” – mówi dr inż. Marek Kozłowski, kierownik Laboratorium Inżynierii Lingwistycznej OPI PIB. Algorytmy głębokiego uczenia się doskonalono początkowo przy przetwarzaniu obrazów. Są doskonałe w kategoryzacji zdjęć, co najszybciej zaanektowała medycyna. Algorytmy np. wspierają pracę lekarzy radiologów, bardzo skutecznie bowiem wykrywają nieprawidłowości na zdjęciach. Niedawno Brytyjczycy poinformowali o pracach nad zastosowaniem AI we wczesnym rozpoznawaniu choroby Alzheimera na podstawie analizy mowy badanych osób.

Kolejny wielki przełom nastąpił 5 lat temu. W 2017 roku opublikowano pierwsze artykuły naukowe Google Brain o użyciu sieci typu Transformer, opartych na mechanizmie samo-atencji. „Kamieniem milowym umożliwiającym szybsze i szersze przejście z laboratorium do przemysłu było pojawienie się głębokiej sieci neuronowej typu Transformer. Dwa lata później – w 2019 r. – było już mnóstwo publikacji naukowych o tych sieciach i ich wielości zastosowań”, kontynuuje dr inż. Kozłowski. Wraz zespołem pod koniec 2021 roku wygrał ogólnopolski konkurs organizowany przez Centrum Govtech i UOKiK, który dotyczył sztucznej inteligencji. Polegał on na opracowaniu inteligentnych metod wspierających wykrywanie klauzul niedozwolonych w umowach. Wygraną przyniosło inżynierom z OPI właśnie zastosowanie sieci typu Transformer, które pozwalają dużo dokładniej i szybciej wykrywać dane klauzule, w porównaniu do klasycznych metod uczenia maszynowego, czy nawet głębokich sieci rekurencyjnych. „Mówiąc, jaką skalę poprawności jakościowej dostarczyły sieci typu Transformer, to jest około 5-10% poprawy względem poprzednich, najlepszych podejść. Teoretycznie niedużo, ale biorąc pod uwagę efekt skali, to zaczyna to już wywierać znaczący wpływ na odbiór końcowy i zyski finansowe. Przede wszystkim sieci Transformer są też szybsze (są w stanie przetwarzać więcej danych w mniejszej ilości czasu) i łatwiej aplikowalne w przemyśle dzięki wielości bibliotek czy liczby pre-trenowanych modeli. Nie wymagają one też dużych sztabów naukowców do długotrwałego strojenia” – opowiada Marek Kozłowski. Jak mówi, obecnie w zadaniach przetwarzania języka naturalnego (NLP) transformatory są architekturą pierwszego i najlepszego wyboru (np. architektury BERT czy GPT-3). W zadaniu rozpoznawania mowy sieci typu Transformer również stały się najlepszym jakościowo rozwiązaniem. Ostatniow obszarze przetwarzania obrazów, który był zdominowany przez sieci splotowe, pojawiły się modele o nazwie Vision Transformer (ViT), które prezentują czysty model sieci typu Transformer, bez potrzeby stosowania bloków splotowych. Z badań wynika, iż ViT może osiągnąć lepsze wyniki niż większość najnowocześniejszych sieci splotowych na różnych zestawach danych rozpoznawania obrazów, przy znacznie mniejszych zasobach obliczeniowych.

Twój kolega z pracy może być wirtualny

Raport firmy badawczej i konsultingowej Metrigy poświęcony inteligentnym, wirtualnym asystentom wykazał, że niemal 24% respondentów uczestniczy w spotkaniach, w których biorą udział osoby nieanglojęzyczne. Tłumaczenia oznaczają koszty, często niebagatelne. Ludzki tłumacz czasem może np. zachorować, co nie przydarzy się maszynie. Owszem, tłumaczenia automatyczne jakościowo nadal nie dorównują ludzkim, AI nie wyczuje ironii czy subtelności, ale coraz lepiej sobie radzi w codziennej rzeczywistości służbowej, zwłaszcza przy tłumaczeniach specjalistycznych. Ponad połowa z ankietowanych firm korzysta z zewnętrznych usług, aby przetłumaczyć to, co mówią inne osoby, a średni koszt takiego tłumaczenia to 172 USD na spotkanie. Integracja inteligentnych wirtualnych asystentów spotkań z funkcjami tłumaczenia, pozwala znacznie ograniczyć koszty.

Dzięki nowym narzędziom i technologiom tworzenie aplikacji konwersacyjnej sztucznej inteligencji jest łatwiejsze niż kiedykolwiek wcześniej, co umożliwia znacznie szerszy zakres zastosowań, takich jak wirtualni asystenci czy transkrypcja w czasie rzeczywistym. Tego typu technologie można już kupić na rynku. W 2019 roku CISCO Webex pozyskało technologię tłumaczenia w czasie rzeczywistym w drodze przejęcia Voicea, specjalistycznej technologii spotkań i głosu opartej na sztucznej inteligencji. Obecnie Cisco Webex oferuje tłumaczenie w czasie rzeczywistym na 9 języków. Oferowane rozwiązanie korzysta z tłumaczenia Google i uczenia maszynowego Voicea. Część Google to samo tłumaczenie, a część Voicea to automatyczne rozpoznawanie mowy, przechwytywanie i podpisywanie nagrań. Tu właśnie wkracza uczenie maszynowe: w miarę jak coraz więcej osób korzysta z tej funkcji, tłumaczenie z czasem staje się coraz lepsze, ponieważ uczy się kolejnych rodzajów głosów i akcentów. Jednak część tłumacząca słowo w słowo to usługa Google Translate.

Z kolei Microsoft w październiku 2021 opublikował bardzo skomplikowany model sieci typu Transformer do tłumaczenia maszynowego (Very Deep Transformers for Neural Machine Translation) i udowodnił, że jego modele dla popularnych par języków (angielski, francuski, niemiecki) dają obecnie najlepsze jakościowo tłumaczenie. Metody oparte na Transformerach wyraźnie też poprawiają jakość rozpoznawania głosu. Jak zauważa dr inż. Marek Kozłowski, ich największą zaletą biznesową jest fakt łatwości implementacji, do ich obsługi nie trzeba zatrudniać dziesiątków naukowców, potrzebnych do strojenia w ramach konkretnego zastosowania. W tym przypadku zdecydowanie więcej zależy od wielkości zbioru uczącego oraz od wielkości mocy obliczeniowej, jaką dysponujemy do wyuczenia tych modeli. Wszystko stało się prostsze od strony konsumenta i integratora, a sieci te mimo swojego skomplikowania są bardziej dostępne, zaś ich zastosowanie mniej kosztowne. Dodatkowo, dostępność klastrów kart graficznych pozwala bardzo szybko douczać te modele i osiągać coraz lepsze wyniki.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200