Polacy nie gęsi, swoją Qrę mają...

Koniec tygodnia z polskimi sukcesami. Politechnika Gdańska i AI Lab z Ośrodka Przetwarzania Informacji (OPI) – Państwowego Instytutu Badawczego ogłaszają opracowanie polskojęzycznego generatywnego modelu językowego na bazie terabajta danych tekstowych wyłącznie w języku polskim. Model Qra lepiej rozumie treści w języku polskim, lepiej rozumie pytania zadawane w tym języku i lepiej sam tworzy spójne teksty. Trzymamy kciuki za rozwój!

fot. Pixabay

Narzędzia Mety, Mistal AI, ChatGPT – świetnie, ale co z polskim kontekstem? Rozwój genAI musi uwzględniać lokalne konteksty.

Polska próbuje. Z różnymi skutkami. Wczorajsza krytyka – czy może wątpliwości co do realizacji - działań związanych z tworzeniem modelu językowego PLLuM (Polish Large Language Universal Model) przez konsorcjum jednostek naukowo-badawczych (Politechnika Wrocławska, Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki, Instytut Slawistyki PAN), hamuje nieco entuzjazm. W skrócie – wszystko dzieje się za późno albo za wolno. Puls Biznesu cytował wczoraj ministra cyfryzacji, który na posiedzeniu sejmowej podkomisji stałej ds. sztucznej inteligencji i przejrzystości algorytmów, podniósł kwestię włożonego wysiłku, funduszy, w coś, co finalnie pojawi się zbyt późno i w hierarchii modeli będzie nie za wysoko. Prace nad PLLuM mogą potrwać nawet do końca 2025 roku. Dziś to w technologii prawdziwa przepaść czasowa.

Zobacz również:

  • Majowa konferencja Apple może być ważniejsza niż oczekujemy
  • Blaski i cienie AI
  • IDC CIO Summit – potencjał drzemiący w algorytmach

Ale próbować trzeba.

I dzień później zjawia się nieco więcej powodów do optymistycznego spojrzenia na polskie wysiłki związanie z genAI.

OPI i Politechnika Gdańska dziś ogłosiły opracowanie polskojęzycznego generatywnego modelu językowego o nazwie Qra, zasilonego i wytrenowanego wyłącznie na tekstach w języku polskim. Wykorzystany korpus liczył początkowo prawie 2TB surowych danych tekstowych. W wyniku procesu czyszczenia i deduplikacji uległ prawie dwukrotnemu zmniejszeniu, aby zachować najlepszej jakości unikalne treści. To pierwszy model generatywny wstępnie wytrenowany na tak dużym zasobie polskich tekstów, do którego uczenia użyto wielkich mocy obliczeniowych.

Czy to ważne wydarzenie? Zdecydowanie tak. Modele Llama, Mistral czy GPT są w większości trenowane na danych angielskojęzycznych, a jedynie ułamek procenta korpusu treningowego stanowią dane w języku polskim.

Qra jest fundamentalnym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim

Środowisko obliczeniowe dedykowane pod budowę modeli sztucznej inteligencji powstało na Politechnice Gdańskiej w Centrum Kompetencji STOS, jednym z najnowocześniejszych centrów IT w tej części Europy, gdzie znajduje się superkomputer Kraken. W procesie wykorzystano klaster 21 kart graficznych NVidia A100 80GB. Przygotowanie środowiska, utworzenie narzędzi i modeli oraz ich trenowanie (w oparciu m.in. o treści z takich obszarów jak prawo, technologia, nauki społeczne, biomedycyna, religia czy sport) i testowanie zajęło zespołom około pół roku. Dzięki rozbudowanej infrastrukturze CK STOS właściwy proces trenowania w przypadku najbardziej złożonego z modeli został skrócony z lat do około miesiąca.

Co finalnie otrzymujemy?

Trzy modele, które różnią się złożonością, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, niż oryginalne modele Llama-2-7b-hf (Meta) oraz Mistral-7B-v0.1 (Mistral-AI).

Testy pomiaru perplexity przeprowadzono m.in. na zbiorze pierwszych 10 tysięcy zdań ze zbioru testowego PolEval-2018 oraz dodatkowo przetestowano modele na zbiorze 5 tysięcy długich i bardziej wymagających dokumentów napisanych w 2024 roku.

Modele Qra będą stanowić podstawę rozwiązań informatycznych do obsługi spraw i procesów, które wymagają lepszego zrozumienia języka polskiego.

Na tym etapie Qra jest fundamentalnym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim. Tworzone treści są bardzo wysokiej jakości, co potwierdza m.in. miara perplexity. Teraz zespół rozpocznie pracę nad strojeniem modeli, aby zweryfikować ich możliwości pod kątem takich zadań, jak klasyfikacja tekstów, dokonywanie ich streszczeń, odpowiadania na pytania.

Model Qra dostępny jest bezpłatnie na platformie huggingface.

„Postanowiliśmy podzielić się efektami naszej pracy, aby przyspieszyć rozwój społeczeństwa informacyjnego w Polsce. Co ważne, wszystkie udostępnione narzędzia każdy może pobrać całkowicie za darmo. Uznaliśmy, że w interesie nas wszystkich leży dynamiczny rozwój branży IT i środowiska naukowego w Polsce. Politechnika Gdańska planuje opracowanie asystenta, aby z narzędzia mógł skorzystać każdy użytkownik internetu” – wyjaśnił redakcji Computerworld Sławomir Rybka z Ośrodka Przetwarzania Informacji (OPI) – Państwowego Instytutu Badawczego.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200