Powstał polski model językowy, który pracuje wydajniej niż ChatGPT

Polacy opracowali duży model językowy LongLLaMA, który potencjalnie pozwoli obsługiwać 64 razy więcej tekstu niż znany wszystkim inteligentny bot ChatGPT. Model został oparty na stworzonym przez firmę Meta oprogramowaniu OpenLLaMA. Publikacja nosząca nazwę „Focused Transformer: Contrastive Training for Context Scaling”, opisująca dokonanie polskich naukowców, została przyjęta na prestiżową konferencję naukową NeurIPS 2023.

Model może obsługiwać jednorazowo aż 8 tysięcy tokenów, czyli w przybliżeniu 30-50 stron tekstu, a w przypadku niektórych zadań znacznie więcej, nawet 256 tysięcy tokenów, chociaż to tylko wynik techniczny. Kiedy Meta, właściciel Facebooka, wypuściła OpenLLaMA, naukowcy z całego świata, między innymi polski zespół, wzięli go na warsztat i modyfikowali, wyjaśnia Piotr Miłoś z IDEAS NCBR. Przewaga LongLLaMA nad innymi modelami polega na tym, że potrafi przetwarzać bardzo długie dane wejściowe. Dzięki temu generuje bardziej spójne i trafne odpowiedzi. LongLLaMA może obsłużyć dowolną ilość kontekstu bez obcinania go i wypełniania, co pokazały testy z hasłem (passkey). Badacze sprawdzali, czy po otrzymaniu bardzo długiego promptu LongLLaMA będzie w stanie przypomnieć sobie hasło podane na początku.

Podczas, gdy OpenLLaMA dawała sobie radę tylko z promptem o długości 2 tysięcy tokenów (w przypadku dłuższych kontekstów jej efektywność spadała do zera), LongLLaMA utrzymywała 94,5 proc. dokładności po otrzymaniu promptu o długości 100 tysięcy tokenów i 73 proc. dokładności po otrzymaniu 256 tysięcy tokenów. Co więcej, model ten potrafi obecnie wytwarzać spójne teksty o długości 8 tysięcy tokenów, a potencjalnie nawet 256 tysięcy tokenów, w czym znacząco przewyższyłby m.in. ChatGPT.

Zobacz również:

LongLLaMA w przeciwieństwie do najsłynniejszego dotąd chatbota - ChatGPT nie posiada interfejsu w internecie, ale każdy może pobrać model ze strony HuggingFace i uruchomić go na własnym komputerze. Otwarte oprogramowanie mogą modyfikować informatycy na całym świecie, co odróżnia je od oprogramowania ChatGPT, które nie zostało udostępnione publicznie, choć wiadomo, że również bazuje na architekturze Transformer. Jest to rodzaj architektury sieci neuronowej, która analizuje tekst, aby rozróżnić skomplikowane powiązania między słowami na wielu warstwach, ucząc się wzorców na podstawie ogromnych ilości danych. Technologia ta zrewolucjonizowała przetwarzanie języka naturalnego, umożliwiając chatbotom generowanie tekstu, tłumaczenie, rozmawianie z użytkownikiem i wiele innych zadań na poziomie niedostępnym wcześniej dla sztucznej inteligencji.

Kiedy zadajemy pytanie chatbotowi korzystającemu z Transformera, zmienia on tekst na tokeny. Są to fragmenty informacji, zwykle mające długość pomiędzy jednym znakiem a jednym słowem. W zdaniu „W 2023 roku, niespodziewanie, chatboty zmieniły nasze życie.” czatbot może zobaczyć przykładowo siedem słów, liczbę 2023, dwa przecinki i kropkę. Dzięki dzieleniu tekstu na tokeny sztuczna inteligencja potrafi efektywnie przetwarzać informacje.

Jednak liczba tokenów, jaką może przyjąć chatbot jest ograniczona – w przypadku ChatGPT 3.5 limit tokenów wynosi 4096, OpenLLaMA – 2000, a Google Bard – około 1000. Dlatego, gdy zadajemy chatbotowi długie pytanie lub podajemy dużo informacji, może być konieczne ucięcie lub pominięcie niektórych fragmentów, aby zmieścić się w limicie tokenów. Większość istniejących chatbotów nie potrafi analizować całej książki, długiej rozmowy czy artykułu.

Źródło: Profeina

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

Computerworld.pl

Powstał polski model językowy, który pracuje wydajniej niż ChatGPT

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Powstał polski model językowy, który pracuje wydajniej niż ChatGPT

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830