To rozwiązanie może sporo namieszać na rynku dużych modeli językowych

Janusz Chustecki,
07.05.2024, godz. 15:56
- Oprogramowanie
- LLM
- Microsoft
- MAI-4
Udostępnij

Tweet

LinkedIn

Microsoft pracuje nad nowym modelem LLM z najwyższej półki, któremu nadał kodową nazwę MAI-4. Gigant z Redmond ma nadzieję iż stawi on z powodzeniem czoła wiodącym obecnie modelom tego typu, takim jak Gemini czy GPT-4.

To rozwiązanie może sporo namieszać na rynku dużych modeli językowych

Na czele zespołu projektującego model MAI-4 stoi Mustafa Suleyman, który niedawno pełnił funkcję dyrektora generalnego start-upu AI Inflection, zanim Microsoft przejął tę firmę za 650 milionów dolarów. Model MAI-1 został przeszkolony z użyciem 500 miliardów parametrów. Dorównuje więc prawie modelowi GPT-4 (ponad 1 bln parametrów) i bije większość modeli, takich jak np. Mistral (70 miliardów parametrów).

Microsoft wykorzystał ogromną ilość zasobów obliczeniowych na szkolenie tego modelu, wykorzystując dane pozyskane z internetu oraz dane wygenerowane przez model GPT-4. A trzeba wiedzieć iż szkolenie modeli językowych to bardzo kosztowny proces. Szacuje się np. że wytrenowanie modelu GPT-4 kosztowało firmę ponad 100 milionów dolarów.

Zobacz również:

Rozwój MAI-1 świadczy o tym, że Microsoft zamierza skupić swoją uwagę zarówno na małych, uruchamianych lokalnie modelach językowych (np. obsługiwanych przez urządzenia mobilne), jak i na większych, najnowocześniejszych modelach instalowanych w chmurach. Co ciekawe, Apple zamierza przyjąć podobną strategię i opracował już osiem małych modeli językowych AI przeznaczonych do użytku na różnych urządzeniach.

Model Microsoftu był szkolony z wykorzystaniem dużego klastra serwerów wyposażonych w procesory graficzne Nvidii. Mówi się iż Microsoft może zaprezentować wersję zapoznawczą modelu MAI-1 już podczas konferencji programistów Build, która odbędzie się pod koniec tego miesiąca.

Na koniec warto przypomnieć, że w zeszłym miesiącu Mirosoft wprowadził na rynek nową rodzinę małych modeli językowych linii Phi, w ramach planu udostępnienia lekkiej, ale wysokowydajnej technologii generatywnej sztucznej inteligencji dla większej liczby platform , w tym dla urządzeń mobilnych.

Rodzina Phi-3 składa się z trzech modeli — Phi-3 Mini z 3,8 miliardami parametrów, Phi-3 Small z 7-ma miliardami parametrów i Phi-3 Medium z 14 miliardami parametrów. Konkurencja też nie próżnuje. Podczas gdy Snowflake pokazał Arctic LLM, firma Databricks wprowadziła na rynek model DBRX. Z kolei Meta wypuściła swój model Llama 3. Zaledwie kilka dni później firma Cohere wypuściła na rynek całą linię modeli językowych należących do rodziny Command.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

Computerworld.pl

To rozwiązanie może sporo namieszać na rynku dużych modeli językowych

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

To rozwiązanie może sporo namieszać na rynku dużych modeli językowych

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830