Ten nowy model AI firmy Microsoft reaguje również na grafikę

Korporacja zaprezentowała w tym tygodniu nowy model AI należący do grupy rozwiązań typu MLLM (Multimodal Large Language Model), nadając mu nazwę Kosmos-1.

Grafika: Microsoft

To multimodalny, duży model języka, który może nie tylko odpowiadać na standardowe pytania, ale reaguje również na grafikę, co oznacza iż może np. podpisywać zaprezentowane mu obrazy czy odpowiadać, co na nich widać. Jak wiadomo, bot ChatGPT firmy OpenAI bazuje na modelu LLM, które rozumie zaprezentowany mu tekst, ale nie reaguje na dane wejściowe mające postać grafiki. Model MLLM potrafi zareagować również na grafikę o czym świadczy przymiotnik multimodalny. Oznacz to, że model tako może zarówno „czytać”, jak i „widzieć”. Możliwość wprowadzania multimodalnych danych znacznie rozszerza zastosowania modeli językowych na kolejne obszary, takie jak multimodalne uczenie maszynowe czy robotyka.

Microsoft podaje przykład, jak pracuje Kosmos-1. Botowi wspierającemu model MLLM można np. zaprezentować grafikę przedstawiającą dziecko, który przewróciło się na rowerze i płacze. Na zadane wtedy pytanie, dlaczego dziecko płacze, bot wspierający model MLLM potrafi odpowiedzieć, że pewnie potłukło się i zapewne coś je boli.

Zobacz również:

  • Oficjalna premiera modelu Llama 3
  • Ta inicjatywa ma ułatwić firmom zadanie wdrażania systemów AI
  • Chatbot Grok zostanie udostępniony kolejnej grupie użytkowników platformy X

Przykład pokazuje, gdzie boty MLLM, takie jak Kosmos-1, mogą znaleźć zastosowanie. Mogą np. informować użytkownika systemu Windows, jak ponownie uruchomić komputer, analizując widoczny na jego ekranie obraz. Póki co, model MLLM nie potrafi analizować przekazów wideo, co nie oznacza iż nie będzie to możliwe w przyszłości, po wprowadzeniu do niego kolejnych nowatorskich rozwiązań.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200