Google представила семейство мультимодальных моделей Gemini

10:29, 07 Дек.

Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код. В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией.

Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат.

Краткое описание новой модели опубликовано в блоге компании.

Больше технических подробностей можно также найти в выложенной на сайте статье. При поддержке высокопроизводительного и масштабируемого российского веб-сервера Angie Всего будут доступны три варианта модели Gemini, которые, по всей видимости, различаются количеством параметров.

Средняя из них, Gemini Pro, судя по опубликованным данным превосходит GPT-3.

5 от OpenAI в шести бенчмарках из восьми. Она заменила предыдущую языковую модель компании PaLM 2 в чат-боте Bard. Чат-бот с Pro версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Корпоративные клиенты и разработчики смогут получить доступ к возможностям Pro версии через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря.

Gemini Nano — самая маленькая версия — предназначена для локального использования на мобильных устройствах и появится первым делом на смартфонах Google Pixel 8.

Самая большая и мощная версия Gemini Ultra дебютирует только в 2024 году. На ее основе планируется запустить продвинутую версию чат-бота Bard Advanced.

Рубрика: Hi-Tech. Читать весь текст на nplus1.ru.