Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код.
В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией.
Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат.
Краткое описание новой модели опубликовано в блоге компании. Больше технических подробностей можно также найти в выложенной на сайте статье.
При поддержке высокопроизводительного и масштабируемого российского веб-сервера Angie Всего будут доступны три варианта модели Gemini, которые, по всей видимости, различаются количеством параметров.
Средняя из них, Gemini Pro, судя по опубликованным данным превосходит GPT-3.5 от OpenAI в шести бенчмарках из восьми. Она заменила предыдущую языковую модель компании PaLM 2 в чат-боте Bard.
Чат-бот с Pro версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Корпоративные клиенты и разработчики смогут получить доступ к возможностям Pro версии через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря.
Gemini Nano — самая маленькая версия — предназначена для локального использования на мобильных устройствах и появится первым делом на смартфонах Google Pixel 8.
Самая большая и мощная версия Gemini Ultra дебютирует только в 2024 году. На ее основе планируется запустить продвинутую версию чат-бота Bard Advanced.