Google выпустил Gemma 2, обновлённую версию своих компактных языковых моделей с открытым исходным кодом. Модели доступны в вариантах с 9 миллиардами и 27 миллиардами параметров. Новая версия отличается повышенной производительностью и скоростью обработки данных по сравнению с предыдущей моделью. Gemma 2, созданная на основе моделей Gemini, предназначена для улучшения доступа исследователей и разработчиков к современным технологиям обработки языка.
Gemma 2 основана на архитектуре трансформера с декодером. Модель с 27 миллиардами параметров обучена на 13 триллионах токенов, в основном на английском языке, а версия с 9 миллиардами параметров – на 8 триллионах токенов. Эти токены взяты из веб-документов, кода и научных статей. Для обработки данных используется тот же токенизатор, что и в предыдущих моделях.
Предварительное обучение Gemma 2 проводится методом дистилляции знаний, а после этого модели донастраиваются с использованием контролируемого обучения и обучения с подкреплением на основе обратной связи от пользователей.
Gemma 2 превосходит предыдущую версию по производительности и эффективности. Она оптимизирована для работы на различных аппаратных платформах, включая ноутбуки, настольные компьютеры, IoT-устройства и мобильные платформы. Особенно хорошо модель работает на одиночных GPU и TPU, что делает её доступной для разработчиков без значительных затрат на оборудование.
Gemma 2 также предоставляет широкие возможности настройки на различных платформах и инструментах, включая Google Cloud, Axolotl, Hugging Face, NVIDIA TensorRT-LLM, JAX и Keras.
Gemma 2 27B по производительности сопоставима с Llama 3 70B, несмотря на меньший размер. Gemma 2 9B стабильно превосходит Llama 3 8B в тестах на понимание языка, кодирование и решение математических задач. Особенно заметно преимущество Gemma 2 в обработке индийских языков благодаря специализированному токенизатору.
Основные области применения Gemma 2 включают:
Ограничения и вызовы
Несмотря на свои достоинства, Gemma 2 имеет ограничения, связанные с качеством и разнообразием обучающих данных. Модель требует донастройки для работы с многоязычными данными и может испытывать трудности с обработкой сложных или тонких языковых задач. Точность модели не всегда на высоком уровне, что может приводить к устаревшей или неправильной информации. Кроме того, существуют риски неправильного использования модели для создания неэтичного контента.
Gemma 2 представляет собой значительное улучшение среди языковых моделей с открытым исходным кодом, обеспечивая высокую производительность и скорость обработки данных. Она доступна для различных аппаратных платформ, что делает её удобной для разработчиков. Однако, остаются вызовы в обработке сложных задач и обеспечении точности. В целом, Gemma 2 остаётся ценным инструментом для разработчиков, работающих с языковыми данными.
Хабр, привет! Я снова пришёл к вам со статьёй, где показываю мои любимые техники вёрстки.…
Привет, друзья! В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом…
Для некоторых задач, связанных с обновлением данных в реальном времени — например, новостные ленты, уведомления…
Со времён появления контекстной рекламы маркетологов не перестаёт мучить вопрос:"А есть ли смысл вести контекст по…
Накануне в прямом эфире прошла большая презентация новой техники от компании Apple. Команда Тима Кука…
10 новых российских сервисов для нарезки шортсов при помощи ИИ, публикации в цифровых СМИ, авто-ответов…