Categories: Ai

[Перевод] Большие языковые модели: от предобучения до обучения на инструкциях

Это перевод моей статьи об обучении языковых моделей на medium.com. Год назад я подготовил краткое исследование на тему языковых моделей, и для закрепления практики начал пробовать дообучение (fine-tuning) больших языковых моделей (LLM) для различных прикладных задач. Первоначально, я получил противоричивые результаты, это подтолкнуло меня к более глубокому изучению теории обучения. В этой статье я решил описать мои теоретические изыскания, и дополнить рядом примеров, полученных на личном опыте. Для обучения opensource модели используются различные дадасеты, так же они публикуются с разлиных стадий обучения, и успех дообучения зависит от выбора правильной базовой модели. На практике, конвейер обучения больших языковых моделей состоит из нескольких фиксированных этапов: Первый этап — предварительное обучение, которое включает обучение на массивном корпусе текста с использованием задачи предсказания следующего токена. На этом этапе модель учит модель языка или языков. Далее следует обучение с учителем (Supervised fine-tuning) на парах “запрос-ответ”, адаптированных к конкретной задаче. Одной из самых распространенных задач на этом этапе является способность модели отвечать на запросы в формате чата. Наконец, подстройка под пользовательские предпочтения, она проводится с использованием техники обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback), так же назваемся instruct fine-tuning. Хорошим описанием этого процесса является технический отчет по языковой модели Qwen [1]. Они описали этапы обучения и опубликовали три модели: предварительно обученную базовую модель, обученную с учителем модель чат-модель и модель, дообученную на пользовательских предпочтениях с использованием RLHF.

Читать далее

Share
Published by

Recent Posts

Магия CSS на практике: советы по вёрстке от гика. Часть 4

Хабр, привет! Я снова пришёл к вам со статьёй, где показываю мои любимые техники вёрстки.…

1 неделя ago

JavaScript: структуры данных и алгоритмы. Часть 5

Привет, друзья! В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом…

1 неделя ago

Реализация событий через HTTP

Для некоторых задач, связанных с обновлением данных в реальном времени — например, новостные ленты, уведомления…

1 неделя ago

Каннибализм трафика. Нужно ли вести контекст по брендовым запросам?

Со времён появления контекстной рекламы маркетологов не перестаёт мучить вопрос:"А есть ли смысл вести контекст по…

1 неделя ago

Презентация Apple 2024: новая кнопка на iPhone 16, функция слухового аппарата у AirPods, кинокамера в iPhone Pro

Накануне в прямом эфире прошла большая презентация новой техники от компании Apple. Команда Тима Кука…

1 неделя ago

Сразу два аналога Notion, бесплатный сервис аналитики для продавцов на WB – эти и другие российские стартапы

10 новых российских сервисов для нарезки шортсов при помощи ИИ, публикации в цифровых СМИ, авто-ответов…

1 неделя ago