Это перевод моей статьи об обучении языковых моделей на medium.com. Год назад я подготовил краткое исследование на тему языковых моделей, и для закрепления практики начал пробовать дообучение (fine-tuning) больших языковых моделей (LLM) для различных прикладных задач. Первоначально, я получил противоричивые результаты, это подтолкнуло меня к более глубокому изучению теории обучения. В этой статье я решил описать мои теоретические изыскания, и дополнить рядом примеров, полученных на личном опыте. Для обучения opensource модели используются различные дадасеты, так же они публикуются с разлиных стадий обучения, и успех дообучения зависит от выбора правильной базовой модели. На практике, конвейер обучения больших языковых моделей состоит из нескольких фиксированных этапов: Первый этап — предварительное обучение, которое включает обучение на массивном корпусе текста с использованием задачи предсказания следующего токена. На этом этапе модель учит модель языка или языков. Далее следует обучение с учителем (Supervised fine-tuning) на парах “запрос-ответ”, адаптированных к конкретной задаче. Одной из самых распространенных задач на этом этапе является способность модели отвечать на запросы в формате чата. Наконец, подстройка под пользовательские предпочтения, она проводится с использованием техники обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback), так же назваемся instruct fine-tuning. Хорошим описанием этого процесса является технический отчет по языковой модели Qwen [1]. Они описали этапы обучения и опубликовали три модели: предварительно обученную базовую модель, обученную с учителем модель чат-модель и модель, дообученную на пользовательских предпочтениях с использованием RLHF.
Хабр, привет! Я снова пришёл к вам со статьёй, где показываю мои любимые техники вёрстки.…
Привет, друзья! В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом…
Для некоторых задач, связанных с обновлением данных в реальном времени — например, новостные ленты, уведомления…
Со времён появления контекстной рекламы маркетологов не перестаёт мучить вопрос:"А есть ли смысл вести контекст по…
Накануне в прямом эфире прошла большая презентация новой техники от компании Apple. Команда Тима Кука…
10 новых российских сервисов для нарезки шортсов при помощи ИИ, публикации в цифровых СМИ, авто-ответов…