Categories: Ai

[Перевод] Большие языковые модели: от предобучения до обучения на инструкциях

Это перевод моей статьи об обучении языковых моделей на medium.com. Год назад я подготовил краткое исследование на тему языковых моделей, и для закрепления практики начал пробовать дообучение (fine-tuning) больших языковых моделей (LLM) для различных прикладных задач. Первоначально, я получил противоричивые результаты, это подтолкнуло меня к более глубокому изучению теории обучения. В этой статье я решил описать мои теоретические изыскания, и дополнить рядом примеров, полученных на личном опыте. Для обучения opensource модели используются различные дадасеты, так же они публикуются с разлиных стадий обучения, и успех дообучения зависит от выбора правильной базовой модели. На практике, конвейер обучения больших языковых моделей состоит из нескольких фиксированных этапов: Первый этап — предварительное обучение, которое включает обучение на массивном корпусе текста с использованием задачи предсказания следующего токена. На этом этапе модель учит модель языка или языков. Далее следует обучение с учителем (Supervised fine-tuning) на парах “запрос-ответ”, адаптированных к конкретной задаче. Одной из самых распространенных задач на этом этапе является способность модели отвечать на запросы в формате чата. Наконец, подстройка под пользовательские предпочтения, она проводится с использованием техники обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback), так же назваемся instruct fine-tuning. Хорошим описанием этого процесса является технический отчет по языковой модели Qwen [1]. Они описали этапы обучения и опубликовали три модели: предварительно обученную базовую модель, обученную с учителем модель чат-модель и модель, дообученную на пользовательских предпочтениях с использованием RLHF.

Next Как расслабиться инженеру на работе при помощи Python? »

Previous « Xv6: увеличим размер страниц виртуальной памяти с 4Кб до 2Мб

Published by

5 месяцев ago

В Telegram запущен новый дейтинг-сервис Swipy

[Перевод] Большие языковые модели: от предобучения до обучения на инструкциях

Recent Posts

Магия CSS на практике: советы по вёрстке от гика. Часть 4

JavaScript: структуры данных и алгоритмы. Часть 5

Реализация событий через HTTP

Каннибализм трафика. Нужно ли вести контекст по брендовым запросам?

Презентация Apple 2024: новая кнопка на iPhone 16, функция слухового аппарата у AirPods, кинокамера в iPhone Pro

Сразу два аналога Notion, бесплатный сервис аналитики для продавцов на WB – эти и другие российские стартапы

[Перевод] Большие языковые модели: от предобучения до обучения на инструкциях

Related Post

Recent Posts

Магия CSS на практике: советы по вёрстке от гика. Часть 4

JavaScript: структуры данных и алгоритмы. Часть 5

Реализация событий через HTTP

Каннибализм трафика. Нужно ли вести контекст по брендовым запросам?

Презентация Apple 2024: новая кнопка на iPhone 16, функция слухового аппарата у AirPods, кинокамера в iPhone Pro

Сразу два аналога Notion, бесплатный сервис аналитики для продавцов на WB – эти и другие российские стартапы