Categories: Ai

Ускорение генерации токена LLM в два раза для больших контекстов

Помимо ChatGPT и многочисленных конкурентов в облаке с веб-мордами и/или API, существует огромная экосистема для запуска LLM на собственном железе. На Huggingface на любой бюджет найдется модель для скачивания, которая влезет в видеопамять (или в RAM, можно и на CPU запускать, если пользователь терпеливый). Вчера здесь на Хабре была очень неплохая обзорная статья.

Самые популярные open source тулы для локального запуска LLM — llama.cpp и vllm (и их многочисленные обертки). У них немного разные ниши, и дальше я буду писать о llama.cpp. Она поддерживает все возможные комбинации железа и ОС — Linux, MacOS, Windows; x86 CPU, Arm, Apple Silicon CPU & GPU, Nvidia, AMD,… Но автор и мейнтейнер — Георгий Герганов использует для разработки Mac Studio. Почему такой выбор железа?

Производительность генерации каждого токена LLM в одном потоке ограничена вычислительной мощностью в процессе построения KV-кэша (анализ промпта до генерации первого токена), и пропускной способностью памяти при генерации последующих токенов. При этом в обоих случаях очень полезно уметь быстро загружать веса из видеопамяти в ALU видеокарты (или CPU).
Читать дальше →

Next Сколько стоит 3D-принтер по металлу? »

Previous « Автоматизируем тестирование с помощью Lettuce

Published by

5 месяцев ago

В Telegram запущен новый дейтинг-сервис Swipy

Ускорение генерации токена LLM в два раза для больших контекстов

Recent Posts

Магия CSS на практике: советы по вёрстке от гика. Часть 4

JavaScript: структуры данных и алгоритмы. Часть 5

Реализация событий через HTTP

Каннибализм трафика. Нужно ли вести контекст по брендовым запросам?

Презентация Apple 2024: новая кнопка на iPhone 16, функция слухового аппарата у AirPods, кинокамера в iPhone Pro

Сразу два аналога Notion, бесплатный сервис аналитики для продавцов на WB – эти и другие российские стартапы

Ускорение генерации токена LLM в два раза для больших контекстов

Related Post

Recent Posts

Магия CSS на практике: советы по вёрстке от гика. Часть 4

JavaScript: структуры данных и алгоритмы. Часть 5

Реализация событий через HTTP

Каннибализм трафика. Нужно ли вести контекст по брендовым запросам?

Презентация Apple 2024: новая кнопка на iPhone 16, функция слухового аппарата у AirPods, кинокамера в iPhone Pro

Сразу два аналога Notion, бесплатный сервис аналитики для продавцов на WB – эти и другие российские стартапы