Исследователи удвоили скорость обучения ИИ, справившись с неэффективностью использования процессора в длинном хвосте

Декоративное изображение, на котором изображен чип с аббревиатурой "AI"

Новая система использует незадействованные вычислительные мощности для обучения меньшей черновой модели на лету, значительно ускоряя обучение с подкреплением для сложных больших языковых моделей без ущерба для точности.

Chibuike Okpara (перевод DeepL / Ninh Duy), Опубликовано 28 February 2026 🇺🇸 🇪🇸 ...

AI Наука

Разработка способных к рассуждениям больших языковых моделей, способных к продвинутому программированию и многошаговому планированию, требует огромных вычислительных ресурсов. В ходе стандартного процесса обучения с подкреплением модели генерируют множество потенциальных ответов, чтобы выучить наилучший ответ. Эта фаза генерации, известная как развертывание, может занимать до 85% общего времени выполнения. Он создает критическое узкое место, характеризующееся распределением длинного хвоста, когда процессоры, генерирующие короткие ответы, простаивают в ожидании, пока другие выполнят более длинные запросы.

Чтобы устранить это напрасное время простоя, исследователи из Массачусетского технологического института вместе с коллегами из промышленности и академических кругов разработали систему под названием "Укрощение длинного хвоста" (Taming the Long Tail, TLT). Подход использует адаптивную модель черновика, которая постоянно тренируется на простаивающих процессорах. Эта легкая модель быстро угадывает будущие выходы более крупной целевой модели, которая затем проверяет все догадки одновременно с помощью техники, называемой спекулятивным декодированием.

В то время как традиционное спекулятивное декодирование опирается на статичный черновик, который быстро устаревает при постоянном обновлении тренировок, система TLT постоянно корректирует черновик во время тренировок без дополнительных вычислительных затрат. Встроенный механизм адаптивного развертывания дополнительно оптимизирует процесс, поддерживая в памяти пул предварительно захваченных графов и динамически выбирая наилучшую стратегию декодирования для каждой новой партии входных данных.

Оценки, проведенные на нескольких моделях рассуждений, показали, что это решение без потерь ускоряет скорость сквозного обучения на 70-110% по сравнению с современными системами. Сохраняя исходный уровень точности и получая высококачественную черновую модель в качестве бесплатного побочного продукта, этот метод предлагает высокоэффективный путь для снижения энергетического и финансового бремени разработки передовых архитектур искусственного интеллекта.

Источник(и)

arXiv.org через MIT News

⟨

Yoga Pro 3D: Lenovo выпускает новый ноутбук со стереоскопическим 3D-дисплеем

Xiaomi выпускает новую версию Xiaomi 17 по всему миру

⟩

Add as a preferred source on Google

Ещё по теме

Автор исходного текста: Chibuike Okpara - Tech Writer - 500 статей на Notebookcheck c 2024 года

contact me via: @chibuikeokparaf, Facebook

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 771550 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 02 месяц > Исследователи удвоили скорость обучения ИИ, справившись с неэффективностью использования процессора в длинном хвосте

Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)