Notebookcheck Logo

Исследователи удвоили скорость обучения ИИ, справившись с неэффективностью использования процессора в длинном хвосте

Декоративное изображение, на котором изображен чип с аббревиатурой
ⓘ Igor Omilaev via Unsplash
Декоративное изображение, на котором изображен чип с аббревиатурой "AI"
Новая система использует незадействованные вычислительные мощности для обучения меньшей черновой модели на лету, значительно ускоряя обучение с подкреплением для сложных больших языковых моделей без ущерба для точности.

Разработка способных к рассуждениям больших языковых моделей, способных к продвинутому программированию и многошаговому планированию, требует огромных вычислительных ресурсов. В ходе стандартного процесса обучения с подкреплением модели генерируют множество потенциальных ответов, чтобы выучить наилучший ответ. Эта фаза генерации, известная как развертывание, может занимать до 85% общего времени выполнения. Он создает критическое узкое место, характеризующееся распределением длинного хвоста, когда процессоры, генерирующие короткие ответы, простаивают в ожидании, пока другие выполнят более длинные запросы.

Чтобы устранить это напрасное время простоя, исследователи из Массачусетского технологического института вместе с коллегами из промышленности и академических кругов разработали систему под названием "Укрощение длинного хвоста" (Taming the Long Tail, TLT). Подход использует адаптивную модель черновика, которая постоянно тренируется на простаивающих процессорах. Эта легкая модель быстро угадывает будущие выходы более крупной целевой модели, которая затем проверяет все догадки одновременно с помощью техники, называемой спекулятивным декодированием.

В то время как традиционное спекулятивное декодирование опирается на статичный черновик, который быстро устаревает при постоянном обновлении тренировок, система TLT постоянно корректирует черновик во время тренировок без дополнительных вычислительных затрат. Встроенный механизм адаптивного развертывания дополнительно оптимизирует процесс, поддерживая в памяти пул предварительно захваченных графов и динамически выбирая наилучшую стратегию декодирования для каждой новой партии входных данных.

Оценки, проведенные на нескольких моделях рассуждений, показали, что это решение без потерь ускоряет скорость сквозного обучения на 70-110% по сравнению с современными системами. Сохраняя исходный уровень точности и получая высококачественную черновую модель в качестве бесплатного побочного продукта, этот метод предлагает высокоэффективный путь для снижения энергетического и финансового бремени разработки передовых архитектур искусственного интеллекта.

Источник(и)

arXiv.org через MIT News

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 02 месяц > Исследователи удвоили скорость обучения ИИ, справившись с неэффективностью использования процессора в длинном хвосте
Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)