Удивительный язык побеждает английский и китайский в тестах на получение степени магистра, согласно новому академическому исследованию

Согласно этому исследованию, польский лидирует среди всех языков со средней точностью 88% по шкале длинных контекстов. Английский язык зани

Новый многоязычный бенчмарк показывает, что польский язык превосходит английский и китайский в длинноконтекстных тестах LLM, демонстрируя, как сценарий и токенизация влияют на точность. Результаты показывают, что структура языка имеет гораздо большее значение по мере увеличения контекстных окон.

Anubhav Sharma (перевод Ninh Duy), Опубликовано 24 November 2025 🇺🇸 🇪🇸 ...

Новое многоязычное исследование, в котором оценивается, как большие языковые модели справляются с длинными документами, дало неожиданную информацию: Польский язык, а не английский или китайский, показывает наивысшую точность, когда контекстные окна растягиваются до 64 000 лексем и более. Выводы были сделаны на основе эталона OneRuler, представленного в документе COLM 2025в котором тестировались 26 языков в задачах поиска и агрегирования.

Исследователи сравнили точность модели при различной длине контекста и обнаружили явный сдвиг, когда последовательности становились длиннее. Согласно таблице результатов (на странице 6), польский язык лидирует среди всех языков со средней точностью 88% при длинных контекстах. Английский опустился на шестое место, а китайский оказался в четверке лучших.

(Источник изображения: Одна линейка, чтобы измерить их всех / COLM 2025)

Исследование намекает на то, что различия могут быть связаны с эффективностью токенизации и различиями в системах письма, а не просто с объемом обучающих данных. Языки, использующие латинскую письменность - такие как польский, французский и испанский - неизменно демонстрировали лучшие результаты, чем языки, использующие логографическую или абугидную системы письма. Китайский, корейский, тамильский и другие языки показали лишь умеренную точность даже в коротких контекстах (и их точность ухудшалась еще больше, когда последовательности становились длиннее). Такое полное несоответствие ожидаемому рейтингу интересно, поскольку большинство широко используемых LLM обучаются в основном на наборах данных с высоким содержанием английского языка. Однако результаты, полученные в статье, указывают на то, что когда модели должны искать, вспоминать или обобщать информацию, запрятанную глубоко в длинных документах, структурные аспекты языка оказываются предпочтительнее, чем распространенность набора данных.

Другие результаты эталонного тестирования также подтверждают эту интерпретацию. Разрыв в производительности между самыми сильными и самыми слабыми языками резко увеличивается по мере расширения контекста - с 11% при 8 000 лексем до 34% при 128 000 лексем. Еще одна деталь исследования показывает, насколько чувствительными могут быть эти тесты к небольшим изменениям в инструкции. Например, простое разрешение модели отвечать "нет", если целевая строка отсутствует, привело к тому, что точность в английском языке упала на 32% при 128 000 лексем, как показано на странице 2.

Хотя в бенчмарке также сравниваются семейства моделей, полученные результаты говорят о том, что при оценке длинных контекстов нельзя полагаться только на тестирование на английском языке и что обобщения производительности по языкам могут вводить в заблуждение, если игнорировать эффекты скриптов и токенизации. По мере увеличения контекстных окон языковые различия становятся все более важными, а не менее - и доминирование английского языка в эталонных тестах LLM может перестать быть репрезентативным, когда длина последовательности перевалит за десятки тысяч.

Источник(и)

Одна линейка для измерения всех: сравнительный анализ многоязычных длинноконтекстных языковых моделей на COLM 2025

OneRuler GitHub

Изображение Zulfugar Karimov на Unsplash

Удаление ценных данных нажатием кно...

Автор исходного текста: Anubhav Sharma - Tech Writer - 1178 статей на Notebookcheck c 2024 года

contact me via: @lottamuzic, LinkedIn

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 662002 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!