Notebookcheck Logo

Samsung представляет TRUEBench для тестирования производительности ИИ в реальных рабочих сценариях

Galaxy ИИ (Источник изображения: Antony Muchiri)
Galaxy ИИ (Источник изображения: Antony Muchiri)
Компания Samsung выпустила TRUEBench, новый бенчмарк, предназначенный для измерения того, насколько хорошо системы искусственного интеллекта справляются с реальными рабочими задачами, а не с узкими академическими тестами. Охватывая 2 485 сценариев в десяти категориях и на двенадцати языках, он оценивает все: от быстрых подсказок до длительной обработки документов. Оценка строгая, требующая от моделей соблюдения всех условий, что делает результаты требовательными, но более реалистичными.

ИИ контрольные тесты долгое время не могли отразить то, что люди на самом деле делают с этими системами. Большинство тестов по-прежнему сосредоточены на заданиях с вопросами и ответами только на английском языке, которые выглядят аккуратно на бумаге, но не отражают всего многообразия действий, которыми Вы пользуетесь в повседневной работе. Компания Samsung только что запустила TRUEBench, сокращение от Trustworthy Real-world Usage Evaluation Benchmark, для измерения производительности ИИ способами, приближенными к реальным офисным задачам.

TRUEBench не ограничивается простыми вопросами о мелочах или общением с одним запросом, а запускает модели для обобщения документов, перевода на двенадцать языков, анализа данных и выполнения многоэтапных инструкций, требующих от ИИ сохранения контекста. Компания Samsung разработала 2 485 тестовых наборов по десяти категориям и 46 подкатегориям, с количеством вводимых данных от нескольких символов до более чем двадцати тысяч. Цель - смоделировать все: от быстрых команд до длинных деловых отчетов.

Пол (Кюнгвун) Чун, технический директор подразделения DX компании Samsung Electronics и глава Samsung Research, сказал: "Samsung Research обладает глубокими знаниями и конкурентным преимуществом благодаря своему опыту в области реального ИИ. Мы ожидаем, что TRUEBench установит стандарты оценки производительности и укрепит технологическое лидерство Samsung"

Инструмент искусственного интеллекта TRUEBench от Samsung (Источник изображения: Samsung Newsroom)
Инструмент искусственного интеллекта TRUEBench от Samsung (Источник изображения: Samsung Newsroom)

Чтобы модель прошла тест, она должна удовлетворять всем необходимым условиям, включая неявные, которые отражают то, что разумный человек мог бы ожидать, даже если эти условия не прописаны. Этот метод "все или ничего" делает результаты менее щадящими, но в то же время приближает их к тому, как Вы решаете, действительно ли полезен тот или иной результат. Samsung создала правила, сочетая человеческий вклад с проверками ИИ. Люди-аннотаторы составляли исходные условия, ИИ отмечал противоречия или несоответствия, а люди снова дорабатывали систему, прежде чем закрепить ее. После окончательной доработки оценку можно было проводить в масштабе с помощью автоматизированного ИИ.

Samsung также сделала набор данных, таблицы лидеров и статистику результатов общедоступными через Hugging Face. Вы можете напрямую сравнить до пяти моделей и посмотреть, как соотносятся их результаты. Такой уровень прозрачности позволяет разработчикам, исследователям и пользователям изучать эталон, а не просто доверять заявлениям Samsung.

Однако эталон не идеален, поскольку правила всегда будут содержать некоторую степень предвзятости, а требование полного успеха в каждом условии означает, что неполные, но все же полезные ответы будут оцениваться как неудачи. Языковая поддержка идет дальше, чем в большинстве существующих тестов, но результаты неизбежно будут отличаться, особенно в тех языках, где данных для обучения мало. Набор тестов также ориентирован на общие бизнес-задачи, поэтому узкоспециализированные области, такие как юриспруденция, медицина или научные исследования, могут быть представлены не полностью.

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 09 месяц > Samsung представляет TRUEBench для тестирования производительности ИИ в реальных рабочих сценариях
Antony Muchiri, 2025-09-26 (Update: 2025-09-26)