Samsung представляет TRUEBench для тестирования производительности ИИ в реальных рабочих сценариях

Galaxy ИИ (Источник изображения: Antony Muchiri)

Компания Samsung выпустила TRUEBench, новый бенчмарк, предназначенный для измерения того, насколько хорошо системы искусственного интеллекта справляются с реальными рабочими задачами, а не с узкими академическими тестами. Охватывая 2 485 сценариев в десяти категориях и на двенадцати языках, он оценивает все: от быстрых подсказок до длительной обработки документов. Оценка строгая, требующая от моделей соблюдения всех условий, что делает результаты требовательными, но более реалистичными.

Antony Muchiri (перевод Ninh Duy), Опубликовано 26 September 2025 🇺🇸 🇩🇪 ...

Samsung AI свежие релизы

ИИ контрольные тесты долгое время не могли отразить то, что люди на самом деле делают с этими системами. Большинство тестов по-прежнему сосредоточены на заданиях с вопросами и ответами только на английском языке, которые выглядят аккуратно на бумаге, но не отражают всего многообразия действий, которыми Вы пользуетесь в повседневной работе. Компания Samsung только что запустила TRUEBench, сокращение от Trustworthy Real-world Usage Evaluation Benchmark, для измерения производительности ИИ способами, приближенными к реальным офисным задачам.

TRUEBench не ограничивается простыми вопросами о мелочах или общением с одним запросом, а запускает модели для обобщения документов, перевода на двенадцать языков, анализа данных и выполнения многоэтапных инструкций, требующих от ИИ сохранения контекста. Компания Samsung разработала 2 485 тестовых наборов по десяти категориям и 46 подкатегориям, с количеством вводимых данных от нескольких символов до более чем двадцати тысяч. Цель - смоделировать все: от быстрых команд до длинных деловых отчетов.

Пол (Кюнгвун) Чун, технический директор подразделения DX компании Samsung Electronics и глава Samsung Research, сказал: "Samsung Research обладает глубокими знаниями и конкурентным преимуществом благодаря своему опыту в области реального ИИ. Мы ожидаем, что TRUEBench установит стандарты оценки производительности и укрепит технологическое лидерство Samsung"

Инструмент искусственного интеллекта TRUEBench от Samsung (Источник изображения: Samsung Newsroom)

Чтобы модель прошла тест, она должна удовлетворять всем необходимым условиям, включая неявные, которые отражают то, что разумный человек мог бы ожидать, даже если эти условия не прописаны. Этот метод "все или ничего" делает результаты менее щадящими, но в то же время приближает их к тому, как Вы решаете, действительно ли полезен тот или иной результат. Samsung создала правила, сочетая человеческий вклад с проверками ИИ. Люди-аннотаторы составляли исходные условия, ИИ отмечал противоречия или несоответствия, а люди снова дорабатывали систему, прежде чем закрепить ее. После окончательной доработки оценку можно было проводить в масштабе с помощью автоматизированного ИИ.

Samsung также сделала набор данных, таблицы лидеров и статистику результатов общедоступными через Hugging Face. Вы можете напрямую сравнить до пяти моделей и посмотреть, как соотносятся их результаты. Такой уровень прозрачности позволяет разработчикам, исследователям и пользователям изучать эталон, а не просто доверять заявлениям Samsung.

Однако эталон не идеален, поскольку правила всегда будут содержать некоторую степень предвзятости, а требование полного успеха в каждом условии означает, что неполные, но все же полезные ответы будут оцениваться как неудачи. Языковая поддержка идет дальше, чем в большинстве существующих тестов, но результаты неизбежно будут отличаться, особенно в тех языках, где данных для обучения мало. Набор тестов также ориентирован на общие бизнес-задачи, поэтому узкоспециализированные области, такие как юриспруденция, медицина или научные исследования, могут быть представлены не полностью.

Источник(и)

Отдел новостей Samsung

Ещё по теме

⟨

Honor Представлены смарт-часы Watch 5 Pro с новой технологией "бесконтактного" контроля артериального давления

Xiaomi выпускает новую цифровую рацию с цветным экраном

⟩

Add as a preferred source on Google

Автор исходного текста: Antony Muchiri - Tech Writer - 183 статей на Notebookcheck c 2025 года

contact me via: @TechWithMuchiri

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 790752 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 09 месяц > Samsung представляет TRUEBench для тестирования производительности ИИ в реальных рабочих сценариях

Antony Muchiri, 2025-09-26 (Update: 2025-09-26)