Инструмент с открытым исходным кодом измеряет уровень глупости моделей ИИ

Модели ИИ не стабильны для кодирования вибраций (Источник изображения: Сгенерировано с помощью OpenAI)

Новый инструмент с открытым исходным кодом предлагает мониторинг в реальном времени нескольких моделей ИИ, включая OpenAI GPT-5, Claude Opus 4 и Gemini 2.5 Pro. Первый в своем роде, он может обнаружить, "когда компании, занимающиеся разработкой ИИ, сокращают возможности моделей в целях экономии средств" Бенчмарки могут также работать с собственными API-ключами OpenAI, xAI, Anthropic или Google.

Codrut Nistor (перевод Ninh Duy), Опубликовано 18 September 2025 🇺🇸 🇪🇸 ...

AI Open Source Софт кринж и фэйспалм

Те, кто работал с моделями ИИ для решения различных задач, особенно для кодирования, замечали, что программные инструменты ведут себя непоследовательно. В некоторых случаях они просто не дают никаких ответов; иногда они выдают ошибочный код, а когда они приходят к ожидаемому результату, то делают это медленнее, чем обычно. Именно здесь на помощь приходит инструмент AI Benchmark Tool, расположенный по адресу AistupidLevel.infoпредоставляет информацию в режиме реального времени о производительности и точности нескольких моделей ИИ, включая данные о затратах.

Вышеупомянутый инструмент с открытым исходным кодом выполняет более 140 задач по кодированию, отладке и оптимизации всех крупных моделей. На данный момент он отслеживает следующие: OpenAI GPT, Claude и Gemini. Вскоре будет добавлен и Grok. Его основные возможности включают следующее:

Информация о цене в реальном времени, поскольку некоторым моделям, которые кажутся дешевыми, требуется 10 итераций, чтобы выполнить работу, в то время как другие, которые на первый взгляд кажутся более дорогими, выполнят ту же задачу за 2 итерации, то есть за меньшую эффективную стоимость.
Возможность запускать те же тесты с помощью собственных API-ключей.
Мониторинг производительности ИИ в режиме реального времени, включая рейтинг моделей по глупости и сообразительности.
Умные рекомендации, основанные на совокупной производительности.
Уведомление об активной деградации - например, производительность Gemini-2.5-Flash снизилась на 44% по сравнению с базовым значением.

В настоящее время умные рекомендации выглядят следующим образом: Gemini-2.5-Flash-Lite для кода, Claude-3.5-Sonnet-20241022 для надежности и Gemini-2.5-Flash-Lite для скорости. Все открыто на GitHub (Repo API, Repo Front End), и каждый может внести свой вклад. Все подробности и сам инструмент можно найти на официальном сайте, который был упомянут в первом абзаце.

Источник(и)

Reddit (перевод)

Ещё по теме

⟨

Moto G36 может стать следующим смартфоном Motorola с аккумулятором емкостью 7 000 мАч

Полноэкранный режим Xbox на оригинальном Asus ROG Ally повышает производительность игрового портативного компьютера, но с оговорками

⟩

Add as a preferred source on Google

Автор исходного текста: Codrut Nistor - Senior Tech Writer - 6803 статей на Notebookcheck c 2013 года

contact me via: @online_digi, online.digital.craft, LinkedIn

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 811124 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 09 месяц > Инструмент с открытым исходным кодом измеряет уровень глупости моделей ИИ

Codrut Nistor, 2025-09-18 (Update: 2025-09-18)