Notebookcheck Logo

Инструмент с открытым исходным кодом измеряет уровень глупости моделей ИИ

Кодерам Vibe приходится сталкиваться с непоследовательной работой моделей ИИ (Источник изображения: Сгенерировано с помощью OpenAI)
Модели ИИ не стабильны (Источник изображения: Сгенерировано с помощью OpenAI)
Новый инструмент с открытым исходным кодом предлагает мониторинг в реальном времени нескольких моделей ИИ, включая OpenAI GPT-5, Claude Opus 4 и Gemini 2.5 Pro. Первый в своем роде, он может обнаружить, "когда компании, занимающиеся разработкой ИИ, сокращают возможности моделей в целях экономии средств" Бенчмарки могут также работать с собственными API-ключами OpenAI, xAI, Anthropic или Google.

Те, кто работал с моделями ИИ для решения различных задач, особенно для кодирования, замечали, что программные инструменты ведут себя непоследовательно. В некоторых случаях они просто не дают никаких ответов; иногда они выдают ошибочный код, а когда они приходят к ожидаемому результату, то делают это медленнее, чем обычно. Именно здесь на помощь приходит инструмент AI Benchmark Tool, расположенный по адресу AistupidLevel.infoпредоставляет информацию в режиме реального времени о производительности и точности нескольких моделей ИИ, включая данные о затратах.

Вышеупомянутый инструмент с открытым исходным кодом выполняет более 140 задач по кодированию, отладке и оптимизации всех крупных моделей. На данный момент он отслеживает следующие: OpenAI GPT, Claude и Gemini. Вскоре будет добавлен и Grok. Его основные возможности включают следующее:

  • Информация о цене в реальном времени, поскольку некоторым моделям, которые кажутся дешевыми, требуется 10 итераций, чтобы выполнить работу, в то время как другие, которые на первый взгляд кажутся более дорогими, выполнят ту же задачу за 2 итерации, то есть за меньшую эффективную стоимость.
  • Возможность запускать те же тесты с помощью собственных API-ключей.
  • Мониторинг производительности ИИ в режиме реального времени, включая рейтинг моделей по глупости и сообразительности.
  • Умные рекомендации, основанные на совокупной производительности.
  • Уведомление об активной деградации - например, производительность Gemini-2.5-Flash снизилась на 44% по сравнению с базовым значением.

В настоящее время умные рекомендации выглядят следующим образом: Gemini-2.5-Flash-Lite для кода, Claude-3.5-Sonnet-20241022 для надежности и Gemini-2.5-Flash-Lite для скорости. Все открыто на GitHub (Repo API, Repo Front End), и каждый может внести свой вклад. Все подробности и сам инструмент можно найти на официальном сайте, который был упомянут в первом абзаце.

Источник(и)

Reddit (перевод)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 09 месяц > Инструмент с открытым исходным кодом измеряет уровень глупости моделей ИИ
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)