Те, кто работал с моделями ИИ для решения различных задач, особенно для кодирования, замечали, что программные инструменты ведут себя непоследовательно. В некоторых случаях они просто не дают никаких ответов; иногда они выдают ошибочный код, а когда они приходят к ожидаемому результату, то делают это медленнее, чем обычно. Именно здесь на помощь приходит инструмент AI Benchmark Tool, расположенный по адресу AistupidLevel.infoпредоставляет информацию в режиме реального времени о производительности и точности нескольких моделей ИИ, включая данные о затратах.
Вышеупомянутый инструмент с открытым исходным кодом выполняет более 140 задач по кодированию, отладке и оптимизации всех крупных моделей. На данный момент он отслеживает следующие: OpenAI GPT, Claude и Gemini. Вскоре будет добавлен и Grok. Его основные возможности включают следующее:
- Информация о цене в реальном времени, поскольку некоторым моделям, которые кажутся дешевыми, требуется 10 итераций, чтобы выполнить работу, в то время как другие, которые на первый взгляд кажутся более дорогими, выполнят ту же задачу за 2 итерации, то есть за меньшую эффективную стоимость.
- Возможность запускать те же тесты с помощью собственных API-ключей.
- Мониторинг производительности ИИ в режиме реального времени, включая рейтинг моделей по глупости и сообразительности.
- Умные рекомендации, основанные на совокупной производительности.
- Уведомление об активной деградации - например, производительность Gemini-2.5-Flash снизилась на 44% по сравнению с базовым значением.
В настоящее время умные рекомендации выглядят следующим образом: Gemini-2.5-Flash-Lite для кода, Claude-3.5-Sonnet-20241022 для надежности и Gemini-2.5-Flash-Lite для скорости. Все открыто на GitHub (Repo API, Repo Front End), и каждый может внести свой вклад. Все подробности и сам инструмент можно найти на официальном сайте, который был упомянут в первом абзаце.
Источник(и)
Reddit (перевод)