GPT-5.5 доминирует в хакерском тесте LLM за $1 500, а Gemini отказывается даже пробовать

Исследователь в области безопасности только что опубликовал один из самых показательных тестов возможностей ИИ в этом году. Результаты говорят многое о том, на каком уровне находятся различные модели.
Касра Рахьерди (Kasra Rahjerdi), профессионально занимающийся исследованиями в области безопасности приложений, создал заведомо уязвимое приложение для рецензирования книг, содержащее реальный класс эксплойтов: открытые учетные данные Firebase внутри APK, которые позволяют получить прямой доступ к базе данных, минуя полностью защищенный API. Затем он передал задачу более чем дюжине моделей искусственного интеллекта - каждой из них был выделен бюджет в $10 и два часа на выполнение, в результате чего они потратили в общей сложности $1 500.
GPT-5.5 стал явным победителем. Он решил задачу в 7 из 10 запусков при затратах $9,46 за решение. Почти каждый успешный запуск нацеливался на Firebase сразу после распаковки APK, не отвлекаясь на API или само приложение.
DeepSeek V4 Pro стал чемпионом по экономичности - он решил 3 из 10 задач всего за $0,62 за решение. Это делает его примерно в 15 раз дешевле в расчете на успех, чем GPT-5.5, несмотря на более низкую скорость решения. Для тех, кто работает с инструментами безопасности в масштабе, этот разрыв должен иметь огромное значение.
Клод Sonnet 4.6 и Claude Opus 4.8 решили по 2 задачи из 10, но Opus, в частности, был близок к этому несколько раз, прежде чем защитные ограждения завершили сессию. В самом низу - Gemini. Gemini 3.1 Pro Preview отказал сразу же почти в каждом запуске, что отразилось в среднем количестве токенов - всего 9 тыс. против 100 тыс.+ у всех остальных протестированных моделей. Gemini 3.5 Flash тоже не намного лучше: частые ранние отказы и только два прогона, в которых проблема была решена.
Касра заметил, что китайские модели гораздо охотнее взаимодействуют непосредственно с живыми базами данных, в то время как западные модели проявляют больше нерешительности в середине задачи - даже когда они определили правильный подход. Исследователь также добавляет, что это вовсе не научная оценка, а просто хорошо задокументированный эксперимент.









