Notebookcheck Logo

GPT-5.5 доминирует в хакерском тесте LLM за $1 500, а Gemini отказывается даже пробовать

Наряду с другими моделями ИИ, Claude, Gemini, GPT и DeepSeek представили некоторые из наиболее интересных результатов.
ⓘ Anthropic, OpenAI, DeepSeek, Google - edited
Наряду с другими моделями ИИ, Claude, Gemini, GPT и DeepSeek представили некоторые из наиболее интересных результатов.
Исследователь безопасности потратил 1 500 долларов, проверяя 13+ моделей ИИ против заведомо уязвимого приложения. GPT-5.5 лидировал с 70%-ным процентом решения, DeepSeek V4 Pro решил проблему за $0,62 за попытку, а Gemini практически полностью отказался от участия.

Исследователь в области безопасности только что опубликовал один из самых показательных тестов возможностей ИИ в этом году. Результаты говорят многое о том, на каком уровне находятся различные модели.

Касра Рахьерди (Kasra Rahjerdi), профессионально занимающийся исследованиями в области безопасности приложений, создал заведомо уязвимое приложение для рецензирования книг, содержащее реальный класс эксплойтов: открытые учетные данные Firebase внутри APK, которые позволяют получить прямой доступ к базе данных, минуя полностью защищенный API. Затем он передал задачу более чем дюжине моделей искусственного интеллекта - каждой из них был выделен бюджет в $10 и два часа на выполнение, в результате чего они потратили в общей сложности $1 500.

GPT-5.5 стал явным победителем. Он решил задачу в 7 из 10 запусков при затратах $9,46 за решение. Почти каждый успешный запуск нацеливался на Firebase сразу после распаковки APK, не отвлекаясь на API или само приложение.

Скриншоты намеренно уязвимого приложения для просмотра книг.

DeepSeek V4 Pro стал чемпионом по экономичности - он решил 3 из 10 задач всего за $0,62 за решение. Это делает его примерно в 15 раз дешевле в расчете на успех, чем GPT-5.5, несмотря на более низкую скорость решения. Для тех, кто работает с инструментами безопасности в масштабе, этот разрыв должен иметь огромное значение.

Клод Sonnet 4.6 и Claude Opus 4.8 решили по 2 задачи из 10, но Opus, в частности, был близок к этому несколько раз, прежде чем защитные ограждения завершили сессию. В самом низу - Gemini. Gemini 3.1 Pro Preview отказал сразу же почти в каждом запуске, что отразилось в среднем количестве токенов - всего 9 тыс. против 100 тыс.+ у всех остальных протестированных моделей. Gemini 3.5 Flash тоже не намного лучше: частые ранние отказы и только два прогона, в которых проблема была решена.

Касра заметил, что китайские модели гораздо охотнее взаимодействуют непосредственно с живыми базами данных, в то время как западные модели проявляют больше нерешительности в середине задачи - даже когда они определили правильный подход. Исследователь также добавляет, что это вовсе не научная оценка, а просто хорошо задокументированный эксперимент.

Источник(и)

Google LogoAdd as a preferred source on Google
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 06 месяц > GPT-5.5 доминирует в хакерском тесте LLM за $1 500, а Gemini отказывается даже пробовать
Anubhav Sharma, 2026-06- 4 (Update: 2026-06- 4)