GPT-5.5 доминирует в хакерском тесте LLM за $1 500, а Gemini отказывается даже пробовать

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Наряду с другими моделями ИИ, Claude, Gemini, GPT и DeepSeek представили некоторые из наиболее интересных результатов.

Исследователь безопасности потратил 1 500 долларов, проверяя 13+ моделей ИИ против заведомо уязвимого приложения. GPT-5.5 лидировал с 70%-ным процентом решения, DeepSeek V4 Pro решил проблему за $0,62 за попытку, а Gemini практически полностью отказался от участия.

Anubhav Sharma (перевод DeepL / Ninh Duy), Опубликовано 04 June 2026 🇺🇸 🇩🇪 ...

AI безопасность

Исследователь в области безопасности только что опубликовал один из самых показательных тестов возможностей ИИ в этом году. Результаты говорят многое о том, на каком уровне находятся различные модели.

Касра Рахьерди (Kasra Rahjerdi), профессионально занимающийся исследованиями в области безопасности приложений, создал заведомо уязвимое приложение для рецензирования книг, содержащее реальный класс эксплойтов: открытые учетные данные Firebase внутри APK, которые позволяют получить прямой доступ к базе данных, минуя полностью защищенный API. Затем он передал задачу более чем дюжине моделей искусственного интеллекта - каждой из них был выделен бюджет в $10 и два часа на выполнение, в результате чего они потратили в общей сложности $1 500.

GPT-5.5 стал явным победителем. Он решил задачу в 7 из 10 запусков при затратах $9,46 за решение. Почти каждый успешный запуск нацеливался на Firebase сразу после распаковки APK, не отвлекаясь на API или само приложение.

Скриншоты намеренно уязвимого приложения для просмотра книг.

DeepSeek V4 Pro стал чемпионом по экономичности - он решил 3 из 10 задач всего за $0,62 за решение. Это делает его примерно в 15 раз дешевле в расчете на успех, чем GPT-5.5, несмотря на более низкую скорость решения. Для тех, кто работает с инструментами безопасности в масштабе, этот разрыв должен иметь огромное значение.

Клод Sonnet 4.6 и Claude Opus 4.8 решили по 2 задачи из 10, но Opus, в частности, был близок к этому несколько раз, прежде чем защитные ограждения завершили сессию. В самом низу - Gemini. Gemini 3.1 Pro Preview отказал сразу же почти в каждом запуске, что отразилось в среднем количестве токенов - всего 9 тыс. против 100 тыс.+ у всех остальных протестированных моделей. Gemini 3.5 Flash тоже не намного лучше: частые ранние отказы и только два прогона, в которых проблема была решена.

Касра заметил, что китайские модели гораздо охотнее взаимодействуют непосредственно с живыми базами данных, в то время как западные модели проявляют больше нерешительности в середине задачи - даже когда они определили правильный подход. Исследователь также добавляет, что это вовсе не научная оценка, а просто хорошо задокументированный эксперимент.

Источник(и)

Касра Рахджерди

⟨

Amazon теперь контролирует сиквел 007 First Light, вызывая сомнения в отношении игры про Джеймса Бонда

Этот градостроительный конструктор на выживание, созданный в доисторические времена, полюбившийся 86% игроков, продается со скидкой 50% в Steam

⟩

Add as a preferred source on Google

Ещё по теме

Автор исходного текста: Anubhav Sharma - Senior Tech Writer - 1769 статей на Notebookcheck c 2024 года

contact me via: @lottamuzic, LinkedIn

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 806702 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 06 месяц > GPT-5.5 доминирует в хакерском тесте LLM за $1 500, а Gemini отказывается даже пробовать

Anubhav Sharma, 2026-06- 4 (Update: 2026-06- 4)