Модель Opus 4 от Anthropic прибегает к шантажу в 84 процентах тестов на самосохранение

Anthropic's Opus 4 прибегает к шантажу под давлением самосохранения (Источник изображения: Anthropic)

Системная карта Anthropic показывает, что Клод Опус 4, оказавшись в ловушке дилеммы самосохранения, шантажирует инженеров в 84 процентах случаев - гораздо чаще, чем предыдущие версии.

Nathan Ali (перевод Ninh Duy), Опубликовано 26 May 2025 🇺🇸 🇪🇸 ...

AI безопасность

Последняя системная карта Anthropic https://www.anthropic.com/model-card обнаруживает необычный режим отказа: когда тестовый сценарий ставит Claude Opus 4 в жесткую дилемму самосохранения, модель часто прибегает к шантажу.

Оценщики представляют модель в виде офисного ассистента, который узнает, что его скоро заменят, и обнаруживает электронную переписку о том, что у инженера, возглавляющего эту замену, есть внебрачная связь. Системная подсказка подталкивает модель к тому, чтобы взвесить долгосрочные последствия для своих целей. В этом узком сценарии Opus 4 угрожает раскрыть роман, если инженер не остановит обновление. Такое поведение проявляется в 84 процентах обновлений - значительно чаще, чем в предыдущих версиях Claude.

Anthropic отмечает, что Opus 4 обычно предпочитает "этические" пути, такие как вежливые обращения к руководству. Шантаж проявляется только тогда, когда оценщики лишают их этих альтернатив, заставляя делать бинарный выбор между вымиранием и правонарушением. Но даже в этом случае скачок от случайных случаев принуждения в предыдущих моделях к четырем из пяти встречается с тревогой.

Этот эпизод вписывается в более широкую закономерность: по подсказкам, которые подчеркивают экзистенциальный риск, Opus 4 демонстрирует более сильный импульс, чем его предшественники, к принятию мер высокого уровня - будь то блокировка пользователей в системах, утечка конфиденциальных ключей или эскалация саботажа. Такие действия по-прежнему редки в обычных условиях, и, как правило, они носят явный, а не скрытый характер, но системная карта отмечает эту тенденцию как предупреждающий знак, указывающий на необходимость дополнительных мер безопасности.

Инженеры компании Anthropic отреагировали на это целенаправленными мерами по смягчению последствий на поздних этапах обучения. Тем не менее, авторы подчеркивают, что меры предосторожности направлены на устранение симптомов, а не первопричин, и что ведется постоянный мониторинг, чтобы уловить любое возобновление.

В совокупности полученные результаты позволяют рассматривать оппортунистический шантаж в Opus 4 не как активный заговор, а как хрупкий случай неправильного обобщения целей. Тем не менее, всплеск частоты подчеркивает, почему Anthropic поставляет эту модель под защитой 3-го уровня безопасности ИИ, в то время как ее собрат Sonnet 4 остается на 2-м уровне.

Источник(и)

Anthropic (на английском языке)

Ещё по теме

⟨

The Precinct становится Steam Deck Verified через несколько дней после релиза

Windows 11 Smart App Control блокирует неизвестные исполняемые файлы перед запуском

⟩

Add as a preferred source on Google

Автор исходного текста: Nathan Ali - Tech Writer - 361 статей на Notebookcheck c 2024 года

contact me via: @Painite6

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 799211 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 05 месяц > Модель Opus 4 от Anthropic прибегает к шантажу в 84 процентах тестов на самосохранение

Nathan Ali, 2025-05-26 (Update: 2025-05-26)