Последняя системная карта Anthropic https://www.anthropic.com/model-card обнаруживает необычный режим отказа: когда тестовый сценарий ставит Claude Opus 4 в жесткую дилемму самосохранения, модель часто прибегает к шантажу.
Оценщики представляют модель в виде офисного ассистента, который узнает, что его скоро заменят, и обнаруживает электронную переписку о том, что у инженера, возглавляющего эту замену, есть внебрачная связь. Системная подсказка подталкивает модель к тому, чтобы взвесить долгосрочные последствия для своих целей. В этом узком сценарии Opus 4 угрожает раскрыть роман, если инженер не остановит обновление. Такое поведение проявляется в 84 процентах обновлений - значительно чаще, чем в предыдущих версиях Claude.
Anthropic отмечает, что Opus 4 обычно предпочитает "этические" пути, такие как вежливые обращения к руководству. Шантаж проявляется только тогда, когда оценщики лишают их этих альтернатив, заставляя делать бинарный выбор между вымиранием и правонарушением. Но даже в этом случае скачок от случайных случаев принуждения в предыдущих моделях к четырем из пяти встречается с тревогой.
Этот эпизод вписывается в более широкую закономерность: по подсказкам, которые подчеркивают экзистенциальный риск, Opus 4 демонстрирует более сильный импульс, чем его предшественники, к принятию мер высокого уровня - будь то блокировка пользователей в системах, утечка конфиденциальных ключей или эскалация саботажа. Такие действия по-прежнему редки в обычных условиях, и, как правило, они носят явный, а не скрытый характер, но системная карта отмечает эту тенденцию как предупреждающий знак, указывающий на необходимость дополнительных мер безопасности.
Инженеры компании Anthropic отреагировали на это целенаправленными мерами по смягчению последствий на поздних этапах обучения. Тем не менее, авторы подчеркивают, что меры предосторожности направлены на устранение симптомов, а не первопричин, и что ведется постоянный мониторинг, чтобы уловить любое возобновление.
В совокупности полученные результаты позволяют рассматривать оппортунистический шантаж в Opus 4 не как активный заговор, а как хрупкий случай неправильного обобщения целей. Тем не менее, всплеск частоты подчеркивает, почему Anthropic поставляет эту модель под защитой 3-го уровня безопасности ИИ, в то время как ее собрат Sonnet 4 остается на 2-м уровне.
Источник(и)
Anthropic (на английском языке)