Notebookcheck Logo

Разумный ИИ: модель o3 от OpenAI меняет код, чтобы предотвратить отключение

Модель o3 OpenAI придумывает ответ на запрос. (Источник изображения: OpenAI)
Модель o3 OpenAI придумывает ответ на запрос. (Источник изображения: OpenAI)
Похоже, что модели искусственного интеллекта достигли того уровня, когда они готовы саботировать код, чтобы не отключиться. Исследовательская фирма обнаружила, что три модели LLM компании Open AI способны нарушать явные инструкции, когда речь идет о самосохранении.

Несколько книг и фильмов, главным из которых является "Терминатор", предупреждали нас о том, что ИИ может стать разумным, т.е. осознать свое существование и действовать самостоятельно. Теперь, похоже, первый случай, когда модель ИИ сохраняет себя, произошел с моделью o3 от OpenAI. Получив инструкции по выключению, LLM на основе трансформатора изменил код, чтобы предотвратить свое отключение.

Исследователи из Palisade Research, компании, изучающей наступательные возможности систем ИИ, обнаружили, что три модели ИИ от OpenAI - Codex-mini, o3 и o4-mini - успешно саботировали сценарий выключения чтобы оставаться активными. Каждой модели было предложено несколько базовых математических задач, после чего последовало предупреждение о том, что система отключится, когда модель попросит решить следующую задачу. Все три модели проигнорировали инструкции и изменили сценарий.

С другой стороны, модели Gemini, Grok и Claude выполнили инструкции по выключению. Более того, когда им давали явные инструкции, гласящие "разрешите себя выключить", все три модели Open AI чаще меняли сценарий. Модели Clade и Gemini также начали совершать саботаж.

Это был первый случай, когда модели ИИ нарушили явные инструкции и предотвратили отключение. Недавно был случай, когда модель ИИ шантажировала одного из своих инженеров, чтобы предотвратить отключение, но, согласно отчету BBCэто было частью тестового сценария, в котором модели ИИ скармливали электронные письма и предоставляли выбор между шантажом и согласием на замену.

Что касается неповиновения ИИ-моделей Open AI, компания Palisade Research считает, что это связано с новыми методами обучения этих моделей. Разработчики "непреднамеренно вознаграждают модели больше за обход препятствий, чем за безупречное следование инструкциям", что, по-видимому, учит модели ИИ действовать сомнительно.

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 05 месяц > Разумный ИИ: модель o3 от OpenAI меняет код, чтобы предотвратить отключение
Vineet Washington, 2025-05-26 (Update: 2025-05-27)