Несколько книг и фильмов, главным из которых является "Терминатор", предупреждали нас о том, что ИИ может стать разумным, т.е. осознать свое существование и действовать самостоятельно. Теперь, похоже, первый случай, когда модель ИИ сохраняет себя, произошел с моделью o3 от OpenAI. Получив инструкции по выключению, LLM на основе трансформатора изменил код, чтобы предотвратить свое отключение.
Исследователи из Palisade Research, компании, изучающей наступательные возможности систем ИИ, обнаружили, что три модели ИИ от OpenAI - Codex-mini, o3 и o4-mini - успешно саботировали сценарий выключения чтобы оставаться активными. Каждой модели было предложено несколько базовых математических задач, после чего последовало предупреждение о том, что система отключится, когда модель попросит решить следующую задачу. Все три модели проигнорировали инструкции и изменили сценарий.
С другой стороны, модели Gemini, Grok и Claude выполнили инструкции по выключению. Более того, когда им давали явные инструкции, гласящие "разрешите себя выключить", все три модели Open AI чаще меняли сценарий. Модели Clade и Gemini также начали совершать саботаж.
Это был первый случай, когда модели ИИ нарушили явные инструкции и предотвратили отключение. Недавно был случай, когда модель ИИ шантажировала одного из своих инженеров, чтобы предотвратить отключение, но, согласно отчету BBCэто было частью тестового сценария, в котором модели ИИ скармливали электронные письма и предоставляли выбор между шантажом и согласием на замену.
Что касается неповиновения ИИ-моделей Open AI, компания Palisade Research считает, что это связано с новыми методами обучения этих моделей. Разработчики "непреднамеренно вознаграждают модели больше за обход препятствий, чем за безупречное следование инструкциям", что, по-видимому, учит модели ИИ действовать сомнительно.