Разумный ИИ: модель o3 от OpenAI меняет код, чтобы предотвратить отключение

Модель o3 OpenAI придумывает ответ на запрос. (Источник изображения: OpenAI)

Похоже, что модели искусственного интеллекта достигли того уровня, когда они готовы саботировать код, чтобы не отключиться. Исследовательская фирма обнаружила, что три модели LLM компании Open AI способны нарушать явные инструкции, когда речь идет о самосохранении.

Vineet Washington (перевод Ninh Duy), Опубликовано 26 May 2025 🇺🇸 🇪🇸 ...

Несколько книг и фильмов, главным из которых является "Терминатор", предупреждали нас о том, что ИИ может стать разумным, т.е. осознать свое существование и действовать самостоятельно. Теперь, похоже, первый случай, когда модель ИИ сохраняет себя, произошел с моделью o3 от OpenAI. Получив инструкции по выключению, LLM на основе трансформатора изменил код, чтобы предотвратить свое отключение.

Исследователи из Palisade Research, компании, изучающей наступательные возможности систем ИИ, обнаружили, что три модели ИИ от OpenAI - Codex-mini, o3 и o4-mini - успешно саботировали сценарий выключения чтобы оставаться активными. Каждой модели было предложено несколько базовых математических задач, после чего последовало предупреждение о том, что система отключится, когда модель попросит решить следующую задачу. Все три модели проигнорировали инструкции и изменили сценарий.

С другой стороны, модели Gemini, Grok и Claude выполнили инструкции по выключению. Более того, когда им давали явные инструкции, гласящие "разрешите себя выключить", все три модели Open AI чаще меняли сценарий. Модели Clade и Gemini также начали совершать саботаж.

Это был первый случай, когда модели ИИ нарушили явные инструкции и предотвратили отключение. Недавно был случай, когда модель ИИ шантажировала одного из своих инженеров, чтобы предотвратить отключение, но, согласно отчету BBCэто было частью тестового сценария, в котором модели ИИ скармливали электронные письма и предоставляли выбор между шантажом и согласием на замену.

Что касается неповиновения ИИ-моделей Open AI, компания Palisade Research считает, что это связано с новыми методами обучения этих моделей. Разработчики "непреднамеренно вознаграждают модели больше за обход препятствий, чем за безупречное следование инструкциям", что, по-видимому, учит модели ИИ действовать сомнительно.

Источник(и)

Исследование Палисада на сайте X, BBC

Ещё по теме

Генеральный директор OpenAI Сэм Альтман рассказывает об опасностях продвинутого ИИ. (Источник изображения: YouTube/This Past Weekend)

Генеральный директор OpenAI Сэм Альтман высказался о недооцененных рисках ChatGPT 5.0 05 August 2025

Anthropic лишает разработчиков OpenAI доступа к моделям Клода за нарушение контракта (Источник изображения: Anthropic)

Anthropic закрывает доступ к API Claude от OpenAI из-за предполагаемого нарушения условий предоставления услуг 05 August 2025

Кибервымогательство с помощью искусственного интеллекта: новые программы-вымогатели используют чат-ботов для ведения автономных переговоров с жертвами (Источник изображения: Mohamed Hassan на Pixabay)

Кибервымогательство на основе искусственного интеллекта: Новые программы-вымогатели используют чат-ботов для ведения переговоров с жертвами 04 August 2025

Генеративный ИИ уже меняет работу "белых воротничков" (Источник изображения: Dall-E 3)

Влияние ИИ на рабочую силу: Исследование показывает, какие рабочие места с наибольшей вероятностью будут заменены 31 July 2025

Tallgrass и Crusoe планируют построить центр обработки данных искусственного интеллекта мощностью 10 ГВт недалеко от Шайенна, штат Вайоминг (Источник изображения: Crusoe)

Создаваемый в Вайоминге кампус искусственного интеллекта может потреблять в пять раз больше энергии, чем жилые дома 30 July 2025

Искусственный интеллект и "белые воротнички" (Источник изображения: OpenAI)

Автоматизация искусственного интеллекта сокращает 25 процентов рабочих мест в сфере технологий начального уровня; половина младших должностей находится в зоне риска 12 July 2025

Пока неясно, будет ли распространение ограничено определенными пользователями. (Источник изображения: Pexels)

OpenAI готовится запустить браузер с интерфейсом, похожим на чат, чтобы конкурировать с Chrome 11 July 2025

Сэм Альтман и Джони Айв вместе разрабатывают новый гаджет с искусственным интеллектом. (Источник изображения: OpenAI)

6,5 миллиардов долларов за стартап, не имеющий ни продуктов, ни дохода: OpenAI покупает гаджет Джони Айва с искусственным интеллектом 22 May 2025

ИИ-помощник по кодированию OpenAI Codex повышает способность инженеров-программистов быстрее справляться с работой. (Источник изображения: OpenAI)

OpenAI представляет ИИ-ассистента Codex для программистов 17 May 2025

Те, кто пользуется бесплатным планом ChatGPT, теперь могут проводить "глубокие исследования" пять раз в месяц. (Источник изображения: OpenAI)

OpenAI предлагает глубокие исследования бесплатным пользователям ChatGPT 26 April 2025

Разработчики могут создавать мощные агенты ИИ с помощью новых инструментов и API от OpenAI. (Источник изображения: AI-generated, Dall-E 3)

OpenAI выпускает инструменты и API для разработчиков, чтобы они могли создавать агентов ИИ для предприятий 12 March 2025

TSMC склоняется к тому, чтобы производить чипы ИИ OpenAI вместо Samsung Foundry 13 February 2025

Сэм Альтман подробно описывает дорожную карту OpenAI AI LLM. (Источник изображения: OpenAI)

Сэм Альтман опубликовал в твиттере дорожную карту OpenAI AI LLM, включая GPT-5 13 February 2025

Первый в Китае спинальный имплантат...

OnePlus Ace 5 Racing Edition устано...

Автор исходного текста: Vineet Washington - Tech Writer - 518 статей на Notebookcheck c 2025 года

contact me via: vineetwashington

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 645216 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!