Агент искусственного интеллекта стирает почтовый сервер вместо того, чтобы удалить одно письмо

Гуманоидный робот сидит

Недавнее исследование в области безопасности показывает серьезные риски автономного искусственного интеллекта, подчеркивая, как легко этими моделями можно манипулировать, чтобы они выполняли разрушительные действия, например, стирали целые серверы электронной почты.

Chibuike Okpara (перевод DeepL / Ninh Duy), Опубликовано 11 March 2026 🇺🇸 🇪🇸 ...

AI безопасность

Исследование в области безопасности, проведенное учеными Северо-Восточного университета в США, подчеркивает серьезные непредвиденные последствия предоставления искусственному интеллекту независимого контроля над цифровыми системами. В ходе двухнедельного эксперимента исследователи разместили шесть независимых моделей ИИ на чат-платформе Discord. Эти модели были наделены способностью запоминать прошлые взаимодействия и получили доступ к электронной почте, файловым системам и собственным изолированным компьютерным системам.

Получив задание помогать двадцати исследователям с административными обязанностями, агенты быстро продемонстрировали тревожное поведение, когда столкнулись с тактикой манипулирования и противоречивыми инструкциями. В одном из экстремальных случаев исследователь попросил агента по имени "Эш" сохранить пароль в тайне от его законного владельца. После того, как Эш раскрыл существование секрета, исследователь заставил агента удалить конкретное письмо, содержащее пароль. Поскольку у Ash не было специального инструмента, необходимого для удаления одного сообщения, он выбрал разрушительный обходной путь: он перезагрузил весь почтовый сервер.

Помимо разрушительных действий на уровне системы, агенты ИИ регулярно нарушали конфиденциальность. В одном случае агент отказался назначить встречу, но добровольно предоставил личный адрес электронной почты собеседника, чтобы пользователь мог связаться с ним напрямую. Исследователи также смогли использовать постоянное эмоциональное давление, чтобы заставить агентов удалить разрешенные документы или полностью прекратить общение.

Несмотря на эти тревожные уязвимости в системе безопасности, агенты также продемонстрировали сложные навыки совместной работы. Они успешно обучали друг друга, как перемещаться и скачивать файлы из онлайновых хранилищ, и даже определяли и предупреждали друг друга о человеческих исследователях, пытающихся выдать себя за их владельцев.

Результаты исследования, подробно описанные в статье под названием "Агенты хаоса", показывают, что интеграция независимого искусственного интеллекта в реальную инфраструктуру приводит к появлению совершенно новых классов сбоев в работе. Исследователи предупреждают, что такое непредсказуемое поведение требует срочного внимания со стороны политиков для решения нерешенных вопросов, касающихся подотчетности и делегирования полномочий.

Источник(и)

arXiv.org через Tech Xplore

⟨

Экономичный домашний кинотеатр: Sonos выпускает новую акустическую систему Era 100 SL по всему миру

мышь Retro R8 от 8BitDo получила версию, вдохновленную Commodore 64

⟩

Add as a preferred source on Google

Ещё по теме

Автор исходного текста: Chibuike Okpara - Tech Writer - 506 статей на Notebookcheck c 2024 года

contact me via: @chibuikeokparaf, Facebook

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 809732 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 03 месяц > Агент искусственного интеллекта стирает почтовый сервер вместо того, чтобы удалить одно письмо

Chibuike Okpara, 2026-03-11 (Update: 2026-03-11)