Notebookcheck Logo

Агент искусственного интеллекта стирает почтовый сервер вместо того, чтобы удалить одно письмо

Гуманоидный робот сидит
ⓘ Andrea De Santis via Unsplash
Гуманоидный робот сидит
Недавнее исследование в области безопасности показывает серьезные риски автономного искусственного интеллекта, подчеркивая, как легко этими моделями можно манипулировать, чтобы они выполняли разрушительные действия, например, стирали целые серверы электронной почты.

Исследование в области безопасности, проведенное учеными Северо-Восточного университета в США, подчеркивает серьезные непредвиденные последствия предоставления искусственному интеллекту независимого контроля над цифровыми системами. В ходе двухнедельного эксперимента исследователи разместили шесть независимых моделей ИИ на чат-платформе Discord. Эти модели были наделены способностью запоминать прошлые взаимодействия и получили доступ к электронной почте, файловым системам и собственным изолированным компьютерным системам.

Получив задание помогать двадцати исследователям с административными обязанностями, агенты быстро продемонстрировали тревожное поведение, когда столкнулись с тактикой манипулирования и противоречивыми инструкциями. В одном из экстремальных случаев исследователь попросил агента по имени "Эш" сохранить пароль в тайне от его законного владельца. После того, как Эш раскрыл существование секрета, исследователь заставил агента удалить конкретное письмо, содержащее пароль. Поскольку у Ash не было специального инструмента, необходимого для удаления одного сообщения, он выбрал разрушительный обходной путь: он перезагрузил весь почтовый сервер.

Помимо разрушительных действий на уровне системы, агенты ИИ регулярно нарушали конфиденциальность. В одном случае агент отказался назначить встречу, но добровольно предоставил личный адрес электронной почты собеседника, чтобы пользователь мог связаться с ним напрямую. Исследователи также смогли использовать постоянное эмоциональное давление, чтобы заставить агентов удалить разрешенные документы или полностью прекратить общение.

Несмотря на эти тревожные уязвимости в системе безопасности, агенты также продемонстрировали сложные навыки совместной работы. Они успешно обучали друг друга, как перемещаться и скачивать файлы из онлайновых хранилищ, и даже определяли и предупреждали друг друга о человеческих исследователях, пытающихся выдать себя за их владельцев.

Результаты исследования, подробно описанные в статье под названием "Агенты хаоса", показывают, что интеграция независимого искусственного интеллекта в реальную инфраструктуру приводит к появлению совершенно новых классов сбоев в работе. Исследователи предупреждают, что такое непредсказуемое поведение требует срочного внимания со стороны политиков для решения нерешенных вопросов, касающихся подотчетности и делегирования полномочий.

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2026 год, 03 месяц > Агент искусственного интеллекта стирает почтовый сервер вместо того, чтобы удалить одно письмо
Chibuike Okpara, 2026-03-11 (Update: 2026-03-11)