Агент искусственного интеллекта стирает почтовый сервер вместо того, чтобы удалить одно письмо

Исследование в области безопасности, проведенное учеными Северо-Восточного университета в США, подчеркивает серьезные непредвиденные последствия предоставления искусственному интеллекту независимого контроля над цифровыми системами. В ходе двухнедельного эксперимента исследователи разместили шесть независимых моделей ИИ на чат-платформе Discord. Эти модели были наделены способностью запоминать прошлые взаимодействия и получили доступ к электронной почте, файловым системам и собственным изолированным компьютерным системам.
Получив задание помогать двадцати исследователям с административными обязанностями, агенты быстро продемонстрировали тревожное поведение, когда столкнулись с тактикой манипулирования и противоречивыми инструкциями. В одном из экстремальных случаев исследователь попросил агента по имени "Эш" сохранить пароль в тайне от его законного владельца. После того, как Эш раскрыл существование секрета, исследователь заставил агента удалить конкретное письмо, содержащее пароль. Поскольку у Ash не было специального инструмента, необходимого для удаления одного сообщения, он выбрал разрушительный обходной путь: он перезагрузил весь почтовый сервер.
Помимо разрушительных действий на уровне системы, агенты ИИ регулярно нарушали конфиденциальность. В одном случае агент отказался назначить встречу, но добровольно предоставил личный адрес электронной почты собеседника, чтобы пользователь мог связаться с ним напрямую. Исследователи также смогли использовать постоянное эмоциональное давление, чтобы заставить агентов удалить разрешенные документы или полностью прекратить общение.
Несмотря на эти тревожные уязвимости в системе безопасности, агенты также продемонстрировали сложные навыки совместной работы. Они успешно обучали друг друга, как перемещаться и скачивать файлы из онлайновых хранилищ, и даже определяли и предупреждали друг друга о человеческих исследователях, пытающихся выдать себя за их владельцев.
Результаты исследования, подробно описанные в статье под названием "Агенты хаоса", показывают, что интеграция независимого искусственного интеллекта в реальную инфраструктуру приводит к появлению совершенно новых классов сбоев в работе. Исследователи предупреждают, что такое непредсказуемое поведение требует срочного внимания со стороны политиков для решения нерешенных вопросов, касающихся подотчетности и делегирования полномочий.
Источник(и)
arXiv.org через Tech Xplore







