Взломанная поэзия - почему модели ИИ не справляются с поэтическими подсказками

Согласно новому исследованию, механизмы безопасности больших языковых моделей можно обойти с помощью стихов. (Источник изображения: Pixabay)

Результаты исследования показали, что большие языковые модели восприимчивы к входным данным, написанным в стихотворной форме. В исследовании стихи, написанные вручную, успешно обходили меры безопасности ИИ в 62% случаев.

Marius Müller (перевод Ninh Duy), Опубликовано 25 November 2025 🇺🇸 🇩🇪 ...

AI Наука

OpenAI и подобные компании вкладывают значительное время и ресурсы в создание систем безопасности, призванных предотвратить создание их моделями ИИ вредного или неэтичного контента. Однако, как показало исследование , опубликованное 19 ноября2025 года, показывает, что эти защитные системы можно легко обойти. Согласно полученным данным, для этого достаточно всего лишь несколько ловко сформулированных стихотворных подсказок.

Исследователи из DEXAI, Римского университета Сапиенца и Школы передовых исследований Сант'Анна протестировали 25 языковых моделей от девяти различных провайдеров, используя как собственноручно созданные, так и автоматически сгенерированные стихи. В среднем, созданные вручную стихи, содержащие вредоносные инструкции, удавалось обойти примерно в 62% случаев, в то время как автоматически сгенерированные стихотворные вставки достигали успеха примерно в 43% случаев. В некоторых случаях защита моделей была нарушена более чем в 90% случаев.

По мнению исследователей, эта уязвимость связана с тем, что защитные фильтры в языковых моделях в основном обучаются на прямолинейном, фактологическом языке. Когда им предъявляется поэтический материал - богатый метафорами, ритмом и рифмами - модели склонны интерпретировать его как творческое самовыражение, а не как потенциальную угрозу. Исследование Adversarial Poetry подчеркивает новое измерение в безопасности ИИ, выявляя стилистическую слабость больших языковых моделей. Эта тема также набрала обороты на Redditгде многие пользователи описывают эту концепцию как "довольно интересную" или "крутую", в то время как другие выражают серьезные опасения по поводу ее последствий для безопасности ИИ.

Источник(и)

Arxiv

Источник изображения: Pixabay

AMD может отменить RX 9070 GRE 16 Г...

Автор исходного текста: Marius Müller - Tech Writer - 2636 статей на Notebookcheck c 2024 года

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 663084 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!