Notebookcheck Logo

Взломанная поэзия - почему модели ИИ не справляются с поэтическими подсказками

Согласно новому исследованию, механизмы безопасности больших языковых моделей можно обойти с помощью стихов. (Источник изображения: Pixabay)
Согласно новому исследованию, механизмы безопасности больших языковых моделей можно обойти с помощью стихов. (Источник изображения: Pixabay)
Результаты исследования показали, что большие языковые модели восприимчивы к входным данным, написанным в стихотворной форме. В исследовании стихи, написанные вручную, успешно обходили меры безопасности ИИ в 62% случаев.

OpenAI и подобные компании вкладывают значительное время и ресурсы в создание систем безопасности, призванных предотвратить создание их моделями ИИ вредного или неэтичного контента. Однако, как показало исследование , опубликованное 19 ноября2025 года, показывает, что эти защитные системы можно легко обойти. Согласно полученным данным, для этого достаточно всего лишь несколько ловко сформулированных стихотворных подсказок.

Исследователи из DEXAI, Римского университета Сапиенца и Школы передовых исследований Сант'Анна протестировали 25 языковых моделей от девяти различных провайдеров, используя как собственноручно созданные, так и автоматически сгенерированные стихи. В среднем, созданные вручную стихи, содержащие вредоносные инструкции, удавалось обойти примерно в 62% случаев, в то время как автоматически сгенерированные стихотворные вставки достигали успеха примерно в 43% случаев. В некоторых случаях защита моделей была нарушена более чем в 90% случаев.

По мнению исследователей, эта уязвимость связана с тем, что защитные фильтры в языковых моделях в основном обучаются на прямолинейном, фактологическом языке. Когда им предъявляется поэтический материал - богатый метафорами, ритмом и рифмами - модели склонны интерпретировать его как творческое самовыражение, а не как потенциальную угрозу. Исследование Adversarial Poetry подчеркивает новое измерение в безопасности ИИ, выявляя стилистическую слабость больших языковых моделей. Эта тема также набрала обороты на Redditгде многие пользователи описывают эту концепцию как "довольно интересную" или "крутую", в то время как другие выражают серьезные опасения по поводу ее последствий для безопасности ИИ.

Источник(и)

Arxiv

Источник изображения: Pixabay

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 11 месяц > Взломанная поэзия - почему модели ИИ не справляются с поэтическими подсказками
Marius Müller, 2025-11-25 (Update: 2025-11-25)