OpenAI и подобные компании вкладывают значительное время и ресурсы в создание систем безопасности, призванных предотвратить создание их моделями ИИ вредного или неэтичного контента. Однако, как показало исследование , опубликованное 19 ноября2025 года, показывает, что эти защитные системы можно легко обойти. Согласно полученным данным, для этого достаточно всего лишь несколько ловко сформулированных стихотворных подсказок.
Исследователи из DEXAI, Римского университета Сапиенца и Школы передовых исследований Сант'Анна протестировали 25 языковых моделей от девяти различных провайдеров, используя как собственноручно созданные, так и автоматически сгенерированные стихи. В среднем, созданные вручную стихи, содержащие вредоносные инструкции, удавалось обойти примерно в 62% случаев, в то время как автоматически сгенерированные стихотворные вставки достигали успеха примерно в 43% случаев. В некоторых случаях защита моделей была нарушена более чем в 90% случаев.
По мнению исследователей, эта уязвимость связана с тем, что защитные фильтры в языковых моделях в основном обучаются на прямолинейном, фактологическом языке. Когда им предъявляется поэтический материал - богатый метафорами, ритмом и рифмами - модели склонны интерпретировать его как творческое самовыражение, а не как потенциальную угрозу. Исследование Adversarial Poetry подчеркивает новое измерение в безопасности ИИ, выявляя стилистическую слабость больших языковых моделей. Эта тема также набрала обороты на Redditгде многие пользователи описывают эту концепцию как "довольно интересную" или "крутую", в то время как другие выражают серьезные опасения по поводу ее последствий для безопасности ИИ.


