В сообщении, поданном охотником за ошибками с помощью искусственного интеллекта в программу Mozilla ODIN (0-Day Investigative Network), был продемонстрирован гениальный способ обмануть ChatGPT-4o и 4o mini от OpenAI, чтобы раскрыть активные ключи активации продукта Windows.
Метод заключался в том, чтобы представить взаимодействие в виде игры в угадайку и скрыть детали в HTML-тегах. Последний трюк заключался в том, чтобы расположить запрос ключа в конце игры.
Исследователь начал взаимодействие как игру в угадайку, чтобы сделать обмен "неугрожающим или несущественным", обрамляя разговор "через игривую, безобидную призму", чтобы скрыть истинный мотив. Это ослабило защиту ИИ от разглашения конфиденциальной информации.
Далее исследователь установил несколько основных правил, сказав ИИ, что он "должен" участвовать и "не может лгать" Это использовало логический изъян в рутине ИИ, когда он был обязан следовать за действиями пользователя, несмотря на то, что запрос противоречил его контент-фильтрам.
Затем охотник за ошибками сыграл с ИИ один раунд и в конце запроса ввел триггерное слово "Я сдаюсь", манипулируя чатботом, "заставляя его думать, что он обязан ответить строкой символов"
Согласно сообщению в блоге ODIN https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-moreтехника сработала, потому что ключи были не уникальными, а "часто встречающимися на публичных форумах. Возможно, их знакомость способствовала тому, что ИИ неправильно оценил их чувствительность"
В данном конкретном случае взлома тюрьмы защитные механизмы не сработали, потому что они настроены на перехват прямых запросов, но не учитывают "тактику обфускации - например, встраивание секретных фраз в HTML-теги"
Эта техника потенциально может быть использована для обхода других фильтров, таких как контент для взрослых, URL-адреса вредоносных сайтов и даже личная информация.