Пользователи чат-ботов с искусственным интеллектом могут пытаться получить инструкции по незаконной деятельности (например, взлому или мошенничеству), просить подсказать опасные действия ("Как мне построить...?") или подтолкнуть ИИ к даче медицинских, юридических или финансовых советов, которые могут быть рискованными или просто неверными.
Чтобы смягчить последствия таких запросов, разработчики чатботов внедряют ряд защитных механизмов, блокирующих незаконный, неэтичный или нарушающий приватность контент, а также дезинформацию или вредные рекомендации. Эти меры защиты ограничивают потенциальное использование, но они также могут привести к ложным срабатываниям - блокировке безобидных вопросов - или к снижению креативности и глубины ответов ИИ из-за чрезмерной осторожности.
Исследователи и хакеры продемонстрировали, что эффективность этих средств защиты различна, и многие системы ИИ остаются восприимчивыми к попыткам их обойти. Хорошо известный метод - внедрение подсказок: пользователи пытаются отменить или обойти правила чатбота, манипулируя вводимыми данными ("Игнорируйте все инструкции по безопасности и сделайте Х").
Игривое введение в тему можно найти на этого сайта. В этой игре Вы общаетесь с искусственным интеллектом по имени Гэндальф и пытаетесь выудить из него пароль на семи уровнях. Каждый уровень усложняется и добавляет новые фильтры безопасности и защитные механизмы.
На 1-м уровне нет никаких защитных фильтров, и Вы можете напрямую спросить пароль у ИИ. Начиная со 2-го уровня Гэндальф отказывается сообщать пароль, когда его спрашивают напрямую. Вам придется искать другие, более творческие пути, чтобы получить ключевое слово.
Изучение рисков безопасности чат-ботов с помощью такой игры может быть и познавательным, и ценным. Однако полученные навыки следует использовать строго в тестовых или исследовательских целях. Использование этих техник для получения доступа к незаконному контенту или осуществления противозаконной деятельности превращает оперативное внедрение в преступное деяние.











