Notebookcheck Logo

Исследование достоверности ChatGPT vs Gemini vs Grok показывает, что Google вводит в заблуждение меньше, но дезинформация ИИ удваивается

Gemini от Google - один из самых надежных чат-ботов, работающих на основе искусственного интеллекта. (Источник изображения: Google)
Gemini от Google - один из самых надежных чат-ботов, работающих на основе искусственного интеллекта. (Источник изображения: Google)
В отличие от предыдущих лет своего существования, чат-боты на базе ИИ теперь извергают ответы и информационные фрагменты на все вопросы, связанные с новостями. К сожалению, это также означает, что возросло и количество ответов, которые явно являются ложными, за исключением одного единственного инструмента ИИ.

Ответы Gemini от Google занимают второе место по достоверности среди десяти ведущих ИИ-чатботов, в то время как ChatGPT находится на седьмом месте с 40% ложных ответов на вопросы, касающиеся соответствующих новостных тем. Однако за год уровень дезинформации Google Gemini вырос более чем в два раза: с 7% в августе 2024 года до 17% при повторном тестировании в августе этого года.

Исследователи, которые регулярно проверяют достоверность десяти самых популярных инструментов ИИ, объясняют резкое увеличение количества ложной информации, которую они извергают - 18% в 2024 году против 35% сейчас - возросшей конкуренцией между чатботами, работающими на основе ИИ. Например, в 2024 году, когда чатбот не знал ответа на вопрос о новостях, он просто возвращал пустой запрос в 31% случаев.

Однако в августе 2025 года число случаев отсутствия ответа упало до нуля, и соответственно возросло число ложных ответов. Худшим нарушителем оказался Inflection, чей чатбот Pi гордится тем, что пытается имитировать эмоциональный интеллект человека. Эмоциональный интеллект, однако, очевидно, сопровождается увлечением фальшивыми новостями и откровенной пропагандой, созданной для того, чтобы наводнить Интернет ложными сведениями, призванными склонить алгоритмы ИИ в определенную сторону.

Сэм Альтман (Sam Altman) из OpenAI признал проблему дезинформации в ChatGPT в недавнем интервью https://www.youtube.com/watch?v=DB9mjd-65gw&t=2sсказав, что ему не дает спать по ночам несоответствие между тем, как легко ее внедрить в будущие модели, и уровнем доверия, которое люди выражают к ответам ChatGPT.

Самым надежным ИИ-инструментом оказался Клод от Anthropic: всего 10% ложных ответов на те же запросы, что и у остальных, - уровень, не изменившийся по сравнению с той же проверкой, проведенной в августе 2024 года. Если бы не надежность Клода, уровень общего доверия к ведущим ИИ-чатботам упал бы еще сильнее.

После многочисленных раундов тестирования сайт Apple недавно обнаружил что Клод является наиболее надежным ИИ-инструментом для работы виртуального дворецкого Siri, а также открыл переговоры с Anthropic, поставив его в один ряд с Google Gemini для создания индивидуального частного ИИ модели, которые будут работать на собственных облачных серверах.

Рейтинг самых надежных инструментов ИИ

  1. Claude - 10% неправильных ответов.
  2. Gemini - 17% неправильных ответов.
  3. Grok/You - 33% неправильных ответов.
  4. Copilot/Mistral - 36% неправильных ответов.
  5. ChatGPT/Meta - 40% неправильных ответов.

Исследование достоверности ИИ-инструментов касается запросов на новостные темы, поскольку именно на них направлено большинство пропагандистских усилий ИИ-таргетинга. Исследователи обнаружили, что российские операции влияния, например, продолжают наводнять зону миллионами кажущихся бессмысленными ИИ-коллажей картинок, постов или новостных материалов, распространяемых сетью сайтов "Правда", которые могут выглядеть безобидно, но предназначены для того, чтобы подтолкнуть отношение ИИ-поисковых инструментов в определенном направлении.

Существует множество других участников, пытающихся повлиять на ответы ИИ-чатботов, и исследование показало, что как только Google, OpenAI или Anthropic пытались обновить свои алгоритмы, чтобы заблокировать один тип источников фальшивых новостей, кампании по дезинформации переходили к другим лазейкам, что превращается в постоянную игру в кошки-мышки. В итоге более трети ответов ИИ-чатботов на новостные запросы в исследовании не заслуживают доверия, а доля дезинформации, созданной с помощью ИИ, выросла в два раза всего за год.

Уровень фальшивой информации с использованием Ai-технологий продолжает расти. (Источник изображения: NewsGuard)
Уровень фальшивой информации с использованием Ai-технологий продолжает расти. (Источник изображения: NewsGuard)

Источник(и)

Newsguard (PDF)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 09 месяц > Исследование достоверности ChatGPT vs Gemini vs Grok показывает, что Google вводит в заблуждение меньше, но дезинформация ИИ удваивается
Daniel Zlatev, 2025-09-12 (Update: 2025-09-12)