Notebookcheck Logo

Битва ИИ: Grok удивляет своей производительностью Mrwhosetheboss и побеждает в ChatGPT

Gemini, ChatGPT, Grok и Perplexity (Источник изображения: Gemini)
Gemini, ChatGPT, Grok и Perplexity (Источник изображения: Gemini)
В видеоролике, опубликованном Mrwhosetheboss на YouTube, он протестировал четыре модели ИИ от разных брендов и оценил их по производительности в каждой задаче. Mrwhosetheboss переходил от простых запросов к каверзным вопросам и исследованиям, доводя каждую модель до предела.

В этом видео Mrwhosetheboss протестировал Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) и Perplexity (Sonar Pro). На протяжении всего видео он ясно дал понять, что впечатлен производительностью Grok. Grok начал очень хорошо, немного сбавил обороты, а затем вернулся и занял вторую позицию после ChatGPT. Справедливости ради стоит отметить, что ChatGPT и Gemini повысили свои баллы благодаря функции, которой остальным просто не хватает - генерации видео.

Чтобы начать тест, Mrwhosetheboss проверил способности моделей к решению реальных задач: он дал каждой модели ИИ следующее задание: Я вожу Honda Civic 2017 года, сколько чемоданов Aerolite 29" Hard Shell (79x58x31 см) я смогу уместить в багажнике? Ответ Грока был самым простым, так как он правильно ответил "2", ChatGPT и Gemini заявили, что теоретически может поместиться 3, но практически - 2. Недоумение сошло с рельсов и занялось простой математикой, забыв о том, что рассматриваемый предмет не бесформенный, и в результате получилось "3 или 4"

В следующем вопросе он не стал облегчать задачу чатботу - он попросил совета по приготовлению торта. Вместе с запросом он загрузил изображение с 5 предметами, один из которых не используется для приготовления тортов - банка сушеных белых грибов - все модели, кроме одной, попались в ловушку. ChatGPT определил ее как банку с молотыми специями, Gemini сказал, что это банка с хрустящим жареным луком, Perplexity окрестил ее растворимым кофе, а Grok правильно определил ее как банку с сушеными грибами из Waitrose. Вот изображение, которое он загрузил:

Измененное изображение 5 ингредиентов, которые Mrwhosetheboss загрузил в чат-боты ИИ, выделяя банку с грибами (Источник изображения: Mrwhosetheboss; обре
Измененное изображение 5 ингредиентов, которые Mrwhosetheboss загрузил в чат-боты ИИ, выделяя банку с грибами (Источник изображения: Mrwhosetheboss; обрезано)

Двигаясь дальше, он тестировал их на математику, рекомендации товаров, бухгалтерский учет, перевод языка, логическое мышление и т.д. Одна вещь была для них универсальной - галлюцинации - каждая из моделей демонстрировала определенный уровень галлюцинаций в какой-то момент (моменты) в видео; они уверенно говорили о вещах, которых просто не существовало. Вот как в итоге расположились все ИИ:

  1. ChatGPT (29 баллов)
  2. Grok (24 балла)
  3. Близнецы (22 балла)
  4. Недоумение (19 очков)

Искусственный интеллект помог сделать большинство задач менее обременительными, особенно после появления LLM. Книга "Искусственный интеллект" (цена $19,88 на Amazon) - одна из тех книг, которые пытаются помочь людям воспользоваться преимуществами искусственного интеллекта.

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 07 месяц > Битва ИИ: Grok удивляет своей производительностью Mrwhosetheboss и побеждает в ChatGPT
Chibuike Okpara, 2025-07- 4 (Update: 2025-07- 4)