Anthropic Claude Sonnet 4.5 ИИ помогает программистам писать код лучше благодаря улучшенным возможностям
Anthropic выпускает Claude Sonnet 4.5: более умную модель кодирования ИИ. (Источник изображения: Anthropic)
Компания Anthropic представила Claude Sonnet 4.5 - ИИ, который отлично справляется с автономными задачами по кодированию и использованию инструментов, получая высокие результаты в бенчмарках, связанных с кодированием, таких как SWE-bench. С другой стороны, этот ИИ менее интересен в разговоре и слабее в визуальных рассуждениях, чем конкурирующие модели ИИ.
Компания Anthropic выпустила Claude Sonnet 4.5, свой новейший ИИ с улучшенными характеристиками кодирования, призванный помочь разработчикам программного обеспечения в создании приложений.
Sonnet 4.5 демонстрирует высокие результаты в нескольких основных бенчмарках по кодированию ИИ, включая SWE-bench и Terminal-Bench. ИИ обладает улучшенной способностью использовать компьютерные инструменты для автономного выполнения задач, что видно из его лидирующего результата в бенчмарке OSWorld что позволило ему создать рабочий клон веб-сайта claude.ai самостоятельно.
Улучшенные способности ИИ позволяют ему отвечать на вопросы в финансовой, юридической, медицинской и STEM-областях лучше, чем предыдущие модели Anthropic, но Claude Sonnet 4.5 набирает лишь от C до D баллов при ответах на эти типы вопросов. Он также плохо справляется с заданиями на визуальное мышление во время эталонного теста MMMU теста по сравнению с другими моделями ИИ.
Хакеры захотят использовать другие модели ИИ, чтобы делать плохие вещи, например, проводить атаки с использованием подсказок, поскольку Sonnet 4.5 имеет самый низкий показатель успеха среди всех протестированных моделей ИИ.
Пользователи, которым нравится пикантное общение с ИИ, найдут последнюю модель Claude разочаровывающей из-за снижения частоты спонтанных высказываний о духовности. Модель также реже выражает положительные эмоции о себе, что делает беседу более скучной.
Anthropic Claude Sonnet 4.5 отлично справляется с решением проблем с кодом GitHub в бенчмарке SWE-bench. (Источник изображения: Anthropic)
Anthropic Claude Sonnet 4.5 демонстрирует хорошие результаты в ряде эталонов кодирования ИИ, но отстает в задачах на визуальное мышление по сравнению с другими лучшими моделями ИИ. (Источник изображения: Anthropic)
Anthropic Claude Sonnet 4.5 демонстрирует уровень от C до D в заданиях по финансам, праву, медицине и STEM. (Источник изображения: Anthropic)
Хотя Anthropic Claude Sonnet 4.5 хорошо разбирается в кодах, он чаще других моделей ИИ отклоняет запросы хакеров, пытающихся принудить его к вредоносным действиям. (Источник изображения: Anthropic)
Anthropic Claude Sonnet 4.5 выражает меньше духовности и позитива о себе без посторонней помощи, чем предыдущие модели Claude. (Источник изображения: Anthropic)
Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.