Компания Anthropic выпустила Claude Sonnet 4.5, свой новейший ИИ с улучшенными характеристиками кодирования, призванный помочь разработчикам программного обеспечения в создании приложений.
Sonnet 4.5 демонстрирует высокие результаты в нескольких основных бенчмарках по кодированию ИИ, включая SWE-bench и Terminal-Bench. ИИ обладает улучшенной способностью использовать компьютерные инструменты для автономного выполнения задач, что видно из его лидирующего результата в бенчмарке OSWorld что позволило ему создать рабочий клон веб-сайта claude.ai самостоятельно.
Улучшенные способности ИИ позволяют ему отвечать на вопросы в финансовой, юридической, медицинской и STEM-областях лучше, чем предыдущие модели Anthropic, но Claude Sonnet 4.5 набирает лишь от C до D баллов при ответах на эти типы вопросов. Он также плохо справляется с заданиями на визуальное мышление во время эталонного теста MMMU теста по сравнению с другими моделями ИИ.
Хакеры захотят использовать другие модели ИИ, чтобы делать плохие вещи, например, проводить атаки с использованием подсказок, поскольку Sonnet 4.5 имеет самый низкий показатель успеха среди всех протестированных моделей ИИ.
Пользователи, которым нравится пикантное общение с ИИ, найдут последнюю модель Claude разочаровывающей из-за снижения частоты спонтанных высказываний о духовности. Модель также реже выражает положительные эмоции о себе, что делает беседу более скучной.
Читатели, заинтересованные в общении с Клодом Сонет 4.5, могут скачать приложение для смартфонов здесь или получить доступ к ИИ на сайте Anthropic. Те, кто действительно использует ИИ в работе, могут использовать Plaud Note, чтобы заставить Клода поработать над подведением итогов и расшифровкой совещаний.












