Джемма 4 на "Обнимающемся лице": Пасхальный сюрприз от Google для загрузки

Незадолго до Пасхи компания Google выложила на Hugging Face крупный сюрприз : долгожданная Gemma 4 теперь доступна для загрузки. В ней представлены четыре основных класса размеров: E2B, E4B, 26B A4B и 31B. Все модели оснащены встроенным режимом "Размышления", позволяющим им пошагово решать сложные задачи, прежде чем выдать окончательный ответ. Ажиотаж вокруг релиза очевиден, поскольку Gemma 4 стала локально использоваться в таких инструментах, как LM Studio и Unsloth в течение нескольких часов после своего дебюта.
По словам представителей Googleэто новое поколение ставит во главу угла эффективность, а не размер. Заметным улучшением по сравнению с предыдущей итерацией Gemma 3 является то, что самые маленькие модели этой серии уже соответствуют по производительности самой большой модели Gemma 3 в различных бенчмарках. С практической точки зрения это означает, что задачи, которые раньше требовали высококлассного оборудования, теперь можно выполнять локально на смартфоне.
Архитектура варьируется в зависимости от предполагаемого варианта использования. Если в варианте 31B используется относительно классическая структура, то в модели 26B-A4B применяется подход Mixture-of-Experts (MoE). Во время умозаключений - фактического процесса вычислений - активируется только около четырех миллиардов параметров, несмотря на то, что всего в модели их 26 миллиардов. Это обеспечивает высокую скорость и умеренное потребление ресурсов без ущерба для глубины знаний. В более компактных моделях E2B и E4B используются Per-Layer Embeddings (PLE), которые предоставляют специализированную информацию для каждого маркера на каждом уровне модели, оптимизируя производительность специально для мобильных процессоров.
Также значительно улучшилось контекстное окно - количество данных, которые модель может держать "в голове" одновременно. Модели E2B и E4B поддерживают 128 000 маркеров, а более крупные варианты (26B A4B и 31B) могут обрабатывать до 256 000 маркеров. Такая производительность позволяет пользователям анализировать массивные документы или сложные структуры кода за один проход.
Мультимодальность глубоко интегрирована в Gemma 4, позволяя пользователям беспрепятственно смешивать текст и изображения в рамках одной подсказки. Модели способны распознавать объекты, читать PDF-документы и выполнять оптическое распознавание символов (OCR). Более того, краевые модели (E2B и E4B) включают встроенную обработку видео и аудио форматов, что позволяет использовать такие функции, как автоматическое распознавание речи.
Еще одна мощная функция - встроенная поддержка "Вызова функций" Это позволяет ИИ выступать в роли виртуального помощника, самостоятельно выполняя команды программного обеспечения или используя внешние инструменты для выполнения задач. Ярким примером этой тенденции является популярный в Китае инструмент "OpenClaw", в основе которого лежит именно такой принцип работы ИИ-агентов. С Gemma 4 развертывание таких систем полностью на собственном устройстве станет значительно проще.
Правовая база также является приятным изменением: модели выпускаются под лицензией Apache 2.0. Это означает, что они не только бесплатны для использования, но и могут быть гибко интегрированы в собственные проекты и использоваться на коммерческой основе, что значительно снижает барьер для разработчиков. Ранее все модели Gemma выпускались под специальной лицензией, автором которой был Google.
Первые практические испытания подтверждают впечатляющие лингвистические возможности и повышенную эффективность этих моделей. Использование LM Studio на Bosgame M5мы достигли скорости ответа чуть более 10 лексем в секунду (ток/с) с моделью Gemma 4 31B - быстрее, чем средний читатель может обработать информацию. Младшие модели еще проворнее: варианты E4B и 26B A4B легко превышают 40 токенов в секунду, а самая маленькая модель достигает 60 токенов в секунду. Однако тем, кто хочет использовать весь объем контекста самой большой модели Gemma 4, может показаться, что даже 128 Гб оперативной памяти (как в Bosgame M5) будет недостаточно; ИИ может потребовать для себя более 80 Гб, оставляя мало памяти для других задач.







