В начале 2025 года Meta совершила крупный шаг вперед в сфере искусственного интеллекта, выпустив серию моделей LLaMA 4. Этот релиз обозначает переход к архитектуре Mixture‑of‑Experts (MoE), многомодальности, увеличенному контексту и новым возможностям в понимании и генерации текстов, изображений и других данных.
В данной статье мы подробно рассмотрим, что нового предлагает LLaMA 4, как она отличается от предыдущей версии LLaMA 3, какие ключевые модели входят в семейство, а также оценим их потенциальное влияние и ограничения.
Исторический контекст и отличие архитектур
Эволюция LLaMA: от версии 1 до версии 3
Чтобы глубже понять новшества LLaMA 4, важно вспомнить путь серии:
- LLaMA 1 (2023): модели от 7B до 65B параметров, открытые веса и эффективность, сопоставимая с GPT‑3 на ряде задач. Контекст — 2 048 токенов.
- LLaMA 2 (июль 2023): улучшенная производительность, контекст до 4 096, разрешена коммерческая эксплуатация в ограниченных условиях.
- LLaMA 3 (апрель 2024): улучшена масштабируемость, контекст до 8 192, мультиязычность (30+ языков), акцент на безопасность. В версии 3.1 (июль 2024) появился мощный вариант с 405B параметров и контекстом до 128 k, достигающий сопоставимого уровня с GPT‑4 и Claude в тестах.
Основное отличие: Mixture-of-Experts в LLaMA 4
LLaMA 4 — это качественный разрыв: модели построены по архитектуре Mixture‑of‑Experts (MoE) — вместо единичной нейронной сети активируется лишь часть «экспертов», что позволяет повысить общую мощность без роста вычислительных затрат на токен. Это фундаментальный переход к более масштабным, но при этом эффективным решениям.
Семейство LLaMA 4: Scout, Maverick, Behemoth (H2)
LLaMA 4 Scout
- Архитектура: MoE с 16 экспертами, активных параметров — ~17B, всего — 109B.
- Контекст: до 10 миллионов токенов — рекорд в индустрии. При этом для обработки 1.4M токенов требуется 8× Nvidia H100.
- Доступность: небольшой и быстрый, подходит для одного H100 GPU.
LLaMA 4 Maverick
- Архитектура: MoE с 128 экспертами, активных 17B, всего — 400B параметров.
- Контекст: до 1 млн токенов.
- Производительность: сопоставима с GPT‑4o и DeepSeek‑V3 в задачах кодинга и reasoning.
LLaMA 4 Behemoth
- Архитектура: MoE с 16 экспертами, активных — 288B, всего — почти 2T параметров.
- Статус: модель ещё в разработке; служит «teacher model» для остальных.
- Производительность: опережает GPT‑4.5, Claude 3.7 Sonnet и Gemini 2.0 Pro в STEM‑тестах.
Технические особенности
Разберём основные технические новшества LLaMA 4.
Mixture-of-Experts (MoE)
Архитектура MoE помогает комбинировать огромный объём знаний при низкой вычислительной нагрузке на каждый токен. Это позволяет моделям масштабироваться и быть эффективными в использовании.
Мультимодальность и мультиязычность
Модели LLaMA 4 являются нативно мультимодальными: могут принимать на вход текст и изображение, результаты выводятся в текстовом виде. Также они мультилингвальные (12 языков).
Контекст длиной до миллионов токенов
Scout предлагает до 10 млн токенов контекста, Maverick — до 1 млн. Это далеко превосходит предыдущие версии и большинства конкурентов.
Тренировочные данные и «co-distillation»
Scout обучался «с нуля» на огромных наборах (текст, изображения, 200+ языков). Maverick — через co‑distillation от Behemoth. Для Behemoth удалены самые предсказуемые примеры (например, 95 %), чтобы повысить сложность и качество обучения.
Бенчмарки, производительность и сравнение
Важную роль играют результаты LLaMA 4 на тестах:
- Scout обходит Google Gemma 3 27B, Mistral 3.1 24B, Gemini 2.0 Flash‑Lite на задачах vision, кодирования и reasoning.
- Maverick превосходит GPT‑4o и Gemini 2.0 Flash по тем же тестам.
- Behemoth (предварительные данные) превосходит GPT‑4.5, Claude 3.7 Sonnet, Gemini 2.0 Pro — оставаясь чуть позади модели DeepSeek‑R1 и GPT‑o1.
Также активность на LMArena и собственные тесты Meta подтверждают улучшения, хотя некоторые пользователи критиковали использование экспериментальной версии модели под тесты.
Социальные и этические аспекты, интеграции
Управление склонностью к отказу и сниженный политический bias
LLaMA 4 значительно снизила склонность отказываться отвечать на спорные вопросы — с ~7 % в LLaMA 3.3 до менее чем 2 %, с также уменьшенным политическим перекосом, сравнимым с Grok от xAI.
Интеграции на платформах Meta
Scout и Maverick интегрированы в AI‑ассистентов Meta на WhatsApp, Messenger, Instagram, а также доступны через API и другие сервисы; Behemoth пока в разработке.
Контракты лицензирования и ограничения
Хотя LLaMA 4 позиционируются как «open‑weight», лицензионные ограничения Meta ограничивают коммерческое использование компаниями с более чем 700 млн пользователей. Это вызвало критику со стороны Open Source Initiative.
Таблица сравнения моделей LLaMA 4
Следующая таблица поможет наглядно увидеть различия внутри семейства LLaMA 4.
Модель | Активные параметры | Всего параметров | Эксперты | Контекст | Статус |
---|---|---|---|---|---|
Scout | ~17B | 109B | 16 | до 10 млн ток. | Доступна |
Maverick | ~17B | 400B | 128 | до 1 млн ток. | Доступна |
Behemoth | ~288B | ~2 T | 16 | — | В разработке |
В этой таблице показано, как каждая модель предлагает уникальное сочетание параметров, архитектуры и доступности.
Ключевые преимущества
Ниже перечислены ключевые преимущества LLaMA 4, органично вписанные в контекст — перед таблицей и после неё:
- Впечатляющая масштабируемость через MoE-архитектуру, которая позволяет моделям быть одновременно мощными и эффективными (много “мозга” — низкие затраты).
- Экстремально длинный контекст (до 10 миллионов токенов), что открывает новые возможности в анализе больших текстов, кодовых баз и документов.
- Мультимодальность — одновременно работа с текстами, изображениями и потенциально видео.
- Высокая производительность в открытых моделях, сравнимая или превышающая GPT-4-аналоги на многих задачах.
- Улучшенные подходы к обработке спорных тем с минимальными отказами и сниженным политическим bias.
- Гибкие варианты под разные задачи: от лёгкой Scout до мощной Behemoth.
Заключение
Релиз LLaMA 4 — важный этап для Meta и открытого ИИ-сообщества. С архитектурой Mixture-of-Experts, мультимодальными возможностями и беспрецедентными контекстными окнами, LLaMA 4 задаёт новый стандарт эффективности и функциональности. Scout и Maverick уже доступны и демонстрируют высокую производительность, а Behemoth остаётся в разработке, обещая ещё более глубокие возможности. В то же время вопросы лицензирования, внутренняя задержка Behemoth и критика со стороны разработчиков показывают, что путь к полномасштабному лидерству всё ещё сложен.