Qwen представляет новую модель видение‑язык для повышения возможностей в кодировании, рассуждении и мультимодальном ИИ

Кратко

Команда Qwen запустила модель с открытым весом Qwen3.5‑397B‑A17B, которая демонстрирует значительные достижения в мультимодальной производительности, обучении с подкреплением и эффективности обучения в рамках более широкой инициативы по созданию более мощных универсальных ИИ-агентов.

Qwen Rolls Out New Vision‑Language Model To Advance Coding, Reasoning, And Multimodal AI Performance

Команда Qwen от Alibaba Cloud представила первую модель в новой серии Qwen3.5 — открытую модель Qwen3.5‑397B‑A17B.

Рассматриваемая как нативная система зрения и языка, модель показывает высокие результаты в рассуждениях, кодировании, задачах агентов и мультимодальном понимании, что является значительным прогрессом в масштабных разработках ИИ компании.

Модель построена на гибридной архитектуре, которая сочетает линейное внимание через Gated Delta Networks с разреженной смесью экспертов, что обеспечивает высокую эффективность при выводе. Несмотря на то, что полная система содержит 397 миллиардов параметров, для каждого прохода активируется только 17 миллиардов, что позволяет сохранять высокую производительность при снижении вычислительных затрат. Выпуск также расширяет охват языков и диалектов с 119 до 201, что увеличивает доступность для пользователей и разработчиков по всему миру.

Qwen3.5 — значительный прорыв в обучении с подкреплением и эффективности предобучения

Серия Qwen3.5 демонстрирует существенный прирост по сравнению с Qwen3, в основном за счет масштабирования обучения с подкреплением в широком диапазоне сред. Вместо оптимизации под узкие бенчмарки команда сосредоточилась на увеличении сложности задач и обобщаемости, что привело к улучшению работы агентов в таких оценках, как BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon и MCP‑Mark. Дополнительные результаты будут представлены в предстоящем техническом отчете.

Преимущества предобучения охватывают мощность, эффективность и универсальность. Qwen3.5 обучается на значительно большем объеме визуально-текстовых данных с усиленным мультиязычным, STEM и рассуждательным содержанием, что позволяет ему достигать результатов, сопоставимых с моделями ранних триллионных параметров. Архитектурные улучшения — включая более высокую разреженность MoE, гибридное внимание, улучшения стабильности и предсказание нескольких токенов — обеспечивают значительный рост пропускной способности, особенно при расширенных длинах контекста 32k и 256k токенов. Мультимодальные возможности модели усиливаются за счет раннего слияния текста и изображений, расширенных наборов данных, включающих изображения, STEM-материалы и видео, а также за счет увеличенного словаря до 250 тысяч слов, что повышает эффективность кодирования и декодирования для большинства языков.

Инфраструктура, лежащая в основе Qwen3.5, разработана для эффективного мультимодального обучения. Стратегия гетерогического параллелизма разделяет компоненты зрения и языка, чтобы избежать узких мест, а разреженная активация обеспечивает почти полную пропускную способность даже при смешанных нагрузках текст-изображение-видео. Встроенный pipeline FP8 сокращает объем памяти для активаций примерно вдвое и увеличивает скорость обучения более чем на 10 процентов, сохраняя стабильность при масштабах токенов.

Обучение с подкреплением поддерживается полностью асинхронной системой, способной обрабатывать модели любого размера, что повышает использование аппаратных ресурсов, балансировку нагрузки и восстановление после сбоев. Техники такие как обучение с использованием FP8, спекулятивное декодирование, повторный запуск маршрутизатора и блокировка многопроходных роллов помогают поддерживать согласованность и снижать устаревание градиентов. Система создана для поддержки масштабных рабочих процессов агентов, обеспечивая бесшовное взаимодействие в нескольких раундах и широкую обобщаемость в различных средах.

Пользователи могут взаимодействовать с Qwen3.5 через Qwen Chat, который предлагает режимы Auto, Thinking и Fast в зависимости от задачи. Модель также доступна через ModelStudio от Alibaba Cloud, где можно включить такие расширенные функции, как рассуждение, веб-поиск и выполнение кода, с помощью простых параметров. Интеграция с сторонними инструментами программирования позволяет разработчикам внедрять Qwen3.5 в существующие рабочие процессы с минимальными трудностями.

По словам команды Qwen, Qwen3.5 закладывает основу для универсальных цифровых агентов благодаря своей гибридной архитектуре и нативному мультимодальному рассуждению. В будущем развитие сосредоточится на системной интеграции, включая постоянную память для межсессионного обучения, интерфейсы для взаимодействия с реальным миром, механизмы самосовершенствования и экономическую осведомленность для долгосрочной автономной работы. Цель — перейти от задач-специфичных помощников к согласованным, устойчивым агентам, способным управлять сложными многодневными задачами с надежным, человекоподобным суждением.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить