Команда Qwen запустила модель відкритого ваги Qwen3.5‑397B‑A17B, яка вносить значні досягнення у мультимодальну продуктивність, навчання з підкріпленням та ефективність тренування в рамках ширшого руху до більш здатних, універсальних AI-агентів.
Команда Qwen від Alibaba Cloud представила першу модель у новій серії Qwen3.5, анонсувавши відкриту модель Qwen3.5‑397B‑A17B
Позиціонуючи як нативну систему з баченням і мовою, модель демонструє високі результати у логіці, програмуванні, завданнях агентів та мультимодальному розумінні, що є значним кроком вперед у масштабних дослідженнях штучного інтелекту компанії.
Модель побудована на гібридній архітектурі, яка поєднує лінійне увагу через Gated Delta Networks із розрідженим міксом експертів, що забезпечує високу ефективність під час виведення. Хоча повна система містить 397 мільярдів параметрів, для кожного проходу активується лише 17 мільярдів, що дозволяє зберігати високі можливості при зменшенні обчислювальних витрат. Випуск також розширює покриття мов і діалектів з 119 до 201, збільшуючи доступність для користувачів і розробників по всьому світу.
Qwen3.5 — значний прорив у підкріплювальному навчанні та ефективності попереднього тренування
Серія Qwen3.5 демонструє суттєві переваги порівняно з Qwen3, що в основному зумовлено масштабним підкріплювальним навчанням у широкому спектрі середовищ. Замість оптимізації під вузькі benchmarks, команда зосередилася на збільшенні складності завдань і їхньої універсальності, що призвело до покращення роботи агентів у таких оцінках, як BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon і MCP‑Mark. Деталі додаткових результатів будуть опубліковані у майбутньому технічному звіті.
Покращення у попередньому тренуванні охоплюють потужність, ефективність і універсальність. Qwen3.5 тренується на значно більшому обсязі візуально-текстових даних із посиленою багатомовною, STEM та логічною складовою, що дозволяє йому конкурувати з попередніми моделями трильйонних параметрів. Архітектурні оновлення — включаючи MoE з високою розрідженістю, гібридну увагу, покращення стабільності та багатотокове передбачення — забезпечують значний приріст пропускної здатності, особливо при довгих контекстах у 32k і 256k токенів. Мультимодальні можливості моделі посилюються через раннє злиття тексту і зору та розширені набори даних, що охоплюють зображення, STEM-матеріали та відео, а білький словник на 250 тисяч слів покращує ефективність кодування і декодування більшості мов.
Інфраструктура, що підтримує Qwen3.5, розроблена для ефективного мультимодального тренування. Стратегія гетерогенного паралелізму розділяє компоненти зору і мови, щоб уникнути вузьких місць, тоді як розріджена активація забезпечує майже повну пропускну здатність навіть при змішаних навантаженнях текст-зображення-відео. Вбудований FP8-потік зменшує пам’ять для активацій приблизно вдвічі і підвищує швидкість тренування більш ніж на 10 відсотків, зберігаючи стабільність при масштабах у мільйони токенів.
Підкріплювальне навчання підтримується повністю асинхронною системою, здатною обробляти моделі будь-якого розміру, що покращує використання апаратного забезпечення, баланс навантаження і відновлення після збоїв. Техніки, такі як FP8-навчання від кінця до кінця, спекулятивне декодування, відтворення маршрутизатора rollout і блокування багатократного rollout, допомагають підтримувати консистентність і зменшувати застарілість градієнтів. Система побудована для підтримки масштабних робочих процесів агентів, що забезпечує безшовну багатократну взаємодію і широке узагальнення у різних середовищах.
Користувачі можуть взаємодіяти з Qwen3.5 через Qwen Chat, який пропонує режими Auto, Thinking і Fast залежно від завдання. Модель також доступна через ModelStudio від Alibaba Cloud, де можна активувати додаткові функції, такі як логіка, пошук у вебі та виконання коду, за допомогою простих параметрів. Інтеграція з сторонніми інструментами для програмування дозволяє розробникам легко впроваджувати Qwen3.5 у існуючі робочі процеси.
За словами команди Qwen, Qwen3.5 закладає основу для універсальних цифрових агентів завдяки своїй гібридній архітектурі та нативному мультимодальному розумінню. Майбутні розробки зосереджені на системній інтеграції, включаючи постійну пам’ять для міжсесійного навчання, інтерфейси для взаємодії з реальним світом, механізми самовдосконалення та економічну свідомість для довгострокової автономної роботи. Мета — перейти від завдання-специфічних помічників до цілісних, стійких агентів, здатних керувати складними багатоденними цілями з надійним людським узгодженням суджень.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Qwen впроваджує нову модель зору-мови для покращення кодування, логіки та багатомодальної роботи штучного інтелекту
Коротко
Команда Qwen запустила модель відкритого ваги Qwen3.5‑397B‑A17B, яка вносить значні досягнення у мультимодальну продуктивність, навчання з підкріпленням та ефективність тренування в рамках ширшого руху до більш здатних, універсальних AI-агентів.
Команда Qwen від Alibaba Cloud представила першу модель у новій серії Qwen3.5, анонсувавши відкриту модель Qwen3.5‑397B‑A17B
Позиціонуючи як нативну систему з баченням і мовою, модель демонструє високі результати у логіці, програмуванні, завданнях агентів та мультимодальному розумінні, що є значним кроком вперед у масштабних дослідженнях штучного інтелекту компанії.
Модель побудована на гібридній архітектурі, яка поєднує лінійне увагу через Gated Delta Networks із розрідженим міксом експертів, що забезпечує високу ефективність під час виведення. Хоча повна система містить 397 мільярдів параметрів, для кожного проходу активується лише 17 мільярдів, що дозволяє зберігати високі можливості при зменшенні обчислювальних витрат. Випуск також розширює покриття мов і діалектів з 119 до 201, збільшуючи доступність для користувачів і розробників по всьому світу.
Qwen3.5 — значний прорив у підкріплювальному навчанні та ефективності попереднього тренування
Серія Qwen3.5 демонструє суттєві переваги порівняно з Qwen3, що в основному зумовлено масштабним підкріплювальним навчанням у широкому спектрі середовищ. Замість оптимізації під вузькі benchmarks, команда зосередилася на збільшенні складності завдань і їхньої універсальності, що призвело до покращення роботи агентів у таких оцінках, як BFCL‑V4, VITA‑Bench, DeepPlanning, Tool‑Decathlon і MCP‑Mark. Деталі додаткових результатів будуть опубліковані у майбутньому технічному звіті.
Покращення у попередньому тренуванні охоплюють потужність, ефективність і універсальність. Qwen3.5 тренується на значно більшому обсязі візуально-текстових даних із посиленою багатомовною, STEM та логічною складовою, що дозволяє йому конкурувати з попередніми моделями трильйонних параметрів. Архітектурні оновлення — включаючи MoE з високою розрідженістю, гібридну увагу, покращення стабільності та багатотокове передбачення — забезпечують значний приріст пропускної здатності, особливо при довгих контекстах у 32k і 256k токенів. Мультимодальні можливості моделі посилюються через раннє злиття тексту і зору та розширені набори даних, що охоплюють зображення, STEM-матеріали та відео, а білький словник на 250 тисяч слів покращує ефективність кодування і декодування більшості мов.
Інфраструктура, що підтримує Qwen3.5, розроблена для ефективного мультимодального тренування. Стратегія гетерогенного паралелізму розділяє компоненти зору і мови, щоб уникнути вузьких місць, тоді як розріджена активація забезпечує майже повну пропускну здатність навіть при змішаних навантаженнях текст-зображення-відео. Вбудований FP8-потік зменшує пам’ять для активацій приблизно вдвічі і підвищує швидкість тренування більш ніж на 10 відсотків, зберігаючи стабільність при масштабах у мільйони токенів.
Підкріплювальне навчання підтримується повністю асинхронною системою, здатною обробляти моделі будь-якого розміру, що покращує використання апаратного забезпечення, баланс навантаження і відновлення після збоїв. Техніки, такі як FP8-навчання від кінця до кінця, спекулятивне декодування, відтворення маршрутизатора rollout і блокування багатократного rollout, допомагають підтримувати консистентність і зменшувати застарілість градієнтів. Система побудована для підтримки масштабних робочих процесів агентів, що забезпечує безшовну багатократну взаємодію і широке узагальнення у різних середовищах.
Користувачі можуть взаємодіяти з Qwen3.5 через Qwen Chat, який пропонує режими Auto, Thinking і Fast залежно від завдання. Модель також доступна через ModelStudio від Alibaba Cloud, де можна активувати додаткові функції, такі як логіка, пошук у вебі та виконання коду, за допомогою простих параметрів. Інтеграція з сторонніми інструментами для програмування дозволяє розробникам легко впроваджувати Qwen3.5 у існуючі робочі процеси.
За словами команди Qwen, Qwen3.5 закладає основу для універсальних цифрових агентів завдяки своїй гібридній архітектурі та нативному мультимодальному розумінню. Майбутні розробки зосереджені на системній інтеграції, включаючи постійну пам’ять для міжсесійного навчання, інтерфейси для взаємодії з реальним світом, механізми самовдосконалення та економічну свідомість для довгострокової автономної роботи. Мета — перейти від завдання-специфічних помічників до цілісних, стійких агентів, здатних керувати складними багатоденними цілями з надійним людським узгодженням суджень.