Согласно мониторингу 1M AI News, лаборатория Tongyi опубликовала мультимодальную модель Qwen3.5-Omni, которая поддерживает текст, изображения, аудио и аудио-видео входы, а также умеет генерировать детализированные аудио-видео Caption с временными метками. Официально заявлено, что Qwen3.5-Omni-Plus в задачах анализа, рассуждений, диалога, перевода и т. п. в аудио и аудио-видео набрала 215 SOTA, а соответствующие возможности превосходят Gemini-3.1-Pro.
На этот раз самое особенное увеличение — не место в рейтинге, а «естественно возникающая способность Audio-Visual Vibe Coding». Tongyi утверждает, что модель не проходила специальное обучение и уже может по аудио-видео инструкциям напрямую генерировать исполняемый код. Официально также заявлено, что модель поддерживает контекст 256K, распознаёт 113 языков, может обрабатывать 10 часов аудио или 1 час видео и нативно поддерживает WebSearch и сложные Function Call.
Qwen3.5-Omni продолжает архитектуру разделения Thinker-Talker: обе части обновлены до Hybrid-Attention MoE. Tongyi уже предоставила через Alibaba Cloud Bailian Plus, Flash и Light в трёх размерах, а также запустила реальную версию Qwen3.5-Omni-Plus-Realtime.