По данным мониторинга 1M AI News, команда Meituan Longmao выпустила открытый исходный код LongCat-Next — нативную мультимодальную модель на базе архитектуры MoE с активированными 3 миллиардами параметров, объединяющую в единой автогрегативной рамке пять возможностей: понимание текста и визуальных данных, генерацию изображений, понимание речи и синтез речи. Модель и сопутствующий токенизатор доступны под лицензией MIT, веса уже размещены на HuggingFace.
Основная концепция LongCat-Next — это парадигма DiNA (Discretely Native Autoregressive): создание парных токенизаторов и декодеров для каждого типа модальности, преобразующих визуальные и аудиосигналы в дискретные токены, которые разделяют общее встраивание с текстом и используют единый предсказатель следующего токена для выполнения всех задач. Ключевой компонент визуальной части — dNaViT (Discretely Native Resolution Vision Transformer), который извлекает визуальные признаки в виде «визуальных слов», поддерживая динамическое токенизирование и декодирование. При этом он сохраняет высокое качество генерации изображений даже при сжатии в 28 раз, особенно хорошо справляясь с рендерингом текста.
В сравнении с моделями аналогичного объема активированных параметров (A3B), основные показатели LongCat-Next следующие:
В горизонтальном сравнении по пониманию и генерации в рамках единой модели, оценка MMMU LongCat-Next составляет 70.6, что превосходит второго места NEO-unify (68.9), значительно опережая такие предыдущие решения, как BAGEL (55.3) и Ovis-U1 (51.1). Результаты SWE-Bench 43.0 и показатели вызова инструментов серии Tau2 подтверждают, что эта мультимодальная унифицированная архитектура не жертвует возможностями чистого текста и агентных задач.