Noticias de Gate News, el 19 de marzo, Xiaomi lanzó oficialmente la serie de modelos de IA MiMo-V2, que incluye el modelo insignia de razonamiento Pro, la base multimodal Omni y la síntesis de voz TTS.
MiMo-V2-Pro tiene más de 1 billón de parámetros totales (42B parámetros activos), soporta un contexto de más de 1 millón de tokens y está diseñado específicamente para escenarios de trabajo con agentes. En la clasificación Artificial Analysis ocupa el octavo lugar a nivel mundial y el segundo en el país, y en las evaluaciones PinchBench y ClawEval se sitúa en tercer lugar a nivel global. Su rendimiento general supera a Claude Sonnet 4.6 y se acerca a Opus 4.6, pero su precio es solo una quinta parte del segundo: $1 por entrada y $3 por millón de tokens en contextos de hasta 256K; $2 por entrada y $6 por millón de tokens en contextos de hasta 1M. El módulo MiMo Claw ya está integrado en el ecosistema WebOffice de Kingsoft, y se ha sincronizado con WPS Lingxi.
MiMo-V2-Omni es una base multimodal que soporta entradas de texto, imagen, audio y video, con un contexto de 256K, y tiene un precio de $0.4 por entrada y $2 por millón de tokens en salida. En audio, soporta la comprensión de más de 10 horas de audio continuo, superando en evaluación a Gemini 3 Pro; en comprensión de imágenes, supera a Claude Opus 4.6 y se acerca a Gemini 3 Pro.
MiMo-V2-TTS, basado en su propio Audio Tokenizer, ha sido preentrenado con más de mil millones de horas de datos de voz, soporta control de múltiples niveles desde el estilo general hasta las emociones locales, y puede sintetizar voces de alta calidad, incluyendo dialectos como el noreste, Sichuan, Henan, cantonés y taiwanés.
Los tres modelos ya están integrados en Xiaomi miclaw, MiMo Studio, Kingsoft Office y Xiaomi Browser, y pueden ser utilizados a través de los marcos de desarrollo de agentes OpenClaw, OpenCode, KiloCode, Blackbox y Cline, durante una semana de prueba gratuita limitada.