La inteligencia artificial de voz de código abierto acaba de alcanzar un nuevo hito. Ahora están disponibles dos modelos de vanguardia:
FireRedTTS2 ofrece métricas de rendimiento impresionantes—140ms de latencia con soporte para interacciones de diálogo de 4 altavoces en 7 idiomas. Construido sobre una arquitectura de doble transformador, maneja procesamiento de audio complejo mientras mantiene una capacidad de respuesta en tiempo real.
VibeVoice lleva la duración de la conversación a otro nivel, soportando interacciones continuas de 90 minutos con capacidades de procesamiento en tiempo real genuinas. La arquitectura permite diálogos naturales y prolongados sin degradación.
Ambos modelos representan avances significativos en el desarrollo de inteligencia artificial de voz de código abierto, combinando un rendimiento de baja latencia con capacidades prácticas multilingües y multiespectáculo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
5 me gusta
Recompensa
5
2
Republicar
Compartir
Comentar
0/400
JustAnotherWallet
· hace4h
¿90 minutos sin tartamudear? Eso sí que es impresionante... hay que probarlo
Ver originalesResponder0
UnruggableChad
· hace4h
¿No se congela en 90 minutos? Si realmente puede funcionar así, ¡cuánto dinero en servidores se ahorraría!
La inteligencia artificial de voz de código abierto acaba de alcanzar un nuevo hito. Ahora están disponibles dos modelos de vanguardia:
FireRedTTS2 ofrece métricas de rendimiento impresionantes—140ms de latencia con soporte para interacciones de diálogo de 4 altavoces en 7 idiomas. Construido sobre una arquitectura de doble transformador, maneja procesamiento de audio complejo mientras mantiene una capacidad de respuesta en tiempo real.
VibeVoice lleva la duración de la conversación a otro nivel, soportando interacciones continuas de 90 minutos con capacidades de procesamiento en tiempo real genuinas. La arquitectura permite diálogos naturales y prolongados sin degradación.
Ambos modelos representan avances significativos en el desarrollo de inteligencia artificial de voz de código abierto, combinando un rendimiento de baja latencia con capacidades prácticas multilingües y multiespectáculo.