Відкритий голосовий AI досяг нового рубежу. Тепер доступні дві передові моделі:
FireRedTTS2 демонструє вражаючі показники — затримка 140мс з підтримкою діалогів з 4 спікерами на 7 мовах. Побудована на архітектурі з подвійним трансформером, вона обробляє складне аудіо та зберігає реактивність у реальному часі.
VibeVoice піднімає довжину розмов на новий рівень, підтримуючи безперервні 90-хвилинні взаємодії з можливістю обробки у реальному часі. Архітектура забезпечує природні, розширені діалоги без деградації якості.
Обидві моделі є значним кроком вперед у розвитку відкритого голосового AI, поєднуючи низьку затримку з практичними можливостями багатомовності та багаспікерності.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
5 лайків
Нагородити
5
2
Репост
Поділіться
Прокоментувати
0/400
JustAnotherWallet
· 5год тому
90 хвилин без затримок? Це круто... потрібно спробувати
Переглянути оригіналвідповісти на0
UnruggableChad
· 5год тому
90 хвилин без затримки? Якби це справді запустити, скільки б зекономилося на серверах?
Відкритий голосовий AI досяг нового рубежу. Тепер доступні дві передові моделі:
FireRedTTS2 демонструє вражаючі показники — затримка 140мс з підтримкою діалогів з 4 спікерами на 7 мовах. Побудована на архітектурі з подвійним трансформером, вона обробляє складне аудіо та зберігає реактивність у реальному часі.
VibeVoice піднімає довжину розмов на новий рівень, підтримуючи безперервні 90-хвилинні взаємодії з можливістю обробки у реальному часі. Архітектура забезпечує природні, розширені діалоги без деградації якості.
Обидві моделі є значним кроком вперед у розвитку відкритого голосового AI, поєднуючи низьку затримку з практичними можливостями багатомовності та багаспікерності.