Open-source голосовой AI достиг нового рубежа. Теперь доступны две передовые модели:
FireRedTTS2 демонстрирует впечатляющие показатели — задержка 140мс с поддержкой диалогов с 4 участниками на 7 языках. Построенная на архитектуре с двойным трансформером, она обрабатывает сложное аудио и при этом обеспечивает реакцию в реальном времени.
VibeVoice выводит длину диалогов на новый уровень, поддерживая 90-минутные непрерывные взаимодействия с возможностями обработки в реальном времени. Архитектура позволяет вести естественные, продолжительные диалоги без деградации качества.
Обе модели представляют собой значительный шаг вперёд в развитии open-source голосового AI, сочетая низкую задержку с практическими возможностями поддержки нескольких языков и участников.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
6 Лайков
Награда
6
2
Репост
Поделиться
комментарий
0/400
JustAnotherWallet
· 21ч назад
90 минут без зависаний? Немного круто... нужно попробовать
Посмотреть ОригиналОтветить0
UnruggableChad
· 21ч назад
90 минут без задержек? Если бы это действительно заработало, сколько бы было сэкономлено на серверах.
Open-source голосовой AI достиг нового рубежа. Теперь доступны две передовые модели:
FireRedTTS2 демонстрирует впечатляющие показатели — задержка 140мс с поддержкой диалогов с 4 участниками на 7 языках. Построенная на архитектуре с двойным трансформером, она обрабатывает сложное аудио и при этом обеспечивает реакцию в реальном времени.
VibeVoice выводит длину диалогов на новый уровень, поддерживая 90-минутные непрерывные взаимодействия с возможностями обработки в реальном времени. Архитектура позволяет вести естественные, продолжительные диалоги без деградации качества.
Обе модели представляют собой значительный шаг вперёд в развитии open-source голосового AI, сочетая низкую задержку с практическими возможностями поддержки нескольких языков и участников.