Microsoft mở nguồn gia đình AI giọng nói tiên phong VibeVoice: xử lý một lần cuộc hội thoại nhiều người nói trong 90 phút, trên GitHub nhanh chóng đạt 27K sao

MarsBitNews · 2026-03-30T07:24:07+00:00

Microsoft đã ra mắt mô hình AI giọng nói mã nguồn mở VibeVoice, hỗ trợ nhận dạng giọng nói tự động và chuyển văn bản thành giọng nói, có khả năng xử lý âm thanh dài và tạo hội thoại đa người nói. Dự án nhằm thúc đẩy đổi mới trong lĩnh vực tổng hợp giọng nói, mô hình hỗ trợ triển khai cục bộ, không cần phí đám mây. VibeVoice bao gồm ba mô hình cốt lõi, lần lượt dành cho chuyển đổi âm thanh dài thành văn bản, tạo giọng nói đa người nói và tổng hợp giọng nói thời gian thực, nâng cao hiệu suất của AI giọng nói truyền thống.

MarsBitNews

2026-03-30 07:24:07

Đang tạo bản tóm tắt

null

Microsoft gần đây đã mã nguồn mở một gia đình mô hình AI giọng nói tiên tiến có tên là VibeVoice, bao gồm nhiều khả năng như nhận diện giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án này nhanh chóng thu hút sự chú ý trong cộng đồng nhà phát triển nhờ vào khả năng xử lý âm thanh dài mạnh mẽ, tạo ra cuộc đối thoại tự nhiên giữa nhiều người nói và tính năng độ trễ thấp thời gian thực, hiện đã nhận được khoảng 27K sao trên GitHub.

Là một khung nghiên cứu mã nguồn mở, VibeVoice áp dụng giấy phép MIT, hỗ trợ triển khai tại chỗ mà không cần phí đăng ký đám mây, nhằm thúc đẩy sự hợp tác và đổi mới trong lĩnh vực tổng hợp giọng nói. Gia đình mô hình này chủ yếu bao gồm ba thành viên cốt lõi, mỗi thành viên có trọng tâm riêng, cùng giải quyết các vấn đề mà AI giọng nói truyền thống gặp phải trong việc xử lý chuỗi dài, tính nhất quán của người nói và sự tự nhiên trôi chảy.

VibeVoice-ASR-7B: Công cụ chuyển văn bản từ giọng nói có thể xử lý âm thanh dài 60 phút

VibeVoice-ASR-7B là một mô hình chuyển văn bản từ giọng nói thống nhất, có khả năng xử lý một lần âm thanh dài tới 60 phút, trực tiếp xuất ra kết quả phiên âm có cấu trúc. Kết quả không chỉ bao gồm “ai đang nói” (nhận diện người nói), “khi nào nói” (dấu thời gian chính xác), mà còn bao gồm “nói gì” (nội dung chi tiết), và hỗ trợ chức năng từ khóa tùy chỉnh, có thể nâng cao độ chính xác trong nhận diện danh từ riêng hoặc thuật ngữ kỹ thuật. Mô hình hỗ trợ hơn 50 ngôn ngữ, thích hợp cho các tình huống phức tạp như ghi chép hội nghị dài và phiên âm podcast.

Các nhà phát triển trong cộng đồng đã phát triển các công cụ thực tiễn dựa trên mô hình này, ví dụ như một phần mềm nhập liệu giọng nói có tên Vibing, hỗ trợ trên nền tảng macOS và Windows. Phản hồi từ người dùng cho thấy tốc độ và độ chính xác nhận diện của nó khá tốt, có thể cải thiện đáng kể hiệu quả nhập liệu giọng nói hàng ngày.

VibeVoice-TTS-1.5B: Tạo giọng nói đa người nói phong phú kéo dài 90 phút

VibeVoice-TTS-1.5B là mô hình cốt lõi tập trung vào việc chuyển văn bản thành giọng nói, có thể tạo ra âm thanh liên tục kéo dài tới 90 phút trong một lần tạo, hỗ trợ tối đa 4 người nói khác nhau để mô phỏng đối thoại tự nhiên. Giọng nói được tạo ra từ mô hình rất phong phú, nghe tự nhiên và trôi chảy, có thể mô phỏng các ngắt quãng, nhấn mạnh và chuyển đổi cảm xúc thực tế, rất phù hợp để sản xuất podcast, kể chuyện âm thanh dài, sách nói hoặc nội dung đối thoại nhiều nhân vật.

So với nhiều mô hình TTS truyền thống chỉ hỗ trợ 1-2 người nói, VibeVoice-TTS đã đạt được bước đột phá đáng kể trong việc duy trì tính nhất quán của nhiều người nói trong định dạng dài. Cấu trúc của nó sử dụng bộ phân tích giọng nói liên tục (phân tích âm học và ngữ nghĩa) kết hợp với thiết kế tần suất thấp (7.5Hz), nâng cao đáng kể hiệu suất tính toán trong việc xử lý chuỗi dài.

VibeVoice-Realtime-0.5B: TTS thời gian thực với độ trễ khoảng 300 mili giây

VibeVoice-Realtime-0.5B tập trung vào các tình huống thời gian thực, hỗ trợ đầu vào văn bản theo dòng, độ trễ đầu ra âm thanh khoảng 300 mili giây, đồng thời có thể tạo ra âm thanh dài khoảng 10 phút. Mô hình này đặc biệt phù hợp cho các ứng dụng tương tác cần phản hồi ngay lập tức, như trợ lý giọng nói thời gian thực hoặc kịch bản lồng ghép trực tiếp.

Ngoài ra, dự án cũng đã giới thiệu hỗ trợ người nói thí nghiệm, bao gồm giọng nói đa ngôn ngữ và nhiều biến thể phong cách tiếng Anh, cung cấp nhiều không gian tùy chỉnh hơn cho các nhà phát triển.

Đánh giá của AIbase: Việc mã nguồn mở VibeVoice của Microsoft không chỉ giảm bớt rào cản sử dụng AI giọng nói hiệu suất cao mà còn cung cấp một giải pháp triển khai tại chỗ hoàn chỉnh. Dự án đã từng bị gỡ bỏ tạm thời do rủi ro sử dụng sai mục đích, nhưng đã được đưa trở lại trực tuyến thông qua việc nhúng watermark âm thanh, tuyên bố có thể nghe thấy và các cơ chế an toàn khác, thể hiện nguyên tắc phát triển AI có trách nhiệm. Hiện tại, các nhà phát triển có thể lấy trọng số mô hình từ kho GitHub và Hugging Face, và thử nghiệm nhanh chóng thông qua các nền tảng như Colab.

Với sự đóng góp liên tục từ cộng đồng mã nguồn mở (như các nhánh tối ưu hóa cho Apple Silicon), VibeVoice có triển vọng tăng tốc áp dụng trong các lĩnh vực sáng tạo nội dung, công cụ hỗ trợ người khuyết tật và tương tác giọng nói. Các nhà phát triển quan tâm có thể truy cập trang dự án chính thức của Microsoft để khám phá thêm.

Địa chỉ dự án:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.