Xiaomi có AI giọng nói cực xịn: "Clone" lại giọng người chỉ bằng vài clip

Hồi tháng 3, Xiaomi đã ra mắt mô hình tổng hợp tiếng nói MiMo-V2-TTS với khả năng kiểm soát chi tiết ngữ điệu, cảm xúc và phong cách nói. Nay, công ty nâng cấp hệ thống này lên một tầm mới, bao gồm cả đầu ra lẫn đầu vào âm thanh. Xiaomi vừa công bố dòng MiMo-V2.5-TTS cùng với MiMo-V2.5-ASR, bộ đôi mô hình giọng nói toàn diện phục vụ kỷ nguyên trợ lý AI tự động. GenK AI hiện là lớp nguồn chính của câu chuyện, và phần còn lại cần được đọc như một tín hiệu đang tiếp tục mở rộng. Những thay đổi kiểu này thường nhìn nhỏ trên màn hình nhưng lại đổi khá nhanh thói quen dùng ứng dụng và cách đội vận hành xử lý công việc mỗi ngày.

Điều đang xảy ra

Hồi tháng 3, Xiaomi đã ra mắt mô hình tổng hợp tiếng nói MiMo-V2-TTS với khả năng kiểm soát chi tiết ngữ điệu, cảm xúc và phong cách nói. GenK AI là lớp nguồn chính giữ phần dữ kiện cốt lõi của bài này. Với dạng tín hiệu còn đang dày lên, điều quan trọng là biết phần nào đã có nền và phần nào vẫn cần chờ xác nhận thêm. Ở nhóm phần mềm, một cập nhật đáng tiền là cập nhật khiến quy trình gọn hơn, ít nhầm hơn và bớt phải mở thêm công cụ ngoài.

Các nguồn đang khớp nhau ở đâu

GenK AI hiện là lớp nguồn chính của câu chuyện, và phần còn lại cần được đọc như một tín hiệu đang tiếp tục mở rộng. Nay, công ty nâng cấp hệ thống này lên một tầm mới, bao gồm cả đầu ra lẫn đầu vào âm thanh. GenK AI là lớp nguồn chính giữ phần dữ kiện cốt lõi của bài này.

Chi tiết đáng giữ lại

Xiaomi vừa công bố dòng MiMo-V2. 5-TTS cùng với MiMo-V2. 5-ASR, bộ đôi mô hình giọng nói toàn diện phục vụ kỷ nguyên trợ lý AI tự động. Những thay đổi kiểu này thường nhìn nhỏ trên màn hình nhưng lại đổi khá nhanh thói quen dùng ứng dụng và cách đội vận hành xử lý công việc mỗi ngày.

Điểm đáng chú ý nhất

Tín hiệu hiện đủ đậm để không nên lướt qua, nhưng vẫn cần đọc nó với tâm thế theo dõi thêm thay vì đóng khung quá sớm. Với 1 lớp nguồn hiện có, phần nên đọc kỹ nhất là đoạn giao nhau giữa dữ kiện chắc chắn và cách thị trường đang phản ứng sớm với nó. Về phía tổng hợp tiếng nói, dòng MiMo-V2. 5-TTS gồm ba mô hình riêng biệt, tất cả đều miễn phí trong thời gian giới hạn trên nền tảng MiMo Open Platform của Xiaomi.

Điều cần theo dõi tiếp

Điều nên theo dõi tiếp là nhịp rollout, giới hạn theo khu vực và việc thói quen dùng ứng dụng có thật sự đổi sau cập nhật này hay không. Từ 1 tín hiệu ban đầu, bài giữ lại 1 nguồn thật sự hữu ích để khóa phần chi tiết chính. Vì vậy phần đáng đọc của bài không nằm ở headline, mà ở việc đặt lời hứa, thay đổi workflow và chi phí vào cùng một mặt bàn trước khi kết luận.

Bối cảnh cần giữ

Hồi tháng 3, Xiaomi đã ra mắt mô hình tổng hợp tiếng nói MiMo-V2-TTS với khả năng kiểm soát chi tiết ngữ điệu, cảm xúc và phong cách nói. Nay, công ty nâng cấp hệ thống này lên một tầm mới, bao gồm cả đầu ra lẫn đầu vào âm thanh. Xiaomi vừa công bố dòng MiMo-V2. 5-TTS cùng với MiMo-V2. 5-ASR, bộ đôi mô hình giọng nói toàn diện phục vụ kỷ nguyên trợ lý AI tự động. GenK AI hiện là lớp nguồn chính của câu chuyện, và phần còn lại cần được đọc như một tín hiệu đang tiếp tục mở rộng. Những thay đổi kiểu này thường nhìn nhỏ trên màn hình nhưng lại đổi khá nhanh thói quen dùng ứng dụng và cách đội vận hành xử lý công việc mỗi ngày. Phần đáng đọc nằm ở chỗ một thay đổi trong app có thể kéo theo cách làm việc, chia sẻ và theo dõi việc của cả một nhóm nhỏ. Với dạng tín hiệu còn đang dày lên, điều quan trọng là biết phần nào đã có nền và phần nào vẫn cần chờ xác nhận thêm.