Chúng tôi đang nâng cấp Chế độ Giọng nói Nâng cao (Advanced Voice)
trong ChatGPT cho người dùng trả phí với những cải tiến đáng kể về ngữ điệu (intonation)
và sự tự nhiên (naturalness)
, giúp các tương tác trở nên trôi chảy và giống người thật hơn. Khi chúng tôi lần đầu ra mắt Chế độ Giọng nói Nâng cao, nó đã đại diện cho một bước nhảy vọt trong công nghệ giọng nói AI—giờ đây, nó còn nói chuyện tự nhiên hơn nữa, với ngữ điệu tinh tế hơn, nhịp điệu (cadence)
thực tế (bao gồm cả các quãng nghỉ và nhấn nhá), và khả năng biểu cảm (expressiveness)
đúng trọng tâm hơn cho các cảm xúc nhất định bao gồm sự đồng cảm (empathy)
, sự mỉa mai (sarcasm)
, và hơn thế nữa.
Chế độ Giọng nói giờ đây cũng cung cấp tính năng dịch ngôn ngữ (language translation)
trực quan và hiệu quả. Chỉ cần yêu cầu Chế độ Giọng nói dịch giữa các ngôn ngữ, và nó sẽ tiếp tục dịch trong suốt cuộc trò chuyện của bạn cho đến khi bạn yêu cầu dừng lại hoặc chuyển đổi. Nó sẵn sàng dịch bất cứ khi nào bạn cần—dù bạn đang hỏi đường ở Ý hay trò chuyện với một đồng nghiệp từ văn phòng Tokyo. Ví dụ, tại một nhà hàng ở Brazil, Chế độ Giọng nói có thể dịch các câu tiếng Anh của bạn sang tiếng Bồ Đào Nha, và các câu trả lời tiếng Bồ Đào Nha của người phục vụ trở lại tiếng Anh—làm cho các cuộc trò chuyện trở nên dễ dàng, bất kể bạn đang ở đâu hay đang nói chuyện với ai.
Bản nâng cấp Chế độ Giọng nói Nâng cao này có sẵn cho tất cả người dùng trả phí trên mọi thị trường và nền tảng—chỉ cần nhấn vào biểu tượng Giọng nói trong trình soạn tin nhắn (message composer)
để bắt đầu.
Bản cập nhật này là sự bổ sung cho các cải tiến mà chúng tôi đã thực hiện vào đầu năm nay để đảm bảo ít bị ngắt quãng hơn (fewer interruptions)
và cải thiện giọng điệu (improved accents)
.
Các hạn chế đã biết (Known Limitations)
Trong quá trình thử nghiệm, chúng tôi đã quan sát thấy rằng bản cập nhật này đôi khi có thể gây ra sự sụt giảm nhỏ về chất lượng âm thanh (audio quality)
, bao gồm cả những thay đổi không mong muốn về tông và cao độ (tone and pitch)
. Những vấn đề này dễ nhận thấy hơn với một số tùy chọn giọng nói nhất định. Chúng tôi kỳ vọng sẽ cải thiện tính nhất quán của âm thanh theo thời gian.
Ngoài ra, hiện tượng tạo âm thanh ảo (hallucinations)
hiếm gặp trong Chế độ Giọng nói vẫn tồn tại với bản cập nhật này, dẫn đến các âm thanh ngoài ý muốn giống như quảng cáo, âm thanh vô nghĩa (gibberish)
, hoặc nhạc nền. Chúng tôi đang tích cực điều tra những vấn đề này và nỗ lực tìm ra giải pháp.
Giải thích từ vMix:
- Chế độ Giọng nói Nâng cao (Advanced Voice Mode): Là tính năng cho phép người dùng có cuộc trò chuyện hai chiều bằng giọng nói với ChatGPT, thay vì chỉ gõ văn bản.
- Hiện tượng tạo âm thanh ảo (Hallucinations) trong Chế độ Giọng nói: Khác với “ảo giác” trong văn bản (cung cấp thông tin sai sự thật), thuật ngữ này trong bối cảnh âm thanh có nghĩa là AI bất ngờ tạo ra các âm thanh không phải là một phần của cuộc trò chuyện, ví dụ như tiếng nhạc, tiếng quảng cáo, hoặc các âm thanh vô nghĩa không liên quan.