时间:2024-07-06|浏览:202
用戶喜愛的交易所
已有账号登陆后会弹出下载
微软研究团队推出了 VALL-E 2,这是一种用于语音合成的新型 AI 语音克隆系统,
仅需几秒钟的音频就能生成与源音频无法区分的
“人类水平的表现”的声音。
研究论文指出: “(VALL-E 2)是神经编解码器语言模型的最新进展,标志着零样本文本到语音合成(TTS)的一个里程碑,首次实现与人类相当的水平。”
该系统以其前身 VALL-E 为基础,于 2023 年初推出。神经编解码器语言模型将语音表示为代码序列。
该团队表示, VALL-E 2 与其他语音克隆技术的不同之处在于其
“重复感知采样”方法和采样技术之间的自适应切换。
这些策略提高了一致性并解决了传统生成语音中最常见的问题。
研究人员写道:“VALL-E 2 能够持续合成高质量的语音,即使是那些由于复杂性或重复性短语而难以识别的句子也是如此。” 并指出该技术可以帮助失去说话能力的人生成语音。
尽管它令人印象深刻,但该工具不会向公众开放。
微软在其道德声明中表示: “目前,我们没有计划将 VALL-E 2 纳入产品或扩大向公众开放的范围”, 并指出此类工具存在未经同意进行语音模仿以及在诈骗和其他犯罪活动中使用令人信服的人工智能声音等风险。
研究团队强调,需要一种标准的方法来数字化标记人工智能的代数,并认识到高精度检测人工智能生成的内容仍然是一个挑战。
他们写道: “如果该模型推广到现实世界中看不见的说话者,它应该包括一个协议,以确保说话者同意使用他们的声音和合成语音检测模型。”
尽管如此,与其他工具相比,VALL-E 2 的结果非常准确。在研究团队进行的一系列测试中,VALL-E 2 在稳健性、自然度和生成语音的相似性方面均超越了人类基准。
VALL-E-2 仅使用 3 秒的音频就取得了这些成果。不过,研究团队指出, “使用 10 秒的语音样本,质量会更好。”
微软并不是唯一一家展示过尖端 AI 模型却未发布的 AI 公司。Meta 的 Voicebox 和 OpenAI 的 Voice Engine 是两款令人印象深刻的语音克隆器,但它们也面临类似的限制。
Meta AI 发言人去年告诉 Decrypt: “生成语音模型有许多令人兴奋的用例,但由于存在滥用的潜在风险,我们目前不会公开 Voicebox 模型或代码。”
此外,OpenAI 解释说,在推出其合成语音模型之前,它正试图首先解决安全问题。
OpenAI 在官方博客文章中解释道: “根据我们对人工智能安全的态度和自愿承诺,我们选择预览但不会广泛发布这项技术。”
这种对道德准则的呼吁正在整个人工智能社区中传播,特别是当监管机构开始对生成人工智能对我们日常生活的影响表示担忧时。