时间:2024-01-03|浏览:269
用戶喜愛的交易所
已有账号登陆后会弹出下载
Respeecher、Voicemod 和 ElevenLabs 这三家初创公司都有一个共同点,它们都提供用于制作语音克隆的算法和人工智能软件。 现在,加拿大人工智能初创公司 MyShell 宣布开源其用于即时语音克隆的 OpenVoice 算法。
MyShell 在社交媒体平台 X 上分享了这一更新,并表示:“仅使用一个小音频片段,就能以无与伦比的精度克隆声音,对音调进行精细控制,从情感到口音、节奏、停顿和语调。”
在此次合作下,来自麻省理工学院、MyShell.ai 和清华大学的研究人员推出了 OpenVoice,它可以复制说话者的声音,并仅使用原始来源的简短音频片段来生成多种语言的语音。 它还捕捉说话者声音的独特音调和音色。
今天,我们自豪地开源 OpenVoice 算法,秉承我们的核心精神——人工智能为所有人。立即体验:https://t.co/zHJpeVpX3t。 克隆声音具有无与伦比的精确度,可以对音调进行精细控制,从情感到重音、节奏、停顿和语调,只需使用… pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai) 2024 年 1 月 2 日
据该公司称,该算法添加了关键的风格元素,如情感、口音、节奏、停顿和语调。 这些元素对于使语音听起来真实并创造有趣的对话至关重要。 它有助于避免常规文本转语音时经常出现的无聊声音。
语音克隆人工智能模型如何工作
在一篇研究论文中,OpenVoice 分享了其语音克隆人工智能背后的方法。 OpenVoice 由两个不同的人工智能模型组成:文本转语音 (TTS) 模型和“音调转换器”。
该模型可以管理风格参数和语言,并接受了英语(美式和英式口音)、汉语和日语使用者的“使用 30,000 个句子的训练”。 训练包括根据表达的情绪标记样本,模型从这些音频片段中学习语调、节奏和停顿。
另一方面,音调转换器模型是在来自 20,000 多个不同说话者的超过 300,000 个音频样本的庞大数据集上进行训练的。 在这两种情况下,人类语音音频都被转换为音素(区分单词的特定声音)并使用向量嵌入来表示。
TTS 模型使用“基本扬声器”,与训练过程中用户录制的音频所产生的音调相结合。 这两个模型一起可以复制用户的声音并修改音色——口语文本中传达的情感表达。
这家初创公司成立于 2023 年。去年,MyShell 筹集了 560 万美元的种子资金,由 INCE Capital 领投,Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC 和 OP Crypto 等知名投资者参与其中。
该公司表示,这笔资金将有助于推进专有人工智能模型、创建专为人工智能原生应用程序量身定制的创作者工作室,以及在区块链技术领域建立充满活力的创作者生态系统。
AI 初创公司 MyShell 发布用于精确语音克隆的 OpenVoice 算法的帖子首先出现在 Metaverse Post 上。