时间:2022-02-08|浏览:7154
用戶喜愛的交易所
已有账号登陆后会弹出下载
改名 Meta 之后,Facebook 元宇宙的愿景正在一点一点地实现。这一次,Facebook 专注于元宇宙社交。
Meta 发布语音处理模型XLS-R
近日,Meta 正式发布 XLS-R——一套新的自监督模型用于各种语音任务。据报道,XLS-R 由海量公共数据培训(数据量是过去的十倍)组成,可以将传统多语言模型的语言支持量增加两倍以上。XLS-R 支持 128种语言。
Meta 认为语音交流是人们最自然的交互形式。随着语音技术的发展,我们可以通过对话直接与我们的设备和未来的虚拟世界互动,从而将虚拟体验与现实世界融为一体。
这与扎克伯格之前声称的公司业务将优先考虑元宇宙不谋而合。此前,扎克伯格总结了他建立元世界的计划:一个基于我们自己数字世界的数字世界,包括虚拟现实和增强现实。我们相信元宇宙将取代移动互联网。
而 XLS-R 作为元宇宙社交网络中不可缺少的一部分,它可以帮助不同母语的人在元宇宙中进行无障碍对话。
值得一提的是,为了通过单一模型实现对多种语言的广泛语音理解,Meta 对 XLS-R 进行微调,使其具有语音识别、语音翻译和语言识别功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 外语英语翻译基准测试, VoxLingua107 语言识别基准测试取得了良好的成绩。
目前,为尽可能降低功能访问门槛,Meta 与 Hugging Face 联合发布模型本体,通过 fairseq GitHub repo 全面开放。
XLS-R 工作原理
据介绍,XLS-R 在 wav2vec 2.0 培训集接受了43万 6 1000多小时的公共语音录音培训,实现了语音表达的自我监督学习方法。这种训练量已经达到了去年发布的最强模型 XLSR-53 的 10 倍。使用各种语音数据源,从会议记录到有声读物,XLS-R 语言支持范围扩大到 128 种,覆盖的语言量达到前代模型的近 2.5 倍。
作为 Meta 是历史上最大的模型,XLS-R 参数超过 20 ,性能远高于其他同类模型。Meta 表示,事实证明,更多的参数可以更充分地反映数据集中的各种语言。Meta 还发现,大型模型在单一语言预训练中的性能也优于其他小型模型。
Meta 在四种主要多语言语音识别测试中对 XLS-R 评估发现,它在 37 语言中超过了以前的模型。具体测试场景如下:BABEL 选用 5 种语言,CommonVoice 选用 10 种语言,MLS 8 语言和 VoxPopuli 选用 14 语言。
BABEL 单词错误率基准测试结果。XLS-R 与前代模型相比,实现了显著改进。
此外,Meta 还对语音翻译模型进行了评估,将录音材料直接翻译成另一种语言。创建一套能够执行各种任务的模型,Meta 同时在 CoVoST-2 基准测试的几个不同翻译方向对 XLS-R 进行了微调,使其能够在英语与多达 21 种语言之间实现内容互译。
在使用 XLS-R 编码英语以外的其他语言时,效率显著提高,这也是多语言语音表达领域的重大突破。据 介绍Meta 介绍,XLS-R 在印尼语到英语的翻译等低资源语言学习中取得了显著的进步,其中 BLEU 平均精度翻了一番。BLEU 指标的改进是指模型给出的自动翻译结果与处理相同内容的人工翻译结果之间的高度重叠,这意味着模型在提高口语翻译能力方面迈出了一大步。
以 BLEU 指标衡量自动语音翻译的准确性,其中较高值表示 XLS-R 从高资源语言(如法语、德语)、中资源语言(如俄语、葡萄牙语)或低资源语言(如泰米尔语、土耳其语)记录到英语的准确性。
Meta 认为,XLS-R 证明,扩大跨语言预训练规模可以进一步提高低资源语言的理解能力。它不仅提高了语音识别率,而且提高了从外语到英语的语音翻译精度。
“XLS-R 是我们向单一模型理解各种不同语言(语音)目标迈出的重要一步,也是我们利用公共数据促进多语言预训练的最大努力。我们坚信,这是一个正确的探索方向,将使机器学习和应用程序更好地理解所有人类的声音,并促进后续研究,大大降低语音技术在世界各地的使用门槛,特别是在缺乏服务的社区。我们将继续开发新的方法,通过低监督学习扩大模型的语言理解能力,逐步覆盖全球 7000 多种语言,实现算法的持续更新。Meta 提到。