规模性能碾压OpenAI,Meta语言模型可以识别1100多种语言

元宇宙
2023-05-23

5月22日, 元宇宙Meta公司推出了一个开源AI语言模型,大规模多语言语音(Massively Multilingual Speech) MMS模型。


Meta语言模型可以识别超过4000种口语,是目前已知技术的40倍,目前的模型可以覆盖大约100种语言;该模型还将文本语音互转技术从100多种语言扩展到1100多种。在语音方面,Meta又达到了另一个LLaMA级的里程碑,它将彻底改变语音技术。在文本上,Meta的NLLB项目将多语言翻译扩展到了200种语言,而MMS项目,则将语音技术扩展到更多语言。


Meta决定将MMS模型开源,以帮助保护语言多样性,并鼓励研究人员在其基础上进行进一步开发。


Meta公司在新闻稿中写道,“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上继续发展。通过这项工作,我们希望为保护全世界令人惊叹的语言多样性做出一点贡献。”


数据采集


语音识别和文本到语音模型通常需要对模型进行数千小时的音频训练,并附带语音转录标签。这些标签对机器学习至关重要,它使算法能够更准确地分类和理解数据。


这种情况下,收集数千种语言的音频数据成为了Meta面临的第一个挑战。


现有的语音识别模型,只涵盖了大约100种语言,在地球上的7000多种已知语言中,这只占很小一部分。令人担忧的是,这些语言中有一半都面临着消失的危险。


其中一些语言,如Tatuyo语,只有几百个使用者,而数据集中的大多数语言,以前根本就不存在语音技术。


Meta语言模型Massively Multilingual Speech(MMS)项目中,研究者通过结合wav2vec 2.0(Meta在自监督学习方面的开创性工作)和一个新的数据集来克服了一些挑战。


这个数据集提供了超过1100种语言的标记数据,和近4000种语言的未标记数据。


通过跨语言训练,wav2vec 2.0学习了多种语言中使用的语音单元。


这样可以大大减少训练一个模型所需的标注数据量。具体来说,研究人员在超过1400种语言的约50万小时的语音数据上训练了自监督模型——这个量比过去多了近5倍。


然后针对特定的语音任务,如多语言语音识别或语言识别,研究人员再对模型进行微调即可。


而结果显示,MMS模型的性能优于现有的模型,覆盖语言的数量是现有模型的10倍。


MMS支持1,107种语言的语音转文本和文本转语音,支持4,000多种语言的识别


Meta使用了一种非常规的方法来收集音频数据:利用翻译完成的宗教文本的录音。


Meta表示,“为了克服这个问题,我们采用了宗教文本,如圣经,这些文本已被翻译成多种不同的语言,这些译本也已被用于广泛的语言研究中。”


这些宗教文本的各语言译本也由专业人士进行阅读并录音。作为MMS项目的一部分,Meta创建了一个超过1100种语言的“《圣经新约》阅读数据集”,平均每种语言有32小时的数据。


与OpenAI Whisper相比,多语言ASR模型支持11倍以上的语言,但在54种语言上的平均错误率还不到FLEURS的一半。


而且,将ASR扩展到如此多语言之后,只造成了非常小的性能下降。



此外,Meta还指出,考虑到其他宗教类读物的未标记录音,Meta将可提供的语言数量增加到4000多种。


挽救语言多样性


这种收集数据的方法乍一听上去会让人产生一种想法:基于这些译本录音的AI模型是否会严重偏向基督教世界观?


但是,Meta指出,情况并非如此,“虽然录音的内容是宗教的,但我们的分析表明,这并没有使模型偏向于产生宗教语言。”


“这是因为我们使用了连接主义时间分类(CTC)方法,这与大型语言模型(LLM)或语音识别的序列到序列模型相比,这种方法受到的约束要大得多。”


目前世界上许多语言都面临着消失的危险,而有限的语音识别和语音生成技术只会加速这一趋势。


Meta表示,希望扭转世界语言逐渐减少的趋势,希望每个人都能用自己的第一语言来获取信息或使用技术。


Meta选择将所有模型和代码开源,希望为保护世界语种的多样性做出贡献。



相关阅读

华尔街分析师看好中国大型科技公司,尽管复苏不均衡











分享