吉网

元维基的大规模多语言语音重新定义语言边界

导读 多语言语音项目代表了推进语言技术和促进全球语言多样性的重大飞跃。这些项目利用人工智能语言模型来识别和生成多种语言的语音,通常跨越数

多语言语音项目代表了推进语言技术和促进全球语言多样性的重大飞跃。这些项目利用人工智能语言模型来识别和生成多种语言的语音,通常跨越数千种不同的语言背景。通过利用创新方法,例如合并非常规数据源或采用自我监督的语音表示学习,多语言语音项目旨在打破障碍,使个人能够用母语进行交流、学习和访问信息。

元维基决定将MMS作为一个开源项目推出。

Meta 通过开创性的大规模多语言语音 (MMS) 项目在 AI 语言模型中释放了其最新壮举,使其与单纯的 ChatGPT 副本区分开来。在前所未有的创新步伐中,Meta 的 MMS 拥有以惊人的 4,000 多种口语识别和生成语音的能力,超越了其前辈的能力。Meta 不满足于将这一突破保密,而是决定开源 MMS,邀请研究人员利用和扩展其基础。通过这样做,元维基旨在统治语言多样性的保护,并鼓励该领域的合作发展。

传统的语音识别和文本到语音转换模型需要在庞大的音频数据集上进行大量训练,并配有细致的转录标签,以促进机器学习算法。然而,许多濒危语言,主要分布在工业化国家之外,缺乏如此全面的数据,使它们面临完全消失的风险。认识到这种困境,Meta 采用了一种巧妙的方法,利用翻译的宗教文本。这些文本,如圣经,提供了不同的语言翻译,这些语言翻译在基于文本的语言翻译研究中经过了广泛的审查。

Meta 采用 wav2vec 2.0 模型进行自监督语音表示学习,通过训练对齐模型进一步完善了数据的可用性。非正统数据源和自我监督语音建模之间的协同作用产生了显着的结果。与OpenAI的Whisper的比较评估揭示了MMS的优势,单词错误率降低了50%,同时以惊人的11倍超过了Whisper的语言覆盖率。

随着MMS作为开源研究项目的发布,Meta渴望扭转技术侵蚀语言多样性的趋势,通常将支持限制在科技巨头青睐的最常见的100种语言上。展望一个辅助技术、文本到语音转换,甚至虚拟和增强现实技术使个人能够用母语进行交流和学习的世界,Meta 希望激发全球语言的保存和活力。