小米开源 OmniVoice,支持 646 种语言的零样本语音克隆模型

据 Beating 称,Xiaomi 的 AI Lab Kaldi 团队已开源 OmniVoice,这是一种零样本语音克隆 TTS 模型,支持 646 种语言。该模型仅需几秒钟的参考音频即可克隆语音特征,并可跨语言工作——同一个声音能够合成普通话、日语、韩语以及其他语言的语音。所有代码、权重和训练数据均在 Apache-2.0 许可下开源。

OmniVoice 采用简化架构,使用单个双向 Transformer,直接将文本映射到离散的声学标记,从而在 PyTorch 中实现比实时快 40 倍的推理速度。该模型在来自 50 个开源数据集的 580,000 小时音频上进行训练。在对 24 种测试语言的评估中,OmniVoice 在语音相似度和可懂度方面优于商业系统;在 102 种语言中,它与人类录音相当或表现更好。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论