VALL-E

用 3 秒的音频模拟任何人的声音

语音合成

Description

Microsoft 的新文本转语音模型可以保留说话者的情绪基调和声学环境。

VALL-E 可用于高质量的文本转语音应用程序、语音编辑等一个人的录音可以根据文本记录进行编辑和更改（让他们说出他们原本没有说的话），以及与 GPT-3 等其他生成式 AI 模型结合使用时创建的音频内容。

Microsoft 呼吁VALL-E 是一种“神经编解码器语言模型”，它建立在 Meta 于 2022 年 10 月宣布的名为 EnCodec 的技术的基础上。与通常通过操纵波形合成语音的其他文本转语音方法不同，VALL-E 从文本和声音提示生成离散音频编解码器代码。它主要分析一个人的声音，借助 EnCodec 将该信息分解成离散的组件（称为“令牌”），并使用训练数据来匹配它“知道”的内容。关于如果它说出三秒样本之外的其他短语，该声音听起来会如何。

对于论文的结论，他们写道：

“因为 VALL-E 可以合成语音虽然保持说话人身份，但它可能会带来滥用模型的潜在风险，例如欺骗语音识别或冒充特定说话人。为了减轻这种风险，可以建立一个检测模型来区分音频剪辑是否由 VALL-E 合成。我们还将在进一步开发模型时将 Microsoft AI 原则付诸实践。”

来源：https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-用 3 秒音频模拟任何人的声音/

产品截图

Go Now

Follow WeChat

Success story sharing

Want to stay one step ahead of the latest teleworks?

Subscribe Now

VALL-E

Description

产品截图

Follow WeChat

Want to stay one step ahead of the latest teleworks?

Platform

Support

Contact US