VALL-E

VALL-E

用 3 秒的音频模拟任何人的声音
语音合成

Description

Microsoft 的新文本转语音模型可以保留说话者的情绪基调和声学环境。

VALL-E 可用于高质量的文本转语音应用程序、语音编辑等一个人的录音可以根据文本记录进行编辑和更改(让他们说出他们原本没有说的话),以及与 GPT-3 等其他生成式 AI 模型结合使用时创建的音频内容。

Microsoft 呼吁VALL-E 是一种“神经编解码器语言模型”,它建立在 Meta 于 2022 年 10 月宣布的名为 EnCodec 的技术的基础上。与通常通过操纵波形合成语音的其他文本转语音方法不同,VALL-E 从文本和声音提示生成离散音频编解码器代码。它主要分析一个人的声音,借助 EnCodec 将该信息分解成离散的组件(称为“令牌”),并使用训练数据来匹配它“知道”的内容。关于如果它说出三秒样本之外的其他短语,该声音听起来会如何。

对于论文的结论,他们写道:

“因为 VALL-E 可以合成语音虽然保持说话人身份,但它可能会带来滥用模型的潜在风险,例如欺骗语音识别或冒充特定说话人。为了减轻这种风险,可以建立一个检测模型来区分音频剪辑是否由 VALL-E 合成。我们还将在进一步开发模型时将 Microsoft AI 原则付诸实践。”

来源:https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-用 3 秒音频模拟任何人的声音/

产品截图

关注公众号,不定期副业成功案例分享
Follow WeChat

Success story sharing

Want to stay one step ahead of the latest teleworks?

Subscribe Now