Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。
来源:https://openai.com/blog/whisper/ p>
Success story sharing