OpenAI研究 介绍耳语
我们已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。
Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们正在开源模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。
Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文本标题,并与特殊标记混合使用,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。
其他现有方法经常使用更小、更紧密配对的音频文本训练数据集,1个 2、3个或使用广泛但无监督的音频预训练。4、5、6个 因为 Whisper 是在一个庞大而多样化的数据集上训练的,并且没有针对任何特定的数据集进行微调,所以它没有击败专门研究 LibriSpeech 性能的模型,这是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它更加稳健,并且比那些模型少 50% 的错误。
Whisper 的音频数据集大约有三分之一是非英语的,它交替地被赋予以原始语言转录或翻译成英语的任务。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在 CoVoST2 到英语翻译零样本上优于监督式 SOTA。
我们希望 Whisper 的高精度和易用性将使开发人员能够将语音接口添加到更广泛的应用程序中。查看 论文、 模型卡和 代码 以了解更多详细信息并试用 Whisper。
参考
Chan, W.、Park, D.、Lee, C.、Zhang, Y.、Le, Q. 和 Norouzi, M. SpeechStew:简单地混合所有可用的语音识别数据来训练一个大型神经网络。 arXiv 预印本 arXiv:2104.02133, 2021。↩︎
Galvez, D.、Diamos, G.、Torres, JMC、Achorn, K.、Gopi, A.、Kanter, D.、Lam, M.、Mazumder, M. 和 Reddi, VJ为商业用途扩展不同的英语语音识别数据集。 arXiv 预印本 arXiv:2111.09344, 2021。↩︎
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J.等人。Gigaspeech:一个不断发展的多领域 asr 语料库,包含 10,000 小时的转录音频。 arXiv 预印本 arXiv:2106.06909, 2021。↩︎
Baevski, A.、Zhou, H.、Mohamed, A. 和 Auli, M. wav2vec 2.0:语音表示自监督学习的框架。 arXiv 预印本 arXiv:2006.11477, 2020。↩︎
Baevski, A.、Hsu, WN、Conneau, A. 和 Auli, M. Unsu 监督语音识别。神经信息处理系统的进展,34:27826–27839, 2021. ↩︎
Zhang, Y., Park, DS, Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., 等阿尔。BigSSL:探索用于自动语音识别的大规模半监督学习的前沿。 arXiv 预印本 arXiv:2109.13226, 2021。↩︎