开源语音转字幕软件Whisper 可识别多种语种

2023-08-16 13:09
摘要:Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练,能够将各种语言的语音..

Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。

项目地址:https://github.com/openai/whisper

Whisper 的核心功能是语音识别。对于学生和工作人员来说,它可以帮助快速将会议、讲座、课堂录音整理成文字稿。对于影视爱好者来说,它可以自动生成无字幕资源的字幕,无需等待字幕组发布字幕。对于外语口语学习者来说,使用 Whisper 翻译发音练习录音可以检验口语发音水平。

与一些商业公司提供的联网语音识别服务不同,Whisper 完全在本地运行,无需联网,充分保障个人隐私,并且具有高准确率。以我自己录制的一段音频为例,长度为5分钟,约400多个字,使用 Whisper 的中等模式进行识别,仅有两个英文单词识别错误,而这两个错误是由于发音问题导致的。

下载 Whisper 模型的方式是使用 Const-me 项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases

核心功能:

多语种语音识别:Whisper 可以准确识别多种语种的语音输入,包括英语和其他语种。

语音翻译:用户可以使用 Whisper 将输入的非英语语音实时翻译成英语文本。

语言识别:Whisper 能够自动检测输入语音的语种,并进行相应的处理和识别。

多任务处理:Whisper 可以同时处理多项语音处理任务,取代传统语音处理流程的多个阶段。

高鲁棒性:Whisper 在大规模多样化的语音数据集上进行训练,具有较强的鲁棒性和准确性。

更新于:2023-08-16 13:09