好奇的探索者,理性的思考者,踏实的行动者。
Table of Contents:
Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练,支持 99 种语言,对英文的表现更是强无敌。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景==噪音==和技术术语的识别能力。除了可以用于==语音识别==,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。
最近,来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版,特点是模型小、速度快,而且准确度还很高,非常适合在要求低延迟或资源有限的环境中运行。不过,与能够处理多种语言的原始 Whisper 模型不同,Distil-Whisper 只能处理英文。
有项测试结果表明,在处理 150 分钟的音频时,Distil-Whisper 的速度可以达到 Faster-Whisper 的 2.5 倍。
为应对不同的语音转录需求,Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。
转录效果依次增加,但相应花费的时间也会增加。
faster-whisper是基于OpenAI的Whisper模型的高效实现,faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。
faster-whisper是具有完全的 whsiper 模型参数,且自带 VAD加持的 whisper 版本,该版本使用了 CTranslate2 来重新实现 whsiper 模型,CT2 对 transformer 类网络进行了优化,使模型推理效率更高。 相比于 openai/whisper,该实现在相同准确性下速度提高了 4 倍以上,同时使用的内存更少。
所谓 VAD 即 Voice Activity Detection —— 声音活动检测,在语音信号处理中,例如语音增强,语音识别等领域有着非常重要的作用。它的作用是从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。在语音转写任务中,可以提前将语音和非语音部分分离出来,从而提升 whisper 网络识别速度,并减少模型幻听。
large-v3模型:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
large-v2模型:https://huggingface.co/guillaumekln/faster-whisper-large-v2/tree/main
large-v2模型:https://huggingface.co/guillaumekln/faster-whisper-large-v1/tree/main
medium模型:https://huggingface.co/guillaumekln/faster-whisper-medium/tree/main
small模型:https://huggingface.co/guillaumekln/faster-whisper-small/tree/main
base模型:https://huggingface.co/guillaumekln/faster-whisper-base/tree/main
飞书妙记
抖音旗下产品,注册登陆后就直接上传音频和视频即可转文字。支持中英日 3 种语言,能自动添加标点符号和章节分段,支持免费导出为 TXT 和 SRT 格式。
剪映
抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用。使用方法也很简单,点击导航栏“文本”,然后选择“智能字幕”,即可一键生成字幕。
目前国内能与剪映对标的,当属 B 站推出的“必剪”。它的产品逻辑一样,也是为了方便用户创作视频,然后上传到 B 站。