Table of Contents:

Whisper

Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练，支持 99 种语言，对英文的表现更是强无敌。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景==噪音==和技术术语的识别能力。除了可以用于==语音识别==，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。

最近，来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版，特点是模型小、速度快，而且准确度还很高，非常适合在要求低延迟或资源有限的环境中运行。不过，与能够处理多种语言的原始 Whisper 模型不同，Distil-Whisper 只能处理英文。

有项测试结果表明，在处理 150 分钟的音频时，Distil-Whisper 的速度可以达到 Faster-Whisper 的 2.5 倍。

为应对不同的语音转录需求，Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。
转录效果依次增加，但相应花费的时间也会增加。

faster-whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现，faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。
faster-whisper是具有完全的 whsiper 模型参数，且自带 VAD加持的 whisper 版本，该版本使用了 CTranslate2 来重新实现 whsiper 模型，CT2 对 transformer 类网络进行了优化，使模型推理效率更高。相比于 openai/whisper，该实现在相同准确性下速度提高了 4 倍以上，同时使用的内存更少。

所谓 VAD 即 Voice Activity Detection —— 声音活动检测，在语音信号处理中，例如语音增强，语音识别等领域有着非常重要的作用。它的作用是从一段语音（纯净或带噪）信号中标识出语音片段与非语音片段。在语音转写任务中，可以提前将语音和非语音部分分离出来，从而提升 whisper 网络识别速度，并减少模型幻听。

模型下载

large-v3模型：https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
large-v2模型：https://huggingface.co/guillaumekln/faster-whisper-large-v2/tree/main
large-v2模型：https://huggingface.co/guillaumekln/faster-whisper-large-v1/tree/main
medium模型：https://huggingface.co/guillaumekln/faster-whisper-medium/tree/main
small模型：https://huggingface.co/guillaumekln/faster-whisper-small/tree/main
base模型：https://huggingface.co/guillaumekln/faster-whisper-base/tree/main

其他语音识别服务

飞书妙记
抖音旗下产品，注册登陆后就直接上传音频和视频即可转文字。支持中英日 3 种语言，能自动添加标点符号和章节分段，支持免费导出为 TXT 和 SRT 格式。

剪映
抖音旗下产品，它是一款桌面视频剪辑软件，但同时提供了识别语音功能，使用时需要联网使用。使用方法也很简单，点击导航栏“文本”，然后选择“智能字幕”，即可一键生成字幕。

目前国内能与剪映对标的，当属 B 站推出的“必剪”。它的产品逻辑一样，也是为了方便用户创作视频，然后上传到 B 站。

blog/A-IT/50-应用方向/机器学习/语音识别

Whisper

faster-whisper

模型下载

其他语音识别服务

参考链接