这是一个基于 OpenAI Whisper 的语音转文本环境,已完成基础配置,开箱即用,适合直接在终端中进行音频转写。
默认使用并 仅下载:
large-v3 模型模型会在 环境启动后自动下载
无需手动下载或配置模型文件
large-v3是 Whisper 当前精度最高、稳定性最好的模型之一,适合中文及多语言语音转写。
将需要转写的音频文件放在当前目录或指定路径中,例如:
audio.wav
在终端中直接执行:
whisper "audio.wav" \
--model large \
--output_dir ./output \
--language Chinese
| 参数 | 说明 |
|---|---|
"audio.wav" | 待转写的音频文件路径 |
--model large | 使用 large 模型(对应 large-v3) |
--output_dir ./output | 输出文件目录 |
--language Chinese | 指定音频语言为中文 |
执行完成后,转写结果会生成在:
./output/
目录下。
large-v3 模型到缓存目录large-v3 模型