logo
0
0
Login
编辑文件 README.md

Whisper

这是一个基于 OpenAI Whisper 的语音转文本环境,已完成基础配置,开箱即用,适合直接在终端中进行音频转写。

  • 🎧 支持多种音频格式(wav / mp3 / m4a 等)
  • 🧠 使用 Whisper Large-v3 模型
  • ⚙️ 环境启动后自动下载模型
  • 📝 输出纯文本结果,便于后续处理

一、模型说明

  • 默认使用并 仅下载

    • large-v3 模型
  • 模型会在 环境启动后自动下载

  • 无需手动下载或配置模型文件

large-v3 是 Whisper 当前精度最高、稳定性最好的模型之一,适合中文及多语言语音转写。


二、使用方式

1️⃣ 准备音频文件

将需要转写的音频文件放在当前目录或指定路径中,例如:

audio.wav

2️⃣ 执行转写命令

在终端中直接执行:

whisper "audio.wav" \ --model large \ --output_dir ./output \ --language Chinese

三、参数说明

参数说明
"audio.wav"待转写的音频文件路径
--model large使用 large 模型(对应 large-v3)
--output_dir ./output输出文件目录
--language Chinese指定音频语言为中文

执行完成后,转写结果会生成在:

./output/

目录下。


四、使用说明与提示

  • 开启环境会自动下载 large-v3 模型到缓存目录
  • 转写速度与音频长度和硬件性能有关
  • 默认调用L40显卡进行工作

五、说明

  • 本环境为 Whisper 精简配置
  • 默认只包含 large-v3 模型
  • 适合高质量中文语音识别与转写任务