用机器学习为DL上的日语音频生成中文字幕
同样适用于日语视频的汉化
🐞故障报告
·
🏹功能请求
- 安装Python3.10
- 打包下载此仓库,使用Pycharm打开项目
- 0pre文件夹放置待处理视频和混合音频,1audio文件夹存放纯净人声音频
- 安装依赖后依次运行所有代码
- 在3asr文件夹中获取识别结果
- 要求:拥有 NVIDIA 显卡并安装了显卡驱动。
- 安装步骤:
- 按照上述“本地运行”步骤初始化虚拟环境。
- 运行项目根目录下的
install_gpu.bat。 - 在弹出菜单中选择与你驱动相匹配的 CUDA 版本(即使你的驱动显示为 13.x,也可以选择 12.1 或 12.4,它们通常向后兼容)。
- 安装完成后,再次运行
运行.bat即可享受硬件加速。
- 优势:处理速度可提升 5-10 倍,并支持更高精度的模型推理。
- 为日语音频生成中文字幕
- 支持视频提取音频,人声背景分离
- 无需独显,核显运行
- 支持MP3和WAV
- 使用demucs提取人声
- 用Pyannote裁剪出人声,写入srt文件
- 使用faster-whisper进行带时间戳转写,对其中的VAD实现进行替换,换成之前的识别结果
- 输出srt文件
- chickenrice0721的Whisper微调模型
- faster-whisper和Pyannote
- Google的Colab帮了我很大的忙,Kaggle就是一坨