一个帮助用户从视频中提取并整理文字内容的工具。
随着视频平台(抖音、B站、Youtube等)的普及,大量优质内容以视频形式呈现。然而,通过观看视频获取信息的方式往往效率较低,且在观看前难以准确判断内容质量。本项目旨在通过AI技术,将视频内容转换为文字形式,提高内容获取效率。
- 支持多平台视频内容提取
- 自动将视频转换为文字内容
- 智能文本纠错和优化
- 支持简繁体转换
-
视频音频提取
- 使用ffmpeg进行视频转音频处理
- 支持多种视频格式
-
语音转文字
- 采用OpenAI Whisper模型
- 高准确度的语音识别能力
-
繁简体转换
- 将Whisper生成的繁体文本转换为简体
- 确保输出文本的本地化
-
文本纠错
- 使用pycorrector进行智能文本校对
- 提高文本质量和可读性
- Python 3.9
- Anaconda
- ffmpeg
- OpenAI Whisper
- PyTorch
- zhconv
-
安装Anaconda
- 访问 Anaconda官网 下载并安装
-
配置环境变量
CONDA_HOME: D:\anaconda(默认) WHISPER_PROJECT_PATH: 项目所在路径
-
创建项目环境
# 创建环境 conda create -n whisper_env python=3.9 # 激活环境 conda activate whisper_env # 安装 Whisper pip install git+https://github.com/openai/whisper.git # 安装ffmpeg conda install ffmpeg=6.1.1 -c conda-forge # 安装支持 GPU 的 PyTorch 【可选】 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装依赖 pip install -r requirements.txt
video_agent.bat 输入文件路径 [--output_file 输出文件路径]
类型 | 格式 |
---|---|
视频 | MP4 |
音频 | MP3, WAV |
# 转换视频文件
video_agent.bat D:\videos\example.mp4
# 转换音频文件
video_agent.bat D:\audio\speech.mp3
# 指定输出路径
video_agent.bat D:\videos\example.mp4 --output_file D:\output\result.wav
- 视频文件自动转换为WAV格式
- 生成同名txt文本文件
- 自动进行简繁转换
- 避免使用中文路径
- 确保有足够磁盘空间
- 首次运行会自动下载模型文件
- 大文件处理耗时较长
- 支持GPU加速(如有)
- 检查CONDA_HOME环境变量设置
- 确认Anaconda安装正确
- 检查WHISPER_PROJECT_PATH环境变量
- 确认项目文件位置
- 检查输入文件格式是否支持
- 确认所有依赖安装完整