Posted on Nov 12
faster whisper从多媒体语音材料中抽取出文本-4

#tutorial #python #automation #machinelearning
""" 批量转录当前目录下的 .mp3 文件，使用 faster-whisper 转录完成后立即删除原始 .mp3 文件，仅保留 .txt """ import os import sys import logging import argparse from pathlib import Path from faster_whisper import WhisperModel # ================== 日志配置 ================== logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s' ) logger = logging.getLogger('Extract Text') # ================== 配置区 ================== MODEL_SIZE = "base" # 可选: tiny, base, small, medium, large DEVICE = "cpu" # cpu 或 cuda COMPUTE_TYPE = "int8" # int8, float16, float32 (CPU 推荐 int8) VAD_FILTER = True # 启用语音活动检测，去除静音 OUTPUT_FORMAT = "txt" # 输出格式 VERBOSE = True # 是否显示详细日志  # ===========================================  def transcribe_audio(audio_path: Path, model: WhisperModel) -> str: """转录单个音频文件，返回文本内容""" print(f"转录: {audio_path.name} → {audio_path.stem}.txt") segments, info = model.transcribe( str(audio_path), language=None, beam_size=5, vad_filter=VAD_FILTER, vad_parameters=dict(min_silence_duration_ms=500), word_timestamps=False, ) text_lines = [] for segment in segments: line = segment.text.strip() if line: text_lines.append(line) if VERBOSE: logger.info(f"[{segment.start:06.2f}s --> {segment.end:06.2f}s] {line}") return "\n".join(text_lines) def safe_delete(file_path: Path): """安全删除文件，捕获异常并记录""" try: file_path.unlink() logger.info(f"已删除: {file_path.name}") except Exception as e: logger.error(f"删除失败 {file_path.name}: {e}") def main(keep_audio: bool = False): print("=== faster-whisper 批量转录 + 自动清理音频 ===") current_dir = Path(".") mp3_files = sorted(current_dir.glob("*.mp3")) if not mp3_files: print("未找到 .mp3 文件，退出。") return # 加载模型（只加载一次）  print(f"正在加载模型 {MODEL_SIZE} ({DEVICE}, {COMPUTE_TYPE})...") model = WhisperModel(MODEL_SIZE, device=DEVICE, compute_type=COMPUTE_TYPE) processed = 0 for mp3_path in mp3_files: txt_path = mp3_path.with_suffix(".txt") # 如果 .txt 已存在，跳过（但仍可选择删除 .mp3）  if txt_path.exists(): print(f"跳过: {txt_path.name} 已存在") if not keep_audio and mp3_path.exists(): safe_delete(mp3_path) continue try: # 转录  text = transcribe_audio(mp3_path, model) if not text.strip(): print(f"警告: {mp3_path.name} 转录结果为空，跳过删除") continue # 写入文本  txt_path.write_text(text, encoding="utf-8") processed += 1 print(f"已保存: {txt_path.name}") # 删除原始音频（仅当不保留时）  if not keep_audio: safe_delete(mp3_path) except Exception as e: print(f"错误转录 {mp3_path.name}: {e}", file=sys.stderr) logger.error(f"处理失败: {mp3_path.name} - {e}") mode = "保留音频" if keep_audio else "已删除音频" print(f"全部完成！共处理 {processed} 个文件，{mode}。") if __name__ == "__main__": main()
DEV Community

faster whisper从多媒体语音材料中抽取出文本-4

Top comments (0)