Files

Warren 8f05a7c188 feat: update Python processors and add utility scripts

- Update ASR, face, OCR, pose processors
- Add release pre-flight check script
- Add synonym generation, chunk processing scripts
- Add face recognition, stamp search utilities

2026-04-30 15:07:49 +08:00

4.0 KiB

Raw Permalink Blame History

ASRX 替代方案研究

當前 ASRX 問題

❌ PyTorch 2.6+ 兼容性問題
❌ 說話人分離需要 pyannote.audio 配置
❌ 時間戳對齊需要 PyTorch 2.6+
⚠️ 準確度 85%（可提升）

替代方案列表

1. pyannote.audio (說話人分離專家)

官網: https://github.com/pyannote/pyannote-audio

特點:

✅ 專業說話人分離
✅ 支援 HuggingFace
✅ 最新版本 3.4.0
⚠️ 需要 HuggingFace token

安裝:

pip install pyannote.audio
# 需要接受使用條款並獲取 token

優點:

說話人分離 SOTA
可獨立使用
與 whisper 整合良好

缺點:

需要 HuggingFace account
需要接受使用條款
配置較複雜

2. SpeechBrain

官網: https://speechbrain.github.io/

特點:

✅ 完整語音處理工具包
✅ 包含 ASR + 說話人分離
✅ PyTorch 為基礎
✅ 開源友好

安裝:

pip install speechbrain

優點:

一站式解決方案
文檔完善
社群活躍
不需要 HuggingFace token

缺點:

模型較大
處理速度較慢
需要學習新 API

3. NVIDIA NeMo

官網: https://github.com/NVIDIA/NeMo

特點:

✅ NVIDIA 官方支援
✅ 包含 ASR + 說話人分離
✅ 高效能（GPU 優化）
⚠️ 需要 CUDA（可選）

安裝:

pip install nemo_toolkit['asr']

優點:

企業級品質
GPU 加速（可選）
模型品質高
文檔完善

缺點:

安裝複雜
依賴較多
模型較大

4. HuggingFace Transformers + pyannote

組合方案:

ASR: transformers (Whisper/Wav2Vec2)
說話人分離：pyannote.audio

安裝:

pip install transformers pyannote.audio

優點:

靈活性高
可選擇最佳模型
HuggingFace 生態
社群支援好

缺點:

需要整合兩個庫
需要 HuggingFace token（pyannote）
配置較複雜

5. Silero VAD + Faster-Whisper

組合方案:

VAD: Silero (語音活動檢測)
ASR: Faster-Whisper

安裝:

pip install silero-vad faster-whisper

優點:

輕量級
快速
不需要 HuggingFace
容易整合

缺點:

無說話人分離
需要自行整合
功能較少

6. WhisperX (當前使用)

官網: https://github.com/m-bain/whisperX

特點:

✅ 已安裝
⚠️ PyTorch 2.6 兼容性問題
✅ 包含對齊 + 說話人分離

當前狀態:

PyTorch 2.5.0: 轉錄可用
對齊：需要 PyTorch 2.6+
說話人分離：需要 pyannote.audio 配置

測試計畫

第一階段：SpeechBrain 測試

安裝 SpeechBrain
測試基本 ASR 功能
測試說話人分離
對比 WhisperX

第二階段：pyannote.audio 測試

申請 HuggingFace token
接受使用條款
安裝 pyannote.audio
測試說話人分離

第三階段：整合測試

選擇最佳方案
整合到現有流程
批次測試
效能基準

預期結果

方案	ASR 準確度	說話人分離	處理速度	實施難度
SpeechBrain	85-90%	✅	中	中
pyannote + FW	90%	✅✅	快	高
NVIDIA NeMo	90-95%	✅	快 (GPU)	高
WhisperX	85%	⚠️	快	低

研究日期: 2026-04-02 研究員: OpenCode 狀態: 📋 待測試

4.0 KiB

Raw Permalink Blame History

ASRX 替代方案研究

當前 ASRX 問題

替代方案列表

1. pyannote.audio (說話人分離專家)

2. SpeechBrain

3. NVIDIA NeMo

4. HuggingFace Transformers + pyannote

5. Silero VAD + Faster-Whisper

6. WhisperX (當前使用)

推薦方案

方案 A: SpeechBrain (推薦⭐)

方案 B: pyannote.audio + Faster-Whisper

方案 C: 等待 WhisperX 更新

測試計畫

第一階段：SpeechBrain 測試

第二階段：pyannote.audio 測試

第三階段：整合測試

預期結果

4.0 KiB Raw Permalink Blame History Unescape Escape

ASRX 替代方案研究

當前 ASRX 問題

替代方案列表

1. pyannote.audio (說話人分離專家)

2. SpeechBrain

3. NVIDIA NeMo

4. HuggingFace Transformers + pyannote

5. Silero VAD + Faster-Whisper

6. WhisperX (當前使用)

推薦方案

方案 A: SpeechBrain (推薦⭐)

方案 B: pyannote.audio + Faster-Whisper

方案 C: 等待 WhisperX 更新

測試計畫

第一階段：SpeechBrain 測試

第二階段：pyannote.audio 測試

第三階段：整合測試

預期結果

4.0 KiB

Raw Permalink Blame History