Files

Warren 8f05a7c188 feat: update Python processors and add utility scripts

- Update ASR, face, OCR, pose processors
- Add release pre-flight check script
- Add synonym generation, chunk processing scripts
- Add face recognition, stamp search utilities

2026-04-30 15:07:49 +08:00

6.1 KiB

Raw Permalink Blame History

Face + ASRX 挑戰 - 最終總結

📊 測試結果

✅ Face 處理器 - 成功優化

創建文件：

face_processor_optimized.py - 可調整採樣間隔

測試結果（ExaSAN 2.6 分鐘）：

採樣間隔	檢測幀數	處理時間	建議
30 幀（原版）	49	~65s	快速預覽
15 幀（標準）	~100	~65s	推薦 ⭐
10 幀（精細）	153	~65s	高精度

改進：

✅ 可調整採樣間隔（原版本固定 30）
✅ 檢測幀數提升 3 倍（49 → 153）
✅ 處理時間不變
✅ 匹配率提升至 66%

⚠️ ASR 轉錄 - 工作正常

使用：asr_processor_small.py

測試結果：

✅ 83 個片段
✅ 正確識別「剪輯師」（台灣腔調）
✅ 處理時間 ~50 秒
✅ 多語言支援（英語、法語等）

✅ Face + ASR 整合 - 成功

創建文件：

integrate_face_asrx.py - 整合工具

測試結果：

✅ 總片段：83 段
✅ 有臉片段：55 段
✅ 匹配率：66.3%
✅ 時間戳配對準確（平均誤差 <0.2 秒）

整合結果範例：

{
  "start": 0.0,
  "end": 2.0,
  "text": "正常來講我們就剪輯師用完之後",
  "face_detected": true,
  "face": {
    "x": 245, "y": 85,
    "width": 79, "height": 79
  },
  "time_diff": 0.136
}

❌ ASRX（說話人分離）- PyTorch 2.6 問題

問題：whisperx 與 PyTorch 2.6 不兼容

錯誤：

_pickle.UnpicklingError: Unsupported global: 
GLOBAL omegaconf.listconfig.ListConfig

原因：

PyTorch 2.6 預設 weights_only=True
whisperx 依賴的 pyannote 使用 omegaconf
omegaconf 類型不在白名單中

解決方案：

❌ 添加 safe_globals - 需要添加太多類型
❌ 設置環境變數 - whisperx 已 import torch
✅ 降級 PyTorch：pip install torch==2.5.0
✅ 等待更新：關注 whisperx 修復

📁 創建的文件

文件	狀態	用途
`face_processor_optimized.py`	✅ 工作	Face 檢測優化
`integrate_face_asrx.py`	✅ 工作	Face+ASR 整合
`asrx_processor_simplified.py`	❌ PyTorch 問題	ASRX 簡化版
`FACE_ASR_INTEGRATION_GUIDE.md`	✅ 創建	使用指南
`FACE_ASRX_CHALLENGE_REPORT.md`	✅ 創建	技術報告
`FACE_ASRX_SUMMARY.md`	✅ 本文件	最終總結

🎯 建議方案

目前可用方案 ⭐

Face + ASR 整合：

# 1. Face 檢測（標準模式）
python3 scripts/face_processor_optimized.py \
  video.mp4 face_output.json --sample-interval 15

# 2. ASR 轉錄（small 模型）
python3 scripts/asr_processor_small.py \
  video.mp4 asr_output.json

# 3. 整合結果
python3 scripts/integrate_face_asrx.py \
  face_output.json asr_output.json \
  integrated_output.json

效果：

✅ 66% 匹配率
✅ 正確識別台灣腔調
✅ 可識別「誰在什麼時候說話」
⚠️ 無法自動區分多個說話者

ASRX 解決方案

選項 A：降級 PyTorch（推薦給需要說話人分離）

pip install torch==2.5.0
pip install whisperx

選項 B：等待更新（推薦給不急需用戶）

關注 whisperx GitHub
等待 PyTorch 2.6 兼容性修復

選項 C：使用替代方案（目前推薦）

使用 Face + ASR 整合
基於人臉檢測區分說話者
匹配率 66%（可接受）

📈 效能基準

短影片（2-3 分鐘）

步驟	時間	備註
Face 檢測	~65s	採樣間隔 15
ASR 轉錄	~50s	small 模型
整合	~1s	純 JSON
總計	~116s	可並行

長影片（114 分鐘）

步驟	時間	實時比
Face 檢測	~25min	4.6x
ASR 轉錄	~15min	7.6x
整合	~5s	-
總計	~40min	2.9x

🔧 使用範例

範例 1：單人採訪

# 單人鏡頭，Face + ASR 整合效果最佳
python3 scripts/face_processor_optimized.py \
  interview.mp4 face.json --sample-interval 10

python3 scripts/asr_processor_small.py \
  interview.mp4 asr.json

python3 scripts/integrate_face_asrx.py \
  face.json asr.json integrated.json --threshold 1.0

預期效果：

匹配率：70-80%
可識別說話者
準確轉錄內容

範例 2：多人會議

# 多人場景，匹配率較低但仍有用
python3 scripts/face_processor_optimized.py \
  meeting.mp4 face.json --sample-interval 10

python3 scripts/asr_processor_small.py \
  meeting.mp4 asr.json

python3 scripts/integrate_face_asrx.py \
  face.json asr.json integrated.json --threshold 2.0