🧩 閩南語語音模組開發計畫表(v0.1)

模組功能任務目標所需工具進度備註
🗣️ STT語音轉文字建立閩南語辨識模型Kaldi / Vosk / 音檔語料🟡 評估中可用教育部語音語料訓練
🔊 TTS文字轉語音建立閩南語合成模型Coqui TTS / 自行訓練⚪ 未啟動需大量文字-語音對應資料
📁 資料處理整理語料清洗、轉標註格式、斷詞Python / Praat / OpenCC🟡 初步進行需轉換為 Kaldi + TTS 格式
🧠 訓練流程建立 pipeline撰寫自動化訓練腳本bash / Python / Jupyter⚪ 未開始TTS 與 STT 均需
🧪 測試 & 微調測試模型準確率與自然度上機測試辨識與合成準確性Jupyter / CLI / UI⚪ 未開始可用家庭語音片段測試
🔌 Orsiris 整合加入語言切換與測試模式可用指令切換至台語模式Python (orsiris_local.py)⚪ 規劃中若語音 OK,可同步整合 Node-RED

📦 可用語料資源清單

資料名稱類型可用性備註
教育部台語朗讀語音語音 + 漢羅文字稿高品質、有標註者姓名與句子
台語聖經、民間文本文字語料可生成合成語音語料(需對應聲音)
廣播節目(公視台語台)語音資料⚠️ 須自建對應文字稿需斷句與自動轉換
台語新聞字幕影像文字對齊⚠️ 需對齊語音可補足發音多樣性

🛠 執行分段建議

第一階段:STT(語音辨識)

  1. 整理教育部台語語音朗讀語料(已公開)
  2. 轉為 Kaldi/Vosk 支援的音檔格式與轉錄格式
  3. 使用 Kaldi recipe 或 Vosk 訓練引擎開始建模
  4. 初步測試後整合至 Orsiris 本地 STT

第二階段:TTS(語音合成)

  1. 建立 LJSpeech 格式語音資料集(音檔 + 文本對應)
  2. 使用 Coqui TTS 進行模型訓練(建議 GPU)
  3. 測試語音自然度與拼音輸入效果
  4. 整合至 Orsiris 並支援 offline 模式

📅 開發時間估計(粗略)

任務時間估算
資料清洗與準備1–2 週
STT 模型訓練2–3 週
TTS 語音語料對應處理2 週
TTS 模型訓練(首次)3–4 週(依硬體)
整合與測試1–2 週

要不要我先幫你建立第一階段的 Kaldi / Vosk 資料集準備流程與轉檔腳本?