模組 | 功能 | 任務目標 | 所需工具 | 進度 | 備註 |
---|
🗣️ STT | 語音轉文字 | 建立閩南語辨識模型 | Kaldi / Vosk / 音檔語料 | 🟡 評估中 | 可用教育部語音語料訓練 |
🔊 TTS | 文字轉語音 | 建立閩南語合成模型 | Coqui TTS / 自行訓練 | ⚪ 未啟動 | 需大量文字-語音對應資料 |
📁 資料處理 | 整理語料 | 清洗、轉標註格式、斷詞 | Python / Praat / OpenCC | 🟡 初步進行 | 需轉換為 Kaldi + TTS 格式 |
🧠 訓練流程 | 建立 pipeline | 撰寫自動化訓練腳本 | bash / Python / Jupyter | ⚪ 未開始 | TTS 與 STT 均需 |
🧪 測試 & 微調 | 測試模型準確率與自然度 | 上機測試辨識與合成準確性 | Jupyter / CLI / UI | ⚪ 未開始 | 可用家庭語音片段測試 |
🔌 Orsiris 整合 | 加入語言切換與測試模式 | 可用指令切換至台語模式 | Python (orsiris_local.py) | ⚪ 規劃中 | 若語音 OK,可同步整合 Node-RED |
📦 可用語料資源清單
資料名稱 | 類型 | 可用性 | 備註 |
---|
教育部台語朗讀語音 | 語音 + 漢羅文字稿 | ✅ | 高品質、有標註者姓名與句子 |
台語聖經、民間文本 | 文字語料 | ✅ | 可生成合成語音語料(需對應聲音) |
廣播節目(公視台語台) | 語音資料 | ⚠️ 須自建對應文字稿 | 需斷句與自動轉換 |
台語新聞字幕 | 影像文字對齊 | ⚠️ 需對齊語音 | 可補足發音多樣性 |
🛠 執行分段建議
第一階段:STT(語音辨識)
- 整理教育部台語語音朗讀語料(已公開)
- 轉為 Kaldi/Vosk 支援的音檔格式與轉錄格式
- 使用 Kaldi recipe 或 Vosk 訓練引擎開始建模
- 初步測試後整合至 Orsiris 本地 STT
第二階段:TTS(語音合成)
- 建立 LJSpeech 格式語音資料集(音檔 + 文本對應)
- 使用 Coqui TTS 進行模型訓練(建議 GPU)
- 測試語音自然度與拼音輸入效果
- 整合至 Orsiris 並支援 offline 模式
📅 開發時間估計(粗略)
任務 | 時間估算 |
---|
資料清洗與準備 | 1–2 週 |
STT 模型訓練 | 2–3 週 |
TTS 語音語料對應處理 | 2 週 |
TTS 模型訓練(首次) | 3–4 週(依硬體) |
整合與測試 | 1–2 週 |
要不要我先幫你建立第一階段的 Kaldi / Vosk 資料集準備流程與轉檔腳本?