模組 | 功能 | 任務目標 | 所需工具 | 進度 | 備註 |
---|---|---|---|---|---|
語音轉文字 | 建立閩南語辨識模型 | Kaldi / Vosk / 音檔語料 | 可用教育部語音語料訓練 | ||
文字轉語音 | 建立閩南語合成模型 | Coqui TTS / 自行訓練 | 需大量文字-語音對應資料 | ||
整理語料 | 清洗、轉標註格式、斷詞 | Python / Praat / OpenCC | 需轉換為 Kaldi + TTS 格式 | ||
建立 pipeline | 撰寫自動化訓練腳本 | bash / Python / Jupyter | TTS 與 STT 均需 | ||
測試模型準確率與自然度 | 上機測試辨識與合成準確性 | Jupyter / CLI / UI | 可用家庭語音片段測試 | ||
加入語言切換與測試模式 | 可用指令切換至台語模式 | Python (orsiris_local.py) | 若語音 OK,可同步整合 Node-RED |
可用語料資源清單
資料名稱 | 類型 | 可用性 | 備註 |
---|---|---|---|
教育部台語朗讀語音 | 語音 + 漢羅文字稿 | 高品質、有標註者姓名與句子 | |
台語聖經、民間文本 | 文字語料 | 可生成合成語音語料(需對應聲音) | |
廣播節目(公視台語台) | 語音資料 | 需斷句與自動轉換 | |
台語新聞字幕 | 影像文字對齊 | 可補足發音多樣性 |
執行分段建議
第一階段:STT(語音辨識)
- 整理教育部台語語音朗讀語料(已公開)
- 轉為 Kaldi/Vosk 支援的音檔格式與轉錄格式
- 使用 Kaldi recipe 或 Vosk 訓練引擎開始建模
- 初步測試後整合至 Orsiris 本地 STT
第二階段:TTS(語音合成)
- 建立 LJSpeech 格式語音資料集(音檔 + 文本對應)
- 使用 Coqui TTS 進行模型訓練(建議 GPU)
- 測試語音自然度與拼音輸入效果
- 整合至 Orsiris 並支援 offline 模式
開發時間估計(粗略)
任務 | 時間估算 |
---|---|
資料清洗與準備 | 1–2 週 |
STT 模型訓練 | 2–3 週 |
TTS 語音語料對應處理 | 2 週 |
TTS 模型訓練(首次) | 3–4 週(依硬體) |
整合與測試 | 1–2 週 |
要不要我先幫你建立第一階段的 Kaldi / Vosk 資料集準備流程與轉檔腳本?