閩南語語音模組開發計畫表（v0.1）

模組	功能	任務目標	所需工具	進度	備註
STT	語音轉文字	建立閩南語辨識模型	Kaldi / Vosk / 音檔語料	評估中	可用教育部語音語料訓練
TTS	文字轉語音	建立閩南語合成模型	Coqui TTS / 自行訓練	未啟動	需大量文字-語音對應資料
資料處理	整理語料	清洗、轉標註格式、斷詞	Python / Praat / OpenCC	初步進行	需轉換為 Kaldi + TTS 格式
訓練流程	建立 pipeline	撰寫自動化訓練腳本	bash / Python / Jupyter	未開始	TTS 與 STT 均需
測試 & 微調	測試模型準確率與自然度	上機測試辨識與合成準確性	Jupyter / CLI / UI	未開始	可用家庭語音片段測試
Orsiris 整合	加入語言切換與測試模式	可用指令切換至台語模式	Python (orsiris_local.py)	規劃中	若語音 OK，可同步整合 Node-RED

可用語料資源清單

資料名稱	類型	可用性	備註
教育部台語朗讀語音	語音 + 漢羅文字稿		高品質、有標註者姓名與句子
台語聖經、民間文本	文字語料		可生成合成語音語料（需對應聲音）
廣播節目（公視台語台）	語音資料	須自建對應文字稿	需斷句與自動轉換
台語新聞字幕	影像文字對齊	需對齊語音	可補足發音多樣性

執行分段建議

第一階段：STT（語音辨識）

整理教育部台語語音朗讀語料（已公開）
轉為 Kaldi/Vosk 支援的音檔格式與轉錄格式
使用 Kaldi recipe 或 Vosk 訓練引擎開始建模
初步測試後整合至 Orsiris 本地 STT

第二階段：TTS（語音合成）

建立 LJSpeech 格式語音資料集（音檔 + 文本對應）
使用 Coqui TTS 進行模型訓練（建議 GPU）
測試語音自然度與拼音輸入效果
整合至 Orsiris 並支援 offline 模式

開發時間估計（粗略）

任務	時間估算
資料清洗與準備	1–2 週
STT 模型訓練	2–3 週
TTS 語音語料對應處理	2 週
TTS 模型訓練（首次）	3–4 週（依硬體）
整合與測試	1–2 週

要不要我先幫你建立第一階段的 Kaldi / Vosk 資料集準備流程與轉檔腳本？