🔹 一、目標與原則
- 語音辨識支援:閩南語(台羅/Hokkien)+現代華語
- 語音合成(TTS):能本地朗讀閩南語與古文(如論語、詩經)
- 資料庫結合:《康熙字典》《甘字典》與自製語料庫
- 脫離 OpenAI 雲依賴,使用本地模型與 Gemini/LoRA/Bark 等選項
- 可整合至 Raspberry Pi 或 桌機 Ubuntu
🔹 二、模組架構
模組 | 說明 |
---|---|
Speech-to-Text (STT) | 使用 Whisper.cpp 本地運行語音辨識,支援閩南語調校語音模型 |
Text-to-Speech (TTS) | 使用 Bark / Coqui TTS,本地支援閩南語語音合成(可搭配祭改詞、古音實驗) |
LLM | 可選 Vicuna/Qwen/Taiwan-LLM 本地語言模型,未來切換 LoRA 對話風格 |
辭典比對模組 | 整合康熙字典與甘字典進行對照、詞源標注 |
互動介面 | 可用 CLI、Node-RED、Tkinter GUI 或本地 WebUI |
🔹 三、近期可行步驟(v0.1)
- ✅ 建立虛擬環境與 Whisper.cpp 安裝並支援麥克風錄音與文字輸出
- ✅ 輸入文字後,本地查詢《康熙字典》與《甘字典》對比結果
- ✅ 使用繁體語料與台羅標音詞彙建立簡易台語語料庫
- 🟡 使用 Bark 或 Open JTalk 嘗試 TTS 出聲
- 🟡 整合互動流程(類似 Orsiris 的 CLI 聊天功能)
🔹 四、開源資源與備選方案
功能 | 開源方案 |
---|---|
STT | Whisper.cpp / VOSK |
TTS | Bark / Coqui TTS / Open JTalk |
LLM | llama.cpp / gguf Vicuna / Gemini API |
辭典 | 康熙字典 XML(本地備份)+甘為霖字典 OCR 建檔 |
台語資料 | 教育部閩南語羅馬字詞典 / 自建詞庫 |