甘字典與康熙字典比對工具/工作流程設計範本

1. 系統目標

建立一套可交互查詢《甘為霖台語字典》與《康熙字典》的數位平台或腳本工具,支援下列功能:

  • 根據台語詞查找對應字義、音讀、典籍出處
  • 自動比對甘字典的白話用字與康熙字典的古籍釋義
  • 支援讀音轉換(白話音 ↔ 文讀音/中古音)與註解串接

🧰 開發工具建議

模組功能用途技術建議
甘字典 OCR將掃描或圖片檔轉為可查詢格式使用 Tesseract + 人工校對
康熙字典 DB將開源的康熙字典 JSON 或 XML 整理為可查詢資料庫使用 MongoDB / SQLite
前端查詢介面提供使用者輸入台語詞或字進行對照查詢Flask / Node.js + Vue.js
語音模組支援台語音讀顯示與轉換臺羅拼音 ↔ 白話音 ↔ 閩音 對照表
交叉索引引擎對照兩書中的異文、異音、異義自訂 Python 比對邏輯(見下)

📈 工作流程範本

Step 1:詞目查詢與辨識

  1. 使用者輸入詞語(例:「膏」)
  2. 系統查找甘字典中是否有此字,回傳音讀、詞義、台語例句
  3. 同時查找康熙字典釋義,擷取其部首、解釋、出處(《說文》《玉篇》《廣韻》)

Step 2:語音與義項對比

  • 判斷兩者詞義是否一致、相異或延伸
  • 若甘字典中語義為方言特用,標註“白話化用”或“延伸義”
  • 加上「文/白對照」,顯示台語讀音與中古音、上古音對照表(可連結音韻資料庫)

Step 3:輸出與標記

  • 將對照結果標示出異同點,例如:
diffCopyEdit【膏】
- 甘字典:ko — 豬油,例:膏仔飯
- 康熙字典:膏,脂也。《說文》:“脂也,從肉高聲。”

📌 文化延伸:白話「膏」專指食用豬油,古義泛指脂肪。

Step 4:自動化建議(可選)

  • 每日 batch 將詞彙更新,找出甘字典中無對應康熙解釋之用字(為俗用或新詞)
  • 支援 Excel 匯出、自訂標籤(如“台日借詞”、“閩南俗寫”等)

🔗 進階擴充方向

模組說明
《台日大辭典》比對探討台語受日語影響的詞彙演變
《說文解字》+中研院語音庫擴充古音與構形學分析
台羅/白話音轉換引擎整合 g0v 台語羅馬字輸入法 等模組
OCR 錯字訓練模組專對甘字典頁面中老字體(例:𪜶、𥍉)建模訓練