2016年11月16日 星期三

TwESC 台語朗讀語音標記資料庫


TwESC 台語朗讀語音標記資料庫



ForPA 拼音:

https://dl.dropboxusercontent.com/u/33089565/ryTwESC2017/ver3/ver31.lbb.CombineXXX.html

台羅拼音:

https://dl.dropboxusercontent.com/u/33089565/ryTwESC2017/ver3/ver31.lbb.CombineXXX%E5%8F%B0%E7%BE%85.html


TIMIT 英語朗讀語音標記資料庫


surfForm
https://dl.dropboxusercontent.com/u/33089565/ryTimit2017/timit_realPron.lb.wpAlign.ruby.html


TIMIT 英語語音資料庫於 1990 年代末期(198?)出現, 距今約30年,一個世代,
30年來它一直屹立不搖,至今仍是語音界最重要的幾個資料庫之一。
我們想仿照它的形式及規模,創建一個台語語音資料庫,來做為台語語音辨認研究的基礎,於是就有了 TwESC 這個台語朗讀式的語音資料庫出現。

TwESC 台語資料庫原是台灣的教育部舉辦台語朗讀比賽所選用的眾多台文作家所寫之短文,聘請專人統一格式及用字來改寫之後,聘請專人進錄音室所錄製的10幾小時的【乾淨語音】(clean speech),由我們的研究團隊(中研院資訊所高明達、長庚資訊系呂仁園、清華統計所江永進、華碩公司呂道誠) 對其做斷音、連結、標音、校正之後,所得的產品。據此產生台語發音辭典、聲音模型、語言模型,以近10年來最受歡迎的語音辨認開源工具 Kaldi 語音辨認引擎以及 HMM+DNN 架構,把台語連續語音辨識之音節錯誤率做到 20% 以下,文字之錯誤率做到 4% 以下。

沒有留言:

張貼留言