TWI405184B

TWI405184B - 嵌入式作業系統平台之隨讀隨聽電子書手持裝置

Info

Publication number: TWI405184B
Application number: TW98139276A
Authority: TW
Inventors: Jhing Fa Wang; Tien Huang Huang
Original assignee: Univ Nat Cheng Kung
Priority date: 2009-11-19
Filing date: 2009-11-19
Publication date: 2013-08-11
Also published as: TW201118856A

Description

嵌入式作業系統平台之隨讀隨聽電子書手持裝置

本發明係有關於一種嵌入式作業系統平台之隨讀隨聽電子書手持裝置，尤指涉及一種整合語音合成(Text-to-Speech,TTS)及人機介面互動，特別係指應用於協助銀髪族隨讀隨聽閱讀且具可攜性之手持裝置者。

近年來，手持式裝置越來越普及化，其主要特點係趨向小體積、低價格、高運算能力且擁有強大之軟體功能。由於技術之進步，許多無法在傳統手持式裝置實現之應用在今日已有被實現之可能性。

惟，目前市面上之有聲電子書服務皆需請專業人士來先行進行錄音，而在印刷之書本上皆需印有具編碼圖案之書籍，其耗費之人力資源成本勢必提高，因此利用性將相對降低許多。此外，為了合成出自然度與清晰度更高之語音，必需採用更多之訓練語料，而平衡語料庫之收集、標記與校正也將耗費大量之人力及時間。故，一般習用者係無法符合使用者於實際使用時之所需。

本發明之主要目的係在於，克服習知技藝所遭遇之上述問題並提供一種整合語音合成(Text-to-Speech,TTS)及人機介面互動，包含數位書籍產生及使用方式，俾以應用於協助銀髪族隨讀隨聽閱讀且具可攜性之手持裝置者。

為達以上之目的，本發明係一種嵌入式作業系統平台之隨讀隨聽電子書手持裝置，係包括一儲存單元，係與一語音合成模組(TTS Synthesis System)連接，用以接收並儲存該語音合成模組合成後之語音檔；一文字辨識元件，係與該儲存單元及一感測元件連接，用以取得該感測元件從實體書籍所辨識出來之數字檔，配合該儲存單元內之語音檔加以光學頁碼辨識，並於辨識完成後轉換為一文字檔輸出；一處理元件，係與該文字辨識元件連接，用以將該文字檔轉換為語音格式；以及一後處理模組(Post-Processing)，係與該處理元件連接，用以對辨識過之字元決定最後辨識結果，並將此最後辨識結果傳送至一輸出單元供語音播放輸出。

請參閱『第1圖』所示，係本發明之整體架構示意圖。如圖所示：本發明係一種嵌入式作業系統平台之隨讀隨聽電子書手持裝置，係包括一儲存單元10、一文字辨識元件11、一處理元件12及一後處理模組(Post-Processing)13所構成。其特徵在於整合語音合成(Text-to-Speech,TTS)及人機介面互動，可兼顧傳統紙本書籍及電子書之優點，俾以應用於協助銀髪族隨讀隨聽閱讀。

上述儲存單元10係與一語音合成模組(TTS Synthesis System)2連接，用以接收並儲存該語音合成模組2合成後之語音檔，其中，該語音檔係包括語音資料及頁碼對應表之多媒體數位化文章內容。

該文字辨識元件11係與該儲存單元10及一感測元件 3連接，用以取得該感測元件3從實體書籍7所辨識出來之數字檔，配合該儲存單元10內之語音檔加以光學頁碼辨識，並於辨識完成後轉換為一文字檔輸出。

該處理元件12係與該文字辨識元件11連接，用以將該文字檔轉換為語音格式。

該後處理模組13係與該處理元件12連接，用以對辨識過之字元決定最後辨識結果，並將此最後辨識結果傳送至一輸出單元4供語音播放輸出。以上所述，係構成一全新之嵌入式作業系統平台之隨讀隨聽電子書手持裝置1。

當運用時，本發明係採用三星公司開發之ARM920T處理器(S3C2440A)作為該處理元件12，並以光學文字辨識系統(Optical Character Recognition,OCR)作為該文字辨識元件11，使用Linux環境之作業系統實作本發明之隨讀隨聽電子書(LR-Book)手持裝置1。首先，以針對銀髮族設計適合之使用者操作介面，將內容先經由人性化之語音合成模組2合成，而使用者可透過USB傳輸介面存取合成後之多媒體數位化文章內容並下載至該LR-Book手持裝置1之儲存單元10中。最後，透過該文字辨識元件11取得目前正在閱讀之實體書籍7內容範圍，配合該儲存單元10內之多媒體數位化文章內容，使文章以該輸出單元4語音輸出以達到閱讀之目的。於其中，該輸出單元4係為一喇叭。

有鑑於本發明係可應用於協助銀髮族隨讀隨聽閱讀，因此本裝置之特徵乃包含數位書籍產生及使用方式。首先，針對該數位書籍產生，本裝置可透過人工編輯或光學自動辨識建檔，再將書籍之數位內容以文字轉語音處理，產生語音檔，即產生該書籍之語音資料與頁碼對應表。於其中，係以文字與韻律分析進行文章內容之斷句、斷詞與字轉音動作後，再將每個發音單位之前後文資訊送至該語音合成模組進行語音合成。針對該使用方式，本裝置係先將語音資料及頁碼對應表放置在本裝置之儲存單元中，使用者只需將本裝置之光學辨識感測元件對準實體書籍之頁碼並按下掃描鍵，即可完成頁碼辨識，並接著播放該頁之語音內容。

請參閱『第2圖』所示，係本發明之語音合成模組架構示意圖。如圖所示：本發明採用之語音合成模組2係為一基於隱藏式馬可夫模型之語音合成器(HMM-based Speech Synthesis System,HTS)，其包含一訓練部(Training Part)20與一合成部(Synthesis Part)21。其中在該訓練部20，係由所收集之聲音語料201估算音韻參數及頻譜參數，而該聲音語料201對應之文字則由一文字分析器202分析出對應之音素序列(Label)。繼之，擷取該頻譜參數與該音韻參數，並將此頻譜參數經過梅爾倒頻譜(MFC)之聲音合成技術(Vocoding Technique)，提取梅爾倒頻譜係數(MFCC)後，與該音韻參數及該音素序列結合作為一隱藏式馬可夫模型之訓練資料(Training Of HMM)203，再配合上下文相關之問題集，訓練狀態合併分裂樹，產生出上下文相關之HMM模型與音長模型204；在該合成部21，所輸入之文字經由同樣之文字分析器211分析出音素序列以及所對應之上下文訊息，透過分類與回歸樹之挑選，選出對應之HMM模型序列，由HMM產生出音韻參數與頻譜參數，再將此音韻與頻譜參數以一合成濾波器212合成為語音訊號輸出。

上述基於HMM之語音合成器主要核心技術係包括：(1)基於梅爾倒頻譜之聲音合成技術，包含梅爾倒頻譜係數之分析，以及使用梅爾對數頻譜近似濾波器(Mel-log Spectrum Approximation Filter,MLSA Filter)直接將梅爾倒頻譜係數合成回語音訊號；(2)從HMM模型產生語音參數時，係使用考慮參數動態特性之參數生成演算法；以及(3)基於多空間機率分佈-隱藏式馬可夫模型(Multi-Space probability Distribution HMM,MSD-HMM)，考慮基頻僅在濁音段有值，而在清音段沒有定義這樣之特性，使參數之維度在濁音段為1，清音段為0。

請參閱『第3圖~第6B圖』所示，係分別為本發明之硬體嵌入式系統架構示意圖、本發明比較NAND FLASH與NOR FLASH之差異示意圖、本發明之LM1117規格書示意圖、本發明設計穩壓電路之範列一示意圖及本發明設計穩壓電路之範列二示意圖。如圖所示：係本裝置之硬體實現，其包含穩壓電路、額外之記憶體單元(SDRAM、NAND Flash)、音效控制電路、攝影鏡頭控制電路、串列傳輸介面電路、USB介面傳輸電路、及鍵盤控制電路，如第3圖所示。其中在此記憶體單元部份，本發明係採用NAND FLASH當作整體LR-BOOK手持裝置之記憶體單元，並捨棄掉NOR FLASH，其說明如第4圖所示。而在穩壓電路方面係採用LM1117，因為整體系統需使用到多種不同之電壓，所以需透過穩壓器來調整出不同之電壓值，但因為穩壓器並沒有生產出令使用者相符之電壓值範圍，故本發明係自行設計穩壓電路，其範例如第5圖及第6 A、6B圖所示，利用第5圖所提供之規格書設計出達到本發明所需電壓之電壓值。其中，該第6A圖之範例係可將5伏特(V)之電壓穩壓至2.8V，該第6B圖之範例則可將3.3V之電壓穩壓至1.3V，其計算方式如下所示：

請參閱『第7圖及第8圖』所示，係分別為本發明對各家嵌入式作業系統之比示意圖、及本發明LR-BOOK手持裝置之操作流程示意圖。如圖所示：承上所述，本裝置係採用Linux作業系統為其開發環境，與Plam、Win CE及Symbian等各家嵌入式作業系統之優缺點比較如第7圖所示。而在本裝置之整體操作流程如第8圖所示，係以光學辨識感測器作為感測元件3，由該感測元件3從實體書本上擷取圖像，再透過文字辨識元件11以二值化、各數字分離、特徵擷取及數字辨識等處理，取得從實體書籍上所辨識出來之數字檔，並對照從儲存單元10內事先利用TTS所合成出之語音資料中搜尋對應之語音檔，最後透過喇叭將其聲音播放出來。

請參閱『第9圖』所示，係本發明一較佳實例之整體架構示意圖。如圖所示：於一較佳實例中，本發明係包含一有聲書產生器5供語音檔產生、以及一基於ARM920T開發之有聲筆裝置6，並在Linux環境開發光學辨識及音檔對應、播放功能。

上述有聲書產生器5係包含一文字與韻律分析單元50及一語音合成模組51，用以透過該文字與韻律分析單元50 將文章內之語句轉換為具有發音與結構資訊之文稿資訊，再透過此基於HMM之語音合成模組51將語句內容轉換為語音檔。

該有聲筆裝置6係包含一文字辨識元件60、一儲存單元61及一音檔對應/播放單元62，且該音檔對應/播放單元62係包含一ARM920T處理器(S3C2440A)及一後處理模組。用以透過該有聲筆裝置6之資料傳輸介面，將合成後之語音檔存放至該儲存單元61中。

當辨識時，係透過該文字辨識元件60取得目前正在閱讀之實體書籍7內容範圍(或電子書全文)，從該實體書籍所辨識出來之數字檔，配合該儲存單元61內之語音檔(即包括語音資料及頁碼對應表之多媒體數位化文章內容)加以光學頁碼辨識，並於辨識完成後轉換為一文字檔且輸出至該音檔對應/播放單元62，將該文字檔轉換為語音格式，且對辨識過之字元決定最後辨識結果後，俾以將此最後辨識結果之文章透過一喇叭8以語音輸出，進而達到隨讀隨聽之目的。

上述經由本發明所開發之語音合成模組中，為採用基於HMM之語音合成器。其在語義不可預測句子(Semantic Unpredictable Sentence,SUS)聽寫之測試中，平均受測者之正確率係可達到96.4%；而在針對不同之題材短文測試中，主觀評測之自然度平均意見得分(Mean Opinion Score,MOS)亦可達到3.6分。由此可知，本裝置已可合成出流暢及可理解之語音。同時合成部份之語音模型所佔記憶體空間極小，故在可攜性及適應性上更為其發展優勢。

藉此，本發明係提出創意兼顧傳統紙本書籍及電子書之優點，可協助銀髮族隨讀隨聽閱讀，利用整合語音合成、光學頁碼辨識及系統單晶片(System on Chip,SoC)軟硬體共同開發，可減少人力與時間之支出並增加可利用性。

綜上所述，本發明係一種嵌入式作業系統平台之隨讀隨聽電子書手持裝置，可有效改善習用之種種缺點，係整合語音合成及人機介面互動，包含數位書籍產生及使用方式，可合成出流暢及可理解之語音並具可攜性，俾以應用於協助銀髪族隨讀隨聽閱讀之目的，進而使本發明之產生能更進步、更實用、更符合使用者之所須，確已符合發明專利申請之要件，爰依法提出專利申請。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍；故，凡依本發明申請專利範圍及發明說明書內容所作之簡單的等效變化與修飾，皆應仍屬本發明專利涵蓋之範圍內。

1‧‧‧隨讀隨聽電子書手持裝置

10‧‧‧儲存單元

11‧‧‧文字辨識元件

12‧‧‧處理元件

13‧‧‧後處理模組

2‧‧‧語音合成模組

20‧‧‧訓練部

201‧‧‧聲音語料

202‧‧‧文字分析器

203‧‧‧隱藏式馬可夫模型之訓練資料

204‧‧‧HMM模型與音長模型

21‧‧‧合成部

211‧‧‧文字分析器

212‧‧‧合成濾波器

3‧‧‧感測元件

4‧‧‧輸出單元

5‧‧‧有聲書產生器

50‧‧‧文字與韻律分析單元

51‧‧‧語音合成模組

6‧‧‧有聲筆裝置

60‧‧‧文字辨識元件

61‧‧‧儲存單元

62‧‧‧音檔對應/播放單元

7‧‧‧實體書籍

8‧‧‧喇叭

第1圖，係本發明之整體架構示意圖。

第2圖，係本發明之語音合成模組架構示意圖。

第3圖，係本發明之硬體嵌入式系統架構示意圖。

第4圖，係本發明比較NAND FLASH與NOR FLASH之差異示意圖。

第5圖，係本發明之LM1117規格書示意圖。

第6A圖，係本發明設計穩壓電路之範列一示意圖。

第6B圖，係本發明設計穩壓電路之範列二示意圖。

第7圖，係本發明對各家嵌入式作業系統之比示意圖。

第8圖，係本發明LR-BOOK手持裝置之操作流程示意圖。

第9圖，係本發明一較佳實例之整體架構示意圖。