TWI442917B

TWI442917B - 具即時語音回報功能的導盲系統及其方法

Info

Publication number: TWI442917B
Application number: TW101103602A
Authority: TW
Inventors: Yen Lin Chen; chao wei Yu; Chuan Yen Chiang
Original assignee: Univ Nat Taipei Technology
Priority date: 2012-02-03
Filing date: 2012-02-03
Publication date: 2014-07-01
Also published as: US20130222561A1; US8922632B2; TW201332539A

Description

具即時語音回報功能的導盲系統及其方法

本發明是有關於一種具即時語音回報功能的導盲系統及其方法，特別是有關於一種利用影像感測模組配合多核心處理器，以即時提供語音回報之具即時語音回報功能的導盲系統及其方法。

近年來，隨著科技的進步與人文的高度發展，人們越來越重視社會福利，如何讓行動不便者有更便利的社會，已成為越來越重要的課題。以視障者為例，導盲設施的完備，對於盲人行動的便捷性有莫大的助益，例如在紅綠燈處或電梯裡提供聲音警訊，或是在人行道設置導盲磚，但是這些導盲設施仍不夠完善而造成對盲人的不便利。

現今常見的導盲裝置皆有諸多缺點，傳統導盲杖只可探觸身前不遠處地面之障礙物；導盲犬雖可與視障者做些許互動，但其飼養成本較高，非一般人可負擔。其他常見電子導盲裝置，如利用全球定位系統配合語音系統，以告知視障者路況，又或利用預建地標配合語音回報系統，雖較過去導盲裝置更為便利，但都無法對路況作即時的分析回報。

有鑑於此，本發明之發明人思索並設計一種具即時語音回報功能的導盲系統及其方法，以針對現有技術之缺失加以改善，進而增進產業上之實施利用。

有鑑於上述習知技藝之問題，本發明之其中一目的就是在提供一種具即時語音回報功能的導盲系統及其方法，以解決目前無法即時告知使用者路況之問題。

根據本發明之一目的，提出一種具即時語音回報功能的導盲系統，其包含：一影像感測模組、一記憶體、一影像處理模組、一系統處理模組及一音訊模組。影像感測模組感測一影像，影像中包含至少一物件。記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊。影像處理模組對影像進行一影像檢測，以檢測至少一物件，並將檢測之至少一物件由影像中分割擷取，以產生至少一分割影像，並追蹤至少一分割影像，再對至少一分割影像進行一物件偵測，以萃取至少一分割影像之一物件特徵，並對物件特徵進行一物件辨識，以查找記憶體中相對應之訓練樣本，以產生一辨識訊號。系統處理模組執行一人機介面，且接收辨識訊號，並依據辨識訊號查找記憶體中相對應之些語音回報資訊，以產生一音訊訊號。音訊模組根據音訊訊號以輸出一語音音訊，以供一使用者聽取。其中，利用該影像處理模組及該系統處理模組，分別執行影像處理及語音回報，以使該具即時語音回報功能的導盲系統即時回報路況。

較佳地，具即時語音回報功能的導盲系統更可包含一輸入模組，使用者藉由輸入模組輸入一控制指令，以透過系統處理模組控制音訊模組。

較佳地，更包含一暫存記憶體，儲存第t-1擷取畫面之至少一分割影像，影像處理模組接收第t擷取畫面之至少一分割影像，並查找暫存記憶體之第t-1擷取畫面之至少一分割影像進行計算比對，影像處理模組查找第t-1擷取畫面之至少一分割影像進行計算比對後，將第t擷取畫面之至少一分割影像存入暫存記憶體。

較佳地，影像檢測可利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法及連通物件標示法(connected-component labeling)，對影像進行分析計算，以產生至少一分割影像。

較佳地，影像辨識可利用影像處理模組之一弱分類器(Weak Classifiers)及一強分類器(Strong Classifiers)對至少一分割影像進行分析計算，弱分類器利用布斯特(AdaBoost)演算法對影像訊號進行分析計算，以產生一輪廓訊號；強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法對輪廓訊號進行影像分析以形成辨識訊號。

較佳地，影像處理模組可利用一支持向量機(Support Vector Machine,SVM)，對至少一分割影像進行分類，以查找記憶體中所相對應之些訓練樣本。

較佳地，音訊模組可利用適應性差分脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM)，對音訊號進行數位類比轉換，以產生語音音訊。

根據本發明之另一目的，提出一種即時語音回報方法，可應用於具即時語音回報功能的導盲系統，其包含下列步驟：提供一影像感測模組感測一影像，影像中包含至少一物件。藉由一記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊。藉由一影像處理模組對影像進行一影像檢測，以檢測至少一物件，並將檢測之至少一物件由影像中分割擷取，以產生至少一分割影像，並追蹤至少一分割影像，再對至少一分割影像進行一物件偵測，以萃取至少一分割影像之一物件特徵，並對物件特徵進行一物件辨識，以查找記憶體中相對應之些訓練樣本，以產生一辨識訊號。藉由一系統處理模組執行一人機介面，且接收辨識訊號，並依據辨識訊號查找記憶體中相對應之語音回報資訊，以產生一音訊訊號。提供一音訊模組根據音訊訊號以輸出一語音音訊，以供一使用者聽取。其中，利用該影像處理模組及該系統處理模組，分別執行影像處理及語音回報，以使該具即時語音回報功能的導盲系統即時回報路況。

1較佳地，更包含下列步驟：提供一輸入模組，使用者藉由輸入模組輸入一控制指令，以透過系統處理模組控制音訊模組。

較佳地，更包含下列步驟：藉由一暫存記憶體，儲存第t-1擷取畫面之至少一分割影像，影像處理模組接收第t擷取畫面之至少一分割影像，並查找暫存記憶體之第t-1擷取畫面之至少一分割影像進行計算比對，影像處理模組查找第t-1擷取畫面之至少一分割影像進行計算比對後，將第t擷取畫面之至少一分割影像存入暫存記憶體。

較佳地，影像處理模組可利用一支持向量機(Support Vector Machine,SVM)，對至少一分割影像進行分類，以查找記憶體中所相對應之訓練樣本。

承上所述，依本發明之具即時語音回報功能的導盲系統及其方法，其可具有一或多個下述優點：

(1)此具即時語音回報功能的導盲系統及其方法利用多核心處理器，分別進行影像處理及音訊處理，以改善過往利用單核心處理器，影像資訊與音訊資訊需經排序再處理，所造成時間延遲之問題，藉以達到即時語音回報環境情況之功效。

(2)此具即時語音回報功能的導盲系統及其方法，可進一步應用於一嵌入式操作平台，以達到低耗能、體積小、低成本及高效能之目的與功效。

10‧‧‧具即時語音回報功能的導盲系統

11‧‧‧影像感測模組

12‧‧‧記憶體

121‧‧‧訓練樣本

122‧‧‧語音回報資訊

13‧‧‧影像處理模組

131‧‧‧影像檢測

1311‧‧‧分割影像

132‧‧‧物件偵測

1321‧‧‧物件特徵

133‧‧‧物件辨識

1331‧‧‧辨識訊號

134‧‧‧物件追蹤

14‧‧‧系統處理模組

141‧‧‧人機介面

15‧‧‧音訊模組

151‧‧‧語音音訊

16‧‧‧暫存記憶體

17‧‧‧輸入模組

171‧‧‧控制指令

20‧‧‧影像

201‧‧‧物件

30‧‧‧使用者

51‧‧‧微型攝像裝置

52‧‧‧腰帶

521‧‧‧控制介面

53‧‧‧耳機

S71~S75‧‧‧流程步驟

第1圖係為本發明之具即時語音回報功能的導盲系統之方塊圖。

第2圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第一示意圖。

第3圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第二示意圖。

第4圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第三示意圖。

第5圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第四示意圖。

第6圖係為本發明之具即時語音回報功能的導盲系統之第二實施例之示意圖。

第7圖係為本發明之即時語音回報方法之流程圖。

為利貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

本發明之具即時語音回報功能的導盲系統及其方法，主要是可利用多核心處理器，感測環境影像並產生相對應之語音，以告知使用者實際環境之狀況，其可適用於導盲相關裝置，但實際可運用之範疇仍不僅以此所限制。

以下將參照相關圖式，說明依本發明之具即時語音回報功能的導盲系統及其方法之實施例，為使便於理解，下述實施例中之相同元件係以相同之符號標示來說明。

請參閱第1圖，其係為本發明之具即時語音回報功能的導盲系統之方塊圖。如圖所示，具即時語音回報功能的導盲系統10包含：一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15。影像感測模組11感測一影像20，該影像20中包含至少一物件201。其中影像感測模組11可以是感光耦合元件(Charge-coupled Device,CCD)或互補式金屬-氧化層-半導體(Complementary Metal-Oxide-Semiconductor,CMOS)。記憶體12儲存複數筆訓練樣本121及複數筆語音回報資訊122。影像處理模組13對該影像20進行一影像檢測131，以檢測該至少一物件201，並將檢測之該至少一物件201由該影像20中分割擷取，以產生至少一分割影像1311，並追蹤該至少一分割影像1311，再對該至少一分割影像1311進行一物件偵測132，以萃取該至少一分割影像1311之一物件特徵1321，並對該物件特徵1321進行一物件辨識133，以查找該記憶體12中相對應之該些訓練樣本121，以產生一辨識訊號1331。系統處理模組14執行一人機介面141，且接收該辨識訊號1331，並依據該辨識訊號1331查找該記憶體12中相對應之該些語音回報資訊122，以產生一音訊訊號142。其中影像處理模組11可以為數位訊號處理器(digital signal processor,DSP)；系統處理模組14可為以進階精簡指令集機器 (Advanced RISC Machine,ARM)為架構之微處理器(常見如ARMv7或ARMv8)。音訊模組15根據該音訊訊號142以輸出一語音音訊151以供一使用者30聽取。其中，利用該影像處理模組13及該系統處理模組14，分別處理該影像20及該音訊訊號142，以使該系統處理模組14即時發出該語音音訊151。其中可依實際需求增設記憶體12，使影像處理模組13及系統處理模組14分別使用個別記憶體12，以提高運算效能。

請參閱第2圖，其係為本發明之具即時語音回報功能的導盲系統之第一實施例之第一示意圖。如圖所示，具即時語音回報功能的導盲系統10包含：一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15、暫存記憶體16及輸入模組17。相關作動與聯接關係與前述相同，於此不再贅述。

值得注意的是，影像感測模組11感測影像20後，將其轉換為影像訊號並傳送至影像處理模組13。影像處理模組13接收影像訊號後，對該影像進行影像檢測131，並依據影像20中之一物件201進行分析處理，以產生一分割影像1311。分割影像1311即相對於影像20中之物件201。分割影像1311被傳送至暫存記憶體16中；進一步地說，暫存記憶體16儲存第t-1擷取畫面之分割影像1311，當影像處理模組13接收第t擷取畫面之分割影像1311後，讀取暫存記憶體16之第t-1擷取畫面之分割影像1311，並將二者進行比對以確認分割影像1311所對應之物件201實際存在於影像20中，此過程稱為物件追蹤134。分割影像1311經過物件追蹤134以確認所對應之物件201實際存在後，影像處理模組11對分割影像1311進行一物件偵測132，以萃取分割影像1311之物件特徵1321。影像處理模組13依據物件特徵1321，進行一物件辨識133；將物件特徵1321對記憶體12之訓練樣本121進行比對，以產生一辨識訊號1331，並傳送至系統處理模組14。其中訓練樣本121可依實際應用，利用一無線傳輸模組以定期更新其內容。系統處理模組14執行一人機介面141，且依據所接收之辨識訊號1331，對記憶體12之語音回報資訊122進行比對，以產生一音訊訊號142。音訊模組15接收音訊訊號142後，將其轉換為一語音音訊151以供使用者30聽取。音訊模組15可利用自適應差異脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM)的編解碼技術；音訊模組15更可設計連接至一無線耳機，以便於使用者30使用。使用者30可透過一輸入模組17輸入一控制指令171，以控制具即時語音回報功能的導盲系統10，如語音回報之聲音大小或系統開關機之相關操作；輸入模組17更可整合設計為語音控制方式，以便於使用者30操作。

請配合參閱第3圖、第4圖及第5圖。第3圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第二示意圖；第4圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第三示意圖；第5圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第四示意圖。影像20(如第4圖所示)經過影像檢測131利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法或稱Canny演算法以產生一邊緣檢測影像(如第5圖所示)，再透過快速連通物件標示法(connected-component labeling)以形成分割影像1311(如第6圖所示)。更進一步地說，影像檢測131首先將影像20利用Canny演算法進行邊緣檢測，在檢測之後利用快速連通物件標示，進行物件最大面積的擷取，以產生分割影像1311。其中，連通物件標示法(connected-component labeling)為一掃描方式，在經切割後轉換成二值化的影像上，標示所有的連通物件區塊。其包含粗略(coarse)的掃描和精煉(refined)的掃描。在粗略的掃描方面，一個連接成份可能被分成幾個部份，而等價的標籤將被加到那些仍判斷為連接成份上去。然後再針對這些等價的標籤，用精煉的掃描來決定連通分量最後的標示。物件追蹤134概念主要是基於一物體在連續畫面中，其運動軌跡必保持一定之平滑性(smoothness)，因此其運動方向與運動速度變化應反應一定程度之平滑性。可利用路徑連貫性函數(path coherence function)最小化演算法，來計算獲得出現於各幅畫面(frame)中各目標物件的運動軌跡，並以此計算在每一時間點上，出現於監控畫面中的各個目標物件之運動方向、位置、速度等資訊，以達到辨識分割影像1311所對應之物件201是否存在於影像20中。

物件偵測132及物件辨識133可利用一弱分類器及一強分類器，以達到縮短檢測時間與提供高檢測準確率之功效。更進一步地說，物件偵測132使用Haar-like特徵將物件特徵取出再丟入AdaBoost弱分類器以及cascade分類器內訓練。物件辨識133使用旋轉強度之統計長條圖(Histogram of Oriented Gradients)取出物件之特徵，再將其丟入SVM(Supported Vector Machine)之分類器學習，以訓練出更精確之強分類器。其中SVM(Supported Vector Machine)原理與類神經網路相似，其用途多用為分類(classification)，假設已預先設定，何種骨架特徵將會對應到人物，即可在取得動態物件骨架特徵後，經分類過程判斷所取得的不規則物件骨架特徵是否為人物。簡而言之，弱分類器對分割影像1311進行分析，以產生一輪廓訊號，強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法，對該輪廓訊號進行影像分析，以形成辨識訊號1331。

請參閱第6圖，其係為本發明之具即時語音回報功能的導盲系統之第二實施例之示意圖。如圖所示，具即時語音回報功能的導盲系統10可應用於一導盲裝置。導盲裝置包含：一具即時語音回報功能的導盲系統10，一微型攝像裝置51、一腰帶52及一耳機53。具即時語音回報功能的導盲系統10包含：一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15、暫存記憶體16及輸入模組17，且各模組嵌入一基板，以成為一嵌入式系統。相關模組間之作動與前述相似，與此不再贅述。值得注意的是，微型攝像裝置51配合影像感測模組11，以進行影像擷取。影像感測模組11感測影像20後，利用影像處理模組13進行影像感測131、物件追蹤134、物件偵測132及物件辦識133後，產生一辨識訊號1331，系統處理模組14接收辨識訊號1331後，進行數位類比訊號轉換，以輸出一語音音訊151。使用者30可透過腰帶52上之控制介面521連接輸入模組17，以對具即時語音回報功能的導盲系統10進行開關機及聲音大小等控制。其中音訊模組15可以無線或有線方式連接耳機53。

請參閱第7圖，其係為本發明之一語音即時回報方法之流程圖。此語音即時回報方法適用於上述具即時語音回報功能的導盲系統 10，其方法包含下列步驟：步驟S71，提供一影像感測模組感測一影像，影像中包含至少一物件；步驟S72，藉由一記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊；步驟S73，藉由一影像處理模組對影像進行一影像檢測，以檢測至少一物件，並將檢測之至少一物件由影像中分割擷取，以產生至少一分割影像，並追蹤至少一分割影像，再對至少一分割影像進行一物件偵測，以萃取至少一分割影像之一物件特徵，並對物件特徵進行一物件辨識，以查找記憶體中相對應之些訓練樣本，以產生一辨識訊號；步驟S74，藉由一系統處理模組執行一人機介面，且接收辨識訊號，並依據辨識訊號查找記憶體中相對應之些語音回報資訊，以產生一音訊訊號；以及步驟S75，提供一音訊模組根據音訊訊號以輸出一語音音訊，以供一使用者聽取。

其中，利用影像處理模組及系統處理模組，分別處理影像訊號及音訊訊號，以使系統處理模組即時發出語音音訊。

本發明之導盲方法的詳細說明以及實施方式已於前面敘述本發明之具即時語音回報功能的導盲系統時描述過，在此為了簡略說明便不再敘述。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。