TWI404049B

TWI404049B - 語音導航設備及語音導航方法

Info

Publication number: TWI404049B
Application number: TW99127522A
Authority: TW
Inventors: Yi-Hua Gong; Guo-Zhi Ding; Chi Ming Lu
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2010-08-18
Filing date: 2010-08-18
Publication date: 2013-08-01
Also published as: TW201209803A

Description

語音導航設備及語音導航方法

本發明涉及一種導航技術，特別是語音導航設備及語音導航方法。

當前，由於民用GPS(Global Position System，全球定位系統)技術的開放與發展，GPS技術已經越來越多的應用在民用的定位和導航中。當前大部分的車載導航設備都能夠較為準確的指示當前的位置，並根據道路情況顯示路線，極大的方便了駕駛者。

但是，這些傳統的導航設備卻很難解決交互的問題。例如，駕駛者為了設置一個目的導航地不得不找個地方停下來，用手輸入和查找目的地位置，這使得目的地導航的便捷性打了折扣。

為了解決上述問題，具有語音識別功能的語音導航設備應運而生。所述語音識別是將人類語音中的辭彙內容轉換為電子設備的晶片可識別的輸入。這樣，駕駛者不需要用手輸入和查找目的地位置，而只需發出語音指令即可實現導航設備自動向目的地導航的目的。然而，傳統的具有語音識別功能的語音導航設備只能識別一些特殊的地名，如世界之窗、歡樂谷等，而不能對常規地名進行語音識別。

此外，傳統的語音識別技術在實現將人類的語音轉換為電子設備的晶片可識別的輸入時所使用的語法規則是將語音指令中的一句話作為一個整體跟模型庫中的所有內容匹配一遍。例如，駕駛者發出的語音指令為“A市B區C路D號”，則原始的語法規則是將“A市B區C路D號”作為一個整體，一次性與地名資料庫(/模型庫)中所有可能的地名組合匹配一遍。於是，當模型庫的規模很大時，進行匹配識別的時間就會很長，嚴重浪費系統資源及時間。

鑒於以上內容，有必要提供一種語音導航設備及語音導航方法，其將輸入的語音資料進行分段，採用多段識別的方法與地名資料庫中的內容進行匹配，極大的減少了匹配識別的時間。

一種語音導航設備，包括語音接收單元，用於接收關於導航目的地的語音資料V。該語音導航設備還包括：關鍵字資料庫，其中儲存有n個預設的關鍵字，其中，n為大於1的自然數；地名資料庫，其中儲存有地名資訊的搜索樹；語音識別單元，用於根據上述關鍵字資料庫中儲存的關鍵字對語音資料V進行分段，以生成n段語音資料V_i(i=1~n)，並採用多段識別的方法與地名資料庫中的地名資訊的搜索樹進行匹配，以將上述語音資料V轉換為該語音導航設備可以識別的輸入形式；及電子地圖，用於根據上述識別的輸入形式，視覺化地顯示出導航目的地的位置與路線。

一種語音導航方法，包括：(a)語音導航設備接收關於導航目的地的語音資料V；(b)從一個關鍵字資料庫中獲取n個預設的關鍵字，其中，n為大於1的自然數；(c )根據上述關鍵字對語音資料V進行分段，以生成n段語音資料V_i(i=1~n)；(d)利用上述n段語音資料V_i(i=1~n)，採用多段識別的方法與地名資料庫中的地名資訊的搜索樹進行匹配，以將上述語音資料V轉換為該語音導航設備能夠識別的輸入形式；及(e)根據上述轉換成的輸入形式，在語音導航設備的電子地圖上視覺化地顯示出導航目的地的位置與路線。

本發明提供的語音導航設備及語音導航方法將輸入的語音資料進行分段，採用多段識別的方法與地名資料庫中的內容進行匹配，極大的減少了匹配識別的時間。

參閱圖1所示，係本發明語音導航設備較佳實施例的硬體架構圖。

該語音導航設備1包括語音接收單元10、語音識別單元11、關鍵字資料庫12、地名資料庫13及電子地圖14。所述語音接收單元10可以是麥克風，用於接收外界的語音資料V。該語音資料V係駕駛者發出的導航目的地的語音命令。本實施例中，該語音資料V為“A市B區C路D號”的格式。所述語音識別單元11包括多個功能模組(詳見圖3)，用於根據上述關鍵字資料庫12中儲存的n個關鍵字對語音資料V進行分段，以生成n段語音資料V_i(i=1~n)，之後採用多段識別的方法與地名資料庫13中的地名資訊的搜索樹進行匹配，以將上述語音資料V轉換為該語音導航設備1可以識別的輸入形式，並在電子地圖14中視覺化地顯示出導航目的地的位置與路線。其中，n為大於1的自然數。

本實施例中，所述關鍵字資料庫12中儲存著關鍵字的波形圖。所述關鍵字可以是用戶設定的。本實施例中，所述關鍵字包括“市”、“區”、“路”、及“號”。

參閱圖2，係地名資料庫13中儲存的地名資訊的搜索樹的示意圖。本實施例中，該搜索樹的第一級節點，即根節點為省級單位，如廣東省。該搜索樹的第二級節點為市級單位，如廣東省所包括的廣州市、深圳市、珠海市、及東莞市等。該搜索樹的第三級節點為區級單位，如深圳市所包括的羅湖區、南山區、及福田區等。該搜索樹的第四級節點為每個區的各條路，如寶安區所包括的油松路、建設路、人民路、及東環二路等。該搜索樹的最後一級節點為每個路上的各個號，如東環二路1號、東環二路2號等。

此外，所述語音導航設備1還包括用於執行語音識別單元11中各功能模組的中央處理器(central processing unit)15，以及用於儲存語音識別單元11中各功能模組的儲存單元16，如硬碟等。

參閱圖3所示，係本發明語音導航設備1較佳實施例中語音識別單元11的功能模組圖。所述語音識別單元11包括關鍵字獲取模組110、分割模組111、地名資訊獲取模組112、匹配及權值計算模組113、路徑選擇模組114、地名整合模組115、及定位模組116。

所述關鍵字獲取模組110用於從上述關鍵字資料庫12中獲取關鍵字的波形圖。

所述分割模組111用於將語音資料V中每個字的波形與關鍵字的波形進行比對，當語音資料V中某個字的波形與其中一個關鍵字的波形相匹配時，從該字之後對語音資料V進行分割，從而生成n段語音資料V_i(i=1~n)。參閱圖4所示，關鍵字資料庫12中儲存有關鍵字“市”、“區”、“路”、及“號”的波形圖。該分割模組111從語音資料V中第一個字的波形開始與上述幾個關鍵字的波形進行比對，當語音資料V中某個字的波形與關鍵字“市”相匹配時，該分割模組111在該字之後對語音資料V進行分割。繼續地，所述分割模組111將語音資料V中其餘字的波形與餘下的幾個關鍵字的波形進行比對，當語音資料V中某個字的波形與關鍵字“區”的波形相匹配時，所述分割模組111在該字之後進行分割。如此直至語音資料V中每個字的波形都與上述關鍵字進行了匹配。

所述地名資訊獲取模組112用於從地名資料庫13中獲取地名資訊的搜索樹。

所述匹配及權值計算模組113用於從該搜索樹的根節點開始執行遍曆操作與上述n段語音資料中的第一段語音資料V₁進行匹配，計算該根節點的每個子節點與上述語音資料V₁的匹配度的權值，作為每個子節點的權值，並將該每個子節點的權值與一個預設的閾值相比對，並獲取權值大於上述閾值的所有子節點。之後，該匹配及權值計算模組113繼續從上述權值大於閾值的所有子節點開始執行遍曆操作與下一段語音資料V_{next(next=2~n)}進行匹配、計算權值、與預設閾值相比對，獲取權值大於閾值的所有子節點。如此直至第n段語音資料V_n都已經與上述搜索樹進行了匹配。

所述路徑選擇模組114用於計算所獲取的所有子節點組成的每一條路徑的權值總和，並選擇其中權值總和最大的一條路徑。本實施例中，每一條路徑的權值總和的計算公式為：

其中，OverallScore為路徑的權值總和ConfidenceValue為組成該條路徑的每個子節點的權值；W_i為搜索樹的每一層級的權值。其中，搜索樹中各個層級的權值呈遞減狀態。每個子節點的權值代表該節點與語音資料V_i(i=1~n)的相似度。權值計算方法可以是將語音資料V_i(i=1~n)與一個語言模型(Language Mode)作聲學匹配得出。例如，參照圖2所示，由深圳市寶安區東環二路2號所組成的路徑中，假設“深圳市”這個節點的權值為0.9，“寶安區”這個節點的權值為0.7，“東環二路”這個節點的權值為0.8，“2號”這個節點的權值為0.9。在搜索樹中，市級單位這一層級，即搜索樹的第二級節點的權值可以設定為8；區級單位這一層級，即搜索樹的第三級節點的權值可以設定為4；路級單位這一層級，即搜索樹的第四級節點的權值可以設定為2；號級單位這一層級，即搜索樹的第五級節點的權值可以設定為1。於是，由深圳市寶安區東環二路2號所組成的路徑的權值總和為：Overall-Score=0.9*8+0.7*4+0.8*2+0.9*1=12.5。

所述地名整合模組115用於整合上述權值最大的路徑所代表的地名資訊，如整合成A市B區C路D號的形式。

所述定位模組116用於根據上述地名資訊在電子地圖中進行定位，以視覺化地顯示出導航目的地的位置與路線。

參閱圖5所示，係本發明語音導航方法較佳實施例的流程圖。

步驟S10，語音接收單元10接收外界的語音資料V。該語音資料V是駕駛者發出的導航目的地的語音命令。本實施例中，該語音資料V為“A市B區C路D號”的格式。

步驟S11，關鍵字獲取模組110從關鍵字資料庫12中獲取關鍵字的波形圖。

步驟S12，分割模組111將語音資料V中每個字的波形與關鍵字的波形進行比對，當語音資料V中某個字的波形與其中一個關鍵字的波形相匹配時，從該字之後對語音資料V進行分割從而生成n段語音資料V_i(i=1~n)。

步驟S13，地名資訊獲取模組112從地名資料庫13中獲取地名資訊的搜索樹。

步驟S14，匹配及權值計算模組113從上述n段語音資料中獲取第一段語音資料V₁。

步驟S15，匹配及權值計算模組113從上述搜索樹的根節點開始執行遍曆操作與該第一段語音資料V₁進行匹配，計算該根節點的每個子節點與語音資料V₁的匹配度的權值，作為每個子節點的權值。

步驟S16，匹配及權值計算模組113將該每個子節點的權值與一個預設的閾值相比對，並獲取權值大於上述閾值的所有子節點。

步驟S17，匹配及權值計算模組113判斷是否還有下一段語音資料V_{next(next=2~n)}。若還有下一段語音資料V_{next(next=2~n)}，則流程進入步驟S18。否則，若不存在下一段語音資料V_{next(next=2~n)}，則流程轉向步驟S21。

在步驟S18中，匹配及權值計算模組113從上述n段語音資料中獲取下一段語音資料V_{next(next=2~n)}。

步驟S19，匹配及權值計算模組113從上述獲取的權值大於閾值的每個子節點開始執行遍曆操作與下一段語音資料V_{next(next=2~n)}進行匹配，計算該每個子節點的所有子節點的權值。

步驟S20，匹配及權值計算模組113將上述所有子節點的權值與一個預設的閾值相比對，並獲取權值大於上述閾值的所有子節點。步驟S20之後重複執行步驟S17。

在步驟S21中，路徑選擇模組114計算所獲取的所有子節點組成的每一條路徑的權值總和，並選擇其中權值總和最大的一條路徑。本實施例中，每一條路徑的權值總和的計算公式為：

其中，OverallScore為路徑的權值總和；ConfidenceValue為組成該條路徑的每個位元組點的權值；W_i為搜索樹的每一層級的權值。其中，搜索樹中各個層級的權值呈遞減狀態。其中，搜索樹中各個層級的權值呈遞減狀態。每個子節點的權值代表該節點與語音資料V_i(i=1~n)的相似度。權值的計算方法可以是將語音資料V_i(i=1~n)與一個語言模型(Language Mode)作聲學匹配得出。

步驟S22，地名整合模組115整合上述權值最大的路徑所代表的地名資訊，如整合成A市B區C路D號的形式。

步驟523，定位模組116根據上述地名資訊在電子地圖中進行定位，以視覺化地顯示出導航目的地的位置與路線。

最後所應說明的是，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照以上較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

1‧‧‧語音導航設備

10‧‧‧語音接收單元

11‧‧‧語音識別單元

12‧‧‧關鍵字資料庫

13‧‧‧地名資料庫

14‧‧‧電子地圖

15‧‧‧中央處理器

16‧‧‧儲存單元

110‧‧‧關鍵字獲取模組

111‧‧‧分割模組

112‧‧‧地名資訊獲取模組

113‧‧‧匹配及權值計算模組

114‧‧‧路徑選擇模組

115‧‧‧地名整合模組

116‧‧‧定位模組

圖1係本發明語音導航設備較佳實施例的硬體架構圖。

圖2係本發明語音導航設備較佳實施例中一個地名資訊的搜索樹的示意圖。

圖3係本發明語音導航設備較佳實施例中語音識別單元的功能模組圖。

圖4係本發明語音導航設備較佳實施例中利用關鍵字對語音資料進行分割的示意圖。

圖5係本發明語音導航方法較佳實施例的流程圖。