TWI697890B

TWI697890B - 語音校正系統及語音校正方法

Info

Publication number: TWI697890B
Application number: TW107135879A
Authority: TW
Inventors: 陳冠中; 宋志偉; 簡佑丞; 陳怡玲
Original assignee: 廣達電腦股份有限公司
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2020-07-01
Also published as: US20200118561A1; TW202015034A; US10885914B2; CN111048098B; CN111048098A

Abstract

一種語音校正系統，包含：一儲存裝置及一處理裝置。儲存裝置用以儲存一第一資料庫。處理裝置包含：一音訊接收器、一語音辨識引擎、一運算模組以及一判斷模組。音訊接收器接收多個輸入語音。語音辨識引擎辨識此些輸入語音，並產生對應每個此些輸入語音所對應的多個候選字彙及每個此些候選字彙對應到的一字彙機率。運算模組將所有此些候選字彙中相同者所各自對應到的字彙機率執行一特定運算，以對應產生多個運算結果。判斷模組判斷每個此些運算結果是否大於一分數門檻值，並將大於分數門檻值的至少一輸出結果儲存至第一資料庫。

Description

語音校正系統及語音校正方法

本發明是關於一種接收語音的系統，特別是關於一種語音校正系統及語音校正方法。

現有的語音辨識模型，例如Google Speech API，係透過大量語音資料訓練而產生，但每個人的口音略有不同因而導致錯誤的辨識結果。

此外，現有的目前語音互動模式，多使用特定的指令進行溝通與互動。但往往指令會因為上述提及的口音不同，而發生辨識錯誤，造成使用者難以實行語音互動功能。

舉例來說，Android系統使用特定的指令，如”OK Google”作為開啟Google搜尋引擎的預設語音。當使用者說出”OK Google”而被語音辨識模型辨識為”OK Google”語音時，由於與預設的”OK Google”指令相同，因此開啟Google搜尋引擎。在上述流程中若因使用者口音的不同導致語音辨識模型辨識成其他的語音，例如辨識成”OK Geegle”，則由於與與預設的”OK Google”指令不同，因此無開啟Google搜尋引擎。

因此，上述現有方式仍有待加以進一步改進。

為了解決上述的問題，本揭露內容之一態樣提供了一種語音校正系統，包含：一儲存裝置以及一處理裝置。儲存裝置用以儲存一第一資料庫。處理裝置包含：一音訊接收器、一語音辨識引擎、一運算模組以及一判斷模組。音訊接收器用以接收複數個輸入語音。語音辨識引擎用以辨識此些輸入語音，並產生對應每個此些輸入語音所對應的複數個候選字彙及每個此些候選字彙對應到的一字彙機率。運算模組用以將所有此些候選字彙中相同者所各自對應到的字彙機率執行一特定運算，以對應產生複數個運算結果。判斷模組用以判斷每個此些運算結果是否大於一分數門檻值，並將大於分數門檻值的至少一輸出結果儲存至第一資料庫。

本發明之另一態樣係於提供一種語音校正方法包含：接收複數個輸入語音；辨識該些輸入語音，並產生對應每個該些輸入語音所對應的複數個候選字彙及每個該些候選字彙對應到的一字彙機率；將所有該些候選字彙中相同者所各自對應到的該字彙機率執行一特定運算，以對應產生複數個運算結果；以及判斷每個該些運算結果是否大於一分數門檻值，並將大於該分數門檻值的至少一輸出結果儲存至一第一資料庫。

本發明所示之語音校正系統及語音校正方法，能在輸入語音指令時，隨著使用者口音不同，進行新增語音的辨識，可以提供不同使用者客製化的語意辨識效果，此外，透過不同指令而將對應的輸出結果儲存在不同的資料庫，可在辨識新增語音時，提升辨識使用者真正想表達的語意之效率。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參照第1~2圖，第1圖係依照本發明一實施例繪示一種語音校正系統100之方塊圖。第2圖係根據本發明之一實施例繪示一種語音校正方法200之流程圖。

如第1圖所示，語音校正系統100包含一儲存裝置10及一處理裝置20。其中，儲存裝置10用以儲存一第一資料庫DB1，處理裝置20包含一音訊接收器22、語音辨識引擎24、運算模組26及判斷模組28。

於一實施例中，儲存裝置10可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。於一實施例中，儲存裝置10用以儲存資料庫DB1(如第1圖所示)。資料庫DB1可用以儲存至少一預設指令，如”open fridge”，用以開啟特定之應用程式。

於一實施例中，音訊接收器22用以接收多個語音指令。於一實施例中，音訊接收器22可以是一麥克風或其他具有收音功能的裝置。於一實施例中，音訊接收器22可以放置於處理裝置20的外部。

於一實施例中，處理裝置20可以是任何具有運算功能的電子裝置。於一實施例中，語音辨識引擎24、運算模組26及判斷模組28可以各別或合併由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)或一邏輯電路來實施。

於一實施例中，請參第2圖，於步驟210中，音訊接收器22用以接收複數個輸入語音。於一實施例中，語音校正系統100透過使用者介面請使用者對著音訊接收器22說出5次指令，例如“open fridge”，音訊接收器22接收此些輸入語音。所謂指令係指系統作為致能特定動作之預設語音，如上述“open fridge”，可設定為開啟特定App。

於一實施例中，此些輸入語音代表相同意涵的一待校正語意，如上述使用者所說的5次“open fridge”，即使發音不一定每次都標準，但意涵都是開啟(enable)一語音應用程式，例如用以喚起冰箱管理應用程式。

於步驟220中，語音辨識引擎24用以辨識此些輸入語音，並產生對應每個此些輸入語音所對應的至少一候選字彙及每個此些候選字彙對應到的一字彙機率。於一實施例中，語音辨識引擎24可以採用已知的語音辨識軟體以實現之，故此處不再贅述之。

於一實施例中，語音辨識引擎24辨識其中一次輸入語音(例如使用者第一次之輸入語音，即發出“open fridge”指令之輸入語音)，辨識結果如至少一候選字彙例如為“open French”、 “open fridge”及“open in French”等，而該些候選字彙所對應之字彙機率分別為：“open French” (候選字彙)所對應的字彙機率為0.95，“open fridge”(候選字彙)所對應的字彙機率為0.92，“open in French”(候選字彙)所對應的字彙機率為0.89。

換句話說，語音辨識引擎24會逐一辨識每一個輸入語音，每次辨識會產生至少一候選字彙及每一至少一候選字彙所對應的字彙機率。

於步驟230中，運算模組26用以將所有此些候選字彙中相同者所各自對應到的字彙機率執行一特定運算，以對應產生複數個運算結果。

舉例來說，語音辨識引擎24辨識使用者5次之輸入語音之辨識結果，其中有3次之辨識結果包含“open fridge” 之候選字彙，有5次辨識結果包含“open French” 之候選字彙，有3次辨識結果包含“open in French之候選字彙”，有2次辨識結果包含“open cartridge” 之候選字彙。此時，運算模組26將相同的候選字彙所對應的字彙機率進行相加，即得到“open fridge”為2.46(5次辨識結果中包含3次，此3次辨識結果分別對應的字彙機率分別為0.82、0.81、0.83，運算模組26將此3個值相加所得的值為2.46)，“open French”為3.67(5次辨識結果包含5次，此5次辨識結果分別對應的字彙機率分別為0.73、0.81、0.82、0.70、0.61，運算模組26將此5個值相加所得的值為3.67)，“open in French”為1.92(5次辨識結果包含3次，此3次辨識結果分別對應的字彙機率分別為0.64、0.64、0.64，運算模組26將此3個值相加所得的值為1.92)，“open cartridge”為0.89 (5次辨識結果包含2次，此2次辨識結果分別對應的字彙機率分別為0.49、0.40，運算模組26將此2個值相加所得的值為0.89)。

於一實施例中，特定運算是指運算模組26將所有候選字彙中相同者所對應的字彙機率進行相加、計算平均值或其他數學運算，以產生的運算結果。

於步驟240中，判斷模組28用以判斷每個此些運算結果是否大於一分數門檻值。

於一實施例中，分數門檻值(例如為3)是由音訊接收器22接收到輸入語音的次數(例如5次)乘以一信心度(例如為0.6)而得。於一實施例中，信心度介於0~1之間，可依實際操作環境設置之。

一般而言，當信心度或是輸入語音的次數越高，會使分數門檻值越高，能夠通過門檻值的運算結果就越少，可以取得較精準的語音分析結果。例如，當分數門檻值設定為3時，判斷模組28會篩選出候選字彙“open French”的運算結果3.67大於分數門檻值。又例如，當門檻值為2時，判斷模組28會同時篩選出候選字彙“open French”(運算結果為3.67)以及候選字彙“open fridge”(運算結果為2.46)。

於步驟250中，判斷模組28將大於分數門檻值的至少一輸出結果儲存至第一資料庫DB1。

於一實施例中，至少一輸出結果可以是多個運算結果的子集合，更具體而言，判斷模組28將大於分數門檻值的運算結果視為至少一輸出結果。

於一實施例中，當判斷模組28判斷每個此些運算結果是否大於一分數門檻值(步驟240)，並將大於分數門檻值的至少一個輸出結果儲存至第一資料庫DB1(步驟250)，其中，輸出結果可以是指大於分數門檻值之運算結果所對應的候選字彙；當判斷模組28判斷每個此些運算結果皆不大於分數門檻值時，則於步驟240執行完後結束語音校正方法200。

舉例來說，當分數門檻值設定3時，判斷模組28判斷僅有候選字彙“open French”的運算結果3.67大於分數門檻值，故將輸出結果“open French”(由於此候選字彙的運算結果大於分數門檻值，故此時將 “open French”視為輸出結果)儲存至第一資料庫DB1。

又例如，當分數門檻值2時，判斷模組28判斷出候選字彙“open French”(運算結果為3.67)以及候選字彙“open fridge”(運算結果為2.46)皆大於分數門檻值，故將輸出結果“open French”及“open fridge”同時儲存至第一資料庫DB1。

將大於分數門檻值之候選字彙儲存至第一資料庫DB1之目的在於判斷模組28將該些大於分數門檻值之候選字彙(每個至少一輸出結果)皆視為相同的一正確語意。例如，於此例中，判斷模組28將輸出結果“open French”及“open fridge” 皆視為相同的一正確語意(即意涵都是致能(enable)一特定應用程式，例如開啟一冰箱管理應用程式)，換言之，後續無論使用者之輸入語音被辨識為“open French”或是“open fridge”，判斷模組28都會將此輸入語音視為開啟一特定應用程式的正確指令。

於一具體實施例中，步驟210接收複數個輸入語音而後執行步驟220至步驟230之流程，亦可改變成步驟210接收一輸入語音後而直接執行步驟220至步驟230，之後回到步驟210接受下一輸入語音，直到接受一預設數量之輸入語音，例如5次。

第3圖係根據本發明之一實施例繪示一種語音校正方法300之流程圖。第3圖與第2圖的不同之處在於，第3圖更包含步驟345。第3圖的步驟310、320、330、340、350分別與第2圖的步驟210、220、230、240、250相同，故以下不贅述之。

當判斷模組28判斷此些運算結果中包含至少一候選字彙大於分數門檻值時(步驟340)，可得到至少一輸出結果，其中，輸出結果可以是指大於分數門檻值之運算結果所對應的候選字彙，並接著進入步驟345。

於步驟345中，判斷模組28判斷至少一輸出結果是否已儲存於第一資料庫DB1，若判斷模組28判斷至少一輸出結果未儲存於第一資料庫DB1，則將至少一輸出結果儲存至第一資料庫DB1。若判斷模組28判斷至少一輸出結果已儲存於第一資料庫DB1，則結束流程。

為更易於理解，請參閱第4圖，第4圖係根據本發明之一實施例繪示一種語音校正方法400之一例。於一實施例中，語音校正方法400可應用於一冰箱管理應用程式中，然本發明不限於此，語音校正方法400可應用於各種需要輸入語音的應用程式中。

於步驟410中，處理裝置20可以透過一使用者介面提示使用者說出一預設次數的輸入語音。例如，使用者介面顯示「請說出5次“open fridge”，其中，預設次數不僅限於此，可以是任意的正整數。輸入語音可關聯於一應用程式之指令(“open fridge”)，例如開啟特定應用程式。

於步驟420中，音訊接收器22接收一輸入語音。例如，音訊接收器22先接收到第一個輸入語音。

於步驟430中，語音辨識引擎24辨識輸入語音(例如為第一個輸入語音)。

於步驟440中，語音辨識引擎24產生對應輸入語音(例如為第一個輸入語音)的一或多個候選字彙，及每個候選字彙所對應到的字彙機率。例如，語音辨識引擎24產生3個候選字彙對應到第一個輸入語音，包括“open French”、“open fridge” 及“open in French”等候選字彙。其中， “open French”(候選字彙)對應的字彙機率為0.95，“open fridge”(候選字彙)對應的字彙機率為0.92，“open in French”(候選字彙)對應的字彙機率為0.89。

於步驟450中，判斷模組28判斷目前是否已接收到預設次數的輸入語音。例如，若預設次數為5，判斷模組28判斷目前只接收到1次輸入語音，尚未到達預設次數，則回到步驟420；若判斷模組28判斷目前已接收到5次輸入語音，到達預設次數(5次)，則進入步驟460。

亦即，當預設次數為5時，代表前述步驟420~440需要依序執行5次，以取得對應第一輸入語音至第五輸入語音及其各自對應的一或多個候選字彙。

於步驟460中，運算模組26將所有候選字彙中相同者所各自對應到的字彙機率執行一特定運算，以對應產生複數個運算結果。例如，在辨識使用者所述的5次輸入語音後，語音辨識引擎24所產生的所有候選字彙中，辨識結果有3次包含“open fridge”，辨識結果有5次包含 “open French”，辨識結果有3次包含“open in French”，辨識結果有2次包含“open cartridge”，此時，運算模組26將相同的候選字彙所對應的字彙機率進行相加，即得到“open fridge”為2.46(5次辨識結果包含3次，此3次辨識結果分別對應的字彙機率為0.82、0.81、0.83，將此3個值相加所得的值為2.46)；得到“open French”為3.67(5次辨識結果包含5次，此5次辨識結果分別對應的字彙機率為0.73、0.81、0.82、0.70、0.61，將此5個值相加所得的值為3.67)；得到“open in French”為1.92(5次辨識結果包含3次，此3次辨識結果分別對應的字彙機率為0.64、0.64、0.64，將此3個值相加所得的值為1.92)；得到“open cartridge”為0.89(5次辨識結果包含2次，此2次辨識結果分別對應的字彙機率為0.49、0.40，將此2個值相加所得的值為0.89)。

於步驟470中，判斷模組28判斷每個運算結果是否大於一分數門檻值。例如，當分數門檻值設定為3時，判斷模組28判斷僅有候選字彙“open French”的運算結果3.67大於分數門檻值，故將輸出結果“open French”。其中，由於此候選字彙“open French”的運算結果3.67大於分數門檻值3，故此時將“open French”視為輸出結果。此步驟與前述第2圖的步驟240、第3圖中的步驟340相似，故此處不贅述之。

於步驟480中，判斷模組28判斷至少一輸出結果是否已儲存於第一資料庫DB1，若判斷模組28判斷至少一輸出結果未儲存於第一資料庫DB1，則進入步驟490。若判斷模組28判斷至少一輸出結果已儲存於第一資料庫DB1，結束此流程。

於步驟490中，判斷模組28將至少一輸出結果儲存至第一資料庫DB1。

請參閱第5圖，第5圖係根據本發明之一實施例繪示一種應用語音校正方法500的流程圖。須特別說明的是，較佳地，第5圖之執行係於前述第2~4圖執行之後。亦即，第一資料庫DB1已儲存有至少一輸出結果。

於步驟510中，若使用者欲開啟(enable)特定應用程式而發出“open fridge”之一新增語音(該新增係指相對第2圖到第4圖之輸入語音)，音訊接收器22接收此新增語音。

於步驟520中，語音辨識引擎24辨識此新增語音(“open fridge”)，且判斷模組28判斷新增語音是否對應到至少一輸出結果(如“open French”)或預設指令(“open fridge”)，若判斷模組28判斷新增語音對應到至少一輸出結果或預設指令，則進入步驟530；若判斷模組28判斷新增語音未對應到至少一輸出結果也未對應到預設指令，則結束此流程。

詳細而言，當語音辨識引擎24正確辨識此新增語音“open fridge”為預設指令“open fridge”時，即開啟(enable)特定應用程式。若語音辨識引擎24將此新增語音“open fridge”辨識為“open French”時，雖沒有對應到預設指令“open fridge”，但若第一資料庫中已儲存之至少一輸出結果包含“open French”(步驟520) ，仍將其視為正確語意(步驟530)而開啟(enable)特定應用程式。

換句話說，由於第2圖到第4圖之流程中，第一資料庫中已儲存包含預設指令“open fridge”以及輸出結果“open French”，判斷模組28即將輸出結果“open French”及預設指令“open fridge” 皆視為相同的正確語意(即意涵都是開啟(enable)一特定應用程式，例如為冰箱管理應用程式) 。

因此，雖然新增語意之辨識結果“open French”並非正確地辨識使用者所發出“open fridge”之語音，然由於此辨識之新增語意“open French”可對應到第4圖中步驟490所述之第一資料庫DB1中所儲存的至少一輸出結果，故判斷模組28將此新增語音之辨識結果“open French”亦視為正確語意。換言之，判斷模組28將辨識之新增語音“open French”視同於“open fridge”，於此例中，指令“open fridge”代表用以開啟一特定應用程式的語音指令。

由上可知，即使每個使用者的口音略有不同，藉由第4圖所示的語音校正方法400，能夠使語音效正系統100適應每個使用者的不同口音。當使用者輸入一新增語音(如第5圖所示語音校正方法之步驟510)時，語音效正系統500辨識新增語音，且判斷新增語音是否對應到至少一輸出結果(步驟520)，若是，則進入步驟530，將新增語音是為正確語意，若否，則結束流程。因此，語音效正系統500能夠辨識出使用者真正想表達的語意，而無須正確地辨識使用者之語音。

此外，特定應用程式的語音指令可能有複數個指令，例如“open fridge”、“get an apple”、“put an egg”等3個指令。為加快判斷速度，於一實施例中，儲存裝置10更包含一第二資料庫及/或一第三資料庫，在判斷模組28欲進行儲存輸入語音的階段時(例如為第4圖的步驟480)，可進一步依據不同指令部分以決定將至少一輸出結果儲存至第一資料庫DB1、第二資料庫或第三資料庫。例如，第一資料庫DB1存放第一指令“open fridge”及相對應之至少一輸出結果(如上述之“open French”)；第二資料庫存放第二指令“get an apple”及相對應之至少一輸出結果；第三資料庫存放第三指令“put an egg”及相對應之至少一輸出結果。

於一實施例中，當音訊接收器22接收到一新增語音時，語音辨識引擎24辨識新增語音以取得辨識結果。當判斷模組28判斷辨識結果較接近第二指令“get an apple”時，只要於對應的第二資料庫中判斷是否有對應到第二指令或至少一輸出結果即可。是以，無須將資料庫中所有指令及對應之至少一輸出結果全部比對，從而減少判斷時間與運算資源。

本發明所示之語音校正系統及語音校正方法，能在輸入語音指令時，隨著使用者口音不同，進行新增語音的辨識，提供不同使用者客製化的語意辨識效果，此外，透過不同指令而將對應的輸出結果儲存在不同的資料庫，可在辨識新增語音時，提升辨識使用者真正想表達的語意之效率。

100:語音效正系統

10:儲存裝置

DB1:第一資料庫

20:處理裝置

22:音訊接收器

24:語音辨識引擎

26:運算模組

28:判斷模組

200、300、400、500:語音校正方法

210~250、310~350、410~490、510~530:步驟

第1圖係依照本發明一實施例繪示一種語音校正系統之方塊圖。

第2圖係根據本發明之一實施例繪示一種語音校正方法之流程圖。

第3圖係根據本發明之一實施例繪示一種語音校正方法之流程圖。

第4圖係根據本發明之一實施例繪示一種語音校正方法之一例。

第5圖係根據本發明之一實施例繪示一種應用語音校正方法的流程圖。

200：語音校正方法 210~250：步驟

Claims

一種語音校正系統，包含：一儲存裝置，用以儲存一第一資料庫；以及一處理裝置，包含：一音訊接收器，用以接收複數個輸入語音；其中，該些輸入語音代表相同意涵的一待校正語意；一語音辨識引擎，用以辨識該些輸入語音，並產生對應每個該些輸入語音所對應的複數個候選字彙及每個該些候選字彙對應到的一字彙機率；一運算模組，用以將所有該些候選字彙中相同者所各自對應到的該字彙機率執行一特定運算，以對應產生複數個運算結果；以及一判斷模組，用以判斷每個該些運算結果是否大於一分數門檻值，並將大於該分數門檻值的至少一輸出結果儲存至該第一資料庫；其中，每個該至少一輸出結果是指大於該分數門檻值之該運算結果所對應的該候選字彙，該判斷模組將每個該至少一輸出結果皆視為相同的一正確語意。
如申請專利範圍第1項所述之語音校正系統，其中該判斷模組更用以判斷該至少一輸出結果是否已儲存於該第一資料庫，若該判斷模組判斷該至少一輸出結果未儲存於該第一資料庫，則將該至少一輸出結果儲存至該第一資料庫。
如申請專利範圍第1項所述之語音校正系統，其中當該音訊接收器接收到一新增語音時，該語音辨識引擎辨識該新增語音，且該判斷模組用以判斷該新增語音是否對應到該至少一輸出結果，若該判斷模組判斷該新增語音對應到該至少一輸出結果，則將該新增語音視為該正確語意。
如申請專利範圍第1項所述之語音校正系統，其中該運算模組執行該特定運算是指該運算模組將所有該些候選字彙中相同者所對應的該些字彙機率進行相加或計算平均值，以產生該些運算結果。
如申請專利範圍第1項所述之語音校正系統，其中該分數門檻值是由該音訊接收器接收到該輸入語音的次數乘以一信心度而得。
一種語音校正方法，包含：接收複數個輸入語音；其中，該些輸入語音代表相同意涵的一待校正語意；辨識該些輸入語音，並產生對應每個該些輸入語音所對應的複數個候選字彙及每個該些候選字彙對應到的一字彙機率；將所有該些候選字彙中相同者所各自對應到的該字彙機率執行一特定運算，以對應產生複數個運算結果；判斷每個該些運算結果是否大於一分數門檻值，並將大於該分數門檻值的至少一輸出結果儲存至一第一資料庫；以及將每個該至少一輸出結果皆視為相同的一正確語意；其中，每個該至少一輸出結果是指大於該分數門檻值之該運算結果所對應的該候選字彙。
如申請專利範圍第6項所述之語音校正方法，更包括以下步驟：接收一新增語音；以及判斷該新增語音是否對應到該至少一輸出結果。
如申請專利範圍第6項所述之語音校正方法，其中該特定運算是指將所有該些候選字彙中相同者所對應的該些字彙機率進行相加或計算平均值，以產生該些運算結果。
如申請專利範圍第6項所述之語音校正方法，其中該分數門檻值是該輸入語音的次數乘以一信心度而得。