TWI833072B

TWI833072B - 語音辨識系統及語音辨識方法

Info

Publication number: TWI833072B
Application number: TW110111471A
Authority: TW
Inventors: 劉政德
Original assignee: 緯創資通股份有限公司
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2024-02-21
Also published as: TW202238565A; US11830498B2; CN115148210A; US20220319521A1

Abstract

一種語音辨識方法，包含：接收一音訊及一正確結果；辨識該音訊，並輸出對應該音訊的一文字檔；比對文字檔與正確結果之間的一字錯率；依據至少一重要字詞的一權重調整字錯率，以計算對應該至少一重要字詞的一專業評分；以及判斷專業評分是否高於一評分閥值；其中，響應於判斷專業評分高於評分閥值，將對應專業評分的文字檔、音訊或正確結果送入引擎訓練模組。藉此可以節省在大量語料中，篩選重要字詞的時間，達到節省人力成本的效果。

Description

語音辨識系統及語音辨識方法

本發明是關於一種辨識系統，特別是關於一種語音辨識系統及語音辨識方法。

由於護理人員每天需要紀錄許多病患的情況，語音辨識系統可以導入到醫院，讓護理人員透過手機，開啟語音辨識的應用程式，用口說即可進行文字輸入。

然而，目前的語音辨識技術仍可能因為護理人員因為發音不準確，或是語速過快而導致語音辨識錯誤，此時，護理人員需手動修改辨識錯誤的文字，而造成不便。

因此，如何更精準的辨識語音並且找出重要的關鍵字，使語音辨識的精準度提高，已成為本領域所需改進的問題之一。

為了解決上述的問題，本揭露內容之一態樣提供了一種語音辨識系統包含：一處理器、一蒐集模組以及一儲存裝置。蒐集模組用以接收一音訊以及一正確結果。處理器用以存取該儲存裝置所儲存之程式，以實現一辨識模組、一比對模組、一評分模組、一判斷模組及一引擎訓練模組。辨識模組用以辨識該音訊，並輸出對應該音訊的一文字檔。比對模組用以比對該文字檔與正確結果之間的一字錯率。評分模組用以依據至少一重要字詞的一權重調整該字錯率，以計算對應文字檔的一專業評分。判斷模組用以判斷專業評分是否高於一評分閥值。響應於該判斷模組判斷專業評分高於該評分閥值，處理器將對應該專業評分的該文字檔、該音訊或該正確結果送入引擎訓練模組進行訓練。

為了解決上述的問題，本揭露內容之一態樣提供了一種語音辨識方法，包含：接收一音訊；辨識該音訊，並輸出對應該音訊的一文字檔；接收對應該音訊的一正確結果；比對該文字檔與該正確結果之間的一字錯率；依據一重要字詞的一權重調整該字錯率，以計算對應文字檔的一專業評分；以及判斷該專業評分是否高於一評分閥值；其中，響應於判斷該專業評分高於該評分閥值，將對應該專業評分的該文字檔送入該引擎訓練模組以進行訓練。

為了解決上述的問題，本揭露內容之一態樣提供了一種語音辨識系統包含：一處理器以及一儲存裝置。處理器用以接收一音訊、一正確結果及一文字檔，存取該儲存裝置所儲存之程式，以實現一辨識模組、一比對模組、一評分模組、一判斷模組及一引擎訓練模組。辨識模組用以辨識該音訊，並輸出對應該音訊的一文字檔。比對模組用以比對該文字檔與正確結果之間的一字錯率。評分模組用以依據至少一重要字詞的一權重調整該字錯率，以計算對應文字檔的一專業評分。判斷模組用以判斷該專業評分是否高於一評分閥值。響應於該判斷模組判斷該專業評分高於該評分閥值，處理器將對應該專業評分的該文字檔、該音訊或該正確結果送入該引擎訓練模組進行訓練。

本發明實施例所示之語音辨識系統及語音辨識方法可透過本地主機(例如醫院伺服器)或其他電子裝置(例如醫護人員的手機)執行應用程式，以輸入語音並轉成文字檔，自動取得文字檔中的重要字詞，並自動將高權重賦予重要字詞，藉此可以節省人力在大量語料中(例如每個月十幾萬筆語料)篩選重要字詞的時間，達到節省人力成本的效果。此外，隨著語料包不斷的更新，高權重字詞也會越來越精準，不僅透過自動化且精準的方式擷取出重要字詞，也可能額外得到一些人力可能沒注意到的重要字詞。因此，引擎訓練模組與辨識模組的辨識能力都會越來越準確，達到自動且精準辨識音訊或大量語料的效果。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的申請專利範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於申請專利中使用如”第一”、"第二"、"第三"等詞係用來修飾申請專利中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請一併參照第1~2圖，第1圖係依照本發明一實施例繪示一種語音辨識系統100之方塊圖。第2圖係根據本發明之一實施例繪示一種語音辨識方法200之流程圖。

於一實施例中，如第1圖所示，語音辨識系統100包含一處理器10、一蒐集模組22以及一儲存裝置20。

於一實施例中，儲存裝置20與處理器10以及一蒐集模組22透過一匯流排15電性耦接。

於一實施例中，處理器10可由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor，DSP )、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或一邏輯電路來實施。

於一實施例中，儲存裝置20可由唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或具有相同功能之儲存媒體以實現之。

於一實施例中，儲存裝置20用以儲存一辨識模組24、一比對模組26、一優化模組28、一評分模組30、一判斷模組32及一引擎訓練模組34，此些模組可以由軟體實現之，此些軟體可以由處理器10執行。於一實施例中，語音辨識系統100可以實作在手機、平板、智能手錶、伺服器、筆記型電腦或其他電子裝置上。語音辨識系統100中的此些模組可以各自對應到一應用程式中的功能，例如，語音辨識系統100可以由一手機實現之。此手機中有一個應用程式，此應用程式開啟時，使用者可以透過手機的麥克風輸入音訊到手機中，手機取得音訊後，再由此些模組針對音訊進行語音辨識。

於一實施例中，處理器10用以存取儲存裝置20所儲存之程式，以實現辨識模組24、比對模組26、優化模組28、評分模組30、判斷模組32及引擎訓練模組34。

於一實施例中，辨識模組24、比對模組26、優化模組28、評分模組30、判斷模組32及引擎訓練模組34，可以分別由電路或晶片實現之，此些模組位於儲存裝置20之外，且此些模組各自與處理器10電性耦接。

於一實施例中，語音辨識系統100可以應用在醫療環境場域，例如在醫院場域導入語音辨識系統100，例如在護理人員的手機上安裝應用程式，或將語音辨識系統100應用於醫院伺服器中，讓護理人員開啟應用程式後，透過語音辨識系統100進行語音辨識，以完成護理紀錄，藉此可取代傳統手寫方式。護理紀錄也可以透過手機的傳輸介面(例如Wi-Fi裝置、藍芽裝置)傳輸到醫院伺服器，以及在醫院伺服器中設置辨識模組24、比對模組26、優化模組28、評分模組30、判斷模組32及引擎訓練模組34，醫院伺服器儲存或分析接收到的護理紀錄。於另一實施例中，蒐集模組22、比對模組26、優化模組28、評分模組30、判斷模組32及引擎訓練模組34設置於另一伺服器中，辨識模組24設置於醫院伺服器或護理人員的手機中，辨識模組24執行語音辨識後，將音訊以及辨識結果傳輸至另一伺服器中的蒐集模組22，以在另一伺服器中運行比對模組26、優化模組28、評分模組30、判斷模組32及引擎訓練模組34。

於一實施例中，語音辨識系統100中的引擎訓練模組34可以安裝在醫院伺服器，醫院伺服器可以每個月回饋10幾萬筆的語料給語音辨識系統100，使得醫院伺服器中用來辨識語音的模型不斷更新，例如更新辨識模組24。在某些實施例中，可以應用已知的卷積神經網路(Convolutional Neural Network, CNN)及損失函數的深度類神經網路結合隱藏式馬可夫模型(Deep Neural Network-Hidden. Markov Model, DNN-HMM)以產生此模型進而更新辨識模組24。於另一實施例中，辨識模組24可安裝於與醫院伺服器通訊連接的手機端裝置，醫院伺服器將每次更新完成的更新模型的參數傳送回手機端以更新辨識模組24，藉此持續優化語音辨識的正確率。

此為語音辨識系統100應用的一例子，本案不限於應用在醫療環境場域。舉例而言，記者透過語音辨識系統100將接收到的語音辨識成文字檔、會議記錄者透過語音辨識系統100將接收到的語音辨識成文字檔…等等，只要是需要紀錄文字檔的領域，都可以應用語音辨識系統100。

接著，請參閱第2圖，以下敘述語音辨識方法200。

於步驟210中，蒐集模組22接收一音訊。

於一實施例中，蒐集模組22可以是手機內建的麥克風，也可以是包含收音功能的傳輸介面或輸入介面，只要是能接收音訊並傳到語音辨識系統100的裝置皆可實施為蒐集模組22，於另一實施例中蒐集模組22安裝於伺服器，用於接收音訊以及對應於音訊的一正確結果以及辨識後的文字檔。

於一實施例中，當使用者(例如醫護人員)啟動語音辨識系統100後(例如開啟手機上的應用程式)，應用程式會顯示請輸入護理紀錄。此時，使用者可以唸出「入院方式以輪椅進來….，結束」，藉此輸入音訊。於另一實施例中，蒐集模組22透過傳輸介面或輸入介面接收10幾萬筆的語料，此些語料中包含音訊以及對應每一音訊的正確結果，其中，正確結果為每一音訊的對應的正確文字檔。

於步驟220中，辨識模組24辨識音訊，並輸出對應音訊的一文字檔，蒐集模組22接收對應音訊的一正確結果。

於一實施例中，當使用者唸出「入院方式以輪椅進來….，結束」，藉此輸入音訊，辨識模組24辨識音訊，並輸出對應音訊的一文字檔。在某些實施例中，當語音辨識系統100辨識出句尾為「結束」時，儲存音訊及辨識出的文字檔。

於步驟230中，比對模組26比對文字檔與正確結果之間的一字錯率。

於一實施例中，正確結果為使用者提供，例如使用者可透過顯示介面(例如為手機螢幕的顯示畫面)查看文字檔，並透過輸入介面修改文字檔，而產生對應的正確結果，儲存於儲存裝置20中，或傳輸給蒐集模組22。

於一實施例中，當文字檔中包含至少一英文單字及至少一中文字時，例如正確結果的句子為「今天Paul的血壓正常，心情狀態很happy」，但文字檔中紀錄「今天Paul的血壓真常，心(空值)狀態很habit皮」，由於中文有順序性，此兩句話實際上錯三個地方(文字檔中應該為「正」的地方被辨識為「真」，而「情」字沒被辨識出來，因此填上空白的空值，而「皮」為多出來的字)。

在此例中，比對模組26先將文字檔中的至少一英文單字(“Paul”、“habit”)及至少一標點符號(“，”)替換成空值，會變成「今天(空值)的血壓真常(空值)心(空值)狀態很(空值)皮」將剩餘的至少一中文字與正確結果中的中文字進行比對，將所有正確字數(「今天的血壓正常心情狀態很」為12個字)減掉錯誤字數(文字檔中應該為「正」的地方被辨識為「真」，而「情」字在文字檔中為空值，代表沒被辨識出來，因此為錯誤字數為2)，再減掉多出字數(「皮」為多出來的字，因此為1)後的結果得到一中文字正確數(12-2-1=9)，將中文字正確數(9)除以正確結果中的中文字的所有字數(12)，以產生一中文正確率(9/12=0.75，為75%中文正確率)。

於一實施例中，當文字檔中包含至少一英文單字及至少一中文字時，例如使用者想輸入的正確句子為「今天Paul的血壓正常，心情狀態很happy」，但文字檔中紀錄「今天Paul的血壓真常，心(空值)狀態很habit皮」，由於英文單字被拆開後沒有順序性，比對模組26先將文字檔中的至少一中文字去除(只剩下“Paul”、 “habit”，此2個英文單字)，若有標點符號也去除，將至少一英文單字與正確結果中的英文單字(“Paul”、“happy”)進行比對，將剩餘的正確結果中的英文單字的所有字數(2)減掉缺漏或錯誤字數(“habit”應為“happy”，1個字)，再減掉多出字數(在此例中沒有多出的字，0個字)後得到一英文單字正確數(2-1-0=1)，將英文單字正確數(1)除以正確結果中的英文單字的所有字數(2)，以產生一英文正確率(1/2=0.5，為50%英文正確率)。

於一實施例中，比對模組26先將正確結果中的所有字數「今天Paul的血壓正常，心情狀態很happy」(14個字)減去中文字差異數(3)，再減去英文單字差異數(1)後，得到一正確總字數(14-3-1=10)。之後，將正確總字數(10)除以正確結果中的所有字數(10/14約71%)，以產生一文字檔正確率(約71%)，用100%-文檔正確率71%可以得到字錯率29%。

於一實施例中，文字檔正確率71%可以視為初始評分71。

於一實施例中，優化模組28建立一文字優化表及一數字優化表。於一實施例中，優化模組28用以建立一文字優化表及一數字優化表，在計算字錯率之前，優化模組28判斷文字檔中是否具有符合文字優化表或數字優化表的文字或數字，響應於文字檔中具有符合文字優化表或數字優化表的文字或數字，優化模組28依據文字優化表或數字優化表替換文字檔中的文字或數字。

於一實施例中，針對辨識結果，例如：「不行」或「步行」兩個詞，對於使用者唸出來的音是相同，但因為辨識模組24判斷錯誤，導致與正確文字之間有差異。

舉例而言，正確的句子為「入院方式是步行」，但文字檔中紀錄「入院方式是不行」。這類的錯誤，不應造成辨識扣分。

因此，優化模組28建立文字優化表及數字優化表針對這類的文字，讓不同使用者可以自行維護錯誤更正表，如表一所示。

錯誤文字	更正文字
入院方式是不行	入院方式是步行
護理記錄	護理紀錄

表一

於一實施例中，辨識模組24在進行語音辨識時，遇到「步行」的發音，可以去查維護錯誤更正表，得知「不行」或「步行」兩個詞之中，使用者想說「步行」的機率較高，因此會在文字檔中將「不行」替換為「步行」，以降低錯誤率。

於一實施例中，對於數字的辨識，會有中文的數字與阿拉伯數字的差異。這兩個差異不應該視為不同的差異，所以針對這類型的文字需要做一些處理，包含唸法的不同，中文會唸百、千、萬，但數字不會出來，還有常用的時間亦是如此，所以這部分會做數字的代換處理。例如：正確的句子為「12點30分」，辨識模組24輸出「十二點半」、「十二點三十分」或「十二點三十」皆進行數字的代換處理，因此視為正確的輸出。

於一實施例中，優化模組28建立文字優化表及數字優化表，在計算錯字率之前會替換文字優化表中的文字及數字優化表中的數字。

於一實施例中，優化模組28先建立文字優化表及數字優化表，並將文字檔透過辨識模組24進行代換文字、數字，以進行優化，再將優化後的文字檔交由比對模組26進行一連串的運算，以計算初始評分。

於步驟240中，評分模組30依據至少一重要字詞的一權重調整字錯率，以計算對應該文字檔的一專業評分。

在文字檔中，需要更精準或更貼近於專業辨識應用的分數，才能更容易反應出專業應用上，語音辨識系統100的準確率。專業評分可以由手動維護或是自動化調整。手動維護例如為醫護人員將一些醫療關鍵詞語(如GCS、Normal saline)調高權重，將分數多加0.5，同時也會分類出科別，例如為護理科。再例如，將更重要的醫療關鍵詞語(如血壓、體溫)調高權重，將分數多加1分，同時也會分類出科別，例如為護理科。針對醫療場域，會有所屬的專業詞語的部分作為整體專業的權重加成去計算，但對於各科別或應用所做的量測值，可能更高於專業詞語或一般詞語，因為這樣的文字，需要更精準去辨識，故當作評分的標準之一。

於一實施例中，一更新權重模組44將多筆文字檔中的重要字詞各自所對應的權重乘以重要字詞各自對應的錯誤字數或正確字數，以計算對應文字檔的專業評分。舉例而言，正確句子的英文部分(以扣除標點符號及中文，故句子沒有順序性)與文字檔中的英文文字分別為： “pressure heart and or nor temperature pressure nor” “pressure or nor pressure and of” 據此，評分模組30可以依據以下表二的權重調整權重，表二中沒有特別列出的字，為非醫療關鍵詞語，故不需調整權重。表二中權重越大代表越詞語越關鍵，依據權重所產生的加減分比對表，如以下表三所示：

正確的結果	權重
pressure	0.5
heart	0.5
temperature	1

表二

正確結果的出現次數	文字檔中的出現次數	錯誤次數	額外加/減分 (將錯誤次數或正確次數乘以表二的權重)
pressure * 2	pressure * 2	0	2(0.5)=1
heart * 1		-1	-1(0.5)=-0.5
and * 1	and * 1	0
or * 1	or * 1	0
nor * 2	nor * 1	-1
temperature * 1		-1	-1(1)=-1
	of * 1	+1

表三於表三中，雖然“nor”跟“of”也判讀錯誤，但這兩個字並非表二中的醫療關鍵詞語，故不需調整權重，表三的錯誤次數欄位中，“-1”代表錯誤的字數，“+1”代表多出的字數。由表二與表三可算出初始評分及專業辨識正確率，公式分別如下：正確率 = ([正確結果的所有字數] – [錯誤的字數] – [多出的字數])/ [正確結果的所有字數] 初始評分 = 正確率 * 100 (取整數，小數點四捨五入) 以表二與表三為例子：初始正確率= (8-3-1)/8 = 0.5 初始評分 = 0.5 * 100 = 50 分 [專業辨識正確率] = ([正確結果的所有字數] – [錯誤的字數] – [多出的字數]+ [專業文字正確數量*權重] – [專業文字錯誤數量*權重])/ [正確結果的所有字數] [專業評分] = [專業辨識正確率] * 100 以表二與表三為例子：專業辨識正確率= [(8-3-1) + (2*0.5) – (1*0.5) –(1*1)]/8 = 3.5/8 = 0.4375 專業評分= 0.4375 * 100 = 44分(四捨五入) 藉此，可得到初始評分及初始正確率、專業評分及專業辨識正確率。由此可知，文字檔中的醫療相關字詞錯誤，會依據權重扣比較高的分數，導致專業評分下降，而不重要的字詞，則相對影響不大。

另外，語音辨識系統100亦可以自動篩選出重要的醫療相關字詞，此於後續配合第4圖的流程圖作解釋。

於步驟250中，判斷模組32判斷專業評分是否高於一評分閥值(例如預設為85分)，響應於判斷模組32判斷專業評分(例如為90分)高於評分閥值，處理器10將對應專業評分的文字檔、音訊或正確結果送入引擎訓練模組34以進行訓練。

於一實施例中，引擎訓練模組34可以應用已知的卷積神經網路(CNN)處理字詞及損失函數的深度類神經網路結合隱藏式馬可夫模型(DNN-HMM)處理音檔。

於一實施例中，由於引擎訓練模組34只會接收到高於評分閥值所對應的文字檔，代表此些文字檔具有高度的正確率，可以當作訓練模型的語料。將此些文字檔輸入引擎訓練模組34後，引擎訓練模組34產生更新模型，再將更新模型的參數送入辨識模組24，藉此滾動式的提升辨識模組24的辨識率。

接著，請一併參照第3~4圖，第3圖係依照本發明一實施例繪示一種語音辨識系統300之方塊圖。第4圖係根據本發明之一實施例繪示一種語音辨識方法400之流程圖。

於一實施例中，如第3圖所示，語音辨識系統300更包含一語料收集模組36、一斷詞與詞頻運算模組38、一詞頻閥值產生模組40、一選取重要字詞模組42以及一更新權重模組44。於一實施例中，儲存裝置20用以儲存語料收集模組36、斷詞與詞頻運算模組38、詞頻閥值產生模組40、一選取重要字詞模組42以及更新權重模組44，此些模組可以由軟體實現之，此些軟體可以由處理器10執行。

於一實施例中，處理器10用以存取儲存裝置20所儲存之程式，以實現語料收集模組36、斷詞與詞頻運算模組38、詞頻閥值產生模組40、選取重要字詞模組42以及更新權重模組44。

於一實施例中，語料收集模組36、斷詞與詞頻運算模組38、詞頻閥值產生模組40、選取重要字詞模組42以及更新權重模組44，可以分別由電路或晶片實現之，此些模組位於儲存裝置20之外，且此些模組各自與處理器10電性耦接。

接著，請參閱第4圖，以下敘述語音辨識方法400。於一實施例中，語音辨識方法400可以與語音辨識方法200結合，以達到精準辨識專業且重要的用詞的效果。

於步驟405中，蒐集模組22接收一音訊、對應音訊的文字檔及一正確結果。

於步驟410中，語料收集模組36用以判斷多個語料是否收集完成。

於一實施例中，醫院的伺服器每月會傳送約10幾萬筆由護理人員產出的語料提供給語音辨識系統300進行語料清洗，包含修正過的語句與未修正的語句及音檔。此設定為滿一個月為收集完成，語料數量足夠使用。因此，語料收集模組36可以判斷語料在一個月內滿10萬筆即視為收集完成。其中，「一個月內滿10萬筆」僅為一例，語音辨識系統300可以依據不同的應用場景設定判斷語料是否收集完成的判斷方法。

當語料收集模組36判斷多個語料收集完成，則進入步驟420。當語料收集模組36判斷多個語料尚未收集完成，則回到步驟405繼續收集語料。

於步驟420中，響應於語料收集模組36判斷此些語料收集完成，斷詞與詞頻運算模組38將此些語料進行斷詞處理，以分割出多個字詞，其中此些語料包括文字檔及正確結果，並依據此些字詞出現的頻率將所有字詞進行一詞頻統計，以產生一詞頻排序。

於一實施例中，詞頻排序用以表示每個此些字詞出現的頻率，此些字詞的排列順序為依照該些字詞出現的頻率由高而低排序。

於一實施例中，每個此些字詞出現的頻率稱為一詞頻。

例如，語音辨識系統300收到足夠的語料後，斷詞與詞頻運算模組38進行字詞分析，字詞分析包含前處理與斷詞處理。前處理是把句子的標點符號與數字移除轉為空格，而每一句的片段句子再分別取出中文與英文各別進行斷詞處理。斷詞是將一個句子拆成好幾個字詞。英文是以單字為一個單位，中文是以一個字為一個單位，有分為斷兩個字、三個字、四個字等。例如句子為：「新增護理紀錄，痰音無法自咳」，若是以每兩字為一段詞單位會產生：「新增」、「增護」、「護理」、「理紀」、「紀錄」、「痰音」、「音無」、「無法」、「法自」、「自咳」等字詞，同樣地，以每三字為一段詞單位、以每四字為一斷詞單位也是以類似的方式作斷詞處理。

斷詞處理完後，斷詞與詞頻運算模組38會將這些全部的字詞，進行詞頻統計，詞頻表示字詞出現的頻率。於一實施例中，斷詞與詞頻運算模組38會用排序方式來呈現，通常比較重要的字會出現在前面，比較不重要的字會出現在後面，後面幾乎都是非名詞。例如編號1的字詞為「病人」在斷詞為兩個字的情況下，在2608195筆斷詞中出現49105次，編號2的字詞為「使用」在斷詞為兩個字的情況下，在2608195筆斷詞中出現25746次，編號3的字詞為「評估」在斷詞為兩個字的情況下，在2608195筆斷詞中出現21369次。

於一實施例中，斷詞與詞頻運算模組38會依據斷詞的詞頻由高到低的排序方式來呈現，例如，在斷詞為兩個字的情況下，第1筆到第12筆的字詞依序為「病人」、「使用」、「評估」、「估病」、「定時」、「呼吸」、「頭痛」、「衛教」、「監測」、「靜脈」、「給予」、「情形」，由此可知，通常比較常使用的字會出現在前面，比較不常使用的字會出現在後面。

於步驟430中，詞頻閥值產生模組40對詞頻排序中每筆此些字詞對應的詞頻進行方差計算，依據詞頻排序後的每筆資料，各別將一前方差除以一後方差，以找出最大差異的一離散值，將最高的離散值所對應的詞頻視為一詞頻閥值。於一實施例中，詞頻閥值產生模組40的前方差與後方差的計算是指：前方差是將目前這筆資料的前面那筆資料，進行方差計算；後方差是將目前這筆資料的後面那筆資料，進行方差計算。

於一實施例中，詞頻閥值產生模組40將高於詞頻閥值的此些詞頻對應的此些字詞被定義為多個高詞頻字詞，低於詞頻閥值的此些字詞被定義為多個低詞頻字詞。

請參閱第5~6圖，第5圖係依照本發明一實施例繪示一種詞頻分布之示意圖。第6圖係依照本發明一實施例繪示一種詞頻閥值之示意圖。第5圖繪示的是前1千筆字詞的詞頻，X軸代表第n筆字詞，n為正整數，例如，當n為41，則代表第41筆字詞，Y軸代表頻率。第6圖繪示的是前1千筆字詞的離散值，X軸代表第n筆字詞，n為正整數，例如，當n為41，則代表第41筆字詞，Y軸代表離散值。

於一實施例中，詞頻閥值產生模組40使用詞頻閥值來區分高詞頻與低詞頻。例如，詞頻閥值產生模組40對第5圖中的每筆此些詞頻進行方差計算，依據詞頻排序將一前方差除以一後方差，以找出最大差異的一離散值，將最高的離散值所對應的詞頻視為一詞頻閥值。如第6圖所示，第6圖中的每一個點皆為前方差除以後方差，而最高點對應第245筆字詞，則第245筆字詞的詞頻為此些語料的詞頻閥值，因此每匯入一次語料並統計完詞頻後，就會整合舊的語料詞頻，動態更新詞頻閥值。換言之，按詞頻由高而低排序的第1個字詞~第245個字詞視為高詞頻，第245個字詞之後的皆為低詞頻。

於步驟440中，選取重要字詞模組42將此些高詞頻字詞中過濾掉多個日常用語，以將過濾後的此些高詞頻字詞做為至少一重要字詞。

透過前述步驟430可取得高詞頻的字詞，但並非所有高詞頻的字詞都是醫療相關的字詞，這些高詞頻的字詞會夾雜一些日常用語的名詞，例如：今天、我們、協助等等。

日常用語並不需要歸類為高權重計分，因此選取重要字詞模組42利用非醫療語料來進行輔助，找出日常用語字詞。例如，使用新聞語料(或書本語料)取出500篇非醫療相關的文章，如同前述步驟420取高詞頻的方式找出高詞頻字詞，再將醫療語料高詞頻字詞扣除新聞語料取到的高詞頻字詞，所剩下的才是醫療相關的重要字詞，如表四所示：

醫療相關高詞頻	新聞語料高詞頻重複
病人
評估	V
定時	V
監測	V
靜脈
給予	V
情形	V
協助	V
皮膚
家屬	V
醫囑
環境	V
危險	V
藥物
紅腫

表四

在此例中，表四的新聞語料高詞頻重複的欄位中，沒有打勾的這些重要字詞才是應該賦予高權重的醫療相關的重要字詞。

於步驟450中，更新權重模組44賦予至少一重要字詞對應的權重。

於一實施例中，選取重要字詞模組42所判斷醫療相關的重要字詞(步驟440)，可以由表四列出，因此，更新權重模組44自動賦予此些醫療相關的重要字詞各自對應的預設權重，例如表五所示。

醫療相關高詞頻	新聞語料高詞頻重複	權重
病人		2
評估	V	1
定時	V	1
監測	V	1
靜脈		2
給予	V	1
情形	V	1
協助	V	1
皮膚		2
家屬	V	1
醫囑		2
環境	V	1
危險	V	1
藥物		2
紅腫		2

表五換言之，更新權重模組44調高醫療相關的重要字詞的權重，其他非醫療相關的重要字詞，則視為一般生活用語。

於一實施例中，此些重要字詞對應的權重高於低詞頻字詞對應的權重及日常用語對應的權重。

於一實施例中，更新權重模組44將多筆該文字檔中的此些重要字詞各自所對應的權重乘以此些重要字詞各自對應的錯誤字數或正確字數，以計算對應此些文字檔的多個專業評分。

於一實施例中，評分模組30將此些專業評分送入判斷模組32，判斷模組32將此些專業評分中高於評分閥值(例如85分)者所對應的語料，視為多個優質語料，並將此些優質語料與所對應的音訊送入引擎訓練模組34，引擎訓練模組34透過此些優質語料進行訓練，引擎訓練模組34結束訓練後產生一更新模型，引擎訓練模組34將更新模型作為辨識模組24。

於一實施例中，評分閥值為一預設值。

於一實施例中，判斷模組32將此些專業評分中小於等於評分閥值者所對應的語料中，挑選出需要文字優化或數字優化的語料，將此些語料傳送到優化模組28，用以更新文字優化表及數字優化表。其中，需要文字優化或數字優化的語料可以由人工方式挑選，或判斷模組32依據一規則(例如將此些專業評分中大於一調整閥值者，或字詞出現頻率高於一詞頻閥值者)進行挑選。

於一實施例中，針對醫院的科別，例如：內科、外科、產兒科等，設計命令及對應命令的語料，並進行使用者的訓練。於產出專業度評分時，針對語料的科別，讓專業評分高的語料，針對辨識引擎優化，並進行處理。

於一實施例中，引擎訓練模組34及辨識模組24應用已知的卷積神經網路(CNN)處理字詞及損失函數的深度類神經網路結合隱藏式馬可夫模型(DNN-HMM)處理音檔。於一實施例中，引擎訓練模組34及辨識模組24可以針對醫院的科別，例如：內科、外科、產兒科等，設計命令及對應命令的語料，並進行使用者的訓練，於產出專業評分時，針對語料的科別，讓專業評分高的語料，使引擎訓練的過程優化，讓引擎訓練模組34及辨識模組24的辨識率提升。

如第7圖所示，第7圖係依照本發明一實施例繪示一種滾動式學習方法之示意圖。滾動式學習方法是透過算出專業評分的語料(即評分流程720，對應第2圖的步驟240及/或第4圖中的步驟450)，將超過85或90分以上的語料視為優質的語料輸入引擎訓練，因這些語料比一般使用者回饋的語料更加優質與精確。

滾動式學習方法會將這些優質的語料送入引擎訓練模組34，以進行引擎訓練730，藉此使引擎訓練模組34提高對專業語料的敏感度，使得重要字詞的辨識率提升。

引擎訓練模組34結束訓練後產生一更新模型，引擎訓練模組34可以將更新模型中的參數傳送到辨識模組24，以更新辨識模組24中的參數，再讓更新後的辨識模組24對新語料進行引擎辨識710，此時的引擎辨識710可以更精準的辨識新語料。

因此，系統透過篩選出專業評分高的語料，可以使引擎訓練730達到辨識率提升的效果，並將訓練後的結果傳回引擎辨識710，讓新語料一進入辨識模組24後，引擎辨識710對於新語料的辨識率也提升，此方式降低大幅度的人力，並以滾動式學習方法達到自動化語料學習的機制。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100,300:語音辨識系統

10:處理器

15:匯流排

20:儲存裝置

22:蒐集模組

24:辨識模組

26:比對模組

28:優化模組

30:評分模組

32:判斷模組

34:引擎訓練模組

200,400:語音辨識方法

210~250,405~450:步驟

36:語料收集模組

38:斷詞與詞頻運算模組

40:詞頻閥值產生模組

42:選取重要字詞模組

44:更新權重模組

710:引擎辨識

720:評分流程

730:引擎訓練

第1圖係依照本發明一實施例繪示一種語音辨識系統之方塊圖。第2圖係根據本發明之一實施例繪示一種語音辨識方法之流程圖。第3圖係依照本發明一實施例繪示一種語音辨識系統之方塊圖。第4圖係根據本發明之一實施例繪示一種語音辨識方法之流程圖。第5圖係依照本發明一實施例繪示一種詞頻分布之示意圖。第6圖係依照本發明一實施例繪示一種詞頻閥值之示意圖。第7圖係依照本發明一實施例繪示一種滾動式學習方法之示意圖。

200:語音辨識方法

210~250:步驟

Claims

一種語音辨識系統，包含：一處理器；一蒐集模組，用以接收一音訊以及一正確結果；以及一儲存裝置，該處理器用以存取該儲存裝置所儲存之程式，以實現一辨識模組、一比對模組、一評分模組、一判斷模組及一引擎訓練模組，其中：該辨識模組，用以辨識該音訊，並輸出對應該音訊的一文字檔；該比對模組，用以比對該文字檔與該正確結果之間的一字錯率；該評分模組，用以依據至少一重要字詞的一權重調整該字錯率，以計算對應該文字檔的一專業評分；以及該判斷模組，用以判斷該專業評分是否高於一評分閥值；其中，響應於該判斷模組判斷該專業評分高於該評分閥值，該處理器將對應該專業評分的該文字檔、該音訊或該正確結果送入該引擎訓練模組進行訓練；其中，該至少一重要字詞為複數個語料中出現的頻率高於一詞頻閥值且並非複數個日常用語的字詞。
如請求項1之語音辨識系統，其中該處理器更用以存取該儲存裝置所儲存之程式，以實現一斷詞與詞頻運算模組、一選取重要字詞模組，以及一詞頻閥值產生模組，其中：該斷詞與詞頻運算模組將接收的該些語料進行斷詞處理，以分割出複數個字詞，其中該些語料包括該文字檔及該正確結果，並依據該些字詞出現的頻率將所有該些字詞進行一詞頻統計，以產生一詞頻排序；其中該詞頻閥值產生模組對該詞頻排序中每筆該些字詞對應的詞頻進行方差計算，以找出最大差異的一離散值，將最高的該離散值所對應的該詞頻視為該詞頻閥值；其中，該詞頻閥值產生模組將高於該詞頻閥值的詞頻對應的該些字詞定義為複數個高詞頻字詞，並將低於該詞頻閥值的詞頻對應的該些字詞定義為複數個低詞頻字詞；該選取重要字詞模組，用以過濾掉該些高詞頻字詞中之該些日常用語，以將過濾後的該些高詞頻字詞做為該至少一重要字詞。
如請求項2之語音辨識系統，更包含：一更新權重模組，用以賦予該至少一重要字詞對應的該權重；其中，該至少一重要字詞對應的該權重高於該些低詞頻字詞對應的權重及該些日常用語對應的權重。
如請求項3之語音辨識系統，其中該更新權重模組將多筆該文字檔中的該些重要字詞各自所對應的該權重乘以該些重要字詞各自對應的錯誤字數或正確字數，以計算對應該些文字檔的複數個專業評分。
如請求項4之語音辨識系統，其中該評分模組將該些專業評分送入該判斷模組，該判斷模組將該些專業評分中高於該評分閥值者所對應的語料，視為複數個優質語料，並將該些優質語料所對應的音訊、文字檔或正確結果送入該引擎訓練模組，該引擎訓練模組透過該些優質語料進行訓練，該引擎訓練模組結束訓練後產生一更新模型，該引擎訓練模組將該更新模型作為該辨識模組；其中，該評分閥值為一預設值。
如請求項1之語音辨識系統，更包含：一優化模組，用以建立一文字優化表及一數字優化表，在計算該字錯率之前，該優化模組判斷該文字檔中是否具有符合該文字優化表或該數字優化表的文字或數字，響應於該文字檔中具有符合該文字優化表或該數字優化表的文字或數字，該優化模組依據該文字優化表或該數字優化表替換該文字檔中的文字或數字。
如請求項1之語音辨識系統，其中當該文字檔中包含至少一英文單字、至少一中文字及至少一標點符號時，該比對模組將該文字檔中的該至少一英文單字及該至少一標點符號替換成空值，將剩餘的該至少一中文字與該正確結果中的中文字進行比對，得到一中文字差異數；其中該中文字差異數用以計算該字錯率。
如請求項7之語音辨識系統，其中該比對模組先將該文字檔中的該至少一中文字去除，將該至少一英文單字與該正確結果中的該至少一英文單字進行比對，得到一英文單字差異數；其中，該比對模組先將該正確結果中的所有字數減去該中文字差異數，再減去該英文單字差異數後，得到一正確總字數，將該正確總字數除以該正確結果中的所有字數，以產生一文字檔正確率，將100%減去該文字檔正確率，以得到該字錯率；其中，該中文字差異數是指該正確結果的該至少一中文字與該文字檔中的該至少一中文字不同或空白的數量；其中，該英文單字差異數是指該正確結果的該至少一英文單字與該文字檔中的該至少一英文單字不同的數量。
一種語音辨識方法，包含：藉由一蒐集模組接收一音訊；藉由一辨識模組辨識該音訊，並輸出對應該音訊的一文字檔；藉由該蒐集模組接收對應該音訊的一正確結果；藉由一比對模組比對該文字檔與該正確結果之間的一字錯率；藉由一評分模組依據至少一重要字詞的一權重調整該字錯率，以計算對應該文字檔的一專業評分；以及藉由一判斷模組判斷該專業評分是否高於一評分閥值；其中，響應於判斷該專業評分高於該評分閥值，將對應該專業評分的該文字檔、該音訊或該正確結果送入引擎訓練模組進行訓練；其中，該至少一重要字詞為複數個語料中出現的頻率高於一詞頻閥值且並非複數個日常用語的字詞。
如請求項9之語音辨識方法，更包含：將接收的該些語料進行斷詞處理，以分割出複數個字詞，其中該些語料包括該文字檔及該正確結果，並依據該些字詞出現的頻率將所有該些字詞進行一詞頻統計，以產生一詞頻排序；對該詞頻排序中每筆該些字詞對應的詞頻進行方差計算，以找出最大差異的一離散值，將最高的該離散值所對應的該詞頻視為該詞頻閥值；其中，高於該詞頻閥值的詞頻對應的該些字詞定義為複數個高詞頻字詞，並將低於該詞頻閥值的詞頻對應的該些字詞定義為複數個低詞頻字詞；過濾掉該些高詞頻字詞中之該些日常用語，以將過濾後的該些高詞頻字詞做為該至少一重要字詞。
如請求項10之語音辨識方法，更包含：賦予該至少一重要字詞各自對應的該權重；其中，該至少一重要字詞對應的該權重高於該些低詞頻字詞對應的權重及該些日常用語對應的權重。
如請求項11之語音辨識方法，更包含：將多筆該文字檔中的該些重要字詞各自所對應的該權重乘以該些重要字詞各自對應的錯誤字數或正確字數，以計算對應該些文字檔的複數個專業評分。
如請求項12之語音辨識方法，更包含：將該些專業評分中高於該評分閥值者所對應的語料，視為複數個優質語料，並將該些優質語料所對應的音訊、文字檔或正確結果送入該引擎訓練模組，該引擎訓練模組透過該些優質語料進行訓練，該引擎訓練模組結束訓練後產生一更新模型，該引擎訓練模組將該更新模型作為辨識模組；其中，該評分閥值為一預設值。
如請求項13之語音辨識方法，更包含：建立一文字優化表及一數字優化表；以及在計算錯字率之前，判斷該文字檔中是否具有符合該文字優化表或該數字優化表的文字或數字；響應於該文字檔中具有符合該文字優化表或該數字優化表的文字或數字，依據該文字優化表或該數字優化表替換該文字檔中的文字或數字。
如請求項9之語音辨識方法，其中當該文字檔中包含至少一英文單字及至少一中文字時，該語音辨識方法更包含：將該文字檔中的該至少一英文單字及至少一標點符號替換成空值；以及將剩餘的該至少一中文字與該正確結果中的中文字進行比對，得到一中文字差異數；其中該中文字差異數用以計算該字錯率。
如請求項15之語音辨識方法，其中該語音辨識方法更包含：將該文字檔中的該至少一中文字去除；將該至少一英文單字與該正確結果中的該至少一英文單字進行比對，得到一英文單字差異數；將該文字檔中的所有字數減去該中文字差異數，再減去該英文單字差異數後，得到一正確總字數；以及將該正確總字數除以該文字檔中的所有字數，以產生一文字檔正確率，將100%減去該文字檔正確率，以得到該字錯率；其中，該中文字差異數是指該正確結果的該至少一中文字與該文字檔中的該至少一中文字不同或空白的數量；其中，該英文單字差異數是指該正確結果的該至少一英文單字與該文字檔中的該至少一英文單字不同的數量。
一種語音辨識系統，包含：一處理器，用以接收一音訊、一正確結果及一文字檔；其中該正確結果為該音訊對應的一正確文字檔，該文字檔是該音訊對應的語音辨識的結果；以及一儲存裝置，該處理器用以存取該儲存裝置所儲存之程式，以實現一比對模組、一評分模組、一判斷模組及一引擎訓練模組，其中：該比對模組，用以比對該文字檔與該正確結果之間的一字錯率；該評分模組，用以依據至少一重要字詞的一權重調整該字錯率，以計算對應該文字檔的一專業評分；以及該判斷模組，用以判斷該專業評分是否高於一評分閥值；其中，響應於該判斷模組判斷該專業評分高於該評分閥值，該處理器將對應該專業評分的該文字檔、該音訊或該正確結果送入該引擎訓練模組進行訓練；其中，該至少一重要字詞為複數個語料中出現的頻率高於一詞頻閥值且並非複數個日常用語的字詞。