TWI396184B

TWI396184B - 一種語音辨認所有語言及用語音輸入單字的方法

Info

Publication number: TWI396184B
Application number: TW098131306A
Authority: TW
Inventors: Tze Fen Li; Tai Jan Lee Li; Shih Tzung Li; Shih Hon Li; Li Chuan Liao
Original assignee: Tze Fen Li; Tai Jan Lee Li; Shih Tzung Li; Shih Hon Li; Li Chuan Liao
Priority date: 2009-09-17
Filing date: 2009-09-17
Publication date: 2013-05-11
Also published as: JP2011065120A; US20110066434A1; TW201112226A; US8352263B2

Description

一種語音辨認所有語言及用語音輸入單字的方法

中文有408個單音，再加上四聲，現代語音方法不能辨認408×4單音，英文更多。本發明將常用字分成m(=500)左右不同的相似音群(類)，每一類相似音的文字由一未知相似音代表。使用者對一單字發音，本發明用貝氏分類法在m類未知單音中找出幾個與該單字發音最相似的未知單音，再從這幾個相似的未知單音所代表的類中的單字去找所要的單字及句子。

本發明用12彈性框(窗)，等長，無濾波器，不重疊，將長短不一的一單音的音波轉換成12×12的線性預估編碼倒頻譜(LPCC)的矩陣。

本發明包含貝氏比對法，在m個未知單音中為發音者找F個與所須要單字發音最相似的未知單音。因僅在固定的m類中辨認F個最相似未知單音，本發明最重要的功能是可以很快辨認單字，句子及輸入大量單字。同樣單字發不同單音或不同語言，分別放在不同類中，因此單字或句子用不同發音或不同語言均可辨認，本發明不須樣本。

現代用打字輸入中英文單字，每個單字必須知道它的正確發音(或注音符號)，必須練習打字，極不方便，所以一般人均不會文字輸入。語音辨認及語音輸入文字是今後趨勢及發展的目標，不用打字，發音不準，有重音及其他語言均可輸入文字。

發一單音時，它的發音是用音波表示。音波是一種隨時間作非線性變化的系統，一單音音波內含有一種動態特性，也隨時間作非線性連續變化。相同單音發音時，有一連串相同動態特性，隨時間作非線性伸展及收縮，但相同動態特性依時間排列秩序一樣，但時間不同。相同單音發音時，將相同的動態特性排列在同一時間位置上非常困難。更因相似單音特多，造成辨認更難。

一電腦化語言辨認系統，首先要抽取聲波有關語言資訊，也即動態特性，過濾和語言無關的雜音，如人的音色、音調，說話時心理、生理及情緒和語音辨認無關先刪去。然後再將相同單音的相同特徵排列在相同的時間位置上。此一連串的特徵用一等長系列特徵向量表示，稱為一單音的特徵模型。目前語音辨認系統要產生大小一致的特徵模型太複雜，且費時，因為相同單音的相同特徵很難排列在同一時間位置上，尤其是英語，導致比對辨認困難。

一般語音辨認方法有下列一連串3個主要工作：抽取特徵、特徵正常化(特徵模型大小一致，且相同單音的相同特徵排列在同一時間位置)、未知單音辨認。一連續聲波特徵常用有下列幾種：能量(energy)，零橫過點數(zero crossings)，極值數目(extreme count)，顛峰(formants)，線性預估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC)，其中以線性預估編碼倒頻譜(LPCC)及梅爾頻率倒頻譜(MFCC)是最有效，並普遍使用。線性預估編碼倒頻譜(LPCC)是代表一連續音最可靠，穩定又準確的語言特徵。它用線性迴歸模式代表連續音音波，以最小平方估計法計算迴歸係數，其估計值再轉換成倒頻譜，就成為線性預估編碼倒頻譜(LPCC)。而梅爾頻率倒頻譜(MFCC)是將音波用傅氏轉換法轉換成頻率。再根據梅爾頻率比例去估計聽覺系統。根據學者S.B.Davis and P.Mermelstein於1980年出版在IEEE Transactions on Acoustics,Speech Signal Processing,Vol.28,No.4發表的論文Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences中用動態時間扭曲法(DTW)，梅爾頻率倒頻譜(MFCC)特徵比線性預估編碼倒頻譜(LPCC)特徵辨認率要高。但經過多次語音辨認實驗(包含本人前發明)，用貝氏分類法，線性預估編碼倒頻譜(LPCC)特徵辨認率比梅爾頻率倒頻譜(MFCC)特徵要高，且省時。

至於語言辨認，已有很多方法採用。有動態時間扭曲法(dynamic time-warping)，向量量化法(vector quantization) 及隱藏式馬可夫模式法(HMM)。如果相同的發音在時間上的變化有差異，一面比對，一面將相同特徵拉到同一時間位置。辨認率會很好，但將相同特徵拉到同一位置很困難並扭曲時間太長，不能應用。向量量化法如辨認大量單音，不但不準確，且費時。最近隱藏式馬可夫模式法(HMM)辨認方法不錯，但方法繁雜，太多未知參數需估計，計算估計值及辨認費時。以T.F.Li(黎自奮)於2003年出版在Pattern Recognition,vol.36發表的論文Speech recognition of mandarin monosyllables中用貝氏分類法，以相同資料庫，將各種長短一系列LPCC向量壓縮成相同大小的特徵模型，辨認結果比Y.K.Chen,C.Y.Liu,G.H.Chiang,M.T.Lin於1990年出版在Proceedings of Telecommunication Symposium,Taiwan發表的論文The recognition of mandarin monosyllables based on the discrete hidden Markov model中用隱藏式馬可夫模式法HMM方法要好。但壓縮過程複雜費時，且相同單音很難將相同特徵壓縮到相同時間位置，對於相似單音，很難辨認。至於語音輸入文字目前還沒有方法，因為目前電腦語音辨認不是很好。

本發明語音辨認方法針對上述缺點，從學理方面，根據音波有一種語音特徵，隨時間作非線性變化，自然導出一套抽取語音特徵方法。將一單音(中英文單字)音波先正常化再轉換成一足以代表該單音的大小相等特徵模型，並且相同單音在它們特徵模型內相同時間位置有相同特徵。不需要人為或實驗調節本發明內的未知參數及門檻。用簡易貝氏分類法，即可將單字所發的音的特徵模型和m個未知單音(代表m類不同相似音)特徵模型比對，不需要再壓縮，扭曲或尋找相同的特徵來比對。所以本發明語音辨認方法，能快速完成特徵抽取，特徵正常化及辨認，並能正確快速找到所要的單字。

(1)本發明最重要的目的是快速辨認大量單字，用講話來輸入文字，不需注音，不需打字，任何人都可勝任，發音不標準或發錯音的字也可輸入，速度快，準確率高，用國語、台語、英語及各種語言發音均可。

(2)本發明提供一種單音音波正常化及抽取特徵方法。它使用E個相等彈性框，不重疊，沒有濾波器，能依一單音波長短自由調節含蓋全部波長，能將單音音波內一系列隨時間作非線性變化的動態特性轉換成一大小相等的特徵模型，並且相同單音音波的特徵模型在相同時間位置上有相同特徵。可以及時辨認，達到電腦即時辨認效果。

(3)本發明提供一種簡易有效貝氏辨認未知單音方法，認錯機率達到最小，計算少、辨認快及辨識率高。

(4)本發明提供一種抽取單音特徵方法，單音音波有一種隨時間作非線性變化的動態特性。本發明用隨時間作線性變化的迴歸模型估計隨時間作非線性變化的音波，產生的迴歸未知係數的最小平方估計值(LPC向量)。

(5)本發明使用所有具有語音音波(音波信號點)。用較少數E=12個相等彈性框，沒有濾波器，不重疊含蓋所有信號點特徵。不因為一單音音波太短，刪去該單音，也不因為太長，刪去或壓縮部分信號點。只要人類聽覺能辨別此單音，本發明即可將該單音抽取特徵。所以本發明語音辨認方法應用每一具有語音的信號點，可以盡量抽取語音特徵。因E=12個彈性框不重疊，框數少，大大減少特徵抽取及計算線性預估編碼倒頻譜(LPCC)時間。

(6)本發明辨認方法可以辨認講話太快或講話太慢的單音。講話太快時，一單音音波很短，本發明的彈性框長度可以縮小，仍然用相同數E個等長的彈性框含蓋短音波。產生E個線性預估編碼倒頻譜(LPCC)向量。只要該短音人類可辨別，那麼該E個線性預估編碼倒頻譜(LPCC)向量可以有效代表該短音的特徵模型。講太慢所發出單音音波較長。彈性框會伸長。所產生相同數E個線性預估編碼倒頻譜(LPCC)向量也能有效代表該長音。

(7)本發明提供一種技術，修正一單字及句子的發音並找到包含該單字的類，成功地辨認單字及句子及輸入單字。

(8)僅在固定的m類中辨認F個最相似未知單音，因此本發明辨認方法穩定，能很快找到與所要單字一群相似音的常用字，依和所要單字發音的相似度及字母(或筆劃數)排列成一矩陣，使用者依和所要單字發音的相似度與字母(或筆劃數)很容易在矩陣找到該字。

(9)本發明最重要的功能除很快辨認單字，句子及輸入大量單字之外，同樣單字發不同單音或不同語言，分別放在不同類中，因此單字或句子用不同發音或不同語言均可辨認。

(10)本發明不須樣本。

用第一圖及第二圖說明發明執行程序。第一圖是表示建立m個資料庫有不同相似音的常用字，m個不同相似音的單字群。第二圖是表示使用者辨認單字及句子及輸入單字執行程序。

先有m個不同未知單音及樣本1，一未知單音樣本的連續音音波轉換成數位化信號點10，除去雜音或靜音20。本發明的方法是計算一小時段內連續兩信號點距離總和及一般雜音或靜音的總和，如前者小於後者，則該小時段不具語音，應刪去。刪去之後，得到一序列具有該未知單音信號點。先將音波正常化再抽取特徵，將未知單音的全部信號點分成E等時段，每時段組成一框。一單音一共有E等長框30，沒有濾波器，不重疊，根據單音全部信號點的長度，E框長度自由調整含蓋全部信號點。所以該框稱為彈性框，長度自由伸縮，但E個彈性框長度一樣。不像漢明(Hamming)窗，有濾波器、半重疊、固定長度、不能隨波長自由調整。因一單音音波隨時間作非線性變化，音波含有一語音動態特徵，也隨時間作非線性變化。因為不重疊，所以本發明使用較少(E=12)個彈性框，涵蓋全部單音音波，因信號點可由前面信號點估計，用隨時間作線性變化的迴歸模式來密切估計非線性變化的音波，用最小平方法估計迴歸未知係數。每框內產生一組未知係數最小平方估計值，叫做線性預估編碼(LPC向量)。再將線性預估編碼(LPC)向量轉換為較穩定線性預估編碼倒頻譜(LPCC)40。一未知單音樣本的音波內含有一序列隨時間作非線性變化的語音動態特徵，在本發明內轉換成大小相等E個線性預估編碼倒頻譜(LPCC)向量(一E×P線性預估編碼倒頻譜(LPCC)矩陣)。再求每個未知單音線性預估編碼倒頻譜(LPCC)樣本平均值及變異數，每一未知單音以它的樣本平均值及變異數矩陣代表，每一未知單音代表一類相似音的單字群，一共有m類50。對常用字發音一次，如果使用者發音不準確，有重音或講方言或用不同語言，由使用者發音。將該常用字轉換成線性預估編碼倒頻譜(LPCC)矩陣60。本發明用貝氏分類法比較該單字的線性預估編碼倒頻譜(LPCC)與所有m類未知單音平均值，再除以該未知單音的變異數計算該未知單音的貝氏距離，將該單字放在最小貝氏距離的未知單音的類中，也即用貝氏分類法在m個未知單音中找最相似未知單音，將該單字分到這最相似未知單音所代表的類的常用單字群70。相似音的單字都放在同一類，將所有常用字分成m類，一共有m個資料庫有不同相似音的常用字80，每個資料庫可能有不同語言，同樣單字發不同音或不同語言，分別放在不同類(資料庫)中，用單字建立要辨認的句子及名稱的句子及名稱資料庫85。

第二圖表示辨認的單字，句子及名稱及輸入單字方法流程。先對一所要的單字發音2。單音音波數位化成信號點10，除去雜音20，E個彈性框常化音波，抽取特徵，將單音全部具有語音的信號點分成E等時段，每時段形成一彈性框30。每個單音一共有E彈性框，沒有濾波器，不重疊，自由伸縮含蓋全部信號點。在每框內，因信號點可由前面信號估計，用最小平方法求迴歸未知係數的估計值。每框內所產生的一組最小平方估計值叫做線性預估編碼(LPC)向量，線性預估編碼(LPC)向量有正常分配，再將線性預估編碼(LPC) 向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量40。本發明用貝氏分類法比較該單字的線性預估編碼倒頻譜(LPCC)與所有m類未知單音平均值，再除以該未知單音的變異數計算該未知單音的貝氏距離，在m類未知單音中，找F個最相似的未知單音，也即該F個未知單音距該單字的線性預估編碼倒頻譜(LPCC)有F個最小貝氏距離84。在m個資料庫的不同相似音的常用字80，找F個最相似的未知單音所代表的F類所有的常用字，距所要單字線性預估編碼倒頻譜(LPCC)的(絕對)距離(相似度)排列F類所有單字，所要的單字應當排在最前面，或再分段，每段內的單字依該字的字母(或筆劃數)排列，也即F類所有單字依和所要單字發音的相似度及該字的字母(或筆劃數)排列成一矩陣90，依所要單字字母(或筆劃數)很容易在F類中所排列的單字矩陣找到所要的單字100。要辨認句子及名稱，先將句子切成D個單字，求每個單字發音的F個最相似未知單音，一句子或名稱由DxF個未知單音的矩陣表示86，每個單字發音的F個最相似未知單音所代表F個類內所有單字依和所要單字發音的相似度排列成一列，一共有D列F個相似未知單音的單字會包含該句子或名稱110。在句子和名稱資料庫中85，用3列視窗的F個相似未知單音的單字篩選所有句子及名稱中的每個已知單字(120)，在句子和名稱資料庫中找一最可能的句子或名稱 (130)。本發明詳述於後：

(1)一單音輸入語音辨認方法後，將此單音音波轉換成一系列數化音波信號點(signal sampled points)。再刪去不具語音音波信號點。本發明提供二種方法：一是計算一小時段內信號點的變異數。二是計算該時段內相鄰二信號點距離的總和。理論上，第一種方法比較好，因信號點的變異數大於雜音，或靜音變異數，表示有語音存在。但在本發明辨認單音時，兩種方法辨認率一樣，但第二種省時。

(2)不具語音信號點刪去後，剩下信號點代表一單音全部信號點。先將音波正常化再抽取特徵，將全部信號點分成E等時段，每時段形成一框。一單音共有E等長的彈性框，沒有濾波器、不重疊、自由伸縮，涵蓋全部信號點。彈性框內信號點隨時間作非線性變化，很難用數學模型表示。因為J.Markhoul於1975年出版在Proceedings of IEEE,Vol.63,No.4發表論文Linear Prediction：A tutorial review中說明信號點與前面信號點有線性關係，可用隨時間作線性變化的迴歸的模型估計此非線性變化的信號點。信號點S(n)可由前面信號點估計，其估計值S'(n)由下列迴歸模式表示：在(1)式中，a _k,k=1,...,P，是迴歸未知係數估計值，P是前面信號點數目。用L.Rabiner及B.H.Juang於1993年著作書Fundamentals of Speech Recognition,Prentice Hall PTR,Englewood Cliffs,New Jersey中Durbin的循環公式求最小平方估計值，此組估計值叫做線性預估編碼(LPC)向量。求框內信號點的線性預估編碼(LPC)向量方法詳述如下：以E ₁表示信號點S(n)及其估計值S'(n)之間平方差總和：求迴歸係數使平方總和E ₁達最小。對每個未知迴歸係數a _i,i=1,...,P，求(2)式的偏微分，並使偏微分為0，得到P組正常方程式：展開(2)式後，以(3)式代入，得最小總平方差E _P (3)式及(4)式轉換為在(5)及(6)式中，用N表示框內信號點數，用Durbin的循環快速計算線性預估編碼(LPC)向量如下：E ₀=R(0) (8) (8-12)公式循環計算，得到迴歸係數最小平方估計值a _j，j=1,...,P,(線性預估編碼(LPC)向量)如下：再用下列公式將LPC向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量a'_j，j=1,...,P, 一彈性框產生一線性預估編碼倒頻譜(LPCC)向量(a'₁,...,a'_P)。根據本發明語音辨認方法，用P=12，因最後的線性預估編碼倒頻譜(LPCC)幾乎為0。一單音以E個線性預估編碼倒頻譜(LPCC)向量表示特徵，也即一含E×P個線性預估編碼倒頻譜(LPCC)的矩陣表示一單音。

(3)將一未知單音所有樣本轉換成E個線性預估編碼倒頻譜(LPCC)向量，再求LPCC向量樣本的平均值及變異數。一E×P線性預估編碼倒頻譜樣本的平均值及變異數矩陣代表該未知單音。每個未知單音代表一類，一共有m類。每一常用字發音一次，如果使用者發音不標準，發錯音，或用其它方言或語言發音，常用字就由使用者發音。所發的音用(8-15)式轉換成E個線性預估編碼倒頻譜(LPCC)向量，用貝氏分類法比較該單字的線性預估編碼倒頻譜(LPCC)與所有m類未知單音平均值，再除以該未知單音的變異數計算該未知單音的貝氏距離，將該單字放在最小貝氏距離的未知單音的類中，也即用貝氏分類法在m個未知單音中找最相似未知單音，將該常用字分到這最相似未知單音所代表的類的單字群中。相似音的單字都放在同一類，將所有常用字分成m類，一共有m個資料庫的常用字80。每個資料庫可能有不同語言，同樣單字發不同音或不同語言，分別放在不同類(資料庫)中，用單字建立要辨認的句子及名稱的句子及名稱資料庫(85)。

(4)在第二圖中，使用者對所要的字發音2，該單音(8-15)式轉換成一E×P的線性預估編碼倒頻譜(LPCC)矩陣。用 X={X _jl}，j=1,...,E，l=1,...,P，表示該單音LPCC矩陣。在與m個未知單音中一未知單音c _i，i=1,...,m(m表示所有未知單音總數)，比對時，為了快速計算比對值，假定{X _jl}有E×P個獨立正常分配，它的平均數及變異數(μ _ijl,)，以未知單音c _i的平均值及變異數估計。以f(x|c _i)表示X的條件密度函數。以T.F.Li(黎自奮)於2003年出版在Pattern Recognition,Vol.36發表論文Speech recognition of mandarin monosyllables中的決策理論說明貝氏分類法如下：假設一共有m個未知單音c _i。以θ _i,i=1,...,m，表示未知單音c _i,i=1,...,m，出現的機率，也即先前機率，則。以d表示一決策方法：在m類中選擇一與所要單字發音最相似的未知單音。定義一簡單損失函數(loss function)，也即d的選錯機率(misclassification probability)：如決策方法d選錯一未知單音c _i,d(x)≠c _i，則損失函數L(c _i,d(x))=1。如果d選對一未知單音c _i,d(x)=c _i，則無損失L(c _i,d(x))=0。辨認方法如下：以Γ_i,i=1,...,m，表示X=x矩陣值屬於在m類中未知單音c _i類的範圍。也即Ｘ在Γ_i，d判該單字屬於未知單音c _i，單字發音最相似的未知單音是未知單音c _i。d選錯平均機率為在(16)中，τ=(θ ₁,...,θ _m),是Γ_i以外範圍。以D表示所有語音辨認方法，也即在X範圍內劃分m個未知單音的範圍所有方法。在D中找一辨認方法d _τ使它的平均錯機率(16)達到最小，以R(τ,d _τ)表示滿足(17)式的辨認方法d _τ叫做與先前機率τ有關的貝氏分類法。可用下列表示：d _τ(x)=c _i if θ _i f(x|c _i)>θ _j f(x|c _j) (18)在(18)式中，j=1,...,m,j≠i，也即x屬於未知單音c _i的範圍是對所有j≠i,Γ_i={x|θ _i f(x|c _i)>θ _j f(x|c _j)}。如所有未知單音出現機率一樣，則貝氏分類法和最大機率法一樣。

(5)貝氏分類法(18)選擇一未知單音時，先計算所有X的條件密度函數f(x|c _i),i=1,...,m, 在(19)中，i=1,...,m,(m=未知單音總數)。為了計算方便，將(19)式取對數，並刪去常數，得貝氏距離(相似度) 貝氏分類法(18)變成對每個未知單音c _i，計算l(c _i)值 (20)，l(c _i)也稱為所要該單字發音X和未知單音c _i的相似度，或貝氏距離(Bayesian distance)。在(20)式中，x={x _jl},j=1,...,E,l=1,...,P，是所要該單字發音X線性預估編碼倒頻譜(LPCC)值，{μ _ijl,}用未知單音c _i的平均數及變異數估計。

(6)使用者對所要單字發音後，本發明用貝氏距離(20)在m個未知單音中尋找F個最相似未知單音，也即選擇F個最短貝氏距離(20)的未知單音。並在F個最相似未知單音所代表F類的常用字找使用者所要的單字，方法如下：假如F類的相似音的常用單字一共有N個，計算所要單字的線性預估編碼倒頻譜(LPCC)的E×P矩陣與N個常用單字中的每個常用單字的線性預估編碼倒頻譜(LPCC)的E×P矩陣的(絕對)距離(相似度)，以距離(相似度)大小排列。因沒有變異數，不能用貝氏距離(20)排列N個相似音的常用字。所要的單字應當排在最前面，或再將排列後的N個常用字分成數等段，每等段常用字依字母(或筆劃數)排列，N個常用字依相似度及字母(筆劃數)排列成一成矩陣。當使用者發音後，所要單字依相似度及字母(或筆劃數)從常用字的矩陣由上往下尋找，很容易找到使用者所要的單字100。

(7)要辨認句子及名稱，先將句子切成D個單字，求每個單字發F個最相似未知單音，一句子由DxF個未知單音的矩陣表示86，每個單字發音的F個最相似未知單音所代表F個類內所有單字依和該單字發音的相似度排列成一列，一共有D列F個相似未知單音的單字會包含該句子110。在子和名稱資料庫內85，用3列視窗的F個相似未知單音的單字篩選所有句子及名稱中的每個已知單字(120)，在句子和名稱稱資料庫中找一最可能的句子或名稱(130)。詳述於後：

(a)對一講話者的句子或名稱辨認，我們先建立一句子及名稱資料庫，每個句子或名稱內的單字全部由所須要的單字組成。

(b)切割一句子或名稱成為D個單音，每單位時段計算相鄰二信號點落差距離總和，如太小，該時段為雜音或靜音，沒有語音訊號的相鄰單位時段累積太多(比英文單字兩音節之間時間還多)，表示全是雜音或靜音，應該是兩單字分界線就應切割，一共切成D個單音，每單音再轉成E×P LPCC矩陣。對每一單音，用貝氏分類法(20)在m類中選擇最相似F個未知單音，一句子或名稱以D×F最相似未知單音表示，每個單字發音的F個最相似未知單音所代表F個類內所有單字依所要單字發音(絕對)距離排(相似度)列成一列，一共有D 列F個相似未知單音的單字會包含該句子或名稱(110)。

(c)如果資料庫的選擇比對的句子或名稱和講話者的句子或名稱等長(D個單字)，那麼將D個每列相似未知單音的單字和比對句子或名稱的D個已知單字依順序比對，看看D列不同相似未知單音的單字有沒有比對句子或名稱內的已知單字。如每列相似未知單音的單字內都含一比對句子或名稱內的已知單字，辨認正確單字是D個，則該比對的句子或名稱就是講話者的句子或名稱。

(d)如果資料庫比對句子和名稱內單字是D-1或D+1或在(c)的正確單字不是D個，本發明則用3列視窗篩選。在比對句子或名稱(資料庫內)中，第i個已知單字，用D列中前後三列F個相似未知單音的單字(即第i-1,i,i+1列)比對第i個已知單字，計算D列有多少比對句子或名稱內的已知單字，再除以總數D得到該比對句子或名稱的機率，在資料庫選擇一機率最大句子或名稱為講話者的發音句子或名稱。

(8)本發明提供一種技術，修正辨認不成功單字及句子或名稱，及輸入不成功單字，及加入新單字的方法：

(a)找不到所要的單字，可能發音不準，發錯音，或用其他語言，則該單字不在F個相似未知單音所代表F類的常用字內，一定在其他類的常用字群中，或不在所有m個資料庫內。本發明提供一補救方法。使用者發所要的單字音後，用貝氏距離(20)找最相似未知單音，將所要的單字放在該最相似單音所代表的類常用字群中，以後使用者發同樣單音，所要的單字就會出現在F個最相似未知單音所代表的類中。

(b)所要的單字不在所有m類中，則發該所要單字音後，將該新單字加到最相似未知單音所代表類的常用字群中。

(c)句子或名稱不能(每單字)辨認成功，將該句子講一遍，本發明將該句子分成D個單字，本發明將每個單字用貝氏分類法分到它最相似未知單音的類中，再辨認該句子會成功。

(d)一單字可發多種不同音，如標準音、不標準音、錯音，或用其它語言發音，本發明將該單字分別放在不同未知單音類中。使用者對同樣單字可發任何音，因此任何人都可以使用本發明辨認單字或句子及輸入單字。

(9)為了證實本發明能用語音輸入單字，發明人收集3755常用單字，有很多重複，沒有經費建立一完整常用單字資料庫。發明人對這3755常用單字發音，用本發明方法將3755單字分配到m=659個未知單音所代表659類中。再用本發明方法輸入單字，九成以上均能語音辨認及輸入，其他單字經過本發明第8項方法校正後也能辨認及輸入。本發明說明書，除數學公式外，中文部分都以本發明語音辨認及輸入。圖三及圖四用Visual Basic軟體執行本發明語音辨認及輸入片斷本發明說明書。本發明收集659中文單字及155英語單字，用貝氏分類法分到m=388未知單音的類中，用本發明辨認561中文句子及70英語句子，用第8項方法校正都辨認成功。圖五到圖九用本發明辨認中文及英文句子。

(1)‧‧‧先有m個不同未知單音及樣本

(10)‧‧‧音波數位化

(20)‧‧‧除去雜音

(30)‧‧‧E個彈性框正常化音波

(40)‧‧‧最小平方法計算線性預估編碼倒頻譜(LPCC)向量

(50)‧‧‧求每個未知單音樣本平均值及變異數，每個未知單音代表一類，一共有m類

(60)‧‧‧對每個常用字發音一次，將該音轉換成線性預估編碼倒頻譜(LPCC)矩陣

(70)‧‧‧用貝氏或距離分類法將常用字分到m類中的一類

(80)‧‧‧m個資料庫有不同相似音的常用字

(85)‧‧‧用單字建立要辨認的句子及名稱的句子及名稱資料庫

(2)對一所須要的單字發音

(40)‧‧‧最小平方法計算線性預估編碼倒頻譜(LPCC)向量

(84)‧‧‧用貝氏分類法在m個未知單音求F個和該單字發音最相似的未知單音

(86)‧‧‧要辨認句子，先將句子切成D個單字，求每個單字發音F個最相似未知單音，一句子由DxF個未知單音的矩陣表示

(90)‧‧‧在F個最相似未知單音所代表F個類內所有單字依和所要單字發音的相似度及字母(或筆劃數)排列成一矩陣

(100)‧‧‧所要的單字應當排在最前面，或依該字的字母(或筆劃數)很容易在矩陣中找到該字

(110)‧‧‧每個單字發音的F個最相似未知單音所代表F個類內所有單字依和所要單字發音的相似度排列成一列，一共有D列F 個相似未知單音的單字會包含該句子

(120)‧‧‧在句子和名稱資料庫中，用3列視窗的F個相似未知單音的單字篩選所有句子及名稱中的每個已知單字

(130)‧‧‧在句子和名稱資料庫中找一最可能的句子或名稱

第一圖及第二圖說明發明執行程序。第一圖是表示建立m個資料庫有不同相似音的常用字，m類不同相似音的常用單字群。第二圖表示辨認單字及句子及用發音輸入文字的流程。第三圖到第九圖是表示用Visual Basic軟體執行本發明輸入片斷本發明說明書及辨認中文及英文句子。

(2)‧‧‧對一所須要的單字發音

(10)‧‧‧音波數位化

(20)‧‧‧除去雜音

(30)‧‧‧E個彈性框正常化音波

(40)‧‧‧最小平方法計算線性預估編碼倒頻譜(LPCC)向量

(80)‧‧‧m個資料庫有不同相似音的常用字

(110)‧‧‧每個單字發音的F個最相似未知單音所代表F個類內所有單字依和所要單字發音的相似度排列成一列，一共有D列F個相似未知單音的單字會包含該句子

(130)‧‧‧在句子和名稱資料庫中找一最可能的句子或名稱

Claims

一種語音辨認所有語言及用語音輸入單字的方法，其步驟包含：(1)一單字代表任何文字的單字，一單字的發音稱為單音，本步驟有m個未知單音，每個未知單音有樣本，及有一常用已知單字資料庫，及有一句子及名稱資料庫，每個句子或名稱內的單字全部由常用已知單字資料庫所須要的單字組成；(2)使用一先前處理器(pre-processor)刪去不具語音音波信號點(sampled points)或雜音；(3)正常化一單音音波及抽取特徵：用E個彈性框將音波正常化，並轉換成大小相等的線性預估編碼倒頻譜(LPCC)E×P特徵矩陣；(4)在m個未知單音，求每個未知單音線性預估編碼倒頻譜(LPCC)樣本平均值及變異數，一E×P樣本平均值及變異數矩陣代表一未知單音，每個未知單音代表一類有相似音的常用已知單字，一共有m類；(5)在常用已知單字資料庫，使用者對每一常用已知單字發音一次；(6)在常用已知單字資料庫，正常化每一常用已知單字發音的音波及抽取特徵：將音波正常化並轉換成一E×P線性預估編碼倒頻譜(LPCC)矩陣； (7)使用一貝氏(Bayesian)分類法，比較一常用已知單字的E×P線性預估編碼倒頻譜(LPCC)矩陣及m個未知單音中每一未知單音的E×P樣本平均值及變異數矩陣，用貝氏距離表示相似度，找和該常用已知單字的發音最相似的未知單音，再將該常用已知單字放在該最相似未知單音所代表的類的常用已知單字中，將常用已知單字資料庫所有常用已知單字分成m類；(8)使用者對所要的單字發音，該單音轉換成一E×P的線性預估編碼倒頻譜(LPCC)矩陣；(9)用貝氏(Bayesian)分類法比較使用者所要單字的E×P線性預估編碼倒頻譜(LPCC)矩陣及m個未知單音中每個未知單音的E×P樣本平均值及變異數矩陣，用貝氏距離代表相似度，找和在m個未知單音中所要單字發音最相似的F<m個未知單音，在最相似F<m個未知單音所代表的F個類的常用已知單字中，求該F個類所有常用已知單字的E×P線性預估編碼倒頻譜(LPCC)矩陣和所要單字的E×P線性預估編碼倒頻譜(LPCC)矩陣之間的(絕對)距離，表示相似度，來排列該F類所有的常用字，排列後，所有該F類的常用已知單字分成數等段，每等段常用已知單字以字母(或筆劃數)排列，該F類所有常用已知單字依和所要單字發音的(絕對)距離(相似度)及常用已知單字的字母(或筆劃數)排列成一矩陣，使用者發音後，依所要單字的字母(或筆劃數)在該F類所有常用已知單字矩陣由上向下找所要單字；(10)辨認句子及名稱；(11)修正辨認不成功單字及句子及名稱，及輸入不成功單字，及加入新單字。
根據申請專利範圍第1項所述之一種語音辨認所有語言及用語音輸入單字的方法，其中步驟(2)刪去不具語音的音波或雜音：(a)在一小時段內信號點，計算相鄰兩信號點距離總和和沒有音波信號點相鄰兩信號點距離總和，如前者小於後者則刪去該時段。
根據申請專利範圍第1項所述之一種語音辨認所有語言及用語音輸入單字的方法，其中步驟(3)更包含一單音音波正常化及抽取大小一致的特徵矩陣，步驟如下：(a)一均等分一單音音波信號點，為了用線性變化的迴歸模式密切估計非線性變化的音波，將音波全長分成E等時段，每時段形成一彈性框，一單音共有E等長彈性框，沒有濾波器(Filter)，不重疊，可以自由伸縮含蓋全長音波，不是固定長度的漢明(Hamming)窗；(b)每框內，用一隨時間作線性變化的迴歸模式估計隨時間作非線性變化的音波；(c)信號點S(n)可由前面信號點估計，其估計值S'(n)由下列迴歸模式表示：在(1)式中，a _k,k=1,...,P，是迴歸未知係數估計值，P是前面信號點數目，以E ₁表示信號點S(n)及其估計值S'(n)之間平方差總和：求迴歸係數使平方總和E ₁達最小，對每個未知迴歸係數a _i,i=1,...,P，求(2)式的偏微分，並使偏微分為0，得到P組正常方程式：展開(2)式後，以(3)式代入，得最小總平方差E _P (3)式及(4)式轉換為在(5)及(6)式中，用N表示框內信號點數，用Durbin的循環快速計算線性預估編碼(LPC)向量如下： E ₀=R(0) (8) (8-12)公式循環計算，得到迴歸係數最小平方估計值a _j，j=1,...,P，叫線性預估編碼(LPC)向量如下：再用下列公式將LPC向量轉換較穩定線性預估編碼倒頻譜(LPCC)向量a'_j，j=1,...,P, 一彈性框產生一線性預估編碼倒頻譜(LPCC)向量(a'₁,...,a'_P)；(d)一單音以E個線性預估編碼倒頻譜(LPCC)向量表示特徵，一E×P線性預估編碼倒頻譜(LPCC)矩陣表示一單音。
根據申請專利範圍第1項所述之一種語音辨認所有語言及用語音輸入單字的方法，其步驟(7)更包含一貝氏(Bayesian)分類法比較一常用已知單字發音的E×P線性預估編碼倒頻譜(LPCC)矩陣及每個未知單音的E×P樣本平均值及變異數矩陣，找最相似的未知單音，其步驟如下： (a)一常用已知單字的發音的特徵是用一E×P線性預估編碼倒頻譜(LPCC)矩陣X={X _jl}，j=1,...,E，l=1,...,P，表示，為了快速辨認，E×P個LPCC{X _jl}假定是E×P個獨立隨機變數，有正常分配，當該常用字的發音和m個中一未知單音c _i，i=1,...,m,(m是所有未知單音總數)，比對時，則{X _jl}的平均數及變異數(μ _ijl,)用該未知單音樣本平均值及變異數估計，那麼X的條件密度函數是 X={X _jl}是該常用字的發音的線性預估編碼倒頻譜(LPCC)，但(μ _ijl,)可用未知單音c _i的樣本平均數及變異數估計；(b)使用貝氏分類法是針對m個未知單音中找一未知單音c _i最像此常用字的發音X，一未知單音c _i對該常用字的發音X相似度以下式中f(x|c _i)表示 (c)為快速辨認，用對數化簡(b)中條件密度函數f(x|c _i)，並刪去不必計算的常數，得貝式距離，也叫相似度(貝式距離愈小，相似度愈大)，也叫貝氏分類法 (d)對每一未知單音c _i，i=1,...,m，計算(c)式中貝式距離l(c _i)值，表示相似度；(e)在m個中，選擇一未知單音c'_i，它對該常用字發音X的貝式距離l()值是最小(相似度最大)，判為該常用字最相似的未知單音。
根據申請專利範圍第1項所述之一種語音辨認所有語言及用語音輸入單字的方法，其步驟(10)更包含一辨認句子及名稱：(a)對一講話者的句子或名稱辨認，先建立一句子及名稱資料庫，每個句子或名稱內的單字全部由常用已知單字資料庫所須要的單字組成；(b)切割一句子或名稱成為D個單音，每單位時段計算相鄰二信號點落差距離總和和沒有音波信號點相鄰兩信號點距離總和，如前者小於後者，則該時段為雜音或靜音，沒有語音訊號的相鄰單位時段累積太多，比英文單字兩音節之間時間還多，表示全是雜音或靜音，切割該句子或名稱，一共切成D個單音，每單音再轉成E×P線性預估編碼倒頻譜(LPCC)矩陣，對每一單音，用貝氏分類法在m類中選擇最相似F個未知單音，一句子或名稱以D×F最相似未知單音表示，每個單音的F個最相似未知單音所代表F個類內所有常用已知單字依和該單音的(絕對)距離(相似度)排列成一列，一共有D列F個相似未知單音所表F個類的常用已知單字； (c)當資料庫的選擇比對的句子或名稱和講話者的句子或名稱都有D個單字，那麼將D個每列相似的常用已知單字和比對句子或名稱的D個已知單字依順序比對，看看D列不同相似未知單音所代表的常用已知單字有沒有比對句子或名稱內的已知單字，如每列相似未知單音所代表的常用單字內都含一比對句子或名稱內的已知單字，辨認正確單字是D個，則該比對的句子或名稱就是講話者的句子或名稱；(d)當資料庫比對句子和名稱內單字是D-1或D+1或在(c)的辨認正確單字不是D個，則用3列視窗篩選，在比對句子或名稱(資料庫內)中，第i個已知單字，用D列中前後三列F個相似未知單音所代表的常用已知單字(即第i-1,i,i+1列)比對第i個已知單字，計算D列有多少比對句子或名稱內的已知單字，再除以總數D得到該比對句子或名稱的機率，在資料庫選擇一機率最大句子或名稱為講話者的發音句子或名稱。
根據申請專利範圍第1項所述之一種語音辨認所有語言及用語音輸入單字的方法，其步驟(11)更包含一種技術，修正辨認不成功單字及句子及名稱，及輸入不成功單字，及加入新單字：(a)當使用者找不到所要的單字，則該單字不在該單字的F個最相似未知單音所代表該F類的常用字內，在其他類的常用字群中或不在所有m個資料庫內，使用者發所要的單字音後，用貝氏距離找最相似未知單音，將所要的單字放在該最相似未知單音所代表的類常用已知單字群中，以後使用者發同樣單音，所要的單字就會出現在F個最相似未知單音所代表的類中；(b)當所要的單字不在所有m類中，則發該所要單字音後，將該新單字加到最相似未知單音所代表類的常用已知單字群中；(c)一單字可發多種不同音，該單字分別放在不同類，使用者對同樣單字可發任何音，因此任何人都可以辨認語音及用語音輸入單字，方法簡單，不需樣本，不需注音，不需打字，任何人都可勝任，用國語、台語、英語及各種語言發音均可；(d)當一句子或名稱不能辨認成功，將該句子講一遍，將該句子或名稱分成D個單字，將每個單字用貝氏分類法分到它的最相似未知單音所代表的類的常用已知單字中，再辨認該句子或名稱；(e)僅將辨認或輸入不成功的單字重新放在它最相似未知單音的類中，並未改變m個未知單音的特徵(平均值及變異數)，從固定少數m(=500左右)類的未知單音中辨認F個最相似未知單音，可以很快辨認各種語言的單字及句子及輸入大量單字。