TWI409802B - 音頻特徵處理方法及其裝置 - Google Patents

音頻特徵處理方法及其裝置 Download PDF

Info

Publication number
TWI409802B
TWI409802B TW99111654A TW99111654A TWI409802B TW I409802 B TWI409802 B TW I409802B TW 99111654 A TW99111654 A TW 99111654A TW 99111654 A TW99111654 A TW 99111654A TW I409802 B TWI409802 B TW I409802B
Authority
TW
Taiwan
Prior art keywords
static
feature vectors
feature vector
time
static feature
Prior art date
Application number
TW99111654A
Other languages
English (en)
Other versions
TW201135716A (en
Inventor
Leemin Lee
Original Assignee
Univ Da Yeh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Da Yeh filed Critical Univ Da Yeh
Priority to TW99111654A priority Critical patent/TWI409802B/zh
Publication of TW201135716A publication Critical patent/TW201135716A/zh
Application granted granted Critical
Publication of TWI409802B publication Critical patent/TWI409802B/zh

Links

Description

音頻特徵處理方法及其裝置
本揭示內容是有關於訊號處理技術,且特別是有關於音頻特徵處理方法。
語音辨認可提供自然方便的人機介面,可作為資料輸入使用,或操控設備而讓設備更人性化而容易使用。語音辨認技術也可用在電腦輔助語言學習系統,讓使用者得到即時的回饋,增進學習的效率。
然而,若語音辨認時常發生錯誤,會造成使用上極大的不便。為了降低語音辨認之錯誤機率,相關領域莫不費盡心思來謀求解決之道,但長久以來一直未見適用的方式被發展完成。因此,如何能更有效率地提高語音辨認率,實屬當前重要研發課題之一,亦成為當前相關領域亟需改進的目標。
因此,本揭示內容之一態樣是在提供一種音頻特徵處理方法與音頻特徵處理裝置,用於提高聲音辨認率。
依據本揭示內容一實施例,音頻特徵處理方法包含下列步驟:
(a) 由複數個音框分別擷取複數個靜態特徵向量;
(b)自該些靜態特徵向量中選擇至少一組靜態特徵以計算對應於至少一時間點之至少一左方時間變率之動態特徵向量與至少一右方時間變率之動態特徵向量;以及
(c)利用該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從一資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之一模型或一模型串列。
於步驟(a)中,每一靜態特徵向量可為梅爾頻率刻度之倒頻譜係數與能量對數或其他適合的特徵參數,例如線性預估係數、共振峰、音高或類似特徵。
於步驟(b)中,亦可自該些靜態特徵向量中選擇該至少一組靜態特徵以計算於該至少一時間點之至少一中央時間變率之動態特徵向量。而步驟(c)中,可利用該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從該資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之該該模型或該模型串列。
於步驟(c)中,將該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量作組合,以產生一組合後之特徵向量序列,並從該資料庫所預存之複數個模型中搜尋出最匹配該組合後之特徵向量序列之該模型或該模型串列。
上述之步驟(b)可包含下列子步驟:
(α1)自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,變率計算中,該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的權重對稱於該至少一時間點之後的靜態特徵向量的權重;
(α2)自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重大於該至少一時間點之後的靜態特徵向量的總權重;
(α3)自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重小於該至少一時間點之後的靜態特徵向量的總權重。
或者,上述之步驟(b)可包含下列子步驟:
(β1)自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目等於該至少一時間點之後的靜態特徵向量的數目;
(β2)自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目多於該至少一時間點之後的靜態特徵向量的數目;
(β3)自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目少於該至少一時間點之後的靜態特徵向量的數目。
於子步驟(β2)中,該第二組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的一邊;於子步驟(β3)中該第三組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的另一邊。
另外,於步驟(c)中,資料庫預存之模型可採用隱藏式馬可夫模型、高階隱藏式馬可夫模型、範例式模型或其他合適之模型。
依據本揭示內容另一實施例,一種音頻特徵處理裝置包含一擷取單元、一計算單元與一比對單元。
於使用上,擷取單元用以由複數個音框分別擷取複數個靜態特徵向量。計算單元用以自該些靜態特徵向量中選擇至少一組靜態特徵以計算對應於至少一時間點之至少一左方時間變率之動態特徵向量與至少一右方時間變率之動態特徵向量。比對單元用以利用該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從一資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之一模型或一模型串列。
上述之擷取單元所擷取之每一靜態特徵向量係為梅爾頻率刻度之倒頻譜係數與能量對數或其他適合的特徵參數,例如線性預估係數、共振峰、音高或類似特徵。
上述之計算單元另用以自該些靜態特徵向量中選擇該至少一組靜態特徵以計算於該至少一時間點之至少一中央時間變率之動態特徵向量。而上述之比對單元用以利用該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從該資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之該模型或該模型串列
再者,上述之比對單元係用以將該些靜態特徵向量、該些中央時間變率之動態特徵向量、該些左方時間變率之動態特徵向量及該些右方時間變率之動態特徵向量作組合,以產生一組合後之特徵向量序列,進而從該資料庫中搜尋出最匹配該組合後之特徵向量序列之該模型或該模型串列。
上述之計算單元可包含一第一計算單元、一第二計算單元與一第三計算單元。第一計算單元用以自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的權重對稱於該至少一時間點之後的靜態特徵向量的權重。第二計算單元用以自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重大於該至少一時間點之後的靜態特徵向量的總權重。第三計算單元用以自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重小於該至少一時間點之後的靜態特徵向量的總權重。
或者,第一計算單元用以自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目等於該至少一時間點之後的靜態特徵向量的數目。第二計算單元用以自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目多於該至少一時間點之後的靜態特徵向量的數目。第三計算單元用以自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目少於該至少一時間點之後的靜態特徵向量的數目。
再者,上述之第二計算單元所選擇之第二組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或是全部在該至少一時間點所對應之靜態特徵向量的一邊;上述之第三計算單元所選擇之第三組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或是全部在該至少一時間點所對應之靜態特徵向量的另一邊。
另外,資料庫預存之模型可採用高階隱藏式馬可夫模型、高階隱藏式馬可夫模型、範例式模型或其他合適之模型。
綜上所述,本揭示內容之技術方案與現有技術相比具有明顯的優點和有益效果。藉由上述技術方案,可達到相當的技術進步,並具有產業上的廣泛利用價值,其至少具有下列優點:
1. 以靜態特徵向量、中央時間變率之動態特徵向量、左右方時間變率之動態特徵向量等作處理來形成更精確表達語音特性的方法,以獲得更佳的聲音辨認率;以及
2. 本發明應用範圍廣泛,不限定在語音辨認,亦涵蓋其他訊號處理系統之運用,例如樂曲識別、語者辨認、共振峰追蹤、音高追蹤、聲調辨認、統計式語音合成等。
以下將於實施方式對上述之說明作詳細的描述,並對本揭示內容之技術方案提供更進一步的解釋。
為了使本揭示內容之敘述更加詳盡與完備,可參照所附之圖式及以下所述各種實施例,圖式中相同之號碼代表相同或相似之元件。另一方面,眾所週知的元件與步驟並未描述於實施例中,以避免對本發明造成不必要的限制。
第1圖是依照本揭示內容一實施例之一種語音辨認系統100的方塊圖。語音辨認系統100包含麥克風110、類比至數位轉換器120、音框分割模組130、端點偵測模組140、特徵擷取子系統150、樣型比對子系統160與資料庫170。
於使用上,麥克風110可將聲波轉為類比訊號,類比至數位轉換器120可將類比訊號轉換成數位語音的形式,音框分割模組130可將數位語音分割成一些小段的訊號,其中每個小段稱為音框。端點偵測模組140可找出語音之起點與終點,特徵擷取子系統150可將每個語音音框轉成可代表其特性的特徵向量。資料庫170預存了語音樣型,樣型比對子系統160可從資料庫170中搜尋出一個最接近輸入音特徵向量序列的字詞模型串列,當作辨認結果。
為了對上述之「特徵向量」作更具體的說明,請參照第2圖。第2圖是依照本揭示內容一實施例之一種音頻特徵處理裝置200的方塊圖。音頻特徵處理裝置200可適用於上述之特徵擷取子系統150以及樣型比對子系統160,或是廣泛地運用在相關之技術環節,例如語者辨認系統及統計式語音合成系統等。
如第2圖所示,音頻特徵處理裝置200包含擷取單元210、計算單元220與比對單元260。計算單元220可分成第一計算單元221、第二計算單元222與第三計算單元223。
於使用上,擷取單元210用以由複數個音框分別擷取複數個靜態特徵向量。也就是說,從單一音框語音訊號所擷取之特徵稱為靜態特徵或瞬間特徵。靜態特徵向量通常包含能量與頻譜特徵,頻譜特徵常使用梅爾頻率刻度之倒頻譜係數(MFCC);或者,靜態特徵向量可為線性預估係數(LPC)、共振峰、音高或類似參數。
除此之外,靜態特徵對時間的變化率,可表現出語音的重要特性,稱之為動態特徵。而計算單元220用以自該些靜態特徵向量中選擇至少一組靜態特徵以計算於至少一時間點之至少一中央時間變率之動態特徵向量及對應該至少一時間點之至少一左方時間變率之動態特徵向量與至少一右方時間變率之動態特徵向量。
於第一實施例中,第一計算單元221用以自該些靜態特徵向量中選擇至少一時間點所對應之靜態特徵向量及該至少一時間點前後所對應之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目等於該至少一時間點之後的靜態特徵向量的數目。
或者,於第二實施例中,第一計算單元221用以自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的權重對稱於該至少一時間點之後的靜態特徵向量的權重。
上述之動態特徵向量可為靜態特徵向量對時間的一階變率(相當於一階微分)與/或二階變率(相當於二階微分),動態特徵計算方法可取前後數個音框資料之最佳近似線性軌跡之時間變率來代表。在以下說明中,一句語音訊號中第t 個音框之靜態特徵向量以c [t ]表示,一階時間變率所得之動態特徵以d [t ]表示,二階時間變率所得之動態特徵以a [t ]表示。一階時間變率之動態特徵計算方法參考第3圖,設c x [t ]為第t 個音框的瞬時特徵參數向量中的某一個分量,若用直線方程式c x [t ]+bk 來近似該音框附近之資料c x [t +k ],則前後N個音框之近似誤差的加權平方和係滿足下列關係式:
其中w [k ]為加權權重。令加權平方誤差對b微分為0,可求得最佳之時間變率:
上列公式在t +k 超過語音之起點與終點時,c x [t +k ]可以
起點或終點的資料取代。另一作法可以只將t +k 未超出起點與終點之k納入計算式中。
w [k ]為對稱函數,則時間變率計算式可簡化如下:
上式中w [k ]均為1的情況即為一個常用的動態特徵計算公式,又若w [k ]為只在k=±N不為零的對稱函數,則可更簡化為
這也是另一個常用的動態特徵計算公式。綜合上列推導可知動態特徵向量d [t ]可由下式計算:
二階時間變率a [t ]之計算亦可套用上述方法,而以d [t ]取代c [t ]的角色。二階時間變率a [t ]之另外一種計算方法也可直接由一段靜態特徵與二次曲線作最接近之匹配來求得。以上所述時間t 動態特徵之時間變率的計算,於本實施例中,第一計算單元221使用時間t 左右兩邊對稱區間之資料來計算,以產生中央時間變率之動態特徵向量。若以一階時間變率為例,該中央時間變率之動態特徵向量即為如第3圖所示之中央時間變率之動態特徵向量。
通常將語音之靜態特徵c [t ],一階時間變率動態特徵d [t ],及二階時間變率動態特徵a [t ]組合成時間t 的特徵向量,一句語音的所有時間之特徵向量形成特徵向量序列,用來和預存之字詞模型比對,找出最可能的字詞模型串列,當作辨認結果。雖然中央時間變率之動態特徵可反映語音變動的特性,與靜態特徵的組合可提升系統辨認率,但是,語音裡的從一個音素到下一個音素的特質變化主要有兩種,其中一種為逐漸變化,例如雙元音的特質會從第一個元音的特質逐漸轉變到第二個元音。另外一種變化為跳躍式的步階變化,例如,從摩擦音到元音,在音素內部的特質處處相似,而跨越音素交界後特質即換成另外一種,在這種情況下,邊界處的左右時間變率都很小,而中央時間變率卻很大。在語音特質逐漸變化的情況,前述中央時間變率之動態特徵尚可有效代表語音特性,但在步階式變化的情況,則使用中央時間變率之動態特徵並不能作適切的代表,因此,第二計算單元222可計算左方時間變率之動態特徵向量,第三計算單元223可計算右方時間變率之動態特徵向量,再由比對單元260基於上述多種特徵向量從資料庫170中搜尋出最匹配該些特徵向量之模型序列,藉此更能適切的表達語音特質及該音框所處的相對位置,而有利於語音辨認。
於第一實施例中,第二計算單元222用以自上述該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目多於該至少一時間點之後的靜態特徵向量的數目。第三計算單元223用以自上述該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目少於該至少一時間點之後的靜態特徵向量的數目。
由此可知,第一實施例之第一、第二、第三組靜態特徵向量不完全相同,或可以完全不同。舉例來說,該第二組靜態特徵向量可包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的一邊;該第三組靜態特徵向量可包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的另一邊。
或者,於第二實施例中,第二計算單元222用以自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重大於該至少一時間點之後的靜態特徵向量的總權重。第三計算單元223用以自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重小於該至少一時間點之後的靜態特徵向量的總權重。
實作上,第二實施例之第一、第二、第三組靜態特徵向量可為同一組靜態特徵,然此不限制本發明,熟習此項技藝者當視當時需要彈性調整第二實施例之第一、第二、第三組靜態特徵向量之選擇方式。
於上述第一實施例之左方時間變率之動態特徵詳細計算方法說明如下。參考第4圖,設要獲得時間點t的左方時間變率,則第二計算單元222可取一段主要位於時間點t 左邊的訊號來計算,例如使用下式:
其中N 1 <N 2 <|N 1 |。
或者,參考第5圖,時間點t左方時間變率的另種作法
可為:其中k 0 >0,這可視為以時間t 左邊某一點為中心的時間變率。
使用與前述方法類似的原則,第三計算單元223可取一段主要位於時間點t 右邊的訊號來計算右方時間變率,例如下式:
至於二階以上之左(或右)時間變率亦可使用類似的方法來計算。然後,如第2圖所示,比對單元260用以利用靜態特徵向量序列、中央時間變率之動態特徵向量序列、左方時間變率之動態特徵向量序列及右方時間變率之動態特徵向量序列從資料庫170所預存之複數個模型中搜尋出最匹配該些特徵向量序列之一模型串列。
舉例來說,比對單元260可對於每一時間點所對應之靜態特徵向量、中央時間變率之動態特徵向量、左方時間變率之動態特徵向量及右方時間變率之動態特徵向量作組合,以產生一組合後之特徵向量序列,進而從資料庫中搜尋出最匹配該組合後之特徵向量序列之模型串列,其中組合的方法可以採用簡單的串接,也可以使用某些數學運算程序,例如將某個時間變率之動態特徵與其他特徵作相減作後當作特徵向量的一部份。綜合以上,藉由本發明更精確表達語音特性的方法,可以獲得更佳的語音辨認率。
如上所述之擷取單元210、計算單元220與比對單元260等,其具體實施方式可為軟體、硬體與/或軔體。舉例來說,若以執行速度為首要考量,則該等單元基本上可選用硬體與/或軔體為主;若以設計彈性為首要考量,則該等單元基本上可選用軟體為主;或者,該等單元可同時採用軟體、硬體及軔體協同作業。應瞭解到,以上所舉的這些例子並沒有所謂孰優孰劣之分,亦並非用以限制本發明,熟習此項技藝者當視當時需要,彈性選擇該等單元的具體實施方式。
再者,所屬技術領域中具有通常知識者當可明白,上述各單元依其執行之功能予以命名,僅係為了讓本案之技術更加明顯易懂,並非用以限定該等單元的態樣。將各單元予以整合成同一單元或分拆成多個單元,或者將任一單元之功能更換到另一單元中執行,皆仍屬於本揭示內容之實施方式。
為了對上述之特徵擷取與組合的方式作更具體的闡述,請參照第6圖。第6圖係依照本揭示內容一實施例之特徵擷取與組合的示意圖。如第6圖所示,採用12階之梅爾頻率刻度之倒頻譜係數(MFCC)及能量對數作為靜態特徵,並與中央時間變率、左方時間變率、右方時間變率合組成一個52維之特徵向量。音框長度為25ms,音框取樣率為每10ms一個音框。中央時間變率、左方時間變率、右方時間變率均採用5個音框的資料來計算,不同位置的加權均設為1,每個時間點之左方時間變率採用包含該至少一時間點的左邊5個音框之資料來計算,右方時間變率採用包含該至少一時間點的右邊5個音框之資料來計算。語音辨認模型採用高階隱藏式馬可夫模型(hidden Markov model)。我們以TIDIGIT資料庫進行語音辨認實驗,並與常用之特徵組合做辨認率之比較。比較對象之特徵包含12階MFCC與能量對數構成的靜態特徵,靜態特徵之一階與二階中央時間變率,總共為39維之特徵向量。隱藏式馬可夫模型中每個數字音含16個狀態,數字之間為一個狀態的間隔音,而每一句語音的前後各有一段3個狀態的靜音。每個狀態之機率分布採用高斯機率混和模型,而每個混和成分採用對角線形式之共變異數矩陣,在各種混和數之實驗結果如第7圖所示,由第7圖中可看出使用本實施例的特徵組合之辨認率優於常用之特徵組合,且其辨認錯誤降低率在實驗中最高可降低26%的錯誤個數。
另一方面,本揭示內容之另一技術態樣係提供一種音頻特徵處理方法,該音頻特徵處理方法可經由上述之音頻特徵處理裝置來執行,其相關的實施例已具體揭露如上,對此不再重複贅述之。
或者,如上所述之音頻特徵處理方法可實作為一電腦程式,並儲存於一電腦可讀取之記錄媒體中,而使電腦讀取此記錄媒體後令一電腦系統執行該音頻特徵處理方法。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本揭示內容之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100...語音辨認系統
110...麥克風
120...類比至數位轉換器
130...音框分割模組
140...端點偵測模組
150...特徵擷取子系統
160...樣型比對子系統
170...資料庫
200...音頻特徵處理裝置
210...擷取單元
221...第一計算單元
222...第二計算單元
223...第三計算單
260...比對單元
為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖是依照本揭示內容一實施例之一種語音辨認系統的方塊圖;
第2圖是依照本揭示內容一實施例之一種音頻特徵處理裝置的方塊圖;
第3圖是依照本揭示內容一實施例之計算中央時間變率之動態特徵的圖表;
第4圖是依照本揭示內容一實施例之計算左方時間變率之動態特徵的圖表;
第5圖是依照本揭示內容另一實施例之計算左方時間變率之動態特徵的圖表;以及
第6圖係依照本揭示內容一實施例之特徵擷取與組合的示意圖;
第7圖係繪示兩種特徵組合之字辨認率的比較表。

Claims (16)

  1. 一種音頻特徵處理方法,至少包含:(a) 由複數個音框分別擷取複數個靜態特徵向量;(b) 自該些靜態特徵向量中選擇至少一組靜態特徵以計算對應於至少一時間點之至少一左方時間變率之動態特徵向量與至少一右方時間變率之動態特徵向量;以及(c) 利用該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從一資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之一模型或一模型串列。
  2. 如請求項1所述之音頻特徵處理方法,其中每一該靜態特徵向量係為梅爾頻率刻度之倒頻譜係數與能量對數、線性預估係數、共振峰或音高。
  3. 如請求項1所述之音頻特徵處理方法,其中步驟(b)另包含:自該些靜態特徵向量中選擇該至少一組靜態特徵以計算於該至少一時間點之至少一中央時間變率之動態特徵向量,而步驟(c)包含:利用該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從該資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之該模型或該模型串列。
  4. 如請求項3所述之音頻特徵處理方法,其中步驟(c)更包含:將該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量作組合,以產生一組合後之特徵向量序列,並從該資料庫所預存之複數個模型中搜尋出最匹配該組合後之特徵向量序列之該模型或該模型串列。
  5. 如請求項3所述之音頻特徵處理方法,其中步驟(b)更包含:自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的權重對稱於該至少一時間點之後的靜態特徵向量的權重;自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重大於該至少一時間點之後的靜態特徵向量的總權重;自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重小於該至少一時間點之後的靜態特徵向量的總權重。
  6. 如請求項3所述之音頻特徵處理方法,其中步驟(b)更包含:自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目等於該至少一時間點之後的靜態特徵向量的數目;自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目多於該至少一時間點之後的靜態特徵向量的數目;自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目少於該至少一時間點之後的靜態特徵向量的數目。
  7. 如請求項6所述之音頻特徵處理方法,其中該第二組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的一邊;該第三組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或者係全部在該至少一時間點所對應之靜態特徵向量的另一邊。
  8. 如請求項1所述之音頻特徵處理方法,其中步驟(c)包含:採用以高階隱藏式馬可夫模型為基礎的演算法搜尋出最匹配該些特徵向量之該模型或該模型串列。
  9. 一種音頻特徵處理裝置,至少包含:一擷取單元,用以由複數個音框分別擷取複數個靜態特徵向量;一計算單元,用以自該些靜態特徵向量中選擇至少一組靜態特徵以計算對應於至少一時間點之至少一左方時間變率之動態特徵向量與至少一右方時間變率之動態特徵向量;以及一比對單元,用以利用該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從一資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之一模型或一模型串列。
  10. 如請求項9所述之音頻特徵處理裝置,其中每一該靜態特徵向量係為梅爾頻率刻度之倒頻譜係數與能量對數、線性預估係數、共振峰或音高。
  11. 如請求項9所述之音頻特徵處理裝置,其中該計算單元另用以自該些靜態特徵向量中選擇該至少一組靜態特徵以計算於該至少一時間點之至少一中央時間變率之動態特徵向量,而比對單元用以利用該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量從該資料庫所預存之複數個模型中搜尋出最匹配該些特徵向量之該模型或該模型串列。
  12. 如請求項11所述之音頻特徵處理裝置,其中該比對單元係用以將該些靜態特徵向量、該至少一中央時間變率之動態特徵向量、該至少一左方時間變率之動態特徵向量及該至少一右方時間變率之動態特徵向量作組合,以產生一組合後之特徵向量序列,進而從該資料庫中搜尋出最匹配該組合後之特徵向量序列之該模型或該模型串列。
  13. 如請求項11所述之音頻特徵處理裝置,其中該計算單元包含:一第一計算單元,用以自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的權重對稱於該至少一時間點之後的靜態特徵向量的權重;一第二計算單元,用以自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重大於該至少一時間點之後的靜態特徵向量的總權重;一第三計算單元,用以自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的總權重小於該至少一時間點之後的靜態特徵向量的總權重。
  14. 如請求項11所述之音頻特徵處理裝置,其中該計算單元包含:一第一計算單元,用以自該些靜態特徵向量中選擇該至少一時間點所對應之靜態特徵向量及該至少一時間點前後之數個靜態特徵向量以作為至少一第一組靜態特徵向量,並將該至少一第一組靜態特徵向量對時間取變率以產生至少一中央時間變率之動態特徵向量,其中該至少一第一組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目等於該至少一時間點之後的靜態特徵向量的數目;一第二計算單元,用以自該些靜態特徵向量中選擇至少一第二組靜態特徵向量對時間取變率,以產生至少一左方時間變率之動態特徵向量,其中該至少一第二組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目多於該至少一時間點之後的靜態特徵向量的數目;一第三計算單元,用以自該些靜態特徵向量中選擇至少一第三組靜態特徵向量對時間取變率,以產生至少一右方時間變率之動態特徵向量,其中該至少一第三組靜態特徵向量中在該至少一時間點之前的靜態特徵向量的數目少於該至少一時間點之後的靜態特徵向量的數目。
  15. 如請求項14所述之音頻特徵處理裝置,其中該第二組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或是全部在該至少一時間點所對應之靜態特徵向量的一邊;該第三組靜態特徵向量係包含該至少一時間點所對應之靜態特徵向量,或是全部在該至少一時間點所對應之靜態特徵向量的另一邊。
  16. 如請求項9所述之音頻特徵處理裝置,其中比對單元係採用高階隱藏式馬可夫模型為基礎之演算法搜尋出最匹配該些特徵向量之該模型或該模型串列。
TW99111654A 2010-04-14 2010-04-14 音頻特徵處理方法及其裝置 TWI409802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW99111654A TWI409802B (zh) 2010-04-14 2010-04-14 音頻特徵處理方法及其裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99111654A TWI409802B (zh) 2010-04-14 2010-04-14 音頻特徵處理方法及其裝置

Publications (2)

Publication Number Publication Date
TW201135716A TW201135716A (en) 2011-10-16
TWI409802B true TWI409802B (zh) 2013-09-21

Family

ID=46752014

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99111654A TWI409802B (zh) 2010-04-14 2010-04-14 音頻特徵處理方法及其裝置

Country Status (1)

Country Link
TW (1) TWI409802B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
TWI475558B (zh) 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206334A1 (en) * 2005-03-11 2006-09-14 Rohit Kapoor Time warping frames inside the vocoder by modifying the residual
US20090067644A1 (en) * 2005-04-13 2009-03-12 Dolby Laboratories Licensing Corporation Economical Loudness Measurement of Coded Audio
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145697A1 (en) * 2004-07-06 2010-06-10 Iucf-Hyu Industry-University Cooperation Foundation Hanyang University Similar speaker recognition method and system using nonlinear analysis
US20060206334A1 (en) * 2005-03-11 2006-09-14 Rohit Kapoor Time warping frames inside the vocoder by modifying the residual
US20090067644A1 (en) * 2005-04-13 2009-03-12 Dolby Laboratories Licensing Corporation Economical Loudness Measurement of Coded Audio

Also Published As

Publication number Publication date
TW201135716A (en) 2011-10-16

Similar Documents

Publication Publication Date Title
Chen et al. Strategies for Vietnamese keyword search
Silva et al. Spoken digit recognition in portuguese using line spectral frequencies
KR101026632B1 (ko) 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체
Garg et al. Survey on acoustic modeling and feature extraction for speech recognition
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Soboleva et al. Replacing human audio with synthetic audio for on-device unspoken punctuation prediction
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
TWI409802B (zh) 音頻特徵處理方法及其裝置
Akila et al. Isolated Tamil word speech recognition system using HTK
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
Kadyan et al. Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation
Biswas et al. Spoken language identification of Indian languages using MFCC features
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Płonkowski Using bands of frequencies for vowel recognition for Polish language
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Morris Automatic speech recognition for low-resource and morphologically complex languages
Asakawa et al. Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics
CN112686041A (zh) 一种拼音标注方法及装置
Huh et al. A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
D'haes et al. Discrete cepstrum coefficients as perceptual features
Mohanty et al. Double ended speech enabled system in Indian travel & tourism industry

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees