TW200811833A - Detection method for voice activity endpoint - Google Patents

Detection method for voice activity endpoint Download PDF

Info

Publication number
TW200811833A
TW200811833A TW95131216A TW95131216A TW200811833A TW 200811833 A TW200811833 A TW 200811833A TW 95131216 A TW95131216 A TW 95131216A TW 95131216 A TW95131216 A TW 95131216A TW 200811833 A TW200811833 A TW 200811833A
Authority
TW
Taiwan
Prior art keywords
zero
energy
speech
threshold
active
Prior art date
Application number
TW95131216A
Other languages
English (en)
Other versions
TWI299855B (en
Inventor
Chung-Po Liao
Original Assignee
Inventec Besta Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Co Ltd filed Critical Inventec Besta Co Ltd
Priority to TW95131216A priority Critical patent/TWI299855B/zh
Publication of TW200811833A publication Critical patent/TW200811833A/zh
Application granted granted Critical
Publication of TWI299855B publication Critical patent/TWI299855B/zh

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Description

200811833 input parameters of the linear regression method; . . · . : : ..... - . . obtained at least a voice activity starting point and at least a voice activity endpoint from the active voices and the inactive voices based on the energy threshold and the zero crossing rate threshold. 七、指定代表圖: (一)、本案指定代表圖為··第(3)圖 步驟驟tf代表圖之元件符號簡單說明 八、 本案若有化學式時,請揭示最能顯示發明特徵的化學式: - · ' ' ' · ' ; . - 九、 發明說明: -' 【發明所屬之技術領域】 本發明是有關於一種語音辨識偵測方法,.且特別 是有關在一種用於提高辨識活動語音(active v〇ice)正 確率之活動語音端點偵測方法。 200811833 【先前技術】 原始語音類比訊號經過數位化後,雖可直接作為 辨識之用,但由於資料量過大,處理時間過長,且效 率不好,不可能將原始語音全部儲存下來當做標準語 音參考樣本,因此必須針對數位化語音訊號的特性, 進行特徵擷取,以求取適當的特徵參數來做比對辨 " " - ... 認。而且對語音訊號取得代表之特徵參數,可減少資 料量,增加效率。一般現有的非特定語者的中文語音 辨識之流程如第一圖所示,包含下列步驟: 步驟(1):語音訊號輸入處理,在語音訊號輸入 後,將各個需作分析的語音訊號,以數位訊號處理技 術將語音段的訊號切割出來,形成多個音框,便於進 行下一步驟。 步驟(2):語音訊號的前置處理,該前置處理之主 要功能為端點偵測,用以判斷一段語音訊號的起迄 點。 步驟(3):進行特徵參數擷取,通常採用梅爾(mel 為音調頻率的度量單位,me 1的定義:a me 1 i s a un i t of measure of perceived pitch or frequency of the tone)倒頻譜參數,將時域訊號轉換成頻譜後,就利 用濾波器等工具將梅爾刻度(mel scale)的特定頻譜 值濾出來,取其對數後即為所求。 200811833 步驟(4):利用隱藏式馬可夫模型(·Μ)方法做語 音辨識。所輸入之語音訊號經端點偵測、取音框後, 再取其聲音檔之特徵向量,利用此些特徵向量與經過 訓練的隱藏式馬可夫模型做比對,計算它是由某一串 隱藏式馬可夫模型所產生的機率有多大,來完成語音 辨識。 以目前使用的判斷方式對目前的輸入訊號音框 是否為活動語音(active voice,意指交談中對話的 聲音)段落或非活動語音(inactive voice,意指交談 中停頓的靜音或背景雜訊)在判斷上仍有誤判的情況 發生。若是發生誤判,則在進行特徵參數之擷取時, 因為目標語音包含活動語音及非活動語音,將導致語 音辨識之正確率降低。因此,如何準確切割出活動語 音的範圍為語音辨識技術中一重要關鍵。 【發明内容】 因此本發明的目的就是在提供一種適用於語音 辨識時的活動語音端點偵測方法,根據所輸入語音之 音框之能量與越零率來更新能量門限值及越零率門 限值,再加上使用多重線性回歸(Mul t iple l inear . .^ ; -. .... -.. regression)演譯法及其他評斷流程,以提高活動語 音起點及活動語音終點之判斷準確率。 200811833 根據本發明之上述目的,此活動語音端點偵測 方法包含:(a)接收至少一連讀語音,並自此連續語音 擷取複數段音框;(b)計算此些音框之能量,並根掾 此些能量取得一能量門限值;(c)分別計算此些音框 之越零率,並根據此些越零率取得一越零率門限值; (d)使用一線性迴歸演繹法,並以此些能量及此些越 零率作為線性迴歸演繹法之输入參數,甩以判斷每一 音框是否為一活動語音或一非活動語音;以及(e)根 據能量門限值及越零率門限值,自此些活動語音及此 些非活動語音中取得至少一活動語音起點及至少一 活動語音終點。 【實施方式】 以下詳細地討論目前較佳的實施例。然而應被理 解的是,本發明提供許多可適用的發明觀念,而這些 觀念能被體現於很寬廣多樣的特定具體背景中。所討 論的特定具體的實施例僅是說明使用本發明的特定 方式,而且不會限制本發明的範圍。 語音活動偵測是用來判定是否有真人語音,近年 來已廣泛用於通訊上達到節省能量耗損的目的。若用 於語音辨識方面是屬於語音辨識的前處理,對辨識結 果的影響很大,精確的語音活動偵測可降低噪音影響 200811833 並提南辨識率。傳統的語音活動债測大多使用語音能 量或越零⑽資鱗铜,本_顧對前述之語音 活動债測法則特增添一多重線性回歸之數學演繹函 以順利完成語音辨識之前處理。 .因而,為解決習知技術因擷取語音的參數不足, 而導致辨識語音上正確率降低,本發㈣提供一種語 音辨識時的活動語音端點侦測方法,以下為本實施例 之各貫驗數值及本實施例之流程圖式說明。 此活動語音端點偵測方法包含卜 步驟(a)··接收至少一連續語音,並自該連續語音 擷取複數段音框;語音是個時變(Ti me—vary i ng)的訊 號,但在觀察實際語音訊號時可發現,語音訊號在短 時間内的變化是很缓慢的。因此,在語音信號處理上 我們通系採用短時間穩定(Sh〇rt time stationary) 的假設,以固定的取樣點數(Samples)為一個音框 (Frame),將語音訊號切割成複數段音框,觀察並利 用每個音框的特徵。 . . . ... . . —★ 步驟(b):計算此些音框之能量,並根據此些能量 取得β 1能置門限值。 如上所述,首先,先行計算該音框能量,如第2 圖所示,該圖繪示一語音分割及端點偵測示意圖。由 語音缓衝區(亦指該連續語音的複數段音框)的開始 200811833 處取一小視窗,然後計算此視窗於時距中所累積能 量,其中,所謂時距係指擷取的一音框至相臨另一音 框所相隔時間。計算所有音框之能量後,從所有能量 中取得一相對能量門限值,並將相對能量門限值與與 一預估能量最小值相比較,以兩者之中較大值作為一 能量門限值。 其中,前述預估能量最小值係為於一安靜無聲下 測得一段靜音,以做使用預估的最小值。而相對能量 門限值係為所有音框能量之最大能量之1 /32。 因此,執行完步驟(b)後,執行步驟(c):分別計 算此些音框之越零率,並根據此些越零率取得一越零 率門限值。 在本實施例中,取得越零率門限值方法係為比 對一預設值與對應此些越零率之相對越零率,以兩者 之中較小值作為該越零率門限I。其中,此預設值係 依照文獻[Shanughnessy’ 87, ρ· 125 ]而設定一門限 值,有聲無聲的邊界越零率值為3000 cross/s。前述 相對越零率係為能量低於前述能量門限值之音框之 越零率之平均值。 步驟(d):使用一線性迴歸演繹法,並以前述複 數個音框之能量及越零率作為該線性迴歸演繹法之 輸入參數,用以判斷每一音框是否為一活動語音或一 非活動語音。 200811833 在本實施例中’此線性迴歸演绎法亦是一種多 重線性迴歸(Multiple-regressive)的應用,其係由 迴歸分析的應用領域所衍生出的,該迴歸分析可用來 找出兩個或兩個以上變數間的關係,進而從一群變數 中預測資料的趨勢,於本實施例中,該些能量及該些 越零率係作為該旅性迴歸演释法所輸入兩個變數。 步驟(e):根據前述之能量門限值及前述之越零 率門限值,自該些活動語音及該些非活動語音中取得 至少一活動語音起點及至少一活動語音終點。 同時使用能量門限值及越零率門限值來判斷,是 因為語音中的鼻音、氣音的能量都較小,容易被誤判 為非活動語音(inactive voice)而被刪除,這樣對於 語音辨識在做判斷將會導致錯誤。加上越零率門限值 的判斷可以分辨出子音與非活動語音的不同。在非活 動語音時,只有背景雜訊,此時靜音的越零率較低, 而子音信號的越零率有一定的數值,當有一預定之門 限值便能辨別出非活動語音與子音。 推至步驟(e)時,當一所選音框為一活動語音, 且該所選音框及後一段音框之能量皆大於該能量門 限值,再判斷該所選音框之前兩段音框之越零率是否 大於該越零率門限值,若有大於該越零率門限值則活 動語音起點由該所選音框往前務動一或二音框,若無 大於該越零率門限值則該所選音框係為一活動語音 200811833 起點。 當所選音框為一非活動語音,且已取得該活動 語音起點,且該所選音輕及後五段音框之能量皆小於 . 該能量門限值,再判斷談所選音框之後兩段音框之越 零率是否大於該越零率門限值,若有大於該越零率門 限值則活動語音終點由該所選音框往後移動一或二 音框,若無大於該越零率門限值則該所選音框係為一 活動語音終點。 而選取連續五個音框其原因為,某些時候該些音 框之能量會低於門限值係為:人在連續發音中因短暫 ' · ^ . 休息所以擷取的連續音框會斷開,而非真正的靜音, 所以設定當該些音框之能量由門限值以上變化到門 限值以下,必須經過連續五個音框才能真正視為活動 語音結束。 以下為針對上述偵測流程於一活動語音端點之 偵測後的實驗數值。 實驗語料是取自2003年二月份底與三月份的 『太家說荚語』教材,總共有25個語音檔,每個檔 案的格式都是8 kHz取樣頻率,每個取樣點以16位 元量化,單聲道,平均長度約為I分半左右,每一個 音框長度為22. 5 ms。此語料大多是人與人之間的對 話,所以很適合作為語音活動檢测的實料庫,其中前 20傭檔案作為訓練用,總長度約為28分半,後5個 11 200811833 檔案作為測試用,總長度約為7分半。 實驗會拫據輸入參數所求得的語音活動狀態,與 正確的語音活動狀態作分析,總共會計算三種錯誤 率,分別是總錯誤率、非活動判斷為活動之錯誤率以 及活動判斷為非活動之錯誤率η,並且與G. 729的VAD 做比較,如表一。 VAD型式 E total En_a Ea_n 多重線性迴歸(訓 練) 11.54 6.6563 4.8837 G· 729(訓練) 22.243 21.619 0.62432 多重線性迴歸(訓 練) 16.808 13.903 2.9049 G.729(測試) 27. 945 25.052 2.8938 表一 由表一可以看到在整體的錯誤率及非活動語音 判斷為活動語音的情況,多重線性迴歸不論是訓練語 料或是測試語料都優於G. 729,但是在活動語音判斷 為非活動語音時,多重線性迴歸在訓練語料所表現的 結果是較差的,而這部份的錯誤對於辨識時也有較大 的影響,因為將活動語音判斷為非活動語音會常常使 得某些子音被忽略,導致辨識錯誤,因此,希望在總 錯誤率增加不多的情形下降低 12 200811833 及在調整多重線性迴歸输入變數的權重下,即可 影響錯誤率的表覌。若將能量的權重向下修正,可以 降低活動音框判斷為非活動音框的錯誤率,同時也會 使更多的非活動音框判斷為活動音框,將越零率向上 修正也會有類似的效果,這裡選擇改變能量之權重, 越零率雉持不變,而訓練語料中的刻意選擇接近1%, 最後所訓練出的迴歸係數為 &=-2. 3089, &=0· 047486,K 50885 〇 VAD型式 E total En_a Ea_n 多重線性迴歸(訓 練) 12·826 11.835 0.99187 G· 729(訓練) 22.243 21.619 0.62432 多重線性迴歸(訓 練) 20.011 19.511 0.4999 G· 729(測試) 27.945 25.052 2.8938 表二 重斯測試實驗結果如下表二所示,在各種情形 下,多重線性迴歸(Weighted)方法皆優於G· 729之 VAD,並且在活動語音判斷為非活動語音的錯誤也能 保持一定的水準(1%)。 13
200811833 Μ ^ ? ί Wl ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ϋ # 用限疋本每明,任何熟習此技囈者,在不脫籬太癸 H4 ^ 【圖式簡單說明】 為讓本發用之上述和其他目的、牿科 t — 弟3圖繪示用於語音辨識時的活立山 方法之流程圖。 丨動浯音端點偵測 ^主要元件符號說明】 v驟(1)〜步驟(4) 步驟(a)〜步驟(e)

Claims (1)

  1. 200811833 十、申請專利範圍: i/一種活動語音端點之摘測方法,包含下列步驟: (a) 接收至少一連續語音,並自該連續語音擷取複 數段音框; (b) 計算該些音框之能量,並根據該些能量取得一 能量門限值; (c) 分別計算該些音框之越零專,並根據該些越零 率取得一越零率門限值; (d) 使用一線性迴歸演繹法,並以該些能量及該些 越零率作為該線性迴歸演繹法之輸入參數,用以判斷 每一該些音框是否為一活動語音或一非活動語音;以 及 (e) 根據該能量門限值及該越零率門限值,自該些 活動語音及該些非活動語音中取得至少一活動語音 起點及至少一活動語音終點。 2. 如申請專利範圍第1項之活動語音端點摘測方 法,其中步驟(b)更包含比對一預估能量最小值及一 對應該些能量之相對能量門限值,以兩者之中較大 值作為該能量門限值。 3. 如申請專利範圍第2項之活動語音端點偵測方 法,其中該預估能量最小值係為一於安靜無聲之環 15 200811833 境下錄得之一段靜音之能量。 ...... . .' 4. 如申請專利範圍第2項之用於語音辨識時的活動 語音端點偵測方法,其中該相對能量門限值係為該 些音框之最大能量值之1/32。 5. 如申請專利範圍第1項之甩於語音辨識時的活動 語音端點偵測方法,其中步驟(c)更包含比對一預設 值及一對應該些越零率之相對越零率,以兩者之中 較小值作為該越零率門限值。 6. 如申請專利範圍第5項之活動語音端點偵測方 法,其中該預設值係為30〇0 cross/s。 7. 如申請專利範圍第5項之活動語音端點偵測方 法,其中該相對越零率係為該些能量低於該能量門 限值之音框之越零率之平均值。 8. 如申請專利範圍第1項之活動語音端點偵測方 法,其中該步驟(e)更包含當一所選音框為一活動語 . . . ...... . 音,且該所選音框及後至少一段音框之能量皆大於 該能量門限值,並判斷所選音框及前複數段音框之 越零率是否大於該越零率門限值,若有大於則活動 語音起點由該所選音框往前移動複數段音框,若無 大於則該所選音框係為一活動語音起點。 16 200811833 9.如申請專利範圍第1項之活動語音端點偵測方 法,其中該步驟(e)更包含當所選音框為一非活動語 音,且已取得該活動語音起點,且該所選音框及後 - . · 複數段音框之能量皆小於讓能量門限值,並判斷該 所選音框及後複數段音框之越零率是否大於該越零 率門限值,若有大於則活動語音終點由該所選音框 往後移動複數段音框,若無大於則該所還音框係為 一活動語音終點。
TW95131216A 2006-08-24 2006-08-24 Detection method for voice activity endpoint TWI299855B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW95131216A TWI299855B (en) 2006-08-24 2006-08-24 Detection method for voice activity endpoint

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW95131216A TWI299855B (en) 2006-08-24 2006-08-24 Detection method for voice activity endpoint

Publications (2)

Publication Number Publication Date
TW200811833A true TW200811833A (en) 2008-03-01
TWI299855B TWI299855B (en) 2008-08-11

Family

ID=44767866

Family Applications (1)

Application Number Title Priority Date Filing Date
TW95131216A TWI299855B (en) 2006-08-24 2006-08-24 Detection method for voice activity endpoint

Country Status (1)

Country Link
TW (1) TWI299855B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847270A (zh) * 2016-12-09 2017-06-13 华南理工大学 一种双门限地名语音端点检测方法
CN110660413A (zh) * 2018-06-28 2020-01-07 新唐科技股份有限公司 语音活动侦测系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
TWI557722B (zh) 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847270A (zh) * 2016-12-09 2017-06-13 华南理工大学 一种双门限地名语音端点检测方法
CN106847270B (zh) * 2016-12-09 2020-08-18 华南理工大学 一种双门限地名语音端点检测方法
CN110660413A (zh) * 2018-06-28 2020-01-07 新唐科技股份有限公司 语音活动侦测系统
CN110660413B (zh) * 2018-06-28 2022-04-15 新唐科技股份有限公司 语音活动侦测系统

Also Published As

Publication number Publication date
TWI299855B (en) 2008-08-11

Similar Documents

Publication Publication Date Title
Moattar et al. A simple but efficient real-time voice activity detection algorithm
EP2083417B1 (en) Sound processing device and program
CN105913849B (zh) 一种基于事件检测的说话人分割方法
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
JP2006079079A (ja) 分散音声認識システム及びその方法
CN109903752B (zh) 对齐语音的方法和装置
CN112133277B (zh) 样本生成方法及装置
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
CN109994126A (zh) 音频消息分段方法、装置、存储介质和电子设备
TW200811833A (en) Detection method for voice activity endpoint
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
Özaydın Examination of energy based voice activity detection algorithms for noisy speech signals
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
JP2007292940A (ja) 音声識別装置及び音声識別方法
JP2002189487A (ja) 音声認識装置および音声認識方法
CN108573712B (zh) 语音活性检测模型生成方法、系统及语音活性检测方法、系统
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP2004317822A (ja) 感情分析・表示装置
Haghani et al. Robust voice activity detection using feature combination
Hjalmarsson et al. Measuring final lengthening for speaker-change prediction
Manovisut et al. Reducing waiting time in automatic captioned relay service using short pause in voice activity detection
Chelloug et al. Real Time Implementation of Voice Activity Detection based on False Acceptance Regulation.
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees