TW200832359A

TW200832359A - Method of a voice signal processing

Info

Publication number: TW200832359A
Application number: TW096102443A
Authority: TW
Inventors: Tai-Huei Huang; Po-Kai Huang
Original assignee: Ind Tech Res Inst
Priority date: 2007-01-23
Filing date: 2007-01-23
Publication date: 2008-08-01
Also published as: US20080177539A1; TWI308740B

Description

200832359 j^^zyDUU /4TW 22309twf.doc/n 九、發明說明：【發明所屬之技術領域】本發明是關於一種語音信號處理方法，且特別b 於一種為聽覺頻寬調整的聽障者提升語音辨識能力之號處理方法。 #曰信【先前技術】

隨著社會人口的高齡化現象，愈來愈多年長者面臨聽力降低或者受損的問題，致使其對自然語音的辨識能下降。一般而言，聽障者會使用助聽器來提升聽力此統助聽器利用控麵帶能量增益的方^，以補償聽障者聽力受損頻帶的能量，同時也採用頻譜能量動態範圍壓縮^術以避免過度放大訊號而造成的不適或傷害聽神經，。此外，根據臨床研究，大部分隨年紀老化而聽力受損的現象多從喪失高頻訊號的感知開始，如圖1A所示，區塊101為一般日常聲音的頻率與抵達耳朵時的音量大小分佈範圍，區塊102為子音字母(例如：b、c、f··)頻率與音量大小分布範圍，區塊103為母音字母(例如：音_中的yi/、 /a/···)頻率與音量大小分佈範圍。如圖1B所示，曲線1〇5 為隨年紀老化而聽力受損者的聽力臨界值曲線，因此可以，現聽力受損者主要為喪失頻率範圍刚的高頻訊號。此時’聽障者對高頻頻帶可接受的動態變化範圍極小，在這些頻帶即便採取增益補償策略也難以提升語音辨識能力。，，，如何因應聽力受損者耳朵可聽的頻寬變窄的現象而提昇語音辨識能力成為現今重要課題之一。 5 200832359 P52950074TW 22309twf.doc/n 隨著語音訊號數位化處理技術的精進，在語音訊號經過取樣量化後，利用頻率轉移處理將語音訊號的頻譜調整轉移至使用者殘餘聽力的頻寬範圍内，以解決使用者耳朵可聽頻寬變窄之問題。圖2繪示為習知頻率轉移處理方法之流程圖。請參照圖2,首先將取樣量化後的語音訊號A[n] 經離散傅立葉轉換處理(步驟§201)，在頻域上分析此語音訊號後，利用一頻率轉移函數將語音訊號頻率壓縮轉移至低頻(步驟S202)，最後再經離散反傅立葉轉換將其轉換為時域上的語音訊號。相關頻率轉移處理技術揭露在 Discrimination of speech processed by low_pass filtering and pitch-invariant frequency lowering，，，J· Acoust· Soc· Am· 74 (2) ρ·409〜419, 1983 之論文與”FreqUenCy i〇wering 此吨 a discrete exponential transform, EUROSPEECH55 99? 2769-2772· 1999 之論文中。此外，在” Frequency lowering processing for listeners with significant hearing loss，Proceeding of ICECS” 99· v〇i 2, p741〜744, 1999之論文中更提出語音訊號經頻率轉移處理之後再增加頻譜的能量峰值，以增加語音辨識效果。然而上述所提及相關頻率轉移處理技術的論文中，皆假設原訊號的頻寬為取樣頻率的一半，而將此固定的頻寬轉移至聽障者的聽覺頻寬。由於語音信號的頻寬會依不同的語音類型或說話者的發音特性而不同，我們發現倘若皆施以固定的頻率轉移函數，則頻寬較窄的語音訊號經頻率轉移處理後會產生較大的頻譜形狀誤差，因此降低處理後語音可 6 200832359 P52950074TW 22309twf.doc/n 辨識的效果。美國第20040175010號專利案中提出“Method for frequency transposition in a hearing device and a hearing device” 技術。此專利之内容提出類比人耳聽神經對頻率敏感度分佈之頻率壓縮轉移函數。該轉移函數的主要定義參數為語音訊號的取樣頻率與聽障者的聽覺頻寬，但是依然無法因不同語音頻寬而進行動態調適。【發明内容】本發明提供一種語音訊號處理方法。首先在頻域上估測每一音框語音訊號的實際頻寬，而此實際頻寬為每一個音框旎1集中的頻帶，藉以在壓縮轉移原訊號至低頻帶日守，能充分的利用頻帶能量集中的特性以有效保留頻譜形狀的特徵。而將此訊號頻寬壓縮轉移至低頻帶之目的為使 A號頻I能付合聽障者可感知的聽覺頻寬，以提升聽障者的語音辨識能力。此外，更進一步補償此實際頻寬壓縮轉移後以高頻帶訊號置換低頻帶訊號所降低的能量，以維持原訊5虎整體的能量外型。 ' 本發明提供一種語音訊號處理方法。首先分析出語音訊號的頻寬，藉充分利用能量集中的頻帶以保留這些音框頻譜=狀的特徵。再依據此頻寬動態調整頻寬壓縮轉移至低頻帶的賴缝’以聽減較窄之喊簡縮轉移後造成較大的賴形麟差㈣響聽障者語音賴能力。此外’ i進r步的補償此職雜轉移後以高頻帶訊號置換低頻帶訊賴降低的能量轉持原減整體的能量。 7 200832359 P52950074TW 22309twf.doc/n 本發明提出一種語音訊號處理方法，適用於提升語音辨識旎力，此語音訊號處理方法包括接收語音訊號，其中此語音訊號依據一窗函數可分為多個音框。接著，將每一個曰框轉換至頻域，並估測每一個音框的實際頻寬。再依财際織大小祕碰—鮮轉移函數，並使用此頻率轉移函數對每-個音框的實際頻寬做鮮轉移處理。立本發明另提出-種語音信號處理方法，適用於提升聽卩羊者的叩曰辨識此力，此語音信號處理方法包括接收纽立訊號’其中語音訊號依據-窗函數可分為多個音框。接^ 判，每一個音框是否為高頻部分能量較高之子音。當音框為高頻類之子音時，則估測此音框的實際頻寬，並I使用 -頻率轉移缝將此音框的實際職做解轉移處理，立中頻率轉移函數隨實際頻寬大小而動態調整。一依照本發雜佳實闕所叙語音錢處理方法，其每—個音框是否為高頻類之子音的步驟中更包: 计异每-個音㈣高頻帶平均能量與低頻帶平均能量，以及計算此低解平均能量與此高歸值。當此能量比值祕藏參數鱗，航音框為月高^ 之子音。料齡每—個音框的實際訊使在針對每―個音框進行鮮壓縮轉移至 ^員心，能充分能量射的鱗以保留原有的頻譜升聽障者語音辨識能力。此外更依據每-個曰框訊奴實際航大小，動_整敏魏轉移至 200832359 P52950074TW 22309twf.doc/n 帶的轉換函數，使聽障者能有效感知原屬高頻帶語音頻轉的變化。更進一步的補償因壓縮轉移後以高頻帶訊號置換低頻帶訊號而降低之能量以維持原訊號的能量。為讓本發明之上述和其他目的、特徵和優點能更明顯易懂’下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下。【實施方式】 φ 在說明本發明實施例之前，首先假設本實施例應用在聽障者所使用之助聽器，藉以提升聽障者的語音辨識能力，然而本實施例並不侷限於此範圍，仍可應用在其他範圍，例如：語音轉換器。圖3繪示為本發明之一較佳實施例的語音信號處理方法=流程圖。請參照圖3，首先接收一語音訊號，且使用一窗函數，例如一矩形窗函數，將語音訊號可分為多個音框(S301)，如圖4所示，範圍4(n、4〇2與4〇3各為不同之音框(在此僅圖示3個音框）。接著，再針對每一個音框進肇行快速傅立葉轉換(fast Fourier transform，FFT)之處理(如步驟S302)，在頻域上分析每一個音框之頻譜特性，其冑音訊號在做快速傅立葉轉換處理_先經過取樣以&旦化。里一估測此音，的訊號實際頻寬(如步驟S303)，如圖5 不之方法’言十算此音框頻率fstart赫兹i fs/2赫兹的總能量 E,，以及此音框-預設頻寬赫茲至^赫兹的能量其中fs為語音訊號的取樣頻率。由於人麵話聲音的頻率 9 200832359 r jzy』υυ /4TW 22309twf.doc/n 大多集中在8000赫茲以下，在此假設8〇〇赫茲至8〇〇〇赫茲的能量為總能量E〗。而當此音框預設頻寬的能量&與總能量Ε〗的比值為一預定值時，即可估測出此音框訊號的實際頻帶為0〜fbw赫茲，例如：此預定值若設為〇 9，則取此音框約佔總能量九成的頻寬為實際頻寬。將每一音框取得之實際頻寬調整至聽障者可感知的頻寬範圍内，亦即將此訊號經過頻率壓縮處理，藉以轉移至 φ 低頻帶（即步驟S304)，而幫助耳朵聽覺頻寬較小的聽障者感知語音。而在此舉例說明頻率轉移處理為利用一頻率轉移函數/’=1_75_：抓^11(//1〇〇(^)/(：；?)，將此實際頻寬壓縮轉移至低頻帶，其中/為壓縮轉移前的頻率，而/，為壓縮轉移後的頻率，且Ci?為依據估測之實際頻寬大小所產生的動悲調整餐數，亦即隨著每一個音框訊號之實際頻寬大小而動態调整頻率轉移函數，藉以針對每一個音框的頻譜特性做適當的頻率轉移處理。 ' 而動態調整參數Ci? = arctan(/㈣/lOOoV^/arctanC^ /lOOoV^)，其馨中尨為估測之實際頻寬，且Λ為聽障者可感知的頻寬，此動悲調整參數之調整主要目的為避免如頻寬較窄的語音信號，假設施以固定的頻率轉移函數，會致使壓縮轉移後產生較大的頻譜形狀誤差，因而降低壓縮轉移後語音訊號可辨識的效果。如圖6所示，假設聽障者所感知的頻寬入與壓縮轉移前的輸入訊號頻寬/固定(例如/吋㈧❹赫茲），當估測之實際頻寬/_越小，動態調整參數Ci?越小，則壓縮轉矛夕後《有效的成5虎頻I中取得的的頻率點數較多，因'此即可避免頻寬較窄的語音訊號壓縮轉移太過，造成頻譜形狀 200832359 P52950074TW 22309twf.doc/n 誤差在經過頻率轉移處理之後，由於將每—音框的訊，頻寬縮轉移至低頻帶，可能造成能量降低，因此^能 1維持不變為糊’補償每—個音框崎低的能量(即步驟 S3〇5)。在此舉例說明能量補償處理之方式為分別計算每一 =音框做辭轉移處縣後的能量值，定祕理前後的能，比值為增益值，再將每—個音框做頻率轉移處理後各頻率的頻，乘上3值^^成能量娜之動作。例 ’其中卿)與而⑽)分別為弟/個a框做頻率轉移處理前與頻率轉移處理後個頻率之頻譜值’ *能量補償後之鱗值如)=㈣⑽， ’其中N為每—個音框經快速傅立葉轉換後頻率取樣點數。 ^最後’再將每—個音框_快速反傅立葉轉換(inverse 細F0urier transform，IFFT)之處理，即可轉換為時域上的语音訊號(即步驟S3〇6)。因此藉由本實施例之實施可以調整語音訊敍猶者可.的職範_，制提升語音辨識能力的目的。如上述之說明，圖7A、圖7B以及圖％繪示為本發明之—触實施_語音峨處理方法之示圖。請參照圖7A、圖7B以及圖7C，首統測語音訊& 的每-個音框的實際頻寬，如圖7A所示，選擇能量隼中的頻帶701為實際頻寬。接著將此實際頻X 7〇1經頻率轉移處理’如圖7B所示’將此實際駐壓轉移至聽障者 2感知：頻見702。之後再對此頻率轉移處理後的實際頻見做能量補償之處理’如圖W之曲線期為能量補償後 11 200832359 rjz.yjvufATW 22309twf.doc/n 之頻譜值。虛田，4本發θ 3 l佳實施例巾將此語音訊號處理方法 2在，2頻類子音之語音辨識能力，圖⑽示為本發 2 例的語音訊號處理方法之流程圖。請參照

:，/丨^先’/接收―語音訊號，其中語音訊號依據一窗函你士 Γ、矩形固函數可分為多個音框(即步驟s801)。由二”紀，化的聽力受損現象為喪失高頻訊號的感二，’:了提ί對1^頻類子音的辨識能力，因此判斷每-個為高，率之子音(即步驟驗），再針對高頻類子處理’讓聽障者可以以較低頻帶的車父仏I力來辨識這些高頻類的子音。在此舉例朗如何_每—個音框是否為高頻率之 =方^ ’如圖9所示，計算此音框頻率〇赫兹至右⑽赫

Ei°w與此音框頻率u赫兹至w赫兹冋如7平均心£_的—能量比值。當此能量比值小於-預設參數值時’即可判斷此音框為高頻率之子音。接著便針對此高鮮之子音騎辭轉移之處㈣及頻率補 Ϊ之處理，以下步驟如上述圖3實關之制，故不加以贅述。接著，藉由模擬實驗比較本發明之較佳實施例盘習知技術。如圖10A、圖10B與圖1〇c所示，圖為語音訊號做頻率轉移處理前的頻譜，圖應為本發明實施例對語音訊號做頻率轉移處理後的頻譜，而圖1GC為習知技術中對語音訊舰_定的鮮轉移函㈣處理。圖· 1001的頻譜經本發明實施例頻率轉移處理後，仍齡有原 12 200832359 rjzyjw/4TW 22309twf.doc/u 頻譜值的大小(如圖1GB中範圍刪 _ 施以固定頻率轉移函數的處理後，告經習知技術

中範圍1003所示）。 σ化成失真(如圖10C 此外，耩由實驗證明本發者子音之語音辨識能力的效果，首“I::，升高頻類中高頻類子音，如1|、〈、丁、生Ί衣'"曰貪料包含華語匚等中文音續，而錄製的語音資料包含四17今、Λ、性，亦即不同的說話者所錄製的j <男性及四位女料經三種處理方法’分別為=：：曰貝科。而將此語音資法二：習知固定頻率轉移函數nU轉移處理，方 =態調整頻率轉移函數之處 ::二=: 頻率為16000赫兹。，、r扣曰訊旎的取樣 ιί設聽障者的聽覺頻寬為_ 二種處理方法的語音資跡鉍將上述分別經波器處理，以模擬發障者丁項見為2000赫兹的低通濾常者進_驗。1見之方法’再針對15位聽力正與正確ϊΐΐ有ί 3目门如圖11所示，設計三項誘答選項處理方同但如^ 土翌兰確率(％) 553% 83.0% ~~----- 87.7% 、处所述，本^ 估測 13

200832359 P52950074TW 22309twf.doc/n 每曰訊射每—個音框能量集中的實際頻寬，並且依據此估測之實際頻寬大小動態調整頻率轉移函數，使得纽立號在頻率轉移處理時能充分的利用能量集中 ^伴留頻譜形狀的特徵’崎低解轉移處理失^ :除此之外，本發明所提出之語音訊號處理方饧經頻率轉移處理後所降低的能量。另外，更牛升兩頻類子音的語音辨識能力。〆剌已崎佳實闕揭露如上，然其並非用以限疋本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範_，#可作些許之更動與潤倚，因此本發明之賴翻#視後社_請專職圍所界定者為準。【圖式簡單說明】圖1A繪示為日常聲音大小與頻率大小之分布圖。圖1B繪示為隨年齡老化之聽力受損者之聽力分布圖圖2繪示為習知頻率轉移處理方法之流程圖。、圖3繪示為本發明之一較佳實施例的語音訊號處理方法之流程圖。圖4繪示為語音訊號分為多個音框之示意圖。圖5緣示為計算實際頻寬之示意圖。圖6繪示為動態調整參數影響頻率轉移函數輸出頻笋值之不意圖。一圖7A繪示為本發明之一較佳實施例的估測實際頻寬之示意圖。、、 200832359 fdz!/3uu/4TW 22309twf.doc/n 圖7B 之示意圖。繪示為本發明之—較佳實施例的解轉移處理圖7C!會示為本發明之一較佳實施例的能量補償處理之示意圖。圖8繪示為本發明另一較佳實施例的語音訊號處理方法之流程圖。圖9繪示為計算高頻類子音高低頻帶能量之示意圖。

圖10A緣示為語音峨未經解轉減理之頻譜。圖10B緣不為語音訊號經本發明實施例頻率理後之頻譜。圖10C繪示為語音訊號經習知頻率轉移處理後之頻譜。、圖11繪示為本發明實施例的實驗設計題型。【主要元件符號說明】 101:日常聲音發聲頻率與聲音大小分布範圍 102 :子音發聲頻率與聲音大小分布範圍 103 :母音發聲頻率與聲音大小分布範圍 104 :頻寬範圍 105 :聽力臨界值曲線 S201〜S203:習知語音訊號處理方法之流程圖 S301〜S306 :本發明之一較佳實施例的語音訊號處理方法之步驟 401〜403 :音框 E1、E2、Blow、Ehigh :能量 15 200832359 P52950074TW 22309twf.doc/n [start、fbw、flow ··頻率 f；:取樣頻率 701 :實際頻寬 702 :頻率轉移後的頻寬 703 :能量補償後的頻譜值 S801〜S809 :本發明之一較佳實施例的語音訊號處理方法之步驟 1001〜1003 :頻譜範圍

16

Claims

200832359 谓/4TW 22309tw£d〇c/n 十、申請專利範圍： 1. 一種語音訊號處理方法，適用於提升語音辨識能力，包括：接收一語音訊號，其中該語音訊號依據一窗函數分為多個音框； ^ 將每一該些音框轉換至一頻域，並估測每一該些音框的一實際頻寬；以及 φ 依據該實際頻寬的大小動態調整一頻率轉移函數，並使用該頻率轉移函數對該實際頻寬做頻率轉移處理。 2·如申請專利範圍第1項所述之語音訊號處理方法，更包括：計算每一該些音框的總能量與經頻率轉移處理後每一該些音框的能量的一增益值；以及依據該增益值對每一該些音框做能量補償處理。 3·如申請專利範圍第1項所述之語音訊號處理方法，其中估測每一該些音框的該實際頻寬之步驟包括·· 馨冲异母一該些音框的總能量與每一該些音框一預設頻寬的能量的一比值；以及當該比值為一預定值，則該預設頻寬為該實際頻寬。 4·如申请專利範圍第1項所述之語音訊號處理方法’其中對該實際頻寬做頻率轉移處理之步驟包括·· 依據人類感知之聽力頻寬fh與該實際頻寬fuse產生一動調整參數 CR，其中 ci^arctanC/^/lOOOV^/aretanC^/lOOOV^ ; 以及 17 200832359 /4TW 22309twf.doc/n 依據該動態調整參數CR調整該頻率轉移函數f， /=100(^__1311(//100{^)/〇)，其中f為頻率轉移處理前之頻率。 5·如申請專利範圍第1項所述之語音訊號處理方法’其中該頻域為對母一該些音框做快速傅立葉轉換處理。 6·如申請專利範圍第1項所述之語音訊號處理方法，其中該窗函數為矩形窗函數。 7· —種語音訊號處理方法，適用於提升語音辨識能力，包括：接收一語音訊號，其中該語音訊號依據一窗函數分為多個音框；判斷每一該些音框是否為較高頻率之子音；當每一該些音框為較高頻率之子音，則將每一該些音框轉換至一頻域，並估測每一該些音框的一實際頻寬；以及 ' ^ 依據該實際頻寬的大小動態調整一頻率轉移函數，並使用該頻率轉移函數對該實際頻寬做頻率轉移處理。、8·如申請專利範圍第7項所述之語音訊號處理方法’其中判斷每一該些音框是否為較高頻率之子音更包括：計算每一該些音框的一高頻帶平均能量與一低頻帶平均能量；計异該低頻帶平均能量與該高頻帶平均能量的一能量比值；以及當該能量比值小於一預設參數值，則每一該些音框為 18 200832359 P52950074TW 22309twf.doc/n 焉頻率之子音。、9·如中請專·圍第7項所述之語音訊號處理方法，在對該實際頻寬做頻率轉移處理之後更包括：計算每一該些音框的總能量與經頻率轉移處理後每一該些音框的能量的一增益值；以及根據該增盈值對每一該些音框做能量補償處理。 10·如申請專利範圍第7項所述之語音訊號處理方法，其中估測每一該些音框的該實際頻寬之步驟包括：計算每一該些音框總能量與每一該些音框一預設頻寬内能量的一比值；以及當該比值為一預定值，則該預設頻寬為該實際頻寬。 11·如申請專利範圍第7項所述之語音訊號處理方法’其中對該實際頻寬做頻率轉移處理包括：依據人類感知之聽力頻寬fh與該實際頻寬fuse產生一動態調整參數 CR，其中 Ci? = /100〇v^/arctanC^ ; 以及 • 依據該動態調整參數CR調整該頻率轉移函數f， /’=100〇V^tan(arctan(//l〇〇〇V^)/Ci?)，其中 f 為頻率轉移處理前之頻率。 12·如申請專利範圍第7項所述之語音訊號處理方法’其中該頻域為對每一該些音框做快速傅立葉轉換處理。 13·如申請專利範圍第7項所述之語音訊號處理方法，其中該窗函數為矩形窗函數。 19