TWI226600B

TWI226600B - Nasal detection method and device thereof

Info

Publication number: TWI226600B
Application number: TW092105437A
Authority: TW
Inventors: Guo-Shi Li; Bo-Jau Guo
Original assignee: Leadtek Research Inc; Guo-Shi Li; Bo-Jau Guo
Priority date: 2003-03-12
Filing date: 2003-03-12
Publication date: 2005-01-11
Also published as: TW200417989A; US20040181396A1

Description

1226600

玖、發明說明藝iSilliT雾之£氣領5:1 技術領域本發明係關於一種鼻音偵測方法及其裝置，特別是關於一種利用聲音低高音頻比（Voice Low-Frequency to High-Frequency Ratio，VLHR)之一種鼻音偵測方法及其裝置。先前技術人類說話的語言中，不論中外都有富含鼻音的音素 (phoneme)，例如中文語系注音符號中的韻母/门/、/予/、/ 4 /及英文語系中的音標/m/、/η/、/η/等。人類發出鼻音的方式是利用口腔、舌頭及聲帶（velum)的協調，將聲帶的聲音強迫由鼻腔散射而出。鼻音來自於鼻腔的共振，當鼻腔正常通暢時，聲音會適當地經由鼻腔散射而出，而由人類的耳朵解讀成鼻音。當鼻腔阻塞時，將造成聲音無法正常地由鼻部發出，甚或聲音無法經由鼻部散射而出而導致音素的扭曲。若鼻音過度地由鼻部發出，如唇顎裂，在臨床上稱為鼻音過重（hypernasality)。相反地，如果鼻音發出過少，如鼻塞時，臨床上則稱為鼻音過低（htyponasality)，由此可知鼻音的多寡與鼻腔的狀況有其相關性。除了鼻音的多寡外，當鼻塞時，鼻韻母如/门/、/ 4 /等鼻音的成分會因而消失，而造成語言溝通上的障礙。傳統上，醫生必須依靠聽取病人的聲音或檢視病人鼻腔内的情形以作為診斷病人的依據。基本上，傳統方法必須完全仰賴醫生本身的經驗，然而在進行診斷時的環境（如噪音）、醫生當時的身體或精神狀況及病人本身的配合度

H:\HU\T YS\ 麗臺科技中說\8293 5(92-002)\8293 5. D0C

1226600 等都將影響診斷的結果。因此如能建立一套客觀的鼻音偵測方法及裝置，將可輔助醫生做更精準的診斷，且可避免誤診的情況發生。發明内容本發明之目的係提供一種鼻音偵測方法及其裝置，以辨別聲音中的鼻音及非鼻音的部分，以供臨床上的矯正或治療，或可作為聲紋比對的基礎。人類的聲音是由聲帶振動後，經由聲道如喉部、咽部、口腔及鼻道等產生共振後散射而出，其於頻譜上會有一個最低的基本頻率（fundamental frequency)，簡稱基頻，而其餘的共振峰都是基頻的整倍數。本發明即利用該基頻衍生出一參數VLHR，再藉由分析該VLHR的變化，作為聲音矯正的輔助工具。本發明之鼻音偵測方法，包含下列步騾：（1 )擷取一聲音訊號，且將該聲音訊號進行數位取樣；（2)將該聲音訊號經傅立葉轉換（Fourier transfer)為頻率領域（frequency domain) 之訊號以取得該聲音訊號之基頻，該基頻亦可利用自相關 (auto-correlation)法取得；（3)將該基頻乘以一比例因子（ratio factor)來計算一分割頻率，用以將該聲音訊號之頻帶區分成一低頻帶及一高頻帶；（4)分別將該低頻帶及高頻帶之功率加總，以計算一低頻帶功率及一鬲頻帶功率；及（5) 計算一 VLHR，其係該低頻帶功率及該高頻帶功率的比值。藉由分析該VLHR的變化，即可進行鼻音偵測和聲紋比對，以作為聲音矯正或身份辨識之用。

H: \HU\T YS\麗臺科技中說\82935(92-002)\8293 5. D0C 1226600

上述之基頻可選自該頻率區域訊號之第一共振锋的多員率。該比例因子係相鄰整數乘積的平方根，例如2與3 或3與4，即將基頻乘以▲或VG來計算分割頻率。本發明利用一麥克風、一電腦及一顯示器，即可進行上述鼻音的偵測。該電腦包含一音效擷取卡及一程式。該麥克風擷取一聲音訊號後，將該聲音訊號利用該音效擴取卡進行數位取樣，並經由一程式計算該聲音訊號的基頻及分劃頻率，進而計算該聲音訊號之VLHR。之後，將該VLHr 之變化顯示於該顯示器上供分析之用。參照圖1，一鼻音偵測裝置10係利用一高感度的動態麥克風（dynamic microphone) 1 2連接至一電腦主機1 4，並利用該電腦主機1 4内的一音效擷取卡1 4 1做聲音的數位取樣。該電腦主機1 4必須可因應大量資料處理的需求，以即時處理聲音訊號之傅立葉轉換。該電腦主機1 4可執行一程式，將一聲音訊號轉換成頻率領域之訊號，以計算該聲音訊號的基頻及分割頻率，進而得到其VLHR，且即時呈現於一顯示器1 6上，以便即時監控及墙正發音。在本發明之實施例中，該電腦主機14係採用Athlon 850MHz 的中央處理器（CPU)搭配Windows 98作業系統進行實驗。原本聲音訊號係一振幅相對於時間變化的圖形，即所謂的時間領域（time domain)圖形。圖2即為一母音/ 丫 /的時間領域圖形，其縱座標為聲音的振幅（amplitude)，而橫座標為時間，其取樣頻率為22kHz。實務上，聲音的取樣頻率 H:\HU\TYS\ 麗臺科技中說\82935(92-002)\82935.DOC -9- 1226600 ⑷

π I於2〇kHz為隹。接著，將圖2之該聲晉訊號的時以不小刀；間領域圖形經傅立葉轉換為如圖3之頻率領域圖形，以便於後續分析。圖3之縱座標及橫座標分別表示功率及頻率，其傅立葉轉換為每秒1 〇次以上，而傅立葉轉換之頻率的解析度約為10Hz，即該頻率領域之圖形係以每10Hz 相對之功率連線而成。圖3之第一個共振波約在11 3Hz 其即可選作該聲音訊號的基頻。另外’基頻亦可利左右，开用自相關法得到。將基頻乘上一比例因子定義為切割頻，續比例因子為\lmxn或其類推的倍數，其中的m及w係相鄰的整數。一般而言’該切割頻率需取在功率較低的地方，經驗值顯示以m = 2、" = 3或所=3、《 = 4之組合為佳，即該切割頻率可由基頻乘上^或^而得。聲音的頻譜依該切割頻率可分為低頻帶及高頻帶。就圖 3而言，其低頻帶介於65HZ與切割頻率之間，高頻帶則介於切割頻率與1 0 0 0 Η z之間。將低頻帶及高頻帶之各功率加總，即可得低頻帶功率及高頻帶功率。該低頻帶功率與高頻帶功率之比值即A VLHR，其斜應於時間的圖形如圖4所示。替發音的VLHR 杨大的差異，證的變化，至少在參照圖5，其係母音/ 丫 /及其鼻音/厶/交結果。圖5顯示其/ 丫 /及/厶/之VLHR有明在母音鼻音化後，其VLHR將產生極大 / 丫 /這個母音是如此。圖6係本發明之鼻音偵測流程圖。首先 ~用一高感度的動態麥克風擷取聲音訊號，將該訊號加以1 攻大及濾波，並 H:\HU\TYS\麗臺科技中說\82935(92-002)\82935.D〇C -10- 1226600 ⑸ wim 把原為類比的聲音訊號進行數位取樣，且製出該聲音訊號的時間領域圖形。接著以#立葉轉換計算各頻冑的功率：氣作頻率領域圖形，再根據該頻率領域圖形找出第一共振峰作為基頻。另外基頻亦可利用該時間領域訊號以自相關法取得相關曲線學值來得到。將該基頻乘以相鄰整數乘積 <平方根以得到分割頻率。以分割頻率為界限，區分為高頻及低頻頻帶，且分別將低頻及高頻頻帶之功率加總，即可得低頻帶功率及高頻帶功率。最後，以該低頻帶功率除以該高頻帶功率即可得VLHR。由上述的實驗可知，VLHR可反映出鼻音的大小。當鼻晉高時，VLHR會提高，鼻音低時VLHR會降低，故藉由 VLHR即可分析聲音中鼻音的使用量。不當的鼻音成分可月匕k成语骨辨識上的困難，即不易聽懂而造成語5溝通上的障礙。若能於發音時配合VLHR的即時變化以顯示鼻音大小是否適當，即可適時配合不同的發音策略以進行矯正。雖然基於不同的切割頻率下可能使得其VLHR不盡相同，但標準化後均可作為各個母音的參考。不管是不是鼻骨，發音若不是落在標準值的容許範園内即視為發音異常’故本發明可作為即時的語音矯正的輔助工具。 VLHR亦可作為各種不同鼻音辨識上的索引，以供語音辨識之用。此外，在人為合成語音應用方面，如電子耳， VLHR可作為一重要的指標，當聲音放大或變小時，VLHR 仍需要保持母音應有的數值以保持其鼻音特性。 H.\HU\TYS\ 麗臺科技中說\82935(92-002)\82935,DOC -11 - 1226600 ⑹ 各人的鼻部構造都不盡相同，故各個母音丨所不同。換言之，不同的VLHR即可代表不故將每人的聲音的VLHR建成資料庫後，可；以作為身份辨別之用。本發明之技術内容及技術特點巳揭示如上項技術之人士仍可能基於本發明之教示及系不背離本發明精神之替換及修飾。因此，本，圍應不限於實施例所揭示者，而應包括各種；之替換及修飾，並為以下之申請專利範圍所圖式簡單說明圖1顯示本發明之鼻音偵測裝置；圖2至圖4顯示本發明之VLHR之取得方圖5係本發明之鼻音偵測方法之一測試實圖6係本發明之鼻音偵測方法之流程圖。元件符號說明 1 〇鼻音偵測裝置 1 2動態麥克風 1 4 電腦主機 16 顯示器 1 4 1 音效擷取卡發明_，績》 9 VLHR亦有司發音構造， J用聲紋比對，然而熟悉本丨示而作種種卜明之保護範 ;背離本發明涵蓋。法；例；及 H: \HU\T YS\ 麗臺科技中說\8293 5(92-002)\8293 5. DOC -12-

Claims

1226600 拾、申請專利範圍 1 · 一種鼻音偵測方法，包含下列步騾：擷取一聲音訊號；計算該聲音訊號之基頻；由該基頻計算出一分割頻率，用以將該聲音訊號區分成一低頻帶及一高頻帶；計算該低頻帶及高頻帶之功率；及依據該低頻帶及高頻帶之功率比值，計算一聲音低高 _ 音頻比。 2.如申請專利範圍第1項之鼻音偵測方法，其中該基頻係該聲音訊號經傅立葉轉換成頻率領域之第一共振峰之頻率。 3 ·如申請專利範圍第1項之鼻音偵測方法，其中該分割頻率係由該基頻乘以一比例因子而得。 4.如申請專利範圍第1項之鼻音偵測方法，其中該低頻帶及高頻帶之功率係分別由該低頻帶及高頻帶之功率加 φ 總而得。 5 ·如申請專利範圍第3項之鼻音偵測方法，其中該比例因子係相鄰整數乘積的平方根。 6 ·如申請專利範圍第3項之鼻音偵測方法，其中該比例因子為W及中之一者。 7.如申請專利範圍第1項之鼻音偵測方法，其中該聲音訊號的取樣頻率不小於20ΚΗζ。 8 ·如申請專利範圍第2項之鼻音偵測方法，其中該傅立葉申譜專鋼範爵續1 1226600 轉換的頻率大於每秒1 〇次。 9. 一種鼻音偵測裝置，包含：一麥克風，用以擷取一聲音訊號；一電腦主機，包含：一音效擷取卡，用以將該聲音訊號進行數位取樣；及一程式，用以計算該聲音訊號的基頻及分割頻率，進而計算該聲音訊號之聲音低高音頻比；以及一顯示器，用以顯示該聲音低高音頻比的變化。 1 0.如申請專利範圍第9項之鼻音偵測裝置，其中該程式係利用傅立葉轉換將該聲音訊號轉換為頻率領域之訊號，以計算該聲音訊號的基頻及分割頻率。 1 1 ·如申請專利範圍第9項之鼻音偵測裝置，其中該音效擷取卡之取樣頻率不小於20KHz。 1 2.如申請專利範圍第1 0項之鼻音偵測裝置，其中該傅立葉轉換的頻率大於每秒1 〇次。