TWI226600B - Nasal detection method and device thereof - Google Patents

Nasal detection method and device thereof Download PDF

Info

Publication number
TWI226600B
TWI226600B TW092105437A TW92105437A TWI226600B TW I226600 B TWI226600 B TW I226600B TW 092105437 A TW092105437 A TW 092105437A TW 92105437 A TW92105437 A TW 92105437A TW I226600 B TWI226600 B TW I226600B
Authority
TW
Taiwan
Prior art keywords
frequency
sound
nasal
frequency band
low
Prior art date
Application number
TW092105437A
Other languages
English (en)
Other versions
TW200417989A (en
Inventor
Guo-Shi Li
Bo-Jau Guo
Original Assignee
Leadtek Research Inc
Guo-Shi Li
Bo-Jau Guo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leadtek Research Inc, Guo-Shi Li, Bo-Jau Guo filed Critical Leadtek Research Inc
Priority to TW092105437A priority Critical patent/TWI226600B/zh
Priority to US10/687,026 priority patent/US20040181396A1/en
Publication of TW200417989A publication Critical patent/TW200417989A/zh
Application granted granted Critical
Publication of TWI226600B publication Critical patent/TWI226600B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

1226600
玖、發明說明 藝iSilliT雾之£氣領5:1 技術領域 本發明係關於一種鼻音偵測方法及其裝置,特別是關於 一種利用聲音低高音頻比(Voice Low-Frequency to High-Frequency Ratio,VLHR)之一種鼻音偵測方法及其裝置。 先前技術 人類說話的語言中,不論中外都有富含鼻音的音素 (phoneme),例如中文語系注音符號中的韻母/门/、/予/、/ 4 /及英文語系中的音標/m/、/η/、/η/等。人類發出鼻音 的方式是利用口腔、舌頭及聲帶(velum)的協調,將聲帶的 聲音強迫由鼻腔散射而出。鼻音來自於鼻腔的共振,當鼻 腔正常通暢時,聲音會適當地經由鼻腔散射而出,而由人 類的耳朵解讀成鼻音。當鼻腔阻塞時,將造成聲音無法正 常地由鼻部發出,甚或聲音無法經由鼻部散射而出而導致 音素的扭曲。若鼻音過度地由鼻部發出,如唇顎裂,在臨 床上稱為鼻音過重(hypernasality)。相反地,如果鼻音發出 過少,如鼻塞時,臨床上則稱為鼻音過低(htyponasality), 由此可知鼻音的多寡與鼻腔的狀況有其相關性。 除了鼻音的多寡外,當鼻塞時,鼻韻母如/门/、/ 4 /等 鼻音的成分會因而消失,而造成語言溝通上的障礙。 傳統上,醫生必須依靠聽取病人的聲音或檢視病人鼻腔 内的情形以作為診斷病人的依據。基本上,傳統方法必須 完全仰賴醫生本身的經驗,然而在進行診斷時的環境(如 噪音)、醫生當時的身體或精神狀況及病人本身的配合度
H:\HU\T YS\ 麗臺科技中說\8293 5(92-002)\8293 5. D0C
1226600 等都將影響診斷的結果。因此如能建立一套客觀的鼻音偵 測方法及裝置,將可輔助醫生做更精準的診斷,且可避免 誤診的情況發生。 發明内容 本發明之目的係提供一種鼻音偵測方法及其裝置,以辨 別聲音中的鼻音及非鼻音的部分,以供臨床上的矯正或治 療,或可作為聲紋比對的基礎。 人類的聲音是由聲帶振動後,經由聲道如喉部、咽部、 口腔及鼻道等產生共振後散射而出,其於頻譜上會有一個 最低的基本頻率(fundamental frequency),簡稱基頻,而其餘 的共振峰都是基頻的整倍數。本發明即利用該基頻衍生出 一參數VLHR,再藉由分析該VLHR的變化,作為聲音矯 正的輔助工具。 本發明之鼻音偵測方法,包含下列步騾:(1 )擷取一聲 音訊號,且將該聲音訊號進行數位取樣;(2)將該聲音訊 號經傅立葉轉換(Fourier transfer)為頻率領域(frequency domain) 之訊號以取得該聲音訊號之基頻,該基頻亦可利用自相關 (auto-correlation)法取得;(3)將該基頻乘以一比例因子(ratio factor)來計算一分割頻率,用以將該聲音訊號之頻帶區分 成一低頻帶及一高頻帶;(4)分別將該低頻帶及高頻帶之 功率加總,以計算一低頻帶功率及一鬲頻帶功率;及(5) 計算一 VLHR,其係該低頻帶功率及該高頻帶功率的比 值。藉由分析該VLHR的變化,即可進行鼻音偵測和聲紋 比對,以作為聲音矯正或身份辨識之用。
H: \HU\T YS\麗臺科技中說\82935(92-002)\8293 5. D0C 1226600
上述之基頻可選自該頻率區域訊號之第一共振锋的多員 率。該比例因子係相鄰整數乘積的平方根,例如2與3 或3與4,即將基頻乘以▲或VG來計算分割頻率。 本發明利用一麥克風、一電腦及一顯示器,即可進行上 述鼻音的偵測。該電腦包含一音效擷取卡及一程式。該麥 克風擷取一聲音訊號後,將該聲音訊號利用該音效擴取卡 進行數位取樣,並經由一程式計算該聲音訊號的基頻及分 劃頻率,進而計算該聲音訊號之VLHR。之後,將該VLHr 之變化顯示於該顯示器上供分析之用。 參照圖1,一鼻音偵測裝置10係利用一高感度的動態 麥克風(dynamic microphone) 1 2連接至一電腦主機1 4,並利 用該電腦主機1 4内的一音效擷取卡1 4 1做聲音的數位取 樣。該電腦主機1 4必須可因應大量資料處理的需求,以 即時處理聲音訊號之傅立葉轉換。該電腦主機1 4可執行 一程式,將一聲音訊號轉換成頻率領域之訊號,以計算該 聲音訊號的基頻及分割頻率,進而得到其VLHR,且即時 呈現於一顯示器1 6上,以便即時監控及墙正發音。在本 發明之實施例中,該電腦主機14係採用Athlon 850MHz 的中央處理器(CPU)搭配Windows 98作業系統進行實驗。 原本聲音訊號係一振幅相對於時間變化的圖形,即所謂 的時間領域(time domain)圖形。圖2即為一母音/ 丫 /的時間 領域圖形,其縱座標為聲音的振幅(amplitude),而橫座標 為時間,其取樣頻率為22kHz。實務上,聲音的取樣頻率 H:\HU\TYS\ 麗臺科技中說\82935(92-002)\82935.DOC -9- 1226600 ⑷
π I於2〇kHz為隹。接著,將圖2之該聲晉訊號的時 以不小刀; 間領域圖形經傅立葉轉換為如圖3之頻率領域圖形,以便 於後續分析。圖3之縱座標及橫座標分別表示功率及頻 率,其傅立葉轉換為每秒1 〇次以上,而傅立葉轉換之頻 率的解析度約為10Hz,即該頻率領域之圖形係以每10Hz 相對之功率連線而成。圖3之第一個共振波約在11 3Hz 其即可選作該聲音訊號的基頻。另外’基頻亦可利 左右,开 用自相關法得到。將基頻乘上一比例因子定義為切割頻 ,續比例因子為\lmxn或其類推的倍數,其中的m及w係 相鄰的整數。一般而言’該切割頻率需取在功率較低的地 方,經驗值顯示以m = 2、" = 3或所=3、《 = 4之組合為佳, 即該切割頻率可由基頻乘上^或^而得。 聲音的頻譜依該切割頻率可分為低頻帶及高頻帶。就圖 3而言,其低頻帶介於65HZ與切割頻率之間,高頻帶則 介於切割頻率與1 0 0 0 Η z之間。將低頻帶及高頻帶之各功 率加總,即可得低頻帶功率及高頻帶功率。該低頻帶功率 與高頻帶功率之比值即A VLHR,其斜應於時間的圖形如 圖4所示。 替發音的VLHR 杨大的差異,證 的變化,至少在 參照圖5,其係母音/ 丫 /及其鼻音/厶/交 結果。圖5顯示其/ 丫 /及/厶/之VLHR有 明在母音鼻音化後,其VLHR將產生極大 / 丫 /這個母音是如此。 圖6係本發明之鼻音偵測流程圖。首先 ~用一高感度的 動態麥克風擷取聲音訊號,將該訊號加以1 攻大及濾波,並 H:\HU\TYS\麗臺科技中說\82935(92-002)\82935.D〇C -10- 1226600 ⑸ wim 把原為類比的聲音訊號進行數位取樣,且製出該聲音訊號 的時間領域圖形。接著以#立葉轉換計算各頻冑的功率: 氣作頻率領域圖形,再根據該頻率領域圖形找出第一共振 峰作為基頻。另外基頻亦可利用該時間領域訊號以自相關 法取得相關曲線學值來得到。將該基頻乘以相鄰整數乘積 <平方根以得到分割頻率。以分割頻率為界限,區分為高 頻及低頻頻帶,且分別將低頻及高頻頻帶之功率加總,即 可得低頻帶功率及高頻帶功率。最後,以該低頻帶功率除 以該高頻帶功率即可得VLHR。 由上述的實驗可知,VLHR可反映出鼻音的大小。當鼻 晉高時,VLHR會提高,鼻音低時VLHR會降低,故藉由 VLHR即可分析聲音中鼻音的使用量。不當的鼻音成分可 月匕k成语骨辨識上的困難,即不易聽懂而造成語5溝通上 的障礙。若能於發音時配合VLHR的即時變化以顯示鼻音 大小是否適當,即可適時配合不同的發音策略以進行矯 正。 雖然基於不同的切割頻率下可能使得其VLHR不盡相 同,但標準化後均可作為各個母音的參考。不管是不是鼻 骨,發音若不是落在標準值的容許範園内即視為發音異 常’故本發明可作為即時的語音矯正的輔助工具。 VLHR亦可作為各種不同鼻音辨識上的索引,以供語音 辨識之用。此外,在人為合成語音應用方面,如電子耳, VLHR可作為一重要的指標,當聲音放大或變小時,VLHR 仍需要保持母音應有的數值以保持其鼻音特性。 H.\HU\TYS\ 麗臺科技中說\82935(92-002)\82935,DOC -11 - 1226600 ⑹ 各人的鼻部構造都不盡相同,故各個母音丨 所不同。換言之,不同的VLHR即可代表不 故將每人的聲音的VLHR建成資料庫後,可; 以作為身份辨別之用。 本發明之技術内容及技術特點巳揭示如上 項技術之人士仍可能基於本發明之教示及系 不背離本發明精神之替換及修飾。因此,本, 圍應不限於實施例所揭示者,而應包括各種; 之替換及修飾,並為以下之申請專利範圍所 圖式簡單說明 圖1顯示本發明之鼻音偵測裝置; 圖2至圖4顯示本發明之VLHR之取得方 圖5係本發明之鼻音偵測方法之一測試實 圖6係本發明之鼻音偵測方法之流程圖。 元件符號說明 1 〇鼻音偵測裝置 1 2動態麥克風 1 4 電腦主機 16 顯示器 1 4 1 音效擷取卡 發明_,績》 9 VLHR亦有 司發音構造, J用聲紋比對 ,然而熟悉本 丨示而作種種 卜明之保護範 ;背離本發明 涵蓋。 法; 例;及 H: \HU\T YS\ 麗臺科技中說\8293 5(92-002)\8293 5. DOC -12-

Claims (1)

1226600 拾、申請專利範圍 1 · 一種鼻音偵測方法,包含下列步騾: 擷取一聲音訊號; 計算該聲音訊號之基頻; 由該基頻計算出一分割頻率,用以將該聲音訊號區分 成一低頻帶及一高頻帶; 計算該低頻帶及高頻帶之功率;及 依據該低頻帶及高頻帶之功率比值,計算一聲音低高 _ 音頻比。 2.如申請專利範圍第1項之鼻音偵測方法,其中該基頻係 該聲音訊號經傅立葉轉換成頻率領域之第一共振峰之 頻率。 3 ·如申請專利範圍第1項之鼻音偵測方法,其中該分割頻 率係由該基頻乘以一比例因子而得。 4.如申請專利範圍第1項之鼻音偵測方法,其中該低頻帶 及高頻帶之功率係分別由該低頻帶及高頻帶之功率加 φ 總而得。 5 ·如申請專利範圍第3項之鼻音偵測方法,其中該比例因 子係相鄰整數乘積的平方根。 6 ·如申請專利範圍第3項之鼻音偵測方法,其中該比例因 子為W及中之一者。 7.如申請專利範圍第1項之鼻音偵測方法,其中該聲音訊 號的取樣頻率不小於20ΚΗζ。 8 ·如申請專利範圍第2項之鼻音偵測方法,其中該傅立葉 申譜專鋼範爵續1 1226600 轉換的頻率大於每秒1 〇次。 9. 一種鼻音偵測裝置,包含: 一麥克風,用以擷取一聲音訊號; 一電腦主機,包含: 一音效擷取卡,用以將該聲音訊號進行數位取 樣;及 一程式,用以計算該聲音訊號的基頻及分割頻 率,進而計算該聲音訊號之聲音低高音頻比;以及 一顯示器,用以顯示該聲音低高音頻比的變化。 1 0.如申請專利範圍第9項之鼻音偵測裝置,其中該程式 係利用傅立葉轉換將該聲音訊號轉換為頻率領域之訊 號,以計算該聲音訊號的基頻及分割頻率。 1 1 ·如申請專利範圍第9項之鼻音偵測裝置,其中該音效 擷取卡之取樣頻率不小於20KHz。 1 2.如申請專利範圍第1 0項之鼻音偵測裝置,其中該傅立 葉轉換的頻率大於每秒1 〇次。
TW092105437A 2003-03-12 2003-03-12 Nasal detection method and device thereof TWI226600B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW092105437A TWI226600B (en) 2003-03-12 2003-03-12 Nasal detection method and device thereof
US10/687,026 US20040181396A1 (en) 2003-03-12 2003-10-16 Nasal sound detection method and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW092105437A TWI226600B (en) 2003-03-12 2003-03-12 Nasal detection method and device thereof

Publications (2)

Publication Number Publication Date
TW200417989A TW200417989A (en) 2004-09-16
TWI226600B true TWI226600B (en) 2005-01-11

Family

ID=32960713

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092105437A TWI226600B (en) 2003-03-12 2003-03-12 Nasal detection method and device thereof

Country Status (2)

Country Link
US (1) US20040181396A1 (zh)
TW (1) TWI226600B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083093A1 (en) * 2002-10-25 2004-04-29 Guo-She Lee Method of measuring nasality by means of a frequency ratio
WO2008140417A1 (en) * 2007-05-14 2008-11-20 Agency For Science, Technology And Research A method of determining as to whether a received signal includes a data signal
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN118522288B (zh) * 2024-07-24 2024-10-15 山东第一医科大学附属省立医院(山东省立医院) 基于声纹识别的耳鼻喉科患者身份验证方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3679830A (en) * 1970-05-11 1972-07-25 Malcolm R Uffelman Cohesive zone boundary detector
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US6850882B1 (en) * 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech

Also Published As

Publication number Publication date
TW200417989A (en) 2004-09-16
US20040181396A1 (en) 2004-09-16

Similar Documents

Publication Publication Date Title
Khan et al. Classification of speech intelligibility in Parkinson's disease
Kuresan et al. Fusion of WPT and MFCC feature extraction in Parkinson’s disease diagnosis
Kapoor et al. Parkinson’s disease diagnosis using Mel-frequency cepstral coefficients and vector quantization
Khan et al. Cepstral separation difference: A novel approach for speech impairment quantification in Parkinson's disease
Dubey et al. Detection of hypernasality based on vowel space area
Tatar et al. Normative values of voice analysis parameters with respect to menstrual cycle in healthy adult Turkish women
Drugman et al. Tracheoesophageal speech: A dedicated objective acoustic assessment
KR20140134443A (ko) 음성신호의 특징벡터를 이용한 연하장애 판단방법
Jalalinajafabadi et al. Perceptual evaluation of voice quality and its correlation with acoustic measurement
CN112820319A (zh) 一种人类鼾声识别方法及其装置
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Zealouk et al. Analysis of COVID-19 resulting cough using formants and automatic speech recognition system
TWI226600B (en) Nasal detection method and device thereof
Akafi et al. Assessment of hypernasality for children with cleft palate based on cepstrum analysis
Schultz et al. A tutorial review on clinical acoustic markers in speech science
Orellana et al. Vowel characterization of Spanish speakers from Antioquia–Colombia using a specific-parameterized discrete wavelet transform analysis
Sengupta et al. Optimization of cepstral features for robust lung sound classification
WO2016207951A1 (ja) シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体
Kons et al. On feature extraction for voice pathology detection from speech signals
CN104605886B (zh) 喘鸣音检测装置和方法
Torabinenezhad et al. Acoustic parameters in Persian-speaking patients with dysphonia
Cesarini et al. Machine Learning-based Study of Dysphonic Voices for the Identification and Differentiation of Vocal Cord Paralysis and Vocal Nodules.
Le et al. Cough sound recognition based on Hilbert marginal spectrum
JP6782940B2 (ja) 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム
KR20190041011A (ko) 연하 진단 장치 및 프로그램

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees