TW201243824A - Voice-estimation based on real-time probing of the vocal tract - Google Patents

Voice-estimation based on real-time probing of the vocal tract Download PDF

Info

Publication number
TW201243824A
TW201243824A TW100143600A TW100143600A TW201243824A TW 201243824 A TW201243824 A TW 201243824A TW 100143600 A TW100143600 A TW 100143600A TW 100143600 A TW100143600 A TW 100143600A TW 201243824 A TW201243824 A TW 201243824A
Authority
TW
Taiwan
Prior art keywords
signal
processor
channel
segment
sequence
Prior art date
Application number
TW100143600A
Other languages
English (en)
Inventor
Dale D Harman
Lothar Benedikt Moeller
Original Assignee
Alcatel Lucent Usa Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent Usa Inc filed Critical Alcatel Lucent Usa Inc
Publication of TW201243824A publication Critical patent/TW201243824A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

201243824 六、發明說明: 【發明所屬之技術領域】 本發明係關於通信設備,且更明確言之(但不排外地)本 發明係關於聲音估計器件及利用其之通信系統。 【先前技術】 本章節介紹可幫助促進對本發明更好理解的態樣。相應 地,本早節的陳述按照此而解讀,且不應理解為供認什麼 在先前技術中或什麼不在先前技術中。 儘管在過去的十年中蜂巢式電話的使用已迅速增長但 仍然存在使用一習知蜂巢式電話並不實體上可行及/或在 社交上可接受的情況。例如,在一夜總會、迪斯科舞應或 飛行的航行器中一相對較喧吵的背景雜訊可能致使致予一 遠端方的語音變得聽不到及/或不清楚。另外,在一集 會、會議、電影院或表演中進行蜂巢式電話交談一般被視 為粗魯的’且因而通常不能忍受1天對於大多數此等情 況的回應是關閉蜂巢式電話或若實體上可行,離開喧鬧或 敏感的區域’以找到一更好的地方進行通話。 【發明内容】 本文中揭示一聲音估計(VE)器件的多種實施例,其用次 臨界聲波探測一使用者的聲道,以在該使用者輕聲講話或 在一喧鬧或社交上敏感的環境中可聽見地講話時估計該使 用者的聲音。由該聲道反射的波經偵測且轉換為一數位信 號,其接著逐片段地處理。基於該處理,對於每一片段決 定一組共振峰頻率。接著分析此每一組,以將一音位 159618.doc 201243824 (ph〇neme)指派至該數位信號的對應片段。所得的音位序 列轉換為一數位音訊信號或表示該使用者被估計的聲音的 文字。 有利地,該VE器件的某些實施例並不依賴於訓練的程 _ 序以變得可操作,且其内實施的語音合成非語言敏感的。 -再者,歸因於事實上音位計算主要依賴於立即反射的脈衝 回應,且並不取決於該聲道較早或較遲取樣,可以一相對 較小的處理延遲而實行語音合成,對比於由可相比的先前 技術器件(例如依賴於語音合成之參考信號庫的器件)實現 的交談’此提供一更自然流暢的交談。 根據一實施例提供一種裝置,該裝置具有將一激發信號 引導至一聲道的一揚聲器,及用於對應於該激發信號而偵 測一聲道回應信號的一麥克風。該裝置進一步具有一數位 信號處理器,該數位信號處理器操作地耦接至該麥克風且 經組態以處理該回應信號的一片段,以決定該聲道之一對 應組的一個或多個共振峰頻率,且進一步處理該組共振峰 頻率’以識別對應於該片段的一音位。 根據另一實施例提供一種數位信號處理器,其用於操作 地耦接至一揚聲器,該揚聲器經組態以將一激發信號引導 • 至一聲道中,且該數位信號處理器操作地耦接至一麥克 風,該麥克風經組態以偵測對應於該激發信號的一聲道回 應#號。戎處理器經組態以處理該回應信號的一片段,以 決疋該聲道的一對應組的—個或多個共振峰頻率,且進一 步處理該組共振峰頻率,以識別對應於該片段的一音位。 159618.doc 201243824 根據又一實施例提供一種合成語音的方法,其具有以下 步驟:將由一揚聲器產生的一激發信號引導至一聲道中; 用一麥克風摘測對應於該激發信號的一聲道回應信號;處 理該回應信號的一片段,以決定該聲道的一對應組的一個 或多個共振峰頻率;及處理該組共振峰頻率,以識別對應 於該片段的 §位。 【實施方式】 本發明之多種實施例的其他態樣、特徵及優點將經由實 例而從下文詳細的描述及附圖變得更完全顯而易見。 圖1展不根據本發明之一實施例之一通信系統丨〇〇的一方 塊圖。系統1〇〇具有一聲音估計(VE)子系統u〇,其可例如 用於偵測輕聲的語音或當其疊加於一粕對喧鬧的聲學背景 上或大體上被一相對喧鬧的聲學背景淹沒時,增強正常語 曰的感知。在例如美國專利申請公開案第2〇1〇/〇131268號 中更詳細解釋輕聲語音的音位,其全文以引用之方式併入 本文中。 簡要地,te聲語音係以一i常方式使聲道的機能活動但 j未強迫聲帶褶(亦通常稱為聲帶)振盪的一音位…般而 a,若跨喉的氣壓差(或聲門下氣壓)並不足夠大,則聲帶 褶將不振盪。當一人自言自語時,可使聲道機能活動, P在沒有產生一聲響或藉由產生低於生理學上感知之臨 限的-聲響時「講tt」。藉由經S「自言自語」的一精神 ^的動作’-人下意識地致使大腦發送適當的信號至控制 «玄聲道中多種發音器官的肌肉,同時防止聲帶稽振盈。眾 159618.doc 201243824 所周知,普通人可以較少的訓練或完全不訓練而輕聲地說 話。輕聲說話與耳語不同,輕聲說話具有高於生理學上感 知臨限的聲響。 VE子系統110依賴於次臨界聲學(STA)即時探測一使用 者102的聲道1〇4的形狀。如本文中所使用,術語「次臨界 聲學」或「STA」涵蓋⑴來自人的音訊頻率範圍的聲波(例 如,介於約15 Hz與約20 kHz之間),其之強度低於一生理 學上感知的臨限(即,由於該波較低的強度,人耳無法感 知)及(ii)超音波(即’準音訊的波,其之頻率高於人的音訊 頻率範圍的上限,例如,高於約2〇 kHz) » VE子系統11〇具有一 STA揚聲器116及可置於接近聲道 104之入口(例如’人1〇2的嘴)的一 STA麥克風118。STA揚 聲器116在一控制器112之控制下操作’且經組態以發射 STA波的短叢發(例如,短於約1毫秒),以探測聲道丨〇4的 形狀。在一代表性的組態中,由STA揚聲器116產生的STA 波的一叢發通過使用者102的嘴進入聲道1〇4,且在該聲道 的多個腔内經歷多次反射。所反射的STA波由STA麥克風 118偵測,且所得的電信號轉換為數位形式,且應用於一 數位信號處理器122,以處理及分析。一數位轉類比(d/a) 轉換器114及一類比轉數位(A/D)轉換器120提供⑴控制器 112與處理器122(其等兩者操作於數位域中)之間及(ϋ)§τΑ 揚聲器116與STA麥克風118(其等兩者操作於類比域中)之 間的一適當介面。控制器112及處理器122可使用一數位信 號匯流排126,以在對於STA揚聲器116的驅動信號的產生 159618.doc 201243824 中及由S ΤΑ麥克風118偵測的回應信號的解迴旋中彼此幫 助。 基於由STA麥克風us產生的信號,處理器122產生對應 於使用者102之輕聲或有雜訊的語音的一估計之聲音信號 124。在一實施例中,估計的聲音信號丨24包括對應於使用 者1 02之聲音的一序列之音位。在另一實施例中,估計的 聲音信號124包括一數位音訊信號,其可用於產生對應於 使用者102之該聲音的一正規可感知的聲響。 如本文中所使用,術語「音位」指辨識聲響區別的一給 定語言系統中潛在有意義的聲響的一最小單位。在一語言 中的每一音位藉由與其他音位對比,在沒有潛在地改變一 詞語的意義時該音位無法被其他音位取代而獲得其識別。 例如,詞語「level」與「revei」之間的一差異辨識指示英 語中/1/與/r/的一音位上的區別(在轉錄時,音位由兩個斜 線指示)。不像一語音音素(speech phone),一音位並非一 實際聲響,而是表示該聲響的一抽象概念。 如本文中所使用,術語「語音音素」指經由音標語音分 析及處理獨特的身體及/或知覺特性而顯露的語音的一基 本單位。例如,用於傳達人類語音的每一不同母音及子音 係一語音音素。如上文參考的美國專利申請公開案第 2010/0131268號中所解釋’對應於輕聲講話的一語音音素 的聲道組態實質上相同於對應於可聽見地講話的相同語音 音素的聲道組態,惟在輕聲說話期間聲帶褶並不振動除 外。 159618.doc 201243824 在-實施例中,VE子系統110係一收發器(例如,一蜂巢 式電話;圖1中未明確展示)的一部分,且以一習知方式連 接至一無線' 有線及/或光學傳輸系統、網路或媒體(帝 j)128。雲端128將估計的聲音信號124傳輸至—遠端收^ 器(例如,蜂巢式電話)14〇β收發器14〇處理運載估計之聲 音信號124的-接收之信號132 ’且將其轉換為發出該估計 之聲音信號的一聲響142。在一替代實施例中,收發器14〇 可將估計之聲音信號124轉換為文字,且接著除播放為聲 響142的該估計之聲音信號之外,或代替該估計之聲音信 號而將該文字顯示於一顯示螢幕上。 圖2展示根據本發明之一實施例的可使用於控制器丨12中 的一驅動電路200的一方塊圖。驅動電路2〇〇產生一數位驅 動信號242,用於在正常或輕聲語音期間以使得處理器122 保持追蹤聲道104變化的聲學特性的一方式刺激STA揚聲 器116(見圖1)。為使VE子系統11〇(圖丨)能夠在一語音音素 期間適當地探測聲道104之組態(形狀),驅動電路2〇〇基於 由一隨機數(RN)產生器210產生的一偽隨機位元列212而產 生數位驅動信號242。RN產生器210將位元序列212施加於 一數位脈衝產生器220,且亦將位元序列之一複本提供至 處理器122。在一實施例中,rn產生器210可為處理器122 之部分或一分離的組件。 在一實施中’位元序列212可具有約五百或一千個位 元,一位元的週期約1 〇微秒。在一替代實施中,位元序列 2 12可明顯長於一千個位元’例如兩千或五千個位元。熟 159618.doc -9- 201243824 習此項技術者將瞭解,一足夠長的位元序列212將比一相 對較短的位元序列212產生更精確地近似於一連續頻譜的 一激發頻譜。具有一連續激發頻譜可為有利的,例如,當 需要偵測聲道104的一相對尖銳聲學諧振時。更明確言 之’ 一相對較長位元序列212之相對較緊密間隔的梳狀線 使得一銳諧振落在兩個鄰近梳狀線之間的可能性減小,且 保持不由VE子系統11 〇偵測。 數位脈衝產生器220將位元序列212轉換為一脈衝序列 222。脈衝序列222可具有⑴對於每一「1」位元序列212的 一激發脈衝及(Π)對於每一「〇」位元序列沒有激發脈衝。 或者’脈衝序列222可具有⑴對於每一「1」位元序列2 12 的一正激發脈衝,及(ii)對於每一「〇」位元序列的一負激 發脈衝。在脈衝序列222中每一激發脈衝可具有任意適宜 形狀(包絡)’諸如高斯或直線形狀,其經由信號224傳達至 處理器122(圖1)。 一乘法器230將一載波信號228注入至脈衝序列222之激 發脈衝包絡令,以產生一未濾波之數位驅動信號232。在 多種組態中,可例如從介於約丨kHz與約丨〇〇 kHzi間的一 範圍選擇該載波頻率。一數位帶通(Bp)濾波器24〇藉由使 信號232經受適當的帶通濾波而產生數位驅動信號242。例 如,若使用一超音波載波頻率,則在濾波器24〇中實施的 π通;慮波移除位於人類音訊頻率範圍中的可能信號分量, 因為此等分量對於使用者102(圖1)係可聽見的。由濾波器 240強加於信號232上的該通頻帶的頻譜形狀經由信號244 159618.doc •10- 201243824 而傳達至處理器122(圖1)。在D/A轉換器ii4中對數位驅動 信號242進行數位轉類比地轉換,且所得的類比信號施加 至STA揚聲器116 ’如圖1中所指示。信號212、224及244 經由信號匯流排126(圖1)而傳輸。 圖3A至圖3B展示根據本發明之一實施例的一處理器 的方塊圖,可使用處理器3〇〇作為處理器以以圖丨)。更明確 吕之’圖3A展示處理器300的一整體方塊圖。圖3B展示實 施於處理器300之一聲道特性化(vTC)模組33〇中的一聲道 模型350 〇 該處理實施於一解迴旋模組31 〇中,且一相關模組32〇用 於決定聲道104的一反射的脈衝回應。如本文中所使用, 術語「脈衝回應」指由聲道丨〇4回應於一單一的非常短的 STA激發脈衝(其由揚聲器U6施加至聲道)而產生的一 STA 回聲信號。在數學上,產生一理想脈衝回應的一理想的激 發脈衝對於連續時間的系統由狄拉克WDirac delta)函數描 述’或對於離散時間的系統由克洛尼克△(Kronecker delta) 函數描述。因為於VE子系統11()中使用的激發脈衝並不理 想’例如’歸因於由脈衝產生器220強加的激發脈衝包絡 及/或由BP濾波器240(見圖2)強加的帶通濾波的有限寬度, 由處理器300從STA麥克風118及/或A/D轉換器120(圖1)接 收的一數位輸入信號3 〇2在解迴旋模組3丨〇中解迴旋,以數 位地移除該激發脈衝包絡及帶通濾波對該STA回聲信號的 影響°在解迴旋程序中,解迴旋模組3 10使用實際激發脈 衝的已知包絡形狀(其經由信號224傳達至該解迴旋模組)及 159618.doc -11- 201243824 帶通濾波器240的頻譜特性(其等經由信號244傳達至該解 迴旋模組)(亦見圖2)。 由解迴旋模組3 1 0產生的一解迴旋數位信號3 12係對應於 脈衝序列222之多個激發脈衝(圖2)的聲道回應的一疊加。 相關模組320發揮作用以藉由將信號3 12與於脈衝序列222 之產生中使用的原始位元序列212關聯而決定聲道1〇4之 「真實」反射的脈衝回應。由解迴旋模組310決定的反射 脈衝回應經由數位信號322而提供至VTC模組330。熟習此 項技術者將瞭解,在相關模組320中實施的處理可類似於 使用於一直接序列展頻(DSSS)通信系統中的一接收器。例 如在美國專利第7,643,535號、第7,324,582號及第 7,088,766號中描述此處理的代表性實例,其等之全文均以 引用之方式併入本文中。可應用於實施在驅動電路2〇〇及 解迴旋模組3 10中執行的信號處理的額外有用技術例如揭 示於由 M.R. Schroeder 在 J. Acoust. Soe. Am,1979, v 66(2),PP. 497-500 中發表的題為 r Integrated_Impulse Method Measuring Sound Decay without Using Impulses j 的論文中,該論文全文以引用之方式併入本文中。 VTC模組330使用經由仏號322而接收的反射脈衝回應, 以決定在音訊頻率範圍(例如,在15 Hz與20 kHz之間的一 頻率範圍中)中聲道1〇4的聲學特性。更明確言之,VTC模 組3 3 0將聲道104視作一波導’其具有沿著其長度而變化之 阻抗。如此項技術中已知’阻抗變動及間斷導致沿著一波 導傳播的一波部分反射回。因此,可藉由將該波導的反射 139618.doc •12· 201243824 脈衝回應模型化為由沿著該波導之長度的阻抗變動/間斷 而導致的多個反射波的一疊加而決定該波導的阻抗分佈。 若必要,該阻抗分佈可轉換為一幾何形狀,其表示那時聲 道104的實際幾何。 . 參考圖3B,模型350表示聲道104作為複數個串聯連接的 - 恆定阻抗階段36〇i,每一恆定阻抗階段特性為一對應的恆 疋阻抗值’其中i—1,2,3,··.Ν。一般而言’ Ν值越大,vtc 模組3 3 0的s十算此力需求越大。在一代表性實施中’ ν介於 5與50之間。 每一階段36〇i具有一向前傳播路徑及一向後傳播路徑。 在圖3B中’不同階段360的向前傳播路徑排列以形成一較 咼分支362,且具有指向右邊的信號箭頭。不同阻抗階段 360的向後傳播路徑類似地排列以形成一較低分支3M,且 具有指向左邊的信號箭頭。 階段36〇i之向前傳播路徑包含一延遲元件372;,其表示 聲道104中對應的恆定阻抗區段的長度。階段36〇i之向後傳 播的路徑包含一類似的延遲元件374^在一替代的聲道模 型中,由元件372;引入的延遲增加兩倍,同時移除延遲元 • 件 374(。 - 四個放大器/衰減器376丨、378丨、380丨及382丨以及兩個加 法器384,及386i模型化階段360|.與36〇i+i之間的阻抗間斷。 由放大器/衰減器376〗、378广380丨及382丨之各者引入的放 大/衰減係數指示於圖3B中,反射係數匕由方程式(1)給 出: I596I8.doc (1) (1)201243824 k : Λ ~~ ^i+l ’4 + 4+1 其中Ai係聲道104中的第i個恆定阻抗區段的橫截面積,且 AN+1=0。加法器384i用於將⑴已經過該阻抗間斷而未被反 射回的向前傳播波之一部分及(ii)已從該阻抗間斷反射的 該向後傳播波之一部分相加。加法器386i類似地用於將⑴ 已從該阻抗間斷反射的向前傳播波之一部分及(ii)未被反 射回地已經過該阻抗間斷而未被反射回的向後傳播波之一 部分相加。 在一實施例中,VTC模組330藉由遞歸地計算在多種延 遲時間每一階段360丨之輸入及輸出信號,且將此等信號與 由信號3 2 2提供的反射脈衝回應相關而決定反射係數。例 如’使用在時間2D該反射的脈衝回應的值而計算反射係數 k!。接著所計算的k〗值用於計算在時間D由加法器384,施 加至延遲元件372;j的輸入信號的振幅。使用⑴在時間4D反 射之脈衝回應的值;(ii)在時間D由加法器384丨施加至延遲 元件372z的輸入信號的計算振幅·,及(in)計算之ki值而計 算反射係數k;2。接著’使用所計算之1^及1<;2值來計算在時 間2D及時間4D由加法器3 842施加至延遲元件3723的輸入信 號的振幅。類似地使用所計算的k,及k2值來計算在時間3D 由延遲元件374z施加至放大器衰減器38(^及382!的輸入信 號的振幅。使用⑴在時間6D該反射之脈衝回應的值;⑴) 反射係數1^及1^ ;及(iii)先前對於階段3601及3602計算的多 種信號振幅而計算反射係數k3。以此方式從階段至階段進 行計算,直到決定所有反射係數。在計算全部組的反射係 159618.doc 201243824 數ki之後’ VTC模組330經由一數位信號332將此組提供至 一語音合成模組340。 熟習此項技術者將瞭解,模型350將每一階段360視作一 單模波導。然而’在某些頻率範圍内,一些階段36〇可支 援多模信號傳播。因此,為改良模型35〇的適用性及精確 性,可能需要結合模型350應用多種空間模式濾波器技 術。 語音合成模組340使用從VTC模組330接收的每一組反射 係數ki,以決定一對應音位。在一實施例中,由語音合成 模組340產生的估計之聲音信號124包括已基於數位信號 332而產生的一序列之音位。在一替代實施例中,估計之 聲音信號124係已由語音合成模組34〇藉由將每一音位轉換 為一對應的音訊信號片段而產生的一數位音訊信號。 在一實施例中’語音合成模組34〇如下將從VTC模組330 接收的一組反射係數ki轉換為一對應音位。 第一,語音合成模組340使用該組反射係數ki以計算— 對應組的共振峰頻率。如本文中所使用,術語「共振峰」 指聲道104的一聲諧振。因為反射係數匕可與聲道1〇4的橫 截面分佈相關(見方程式〇)),所以可以一相對直接的方式 計算共振峰頻率,例如,計算為對應中空形狀(h〇u〇w shape)的諧振頻率。 …第一,使用預定選擇準則而選擇一子組的M個共振峰頻 率,以進-步分析。例如,以該子组最基本的形式,該子 組可由兩個最低共振蜂頻率(即,M=2)組成。或者,對於 159618.doc -15- 201243824 總數目為Μ個的共振峰頻率,該子組可包含來自—第一立 訊頻帶(例如,低於4kHz)的第_選擇數目個共振峰頻率: 及來自一第二音訊頻帶(例如,介於15让沿與汕让沿之間) 的第二選擇數目個共振峰頻率。可類似地使用其他替 擇準則。 第三’該選擇子組的]^個共振峰頻率映射於—音位群集 上。在-實施例中,該音位群集由複數個群集點組成,或 由在一 Μ維頻率空間中鄰近的M維形狀組成,其令每一音 位由至少-_的群集點或㈣的M維形狀表示。基於^ 群集映射,信號332之每-有意義的片段轉換為—對應音 位。 例如,對於三維音位群集(即,M=3),該映射可如下執 行。使用該第-選擇的共振峰之頻率作為該三維頻率空間 ㈣第-座標;使用該第二選擇之共振峰的頻率作為該三 維頻率空間中的第二座標;且作該第三選擇之共振蜂的頻 率作為該三維頻率空間中的第三座標。接著,識別最接近 具有此等三個座標之點的群集點。最後,對應於該識別之 群集點的音位指派至信號332之對應的語音片段。接著對 於k號332的下一片段而重複此程序。 可使用U下考慮而產生於語音合成模組34〇中使用的多 種音位群集。-般而言,共振峰表示人類語音的有區別頻 率分量。在該聲道之-個或多個以下主要腔室中藉由聲错 振而產生大部分共振峰:⑴位於食道與會厭之間的咽腔; (H)由舌頭、牙齒、上顆、㈣及小舌定義的口腔;㈣位 159618.doc •16· 201243824 於牙齒與嘴唇之間的唇腔;及(iv)鼻腔。此等腔的形狀及 因此其等之聲學性質由該聲道中的多種發音器官的位置控 制二諸如軟顎、舌頭、嘴唇、顎等等。最通常而言,知道 最剛面的兩個共振峰頻率(即,最低頻率)足夠消除母音的 歧義。鼻音及子音出於其等的消除歧義可能需要使用多於 兩個共振峰。爆破音及某種程度上的摩擦音修改周圍母音 中共振峰的位置。雙唇音的聲響(諸如「b」及「P」)導致 周圍母音中共振峰更低;舌根音的聲響(諸如「k」及 「g」)幾乎一直展示非常彼此接近的第二共振峰及第三共 振峰,齒槽g的聲響(諸如「t」及「d」)部分取決於母音 自身而致使鄰近母音共振峰中較少的合成變化。人類語音 的此等已知特性及其他已知特性可使用於語音合成模組 340中實施的群集映射技術中。 有利地本發明之貫施例並不依賴於複雜的型樣辨識程 序其中STA回聲信號需要與來自參考回聲回應(RER)的 一較大資料庫或庫的參考回聲回應(RER)對比及匹配。因 為沒有使用RER資料庫或庫,對於將操作的VE子系統 11 〇,不而要VE訓練,且該語音合成非語言敏感的。此 外,歸因於事實上音位計算幾乎依賴於立即的反射脈衝回 應’且並不取決於該聲道較早或較遲取樣,可以一相對較 小的處理延遲而實行語音合成,對比於依賴複雜的型樣辨 識技術的VE系統所實現的交談,此提供一更自然流暢的 交談》 VE子系統11 〇之多種實施例有利地用於發出輕聲的語 1596I8.doc -17· 201243824 曰’其(1)在-喧鬧或社交上敏感的環境中產生;⑴)由一 殘疾人產生’其之聲道具有由於—疾病、出生缺陷或手術 的病理,及/或(ln)在一軍事行動期間產S,例如在敵方 線後方。或者或另夕卜,有利地使用系統的多種實施例 以田正吊δ吾音被周圍聲學雜訊淹沒時改良正常語音的感知 品質。例如,若該雜訊位準係相對可容忍的,則可使用 VE子系統110作為一增補構件,以增強由一習知聲學麥克 風產生的聲音信號。若該雜訊位準介於相對可容忍、與無法 谷〜之中間,則可使用該聲學麥克風作為二級構件,以增 強由VE子系統11()產生之估計的聲音信號的品質。若該雜 訊位準無法容忍,則可關閉該聲學麥克風,且語音信號可 單純基於由VE子系統11 〇產生的估計之聲音信號而產生。 雖然本發明已參考例證性實施例而描述,此描述並不意 欲以限制性意義而解譯。例如,如應用於無線通信,可 於控制器112及/或處理器122的多種替代實施例中使用於 该DSSS技術中使用的方法及途徑,以快速、精確及計算 上有效決定聲道1〇4之脈衝回應(圖丨)。所描述之實施例的 夕種修改以及本發明的其他實施例(其等對於熟習此項技 術者係顯而易見的’本發明適用於其等)被認為屬於下文 申請專利範圍中表達的本發明之原理及範圍内。 除非以別的方式明確陳述,否則每一數字值及範圍應解 澤為就如值或範圍的值前面的詞語「約」或「近似」一般 地近似。 本發明可以其他特定裝置及/或方法而體現。所描述的 159618.doc 201243824 實施例在所有方面僅視為例證性且並非限制性的。特定言 之,本發明之範圍由隨附申請專利範圍指示,而非由本文 t的描述及圖式指示。請求項之等價物的意義及範圍内帶 來的所有變化係涵蓋在其等範圍内的。 描述及圖式僅繪示本發明之原理。因此應瞭解,雖然並 未明確在本文_描述或展示’ 一般技術者將能夠設計體現 本發明之原理且包含於其精神及範圍内的多種配置。此 外,本文中所敘述的所有實例主要意欲僅明文地出於教學 目的幫助讀者理解本發明的原理,且發明者貢獻的概念進 一步推動此項技術,且解譯為沒有限制於此等明確敘述的 實例及條件。此外,本文中敘述本發明之原理、態樣及實 施例以及其之特定實例的所有陳述意欲涵蓋其之等價物。 可透過使用專屬硬體以及可執行軟體的與適當軟體關聯 的硬體而提供展示於圖中的多種元件的功能,包含標籤為 「處理器」的任意功能方塊。當由一處理器提供時,該等 功能可由H屬處理器、由—單—共用處理器或由複 數個個別處理器(其等之—些可共用)提供。此外,術語 處理器」或控制器」的明確使用不應解譯為排外地指 可執行軟體的硬體,暗中沒有限制地包含數位信號處 理器(DSP)硬體、網路處理器、特殊應用積體電路 (ASIC)、場可程式化閘陣列(FpGA)、用於儲存軟體的唯讀 記憶體(ROM)、隨機存取記憶體(RAM)及非揮發性儲存 器亦可包含其他習知及/或自定義的硬體。類似地,展 示於圖中的任意開關僅係概念上的。其等的功能可經操作 159618.doc 19 201243824 程式邏輯、經專屬邏輯、經程序控制及專屬邏輯的互動而 實打’或甚至手動地實行,可由實施者選擇的特定技術從 内文中更明確地理解。 儘管下文方法請求項中的元件(若存在)以與對應標籤的 一特定序列敘述,除非該請求項的敘述以別的方式暗示實 施一些或所有此等元件的一特定序列,否則此等元件並非 必需意欲限制於以該特定序列實施。 本文中對「一個實施例」或「一實施例」的參考意味著 與實施例連同描述的一特定特徵部、結構或特徵可包含於 本發明之至少一實施例中。片語「在一實施例中」在本說 明書中多種位置的出現並不必要均指相同的實施例,並非 為必需互相排除其他實施例的分離或替代的實施例。相同 原理亦適用於術語「實施」。 亦出於此描述的目的,術語Γ耦接」、「連接」指此項 技術中已知或隨後發展的任意方法,其中允許能量在兩個 或多個元件之間傳遞,且儘管並不要求,預期一個或多個 額外元件的插入。相反,術語「直接耦接」、「直接連 接」等等暗示不存在此等額外元件。 本申請案中由請求項涵蓋的實施例限制於〇)由此說明 書實現的實施例,及(2)對應於法定標的之實施例。未實現 的實施例及對應於非法定標的之實施例明文地棄權,即使 其等在形式上落入請求項的範圍中。 【圖式簡單說明】 圖1展不根據本發明之一實施例之一通信系統的一方塊 159618.doc •20· 201243824
1中展示的 圖2展示根據本發明之一實施例之可使用於圖 通信系統中的一驅動電路的一方塊圓;及 圖3A至圖3B展示根據本發明之_實施例之可使用於圖 中展示之通信系統中的一處理器的方塊圖。 【主要元件符號說明】 100 通信系統 102 使用者 104 使用者的聲道 110 聲音估計子系統 112 控制器 114 數位轉類比轉換器 116 次臨界聲學揚聲器 118 次臨界聲學麥克風 120 類比轉數位轉換器 122 處理器 124 估計的聲音信號 126 數位信號匯流排 128 雲端/媒體或網路 132 信號 140 收發器 142 聲響 200 驅動電路 210 隨機數產生器 159618.doc 201243824 212 偽隨機位元序列 220 數位脈衝產生器 222 脈衝序列 224 信號 228 載波信號 230 乘法器 232 未濾波之數位信號 240 數位帶通濾波器 242 數位驅動信號 244 信號 300 處理器 310 解迴旋模組 312 解迴旋數位信號 320 相關模組 322 數位信號 330 聲道特性化模組 332 數位信號 340 語音合成模組 350 模型 362 較尚分支 364 較低分支 360j 恆定阻抗階段 372j 延遲元件 374j 延遲元件 159618.doc -22- 201243824 376j 放大器/衰減器 378j 放大器/衰減器 38〇i 放大器/衰減器 382j 放大器/衰減器 384j 加法器 386i 加法器 159618.doc -23-

Claims (1)

  1. 201243824 七、申請專利範圍: 1. 一種裝置,其包括: 一揚聲器,其用於將一激發信號引導至一聲道中; 一麥克風’其用於對應於該激發信號而偵測一聲道回 應信號;及 一數位信號處理器,其操作地耦接至該麥克風,且經 組態以: 處理該回應信號的一片段,以決定該聲道之一對應 組的一個或多個共振峰頻率;及 進—步處理該組共振峰頻率,以識別對應於該片段 的一音位。 2. 如請求項1之裝置,其中該裝置經組態以基於該回應信 號的複數個片段而將由該處理器識別的一序列之音位轉 換為一數位音訊信號。 3. 如請求項1之裝置,其中該裝置經組態以基於該回應信 號的複數個片段而將由該處理器識別的一序列之音位轉 換為文字。 4. 如請求項1之裝置,其進一步包括一隨機數產生器,其 中: 該激發信號包括一序列之激發脈衝,該序列之激發脈 衝對應於由該隨機數產生器產生的一序列之隨機數;及 該處理器在該回應信號的處理中使用該序列之隨機 數。 5. 如請求項4之裝置,其進一步包括一控制器,其操作地 159618.doc 201243824 耗接至該揚聲器,以將―驅動信號施加至該揚聲器,該 驅動信號致使該揚聲器產生該激發信號,其中該控制器 包括: -脈衝產生n ’其用於將該序列之隨機數轉換為一對 應序列的脈衝包絡形狀; -乘法器’I用於冑一載波頻#注入至該等脈衝包絡 形狀中;及 一帶通濾波器,其用於濾波由於該注入而由該乘法器 產生的一信號,其中由該帶通濾波器產生的一經滤波之 信號係該驅動信號,其中: 該控制器操作地耦接,以將該驅動信號的一個或多 個參數提供至該處理器; 該處理器在處理該偵測之回應信號中使用該一個或 多個參數;及 該一個或多個參數包括該載波頻率、由該脈衝產生 器使用的一脈衝包絡形狀及該帶通濾波器之一頻譜特性 之至少一者。 6. 如請求項4之裝置,其中: 該處理器將該回應信號之該片段與該序列之隨機數的 一對應片段相關,以決定該聲道的一反射脈衝回應; 該處理器基於該反射脈衝回應而決定該聲道的一阻抗 分佈;及 該處理器基於該阻抗分佈而決定該組共振峰頻率。 7. 如請求項6之装置’其中為決定該阻抗分佈,該處理器 159618.doc 201243824 經組態以: 利用該聲道的一模型,根據該模型,該聲道包括複數 個恆定阻抗區段; . ㈣反射―應分解為對應於來自鄰近恆定阻抗 區段之間的阻抗間斷之波反射的分量;及 * 基於該分解而決定該阻抗分佈。 8. 如請求項1之裝置,其中__ 該組包㈣個共振峰頻率,其中Μ係大於i的一整 數;及 為識別對應於該片段的該音位,該處理器經組態以將 該Μ個共振峰頻率映射於—音位群集上,該音位群集包 括在一Μ維頻率空間中的複數個群集點,其中每一音位 由至少一獨特的群集點表示。 9. -種裝置’其包括一數位信號處理器,該數位信號處理 器操作地耦接至一揚聲器,該揚聲器經組態以將一激發 信號引導至-聲道中,且該數位信號處理器操作地耗接 至一麥克風,該麥克風經組態以偵測對應於該激發信號 的一聲道回應信號’其中該處理器經組態以: . 處理該回應信號的一片段,以對於該聲道決定一對應 * 組之一個或多個共振♦頻率;及 進一步處理該組共振峰頻率,以識別對應於該片段的 一音位。 10. —種合成語音的方法,其包括: 將由一揚聲器產生的一激發信號引導至—聲道中; 159618.doc 201243824 使用 號; 麥克心貞測_應於該激發信號的〆聲道回應信 處理該
    之個或多個共振峰頻率;及 一片段,以決定該聲道的一對應組 處理該組共振峰頻率,以識別對應於該片段的一音 位0 159618.doc
TW100143600A 2010-11-30 2011-11-28 Voice-estimation based on real-time probing of the vocal tract TW201243824A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/956,552 US20120136660A1 (en) 2010-11-30 2010-11-30 Voice-estimation based on real-time probing of the vocal tract

Publications (1)

Publication Number Publication Date
TW201243824A true TW201243824A (en) 2012-11-01

Family

ID=45002129

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100143600A TW201243824A (en) 2010-11-30 2011-11-28 Voice-estimation based on real-time probing of the vocal tract

Country Status (3)

Country Link
US (1) US20120136660A1 (zh)
TW (1) TW201243824A (zh)
WO (1) WO2012074652A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754602B2 (en) * 2009-12-02 2017-09-05 Agnitio Sl Obfuscated speech synthesis
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US9779731B1 (en) * 2012-08-20 2017-10-03 Amazon Technologies, Inc. Echo cancellation based on shared reference signals
US20140278432A1 (en) * 2013-03-14 2014-09-18 Dale D. Harman Method And Apparatus For Providing Silent Speech
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
KR20150130854A (ko) * 2014-05-14 2015-11-24 삼성전자주식회사 오디오 신호 인식 방법 및 이를 제공하는 전자 장치
WO2018210470A1 (en) 2017-05-17 2018-11-22 Alcatel Lucent Use of band-pass filters in supervisory signal paths of an optical transport system
EP3404852B1 (en) 2017-05-17 2020-03-04 Alcatel Submarine Networks Supervisory signal paths for an optical transport system
EP3599726B1 (en) 2018-07-25 2021-05-19 Alcatel Submarine Networks Monitoring equipment for an optical transport system
EP3696997B1 (en) 2019-02-15 2022-06-15 Alcatel Submarine Networks Symmetrical supervisory optical circuit for a bidirectional optical repeater

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4821326A (en) * 1987-11-16 1989-04-11 Macrowave Technology Corporation Non-audible speech generation method and apparatus
US5253326A (en) * 1991-11-26 1993-10-12 Codex Corporation Prioritization method and device for speech frames coded by a linear predictive coder
US5675554A (en) * 1994-08-05 1997-10-07 Acuson Corporation Method and apparatus for transmit beamformer
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6487531B1 (en) * 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6856952B2 (en) * 2001-02-28 2005-02-15 Intel Corporation Detecting a characteristic of a resonating cavity responsible for speech
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US7088766B2 (en) 2001-12-14 2006-08-08 International Business Machines Corporation Dynamic measurement of communication channel characteristics using direct sequence spread spectrum (DSSS) systems, methods and program products
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
US7324582B2 (en) 2004-01-07 2008-01-29 General Dynamics C4 Systems, Inc. System and method for the directional reception and despreading of direct-sequence spread-spectrum signals
US7475011B2 (en) * 2004-08-25 2009-01-06 Microsoft Corporation Greedy algorithm for identifying values for vocal tract resonance vectors
US7394366B2 (en) * 2005-11-15 2008-07-01 Mitel Networks Corporation Method of detecting audio/video devices within a room
US20070276658A1 (en) * 2006-05-23 2007-11-29 Barry Grayson Douglass Apparatus and Method for Detecting Speech Using Acoustic Signals Outside the Audible Frequency Range
US7643535B1 (en) 2006-07-27 2010-01-05 L-3 Communications Titan Corporation Compatible preparation and detection of preambles of direct sequence spread spectrum (DSSS) and narrow band signals
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system

Also Published As

Publication number Publication date
US20120136660A1 (en) 2012-05-31
WO2012074652A1 (en) 2012-06-07

Similar Documents

Publication Publication Date Title
TW201243824A (en) Voice-estimation based on real-time probing of the vocal tract
US20100131268A1 (en) Voice-estimation interface and communication system
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
Eaton et al. The ACE challenge—Corpus description and performance evaluation
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
TWI524785B (zh) 用以簡化音響環境之模型的方法以及用以將第一音頻流轉換為第二音頻流的方法及轉換器
Chatterjee et al. ClearBuds: wireless binaural earbuds for learning-based speech enhancement
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP5115818B2 (ja) 音声信号強調装置
Borisagar et al. Speech enhancement techniques for digital hearing aids
JP4876245B2 (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
Hazrati et al. Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation
Heracleous et al. Unvoiced speech recognition using tissue-conductive acoustic sensor
WO2020208926A1 (ja) 信号処理装置、信号処理方法及びプログラム
WO2021059497A1 (ja) 音信号処理装置、音信号処理方法および記憶媒体
Srinivasan et al. The effect of semantic context on speech intelligibility in reverberant rooms
JP2005202335A (ja) 音声処理方法と装置及びプログラム
Liu et al. Phase Spectrum Recovery for Enhancing Low-Quality Speech Captured by Laser Microphones
Beeston Perceptual compensation for reverberation in human listeners and machines
Lin et al. Optical Microphone-Based Speech Reconstruction System With Deep Learning for Individuals With Hearing Loss
Hazrati Development of dereverberation algorithms for improved speech intelligibility by cochlear implant users
Shahidi et al. Objective intelligibility measurement of reverberant vocoded speech for normal-hearing listeners: Towards facilitating the development of speech enhancement algorithms for cochlear implants
Dekens et al. A Multi-sensor Speech Database with Applications towards Robust Speech Processing in hostile Environments.
Kabir et al. Enhancement of alaryngeal speech utilizing spectral subtraction and minimum statistics