TW201243824A

TW201243824A - Voice-estimation based on real-time probing of the vocal tract

Info

Publication number: TW201243824A
Application number: TW100143600A
Authority: TW
Inventors: Dale D Harman; Lothar Benedikt Moeller
Original assignee: Alcatel Lucent Usa Inc
Priority date: 2010-11-30
Filing date: 2011-11-28
Publication date: 2012-11-01
Also published as: US20120136660A1; WO2012074652A1

Description

201243824 六、發明說明：【發明所屬之技術領域】本發明係關於通信設備，且更明確言之（但不排外地）本發明係關於聲音估計器件及利用其之通信系統。【先前技術】本章節介紹可幫助促進對本發明更好理解的態樣。相應地，本早節的陳述按照此而解讀，且不應理解為供認什麼在先前技術中或什麼不在先前技術中。儘管在過去的十年中蜂巢式電話的使用已迅速增長但仍然存在使用一習知蜂巢式電話並不實體上可行及/或在社交上可接受的情況。例如，在一夜總會、迪斯科舞應或飛行的航行器中一相對較喧吵的背景雜訊可能致使致予一遠端方的語音變得聽不到及/或不清楚。另外，在一集會、會議、電影院或表演中進行蜂巢式電話交談一般被視為粗魯的’且因而通常不能忍受1天對於大多數此等情況的回應是關閉蜂巢式電話或若實體上可行，離開喧鬧或敏感的區域’以找到一更好的地方進行通話。【發明内容】本文中揭示一聲音估計（VE)器件的多種實施例，其用次臨界聲波探測一使用者的聲道，以在該使用者輕聲講話或在一喧鬧或社交上敏感的環境中可聽見地講話時估計該使用者的聲音。由該聲道反射的波經偵測且轉換為一數位信號，其接著逐片段地處理。基於該處理，對於每一片段決定一組共振峰頻率。接著分析此每一組，以將一音位 159618.doc 201243824 (ph〇neme)指派至該數位信號的對應片段。所得的音位序列轉換為一數位音訊信號或表示該使用者被估計的聲音的文字。有利地，該VE器件的某些實施例並不依賴於訓練的程 _ 序以變得可操作，且其内實施的語音合成非語言敏感的。 -再者，歸因於事實上音位計算主要依賴於立即反射的脈衝回應，且並不取決於該聲道較早或較遲取樣，可以一相對較小的處理延遲而實行語音合成，對比於由可相比的先前技術器件（例如依賴於語音合成之參考信號庫的器件）實現的交談’此提供一更自然流暢的交談。根據一實施例提供一種裝置，該裝置具有將一激發信號引導至一聲道的一揚聲器，及用於對應於該激發信號而偵測一聲道回應信號的一麥克風。該裝置進一步具有一數位信號處理器，該數位信號處理器操作地耦接至該麥克風且經組態以處理該回應信號的一片段，以決定該聲道之一對應組的一個或多個共振峰頻率，且進一步處理該組共振峰頻率’以識別對應於該片段的一音位。根據另一實施例提供一種數位信號處理器，其用於操作地耦接至一揚聲器，該揚聲器經組態以將一激發信號引導 • 至一聲道中，且該數位信號處理器操作地耦接至一麥克風，該麥克風經組態以偵測對應於該激發信號的一聲道回應#號。戎處理器經組態以處理該回應信號的一片段，以決疋該聲道的一對應組的—個或多個共振峰頻率，且進一步處理該組共振峰頻率，以識別對應於該片段的一音位。 159618.doc 201243824 根據又一實施例提供一種合成語音的方法，其具有以下步驟：將由一揚聲器產生的一激發信號引導至一聲道中；用一麥克風摘測對應於該激發信號的一聲道回應信號；處理該回應信號的一片段，以決定該聲道的一對應組的一個或多個共振峰頻率；及處理該組共振峰頻率，以識別對應於該片段的 §位。【實施方式】本發明之多種實施例的其他態樣、特徵及優點將經由實例而從下文詳細的描述及附圖變得更完全顯而易見。圖1展不根據本發明之一實施例之一通信系統丨〇〇的一方塊圖。系統1〇〇具有一聲音估計（VE)子系統u〇,其可例如用於偵測輕聲的語音或當其疊加於一粕對喧鬧的聲學背景上或大體上被一相對喧鬧的聲學背景淹沒時，增強正常語曰的感知。在例如美國專利申請公開案第2〇1〇/〇131268號中更詳細解釋輕聲語音的音位，其全文以引用之方式併入本文中。簡要地，te聲語音係以一i常方式使聲道的機能活動但 j未強迫聲帶褶(亦通常稱為聲帶)振盪的一音位…般而 a，若跨喉的氣壓差（或聲門下氣壓）並不足夠大，則聲帶褶將不振盪。當一人自言自語時，可使聲道機能活動， P在沒有產生一聲響或藉由產生低於生理學上感知之臨限的-聲響時「講tt」。藉由經S「自言自語」的一精神 ^的動作’-人下意識地致使大腦發送適當的信號至控制 «玄聲道中多種發音器官的肌肉，同時防止聲帶稽振盈。眾 159618.doc 201243824 所周知，普通人可以較少的訓練或完全不訓練而輕聲地說話。輕聲說話與耳語不同，輕聲說話具有高於生理學上感知臨限的聲響。 VE子系統110依賴於次臨界聲學（STA)即時探測一使用者102的聲道1〇4的形狀。如本文中所使用，術語「次臨界聲學」或「STA」涵蓋⑴來自人的音訊頻率範圍的聲波（例如，介於約15 Hz與約20 kHz之間），其之強度低於一生理學上感知的臨限（即，由於該波較低的強度，人耳無法感知）及（ii)超音波（即’準音訊的波，其之頻率高於人的音訊頻率範圍的上限，例如，高於約2〇 kHz) » VE子系統11〇具有一 STA揚聲器116及可置於接近聲道 104之入口（例如’人1〇2的嘴）的一 STA麥克風118。STA揚聲器116在一控制器112之控制下操作’且經組態以發射 STA波的短叢發（例如，短於約1毫秒），以探測聲道丨〇4的形狀。在一代表性的組態中，由STA揚聲器116產生的STA 波的一叢發通過使用者102的嘴進入聲道1〇4，且在該聲道的多個腔内經歷多次反射。所反射的STA波由STA麥克風 118偵測，且所得的電信號轉換為數位形式，且應用於一數位信號處理器122，以處理及分析。一數位轉類比（d/a) 轉換器114及一類比轉數位（A/D)轉換器120提供⑴控制器 112與處理器122(其等兩者操作於數位域中）之間及（ϋ)§τΑ 揚聲器116與STA麥克風118(其等兩者操作於類比域中）之間的一適當介面。控制器112及處理器122可使用一數位信號匯流排126，以在對於STA揚聲器116的驅動信號的產生 159618.doc 201243824 中及由S ΤΑ麥克風118偵測的回應信號的解迴旋中彼此幫助。基於由STA麥克風us產生的信號，處理器122產生對應於使用者102之輕聲或有雜訊的語音的一估計之聲音信號 124。在一實施例中，估計的聲音信號丨24包括對應於使用者1 02之聲音的一序列之音位。在另一實施例中，估計的聲音信號124包括一數位音訊信號，其可用於產生對應於使用者102之該聲音的一正規可感知的聲響。如本文中所使用，術語「音位」指辨識聲響區別的一給定語言系統中潛在有意義的聲響的一最小單位。在一語言中的每一音位藉由與其他音位對比，在沒有潛在地改變一詞語的意義時該音位無法被其他音位取代而獲得其識別。例如，詞語「level」與「revei」之間的一差異辨識指示英語中/1/與/r/的一音位上的區別（在轉錄時，音位由兩個斜線指示）。不像一語音音素（speech phone)，一音位並非一實際聲響，而是表示該聲響的一抽象概念。如本文中所使用，術語「語音音素」指經由音標語音分析及處理獨特的身體及/或知覺特性而顯露的語音的一基本單位。例如，用於傳達人類語音的每一不同母音及子音係一語音音素。如上文參考的美國專利申請公開案第 2010/0131268號中所解釋’對應於輕聲講話的一語音音素的聲道組態實質上相同於對應於可聽見地講話的相同語音音素的聲道組態，惟在輕聲說話期間聲帶褶並不振動除外。 159618.doc 201243824 在-實施例中，VE子系統110係一收發器(例如，一蜂巢式電話；圖1中未明確展示）的一部分，且以一習知方式連接至一無線' 有線及/或光學傳輸系統、網路或媒體（帝 j)128。雲端128將估計的聲音信號124傳輸至—遠端收^ 器（例如，蜂巢式電話）14〇β收發器14〇處理運載估計之聲音信號124的-接收之信號132 ’且將其轉換為發出該估計之聲音信號的一聲響142。在一替代實施例中，收發器14〇可將估計之聲音信號124轉換為文字，且接著除播放為聲響142的該估計之聲音信號之外，或代替該估計之聲音信號而將該文字顯示於一顯示螢幕上。圖2展示根據本發明之一實施例的可使用於控制器丨12中的一驅動電路200的一方塊圖。驅動電路2〇〇產生一數位驅動信號242，用於在正常或輕聲語音期間以使得處理器122 保持追蹤聲道104變化的聲學特性的一方式刺激STA揚聲器116(見圖1)。為使VE子系統11〇(圖丨）能夠在一語音音素期間適當地探測聲道104之組態（形狀），驅動電路2〇〇基於由一隨機數（RN)產生器210產生的一偽隨機位元列212而產生數位驅動信號242。RN產生器210將位元序列212施加於一數位脈衝產生器220，且亦將位元序列之一複本提供至處理器122。在一實施例中，rn產生器210可為處理器122 之部分或一分離的組件。在一實施中’位元序列212可具有約五百或一千個位元，一位元的週期約1 〇微秒。在一替代實施中，位元序列 2 12可明顯長於一千個位元’例如兩千或五千個位元。熟 159618.doc -9- 201243824 習此項技術者將瞭解，一足夠長的位元序列212將比一相對較短的位元序列212產生更精確地近似於一連續頻譜的一激發頻譜。具有一連續激發頻譜可為有利的，例如，當需要偵測聲道104的一相對尖銳聲學諧振時。更明確言之’ 一相對較長位元序列212之相對較緊密間隔的梳狀線使得一銳諧振落在兩個鄰近梳狀線之間的可能性減小，且保持不由VE子系統11 〇偵測。數位脈衝產生器220將位元序列212轉換為一脈衝序列 222。脈衝序列222可具有⑴對於每一「1」位元序列212的一激發脈衝及（Π)對於每一「〇」位元序列沒有激發脈衝。或者’脈衝序列222可具有⑴對於每一「1」位元序列2 12 的一正激發脈衝，及（ii)對於每一「〇」位元序列的一負激發脈衝。在脈衝序列222中每一激發脈衝可具有任意適宜形狀（包絡）’諸如高斯或直線形狀，其經由信號224傳達至處理器122(圖1)。一乘法器230將一載波信號228注入至脈衝序列222之激發脈衝包絡令，以產生一未濾波之數位驅動信號232。在多種組態中，可例如從介於約丨kHz與約丨〇〇 kHzi間的一範圍選擇該載波頻率。一數位帶通（Bp)濾波器24〇藉由使信號232經受適當的帶通濾波而產生數位驅動信號242。例如，若使用一超音波載波頻率，則在濾波器24〇中實施的 π通;慮波移除位於人類音訊頻率範圍中的可能信號分量，因為此等分量對於使用者102(圖1)係可聽見的。由濾波器 240強加於信號232上的該通頻帶的頻譜形狀經由信號244 159618.doc •10- 201243824 而傳達至處理器122(圖1)。在D/A轉換器ii4中對數位驅動信號242進行數位轉類比地轉換，且所得的類比信號施加至STA揚聲器116 ’如圖1中所指示。信號212、224及244 經由信號匯流排126(圖1)而傳輸。圖3A至圖3B展示根據本發明之一實施例的一處理器的方塊圖，可使用處理器3〇〇作為處理器以以圖丨）。更明確吕之’圖3A展示處理器300的一整體方塊圖。圖3B展示實施於處理器300之一聲道特性化（vTC)模組33〇中的一聲道模型350 〇該處理實施於一解迴旋模組31 〇中，且一相關模組32〇用於決定聲道104的一反射的脈衝回應。如本文中所使用，術語「脈衝回應」指由聲道丨〇4回應於一單一的非常短的 STA激發脈衝（其由揚聲器U6施加至聲道）而產生的一 STA 回聲信號。在數學上，產生一理想脈衝回應的一理想的激發脈衝對於連續時間的系統由狄拉克WDirac delta)函數描述’或對於離散時間的系統由克洛尼克△(Kronecker delta) 函數描述。因為於VE子系統11()中使用的激發脈衝並不理想’例如’歸因於由脈衝產生器220強加的激發脈衝包絡及/或由BP濾波器240(見圖2)強加的帶通濾波的有限寬度，由處理器300從STA麥克風118及/或A/D轉換器120(圖1)接收的一數位輸入信號3 〇2在解迴旋模組3丨〇中解迴旋，以數位地移除該激發脈衝包絡及帶通濾波對該STA回聲信號的影響°在解迴旋程序中，解迴旋模組3 10使用實際激發脈衝的已知包絡形狀（其經由信號224傳達至該解迴旋模組）及 159618.doc -11- 201243824 帶通濾波器240的頻譜特性（其等經由信號244傳達至該解迴旋模組）（亦見圖2)。由解迴旋模組3 1 0產生的一解迴旋數位信號3 12係對應於脈衝序列222之多個激發脈衝（圖2)的聲道回應的一疊加。相關模組320發揮作用以藉由將信號3 12與於脈衝序列222 之產生中使用的原始位元序列212關聯而決定聲道1〇4之「真實」反射的脈衝回應。由解迴旋模組310決定的反射脈衝回應經由數位信號322而提供至VTC模組330。熟習此項技術者將瞭解，在相關模組320中實施的處理可類似於使用於一直接序列展頻（DSSS)通信系統中的一接收器。例如在美國專利第7,643,535號、第7,324,582號及第 7,088,766號中描述此處理的代表性實例，其等之全文均以引用之方式併入本文中。可應用於實施在驅動電路2〇〇及解迴旋模組3 10中執行的信號處理的額外有用技術例如揭示於由 M.R. Schroeder 在 J. Acoust. Soe. Am，1979, v 66(2)，PP. 497-500 中發表的題為 r Integrated_Impulse Method Measuring Sound Decay without Using Impulses j 的論文中，該論文全文以引用之方式併入本文中。 VTC模組330使用經由仏號322而接收的反射脈衝回應，以決定在音訊頻率範圍（例如，在15 Hz與20 kHz之間的一頻率範圍中）中聲道1〇4的聲學特性。更明確言之，VTC模組3 3 0將聲道104視作一波導’其具有沿著其長度而變化之阻抗。如此項技術中已知’阻抗變動及間斷導致沿著一波導傳播的一波部分反射回。因此，可藉由將該波導的反射 139618.doc •12· 201243824 脈衝回應模型化為由沿著該波導之長度的阻抗變動/間斷而導致的多個反射波的一疊加而決定該波導的阻抗分佈。若必要，該阻抗分佈可轉換為一幾何形狀，其表示那時聲道104的實際幾何。 . 參考圖3B，模型350表示聲道104作為複數個串聯連接的 - 恆定阻抗階段36〇i，每一恆定阻抗階段特性為一對應的恆疋阻抗值’其中i—1，2,3，··.Ν。一般而言’ Ν值越大，vtc 模組3 3 0的s十算此力需求越大。在一代表性實施中’ ν介於 5與50之間。每一階段36〇i具有一向前傳播路徑及一向後傳播路徑。在圖3B中’不同階段360的向前傳播路徑排列以形成一較咼分支362，且具有指向右邊的信號箭頭。不同阻抗階段 360的向後傳播路徑類似地排列以形成一較低分支3M，且具有指向左邊的信號箭頭。階段36〇i之向前傳播路徑包含一延遲元件372;,其表示聲道104中對應的恆定阻抗區段的長度。階段36〇i之向後傳播的路徑包含一類似的延遲元件374^在一替代的聲道模型中，由元件372;引入的延遲增加兩倍，同時移除延遲元 • 件 374(。 - 四個放大器/衰減器376丨、378丨、380丨及382丨以及兩個加法器384,及386i模型化階段360|.與36〇i+i之間的阻抗間斷。由放大器/衰減器376〗、378广380丨及382丨之各者引入的放大/衰減係數指示於圖3B中，反射係數匕由方程式（1)給出： I596I8.doc (1) (1)201243824 k : Λ ~~ ^i+l ’4 + 4+1 其中Ai係聲道104中的第i個恆定阻抗區段的橫截面積，且 AN+1=0。加法器384i用於將⑴已經過該阻抗間斷而未被反射回的向前傳播波之一部分及（ii)已從該阻抗間斷反射的該向後傳播波之一部分相加。加法器386i類似地用於將⑴ 已從該阻抗間斷反射的向前傳播波之一部分及（ii)未被反射回地已經過該阻抗間斷而未被反射回的向後傳播波之一部分相加。在一實施例中，VTC模組330藉由遞歸地計算在多種延遲時間每一階段360丨之輸入及輸出信號，且將此等信號與由信號3 2 2提供的反射脈衝回應相關而決定反射係數。例如’使用在時間2D該反射的脈衝回應的值而計算反射係數 k!。接著所計算的k〗值用於計算在時間D由加法器384,施加至延遲元件372；j的輸入信號的振幅。使用⑴在時間4D反射之脈衝回應的值；（ii)在時間D由加法器384丨施加至延遲元件372z的輸入信號的計算振幅·，及（in)計算之ki值而計算反射係數k；2。接著’使用所計算之1^及1<；2值來計算在時間2D及時間4D由加法器3 842施加至延遲元件3723的輸入信號的振幅。類似地使用所計算的k,及k2值來計算在時間3D 由延遲元件374z施加至放大器衰減器38(^及382!的輸入信號的振幅。使用⑴在時間6D該反射之脈衝回應的值；⑴）反射係數1^及1^ ;及（iii)先前對於階段3601及3602計算的多種信號振幅而計算反射係數k3。以此方式從階段至階段進行計算，直到決定所有反射係數。在計算全部組的反射係 159618.doc 201243824 數ki之後’ VTC模組330經由一數位信號332將此組提供至一語音合成模組340。熟習此項技術者將瞭解，模型350將每一階段360視作一單模波導。然而’在某些頻率範圍内，一些階段36〇可支援多模信號傳播。因此，為改良模型35〇的適用性及精確性，可能需要結合模型350應用多種空間模式濾波器技術。語音合成模組340使用從VTC模組330接收的每一組反射係數ki，以決定一對應音位。在一實施例中，由語音合成模組340產生的估計之聲音信號124包括已基於數位信號 332而產生的一序列之音位。在一替代實施例中，估計之聲音信號124係已由語音合成模組34〇藉由將每一音位轉換為一對應的音訊信號片段而產生的一數位音訊信號。在一實施例中’語音合成模組34〇如下將從VTC模組330 接收的一組反射係數ki轉換為一對應音位。第一，語音合成模組340使用該組反射係數ki以計算— 對應組的共振峰頻率。如本文中所使用，術語「共振峰」指聲道104的一聲諧振。因為反射係數匕可與聲道1〇4的橫截面分佈相關（見方程式〇))，所以可以一相對直接的方式計算共振峰頻率，例如，計算為對應中空形狀（h〇u〇w shape)的諧振頻率。 …第一，使用預定選擇準則而選擇一子組的M個共振峰頻率，以進-步分析。例如，以該子组最基本的形式，該子組可由兩個最低共振蜂頻率（即，M=2)組成。或者，對於 159618.doc -15- 201243824 總數目為Μ個的共振峰頻率，該子組可包含來自—第一立訊頻帶（例如，低於4kHz)的第_選擇數目個共振峰頻率: 及來自一第二音訊頻帶（例如，介於15让沿與汕让沿之間）的第二選擇數目個共振峰頻率。可類似地使用其他替擇準則。第三’該選擇子組的]^個共振峰頻率映射於—音位群集上。在-實施例中，該音位群集由複數個群集點組成，或由在一 Μ維頻率空間中鄰近的M維形狀組成，其令每一音位由至少-_的群集點或㈣的M維形狀表示。基於^ 群集映射，信號332之每-有意義的片段轉換為—對應音位。例如，對於三維音位群集（即，M=3)，該映射可如下執行。使用該第-選擇的共振峰之頻率作為該三維頻率空間㈣第-座標；使用該第二選擇之共振峰的頻率作為該三維頻率空間中的第二座標；且作該第三選擇之共振蜂的頻率作為該三維頻率空間中的第三座標。接著，識別最接近具有此等三個座標之點的群集點。最後，對應於該識別之群集點的音位指派至信號332之對應的語音片段。接著對於k號332的下一片段而重複此程序。可使用U下考慮而產生於語音合成模組34〇中使用的多種音位群集。-般而言，共振峰表示人類語音的有區別頻率分量。在該聲道之-個或多個以下主要腔室中藉由聲错振而產生大部分共振峰：⑴位於食道與會厭之間的咽腔； (H)由舌頭、牙齒、上顆、㈣及小舌定義的口腔；㈣位 159618.doc •16· 201243824 於牙齒與嘴唇之間的唇腔；及（iv)鼻腔。此等腔的形狀及因此其等之聲學性質由該聲道中的多種發音器官的位置控制二諸如軟顎、舌頭、嘴唇、顎等等。最通常而言，知道最剛面的兩個共振峰頻率（即，最低頻率）足夠消除母音的歧義。鼻音及子音出於其等的消除歧義可能需要使用多於兩個共振峰。爆破音及某種程度上的摩擦音修改周圍母音中共振峰的位置。雙唇音的聲響（諸如「b」及「P」）導致周圍母音中共振峰更低；舌根音的聲響（諸如「k」及「g」）幾乎一直展示非常彼此接近的第二共振峰及第三共振峰，齒槽g的聲響（諸如「t」及「d」）部分取決於母音自身而致使鄰近母音共振峰中較少的合成變化。人類語音的此等已知特性及其他已知特性可使用於語音合成模組 340中實施的群集映射技術中。有利地本發明之貫施例並不依賴於複雜的型樣辨識程序其中STA回聲信號需要與來自參考回聲回應（RER)的一較大資料庫或庫的參考回聲回應（RER)對比及匹配。因為沒有使用RER資料庫或庫，對於將操作的VE子系統 11 〇，不而要VE訓練，且該語音合成非語言敏感的。此外，歸因於事實上音位計算幾乎依賴於立即的反射脈衝回應’且並不取決於該聲道較早或較遲取樣，可以一相對較小的處理延遲而實行語音合成，對比於依賴複雜的型樣辨識技術的VE系統所實現的交談，此提供一更自然流暢的交談》 VE子系統11 〇之多種實施例有利地用於發出輕聲的語 1596I8.doc -17· 201243824 曰’其（1)在-喧鬧或社交上敏感的環境中產生；⑴）由一殘疾人產生’其之聲道具有由於—疾病、出生缺陷或手術的病理，及/或（ln)在一軍事行動期間產S，例如在敵方線後方。或者或另夕卜，有利地使用系統的多種實施例以田正吊δ吾音被周圍聲學雜訊淹沒時改良正常語音的感知品質。例如，若該雜訊位準係相對可容忍的，則可使用 VE子系統110作為一增補構件，以增強由一習知聲學麥克風產生的聲音信號。若該雜訊位準介於相對可容忍、與無法谷〜之中間，則可使用該聲學麥克風作為二級構件，以增強由VE子系統11()產生之估計的聲音信號的品質。若該雜訊位準無法容忍，則可關閉該聲學麥克風，且語音信號可單純基於由VE子系統11 〇產生的估計之聲音信號而產生。雖然本發明已參考例證性實施例而描述，此描述並不意欲以限制性意義而解譯。例如，如應用於無線通信，可於控制器112及/或處理器122的多種替代實施例中使用於该DSSS技術中使用的方法及途徑，以快速、精確及計算上有效決定聲道1〇4之脈衝回應（圖丨）。所描述之實施例的夕種修改以及本發明的其他實施例（其等對於熟習此項技術者係顯而易見的’本發明適用於其等）被認為屬於下文申請專利範圍中表達的本發明之原理及範圍内。除非以別的方式明確陳述，否則每一數字值及範圍應解澤為就如值或範圍的值前面的詞語「約」或「近似」一般地近似。本發明可以其他特定裝置及/或方法而體現。所描述的 159618.doc 201243824 實施例在所有方面僅視為例證性且並非限制性的。特定言之，本發明之範圍由隨附申請專利範圍指示，而非由本文 t的描述及圖式指示。請求項之等價物的意義及範圍内帶來的所有變化係涵蓋在其等範圍内的。描述及圖式僅繪示本發明之原理。因此應瞭解，雖然並未明確在本文_描述或展示’ 一般技術者將能夠設計體現本發明之原理且包含於其精神及範圍内的多種配置。此外，本文中所敘述的所有實例主要意欲僅明文地出於教學目的幫助讀者理解本發明的原理，且發明者貢獻的概念進一步推動此項技術，且解譯為沒有限制於此等明確敘述的實例及條件。此外，本文中敘述本發明之原理、態樣及實施例以及其之特定實例的所有陳述意欲涵蓋其之等價物。可透過使用專屬硬體以及可執行軟體的與適當軟體關聯的硬體而提供展示於圖中的多種元件的功能，包含標籤為「處理器」的任意功能方塊。當由一處理器提供時，該等功能可由H屬處理器、由—單—共用處理器或由複數個個別處理器（其等之—些可共用）提供。此外，術語處理器」或控制器」的明確使用不應解譯為排外地指可執行軟體的硬體，暗中沒有限制地包含數位信號處理器（DSP)硬體、網路處理器、特殊應用積體電路 (ASIC)、場可程式化閘陣列（FpGA)、用於儲存軟體的唯讀記憶體（ROM)、隨機存取記憶體（RAM)及非揮發性儲存器亦可包含其他習知及/或自定義的硬體。類似地，展示於圖中的任意開關僅係概念上的。其等的功能可經操作 159618.doc 19 201243824 程式邏輯、經專屬邏輯、經程序控制及專屬邏輯的互動而實打’或甚至手動地實行，可由實施者選擇的特定技術從内文中更明確地理解。儘管下文方法請求項中的元件（若存在）以與對應標籤的一特定序列敘述，除非該請求項的敘述以別的方式暗示實施一些或所有此等元件的一特定序列，否則此等元件並非必需意欲限制於以該特定序列實施。本文中對「一個實施例」或「一實施例」的參考意味著與實施例連同描述的一特定特徵部、結構或特徵可包含於本發明之至少一實施例中。片語「在一實施例中」在本說明書中多種位置的出現並不必要均指相同的實施例，並非為必需互相排除其他實施例的分離或替代的實施例。相同原理亦適用於術語「實施」。亦出於此描述的目的，術語Γ耦接」、「連接」指此項技術中已知或隨後發展的任意方法，其中允許能量在兩個或多個元件之間傳遞，且儘管並不要求，預期一個或多個額外元件的插入。相反，術語「直接耦接」、「直接連接」等等暗示不存在此等額外元件。本申請案中由請求項涵蓋的實施例限制於〇)由此說明書實現的實施例，及（2)對應於法定標的之實施例。未實現的實施例及對應於非法定標的之實施例明文地棄權，即使其等在形式上落入請求項的範圍中。【圖式簡單說明】圖1展不根據本發明之一實施例之一通信系統的一方塊 159618.doc •20· 201243824

1中展示的圖2展示根據本發明之一實施例之可使用於圖通信系統中的一驅動電路的一方塊圓；及圖3A至圖3B展示根據本發明之_實施例之可使用於圖中展示之通信系統中的一處理器的方塊圖。【主要元件符號說明】 100 通信系統 102 使用者 104 使用者的聲道 110 聲音估計子系統 112 控制器 114 數位轉類比轉換器 116 次臨界聲學揚聲器 118 次臨界聲學麥克風 120 類比轉數位轉換器 122 處理器 124 估計的聲音信號 126 數位信號匯流排 128 雲端/媒體或網路 132 信號 140 收發器 142 聲響 200 驅動電路 210 隨機數產生器 159618.doc 201243824 212 偽隨機位元序列 220 數位脈衝產生器 222 脈衝序列 224 信號 228 載波信號 230 乘法器 232 未濾波之數位信號 240 數位帶通濾波器 242 數位驅動信號 244 信號 300 處理器 310 解迴旋模組 312 解迴旋數位信號 320 相關模組 322 數位信號 330 聲道特性化模組 332 數位信號 340 語音合成模組 350 模型 362 較尚分支 364 較低分支 360j 恆定阻抗階段 372j 延遲元件 374j 延遲元件 159618.doc -22- 201243824 376j 放大器/衰減器 378j 放大器/衰減器 38〇i 放大器/衰減器 382j 放大器/衰減器 384j 加法器 386i 加法器 159618.doc -23-

Claims

201243824 七、申請專利範圍： 1. 一種裝置，其包括：一揚聲器，其用於將一激發信號引導至一聲道中；一麥克風’其用於對應於該激發信號而偵測一聲道回應信號；及一數位信號處理器，其操作地耦接至該麥克風，且經組態以：處理該回應信號的一片段，以決定該聲道之一對應組的一個或多個共振峰頻率；及進—步處理該組共振峰頻率，以識別對應於該片段的一音位。 2. 如請求項1之裝置，其中該裝置經組態以基於該回應信號的複數個片段而將由該處理器識別的一序列之音位轉換為一數位音訊信號。 3. 如請求項1之裝置，其中該裝置經組態以基於該回應信號的複數個片段而將由該處理器識別的一序列之音位轉換為文字。 4. 如請求項1之裝置，其進一步包括一隨機數產生器，其中：該激發信號包括一序列之激發脈衝，該序列之激發脈衝對應於由該隨機數產生器產生的一序列之隨機數；及該處理器在該回應信號的處理中使用該序列之隨機數。 5. 如請求項4之裝置，其進一步包括一控制器，其操作地 159618.doc 201243824 耗接至該揚聲器，以將―驅動信號施加至該揚聲器，該驅動信號致使該揚聲器產生該激發信號，其中該控制器包括： -脈衝產生n ’其用於將該序列之隨機數轉換為一對應序列的脈衝包絡形狀； -乘法器’I用於冑一載波頻#注入至該等脈衝包絡形狀中；及一帶通濾波器，其用於濾波由於該注入而由該乘法器產生的一信號，其中由該帶通濾波器產生的一經滤波之信號係該驅動信號，其中：該控制器操作地耦接，以將該驅動信號的一個或多個參數提供至該處理器；該處理器在處理該偵測之回應信號中使用該一個或多個參數；及該一個或多個參數包括該載波頻率、由該脈衝產生器使用的一脈衝包絡形狀及該帶通濾波器之一頻譜特性之至少一者。 6. 如請求項4之裝置，其中：該處理器將該回應信號之該片段與該序列之隨機數的一對應片段相關，以決定該聲道的一反射脈衝回應；該處理器基於該反射脈衝回應而決定該聲道的一阻抗分佈；及該處理器基於該阻抗分佈而決定該組共振峰頻率。 7. 如請求項6之装置’其中為決定該阻抗分佈，該處理器 159618.doc 201243824 經組態以：利用該聲道的一模型，根據該模型，該聲道包括複數個恆定阻抗區段； . ㈣反射―應分解為對應於來自鄰近恆定阻抗區段之間的阻抗間斷之波反射的分量；及 * 基於該分解而決定該阻抗分佈。 8. 如請求項1之裝置，其中__ 該組包㈣個共振峰頻率，其中Μ係大於i的一整數；及為識別對應於該片段的該音位，該處理器經組態以將該Μ個共振峰頻率映射於—音位群集上，該音位群集包括在一Μ維頻率空間中的複數個群集點，其中每一音位由至少一獨特的群集點表示。 9. -種裝置’其包括一數位信號處理器，該數位信號處理器操作地耦接至一揚聲器，該揚聲器經組態以將一激發信號引導至-聲道中，且該數位信號處理器操作地耗接至一麥克風，該麥克風經組態以偵測對應於該激發信號的一聲道回應信號’其中該處理器經組態以： . 處理該回應信號的一片段，以對於該聲道決定一對應 * 組之一個或多個共振♦頻率；及進一步處理該組共振峰頻率，以識別對應於該片段的一音位。 10. —種合成語音的方法，其包括：將由一揚聲器產生的一激發信號引導至—聲道中； 159618.doc 201243824 使用號；麥克心貞測_應於該激發信號的〆聲道回應信處理該

之個或多個共振峰頻率；及一片段，以決定該聲道的一對應組處理該組共振峰頻率，以識別對應於該片段的一音位0 159618.doc