TWI622043B - 聲源分離方法與裝置 - Google Patents
聲源分離方法與裝置 Download PDFInfo
- Publication number
- TWI622043B TWI622043B TW105117508A TW105117508A TWI622043B TW I622043 B TWI622043 B TW I622043B TW 105117508 A TW105117508 A TW 105117508A TW 105117508 A TW105117508 A TW 105117508A TW I622043 B TWI622043 B TW I622043B
- Authority
- TW
- Taiwan
- Prior art keywords
- separation
- sound source
- generating
- generate
- matrix
- Prior art date
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 87
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000012935 Averaging Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一種聲源分離方法,包含有將一分離矩陣施加於複數個接收訊號,以產生複數個分離結果;對該複數個分離結果進行一辨識運算,以產生複數個辨識分數;根據該複數個辨識分數,產生一限制條件;以及根據該限制條件,調整該分離矩陣;其中,調整後之該分離矩陣施加於該複數個接收訊號,以自該接收訊號中分離出更新的複數個分離結果。
Description
本發明係指一種聲源分離方法與裝置,尤指一種隨目標訊號的空間變化而據以調整的聲源分離方法與裝置。
語音輸入及語音辨識已廣泛地應用於手機等電子產品中,而多麥克風則常用於強化語音辨識的效果。在具有多麥克風之語音辨識系統中,可透過適應性波束形成器(Adaptive Beamformer)技術進行空間濾波以強化指定方向訊號,再對強化後的訊號進行語音辨識。適應性波束形成器需先對聲源進行來向(Direction-of-Arrival,DoA)估測來獲取或修正波束形成器之指向,然而,適應性波束形成器的缺點在於容易受到來向估測誤差的影響而導致指定方向失真。另外,習知技術中已發展出利用具有限制條件的盲訊號分離(Constrained-Blind-Source-Separation,CBSS)方法來產生分離矩陣,其可從多麥克風陣列之接收訊號中分離出複數個聲源,並可同時解決習知盲訊號分離之分離聲源排列(Permutation)的問題。然而,習知盲訊號分離所需之限制條件無法針對目標訊號的空間變化而據以調整,而使分離目標訊號的效能降低。因此,習知技術實有改善之必要。
本發明之主要目的在於提供一種隨目標訊號的空間變化而據以調整的聲源分離方法與裝置,以改善習知技術的缺點。
本發明揭露一種聲源分離方法,用來自複數個接收訊號中進行聲源分離,該聲源分離方法包含有將一分離矩陣施加於該複數個接收訊號,以產生複數個分離結果;對該複數個分離結果進行一辨識運算,以產生複數個辨識分數,其中該複數個辨識分數相關於該複數個分離結果與一目標訊號之間的匹配程度; 根據該複數個辨識分數,產生一限制條件,其中該限制條件為一空間限制或一遮罩限制;以及根據該限制條件,調整該分離矩陣;其中,調整後之該分離矩陣施加於該複數個接收訊號,以自該接收訊號中分離出更新之該複數個分離結果。
本發明另揭露一種聲源分離裝置,用來自複數個接收訊號中進行聲源分離,該聲源分離裝置包含有一分離單元,用來將一分離矩陣施加於該複數個接收訊號,以產生複數個分離結果;一辨識單元,用來對該複數個分離結果進行一辨識運算,以產生複數個辨識分數,其中該複數個辨識分數相關於該複數個分離結果與一目標訊號之間的匹配程度;一限制產生器,用來根據該複數個辨識分數,產生一限制條件,其中該限制條件為一空間限制或一遮罩限制;以及一分離矩陣產生器,用來根據該限制條件,調整該分離矩陣;其中,調整後之該分離矩陣施加於該複數個接收訊號,以自該接收訊號中分離出更新之該複數個分離結果。
請參考第1圖,第1圖為本發明實施例一聲源分離裝置1之示意圖。聲源分離裝置1可為一特殊應用積體電路(Application-Specific-Integrated-Circuit,ASIC),用來自接收訊號
x 1~
x M中分離出聲源
z 1~
z M,其中目標訊號
s 1~
s N可為語音訊號而存在於聲源
z 1~
z M之中。聲源
z 1~
z M的型態有諸多種可能,舉例來說,聲源
z 1~
z M可為背景噪聲、回音、干擾或是來自語者之語音等,目標訊號
s 1~
s N於本發明之實施例可為一目標語者之語音或是特定之語音內容,故於一具有聲源
z 1~
z M的環境當中,目標訊號
s 1~
s N並非總是存在。為了更容易理解本發明,以下說明將假設以單一目標訊號
s n為例。聲源分離裝置1可應用於語音辨識或語者辨識,其包含接收器R
1~R
M、一分離單元10、一辨識單元12、一限制產生器14以及一分離矩陣(Demixing Matrix)產生器16。接收器R
1~R
M可為麥克風,其可將所接收之接收訊號
x 1~
x M輸入至分離單元10,其中接收訊號
x 1~
x M可表示為一接收訊號組
x,即
。分離單元10耦接於分離矩陣產生器16,分離單元10用來將接收訊號組
x乘以分離矩陣產生器16所產生之一分離矩陣
W,以產生一分離結果組
y,分離結果組
y包含分離結果
y 1~
y M,即
,其中分離結果
y 1~
y M係為自接收訊號
x 1~
x M中所分離出對應於聲源
z 1~
z M之分離結果。辨識單元12用來對分離結果
y 1~
y M分別進行一辨識運算,以產生對應於目標訊號
s n相似度之辨識分數(Recognition Scores)
q 1~
q M,並將辨識分數
q 1~
q M輸入至限制產生器14,其中辨識分數
q m越高代表分離結果
y m與目標訊號
s n之間的匹配程度(或相似程度)越高。限制產生器14可根據辨識分數
q 1~
q M產生一限制條件CT,用來做為指向空間中一特定方向的一控制訊號,並將限制條件CT輸入至分離矩陣產生器16。分離矩陣產生器16即可根據限制條件CT產生新的分離矩陣
W(即調整分離矩陣
W),調整後的分離矩陣
W即可施加於接收訊號
x 1~
x M,以分離出聲源
z 1~
z M。上述分離矩陣產生器16,依據一實施例,可透過具有限制條件的盲訊號分離(Constrained-Blind-Source-Separation,CBSS)方法來產生該分離矩陣
W。
辨識單元12可包含一特徵擷取器26、一參考模型訓練器22及一匹配器(Matcher)24,如第10圖所示。特徵擷取器20可根據分離結果
y 1~
y M分別產生一組特徵訊號
b 1~
b M,以語音辨識之應用為例,特徵擷取器20所擷取之特徵可為梅爾倒頻譜係數(Mel-Frequency-Cepstral-Coefficients,MFCC)。當一訓練旗標FG指示辨識單元12處於一訓練階段時,特徵擷取器20自擷取分離結果
y 1~
y M相關於目標訊號
s n的特徵,並輸入至參考模型訓練器22,以產生目標訊號
s n的參考模型;而當訓練旗標FG指示辨識單元12處於一測試階段時,匹配器24將自分離結果
y 1~
y M擷取出之特徵與參考模型進行比對,以產生對應之辨識分數
q 1~
q M。換言之,參考模型訓練器22可以預先訓練出對應於目標訊號
s n的一參考模型,接著,匹配器24再將該參考模型與特徵擷取器20輸出的特徵訊號
b 1~
b M分別進行比對,比較其相似程度,並輸出辨識分數
q 1~
q M。其餘關於辨識單元12之操作細節為本領域具通常知識者所熟知,故不在此贅述。
簡而言之,因辨識分數
q 1~
q M會隨目標訊號相對於接收器R
1~R
M的空間特性不斷地改變,聲源分離裝置1可根據辨識單元12於不同時間所產生的辨識分數
q 1~
q M,產生不同的限制條件CT以做為指向某空間方向的一控制訊號,並根據更新後的限制條件CT調整分離矩陣
W,以分離聲源
z 1~
z M,並獲得更新的分離結果
y 1~
y M。如此一來,聲源分離裝置1所產生的限制條件CT及分離矩陣
W皆可針對目標訊號的空間變化而據以調整,進而增進目標訊號分離的效能。關於聲源分離裝置1的操作流程可歸納成為一聲源分離流程20,如第2圖所示,聲源分離流程20包含以下步驟:
步驟200:將分離矩陣
W施加於接收訊號
x 1~
x M,以產生分離結果
y 1~
y M。
步驟202:對分離結果
y 1~
y M進行辨識運算,以產生對應於目標訊號
s n之辨識分數
q 1~
q M。
步驟204:根據對應於目標訊號
s n之辨識分數
q 1~
q M,產生限制條件CT。
步驟206:根據限制條件CT,調整分離矩陣
W。
於一實施例中,限制產生器14可產生限制條件CT為一空間限制(Spatial Constraint)
c,而分離矩陣產生器16可根據空間限制
c產生新的分離矩陣
W。空間限制
c可用來限制分離矩陣
W對空間中一特定方向的響應,即限制分離矩陣
W於該特定方向具有空間濾波(Spatial Filtering)效能。分離矩陣產生器16根據空間限制
c產生分離矩陣
W的方式並未有所限,例如,分離矩陣產生器16可產生分離矩陣
W使其滿足
,其中
c 1可為任意常數,而
代表分離矩陣
W之一列向量(即分離矩陣
W可表示為
)。
關於限制產生器產生空間限制
c的具體實現方式,請參考第3圖及第4圖,第3圖及第4圖分別為本發明實施例一限制產生器34及一更新控制器342之示意圖。限制產生器34可根據分離矩陣
W及辨識分數
q 1~
q M產生空間限制
c,其包含更新控制器342、一反矩陣轉換單元30及一平均單元36,更新控制器342包含一映射(Mapping)單元40、一正規化(Normalization)單元42、一最大值選取器44及一權重組合單元46。反矩陣轉換單元30可耦接於分離矩陣產生器16以接收分離矩陣
W,並將分離矩陣
W進行一反矩陣運算,以產生一估測混合矩陣(Estimated Mixing Matrix)
W -1,更新控制器342根據估測混合矩陣
W -1及辨識分數
q 1~
q M產生一更新速率α及一更新係數
,而平均單元36根據更新速率α及更新係數
產生空間限制
c。
詳細來說,估測混合矩陣
W -1可代表一混合矩陣(Mixing Matrix)
H之估測值,混合矩陣
H用來表示聲源
z 1~
z M與接收訊號
x 1~
x M之間的對應關係,即
,其中
。混合矩陣
H包含指向向量(Steering Vector)
h 1~
h M,即
,換句話說,估測混合矩陣
W -1包含估測指向向量(Estimated Steering Vector)
1~
M,且可表示為
。另外,更新控制器342可根據辨識分數
q 1~
q M產生權重值
ω 1~
ω M,並產生更新係數
為
。另外,更新控制器342可透過映射單元40對辨識分數
q 1~
q M進行一映射運算,即將辨識分數
q 1~
q M以線性或非線性的方式,映射至0到1之間的數值,以產生對應於辨識分數
q 1~
q M之映射值
1~
M(映射值
1~
M皆介於0到1之間),並透過正規化單元42對映射值
1~
M進行一正規化運算,以產生權重值
ω 1~
ω M(即
)。另一方面,更新控制器342可透過最大值選取器44產生更新速率α為映射值
1~
M之一最大值,即
。如此一來,更新控制器342即可輸出更新速率α及更新係數
至平均單元36,而平均單元36可計算空間限制
c為
。限制產生器34將空間限制
c輸出至分離矩陣產生器16,分離矩陣產生器16即可根據空間限制
c產生新的分離矩陣
W,以分離出聲源
z 1~
z M。
關於限制產生器34的操作流程可歸納成為一空間限制產生流程50,如第5圖所示,空間限制產生流程50包含以下步驟:
步驟500:對分離矩陣
W進行反矩陣運算,以產生估測混合矩陣
W -1,其中估測混合矩陣
W -1包含估測指向向量
1~
M。
步驟502:根據辨識分數
q 1~
q M,產生權重值
ω 1~
ω M。
步驟504:根據辨識分數
q 1~
q M,產生更新速率α。
步驟506:根據權重值
ω 1~
ω M及估測指向向量
1~
M,產生更新係數
。
步驟508:根據更新速率α及更新係數
,產生空間限制
c。
於另一實施例中,限制產生器14可產生限制條件CT為一遮罩限制(Mask Constraint)
,而分離矩陣產生器16可根據遮罩限制
產生新的分離矩陣
W。遮罩限制
可用來限制分離矩陣
W對目標訊號的響應,即對該目標訊號產生遮罩效能。分離矩陣產生器16根據遮罩限制
產生分離矩陣
W的方式並未有所限,例如,分離矩陣產生器16可利用一遞迴(Recursive)演算法(如牛頓法(Newton Method)、梯度法(Gradient Method)等)估算聲源
z 1~
z M與接收訊號
x 1~
x M之間之混合矩陣
H之估測值,而利用遮罩限制
限制遞迴演算法中每一次迭代之變化量,換句話說,第k+1次迭代所計算出混合矩陣之估測值
可表示為
,其中,分離矩陣產生器16可產生分離矩陣
W為
,其中
可因不同遞迴演算法而異。另外,遮罩限制
可為一對角矩陣(Diagonal Matrix),其可對聲源
z 1~
z M中第
n *個聲源z
n *進行遮罩運作(聲源z
n *即為目標訊號
s n),具體來說,限制產生器14可令遮罩限制
之第
n *個對角元素為介於0到1之間之一特定值
G,而其餘對角元素的值為1-
G,即遮罩限制
之第
i個對角元素
可表示為
。
關於限制產生器產生遮罩限制
的具體實現方式,請參考第6圖及第7圖,第6圖及第7圖分別為本發明實施例一限制產生器64及一更新控制器642之示意圖。限制產生器64可根據分離結果
y 1~
y M及辨識分數
q 1~
q M產生遮罩限制
,其包含更新控制器642、一能量單元60、一加權能量產生器62、一參考能量產生器68及一遮罩產生器66,其中更新控制器642包含一映射單元70、一正規化單元72及一轉換單元74。能量單元60接收分離結果
y 1~
y M以計算對應於分離結果
y 1~
y M(亦對應於聲源
z 1~
z M)之聲源能量P
1~P
M,更新控制器642根據辨識分數
q 1~
q M產生權重值
ω 1~
ω M及權重值
β 1~
β M,加權能量產生器62根據權重值
ω 1~
ω M及聲源能量P
1~P
M產生一加權能量P
wei,參考能量產生器68根據權重值
β 1~
β M及聲源能量P
1~P
M產生一參考能量P
ref,遮罩產生器66根據權重值
ω 1~
ω M、加權能量P
wei及參考能量P
ref產生遮罩限制
。
詳細來說,加權能量產生器62可產生加權能量P
wei為
,而參考能量產生器68可產生參考能量P
ref為
,更新控制器642所包含之映射單元70及正規化單元72可與映射單元40及正規化單元42相同,故關於其操作細節不再贅述。另外,轉換單元74可將權重值
ω 1~
ω M轉換為權重值
β 1~
β M,轉換單元74不限於特定方式產生權重值
β 1~
β M,例如,轉換單元74可產生權重值
β m為
,而不在此限。
另一方面,遮罩產生器66可根據加權能量P
wei及參考能量P
ref產生遮罩限制
所需之特定值
G,例如,遮罩產生器66可計算特定值
G為
,其中比例可視實際情況而調整,另外,遮罩產生器66可計算特定值
G為
或
,而不在此限。另外,遮罩產生器66可根據權重值
ω 1~
ω M(即根據辨識分數
q 1~
q M)決定目標訊號的目標指標
n *,例如,遮罩產生器66可決定目標指標
n *為對應於權重值
ω 1~
ω M中一最大權重值之一權重指標,即決定目標指標
n *為
。如此一來,遮罩產生器66取得特定值
G以及目標指標
n *後,即可產生遮罩限制
為
。限制產生器64將遮罩限制
輸出至分離矩陣產生器16,分離矩陣產生器16即可遮罩限制
產生新的分離矩陣
W,以分離出聲源
z 1~
z M。
關於限制產生器64的操作流程可歸納成為一遮罩限制產生流程80,如第8圖所示,遮罩限制產生流程80包含以下步驟:
步驟800:根據分離結果
y 1~
y M計算對應於聲源
z 1~
z M之聲源能量P
1~P
M。
步驟802:根據辨識分數
q 1~
q M,產生權重值
ω 1~
ω M及權重值
β 1~
β M。
步驟804:根據聲源能量P
1~P
M及權重值
ω 1~
ω M,產生加權能量P
wei。
步驟806:根據聲源能量P
1~P
M及權重值
β 1~
β M,產生參考能量P
ref。
步驟808:根據加權能量P
wei及參考能量P
ref,產生特定值
G。
步驟810:根據權重值
ω 1~
ω M,決定目標指標
n *。
步驟812:根據特定值
G及目標指標
n *,產生遮罩限制
。
另一方面,聲源分離裝置不限於以特殊應用積體電路來實現,請參考第9圖,第9圖為本發明實施例一聲源分離裝置90之示意圖,聲源分離裝置90包含一處理單元902及一儲存單元904。前述聲源分離流程20、空間限制產生流程50、遮罩限制產生流程80可編譯成一程式碼908並儲存於儲存單元904中,以指示處理單元902執行流程20、50、80。其中,處理單元902可為一數位訊號處理器(DSP),而不在此限。儲存單元904可為一非揮發性記憶體(Non-Volatile Memory,例如,一電子抹除式可複寫唯讀記憶體(Electrically Erasable Programmable Read Only Memory, EEPROM)或一快閃記憶體(Flash Memory)),而不在此限。
此外,為了易於理解,於上述實施例中,聲源
z、目標訊號
s、接收器R或者其他種類的輸出訊號(如聲源能量P、辨識分數
q、分離結果
y等)皆用M來表示其為多數個,但本發明並不限制相互之間的數目必然相同,亦可有不同數目的應用。例如: 假設接收器R數目有2個,聲源
z數目可能為4個,目標訊號
s數目可能為1個。
綜上所述,本發明可根據辨識分數更新限制條件,並根據更新後的限制條件調整分離矩陣,其可針對目標訊號的空間變化而據以調整,進而增進聲源分離的效能。 以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 1 </td><td> 聲源分離裝置 </td></tr><tr><td> 20、50、80 </td><td> 流程 </td></tr><tr><td> 200~206、500~508、800~812 </td><td> 步驟 </td></tr><tr><td> 10 </td><td> 分離單元 </td></tr><tr><td> 12 </td><td> 辨識單元 </td></tr><tr><td> 14 </td><td> 限制產生器 </td></tr><tr><td> 16 </td><td> 分離矩陣產生器 </td></tr><tr><td> 22 </td><td> 參考模型訓練器 </td></tr><tr><td> 24 </td><td> 匹配器 </td></tr><tr><td> 26 </td><td> 特徵擷取器 </td></tr><tr><td> 34、64 </td><td> 限制產生器 </td></tr><tr><td> 342、642 </td><td> 更新控制器 </td></tr><tr><td> 30 </td><td> 反矩陣轉換單元 </td></tr><tr><td> 36 </td><td> 平均單元 </td></tr><tr><td> 40 </td><td> 映射單元 </td></tr><tr><td> 42 </td><td> 正規化單元 </td></tr><tr><td> 44 </td><td> 最大值選取器 </td></tr><tr><td> 46 </td><td> 權重組合單元 </td></tr><tr><td> 60 </td><td> 能量單元 </td></tr><tr><td> 62 </td><td> 加權能量產生器 </td></tr><tr><td> 68 </td><td> 參考能量產生器 </td></tr><tr><td> 66 </td><td> 遮罩產生器 </td></tr><tr><td> 70 </td><td> 映射單元 </td></tr><tr><td> 72 </td><td> 正規化單元 </td></tr><tr><td> 74 </td><td> 轉換單元 </td></tr><tr><td> 902 </td><td> 處理單元 </td></tr><tr><td> 904 </td><td> 儲存單元 </td></tr><tr><td> 908 </td><td> 程式碼 </td></tr><tr><td><b>c</b></td><td> 空間限制 </td></tr><tr><td> CT </td><td> 限制條件 </td></tr><tr><td><img wi="38" he="26" file="TWI622043B_D0006.tif" img-format="jpg"></img></td><td> 更新係數 </td></tr><tr><td> P<sub>1</sub>~P<sub>M</sub></td><td> 聲源能量 </td></tr><tr><td> P<sub>wei</sub></td><td> 加權能量 </td></tr><tr><td> P<sub>ref</sub></td><td> 參考能量 </td></tr><tr><td><i>q</i><sub>1</sub>~<i>q</i><sub>M</sub><i>b</i><sub>1</sub>~<i>b</i><sub>M</sub></td><td> 辨識分數 特徵訊號 </td></tr><tr><td> R<sub>1</sub>~R<sub>M</sub></td><td> 接收器 </td></tr><tr><td><i>x</i><sub>1</sub>~<i>x</i><sub>M</sub></td><td> 接收訊號 </td></tr><tr><td><b>x</b></td><td> 接收訊號組 </td></tr><tr><td><i>y</i><sub>1</sub>~<i>y</i><sub>M</sub></td><td> 分離結果 </td></tr><tr><td><b>W</b></td><td> 分離矩陣 </td></tr><tr><td> α </td><td> 更新速率 </td></tr><tr><td><i>β</i><sub>1</sub>~<i>β</i><sub>M</sub>、<i>ω</i><sub>1</sub>~<i>ω</i><sub>M</sub></td><td> 權重值 </td></tr><tr><td><img wi="18" he="18" file="TWI622043B_D0035.tif" img-format="jpg"></img></td><td> 遮罩限制 </td></tr></TBODY></TABLE>
第1圖為本發明實施例一聲源分離裝置之示意圖。 第2圖為本發明實施例一聲源分離流程之示意圖。 第3圖為本發明實施例一限制產生器之示意圖。 第4圖為本發明實施例一更新控制器之示意圖。 第5圖為本發明實施例一空間限制產生流程之示意圖。 第6圖為本發明實施例一限制產生器之示意圖。 第7圖為本發明實施例一更新控制器之示意圖。 第8圖為本發明實施例一遮罩限制產生流程之示意圖。 第9圖為本發明實施例一聲源分離裝置之示意圖。 第10圖為本發明實施例一辨識單元之示意圖。
Claims (10)
- 一種聲源分離方法,用來自複數個接收訊號中進行聲源分離,該聲源分離方法包含有: 將一分離矩陣施加於該複數個接收訊號,以產生複數個分離結果; 對該複數個分離結果進行一辨識運算,以產生複數個辨識分數,其中該複數個辨識分數相關於該複數個分離結果與一目標訊號之間的匹配程度; 根據該複數個辨識分數,產生一限制條件,其中該限制條件為一空間限制或一遮罩限制;以及 根據該限制條件,調整該分離矩陣; 其中,調整後之該分離矩陣施加於該複數個接收訊號,以自該接收訊號中分離出更新之該複數個分離結果。
- 如請求項1所述之聲源分離方法,其中對該複數個分離結果進行該辨識運算,以產生該複數個辨識分數的步驟包含有: 建立對應於該目標訊號之一參考模型; 擷取該分離結果之特徵;以及 將該複數個分離結果之特徵與該參考模型進行比對,以產生該複數個辨識分數。
- 如請求項1所述之聲源分離方法,其中根據該複數個辨識分數,產生該空間限制的步驟包含有: 根據該複數個辨識分數,產生複數個第一權重值; 根據該複數個辨識分數,產生一更新速率; 根據該分離矩陣及該複數個第一權重值,產生一更新係數;以及 根據該更新係數及該更新速率,產生該空間限制。
- 如請求項3所述之聲源分離方法,其中根據該複數個辨識分數,產生該複數個第一權重值的步驟包含有: 對該複數個辨識分數進行一映射運算,以取得複數個映射值;以及 對該複數個映射值進行一正規化運算,以取得該複數個第一權重值。
- 如請求項4所述之聲源分離方法,其中根據該複數個辨識分數,產生該更新速率的步驟包含有: 取得該更新速率為該複數個映射值之一最大值。
- 如請求項3所述之聲源分離方法,其中根據該分離矩陣及該複數個第一權重值,產生該更新係數的步驟包含有: 對該分離矩陣進行一反矩陣運算,以產生複數個估測指向向量;以及 根據該複數個估測指向向量及該複數個第一權重值,產生該更新係數。
- 如請求項3所述之聲源分離方法,其中根據該更新係數及該更新速率,產生該空間限制的步驟包含有: 執行 ; 其中 c代表該空間限制,α代表該更新速率, 代表該更新係數。
- 如請求項1所述之聲源分離方法,其中根據該複數個辨識分數,產生該遮罩限制的步驟包含有: 根據該複數個辨識分數,產生複數個第一權重值; 根據該複數個第一權重值,產生複數個第二權重值; 根據該分離結果,產生複數個聲源能量; 根據該複數個聲源能量及該複數個第一權重值,產生一加權能量; 根據該複數個聲源能量及該複數個第二權重值,產生一參考能量;以及 根據該加權能量、該參考能量及該複數個第一權重值,產生該遮罩限制。
- 如請求項8所述之聲源分離方法,其中根據該加權能量、該參考能量及該複數個第一權重值,產生該遮罩限制的步驟包含有: 根據該加權能量及該參考能量,產生一特定值; 決定該目標指標為對應於該複數個第一權重值中一最大權重值之一權重指標;以及 根據該特定值及該目標指標,產生該遮罩限制。
- 一種聲源分離裝置,用來自複數個接收訊號中進行聲源分離,該聲源分離裝置包含有: 一分離單元,用來將一分離矩陣施加於該複數個接收訊號,以產生複數個分離結果; 一辨識單元,用來對該複數個分離結果進行一辨識運算,以產生複數個辨識分數,其中該複數個辨識分數相關於該複數個分離結果與一目標訊號之間的匹配程度; 一限制產生器,用來根據該複數個辨識分數,產生一限制條件,其中該限制條件為一空間限制或一遮罩限制;以及 一分離矩陣產生器,用來根據該限制條件,調整該分離矩陣; 其中,調整後之該分離矩陣施加於該複數個接收訊號,以自該接收訊號中分離出更新之該複數個分離結果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105117508A TWI622043B (zh) | 2016-06-03 | 2016-06-03 | 聲源分離方法與裝置 |
US15/611,799 US10770090B2 (en) | 2016-06-03 | 2017-06-02 | Method and device of audio source separation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105117508A TWI622043B (zh) | 2016-06-03 | 2016-06-03 | 聲源分離方法與裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201743321A TW201743321A (zh) | 2017-12-16 |
TWI622043B true TWI622043B (zh) | 2018-04-21 |
Family
ID=60483375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105117508A TWI622043B (zh) | 2016-06-03 | 2016-06-03 | 聲源分離方法與裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10770090B2 (zh) |
TW (1) | TWI622043B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI665661B (zh) * | 2018-02-14 | 2019-07-11 | 美律實業股份有限公司 | 音頻處理裝置及音頻處理方法 |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
US20240257825A1 (en) * | 2023-01-27 | 2024-08-01 | Avago Technologies International Sales Pte. Limited | Dynamic selection of appropriate far-field signal separation algorithms |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200627235A (en) * | 2005-01-19 | 2006-08-01 | Matsushita Electric Ind Co Ltd | Separation system and method for acoustic signal |
CN101957443B (zh) * | 2010-06-22 | 2012-07-11 | 嘉兴学院 | 声源定位方法 |
CN101622669B (zh) * | 2007-02-26 | 2013-03-13 | 高通股份有限公司 | 用于信号分离的系统、方法及设备 |
TWI397057B (zh) * | 2009-08-03 | 2013-05-21 | Univ Nat Chiao Tung | 音訊分離裝置及其操作方法 |
CN102075831B (zh) * | 2009-11-20 | 2013-10-23 | 索尼公司 | 信号处理设备、信号处理方法及其程序 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
-
2016
- 2016-06-03 TW TW105117508A patent/TWI622043B/zh active
-
2017
- 2017-06-02 US US15/611,799 patent/US10770090B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200627235A (en) * | 2005-01-19 | 2006-08-01 | Matsushita Electric Ind Co Ltd | Separation system and method for acoustic signal |
CN101622669B (zh) * | 2007-02-26 | 2013-03-13 | 高通股份有限公司 | 用于信号分离的系统、方法及设备 |
TWI397057B (zh) * | 2009-08-03 | 2013-05-21 | Univ Nat Chiao Tung | 音訊分離裝置及其操作方法 |
CN102075831B (zh) * | 2009-11-20 | 2013-10-23 | 索尼公司 | 信号处理设备、信号处理方法及其程序 |
CN101957443B (zh) * | 2010-06-22 | 2012-07-11 | 嘉兴学院 | 声源定位方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201743321A (zh) | 2017-12-16 |
US20170352362A1 (en) | 2017-12-07 |
US10770090B2 (en) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148422B (zh) | 基于传声器阵列确定声源信息的方法、装置及电子设备 | |
US9741360B1 (en) | Speech enhancement for target speakers | |
CN107077860B (zh) | 用于将有噪音频信号转换为增强音频信号的方法 | |
CN106169295B (zh) | 身份向量生成方法和装置 | |
Kwon et al. | NMF-based speech enhancement using bases update | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
CN111465982B (zh) | 信号处理设备和方法、训练设备和方法以及程序 | |
TWI622043B (zh) | 聲源分離方法與裝置 | |
US11289109B2 (en) | Systems and methods for audio signal processing using spectral-spatial mask estimation | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
JP6987075B2 (ja) | オーディオ源分離 | |
JP2020148909A (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2022539867A (ja) | 音声分離方法及び装置、電子機器 | |
JP2016045221A (ja) | 信号解析装置、方法、及びプログラム | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
Yin et al. | Multi-talker Speech Separation Based on Permutation Invariant Training and Beamforming. | |
Dwivedi et al. | Spherical harmonics domain-based approach for source localization in presence of directional interference | |
JP2004302122A (ja) | 目的信号抽出方法及びその装置、目的信号抽出プログラム及びその記録媒体 | |
JP4738284B2 (ja) | ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体 | |
JP2020038315A (ja) | 音声情報処理装置および方法 | |
JP6324647B1 (ja) | 話者適応化装置、音声認識装置および音声認識方法 | |
CN113808606B (zh) | 语音信号处理方法和装置 | |
CN112151061B (zh) | 信号排序方法和装置、计算机可读存储介质、电子设备 |