JPWO2010092913A1 - 多チャンネル音響信号処理方法、そのシステム及びプログラム - Google Patents
多チャンネル音響信号処理方法、そのシステム及びプログラム Download PDFInfo
- Publication number
- JPWO2010092913A1 JPWO2010092913A1 JP2010550498A JP2010550498A JPWO2010092913A1 JP WO2010092913 A1 JPWO2010092913 A1 JP WO2010092913A1 JP 2010550498 A JP2010550498 A JP 2010550498A JP 2010550498 A JP2010550498 A JP 2010550498A JP WO2010092913 A1 JPWO2010092913 A1 JP WO2010092913A1
- Authority
- JP
- Japan
- Prior art keywords
- channel
- section
- crosstalk
- channels
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000926 separation method Methods 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 51
- 238000001514 detection method Methods 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 28
- 230000010365 information processing Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明の第1の実施の形態を説明する。
F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)
・
・
・
FM(T) = [fM1(T) fM2(T) … fML(T)] … (1-M)
ただし、F1(T)〜FM(T)は入力信号1〜Mから算出した特徴量1〜Mである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)〜(1-M)に示すように、第1の特徴量F1(T)〜FM(T)は、それぞれL次元(Lは1以上の値)の特徴量の要素を持つベクトルとして構成される。第1の特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果、音声区間長等が考えられる。
また、どのグループにも選択されないチャンネルがあってもよい。このような、いずれのチャンネルの入力信号にも類似度の低いチャンネルの入力信号はグルーピングされず、多チャンネル音声検出部5に出力される。
y1(ts1-te1)
y2(ts2-te2)
y3(ts3-te3)
・
・
・
yP(tsP-teP)
ここで、ts1、ts2、ts3、…、tsPは、チャンネル1〜Pで検出された音声区間の始端時刻であり、te1、te2、te3、…、tePは、チャンネル1〜Pで検出された音声区間の終端時刻である(図5を参照)。尚、多チャンネル音声検出部5には複数の信号を用いて音声を検出する従来の手法を用いればよい。
第2の実施の形態を説明する。
G2(T) = [g21(T) g22(T) … g2H(T)] … (2-2)
・
・
・
GP(T) = [gP1(T) gP2(T) … gPH(T)] … (2-P)
ただし、G1(T)〜GP(T)は信号y1(t)〜yP(t)から算出した第2の特徴量1〜Pである。数式(2-1)〜(2-P)に示すように、第2の特徴量G1(T)〜GP(T)は、それぞれH次元(Hは1以上の値)の特徴量の要素を持つベクトルとして構成される。第2の特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果などが考えられる。
(1)第1のチャンネルで検出された第1の音声区間
(2)その第1の音声区間と共通するオーバーラップ区間を有する、第nのチャンネルの第nの音声区間
(3)第nの音声区間のうち、第1の音声区間以外の第mのチャンネルの第mの音声区間とのオーバーラップ区間
<チャンネル1が第1のチャンネルの場合>
(1)チャンネル1の音声区間=(ts1〜te1)
(2)チャンネル1の音声区間と共通するオーバーラップ区間を有するチャンネルPの音声区間=(tsP〜teP)
(3)チャンネルPの音声区間のうち、チャンネル1の音声区間以外のチャンネル2の音声区間とのオーバーラップ区間=(ts2〜teP)
(1)+(2)−(3)=(ts1〜ts2)の区間の第2の特徴量を算出する。
(1)チャンネル2の音声区間=(ts2〜te2)
(2)チャンネル2の音声区間と共通するオーバーラップ区間を有するチャンネル3、Pの音声区間=(ts3〜te3、tsP〜teP)
(3)チャンネル3、Pの音声区間のうち、チャンネル2の音声区間以外のチャンネル1の音声区間とのオーバーラップ区間=(tsP〜te1)
(1)+(2)−(3)=(te1〜te2)の区間の第2の特徴量を算出する。
(1)チャンネル3の音声区間=(ts3〜te3)
(2)チャンネル3の音声区間と共通するオーバーラップ区間を有するチャンネル2の音声区間=(ts2〜te2)
(3)チャンネル2の音声区間のうち、チャンネル3の音声区間以外のチャンネルPの音声区間とのオーバーラップ区間=(ts2〜teP)
(1)+(2)−(3)=(teP〜te2)の区間の第2の特徴量を算出する。
(1)チャンネルPの音声区間=(tsP〜teP)
(2)チャンネルPの音声区間と共通するオーバーラップ区間を有するチャンネル1、2の音声区間=(ts1〜te1、ts2〜te2)
(3)チャンネル1、2の音声区間のうち、チャンネルPの音声区間以外のチャンネル3の音声区間とのオーバーラップ区間=(ts3〜te3)
(1)+(2)−(3)=(ts1〜ts3、te3〜te2)の区間の第2の特徴量を算出する。
オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1の特徴量とチャンネルPの特徴量とを比較する。そして、特徴量が近ければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
まず、区間tsP〜te1におけるチャンネル1とチャンネルPとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とチャンネルPとの特徴量の差分を計算する。そして、上記2つの差分を比較し、差分の違いが少なければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
オーバーラップ区間を含まない音声区間である区間ts1〜tsPにおけるチャンネル1とチャンネルPとのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とチャンネルPとのパワー比を計算する。そして、上記2つのパワー比と、区間tsP〜te1におけるチャンネル1のパワー、チャンネルPのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsP〜te1における、チャンネル1の音声とチャンネルPの音声によるクロストークのパワーを計算する。チャンネル1の音声のパワーとクロストークのパワーが近ければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、
前記類似度が高い複数のチャンネルを選択し、
選択した複数のチャンネルの入力信号を用いて信号を分離し、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
ことを特徴とする多チャンネル音響信号処理方法。
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする付記1から付記5のいずれかに記載の多チャンネル音響信号処理方法。
クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記6に記載の多チャンネル音響信号処理方法。
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出部と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算部と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
を有することを特徴とする多チャンネル音響信号処理システム。
前記類似度計算部は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記12から付記14のいずれかに記載の多チャンネル音響信号処理システム。
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする付記12から付記16のいずれかに記載の多チャンネル音響信号処理システム。
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出処理と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
を情報処理装置に実行させることを特徴とするプログラム。
前記類似度計算処理は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記23から付記25のいずれかに記載のプログラム。
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を有することを特徴とする付記23から付記27のいずれかに記載のプログラム。
2 類似度計算部
3 チャンネル選択部
4−1〜4−N 信号分離部
5 多チャンネル音声検出部
6 オーバーラップ区間検出部
7−1〜7−P 第2の特徴量算出部
8 クロストーク量推定部
9 クロストーク除去部
Claims (33)
- 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、
前記類似度が高い複数のチャンネルを選択し、
選択した複数のチャンネルの入力信号を用いて信号を分離し、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
ことを特徴とする多チャンネル音響信号処理方法。 - 前記チャンネル毎に算出する第1の特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを含むことを特徴とする請求項1に記載の多チャンネル音響信号処理方法。
- 前記類似度を表す指標として、相関値、距離値のうち少なくとも1つを含むことを特徴とする請求項1又は請求項2に記載の多チャンネル音響信号処理方法。
- 前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする請求項1から請求項3のいずれかに記載の多チャンネル音響信号処理方法。
- 前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項1から請求項4のいずれかに記載の多チャンネル音響信号処理方法。
- チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする請求項1から請求項5のいずれかに記載の多チャンネル音響信号処理方法。 - 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする請求項6に記載の多チャンネル音響信号処理方法。 - 前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項7に記載の多チャンネル音響信号処理方法。 - 前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項8に記載の多チャンネル音響信号処理方法。
- 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項8又は請求項9に記載の多チャンネル音響信号処理方法。
- 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項7から請求項10のいずれかに記載の多チャンネル音響信号処理方法。
- 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出部と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算部と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
を有することを特徴とする多チャンネル音響信号処理システム。 - 前記第1の特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする請求項12に記載の多チャンネル音響信号処理システム。
- 前記類似度計算部は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする請求項12又は請求項13に記載の多チャンネル音響信号処理システム。
- 前記第1の特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
前記類似度計算部は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項12から請求項14のいずれかに記載の多チャンネル音響信号処理システム。 - 前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項12から請求項15のいずれかに記載の多チャンネル音響信号処理システム。
- チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする請求項12から請求項16のいずれかに記載の多チャンネル音響信号処理システム。 - 前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項17に記載の多チャンネル音響信号処理システム。
- 前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項18に記載の多チャンネル音響信号処理システム。 - 前記クロストーク処理対象決定部は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項19に記載の多チャンネル音響信号処理システム。
- 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項19又は請求項20に記載の多チャンネル音響信号処理システム。
- 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項18から請求項21のいずれかに記載の多チャンネル音響信号処理システム。
- 複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出処理と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
を情報処理装置に実行させることを特徴とするプログラム。 - 前記第1の特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする請求項23に記載のプログラム。
- 前記類似度計算処理は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする請求項23又は請求項24に記載のプログラム。
- 前記第1の特徴量算出処理は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
前記類似度計算処理は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項23から請求項25のいずれかに記載のプログラム。 - 前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項23から請求項26のいずれかに記載のプログラム。
- チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を有することを特徴とする請求項23から請求項27のいずれかに記載のプログラム。 - 前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項28に記載のプログラム。
- 前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項29に記載のプログラム。 - 前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項30に記載のプログラム。
- 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項30又は請求項31に記載のプログラム。
- 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項29から請求項32のいずれかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010550498A JP5605573B2 (ja) | 2009-02-13 | 2010-02-08 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031109 | 2009-02-13 | ||
JP2009031109 | 2009-02-13 | ||
JP2010550498A JP5605573B2 (ja) | 2009-02-13 | 2010-02-08 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
PCT/JP2010/051750 WO2010092913A1 (ja) | 2009-02-13 | 2010-02-08 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010092913A1 true JPWO2010092913A1 (ja) | 2012-08-16 |
JP5605573B2 JP5605573B2 (ja) | 2014-10-15 |
Family
ID=42561755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010550498A Active JP5605573B2 (ja) | 2009-02-13 | 2010-02-08 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8954323B2 (ja) |
JP (1) | JP5605573B2 (ja) |
WO (1) | WO2010092913A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2012009785A (es) * | 2010-02-24 | 2012-11-23 | Fraunhofer Ges Forschung | Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora. |
JP5397786B2 (ja) * | 2011-09-17 | 2014-01-22 | ヤマハ株式会社 | かぶり音除去装置 |
CN103617797A (zh) | 2013-12-09 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 一种语音处理方法,及装置 |
US9818427B2 (en) * | 2015-12-22 | 2017-11-14 | Intel Corporation | Automatic self-utterance removal from multimedia files |
JP7140542B2 (ja) * | 2018-05-09 | 2022-09-21 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
KR20190133100A (ko) | 2018-05-22 | 2019-12-02 | 삼성전자주식회사 | 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법 |
JP7047626B2 (ja) * | 2018-06-22 | 2022-04-05 | コニカミノルタ株式会社 | 会議システム、会議サーバ及びプログラム |
CN110718237B (zh) * | 2018-07-12 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 串音数据检测方法和电子设备 |
US20230088989A1 (en) | 2020-02-21 | 2023-03-23 | Harman International Industries, Incorporated | Method and system to improve voice separation by eliminating overlap |
JPWO2023276159A1 (ja) * | 2021-07-02 | 2023-01-05 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006510069A (ja) * | 2002-12-11 | 2006-03-23 | ソフトマックス,インク | 改良型独立成分分析を使用する音声処理ためのシステムおよび方法 |
JP3949150B2 (ja) * | 2003-09-02 | 2007-07-25 | 日本電信電話株式会社 | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2008092363A (ja) * | 2006-10-03 | 2008-04-17 | Sony Corp | 信号分離装置及び方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424960B1 (en) * | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
JP3506138B2 (ja) * | 2001-07-11 | 2004-03-15 | ヤマハ株式会社 | 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置 |
JP3812887B2 (ja) * | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
JP4543731B2 (ja) | 2004-04-16 | 2010-09-15 | 日本電気株式会社 | 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム |
CN1942932B (zh) * | 2005-02-08 | 2010-07-28 | 日本电信电话株式会社 | 信号分离装置和信号分离方法 |
WO2006090589A1 (ja) * | 2005-02-25 | 2006-08-31 | Pioneer Corporation | 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体 |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US20070135952A1 (en) * | 2005-12-06 | 2007-06-14 | Dts, Inc. | Audio channel extraction using inter-channel amplitude spectra |
DE102006027673A1 (de) * | 2006-06-14 | 2007-12-20 | Friedrich-Alexander-Universität Erlangen-Nürnberg | Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm |
US7664643B2 (en) * | 2006-08-25 | 2010-02-16 | International Business Machines Corporation | System and method for speech separation and multi-talker speech recognition |
US8738368B2 (en) * | 2006-09-21 | 2014-05-27 | GM Global Technology Operations LLC | Speech processing responsive to a determined active communication zone in a vehicle |
US20080228470A1 (en) * | 2007-02-21 | 2008-09-18 | Atsuo Hiroe | Signal separating device, signal separating method, and computer program |
KR20080082363A (ko) | 2007-03-08 | 2008-09-11 | 강석환 | 건축물 외벽 시공용 갱폼 |
ATE504010T1 (de) * | 2007-06-01 | 2011-04-15 | Univ Graz Tech | Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung |
JP4469882B2 (ja) * | 2007-08-16 | 2010-06-02 | 株式会社東芝 | 音響信号処理方法及び装置 |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8130978B2 (en) * | 2008-10-15 | 2012-03-06 | Microsoft Corporation | Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds |
-
2010
- 2010-02-08 US US13/201,389 patent/US8954323B2/en active Active
- 2010-02-08 WO PCT/JP2010/051750 patent/WO2010092913A1/ja active Application Filing
- 2010-02-08 JP JP2010550498A patent/JP5605573B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006510069A (ja) * | 2002-12-11 | 2006-03-23 | ソフトマックス,インク | 改良型独立成分分析を使用する音声処理ためのシステムおよび方法 |
JP3949150B2 (ja) * | 2003-09-02 | 2007-07-25 | 日本電信電話株式会社 | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
JP2008092363A (ja) * | 2006-10-03 | 2008-04-17 | Sony Corp | 信号分離装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2010092913A1 (ja) | 2010-08-19 |
US8954323B2 (en) | 2015-02-10 |
US20120046940A1 (en) | 2012-02-23 |
JP5605573B2 (ja) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5605573B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
JP5605574B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
US8364483B2 (en) | Method for separating source signals and apparatus thereof | |
US9418678B2 (en) | Sound processing device, sound processing method, and program | |
EP2731359B1 (en) | Audio processing device, method and program | |
EP2881948A1 (en) | Spectral comb voice activity detection | |
JP5605575B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
CN102214464A (zh) | 音频信号的瞬态检测方法以及基于该方法的时长调整方法 | |
JP2015118361A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP3979240A1 (en) | Signal extraction system, signal extraction learning method, and signal extraction learning program | |
JP4527679B2 (ja) | 音声の類似度の評価を行う方法および装置 | |
Manilow et al. | Predicting algorithm efficacy for adaptive multi-cue source separation | |
Wang et al. | Count and separate: Incorporating speaker counting for continuous speaker separation | |
Quan et al. | Multi-channel narrow-band deep speech separation with full-band permutation invariant training | |
Wang et al. | Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training | |
WO2005029463A1 (en) | A method for recovering target speech based on speech segment detection under a stationary noise | |
KR101658001B1 (ko) | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 | |
KR20170124854A (ko) | 음성/비음성 구간 검출 장치 및 방법 | |
KR20100056859A (ko) | 음성 인식 장치 및 방법 | |
Wu et al. | SADDEL: Joint speech separation and denoising model based on multitask learning | |
JP4249697B2 (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
Taherian et al. | Towards Explainable Monaural Speaker Separation with Auditory-based Training | |
JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
EP2456184A1 (en) | Method for playback of a telephone signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605573 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |