JPWO2010092913A1 - 多チャンネル音響信号処理方法、そのシステム及びプログラム - Google Patents

多チャンネル音響信号処理方法、そのシステム及びプログラム Download PDF

Info

Publication number
JPWO2010092913A1
JPWO2010092913A1 JP2010550498A JP2010550498A JPWO2010092913A1 JP WO2010092913 A1 JPWO2010092913 A1 JP WO2010092913A1 JP 2010550498 A JP2010550498 A JP 2010550498A JP 2010550498 A JP2010550498 A JP 2010550498A JP WO2010092913 A1 JPWO2010092913 A1 JP WO2010092913A1
Authority
JP
Japan
Prior art keywords
channel
section
crosstalk
channels
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010550498A
Other languages
English (en)
Other versions
JP5605573B2 (ja
Inventor
剛範 辻川
剛範 辻川
江森 正
正 江森
祥史 大西
祥史 大西
亮輔 磯谷
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010550498A priority Critical patent/JP5605573B2/ja
Publication of JPWO2010092913A1 publication Critical patent/JPWO2010092913A1/ja
Application granted granted Critical
Publication of JP5605573B2 publication Critical patent/JP5605573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、類似度が高い複数のチャンネルを選択し、選択した複数のチャンネルの入力信号を用いて信号を分離し、類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、話者毎、又は、チャンネル毎の音声区間を検出することを特徴とする。【選択図】図3

Description

本発明は、多チャンネル音響信号処理方法、そのシステム及びプログラムに関する。
関連する多チャンネル音響信号処理システムの一例が、特許文献1に記載されている。この装置は、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出するシステムである。また、上記混合音響信号から目的音声を検出できるシステムでもある。
図10は、特許文献1に開示されている雑音除去システムの構成を示すブロック図であり、混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部101と、信号分離部101から出力される分離信号を受け強度比計算部106からの強度比に基づき雑音を推定する雑音推定部102と、信号分離部101から出力される分離信号と、雑音推定部102で推定された雑音成分と、強度比計算部106の出力を受けて雑音区間、音声区間を検出する雑音区間検出部103とを有する。
特開2005−308771号公報
上記で説明した特許文献1に記載の雑音除去システムは、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的音声を検出、抽出することを意図したものであるが、下記の課題を有している。
その課題は、混合音響信号から目的音声を効率的に検出、抽出することができない場合があることである。その理由は、複数のマイクロホンが任意に配置され、複数のマイクロホンからの信号(マイクロホン信号、図10では入力時系列信号)を用いて、例えば目的音声を検出することを想定すると、マイクロホン信号によっては、信号分離が必要な場合と、不要な場合とがあるためである。すなわち、信号分離部101の後段の処理によって、信号分離が必要な度合いが異なるということである。信号分離が不要なマイクロホン信号が多数となると、信号分離部101は不要な処理に莫大な計算量を費やすことになり、非効率的である。
また他の理由は、目的音声を抽出する信号分離部101の出力を用いて、雑音区間、音声区間を検出する構成となっているためである。例えば、図1のような話者A、BとマイクロホンA、Bの配置を想定し、マイクロホンA、Bで収音した話者A、Bの混合音響信号から話者A、Bの音声をそれぞれ検出、抽出することを考える。マイクロホンAと話者Aとの間の距離は、マイクロホンAと話者Bとの間の距離と近いため、マイクロホンAには話者Aと話者Bとの音声が近い割合で混入する(図2を参照)。
しかし、マイクロホンBと話者Aとの間の距離は、マイクロホンBと話者Bとの間の距離に比べて遠いため、マイクロホンBに混入する話者Aの音声は、話者Bの音声に比べて少ない(図2を参照)。すなわち、マイクロホンAに含まれる話者Aの音声とマイクロホンBに含まれる話者Bの音声とを抽出するために、マイクロホンAに混入する話者Bの音声(話者Bによるクロストーク)を除去する必要度は高い。しかし、マイクロホンBに混入する話者Aの音声(話者Aによるクロストーク)を除去する必要度は低い。除去の必要度が異なる場合に、信号分離部101においてマイクロホンAとマイクロホンBとで収音した混合音響信号に対して同じ処理を行うことは非効率的であった。
そこで、上記課題に鑑みて発明されたものであって、多チャンネルの入力信号から効率的に目的音声を検出できる多チャンネル音響信号処理システムを提供することにある。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、前記類似度が高い複数のチャンネルを選択し、選択した複数のチャンネルの入力信号を用いて信号を分離し、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出することを特徴とする多チャンネル音響信号処理方法である。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出部と、前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算部と、前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部とを有することを特徴とする多チャンネル音響信号処理システムである。
上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出処理と、前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算処理と、前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理とを情報処理装置に実行させることを特徴とするプログラムである。
本発明は、余計な計算を省くことができ、効率的に目的音声を検出することができる。
図1は本発明の課題を説明するためのマイクロホン、話者配置図である。 図2はクロストーク、オーバーラップ区間を説明する為の図である。 図3は本発明の第1の実施の形態の構成を示すブロック図である。 図4は本発明の第1の実施の形態の動作を示す流れ図である。 図5は多チャンネル音声検出部5で検出される音声区間とチャンネル間のクロストークとを示す図である。 図6は本発明の第2の形態の構成を示すブロック図である。 図7は本発明の第2の形態の動作を示す流れ図である。 図8はオーバーラップ区間検出部6で検出するオーバーラップ区間を示す図である。 図9は第2の特徴量算出部7−1〜7−Pで特徴量を算出する区間を示す図である。 図10は関連する雑音除去システムの構成を示すブロック図である。
<第1の実施の形態>
本発明の第1の実施の形態を説明する。
図3は、第1の実施の形態の多チャンネル音響信号処理システムの構成例を示すブロック図である。図3に示す多チャンネル音響信号処理システムは、入力信号1〜Mをそれぞれ受けてチャンネル毎の第1の特徴量を算出する第1の特徴量算出部1−1〜1−Mと、第1の特徴量を受けてチャンネル間の類似度を計算する類似度計算部2と、チャンネル間の類似度を受けて類似度の高いチャンネルを選択するチャンネル選択部3と、選択された類似度が高いチャンネルの入力信号を受けて信号を分離する信号分離部4−1〜4−Nと、信号分離後の信号分離部4−1〜4−Nからの信号と類似度が低いチャンネルの入力信号とを入力信号として受けて、それら複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する多チャンネル音声検出部5とを有する。
図4は、第1の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図3および図4を参照して、第1の実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。
入力信号1〜Mをそれぞれx1(t)〜xM(t)とする。ただし、tは時間のインデックスである。第1の特徴量算出部1−1〜1−Mでは、入力信号1〜Mから、それぞれ第1の特徴量1〜Mを算出する(ステップS1)。
F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)



FM(T) = [fM1(T) fM2(T) … fML(T)] … (1-M)
ただし、F1(T)〜FM(T)は入力信号1〜Mから算出した特徴量1〜Mである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)〜(1-M)に示すように、第1の特徴量F1(T)〜FM(T)は、それぞれL次元(Lは1以上の値)の特徴量の要素を持つベクトルとして構成される。第1の特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果、音声区間長等が考えられる。
上述したように入力信号1〜Mから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を第1の特徴量とすることもできる。尚、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。
次に、類似度計算部2は、第1の特徴量1〜Mを受けて、チャンネル間の類似度を計算する(ステップS2)。
類似度の計算方法は、特徴量の要素によって異なる。相関値は、一般的に類似度を表す指標として適している。また、距離(差分)値は、小さいほど類似度が高いということを表す指標となる。また、第1の特徴量が音素・音節認識結果の場合は、文字列の比較となり、その類似度の計算にはDPマッチングなどを利用することもある。尚、上記の相関値、距離値などは一例であり、その他の指標で類似度を計算しても良いことはもちろんである。また、全チャンネルの全組み合わせの類似度を計算する必要はなく、Mチャンネルのうちのあるチャンネルを基準とし、そのチャンネルに対する類似度のみを計算してもよい。また、複数の時刻Tを1つの区間として、その時間区間における類似度を計算してもよい。また特徴量に音声区間長が含まれる場合は、音声区間が検出されないチャンネルに対しては、以後の処理を省略することも可能である。
チャンネル選択部3は、類似度計算部2からのチャンネル間の類似度を受けて、類似度が高いチャンネルを選択し、グルーピングする(ステップS3)。
選択方法としては、類似度を閾値と比較して、閾値より高い場合に、それらのチャンネルをグルーピングする、又は、相対的に類似度が高い場合にグルーピングするなど、クラスタリングの手法を用いればよい。その際、複数のグループに選択されるチャンネルがあってもよい、
また、どのグループにも選択されないチャンネルがあってもよい。このような、いずれのチャンネルの入力信号にも類似度の低いチャンネルの入力信号はグルーピングされず、多チャンネル音声検出部5に出力される。
尚、類似度算出部2とチャンネル選択部3は、異なる特徴量に対して、類似度を計算、チャンネルを選択、という処理を繰り返すことにより、選択するチャンネルを絞り込むように処理してもよい。
信号分離部4−1〜4−Nは、チャンネル選択部3で選択されたグループ毎に信号分離を行う(ステップS4)。
信号分離は、独立成分分析に基づく手法や、2乗誤差最小化に基づく手法などを用いればよい。各信号分離部の出力は類似度が低いことが期待されるが、異なる信号分離部の出力には類似度が高いものが含まれる可能性がある。その場合には、類似している出力を取捨選択してもよい。
多チャンネル音声検出部5は、信号分離部4−1〜4−Nの出力信号と、チャンネル選択部3で類似度が低いと判定されてグルーピングされなかった信号とを入力とし、複数のチャンネルの信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する(ステップS5)。
ここで、信号分離部4−1〜4−Nの出力信号と、チャンネル選択部3で類似度が低いと判定されてグルーピングされなかった信号(信号分離部4−1〜4−Nに入力されず、チャンネル選択部3から直接入力される信号)とを、y1(t)〜yK(t)とする。多チャンネル音声検出部5では、信号y1(t)〜yK(t)から、複数のチャンネルの信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する。例えば、チャンネル1〜Pで異なる音声が検出されたとし、その音声区間の信号を以下のように表す。
y1(ts1-te1)
y2(ts2-te2)
y3(ts3-te3)



yP(tsP-teP)
ここで、ts1、ts2、ts3、…、tsPは、チャンネル1〜Pで検出された音声区間の始端時刻であり、te1、te2、te3、…、tePは、チャンネル1〜Pで検出された音声区間の終端時刻である(図5を参照)。尚、多チャンネル音声検出部5には複数の信号を用いて音声を検出する従来の手法を用いればよい。
第1の実施の形態は、全チャンネルで信号分離を行うのではなく、チャンネル間の類似度に基づいて、信号分離を行う単位を小規模にし、また信号分離が不要なチャンネルは信号分離部4−1〜4−Nに入力しない。そのため、全チャンネルで信号分離を行う場合に比べて、効率的に信号分離を行うことができる。そして、類似度の低いチャンネルの入力信号(信号分離部4−1〜4−Nに入力されず、チャンネル選択部3から直接入力される信号)と信号分離後の信号とを入力として多チャンネル音声検出を行うことにより、効率的に目的音声を検出することが可能となる。
<第2の実施の形態>
第2の実施の形態を説明する。
図6は、本発明の第2の実施の形態の多チャンネル音響信号処理システムの構成を示すブロック図である。第2の実施の形態を、図3に示した第1の実施の形態と比較すると、第2の実施の形態においては、多チャンネル検出部5の後段に、多チャンネル検出部5において検出された複数の話者の音声区間のオーバーラップ区間を検出するオーバーラップ区間検出部6と、少なくとも音声が検出された複数のチャンネル毎に第2の特徴量を算出する第2の特徴量算出部7−1〜7−Pと、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの第2の特徴量を少なくとも受けてクロストークの影響の大小を推定するクロストーク量推定部8と、影響が大きいクロストークを除去するクロストーク除去部9とが追加されている。
尚、第1の特徴量算出部1−1〜1−Mと、類似度計算部2と、チャンネル選択部3と、信号分離部4−1〜4−Nと、多チャンネル音声検出部5の動作は第1の実施の形態と同様のものなので、以下の説明では、オーバーラップ区間検出部6と、第2の特徴量算出部7−1〜7−Pと、クロストーク量推定部8と、クロストーク除去部9との説明のみを行う。
図7は、本発明を実施するための第2の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図6および図7を参照して、第2の実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。
オーバーラップ区間検出部6は、チャンネル1〜Pで検出された音声区間の始端、終端の時刻情報を受けて、オーバーラップ区間を検出する(ステップS6)。
オーバーラップ区間は、チャンネル1〜P間で、検出された音声区間が共通する区間であり、図8に示すようにts1、ts2、ts3、…、tsPおよびte1、te2、te3、…、tePの大小関係から検出できる。例えば、チャンネル1とチャンネルPとの間で検出された音声区間が共通する区間は、tsP〜te1であり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネルPとの間で検出された音声区間が共通する区間は、ts2〜tePであり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネル3との間で、検出された音声区間が共通する区間は、ts3〜te3であり、この区間がオーバーラップ区間である。オーバーラップ区間は、上述の通り、ts1、ts2、ts3、…、tsPおよびte1、te2、te3、…、tePの大小関係から検出できる。
次に、第2の特徴量算出部7−1〜7−Pは、信号y1(t)〜yP(t)から、それぞれ第2の特徴量1〜Pを算出する(ステップS7)。
G1(T) = [g11(T) g12(T) … g1H(T)] … (2-1)
G2(T) = [g21(T) g22(T) … g2H(T)] … (2-2)



GP(T) = [gP1(T) gP2(T) … gPH(T)] … (2-P)
ただし、G1(T)〜GP(T)は信号y1(t)〜yP(t)から算出した第2の特徴量1〜Pである。数式(2-1)〜(2-P)に示すように、第2の特徴量G1(T)〜GP(T)は、それぞれH次元(Hは1以上の値)の特徴量の要素を持つベクトルとして構成される。第2の特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果などが考えられる。
上述のような入力信号1〜Pから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を第2の特徴量とすることも可能である。尚、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。また第2の特徴量を算出する区間は、少なくとも音声が検出された複数のチャンネルの音声区間全てとしてもよいが、第2の特徴量算出のための計算量を削減するために、以下の区間で特徴量を算出することが望ましい。
第1のチャンネルで特徴量を算出する場合、以下の(1)+(2)−(3)の区間であることが望ましい。
(1)第1のチャンネルで検出された第1の音声区間
(2)その第1の音声区間と共通するオーバーラップ区間を有する、第nのチャンネルの第nの音声区間
(3)第nの音声区間のうち、第1の音声区間以外の第mのチャンネルの第mの音声区間とのオーバーラップ区間
図9を例として参照し、上記第2の特徴量の算出区間について説明する。
<チャンネル1が第1のチャンネルの場合>
(1)チャンネル1の音声区間=(ts1〜te1)
(2)チャンネル1の音声区間と共通するオーバーラップ区間を有するチャンネルPの音声区間=(tsP〜teP)
(3)チャンネルPの音声区間のうち、チャンネル1の音声区間以外のチャンネル2の音声区間とのオーバーラップ区間=(ts2〜teP)
(1)+(2)−(3)=(ts1〜ts2)の区間の第2の特徴量を算出する。
<チャンネル2が第1のチャンネルの場合>
(1)チャンネル2の音声区間=(ts2〜te2)
(2)チャンネル2の音声区間と共通するオーバーラップ区間を有するチャンネル3、Pの音声区間=(ts3〜te3、tsP〜teP)
(3)チャンネル3、Pの音声区間のうち、チャンネル2の音声区間以外のチャンネル1の音声区間とのオーバーラップ区間=(tsP〜te1)
(1)+(2)−(3)=(te1〜te2)の区間の第2の特徴量を算出する。
<チャンネル3が第1のチャンネルの場合>
(1)チャンネル3の音声区間=(ts3〜te3)
(2)チャンネル3の音声区間と共通するオーバーラップ区間を有するチャンネル2の音声区間=(ts2〜te2)
(3)チャンネル2の音声区間のうち、チャンネル3の音声区間以外のチャンネルPの音声区間とのオーバーラップ区間=(ts2〜teP)
(1)+(2)−(3)=(teP〜te2)の区間の第2の特徴量を算出する。
<チャンネルPが第1のチャンネルの場合>
(1)チャンネルPの音声区間=(tsP〜teP)
(2)チャンネルPの音声区間と共通するオーバーラップ区間を有するチャンネル1、2の音声区間=(ts1〜te1、ts2〜te2)
(3)チャンネル1、2の音声区間のうち、チャンネルPの音声区間以外のチャンネル3の音声区間とのオーバーラップ区間=(ts3〜te3)
(1)+(2)−(3)=(ts1〜ts3、te3〜te2)の区間の第2の特徴量を算出する。
尚、第1の特徴量と第2の特徴量との計算が重複する場合は、第2の特徴量の計算を省くことができるのはもちろんである。
次に、クロストーク量推定部8は、第1のチャンネルの第1の音声と共通のオーバーラップ区間を有する第nのチャンネルの第nの音声によるクロストークが、第1のチャンネルの第1の音声に与える影響の大小を推定する(ステップS8)。図9を例とし、説明する。第1のチャンネルをチャンネル1とした場合、チャンネル1で検出された音声(音声区間はts1〜te1)と共通のオーバーラップ区間を有するチャンネルPの音声によるクロストークが、チャンネル1の音声に与える影響の大小を推定する。推定方法には以下のような方法が考えられる。
<推定方法1>
オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1の特徴量とチャンネルPの特徴量とを比較する。そして、特徴量が近ければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
例えば、区間te1〜ts2におけるチャンネル1とチャンネルPとのパワーを比較する。そして、チャンネルPのパワーとチャンネル1のパワーが近ければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。また、チャンネル1のパワーがチャンネルPのパワーより十分大きければ、チャンネルPの音声がチャンネル1に与える影響が小さいと推定する。
<推定方法2>
まず、区間tsP〜te1におけるチャンネル1とチャンネルPとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とチャンネルPとの特徴量の差分を計算する。そして、上記2つの差分を比較し、差分の違いが少なければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
<推定方法3>
オーバーラップ区間を含まない音声区間である区間ts1〜tsPにおけるチャンネル1とチャンネルPとのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1〜ts2におけるチャンネル1とチャンネルPとのパワー比を計算する。そして、上記2つのパワー比と、区間tsP〜te1におけるチャンネル1のパワー、チャンネルPのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsP〜te1における、チャンネル1の音声とチャンネルPの音声によるクロストークのパワーを計算する。チャンネル1の音声のパワーとクロストークのパワーが近ければ、チャンネルPの音声がチャンネル1に与える影響が大きいと推定する。
以上の如く、オーバーラップ区間を含まない音声区間を少なくとも用いて、チャンネル間の特徴量に基づく比、相関値、距離値により、クロストークの影響を推定する。
クロストーク量推定部8において、その他の方法によりクロストークの影響を推定してもよいことはもちろんである。尚、図9のチャンネル3の音声区間はチャンネル2の音声区間に包含されているため、チャンネル3の音声によるクロストークがチャンネル2に与える影響の大小を推定することは難しい。このように推定が困難な場合は、事前に決めたルール(例えば、影響が大きいと判定するなど)に従えばよい。
クロストーク除去部9は、クロストーク量推定部8において、クロストークにより与えられる影響が大きい、またはクロストークとして与える影響が大きいと推定された複数のチャンネルの入力信号を受けて、クロストークを除去する(ステップS9)。
クロストークの除去は、独立成分分析に基づく手法や、2乗誤差最小化に基づく手法などを適宜用いればよい。なお、信号分離部4−1〜4−Nで使用した信号分離フィルタをクロストーク除去部9でクロストーク除去のためのフィルタの初期値として流用することが可能な場合もある。
また、クロストークを除去する区間は、少なくともオーバーラップ区間であればよい。例えば、区間te1〜ts2におけるチャンネル1とチャンネルPとのパワーを比較し、チャンネルPの音声がチャンネル1に与える影響が大きいと推定された場合、チャンネルPによるクロストークの処理対象の区間を、チャンネル1の音声区間(ts1〜te1)のうちオーバーラップ区間(tsP〜te1)とし、他の区間に対してはクロストークの処理対象とはせず、単に音声を除去するようにする。このようにすれば、クロストークの処理対象が減り、クロストークの処理の負担が軽減できる。
本発明の第2の実施の形態では、第1の実施の形態に加えて、複数の話者の音声区間のオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定している。特に、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも用いて、クロストークの影響の大小を推定し、影響が大きいクロストークを除去している。そのため、影響が小さいクロストークを除去するための計算を省くことができ、効率的にクロストークを除去することが可能となる。
尚、上記実施の形態では、区間を時間に対する区間として説明したが、周波数に対する区間としてもよいし、時間・周波数に対する区間としてもよい。例えば、時間・周波数に対する区間とした場合におけるオーバーラップ区間とは、時間と周波数が同じ区間で音声がオーバーラップする区間となる。
また、上述した実施の形態において、第1の特徴量算出部1−1〜1−Mと、類似度計算部2と、チャンネル選択部3と、信号分離部4−1〜4−Nと、多チャンネル音声検出部5と、オーバーラップ区間検出部6と、第2の特徴量算出部7−1〜7−Pと、クロストーク量推定部8と、クロストーク除去部9とをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。
尚、上記の実施の形態の内容は、以下のようにも表現されうる。
[付記1] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、
前記類似度が高い複数のチャンネルを選択し、
選択した複数のチャンネルの入力信号を用いて信号を分離し、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
ことを特徴とする多チャンネル音響信号処理方法。
[付記2] 前記チャンネル毎に算出する第1の特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを含むことを特徴とする付記1に記載の多チャンネル音響信号処理方法。
[付記3] 前記類似度を表す指標として、相関値、距離値のうち少なくとも1つを含むことを特徴とする付記1又は付記2に記載の多チャンネル音響信号処理方法。
[付記4] 前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする付記1から付記3のいずれかに記載の多チャンネル音響信号処理方法。
[付記5] 前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記1から付記4のいずれかに記載の多チャンネル音響信号処理方法。
[付記6] チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする付記1から付記5のいずれかに記載の多チャンネル音響信号処理方法。
[付記7] 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記6に記載の多チャンネル音響信号処理方法。
[付記8] 前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記7に記載の多チャンネル音響信号処理方法。
[付記9] 前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記8に記載の多チャンネル音響信号処理方法。
[付記10] 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記8又は付記9に記載の多チャンネル音響信号処理方法。
[付記11] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記7から付記10のいずれかに記載の多チャンネル音響信号処理方法。
[付記12] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出部と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算部と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
を有することを特徴とする多チャンネル音響信号処理システム。
[付記13] 前記第1の特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする付記12に記載の多チャンネル音響信号処理システム。
[付記14] 前記類似度計算部は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする付記12又は付記13に記載の多チャンネル音響信号処理システム。
[付記15] 前記第1の特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
前記類似度計算部は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記12から付記14のいずれかに記載の多チャンネル音響信号処理システム。
[付記16] 前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記12から付記15のいずれかに記載の多チャンネル音響信号処理システム。
[付記17] チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする付記12から付記16のいずれかに記載の多チャンネル音響信号処理システム。
[付記18] 前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記17に記載の多チャンネル音響信号処理システム。
[付記19] 前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記18に記載の多チャンネル音響信号処理システム。
[付記20] 前記クロストーク処理対象決定部は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記19に記載の多チャンネル音響信号処理システム。
[付記21] 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記19又は付記20に記載の多チャンネル音響信号処理システム。
[付記22] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記18から付記21のいずれかに記載の多チャンネル音響信号処理システム。
[付記23] 複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、
多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出処理と、
前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
を情報処理装置に実行させることを特徴とするプログラム。
[付記24] 前記第1の特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする付記23に記載のプログラム。
[付記25] 前記類似度計算処理は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする付記23又は付記24に記載のプログラム。
[付記26] 前記第1の特徴量算出処理は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
前記類似度計算処理は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記23から付記25のいずれかに記載のプログラム。
[付記27] 前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記23から付記26のいずれかに記載のプログラム。
[付記28] チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を有することを特徴とする付記23から付記27のいずれかに記載のプログラム。
[付記29] 前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記28に記載のプログラム。
[付記30] 前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記29に記載のプログラム。
[付記31] 前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記30に記載のプログラム。
[付記32] 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記30又は付記31に記載のプログラム。
[付記33] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記29から付記32のいずれかに記載のプログラム。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
本出願は、2009年2月13日に出願された日本出願特願2009−031109号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。
1−1〜1−M 第1の特徴量算出部
2 類似度計算部
3 チャンネル選択部
4−1〜4−N 信号分離部
5 多チャンネル音声検出部
6 オーバーラップ区間検出部
7−1〜7−P 第2の特徴量算出部
8 クロストーク量推定部
9 クロストーク除去部

Claims (33)

  1. 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
    多チャンネルの入力信号からチャンネル毎に第1の特徴量を算出し、
    前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算し、
    前記類似度が高い複数のチャンネルを選択し、
    選択した複数のチャンネルの入力信号を用いて信号を分離し、
    前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
    ことを特徴とする多チャンネル音響信号処理方法。
  2. 前記チャンネル毎に算出する第1の特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを含むことを特徴とする請求項1に記載の多チャンネル音響信号処理方法。
  3. 前記類似度を表す指標として、相関値、距離値のうち少なくとも1つを含むことを特徴とする請求項1又は請求項2に記載の多チャンネル音響信号処理方法。
  4. 前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする請求項1から請求項3のいずれかに記載の多チャンネル音響信号処理方法。
  5. 前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項1から請求項4のいずれかに記載の多チャンネル音響信号処理方法。
  6. チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
    前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
    ことを特徴とする請求項1から請求項5のいずれかに記載の多チャンネル音響信号処理方法。
  7. 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
    クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
    ことを特徴とする請求項6に記載の多チャンネル音響信号処理方法。
  8. 前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項7に記載の多チャンネル音響信号処理方法。
  9. 前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項8に記載の多チャンネル音響信号処理方法。
  10. 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項8又は請求項9に記載の多チャンネル音響信号処理方法。
  11. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項7から請求項10のいずれかに記載の多チャンネル音響信号処理方法。
  12. 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
    多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出部と、
    前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算部と、
    前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
    選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
    前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
    を有することを特徴とする多チャンネル音響信号処理システム。
  13. 前記第1の特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする請求項12に記載の多チャンネル音響信号処理システム。
  14. 前記類似度計算部は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする請求項12又は請求項13に記載の多チャンネル音響信号処理システム。
  15. 前記第1の特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
    前記類似度計算部は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項12から請求項14のいずれかに記載の多チャンネル音響信号処理システム。
  16. 前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項12から請求項15のいずれかに記載の多チャンネル音響信号処理システム。
  17. チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
    前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
    を有することを特徴とする請求項12から請求項16のいずれかに記載の多チャンネル音響信号処理システム。
  18. 前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項17に記載の多チャンネル音響信号処理システム。
  19. 前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項18に記載の多チャンネル音響信号処理システム。
  20. 前記クロストーク処理対象決定部は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項19に記載の多チャンネル音響信号処理システム。
  21. 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項19又は請求項20に記載の多チャンネル音響信号処理システム。
  22. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項18から請求項21のいずれかに記載の多チャンネル音響信号処理システム。
  23. 複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、
    多チャンネルの入力信号からチャンネル毎に特徴量を算出する第1の特徴量算出処理と、
    前記チャンネル毎の第1の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
    前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
    選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
    前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
    を情報処理装置に実行させることを特徴とするプログラム。
  24. 前記第1の特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも1つを、特徴量として算出することを特徴とする請求項23に記載のプログラム。
  25. 前記類似度計算処理は、相関値、距離値のうち少なくとも1つを、前記類似度を表す指標として算出することを特徴とする請求項23又は請求項24に記載のプログラム。
  26. 前記第1の特徴量算出処理は、異なる特徴量の種類でチャンネル毎の異なる第1の特徴量を算出し、
    前記類似度計算処理は、異なる第1の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項23から請求項25のいずれかに記載のプログラム。
  27. 前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項23から請求項26のいずれかに記載のプログラム。
  28. チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
    前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
    前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
    を有することを特徴とする請求項23から請求項27のいずれかに記載のプログラム。
  29. 前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項28に記載のプログラム。
  30. 前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第2の特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項29に記載のプログラム。
  31. 前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記第2の特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項30に記載のプログラム。
  32. 前記第2の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項30又は請求項31に記載のプログラム。
  33. 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項29から請求項32のいずれかに記載のプログラム。
JP2010550498A 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム Active JP5605573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010550498A JP5605573B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009031109 2009-02-13
JP2009031109 2009-02-13
JP2010550498A JP5605573B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム
PCT/JP2010/051750 WO2010092913A1 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010092913A1 true JPWO2010092913A1 (ja) 2012-08-16
JP5605573B2 JP5605573B2 (ja) 2014-10-15

Family

ID=42561755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010550498A Active JP5605573B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Country Status (3)

Country Link
US (1) US8954323B2 (ja)
JP (1) JP5605573B2 (ja)
WO (1) WO2010092913A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2012009785A (es) * 2010-02-24 2012-11-23 Fraunhofer Ges Forschung Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora.
JP5397786B2 (ja) * 2011-09-17 2014-01-22 ヤマハ株式会社 かぶり音除去装置
CN103617797A (zh) 2013-12-09 2014-03-05 腾讯科技(深圳)有限公司 一种语音处理方法,及装置
US9818427B2 (en) * 2015-12-22 2017-11-14 Intel Corporation Automatic self-utterance removal from multimedia files
JP7140542B2 (ja) * 2018-05-09 2022-09-21 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
KR20190133100A (ko) 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
JP7047626B2 (ja) * 2018-06-22 2022-04-05 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
CN110718237B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
US20230088989A1 (en) 2020-02-21 2023-03-23 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
JPWO2023276159A1 (ja) * 2021-07-02 2023-01-05

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510069A (ja) * 2002-12-11 2006-03-23 ソフトマックス,インク 改良型独立成分分析を使用する音声処理ためのシステムおよび方法
JP3949150B2 (ja) * 2003-09-02 2007-07-25 日本電信電話株式会社 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2008092363A (ja) * 2006-10-03 2008-04-17 Sony Corp 信号分離装置及び方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
JP3506138B2 (ja) * 2001-07-11 2004-03-15 ヤマハ株式会社 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4543731B2 (ja) 2004-04-16 2010-09-15 日本電気株式会社 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム
CN1942932B (zh) * 2005-02-08 2010-07-28 日本电信电话株式会社 信号分离装置和信号分离方法
WO2006090589A1 (ja) * 2005-02-25 2006-08-31 Pioneer Corporation 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US20070135952A1 (en) * 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
DE102006027673A1 (de) * 2006-06-14 2007-12-20 Friedrich-Alexander-Universität Erlangen-Nürnberg Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
US8738368B2 (en) * 2006-09-21 2014-05-27 GM Global Technology Operations LLC Speech processing responsive to a determined active communication zone in a vehicle
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
KR20080082363A (ko) 2007-03-08 2008-09-11 강석환 건축물 외벽 시공용 갱폼
ATE504010T1 (de) * 2007-06-01 2011-04-15 Univ Graz Tech Gemeinsame positions-tonhöhenschätzung akustischer quellen zu ihrer verfolgung und trennung
JP4469882B2 (ja) * 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8130978B2 (en) * 2008-10-15 2012-03-06 Microsoft Corporation Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510069A (ja) * 2002-12-11 2006-03-23 ソフトマックス,インク 改良型独立成分分析を使用する音声処理ためのシステムおよび方法
JP3949150B2 (ja) * 2003-09-02 2007-07-25 日本電信電話株式会社 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2008092363A (ja) * 2006-10-03 2008-04-17 Sony Corp 信号分離装置及び方法

Also Published As

Publication number Publication date
WO2010092913A1 (ja) 2010-08-19
US8954323B2 (en) 2015-02-10
US20120046940A1 (en) 2012-02-23
JP5605573B2 (ja) 2014-10-15

Similar Documents

Publication Publication Date Title
JP5605573B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US8364483B2 (en) Method for separating source signals and apparatus thereof
US9418678B2 (en) Sound processing device, sound processing method, and program
EP2731359B1 (en) Audio processing device, method and program
EP2881948A1 (en) Spectral comb voice activity detection
JP5605575B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
Liu et al. Deep CASA for talker-independent monaural speech separation
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
JP2015118361A (ja) 情報処理装置、情報処理方法、及びプログラム
EP3979240A1 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
JP4527679B2 (ja) 音声の類似度の評価を行う方法および装置
Manilow et al. Predicting algorithm efficacy for adaptive multi-cue source separation
Wang et al. Count and separate: Incorporating speaker counting for continuous speaker separation
Quan et al. Multi-channel narrow-band deep speech separation with full-band permutation invariant training
Wang et al. Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training
WO2005029463A1 (en) A method for recovering target speech based on speech segment detection under a stationary noise
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
KR20170124854A (ko) 음성/비음성 구간 검출 장치 및 방법
KR20100056859A (ko) 음성 인식 장치 및 방법
Wu et al. SADDEL: Joint speech separation and denoising model based on multitask learning
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
Taherian et al. Towards Explainable Monaural Speaker Separation with Auditory-based Training
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
EP2456184A1 (en) Method for playback of a telephone signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140812

R150 Certificate of patent or registration of utility model

Ref document number: 5605573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150