WO2010092913A1

WO2010092913A1 - 多チャンネル音響信号処理方法、そのシステム及びプログラム

Info

Publication number: WO2010092913A1
Application number: PCT/JP2010/051750
Authority: WO
Inventors: 剛範辻川; 江森　正; 祥史大西; 亮輔磯谷
Original assignee: 日本電気株式会社
Priority date: 2009-02-13
Filing date: 2010-02-08
Publication date: 2010-08-19
Also published as: US8954323B2; JPWO2010092913A1; JP5605573B2; US20120046940A1

Abstract

本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、多チャンネルの入力信号からチャンネル毎に第１の特徴量を算出し、チャンネル毎の第１の特徴量のチャンネル間の類似度を計算し、類似度が高い複数のチャンネルを選択し、選択した複数のチャンネルの入力信号を用いて信号を分離し、類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、話者毎、又は、チャンネル毎の音声区間を検出することを特徴とする。

Description

多チャンネル音響信号処理方法、そのシステム及びプログラム

　本発明は、多チャンネル音響信号処理方法、そのシステム及びプログラムに関する。

　関連する多チャンネル音響信号処理システムの一例が、特許文献１に記載されている。この装置は、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出するシステムである。また、上記混合音響信号から目的音声を検出できるシステムでもある。

　図１０は、特許文献１に開示されている雑音除去システムの構成を示すブロック図であり、混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部１０１と、信号分離部１０１から出力される分離信号を受け強度比計算部１０６からの強度比に基づき雑音を推定する雑音推定部１０２と、信号分離部１０１から出力される分離信号と、雑音推定部１０２で推定された雑音成分と、強度比計算部１０６の出力を受けて雑音区間、音声区間を検出する雑音区間検出部１０３とを有する。

特開２００５－３０８７７１号公報

　上記で説明した特許文献１に記載の雑音除去システムは、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号から目的音声を検出、抽出することを意図したものであるが、下記の課題を有している。

　その課題は、混合音響信号から目的音声を効率的に検出、抽出することができない場合があることである。その理由は、複数のマイクロホンが任意に配置され、複数のマイクロホンからの信号（マイクロホン信号、図１０では入力時系列信号）を用いて、例えば目的音声を検出することを想定すると、マイクロホン信号によっては、信号分離が必要な場合と、不要な場合とがあるためである。すなわち、信号分離部１０１の後段の処理によって、信号分離が必要な度合いが異なるということである。信号分離が不要なマイクロホン信号が多数となると、信号分離部１０１は不要な処理に莫大な計算量を費やすことになり、非効率的である。

　また他の理由は、目的音声を抽出する信号分離部１０１の出力を用いて、雑音区間、音声区間を検出する構成となっているためである。例えば、図１のような話者Ａ、ＢとマイクロホンＡ、Ｂの配置を想定し、マイクロホンＡ、Ｂで収音した話者Ａ、Ｂの混合音響信号から話者Ａ、Ｂの音声をそれぞれ検出、抽出することを考える。マイクロホンＡと話者Ａとの間の距離は、マイクロホンＡと話者Ｂとの間の距離と近いため、マイクロホンＡには話者Ａと話者Ｂとの音声が近い割合で混入する（図２を参照）。

　しかし、マイクロホンＢと話者Ａとの間の距離は、マイクロホンＢと話者Ｂとの間の距離に比べて遠いため、マイクロホンＢに混入する話者Ａの音声は、話者Ｂの音声に比べて少ない（図２を参照）。すなわち、マイクロホンＡに含まれる話者Ａの音声とマイクロホンＢに含まれる話者Ｂの音声とを抽出するために、マイクロホンＡに混入する話者Ｂの音声（話者Ｂによるクロストーク）を除去する必要度は高い。しかし、マイクロホンＢに混入する話者Ａの音声（話者Ａによるクロストーク）を除去する必要度は低い。除去の必要度が異なる場合に、信号分離部１０１においてマイクロホンＡとマイクロホンＢとで収音した混合音響信号に対して同じ処理を行うことは非効率的であった。

　そこで、上記課題に鑑みて発明されたものであって、多チャンネルの入力信号から効率的に目的音声を検出できる多チャンネル音響信号処理システムを提供することにある。

　上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、多チャンネルの入力信号からチャンネル毎に第１の特徴量を算出し、前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算し、前記類似度が高い複数のチャンネルを選択し、選択した複数のチャンネルの入力信号を用いて信号を分離し、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出することを特徴とする多チャンネル音響信号処理方法である。

　上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出部と、前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算部と、前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部とを有することを特徴とする多チャンネル音響信号処理システムである。

　上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出処理と、前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算処理と、前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理とを情報処理装置に実行させることを特徴とするプログラムである。

　本発明は、余計な計算を省くことができ、効率的に目的音声を検出することができる。

図１は本発明の課題を説明するためのマイクロホン、話者配置図である。図２はクロストーク、オーバーラップ区間を説明する為の図である。図３は本発明の第１の実施の形態の構成を示すブロック図である。図４は本発明の第１の実施の形態の動作を示す流れ図である。図５は多チャンネル音声検出部５で検出される音声区間とチャンネル間のクロストークとを示す図である。図６は本発明の第２の形態の構成を示すブロック図である。図７は本発明の第２の形態の動作を示す流れ図である。図８はオーバーラップ区間検出部６で検出するオーバーラップ区間を示す図である。図９は第２の特徴量算出部７－１～７－Ｐで特徴量を算出する区間を示す図である。図１０は関連する雑音除去システムの構成を示すブロック図である。

　＜第１の実施の形態＞
　本発明の第１の実施の形態を説明する。

　図３は、第１の実施の形態の多チャンネル音響信号処理システムの構成例を示すブロック図である。図３に示す多チャンネル音響信号処理システムは、入力信号１～Ｍをそれぞれ受けてチャンネル毎の第１の特徴量を算出する第１の特徴量算出部１－１～１－Ｍと、第１の特徴量を受けてチャンネル間の類似度を計算する類似度計算部２と、チャンネル間の類似度を受けて類似度の高いチャンネルを選択するチャンネル選択部３と、選択された類似度が高いチャンネルの入力信号を受けて信号を分離する信号分離部４－１～４－Ｎと、信号分離後の信号分離部４－１～４－Ｎからの信号と類似度が低いチャンネルの入力信号とを入力信号として受けて、それら複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか１つのチャンネルで検出する多チャンネル音声検出部５とを有する。

　図４は、第１の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図３および図４を参照して、第１の実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。

　入力信号１～Ｍをそれぞれx1(t)～xM(t)とする。ただし、tは時間のインデックスである。第１の特徴量算出部１－１～１－Ｍでは、入力信号１～Ｍから、それぞれ第１の特徴量１～Ｍを算出する（ステップＳ１）。

　F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
　F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)
　・
　・
　・
　FM(T) = [fM1(T) fM2(T) … fML(T)] … (1-M)
　ただし、F1(T)～FM(T)は入力信号１～Ｍから算出した特徴量１～Ｍである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)～(1-M)に示すように、第１の特徴量F1(T)～FM(T)は、それぞれL次元（Lは1以上の値）の特徴量の要素を持つベクトルとして構成される。第１の特徴量の要素としては、例えば、時間波形（入力信号）、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度（エントロピーを含む）、音素・音節認識結果、音声区間長等が考えられる。

　上述したように入力信号１～Ｍから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を第１の特徴量とすることもできる。尚、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。

　次に、類似度計算部２は、第１の特徴量１～Ｍを受けて、チャンネル間の類似度を計算する（ステップＳ２）。

　類似度の計算方法は、特徴量の要素によって異なる。相関値は、一般的に類似度を表す指標として適している。また、距離（差分）値は、小さいほど類似度が高いということを表す指標となる。また、第１の特徴量が音素・音節認識結果の場合は、文字列の比較となり、その類似度の計算にはＤＰマッチングなどを利用することもある。尚、上記の相関値、距離値などは一例であり、その他の指標で類似度を計算しても良いことはもちろんである。また、全チャンネルの全組み合わせの類似度を計算する必要はなく、Ｍチャンネルのうちのあるチャンネルを基準とし、そのチャンネルに対する類似度のみを計算してもよい。また、複数の時刻Tを１つの区間として、その時間区間における類似度を計算してもよい。また特徴量に音声区間長が含まれる場合は、音声区間が検出されないチャンネルに対しては、以後の処理を省略することも可能である。

　チャンネル選択部３は、類似度計算部２からのチャンネル間の類似度を受けて、類似度が高いチャンネルを選択し、グルーピングする（ステップＳ３）。

　選択方法としては、類似度を閾値と比較して、閾値より高い場合に、それらのチャンネルをグルーピングする、又は、相対的に類似度が高い場合にグルーピングするなど、クラスタリングの手法を用いればよい。その際、複数のグループに選択されるチャンネルがあってもよい、
　また、どのグループにも選択されないチャンネルがあってもよい。このような、いずれのチャンネルの入力信号にも類似度の低いチャンネルの入力信号はグルーピングされず、多チャンネル音声検出部５に出力される。

　尚、類似度算出部２とチャンネル選択部３は、異なる特徴量に対して、類似度を計算、チャンネルを選択、という処理を繰り返すことにより、選択するチャンネルを絞り込むように処理してもよい。

　信号分離部４－１～４－Ｎは、チャンネル選択部３で選択されたグループ毎に信号分離を行う（ステップＳ４）。

　信号分離は、独立成分分析に基づく手法や、２乗誤差最小化に基づく手法などを用いればよい。各信号分離部の出力は類似度が低いことが期待されるが、異なる信号分離部の出力には類似度が高いものが含まれる可能性がある。その場合には、類似している出力を取捨選択してもよい。

　多チャンネル音声検出部５は、信号分離部４－１～４－Ｎの出力信号と、チャンネル選択部３で類似度が低いと判定されてグルーピングされなかった信号とを入力とし、複数のチャンネルの信号における複数の各話者の音声を各々いずれか１つのチャンネルで検出する（ステップＳ５）。

　ここで、信号分離部４－１～４－Ｎの出力信号と、チャンネル選択部３で類似度が低いと判定されてグルーピングされなかった信号（信号分離部４－１～４－Ｎに入力されず、チャンネル選択部３から直接入力される信号）とを、y1(t)～yK(t)とする。多チャンネル音声検出部５では、信号y1(t)～yK(t)から、複数のチャンネルの信号における複数の各話者の音声を各々いずれか１つのチャンネルで検出する。例えば、チャンネル１～Ｐで異なる音声が検出されたとし、その音声区間の信号を以下のように表す。
　y1(ts1-te1)
　y2(ts2-te2)
　y3(ts3-te3)
　・
　・
　・
　yP(tsP-teP)
　ここで、ts1、ts2、ts3、…、tsPは、チャンネル１～Ｐで検出された音声区間の始端時刻であり、te1、te2、te3、…、tePは、チャンネル１～Ｐで検出された音声区間の終端時刻である（図５を参照）。尚、多チャンネル音声検出部５には複数の信号を用いて音声を検出する従来の手法を用いればよい。

　第１の実施の形態は、全チャンネルで信号分離を行うのではなく、チャンネル間の類似度に基づいて、信号分離を行う単位を小規模にし、また信号分離が不要なチャンネルは信号分離部４－１～４－Ｎに入力しない。そのため、全チャンネルで信号分離を行う場合に比べて、効率的に信号分離を行うことができる。そして、類似度の低いチャンネルの入力信号（信号分離部４－１～４－Ｎに入力されず、チャンネル選択部３から直接入力される信号）と信号分離後の信号とを入力として多チャンネル音声検出を行うことにより、効率的に目的音声を検出することが可能となる。

　＜第２の実施の形態＞
　第２の実施の形態を説明する。

　図６は、本発明の第２の実施の形態の多チャンネル音響信号処理システムの構成を示すブロック図である。第２の実施の形態を、図３に示した第１の実施の形態と比較すると、第２の実施の形態においては、多チャンネル検出部５の後段に、多チャンネル検出部５において検出された複数の話者の音声区間のオーバーラップ区間を検出するオーバーラップ区間検出部６と、少なくとも音声が検出された複数のチャンネル毎に第２の特徴量を算出する第２の特徴量算出部７－１～７－Ｐと、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの第２の特徴量を少なくとも受けてクロストークの影響の大小を推定するクロストーク量推定部８と、影響が大きいクロストークを除去するクロストーク除去部９とが追加されている。

　尚、第１の特徴量算出部１－１～１－Ｍと、類似度計算部２と、チャンネル選択部３と、信号分離部４－１～４－Ｎと、多チャンネル音声検出部５の動作は第１の実施の形態と同様のものなので、以下の説明では、オーバーラップ区間検出部６と、第２の特徴量算出部７－１～７－Ｐと、クロストーク量推定部８と、クロストーク除去部９との説明のみを行う。

　図７は、本発明を実施するための第２の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図６および図７を参照して、第２の実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。

　オーバーラップ区間検出部６は、チャンネル１～Ｐで検出された音声区間の始端、終端の時刻情報を受けて、オーバーラップ区間を検出する（ステップＳ６）。

　オーバーラップ区間は、チャンネル１～Ｐ間で、検出された音声区間が共通する区間であり、図８に示すようにts1、ts2、ts3、…、tsPおよびte1、te2、te3、…、tePの大小関係から検出できる。例えば、チャンネル１とチャンネルＰとの間で検出された音声区間が共通する区間は、tsP～te1であり、この区間がオーバーラップ区間である。また、チャンネル２とチャンネルＰとの間で検出された音声区間が共通する区間は、ts2～tePであり、この区間がオーバーラップ区間である。また、チャンネル２とチャンネル３との間で、検出された音声区間が共通する区間は、ts3～te3であり、この区間がオーバーラップ区間である。オーバーラップ区間は、上述の通り、ts1、ts2、ts3、…、tsPおよびte1、te2、te3、…、tePの大小関係から検出できる。

　次に、第２の特徴量算出部７－１～７－Ｐは、信号y1(t)～yP(t)から、それぞれ第２の特徴量１～Ｐを算出する（ステップＳ７）。

　G1(T) = [g11(T) g12(T) … g1H(T)] … (2-1)
　G2(T) = [g21(T) g22(T) … g2H(T)] … (2-2)
　・
　・
　・
　GP(T) = [gP1(T) gP2(T) … gPH(T)] … (2-P)
　ただし、G1(T)～GP(T)は信号y1(t)～yP(t)から算出した第２の特徴量１～Ｐである。数式(2-1)～(2-P)に示すように、第２の特徴量G1(T)～GP(T)は、それぞれH次元(Hは1以上の値)の特徴量の要素を持つベクトルとして構成される。第２の特徴量の要素としては、例えば、時間波形（入力信号）、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度（エントロピーを含む）、音素・音節認識結果などが考えられる。

　上述のような入力信号１～Ｐから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を第２の特徴量とすることも可能である。尚、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。また第２の特徴量を算出する区間は、少なくとも音声が検出された複数のチャンネルの音声区間全てとしてもよいが、第２の特徴量算出のための計算量を削減するために、以下の区間で特徴量を算出することが望ましい。

　第１のチャンネルで特徴量を算出する場合、以下の（１）＋（２）－（３）の区間であることが望ましい。
（１）第１のチャンネルで検出された第１の音声区間
（２）その第１の音声区間と共通するオーバーラップ区間を有する、第ｎのチャンネルの第ｎの音声区間
（３）第ｎの音声区間のうち、第１の音声区間以外の第ｍのチャンネルの第ｍの音声区間とのオーバーラップ区間

　図９を例として参照し、上記第２の特徴量の算出区間について説明する。
＜チャンネル１が第１のチャンネルの場合＞
（１）チャンネル１の音声区間＝（ts1～te1）
（２）チャンネル１の音声区間と共通するオーバーラップ区間を有するチャンネルＰの音声区間＝（tsP～teP）
（３）チャンネルＰの音声区間のうち、チャンネル１の音声区間以外のチャンネル２の音声区間とのオーバーラップ区間＝（ts2～teP）
（１）＋（２）－（３）＝（ts1～ts2）の区間の第２の特徴量を算出する。

＜チャンネル２が第１のチャンネルの場合＞
（１）チャンネル２の音声区間＝（ts2～te2）
（２）チャンネル２の音声区間と共通するオーバーラップ区間を有するチャンネル３、Ｐの音声区間＝（ts3～te3、tsP～teP）
（３）チャンネル３、Ｐの音声区間のうち、チャンネル２の音声区間以外のチャンネル１の音声区間とのオーバーラップ区間＝（tsP～te1）
（１）＋（２）－（３）＝（te1～te2）の区間の第２の特徴量を算出する。

＜チャンネル３が第１のチャンネルの場合＞
（１）チャンネル３の音声区間＝（ts3～te3）
（２）チャンネル３の音声区間と共通するオーバーラップ区間を有するチャンネル２の音声区間＝（ts2～te2）
（３）チャンネル２の音声区間のうち、チャンネル３の音声区間以外のチャンネルＰの音声区間とのオーバーラップ区間＝（ts2～teP）
（１）＋（２）－（３）＝（teP～te2）の区間の第２の特徴量を算出する。

＜チャンネルＰが第１のチャンネルの場合＞
（１）チャンネルＰの音声区間＝（tsP～teP）
（２）チャンネルＰの音声区間と共通するオーバーラップ区間を有するチャンネル１、２の音声区間＝（ts1～te1、ts2～te2）
（３）チャンネル１、２の音声区間のうち、チャンネルＰの音声区間以外のチャンネル３の音声区間とのオーバーラップ区間＝（ts3～te3）
（１）＋（２）－（３）＝（ts1～ts3、te3～te2）の区間の第２の特徴量を算出する。

　尚、第１の特徴量と第２の特徴量との計算が重複する場合は、第２の特徴量の計算を省くことができるのはもちろんである。

　次に、クロストーク量推定部８は、第１のチャンネルの第１の音声と共通のオーバーラップ区間を有する第ｎのチャンネルの第ｎの音声によるクロストークが、第１のチャンネルの第１の音声に与える影響の大小を推定する（ステップＳ８）。図９を例とし、説明する。第１のチャンネルをチャンネル１とした場合、チャンネル１で検出された音声（音声区間はts1～te1）と共通のオーバーラップ区間を有するチャンネルＰの音声によるクロストークが、チャンネル１の音声に与える影響の大小を推定する。推定方法には以下のような方法が考えられる。

＜推定方法１＞
　オーバーラップ区間を含まない音声区間である区間te1～ts2におけるチャンネル１の特徴量とチャンネルＰの特徴量とを比較する。そして、特徴量が近ければ、チャンネルＰの音声がチャンネル１に与える影響が大きいと推定する。

　例えば、区間te1～ts2におけるチャンネル１とチャンネルＰとのパワーを比較する。そして、チャンネルＰのパワーとチャンネル１のパワーが近ければ、チャンネルＰの音声がチャンネル１に与える影響が大きいと推定する。また、チャンネル１のパワーがチャンネルＰのパワーより十分大きければ、チャンネルＰの音声がチャンネル１に与える影響が小さいと推定する。

＜推定方法２＞
　まず、区間tsP～te1におけるチャンネル１とチャンネルＰとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1～ts2におけるチャンネル１とチャンネルＰとの特徴量の差分を計算する。そして、上記２つの差分を比較し、差分の違いが少なければ、チャンネルＰの音声がチャンネル１に与える影響が大きいと推定する。

＜推定方法３＞
　オーバーラップ区間を含まない音声区間である区間ts1～tsPにおけるチャンネル１とチャンネルＰとのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1～ts2におけるチャンネル１とチャンネルＰとのパワー比を計算する。そして、上記２つのパワー比と、区間tsP～te1におけるチャンネル１のパワー、チャンネルＰのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsP～te1における、チャンネル１の音声とチャンネルＰの音声によるクロストークのパワーを計算する。チャンネル１の音声のパワーとクロストークのパワーが近ければ、チャンネルＰの音声がチャンネル１に与える影響が大きいと推定する。

　以上の如く、オーバーラップ区間を含まない音声区間を少なくとも用いて、チャンネル間の特徴量に基づく比、相関値、距離値により、クロストークの影響を推定する。

　クロストーク量推定部８において、その他の方法によりクロストークの影響を推定してもよいことはもちろんである。尚、図９のチャンネル３の音声区間はチャンネル２の音声区間に包含されているため、チャンネル３の音声によるクロストークがチャンネル２に与える影響の大小を推定することは難しい。このように推定が困難な場合は、事前に決めたルール（例えば、影響が大きいと判定するなど）に従えばよい。

　クロストーク除去部９は、クロストーク量推定部８において、クロストークにより与えられる影響が大きい、またはクロストークとして与える影響が大きいと推定された複数のチャンネルの入力信号を受けて、クロストークを除去する（ステップＳ９）。

　クロストークの除去は、独立成分分析に基づく手法や、2乗誤差最小化に基づく手法などを適宜用いればよい。なお、信号分離部４－１～４－Ｎで使用した信号分離フィルタをクロストーク除去部９でクロストーク除去のためのフィルタの初期値として流用することが可能な場合もある。

　また、クロストークを除去する区間は、少なくともオーバーラップ区間であればよい。例えば、区間te1～ts2におけるチャンネル１とチャンネルＰとのパワーを比較し、チャンネルＰの音声がチャンネル１に与える影響が大きいと推定された場合、チャンネルＰによるクロストークの処理対象の区間を、チャンネル１の音声区間（ts1～te1）のうちオーバーラップ区間（tsP～te1）とし、他の区間に対してはクロストークの処理対象とはせず、単に音声を除去するようにする。このようにすれば、クロストークの処理対象が減り、クロストークの処理の負担が軽減できる。

　本発明の第２の実施の形態では、第１の実施の形態に加えて、複数の話者の音声区間のオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定している。特に、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも用いて、クロストークの影響の大小を推定し、影響が大きいクロストークを除去している。そのため、影響が小さいクロストークを除去するための計算を省くことができ、効率的にクロストークを除去することが可能となる。

　尚、上記実施の形態では、区間を時間に対する区間として説明したが、周波数に対する区間としてもよいし、時間・周波数に対する区間としてもよい。例えば、時間・周波数に対する区間とした場合におけるオーバーラップ区間とは、時間と周波数が同じ区間で音声がオーバーラップする区間となる。

　また、上述した実施の形態において、第１の特徴量算出部１－１～１－Ｍと、類似度計算部２と、チャンネル選択部３と、信号分離部４－１～４－Ｎと、多チャンネル音声検出部５と、オーバーラップ区間検出部６と、第２の特徴量算出部７－１～７－Ｐと、クロストーク量推定部８と、クロストーク除去部９とをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。

　尚、上記の実施の形態の内容は、以下のようにも表現されうる。

　［付記１］　複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
　多チャンネルの入力信号からチャンネル毎に第１の特徴量を算出し、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算し、
　前記類似度が高い複数のチャンネルを選択し、
　選択した複数のチャンネルの入力信号を用いて信号を分離し、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
ことを特徴とする多チャンネル音響信号処理方法。

　［付記２］　前記チャンネル毎に算出する第１の特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを含むことを特徴とする付記１に記載の多チャンネル音響信号処理方法。

　［付記３］　前記類似度を表す指標として、相関値、距離値のうち少なくとも１つを含むことを特徴とする付記１又は付記２に記載の多チャンネル音響信号処理方法。

　［付記４］　前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする付記１から付記３のいずれかに記載の多チャンネル音響信号処理方法。

　［付記５］　前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記１から付記４のいずれかに記載の多チャンネル音響信号処理方法。

　［付記６］　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする付記１から付記５のいずれかに記載の多チャンネル音響信号処理方法。

　［付記７］　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
　クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記６に記載の多チャンネル音響信号処理方法。

　［付記８］　前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記７に記載の多チャンネル音響信号処理方法。

　［付記９］　前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記８に記載の多チャンネル音響信号処理方法。

　［付記１０］　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記８又は付記９に記載の多チャンネル音響信号処理方法。

　［付記１１］　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記７から付記１０のいずれかに記載の多チャンネル音響信号処理方法。

　［付記１２］　複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
　多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出部と、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算部と、
　前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
　選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
を有することを特徴とする多チャンネル音響信号処理システム。

　［付記１３］　前記第１の特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする付記１２に記載の多チャンネル音響信号処理システム。

　［付記１４］　前記類似度計算部は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする付記１２又は付記１３に記載の多チャンネル音響信号処理システム。

　［付記１５］　前記第１の特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる第１の特徴量を算出し、
　前記類似度計算部は、異なる第１の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記１２から付記１４のいずれかに記載の多チャンネル音響信号処理システム。

　［付記１６］　前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記１２から付記１５のいずれかに記載の多チャンネル音響信号処理システム。

　［付記１７］　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする付記１２から付記１６のいずれかに記載の多チャンネル音響信号処理システム。

　［付記１８］　前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記１７に記載の多チャンネル音響信号処理システム。

　［付記１９］　前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記１８に記載の多チャンネル音響信号処理システム。

　［付記２０］　前記クロストーク処理対象決定部は、前記各チャンネルに対して前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記１９に記載の多チャンネル音響信号処理システム。

　［付記２１］　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記１９又は付記２０に記載の多チャンネル音響信号処理システム。

　［付記２２］　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記１８から付記２１のいずれかに記載の多チャンネル音響信号処理システム。

　［付記２３］　複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、
　多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出処理と、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
　前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
　選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
を情報処理装置に実行させることを特徴とするプログラム。

　［付記２４］　前記第１の特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする付記２３に記載のプログラム。

　［付記２５］　前記類似度計算処理は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする付記２３又は付記２４に記載のプログラム。

　［付記２６］　前記第１の特徴量算出処理は、異なる特徴量の種類でチャンネル毎の異なる第１の特徴量を算出し、
　前記類似度計算処理は、異なる第１の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする付記２３から付記２５のいずれかに記載のプログラム。

　［付記２７］　前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする付記２３から付記２６のいずれかに記載のプログラム。

　［付記２８］　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を有することを特徴とする付記２３から付記２７のいずれかに記載のプログラム。

　［付記２９］　前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記２８に記載のプログラム。

　［付記３０］　前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記２９に記載のプログラム。

　［付記３１］　前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記３０に記載のプログラム。

　［付記３２］　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする付記３０又は付記３１に記載のプログラム。

　［付記３３］　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む付記２９から付記３２のいずれかに記載のプログラム。

　以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２００９年２月１３日に出願された日本出願特願２００９－０３１１０９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。

１－１～１－Ｍ　　第１の特徴量算出部
２　　　　　　　　類似度計算部
３　　　　　　　　チャンネル選択部
４－１～４－Ｎ　　信号分離部
５　　　　　　　　多チャンネル音声検出部
６　　　　　　　　オーバーラップ区間検出部
７－１～７－Ｐ　　第２の特徴量算出部
８　　　　　　　　クロストーク量推定部
９　　　　　　　　クロストーク除去部

Claims

　複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
　多チャンネルの入力信号からチャンネル毎に第１の特徴量を算出し、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算し、
　前記類似度が高い複数のチャンネルを選択し、
　選択した複数のチャンネルの入力信号を用いて信号を分離し、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する
ことを特徴とする多チャンネル音響信号処理方法。
　前記チャンネル毎に算出する第１の特徴量は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを含むことを特徴とする請求項１に記載の多チャンネル音響信号処理方法。
　前記類似度を表す指標として、相関値、距離値のうち少なくとも１つを含むことを特徴とする請求項１又は請求項２に記載の多チャンネル音響信号処理方法。
　前記チャンネル毎の類似度を計算して類似度が高い複数のチャンネルを選択することを、異なる特徴量を用いて複数回繰り返し、選択するチャンネルを絞ることを特徴とする請求項１から請求項３のいずれかに記載の多チャンネル音響信号処理方法。
　前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする請求項１から請求項４のいずれかに記載の多チャンネル音響信号処理方法。
　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする請求項１から請求項５のいずれかに記載の多チャンネル音響信号処理方法。
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
　クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする請求項６に記載の多チャンネル音響信号処理方法。
　前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項７に記載の多チャンネル音響信号処理方法。
　前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項８に記載の多チャンネル音響信号処理方法。
　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項８又は請求項９に記載の多チャンネル音響信号処理方法。
　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項７から請求項１０のいずれかに記載の多チャンネル音響信号処理方法。
　複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
　多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出部と、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算部と、
　前記類似度が高い複数のチャンネルを選択するチャンネル選択部と、
　選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離部と、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出部と
を有することを特徴とする多チャンネル音響信号処理システム。
　前記第１の特徴量算出部は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする請求項１２に記載の多チャンネル音響信号処理システム。
　前記類似度計算部は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする請求項１２又は請求項１３に記載の多チャンネル音響信号処理システム。
　前記第１の特徴量算出部は、異なる特徴量の種類でチャンネル毎の異なる第１の特徴量を算出し、
　前記類似度計算部は、異なる第１の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項１２から請求項１４のいずれかに記載の多チャンネル音響信号処理システム。
　前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする請求項１２から請求項１５のいずれかに記載の多チャンネル音響信号処理システム。
　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする請求項１２から請求項１６のいずれかに記載の多チャンネル音響信号処理システム。
　前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項１７に記載の多チャンネル音響信号処理システム。
　前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項１８に記載の多チャンネル音響信号処理システム。
　前記クロストーク処理対象決定部は、前記各チャンネルに対して前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項１９に記載の多チャンネル音響信号処理システム。
　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項１９又は請求項２０に記載の多チャンネル音響信号処理システム。
　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項１８から請求項２１のいずれかに記載の多チャンネル音響信号処理システム。
　複数の話者の音声を含む複数のチャンネルの入力信号を処理するプログラムであって、
　多チャンネルの入力信号からチャンネル毎に特徴量を算出する第１の特徴量算出処理と、
　前記チャンネル毎の第１の特徴量のチャンネル間の類似度を計算する類似度計算処理と、
　前記類似度が高い複数のチャンネルを選択するチャンネル選択処理と、
　選択した複数のチャンネルの入力信号を用いて信号を分離する信号分離処理と、
　前記類似度が低い複数のチャンネルの入力信号と前記信号分離後の信号とを入力とし、前記話者毎、又は、前記チャンネル毎の音声区間を検出する音声検出処理と
を情報処理装置に実行させることを特徴とするプログラム。
　前記第１の特徴量算出処理は、時間波形、統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果、音声区間長のうち少なくとも１つを、特徴量として算出することを特徴とする請求項２３に記載のプログラム。
　前記類似度計算処理は、相関値、距離値のうち少なくとも１つを、前記類似度を表す指標として算出することを特徴とする請求項２３又は請求項２４に記載のプログラム。
　前記第１の特徴量算出処理は、異なる特徴量の種類でチャンネル毎の異なる第１の特徴量を算出し、
　前記類似度計算処理は、異なる第１の特徴量を用いて複数回チャンネルの選択を行い、選択するチャンネルを絞り込むことを特徴とする請求項２３から請求項２５のいずれかに記載のプログラム。
　前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか１つのチャンネルと対応づけて検出することを特徴とする請求項２３から請求項２６のいずれかに記載のプログラム。
　チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
　前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
　前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を有することを特徴とする請求項２３から請求項２７のいずれかに記載のプログラム。
　前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項２８に記載のプログラム。
　前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される第２の特徴量を少なくとも用いて、クロストークの影響を判定する
ことを特徴とする請求項２９に記載のプログラム。
　前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記第２の特徴量を算出する区間を、第ｍのチャンネルで検出された音声区間と、前記第ｍのチャンネルの音声区間と共通のオーバーラップ区間を有する第ｎのチャンネルの音声区間と、前記第ｎのチャンネルの音声区間のうち第ｍの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項３０に記載のプログラム。
　前記第２の特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも１つを含むことを特徴とする請求項３０又は請求項３１に記載のプログラム。
　前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも１つを含む請求項２９から請求項３２のいずれかに記載のプログラム。