JPWO2017064840A1

JPWO2017064840A1 - 音源分離装置および音源分離方法

Info

Publication number: JPWO2017064840A1
Application number: JP2017545086A
Authority: JP
Inventors: 良二鈴木; 宏正大橋; 田中　直也; 直也田中
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2015-10-16
Filing date: 2016-09-29
Publication date: 2018-05-24
Anticipated expiration: 2036-09-29
Also published as: US20180158467A1; EP3333850A4; US10290312B2; WO2017064840A1; EP3333850A1; JP6318376B2

Abstract

音源分離装置は、第１音声を入力するための第１マイクと、第２音声を入力するための第２マイクと、第１マイクの音声信号から、第２音声が第１マイクに入力される第１クロストークを除去する第１クロストークキャンセラと、第２マイクの音声信号から、第１音声が第２マイクに入力される第２クロストークを除去する第２クロストークキャンセラと、を備える。第１クロストークキャンセラは、第２マイクの音声信号から第２クロストークが除去された音声信号を用いて、第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を第１マイクの音声信号から除去する。第２クロストークキャンセラは、第１マイクの音声信号から第１クロストークが除去された音声信号を用いて、第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を第２マイクの音声信号から除去する。

Description

本開示は、複数のマイクから収音された複数の音声信号に対してクロストーク（漏話）を減らす信号処理を施す音源分離装置に関する。

特許文献１は、複数の信号が空間内で混合されたものから、源信号を復元する音源分離装置を開示する。この音源分離装置は、観測信号を短時間フーリエ変換する手段と、独立成分分析により短時間フーリエ変換した各周波数での分離行列を求める手段と、各周波数での分離行列の各行により取り出される信号の到来方向を推定する手段と、その推定値が十分に信頼できるかどうかを判定する手段と、短時間フーリエ変換した周波数間での分離信号の類似度を計算する手段と、を備える。そして、さらに、各周波数で分離行列を求めた後でパーミュテーション（各周波数における音源の置換）を解決する際に、信号の到来方向の推定が十分に信頼できると判定された周波数ではそれらの方向を揃えることでパーミュテーションを決定し、その他の周波数では近傍の周波数との分離信号の類似度を高めるようにパーミュテーションを決定していく手段を備える。これにより、パーミュテーションを解決しながら源信号を復元することができる。

特開２００４−１４５１７２号公報

本開示は、大きな演算量が必要となる分離行列の算出を行うことなく、より小規模なハードウェアを用いて、複数のマイクから収音された複数の音声信号に対してクロストークを減らすことにより個別の音声信号を分離できる音源分離装置を提供する。

本開示における音源分離装置は、第１音声を入力するための第１マイクと、第２音声を入力するための第２マイクと、第１マイクの音声信号から、第２音声が第１マイクに入力される第１クロストークを除去する第１クロストークキャンセラと、第２マイクの音声信号から、第１音声が第２マイクに入力される第２クロストークを除去する第２クロストークキャンセラと、を備える。第１クロストークキャンセラは、第２マイクの音声信号から第２クロストークが除去された音声信号を用いて、第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイクの音声信号から除去する。第２クロストークキャンセラは、第１マイクの音声信号から第１クロストークが除去された音声信号を用いて、第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイクの音声信号から除去する。

本開示における音源分離方法は、第１音声と第２音声とを含む音声信号から第１音声と第２音声とを分離する音源分離装置において行われる音源分離方法である。音源分離装置は、第１音声を入力するための第１マイクと、第２音声を入力するための第２マイクと、を備え、音源分離方法は、第１マイクの音声信号から、第２音声が第１マイクに入力される第１クロストークを除去する第１クロストークキャンセルステップと、第２マイクの音声信号から、第１話者の音声が第２マイクに入力される第２クロストークを除去する第２クロストークキャンセルステップと、を含む。第１クロストークキャンセルステップでは、第２クロストークキャンセルステップにおいて第２マイクの音声信号から第２クロストークが除去された音声信号を用いて、第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイクの音声信号から除去する。第２クロストークキャンセルステップでは、第１クロストークキャンセルステップにおいて第１マイクの音声信号から第１クロストークが除去された音声信号を用いて、第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイクの音声信号から除去する。

本開示における音源分離装置によれば、大きな演算量が必要となる分離行列の算出を行うことなく、複数のマイクから収音された音声信号から個別の音声信号を分離するために、より小規模なハードウェアを用いてクロストークを軽減できる。

実施の形態１における音源分離装置の適用例を示す図図１に示された音源分離装置の構成を示すブロック図実施の形態２における音源分離装置の構成を示すブロック図実施の形態３における音源分離装置の構成を示すブロック図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１）
以下、図１及び図２を用いて、実施の形態１を説明する。

［１−１．適用例］
図１は、実施の形態１における音源分離装置２０の適用例を示す図である。ここでは、音源分離装置２０を車１０における双方向の会話を拡声して補助する装置（車室内会話補助装置）に適用した例が示されている。

音源分離装置２０は、第１話者１１（ここでは、運転者）と第２話者１２（ここでは、後部乗員）による双方向の会話を拡声して補助する装置である。運転席の天井には、第１話者１１の音声（第１音声）を入力するための第１マイク２１が設けられ、後部座席横の内側面には、その音声を出力するための第１スピーカ２２が設けられている。また、後部座席の天井には、第２話者１２の音声（第２音声）を入力するための第２マイク２３が設けられ、２つの前扉の内側面には、その音声を出力するための第２スピーカ２４が設けられている。

第１話者１１と第２話者１２とは、この音源分離装置２０を用いることで、車における一つの狭い空間であっても、クロストーク（漏話）を含む音響的雑音が除去された双方向会話を楽しむことができる。なお、クロストークとは、ある話者の音声が他人の音声を入力するためのマイクに入力される現象をいい、ここでは、第２話者１２の音声が第１マイク２１に入力される現象、及び、第１話者１１の音声が第２マイク２３に入力される現象である。

［１−２．構成］
図２は、図１に示された音源分離装置２０の構成を示すブロック図である。この音源分離装置２０は、第１マイク２１、第１スピーカ２２、第２マイク２３、第２スピーカ２４、第１クロストークキャンセラ５０、及び、第２クロストークキャンセラ７０を備える。なお、音源分離装置２０の各構成要素は、有線又は無線で接続されている。また、第１クロストークキャンセラ５０、及び、第２クロストークキャンセラ７０は、例えば、車１０のヘッドユニットの一部として実装される。

第１マイク２１は、第１話者の音声３６を入力するためのマイクであり、例えば、図１に示されるように、車１０の運転席の天井に設けられる。なお、第１マイク２１から出力される音声信号は、例えば、内蔵のＡ／Ｄ変換器で生成されるデジタル音声データである。

第１スピーカ２２は、第１話者の音声３６を出力するためのスピーカであり、例えば、図１に示されるように、車１０の後部座席横の両側の内側面に設けられる。なお、第１スピーカ２２は、例えば、第１マイク２１からの音声信号である入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第２マイク２３は、第２話者の音声３７を入力するためのマイクであり、例えば、図１に示されるように、後部座席の天井に設けられる。なお、第２マイク２３から出力される音声信号は、例えば、内蔵のＡ／Ｄ変換器で生成されるデジタル音声データである。

第２スピーカ２４は、第２話者の音声３７を出力するためのスピーカであり、例えば、図１に示されるように、車１０の２つの前扉の内側面に設けられる。なお、第２スピーカ２４は、例えば、第２マイク２３からの音声信号である入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

［１−２−１．第１クロストークキャンセラ５０］
第１クロストークキャンセラ５０は、第２クロストークキャンセラ７０の出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。第１クロストークキャンセラ５０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第１クロストークキャンセラ５０は、第１伝達関数記憶回路５４、第１記憶回路５２、第１畳み込み演算器５３、第１減算器５１、及び、第１伝達関数更新回路５５を有する。

第１伝達関数記憶回路５４は、第１クロストーク３２の伝達関数として推定された伝達関数を記憶する。

第１記憶回路５２は、第２クロストークキャンセラ７０から出力された信号を記憶する。

第１畳み込み演算器５３は、第１記憶回路５２に記憶された信号と第１伝達関数記憶回路５４に記憶された伝達関数とを畳み込むことで第１妨害信号を生成する。例えば、第１畳み込み演算器５３は、以下の式１に示される畳み込み演算を行うＮタップのＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタである。

ここで、ｙ１’ｔは、時刻ｔにおける第１妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ１（ｉ）ｔは、時刻ｔにおいて第１伝達関数記憶回路５４に記憶されたＮ個の伝達関数のうちのｉ番目の伝達関数である。ｘ１（ｔ−ｉ）は、第１記憶回路５２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第１減算器５１は、第１マイク２１の出力信号から、第１畳み込み演算器５３から出力された第１妨害信号を除去し、第１クロストークキャンセラ５０の出力信号として出力する。例えば、第１減算器５１は、以下の式２に示される減算を行う。

ここで、ｅ１ｔは、時刻ｔにおける第１減算器５１の出力信号である。ｙ１ｔは、時刻ｔにおける第１マイク２１の出力信号である。

第１伝達関数更新回路５５は、第１減算器５１の出力信号と第１記憶回路５２に記憶された信号とに基づいて第１伝達関数記憶回路５４に記憶された伝達関数を更新する。例えば、第１伝達関数更新回路５５は、以下の式３に示されるように、独立成分分析を用いて、第１減算器５１の出力信号と第１記憶回路５２に記憶された信号とに基づいて、第１減算器５１の出力信号と第１記憶回路５２に記憶された信号とが相互に独立となるように、第１伝達関数記憶回路５４に記憶された伝達関数を更新する。

ここで、Ｈ１（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第１伝達関数記憶回路５４に記憶されるＮ個の伝達関数のうちのｊ番目の伝達関数である。Ｈ１（ｊ）ｔは、時刻ｔ（つまり、更新前の）第１伝達関数記憶回路５４に記憶されたＮ個の伝達関数のうちのｊ番目の伝達関数である。α１は、第１クロストーク３２の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ１は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第１伝達関数更新回路５５は、第１減算器５１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第１記憶回路５２に記憶された信号と、第１クロストーク３２の伝達関数の推定における学習速度を制御するための第１ステップサイズパラメータとを乗じることで第１更新係数を算出する。そして、算出した第１更新係数を第１伝達関数記憶回路５４に記憶された伝達関数に加算することで更新を行う。

［１−２−２．第２クロストークキャンセラ７０］
第２クロストークキャンセラ７０は、第１クロストークキャンセラ５０の出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。第２クロストークキャンセラ７０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第２クロストークキャンセラ７０は、第２伝達関数記憶回路７４、第２記憶回路７２、第２畳み込み演算器７３、第２減算器７１、及び、第２伝達関数更新回路７５を有する。

第２伝達関数記憶回路７４は、第２クロストーク３５の伝達関数として推定された伝達関数を記憶する。

第２記憶回路７２は、第１クロストークキャンセラ５０から出力された信号を記憶する。

第２畳み込み演算器７３は、第２記憶回路７２に記憶された信号と第２伝達関数記憶回路７４に記憶された伝達関数とを畳み込むことで第２妨害信号を生成する。例えば、第２畳み込み演算器７３は、以下の式４に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ２’ｔは、時刻ｔにおける第２妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ２（ｉ）ｔは、時刻ｔにおいて第２伝達関数記憶回路７４に記憶されたＮ個の伝達関数のうちのｉ番目の伝達関数である。ｘ２（ｔ−ｉ）は、第２記憶回路７２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第２減算器７１は、第２マイク２３の出力信号から、第２畳み込み演算器７３から出力された第２妨害信号を除去し、第２クロストークキャンセラ７０の出力信号として出力する。例えば、第２減算器７１は、以下の式５に示される減算を行う。

ここで、ｅ２ｔは、時刻ｔにおける第２減算器７１の出力信号である。ｙ２ｔは、時刻ｔにおける第２マイク２３の出力信号である。

第２伝達関数更新回路７５は、第２減算器７１の出力信号と第２記憶回路７２に記憶された信号とに基づいて第２伝達関数記憶回路７４に記憶された伝達関数を更新する。例えば、第２伝達関数更新回路７５は、以下の式６に示されるように、独立成分分析を用いて、第２減算器７１の出力信号と第２記憶回路７２に記憶された信号とに基づいて、第２減算器７１の出力信号と第２記憶回路７２に記憶された信号とが相互に独立となるように、第２伝達関数記憶回路７４に記憶された伝達関数を更新する。

ここで、Ｈ２（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第２伝達関数記憶回路７４に記憶されるＮ個の伝達関数のうちのｊ番目の伝達関数である。Ｈ２（ｊ）ｔは、時刻ｔ（つまり、更新前の）第２伝達関数記憶回路７４に記憶されたＮ個の伝達関数のうちのｊ番目の伝達関数である。α２は、第２クロストーク３５の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ２は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第２伝達関数更新回路７５は、第２減算器７１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第２記憶回路７２に記憶された信号と、第２クロストーク３５の伝達関数の推定における学習速度を制御するための第２ステップサイズパラメータとを乗じることで第２更新係数を算出する。そして、算出した第２更新係数を第２伝達関数記憶回路７４に記憶された伝達関数に加算することで更新を行う。

なお、本実施の形態における音源分離装置２０では、第２話者１２の同一時刻における音声について、第２クロストークキャンセラ７０の出力信号が第１クロストークキャンセラ５０に入力される時刻は、第２話者１２の音声が第１マイク２１に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第１クロストークキャンセラ５０が第１クロストーク３２をキャンセルできるように、因果律が保持されている。これは、第２クロストークキャンセラ７０の出力信号が第１クロストークキャンセラ５０に入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第１クロストークキャンセラ５０での処理速度、第２クロストークキャンセラ７０での処理速度等）と、第２話者１２の音声が第１マイク２１に入力される時刻を決定づける要因（第２話者１２と第１マイク２１との位置関係等）とを考慮することで適宜、実現し得る。

同様に、本実施の形態における音源分離装置２０では、第１話者１１の同一時刻における音声について、第１クロストークキャンセラ５０の出力信号が第２クロストークキャンセラ７０に入力される時刻は、第１話者１１の音声が第２マイク２３に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第２クロストークキャンセラ７０が第２クロストーク３５をキャンセルできるように、因果律が保持されている。これは、第１クロストークキャンセラ５０の出力信号が第２クロストークキャンセラ７０に入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第１クロストークキャンセラ５０での処理速度、第２クロストークキャンセラ７０での処理速度等）と、第１話者１１の音声が第２マイク２３に入力される時刻を決定づける要因（第１話者１１と第２マイク２３との位置関係等）とを考慮することで適宜、実現し得る。

［１−３．動作］
以上のように構成された本実施の形態における音源分離装置２０では、第１話者の音声３６及び第２話者の音声３７は、次のように処理される。

第１話者の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において、第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２の影響が除去された音声を示す信号となる。この音声信号が第１スピーカ２２から音声となって出力される。即ち、第１クロストークキャンセラ５０の出力信号は、図２に示すように、第１クロストーク３２が除去された第１マイク２１の音声信号であり、第１スピーカ２２の入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２の影響が除去された音声、つまり、分離された第１話者の音声３６だけとなる。

同様に、第２話者の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において、第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５の影響が除去された音声を示す信号となる。この音声信号が第２スピーカ２４から音声となって出力される。即ち、第２クロストークキャンセラ７０の出力信号は、図２に示すように、第２クロストーク３５が除去された第２マイク２３の音声信号であり、第２スピーカ２４の入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５の影響が除去された音声、つまり、分離された第２話者の音声３７だけとなる。

なお、第１話者の音声３６及び第２話者の音声３７がそれぞれ分離される程度は、第１クロストークキャンセラ５０及び第２クロストークキャンセラ７０に保持された伝達関数の精度、上記式３及び式６に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。

［１−４．効果等］
以上のように、本実施の形態における音源分離装置２０は、第１マイク２１及び第１クロストークキャンセラ５０を備える。そして、音源分離装置２０では、第２話者１２の同一時刻における音声について、信号が第１クロストークキャンセラ５０に入力される時刻は、第２話者１２の音声が第１マイク２１に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第１クロストークキャンセラ５０は、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２を推定して、第１マイク２１の出力信号から除去する。

これにより、適応型フィルタである第１クロストークキャンセラ５０を用いて、第１マイク２１に入力される第１話者の音声３６と第２話者１２の音声（第１クロストーク３２）とを分離して第１話者の音声３６だけを抽出するので、比較的小規模なハードウェアにより、第１クロストーク３２による音声が第１スピーカ２２から拡声されてしまうことが抑制される。

同様に、本実施の形態における音源分離装置２０は、第２マイク２３及び第２クロストークキャンセラ７０を備える。そして、音源分離装置２０では、第１話者１１の同一時刻における音声について、信号が第２クロストークキャンセラ７０に入力される時刻は、第１話者１１の音声が第２マイク２３に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第２クロストークキャンセラ７０は、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５を推定して、第２マイク２３の出力信号から除去する。

これにより、適応型フィルタである第２クロストークキャンセラ７０を用いて、第２マイク２３に入力される第２話者の音声３７と第１話者１１の音声（第２クロストーク３５）とを分離して第２話者の音声３７だけを抽出するので、ハードウェアを増加することなく、第２クロストーク３５による音声が第２スピーカ２４から拡声されてしまうことが抑制される。

［１−５．変形例］
上記実施の形態では、第１伝達関数更新回路５５は、上記式３に従って伝達関数を更新したが、以下の式７又は式８に示されるように、正規化された式に従って伝達関数を更新してもよい。

ここで、Ｎは、第１伝達関数記憶回路５４に記憶される伝達関数の個数である。｜ｘ１（ｔ−ｉ）｜は、ｘ１（ｔ−ｉ）の絶対値である。

これにより、第１伝達関数更新回路５５による推定伝達関数の更新が、入力信号ｘ１（ｔ−ｊ）の振幅に依存せず、安定して実施される。

同様に、第２伝達関数更新回路７５は、上記式６に従って伝達関数を更新したが、以下の式９又は式１０に示されるように、正規化された式に従って伝達関数を更新してもよい。

ここで、Ｎは、第２伝達関数記憶回路７４に記憶される伝達関数の個数である。｜ｘ２（ｔ−ｉ）｜は、ｘ２（ｔ−ｉ）の絶対値である。

これにより、第２伝達関数更新回路７５による推定伝達関数の更新が、入力信号ｘ２（ｔ−ｊ）の振幅に依存せず、安定して実施される。

また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。

また、上記の実施の形態は、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第１話者の音声３６と第２話者の音声３７とを分離する音源分離方法である。音源分離装置は、第１話者の音声３６を入力するための第１マイク２１と、第２話者の音声３７を入力するための第２マイク２３とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップとを含む。

第１クロストークキャンセルステップでは、第２クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイク２１の出力信号から除去する。第１クロストークキャンセルステップの出力信号は、第１話者の音声３６のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。

第２クロストークキャンセルステップでは、第１クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイク２３の出力信号から除去する。第２クロストークキャンセルステップの出力信号は、第２話者の音声３７のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。

このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第１クロストークキャンセラ５０及び第２クロストークキャンセラ７０は、プログラムを実行するプロセッサによって実現されてもよい。

また、このような音源分離方法は、ＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。

（実施の形態２）
次に、実施の形態２における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態１における音源分離装置と同様に、第１話者と第２話者による双方向の会話を拡声して補助する装置に適用される。ただし、実施の形態１における第１クロストーク３２及び第２クロストーク３５に加えて、第２スピーカ２４から出力される第２話者１２の音声が第１マイク２１に入力される間接第１クロストーク３２ａ、及び、第１スピーカ２２から出力される第１話者１１の音声が第２マイク２３に入力される間接第２クロストーク３５ａが無視できない程度に音響結合が大きい場合に、好適な装置である。

［２−１．構成］
図３は、実施の形態２における音源分離装置２０ａの構成を示すブロック図である。この音源分離装置２０ａの構成は、実施の形態１における音源分離装置２０の構成と実質的に同等である。以下、実施の形態１と同じ構成要素については、実施の形態１と同じ符号を付し、その説明を省略する。

この音源分離装置２０ａは、第１マイク２１、第１スピーカ２２、第２マイク２３、第２スピーカ２４、第１クロストークキャンセラ５０及び第２クロストークキャンセラ７０を備える。いずれの構成要素も、実施の形態１における音源分離装置２０の対応する構成要素と実質的に同等であるが、音源分離装置２０ａでは、音源分離装置２０と比較して、第１伝達関数記憶回路５４及び第２伝達関数記憶回路７４に記憶される伝達関数が異なる。

第１伝達関数記憶回路５４は、第１クロストーク３２と間接第１クロストーク３２ａとを合わせた伝達関数として推定された伝達関数を記憶する。

これにより、第１クロストークキャンセラ５０は、第２クロストークキャンセラ７０の出力信号を用いて、第１クロストーク３２と間接第１クロストーク３２ａとを合わせた程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。

第２伝達関数記憶回路７４は、第２クロストーク３５と間接第２クロストーク３５ａとを合わせた伝達関数として推定された伝達関数を記憶する。

これにより、第２クロストークキャンセラ７０は、第１クロストークキャンセラ５０の出力信号を用いて、第２クロストーク３５と間接第２クロストーク３５ａとを合わせた程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。

なお、この音源分離装置２０ａでは、第１マイク２１と第２スピーカ２４とは、第２スピーカ２４から出力された第２話者１２の音声が第１マイク２１に入力される間接第１クロストーク３２ａが無視できない程度に音響結合が大きい環境に設置されている。例えば、第２スピーカ２４は、第１マイク２１が存在する方向に向けて音声を出力する位置に設けられている（あるいは、そのような音声出力の指向特性を有する）。

同様に、第２マイク２３と第１スピーカ２２とは、第１スピーカ２２から出力された第１話者１１の音声が第２マイク２３に入力される間接第２クロストーク３５ａが無視できない程度に音響結合が大きい環境に設置されている。例えば、第１スピーカ２２は、第２マイク２３が存在する方向に向けて音声を出力する位置に設けられている（あるいは、そのような音声出力の指向特性を有する）。

［２−２．動作］
以上のように構成された本実施の形態における音源分離装置２０ａでは、第１話者の音声３６及び第２話者の音声３７は、次のように処理される。

第１話者の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において、第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２と間接第１クロストーク３２ａとを合わせた程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２及び間接第１クロストーク３２ａの影響が除去された音声を示す信号となる。この音声信号が第１スピーカ２２から音声となって出力される。即ち、第１クロストークキャンセラ５０の出力信号は、図３に示すように、第１クロストーク３２及び間接第１クロストーク３２ａが除去された第１マイク２１の音声信号であり、第１スピーカ２２への入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２及び間接第１クロストーク３２ａの影響が除去された音声、つまり、分離された第１話者の音声３６だけとなる。

同様に、第２話者の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において、第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５と間接第２クロストーク３５ａとを合わせた程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５及び間接第２クロストーク３５ａの影響が除去された音声を示す信号となる。この音声信号が第２スピーカ２４から音声となって出力される。即ち、第２クロストークキャンセラ７０の出力信号は、図３に示すように、第２クロストーク３５及び間接第２クロストーク３５ａが除去された第２マイク２３の音声信号であり、第２スピーカ２４への入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５及び間接第２クロストーク３５ａの影響が除去された音声、つまり、分離された第２話者の音声３７だけとなる。

［２−３．効果等］
本実施の形態における音源分離装置２０ａは、実施の形態１における音源分離装置２０が有する第１クロストーク３２及び第２クロストーク３５の除去機能に追加して、間接第１クロストーク３２ａ及び間接第２クロストーク３５ａの除去機能を有する。そのため、実施の形態１と同様、従来の分離行列を用いない比較的小規模なハードウェアにより、間接第１クロストーク３２ａ及び間接第２クロストーク３５ａをも除去することができる。間接第１クロストーク３２ａの除去機能は、第１マイク２１と第２スピーカ２４とが間接第１クロストーク３２ａが無視できない程度に音響結合が大きい環境に設置されている場合に必要となり、間接第２クロストーク３５ａの除去機能は、第２マイク２３と第１スピーカ２２とが間接第２クロストーク３５ａが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。

また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第１話者１１の音声と第２話者１２の音声とを分離する音源分離方法である。音源分離装置は、第１話者の音声３６を入力するための第１マイク２１と、第１話者の音声３６を出力するための第１スピーカ２２と、第２話者の音声３７を入力するための第２マイク２３と、第２話者の音声３７を出力するための第２スピーカ２４とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップとを含む。

第１クロストークキャンセルステップでは、第２クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２と、第２スピーカ２４から出力された第２話者１２の音声が第１マイク２１に入力される間接第１クロストーク３２ａとを合わせた程度を示す第１妨害信号を推定して算出する。そして、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。

第２クロストークキャンセルステップでは、第１クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５と、第１スピーカ２２から出力された第１話者１１の音声が第２マイク２３に入力される間接第２クロストーク３５ａとを合わせた程度を示す第２妨害信号を推定して算出する。そして、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。

（実施の形態３）
次に、実施の形態３における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態１における音源分離装置と比べて、第１話者及び第２話者に加えて第３話者が参加する会話を拡声して補助する場合に、個々の話者の音声を分離するために好適な装置である。

［３−１．構成］
図４は、実施の形態３における音源分離装置２０ｂの構成を示すブロック図である。この音源分離装置２０ｂは、実施の形態１における音源分離装置２０に、第３マイク２５、第３スピーカ２６、第３クロストークキャンセラ８０、第４クロストークキャンセラ１５０、第５クロストークキャンセラ１７０、及び第６クロストークキャンセラ１８０を追加して構成される。第１マイク２１、第２マイク２３、第１スピーカ２２、第２スピーカ２４、第１クロストークキャンセラ５０、及び第２クロストークキャンセラ７０は、実施の形態１における音源分離装置２０の対応する構成要素と実質的に同等である。以下、実施の形態１と同じ構成要素については、実施の形態１と同じ符号を付し、その説明を省略する。

第３マイク２５は、第３話者１３の音声（第３音声）を入力するためのマイクであり、例えば、後部座席の天井に設けられる（図示せず）。なお、第３マイク２５から出力される音声信号は、例えば、内蔵のＡ／Ｄ変換器で生成されるデジタル音声データである。

第３スピーカ２６は、第３話者の音声３８を出力するためのスピーカであり、例えば、車１０の２つの前扉の内側面に設けられる（図示せず）。なお、第３スピーカ２６は、例えば、入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第３クロストークキャンセラ８０は、第５クロストークキャンセラ１７０の出力信号を用いて、第２話者１２の音声が第３マイク２５に入力される第３クロストーク１３１の程度を示す第３妨害信号を推定して算出し、算出した第３妨害信号を、第３マイク２５の出力信号から除去し、除去後の信号を第６クロストークキャンセラ１８０に出力する。第３クロストークキャンセラ８０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第３クロストークキャンセラ８０は、第３伝達関数記憶回路８４、第３記憶回路８２、第３畳み込み演算器８３、第３減算器８１、及び、第３伝達関数更新回路８５を有する。

第３伝達関数記憶回路８４は、第３クロストーク１３１の伝達関数として推定された伝達関数を記憶する。

第３クロストークキャンセラ８０は、第１クロストークキャンセラ５０と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第３伝達関数記憶回路８４に記憶した伝達関数を用いて信号処理を行う。

第４クロストークキャンセラ１５０は、第６クロストークキャンセラ１８０の出力信号を用いて、第３話者１３の音声が第１マイク２１に入力される第４クロストーク１３２の程度を示す第４妨害信号を推定して算出し、算出した第４妨害信号を、第１クロストークキャンセラ５０の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。第４クロストークキャンセラ１５０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第４クロストークキャンセラ１５０は、第４伝達関数記憶回路１５４、第４記憶回路１５２、第４畳み込み演算器１５３、第４減算器１５１、及び、第４伝達関数更新回路１５５を有する。

第４伝達関数記憶回路１５４は、第４クロストーク１３２の伝達関数として推定された伝達関数を記憶する。

第４クロストークキャンセラ１５０は、第１クロストークキャンセラ５０と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第４伝達関数記憶回路１５４に記憶した伝達関数を用いて信号処理を行う。

第５クロストークキャンセラ１７０は、第６クロストークキャンセラ１８０の出力信号を用いて、第３話者１３の音声が第２マイク２３に入力される第５クロストーク１３３の程度を示す第５妨害信号を推定して算出し、算出した第５妨害信号を、第２クロストークキャンセラ７０の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。第５クロストークキャンセラ１７０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第５クロストークキャンセラ１７０は、第５伝達関数記憶回路１７４、第５記憶回路１７２、第５畳み込み演算器１７３、第５減算器１７１、及び、第５伝達関数更新回路１７５を有する。

第５伝達関数記憶回路１７４は、第５クロストーク１３３の伝達関数として推定された伝達関数を記憶する。

第５クロストークキャンセラ１７０は、第１クロストークキャンセラ５０と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第５伝達関数記憶回路１７４に記憶した伝達関数を用いて信号処理を行う。

第６クロストークキャンセラ１８０は、第４クロストークキャンセラ１５０の出力信号を用いて、第１話者１１の音声が第３マイク２５に入力される第６クロストーク１３４の程度を示す第６妨害信号を推定して算出し、算出した第６妨害信号を、第３クロストークキャンセラ８０の出力信号から除去し、除去後の信号を第３スピーカ２６に出力する。第６クロストークキャンセラ１８０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第６クロストークキャンセラ１８０は、第６伝達関数記憶回路１８４、第６記憶回路１８２、第６畳み込み演算器１８３、第６減算器１８１、及び、第６伝達関数更新回路１８５を有する。

第６伝達関数記憶回路１８４は、第６クロストーク１３４の伝達関数として推定された伝達関数を記憶する。

第６クロストークキャンセラ１８０は、第１クロストークキャンセラ５０と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第６伝達関数記憶回路１８４に記憶した伝達関数を用いて信号処理を行う。

［３−２．動作］
以上のように構成された本実施の形態における音源分離装置２０ｂでは、第１話者の音声３６、第２話者の音声３７、及び第３話者の音声３８は、次のように処理される。

第１話者の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２の影響が除去された音声を示す信号となる。この音声信号が、第４クロストークキャンセラ１５０に入力される。即ち、第１クロストークキャンセラ５０の出力信号は、図４に示すように、第１クロストーク３２が除去された第１マイク２１の音声信号であり、第４クロストークキャンセラ１５０の入力信号である。

第１クロストークキャンセラ５０の出力信号は、第４クロストークキャンセラ１５０において第４妨害信号が除去される。第４妨害信号は、第４クロストーク１３２の程度を示す（推定された）信号である。よって、第４クロストークキャンセラ１５０の出力信号は、第１クロストークキャンセラ５０の出力信号から、第４クロストーク１３２の影響が除去された音声を示す信号となる。この信号が第１スピーカ２２から音声となって出力される。即ち、第４クロストークキャンセラ１５０の出力信号は、図４に示すように、第１クロストーク３２及び第４クロストーク１３２が除去された第１マイク２１の音声信号であり、第１スピーカ２２の入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２及び第４クロストーク１３２の影響が除去された音声、つまり、実質的に分離された第１話者の音声３６だけとなる。

同様に、第２話者の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５の影響が除去された音声を示す信号となる。この音声信号が第５クロストークキャンセラ１７０に入力される。即ち、第２クロストークキャンセラ７０の出力信号は、図４に示すように、第２クロストーク３５が除去された第２マイク２３の音声信号であり、第５クロストークキャンセラ１７０の入力信号である。

第２クロストークキャンセラ７０の出力信号は、第５クロストークキャンセラ１７０において第５妨害信号が除去される。第５妨害信号は、第５クロストーク１３３の程度を示す（推定された）信号である。よって、第５クロストークキャンセラ１７０の出力信号は、第２クロストークキャンセラ７０の出力信号から、第５クロストーク１３３の影響が除去された音声を示す信号となる。この信号が第２スピーカ２４から音声となって出力される。即ち、第５クロストークキャンセラ１７０の出力信号は、図４に示すように、第２クロストーク３５及び第５クロストーク１３３が除去された第２マイク２３の音声信号であり、第２スピーカ２４の入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５及び第５クロストーク１３３の影響が除去された音声、つまり、実質的に分離された第２話者の音声３７だけとなる。

同様に、第３話者の音声３８は、第３マイク２５に入力される。第３マイク２５の出力信号は、第３クロストークキャンセラ８０において、第３妨害信号が除去される。第３妨害信号は、第３クロストーク１３１の程度を示す（推定された）信号である。よって、第３クロストークキャンセラ８０の出力信号は、第３マイク２５に入力された音声から、第３クロストーク１３１の影響が除去された音声を示す信号となる。この音声信号が第６クロストークキャンセラ１８０に入力される。即ち、第３クロストークキャンセラ８０の出力信号は、図４に示すように、第３クロストーク１３１が除去された第３マイク２５の音声信号であり、第６クロストークキャンセラ１８０の入力信号である。

第３クロストークキャンセラ８０の出力信号は、第６クロストークキャンセラ１８０において第６妨害信号が除去される。第６妨害信号は、第６クロストーク１３４の程度を示す（推定された）信号である。よって、第６クロストークキャンセラ１８０の出力信号は、第３クロストークキャンセラ８０の出力信号から、第６クロストーク１３４の影響が除去された音声を示す信号となる。この信号が第３スピーカ２６から音声となって出力される。即ち、第６クロストークキャンセラ１８０の出力信号は、図４に示すように、第３クロストーク１３１及び第６クロストーク１３４が除去された第３マイク２５の音声信号であり、第３スピーカ２６の入力信号である。

よって、第３スピーカ２６から出力される音声は、第３マイク２５に入力された音声のうち、第３クロストーク１３１及び第６クロストーク１３４の影響が除去された音声、つまり、実質的に分離された第３話者の音声３８だけとなる。

［３−３．効果等］
本実施の形態における音源分離装置２０ｂは、実施の形態１における音源分離装置２０が有する第１クロストーク３２及び第２クロストーク３５の除去機能に追加して、第１話者１１及び第２話者１２に加えて第３話者１３が会話に参加する場合に必要となる、第３クロストーク１３１、第４クロストーク１３２、第５クロストーク１３３、及び第６クロストーク１３４の除去機能を有する。そのため、実施の形態１と同様、比較的小規模なハードウェアにより、第１クロストーク３２及び第２クロストーク３５に加えて、第３クロストーク１３１、第４クロストーク１３２、第５クロストーク１３３、及び第６クロストーク１３４をも除去することができる。

また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置おいて第１話者１１の音声と第２話者１２の音声と第３話者１３の音声とを分離する音源分離方法である。音源分離装置は、第１話者の音声３６を入力するための第１マイク２１と、第２話者の音声３７を入力するための第２マイク２３と、第３話者の音声３８を入力するための第３マイク２５とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップと、第３クロストークキャンセルステップと、第４クロストークキャンセルステップと、第５クロストークキャンセルステップと、第６クロストークキャンセルステップとを含む。

第１クロストークキャンセルステップでは、第５クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を出力する。

第２クロストークキャンセルステップでは、第４クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を出力する。

第３クロストークキャンセルステップでは、第５クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第３マイク２５に入力される第３クロストーク１３１の程度を示す第３妨害信号を推定して算出し、算出した第３妨害信号を、第３マイク２５の出力信号から除去し、除去後の信号を出力する。

第４クロストークキャンセルステップでは、第６クロストークキャンセルステップの出力信号を用いて、第３話者１３の音声が第１マイク２１に入力される第４クロストーク１３２の程度を示す第４妨害信号を推定して算出し、算出した第４妨害信号を、第１クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

第５クロストークキャンセルステップでは、第６クロストークキャンセルステップの出力信号を用いて、第３話者１３の音声が第２マイク２３に入力される第５クロストーク１３３の程度を示す第５妨害信号を推定して算出し、算出した第５妨害信号を、第２クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

第６クロストークキャンセルステップでは、第４クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第３マイク２５に入力される第６クロストーク１３４の程度を示す第６妨害信号を推定して算出し、算出した第６妨害信号を、第３クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第１クロストークキャンセラ５０、第２クロストークキャンセラ７０、第３クロストークキャンセラ８０、第４クロストークキャンセラ１５０、第５クロストークキャンセラ１７０、及び第６クロストークキャンセラ１８０は、プログラムを実行するプロセッサによって実現されてもよい。

なお、本実施の形態において、第１クロストークキャンセラ５０において実行される第１クロストークキャンセルステップと第４クロストークキャンセラ１５０において実行される第４クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第１マイク２１の出力信号は、第４クロストークキャンセラ１５０に入力されて、第４妨害信号が除去される。第４クロストークキャンセラ１５０の出力信号は、第４妨害信号が除去された第１マイク２１の音声信号となって、第１クロストークキャンセラ５０に入力され、第１妨害信号が除去される。第１クロストークキャンセラ５０の出力信号は、第４妨害信号及び第１妨害信号が除去された第１マイク２１の音声信号となって、第１スピーカ２２に入力される。

同様に、第２クロストークキャンセラ７０において実行される第２クロストークキャンセルステップと第５クロストークキャンセラ１７０において実行される第５クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第２マイク２３の出力信号は、第５クロストークキャンセラ１７０に入力されて、第５妨害信号が除去される。第５クロストークキャンセラ１７０の出力信号は、第５妨害信号が除去された第２マイク２３の音声信号となって、第２クロストークキャンセラ７０に入力され、第２妨害信号が除去される。第２クロストークキャンセラ７０の出力信号は、第５妨害信号及び第２妨害信号が除去された第２マイク２３の音声信号となって、第２スピーカ２４に入力される。

さらに、同様に、第３クロストークキャンセラ８０において実行される第３クロストークキャンセルステップと第６クロストークキャンセラ１８０において実行される第６クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第３マイク２５の出力信号は、第６クロストークキャンセラ１８０に入力されて、第６妨害信号が除去される。第６クロストークキャンセラ１８０の出力信号は、第６妨害信号が除去された第３マイク２５の音声信号となって、第３クロストークキャンセラ８０に入力され、第３妨害信号が除去される。第３クロストークキャンセラ８０の出力信号は、第６妨害信号及び第３妨害信号が除去された第３マイク２５の音声信号となって、第３スピーカ２６に入力される。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１〜３及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１〜３及び変形例で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。

例えば、実施の形態１〜３では、第１クロストークキャンセラ５０、及び、第２クロストークキャンセラ７０が有する畳み込み演算器は、いずれも、ＮタップのＦＩＲフィルタを例として、畳み込み演算を行ったが、それぞれが異なるタップ数の異なるタイプのデジタルフィルタであってもよい。つまり、いかなる種類のデジタルフィルタにするかは、キャンセルする音響的雑音の伝達関数等に依存して適宜、独立して設計してもよい。

また、実施の形態１〜３では、第１クロストークキャンセラ５０、及び、第２クロストークキャンセラ７０が有する伝達関数更新回路による伝達関数の更新アルゴリズムは、上記式３、式６に示されるように、同一のアルゴリズムであってもよいし、同一のアルゴリズムであるがステップサイズパラメータが異なってもよいし、異なるアルゴリズムであってもよい。つまり、伝達関数の更新アルゴリズムは、キャンセルする音響的雑音の大きさ等に依存して適宜、独立して設計してもよい。

また、上記実施の形態では、音源分離装置が備えるマイク及びスピーカの例として、車に組み込まれたタイプ、車に取り付けられたタイプ等が挙げられたが、これらに限られず、スマートフォン等の携帯型情報端末が有するマイク及び／又はスピーカであってもよい。例えば、車における後部乗員の音声を第２マイク２３（後部マイク）としてのスマートフォンで収音し、無線でヘッドユニット（音源分離装置）に送信し、第２スピーカ２４としての前部スピーカから、クロストークを抑制した状態で拡声する。また、第１マイク２１としての前部マイクで収音した運転者の音声を無線で後部乗員のスマートフォンに送信し、第１スピーカ２２（後部スピーカ）としてのスマートフォンのスピーカから、クロストークを抑制した状態で拡声する。これにより、後部乗員がスマートフォンを用いて運転者と円滑に会話できるとともに、車における後部マイク及び後部スピーカが不要となる。

また、このようなスマートフォン等の携帯型情報端末が有するマイク及び／又はスピーカを用いた音源分離装置は、講演会等で用いられるＰＡ（ＰｕｂｌｉｃＡｄｄｒｅｓｓ）システムとしても有用である。講演会における質問者の声を自身のスマートフォンで収音して無線でＰＡシステムに転送し、クロストークを抑制した状態で拡声することができる。これにより、講演会において、質問者にマイクを手渡すのに要する時間が短縮され、質疑応答がスムーズに実施されて手際良い講演会の進行が可能になる。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、複数のマイクから収音された音声信号に対してクロストーク（漏話）を減らす信号処理を施す音源分離装置に適用可能である。具体的には、音声認識装置、ハンズフリー電話、会話補助装置などに、本開示は適用可能である。

１０車
１１第１話者
１２第２話者
１３第３話者
２０，２０ａ，２０ｂ音源分離装置
２１第１マイク
２２第１スピーカ
２３第２マイク
２４第２スピーカ
２５第３マイク
２６第３スピーカ
３２第１クロストーク
３２ａ間接第１クロストーク
３５第２クロストーク
３５ａ間接第２クロストーク
３６第１話者の音声
３７第２話者の音声
３８第３話者の音声
５０第１クロストークキャンセラ
５１第１減算器
５２第１記憶回路
５３第１畳み込み演算器
５４第１伝達関数記憶回路
５５第１伝達関数更新回路
７０第２クロストークキャンセラ
７１第２減算器
７２第２記憶回路
７３第２畳み込み演算器
７４第２伝達関数記憶回路
７５第２伝達関数更新回路
８０第３クロストークキャンセラ
８１第３減算器
８２第３記憶回路
８３第３畳み込み演算器
８４第３伝達関数記憶回路
８５第３伝達関数更新回路
１３１第３クロストーク
１３２第４クロストーク
１３３第５クロストーク
１３４第６クロストーク
１５０第４クロストークキャンセラ
１５１第４減算器
１５２第４記憶回路
１５３第４畳み込み演算器
１５４第４伝達関数記憶回路
１５５第４伝達関数更新回路
１７０第５クロストークキャンセラ
１７１第５減算器
１７２第５記憶回路
１７３第５畳み込み演算器
１７４第５伝達関数記憶回路
１７５第５伝達関数更新回路
１８０第６クロストークキャンセラ
１８１第６減算器
１８２第６記憶回路
１８３第６畳み込み演算器
１８４第６伝達関数記憶回路
１８５第６伝達関数更新回路

特開２００４−１４５１７２号公報

本開示における音源分離装置は、第１マイクと、第２マイクと、第１クロストークを除去する第１クロストークキャンセラと、第２クロストークを除去する第２クロストークキャンセラと、を備える。第１マイクは、第１音声を入力する。第２マイクは、第２音声を入力する。第１クロストークキャンセラは、第１マイクの音声信号から、第２音声が第１マイクに入力される第１クロストークを除去する。第２クロストークキャンセラは、第２マイクの音声信号から、第１音声が第２マイクに入力される第２クロストークを除去する。第１クロストークキャンセラは、第２マイクの音声信号から第２クロストークが除去された音声信号を用いて、第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイクの音声信号から除去する。第２クロストークキャンセラは、第１マイクの音声信号から第１クロストークが除去された音声信号を用いて、第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイクの音声信号から除去する。

本開示における音源分離方法は、第１音声と第２音声とを含む音声信号から第１音声と第２音声とを分離する音源分離装置において行われる音源分離方法である。音源分離装置は、第１音声を入力するための第１マイクと、第２音声を入力するための第２マイクと、を備える。音源分離方法は、第１マイクの音声信号から、第２音声が第１マイクに入力される第１クロストークを除去する第１クロストークキャンセルステップと、第２マイクの音声信号から、第１音声が第２マイクに入力される第２クロストークを除去する第２クロストークキャンセルステップと、を含む。第１クロストークキャンセルステップでは、第２クロストークキャンセルステップにおいて第２マイクの音声信号から第２クロストークが除去された音声信号を用いて、第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した第１妨害信号を、第１マイクの音声信号から除去する。第２クロストークキャンセルステップでは、第１クロストークキャンセルステップにおいて第１マイクの音声信号から第１クロストークが除去された音声信号を用いて、第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した第２妨害信号を、第２マイクの音声信号から除去する。

音源分離装置２０は、第１話者１１（ここでは、運転者）と第２話者１２（ここでは、後部乗員）による双方向の会話を拡声して補助する装置である。運転席の天井には、第１話者１１の音声（第１音声）を入力するための第１マイク２１が設けられ、後部座席横の内側面には、第１音声を出力するための第１スピーカ２２が設けられている。また、後部座席の天井には、第２話者１２の音声（第２音声）を入力するための第２マイク２３が設けられ、２つの前扉の内側面には、第２音声を出力するための第２スピーカ２４が設けられている。

第１マイク２１は、第１話者１１の音声３６を入力するためのマイクであり、例えば、図１に示されるように、車１０の運転席の天井に設けられる。なお、第１マイク２１から出力される音声信号は、例えば、内蔵のＡ／Ｄ変換器で生成されるデジタル音声データである。

第１スピーカ２２は、第１話者１１の音声３６を出力するためのスピーカであり、例えば、図１に示されるように、車１０の後部座席横の両側の内側面に設けられる。なお、第１スピーカ２２は、例えば、第１マイク２１からの音声信号である入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第２マイク２３は、第２話者１２の音声３７を入力するためのマイクであり、例えば、図１に示されるように、後部座席の天井に設けられる。なお、第２マイク２３から出力される音声信号は、例えば、内蔵のＡ／Ｄ変換器で生成されるデジタル音声データである。

第２スピーカ２４は、第２話者１２の音声３７を出力するためのスピーカであり、例えば、図１に示されるように、車１０の２つの前扉の内側面に設けられる。なお、第２スピーカ２４は、例えば、第２マイク２３からの音声信号である入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

［１−２−１．第１クロストークキャンセラ５０］
第１クロストークキャンセラ５０は、第２クロストークキャンセラ７０の出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出する。第１クロストークキャンセラ５０は、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。第１クロストークキャンセラ５０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

このように、第１伝達関数更新回路５５は、第１減算器５１の出力信号に対して非線形関数を用いた非線形処理を施す。さらに、得られた結果に対して第１記憶回路５２に記憶された信号と、第１クロストーク３２の伝達関数の推定における学習速度を制御するための第１ステップサイズパラメータとを乗じることで第１更新係数を算出する。そして、算出した第１更新係数を第１伝達関数記憶回路５４に記憶された伝達関数に加算することで更新を行う。

［１−２−２．第２クロストークキャンセラ７０］
第２クロストークキャンセラ７０は、第１クロストークキャンセラ５０の出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出する。さらに、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。第２クロストークキャンセラ７０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

このように、第２伝達関数更新回路７５は、第２減算器７１の出力信号に対して非線形関数を用いた非線形処理を施す。さらに、得られた結果に対して第２記憶回路７２に記憶された信号と、第２クロストーク３５の伝達関数の推定における学習速度を制御するための第２ステップサイズパラメータとを乗じることで第２更新係数を算出する。そして、算出した第２更新係数を第２伝達関数記憶回路７４に記憶された伝達関数に加算することで更新を行う。

［１−３．動作］
以上のように構成された本実施の形態における音源分離装置２０では、第１話者１１の音声３６及び第２話者１２の音声３７は、次のように処理される。

第１話者１１の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において、第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２の影響が除去された音声を示す信号となる。この音声信号が第１スピーカ２２から音声となって出力される。即ち、第１クロストークキャンセラ５０の出力信号は、図２に示すように、第１クロストーク３２が除去された第１マイク２１の音声信号であり、第１スピーカ２２の入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２の影響が除去された音声、つまり、分離された第１話者１１の音声３６だけとなる。

同様に、第２話者１２の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において、第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５の影響が除去された音声を示す信号となる。この音声信号が第２スピーカ２４から音声となって出力される。即ち、第２クロストークキャンセラ７０の出力信号は、図２に示すように、第２クロストーク３５が除去された第２マイク２３の音声信号であり、第２スピーカ２４の入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５の影響が除去された音声、つまり、分離された第２話者１２の音声３７だけとなる。

なお、第１話者１１の音声３６及び第２話者１２の音声３７がそれぞれ分離される程度は、第１クロストークキャンセラ５０及び第２クロストークキャンセラ７０に保持された伝達関数の精度、上記式３及び式６に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。

これにより、適応型フィルタである第１クロストークキャンセラ５０を用いて、第１マイク２１に入力される第１話者１１の音声３６と第２話者１２の音声（第１クロストーク３２）とを分離して第１話者１１の音声３６だけを抽出する。これにより、比較的小規模なハードウェアにより、第１クロストーク３２による音声が第１スピーカ２２から拡声されてしまうことが抑制される。

これにより、適応型フィルタである第２クロストークキャンセラ７０を用いて、第２マイク２３に入力される第２話者１２の音声３７と第１話者１１の音声（第２クロストーク３５）とを分離して第２話者１２の音声３７だけを抽出するので、ハードウェアを増加することなく、第２クロストーク３５による音声が第２スピーカ２４から拡声されてしまうことが抑制される。

また、上記の実施の形態は、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第１話者１１の音声３６と第２話者１２の音声３７とを分離する音源分離方法である。音源分離装置は、第１話者１１の音声３６を入力するための第１マイク２１と、第２話者１２の音声３７を入力するための第２マイク２３とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップとを含む。

第１クロストークキャンセルステップでは、第２クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出する。さらに、算出した第１妨害信号を、第１マイク２１の出力信号から除去する。第１クロストークキャンセルステップの出力信号は、第１話者１１の音声３６のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。

第２クロストークキャンセルステップでは、第１クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出する。さらに、算出した第２妨害信号を、第２マイク２３の出力信号から除去する。第２クロストークキャンセルステップの出力信号は、第２話者１２の音声３７のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。

（実施の形態２）
次に、実施の形態２における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態１における音源分離装置と同様に、第１話者１１と第２話者１２による双方向の会話を拡声して補助する装置に適用される。ただし、実施の形態１における第１クロストーク３２及び第２クロストーク３５に加えて、第２スピーカ２４から出力される第２話者１２の音声が第１マイク２１に入力される間接第１クロストーク３２ａ、及び、第１スピーカ２２から出力される第１話者１１の音声が第２マイク２３に入力される間接第２クロストーク３５ａが無視できない程度に音響結合が大きい場合に、好適な装置である。

これにより、第１クロストークキャンセラ５０は、第２クロストークキャンセラ７０の出力信号を用いて、第１クロストーク３２と間接第１クロストーク３２ａとを合わせた程度を示す第１妨害信号を推定して算出する。さらに、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。

これにより、第２クロストークキャンセラ７０は、第１クロストークキャンセラ５０の出力信号を用いて、第２クロストーク３５と間接第２クロストーク３５ａとを合わせた程度を示す第２妨害信号を推定して算出する。さらに、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。

［２−２．動作］
以上のように構成された本実施の形態における音源分離装置２０ａでは、第１話者１１の音声３６及び第２話者１２の音声３７は、次のように処理される。

第１話者１１の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において、第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２と間接第１クロストーク３２ａとを合わせた程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２及び間接第１クロストーク３２ａの影響が除去された音声を示す信号となる。この音声信号が第１スピーカ２２から音声となって出力される。即ち、第１クロストークキャンセラ５０の出力信号は、図３に示すように、第１クロストーク３２及び間接第１クロストーク３２ａが除去された第１マイク２１の音声信号であり、第１スピーカ２２への入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２及び間接第１クロストーク３２ａの影響が除去された音声、つまり、分離された第１話者１１の音声３６だけとなる。

同様に、第２話者１２の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において、第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５と間接第２クロストーク３５ａとを合わせた程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５及び間接第２クロストーク３５ａの影響が除去された音声を示す信号となる。この音声信号が第２スピーカ２４から音声となって出力される。即ち、第２クロストークキャンセラ７０の出力信号は、図３に示すように、第２クロストーク３５及び間接第２クロストーク３５ａが除去された第２マイク２３の音声信号であり、第２スピーカ２４への入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５及び間接第２クロストーク３５ａの影響が除去された音声、つまり、分離された第２話者１２の音声３７だけとなる。

［２−３．効果等］
本実施の形態における音源分離装置２０ａは、実施の形態１における音源分離装置２０が有する第１クロストーク３２及び第２クロストーク３５の除去機能に追加して、間接第１クロストーク３２ａ及び間接第２クロストーク３５ａの除去機能を有する。そのため、実施の形態１と同様、従来の分離行列を用いない比較的小規模なハードウェアにより、間接第１クロストーク３２ａ及び間接第２クロストーク３５ａをも除去することができる。間接第１クロストーク３２ａの除去機能は、第１マイク２１と第２スピーカ２４とが間接第１クロストーク３２ａが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。また、間接第２クロストーク３５ａの除去機能は、第２マイク２３と第１スピーカ２２とが間接第２クロストーク３５ａが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。

また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第１話者１１の音声と第２話者１２の音声とを分離する音源分離方法である。音源分離装置は、第１話者１１の音声３６を入力するための第１マイク２１と、第１話者１１の音声３６を出力するための第１スピーカ２２と、第２話者１２の音声３７を入力するための第２マイク２３と、第２話者１２の音声３７を出力するための第２スピーカ２４とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップとを含む。

（実施の形態３）
次に、実施の形態３における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態１における音源分離装置と比べて、第１話者１１及び第２話者１２に加えて第３話者１３が参加する会話を拡声して補助する場合に、個々の話者の音声を分離するために好適な装置である。

第３スピーカ２６は、第３話者１３の音声３８を出力するためのスピーカであり、例えば、車１０の２つの前扉の内側面に設けられる（図示せず）。なお、第３スピーカ２６は、例えば、入力されたデジタル音声データを内蔵のＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第３クロストークキャンセラ８０は、第５クロストークキャンセラ１７０の出力信号を用いて、第２話者１２の音声が第３マイク２５に入力される第３クロストーク１３１の程度を示す第３妨害信号を推定して算出する。さらに、算出した第３妨害信号を、第３マイク２５の出力信号から除去し、除去後の信号を第６クロストークキャンセラ１８０に出力する。第３クロストークキャンセラ８０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

第４クロストークキャンセラ１５０は、第６クロストークキャンセラ１８０の出力信号を用いて、第３話者１３の音声が第１マイク２１に入力される第４クロストーク１３２の程度を示す第４妨害信号を推定して算出する。さらに、算出した第４妨害信号を、第１クロストークキャンセラ５０の出力信号から除去し、除去後の信号を第１スピーカ２２に出力する。第４クロストークキャンセラ１５０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

第５クロストークキャンセラ１７０は、第６クロストークキャンセラ１８０の出力信号を用いて、第３話者１３の音声が第２マイク２３に入力される第５クロストーク１３３の程度を示す第５妨害信号を推定して算出する。さらに、算出した第５妨害信号を、第２クロストークキャンセラ７０の出力信号から除去し、除去後の信号を第２スピーカ２４に出力する。第５クロストークキャンセラ１７０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

第６クロストークキャンセラ１８０は、第４クロストークキャンセラ１５０の出力信号を用いて、第１話者１１の音声が第３マイク２５に入力される第６クロストーク１３４の程度を示す第６妨害信号を推定して算出する。さらに、算出した第６妨害信号を、第３クロストークキャンセラ８０の出力信号から除去し、除去後の信号を第３スピーカ２６に出力する。第６クロストークキャンセラ１８０は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

［３−２．動作］
以上のように構成された本実施の形態における音源分離装置２０ｂでは、第１話者１１の音声３６、第２話者１２の音声３７、及び第３話者１３の音声３８は、次のように処理される。

第１話者１１の音声３６は、第１マイク２１に入力される。第１マイク２１の出力信号は、第１クロストークキャンセラ５０において第１妨害信号が除去される。第１妨害信号は、第１クロストーク３２の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第１クロストーク３２の影響が除去された音声を示す信号となる。この音声信号が、第４クロストークキャンセラ１５０に入力される。即ち、第１クロストークキャンセラ５０の出力信号は、図４に示すように、第１クロストーク３２が除去された第１マイク２１の音声信号であり、第４クロストークキャンセラ１５０の入力信号である。

よって、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１クロストーク３２及び第４クロストーク１３２の影響が除去された音声、つまり、実質的に分離された第１話者１１の音声３６だけとなる。

同様に、第２話者１２の音声３７は、第２マイク２３に入力される。第２マイク２３の出力信号は、第２クロストークキャンセラ７０において第２妨害信号が除去される。第２妨害信号は、第２クロストーク３５の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ７０の出力信号は、第２マイク２３に入力された音声から、第２クロストーク３５の影響が除去された音声を示す信号となる。この音声信号が第５クロストークキャンセラ１７０に入力される。即ち、第２クロストークキャンセラ７０の出力信号は、図４に示すように、第２クロストーク３５が除去された第２マイク２３の音声信号であり、第５クロストークキャンセラ１７０の入力信号である。

よって、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２クロストーク３５及び第５クロストーク１３３の影響が除去された音声、つまり、実質的に分離された第２話者１２の音声３７だけとなる。

同様に、第３話者１３の音声３８は、第３マイク２５に入力される。第３マイク２５の出力信号は、第３クロストークキャンセラ８０において、第３妨害信号が除去される。第３妨害信号は、第３クロストーク１３１の程度を示す（推定された）信号である。よって、第３クロストークキャンセラ８０の出力信号は、第３マイク２５に入力された音声から、第３クロストーク１３１の影響が除去された音声を示す信号となる。この音声信号が第６クロストークキャンセラ１８０に入力される。即ち、第３クロストークキャンセラ８０の出力信号は、図４に示すように、第３クロストーク１３１が除去された第３マイク２５の音声信号であり、第６クロストークキャンセラ１８０の入力信号である。

よって、第３スピーカ２６から出力される音声は、第３マイク２５に入力された音声のうち、第３クロストーク１３１及び第６クロストーク１３４の影響が除去された音声、つまり、実質的に分離された第３話者１３の音声３８だけとなる。

また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置おいて第１話者１１の音声と第２話者１２の音声と第３話者１３の音声とを分離する音源分離方法である。音源分離装置は、第１話者１１の音声３６を入力するための第１マイク２１と、第２話者１２の音声３７を入力するための第２マイク２３と、第３話者１３の音声３８を入力するための第３マイク２５とを備える。音源分離方法は、第１クロストークキャンセルステップと、第２クロストークキャンセルステップと、第３クロストークキャンセルステップと、第４クロストークキャンセルステップと、第５クロストークキャンセルステップと、第６クロストークキャンセルステップとを含む。

第１クロストークキャンセルステップでは、第５クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第１マイク２１に入力される第１クロストーク３２の程度を示す第１妨害信号を推定して算出する。さらに、算出した第１妨害信号を、第１マイク２１の出力信号から除去し、除去後の信号を出力する。

第２クロストークキャンセルステップでは、第４クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第２マイク２３に入力される第２クロストーク３５の程度を示す第２妨害信号を推定して算出する。さらに、算出した第２妨害信号を、第２マイク２３の出力信号から除去し、除去後の信号を出力する。

第３クロストークキャンセルステップでは、第５クロストークキャンセルステップの出力信号を用いて、第２話者１２の音声が第３マイク２５に入力される第３クロストーク１３１の程度を示す第３妨害信号を推定して算出する。さらに、算出した第３妨害信号を、第３マイク２５の出力信号から除去し、除去後の信号を出力する。

第４クロストークキャンセルステップでは、第６クロストークキャンセルステップの出力信号を用いて、第３話者１３の音声が第１マイク２１に入力される第４クロストーク１３２の程度を示す第４妨害信号を推定して算出する。さらに、算出した第４妨害信号を、第１クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

第５クロストークキャンセルステップでは、第６クロストークキャンセルステップの出力信号を用いて、第３話者１３の音声が第２マイク２３に入力される第５クロストーク１３３の程度を示す第５妨害信号を推定して算出する。さらに、算出した第５妨害信号を、第２クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

第６クロストークキャンセルステップでは、第４クロストークキャンセルステップの出力信号を用いて、第１話者１１の音声が第３マイク２５に入力される第６クロストーク１３４の程度を示す第６妨害信号を推定して算出する。さらに、算出した第６妨害信号を、第３クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。

また、実施の形態１〜３では、第１クロストークキャンセラ５０、及び、第２クロストークキャンセラ７０が有する伝達関数更新回路による伝達関数の更新アルゴリズムは、上記式３、式６に示されるように、同一のアルゴリズムであってもよい。あるいは、同一のアルゴリズムであるがステップサイズパラメータが異なってもよいし、異なるアルゴリズムであってもよい。つまり、伝達関数の更新アルゴリズムは、キャンセルする音響的雑音の大きさ等に依存して適宜、独立して設計してもよい。

Claims

第１音声を入力するための第１マイクと、
第２音声を入力するための第２マイクと、
前記第１マイクの音声信号から、前記第２音声が前記第１マイクに入力される第１クロストークを除去する第１クロストークキャンセラと、
前記第２マイクの音声信号から、前記第１音声が前記第２マイクに入力される第２クロストークを除去する第２クロストークキャンセラと、を備え、
前記第１クロストークキャンセラは、前記第２マイクの前記音声信号から前記第２クロストークが除去された音声信号を用いて、前記第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した前記第１妨害信号を、前記第１マイクの前記音声信号から除去し、
前記第２クロストークキャンセラは、前記第１マイクの前記音声信号から前記第１クロストークが除去された音声信号を用いて、前記第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した前記第２妨害信号を、前記第２マイクの前記音声信号から除去する、
音源分離装置。
同一時刻における前記第２音声について、前記第２マイクの前記音声信号が前記第１クロストークキャンセラに入力される時刻は、前記第２音声が前記第１マイクに入力される時刻と同一、又は、より早く、
同一時刻における前記第１音声について、前記第１マイクの前記音声信号が前記第２クロストークキャンセラに入力される時刻は、前記第１音声が前記第２マイクに入力される時刻と同一、又は、より早い、
請求項１記載の音源分離装置。
さらに、
前記第１音声を出力するための第１スピーカと、
前記第２音声を出力するための第２スピーカと、を備え、
前記第１クロストークキャンセラは、さらに、前記第２スピーカから出力された前記第２音声が前記第１マイクに入力される間接第１クロストークを除去し、前記第１妨害信号は、前記第１クロストーク、及び、前記間接第１クロストークの程度を示し、
前記第２クロストークキャンセラは、さらに、前記第１スピーカから出力された前記第１音声が前記第２マイクに入力される間接第２クロストークを除去し、前記第２妨害信号は、前記第２クロストーク、及び、前記間接第２クロストークの程度を示す、
請求項２記載の音源分離装置。
前記第１クロストークキャンセラは、
前記第１クロストークの伝達関数として推定された前記伝達関数を記憶する第１伝達関数記憶回路と、
前記第２クロストークキャンセラの前記出力信号を記憶する第１記憶回路と、
前記第１記憶回路に記憶された前記出力信号と前記第１伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第１妨害信号を生成する第１畳み込み演算器と、
前記第１マイクの前記出力信号から、前記第１畳み込み演算器から出力された前記第１妨害信号を除去し、当該第１クロストークキャンセラの前記出力信号として出力する第１減算器と、
前記第１減算器の前記出力信号と前記第１記憶回路に記憶された前記出力信号とに基づいて前記第１伝達関数記憶回路に記憶された前記伝達関数を更新する第１伝達関数更新回路と、を有し、
前記第２クロストークキャンセラは、
前記第２クロストークの伝達関数として推定された前記伝達関数を記憶する第２伝達関数記憶回路と、
前記第１クロストークキャンセラの前記出力信号を記憶する第２記憶回路と、
前記第２記憶回路に記憶された前記出力信号と前記第２伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第２妨害信号を生成する第２畳み込み演算器と、
前記第２マイクの前記出力信号から、前記第２畳み込み演算器から出力された前記第２妨害信号を除去し、当該第２クロストークキャンセラの前記出力信号として出力する第２減算器と、
前記第２減算器の前記出力信号と前記第２記憶回路に記憶された前記出力信号とに基づいて前記第２伝達関数記憶回路に記憶された前記伝達関数を更新する第２伝達関数更新回路と、を有する、
請求項１記載の音源分離装置。
前記第１伝達関数更新回路は、独立成分分析を用いて、前記第１減算器の前記出力信号と前記第１記憶回路に記憶された前記出力信号とに基づいて、前記第１減算器の前記出力信号と前記第１記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第１伝達関数記憶回路に記憶された前記伝達関数を更新し、
前記第２伝達関数更新回路は、独立成分分析を用いて、前記第２減算器の前記出力信号と前記第２記憶回路に記憶された前記出力信号とに基づいて、前記第２減算器の前記出力信号と前記第２記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第２伝達関数記憶回路に記憶された前記伝達関数を更新する、
請求項４記載の音源分離装置。
前記第１伝達関数更新回路は、前記第１減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第１記憶回路に記憶された前記出力信号と、前記第１クロストークの前記伝達関数の推定における学習速度を制御するための第１ステップサイズパラメータとを乗じることで第１更新係数を算出し、算出した前記第１更新係数を前記第１伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行い、
前記第２伝達関数更新回路は、前記第２減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第２記憶回路に記憶された前記出力信号と、前記第２クロストークの前記伝達関数の推定における学習速度を制御するための第２ステップサイズパラメータとを乗じることで第２更新係数を算出し、算出した前記第２更新係数を前記第２伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行う、
請求項５記載の音源分離装置。
前記第１伝達関数更新回路、及び前記第２伝達関数更新回路が用いる前記非線形関数は、シグモイド関数、双曲線正接関数、正規化線形関数又は符号関数である、
請求項６記載の音源分離装置。
さらに、
第３音声を入力するための第３マイクと、
前記第３マイクの音声信号から、前記第２音声が前記第３マイクに入力される第３クロストークを除去する第３クロストークキャンセラと、
前記第１マイクの音声信号から、前記第３音声が前記第１マイクに入力される第４クロストークを除去する第４クロストークキャンセラと、
前記第２マイクの音声信号から、前記第３音声が前記第２マイクに入力される第５クロストークを除去する第５クロストークキャンセラと、
前記第３マイクの音声信号から、前記第１音声が前記第３マイクに入力される第６クロストークを除去する第６クロストークキャンセラと、を備え、
前記第１クロストークキャンセラは、前記第１妨害信号を推定するにあたり、前記第２マイクの前記音声信号から前記第２クロストーク及び前記第５クロストークが除去された音声信号を用い、
前記第２クロストークキャンセラは、前記第２妨害信号を推定するにあたり、前記第１マイクの前記音声信号から前記第１クロストーク及び前記第４クロストークが除去された音声信号を用い、
前記第３クロストークキャンセラは、前記第２マイクの前記音声信号から前記第２クロストーク及び前記第５クロストークが除去された音声信号を用いて、前記第３クロストークの程度を示す第３妨害信号を推定して算出し、算出した前記第３妨害信号を、前記第３マイクの前記音声信号から除去し、
前記第４クロストークキャンセラは、前記第３マイクの前記音声信号から前記第３クロストーク及び前記第６クロストークが除去された音声信号を用いて、前記第４クロストークの程度を示す第４妨害信号を推定して算出し、算出した前記第４妨害信号を、前記第１マイクの前記音声信号から除去し、
前記第５クロストークキャンセラは、前記第３マイクの前記音声信号から前記第３クロストーク及び前記第６クロストークが除去された音声信号を用いて、前記第５クロストークの程度を示す第５妨害信号を推定して算出し、算出した前記第５妨害信号を、前記第２マイクの前記音声信号から除去し、
前記第６クロストークキャンセラは、前記第１マイクの前記音声信号から前記第１クロストーク及び前記第４クロストークが除去された音声信号を用いて、前記第６クロストークの程度を示す第６妨害信号を推定して算出し、算出した前記第６妨害信号を、前記第３マイクの前記音声信号から除去する、
請求項１記載の音源分離装置。
第１音声と第２音声とを含む音声信号から前記第１音声と前記第２音声とを分離する音源分離装置において行われる音源分離方法であって、
前記音源分離装置は、
前記第１音声を入力するための第１マイクと、
前記第２音声を入力するための第２マイクと、を備え、
前記音源分離方法は、
前記第１マイクの音声信号から、前記第２音声が前記第１マイクに入力される第１クロストークを除去する第１クロストークキャンセルステップと、
前記第２マイクの音声信号から、前記第１音声が前記第２マイクに入力される第２クロストークを除去する第２クロストークキャンセルステップと、を含み、
前記第１クロストークキャンセルステップでは、前記第２クロストークキャンセルステップにおいて前記第２マイクの前記音声信号から前記第２クロストークが除去された音声信号を用いて、前記第１クロストークの程度を示す第１妨害信号を推定して算出し、算出した前記第１妨害信号を、前記第１マイクの前記音声信号から除去し、
前記第２クロストークキャンセルステップでは、前記第１クロストークキャンセルステップにおいて前記第１マイクの前記音声信号から前記第１クロストークが除去された音声信号を用いて、前記第２クロストークの程度を示す第２妨害信号を推定して算出し、算出した前記第２妨害信号を、前記第２マイクの前記音声信号から除去する、
音源分離方法。