JPWO2017064840A1 - 音源分離装置および音源分離方法 - Google Patents

音源分離装置および音源分離方法 Download PDF

Info

Publication number
JPWO2017064840A1
JPWO2017064840A1 JP2017545086A JP2017545086A JPWO2017064840A1 JP WO2017064840 A1 JPWO2017064840 A1 JP WO2017064840A1 JP 2017545086 A JP2017545086 A JP 2017545086A JP 2017545086 A JP2017545086 A JP 2017545086A JP WO2017064840 A1 JPWO2017064840 A1 JP WO2017064840A1
Authority
JP
Japan
Prior art keywords
crosstalk
signal
microphone
sound
transfer function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017545086A
Other languages
English (en)
Other versions
JP6318376B2 (ja
Inventor
良二 鈴木
良二 鈴木
宏正 大橋
宏正 大橋
田中 直也
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Application granted granted Critical
Publication of JP6318376B2 publication Critical patent/JP6318376B2/ja
Publication of JPWO2017064840A1 publication Critical patent/JPWO2017064840A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備える。第1クロストークキャンセラは、第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を第1マイクの音声信号から除去する。第2クロストークキャンセラは、第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を第2マイクの音声信号から除去する。

Description

本開示は、複数のマイクから収音された複数の音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に関する。
特許文献1は、複数の信号が空間内で混合されたものから、源信号を復元する音源分離装置を開示する。この音源分離装置は、観測信号を短時間フーリエ変換する手段と、独立成分分析により短時間フーリエ変換した各周波数での分離行列を求める手段と、各周波数での分離行列の各行により取り出される信号の到来方向を推定する手段と、その推定値が十分に信頼できるかどうかを判定する手段と、短時間フーリエ変換した周波数間での分離信号の類似度を計算する手段と、を備える。そして、さらに、各周波数で分離行列を求めた後でパーミュテーション(各周波数における音源の置換)を解決する際に、信号の到来方向の推定が十分に信頼できると判定された周波数ではそれらの方向を揃えることでパーミュテーションを決定し、その他の周波数では近傍の周波数との分離信号の類似度を高めるようにパーミュテーションを決定していく手段を備える。これにより、パーミュテーションを解決しながら源信号を復元することができる。
特開2004−145172号公報
本開示は、大きな演算量が必要となる分離行列の算出を行うことなく、より小規模なハードウェアを用いて、複数のマイクから収音された複数の音声信号に対してクロストークを減らすことにより個別の音声信号を分離できる音源分離装置を提供する。
本開示における音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備える。第1クロストークキャンセラは、第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセラは、第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
本開示における音源分離方法は、第1音声と第2音声とを含む音声信号から第1音声と第2音声とを分離する音源分離装置において行われる音源分離方法である。音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、を備え、音源分離方法は、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセルステップと、第2マイクの音声信号から、第1話者の音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセルステップと、を含む。第1クロストークキャンセルステップでは、第2クロストークキャンセルステップにおいて第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセルステップでは、第1クロストークキャンセルステップにおいて第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
本開示における音源分離装置によれば、大きな演算量が必要となる分離行列の算出を行うことなく、複数のマイクから収音された音声信号から個別の音声信号を分離するために、より小規模なハードウェアを用いてクロストークを軽減できる。
実施の形態1における音源分離装置の適用例を示す図 図1に示された音源分離装置の構成を示すブロック図 実施の形態2における音源分離装置の構成を示すブロック図 実施の形態3における音源分離装置の構成を示すブロック図
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
以下、図1及び図2を用いて、実施の形態1を説明する。
[1−1.適用例]
図1は、実施の形態1における音源分離装置20の適用例を示す図である。ここでは、音源分離装置20を車10における双方向の会話を拡声して補助する装置(車室内会話補助装置)に適用した例が示されている。
音源分離装置20は、第1話者11(ここでは、運転者)と第2話者12(ここでは、後部乗員)による双方向の会話を拡声して補助する装置である。運転席の天井には、第1話者11の音声(第1音声)を入力するための第1マイク21が設けられ、後部座席横の内側面には、その音声を出力するための第1スピーカ22が設けられている。また、後部座席の天井には、第2話者12の音声(第2音声)を入力するための第2マイク23が設けられ、2つの前扉の内側面には、その音声を出力するための第2スピーカ24が設けられている。
第1話者11と第2話者12とは、この音源分離装置20を用いることで、車における一つの狭い空間であっても、クロストーク(漏話)を含む音響的雑音が除去された双方向会話を楽しむことができる。なお、クロストークとは、ある話者の音声が他人の音声を入力するためのマイクに入力される現象をいい、ここでは、第2話者12の音声が第1マイク21に入力される現象、及び、第1話者11の音声が第2マイク23に入力される現象である。
[1−2.構成]
図2は、図1に示された音源分離装置20の構成を示すブロック図である。この音源分離装置20は、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70を備える。なお、音源分離装置20の各構成要素は、有線又は無線で接続されている。また、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70は、例えば、車10のヘッドユニットの一部として実装される。
第1マイク21は、第1話者の音声36を入力するためのマイクであり、例えば、図1に示されるように、車10の運転席の天井に設けられる。なお、第1マイク21から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第1スピーカ22は、第1話者の音声36を出力するためのスピーカであり、例えば、図1に示されるように、車10の後部座席横の両側の内側面に設けられる。なお、第1スピーカ22は、例えば、第1マイク21からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
第2マイク23は、第2話者の音声37を入力するためのマイクであり、例えば、図1に示されるように、後部座席の天井に設けられる。なお、第2マイク23から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第2スピーカ24は、第2話者の音声37を出力するためのスピーカであり、例えば、図1に示されるように、車10の2つの前扉の内側面に設けられる。なお、第2スピーカ24は、例えば、第2マイク23からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
[1−2−1.第1クロストークキャンセラ50]
第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第1クロストークキャンセラ50は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第1クロストークキャンセラ50は、第1伝達関数記憶回路54、第1記憶回路52、第1畳み込み演算器53、第1減算器51、及び、第1伝達関数更新回路55を有する。
第1伝達関数記憶回路54は、第1クロストーク32の伝達関数として推定された伝達関数を記憶する。
第1記憶回路52は、第2クロストークキャンセラ70から出力された信号を記憶する。
第1畳み込み演算器53は、第1記憶回路52に記憶された信号と第1伝達関数記憶回路54に記憶された伝達関数とを畳み込むことで第1妨害信号を生成する。例えば、第1畳み込み演算器53は、以下の式1に示される畳み込み演算を行うNタップのFIR(Finite Impulse Response)フィルタである。
Figure 2017064840
ここで、y1’tは、時刻tにおける第1妨害信号である。Nは、FIRフィルタのタップ数である。H1(i)tは、時刻tにおいて第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x1(t−i)は、第1記憶回路52に記憶された信号のうち、(t−i)番目の信号である。
第1減算器51は、第1マイク21の出力信号から、第1畳み込み演算器53から出力された第1妨害信号を除去し、第1クロストークキャンセラ50の出力信号として出力する。例えば、第1減算器51は、以下の式2に示される減算を行う。
Figure 2017064840
ここで、e1tは、時刻tにおける第1減算器51の出力信号である。y1tは、時刻tにおける第1マイク21の出力信号である。
第1伝達関数更新回路55は、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて第1伝達関数記憶回路54に記憶された伝達関数を更新する。例えば、第1伝達関数更新回路55は、以下の式3に示されるように、独立成分分析を用いて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とが相互に独立となるように、第1伝達関数記憶回路54に記憶された伝達関数を更新する。
Figure 2017064840
ここで、H1(j)t+1は、時刻t+1における(つまり、更新後の)第1伝達関数記憶回路54に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H1(j)tは、時刻t(つまり、更新前の)第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α1は、第1クロストーク32の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ1は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
このように、第1伝達関数更新回路55は、第1減算器51の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第1記憶回路52に記憶された信号と、第1クロストーク32の伝達関数の推定における学習速度を制御するための第1ステップサイズパラメータとを乗じることで第1更新係数を算出する。そして、算出した第1更新係数を第1伝達関数記憶回路54に記憶された伝達関数に加算することで更新を行う。
[1−2−2.第2クロストークキャンセラ70]
第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第2クロストークキャンセラ70は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第2クロストークキャンセラ70は、第2伝達関数記憶回路74、第2記憶回路72、第2畳み込み演算器73、第2減算器71、及び、第2伝達関数更新回路75を有する。
第2伝達関数記憶回路74は、第2クロストーク35の伝達関数として推定された伝達関数を記憶する。
第2記憶回路72は、第1クロストークキャンセラ50から出力された信号を記憶する。
第2畳み込み演算器73は、第2記憶回路72に記憶された信号と第2伝達関数記憶回路74に記憶された伝達関数とを畳み込むことで第2妨害信号を生成する。例えば、第2畳み込み演算器73は、以下の式4に示される畳み込み演算を行うNタップのFIRフィルタである。
Figure 2017064840
ここで、y2’tは、時刻tにおける第2妨害信号である。Nは、FIRフィルタのタップ数である。H2(i)tは、時刻tにおいて第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x2(t−i)は、第2記憶回路72に記憶された信号のうち、(t−i)番目の信号である。
第2減算器71は、第2マイク23の出力信号から、第2畳み込み演算器73から出力された第2妨害信号を除去し、第2クロストークキャンセラ70の出力信号として出力する。例えば、第2減算器71は、以下の式5に示される減算を行う。
Figure 2017064840
ここで、e2tは、時刻tにおける第2減算器71の出力信号である。y2tは、時刻tにおける第2マイク23の出力信号である。
第2伝達関数更新回路75は、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて第2伝達関数記憶回路74に記憶された伝達関数を更新する。例えば、第2伝達関数更新回路75は、以下の式6に示されるように、独立成分分析を用いて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とが相互に独立となるように、第2伝達関数記憶回路74に記憶された伝達関数を更新する。
Figure 2017064840
ここで、H2(j)t+1は、時刻t+1における(つまり、更新後の)第2伝達関数記憶回路74に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H2(j)tは、時刻t(つまり、更新前の)第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α2は、第2クロストーク35の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ2は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
このように、第2伝達関数更新回路75は、第2減算器71の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第2記憶回路72に記憶された信号と、第2クロストーク35の伝達関数の推定における学習速度を制御するための第2ステップサイズパラメータとを乗じることで第2更新係数を算出する。そして、算出した第2更新係数を第2伝達関数記憶回路74に記憶された伝達関数に加算することで更新を行う。
なお、本実施の形態における音源分離装置20では、第2話者12の同一時刻における音声について、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第1クロストークキャンセラ50が第1クロストーク32をキャンセルできるように、因果律が保持されている。これは、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第2話者12の音声が第1マイク21に入力される時刻を決定づける要因(第2話者12と第1マイク21との位置関係等)とを考慮することで適宜、実現し得る。
同様に、本実施の形態における音源分離装置20では、第1話者11の同一時刻における音声について、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第2クロストークキャンセラ70が第2クロストーク35をキャンセルできるように、因果律が保持されている。これは、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第1話者11の音声が第2マイク23に入力される時刻を決定づける要因(第1話者11と第2マイク23との位置関係等)とを考慮することで適宜、実現し得る。
[1−3.動作]
以上のように構成された本実施の形態における音源分離装置20では、第1話者の音声36及び第2話者の音声37は、次のように処理される。
第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図2に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32の影響が除去された音声、つまり、分離された第1話者の音声36だけとなる。
同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図2に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35の影響が除去された音声、つまり、分離された第2話者の音声37だけとなる。
なお、第1話者の音声36及び第2話者の音声37がそれぞれ分離される程度は、第1クロストークキャンセラ50及び第2クロストークキャンセラ70に保持された伝達関数の精度、上記式3及び式6に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。
[1−4.効果等]
以上のように、本実施の形態における音源分離装置20は、第1マイク21及び第1クロストークキャンセラ50を備える。そして、音源分離装置20では、第2話者12の同一時刻における音声について、信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第1クロストークキャンセラ50は、第2話者12の音声が第1マイク21に入力される第1クロストーク32を推定して、第1マイク21の出力信号から除去する。
これにより、適応型フィルタである第1クロストークキャンセラ50を用いて、第1マイク21に入力される第1話者の音声36と第2話者12の音声(第1クロストーク32)とを分離して第1話者の音声36だけを抽出するので、比較的小規模なハードウェアにより、第1クロストーク32による音声が第1スピーカ22から拡声されてしまうことが抑制される。
同様に、本実施の形態における音源分離装置20は、第2マイク23及び第2クロストークキャンセラ70を備える。そして、音源分離装置20では、第1話者11の同一時刻における音声について、信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第2クロストークキャンセラ70は、第1話者11の音声が第2マイク23に入力される第2クロストーク35を推定して、第2マイク23の出力信号から除去する。
これにより、適応型フィルタである第2クロストークキャンセラ70を用いて、第2マイク23に入力される第2話者の音声37と第1話者11の音声(第2クロストーク35)とを分離して第2話者の音声37だけを抽出するので、ハードウェアを増加することなく、第2クロストーク35による音声が第2スピーカ24から拡声されてしまうことが抑制される。
[1−5.変形例]
上記実施の形態では、第1伝達関数更新回路55は、上記式3に従って伝達関数を更新したが、以下の式7又は式8に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure 2017064840
ここで、Nは、第1伝達関数記憶回路54に記憶される伝達関数の個数である。|x1(t−i)|は、x1(t−i)の絶対値である。
Figure 2017064840
これにより、第1伝達関数更新回路55による推定伝達関数の更新が、入力信号x1(t−j)の振幅に依存せず、安定して実施される。
同様に、第2伝達関数更新回路75は、上記式6に従って伝達関数を更新したが、以下の式9又は式10に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure 2017064840
ここで、Nは、第2伝達関数記憶回路74に記憶される伝達関数の個数である。|x2(t−i)|は、x2(t−i)の絶対値である。
Figure 2017064840
これにより、第2伝達関数更新回路75による推定伝達関数の更新が、入力信号x2(t−j)の振幅に依存せず、安定して実施される。
また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
また、上記の実施の形態は、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者の音声36と第2話者の音声37とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第2話者の音声37を入力するための第2マイク23とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去する。第1クロストークキャンセルステップの出力信号は、第1話者の音声36のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去する。第2クロストークキャンセルステップの出力信号は、第2話者の音声37のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
(実施の形態2)
次に、実施の形態2における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と同様に、第1話者と第2話者による双方向の会話を拡声して補助する装置に適用される。ただし、実施の形態1における第1クロストーク32及び第2クロストーク35に加えて、第2スピーカ24から出力される第2話者12の音声が第1マイク21に入力される間接第1クロストーク32a、及び、第1スピーカ22から出力される第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい場合に、好適な装置である。
[2−1.構成]
図3は、実施の形態2における音源分離装置20aの構成を示すブロック図である。この音源分離装置20aの構成は、実施の形態1における音源分離装置20の構成と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
この音源分離装置20aは、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50及び第2クロストークキャンセラ70を備える。いずれの構成要素も、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等であるが、音源分離装置20aでは、音源分離装置20と比較して、第1伝達関数記憶回路54及び第2伝達関数記憶回路74に記憶される伝達関数が異なる。
第1伝達関数記憶回路54は、第1クロストーク32と間接第1クロストーク32aとを合わせた伝達関数として推定された伝達関数を記憶する。
これにより、第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
第2伝達関数記憶回路74は、第2クロストーク35と間接第2クロストーク35aとを合わせた伝達関数として推定された伝達関数を記憶する。
これにより、第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
なお、この音源分離装置20aでは、第1マイク21と第2スピーカ24とは、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第2スピーカ24は、第1マイク21が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
同様に、第2マイク23と第1スピーカ22とは、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第1スピーカ22は、第2マイク23が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
[2−2.動作]
以上のように構成された本実施の形態における音源分離装置20aでは、第1話者の音声36及び第2話者の音声37は、次のように処理される。
第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図3に示すように、第1クロストーク32及び間接第1クロストーク32aが除去された第1マイク21の音声信号であり、第1スピーカ22への入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声、つまり、分離された第1話者の音声36だけとなる。
同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図3に示すように、第2クロストーク35及び間接第2クロストーク35aが除去された第2マイク23の音声信号であり、第2スピーカ24への入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声、つまり、分離された第2話者の音声37だけとなる。
[2−3.効果等]
本実施の形態における音源分離装置20aは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、間接第1クロストーク32a及び間接第2クロストーク35aの除去機能を有する。そのため、実施の形態1と同様、従来の分離行列を用いない比較的小規模なハードウェアにより、間接第1クロストーク32a及び間接第2クロストーク35aをも除去することができる。間接第1クロストーク32aの除去機能は、第1マイク21と第2スピーカ24とが間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となり、間接第2クロストーク35aの除去機能は、第2マイク23と第1スピーカ22とが間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。
また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者11の音声と第2話者12の音声とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第1話者の音声36を出力するための第1スピーカ22と、第2話者の音声37を入力するための第2マイク23と、第2話者の音声37を出力するための第2スピーカ24とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32と、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出する。そして、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35と、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出する。そして、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
(実施の形態3)
次に、実施の形態3における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と比べて、第1話者及び第2話者に加えて第3話者が参加する会話を拡声して補助する場合に、個々の話者の音声を分離するために好適な装置である。
[3−1.構成]
図4は、実施の形態3における音源分離装置20bの構成を示すブロック図である。この音源分離装置20bは、実施の形態1における音源分離装置20に、第3マイク25、第3スピーカ26、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180を追加して構成される。第1マイク21、第2マイク23、第1スピーカ22、第2スピーカ24、第1クロストークキャンセラ50、及び第2クロストークキャンセラ70は、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
第3マイク25は、第3話者13の音声(第3音声)を入力するためのマイクであり、例えば、後部座席の天井に設けられる(図示せず)。なお、第3マイク25から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第3スピーカ26は、第3話者の音声38を出力するためのスピーカであり、例えば、車10の2つの前扉の内側面に設けられる(図示せず)。なお、第3スピーカ26は、例えば、入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
第3クロストークキャンセラ80は、第5クロストークキャンセラ170の出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出し、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を第6クロストークキャンセラ180に出力する。第3クロストークキャンセラ80は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第3クロストークキャンセラ80は、第3伝達関数記憶回路84、第3記憶回路82、第3畳み込み演算器83、第3減算器81、及び、第3伝達関数更新回路85を有する。
第3伝達関数記憶回路84は、第3クロストーク131の伝達関数として推定された伝達関数を記憶する。
第3クロストークキャンセラ80は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第3伝達関数記憶回路84に記憶した伝達関数を用いて信号処理を行う。
第4クロストークキャンセラ150は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出し、算出した第4妨害信号を、第1クロストークキャンセラ50の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第4クロストークキャンセラ150は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第4クロストークキャンセラ150は、第4伝達関数記憶回路154、第4記憶回路152、第4畳み込み演算器153、第4減算器151、及び、第4伝達関数更新回路155を有する。
第4伝達関数記憶回路154は、第4クロストーク132の伝達関数として推定された伝達関数を記憶する。
第4クロストークキャンセラ150は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第4伝達関数記憶回路154に記憶した伝達関数を用いて信号処理を行う。
第5クロストークキャンセラ170は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出し、算出した第5妨害信号を、第2クロストークキャンセラ70の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第5クロストークキャンセラ170は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第5クロストークキャンセラ170は、第5伝達関数記憶回路174、第5記憶回路172、第5畳み込み演算器173、第5減算器171、及び、第5伝達関数更新回路175を有する。
第5伝達関数記憶回路174は、第5クロストーク133の伝達関数として推定された伝達関数を記憶する。
第5クロストークキャンセラ170は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第5伝達関数記憶回路174に記憶した伝達関数を用いて信号処理を行う。
第6クロストークキャンセラ180は、第4クロストークキャンセラ150の出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出し、算出した第6妨害信号を、第3クロストークキャンセラ80の出力信号から除去し、除去後の信号を第3スピーカ26に出力する。第6クロストークキャンセラ180は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第6クロストークキャンセラ180は、第6伝達関数記憶回路184、第6記憶回路182、第6畳み込み演算器183、第6減算器181、及び、第6伝達関数更新回路185を有する。
第6伝達関数記憶回路184は、第6クロストーク134の伝達関数として推定された伝達関数を記憶する。
第6クロストークキャンセラ180は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第6伝達関数記憶回路184に記憶した伝達関数を用いて信号処理を行う。
[3−2.動作]
以上のように構成された本実施の形態における音源分離装置20bでは、第1話者の音声36、第2話者の音声37、及び第3話者の音声38は、次のように処理される。
第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が、第4クロストークキャンセラ150に入力される。即ち、第1クロストークキャンセラ50の出力信号は、図4に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第4クロストークキャンセラ150の入力信号である。
第1クロストークキャンセラ50の出力信号は、第4クロストークキャンセラ150において第4妨害信号が除去される。第4妨害信号は、第4クロストーク132の程度を示す(推定された)信号である。よって、第4クロストークキャンセラ150の出力信号は、第1クロストークキャンセラ50の出力信号から、第4クロストーク132の影響が除去された音声を示す信号となる。この信号が第1スピーカ22から音声となって出力される。即ち、第4クロストークキャンセラ150の出力信号は、図4に示すように、第1クロストーク32及び第4クロストーク132が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び第4クロストーク132の影響が除去された音声、つまり、実質的に分離された第1話者の音声36だけとなる。
同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第5クロストークキャンセラ170に入力される。即ち、第2クロストークキャンセラ70の出力信号は、図4に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第5クロストークキャンセラ170の入力信号である。
第2クロストークキャンセラ70の出力信号は、第5クロストークキャンセラ170において第5妨害信号が除去される。第5妨害信号は、第5クロストーク133の程度を示す(推定された)信号である。よって、第5クロストークキャンセラ170の出力信号は、第2クロストークキャンセラ70の出力信号から、第5クロストーク133の影響が除去された音声を示す信号となる。この信号が第2スピーカ24から音声となって出力される。即ち、第5クロストークキャンセラ170の出力信号は、図4に示すように、第2クロストーク35及び第5クロストーク133が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び第5クロストーク133の影響が除去された音声、つまり、実質的に分離された第2話者の音声37だけとなる。
同様に、第3話者の音声38は、第3マイク25に入力される。第3マイク25の出力信号は、第3クロストークキャンセラ80において、第3妨害信号が除去される。第3妨害信号は、第3クロストーク131の程度を示す(推定された)信号である。よって、第3クロストークキャンセラ80の出力信号は、第3マイク25に入力された音声から、第3クロストーク131の影響が除去された音声を示す信号となる。この音声信号が第6クロストークキャンセラ180に入力される。即ち、第3クロストークキャンセラ80の出力信号は、図4に示すように、第3クロストーク131が除去された第3マイク25の音声信号であり、第6クロストークキャンセラ180の入力信号である。
第3クロストークキャンセラ80の出力信号は、第6クロストークキャンセラ180において第6妨害信号が除去される。第6妨害信号は、第6クロストーク134の程度を示す(推定された)信号である。よって、第6クロストークキャンセラ180の出力信号は、第3クロストークキャンセラ80の出力信号から、第6クロストーク134の影響が除去された音声を示す信号となる。この信号が第3スピーカ26から音声となって出力される。即ち、第6クロストークキャンセラ180の出力信号は、図4に示すように、第3クロストーク131及び第6クロストーク134が除去された第3マイク25の音声信号であり、第3スピーカ26の入力信号である。
よって、第3スピーカ26から出力される音声は、第3マイク25に入力された音声のうち、第3クロストーク131及び第6クロストーク134の影響が除去された音声、つまり、実質的に分離された第3話者の音声38だけとなる。
[3−3.効果等]
本実施の形態における音源分離装置20bは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、第1話者11及び第2話者12に加えて第3話者13が会話に参加する場合に必要となる、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134の除去機能を有する。そのため、実施の形態1と同様、比較的小規模なハードウェアにより、第1クロストーク32及び第2クロストーク35に加えて、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134をも除去することができる。
また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置おいて第1話者11の音声と第2話者12の音声と第3話者13の音声とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第2話者の音声37を入力するための第2マイク23と、第3話者の音声38を入力するための第3マイク25とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップと、第3クロストークキャンセルステップと、第4クロストークキャンセルステップと、第5クロストークキャンセルステップと、第6クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を出力する。
第2クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を出力する。
第3クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出し、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を出力する。
第4クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出し、算出した第4妨害信号を、第1クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
第5クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出し、算出した第5妨害信号を、第2クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
第6クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出し、算出した第6妨害信号を、第3クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50、第2クロストークキャンセラ70、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
なお、本実施の形態において、第1クロストークキャンセラ50において実行される第1クロストークキャンセルステップと第4クロストークキャンセラ150において実行される第4クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第1マイク21の出力信号は、第4クロストークキャンセラ150に入力されて、第4妨害信号が除去される。第4クロストークキャンセラ150の出力信号は、第4妨害信号が除去された第1マイク21の音声信号となって、第1クロストークキャンセラ50に入力され、第1妨害信号が除去される。第1クロストークキャンセラ50の出力信号は、第4妨害信号及び第1妨害信号が除去された第1マイク21の音声信号となって、第1スピーカ22に入力される。
同様に、第2クロストークキャンセラ70において実行される第2クロストークキャンセルステップと第5クロストークキャンセラ170において実行される第5クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第2マイク23の出力信号は、第5クロストークキャンセラ170に入力されて、第5妨害信号が除去される。第5クロストークキャンセラ170の出力信号は、第5妨害信号が除去された第2マイク23の音声信号となって、第2クロストークキャンセラ70に入力され、第2妨害信号が除去される。第2クロストークキャンセラ70の出力信号は、第5妨害信号及び第2妨害信号が除去された第2マイク23の音声信号となって、第2スピーカ24に入力される。
さらに、同様に、第3クロストークキャンセラ80において実行される第3クロストークキャンセルステップと第6クロストークキャンセラ180において実行される第6クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第3マイク25の出力信号は、第6クロストークキャンセラ180に入力されて、第6妨害信号が除去される。第6クロストークキャンセラ180の出力信号は、第6妨害信号が除去された第3マイク25の音声信号となって、第3クロストークキャンセラ80に入力され、第3妨害信号が除去される。第3クロストークキャンセラ80の出力信号は、第6妨害信号及び第3妨害信号が除去された第3マイク25の音声信号となって、第3スピーカ26に入力される。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1〜3及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1〜3及び変形例で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
例えば、実施の形態1〜3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する畳み込み演算器は、いずれも、NタップのFIRフィルタを例として、畳み込み演算を行ったが、それぞれが異なるタップ数の異なるタイプのデジタルフィルタであってもよい。つまり、いかなる種類のデジタルフィルタにするかは、キャンセルする音響的雑音の伝達関数等に依存して適宜、独立して設計してもよい。
また、実施の形態1〜3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する伝達関数更新回路による伝達関数の更新アルゴリズムは、上記式3、式6に示されるように、同一のアルゴリズムであってもよいし、同一のアルゴリズムであるがステップサイズパラメータが異なってもよいし、異なるアルゴリズムであってもよい。つまり、伝達関数の更新アルゴリズムは、キャンセルする音響的雑音の大きさ等に依存して適宜、独立して設計してもよい。
また、上記実施の形態では、音源分離装置が備えるマイク及びスピーカの例として、車に組み込まれたタイプ、車に取り付けられたタイプ等が挙げられたが、これらに限られず、スマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカであってもよい。例えば、車における後部乗員の音声を第2マイク23(後部マイク)としてのスマートフォンで収音し、無線でヘッドユニット(音源分離装置)に送信し、第2スピーカ24としての前部スピーカから、クロストークを抑制した状態で拡声する。また、第1マイク21としての前部マイクで収音した運転者の音声を無線で後部乗員のスマートフォンに送信し、第1スピーカ22(後部スピーカ)としてのスマートフォンのスピーカから、クロストークを抑制した状態で拡声する。これにより、後部乗員がスマートフォンを用いて運転者と円滑に会話できるとともに、車における後部マイク及び後部スピーカが不要となる。
また、このようなスマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカを用いた音源分離装置は、講演会等で用いられるPA(Public Address)システムとしても有用である。講演会における質問者の声を自身のスマートフォンで収音して無線でPAシステムに転送し、クロストークを抑制した状態で拡声することができる。これにより、講演会において、質問者にマイクを手渡すのに要する時間が短縮され、質疑応答がスムーズに実施されて手際良い講演会の進行が可能になる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、複数のマイクから収音された音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に適用可能である。具体的には、音声認識装置、ハンズフリー電話、会話補助装置などに、本開示は適用可能である。
10 車
11 第1話者
12 第2話者
13 第3話者
20,20a,20b 音源分離装置
21 第1マイク
22 第1スピーカ
23 第2マイク
24 第2スピーカ
25 第3マイク
26 第3スピーカ
32 第1クロストーク
32a 間接第1クロストーク
35 第2クロストーク
35a 間接第2クロストーク
36 第1話者の音声
37 第2話者の音声
38 第3話者の音声
50 第1クロストークキャンセラ
51 第1減算器
52 第1記憶回路
53 第1畳み込み演算器
54 第1伝達関数記憶回路
55 第1伝達関数更新回路
70 第2クロストークキャンセラ
71 第2減算器
72 第2記憶回路
73 第2畳み込み演算器
74 第2伝達関数記憶回路
75 第2伝達関数更新回路
80 第3クロストークキャンセラ
81 第3減算器
82 第3記憶回路
83 第3畳み込み演算器
84 第3伝達関数記憶回路
85 第3伝達関数更新回路
131 第3クロストーク
132 第4クロストーク
133 第5クロストーク
134 第6クロストーク
150 第4クロストークキャンセラ
151 第4減算器
152 第4記憶回路
153 第4畳み込み演算器
154 第4伝達関数記憶回路
155 第4伝達関数更新回路
170 第5クロストークキャンセラ
171 第5減算器
172 第5記憶回路
173 第5畳み込み演算器
174 第5伝達関数記憶回路
175 第5伝達関数更新回路
180 第6クロストークキャンセラ
181 第6減算器
182 第6記憶回路
183 第6畳み込み演算器
184 第6伝達関数記憶回路
185 第6伝達関数更新回路
本開示は、複数のマイクから収音された複数の音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に関する。
特許文献1は、複数の信号が空間内で混合されたものから、源信号を復元する音源分離装置を開示する。この音源分離装置は、観測信号を短時間フーリエ変換する手段と、独立成分分析により短時間フーリエ変換した各周波数での分離行列を求める手段と、各周波数での分離行列の各行により取り出される信号の到来方向を推定する手段と、その推定値が十分に信頼できるかどうかを判定する手段と、短時間フーリエ変換した周波数間での分離信号の類似度を計算する手段と、を備える。そして、さらに、各周波数で分離行列を求めた後でパーミュテーション(各周波数における音源の置換)を解決する際に、信号の到来方向の推定が十分に信頼できると判定された周波数ではそれらの方向を揃えることでパーミュテーションを決定し、その他の周波数では近傍の周波数との分離信号の類似度を高めるようにパーミュテーションを決定していく手段を備える。これにより、パーミュテーションを解決しながら源信号を復元することができる。
特開2004−145172号公報
本開示は、大きな演算量が必要となる分離行列の算出を行うことなく、より小規模なハードウェアを用いて、複数のマイクから収音された複数の音声信号に対してクロストークを減らすことにより個別の音声信号を分離できる音源分離装置を提供する。
本開示における音源分離装置は、第1マイクと、第2マイクと、第1クロストークを除去する第1クロストークキャンセラと、第2クロストークを除去する第2クロストークキャンセラと、を備える。第1マイクは、第1音声を入力する。第2マイクは、第2音声を入力する。第1クロストークキャンセラは、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する。第2クロストークキャンセラは、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する。第1クロストークキャンセラは、第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセラは、第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
本開示における音源分離方法は、第1音声と第2音声とを含む音声信号から第1音声と第2音声とを分離する音源分離装置において行われる音源分離方法である。音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、を備える。音源分離方法は、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセルステップと、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセルステップと、を含む。第1クロストークキャンセルステップでは、第2クロストークキャンセルステップにおいて第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセルステップでは、第1クロストークキャンセルステップにおいて第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
本開示における音源分離装置によれば、大きな演算量が必要となる分離行列の算出を行うことなく、複数のマイクから収音された音声信号から個別の音声信号を分離するために、より小規模なハードウェアを用いてクロストークを軽減できる。
実施の形態1における音源分離装置の適用例を示す図 図1に示された音源分離装置の構成を示すブロック図 実施の形態2における音源分離装置の構成を示すブロック図 実施の形態3における音源分離装置の構成を示すブロック図
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
以下、図1及び図2を用いて、実施の形態1を説明する。
[1−1.適用例]
図1は、実施の形態1における音源分離装置20の適用例を示す図である。ここでは、音源分離装置20を車10における双方向の会話を拡声して補助する装置(車室内会話補助装置)に適用した例が示されている。
音源分離装置20は、第1話者11(ここでは、運転者)と第2話者12(ここでは、後部乗員)による双方向の会話を拡声して補助する装置である。運転席の天井には、第1話者11の音声(第1音声)を入力するための第1マイク21が設けられ、後部座席横の内側面には、第1音声を出力するための第1スピーカ22が設けられている。また、後部座席の天井には、第2話者12の音声(第2音声)を入力するための第2マイク23が設けられ、2つの前扉の内側面には、第2音声を出力するための第2スピーカ24が設けられている。
第1話者11と第2話者12とは、この音源分離装置20を用いることで、車における一つの狭い空間であっても、クロストーク(漏話)を含む音響的雑音が除去された双方向会話を楽しむことができる。なお、クロストークとは、ある話者の音声が他人の音声を入力するためのマイクに入力される現象をいい、ここでは、第2話者12の音声が第1マイク21に入力される現象、及び、第1話者11の音声が第2マイク23に入力される現象である。
[1−2.構成]
図2は、図1に示された音源分離装置20の構成を示すブロック図である。この音源分離装置20は、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70を備える。なお、音源分離装置20の各構成要素は、有線又は無線で接続されている。また、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70は、例えば、車10のヘッドユニットの一部として実装される。
第1マイク21は、第1話者11の音声36を入力するためのマイクであり、例えば、図1に示されるように、車10の運転席の天井に設けられる。なお、第1マイク21から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第1スピーカ22は、第1話者11の音声36を出力するためのスピーカであり、例えば、図1に示されるように、車10の後部座席横の両側の内側面に設けられる。なお、第1スピーカ22は、例えば、第1マイク21からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
第2マイク23は、第2話者12の音声37を入力するためのマイクであり、例えば、図1に示されるように、後部座席の天井に設けられる。なお、第2マイク23から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第2スピーカ24は、第2話者12の音声37を出力するためのスピーカであり、例えば、図1に示されるように、車10の2つの前扉の内側面に設けられる。なお、第2スピーカ24は、例えば、第2マイク23からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
[1−2−1.第1クロストークキャンセラ50]
第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出する。第1クロストークキャンセラ50は、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第1クロストークキャンセラ50は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第1クロストークキャンセラ50は、第1伝達関数記憶回路54、第1記憶回路52、第1畳み込み演算器53、第1減算器51、及び、第1伝達関数更新回路55を有する。
第1伝達関数記憶回路54は、第1クロストーク32の伝達関数として推定された伝達関数を記憶する。
第1記憶回路52は、第2クロストークキャンセラ70から出力された信号を記憶する。
第1畳み込み演算器53は、第1記憶回路52に記憶された信号と第1伝達関数記憶回路54に記憶された伝達関数とを畳み込むことで第1妨害信号を生成する。例えば、第1畳み込み演算器53は、以下の式1に示される畳み込み演算を行うNタップのFIR(Finite Impulse Response)フィルタである。
Figure 2017064840
ここで、y1’tは、時刻tにおける第1妨害信号である。Nは、FIRフィルタのタップ数である。H1(i)tは、時刻tにおいて第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x1(t−i)は、第1記憶回路52に記憶された信号のうち、(t−i)番目の信号である。
第1減算器51は、第1マイク21の出力信号から、第1畳み込み演算器53から出力された第1妨害信号を除去し、第1クロストークキャンセラ50の出力信号として出力する。例えば、第1減算器51は、以下の式2に示される減算を行う。
Figure 2017064840
ここで、e1tは、時刻tにおける第1減算器51の出力信号である。y1tは、時刻tにおける第1マイク21の出力信号である。
第1伝達関数更新回路55は、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて第1伝達関数記憶回路54に記憶された伝達関数を更新する。例えば、第1伝達関数更新回路55は、以下の式3に示されるように、独立成分分析を用いて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とが相互に独立となるように、第1伝達関数記憶回路54に記憶された伝達関数を更新する。
Figure 2017064840
ここで、H1(j)t+1は、時刻t+1における(つまり、更新後の)第1伝達関数記憶回路54に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H1(j)tは、時刻t(つまり、更新前の)第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α1は、第1クロストーク32の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ1は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
このように、第1伝達関数更新回路55は、第1減算器51の出力信号に対して非線形関数を用いた非線形処理を施す。さらに、得られた結果に対して第1記憶回路52に記憶された信号と、第1クロストーク32の伝達関数の推定における学習速度を制御するための第1ステップサイズパラメータとを乗じることで第1更新係数を算出する。そして、算出した第1更新係数を第1伝達関数記憶回路54に記憶された伝達関数に加算することで更新を行う。
[1−2−2.第2クロストークキャンセラ70]
第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出する。さらに、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第2クロストークキャンセラ70は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第2クロストークキャンセラ70は、第2伝達関数記憶回路74、第2記憶回路72、第2畳み込み演算器73、第2減算器71、及び、第2伝達関数更新回路75を有する。
第2伝達関数記憶回路74は、第2クロストーク35の伝達関数として推定された伝達関数を記憶する。
第2記憶回路72は、第1クロストークキャンセラ50から出力された信号を記憶する。
第2畳み込み演算器73は、第2記憶回路72に記憶された信号と第2伝達関数記憶回路74に記憶された伝達関数とを畳み込むことで第2妨害信号を生成する。例えば、第2畳み込み演算器73は、以下の式4に示される畳み込み演算を行うNタップのFIRフィルタである。
Figure 2017064840
ここで、y2’tは、時刻tにおける第2妨害信号である。Nは、FIRフィルタのタップ数である。H2(i)tは、時刻tにおいて第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x2(t−i)は、第2記憶回路72に記憶された信号のうち、(t−i)番目の信号である。
第2減算器71は、第2マイク23の出力信号から、第2畳み込み演算器73から出力された第2妨害信号を除去し、第2クロストークキャンセラ70の出力信号として出力する。例えば、第2減算器71は、以下の式5に示される減算を行う。
Figure 2017064840
ここで、e2tは、時刻tにおける第2減算器71の出力信号である。y2tは、時刻tにおける第2マイク23の出力信号である。
第2伝達関数更新回路75は、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて第2伝達関数記憶回路74に記憶された伝達関数を更新する。例えば、第2伝達関数更新回路75は、以下の式6に示されるように、独立成分分析を用いて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とが相互に独立となるように、第2伝達関数記憶回路74に記憶された伝達関数を更新する。
Figure 2017064840
ここで、H2(j)t+1は、時刻t+1における(つまり、更新後の)第2伝達関数記憶回路74に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H2(j)tは、時刻t(つまり、更新前の)第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α2は、第2クロストーク35の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ2は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
このように、第2伝達関数更新回路75は、第2減算器71の出力信号に対して非線形関数を用いた非線形処理を施す。さらに、得られた結果に対して第2記憶回路72に記憶された信号と、第2クロストーク35の伝達関数の推定における学習速度を制御するための第2ステップサイズパラメータとを乗じることで第2更新係数を算出する。そして、算出した第2更新係数を第2伝達関数記憶回路74に記憶された伝達関数に加算することで更新を行う。
なお、本実施の形態における音源分離装置20では、第2話者12の同一時刻における音声について、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第1クロストークキャンセラ50が第1クロストーク32をキャンセルできるように、因果律が保持されている。これは、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第2話者12の音声が第1マイク21に入力される時刻を決定づける要因(第2話者12と第1マイク21との位置関係等)とを考慮することで適宜、実現し得る。
同様に、本実施の形態における音源分離装置20では、第1話者11の同一時刻における音声について、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第2クロストークキャンセラ70が第2クロストーク35をキャンセルできるように、因果律が保持されている。これは、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第1話者11の音声が第2マイク23に入力される時刻を決定づける要因(第1話者11と第2マイク23との位置関係等)とを考慮することで適宜、実現し得る。
[1−3.動作]
以上のように構成された本実施の形態における音源分離装置20では、第1話者11の音声36及び第2話者12の音声37は、次のように処理される。
第1話者11の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図2に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32の影響が除去された音声、つまり、分離された第1話者11の音声36だけとなる。
同様に、第2話者12の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図2に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35の影響が除去された音声、つまり、分離された第2話者12の音声37だけとなる。
なお、第1話者11の音声36及び第2話者12の音声37がそれぞれ分離される程度は、第1クロストークキャンセラ50及び第2クロストークキャンセラ70に保持された伝達関数の精度、上記式3及び式6に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。
[1−4.効果等]
以上のように、本実施の形態における音源分離装置20は、第1マイク21及び第1クロストークキャンセラ50を備える。そして、音源分離装置20では、第2話者12の同一時刻における音声について、信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第1クロストークキャンセラ50は、第2話者12の音声が第1マイク21に入力される第1クロストーク32を推定して、第1マイク21の出力信号から除去する。
これにより、適応型フィルタである第1クロストークキャンセラ50を用いて、第1マイク21に入力される第1話者11の音声36と第2話者12の音声(第1クロストーク32)とを分離して第1話者11の音声36だけを抽出する。これにより、比較的小規模なハードウェアにより、第1クロストーク32による音声が第1スピーカ22から拡声されてしまうことが抑制される。
同様に、本実施の形態における音源分離装置20は、第2マイク23及び第2クロストークキャンセラ70を備える。そして、音源分離装置20では、第1話者11の同一時刻における音声について、信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第2クロストークキャンセラ70は、第1話者11の音声が第2マイク23に入力される第2クロストーク35を推定して、第2マイク23の出力信号から除去する。
これにより、適応型フィルタである第2クロストークキャンセラ70を用いて、第2マイク23に入力される第2話者12の音声37と第1話者11の音声(第2クロストーク35)とを分離して第2話者12の音声37だけを抽出するので、ハードウェアを増加することなく、第2クロストーク35による音声が第2スピーカ24から拡声されてしまうことが抑制される。
[1−5.変形例]
上記実施の形態では、第1伝達関数更新回路55は、上記式3に従って伝達関数を更新したが、以下の式7又は式8に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure 2017064840
ここで、Nは、第1伝達関数記憶回路54に記憶される伝達関数の個数である。|x1(t−i)|は、x1(t−i)の絶対値である。
Figure 2017064840
これにより、第1伝達関数更新回路55による推定伝達関数の更新が、入力信号x1(t−j)の振幅に依存せず、安定して実施される。
同様に、第2伝達関数更新回路75は、上記式6に従って伝達関数を更新したが、以下の式9又は式10に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure 2017064840
ここで、Nは、第2伝達関数記憶回路74に記憶される伝達関数の個数である。|x2(t−i)|は、x2(t−i)の絶対値である。
Figure 2017064840
これにより、第2伝達関数更新回路75による推定伝達関数の更新が、入力信号x2(t−j)の振幅に依存せず、安定して実施される。
また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
また、上記の実施の形態は、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者11の音声36と第2話者12の音声37とを分離する音源分離方法である。音源分離装置は、第1話者11の音声36を入力するための第1マイク21と、第2話者12の音声37を入力するための第2マイク23とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出する。さらに、算出した第1妨害信号を、第1マイク21の出力信号から除去する。第1クロストークキャンセルステップの出力信号は、第1話者11の音声36のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出する。さらに、算出した第2妨害信号を、第2マイク23の出力信号から除去する。第2クロストークキャンセルステップの出力信号は、第2話者12の音声37のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
(実施の形態2)
次に、実施の形態2における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と同様に、第1話者11と第2話者12による双方向の会話を拡声して補助する装置に適用される。ただし、実施の形態1における第1クロストーク32及び第2クロストーク35に加えて、第2スピーカ24から出力される第2話者12の音声が第1マイク21に入力される間接第1クロストーク32a、及び、第1スピーカ22から出力される第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい場合に、好適な装置である。
[2−1.構成]
図3は、実施の形態2における音源分離装置20aの構成を示すブロック図である。この音源分離装置20aの構成は、実施の形態1における音源分離装置20の構成と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
この音源分離装置20aは、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50及び第2クロストークキャンセラ70を備える。いずれの構成要素も、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等であるが、音源分離装置20aでは、音源分離装置20と比較して、第1伝達関数記憶回路54及び第2伝達関数記憶回路74に記憶される伝達関数が異なる。
第1伝達関数記憶回路54は、第1クロストーク32と間接第1クロストーク32aとを合わせた伝達関数として推定された伝達関数を記憶する。
これにより、第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出する。さらに、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
第2伝達関数記憶回路74は、第2クロストーク35と間接第2クロストーク35aとを合わせた伝達関数として推定された伝達関数を記憶する。
これにより、第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出する。さらに、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
なお、この音源分離装置20aでは、第1マイク21と第2スピーカ24とは、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第2スピーカ24は、第1マイク21が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
同様に、第2マイク23と第1スピーカ22とは、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第1スピーカ22は、第2マイク23が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
[2−2.動作]
以上のように構成された本実施の形態における音源分離装置20aでは、第1話者11の音声36及び第2話者12の音声37は、次のように処理される。
第1話者11の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図3に示すように、第1クロストーク32及び間接第1クロストーク32aが除去された第1マイク21の音声信号であり、第1スピーカ22への入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声、つまり、分離された第1話者11の音声36だけとなる。
同様に、第2話者12の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図3に示すように、第2クロストーク35及び間接第2クロストーク35aが除去された第2マイク23の音声信号であり、第2スピーカ24への入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声、つまり、分離された第2話者12の音声37だけとなる。
[2−3.効果等]
本実施の形態における音源分離装置20aは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、間接第1クロストーク32a及び間接第2クロストーク35aの除去機能を有する。そのため、実施の形態1と同様、従来の分離行列を用いない比較的小規模なハードウェアにより、間接第1クロストーク32a及び間接第2クロストーク35aをも除去することができる。間接第1クロストーク32aの除去機能は、第1マイク21と第2スピーカ24とが間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。また、間接第2クロストーク35aの除去機能は、第2マイク23と第1スピーカ22とが間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。
また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者11の音声と第2話者12の音声とを分離する音源分離方法である。音源分離装置は、第1話者11の音声36を入力するための第1マイク21と、第1話者11の音声36を出力するための第1スピーカ22と、第2話者12の音声37を入力するための第2マイク23と、第2話者12の音声37を出力するための第2スピーカ24とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32と、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出する。そして、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35と、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出する。そして、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
(実施の形態3)
次に、実施の形態3における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と比べて、第1話者11及び第2話者12に加えて第3話者13が参加する会話を拡声して補助する場合に、個々の話者の音声を分離するために好適な装置である。
[3−1.構成]
図4は、実施の形態3における音源分離装置20bの構成を示すブロック図である。この音源分離装置20bは、実施の形態1における音源分離装置20に、第3マイク25、第3スピーカ26、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180を追加して構成される。第1マイク21、第2マイク23、第1スピーカ22、第2スピーカ24、第1クロストークキャンセラ50、及び第2クロストークキャンセラ70は、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
第3マイク25は、第3話者13の音声(第3音声)を入力するためのマイクであり、例えば、後部座席の天井に設けられる(図示せず)。なお、第3マイク25から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
第3スピーカ26は、第3話者13の音声38を出力するためのスピーカであり、例えば、車10の2つの前扉の内側面に設けられる(図示せず)。なお、第3スピーカ26は、例えば、入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
第3クロストークキャンセラ80は、第5クロストークキャンセラ170の出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出する。さらに、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を第6クロストークキャンセラ180に出力する。第3クロストークキャンセラ80は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第3クロストークキャンセラ80は、第3伝達関数記憶回路84、第3記憶回路82、第3畳み込み演算器83、第3減算器81、及び、第3伝達関数更新回路85を有する。
第3伝達関数記憶回路84は、第3クロストーク131の伝達関数として推定された伝達関数を記憶する。
第3クロストークキャンセラ80は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第3伝達関数記憶回路84に記憶した伝達関数を用いて信号処理を行う。
第4クロストークキャンセラ150は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出する。さらに、算出した第4妨害信号を、第1クロストークキャンセラ50の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第4クロストークキャンセラ150は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第4クロストークキャンセラ150は、第4伝達関数記憶回路154、第4記憶回路152、第4畳み込み演算器153、第4減算器151、及び、第4伝達関数更新回路155を有する。
第4伝達関数記憶回路154は、第4クロストーク132の伝達関数として推定された伝達関数を記憶する。
第4クロストークキャンセラ150は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第4伝達関数記憶回路154に記憶した伝達関数を用いて信号処理を行う。
第5クロストークキャンセラ170は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出する。さらに、算出した第5妨害信号を、第2クロストークキャンセラ70の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第5クロストークキャンセラ170は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第5クロストークキャンセラ170は、第5伝達関数記憶回路174、第5記憶回路172、第5畳み込み演算器173、第5減算器171、及び、第5伝達関数更新回路175を有する。
第5伝達関数記憶回路174は、第5クロストーク133の伝達関数として推定された伝達関数を記憶する。
第5クロストークキャンセラ170は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第5伝達関数記憶回路174に記憶した伝達関数を用いて信号処理を行う。
第6クロストークキャンセラ180は、第4クロストークキャンセラ150の出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出する。さらに、算出した第6妨害信号を、第3クロストークキャンセラ80の出力信号から除去し、除去後の信号を第3スピーカ26に出力する。第6クロストークキャンセラ180は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
より詳しくは、第6クロストークキャンセラ180は、第6伝達関数記憶回路184、第6記憶回路182、第6畳み込み演算器183、第6減算器181、及び、第6伝達関数更新回路185を有する。
第6伝達関数記憶回路184は、第6クロストーク134の伝達関数として推定された伝達関数を記憶する。
第6クロストークキャンセラ180は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第6伝達関数記憶回路184に記憶した伝達関数を用いて信号処理を行う。
[3−2.動作]
以上のように構成された本実施の形態における音源分離装置20bでは、第1話者11の音声36、第2話者12の音声37、及び第3話者13の音声38は、次のように処理される。
第1話者11の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が、第4クロストークキャンセラ150に入力される。即ち、第1クロストークキャンセラ50の出力信号は、図4に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第4クロストークキャンセラ150の入力信号である。
第1クロストークキャンセラ50の出力信号は、第4クロストークキャンセラ150において第4妨害信号が除去される。第4妨害信号は、第4クロストーク132の程度を示す(推定された)信号である。よって、第4クロストークキャンセラ150の出力信号は、第1クロストークキャンセラ50の出力信号から、第4クロストーク132の影響が除去された音声を示す信号となる。この信号が第1スピーカ22から音声となって出力される。即ち、第4クロストークキャンセラ150の出力信号は、図4に示すように、第1クロストーク32及び第4クロストーク132が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び第4クロストーク132の影響が除去された音声、つまり、実質的に分離された第1話者11の音声36だけとなる。
同様に、第2話者12の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第5クロストークキャンセラ170に入力される。即ち、第2クロストークキャンセラ70の出力信号は、図4に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第5クロストークキャンセラ170の入力信号である。
第2クロストークキャンセラ70の出力信号は、第5クロストークキャンセラ170において第5妨害信号が除去される。第5妨害信号は、第5クロストーク133の程度を示す(推定された)信号である。よって、第5クロストークキャンセラ170の出力信号は、第2クロストークキャンセラ70の出力信号から、第5クロストーク133の影響が除去された音声を示す信号となる。この信号が第2スピーカ24から音声となって出力される。即ち、第5クロストークキャンセラ170の出力信号は、図4に示すように、第2クロストーク35及び第5クロストーク133が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び第5クロストーク133の影響が除去された音声、つまり、実質的に分離された第2話者12の音声37だけとなる。
同様に、第3話者13の音声38は、第3マイク25に入力される。第3マイク25の出力信号は、第3クロストークキャンセラ80において、第3妨害信号が除去される。第3妨害信号は、第3クロストーク131の程度を示す(推定された)信号である。よって、第3クロストークキャンセラ80の出力信号は、第3マイク25に入力された音声から、第3クロストーク131の影響が除去された音声を示す信号となる。この音声信号が第6クロストークキャンセラ180に入力される。即ち、第3クロストークキャンセラ80の出力信号は、図4に示すように、第3クロストーク131が除去された第3マイク25の音声信号であり、第6クロストークキャンセラ180の入力信号である。
第3クロストークキャンセラ80の出力信号は、第6クロストークキャンセラ180において第6妨害信号が除去される。第6妨害信号は、第6クロストーク134の程度を示す(推定された)信号である。よって、第6クロストークキャンセラ180の出力信号は、第3クロストークキャンセラ80の出力信号から、第6クロストーク134の影響が除去された音声を示す信号となる。この信号が第3スピーカ26から音声となって出力される。即ち、第6クロストークキャンセラ180の出力信号は、図4に示すように、第3クロストーク131及び第6クロストーク134が除去された第3マイク25の音声信号であり、第3スピーカ26の入力信号である。
よって、第3スピーカ26から出力される音声は、第3マイク25に入力された音声のうち、第3クロストーク131及び第6クロストーク134の影響が除去された音声、つまり、実質的に分離された第3話者13の音声38だけとなる。
[3−3.効果等]
本実施の形態における音源分離装置20bは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、第1話者11及び第2話者12に加えて第3話者13が会話に参加する場合に必要となる、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134の除去機能を有する。そのため、実施の形態1と同様、比較的小規模なハードウェアにより、第1クロストーク32及び第2クロストーク35に加えて、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134をも除去することができる。
また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置おいて第1話者11の音声と第2話者12の音声と第3話者13の音声とを分離する音源分離方法である。音源分離装置は、第1話者11の音声36を入力するための第1マイク21と、第2話者12の音声37を入力するための第2マイク23と、第3話者13の音声38を入力するための第3マイク25とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップと、第3クロストークキャンセルステップと、第4クロストークキャンセルステップと、第5クロストークキャンセルステップと、第6クロストークキャンセルステップとを含む。
第1クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出する。さらに、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を出力する。
第2クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出する。さらに、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を出力する。
第3クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出する。さらに、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を出力する。
第4クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出する。さらに、算出した第4妨害信号を、第1クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
第5クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出する。さらに、算出した第5妨害信号を、第2クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
第6クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出する。さらに、算出した第6妨害信号を、第3クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50、第2クロストークキャンセラ70、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180は、プログラムを実行するプロセッサによって実現されてもよい。
また、このような音源分離方法は、CD−ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
なお、本実施の形態において、第1クロストークキャンセラ50において実行される第1クロストークキャンセルステップと第4クロストークキャンセラ150において実行される第4クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第1マイク21の出力信号は、第4クロストークキャンセラ150に入力されて、第4妨害信号が除去される。第4クロストークキャンセラ150の出力信号は、第4妨害信号が除去された第1マイク21の音声信号となって、第1クロストークキャンセラ50に入力され、第1妨害信号が除去される。第1クロストークキャンセラ50の出力信号は、第4妨害信号及び第1妨害信号が除去された第1マイク21の音声信号となって、第1スピーカ22に入力される。
同様に、第2クロストークキャンセラ70において実行される第2クロストークキャンセルステップと第5クロストークキャンセラ170において実行される第5クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第2マイク23の出力信号は、第5クロストークキャンセラ170に入力されて、第5妨害信号が除去される。第5クロストークキャンセラ170の出力信号は、第5妨害信号が除去された第2マイク23の音声信号となって、第2クロストークキャンセラ70に入力され、第2妨害信号が除去される。第2クロストークキャンセラ70の出力信号は、第5妨害信号及び第2妨害信号が除去された第2マイク23の音声信号となって、第2スピーカ24に入力される。
さらに、同様に、第3クロストークキャンセラ80において実行される第3クロストークキャンセルステップと第6クロストークキャンセラ180において実行される第6クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第3マイク25の出力信号は、第6クロストークキャンセラ180に入力されて、第6妨害信号が除去される。第6クロストークキャンセラ180の出力信号は、第6妨害信号が除去された第3マイク25の音声信号となって、第3クロストークキャンセラ80に入力され、第3妨害信号が除去される。第3クロストークキャンセラ80の出力信号は、第6妨害信号及び第3妨害信号が除去された第3マイク25の音声信号となって、第3スピーカ26に入力される。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1〜3及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1〜3及び変形例で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
例えば、実施の形態1〜3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する畳み込み演算器は、いずれも、NタップのFIRフィルタを例として、畳み込み演算を行ったが、それぞれが異なるタップ数の異なるタイプのデジタルフィルタであってもよい。つまり、いかなる種類のデジタルフィルタにするかは、キャンセルする音響的雑音の伝達関数等に依存して適宜、独立して設計してもよい。
また、実施の形態1〜3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する伝達関数更新回路による伝達関数の更新アルゴリズムは、上記式3、式6に示されるように、同一のアルゴリズムであってもよい。あるいは、同一のアルゴリズムであるがステップサイズパラメータが異なってもよいし、異なるアルゴリズムであってもよい。つまり、伝達関数の更新アルゴリズムは、キャンセルする音響的雑音の大きさ等に依存して適宜、独立して設計してもよい。
また、上記実施の形態では、音源分離装置が備えるマイク及びスピーカの例として、車に組み込まれたタイプ、車に取り付けられたタイプ等が挙げられたが、これらに限られず、スマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカであってもよい。例えば、車における後部乗員の音声を第2マイク23(後部マイク)としてのスマートフォンで収音し、無線でヘッドユニット(音源分離装置)に送信し、第2スピーカ24としての前部スピーカから、クロストークを抑制した状態で拡声する。また、第1マイク21としての前部マイクで収音した運転者の音声を無線で後部乗員のスマートフォンに送信し、第1スピーカ22(後部スピーカ)としてのスマートフォンのスピーカから、クロストークを抑制した状態で拡声する。これにより、後部乗員がスマートフォンを用いて運転者と円滑に会話できるとともに、車における後部マイク及び後部スピーカが不要となる。
また、このようなスマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカを用いた音源分離装置は、講演会等で用いられるPA(Public Address)システムとしても有用である。講演会における質問者の声を自身のスマートフォンで収音して無線でPAシステムに転送し、クロストークを抑制した状態で拡声することができる。これにより、講演会において、質問者にマイクを手渡すのに要する時間が短縮され、質疑応答がスムーズに実施されて手際良い講演会の進行が可能になる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、複数のマイクから収音された音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に適用可能である。具体的には、音声認識装置、ハンズフリー電話、会話補助装置などに、本開示は適用可能である。
10 車
11 第1話者
12 第2話者
13 第3話者
20,20a,20b 音源分離装置
21 第1マイク
22 第1スピーカ
23 第2マイク
24 第2スピーカ
25 第3マイク
26 第3スピーカ
32 第1クロストーク
32a 間接第1クロストーク
35 第2クロストーク
35a 間接第2クロストーク
36 第1話者の音声
37 第2話者の音声
38 第3話者の音声
50 第1クロストークキャンセラ
51 第1減算器
52 第1記憶回路
53 第1畳み込み演算器
54 第1伝達関数記憶回路
55 第1伝達関数更新回路
70 第2クロストークキャンセラ
71 第2減算器
72 第2記憶回路
73 第2畳み込み演算器
74 第2伝達関数記憶回路
75 第2伝達関数更新回路
80 第3クロストークキャンセラ
81 第3減算器
82 第3記憶回路
83 第3畳み込み演算器
84 第3伝達関数記憶回路
85 第3伝達関数更新回路
131 第3クロストーク
132 第4クロストーク
133 第5クロストーク
134 第6クロストーク
150 第4クロストークキャンセラ
151 第4減算器
152 第4記憶回路
153 第4畳み込み演算器
154 第4伝達関数記憶回路
155 第4伝達関数更新回路
170 第5クロストークキャンセラ
171 第5減算器
172 第5記憶回路
173 第5畳み込み演算器
174 第5伝達関数記憶回路
175 第5伝達関数更新回路
180 第6クロストークキャンセラ
181 第6減算器
182 第6記憶回路
183 第6畳み込み演算器
184 第6伝達関数記憶回路
185 第6伝達関数更新回路

Claims (9)

  1. 第1音声を入力するための第1マイクと、
    第2音声を入力するための第2マイクと、
    前記第1マイクの音声信号から、前記第2音声が前記第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、
    前記第2マイクの音声信号から、前記第1音声が前記第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備え、
    前記第1クロストークキャンセラは、前記第2マイクの前記音声信号から前記第2クロストークが除去された音声信号を用いて、前記第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した前記第1妨害信号を、前記第1マイクの前記音声信号から除去し、
    前記第2クロストークキャンセラは、前記第1マイクの前記音声信号から前記第1クロストークが除去された音声信号を用いて、前記第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した前記第2妨害信号を、前記第2マイクの前記音声信号から除去する、
    音源分離装置。
  2. 同一時刻における前記第2音声について、前記第2マイクの前記音声信号が前記第1クロストークキャンセラに入力される時刻は、前記第2音声が前記第1マイクに入力される時刻と同一、又は、より早く、
    同一時刻における前記第1音声について、前記第1マイクの前記音声信号が前記第2クロストークキャンセラに入力される時刻は、前記第1音声が前記第2マイクに入力される時刻と同一、又は、より早い、
    請求項1記載の音源分離装置。
  3. さらに、
    前記第1音声を出力するための第1スピーカと、
    前記第2音声を出力するための第2スピーカと、を備え、
    前記第1クロストークキャンセラは、さらに、前記第2スピーカから出力された前記第2音声が前記第1マイクに入力される間接第1クロストークを除去し、前記第1妨害信号は、前記第1クロストーク、及び、前記間接第1クロストークの程度を示し、
    前記第2クロストークキャンセラは、さらに、前記第1スピーカから出力された前記第1音声が前記第2マイクに入力される間接第2クロストークを除去し、前記第2妨害信号は、前記第2クロストーク、及び、前記間接第2クロストークの程度を示す、
    請求項2記載の音源分離装置。
  4. 前記第1クロストークキャンセラは、
    前記第1クロストークの伝達関数として推定された前記伝達関数を記憶する第1伝達関数記憶回路と、
    前記第2クロストークキャンセラの前記出力信号を記憶する第1記憶回路と、
    前記第1記憶回路に記憶された前記出力信号と前記第1伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第1妨害信号を生成する第1畳み込み演算器と、
    前記第1マイクの前記出力信号から、前記第1畳み込み演算器から出力された前記第1妨害信号を除去し、当該第1クロストークキャンセラの前記出力信号として出力する第1減算器と、
    前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とに基づいて前記第1伝達関数記憶回路に記憶された前記伝達関数を更新する第1伝達関数更新回路と、を有し、
    前記第2クロストークキャンセラは、
    前記第2クロストークの伝達関数として推定された前記伝達関数を記憶する第2伝達関数記憶回路と、
    前記第1クロストークキャンセラの前記出力信号を記憶する第2記憶回路と、
    前記第2記憶回路に記憶された前記出力信号と前記第2伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第2妨害信号を生成する第2畳み込み演算器と、
    前記第2マイクの前記出力信号から、前記第2畳み込み演算器から出力された前記第2妨害信号を除去し、当該第2クロストークキャンセラの前記出力信号として出力する第2減算器と、
    前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とに基づいて前記第2伝達関数記憶回路に記憶された前記伝達関数を更新する第2伝達関数更新回路と、を有する、
    請求項1記載の音源分離装置。
  5. 前記第1伝達関数更新回路は、独立成分分析を用いて、前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とに基づいて、前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第1伝達関数記憶回路に記憶された前記伝達関数を更新し、
    前記第2伝達関数更新回路は、独立成分分析を用いて、前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とに基づいて、前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第2伝達関数記憶回路に記憶された前記伝達関数を更新する、
    請求項4記載の音源分離装置。
  6. 前記第1伝達関数更新回路は、前記第1減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第1記憶回路に記憶された前記出力信号と、前記第1クロストークの前記伝達関数の推定における学習速度を制御するための第1ステップサイズパラメータとを乗じることで第1更新係数を算出し、算出した前記第1更新係数を前記第1伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行い、
    前記第2伝達関数更新回路は、前記第2減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第2記憶回路に記憶された前記出力信号と、前記第2クロストークの前記伝達関数の推定における学習速度を制御するための第2ステップサイズパラメータとを乗じることで第2更新係数を算出し、算出した前記第2更新係数を前記第2伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行う、
    請求項5記載の音源分離装置。
  7. 前記第1伝達関数更新回路、及び前記第2伝達関数更新回路が用いる前記非線形関数は、シグモイド関数、双曲線正接関数、正規化線形関数又は符号関数である、
    請求項6記載の音源分離装置。
  8. さらに、
    第3音声を入力するための第3マイクと、
    前記第3マイクの音声信号から、前記第2音声が前記第3マイクに入力される第3クロストークを除去する第3クロストークキャンセラと、
    前記第1マイクの音声信号から、前記第3音声が前記第1マイクに入力される第4クロストークを除去する第4クロストークキャンセラと、
    前記第2マイクの音声信号から、前記第3音声が前記第2マイクに入力される第5クロストークを除去する第5クロストークキャンセラと、
    前記第3マイクの音声信号から、前記第1音声が前記第3マイクに入力される第6クロストークを除去する第6クロストークキャンセラと、を備え、
    前記第1クロストークキャンセラは、前記第1妨害信号を推定するにあたり、前記第2マイクの前記音声信号から前記第2クロストーク及び前記第5クロストークが除去された音声信号を用い、
    前記第2クロストークキャンセラは、前記第2妨害信号を推定するにあたり、前記第1マイクの前記音声信号から前記第1クロストーク及び前記第4クロストークが除去された音声信号を用い、
    前記第3クロストークキャンセラは、前記第2マイクの前記音声信号から前記第2クロストーク及び前記第5クロストークが除去された音声信号を用いて、前記第3クロストークの程度を示す第3妨害信号を推定して算出し、算出した前記第3妨害信号を、前記第3マイクの前記音声信号から除去し、
    前記第4クロストークキャンセラは、前記第3マイクの前記音声信号から前記第3クロストーク及び前記第6クロストークが除去された音声信号を用いて、前記第4クロストークの程度を示す第4妨害信号を推定して算出し、算出した前記第4妨害信号を、前記第1マイクの前記音声信号から除去し、
    前記第5クロストークキャンセラは、前記第3マイクの前記音声信号から前記第3クロストーク及び前記第6クロストークが除去された音声信号を用いて、前記第5クロストークの程度を示す第5妨害信号を推定して算出し、算出した前記第5妨害信号を、前記第2マイクの前記音声信号から除去し、
    前記第6クロストークキャンセラは、前記第1マイクの前記音声信号から前記第1クロストーク及び前記第4クロストークが除去された音声信号を用いて、前記第6クロストークの程度を示す第6妨害信号を推定して算出し、算出した前記第6妨害信号を、前記第3マイクの前記音声信号から除去する、
    請求項1記載の音源分離装置。
  9. 第1音声と第2音声とを含む音声信号から前記第1音声と前記第2音声とを分離する音源分離装置において行われる音源分離方法であって、
    前記音源分離装置は、
    前記第1音声を入力するための第1マイクと、
    前記第2音声を入力するための第2マイクと、を備え、
    前記音源分離方法は、
    前記第1マイクの音声信号から、前記第2音声が前記第1マイクに入力される第1クロストークを除去する第1クロストークキャンセルステップと、
    前記第2マイクの音声信号から、前記第1音声が前記第2マイクに入力される第2クロストークを除去する第2クロストークキャンセルステップと、を含み、
    前記第1クロストークキャンセルステップでは、前記第2クロストークキャンセルステップにおいて前記第2マイクの前記音声信号から前記第2クロストークが除去された音声信号を用いて、前記第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した前記第1妨害信号を、前記第1マイクの前記音声信号から除去し、
    前記第2クロストークキャンセルステップでは、前記第1クロストークキャンセルステップにおいて前記第1マイクの前記音声信号から前記第1クロストークが除去された音声信号を用いて、前記第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した前記第2妨害信号を、前記第2マイクの前記音声信号から除去する、
    音源分離方法。
JP2017545086A 2015-10-16 2016-09-29 音源分離装置および音源分離方法 Active JP6318376B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015205023 2015-10-16
JP2015205023 2015-10-16
PCT/JP2016/004391 WO2017064840A1 (ja) 2015-10-16 2016-09-29 音源分離装置および音源分離方法

Publications (2)

Publication Number Publication Date
JP6318376B2 JP6318376B2 (ja) 2018-05-09
JPWO2017064840A1 true JPWO2017064840A1 (ja) 2018-05-24

Family

ID=58517489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017545086A Active JP6318376B2 (ja) 2015-10-16 2016-09-29 音源分離装置および音源分離方法

Country Status (4)

Country Link
US (1) US10290312B2 (ja)
EP (1) EP3333850A4 (ja)
JP (1) JP6318376B2 (ja)
WO (1) WO2017064840A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009234A (ja) * 2019-07-02 2021-01-28 トヨタ車体株式会社 車内会話支援装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6311136B2 (ja) 2015-10-16 2018-04-18 パナソニックIpマネジメント株式会社 双方向会話補助装置及び双方向会話補助方法
JP6809936B2 (ja) * 2017-02-28 2021-01-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抽出装置およびマイクロホン装置
CN110675889A (zh) * 2018-07-03 2020-01-10 阿里巴巴集团控股有限公司 音频信号处理方法、客户端和电子设备
CN110718237B (zh) 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
JP6635394B1 (ja) 2019-01-29 2020-01-22 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
US11270712B2 (en) 2019-08-28 2022-03-08 Insoundz Ltd. System and method for separation of audio sources that interfere with each other using a microphone array
JP7437650B2 (ja) * 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP7486145B2 (ja) * 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
US11546689B2 (en) * 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing
WO2023192312A1 (en) * 2022-03-29 2023-10-05 The Board Of Trustees Of The University Of Illinois Adaptive binaural filtering for listening system using remote signal sources and on-ear microphones

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11508105A (ja) * 1995-09-18 1999-07-13 インターヴァル リサーチ コーポレイション 信号処理のための適応フィルタおよびその方法
JP2010163054A (ja) * 2009-01-15 2010-07-29 Fujitsu Ten Ltd 会話支援装置及び会話支援方法
WO2012046582A1 (ja) * 2010-10-08 2012-04-12 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP2012195801A (ja) * 2011-03-17 2012-10-11 Panasonic Corp 会話支援装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10217778A1 (de) * 2002-04-18 2003-11-06 Volkswagen Ag Kommunikationseinrichtung zur Übertragung akustischer Signale in einem Kraftfahrzeug
US4677676A (en) * 1986-02-11 1987-06-30 Nelson Industries, Inc. Active attenuation system with on-line modeling of speaker, error path and feedback pack
US5033082A (en) * 1989-07-31 1991-07-16 Nelson Industries, Inc. Communication system with active noise cancellation
US6496581B1 (en) * 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US7039197B1 (en) * 2000-10-19 2006-05-02 Lear Corporation User interface for communication system
US6549629B2 (en) * 2001-02-21 2003-04-15 Digisonix Llc DVE system with normalized selection
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
WO2011040549A1 (ja) 2009-10-01 2011-04-07 日本電気株式会社 信号処理方法、信号処理装置、及び信号処理プログラム
US8660271B2 (en) 2010-10-20 2014-02-25 Dts Llc Stereo image widening system
US20120294446A1 (en) 2011-05-16 2012-11-22 Qualcomm Incorporated Blind source separation based spatial filtering
US9641934B2 (en) * 2012-01-10 2017-05-02 Nuance Communications, Inc. In-car communication system for multiple acoustic zones
US20160039356A1 (en) * 2014-08-08 2016-02-11 General Motors Llc Establishing microphone zones in a vehicle
US9672805B2 (en) * 2014-12-12 2017-06-06 Qualcomm Incorporated Feedback cancelation for enhanced conversational communications in shared acoustic space
US9947334B2 (en) * 2014-12-12 2018-04-17 Qualcomm Incorporated Enhanced conversational communications in shared acoustic space
JP6311136B2 (ja) * 2015-10-16 2018-04-18 パナソニックIpマネジメント株式会社 双方向会話補助装置及び双方向会話補助方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11508105A (ja) * 1995-09-18 1999-07-13 インターヴァル リサーチ コーポレイション 信号処理のための適応フィルタおよびその方法
JP2010163054A (ja) * 2009-01-15 2010-07-29 Fujitsu Ten Ltd 会話支援装置及び会話支援方法
WO2012046582A1 (ja) * 2010-10-08 2012-04-12 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP2012195801A (ja) * 2011-03-17 2012-10-11 Panasonic Corp 会話支援装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009234A (ja) * 2019-07-02 2021-01-28 トヨタ車体株式会社 車内会話支援装置

Also Published As

Publication number Publication date
US20180158467A1 (en) 2018-06-07
EP3333850A4 (en) 2018-06-27
US10290312B2 (en) 2019-05-14
WO2017064840A1 (ja) 2017-04-20
EP3333850A1 (en) 2018-06-13
JP6318376B2 (ja) 2018-05-09

Similar Documents

Publication Publication Date Title
JP6318376B2 (ja) 音源分離装置および音源分離方法
JP6311136B2 (ja) 双方向会話補助装置及び双方向会話補助方法
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
Djendi et al. Analysis of two-sensors forward BSS structure with post-filters in the presence of coherent and incoherent noise
JP2007288775A (ja) マルチチャネルエコー補正システムおよび方法
WO2014024248A1 (ja) ビームフォーミング装置
JP2012195801A (ja) 会話支援装置
EP3833045B1 (en) Conversation assistance system, method therefor, and program
JP7194900B2 (ja) 翻訳装置及び翻訳方法
JP5908170B2 (ja) エコー消去装置
KR20110021306A (ko) 마이크로폰의 신호 보상 장치 및 그 방법
CN1353904A (zh) 用于时空回声消除的方法和装置
JP5466581B2 (ja) 反響消去方法、反響消去装置及び反響消去プログラム
JP2020144204A (ja) 信号処理装置及び信号処理方法
JP4920511B2 (ja) マルチチャンネルエコーキャンセラ
JP2012049715A (ja) 音源分離装置、音源分離方法、及び、プログラム
EP3770907B1 (en) Systems and methods for estimating noise
JP4514153B2 (ja) 音響装置
Hidri et al. A multichannel beamforming-based framework for speech extraction
Liu et al. An Interference Cancellation Method Using Fixed Beamformer and Adaptive Filter in Car Environment
CN117558286A (zh) 语音降噪方法、装置、车辆、电子设备和存储介质
JP5889233B2 (ja) 音響結合量推定装置、エコー消去装置、その方法及びプログラム
JP4578426B2 (ja) オーディオ音キャンセルシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180119

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180119

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180305

R151 Written notification of patent or utility model registration

Ref document number: 6318376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

SZ03 Written request for cancellation of trust registration

Free format text: JAPANESE INTERMEDIATE CODE: R313Z03

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350