JPWO2020110808A1

JPWO2020110808A1 - 翻訳装置及び翻訳方法

Info

Publication number: JPWO2020110808A1
Application number: JP2020558387A
Authority: JP
Inventors: 良二鈴木; 尋紀稲垣
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-11-30
Filing date: 2019-11-18
Publication date: 2021-10-21
Anticipated expiration: 2039-11-18
Also published as: WO2020110808A1; US20220027579A1; EP3890288A4; JP7194900B2; CN113168840A; EP3890288A1

Abstract

翻訳装置（２０）は、第１マイク（２１）と、第１音声認識回路（３１）と、第１翻訳回路（３３）と、第１音声合成回路（３５）と、第１スピーカ（２２）と、第２マイク（２３）と、第２音声認識回路（３２）と、第２翻訳回路（３４）と、第２音声合成回路（３６）と、第２スピーカ（２４）と、第１エコーキャンセラ（４０）と、第２エコーキャンセラ（５０）と、制御回路（３７）を備え、制御回路（３７）は、第１翻訳音声の出力期間に、第１エコーキャンセラ（４０）に、第１エコー信号を推定する第１伝達関数を更新させ、第２翻訳音声の出力期間に、第２エコーキャンセラ（５０）に、第２エコー信号を推定する第２伝達関数を更新させる。

Description

本開示は、第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して拡声する翻訳装置及び翻訳方法に関する。

特許文献１は、音響的雑音を除去したうえで２者間の双方向の会話を拡声して補助するのに有効である会話補助装置を開示する。この会話補助装置は、エコー及びクロストークを示す妨害信号をマイクの出力信号から除去するエコー・クロストークキャンセラを備える。会話補助装置によれば、エコーとクロストークを含む音響的雑音を除去し、２者間の双方向の会話を拡声して補助することができる。

特許第６３１１１３６号公報

本開示は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を抑制することで、安定して音声認識しながら、相互に会話を行う翻訳装置及び翻訳方法を提供する。

本開示における翻訳装置は、第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、前記第１話者の第１音声を入力するための第１マイクと、前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、前記第１翻訳音声を拡声するための第１スピーカと、前記第２話者の第２音声を入力するための第２マイクと、前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、前記第２翻訳音声を拡声するための第２スピーカと、前記第１スピーカから拡声された前記第１翻訳音声が前記第２マイクに入力される現象を第１エコーとしたとき、前記第１翻訳音声と前記第１エコーに対応する前記第１伝達関数とを用いて、前記第１エコーを示す第１エコー信号を推定し、前記第１エコー信号を、前記第２マイクの出力信号から除去する第１エコーキャンセラと、前記第２スピーカから拡声された前記第２翻訳音声が前記第１マイクに入力される現象を第２エコーとしたとき、前記第２翻訳音声と前記第２エコーに対応する前記第２伝達関数とを用いて、前記第２エコーを示す第２エコー信号を推定し、前記第２エコー信号を、前記第１マイクの出力信号から除去する第２エコーキャンセラと、制御回路とを備え、前記制御回路は、前記第１音声合成回路が前記第１翻訳音声を出力している期間に、前記第１エコーキャンセラに、前記第１エコー信号を推定する伝達関数を更新させ、前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第２エコーキャンセラに、前記第２エコー信号を推定する伝達関数を更新させる。

また、本開示における翻訳装置は、第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、前記第１話者の第１音声を入力するための第１マイクと、前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、前記第１翻訳音声を拡声するための第１スピーカと、前記第２話者の第２音声を入力するための第２マイクと、前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、前記第２翻訳音声を拡声するための第２スピーカと、前記第１スピーカから拡声された前記第１翻訳音声が前記第１マイクに入力される現象を第３エコーとしたとき、前記第１翻訳音声と前記第３エコーに対応する第３伝達関数を用いて、前記第３エコーを示す第３エコー信号を推定し、前記第３エコー信号を、前記第１マイクの前記出力信号から除去する第３エコーキャンセラと、前記第２スピーカから拡声された前記第２翻訳音声が前記第２マイクに入力される現象を第４エコーとしたとき、前記第２翻訳音声と前記第４エコーに対応する第４伝達関数を用いて、前記第４エコーを示す第４エコー信号を推定し、前記第４エコー信号を、前記第２マイクの前記出力信号から除去する第４エコーキャンセラとを備え、制御回路とを備え、前記制御回路は、前記第１音声合成回路が前記第１翻訳音声を出力している期間に、前記第３エコーキャンセラに、前記第３エコー信号を推定する前記第３伝達関数を更新させ、前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第４エコーキャンセラに、前記第４エコー信号を推定する前記第４伝達関数を更新させる。

また、本開示における翻訳装置は、第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、前記第１話者の第１音声を入力するための第１マイクと、前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、前記第２話者の第２音声を入力するための第２マイクと、前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、前記第１音声合成回路が出力する前記第１翻訳音声と前記第２音声合成回路が出力する前記第２翻訳音声とを加算して加算翻訳音声を出力する加算回路と、前記加算回路が出力する加算翻訳音声を拡声するためのスピーカと、前記スピーカから拡声された前記加算翻訳音声が前記第２マイクに入力される現象を第５エコーとしたとき、前記加算翻訳音声と前記第５エコーに対応する前記第５伝達関数とを用いて、前記第５エコーを示す第５エコー信号を推定し、前記第５エコー信号を、前記第２マイクの出力信号から除去する第５エコーキャンセラと、前記スピーカから拡声された前記加算翻訳音声が前記第１マイクに入力される現象を第６エコーとしたとき、前記加算翻訳音声と前記第６エコーに対応する前記第６伝達関数とを用いて、前記第６エコーを示す第６エコー信号を推定し、前記第６エコー信号を、前記第１マイクの出力信号から除去する第６エコーキャンセラと、制御回路とを備え、前記制御回路は、前記第１音声合成回路が前記第１翻訳音声を出力し、又は前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第５エコーキャンセラに、前記第５エコー信号を推定する伝達関数を更新させ、前記第１音声合成回路が前記第１翻訳音声を出力し、又は前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第６エコーキャンセラに、前記第６エコー信号を推定する伝達関数を更新させる。

本開示における翻訳方法は、第１話者と第２話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、前記第１話者の第１音声を入力するための第１入力ステップと、前記第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、前記第１音声認識ステップから出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、前記第１翻訳ステップから出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、前記第１翻訳音声を拡声するための第１拡声ステップと、前記第２話者の第２音声を入力するための第２入力ステップと、前記第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、前記第２音声認識ステップから出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、前記第２翻訳ステップから出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、前記第２翻訳音声を拡声するための第２拡声ステップと、前記第１拡声ステップにて拡声された前記第１翻訳音声が前記第２入力ステップにて入力される現象を第１エコーとしたとき、前記第１翻訳音声と前記第１エコーに対応する第１伝達関数とを用いて、前記第１エコーを示す第１エコー信号を推定し、前記第１エコー信号を、前記第２入力ステップの出力信号から除去する第１エコーキャンセラステップと、前記第２拡声ステップにて拡声された前記第２翻訳音声が前記第１入力ステップにて入力される現象を第２エコーとしたとき、前記第２翻訳音声と前記第２エコーに対応する第２伝達関数とを用いて、前記第２エコーを示す第２エコー信号を推定し、前記第２エコー信号を、前記第１入力ステップの出力信号から除去する第２エコーキャンセラステップと、前記第１音声合成ステップにて前記第１翻訳音声を出力している期間に、前記第１エコーキャンセラステップにおいて、前記第１エコー信号を推定する前記第１伝達関数を更新し、前記第２音声合成ステップにて前記第２翻訳音声を出力している期間に、前記第２エコーキャンセラステップにおいて、前記第２エコー信号を推定する前記第２伝達関数を更新するように指示を与える制御ステップとを含む。

また、本開示における翻訳方法は、第１話者と第２話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、前記第１話者の第１音声を入力するための第１入力ステップと、前記第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、前記第１音声認識ステップから出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、前記第１翻訳ステップから出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、前記第１翻訳音声を拡声するための第１拡声ステップと、前記第２話者の第２音声を入力するための第２入力ステップと、前記第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、前記第２音声認識ステップから出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、前記第２翻訳ステップから出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、前記第２翻訳音声を拡声するための第２拡声ステップと、前記第１拡声ステップにて出力された前記第１翻訳音声が前記第１入力ステップにて入力される現象を第３エコーとしたとき、前記第１翻訳音声と前記第３エコーに対応する第３伝達関数とを用いて、前記第３エコーを示す第３エコー信号を推定し、前記第３エコー信号を、前記第１入力ステップの出力信号から除去する第３エコーキャンセラステップと、前記第２拡声ステップにて出力された前記第２翻訳音声が前記第２入力ステップにて入力される現象を第４エコーとしたとき、前記第２翻訳音声と前記第４エコーに対応する第４伝達関数とを用いて、前記第４エコーを示す第４エコー信号を推定し、前記第４エコー信号を、前記第２入力ステップの出力信号から除去する第４エコーキャンセラステップと、前記第１音声合成ステップにて前記第１翻訳音声を出力している期間に、前記第３エコーキャンセラステップにおいて、前記第３エコー信号を推定する前記第３伝達関数を更新し、前記第２音声合成ステップから前記第２翻訳音声を出力している期間に、前記第４エコーキャンセラステップにおいて、前記第４エコー信号を推定する前記第４伝達関数を更新するように指示を与える制御ステップとを含む。

本開示における翻訳装置及び翻訳方法は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去することで、安定して音声認識しながら、相互に会話を行うのに有効である。

図１は、実施の形態１における翻訳装置の適用例を示す図である。図２は、実施の形態１における翻訳装置の構成を示すブロック図である。図３は、第１エコーキャンセラと第３エコーキャンセラとの伝達関数の更新についてのフローチャートである。図４は、第２エコーキャンセラと第４エコーキャンセラとの伝達関数の更新についてのフローチャートである。図５は、実施の形態２における翻訳装置の構成を示すブロック図である。図６は、実施の形態３における翻訳装置の構成を示すブロック図である。図７は、実施の形態１〜３のうち、最適な構成を選択するフローチャートである。図８は、実施の形態４における翻訳装置の構成を示すブロック図である。図９は、実施の形態５における翻訳装置の構成を示すブロック図である。図１０は、実施の形態６における翻訳装置の構成を示すブロック図である。図１１は、翻訳装置の使用状態の一例を示す図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために、提供されるのであって、これらにより請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
以下、図１及び図２を用いて、実施の形態１を説明する。

［１−１．適用例］
図１は、実施の形態１における翻訳装置２０の適用例を示す図である。ここでは、翻訳装置２０をカウンター１０をはさんで向かい合う第１話者１１と第２話者１２との会話を翻訳して拡声する装置として適用した例が示されている。

翻訳装置２０は、第１話者１１（ここでは、客）と第２話者１２（ここでは、受け付け）とによる会話を翻訳して拡声する装置である。カウンター１０には、第１話者１１の音声（第１音声）を入力するための第１マイク２１が設けられ、第２話者１２側には、その音声を翻訳装置２０で翻訳して出力するための第１スピーカ２２が設けられている。また、第２話者１２側には、第２話者１２の音声（第２音声）を入力するための第２マイク２３が設けられ、第１話者１１側には、その音声を翻訳装置２０で翻訳して出力するための第２スピーカ２４が設けられている。さらに、翻訳装置２０は、第１表示回路２５、第２表示回路２６、第１カメラ２９１及び第２カメラ２９２が設けられている。

例えば、第１話者１１が第１マイク２１に向かって「Hello」と発声すると、その音声が翻訳装置２０で翻訳されて、第１スピーカ２２から「こんにちは」と拡声される。それを受けて次に第２話者１２が第２マイク２３に向かって「いらっしゃいませ」と発声すると、その音声が翻訳装置２０で翻訳されて、第２スピーカ２４から「Hello! May I help you?」と拡声される。また、第１表示回路２５及び第２表示回路２６は、第１話者１１と第２話者１２の発声である「Hello」「こんにちは」「いらっしゃいませ」「Hello! May I help you?」の文字列を表示する。

第１話者１１と第２話者１２とは、翻訳装置２０を用いることで、一つの狭い空間であっても、エコー（反響）及びクロストーク（漏話）を含む音響的雑音が除去された音声により正確な音声認識を行うことができるため、会話を楽しむことができる。

エコーとは、以下の２現象を指す。ある話者に向けてスピーカから出力された音声が、その話者の音声を入力するためのマイクに回り込んで入力される現象、及び、ある話者に向けてスピーカから出力された音声が、その話者以外の音声を入力するためのマイクに回り込んで入力される現象である。具体的に、ここでは、第１スピーカ２２から出力された音声が第２マイク２３に回り込んで入力される現象を第１エコー１３、第２スピーカ２４から出力された音声が第１マイク２１に回り込んで入力される現象を第２エコー１４と定義する。さらに、第１スピーカ２２から出力された音声が第１マイク２１に回り込んで入力される現象を第３エコー１５、及び、第２スピーカ２４から出力された音声が第２マイク２３に回り込んで入力される現象を第４エコー１６と定義する。

また、クロストークとは、ある話者の音声がその話者以外の音声を入力するためのマイクに入力される現象である。具体的に、ここでは、第１話者１１の音声が第２マイク２３に入力される現象を第１クロストーク１７、及び、第２話者１２の音声が第１マイク２１に入力される現象を第２クロストーク１８と定義する。

［１−２．構成］
図２は、図１に示された実施の形態１における翻訳装置２０の構成を示すブロック図である。この翻訳装置２０は、第１マイク２１、第１スピーカ２２、第２マイク２３、第２スピーカ２４、第１表示回路２５、第２表示回路２６、第１言語選択回路２７、第２言語選択回路２８、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、第４エコーキャンセラ７０、第１クロストークキャンセラ８０、第２クロストークキャンセラ９０、第１音声認識回路３１、第２音声認識回路３２、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、制御回路３７及び映像信号発生回路３８を備える。また、翻訳装置２０は、図示しないが、バスを介して相互に接続されるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を備えていてもよい。また、図１に示した処理装置２０１には、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、第４エコーキャンセラ７０、第１クロストークキャンセラ８０、第２クロストークキャンセラ９０、第１音声認識回路３１、第２音声認識回路３２、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、制御回路３７及び映像信号発生回路３８が含まれる。なお、翻訳装置２０の各構成要素は、それぞれが有線又は無線で接続されている。

第１マイク２１は、第１話者１１の第１音声を入力するためのマイクであり、例えば、図１に示されるように、カウンター１０の客側（ここでは、第１話者１１側）に向かって設けられる。なお、第１マイク２１から出力される出力信号は、例えば、第１マイク２１に内蔵又は直後に設けられたＡ／Ｄ変換器で生成されるデジタル音声データである。また、第１マイク２１は、指向性を備えていてもよい。指向性とは、特定の方向からの音を収音することができる機能である。

第１スピーカ２２は、第１翻訳音声を拡声する。［１−３．動作］にて詳細は後述するが、第１翻訳音声とは、第１話者１１の言語である第１音声が、翻訳装置２０により第２話者１２の言語へ翻訳された音声である。第１スピーカ２２は、例えば、図１に示されるように、カウンター１０の受け付け側（ここでは、第２話者１２側）に設けられる。なお、第１スピーカ２２は、例えば、入力されたデジタル音声データを第１スピーカ２２に内蔵又は直前に設けられたＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第２マイク２３は、第２話者１２の第２音声を入力するためのマイクであり、例えば、図１に示されるように、カウンター１０の受け付け側（ここでは、第２話者１２側）に向かって設けられる。なお、第２マイク２３から出力される出力信号は、例えば、第２マイク２３に内蔵又は直後に設けられたＡ／Ｄ変換器で生成されるデジタル音声データである。また、第２マイク２３は、指向性を備えていてもよい。指向性とは、特定の方向からの音を収音することができる機能である。

第２スピーカ２４は、第２翻訳音声を拡声する。［１−３．動作］にて詳細は後述するが、第２翻訳音声とは、第２話者１２の言語である第２音声が、翻訳装置２０により第１話者１１の言語へ翻訳された音声である。第２スピーカ２４は、例えば、図１に示されるように、カウンター１０の客側（ここでは、第１話者１１側）に向かって設けられる。なお、第２スピーカ２４は、例えば、入力されたデジタル音声データを第２スピーカ２４に内蔵又は直前に設けられたＤ／Ａ変換器でアナログ信号に変換した後に音声として出力する。

第１表示回路２５は、第１話者１１の音声を認識及び翻訳した結果の文字列、及び第２話者１２の音声を認識した結果の文字列を表示するための表示回路であり、第２話者１２が視認できる位置に配置される。第１表示回路２５は、例えば、液晶ディスプレイ又は有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどであってもよく、また、タブレット端末やスマートフォンやパーソナルコンピュータなどであってもよい。さらに、第１表示回路２５は、タッチパネル機能を有していてもよい。

第２表示回路２６は、第２話者１２の音声を認識及び翻訳した結果の文字列、及び第１話者１１の音声を認識した結果の文字列を表示するための表示回路であり、第１話者１１が視認できる位置に配置される。第２表示回路２６は、例えば、液晶ディスプレイ又は有機ＥＬディスプレイなどであってもよく、また、タブレット端末やスマートフォンやパーソナルコンピュータなどであってもよい。さらに、第２表示回路２６は、タッチパネル機能を有していてもよい。

第１言語選択回路２７は、第１話者１１から第１話者１１が用いる第１言語の選択を受け付け、制御回路３７に通知する。第１言語選択回路２７は、例えば、第１話者１１の音声の言語の種類である第１言語を設定するスイッチであり、第１話者１１が選択できる位置に配置される。また、第１言語選択回路２７は、第１表示回路２５がタッチパネル機能を備える場合、第１表示回路２５に含まれていてもよい。

第２言語選択回路２８は、第２話者１２から第２話者１２が用いる第２言語の選択を受け付け、制御回路３７に通知する。第２言語選択回路２８は、例えば、第２話者１２の音声の言語の種類である第２言語を設定するスイッチであり、第２話者１２が選択できる位置に配置される。また、第２言語選択回路２８は、第２表示回路２６がタッチパネル機能を備える場合、第２表示回路２６に含まれていてもよい。

ＣＰＵは、ＲＯＭに格納されたプログラムを実行するプロセッサである。ＲＯＭは、例えば、ＣＰＵによって読み出されて実行されるプログラムを保持している。ＣＰＵは、このプログラムを実行することによって後述する回路の処理を実行する。ＲＡＭは、ＣＰＵがプログラムを実行するときに使用する記憶領域等を有する読み書き可能なメモリである。

また、以下に記す回路（第１音声認識回路３１、第２音声認識回路３２、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、制御回路３７及び映像信号発生回路３８）の処理は、プロセッサによって実現される。

第１音声認識回路３１は、第１話者１１の第１音声を音声認識して第１文字列を出力する。また、第１音声認識回路３１は、第１話者１１の第１音声を音声認識した結果である第１文字列を第１翻訳回路３３と制御回路３７とに出力する。

第２音声認識回路３２は、第２話者１２の第２音声を音声認識して第２文字列を出力する。また、第２音声認識回路３２は、第２話者１２の第２音声を音声認識した結果である第２文字列を第２翻訳回路３４と制御回路３７とに出力する。

第１翻訳回路３３は、第１音声認識回路３１から出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力する。また、第１翻訳回路３３は、第３文字列を第１音声合成回路３５と制御回路３７とに出力する。

第２翻訳回路３４は、第２音声認識回路３２から出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力する。また、第２翻訳回路３４は、第４文字列を第２音声合成回路３６と制御回路３７とに出力する。

第１音声合成回路３５は、第１翻訳回路３３から出力された第３文字列を第１翻訳音声に変換する。また、第１音声合成回路３５は、第１翻訳音声を、第１スピーカ２２、第１エコーキャンセラ４０及び第３エコーキャンセラ６０に出力する。

第２音声合成回路３６は、第２翻訳回路３４から出力された第４文字列を第２翻訳音声に変換する。また、第２音声合成回路３６は、第２翻訳音声を、第２スピーカ２４、第２エコーキャンセラ５０及び第４エコーキャンセラ７０に出力する。

制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第１エコーキャンセラ４０に、第１エコー信号を推定する第１伝達関数を更新させ、第２音声合成回路３６が第２翻訳音声を出力している期間に、第２エコーキャンセラ５０に、第２エコー信号を推定する第２伝達関数を更新させる。なお、詳細は後述するが、第１伝達関数は、第１エコーキャンセラ４０に含まれる第１伝達関数記憶回路４４が、記憶している。同じく、第２伝達関数は、第２エコーキャンセラ５０に含まれる第２伝達関数記憶回路５４が、記憶している。

また、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第３エコーキャンセラ６０に、第３エコー信号を推定する第３伝達関数を更新させ、第２音声合成回路３６が第２翻訳音声を出力している期間に、第４エコーキャンセラ７０に、第４エコー信号を推定する第４伝達関数を更新させる。なお、詳細は後述するが、第３伝達関数は、第３エコーキャンセラ６０に含まれる第３伝達関数記憶回路６４が、記憶している。同じく、第４伝達関数は、第４エコーキャンセラ７０に含まれる第４伝達関数記憶回路７４が、記憶している。

つまり、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力していない期間には、第１エコーキャンセラ４０及び第３エコーキャンセラ６０に、第１伝達関数及び第３伝達関数を更新させない。また、制御回路３７は、第２音声合成回路３６が第２翻訳音声を出力していない期間には、第２エコーキャンセラ５０及び第４エコーキャンセラ７０に、第２伝達関数及び第４伝達関数を更新させない。

さらに、制御回路３７は、第１言語選択回路２７から通知された第１言語と第２言語選択回路２８から通知された第２言語とに基づいて、第１音声認識回路３１に第１言語を音声認識させ、第２音声認識回路３２に第２言語を音声認識させ、第１翻訳回路３３に第１言語から第２言語に翻訳させ、第２翻訳回路３４に第２言語から第１言語に翻訳させ、第１音声合成回路３５に第２言語で音声合成させ、第２音声合成回路３６に第１言語で音声合成させる。

映像信号発生回路３８は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、第１翻訳回路３３が出力した第１話者１１の第１言語の音声を第２言語の文字に変換した第３文字列、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列、及び第２翻訳回路３４が出力した第２話者１２の第２言語の音声を第１言語の文字に変換した第４文字列を制御回路３７から入力される。

さらに、映像信号発生回路３８は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、及び第２翻訳回路３４が出力した第２話者１２の第２言語の音声を第１言語に変換した第４文字列を第２表示回路２６に出力する。また、映像信号発生回路３８は、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列、及び第１翻訳回路３３が出力した第１話者１１の第１言語の音声を第２言語に変換した第３文字列を、第１表示回路２５に出力する。

［１−２−１．第１エコーキャンセラ４０］
第１エコーキャンセラ４０は、第１スピーカ２２から拡声された第１翻訳音声が第２マイク２３に入力される現象を第１エコー１３としたとき、第１翻訳音声と第１エコー１３に対応する第１伝達関数とを用いて、第１エコー１３を示す第１エコー信号を推定し、第１エコー信号を、第２マイク２３の出力信号から除去する回路である。ここで、第１エコー信号とは、第１エコー１３の程度を示す信号である。

本実施の形態では、第１エコーキャンセラ４０は、第２マイク２３の出力信号から、第１エコー信号を除去し、除去後の信号を第４エコーキャンセラ７０に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第１エコーキャンセラ４０は、第１伝達関数記憶回路４４、第１記憶回路４２、第１畳み込み演算器４３、第１減算器４１、及び、第１伝達関数更新回路４５を有する。

第１伝達関数記憶回路４４は、第１エコー１３に対応する第１伝達関数を記憶する。

第１記憶回路４２は、第１音声合成回路３５の出力信号を記憶する。

第１畳み込み演算器４３は、第１記憶回路４２に記憶された信号と第１伝達関数記憶回路４４に記憶された第１伝達関数とを畳み込むことで第１妨害信号（すなわち第１エコー信号）を生成する。例えば、第１畳み込み演算器４３は、以下の式１に示される畳み込み演算を行うＮタップのＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタである。

ここで、ｙ１’ｔは、時刻ｔにおける第１妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ１（ｉ）ｔは、時刻ｔにおいて第１伝達関数記憶回路４４に記憶されたＮ個の第１伝達関数のうちのｉ番目の第１伝達関数である。ｘ１（ｔ−ｉ）は、第１記憶回路４２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第１減算器４１は、第２マイク２３の出力信号から、第１畳み込み演算器４３から出力された第１妨害信号を除去し、第１エコーキャンセラ４０の出力信号として出力する。例えば、第１減算器４１は、以下の式２に示される減算を行う。

（数２）
ｅ１_ｔ＝ｙ１_ｔ−ｙ１’_ｔ・・・（式２）

ここで、ｅ１ｔは、時刻ｔにおける第１減算器４１の出力信号である。ｙ１ｔは、時刻ｔにおける第２マイク２３の出力信号である。

第１伝達関数更新回路４５は、第１減算器４１の出力信号と第１記憶回路４２に記憶された信号とに基づいて第１伝達関数記憶回路４４に記憶された第１伝達関数を更新する。例えば、第１伝達関数更新回路４５は、以下の式３に示されるように、独立成分分析を用いて、第１減算器４１の出力信号と第１記憶回路４２に記憶された信号とに基づいて、第１減算器４１の出力信号と第１記憶回路４２に記憶された信号とが相互に独立となるように、第１伝達関数記憶回路４４に記憶された第１伝達関数を更新する。

（数３）
Ｈ１（ｊ）_ｔ＋１＝Ｈ１（ｊ）_ｔ＋α１×φ１（ｅ１_ｔ）×ｘ１（ｔ−ｊ）・・・（式３）

ここで、Ｈ１（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第１伝達関数記憶回路４４に記憶されるＮ個の第１伝達関数のうちのｊ番目の第１伝達関数である。Ｈ１（ｊ）ｔは、時刻ｔ（つまり、更新前の）第１伝達関数記憶回路４４に記憶されたＮ個の第１伝達関数のうちのｊ番目の第１伝達関数である。α１は、第１エコー１３の第１伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ１は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第１伝達関数更新回路４５は、第１減算器４１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第１記憶回路４２に記憶された信号と、第１エコー１３の第１伝達関数の推定における学習速度を制御するための第１ステップサイズパラメータとを乗じることで第１更新係数を算出する。そして、算出した第１更新係数を第１伝達関数記憶回路４４に記憶された第１伝達関数に加算することで更新を行う。

また、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第１エコーキャンセラ４０に、第１エコー信号を推定する第１伝達関数を更新させる。つまり第１エコー１３が存在する期間に、上記式３に示される第１伝達関数の更新式に基づいて第１伝達関数が更新される。

［１−２−２．第２エコーキャンセラ５０］
第２エコーキャンセラ５０は、第２スピーカ２４から拡声された第２翻訳音声が第１マイク２１に入力される現象を第２エコー１４としたとき、第２翻訳音声と第２エコー１４に対応する第２伝達関数とを用いて、第２エコー１４を示す第２エコー信号を推定し、第２エコー信号を、第１マイク２１の出力信号から除去する回路である。ここで、第２エコー信号とは、第２エコー１４の程度を示す信号である。

本実施の形態では、第２エコーキャンセラ５０は、第１マイク２１の出力信号から、第２エコー信号を除去し、除去後の信号を第３エコーキャンセラ６０に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第２エコーキャンセラ５０は、第２伝達関数記憶回路５４、第２記憶回路５２、第２畳み込み演算器５３、第２減算器５１、及び、第２伝達関数更新回路５５を有する。

第２伝達関数記憶回路５４は、第２エコー１４に対応する第２伝達関数を記憶する。

第２記憶回路５２は、第２音声合成回路３６の出力信号を記憶する。

第２畳み込み演算器５３は、第２記憶回路５２に記憶された信号と第２伝達関数記憶回路５４に記憶された第２伝達関数とを畳み込むことで第２妨害信号（すなわち第２エコー信号）を生成する。例えば、第２畳み込み演算器５３は、以下の式４に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ２’ｔは、時刻ｔにおける第２妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ２（ｉ）ｔは、時刻ｔにおいて第２伝達関数記憶回路５４に記憶されたＮ個の第２伝達関数のうちのｉ番目の第２伝達関数である。ｘ２（ｔ−ｉ）は、第２記憶回路５２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第２減算器５１は、第１マイク２１の出力信号から、第２畳み込み演算器５３から出力された第２妨害信号を除去し、第２エコーキャンセラ５０の出力信号として出力する。例えば、第２減算器５１は、以下の式５に示される減算を行う。

（数５）
ｅ２_ｔ＝ｙ２_ｔ−ｙ２’_ｔ・・・（式５）

ここで、ｅ２ｔは、時刻ｔにおける第２減算器５１の出力信号である。ｙ２ｔは、時刻ｔにおける第１マイク２１の出力信号である。

第２伝達関数更新回路５５は、第２減算器５１の出力信号と第２記憶回路５２に記憶された信号とに基づいて第２伝達関数記憶回路５４に記憶された第２伝達関数を更新する。例えば、第２伝達関数更新回路５５は、以下の式６に示されるように、独立成分分析を用いて、第２減算器５１の出力信号と第２記憶回路５２に記憶された信号とに基づいて、第２減算器５１の出力信号と第２記憶回路５２に記憶された信号とが相互に独立となるように、第２伝達関数記憶回路５４に記憶された第２伝達関数を更新する。

（数６）
Ｈ２（ｊ）_ｔ＋１＝Ｈ２（ｊ）_ｔ＋α２×φ２（ｅ２_ｔ）×ｘ２（ｔ−ｊ）・・・（式６）

ここで、Ｈ２（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第２伝達関数記憶回路５４に記憶されるＮ個の第２伝達関数のうちのｊ番目の第２伝達関数である。Ｈ２（ｊ）ｔは、時刻ｔ（つまり、更新前の）第２伝達関数記憶回路５４に記憶されたＮ個の第２伝達関数のうちのｊ番目の第２伝達関数である。α２は、第２エコー１４の第２伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ２は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第２伝達関数更新回路５５は、第２減算器５１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第２記憶回路５２に記憶された信号と、第２エコー１４の第２伝達関数の推定における学習速度を制御するための第２ステップサイズパラメータとを乗じることで第２更新係数を算出する。そして、算出した第２更新係数を第２伝達関数記憶回路５４に記憶された第２伝達関数に加算することで更新を行う。

また、制御回路３７は、第２音声合成回路３６が第２翻訳音声を出力している期間に、第２エコーキャンセラ５０に、第２エコー信号を推定する第２伝達関数を更新させる。つまり第２エコー１４が存在する期間に、上記式６に示される第２伝達関数の更新式に基づいて第２伝達関数が更新される。

［１−２−３．第３エコーキャンセラ６０］
第３エコーキャンセラ６０は、第１スピーカ２２から出力された第１翻訳音声が第１マイク２１に入力される現象を第３エコー１５としたとき、第１翻訳音声と第３エコー１５に対応する第３伝達関数とを用いて、第３エコー１５を示す第３エコー信号を推定し、第３エコー信号を、第１マイク２１の出力信号から除去する回路である。ここで、第３エコー信号とは、第３エコー１５の程度を示す信号である。

本実施の形態では、第３エコーキャンセラ６０は、第２エコーキャンセラ５０の出力信号から、第３エコー信号を除去し、除去後の信号を第２クロストークキャンセラ９０に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第３エコーキャンセラ６０は、第３伝達関数記憶回路６４、第３記憶回路６２、第３畳み込み演算器６３、第３減算器６１、及び、第３伝達関数更新回路６５を有する。

第３伝達関数記憶回路６４は、第３エコー１５に対応する第３伝達関数を記憶する。

第３記憶回路６２は、第１音声合成回路３５の出力信号を記憶する。

第３畳み込み演算器６３は、第３記憶回路６２に記憶された信号と第３伝達関数記憶回路６４に記憶された第３伝達関数とを畳み込むことで第３妨害信号（すなわち第３エコー信号）を生成する。例えば、第３畳み込み演算器６３は、以下の式７に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ３’ｔは、時刻ｔにおける第３妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ３（ｉ）ｔは、時刻ｔにおいて第３伝達関数記憶回路６４に記憶されたＮ個の第３伝達関数のうちのｉ番目の第３伝達関数である。ｘ３（ｔ−ｉ）は、第３記憶回路６２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第３減算器６１は、第２エコーキャンセラ５０の出力信号から、第３畳み込み演算器６３から出力された第３妨害信号を除去し、第３エコーキャンセラ６０の出力信号として出力する。例えば、第３減算器６１は、以下の式８に示される減算を行う。

（数８）
ｅ３_ｔ＝ｙ３_ｔ−ｙ３’_ｔ・・・（式８）

ここで、ｅ３ｔは、時刻ｔにおける第３減算器６１の出力信号である。ｙ３ｔは、時刻ｔにおける第２エコーキャンセラ５０の出力信号である。

第３伝達関数更新回路６５は、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とに基づいて第３伝達関数記憶回路６４に記憶された第３伝達関数を更新する。例えば、第３伝達関数更新回路６５は、以下の式９に示されるように、独立成分分析を用いて、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とに基づいて、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とが相互に独立となるように、第３伝達関数記憶回路６４に記憶された第３伝達関数を更新する。

（数９）
Ｈ３（ｊ）_ｔ＋１＝Ｈ３（ｊ）_ｔ＋α３×φ３（ｅ３_ｔ）×ｘ３（ｔ−ｊ）・・・（式９）

ここで、Ｈ３（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第３伝達関数記憶回路６４に記憶されるＮ個の第３伝達関数のうちのｊ番目の第３伝達関数である。Ｈ３（ｊ）ｔは、時刻ｔ（つまり、更新前の）第３伝達関数記憶回路６４に記憶されたＮ個の第３伝達関数のうちのｊ番目の第３伝達関数である。α３は、第３エコー１５の第３伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ３は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第３伝達関数更新回路６５は、第３減算器６１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第３記憶回路６２に記憶された信号と、第３エコー１５の第３伝達関数の推定における学習速度を制御するための第３ステップサイズパラメータとを乗じることで第３更新係数を算出する。そして、算出した第３更新係数を第３伝達関数記憶回路６４に記憶された第３伝達関数に加算することで更新を行う。

また、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第３エコーキャンセラ６０に、第３エコー信号を推定する第３伝達関数を更新させる。つまり第３エコー１５が存在する期間に、上記式９に示される第３伝達関数の更新式に基づいて第３伝達関数が更新される。

［１−２−４．第４エコーキャンセラ７０］
第４エコーキャンセラ７０は、第２スピーカ２４から拡声された第２翻訳音声が第２マイク２３に入力される現象を第４エコー１６としたとき、第２翻訳音声と第４エコー１６に対応する第４伝達関数とを用いて、第４エコー１６を示す第４エコー信号を推定し、第４エコー信号を、第２マイク２３の出力信号から除去する回路である。ここで、第４エコー信号とは、第４エコー１６の程度を示す信号である。

本実施の形態では、第４エコーキャンセラ７０は、第１エコーキャンセラ４０の出力信号から、第４エコー信号を除去し、除去後の信号を第１クロストークキャンセラ８０に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第４エコーキャンセラ７０は、第４伝達関数記憶回路７４、第４記憶回路７２、第４畳み込み演算器７３、第４減算器７１、及び、第４伝達関数更新回路７５を有する。

第４伝達関数記憶回路７４は、第４エコー１６に対応する第４伝達関数を記憶する。

第４記憶回路７２は、第２音声合成回路３６の出力信号を記憶する。

第４畳み込み演算器７３は、第４記憶回路７２に記憶された信号と第４伝達関数記憶回路７４に記憶された第４伝達関数とを畳み込むことで第４妨害信号（すなわち第４エコー信号）を生成する。例えば、第４畳み込み演算器７３は、以下の式１０に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ４’ｔは、時刻ｔにおける第４妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ４（ｉ）ｔは、時刻ｔにおいて第４伝達関数記憶回路７４に記憶されたＮ個の第４伝達関数のうちのｉ番目の第４伝達関数である。ｘ４（ｔ−ｉ）は、第４記憶回路７２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第４減算器７１は、第１エコーキャンセラ４０の出力信号から、第４畳み込み演算器７３から出力された第４妨害信号を除去し、第４エコーキャンセラ７０の出力信号として出力する。例えば、第４減算器７１は、以下の式１１に示される減算を行う。

（数１１）
ｅ４_ｔ＝ｙ４_ｔ−ｙ４’_ｔ・・・（式１１）

ここで、ｅ４ｔは、時刻ｔにおける第４減算器７１の出力信号である。ｙ４ｔは、時刻ｔにおける第１エコーキャンセラ４０の出力信号である。

第４伝達関数更新回路７５は、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とに基づいて第４伝達関数記憶回路７４に記憶された第４伝達関数を更新する。例えば、第４伝達関数更新回路７５は、以下の式１２に示されるように、独立成分分析を用いて、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とに基づいて、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とが相互に独立となるように、第４伝達関数記憶回路７４に記憶された第４伝達関数を更新する。

（数１２）
Ｈ４（ｊ）_ｔ＋１＝Ｈ４（ｊ）_ｔ＋α４×φ４（ｅ４_ｔ）×ｘ４（ｔ−ｊ）・・・（式１２）

ここで、Ｈ４（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第４伝達関数記憶回路７４に記憶されるＮ個の第４伝達関数のうちのｊ番目の第４伝達関数である。Ｈ４（ｊ）ｔは、時刻ｔ（つまり、更新前の）第４伝達関数記憶回路７４に記憶されたＮ個の第４伝達関数のうちのｊ番目の第４伝達関数である。α４は、第４エコー１６の第４伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ４は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第４伝達関数更新回路７５は、第４減算器７１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第４記憶回路７２に記憶された信号と、第４エコー１６の第４伝達関数の推定における学習速度を制御するための第４ステップサイズパラメータとを乗じることで第４更新係数を算出する。そして、算出した第４更新係数を第４伝達関数記憶回路７４に記憶された第４伝達関数に加算することで更新を行う。

また、制御回路３７は、第２音声合成回路３６が第２翻訳音声を出力している期間に、第４エコーキャンセラ７０に、第４エコー信号を推定する第４伝達関数を更新させる。つまり第４エコー１６が存在する期間に、上記式１２に示される第４伝達関数の更新式に基づいて第４伝達関数が更新される。

［１−２−５．第１クロストークキャンセラ８０］
第１クロストークキャンセラ８０は、第１音声が第２マイク２３に入力される現象を第１クロストーク１７としたとき、第１音声を用いて、第１クロストーク１７を示す第１クロストーク信号を推定し、第１クロストーク信号を、第２マイク２３の出力信号から除去する回路である。すなわち、第１音声に基づいた第２クロストークキャンセラ９０の出力信号を用いて、第１クロストーク１７の程度を示す第５妨害信号（すなわち第１クロストーク信号）を推定し、第５妨害信号を、第２マイク２３の出力信号に基づく第４エコーキャンセラ７０の出力信号から除去する回路である。

本実施の形態では、第１クロストークキャンセラ８０は、第５妨害信号が除去された信号を第２音声認識回路３２に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。ここで、第２クロストークキャンセラ９０の出力信号は、図２に示すように、第１音声認識回路３１への入力信号である。

より詳しくは、第１クロストークキャンセラ８０は、第５伝達関数記憶回路８４、第５記憶回路８２、第５畳み込み演算器８３、第５減算器８１、及び、第５伝達関数更新回路８５を有する。

第５伝達関数記憶回路８４は、第１クロストーク１７の伝達関数として推定された第５伝達関数を記憶する。

第５記憶回路８２は、第２クロストークキャンセラ９０の出力信号を記憶する。

第５畳み込み演算器８３は、第５記憶回路８２に記憶された信号と第５伝達関数記憶回路８４に記憶された第５伝達関数とを畳み込むことで第５妨害信号を生成する。例えば、第５畳み込み演算器８３は、以下の式１３に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ５’ｔは、時刻ｔにおける第５妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ５（ｉ）ｔは、時刻ｔにおいて第５伝達関数記憶回路８４に記憶されたＮ個の第５伝達関数のうちのｉ番目の第５伝達関数である。ｘ５（ｔ−ｉ）は、第５記憶回路８２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第５減算器８１は、第４エコーキャンセラ７０の出力信号から、第５畳み込み演算器８３から出力された第５妨害信号を除去し、第１クロストークキャンセラ８０の出力信号として出力する。例えば、第５減算器８１は、以下の式１４に示される減算を行う。

（数１４）
ｅ５_ｔ＝ｙ５_ｔ−ｙ５’_ｔ・・・（式１４）

ここで、ｅ５ｔは、時刻ｔにおける第５減算器８１の出力信号である。ｙ５ｔは、時刻ｔにおける第４エコーキャンセラ７０の出力信号である。

第５伝達関数更新回路８５は、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とに基づいて第５伝達関数記憶回路８４に記憶された第５伝達関数を更新する。例えば、第５伝達関数更新回路８５は、以下の式１５に示されるように、独立成分分析を用いて、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とに基づいて、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とが相互に独立となるように、第５伝達関数記憶回路８４に記憶された第５伝達関数を更新する。

（数１５）
Ｈ５（ｊ）_ｔ＋１＝Ｈ５（ｊ）_ｔ＋α５×φ５（ｅ５_ｔ）×ｘ５（ｔ−ｊ）・・・（式１５）

ここで、Ｈ５（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第５伝達関数記憶回路８４に記憶されるＮ個の第５伝達関数のうちのｊ番目の第５伝達関数である。Ｈ５（ｊ）ｔは、時刻ｔ（つまり、更新前の）第５伝達関数記憶回路８４に記憶されたＮ個の第５伝達関数のうちのｊ番目の第５伝達関数である。α５は、第１クロストーク１７の第５伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ５は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第５伝達関数更新回路８５は、第５減算器８１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第５記憶回路８２に記憶された信号と、第１クロストーク１７の第５伝達関数の推定における学習速度を制御するための第５ステップサイズパラメータとを乗じることで第５更新係数を算出する。そして、算出した第５更新係数を第５伝達関数記憶回路８４に記憶された第５伝達関数に加算することで更新を行う。

なお、本実施の形態における翻訳装置２０では、第１話者１１の同一時刻における音声について、第２クロストークキャンセラ９０の出力信号が第１クロストークキャンセラ８０に入力される時刻は、第１話者１１の音声が第２マイク２３に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第１クロストークキャンセラ８０が第１クロストーク１７をキャンセルできるように、因果律が保持されている。これは、第２クロストークキャンセラ９０の出力信号が第１クロストークキャンセラ８０に入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第２エコーキャンセラ５０での処理速度、第３エコーキャンセラ６０での処理速度、第２クロストークキャンセラ９０での処理速度等）と、第１話者１１の音声が第２マイク２３に入力される時刻を決定づける要因（第１話者１１と第２マイク２３との位置関係等）とを考慮することで適宜、実現し得る。

［１−２−６．第２クロストークキャンセラ９０］
第２クロストークキャンセラ９０は、第２音声が第１マイク２１に入力される現象を第２クロストーク１８としたとき、第２音声を用いて、第２クロストーク１８を示す第２クロストーク信号を推定し、第２クロストーク信号を、第１マイク２１の出力信号から除去する回路である。すなわち、第２音声に基づいた第１クロストークキャンセラ８０の出力信号を用いて、第２クロストーク１８の程度を示す第６妨害信号（すなわち第２クロストーク信号）を推定し、第６妨害信号を、第１マイク２１の出力信号に基づく第３エコーキャンセラ６０の出力信号から除去する回路である。

本実施の形態では、第２クロストークキャンセラ９０は、第６妨害信号が除去された信号を第１音声認識回路３１に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。ここで、第１クロストークキャンセラ８０の出力信号は、図２に示すように、第２音声認識回路３２への入力信号である。

より詳しくは、第２クロストークキャンセラ９０は、第６伝達関数記憶回路９４、第６記憶回路９２、第６畳み込み演算器９３、第６減算器９１、及び、第６伝達関数更新回路９５を有する。

第６伝達関数記憶回路９４は、第２クロストーク１８の伝達関数として推定された第６伝達関数を記憶する。

第６記憶回路９２は、第１クロストークキャンセラ８０の出力信号を記憶する。

第６畳み込み演算器９３は、第６記憶回路９２に記憶された信号と第６伝達関数記憶回路９４に記憶された第６伝達関数とを畳み込むことで第６妨害信号を生成する。例えば、第６畳み込み演算器９３は、以下の式１６に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ６’ｔは、時刻ｔにおける第６妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ６（ｉ）ｔは、時刻ｔにおいて第６伝達関数記憶回路９４に記憶されたＮ個の第６伝達関数のうちのｉ番目の第６伝達関数である。ｘ６（ｔ−ｉ）は、第６記憶回路９２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第６減算器９１は、第３エコーキャンセラ６０の出力信号から、第６畳み込み演算器９３から出力された第６妨害信号を除去し、第２クロストークキャンセラ９０の出力信号として出力する。例えば、第６減算器９１は、以下の式１７に示される減算を行う。

（数１７）
ｅ６_ｔ＝ｙ６_ｔ−ｙ６’_ｔ・・・（式１７）

ここで、ｅ６ｔは、時刻ｔにおける第６減算器９１の出力信号である。ｙ６ｔは、時刻ｔにおける第３エコーキャンセラ６０の出力信号である。

第６伝達関数更新回路９５は、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とに基づいて第６伝達関数記憶回路９４に記憶された第６伝達関数を更新する。例えば、第６伝達関数更新回路９５は、以下の式１８に示されるように、独立成分分析を用いて、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とに基づいて、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とが相互に独立となるように、第６伝達関数記憶回路９４に記憶された第６伝達関数を更新する。

（数１８）
Ｈ６（ｊ）_ｔ＋１＝Ｈ６（ｊ）_ｔ＋α６×φ６（ｅ６_ｔ）×ｘ６（ｔ−ｊ）・・・（式１８）

ここで、Ｈ６（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第６伝達関数記憶回路９４に記憶されるＮ個の第６伝達関数のうちのｊ番目の第６伝達関数である。Ｈ６（ｊ）ｔは、時刻ｔ（つまり、更新前の）第６伝達関数記憶回路９４に記憶されたＮ個の第６伝達関数のうちのｊ番目の第６伝達関数である。α６は、第２クロストーク１８の第６伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ６は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第６伝達関数更新回路９５は、第６減算器９１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第６記憶回路９２に記憶された信号と、第２クロストーク１８の第６伝達関数の推定における学習速度を制御するための第６ステップサイズパラメータとを乗じることで第６更新係数を算出する。そして、算出した第６更新係数を第６伝達関数記憶回路９４に記憶された第６伝達関数に加算することで更新を行う。

なお、本実施の形態における翻訳装置２０では、第２話者１２の同一時刻における音声について、第１クロストークキャンセラ８０の出力信号が第２クロストークキャンセラ９０に入力される時刻は、第２話者１２の音声が第１マイク２１に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第２クロストークキャンセラ９０が第２クロストーク１８をキャンセルできるように、因果律が保持されている。これは、第１クロストークキャンセラ８０の出力信号が第２クロストークキャンセラ９０に入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第１エコーキャンセラ４０での処理速度、第４エコーキャンセラ７０での処理速度、第１クロストークキャンセラ８０での処理速度等）と、第２話者１２の音声が第１マイク２１に入力される時刻を決定づける要因（第２話者１２と第１マイク２１との位置関係等）とを考慮することで適宜、実現し得る。

［１−３．動作］
以上のように構成された本実施の形態における翻訳装置２０は、次のように動作する。

予め、第１言語選択回路２７及び第２言語選択回路２８は、第１話者１１から第１話者１１が用いる第１言語の選択及び第２話者１２から第２話者１２が用いる第２言語の選択を受け付け、制御回路３７に通知する。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、第２エコー１４、第３エコー１５及び第２クロストーク１８が、第１マイク２１に入力される。第１マイク２１の出力信号は、第２エコーキャンセラ５０において、第２妨害信号（すなわち第２エコー信号）が除去される。第２妨害信号は、第２エコー１４の程度を示す（推定された）信号である。よって、第２エコーキャンセラ５０の出力信号は、第１マイク２１に入力された音声から、第２エコー１４の影響が除去された音声を示す信号となる。

続いて、第２エコーキャンセラ５０の出力信号は、第３エコーキャンセラ６０において、第３妨害信号（すなわち第３エコー信号）が除去される。第３妨害信号は、第３エコー１５の程度を示す（推定された）信号である。よって、第３エコーキャンセラ６０の出力信号は、第２エコーキャンセラ５０の出力信号から、第３エコー１５の影響が除去された信号となる。

続いて、第３エコーキャンセラ６０の出力信号は、第２クロストークキャンセラ９０において、第６妨害信号（すなわち第２クロストーク信号）が除去される。第６妨害信号は、第２クロストーク１８の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ９０の出力信号は、第３エコーキャンセラ６０の出力信号から、第２クロストーク１８の影響が除去された信号となり、第１音声認識回路３１及び第１クロストークキャンセラ８０に出力される。

続いて、第１音声認識回路３１は、第１話者１１の音声から、第２エコーキャンセラ５０により第２エコー１４が除去され、第３エコーキャンセラ６０により第３エコー１５が除去され、第２クロストークキャンセラ９０により第２クロストーク１８が除去されたデジタル音声データを入力される。第１音声認識回路３１は、入力されたデジタル音声データに対し、制御回路３７から指示された第１話者１１の第１言語の情報に基づいて、音声認識を行った結果である第１文字列を第１翻訳回路３３及び制御回路３７に出力する。

続いて、第１翻訳回路３３は、第１音声認識回路３１が出力した第１文字列を、制御回路３７から指示された第１話者１１の第１言語から第２話者１２の第２言語の第３文字列に変換し、変換した第３文字列を第１音声合成回路３５及び制御回路３７に出力する。

続いて、第１音声合成回路３５は、第１翻訳回路３３が出力した第２言語の第３文字列を、制御回路３７から指示された第２言語の情報に基づいて、第２言語の出力信号に変換し、第２言語の出力信号を第１スピーカ２２、第１エコーキャンセラ４０、及び第３エコーキャンセラ６０に出力し、第２言語の出力信号出力期間の情報を制御回路３７に出力する。

第１音声合成回路３５が出力した第２言語の出力信号が第１スピーカ２２に入力され、第１翻訳音声となって出力される。

同様に、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、第１エコー１３、第４エコー１６及び第１クロストーク１７が、第２マイク２３に入力される。第２マイク２３の出力信号は、第１エコーキャンセラ４０において、第１妨害信号（すなわち第１エコー信号）が除去される。第１妨害信号は、第１エコー１３の程度を示す（推定された）信号である。よって、第１エコーキャンセラ４０の出力信号は、第２マイク２３に入力された音声から、第１エコー１３の影響が除去された音声を示す信号となる。

続いて、第１エコーキャンセラ４０の出力信号は、第４エコーキャンセラ７０において、第４妨害信号（すなわち第４エコー信号）が除去される。第４妨害信号は、第４エコー１６の程度を示す（推定された）信号である。よって、第４エコーキャンセラ７０の出力信号は、第１エコーキャンセラ４０の出力信号から、第４エコー１６の影響が除去された信号となる。

続いて、第４エコーキャンセラ７０の出力信号は、第１クロストークキャンセラ８０において、第５妨害信号（すなわち第１クロストーク信号）が除去される。第５妨害信号は、第１クロストーク１７の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ８０の出力信号は、第４エコーキャンセラ７０の出力信号から、第１クロストーク１７の影響が除去された信号となり、第２音声認識回路３２及び第２クロストークキャンセラ９０に出力される。

続いて、第２音声認識回路３２は、第２話者１２の音声から、第１エコーキャンセラ４０により第１エコー１３が除去され、第４エコーキャンセラ７０により第４エコー１６が除去され、第１クロストークキャンセラ８０により第１クロストーク１７が除去されたデジタル音声データを入力される。第２音声認識回路３２は、入力されたデジタル音声データに対し、制御回路３７から指示された第２話者１２の第２言語の情報に基づいて、音声認識を行った結果である第２文字列を第２翻訳回路３４及び制御回路３７に出力する。

続いて、第２翻訳回路３４は、第２音声認識回路３２が出力した第２文字列を、制御回路３７から指示された第２話者１２の第２言語から第１話者１１の第１言語の第４文字列に変換し、変換した第４文字列を第２音声合成回路３６及び制御回路３７に出力する。

続いて、第２音声合成回路３６は、第２翻訳回路３４が出力した第１言語の第４文字列を、制御回路３７から指示された第１言語の情報に基づいて、第１言語の出力信号に変換し、第１言語の出力信号を第２スピーカ２４、第２エコーキャンセラ５０、及び第４エコーキャンセラ７０に出力し、第１言語の出力信号出力期間の情報を制御回路３７に出力する。

第２音声合成回路３６が出力した第１言語の出力信号が第２スピーカ２４に入力され、第２翻訳音声となって出力される。

制御回路３７は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、第１翻訳回路３３が出力した第１話者１１の第１言語の音声を第２言語に変換した第３文字列、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列、及び第２翻訳回路３４が出力した第２話者１２の第２言語の音声を第１言語に変換した第４文字列を映像信号発生回路３８に出力する。

また制御回路３７は、第１音声合成回路３５が出力した第１翻訳音声出力期間の情報を第１エコーキャンセラ４０及び第３エコーキャンセラ６０に出力して、その期間に第１エコーキャンセラ４０及び第３エコーキャンセラ６０に伝達関数を更新させる。ここで、第１翻訳音声出力期間の情報とは、第１音声合成回路３５が第１翻訳音声を出力している期間を表す情報である。

さらに制御回路３７は、第２音声合成回路３６が出力した第２翻訳音声出力期間の情報を第２エコーキャンセラ５０及び第４エコーキャンセラ７０に出力して、その期間に第２エコーキャンセラ５０及び第４エコーキャンセラ７０に伝達関数を更新させる。ここで、第２翻訳音声出力期間の情報とは、第２音声合成回路３６が第２翻訳音声を出力している期間を表す情報である。

映像信号発生回路３８は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、及び第２翻訳回路３４が出力した第２話者１２の第２言語の音声を第１言語に変換した第４文字列を第２表示回路２６に出力する。さらに、映像信号発生回路３８は、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列、及び第１翻訳回路３３が出力した第１話者１１の第１言語の音声を第２言語に変換した第３文字列を第１表示回路２５に出力する。

翻訳装置２０では、第１話者１１の音声及び第２話者１２の音声は以上のように、処理される。

以上により、第１音声認識回路３１に入力される出力信号は、第１マイク２１に入力された音声のうち、第２エコー１４、第３エコー１５、及び第２クロストーク１８の影響が除去された出力信号、つまり、音響的雑音が除去された第１話者１１の音声のみとなる。さらには、第１スピーカ２２から出力される第１翻訳音声は、第１マイク２１に入力された音声のうち、第２エコー１４、第３エコー１５、及び第２クロストーク１８の影響が除去された出力信号、つまり、音響的雑音が除去された第１話者１１の音声のみとなる。

また、第２音声認識回路３２に入力される出力信号は、第２マイク２３に入力された音声のうち、第１エコー１３、第４エコー１６、及び第１クロストーク１７の影響が除去された出力信号、つまり、音響的雑音が除去された第２話者１２の音声のみとなる。さらには、第２スピーカ２４から出力される第２翻訳音声は、第２マイク２３に入力された音声のうち、第１エコー１３、第４エコー１６、及び第１クロストーク１７の影響が除去された出力信号、つまり、音響的雑音が除去された第２話者１２の音声のみとなる。

なお、音響的雑音が除去される程度は、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、第４エコーキャンセラ７０及び、第１クロストークキャンセラ８０、第２クロストークキャンセラ９０に保持された伝達関数の精度、上記式３、式６、式９、式１２、式１５、及び式１８に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。

また、制御回路３７は、一定条件のもとにおいて、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０及び第４エコーキャンセラ７０に、各々のキャンセラの伝達関数を更新させる。この更新のフローチャートについて記述する。

図３は、第１エコーキャンセラ４０及び第３エコーキャンセラ６０の伝達関数の更新についてのフローチャートである。

上述のように、制御回路３７は、第１音声合成回路３５が出力した第１翻訳音声出力期間の情報を第１エコーキャンセラ４０、及び第３エコーキャンセラ６０に出力する。制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力中か否か判断する（ステップＳ１００）。

次に、ステップＳ１００でＹＥＳの場合、制御回路３７は、第１エコーキャンセラ４０と、第３エコーキャンセラ６０とに、各々のキャンセラの伝達関数を更新させる（ステップＳ１０１）。

また、ステップＳ１００でＮＯの場合、制御回路３７は、処理を終了する。

上記により、制御回路３７は、第１エコー１３、及び第３エコー１５が存在する期間に、上記式３、及び式９に示される伝達関数の更新式に基づいて伝達関数を更新させる。

図４は、第２エコーキャンセラ５０及び第４エコーキャンセラ７０の伝達関数の更新についてのフローチャートである。

上述のように、制御回路３７は、第２音声合成回路３６が出力した第２翻訳音声出力期間の情報を第２エコーキャンセラ５０、及び第４エコーキャンセラ７０に出力する。制御回路３７は、第２音声合成回路３６が第２翻訳音声を出力中か否か判断する（ステップＳ２００）。

次に、ステップＳ２００でＹＥＳの場合、制御回路３７は、第２エコーキャンセラ５０と第４エコーキャンセラ７０とに、各々のキャンセラの伝達関数を更新させる（ステップＳ２０１）。

また、ステップＳ２００でＮＯの場合、制御回路３７は、処理を終了する。

上記により、制御回路３７は、第２エコー１４、及び第４エコー１６が存在する期間に、上記式６、及び式１２に示される伝達関数の更新式に基づいて伝達関数を更新させる。

なお、図１で示す実施の形態１においては、第１マイク２１と第２スピーカ２４との距離が近く、かつ、第２マイク２３と第１スピーカ２２との距離が近い状態で会話が行われている。そのため、第１エコー１３と第２エコー１４との影響が大きい。その結果、第１エコーキャンセラ４０と第２エコーキャンセラ５０との重要性は高く、必須の構成となる。

一方で、第１マイク２１と第２スピーカ２４との距離が遠く、かつ、第２マイク２３と第１スピーカ２２との距離が遠くなると、第１エコー１３と第２エコー１４との影響が小さくなる。そのため、第１エコーキャンセラ４０と第２エコーキャンセラ５０との重要性は低く、必須の構成ではないこともある。その場合は、図２で示した実施の形態１と比べ、第１エコーキャンセラ４０と第２エコーキャンセラ５０とを備えない構成としてもよい。すなわち、第１マイク２１の出力信号は、第２エコーキャンセラ５０を介さずに、第３エコーキャンセラ６０に入力され、第２マイク２３の出力信号は、第１エコーキャンセラ４０を介さずに、第４エコーキャンセラ７０に入力される。

なお、図１で示した実施の形態１に加え、図示はしないが、翻訳装置２０は、さらに、第１音声性別判定回路と、第２音声性別判定回路とを備えていてもよい。

第１音声性別判定回路は、第１音声に基づいて、第１話者１１の性別判定を行う。

第２音声性別判定回路は、第２音声に基づいて、第２話者１２の性別判定を行う。

さらに、この場合、制御回路３７は、第１音声合成回路３５に第１音声性別判定回路の判定結果と同じ性別の合成音声を出力させてもよく、第２音声合成回路３６に第２音声性別判定回路の判定結果と同じ性別の合成音声を出力させてもよい。

なお、図１で示したように、実施の形態１では、翻訳装置２０は、第１カメラ２９１と、第２カメラ２９２とを備えている。また、図示はしないが、翻訳装置２０は、さらに、第１顔認識回路と、第２顔認識回路と、話者と前記話者が用いる言語との対を記憶しているデータベースと、を備えていてもよい。

第１カメラ２９１は、第１話者の顔を撮影する。第１カメラ２９１は、第１映像信号を第１顔認識回路へ出力する。

第２カメラ２９２は、第２話者の顔を撮影する。第２カメラ２９２は、第１映像信号を第２顔認識回路へ出力する。

第１顔認識回路は、第１カメラから出力された第１映像信号に基づいて、第１話者１１を特定する。

第２顔認識回路は、第２カメラから出力された第２映像信号に基づいて、第２話者１２を特定する。

データベースは、話者と話者が用いる言語との対を記憶している。

さらに、この場合、制御回路３７は、第１顔認識回路が特定した第１話者１１の言語がデータベースに登録されている場合には、第１音声認識回路と第１音声認識回路３１と第１翻訳回路３３と第２翻訳回路３４と第１音声合成回路３５とに、第１話者１１の第１言語を通知してもよく、第２顔認識回路が特定した第２話者１２の言語がデータベースに登録されている場合には、第２音声認識回路と第２音声認識回路３２と第１翻訳回路３３と第２翻訳回路３４と第２音声合成回路３６とに、第２話者１２の第２言語を通知してもよい。

また、翻訳装置２０は、上記で記した第１カメラ２９１と、第２カメラ２９２とに加え、さらに、第１映像性別判定回路と、第２映像性別判定回路とを備えていてもよい。

第１カメラ２９１は、第１話者の顔を撮影する。第１カメラ２９１は、第１映像信号を第１映像性別判定回路へ出力する。

第２カメラ２９２は、第２話者の顔を撮影する。第２カメラ２９２は、第２映像信号を第２映像性別判定回路へ出力する。

第１映像性別判定回路は、第１カメラ２９１から出力された第１映像信号に基づいて、第１話者の性別判定を行う。

第２映像性別判定回路は、第２カメラ２９２から出力された第２映像信号に基づいて、第２話者の性別判定を行う。

さらに、この場合、制御回路３７は、第１音声合成回路に、第１映像性別判定回路の判定結果と同じ性別の合成音声を出力させてもよく、第２音声合成回路に、第２映像性別判定回路の判定結果と同じ性別の合成音声を出力させてもよい。

また、第１エコーキャンセラ４０の第１記憶回路４２と第３エコーキャンセラ６０の第３記憶回路６２とを共用する構成としてもよい。すなわち、第１エコーキャンセラ４０の第１記憶回路４２に記憶された信号と第３エコーキャンセラ６０の第３記憶回路６２に記憶された信号とは、いずれも第１音声合成回路３５の出力信号であり、第１記憶回路４２と第３記憶回路６２とを共通化することで、第１記憶回路４２と第３記憶回路６２とに係る部分の記憶回路を半減することが可能となる。

さらに、第２エコーキャンセラ５０の第２記憶回路５２と第４エコーキャンセラ７０の第４記憶回路７２とを共用する構成としてもよい。すなわち、第２エコーキャンセラ５０の第２記憶回路５２に記憶された信号と第４エコーキャンセラ７０の第４記憶回路７２に記憶された信号とは、いずれも第２音声合成回路３６の出力信号であり、第２記憶回路５２と第４記憶回路７２とを共通化することで、第２記憶回路５２と第４記憶回路７２とに係る部分の記憶回路を半減することが可能となる。

［１−４．効果等］
以上説明したように、翻訳装置２０は、第１話者１１と第２話者１２とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、第１話者１１の第１音声を入力するための第１マイク２１と、第１音声を音声認識して第１文字列を出力するための第１音声認識回路３１と、第１音声認識回路３１から出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力するための第１翻訳回路３３と、第１翻訳回路３３から出力された第３文字列を第１翻訳音声に変換するための第１音声合成回路３５と、第１翻訳音声を拡声するための第１スピーカ２２と、第２話者１２の第２音声を入力するための第２マイク２３と、第２音声を音声認識して第２文字列を出力するための第２音声認識回路３２と、第２音声認識回路３２から出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力するための第２翻訳回路３４と、第２翻訳回路３４から出力された第４文字列を第２翻訳音声に変換するための第２音声合成回路３６と、第２翻訳音声を拡声するための第２スピーカ２４と、第１スピーカ２２から拡声された第１翻訳音声が第２マイク２３に入力される現象を第１エコー１３としたとき、第１翻訳音声と第１エコー１３に対応する第１伝達関数とを用いて、第１エコー１３を示す第１エコー信号を推定し、第１エコー信号を、第２マイク２３の出力信号から除去する第１エコーキャンセラ４０と、第２スピーカ２４から拡声された第２翻訳音声が第１マイク２１に入力される現象を第２エコー１４としたとき、第２翻訳音声と第２エコー１４に対応する第２伝達関数とを用いて、第２エコー１４を示す第２エコー信号を推定し、第２エコー信号を、第１マイク２１の出力信号から除去する第２エコーキャンセラ５０と、制御回路３７とを備え、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第１エコーキャンセラ４０に、第１エコー信号を推定する第１伝達関数を更新させ、第２音声合成回路３６が第２翻訳音声を出力している期間に、第２エコーキャンセラ５０に、第２エコー信号を推定する第２伝達関数を更新させる。

このような翻訳装置２０は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。また、第１話者１１の第１音声と第２話者１２の第２音声と第１音声合成回路３５の第１翻訳音声と第２音声合成回路３６の第２翻訳音声とが同時に発生しても、エコーをエコーキャンセラが除去するので、第１音声認識回路３１と第２音声認識回路３２が音声認識精度を下げることがない。さらには、第１エコーキャンセラ４０は、第１音声合成回路３５が合成音声を出力している時に第１伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第１エコーキャンセラ４０における第１伝達関数の推定精度が高まる。つまり、不要な更新により、第１エコーキャンセラ４０の第１伝達関数記憶回路４４に記憶された第１伝達関数が、破壊されることが防がれるため、より高精度に第１エコー信号を除去できる。同じく、第２エコーキャンセラ５０は、第２音声合成回路３６が合成音声を出力している時に第２伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第２エコーキャンセラ５０における第２伝達関数の推定精度を高めることができる。つまり、不要な更新により、第２エコーキャンセラ５０の第２伝達関数記憶回路５４に記憶された第２伝達関数が、破壊されることが防がれるため、より高精度に第２エコー信号を除去できる。

また、例えば、翻訳装置２０は、さらに、第１スピーカ２２から拡声された第１翻訳音声が第１マイク２１に入力される現象を第３エコー１５としたとき、第１翻訳音声と第３エコー１５に対応する第３伝達関数とを用いて、第３エコー１５を示す第３エコー信号を推定し、第３エコー信号を、第１マイク２１の出力信号から除去する第３エコーキャンセラ６０と、第２スピーカ２４から拡声された第２翻訳音声が第２マイク２３に入力される現象を第４エコー１６としたとき、第２翻訳音声と第４エコー１６に対応する第４伝達関数とを用いて、第４エコー１６を示す第４エコー信号を推定し、第４エコー信号を、第２マイク２３の出力信号から除去する第４エコーキャンセラ７０とを備え、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第３エコーキャンセラ６０に、第３エコー信号を推定する第３伝達を更新させ、第２音声合成回路３６が第２翻訳音声を出力している期間に、第４エコーキャンセラ７０に、第４エコー信号を推定する第４伝達関数を更新させる。

このような翻訳装置２０は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。さらには、第１エコーキャンセラ４０と第３エコーキャンセラ６０とは、第１音声合成回路３５が合成音声を出力している時に第１伝達関数及び第３伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第１エコーキャンセラ４０及び第３エコーキャンセラ６０における第１伝達関数及び第３伝達関数の推定精度が高まる。つまりは、不要な更新により、第３エコーキャンセラ６０の第３伝達関数記憶回路６４に記憶された第３伝達関数が、破壊されることが防がれるため、より高精度に第３エコー信号を除去できる。同じく、第２エコーキャンセラ５０と第４エコーキャンセラ７０とは、第２音声合成回路３６が合成音声を出力している時に第２伝達関数及び第４伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第２エコーキャンセラ５０及び第４エコーキャンセラ７０における第２伝達関数及び第４伝達関数の推定精度を高めることができる。つまりは、不要な更新により、第４エコーキャンセラ７０の第４伝達関数記憶回路７４に記憶された第４伝達関数が、破壊されることが防がれるため、より高精度に第４エコー信号を除去できる。

また、例えば、翻訳装置２０は、第１話者１１と第２話者１２とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、第１話者１１の第１音声を入力するための第１マイク２１と、第１音声を音声認識して第１文字列を出力するための第１音声認識回路３１と、第１音声認識回路３１から出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力するための第１翻訳回路３３と、第１翻訳回路３３から出力された第３文字列を第１翻訳音声に変換するための第１音声合成回路３５と、第１翻訳音声を拡声するための第１スピーカ２２と、第２話者１２の第２音声を入力するための第２マイク２３と、第２音声を音声認識して第２文字列を出力するための第２音声認識回路３２と、第２音声認識回路３２から出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力するための第２翻訳回路３４と、第２翻訳回路３４から出力された第４文字列信号を第２翻訳音声に変換するための第２音声合成回路３６と、第２翻訳音声を拡声するための第２スピーカ２４と、第１スピーカ２２から拡声された第１翻訳音声が第１マイク２１に入力される現象を第３エコー１５としたとき、第１翻訳音声と第３エコー１５に対応する第３伝達関数とを用いて、第３エコー１５を示す第３エコー信号を推定し、第３エコー信号を、第１マイク２１の出力信号から除去する第３エコーキャンセラ６０と、第２スピーカ２４から拡声された第２翻訳音声が第２マイク２３に入力される現象を第４エコー１６としたとき、第２翻訳音声と第４エコー１６に対応する第４伝達関数とを用いて、第４エコー１６を示す第４エコー信号を推定し、第４エコー信号を、第２マイク２３の出力信号から除去する第４エコーキャンセラ７０と、制御回路３７とを備え、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間に、第３エコーキャンセラ６０に、第３エコー信号を推定する第３伝達関数を更新させ、第２音声合成回路３６が第２翻訳音声を出力している期間に、第４エコーキャンセラ７０に、第４エコー信号を推定する第４伝達関数を更新させる。

このような翻訳装置２０は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。さらには、第３エコーキャンセラ６０は、第１音声合成回路３５が合成音声を出力している時に第３伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第３エコーキャンセラ６０における第３伝達関数の推定精度が高まる。つまりは、不要な更新により、第３エコーキャンセラ６０の第３伝達関数記憶回路６４に記憶された第３伝達関数が、破壊されることが防がれるため、より高精度に第３エコー信号を除去できる。同じく、第４エコーキャンセラ７０は、第２音声合成回路３６が合成音声を出力している時に第４伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第４エコーキャンセラ７０における第４伝達関数の推定精度を高めることができる。つまりは、不要な更新により、第４エコーキャンセラ７０の第４伝達関数記憶回路７４に記憶された第４伝達関数が、破壊されることが防がれるため、より高精度に第４エコー信号を除去できる。

また、例えば、翻訳装置２０は、さらに、第１音声が第２マイク２３に入力される現象を第１クロストーク１７としたとき、第１音声を用いて、第１クロストーク１７を示す第１クロストーク信号を推定し、第１クロストーク信号を、第２マイク２３の出力信号から除去する第１クロストークキャンセラ８０と、第２音声が第１マイク２１に入力される現象を第２クロストーク１８としたとき、第２音声を用いて、第２クロストーク１８を示す第２クロストーク信号を推定し、第２クロストーク信号を、第１マイク２１の出力信号から除去する第２クロストークキャンセラ９０とを備える。

このような翻訳装置２０は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコー及びクロストークを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。

また、例えば、翻訳装置２０は、さらに、第１話者１１から第１話者１１が用いる第１言語の選択を受け付け、制御回路３７に通知する第１言語選択回路２７と、第２話者１２から第２話者１２が用いる第２言語の選択を受け付け、制御回路３７に通知する第２言語選択回路２８とを備え、制御回路３７は、第１言語選択回路２７から通知された第１言語と、第２言語選択回路２８から通知された第２言語と、に基づいて、第１音声認識回路３１に、第１言語で音声認識させ、第２音声認識回路３２に、第２言語で音声認識させ、第１翻訳回路３３に、第１言語から第２言語に翻訳させ、第２翻訳回路３４に、第２言語から第１言語に翻訳させ、第１音声合成回路３５に、第２言語で音声合成させ、第２音声合成回路３６に、第１言語で音声合成させる。

このような翻訳装置２０は、予め翻訳する言語が選択されているため、スムーズに翻訳し、第１翻訳音声と第２翻訳音声を出力することができる。

また、例えば、翻訳装置２０は、第１音声に基づいて、第１話者１１の性別判定を行う第１音声性別判定回路と、第２音声に基づいて、第２話者１２の性別判定を行う第２音声性別判定回路とを備え、制御回路３７は、第１音声合成回路３５に、第１音声性別判定回路の判定結果と同じ性別の合成音声を、出力させ、第２音声合成回路３６に、第２音声性別判定回路の判定結果と同じ性別の合成音声を、出力させる。

このような翻訳装置２０は、話者の性別と同性の第１翻訳音声と第２翻訳音声とを出力することができる。

また、例えば、翻訳装置２０は、第１話者１１の顔を撮影する第１カメラ２９１と、第１カメラ２９１から出力された第１映像信号に基づいて、第１話者１１を特定する第１顔認識回路と、第２話者１２の顔を撮影する第２カメラ２９２と、第２カメラ２９２から出力された第２映像信号に基づいて、第２話者１２を特定する第２顔認識回路と、話者と話者が用いる言語との対を記憶しているデータベースとを備え、制御回路３７は、第１顔認識回路が特定した第１話者１１の言語がデータベースに登録されている場合には、第１音声認識回路３１と第１翻訳回路３３と第２翻訳回路３４と第１音声合成回路３５とに、第１話者１１の第１言語を通知し、第２顔認識回路が特定した第２話者１２の言語がデータベースに登録されている場合には、第２音声認識回路３２と第１翻訳回路３３と第２翻訳回路３４と第２音声合成回路３６とに、第２話者１２の第２言語を通知する。

このような翻訳装置２０は、映像から人物を認識し、予め翻訳する言語が登録されているため、スムーズに翻訳し、第１翻訳音声と第２翻訳音声とを出力することができる。

また、例えば、翻訳装置２０は、さらに、第１カメラ２９１から出力された第１映像信号に基づいて、第１話者１１の性別判定を行う第１映像性別判定回路と、第２カメラ２９２から出力された第２映像信号に基づいて、第２話者１２の性別判定を行う第２映像性別判定回路とを備え、制御回路３７は、第１音声合成回路３５に、第１映像性別判定回路の判定結果と同じ性別の合成音声を出力させ、第２音声合成回路３６に、第２映像性別判定回路の判定結果と同じ性別の合成音声を出力させる。

このような翻訳装置２０は、映像から人物の性別を認識し、話者の性別と同性の第１翻訳音声と第２翻訳音声とを出力することができる。

さらに、翻訳方法は、第１話者１１と第２話者１２とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、第１話者１１の第１音声を入力するための第１入力ステップと、第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、第１音声認識ステップから出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、第１翻訳ステップから出力された第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、第１翻訳音声を拡声するための第１拡声ステップと、第２話者１２の第２音声を入力するための第２入力ステップと、第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、第２音声認識ステップから出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、第２翻訳ステップから出力された第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、第２翻訳音声を拡声するための第２拡声ステップと、第１拡声ステップにて拡声された第１翻訳音声が第２入力ステップにて入力される現象を第１エコー１３としたとき、第１翻訳音声と第１エコー１３に対応する第１伝達関数とを用いて、第１エコー１３を示す第１エコー信号を推定し、第１エコー信号を、第２入力ステップの出力信号から除去する第１エコーキャンセラステップと、第２拡声ステップにて拡声された第２翻訳音声が第１入力ステップにて入力される現象を第２エコー１４としたとき、第２翻訳音声と第２エコー１４に対応する第２伝達関数とを用いて、第２エコー１４を示す第２エコー信号を推定し、第２エコー信号を、第１入力ステップの出力信号から除去する第２エコーキャンセラステップと、第１音声合成ステップにて第１翻訳音声を出力している期間に、第１エコーキャンセラステップにおいて、第１エコー信号を推定する第１伝達関数を更新し、第２音声合成ステップにて第２翻訳音声を出力している期間に、第２エコーキャンセラステップにおいて、第２エコー信号を推定する第２伝達関数を更新するように指示を与える制御ステップとを含む。

このような翻訳方法は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。さらには、第１エコーキャンセラ４０は、第１音声合成回路３５が合成音声を出力している時に第１伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第１エコーキャンセラ４０における第１伝達関数の推定精度が高まる。つまり、不要な更新により、第１エコーキャンセラ４０の第１伝達関数記憶回路４４に記憶された第１伝達関数が、破壊されることが防がれるため、より高精度に第１エコー信号を除去できる。同じく、第２エコーキャンセラ５０は、第２音声合成回路３６が合成音声を出力している時に第２伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第２エコーキャンセラ５０における第２伝達関数の推定精度を高めることができる。つまり、不要な更新により、第２エコーキャンセラ５０の第２伝達関数記憶回路５４に記憶された第２伝達関数が、破壊されることが防がれるため、より高精度に第２エコー信号を除去できる。

また、例えば、翻訳方法は、第１話者１１と第２話者１２とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、第１話者１１の第１音声を入力するための第１入力ステップと、第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、第１音声認識ステップから出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、第１翻訳ステップから出力された第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、第１翻訳音声を拡声するための第１拡声ステップと、第２話者１２の第２音声を入力するための第２入力ステップと、第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、第２音声認識ステップから出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、第２翻訳ステップから出力された第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、第２翻訳音声を拡声するための第２拡声ステップと、第１拡声ステップにて出力された第１翻訳音声が第１入力ステップにて入力される現象を第３エコー１５としたとき、第１翻訳音声と第３エコー１５に対応する第３伝達関数とを用いて、第３エコー１５を示す第３エコー信号を推定し、第３エコー信号を、第１入力ステップの出力信号から除去する第３エコーキャンセラステップと、第２拡声ステップにて出力された第２翻訳音声が第２入力ステップにて入力される現象を第４エコー１６としたとき、第２翻訳音声と第４エコー１６に対応する第４伝達関数とを用いて、第４エコー１６を示す第４エコー信号を推定し、第４エコー信号を、第２入力ステップの出力信号から除去する第４エコーキャンセラステップと、第１音声合成ステップにて第１翻訳音声を出力している期間に、第３エコーキャンセラステップにおいて、第３エコー信号を推定する第３伝達関数を更新し、第２音声合成ステップから第２翻訳音声を出力している期間に、第４エコーキャンセラステップにおいて、第４エコー信号を推定する第４伝達関数を更新するように指示を与える制御ステップとを含む。

このような翻訳方法は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。さらには、第３エコーキャンセラ６０は、第１音声合成回路３５が合成音声を出力している時に第３伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第３エコーキャンセラ６０における第３伝達関数の推定精度が高まる。つまりは、不要な更新により、第３エコーキャンセラ６０の第３伝達関数記憶回路６４に記憶された第３伝達関数が、破壊されることが防がれるため、より高精度に第３エコー信号を除去できる。同じく、第４エコーキャンセラ７０は、第２音声合成回路３６が合成音声を出力している時に第４伝達関数を更新し、それ以外の音声が存在する時に不要な更新がされないため、第４エコーキャンセラ７０における第４伝達関数の推定精度を高めることができる。つまりは、不要な更新により、第４エコーキャンセラ７０の第４伝達関数記憶回路７４に記憶された第４伝達関数が、破壊されることが防がれるため、より高精度に第４エコー信号を除去できる。

［１−５．変形例］
上記実施の形態では、第１伝達関数更新回路４５は、上記式３に従って伝達関数を更新したが、以下の式１９又は式２０に示されるように、正規化された式に従って伝達関数を更新してもよい。

ここで、Ｎは、第１伝達関数記憶回路４４に記憶される伝達関数の個数である。｜ｘ１（ｔ−ｉ）｜は、ｘ１（ｔ−ｉ）の絶対値である。

これにより、第１伝達関数更新回路４５による推定伝達関数の更新が、入力信号ｘ１（ｔ−ｊ）の振幅に依存せず、安定して実施される。

（実施の形態２）
実施の形態１では、第１話者１１の第１言語と第２話者１２の第２言語とが異なる場合を示した。一方で、実施の形態２では、第１話者１１の第１言語と第２話者１２の第２言語とが同一である場合に適した構成を示す。

まず、実施の形態２では、実施の形態１と比べ、翻訳した音声を出力する機能と翻訳機能とが不要になる。

また後述するように、ハウリングという現象が問題となる。ハウリングとは、ある話者の音声を出力するスピーカから出力された音声がその話者の音声が入力されるマイクに帰還して入力される現象を指す。具体的に、ここでは、第１スピーカ２２から出力された音声が第１マイク２１に帰還して入力される現象を第１ハウリング１５ａ、第２スピーカ２４から出力された音声が第２マイク２３に帰還して入力される現象を第２ハウリング１６ａと定義する。

［２−１．構成］
図５は、実施の形態２における翻訳装置２０ａの構成を示すブロック図である。すなわち、図５は、第１言語選択回路２７で設定された第１話者１１の第１言語と第２言語選択回路２８で設定された第２話者１２の第２言語とが同一である場合の構成を示すブロック図である。なお、実施の形態２では、実施の形態１と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。

図５では、図２に対し、第１言語と第２言語とが同一であるため、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５及び第２音声合成回路３６とが不要となる。

また、第１話者１１の音声は、第１マイク２１で収音され、後述する第１ハウリングキャンセラ６０ａ及び第２エコー／第２クロストークキャンセラ９０ａを経由して、第１スピーカ２２から出力されるため、第１マイク２１への入力と第１スピーカ２２からの出力が同じ第１話者１１の音声（すなわち、翻訳されない第１話者１１の音声）となるので、実施の形態１の第３エコー１５は、第１ハウリング１５ａに変わる。そのため、第３エコーキャンセラ６０は、第１ハウリングキャンセラ６０ａとして機能する。

また、第２話者１２の音声は、第２マイク２３で収音され、後述する第２ハウリングキャンセラ７０ａ及び第１エコー／第１クロストークキャンセラ８０ａを経由して、第２スピーカ２４から出力されるため、第２マイク２３への入力と第２スピーカ２４からの出力が同じ第２話者１２の音声（すなわち、翻訳されない第２話者１２の音声）となるので、実施の形態１の第４エコー１６は、第２ハウリング１６ａに変わる。そのため、第４エコーキャンセラ７０は、第２ハウリングキャンセラ７０ａとして機能する。

また、第１エコー１３ａと第１クロストーク１７ａの音源は、いずれも同じ第１話者１１の音声になる。そのため、第１クロストークキャンセラ８０は、第１エコー／第１クロストークキャンセラ８０ａとして機能する。その結果、第１エコーキャンセラ４０は不要となる。

さらに、第２エコー１４ａと第２クロストーク１８ａの音源は、いずれも同じ第２話者１２の音声になる。そのため、第２クロストークキャンセラ９０は、第２エコー／第２クロストークキャンセラ９０ａとして機能する。その結果、第２エコーキャンセラ５０は不要となる。

さらに、制御回路３７は、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに、機能を停止させてもよい。

［２−１−１．第１ハウリングキャンセラ６０ａ］
第１ハウリングキャンセラ６０ａは、第１スピーカ２２から出力された音声が第１マイク２１に帰還して入力される現象を第１ハウリング１５ａとしたとき、第１ハウリング１５ａの程度を示す第１ハウリング信号を推定し、第１ハウリング信号を、第１マイク２１の出力信号から除去する回路である。本実施の形態では、第１ハウリングキャンセラ６０ａは、第１マイク２１の出力信号から第１ハウリング信号を除去し、除去後の信号を後述する第２エコー／第２クロストークキャンセラ９０ａに出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第１ハウリングキャンセラ６０ａは、第３伝達関数記憶回路６４、第１遅延器６６、第３記憶回路６２、第３畳み込み演算器６３、第３減算器６１、及び、第３伝達関数更新回路６５を有する。つまり、図２の第３エコーキャンセラ６０において、第１遅延器６６が追加されている。

第３伝達関数記憶回路６４は、第１ハウリング１５ａの伝達関数として推定された第３伝達関数を記憶する。

第１遅延器６６は、第１ハウリングキャンセラ６０ａの出力信号を遅延させる。

第３記憶回路６２は、第１遅延器６６から出力された信号を記憶する。

第３畳み込み演算器６３は、第３記憶回路６２に記憶された信号と第３伝達関数記憶回路６４に記憶された第３伝達関数とを畳み込むことで第１ハウリング信号を生成する。例えば、第３畳み込み演算器６３は、以下の式２１に示される畳み込み演算を行うＮタップのＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタである。

ここで、ｙ７’ｔは、時刻ｔにおける第１ハウリング信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ７（ｉ）ｔは、時刻ｔにおいて第３伝達関数記憶回路６４に記憶されたＮ個の第３伝達関数のうちのｉ番目の第３伝達関数である。ｘ７（ｔ−ｉ−τ１）は、第３記憶回路６２に記憶された信号のうち、（ｔ−ｉ−τ１）番目の信号である。τ１は、第１遅延器６６による遅延時間である。

第３減算器６１は、第１マイク２１の出力信号から、第３畳み込み演算器６３から出力された第１ハウリング信号を除去し、第１ハウリングキャンセラ６０ａの出力信号として、第２エコー／第２クロストークキャンセラ９０ａに出力する。例えば、第３減算器６１は、以下の式２２に示される減算を行う。

（数２２）
ｅ７_ｔ＝ｙ７_ｔ−ｙ７’_ｔ・・・（式２２）

ここで、ｅ７ｔは、時刻ｔにおける第３減算器６１の出力信号である。ｙ７ｔは、時刻ｔにおける第１マイク２１の出力信号である。

第３伝達関数更新回路６５は、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とに基づいて第３伝達関数記憶回路６４に記憶された第３伝達関数を更新する。例えば、第３伝達関数更新回路６５は、以下の式２３に示されるように、独立成分分析を用いて、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とに基づいて、第３減算器６１の出力信号と第３記憶回路６２に記憶された信号とが相互に独立となるように、第３伝達関数記憶回路６４に記憶された第３伝達関数を更新する。

（数２３）
Ｈ７（ｊ）_ｔ＋１＝Ｈ７（ｊ）_ｔ＋α７×φ７（ｅ７_ｔ）×ｘ７（ｔ−ｊ−τ１）
・・・（式２３）

ここで、Ｈ７（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第３伝達関数記憶回路６４に記憶されるＮ個の第３伝達関数のうちのｊ番目の第３伝達関数である。Ｈ７（ｊ）ｔは、時刻ｔ（つまり、更新前の）第３伝達関数記憶回路６４に記憶されたＮ個の第３伝達関数のうちのｊ番目の第３伝達関数である。α７は、第１ハウリング１５ａの第３伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ７は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第３伝達関数更新回路６５は、第３減算器６１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第３記憶回路６２に記憶された信号と、第１ハウリング１５ａの第３伝達関数の推定における学習速度を制御するための第７ステップサイズパラメータとを乗じることで第７更新係数を算出する。そして、算出した第７更新係数を第３伝達関数記憶回路６４に記憶された第３伝達関数に加算することで更新を行う。

［２−１−２．第２ハウリングキャンセラ７０ａ］
第２ハウリングキャンセラ７０ａは、第２スピーカ２４から出力された音声が第２マイク２３に帰還して入力される現象を第２ハウリング１６ａとしたとき、第２ハウリング１６ａの程度を示す第２ハウリング信号を推定し、第２ハウリング信号を、第２マイク２３の出力信号から除去する回路である。本実施の形態では、第２ハウリングキャンセラ７０ａは、第２マイク２３の出力信号から第２ハウリング信号を除去し、除去後の信号を後述する第１エコー／第１クロストークキャンセラ８０ａに出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第２ハウリングキャンセラ７０ａは、第４伝達関数記憶回路７４、第２遅延器７６、第４記憶回路７２、第４畳み込み演算器７３、第４減算器７１、及び、第４伝達関数更新回路７５を有する。つまり、図２の第４エコーキャンセラ７０において、第２遅延器７６が追加されている。

第４伝達関数記憶回路７４は、第２ハウリング１６ａの伝達関数として推定された第４伝達関数を記憶する。

第２遅延器７６は、第２ハウリングキャンセラ７０ａの出力信号を遅延させる。

第４記憶回路７２は、第２遅延器７６から出力された信号を記憶する。

第４畳み込み演算器７３は、第４記憶回路７２に記憶された信号と第４伝達関数記憶回路７４に記憶された第４伝達関数とを畳み込むことで第２ハウリング信号を生成する。例えば、第４畳み込み演算器７３は、以下の式２４に示される畳み込み演算を行うＮタップのＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタである。

ここで、ｙ８’ｔは、時刻ｔにおける第２ハウリング信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ８（ｉ）ｔは、時刻ｔにおいて第４伝達関数記憶回路７４に記憶されたＮ個の第４伝達関数のうちのｉ番目の第４伝達関数である。ｘ８（ｔ−ｉ−τ２）は、第４記憶回路７２に記憶された信号のうち、（ｔ−ｉ−τ２）番目の信号である。τ２は、第２遅延器７６による遅延時間である。

第４減算器７１は、第２マイク２３の出力信号から、第４畳み込み演算器７３から出力された第２ハウリング信号を除去し、第２ハウリングキャンセラ７０ａの出力信号として、第１エコー／第１クロストークキャンセラ８０ａに出力する。例えば、第４減算器７１は、以下の式２５に示される減算を行う。

（数２５）
ｅ８_ｔ＝ｙ８_ｔ−ｙ８’_ｔ・・・（式２５）

ここで、ｅ８ｔは、時刻ｔにおける第４減算器７１の出力信号である。ｙ８ｔは、時刻ｔにおける第２マイク２３の出力信号である。

第４伝達関数更新回路７５は、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とに基づいて第４伝達関数記憶回路７４に記憶された第４伝達関数を更新する。例えば、第４伝達関数更新回路７５は、以下の式２６に示されるように、独立成分分析を用いて、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とに基づいて、第４減算器７１の出力信号と第４記憶回路７２に記憶された信号とが相互に独立となるように、第４伝達関数記憶回路７４に記憶された第４伝達関数を更新する。

（数２６）
Ｈ８（ｊ）_ｔ＋１＝Ｈ８（ｊ）_ｔ＋α８×φ８（ｅ８_ｔ）×ｘ８（ｔ−ｊ−τ２）
・・・（式２６）

ここで、Ｈ８（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第４伝達関数記憶回路７４に記憶されるＮ個の第４伝達関数のうちのｊ番目の第４伝達関数である。Ｈ８（ｊ）ｔは、時刻ｔ（つまり、更新前の）第４伝達関数記憶回路７４に記憶されたＮ個の第４伝達関数のうちのｊ番目の第４伝達関数である。α８は、第２ハウリング１６ａの第４伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ８は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第４伝達関数更新回路７５は、第４減算器７１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第４記憶回路７２に記憶された信号と、第２ハウリング１６ａの第４伝達関数の推定における学習速度を制御するための第８ステップサイズパラメータとを乗じることで第８更新係数を算出する。そして、算出した第８更新係数を第４伝達関数記憶回路７４に記憶された第４伝達関数に加算することで更新を行う。

［２−１−３．第１エコー／第１クロストークキャンセラ８０ａ］
第１エコー／第１クロストークキャンセラ８０ａは、第２エコー／第２クロストークキャンセラ９０ａの出力信号を用いて、第１スピーカ２２から出力された音声が第２マイク２３に回り込んで入力される第１エコー１３ａ、及び、第１話者１１の音声が第２マイク２３に入力される第１クロストーク１７ａの程度を示す第９妨害信号（すなわち第１エコー／第１クロストーク信号）を推定し、第９妨害信号を、第２ハウリングキャンセラ７０ａの出力信号から除去する回路である。

本実施の形態では、第１エコー／第１クロストークキャンセラ８０ａは、第９妨害信号が除去された信号を第２音声認識回路３２、第２エコー／第２クロストークキャンセラ９０ａ及び第２スピーカ２４に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第１エコー／第１クロストークキャンセラ８０ａは、第５伝達関数記憶回路８４、第５記憶回路８２、第５畳み込み演算器８３、第５減算器８１、及び、第５伝達関数更新回路８５を有する。

第５伝達関数記憶回路８４は、第１エコー１３ａと第１クロストーク１７ａとを合わせた伝達関数として推定された第５伝達関数を記憶する。

第５記憶回路８２は、第２エコー／第２クロストークキャンセラ９０ａの出力信号を記憶する。

第５畳み込み演算器８３は、第５記憶回路８２に記憶された信号と第５伝達関数記憶回路８４に記憶された第５伝達関数とを畳み込むことで第９妨害信号を生成する。例えば、第５畳み込み演算器８３は、以下の式２７に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ９’ｔは、時刻ｔにおける第９妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ９（ｉ）ｔは、時刻ｔにおいて第５伝達関数記憶回路８４に記憶されたＮ個の第５伝達関数のうちのｉ番目の第５伝達関数である。ｘ９（ｔ−ｉ）は、第５記憶回路８２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第５減算器８１は、第２ハウリングキャンセラ７０ａの出力信号から、第５畳み込み演算器８３から出力された第９妨害信号を除去し、第１エコー／第１クロストークキャンセラ８０ａの出力信号として出力する。例えば、第５減算器８１は、以下の式２８に示される減算を行う。

（数２８）
ｅ９_ｔ＝ｙ９_ｔ−ｙ９’_ｔ・・・（式２８）

ここで、ｅ９ｔは、時刻ｔにおける第５減算器８１の出力信号である。ｙ９ｔは、時刻ｔにおける第２ハウリングキャンセラ７０ａの出力信号である。

第５伝達関数更新回路８５は、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とに基づいて第５伝達関数記憶回路８４に記憶された第５伝達関数を更新する。例えば、第５伝達関数更新回路８５は、以下の式２９に示されるように、独立成分分析を用いて、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とに基づいて、第５減算器８１の出力信号と第５記憶回路８２に記憶された信号とが相互に独立となるように、第５伝達関数記憶回路８４に記憶された第５伝達関数を更新する。

（数２９）
Ｈ９（ｊ）_ｔ＋１＝Ｈ９（ｊ）_ｔ＋α９×φ９（ｅ９_ｔ）×ｘ９（ｔ−ｊ）・・・（式２９）

ここで、Ｈ９（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第５伝達関数記憶回路８４に記憶されるＮ個の第５伝達関数のうちのｊ番目の第５伝達関数である。Ｈ９（ｊ）ｔは、時刻ｔ（つまり、更新前の）第５伝達関数記憶回路８４に記憶されたＮ個の第５伝達関数のうちのｊ番目の第５伝達関数である。α９は、第１エコー１３ａと第１クロストーク１７ａとを合わせた第５伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ９は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第５伝達関数更新回路８５は、第５減算器８１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第５記憶回路８２に記憶された信号と、第１エコー１３ａと第１クロストーク１７ａとを合わせた第５伝達関数の推定における学習速度を制御するための第９ステップサイズパラメータとを乗じることで第５更新係数を算出する。そして、算出した第５更新係数を第５伝達関数記憶回路８４に記憶された第５伝達関数に加算することで更新を行う。

なお、本実施の形態における翻訳装置２０では、第１話者１１の同一時刻における音声について、第２エコー／第２クロストークキャンセラ９０ａの出力信号が第１エコー／第１クロストークキャンセラ８０ａに入力される時刻は、第２ハウリングキャンセラ７０ａの出力が第１エコー／第１クロストークキャンセラ８０ａに入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第１エコー／第１クロストークキャンセラ８０ａが第１クロストーク１７ａをキャンセルできるように、因果律が保持されている。これは、第２エコー／第２クロストークキャンセラ９０ａの出力信号が第１エコー／第１クロストークキャンセラ８０ａに入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第１ハウリングキャンセラ６０ａでの処理速度、第２エコー／第２クロストークキャンセラ９０ａでの処理速度等）と、第１話者１１の音声が第２マイク２３に入力される時刻を決定づける要因（第１話者１１と第２マイク２３との位置関係等）とを考慮することで適宜、実現し得る。

［２−１−４．第２エコー／第２クロストークキャンセラ９０ａ］
第２エコー／第２クロストークキャンセラ９０ａは、第１エコー／第１クロストークキャンセラ８０ａの出力信号を用いて、第２スピーカ２４から出力された音声が第１マイク２１に回り込んで入力される第２エコー１４ａ、及び、第２話者１２の音声が第１マイク２１に入力される第２クロストーク１８ａの程度を示す第１０妨害信号（すなわち第２エコー／第２クロストーク信号）を推定し、第１０妨害信号を、第１ハウリングキャンセラ６０ａの出力信号から除去する回路である。

本実施の形態では、第２エコー／第２クロストークキャンセラ９０ａは、第１０妨害信号が除去された信号を第１音声認識回路３１、第１エコー／第１クロストークキャンセラ８０ａ及び第１スピーカ２２に出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。

より詳しくは、第２エコー／第２クロストークキャンセラ９０ａは、第６伝達関数記憶回路９４、第６記憶回路９２、第６畳み込み演算器９３、第６減算器９１、及び、第６伝達関数更新回路９５を有する。

第６伝達関数記憶回路９４は、第２エコー１４ａと第２クロストーク１８ａとを合わせた伝達関数として推定された第６伝達関数を記憶する。

第６記憶回路９２は、第１エコー／第１クロストークキャンセラ８０ａの出力信号を記憶する。

第６畳み込み演算器９３は、第６記憶回路９２に記憶された信号と第６伝達関数記憶回路９４に記憶された第６伝達関数とを畳み込むことで第１０妨害信号を生成する。例えば、第６畳み込み演算器９３は、以下の式３０に示される畳み込み演算を行うＮタップのＦＩＲフィルタである。

ここで、ｙ１０’ｔは、時刻ｔにおける第１０妨害信号である。Ｎは、ＦＩＲフィルタのタップ数である。Ｈ１０（ｉ）ｔは、時刻ｔにおいて第６伝達関数記憶回路９４に記憶されたＮ個の第６伝達関数のうちのｉ番目の第６伝達関数である。ｘ１０（ｔ−ｉ）は、第６記憶回路９２に記憶された信号のうち、（ｔ−ｉ）番目の信号である。

第６減算器９１は、第１ハウリングキャンセラ６０ａの出力信号から、第６畳み込み演算器９３から出力された第１０妨害信号を除去し、第２エコー／第２クロストークキャンセラ９０ａの出力信号として出力する。例えば、第６減算器９１は、以下の式３１に示される減算を行う。

（数３１）
ｅ１０_ｔ＝ｙ１０_ｔ−ｙ１０’_ｔ・・・（式３１）

ここで、ｅ１０ｔは、時刻ｔにおける第６減算器９１の出力信号である。ｙ１０ｔは、時刻ｔにおける第１ハウリングキャンセラ６０ａの出力信号である。

第６伝達関数更新回路９５は、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とに基づいて第６伝達関数記憶回路９４に記憶された第６伝達関数を更新する。例えば、第６伝達関数更新回路９５は、以下の式３２に示されるように、独立成分分析を用いて、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とに基づいて、第６減算器９１の出力信号と第６記憶回路９２に記憶された信号とが相互に独立となるように、第６伝達関数記憶回路９４に記憶された第６伝達関数を更新する。

（数３２）
Ｈ１０（ｊ）_ｔ＋１＝Ｈ１０（ｊ）_ｔ＋α１０×φ１０（ｅ１０_ｔ）×ｘ１０（ｔ−ｊ）
・・・（式３２）

ここで、Ｈ１０（ｊ）ｔ＋１は、時刻ｔ＋１における（つまり、更新後の）第６伝達関数記憶回路９４に記憶されるＮ個の第６伝達関数のうちのｊ番目の第６伝達関数である。Ｈ１０（ｊ）ｔは、時刻ｔ（つまり、更新前の）第６伝達関数記憶回路９４に記憶されたＮ個の第６伝達関数のうちのｊ番目の第６伝達関数である。α１０は、第２エコー１４ａと第２クロストーク１８ａとを合わせた第６伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ１０は、非線形関数（例えば、シグモイド関数（ｓｉｇｍｏｉｄ関数）、双曲線正接関数（ｔａｎｈ関数）、正規化線形関数又は符号関数（ｓｉｇｎ関数））である。

このように、第６伝達関数更新回路９５は、第６減算器９１の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第６記憶回路９２に記憶された信号と、第２エコー１４ａと第２クロストーク１８ａとを合わせた第６伝達関数の推定における学習速度を制御するための第１０ステップサイズパラメータとを乗じることで第６更新係数を算出する。そして、算出した第５更新係数を第６伝達関数記憶回路９４に記憶された第６伝達関数に加算することで更新を行う。

なお、本実施の形態における翻訳装置２０では、第２話者１２の同一時刻における音声について、第１エコー／第１クロストークキャンセラ８０ａの出力信号が第２エコー／第２クロストークキャンセラ９０ａに入力される時刻は、第１ハウリングキャンセラ６０ａの出力が第２エコー／第２クロストークキャンセラ９０ａに入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第２エコー／第２クロストークキャンセラ９０ａが第２クロストーク１８ａをキャンセルできるように、因果律が保持されている。これは、第１エコー／第１クロストークキャンセラ８０ａの出力信号が第２エコー／第２クロストークキャンセラ９０ａに入力される時刻を決定づける要因（Ａ／Ｄ変換の速度、第２ハウリングキャンセラ７０ａでの処理速度、第１エコー／第１クロストークキャンセラ８０ａでの処理速度等）と、第２話者１２の音声が第１マイク２１に入力される時刻を決定づける要因（第２話者１２と第１マイク２１との位置関係等）とを考慮することで適宜、実現し得る。

［２−２．動作］
以上のように構成された本実施の形態における翻訳装置２０ａは、次のように動作する。ここでは、実施の形態１で示した翻訳装置２０と異なる点を中心に記述する。

まずは、制御回路３７の動作について記述する。

予め、第１言語選択回路２７及び第２言語選択回路２８は、第１話者１１から第１話者１１が用いる第１言語の選択及び第２話者１２から第２話者１２が用いる第２言語の選択を受け付け、制御回路３７に通知する。なお、これまで記したように、実施の形態２においては、第１言語と第２言語とは同一である。

制御回路３７は、第１言語選択回路２７と第２言語選択回路２８とから、第１言語と第２言語とが同一であると通知されているため、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに、機能を停止させる。

次に音声について記述する。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、第１ハウリング１５ａ、第２エコー１４ａ及び第２クロストーク１８ａが、第１マイク２１に入力される。第１マイク２１の出力信号は、第１ハウリングキャンセラ６０ａにおいて、第１ハウリング信号が除去される。第１ハウリング信号は、第１ハウリング１５ａの程度を示す（推定された）信号である。よって、第１ハウリングキャンセラ６０ａの出力信号は、第１マイク２１の出力信号から、第１ハウリング１５ａの影響が除去された信号となる。

続いて、第１ハウリングキャンセラ６０ａの出力信号は、第２エコー／第２クロストークキャンセラ９０ａにおいて、第９妨害信号が除去される。第９妨害信号（すなわち第２エコー／第２クロストーク信号）は、第２エコー１４ａ及び第２クロストーク１８ａの程度を示す（推定された）信号である。よって、第２エコー／第２クロストークキャンセラ９０ａの出力信号は、第１ハウリングキャンセラ６０ａの出力信号から、第２エコー１４ａ及び第２クロストーク１８ａの影響が除去された信号となり、第１音声認識回路３１、第１エコー／第１クロストークキャンセラ８０ａ及び第１スピーカ２２に出力される。

続いて、第１音声認識回路３１は、第１話者１１の音声から、第１ハウリングキャンセラ６０ａにより第１ハウリング１５ａが除去され、第２エコー／第２クロストークキャンセラ９０ａにより第２エコー１４ａと第２クロストーク１８ａが除去されたデジタル音声データが入力される。第１音声認識回路３１は、入力されたデジタル音声データに対し、音声認識を行った結果である第１文字列を制御回路３７に出力する。

第１スピーカ２２に入力された信号は、音声となって出力される。

同様に、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、第２ハウリング１６ａ、第１エコー１３ａ及び第１クロストーク１７ａが、第２マイク２３に入力される。第２マイク２３の出力信号は、第２ハウリングキャンセラ７０ａにおいて、第２ハウリング信号が除去される。第２ハウリング信号は、第２ハウリング１６ａの程度を示す（推定された）信号である。よって、第２ハウリングキャンセラ７０ａの出力信号は、第２マイク２３の出力信号から、第２ハウリング１６ａの影響が除去された信号となる。

続いて、第２ハウリングキャンセラ７０ａの出力信号は、第１エコー／第１クロストークキャンセラ８０ａにおいて、第１０妨害信号が除去される。第１０妨害信号（すなわち第１エコー／第１クロストーク信号）は、第１エコー１３ａ及び第１クロストーク１７ａの程度を示す（推定された）信号である。よって、第１エコー／第１クロストークキャンセラ８０ａの出力信号は、第２ハウリングキャンセラ７０ａの出力信号から、第１エコー１３ａ及び第１クロストーク１７ａの影響が除去された信号となり、第２音声認識回路３２、第２エコー／第２クロストークキャンセラ９０ａ及び第２スピーカ２４に出力される。

続いて、第２音声認識回路３２は、第２話者１２の音声から、第２ハウリングキャンセラ７０ａにより第２ハウリング１６ａが除去され、第１エコー／第１クロストークキャンセラ８０ａにより第１エコー１３ａ及び第１クロストーク１７ａが除去されたデジタル音声データが入力される。第２音声認識回路３２は、入力されたデジタル音声データに対し、音声認識を行った結果である第２文字列を制御回路３７に出力する。

第２スピーカ２４に入力された信号は、音声となって出力される。

制御回路３７は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列を、映像信号発生回路３８に出力する。

映像信号発生回路３８は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、及び、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列を、第１表示回路２５及び第２表示回路２６に出力する。

翻訳装置２０ａでは、第１話者１１の音声及び第２話者１２の音声は以上のように、処理される。

以上により、第１音声認識回路３１に入力される出力信号は、第１マイク２１に入力された音声のうち、第１ハウリング１５ａ、第２エコー１４ａ及び第２クロストーク１８ａの影響が除去された出力信号、つまり、音響的雑音が除去された第１話者１１の音声のみとなる。さらには、第１スピーカ２２から出力される音声は、第１マイク２１に入力された音声のうち、第１ハウリング１５ａ、第２エコー１４ａ及び第２クロストーク１８ａの影響が除去された出力信号、つまり、音響的雑音が除去された第１話者１１の音声のみとなる。

また、第２音声認識回路３２に入力される出力信号は、第２マイク２３に入力された音声のうち、第２ハウリング１６ａ、第１エコー１３ａ及び第１クロストーク１７ａの影響が除去された出力信号、つまり、音響的雑音が除去された第２話者１２の音声のみとなる。さらには、第２スピーカ２４から出力される音声は、第２マイク２３に入力された音声のうち、第２ハウリング１６ａ、第１エコー１３ａ及び第１クロストーク１７ａの影響が除去された出力信号、つまり、音響的雑音が除去された第２話者１２の音声のみとなる。

［２−３．効果等］
以上説明したように、翻訳装置２０ａは、第１言語選択回路２７が受け付けた第１言語と、第２言語選択回路２８が受け付けた第２言語とが同一の場合、制御回路３７は、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに、機能を停止させる。

このような翻訳装置２０ａは、第１言語と第２言語とが同一の場合、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに機能を停止させ、処理速度を上げることができる。また、翻訳が不要だが、拡声することができるため、第１話者１１と第２話者１２とが離れている場合や、周囲が騒がしい場合であっても、相互に会話を行うことができる。

（実施の形態３）
実施の形態２では、第１話者１１の第１言語と第２話者１２の第２言語とが同一で、拡声が必要な場合を示した。一方で、実施の形態３では、第１話者１１の第１言語と第２話者１２の第２言語が同一であり、拡声が不要な場合に適した構成を示す。

実施の形態３では、実施の形態１と比べ、エコーに関するキャンセラと、翻訳機能と、翻訳した音声を出力する機能と、拡声する機能が不要になる。

［３−１．構成］
図６は、実施の形態３における翻訳装置２０ｂの構成を示すブロック図である。なお、実施の形態３では、実施の形態１と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。

実施の形態３における翻訳装置２０ｂは、実施の形態１と比べ、第１話者１１の第１言語と第２話者１２の第２言語とが同一であり、拡声が不要なため、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、第１スピーカ２２、第２スピーカ２４が不要となる。さらに、第１スピーカ２２、第２スピーカ２４が不要となることで、第１エコー１３、第２エコー１４、第３エコー１５、及び、第４エコー１６が発生しないため、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、及び、第４エコーキャンセラ７０も不要となる。

一方で、第１表示回路２５及び第２表示回路２６は、第１話者１１及び第２話者１２の発声を文字列として表示するため必要となる。また、翻訳装置２０ｂは、第１マイク２１及び第２マイク２３も備えているため、ある話者の音声がその話者以外の音声を入力するためのマイクに入力される現象であるクロストークが発生する。そのため、クロストークをキャンセルする機能は必要となる。

［３−２．動作］
以上のように構成された本実施の形態における翻訳装置２０ｂは、次のように動作する。ここでは、実施の形態１で示した翻訳装置２０と異なる点を中心に記述する。

まずは、制御回路３７の動作について記述する。

予め、第１言語選択回路２７及び第２言語選択回路２８は、第１話者１１から第１話者１１が用いる第１言語の選択及び第２話者１２から第２話者１２が用いる第２言語の選択を受け付け、制御回路３７に通知する。なお、これまで記したように、実施の形態３においては、第１言語と第２言語は同一である。さらに、拡声が不要なため、制御回路３７は、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、第１スピーカ２２、第２スピーカ２４、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、及び、第４エコーキャンセラ７０の機能を停止させる。

次に音声について記述する。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、第２クロストーク１８が、第１マイク２１に入力される。第１マイク２１の出力信号は、第２クロストークキャンセラ９０において、第６妨害信号（すなわち第２クロストーク信号）が除去される。第６妨害信号は、第２クロストーク１８の程度を示す（推定された）信号である。よって、第２クロストークキャンセラ９０の出力信号は、第１マイク２１の出力信号から、第２クロストーク１８の影響が除去された信号となり、第１音声認識回路３１と第１クロストークキャンセラ８０に出力される。

続いて、第１音声認識回路３１には、第１話者１１の音声から、第２クロストークキャンセラ９０により第２クロストーク１８が除去されたデジタル音声データが入力される。第１音声認識回路３１は、入力されたデジタル音声データに対し、音声認識を行った結果である第１文字列を制御回路３７に出力する。

同様に、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、第１クロストーク１７が、第２マイク２３に入力される。第２マイク２３の出力信号は、第１クロストークキャンセラ８０において、第５妨害信号（すなわち第１クロストーク信号）が除去される。第５妨害信号は、第１クロストーク１７の程度を示す（推定された）信号である。よって、第１クロストークキャンセラ８０の出力信号は、第２マイク２３の出力信号から、第１クロストーク１７の影響が除去された信号となり、第２音声認識回路３２と第２クロストークキャンセラ９０に出力される。

続いて、第２音声認識回路３２には、第２話者１２の音声から、第１クロストークキャンセラ８０により第１クロストーク１７が除去されたデジタル音声データが入力される。第２音声認識回路３２は、入力されたデジタル音声データに対し、音声認識を行った結果である第２文字列を制御回路３７に出力する。

制御回路３７は、第１音声認識回路３１が出力した第１話者１１の音声の認識結果である第１言語の第１文字列、第２音声認識回路３２が出力した第２話者１２の音声の認識結果である第２言語の第２文字列を映像信号発生回路３８に出力する。

翻訳装置２０ｂでは、第１話者１１の音声及び第２話者１２の音声は以上のように、処理される。

以上により、第１音声認識回路３１に入力される出力信号は、第１マイク２１に入力された音声のうち、第２クロストーク１８の影響が除去された出力信号、つまり、音響的雑音が除去された第１話者１１の音声のみとなる。また、第２音声認識回路３２に入力される出力信号は、第２マイク２３に入力された音声のうち、第１クロストーク１７の影響が除去された出力信号、つまり、音響的雑音が除去された第２話者１２の音声のみとなる。

［３−３．効果］
このような翻訳装置２０ｂは、第１言語と第２言語とが同一、かつ拡声が不要な場合、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第３エコーキャンセラ６０と、第４エコーキャンセラ７０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６と、第１スピーカ２２と第２スピーカ２４とに機能を停止させ、処理速度を上げることができる。

［４−１．構成の選択］
これまで、実施の形態１〜３において、翻訳の要不要、拡声の要不要によって判断される構成を示した。

図７は、実施の形態１〜３のうち、制御回路３７が最適な構成を選択するフローチャートである。

まず、第１言語選択回路２７は、第１話者１１から第１話者１１が用いる第１言語の選択を受け付ける（ステップＳ３００）。さらに、受け付けた第１言語を制御回路３７に通知する。

次に、第２言語選択回路２８は、第２話者１２から第２話者１２が用いる第２言語の選択を受け付ける（ステップＳ３０１）。さらに、受け付けた第２言語を制御回路３７に通知する。

制御回路３７は、第１言語選択回路２７が受け付けた第１言語と、第２言語選択回路２８が受け付けた第２言語とが同一か否かを判断する（ステップＳ３０２）。

制御回路３７は、第１言語選択回路２７が受け付けた第１言語と、第２言語選択回路２８が受け付けた第２言語とが異なる場合（ステップＳ３０２でＮＯ）、実施の形態１の構成となるように各構成の機能を稼働させる（ステップＳ３０３）。

制御回路３７は、第１言語選択回路２７が受け付けた第１言語と、第２言語選択回路２８が受け付けた第２言語とが同一の場合（ステップＳ３０２でＹＥＳ）、拡声が必要か否かを判断する（ステップＳ３０４）。

制御回路３７は、拡声が必要な場合（ステップＳ３０４でＹＥＳ）、実施の形態２の構成となるように各構成の機能を稼働させる（ステップＳ３０５）。

制御回路３７は、拡声が不要な場合（ステップＳ３０４でＮＯ）、実施の形態３の構成となるように各構成の機能を稼働させる（ステップＳ３０６）。

なお、ステップＳ３０４における拡声が要か否かの判断は、制御回路３７によって行われてもよいし、第１話者１１又は、第２話者１２によって行われてもよい。第１話者１１又は、第２話者１２によって行われる場合、第１言語選択回路２７、第２言語選択回路２８、第１表示回路２５及び第２表示回路２６のいずれか１つの近傍に、拡声の要不要を設定するスイッチを設けてもよい。

（実施の形態４）
実施の形態１では、第１言語選択回路２７と第２言語選択回路２８とによって、第１話者１１と第２話者１２とが用いる言語を選択する。一方で、実施の形態４では、新たに、第１話者１１の音声と第２話者１２の音声とによって、第１話者１１と第２話者１２とが用いる言語を識別する機能を付与した構成を示す。

［５−１．構成］
図８は、実施の形態４における翻訳装置２０ｃの構成を示すブロック図である。なお、実施の形態４では、実施の形態１と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。

実施の形態４における翻訳装置２０ｃは、実施の形態１に加え、第１言語識別回路３１１と第２言語識別回路３２１とを備える。さらに、第１言語選択回路２７と第２言語選択回路２８とを備えていなくてもよい。

第１言語識別回路３１１は、第１音声に基づいて第１言語を識別して制御回路３７に通知する。すなわち、第１話者１１の第１音声に基づいて第１話者１１が用いる第１言語を識別する。例えば、第１音声認識回路３１は、第１話者１１の第１音声を音声認識して第１文字列を第１言語識別回路３１１へも出力する。

第２言語識別回路３２１は、第２音声に基づいて第２言語を識別して制御回路３７に通知する。すなわち、第２話者１２の第２音声に基づいて第２話者１２が用いる第２言語を識別する。例えば、第２音声認識回路３２は、第２話者１２の第２音声を音声認識して第２文字列を第２言語識別回路３２１へも出力する。

さらに、制御回路３７は、第１言語識別回路３１１が識別した第１言語と、第２言語識別回路３２１が識別した第２言語と、に基づいて、第１音声認識回路３１に、第１言語で音声認識させ、第２音声認識回路３２に、第２言語で音声認識させ、第１翻訳回路３３に、第１言語から第２言語に翻訳させ、第２翻訳回路３４に、第２言語から第１言語に翻訳させ、第１音声合成回路３５に、第２言語で音声合成させ、第２音声合成回路３６に、第１言語で音声合成させてもよい。

［５−２．動作］
以上のように構成された本実施の形態における翻訳装置２０ｃは、次のように動作する。ここでは、実施の形態１で示した翻訳装置２０と異なる点を中心に記述する。

これまで記したように、実施の形態１で示した翻訳装置２０と異なる点として、実施の形態４で示す翻訳装置２０ｃでは、第１言語選択回路２７と第２言語選択回路２８とを備えず、第１言語識別回路３１１と第２言語識別回路３２１とを備える。

そのため、予め、第１言語選択回路２７と第２言語選択回路２８とを用いて、言語の選択が行われることはない。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、実施の形態１と同じ音響的雑音が、第１マイク２１に入力される。第１マイク２１の出力信号が第１音声認識回路３１及び第１クロストークキャンセラ８０に到達するまでの処理は実施の形態１と同じである。その結果、第１音声認識回路３１及び第１クロストークキャンセラ８０に入力されるデジタル音声データは、実施の形態１と同じである。すなわち、第１音声認識回路３１及び第１クロストークキャンセラ８０は、第１話者１１の音声から、第２エコーキャンセラ５０により第２エコー１４が除去され、第３エコーキャンセラ６０により第３エコー１５が除去され、第２クロストークキャンセラ９０により第２クロストーク１８が除去されたデジタル音声データが入力される。第１音声認識回路３１は、入力されたデジタル音声データを第１言語識別回路３１１へ通知する。

また、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、実施の形態１と同じ音響的雑音が、第２マイク２３に入力される。第２マイク２３の出力信号が第２音声認識回路３２及び第２クロストークキャンセラ９０に到達するまでの処理は実施の形態１と同じである。その結果、第２音声認識回路３２及び第２クロストークキャンセラ９０に入力されるデジタル音声データは、実施の形態１と同じである。すなわち、第２音声認識回路３２及び第２クロストークキャンセラ９０は、第２話者１２の音声から、第１エコーキャンセラ４０により第１エコー１３が除去され、第４エコーキャンセラ７０により第４エコー１６が除去され、第１クロストークキャンセラ８０により第１クロストーク１７が除去されたデジタル音声データが入力される。第２音声認識回路３２は、入力されたデジタル音声データを第２言語識別回路３２１へ通知する。

続いて、第１言語識別回路３１１は、入力されたデジタル音声データに基づいて第１言語を識別して制御回路３７に通知する。

更に、第２言語識別回路３２１は、入力されたデジタル音声データに基づいて第２言語を識別して制御回路３７に通知する。

続いて、制御回路３７は、第１言語識別回路３１１から通知された第１言語を、第１音声認識回路３１、第１翻訳回路３３、第２翻訳回路３４、及び第１音声合成回路３５へ指示し、第２言語識別回路３２１から通知された第２言語を、第２音声認識回路３２、第１翻訳回路３３、第２翻訳回路３４、及び第２音声合成回路３６へ指示する。

次に、第１音声認識回路３１は、制御回路３７から指示された第１話者１１の第１言語の情報に基づいて、入力されたデジタル音声データに対し、音声認識を行った結果である第１文字列を第１翻訳回路３３と制御回路３７とに出力する。

さらに、第２音声認識回路３２は、制御回路３７から指示された第２話者１２の第２言語の情報に基づいて、入力されたデジタル音声データに対し、音声認識を行った結果である第２文字列を第２翻訳回路３４と制御回路３７とに出力する。

続いて、第１翻訳回路３３は、第１音声認識回路３１が出力した第１文字列を、制御回路３７から指示された第１話者１１の第１言語から第２話者１２の第２言語の第３文字列に変換し、第１音声合成回路３５及び制御回路３７に出力する。

更に、第２翻訳回路３４は、第２音声認識回路３２が出力した第２文字列を、制御回路３７から指示された第２話者１２の第２言語から第１話者１１の第１言語の第４文字列に変換し、第２音声合成回路３６及び制御回路３７に出力する。

この時点で、第１音声合成回路３５と第２音声合成回路３６と制御回路３７とが受け取った文字列は、実施の形態１と同一となるため、以降の処理手順は、実施の形態１と同様である。

［５−３．効果］
以上説明したように、翻訳装置２０ｃは、さらに、第１音声に基づいて第１言語を識別して制御回路３７に通知する第１言語識別回路３１１と、第２音声に基づいて第２言語を識別して制御回路３７に通知する第２言語識別回路３２１とを備え、制御回路３７は、第１言語識別回路３１１が識別した第１言語と、第２言語識別回路３２１が識別した第２言語と、に基づいて、第１音声認識回路３１に、第１言語で音声認識させ、第２音声認識回路３２に、第２言語で音声認識させ、第１翻訳回路３３に、第１言語から第２言語に翻訳させ、第２翻訳回路３４に、第２言語から第１言語に翻訳させ、第１音声合成回路３５に、第２言語で音声合成させ、第２音声合成回路３６に、第１言語で音声合成させる。

このような翻訳装置２０ｃは、話者が言語選択回路を使用する必要がなく、より簡便に翻訳できるようになる。

（実施の形態５）
実施の形態２では、第１話者１１と第２話者１２とが用いる言語を選択し、第１話者１１の第１言語と第２話者１２の第２言語が同一である場合に適した構成を示した。さらに、実施の形態４においては、第１話者１１の音声と第２話者１２の音声によって、第１話者１１と第２話者１２とが用いる言語を識別する機能を付与した構成を示した。

そこで、実施の形態５では、実施の形態４の構成において、実施の形態２と同じく第１話者１１の第１言語と第２話者１２の第２言語が同一である場合に適した構成を示す。

［６−１．構成］
図９は、実施の形態５における翻訳装置２０ｄの構成を示すブロック図である。なお、実施の形態５では、実施の形態２及び実施の形態４と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。

実施の形態５における翻訳装置２０ｄは、実施の形態２に加え、実施の形態４で説明した第１言語識別回路３１１と第２言語識別回路３２１とを備える。

［６−２．動作］
以上のように構成された本実施の形態における翻訳装置２０ｄは、次のように動作する。ここでは、実施の形態２で示した翻訳装置２０ａと異なる点を中心に記述する。

これまで記したように、実施の形態２で示した翻訳装置２０ａと異なる点として、実施の形態５で示す翻訳装置２０ｄでは、第１言語選択回路２７と第２言語選択回路２８を備えず、第１言語識別回路３１１と第２言語識別回路３２１とを備える。

まずは、制御回路３７の動作について記述する。

この実施の形態５は、実施の形態４で示した［５−２．動作］において、第１話者１１の第１言語と第２話者１２の第２言語とが同一である場合に適用される。実施の形態４の構成において、制御回路３７は、第１言語識別回路３１１及び第２言語識別回路３２１から、第１言語と第２言語とが同一であると通知されている。そのため、この実施の形態５においては、制御回路３７は、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６の機能を停止させる。

次に音声について記述する。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、実施の形態２と同じ音響的雑音が、第１マイク２１に入力される。第１マイク２１の出力信号が第１音声認識回路３１、第１スピーカ２２及び第１エコー／第１クロストークキャンセラ８０ａに到達するまでの処理は実施の形態２と同じである。その結果、第１音声認識回路３１、第１スピーカ２２及び第１エコー／第１クロストークキャンセラ８０ａに入力されるデジタル音声データは、実施の形態２と同じである。すなわち、第１音声認識回路３１、第１スピーカ２２及び第１エコー／第１クロストークキャンセラ８０ａは、第１話者１１の音声から、第１ハウリングキャンセラ６０ａにより第１ハウリング１５ａが除去され、第２エコー／第２クロストークキャンセラ９０ａにより第２エコー１４ａと第２クロストーク１８ａとが除去されたデジタル音声データが入力される。

第１音声認識回路３１は、入力されたデジタル音声データに対し、音声認識を行った結果である第１文字列を制御回路３７と第１言語識別回路３１１とに出力する。

また、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、実施の形態２と同じ音響的雑音が、第２マイク２３に入力される。第２マイク２３の出力信号が第２音声認識回路３２、第２スピーカ２４及び第２エコー／第２クロストークキャンセラ９０ａに到達するまでの処理は実施の形態２と同じである。その結果、第２音声認識回路３２、第２スピーカ２４及び第２エコー／第２クロストークキャンセラ９０ａに入力されるデジタル音声データは、実施の形態２と同じである。すなわち、第２音声認識回路３２、第２スピーカ２４及び第２エコー／第２クロストークキャンセラ９０ａは、第２話者１２の音声から、第２ハウリングキャンセラ７０ａにより第２ハウリング１６ａが除去され、第１エコー／第１クロストークキャンセラ８０ａにより第１エコー１３ａと第１クロストーク１７ａとが除去されたデジタル音声データが入力される。

第２音声認識回路３２は、入力されたデジタル音声データに対し、音声認識を行った結果である第２文字列を制御回路３７と第２言語識別回路３２１とに出力する。

なお、これまで記したように、実施の形態５においては、第１言語と第２言語とは同一である。すなわち翻訳機能と翻訳した音声を出力する機能とが不要になる。

この時点で、第１スピーカ２２と第２スピーカ２４と制御回路３７と第１エコー／第１クロストークキャンセラ８０ａと第２エコー／第２クロストークキャンセラ９０ａとが受け取った信号は、実施の形態２と同一となるため、以降の処理手順は、実施の形態２と同様である。

［６−３．効果］
以上説明したように、翻訳装置２０ｄは、第１言語識別回路３１１が識別した第１言語と、第２言語識別回路３２１が識別した第２言語とが同一の場合、制御回路３７は、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに、機能を停止させる。

このような翻訳装置２０ｄは、話者が言語選択回路を使用する必要がなく、より簡便に翻訳できるようになる。さらに、第１言語と第２言語とが同一の場合、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６とに機能を停止させ、処理速度を上げることができる。

（実施の形態６）
実施の形態３では、第１話者１１と第２話者１２とが用いる言語を選択し、第１話者１１の第１言語と第２話者１２の第２言語とが同一であり、拡声が不要な場合に適した構成を示した。さらに、実施の形態４においては、第１話者１１の音声と第２話者１２の音声によって、第１話者１１と第２話者１２とが用いる言語を識別する機能を付与した構成を示した。

そこで、実施の形態６では、実施の形態４の構成において、実施の形態３と同じく第１話者１１の第１言語と第２話者１２の第２言語とが同一であり、拡声が不要な場合に適した構成を示す。

［７−１．構成］
図１０は、実施の形態６における翻訳装置２０ｅの構成を示すブロック図である。なお、実施の形態６では、実施の形態３と実施の形態４と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。

実施の形態６における翻訳装置２０ｅは、実施の形態３に加え、実施の形態４で説明した第１言語識別回路３１１と第２言語識別回路３２１とを備える。

［７−２．動作］
以上のように構成された本実施の形態における翻訳装置２０ｅで次のように動作する。ここでは、実施の形態３で示した翻訳装置２０ｂと異なる点を中心に記述する。

これまで記したように、実施の形態３で示した翻訳装置２０ｂと異なる点として、実施の形態６で示す翻訳装置２０ｅでは、第１言語選択回路２７と第２言語選択回路２８を備えず、第１言語識別回路３１１と第２言語識別回路３２１とを備える。

まずは、制御回路３７の動作について記述する。

この実施の形態６は、実施の形態４で示した［５−２．動作］において、第１話者１１の第１言語と第２話者１２の第２言語とが同一であり、拡声が不要な場合に適用される。実施の形態４の構成において、制御回路３７は、第１言語識別回路３１１及び第２言語識別回路３２１から、第１言語と第２言語とが同一であると通知されている。そのため、この実施の形態６においては、制御回路３７は、第１翻訳回路３３、第２翻訳回路３４、第１音声合成回路３５、第２音声合成回路３６、第１スピーカ２２、第２スピーカ２４、第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、及び、第４エコーキャンセラ７０の機能を停止させる。

次に音声について記述する。

第１話者１１の音声は、第１マイク２１に入力される。また、第１話者１１の音声以外に、実施の形態３と同じ音響的雑音が、第１マイク２１に入力される。第１マイク２１の出力信号が第１音声認識回路３１、及び第１クロストークキャンセラ８０に到達するまでの処理は実施の形態３と同じである。その結果、第１音声認識回路３１、及び第１クロストークキャンセラ８０に入力されるデジタル音声データは、実施の形態３と同じである。すなわち、第１音声認識回路３１、及び第１クロストークキャンセラ８０は、第１話者１１の音声から、第２クロストークキャンセラ９０により第２クロストーク１８が除去されたデジタル音声データが入力される。第１音声認識回路３１は、入力されたデジタル音声データに対し、音声認識を行った結果である第１文字列を制御回路３７、第１言語識別回路３１１及び映像信号発生回路３８に出力する。

また、第２話者１２の音声は、第２マイク２３に入力される。また、第２話者１２の音声以外に、実施の形態３と同じ音響的雑音が、第２マイク２３に入力される。第２マイク２３の出力信号が第２音声認識回路３２、及び第２クロストークキャンセラ９０に到達するまでの処理は実施の形態３と同じである。その結果、第２音声認識回路３２、及び第２クロストークキャンセラ９０に入力されるデジタル音声データは、実施の形態２と同じである。すなわち、第２音声認識回路３２、及び第２クロストークキャンセラ９０は、第２話者１２の音声から、第１クロストークキャンセラ８０により第１クロストーク１７が除去されたデジタル音声データが入力される。第２音声認識回路３２は、入力されたデジタル音声データに対し、音声認識を行った結果である第２文字列を制御回路３７、第２言語識別回路３２１及び映像信号発生回路３８に出力する。

この時点で、制御回路３７と映像信号発生回路３８と第１クロストークキャンセラ８０と第２クロストークキャンセラ９０とが受け取った信号は、実施の形態３と同一となるため、以降の処理手順は、実施の形態３と同様である。

［７−３．効果］
このような翻訳装置２０ｅは、話者が言語選択回路を使用する必要がなく、より簡便に翻訳できるようになる。第１言語と第２言語とが同一、かつ拡声が不要な場合、第１エコーキャンセラ４０と、第２エコーキャンセラ５０と、第３エコーキャンセラ６０と、第４エコーキャンセラ７０と、第１翻訳回路３３と、第２翻訳回路３４と、第１音声合成回路３５と、第２音声合成回路３６と、第１スピーカ２２と第２スピーカ２４とに機能を停止させ、処理速度を上げることができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１〜６を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施の形態にも適用できる。また、上記実施の形態１〜６で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

なお、上記で説明した制御回路３７は、第１音声合成回路３５の出力と、第２音声合成回路３６の出力とが、時間的に重複しないように制御してもよい。これにより、全てのエコーキャンセラの不要な信号を除去する精度を高めることができ、さらに、両話者の話しやすさと聞き取りやすさとを向上させることができる。また、制御回路３７は、一方の話者の合成音声の出力を優先してもよい。例えば、図１に示す第１話者１１のように客の合成音声の出力を優先してもよい。

また、実施の形態５と実施の形態６とにおいては、実施の形態４で第１話者１１の第１言語と第２話者１２の第２言語が同一であることを識別した後に、適用されると記したが、これに限らない。例えば、実施の形態４〜６で説明した第１言語識別回路３１１と第２言語識別回路３２１とを備える場合における翻訳言語を決定する方法の一例を示す。まず、第１話者１１と第２話者１２は、本題の翻訳したい内容を話す前に、お互いの母国語を用いて、挨拶する。すると、第１言語識別回路３１１及び第２言語識別回路３２１は、言語を識別し、制御回路３７に通知する。続いて、制御回路３７は、通知された言語に基づいて、第１翻訳回路３３及び第２翻訳回路３４に指示し、第１翻訳回路３３及び第２翻訳回路３４は、翻訳言語を決定する。このような方法を用いてもよい。なお、挨拶でなくてもよく、お互いの母国語を使った他の言葉でもよい。

さらに、一方の話者の言語を予め設定しておいてもよい。例えば、図１に示す第２話者１２のように受け付け側の言語を予め設定しておくことで、翻訳の処理が早くなる。

また、上記の必要のない構成要素、不要な構成要素とは、存在しなくてもよいし、制御回路３７が、構成要素の機能を停止させてもよい。

また、第１音声合成回路３５の出力と、第２音声合成回路３６とは、話者の声質を模擬する機能を有していてもよい。声質とは、例えば、声の高低などである。これにより、両話者は自然に会話を行うことができる。

また、制御回路３７は、第１音声合成回路３５が第１翻訳音声を出力している期間にだけ、第１エコーキャンセラ４０及び第３エコーキャンセラ６０に、第１伝達関数及び第３伝達関数を更新させてもよい。さらに、制御回路３７は、第２音声合成回路３６が第２翻訳音声を出力している期間にだけ、第２エコーキャンセラ５０及び第４エコーキャンセラ７０に、第２伝達関数及び第４伝達関数を更新させてもよい。

なお、図１に示した翻訳装置２０においては、第１表示回路２５と第２表示回路２６の２つの表示回路を有しているが、図１１に示すようにこれらが１つとなってもよい。

図１１は、翻訳装置２０の使用状態の一例を示す図である。

図１１に示す翻訳装置２０の一例では、例えば実施の形態１の構成要素が一体となった構成を示している。第２話者１２側に表示される第１表示回路２５では、第１話者１１の発言は黒文字で、第２話者１２の発言は白抜き文字で表され、第１話者１１側に表示される第２表示回路２６では、第１話者１１の発言は白抜き文字で、第２話者１２の発言は黒文字で表される。以上のような構成により、第１話者１１と第２話者１２との発言の区別がつきやすく、第１話者１１と第２話者１２にとって、視認性の良い翻訳装置２０となり得る。

また、実施の形態１〜６においては、第１話者１１と第２話者１２の双方向の会話について記したが、話者は２人に限られるものではない。図１に示す、第１話者１１は、例えば、客としたが、客は複数人いても構わない。複数人が順次発話することで、順次翻訳音声を出力することができる。当然ながら、図１に示す、受け付け側が複数人いても構わない。

なお、図１１に示す翻訳装置２０の一例では、第１話者１１側の第１スピーカ２２、及び、第２話者１２側の第２スピーカ２４の２つのスピーカを有している。しかし、１つのスピーカだけを有し、第１音声合成回路３５が出力する第１翻訳音声と第２音声合成回路３６が出力する第２翻訳音声とを加算して加算翻訳音声を出力する加算回路を追加して、上述の１つのスピーカに出力するようにしてもよい。

この場合、第１エコー１３と第４エコー１６が同じ現象になるため、第４エコーキャンセラ７０は不要となり、第１エコーキャンセラ４０だけが必要となる。同様に、第２エコー１４と第３エコー１５が同じ現象になるため、第３エコーキャンセラ６０は不要となり、第２エコーキャンセラ５０だけが必要となる。以上の構成から、ハードウェアの規模とコストを大幅に削減することが可能となる。

なお、１つのスピーカから拡声された加算翻訳音声が第２マイク２３に入力される現象を第５エコーとすると、第５エコーは、第１エコー１３及び第４エコー１６と同じ現象となる。そのため、第１エコーキャンセラ４０と同じ構成、機能をもつ第５エコーキャンセラが必要となる。また、１つのスピーカから拡声された加算翻訳音声が第１マイク２１に入力される現象を第６エコーとすると、第６エコーは、第２エコー１４及び第３エコー１５と同じ現象となる。そのため、第２エコーキャンセラ５０と同じ構成、機能をもつ第６エコーキャンセラが必要となる。

以上説明したように、翻訳装置２０は、第１話者１１と第２話者１２とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、第１話者１１の第１音声を入力するための第１マイク２１と、第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、第１音声認識回路から出力された第１文字列を第２話者１２の言語に翻訳して第３文字列を出力するための第１翻訳回路と、第１翻訳回路から出力された第３文字列を第１翻訳音声に変換するための第１音声合成回路と、第２話者１２の第２音声を入力するための第２マイク２３と、第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、第２音声認識回路から出力された第２文字列を第１話者１１の言語に翻訳して第４文字列を出力するための第２翻訳回路と、第２翻訳回路から出力された第４文字列を第２翻訳音声に変換するための第２音声合成回路と、第１音声合成回路が出力する第１翻訳音声と第２音声合成回路が出力する第２翻訳音声とを加算して加算翻訳音声を出力する加算回路と、加算回路が出力する加算翻訳音声を拡声するためのスピーカと、スピーカから拡声された加算翻訳音声が第２マイク２３に入力される現象を第５エコーとしたとき、加算翻訳音声と第５エコーに対応する第５伝達関数とを用いて、第５エコーを示す第５エコー信号を推定し、第５エコー信号を、第２マイク２３の出力信号から除去する第５エコーキャンセラと、スピーカから拡声された加算翻訳音声が第１マイク２１に入力される現象を第６エコーとしたとき、加算翻訳音声と第６エコーに対応する第６伝達関数とを用いて、第６エコーを示す第６エコー信号を推定し、第６エコー信号を、第１マイク２１の出力信号から除去する第６エコーキャンセラと、制御回路とを備え、制御回路は、第１音声合成回路が第１翻訳音声を出力し、又は第２音声合成回路が第２翻訳音声を出力している期間に、第５エコーキャンセラに、第５エコー信号を推定する伝達関数を更新させ、第１音声合成回路が第１翻訳音声を出力し、又は第２音声合成回路が第２翻訳音声を出力している期間に、第６エコーキャンセラに、第６エコー信号を推定する伝達関数を更新させる。

このような翻訳装置２０は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行うことができる。さらに、少ない構成要素によって、上記を達成できることから、ハードウェアの規模とコストを大幅に削減することが可能となる。

また例えば翻訳装置２０は、さらに、第１音声が第２マイク２３に入力される現象を第１クロストークとしたとき、第１音声を用いて、第１クロストークを示す第１クロストーク信号を推定し、第１クロストーク信号を、第２マイク２３の出力信号から除去する第１クロストークキャンセラと、第２音声が第１マイク２１に入力される現象を第２クロストークとしたとき、第２音声を用いて、第２クロストークを示す第２クロストーク信号を推定し、第２クロストーク信号を、第１マイク２１の出力信号から除去する第２クロストークキャンセラとを備える。

上記で説明したような翻訳方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第１エコーキャンセラ４０、第２エコーキャンセラ５０、第３エコーキャンセラ６０、第４エコーキャンセラ７０、第１クロストークキャンセラ８０、及び、第２クロストークキャンセラ９０は、プログラムを実行するプロセッサによって実現されてもよい。そのプロセッサには、上記で記したＣＰＵに加え、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＭＰＵ（Ｍｉｃｒｏ−ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、及び、マイクロプロセッサが含まれる。

また、このような翻訳方法は、上記で記したＲＯＭ、ＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体に記録されるプログラム、及び、そのプログラムが記録された記録媒体で実現されてもよい。また、このような翻訳方法は、上記プログラムを実行するコンピュータ装置が実行してもよい。

なお、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲又はその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、複数の話者の音声と、この複数の話者の音声を認識し相手の言語に翻訳し音声合成して出力された複数の合成音声とが、同時に重複して存在するような場合でも、エコーを含む音響的雑音を除去し、安定して音声認識しながら、相互に会話を行う翻訳装置に適用可能である。具体的には、狭い空間範囲における翻訳装置として本開示は適用可能である。

１０カウンター
１１第１話者
１２第２話者
１３、１３ａ第１エコー
１４、１４ａ第２エコー
１５第３エコー
１５ａ第１ハウリング
１６第４エコー
１６ａ第２ハウリング
１７、１７ａ第１クロストーク
１８、１８ａ第２クロストーク
２０、２０ａ、２０ｂ、２０ｃ、２０ｄ、２０ｅ翻訳装置
２１第１マイク
２２第１スピーカ
２３第２マイク
２４第２スピーカ
２５第１表示回路
２６第２表示回路
２７第１言語選択回路
２８第２言語選択回路
３１第１音声認識回路
３２第２音声認識回路
３３第１翻訳回路
３４第２翻訳回路
３５第１音声合成回路
３６第２音声合成回路
３７制御回路
３８映像信号発生回路
４０第１エコーキャンセラ
４１第１減算器
４２第１記憶回路
４３第１畳み込み演算器
４４第１伝達関数記憶回路
４５第１伝達関数更新回路
５０第２エコーキャンセラ
５１第２減算器
５２第２記憶回路
５３第２畳み込み演算器
５４第２伝達関数記憶回路
５５第２伝達関数更新回路
６０第３エコーキャンセラ
６０ａ第１ハウリングキャンセラ
６１第３減算器
６２第３記憶回路
６３第３畳み込み演算器
６４第３伝達関数記憶回路
６５第３伝達関数更新回路
６６第１遅延器
７０第４エコーキャンセラ
７０ａ第２ハウリングキャンセラ
７１第４減算器
７２第４記憶回路
７３第４畳み込み演算器
７４第４伝達関数記憶回路
７５第４伝達関数更新回路
７６第２遅延器
８０第１クロストークキャンセラ
８０ａ第１エコー／第１クロストークキャンセラ
８１第５減算器
８２第５記憶回路
８３第５畳み込み演算器
８４第５伝達関数記憶回路
８５第５伝達関数更新回路
９０第２クロストークキャンセラ
９０ａ第２エコー／第２クロストークキャンセラ
９１第６減算器
９２第６記憶回路
９３第６畳み込み演算器
９４第６伝達関数記憶回路
９５第６伝達関数更新回路
２０１処理装置
２９１第１カメラ
２９２第２カメラ
３１１第１言語識別回路
３２１第２言語識別回路

Claims

第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第１話者の第１音声を入力するための第１マイクと、
前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、
前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、
前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、
前記第１翻訳音声を拡声するための第１スピーカと、
前記第２話者の第２音声を入力するための第２マイクと、
前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、
前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、
前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、
前記第２翻訳音声を拡声するための第２スピーカと、
前記第１スピーカから拡声された前記第１翻訳音声が前記第２マイクに入力される現象を第１エコーとしたとき、前記第１翻訳音声と前記第１エコーに対応する前記第１伝達関数とを用いて、前記第１エコーを示す第１エコー信号を推定し、前記第１エコー信号を、前記第２マイクの出力信号から除去する第１エコーキャンセラと、
前記第２スピーカから拡声された前記第２翻訳音声が前記第１マイクに入力される現象を第２エコーとしたとき、前記第２翻訳音声と前記第２エコーに対応する前記第２伝達関数とを用いて、前記第２エコーを示す第２エコー信号を推定し、前記第２エコー信号を、前記第１マイクの出力信号から除去する第２エコーキャンセラと、
制御回路とを備え、
前記制御回路は、
前記第１音声合成回路が前記第１翻訳音声を出力している期間に、前記第１エコーキャンセラに、前記第１エコー信号を推定する伝達関数を更新させ、
前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第２エコーキャンセラに、前記第２エコー信号を推定する伝達関数を更新させる
翻訳装置。
さらに、
前記第１スピーカから拡声された前記第１翻訳音声が前記第１マイクに入力される現象を第３エコーとしたとき、前記第１翻訳音声と前記第３エコーに対応する第３伝達関数を用いて、前記第３エコーを示す第３エコー信号を推定し、前記第３エコー信号を、前記第１マイクの前記出力信号から除去する第３エコーキャンセラと、
前記第２スピーカから拡声された前記第２翻訳音声が前記第２マイクに入力される現象を第４エコーとしたとき、前記第２翻訳音声と前記第４エコーに対応する第４伝達関数を用いて、前記第４エコーを示す第４エコー信号を推定し、前記第４エコー信号を、前記第２マイクの前記出力信号から除去する第４エコーキャンセラとを備え、
前記制御回路は、
前記第１音声合成回路が前記第１翻訳音声を出力している期間に、前記第３エコーキャンセラに、前記第３エコー信号を推定する前記第３伝達関数を更新させ、
前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第４エコーキャンセラに、前記第４エコー信号を推定する前記第４伝達関数を更新させる
請求項１記載の翻訳装置。
第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第１話者の第１音声を入力するための第１マイクと、
前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、
前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、
前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、
前記第１翻訳音声を拡声するための第１スピーカと、
前記第２話者の第２音声を入力するための第２マイクと、
前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、
前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、
前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、
前記第２翻訳音声を拡声するための第２スピーカと、
前記第１スピーカから拡声された前記第１翻訳音声が前記第１マイクに入力される現象を第３エコーとしたとき、前記第１翻訳音声と前記第３エコーに対応する第３伝達関数を用いて、前記第３エコーを示す第３エコー信号を推定し、前記第３エコー信号を、前記第１マイクの前記出力信号から除去する第３エコーキャンセラと、
前記第２スピーカから拡声された前記第２翻訳音声が前記第２マイクに入力される現象を第４エコーとしたとき、前記第２翻訳音声と前記第４エコーに対応する第４伝達関数を用いて、前記第４エコーを示す第４エコー信号を推定し、前記第４エコー信号を、前記第２マイクの前記出力信号から除去する第４エコーキャンセラとを備え、
制御回路とを備え、
前記制御回路は、
前記第１音声合成回路が前記第１翻訳音声を出力している期間に、前記第３エコーキャンセラに、前記第３エコー信号を推定する前記第３伝達関数を更新させ、
前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第４エコーキャンセラに、前記第４エコー信号を推定する前記第４伝達関数を更新させる
翻訳装置。
さらに、
前記第１音声が前記第２マイクに入力される現象を第１クロストークとしたとき、前記第１音声を用いて、前記第１クロストークを示す第１クロストーク信号を推定し、前記第１クロストーク信号を、前記第２マイクの前記出力信号から除去する第１クロストークキャンセラと、
前記第２音声が前記第１マイクに入力される現象を第２クロストークとしたとき、前記第２音声を用いて、前記第２クロストークを示す第２クロストーク信号を推定し、前記第２クロストーク信号を、前記第１マイクの前記出力信号から除去する第２クロストークキャンセラとを備える
請求項１から３のいずれか１項に記載の翻訳装置。
さらに、
前記第１話者から前記第１話者が用いる第１言語の選択を受け付け、前記制御回路に通知する第１言語選択回路と、
前記第２話者から前記第２話者が用いる第２言語の選択を受け付け、前記制御回路に通知する第２言語選択回路とを備え、
前記制御回路は、
前記第１言語選択回路から通知された第１言語と、前記第２言語選択回路から通知された第２言語と、に基づいて、
前記第１音声認識回路に、前記第１言語で音声認識させ、
前記第２音声認識回路に、前記第２言語で音声認識させ、
前記第１翻訳回路に、前記第１言語から前記第２言語に翻訳させ、
前記第２翻訳回路に、前記第２言語から前記第１言語に翻訳させ、
前記第１音声合成回路に、前記第２言語で音声合成させ、
前記第２音声合成回路に、前記第１言語で音声合成させる
請求項１又は２記載の翻訳装置。
さらに、
前記第１音声に基づいて第１言語を識別して前記制御回路に通知する第１言語識別回路と、
前記第２音声に基づいて第２言語を識別して前記制御回路に通知する第２言語識別回路とを備え、
前記制御回路は、
前記第１言語識別回路が識別した前記第１言語と、前記第２言語識別回路が識別した前記第２言語と、に基づいて、
前記第１音声認識回路に、前記第１言語で音声認識させ、
前記第２音声認識回路に、前記第２言語で音声認識させ、
前記第１翻訳回路に、前記第１言語から前記第２言語に翻訳させ、
前記第２翻訳回路に、前記第２言語から前記第１言語に翻訳させ、
前記第１音声合成回路に、前記第２言語で音声合成させ、
前記第２音声合成回路に、前記第１言語で音声合成させる
請求項１又は２又は５記載の翻訳装置。
前記第１言語選択回路が受け付けた前記第１言語と、前記第２言語選択回路が受け付けた前記第２言語と、が同一の場合、
前記制御回路は、
前記第１エコーキャンセラと、前記第２エコーキャンセラと、前記第１翻訳回路と、前記第２翻訳回路と、前記第１音声合成回路と、前記第２音声合成回路とに、機能を停止させる
請求項５記載の翻訳装置。
前記第１言語識別回路が識別した前記第１言語と、前記第２言語識別回路が識別した前記第２言語と、が同一の場合、
前記制御回路は、
前記第１エコーキャンセラと、前記第２エコーキャンセラと、前記第１翻訳回路と、前記第２翻訳回路と、前記第１音声合成回路と、前記第２音声合成回路とに、機能を停止させる
請求項６記載の翻訳装置。
さらに、
第１音声に基づいて、前記第１話者の性別判定を行う第１音声性別判定回路と、
第２音声に基づいて、前記第２話者の性別判定を行う第２音声性別判定回路とを備え、
前記制御回路は、
前記第１音声合成回路に、前記第１音声性別判定回路の判定結果と同じ性別の合成音声を、出力させ、
前記第２音声合成回路に、前記第２音声性別判定回路の判定結果と同じ性別の合成音声を、出力させる
請求項１から８のいずれか１項に記載の翻訳装置。
さらに、
前記第１話者の顔を撮影する第１カメラと、
前記第１カメラから出力された第１映像信号に基づいて、前記第１話者を特定する第１顔認識回路と、
前記第２話者の顔を撮影する第２カメラと、
前記第２カメラから出力された第２映像信号に基づいて、前記第２話者を特定する第２顔認識回路と、
話者と前記話者が用いる言語との対を記憶しているデータベースとを備え、
前記制御回路は、
前記第１顔認識回路が特定した前記第１話者の言語が前記データベースに登録されている場合には、前記第１音声認識回路と前記第１翻訳回路と前記第２翻訳回路と前記第１音声合成回路とに、第１話者の第１言語を通知し、
前記第２顔認識回路が特定した前記第２話者の言語が前記データベースに登録されている場合には、前記第２音声認識回路と前記第１翻訳回路と前記第２翻訳回路と前記第２音声合成回路とに、第２話者の第２言語を通知する
請求項１から９のいずれか１項に記載の翻訳装置。
さらに、
前記第１カメラから出力された前記第１映像信号に基づいて、前記第１話者の性別判定を行う第１映像性別判定回路と、
前記第２カメラから出力された前記第２映像信号に基づいて、前記第２話者の性別判定を行う第２映像性別判定回路とを備え、
前記制御回路は、
前記第１音声合成回路に、前記第１映像性別判定回路の判定結果と同じ性別の合成音声を出力させ
前記第２音声合成回路に、前記第２映像性別判定回路の判定結果と同じ性別の合成音声を出力させる
請求項１０記載の翻訳装置。
第１話者と第２話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第１話者の第１音声を入力するための第１マイクと、
前記第１音声を音声認識して第１文字列を出力するための第１音声認識回路と、
前記第１音声認識回路から出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳回路と、
前記第１翻訳回路から出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成回路と、
前記第２話者の第２音声を入力するための第２マイクと、
前記第２音声を音声認識して第２文字列を出力するための第２音声認識回路と、
前記第２音声認識回路から出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳回路と、
前記第２翻訳回路から出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成回路と、
前記第１音声合成回路が出力する前記第１翻訳音声と前記第２音声合成回路が出力する前記第２翻訳音声とを加算して加算翻訳音声を出力する加算回路と、
前記加算回路が出力する加算翻訳音声を拡声するためのスピーカと、
前記スピーカから拡声された前記加算翻訳音声が前記第２マイクに入力される現象を第５エコーとしたとき、前記加算翻訳音声と前記第５エコーに対応する前記第５伝達関数とを用いて、前記第５エコーを示す第５エコー信号を推定し、前記第５エコー信号を、前記第２マイクの出力信号から除去する第５エコーキャンセラと、
前記スピーカから拡声された前記加算翻訳音声が前記第１マイクに入力される現象を第６エコーとしたとき、前記加算翻訳音声と前記第６エコーに対応する前記第６伝達関数とを用いて、前記第６エコーを示す第６エコー信号を推定し、前記第６エコー信号を、前記第１マイクの出力信号から除去する第６エコーキャンセラと、
制御回路とを備え、
前記制御回路は、前記第１音声合成回路が前記第１翻訳音声を出力し、又は前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第５エコーキャンセラに、前記第５エコー信号を推定する伝達関数を更新させ、
前記第１音声合成回路が前記第１翻訳音声を出力し、又は前記第２音声合成回路が前記第２翻訳音声を出力している期間に、前記第６エコーキャンセラに、前記第６エコー信号を推定する伝達関数を更新させる
翻訳装置。
さらに、
前記第１音声が前記第２マイクに入力される現象を第１クロストークとしたとき、前記第１音声を用いて、前記第１クロストークを示す第１クロストーク信号を推定し、前記第１クロストーク信号を、前記第２マイクの前記出力信号から除去する第１クロストークキャンセラと、
前記第２音声が前記第１マイクに入力される現象を第２クロストークとしたとき、前記第２音声を用いて、前記第２クロストークを示す第２クロストーク信号を推定し、前記第２クロストーク信号を、前記第１マイクの前記出力信号から除去する第２クロストークキャンセラとを備える
請求項１２記載の翻訳装置。
第１話者と第２話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、
前記第１話者の第１音声を入力するための第１入力ステップと、
前記第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、
前記第１音声認識ステップから出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、
前記第１翻訳ステップから出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、
前記第１翻訳音声を拡声するための第１拡声ステップと、
前記第２話者の第２音声を入力するための第２入力ステップと、
前記第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、
前記第２音声認識ステップから出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、
前記第２翻訳ステップから出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、
前記第２翻訳音声を拡声するための第２拡声ステップと、
前記第１拡声ステップにて拡声された前記第１翻訳音声が前記第２入力ステップにて入力される現象を第１エコーとしたとき、前記第１翻訳音声と前記第１エコーに対応する第１伝達関数とを用いて、前記第１エコーを示す第１エコー信号を推定し、前記第１エコー信号を、前記第２入力ステップの出力信号から除去する第１エコーキャンセラステップと、
前記第２拡声ステップにて拡声された前記第２翻訳音声が前記第１入力ステップにて入力される現象を第２エコーとしたとき、前記第２翻訳音声と前記第２エコーに対応する第２伝達関数とを用いて、前記第２エコーを示す第２エコー信号を推定し、前記第２エコー信号を、前記第１入力ステップの出力信号から除去する第２エコーキャンセラステップと、
前記第１音声合成ステップにて前記第１翻訳音声を出力している期間に、前記第１エコーキャンセラステップにおいて、前記第１エコー信号を推定する前記第１伝達関数を更新し、前記第２音声合成ステップにて前記第２翻訳音声を出力している期間に、前記第２エコーキャンセラステップにおいて、前記第２エコー信号を推定する前記第２伝達関数を更新するように指示を与える制御ステップとを含む
翻訳方法。
第１話者と第２話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、
前記第１話者の第１音声を入力するための第１入力ステップと、
前記第１音声を音声認識して第１文字列を出力するための第１音声認識ステップと、
前記第１音声認識ステップから出力された前記第１文字列を前記第２話者の言語に翻訳して第３文字列を出力するための第１翻訳ステップと、
前記第１翻訳ステップから出力された前記第３文字列を第１翻訳音声に変換するための第１音声合成ステップと、
前記第１翻訳音声を拡声するための第１拡声ステップと、
前記第２話者の第２音声を入力するための第２入力ステップと、
前記第２音声を音声認識して第２文字列を出力するための第２音声認識ステップと、
前記第２音声認識ステップから出力された前記第２文字列を前記第１話者の言語に翻訳して第４文字列を出力するための第２翻訳ステップと、
前記第２翻訳ステップから出力された前記第４文字列を第２翻訳音声に変換するための第２音声合成ステップと、
前記第２翻訳音声を拡声するための第２拡声ステップと、
前記第１拡声ステップにて出力された前記第１翻訳音声が前記第１入力ステップにて入力される現象を第３エコーとしたとき、前記第１翻訳音声と前記第３エコーに対応する第３伝達関数とを用いて、前記第３エコーを示す第３エコー信号を推定し、前記第３エコー信号を、前記第１入力ステップの出力信号から除去する第３エコーキャンセラステップと、
前記第２拡声ステップにて出力された前記第２翻訳音声が前記第２入力ステップにて入力される現象を第４エコーとしたとき、前記第２翻訳音声と前記第４エコーに対応する第４伝達関数とを用いて、前記第４エコーを示す第４エコー信号を推定し、前記第４エコー信号を、前記第２入力ステップの出力信号から除去する第４エコーキャンセラステップと、
前記第１音声合成ステップにて前記第１翻訳音声を出力している期間に、前記第３エコーキャンセラステップにおいて、前記第３エコー信号を推定する前記第３伝達関数を更新し、前記第２音声合成ステップから前記第２翻訳音声を出力している期間に、前記第４エコーキャンセラステップにおいて、前記第４エコー信号を推定する前記第４伝達関数を更新するように指示を与える制御ステップとを含む
翻訳方法。