JPWO2019186639A1

JPWO2019186639A1 - 翻訳システム、翻訳方法、及び翻訳装置

Info

Publication number: JPWO2019186639A1
Application number: JP2018545518A
Authority: JP
Inventors: 純葛西
Original assignee: FORTE CO., LTD.
Current assignee: FORTE CO., LTD.
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2020-04-30
Anticipated expiration: 2038-03-26
Also published as: TW201941084A; JP6457706B1; WO2019186639A1; TWI695281B

Abstract

翻訳装置３が、第１ユーザが使用する第１言語と、第２ユーザが使用する第２言語を特定するステップと、第１ユーザが使用する第１ユーザ端末Ｕ１が第１言語の音声の入力を受けるステップと、第１ユーザ端末が第１言語の音声をテキストデータに変換し、変換したテキストデータを翻訳装置３に送信するステップと、翻訳装置３がテキストデータを第２言語の翻訳データに変換するステップと、翻訳装置３が、第２ユーザが使用する第２ユーザ端末に翻訳データを送信するステップと、第２ユーザ端末が、翻訳データが変換された第２言語の音声を出力するステップと、を有する翻訳方法を提供する。

Description

本発明は、入力した音声を翻訳するための翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置に関する。

従来、入力された音声を翻訳する技術が知られている。特許文献１には、入力された音声を翻訳して文字コード列を生成し、文字コード列を通信相手側の装置に送信し、通信相手側の装置に文字コード列を字幕として表示する技術が開示されている。

特開２０１３−２０１５０５号公報

従来の技術においては、翻訳後に作成された文字コード列が字幕として表示されるので、コミュニケーションをする人達が、ディスプレイに表示された字幕を視認しなければならなかった。この場合、相手の表情を見ながら会話をすることができないという問題があった。

そこで、本発明はこれらの点に鑑みてなされたものであり、異なる言語を使用する相手とのコミュニケーションの質を高めることができる翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置を提供することを目的とする。

本発明の第１の態様の翻訳システムは、第１ユーザが使用する第１ユーザ端末と、前記第１ユーザ端末と通信可能な翻訳装置と、を備える。前記第１ユーザ端末は、第１言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第１言語の音声が変換された第１言語テキストデータを前記翻訳装置に送信する端末送信部と、前記翻訳装置から、第２ユーザが使用する第２ユーザ端末において入力された第２言語の言語情報が前記第１言語に翻訳された第１言語翻訳データを受信する端末受信部と、前記端末受信部が受信した前記第１言語翻訳データが変換された前記第１言語の音声を出力する音声出力部と、を有する。

前記翻訳装置は、前記第１ユーザが使用する第１言語と、前記第２ユーザが使用する第２言語とを特定する特定部と、前記第１ユーザ端末から前記第１言語テキストデータを受信する装置受信部と、前記装置受信部が受信した前記第１言語テキストデータを第２言語翻訳データに変換する言語変換部と、前記第２ユーザ端末に対して前記第２言語翻訳データを送信する装置送信部と、を有する。

前記言語変換部は、前記第２言語翻訳データを前記第１言語に変換して再翻訳データを生成し、前記装置送信部は、前記再翻訳データを前記第１ユーザ端末に送信し、前記音声出力部は、前記音声入力部が前記第１言語の音声の入力を受けている間に、前記再翻訳データを出力してもよい。

前記装置送信部は、前記言語変換部が前記第２ユーザ端末において入力された前記第２言語の言語情報を前記第１言語翻訳データに変換した場合に、前記再翻訳データの送信を中止して前記第１言語翻訳データを送信してもよい。

前記装置送信部は、前記再翻訳データを前記第１ユーザ端末に送信した後に、前記装置受信部が所定の単語を含む前記第１言語テキストデータを受信した場合に、前記第２ユーザ端末への前記第２言語翻訳データの送信を中止してもよい。

前記装置受信部は、前記第２ユーザ端末から第２言語の音声が変換された第２言語テキストデータを受信し、前記言語変換部は、前記装置受信部が受信した前記第２言語の前記第２言語テキストデータを第１言語翻訳データに変換し、前記装置送信部は、前記第１言語翻訳データを送信している間に、前記言語変換部が、新たな前記第１言語翻訳データの生成が終了すると、送信中の前記第１言語翻訳データの送信を中止して、新たな前記第１言語翻訳データの送信を開始してもよい。

前記音声出力部は骨伝導スピーカーを有し、前記音声入力部が前記第１言語の音声の入力を受けている間に、前記骨伝導スピーカーから前記第１言語の音声を出力してもよい。

前記音声入力部は、音を取得するための複数のメインマイクと、周囲音を取得するためのサブマイクとを有し、前記端末送信部は、前記複数のメインマイクが取得した音から前記サブマイクが取得した周囲音を除去した後の音に対応するテキストデータを前記第１言語の音声に対応する前記第１言語テキストデータとして送信してもよい。

前記第１ユーザ端末をユーザが装着した状態で、前記サブマイクと前記第１ユーザの口との距離が、前記複数のメインマイクと前記第１ユーザの口との距離よりも大きくてもよい。

前記第１ユーザ端末は、前記複数のメインマイクそれぞれに入力された音と、前記サブマイクに入力された音とを比較した結果に基づいて、前記複数のメインマイクの少なくともいずれかに入力された音から前記第１言語の音声を抽出する抽出部と、前記抽出部が抽出した前記第１言語の音声を前記第１言語テキストデータに変換するテキスト変換部と、をさらに有してもよい。

前記抽出部は、前記複数のメインマイクそれぞれに入力された音を比較した結果に基づいて前記第１言語の音声と推定される音を特定し、特定した音と前記サブマイクに入力された音とを比較した結果に基づいて前記第１言語の音声を抽出してもよい。

前記端末送信部は、前記第１言語テキストデータに関連付けて、前記第２ユーザを特定するためのユーザ特定情報を前記翻訳装置に送信し、前記特定部は、複数のユーザに関連付けて、前記複数のユーザそれぞれが使用する言語を記憶する記憶部を参照することにより、前記端末送信部が送信した前記ユーザ特定情報が示す前記第２ユーザに関連付けて前記記憶部に記憶された前記第２言語を特定してもよい。

前記端末送信部は、前記第１言語テキストデータの送信を開始する前に、前記第２ユーザの言語を特定するための言語情報を前記翻訳装置に送信し、前記特定部は、前記端末送信部が送信した前記言語情報に基づいて前記第２言語を特定してもよい。

前記特定部は、前記第１言語テキストデータに含まれる単語に基づいて前記第２言語を特定してもよい。

本発明の第２の態様の翻訳方法は、翻訳装置が、第１ユーザが使用する第１言語と、第２ユーザが使用する第２言語を特定するステップと、第１ユーザが使用する第１ユーザ端末が第１言語の音声の入力を受けるステップと、前記第１ユーザ端末が前記第１言語の音声をテキストデータに変換し、変換した前記テキストデータを前記翻訳装置に送信するステップと、前記翻訳装置が前記テキストデータを前記第２言語の翻訳データに変換するステップと、前記翻訳装置が、前記第２ユーザが使用する第２ユーザ端末に前記翻訳データを送信するステップと、前記第２ユーザ端末が、前記翻訳データが変換された前記第２言語の音声を出力するステップと、を有する。

本発明の第３の態様の翻訳装置は、第１ユーザが使用する第１言語と、第２ユーザが使用する第２言語とを特定する特定部と、前記第１ユーザが使用する第１ユーザ端末から、前記第１言語の音声が変換された第１言語テキストデータを受信する装置受信部と、前記装置受信部が受信した前記第１言語テキストデータを第２言語翻訳データに変換する言語変換部と、前記第２ユーザが使用する第２ユーザ端末に対して前記第２言語翻訳データを送信する装置送信部と、を有する。

本発明の第４の態様の音声入出力装置は、第１言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第１言語の音声が変換されたテキストデータを、前記第１言語を第２言語に翻訳する翻訳装置に送信する端末送信部と、前記翻訳装置から、第２ユーザが使用する第２ユーザ端末において入力された前記第２言語の言語情報が前記第１言語に翻訳された第１言語翻訳データを受信する端末受信部と、前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第１言語翻訳データが変換された前記第１言語の音声を出力する音声出力部と、を有する。

本発明によれば、異なる言語を使用する相手とのコミュニケーションの質を高めることができるという効果を奏する。

本実施形態の翻訳システムの構成を示す図である。ヘッドセットの外観を示す図である。ヘッドセット及び情報端末の内部構成を示す図である。翻訳装置の構成を示す図である。ユーザが情報端末の利用を開始する際に表示部に表示される利用者選択画面を示す図である。会話をする相手を選択する際に表示部に表示される相手選択画面を示す図である。会話をする際に表示部に表示される会話用画面を示す図である。ユーザが「話す」アイコンから指を話した後の情報端末の画面を示す図である。図８の状態に続いてユーザが第２言語の音声を発した後の情報端末の画面を示す図である。翻訳システムにおける処理シーケンスを示す図である。本実施形態の変形例に係る翻訳システムの構成を示す図である。言語変換サーバにより言語変換部の機能を実現する場合の翻訳装置の構成を示す図である。

［翻訳システムＳ１の概要］
図１は、本実施形態の翻訳システムＳ１の構成を示す図である。翻訳システムＳ１は、ヘッドセット１（１ａ、１ｂ、１ｃ）及び情報端末２（２ａ、２ｂ、２ｃ）と、翻訳装置として機能する翻訳装置３とを有する。ヘッドセット１及び情報端末２は、連携して動作することにより、音声入出力装置であるユーザ端末として機能する。

図１においては、第１言語（例えば日本語）を話すユーザＵ１、第２言語（例えば英語）を話すユーザＵ２、第３言語（例えば中国語）を話すユーザＵ３が示されている。翻訳システムＳ１は、それぞれ異なる言語を話す複数のユーザが互いに他のユーザが話す言葉を理解できるように、各ユーザが話した言葉を他のユーザが話す言語の言葉に翻訳し、翻訳後の言葉を音声として出力する。以下の説明においては、ユーザＵ１が、観光地で観光客を案内するガイドであり、ユーザＵ２及びユーザＵ３が、ユーザＵ１から説明を受ける観光客である場合を想定して説明する。

図１に示す例においては、ユーザＵ１、Ｕ２、Ｕ３は、それぞれヘッドセット１ａ、１ｂ、１ｃを装着している。また、ユーザＵ１、Ｕ２、Ｕ３は、それぞれ情報端末２ａ、２ｂ、２ｃを保持している。情報端末２ａ、２ｂ、２ｃは、例えばスマートフォンである。ヘッドセット１ａ、１ｂ、１ｃは、それぞれ情報端末２ａ、２ｂ、２ｃとの間で無線チャネルＢ１、Ｂ２、Ｂ３を介してデータを送受信することができる。無線チャネルは、例えばBluetooth（登録商標）である。

ヘッドセット１ａ、１ｂ、１ｃは同一の構成を有しており、以下の説明において、それぞれを区別する必要がない場合はヘッドセット１と称する場合がある。同様に、情報端末２ａ、２ｂ、２ｃは同一の構成を有しており、以下の説明において、それぞれを区別する必要がない場合は情報端末２と称する場合がある。

ヘッドセット１は、ユーザが頭部に装着できるように構成されており、ユーザが話した音声の入力を受けて、入力された音声をデジタル音声信号に変換する。ヘッドセット１は、無線チャネルＷ１を介して、予め関連付けられた情報端末２にデジタル音声信号を送信する。

情報端末２は、ヘッドセット１から受信したデジタル音声信号に含まれる音声を認識して、テキストデータに変換する。ヘッドセット１において第１言語の音声が入力された場合、情報端末２は、第１言語のテキストデータを作成する。例えばヘッドセット１において日本語の音声が入力された場合、情報端末２は、日本語のテキストデータを作成する。

情報端末２は、作成した第１言語のテキストデータを翻訳装置３に送信する。図１に示す例において、情報端末２は、無線通信回線Ｗ、アクセスポイント４及びネットワークＮを介して、第１言語のテキストデータを翻訳装置３に送信する。無線通信回線Ｗは、例えばＷｉ−Ｆｉ（登録商標）の回線であるが、他の無線通信方式を使用する回線であってもよい。

翻訳装置３は、第１言語のテキストデータを受信すると、受信した第１言語のテキストデータを、予め特定した第２言語のテキストデータに変換する。翻訳装置３は、例えば日本語を話すユーザＵ１が使用する情報端末２ａから日本語のテキストデータを受信すると、ユーザＵ１が会話する相手として選択されたユーザＵ２が理解できる英語に翻訳されたテキストデータを作成する。本明細書においては、翻訳装置３が翻訳して生成されたテキストデータを翻訳データという。翻訳装置３は、作成した第２言語の翻訳データを情報端末２ｂに送信する。

情報端末２ｂは、受信した第２言語のテキストデータをデジタル音声信号に変換し、変換したデジタル音声信号を、無線チャネルＢ２を介してヘッドセット１ｂに送信する。ヘッドセット１ｂは、受信したデジタル音声信号をアナログ音声信号に変換し、ユーザＵ２が認識できるように出力する。

翻訳装置３は、第２言語のテキストデータを作成した後に、第２言語のテキストデータを第１言語のテキストデータに変換して、第１言語の再翻訳データを作成する。翻訳装置３は、作成した再翻訳データを情報端末２ａに送信する。情報端末２ａは、受信した第１言語の再翻訳データをデジタル音声信号に変換し、無線チャネルＢ１を介して、デジタル音声信号をヘッドセット１ａに送信する。ヘッドセット１ａは、受信したデジタル音声信号をアナログ音声信号に変換し、ユーザＵ１が認識できるように出力する。

ヘッドセット１ａは、例えば、所定の期間にユーザＵ１により入力された音声に基づくテキストデータを翻訳装置３に送信してから、翻訳装置３が再翻訳データを生成するために要する時間が経過した後に、所定の期間に対応する再翻訳データに基づく音声を出力する。所定の期間は、例えば、ユーザＵ１が情報端末２ａを操作することにより設定された、翻訳する対象となる言葉を入力している期間である。ユーザＵ１が所定の期間を設定する操作の詳細については後述する。

翻訳装置３が再翻訳データを作成し、ヘッドセット１が再翻訳データに基づく音声を出力することで、ユーザＵ１が、自らが発した言葉と再翻訳データに基づく音声が示す言葉とを比較し、自らが発した言葉が正しく翻訳されたか否かを確認することができる。したがって、ユーザＵ１は、正しく翻訳されていないということが確認された場合、会話している相手であるユーザＵ２及びユーザＵ３に対して訂正するジェスチャーをしたり、別の言葉で言い換えたりすることができる。

以上のとおり、翻訳システムＳ１は、ヘッドセット１において入力された音声が翻訳されたテキストデータをヘッドセット１から音声として出力するので、ヘッドセット１を装着したユーザは、自分と異なる言語を使う相手の顔を見ながら話しつつ、相手が話す内容を理解することができる。したがって、翻訳システムＳ１は、異なる言語を使用する相手とのコミュニケーションの質を高めることができる。

詳細については後述するが、ヘッドセット１は骨伝導スピーカーを有している。したがって、ユーザは、耳で会話する相手の生の声を聞きながら、骨伝導スピーカーを介して、相手が発した音声が翻訳された内容、及び自らが発した音声が再翻訳された内容を聞くことができる。ヘッドセット１がこのような構成を有することで、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。その結果、異なる言語を使用する相手とのコミュニケーションの質をさらに高めることができる。
以下、ヘッドセット１、情報端末２及び翻訳装置３の詳細について説明する。

［ヘッドセット１の外観］
図２は、ヘッドセット１の外観を示す図である。図２に示すように、ヘッドセット１は、第１メインマイク１１と、第２メインマイク１２と、サブマイク１３と、骨伝導スピーカー１４と、制御ユニット１５と、ケーブル１６と、マイク収容部１７と、接続部材１８と、本体部１９とを有する。

第１メインマイク１１、第２メインマイク１２及びサブマイク１３は、音声入力部として機能する。第１メインマイク１１及び第２メインマイク１２は、ユーザＵが発する音声を取得するためのメインマイクであり、サブマイク１３は、周囲音を取得するためのサブマイクである。ヘッドセット１をユーザＵが装着した状態で、サブマイク１３とユーザＵの口との距離が、複数のメインマイクである第１メインマイク１１及び第２メインマイク１２とユーザＵの口との距離よりも大きい。

第１メインマイク１１及び第２メインマイク１２は、可撓性の接続部材１８を介して本体部１９と接続されたマイク収容部１７に並んで設けられている。一方、サブマイク１３は、ユーザの耳の下部付近に接触するように装着される骨伝導スピーカー１４の近傍に設けられている。ユーザは、マイク収容部１７の位置を口元に近づけた状態で使用するので、第１メインマイク１１及び第２メインマイク１２は、サブマイク１３よりもユーザＵの口に近い位置で、ユーザＵが発する音声を取得する。

サブマイク１３は、接続部材１８が接続されている側の骨伝導スピーカー１４Ｒと反対側の骨伝導スピーカー１４Ｌにおける外側（すなわち、ユーザＵに接しない側）に設けられている。このように、サブマイク１３が、骨伝導スピーカー１４Ｒに比べて、第１メインマイク１１及び第２メインマイク１２から電気的に離れている側の骨伝導スピーカー１４Ｌに設けられていることで、第１メインマイク１１及び第２メインマイク１２に入力される音信号とサブマイク１３に入力される音信号とが相互に干渉しづらいので、後述するノイズ除去性能を向上させることができる。

骨伝導スピーカー１４は、音圧により骨を振動させることで音をユーザＵに伝えることができるスピーカーである。骨伝導スピーカー１４Ｒは、例えばユーザの右側の耳の下部の顆状突起に接触するように装着され、骨伝導スピーカー１４Ｌはユーザの左側の耳の下部の顆状突起に接触するように装着されるが、骨伝導スピーカー１４Ｒ及び骨伝導スピーカー１４Ｌが装着される位置は任意である。骨伝導スピーカー１４は、第１メインマイク１１及び第２メインマイク１２が、ユーザが使用する言語（例えば第１言語）の音声の入力を受けている間に、第１言語の音声を出力する。骨伝導スピーカー１４が出力する第１言語の音声は、第２言語を発する他のユーザの音声が翻訳されたデータに基づく音声、又は再翻訳データに基づく音声である。

ヘッドセット１が骨伝導スピーカー１４を有することで、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。

制御ユニット１５は、ケーブル１６を介して第１メインマイク１１、第２メインマイク１２、サブマイク１３、骨伝導スピーカー１４Ｒ、骨伝導スピーカー１４Ｌと電気的に接続された各種の電気回路を収容している。電気回路は、例えば、第１メインマイク１１、第２メインマイク１２及びサブマイク１３から入力された音からノイズを除去し、ユーザにより入力された音声を抽出する抽出部として機能する回路、アナログ音声信号をデジタル音声信号に変換するコーデック回路、及びデジタル音声信号を情報端末２との間で送受信するための通信回路等を含む。

［ヘッドセット１及び情報端末２の内部構成］
図３は、ヘッドセット１及び情報端末２の内部構成を示す図である。制御ユニット１５は、音声処理部１５１、通信部１５２及び制御部１５３を有する。以下のヘッドセット１の構成に関する４説明では、ヘッドセット１が、第１言語を話すユーザＵ１が使用するヘッドセット１ａであるとして説明する。

音声処理部１５１は、第１メインマイク１１、第２メインマイク１２及びサブマイク１３から入力された音信号に基づいて、ユーザＵ１が発した音声以外の周囲音を除去することにより、ユーザＵ１が発した音声を抽出する抽出部として機能する。音声処理部１５１は、抽出した音声を、例えばＰＣＭ（Pulse Code Modulation）符号化することにより、デジタル音声信号を生成する。音声処理部１５１は、生成したデジタル音声信号を通信部１５２に入力する。

また、音声処理部１５１は、通信部１５２から入力されたデジタル音声信号を復号することによりアナログ音声信号を生成する。音声処理部１５１は、生成したアナログ音声信号を、骨伝導スピーカー１４を介して出力する。

さらに、音声処理部１５１は、第１メインマイク１１及び第２メインマイク１２から入力された音信号から、周囲音等のノイズを除去する機能を有する。ノイズを除去するために、音声処理部１５１は、まず、第１メインマイク１１及び第２メインマイク１２のそれぞれに入力された音を比較した結果に基づいて第１言語の音声と推定される音を特定する。

音声処理部１５１は、例えば、第１メインマイク１１に入力されたアナログ音声信号から、第２メインマイク１２に入力されたアナログ音声信号との位相の差が所定の範囲内の信号を抽出し、振幅の差が所定の範囲外の信号を除去することにより、第１言語の音声と推定される音声を抽出した推定音声信号を生成する。所定の範囲は、例えば、ユーザＵがヘッドセット１を装着した状態におけるユーザＵの口から第１メインマイク１１までの距離とユーザＵの口から第２メインマイク１２までの距離との差として想定される最大値において想定される振幅の差以下の範囲である。

続いて、音声処理部１５１は、第１メインマイク１１に入力されたアナログ音声信号と第２メインマイク１２に入力されたアナログ音声信号とを比較した結果に基づいて特定した音とサブマイク１３に入力された音とを比較した結果に基づいて、第１音声信号から周囲音の成分が除去された第１言語の音声を抽出する。具体的には、音声処理部１５１は、生成した推定音声信号から、サブマイク１３に入力された周囲音信号の少なくとも一部の成分を除去する。

音声処理部１５１は、推定音声信号から周囲音信号を除去する前に、推定音声信号においてユーザＵの音声であることが明らかなレベル以上の信号の減衰量が所定の範囲以内になるように、サブマイク１３に入力された周囲音信号を減衰させる。このようにすることで、音声処理部１５１は、ユーザが発した音声の成分をできるだけ残しつつ、周囲音の成分を最大限に除去することができる。

通信部１５２は、音声処理部１５１が生成したデジタル音声信号を情報端末２に送信し、かつ情報端末２からデジタル音声信号を受信するための無線通信モジュールを含む。通信部１５２は、第１メインマイク１１及び第２メインマイク１２が受けた第１言語の音声が変換された第１言語テキストデータを翻訳装置３に送信する端末送信部として機能する。また、通信部１５２は、翻訳装置３から、ユーザＵ２が使用するヘッドセット１ｂにおいて入力された第２言語の言語情報が第１言語に翻訳された第１言語翻訳データを受信する端末受信部として機能する。さらに、通信部１５２は、通信部１５２が翻訳装置３に送信した第１言語テキストデータが翻訳された第２言語翻訳データが第１言語に翻訳された再翻訳データを受信する。

制御部１５３は、例えばＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を内蔵するワンチップマイコンである。制御部１５３は、ＲＯＭに記憶されたプログラムをＣＰＵが実行し、プログラムに記述されたデータ値を音声処理部１５１及び通信部１５２のレジスタに書き込むことにより、音声処理部１５１及び通信部１５２を制御する。

続いて、情報端末２の構成について説明する。情報端末２は、第１通信部２１と、第２通信部２２と、表示部２３と、操作部２４と、記憶部２５と、制御部２６とを有する。制御部２６は、テキスト変換部２６１及びＵＩ処理部２６２を有する。

第１通信部２１は、無線チャネルＢを介してヘッドセット１からデジタル音声信号を受信し、かつ音声処理部１５１から出力されるデジタル音声信号をヘッドセット１に送信するための無線通信モジュールを含む。
第２通信部２２は、無線通信回線Ｗを介してアクセスポイント４との間でテキストデータを送受信するための無線通信モジュールを含む。第２通信部２２は、例えば、第１メインマイク１１及び第２メインマイク１２に入力された音声からサブマイク１３に入力された周囲音を除去した後の音に対応するテキストデータを第１言語の音声に対応する第１言語テキストデータとして送信する。

表示部２３は、各種の情報を表示するディスプレイである。表示部２３は、ＵＩ処理部２６２の制御により、例えばヘッドセット１から送信されたデジタル音声信号に基づいてテキスト変換部２６１が生成した第１言語テキストデータ、及び第２通信部２２が翻訳装置３から受信した第１言語翻訳データを表示する。表示部２３に表示されるデータの例については後述する。

操作部２４は、ユーザの操作を受け付けるためのデバイスであり、例えば表示部２３に重ねて設けられたタッチパネルである。操作部２４は、ユーザの操作に応じて発生する電気信号をＵＩ処理部２６２に入力する。

記憶部２５は、ＲＯＭ又はＲＡＭ等の記憶媒体である。記憶部２５は、制御部２６が実行するプログラムを記憶する。また、記憶部２５は、操作部２４を介して入力された、情報端末２を使用するユーザが話すことができる言語名を記憶する。さらに、テキスト変換部２６１がデジタル音声信号をテキストデータに変換するための音声認識辞書、及びテキストデータをデジタル音声信号に変換するための音声合成辞書を記憶している。記憶部２５は、複数の言語名に関連付けて複数の音声認識辞書及び複数の音声合成辞書を記憶している。

制御部２６は、例えばＣＰＵであり、記憶部２５に記憶されたプログラムを実行することによりテキスト変換部２６１及びＵＩ処理部２６２として機能する。

テキスト変換部２６１は、抽出部として機能する音声処理部１５１が抽出した第１言語の音声を第１言語テキストデータに変換する。具体的には、まず、テキスト変換部２６１は、第１通信部２１から入力されたデジタル音声信号を解析して音素を特定する。そして、テキスト変換部２６１は、記憶部２５を参照することにより、情報端末２を使用するユーザが話すことができる言語名に対応する音声認識辞書を使用してデジタル音声信号に含まれている単語を特定することにより、デジタル音声信号を第１言語テキストデータに変換する。

テキスト変換部２６１は、生成した第１言語テキストデータに関連付けて、ユーザを特定するためのユーザ特定情報としてのアカウント名、並びに会話をする相手であるユーザＵ２及びユーザＵ３のアカウント名を、第２通信部２２を介して翻訳装置３に送信する。テキスト変換部２６１は、例えば、入力した音声の翻訳を開始する指示をＵＩ処理部２６２から受けたことに応じて、第１言語テキストデータとともに、ユーザＵ２及びユーザＵ３のアカウント名を送信する。なお、テキスト変換部２６１は、ＵＩ処理部２６２を介してユーザＵ２が使用可能な第２言語名を取得した場合、第１言語テキストデータの送信を開始する前に、ユーザＵ２が使用可能な言語を特定するための言語情報を翻訳装置３に送信してもよい。

また、テキスト変換部２６１は、記憶部２５に記憶された音声合成辞書を参照することにより、第２通信部２２を介して翻訳装置３から受信した第１言語テキストデータをデジタル音声信号に変換する。テキスト変換部２６１は、生成したデジタル音声信号を、第１通信部２１を介してヘッドセット１に送信する。

ＵＩ処理部２６２は、テキスト変換部２６１から取得したテキストデータを表示部２３に表示させる。また、ＵＩ処理部２６２は、操作部２４から入力された電気信号が示す操作内容を特定し、特定した操作内容をテキスト変換部２６１に通知する。例えば、ＵＩ処理部２６２は、ユーザが設定したユーザＵ１のアカウント名、及びユーザＵ２及びユーザＵ３のアカウント名をテキスト変換部２６１に通知するとともに、記憶部２５に記憶させる。

［翻訳装置３の構成］
図４は、翻訳装置３の構成を示す図である。翻訳装置３は、通信部３１と、記憶部３２と、制御部３３とを有する。

通信部３１は、ネットワークＮを介して情報端末２との間でテキストデータを送受信するための通信インターフェースを含む。通信部３１は、例えばＬＡＮ（Local Area Network）コントローラを含む。

記憶部３２は、ＲＯＭ、ＲＡＭ及びハードディスク等の記憶媒体を含む。記憶部３２は、制御部３３が実行するプログラムを記憶している。また、記憶部３２は、言語変換部３３２が第１言語のテキストデータを他の言語のテキストデータに変換するための辞書を記憶している。さらに、記憶部３２は、翻訳システムＳ１を利用することができる複数のユーザのアカウント名と、それぞれのユーザが使用可能な言語名とが関連付けられた使用言語テーブルを記憶している。

制御部３３は、例えばＣＰＵであり、記憶部３２に記憶されたプログラムを実行することにより翻訳制御部３３１及び言語変換部３３２として機能する。

翻訳制御部３３１は、通信部３１から受信した第１言語テキストデータを第２言語翻訳データに変換するように言語変換部３３２を制御する。また、翻訳制御部３３１は、通信部３１を介して情報端末２ｂから受信した第２言語テキストデータを第１言語翻訳データに変換するように言語変換部３３２を制御する。翻訳制御部３３１は、言語変換部３３２が変換して生成した第２言語翻訳データを、通信部３１を介して情報端末２ｂに送信し、言語変換部３３２が変換して生成した第１言語翻訳データを、通信部３１を介して情報端末２ａに送信する。

また、翻訳制御部３３１は、第１言語テキストデータに基づいて生成された第２言語翻訳データを言語変換部３３２から取得すると、取得した第２言語翻訳データを第１言語のテキストデータに翻訳して再翻訳データを生成するように言語変換部３３２を制御する。翻訳制御部３３１は、言語変換部３３２が生成した再翻訳データを、通信部３１を介して情報端末２ａに送信する。

さらに、翻訳制御部３３１は、ユーザＵ１が使用する第１言語と、ユーザＵ２が使用する第２言語とを特定する特定部として機能する。翻訳制御部３３１は、記憶部３２に記憶された使用言語テーブルを参照し、第１通信部２１を介して第１言語テキストデータに関連付けて第２通信部２２から送信されたユーザＵ１のアカウント名に対応する第１言語名、及び第１言語テキストデータに関連付けて受信したユーザＵ２のアカウント名に対応する第２言語名を特定する。翻訳制御部３３１は、特定した結果を言語変換部３３２に通知する。

翻訳制御部３３１は、情報端末２ａから送信された言語情報に基づいて、ユーザＵ２が使用可能な第２言語を特定してもよい。翻訳制御部３３１は、例えば情報端末２ａを用いるユーザＵ１がログイン処理をした際に入力した情報に基づいて、ユーザＵ１が使用可能な第１言語、及びユーザＵ２が使用可能な第２言語を特定する。この場合、翻訳制御部３３１は、ユーザＵ１がログオフするまでの間、特定した第１言語及び第２言語に基づいて言語変換部３３２に翻訳をさせる。

翻訳制御部３３１は、受信した第１言語テキストデータを解析することにより、ユーザＵ１が使用する言語が第１言語であることを特定してもよい。また、翻訳制御部３３１は、第１言語テキストデータに含まれる単語に基づいて第２言語を特定してもよい。翻訳制御部３３１は、例えば、受信した第１言語テキストデータに含まれているアカウント名に基づいて、ユーザＵ２が使用する言語が第２言語であることを特定する。具体的には、翻訳制御部３３１は、第１言語テキストデータの内容が「トム、初めまして」である場合、「トム」が、使用言語テーブルに含まれているアカウント名であることを検出し、「トム」が使用できる言語が英語であることを特定することにより、第２言語が英語であると特定する。

言語変換部３３２は、翻訳制御部３３１から通知された言語種別に基づいて、第１通信部２１が情報端末２ａから受信した第１言語テキストデータを第２言語翻訳データに変換する。言語変換部３３２は、翻訳制御部３３１から第１言語テキストデータの入力を受けると、入力された第１言語テキストデータを翻訳することにより第２言語翻訳データを生成し、生成した第２言語翻訳データを翻訳制御部３３１に通知する。また、言語変換部３３２は、第１通信部２１が情報端末２ｂから受信した第２言語テキストデータを第１言語翻訳データに変換する。言語変換部３３２は、翻訳制御部３３１から第２言語テキストデータの入力を受けると、入力された第２言語テキストデータを翻訳することにより第１言語翻訳データを生成し、生成した第１言語翻訳データを翻訳制御部３３１に通知する。

さらに、言語変換部３３２は、翻訳制御部３３１からの指示に基づいて、第１言語テキストデータに基づいて生成した第２言語翻訳データを第１言語に翻訳して、再翻訳データを生成する。言語変換部３３２は、再翻訳データを翻訳制御部３３１に通知する。

［情報端末２の操作画面］
続いて、ユーザＵ１がユーザＵ２及びユーザＵ３と会話を開始する場合の操作について説明する。図５は、ユーザＵ１が情報端末２ａの利用を開始する際に表示部２３に表示される利用者選択画面を示す図である。本実施形態においては、情報端末２ａがユーザＵ１自身の端末ではなく、レンタルされた端末であることが想定されている。そこで、ユーザＵ１は、まずユーザＵ１が使用可能な言語を設定する必要がある。

図５（ａ）に示すように、利用者選択画面においては、翻訳装置３による翻訳サービスを利用できるユーザのアカウント名と言語名とが関連付けて表示される。図５（ｂ）に示すように、ユーザＵ１は、自身のアカウント名である「太郎」の左側のチェックボックスにタッチすることで、情報端末２ａを用いた翻訳サービスを利用することが可能になる。ＵＩ処理部２６２は、「太郎」の左側のラジオボタンがタッチされると、ユーザＵ１のアカウント名が「太郎」であり、使用する言語が日本語であることを記憶部２５に記憶させる。

図６は、会話をする相手を選択する際に表示部２３に表示される相手選択画面を示す図である。図６（ａ）においても、図５（ａ）と同様に、翻訳装置３による翻訳サービスを利用できるユーザのアカウント名と言語名とが関連付けて表示されている。図６（ｂ）に示すように、ユーザＵ１が、「トム」の左側のチェックボックス、及び「周」の左側のチェックボックスにタッチすると、ＵＩ処理部２６２は、ユーザＵ２が「トム」であり、ユーザＵ３が「周」であることを記憶部２５に記憶させる。

図７は、会話をする際に表示部２３に表示される会話用画面を示す図である。図７（ａ）に示すように、会話用画面には、自分が発した音声が変換された第１言語テキストデータが表示される第１領域Ｒ１と、再翻訳データが表示される第２領域Ｒ２と、相手が発した音声が翻訳された第１言語翻訳データが表示される第３領域Ｒ３とが含まれている。

また、会話用画面には、ユーザが音声を入力する間に操作する「話す」アイコンが含まれている。テキスト変換部２６１は、「話す」アイコンに指がタッチされている間にヘッドセット１において入力された音声を第１言語テキストデータに変換し、「話す」アイコンから指が離れたタイミングで第１言語テキストデータへの変換処理を終了する。そして、テキスト変換部２６１は、「話す」アイコンに指がタッチしてから指が離れるまでの間に入力された音声に対応する第１言語テキストデータを翻訳装置３に送信する。このようにすることで、ユーザが指定した期間のみが翻訳の対象となるので、ユーザが音声を入力していない間にヘッドセット１に入力された周囲の音が誤って翻訳されることを防止できる。

図７（ｂ）に示すように、ユーザＵ１が「話す」アイコンにタッチした状態で音声を発すると、第１領域Ｒ１には、ユーザＵ１が発した音声の内容を示す第１言語テキストデータが表示される。ユーザＵ１は、表示された第１言語テキストデータを視認して、音声が正しく認識されたことを確認することができる。

情報端末２ａは、ユーザＵ１が視認した第１言語テキストデータに誤りがある場合、ユーザＵ１が所定の単語を発することで、入力された音声をキャンセルするように動作してもよい。テキスト変換部２６１は、例えば、ヘッドセット１ａにおいて入力された音声中に「やり直し」という単語を検出した場合、「話す」アイコンがタッチされてから「やり直し」という単語を検出するまでの間に生成した第１言語テキストデータを削除する。テキスト変換部２６１は、ＵＩ処理部２６２に指示して、表示部２３に表示された第１言語テキストデータも消去する。このようにすることで、テキスト変換部２６１は、ユーザＵ１が発した音声を正しい第１言語テキストデータに変換できなかった場合に、誤った第１言語テキストデータを翻訳装置３に送信してしまうことを防止できる。

図８は、ユーザＵ１が「話す」アイコンから指を離した後の情報端末２ａの画面と情報端末２ｂの画面を示す図である。図８（ａ）に示す情報端末２ａの画面の第２領域Ｒ２には、再翻訳データが表示されている。図８（ｂ）は、情報端末２ｂの画面を示しており、情報端末２ｂの第３領域Ｒ３には、ユーザＵ１が発した「はじめまして」という日本語文が翻訳された英語文が表示されている。

ユーザＵ１は、情報端末２ａに表示された再翻訳データを視認することにより、正しく翻訳されたかどうかを確認することができる。テキスト変換部２６１は、再翻訳データを表示している間にユーザＵ１が発した「やり直し」という単語を検出した場合、第２言語翻訳データに誤りがあったことを翻訳装置３に通知してもよい。翻訳装置３は、翻訳に誤りがあったということを認識すると、翻訳に誤りがあったことを情報端末２ｂに通知し、情報端末２ｂは、第３領域Ｒ３に表示された英語文を消去して、取り消されたことを示す単語（例えばcanceled）を表示してもよい。このようにすることで、翻訳装置３は、ユーザＵ１が発した音声を正しい第１言語テキストデータに変換できなかった場合に、誤った第２言語翻訳データが情報端末２ｂに表示し続けてしまうことを防止できる。

翻訳制御部３３１は、再翻訳データを情報端末２ａに送信してから、ユーザＵ１が再翻訳データの内容を確認するために必要な時間だけ待機した後に、第２言語翻訳データを情報端末２ｂに送信してもよい。この場合、翻訳制御部３３１は、再翻訳データを情報端末２ａに送信した後に、通信部３１が所定の単語（例えば「やり直し」）を含む第１言語テキストデータを受信した場合に、ユーザＵ２への第２言語翻訳データの送信を中止してもよい。このようにすることで、翻訳装置３は、ユーザＵ１が発した音声を正しい第１言語テキストデータに変換できなかった場合に、誤った第２言語翻訳データが情報端末２ｂに送信されることを防止できる。

図９は、図８の状態に続いてユーザＵ２が第２言語の音声を発した後の情報端末２ａの画面と情報端末２ｂの画面を示す図である。図９（ｂ）に示す情報端末２ｂの第１領域Ｒ１には、ユーザＵ２が発した音声に対応する第２言語テキストデータが表示されており、図９（ａ）に示す情報端末２ａの第１領域Ｒ１には、第２言語テキストデータが翻訳されて生成された第１言語翻訳データが表示されている。また、図９（ｂ）に示す情報端末２ｂの第２領域Ｒ２には、第１言語翻訳データが翻訳された再翻訳データが表示されている。

ヘッドセット１ａからは、図９（ａ）の第２領域Ｒ２に示す再翻訳データに対応する第１言語の音声、及び第３領域Ｒ３に示す第１言語翻訳データに対応する第１言語の音声が出力される。この際、ヘッドセット１ａから第１言語の音声が出力されている最中にユーザＵ２が第２言語の音声を発して翻訳装置３に送信された場合、翻訳制御部３３１は、言語変換部３３２がヘッドセット１ｂにおいて入力された第２言語の言語情報を第１言語翻訳データに変換した場合に、再翻訳データの送信を中止して第１言語翻訳データを情報端末２ａに送信する。このようにすることで、ユーザＵ１は、再翻訳データの内容よりもユーザＵ２が発した音声の内容を優先的に把握することが可能になる。

同様に、翻訳制御部３３１は、ユーザＵ２が発した第２言語の音声に基づく第１言語翻訳データを情報端末２ａに送信している間に、言語変換部３３２が、新たにユーザＵ２が発した第２言語の音声を翻訳して新たな第１言語翻訳データの生成が終了すると、送信中の第１言語翻訳データの送信を中止して、新たな第１言語翻訳データの送信を開始してもよい。このようにすることで、ユーザＵ２は、間違えた内容を含む音声を発した場合に速やかに正しい内容の音声を発することで、ユーザＵ１に対して正しい内容が伝わるようになる。

翻訳制御部３３１は、ユーザＵ２が発した第２言語の音声に基づく第１言語翻訳データを情報端末２ａに送信している間に、言語変換部３３２が、新たにユーザＵ３が発した第３言語の音声を翻訳して新たな第１言語翻訳データの生成が終了すると、送信中の第１言語翻訳データの送信を中止して、ユーザＵ３が発した第３言語の音声に基づく第１言語翻訳データの送信を開始してもよい。この場合、翻訳制御部３３１は、情報端末２ｂに対して、ユーザＵ２が発した音声に基づく第１言語翻訳データの送信が中断したことを通知し、情報端末２ｂが、第１言語翻訳データの送信が中断したことを表示してもよい。このようにすることで、ユーザＵ２は、自分が話したことがユーザＵ１に伝わっていないことを認識して、再度発言するといった適切な対応をとることが可能になる。

［翻訳システムＳ１における処理シーケンス］
図１０は、翻訳システムＳ１における処理シーケンスを示す図である。図１０は、ユーザＵ１がヘッドセット１ａにおいて第１言語の音声の入力を開始した時点から開始している（ステップＳ１１）。ヘッドセット１ａは、第１言語の音声が入力されると、第１言語の音声に対応するデジタル音声データを情報端末２に送信する。

情報端末２ａは、受信したデジタル音声データを第１言語テキストデータに変換する（ステップＳ１２）。この間、情報端末２ａのＵＩ処理部２６２は、音声入力が終了したかどうかを監視し（ステップＳ１３）、テキスト変換部２６１は、音声入力が終了するまでの間、第１言語テキストデータの生成を継続する。テキスト変換部２６１は、音声入力が終了したとＵＩ処理部２６２が判定した場合（ステップＳ１３においてＹＥＳ）、第２通信部２２を介して、生成した第１言語テキストデータを翻訳装置３に送信する。

続いて、言語変換部３３２は、通信部３１を介して受信した第１言語テキストデータを第２言語テキストデータに変換して、第２言語翻訳データを生成する（ステップＳ１４）。翻訳制御部３３１は、通信部３１を介して、言語変換部３３２が生成した第２言語翻訳データを情報端末２ｂに送信する。

情報端末２ｂのテキスト変換部２６１は、第２言語翻訳データを受信すると、受信した第２言語翻訳データを第２言語のデジタル音声信号に変換する（ステップＳ１５）。情報端末２ｂのテキスト変換部２６１は、第２言語のデジタル音声信号を、第１通信部２１を介してヘッドセット１ｂに送信する。ヘッドセット１ｂの音声処理部１５１は、情報端末２ｂから受信したデジタル音声信号をアナログ音声信号に変換して、第２言語の音声を骨伝導スピーカー１４から出力する（ステップＳ１６）。

翻訳制御部３３１は、ステップＳ１４において第２言語翻訳データが生成された後に、言語変換部３３２に、第２言語翻訳データを第１言語に翻訳させて再翻訳データを作成させ（ステップＳ１７）、再翻訳データを情報端末２ａに送信する。情報端末２ａのテキスト変換部２６１は、再翻訳データを受信すると、受信した再翻訳データを第１言語のデジタル音声信号に変換する（ステップＳ１８）。情報端末２ａのテキスト変換部２６１は、第１言語のデジタル音声信号を、第１通信部２１を介してヘッドセット１ａに送信する。ヘッドセット１ａの音声処理部１５１は、情報端末２ａから受信したデジタル音声信号をアナログ音声信号に変換して、第１言語の音声を骨伝導スピーカー１４から出力する（ステップＳ１９）。

なお、上述したように、テキスト変換部２６１は、ステップＳ１４の後に第２言語翻訳データを情報端末２ｂに送信する前に再翻訳データを情報端末２ａに送信し、その後、ユーザＵ１が再翻訳データを確認するために必要な時間が経過してから第２言語翻訳データを情報端末２ｂに送信してもよい。

図１１は、本実施形態の変形例に係る翻訳システムＳ２の構成を示す図である。翻訳システムＳ２においては、ユーザＵ１が、ヘッドセット１ａの代わりに、情報端末２ａの機能の一部の機能を有するヘッドセット１０を使用するという点で翻訳システムＳ１と異なる。また、ユーザＵ２及びユーザＵ３が、ヘッドセット１ｂ及びヘッドセット１ｃを使用しておらず、情報端末２ｂ及び情報端末２ｃの代わりに情報端末２０ｂ及び情報端末２０ｃを使用している点で翻訳システムＳ１と異なる。

ヘッドセット１０は、図３に示したヘッドセット１が有する機能に加えて、テキスト変換部２６１の機能を有する。また、ヘッドセット１における通信部１５２の代わりに第２通信部２２の機能を有する。このようにすることで、ユーザＵ１は、情報端末２ａを使用することなくヘッドセット１０を用いるだけで、第２言語を使用するユーザＵ２、及び第３言語を使用するユーザＵ３と会話をすることができる。

なお、ヘッドセット１０は、無線チャネルを介して接続された情報端末２における操作内容を取得し、ユーザＵ１が、情報端末２を用いて、翻訳を開始するタイミングを設定できるように構成されていてもよい。また、ヘッドセット１０は、アクセスポイント４ａを介して翻訳装置３から受信した再翻訳データ及び第１言語翻訳データをユーザＵ１が視認できるように、無線チャネルを介して接続された情報端末２に表示させてもよい。

情報端末２０は、情報端末２に加えて音声を入力するマイク、及び音声を出力するスピーカーを有する。ユーザＵ２及びユーザＵ３は、情報端末２０ｂ及び情報端末２０ｃを使用することで、ヘッドセット１ｂ及びヘッドセット１ｃを装着することなくユーザＵ１と会話をすることができる。

［翻訳システムＳ１及び翻訳システムＳ２による効果］
以上説明したように、本実施形態に係る翻訳システムＳ１及び翻訳システムＳ２においては、翻訳装置３が、ヘッドセット１ａにおいて入力された第１言語の音声を第２言語の音声に翻訳してからヘッドセット１ｂに送信し、ヘッドセット１ｂが第２言語に翻訳された音声を出力する。また、翻訳装置３が、ヘッドセット１ｂにおいて入力された第２言語の音声を第１言語の音声に翻訳してからヘッドセット１ａに送信し、ヘッドセット１ａが第１言語に翻訳された音声を出力する。このようにすることで、ヘッドセット１ａ及びヘッドセット１ｂを装着したユーザは、自分と異なる言語を使う相手の顔を見ながら話しつつ、相手が話す内容を理解することができるので、異なる言語を使用する相手とのコミュニケーションの質を高めることができる。

また、ヘッドセット１は、骨伝導スピーカー１４を有する。したがって、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。その結果、異なる言語を使用する相手とのコミュニケーションの質をさらに高めることができる。

なお、以上の説明においては、翻訳装置３が言語変換部３３２を有する場合を例示したが、翻訳装置３は、翻訳機能を有するクラウドサーバ等の外部のサーバを言語変換部３３２として使用してもよい。図１２は、翻訳装置３と異なる言語変換サーバ５により言語変換部３３２の機能を実現する場合の翻訳装置３の構成を示す図である。このように、翻訳制御部３３１が、言語変換部３３２と同等に動作する外部の言語変換サーバ５と通信部３１を介して連動することにより翻訳処理を実行してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

以上の説明においては、情報端末２がユーザＵにレンタルされた端末である場合が想定されていたが、情報端末２は、ユーザＵが携帯電話事業者と契約した端末であってもよい。この場合、情報端末２は、ユーザＵが使用する言語情報を記憶しておき、図５に示した利用者選択画面を表示しないようにしてもよい。

１ヘッドセット
２情報端末
３翻訳装置
４アクセスポイント
５言語変換サーバ
１０ヘッドセット
１１第１メインマイク
１２第２メインマイク
１３サブマイク
１４骨伝導スピーカー
１５制御ユニット
１６ケーブル
１７マイク収容部
１８接続部材
１９本体部
２０情報端末
２１第１通信部
２２第２通信部
２３表示部
２４操作部
２５記憶部
２６制御部
３１通信部
３２記憶部
３３制御部
１５１音声処理部
１５２通信部
１５３制御部
２６１テキスト変換部
２６２処理部
３３１翻訳制御部
３３２言語変換部

本発明は、入力した音声を翻訳するための翻訳システム、翻訳方法、及び翻訳装置に関する。

上記の第１ユーザ端末は、例えば、第１言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第１言語の音声が変換されたテキストデータを、前記第１言語を第２言語に翻訳する翻訳装置に送信する端末送信部と、前記翻訳装置から、第２ユーザが使用する第２ユーザ端末において入力された前記第２言語の言語情報が前記第１言語に翻訳された第１言語翻訳データを受信する端末受信部と、前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第１言語翻訳データが変換された前記第１言語の音声を出力する音声出力部と、を有する。

Claims

第１ユーザが使用する第１ユーザ端末と、前記第１ユーザ端末と通信可能な翻訳装置と、を備え、
前記第１ユーザ端末は、
第１言語の音声の入力を受ける音声入力部と、
前記音声入力部が受けた前記第１言語の音声が変換された第１言語テキストデータを前記翻訳装置に送信する端末送信部と、
前記翻訳装置から、第２ユーザが使用する第２ユーザ端末において入力された第２言語の言語情報が前記第１言語に翻訳された第１言語翻訳データを受信する端末受信部と、
前記端末受信部が受信した前記第１言語翻訳データが変換された前記第１言語の音声を出力する音声出力部と、
を有し、
前記翻訳装置は、
前記第１ユーザが使用する第１言語と、前記第２ユーザが使用する第２言語とを特定する特定部と、
前記第１ユーザ端末から前記第１言語テキストデータを受信する装置受信部と、
前記装置受信部が受信した前記第１言語テキストデータを第２言語翻訳データに変換する言語変換部と、
前記第２ユーザ端末に対して前記第２言語翻訳データを送信する装置送信部と、
を有する翻訳システム。
前記言語変換部は、前記第２言語翻訳データを前記第１言語に変換して再翻訳データを生成し、
前記装置送信部は、前記再翻訳データを前記第１ユーザ端末に送信し、
前記音声出力部は、前記音声入力部が前記第１言語の音声の入力を受けている間に、前記再翻訳データを出力する、
請求項１に記載の翻訳システム。
前記装置送信部は、前記言語変換部が前記第２ユーザ端末において入力された前記第２言語の言語情報を前記第１言語翻訳データに変換した場合に、前記再翻訳データの送信を中止して前記第１言語翻訳データを送信する、
請求項２に記載の翻訳システム。
前記装置送信部は、前記再翻訳データを前記第１ユーザ端末に送信した後に、前記装置受信部が所定の単語を含む前記第１言語テキストデータを受信した場合に、前記第２ユーザ端末への前記第２言語翻訳データの送信を中止する、
請求項２又は３に記載の翻訳システム。
前記装置受信部は、前記第２ユーザ端末から第２言語の音声が変換された第２言語テキストデータを受信し、
前記言語変換部は、前記装置受信部が受信した前記第２言語の前記第２言語テキストデータを第１言語翻訳データに変換し、
前記装置送信部は、前記第１言語翻訳データを送信している間に、前記言語変換部が、新たな前記第１言語翻訳データの生成が終了すると、送信中の前記第１言語翻訳データの送信を中止して、新たな前記第１言語翻訳データの送信を開始する、
請求項１から４のいずれか一項に記載の翻訳システム。
前記音声出力部は骨伝導スピーカーを有し、前記音声入力部が前記第１言語の音声の入力を受けている間に、前記骨伝導スピーカーから前記第１言語の音声を出力する、
請求項１から５のいずれか一項に記載の翻訳システム。
前記音声入力部は、音を取得するための複数のメインマイクと、周囲音を取得するためのサブマイクとを有し、
前記端末送信部は、前記複数のメインマイクが取得した音から前記サブマイクが取得した周囲音を除去した後の音に対応するテキストデータを前記第１言語の音声に対応する前記第１言語テキストデータとして送信する、
請求項１から６のいずれか一項に記載の翻訳システム。
前記第１ユーザ端末をユーザが装着した状態で、前記サブマイクと前記第１ユーザの口との距離が、前記複数のメインマイクと前記第１ユーザの口との距離よりも大きい、
請求項７に記載の翻訳システム。
前記第１ユーザ端末は、
前記複数のメインマイクそれぞれに入力された音と、前記サブマイクに入力された音とを比較した結果に基づいて、前記複数のメインマイクの少なくともいずれかに入力された音から前記第１言語の音声を抽出する抽出部と、
前記抽出部が抽出した前記第１言語の音声を前記第１言語テキストデータに変換するテキスト変換部と、
をさらに有する、
請求項７又は８に記載の翻訳システム。
前記抽出部は、前記複数のメインマイクそれぞれに入力された音を比較した結果に基づいて前記第１言語の音声と推定される音を特定し、特定した音と前記サブマイクに入力された音とを比較した結果に基づいて前記第１言語の音声を抽出する、
請求項９に記載の翻訳システム。
前記端末送信部は、前記第１言語テキストデータに関連付けて、前記第２ユーザを特定するためのユーザ特定情報を前記翻訳装置に送信し、
前記特定部は、複数のユーザに関連付けて、前記複数のユーザそれぞれが使用する言語を記憶する記憶部を参照することにより、前記端末送信部が送信した前記ユーザ特定情報が示す前記第２ユーザに関連付けて前記記憶部に記憶された前記第２言語を特定する、
請求項１から１０のいずれか一項に記載の翻訳システム。
前記端末送信部は、前記第１言語テキストデータの送信を開始する前に、前記第２ユーザの言語を特定するための言語情報を前記翻訳装置に送信し、
前記特定部は、前記端末送信部が送信した前記言語情報に基づいて前記第２言語を特定する、
請求項１から１０のいずれか一項に記載の翻訳システム。
前記特定部は、前記第１言語テキストデータに含まれる単語に基づいて前記第２言語を特定する、
請求項１から１０のいずれか一項に記載の翻訳システム。
翻訳装置が、第１ユーザが使用する第１言語と、第２ユーザが使用する第２言語を特定するステップと、
第１ユーザが使用する第１ユーザ端末が第１言語の音声の入力を受けるステップと、
前記第１ユーザ端末が前記第１言語の音声をテキストデータに変換し、変換した前記テキストデータを前記翻訳装置に送信するステップと、
前記翻訳装置が前記テキストデータを前記第２言語の翻訳データに変換するステップと、
前記翻訳装置が、前記第２ユーザが使用する第２ユーザ端末に前記翻訳データを送信するステップと、
前記第２ユーザ端末が、前記翻訳データが変換された前記第２言語の音声を出力するステップと、
を有する翻訳方法。
第１ユーザが使用する第１言語と、第２ユーザが使用する第２言語とを特定する特定部と、
前記第１ユーザが使用する第１ユーザ端末から、前記第１言語の音声が変換された第１言語テキストデータを受信する装置受信部と、
前記装置受信部が受信した前記第１言語テキストデータを第２言語翻訳データに変換する言語変換部と、
前記第２ユーザが使用する第２ユーザ端末に対して前記第２言語翻訳データを送信する装置送信部と、
を有する翻訳装置。
第１言語の音声の入力を受ける音声入力部と、
前記音声入力部が受けた前記第１言語の音声が変換されたテキストデータを、前記第１言語を第２言語に翻訳する翻訳装置に送信する端末送信部と、
前記翻訳装置から、第２ユーザが使用する第２ユーザ端末において入力された前記第２言語の言語情報が前記第１言語に翻訳された第１言語翻訳データを受信する端末受信部と、
前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第１言語翻訳データが変換された前記第１言語の音声を出力する音声出力部と、
を有する音声入出力装置。