JPWO2019186639A1 - 翻訳システム、翻訳方法、及び翻訳装置 - Google Patents

翻訳システム、翻訳方法、及び翻訳装置 Download PDF

Info

Publication number
JPWO2019186639A1
JPWO2019186639A1 JP2018545518A JP2018545518A JPWO2019186639A1 JP WO2019186639 A1 JPWO2019186639 A1 JP WO2019186639A1 JP 2018545518 A JP2018545518 A JP 2018545518A JP 2018545518 A JP2018545518 A JP 2018545518A JP WO2019186639 A1 JPWO2019186639 A1 JP WO2019186639A1
Authority
JP
Japan
Prior art keywords
language
translation
user
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018545518A
Other languages
English (en)
Other versions
JP6457706B1 (ja
Inventor
純 葛西
純 葛西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FORTE CO., LTD.
Original Assignee
FORTE CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FORTE CO., LTD. filed Critical FORTE CO., LTD.
Application granted granted Critical
Publication of JP6457706B1 publication Critical patent/JP6457706B1/ja
Publication of JPWO2019186639A1 publication Critical patent/JPWO2019186639A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

翻訳装置3が、第1ユーザが使用する第1言語と、第2ユーザが使用する第2言語を特定するステップと、第1ユーザが使用する第1ユーザ端末U1が第1言語の音声の入力を受けるステップと、第1ユーザ端末が第1言語の音声をテキストデータに変換し、変換したテキストデータを翻訳装置3に送信するステップと、翻訳装置3がテキストデータを第2言語の翻訳データに変換するステップと、翻訳装置3が、第2ユーザが使用する第2ユーザ端末に翻訳データを送信するステップと、第2ユーザ端末が、翻訳データが変換された第2言語の音声を出力するステップと、を有する翻訳方法を提供する。

Description

本発明は、入力した音声を翻訳するための翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置に関する。
従来、入力された音声を翻訳する技術が知られている。特許文献1には、入力された音声を翻訳して文字コード列を生成し、文字コード列を通信相手側の装置に送信し、通信相手側の装置に文字コード列を字幕として表示する技術が開示されている。
特開2013−201505号公報
従来の技術においては、翻訳後に作成された文字コード列が字幕として表示されるので、コミュニケーションをする人達が、ディスプレイに表示された字幕を視認しなければならなかった。この場合、相手の表情を見ながら会話をすることができないという問題があった。
そこで、本発明はこれらの点に鑑みてなされたものであり、異なる言語を使用する相手とのコミュニケーションの質を高めることができる翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置を提供することを目的とする。
本発明の第1の態様の翻訳システムは、第1ユーザが使用する第1ユーザ端末と、前記第1ユーザ端末と通信可能な翻訳装置と、を備える。前記第1ユーザ端末は、第1言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第1言語の音声が変換された第1言語テキストデータを前記翻訳装置に送信する端末送信部と、前記翻訳装置から、第2ユーザが使用する第2ユーザ端末において入力された第2言語の言語情報が前記第1言語に翻訳された第1言語翻訳データを受信する端末受信部と、前記端末受信部が受信した前記第1言語翻訳データが変換された前記第1言語の音声を出力する音声出力部と、を有する。
前記翻訳装置は、前記第1ユーザが使用する第1言語と、前記第2ユーザが使用する第2言語とを特定する特定部と、前記第1ユーザ端末から前記第1言語テキストデータを受信する装置受信部と、前記装置受信部が受信した前記第1言語テキストデータを第2言語翻訳データに変換する言語変換部と、前記第2ユーザ端末に対して前記第2言語翻訳データを送信する装置送信部と、を有する。
前記言語変換部は、前記第2言語翻訳データを前記第1言語に変換して再翻訳データを生成し、前記装置送信部は、前記再翻訳データを前記第1ユーザ端末に送信し、前記音声出力部は、前記音声入力部が前記第1言語の音声の入力を受けている間に、前記再翻訳データを出力してもよい。
前記装置送信部は、前記言語変換部が前記第2ユーザ端末において入力された前記第2言語の言語情報を前記第1言語翻訳データに変換した場合に、前記再翻訳データの送信を中止して前記第1言語翻訳データを送信してもよい。
前記装置送信部は、前記再翻訳データを前記第1ユーザ端末に送信した後に、前記装置受信部が所定の単語を含む前記第1言語テキストデータを受信した場合に、前記第2ユーザ端末への前記第2言語翻訳データの送信を中止してもよい。
前記装置受信部は、前記第2ユーザ端末から第2言語の音声が変換された第2言語テキストデータを受信し、前記言語変換部は、前記装置受信部が受信した前記第2言語の前記第2言語テキストデータを第1言語翻訳データに変換し、前記装置送信部は、前記第1言語翻訳データを送信している間に、前記言語変換部が、新たな前記第1言語翻訳データの生成が終了すると、送信中の前記第1言語翻訳データの送信を中止して、新たな前記第1言語翻訳データの送信を開始してもよい。
前記音声出力部は骨伝導スピーカーを有し、前記音声入力部が前記第1言語の音声の入力を受けている間に、前記骨伝導スピーカーから前記第1言語の音声を出力してもよい。
前記音声入力部は、音を取得するための複数のメインマイクと、周囲音を取得するためのサブマイクとを有し、前記端末送信部は、前記複数のメインマイクが取得した音から前記サブマイクが取得した周囲音を除去した後の音に対応するテキストデータを前記第1言語の音声に対応する前記第1言語テキストデータとして送信してもよい。
前記第1ユーザ端末をユーザが装着した状態で、前記サブマイクと前記第1ユーザの口との距離が、前記複数のメインマイクと前記第1ユーザの口との距離よりも大きくてもよい。
前記第1ユーザ端末は、前記複数のメインマイクそれぞれに入力された音と、前記サブマイクに入力された音とを比較した結果に基づいて、前記複数のメインマイクの少なくともいずれかに入力された音から前記第1言語の音声を抽出する抽出部と、前記抽出部が抽出した前記第1言語の音声を前記第1言語テキストデータに変換するテキスト変換部と、をさらに有してもよい。
前記抽出部は、前記複数のメインマイクそれぞれに入力された音を比較した結果に基づいて前記第1言語の音声と推定される音を特定し、特定した音と前記サブマイクに入力された音とを比較した結果に基づいて前記第1言語の音声を抽出してもよい。
前記端末送信部は、前記第1言語テキストデータに関連付けて、前記第2ユーザを特定するためのユーザ特定情報を前記翻訳装置に送信し、前記特定部は、複数のユーザに関連付けて、前記複数のユーザそれぞれが使用する言語を記憶する記憶部を参照することにより、前記端末送信部が送信した前記ユーザ特定情報が示す前記第2ユーザに関連付けて前記記憶部に記憶された前記第2言語を特定してもよい。
前記端末送信部は、前記第1言語テキストデータの送信を開始する前に、前記第2ユーザの言語を特定するための言語情報を前記翻訳装置に送信し、前記特定部は、前記端末送信部が送信した前記言語情報に基づいて前記第2言語を特定してもよい。
前記特定部は、前記第1言語テキストデータに含まれる単語に基づいて前記第2言語を特定してもよい。
本発明の第2の態様の翻訳方法は、翻訳装置が、第1ユーザが使用する第1言語と、第2ユーザが使用する第2言語を特定するステップと、第1ユーザが使用する第1ユーザ端末が第1言語の音声の入力を受けるステップと、前記第1ユーザ端末が前記第1言語の音声をテキストデータに変換し、変換した前記テキストデータを前記翻訳装置に送信するステップと、前記翻訳装置が前記テキストデータを前記第2言語の翻訳データに変換するステップと、前記翻訳装置が、前記第2ユーザが使用する第2ユーザ端末に前記翻訳データを送信するステップと、前記第2ユーザ端末が、前記翻訳データが変換された前記第2言語の音声を出力するステップと、を有する。
本発明の第3の態様の翻訳装置は、第1ユーザが使用する第1言語と、第2ユーザが使用する第2言語とを特定する特定部と、前記第1ユーザが使用する第1ユーザ端末から、前記第1言語の音声が変換された第1言語テキストデータを受信する装置受信部と、前記装置受信部が受信した前記第1言語テキストデータを第2言語翻訳データに変換する言語変換部と、前記第2ユーザが使用する第2ユーザ端末に対して前記第2言語翻訳データを送信する装置送信部と、を有する。
本発明の第4の態様の音声入出力装置は、第1言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第1言語の音声が変換されたテキストデータを、前記第1言語を第2言語に翻訳する翻訳装置に送信する端末送信部と、前記翻訳装置から、第2ユーザが使用する第2ユーザ端末において入力された前記第2言語の言語情報が前記第1言語に翻訳された第1言語翻訳データを受信する端末受信部と、前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第1言語翻訳データが変換された前記第1言語の音声を出力する音声出力部と、を有する。
本発明によれば、異なる言語を使用する相手とのコミュニケーションの質を高めることができるという効果を奏する。
本実施形態の翻訳システムの構成を示す図である。 ヘッドセットの外観を示す図である。 ヘッドセット及び情報端末の内部構成を示す図である。 翻訳装置の構成を示す図である。 ユーザが情報端末の利用を開始する際に表示部に表示される利用者選択画面を示す図である。 会話をする相手を選択する際に表示部に表示される相手選択画面を示す図である。 会話をする際に表示部に表示される会話用画面を示す図である。 ユーザが「話す」アイコンから指を話した後の情報端末の画面を示す図である。 図8の状態に続いてユーザが第2言語の音声を発した後の情報端末の画面を示す図である。 翻訳システムにおける処理シーケンスを示す図である。 本実施形態の変形例に係る翻訳システムの構成を示す図である。 言語変換サーバにより言語変換部の機能を実現する場合の翻訳装置の構成を示す図である。
[翻訳システムS1の概要]
図1は、本実施形態の翻訳システムS1の構成を示す図である。翻訳システムS1は、ヘッドセット1(1a、1b、1c)及び情報端末2(2a、2b、2c)と、翻訳装置として機能する翻訳装置3とを有する。ヘッドセット1及び情報端末2は、連携して動作することにより、音声入出力装置であるユーザ端末として機能する。
図1においては、第1言語(例えば日本語)を話すユーザU1、第2言語(例えば英語)を話すユーザU2、第3言語(例えば中国語)を話すユーザU3が示されている。翻訳システムS1は、それぞれ異なる言語を話す複数のユーザが互いに他のユーザが話す言葉を理解できるように、各ユーザが話した言葉を他のユーザが話す言語の言葉に翻訳し、翻訳後の言葉を音声として出力する。以下の説明においては、ユーザU1が、観光地で観光客を案内するガイドであり、ユーザU2及びユーザU3が、ユーザU1から説明を受ける観光客である場合を想定して説明する。
図1に示す例においては、ユーザU1、U2、U3は、それぞれヘッドセット1a、1b、1cを装着している。また、ユーザU1、U2、U3は、それぞれ情報端末2a、2b、2cを保持している。情報端末2a、2b、2cは、例えばスマートフォンである。ヘッドセット1a、1b、1cは、それぞれ情報端末2a、2b、2cとの間で無線チャネルB1、B2、B3を介してデータを送受信することができる。無線チャネルは、例えばBluetooth(登録商標)である。
ヘッドセット1a、1b、1cは同一の構成を有しており、以下の説明において、それぞれを区別する必要がない場合はヘッドセット1と称する場合がある。同様に、情報端末2a、2b、2cは同一の構成を有しており、以下の説明において、それぞれを区別する必要がない場合は情報端末2と称する場合がある。
ヘッドセット1は、ユーザが頭部に装着できるように構成されており、ユーザが話した音声の入力を受けて、入力された音声をデジタル音声信号に変換する。ヘッドセット1は、無線チャネルW1を介して、予め関連付けられた情報端末2にデジタル音声信号を送信する。
情報端末2は、ヘッドセット1から受信したデジタル音声信号に含まれる音声を認識して、テキストデータに変換する。ヘッドセット1において第1言語の音声が入力された場合、情報端末2は、第1言語のテキストデータを作成する。例えばヘッドセット1において日本語の音声が入力された場合、情報端末2は、日本語のテキストデータを作成する。
情報端末2は、作成した第1言語のテキストデータを翻訳装置3に送信する。図1に示す例において、情報端末2は、無線通信回線W、アクセスポイント4及びネットワークNを介して、第1言語のテキストデータを翻訳装置3に送信する。無線通信回線Wは、例えばWi−Fi(登録商標)の回線であるが、他の無線通信方式を使用する回線であってもよい。
翻訳装置3は、第1言語のテキストデータを受信すると、受信した第1言語のテキストデータを、予め特定した第2言語のテキストデータに変換する。翻訳装置3は、例えば日本語を話すユーザU1が使用する情報端末2aから日本語のテキストデータを受信すると、ユーザU1が会話する相手として選択されたユーザU2が理解できる英語に翻訳されたテキストデータを作成する。本明細書においては、翻訳装置3が翻訳して生成されたテキストデータを翻訳データという。翻訳装置3は、作成した第2言語の翻訳データを情報端末2bに送信する。
情報端末2bは、受信した第2言語のテキストデータをデジタル音声信号に変換し、変換したデジタル音声信号を、無線チャネルB2を介してヘッドセット1bに送信する。ヘッドセット1bは、受信したデジタル音声信号をアナログ音声信号に変換し、ユーザU2が認識できるように出力する。
翻訳装置3は、第2言語のテキストデータを作成した後に、第2言語のテキストデータを第1言語のテキストデータに変換して、第1言語の再翻訳データを作成する。翻訳装置3は、作成した再翻訳データを情報端末2aに送信する。情報端末2aは、受信した第1言語の再翻訳データをデジタル音声信号に変換し、無線チャネルB1を介して、デジタル音声信号をヘッドセット1aに送信する。ヘッドセット1aは、受信したデジタル音声信号をアナログ音声信号に変換し、ユーザU1が認識できるように出力する。
ヘッドセット1aは、例えば、所定の期間にユーザU1により入力された音声に基づくテキストデータを翻訳装置3に送信してから、翻訳装置3が再翻訳データを生成するために要する時間が経過した後に、所定の期間に対応する再翻訳データに基づく音声を出力する。所定の期間は、例えば、ユーザU1が情報端末2aを操作することにより設定された、翻訳する対象となる言葉を入力している期間である。ユーザU1が所定の期間を設定する操作の詳細については後述する。
翻訳装置3が再翻訳データを作成し、ヘッドセット1が再翻訳データに基づく音声を出力することで、ユーザU1が、自らが発した言葉と再翻訳データに基づく音声が示す言葉とを比較し、自らが発した言葉が正しく翻訳されたか否かを確認することができる。したがって、ユーザU1は、正しく翻訳されていないということが確認された場合、会話している相手であるユーザU2及びユーザU3に対して訂正するジェスチャーをしたり、別の言葉で言い換えたりすることができる。
以上のとおり、翻訳システムS1は、ヘッドセット1において入力された音声が翻訳されたテキストデータをヘッドセット1から音声として出力するので、ヘッドセット1を装着したユーザは、自分と異なる言語を使う相手の顔を見ながら話しつつ、相手が話す内容を理解することができる。したがって、翻訳システムS1は、異なる言語を使用する相手とのコミュニケーションの質を高めることができる。
詳細については後述するが、ヘッドセット1は骨伝導スピーカーを有している。したがって、ユーザは、耳で会話する相手の生の声を聞きながら、骨伝導スピーカーを介して、相手が発した音声が翻訳された内容、及び自らが発した音声が再翻訳された内容を聞くことができる。ヘッドセット1がこのような構成を有することで、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。その結果、異なる言語を使用する相手とのコミュニケーションの質をさらに高めることができる。
以下、ヘッドセット1、情報端末2及び翻訳装置3の詳細について説明する。
[ヘッドセット1の外観]
図2は、ヘッドセット1の外観を示す図である。図2に示すように、ヘッドセット1は、第1メインマイク11と、第2メインマイク12と、サブマイク13と、骨伝導スピーカー14と、制御ユニット15と、ケーブル16と、マイク収容部17と、接続部材18と、本体部19とを有する。
第1メインマイク11、第2メインマイク12及びサブマイク13は、音声入力部として機能する。第1メインマイク11及び第2メインマイク12は、ユーザUが発する音声を取得するためのメインマイクであり、サブマイク13は、周囲音を取得するためのサブマイクである。ヘッドセット1をユーザUが装着した状態で、サブマイク13とユーザUの口との距離が、複数のメインマイクである第1メインマイク11及び第2メインマイク12とユーザUの口との距離よりも大きい。
第1メインマイク11及び第2メインマイク12は、可撓性の接続部材18を介して本体部19と接続されたマイク収容部17に並んで設けられている。一方、サブマイク13は、ユーザの耳の下部付近に接触するように装着される骨伝導スピーカー14の近傍に設けられている。ユーザは、マイク収容部17の位置を口元に近づけた状態で使用するので、第1メインマイク11及び第2メインマイク12は、サブマイク13よりもユーザUの口に近い位置で、ユーザUが発する音声を取得する。
サブマイク13は、接続部材18が接続されている側の骨伝導スピーカー14Rと反対側の骨伝導スピーカー14Lにおける外側(すなわち、ユーザUに接しない側)に設けられている。このように、サブマイク13が、骨伝導スピーカー14Rに比べて、第1メインマイク11及び第2メインマイク12から電気的に離れている側の骨伝導スピーカー14Lに設けられていることで、第1メインマイク11及び第2メインマイク12に入力される音信号とサブマイク13に入力される音信号とが相互に干渉しづらいので、後述するノイズ除去性能を向上させることができる。
骨伝導スピーカー14は、音圧により骨を振動させることで音をユーザUに伝えることができるスピーカーである。骨伝導スピーカー14Rは、例えばユーザの右側の耳の下部の顆状突起に接触するように装着され、骨伝導スピーカー14Lはユーザの左側の耳の下部の顆状突起に接触するように装着されるが、骨伝導スピーカー14R及び骨伝導スピーカー14Lが装着される位置は任意である。骨伝導スピーカー14は、第1メインマイク11及び第2メインマイク12が、ユーザが使用する言語(例えば第1言語)の音声の入力を受けている間に、第1言語の音声を出力する。骨伝導スピーカー14が出力する第1言語の音声は、第2言語を発する他のユーザの音声が翻訳されたデータに基づく音声、又は再翻訳データに基づく音声である。
ヘッドセット1が骨伝導スピーカー14を有することで、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。
制御ユニット15は、ケーブル16を介して第1メインマイク11、第2メインマイク12、サブマイク13、骨伝導スピーカー14R、骨伝導スピーカー14Lと電気的に接続された各種の電気回路を収容している。電気回路は、例えば、第1メインマイク11、第2メインマイク12及びサブマイク13から入力された音からノイズを除去し、ユーザにより入力された音声を抽出する抽出部として機能する回路、アナログ音声信号をデジタル音声信号に変換するコーデック回路、及びデジタル音声信号を情報端末2との間で送受信するための通信回路等を含む。
[ヘッドセット1及び情報端末2の内部構成]
図3は、ヘッドセット1及び情報端末2の内部構成を示す図である。制御ユニット15は、音声処理部151、通信部152及び制御部153を有する。以下のヘッドセット1の構成に関する4説明では、ヘッドセット1が、第1言語を話すユーザU1が使用するヘッドセット1aであるとして説明する。
音声処理部151は、第1メインマイク11、第2メインマイク12及びサブマイク13から入力された音信号に基づいて、ユーザU1が発した音声以外の周囲音を除去することにより、ユーザU1が発した音声を抽出する抽出部として機能する。音声処理部151は、抽出した音声を、例えばPCM(Pulse Code Modulation)符号化することにより、デジタル音声信号を生成する。音声処理部151は、生成したデジタル音声信号を通信部152に入力する。
また、音声処理部151は、通信部152から入力されたデジタル音声信号を復号することによりアナログ音声信号を生成する。音声処理部151は、生成したアナログ音声信号を、骨伝導スピーカー14を介して出力する。
さらに、音声処理部151は、第1メインマイク11及び第2メインマイク12から入力された音信号から、周囲音等のノイズを除去する機能を有する。ノイズを除去するために、音声処理部151は、まず、第1メインマイク11及び第2メインマイク12のそれぞれに入力された音を比較した結果に基づいて第1言語の音声と推定される音を特定する。
音声処理部151は、例えば、第1メインマイク11に入力されたアナログ音声信号から、第2メインマイク12に入力されたアナログ音声信号との位相の差が所定の範囲内の信号を抽出し、振幅の差が所定の範囲外の信号を除去することにより、第1言語の音声と推定される音声を抽出した推定音声信号を生成する。所定の範囲は、例えば、ユーザUがヘッドセット1を装着した状態におけるユーザUの口から第1メインマイク11までの距離とユーザUの口から第2メインマイク12までの距離との差として想定される最大値において想定される振幅の差以下の範囲である。
続いて、音声処理部151は、第1メインマイク11に入力されたアナログ音声信号と第2メインマイク12に入力されたアナログ音声信号とを比較した結果に基づいて特定した音とサブマイク13に入力された音とを比較した結果に基づいて、第1音声信号から周囲音の成分が除去された第1言語の音声を抽出する。具体的には、音声処理部151は、生成した推定音声信号から、サブマイク13に入力された周囲音信号の少なくとも一部の成分を除去する。
音声処理部151は、推定音声信号から周囲音信号を除去する前に、推定音声信号においてユーザUの音声であることが明らかなレベル以上の信号の減衰量が所定の範囲以内になるように、サブマイク13に入力された周囲音信号を減衰させる。このようにすることで、音声処理部151は、ユーザが発した音声の成分をできるだけ残しつつ、周囲音の成分を最大限に除去することができる。
通信部152は、音声処理部151が生成したデジタル音声信号を情報端末2に送信し、かつ情報端末2からデジタル音声信号を受信するための無線通信モジュールを含む。通信部152は、第1メインマイク11及び第2メインマイク12が受けた第1言語の音声が変換された第1言語テキストデータを翻訳装置3に送信する端末送信部として機能する。また、通信部152は、翻訳装置3から、ユーザU2が使用するヘッドセット1bにおいて入力された第2言語の言語情報が第1言語に翻訳された第1言語翻訳データを受信する端末受信部として機能する。さらに、通信部152は、通信部152が翻訳装置3に送信した第1言語テキストデータが翻訳された第2言語翻訳データが第1言語に翻訳された再翻訳データを受信する。
制御部153は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)を内蔵するワンチップマイコンである。制御部153は、ROMに記憶されたプログラムをCPUが実行し、プログラムに記述されたデータ値を音声処理部151及び通信部152のレジスタに書き込むことにより、音声処理部151及び通信部152を制御する。
続いて、情報端末2の構成について説明する。情報端末2は、第1通信部21と、第2通信部22と、表示部23と、操作部24と、記憶部25と、制御部26とを有する。制御部26は、テキスト変換部261及びUI処理部262を有する。
第1通信部21は、無線チャネルBを介してヘッドセット1からデジタル音声信号を受信し、かつ音声処理部151から出力されるデジタル音声信号をヘッドセット1に送信するための無線通信モジュールを含む。
第2通信部22は、無線通信回線Wを介してアクセスポイント4との間でテキストデータを送受信するための無線通信モジュールを含む。第2通信部22は、例えば、第1メインマイク11及び第2メインマイク12に入力された音声からサブマイク13に入力された周囲音を除去した後の音に対応するテキストデータを第1言語の音声に対応する第1言語テキストデータとして送信する。
表示部23は、各種の情報を表示するディスプレイである。表示部23は、UI処理部262の制御により、例えばヘッドセット1から送信されたデジタル音声信号に基づいてテキスト変換部261が生成した第1言語テキストデータ、及び第2通信部22が翻訳装置3から受信した第1言語翻訳データを表示する。表示部23に表示されるデータの例については後述する。
操作部24は、ユーザの操作を受け付けるためのデバイスであり、例えば表示部23に重ねて設けられたタッチパネルである。操作部24は、ユーザの操作に応じて発生する電気信号をUI処理部262に入力する。
記憶部25は、ROM又はRAM等の記憶媒体である。記憶部25は、制御部26が実行するプログラムを記憶する。また、記憶部25は、操作部24を介して入力された、情報端末2を使用するユーザが話すことができる言語名を記憶する。さらに、テキスト変換部261がデジタル音声信号をテキストデータに変換するための音声認識辞書、及びテキストデータをデジタル音声信号に変換するための音声合成辞書を記憶している。記憶部25は、複数の言語名に関連付けて複数の音声認識辞書及び複数の音声合成辞書を記憶している。
制御部26は、例えばCPUであり、記憶部25に記憶されたプログラムを実行することによりテキスト変換部261及びUI処理部262として機能する。
テキスト変換部261は、抽出部として機能する音声処理部151が抽出した第1言語の音声を第1言語テキストデータに変換する。具体的には、まず、テキスト変換部261は、第1通信部21から入力されたデジタル音声信号を解析して音素を特定する。そして、テキスト変換部261は、記憶部25を参照することにより、情報端末2を使用するユーザが話すことができる言語名に対応する音声認識辞書を使用してデジタル音声信号に含まれている単語を特定することにより、デジタル音声信号を第1言語テキストデータに変換する。
テキスト変換部261は、生成した第1言語テキストデータに関連付けて、ユーザを特定するためのユーザ特定情報としてのアカウント名、並びに会話をする相手であるユーザU2及びユーザU3のアカウント名を、第2通信部22を介して翻訳装置3に送信する。テキスト変換部261は、例えば、入力した音声の翻訳を開始する指示をUI処理部262から受けたことに応じて、第1言語テキストデータとともに、ユーザU2及びユーザU3のアカウント名を送信する。なお、テキスト変換部261は、UI処理部262を介してユーザU2が使用可能な第2言語名を取得した場合、第1言語テキストデータの送信を開始する前に、ユーザU2が使用可能な言語を特定するための言語情報を翻訳装置3に送信してもよい。
また、テキスト変換部261は、記憶部25に記憶された音声合成辞書を参照することにより、第2通信部22を介して翻訳装置3から受信した第1言語テキストデータをデジタル音声信号に変換する。テキスト変換部261は、生成したデジタル音声信号を、第1通信部21を介してヘッドセット1に送信する。
UI処理部262は、テキスト変換部261から取得したテキストデータを表示部23に表示させる。また、UI処理部262は、操作部24から入力された電気信号が示す操作内容を特定し、特定した操作内容をテキスト変換部261に通知する。例えば、UI処理部262は、ユーザが設定したユーザU1のアカウント名、及びユーザU2及びユーザU3のアカウント名をテキスト変換部261に通知するとともに、記憶部25に記憶させる。
[翻訳装置3の構成]
図4は、翻訳装置3の構成を示す図である。翻訳装置3は、通信部31と、記憶部32と、制御部33とを有する。
通信部31は、ネットワークNを介して情報端末2との間でテキストデータを送受信するための通信インターフェースを含む。通信部31は、例えばLAN(Local Area Network)コントローラを含む。
記憶部32は、ROM、RAM及びハードディスク等の記憶媒体を含む。記憶部32は、制御部33が実行するプログラムを記憶している。また、記憶部32は、言語変換部332が第1言語のテキストデータを他の言語のテキストデータに変換するための辞書を記憶している。さらに、記憶部32は、翻訳システムS1を利用することができる複数のユーザのアカウント名と、それぞれのユーザが使用可能な言語名とが関連付けられた使用言語テーブルを記憶している。
制御部33は、例えばCPUであり、記憶部32に記憶されたプログラムを実行することにより翻訳制御部331及び言語変換部332として機能する。
翻訳制御部331は、通信部31から受信した第1言語テキストデータを第2言語翻訳データに変換するように言語変換部332を制御する。また、翻訳制御部331は、通信部31を介して情報端末2bから受信した第2言語テキストデータを第1言語翻訳データに変換するように言語変換部332を制御する。翻訳制御部331は、言語変換部332が変換して生成した第2言語翻訳データを、通信部31を介して情報端末2bに送信し、言語変換部332が変換して生成した第1言語翻訳データを、通信部31を介して情報端末2aに送信する。
また、翻訳制御部331は、第1言語テキストデータに基づいて生成された第2言語翻訳データを言語変換部332から取得すると、取得した第2言語翻訳データを第1言語のテキストデータに翻訳して再翻訳データを生成するように言語変換部332を制御する。翻訳制御部331は、言語変換部332が生成した再翻訳データを、通信部31を介して情報端末2aに送信する。
さらに、翻訳制御部331は、ユーザU1が使用する第1言語と、ユーザU2が使用する第2言語とを特定する特定部として機能する。翻訳制御部331は、記憶部32に記憶された使用言語テーブルを参照し、第1通信部21を介して第1言語テキストデータに関連付けて第2通信部22から送信されたユーザU1のアカウント名に対応する第1言語名、及び第1言語テキストデータに関連付けて受信したユーザU2のアカウント名に対応する第2言語名を特定する。翻訳制御部331は、特定した結果を言語変換部332に通知する。
翻訳制御部331は、情報端末2aから送信された言語情報に基づいて、ユーザU2が使用可能な第2言語を特定してもよい。翻訳制御部331は、例えば情報端末2aを用いるユーザU1がログイン処理をした際に入力した情報に基づいて、ユーザU1が使用可能な第1言語、及びユーザU2が使用可能な第2言語を特定する。この場合、翻訳制御部331は、ユーザU1がログオフするまでの間、特定した第1言語及び第2言語に基づいて言語変換部332に翻訳をさせる。
翻訳制御部331は、受信した第1言語テキストデータを解析することにより、ユーザU1が使用する言語が第1言語であることを特定してもよい。また、翻訳制御部331は、第1言語テキストデータに含まれる単語に基づいて第2言語を特定してもよい。翻訳制御部331は、例えば、受信した第1言語テキストデータに含まれているアカウント名に基づいて、ユーザU2が使用する言語が第2言語であることを特定する。具体的には、翻訳制御部331は、第1言語テキストデータの内容が「トム、初めまして」である場合、「トム」が、使用言語テーブルに含まれているアカウント名であることを検出し、「トム」が使用できる言語が英語であることを特定することにより、第2言語が英語であると特定する。
言語変換部332は、翻訳制御部331から通知された言語種別に基づいて、第1通信部21が情報端末2aから受信した第1言語テキストデータを第2言語翻訳データに変換する。言語変換部332は、翻訳制御部331から第1言語テキストデータの入力を受けると、入力された第1言語テキストデータを翻訳することにより第2言語翻訳データを生成し、生成した第2言語翻訳データを翻訳制御部331に通知する。また、言語変換部332は、第1通信部21が情報端末2bから受信した第2言語テキストデータを第1言語翻訳データに変換する。言語変換部332は、翻訳制御部331から第2言語テキストデータの入力を受けると、入力された第2言語テキストデータを翻訳することにより第1言語翻訳データを生成し、生成した第1言語翻訳データを翻訳制御部331に通知する。
さらに、言語変換部332は、翻訳制御部331からの指示に基づいて、第1言語テキストデータに基づいて生成した第2言語翻訳データを第1言語に翻訳して、再翻訳データを生成する。言語変換部332は、再翻訳データを翻訳制御部331に通知する。
[情報端末2の操作画面]
続いて、ユーザU1がユーザU2及びユーザU3と会話を開始する場合の操作について説明する。図5は、ユーザU1が情報端末2aの利用を開始する際に表示部23に表示される利用者選択画面を示す図である。本実施形態においては、情報端末2aがユーザU1自身の端末ではなく、レンタルされた端末であることが想定されている。そこで、ユーザU1は、まずユーザU1が使用可能な言語を設定する必要がある。
図5(a)に示すように、利用者選択画面においては、翻訳装置3による翻訳サービスを利用できるユーザのアカウント名と言語名とが関連付けて表示される。図5(b)に示すように、ユーザU1は、自身のアカウント名である「太郎」の左側のチェックボックスにタッチすることで、情報端末2aを用いた翻訳サービスを利用することが可能になる。UI処理部262は、「太郎」の左側のラジオボタンがタッチされると、ユーザU1のアカウント名が「太郎」であり、使用する言語が日本語であることを記憶部25に記憶させる。
図6は、会話をする相手を選択する際に表示部23に表示される相手選択画面を示す図である。図6(a)においても、図5(a)と同様に、翻訳装置3による翻訳サービスを利用できるユーザのアカウント名と言語名とが関連付けて表示されている。図6(b)に示すように、ユーザU1が、「トム」の左側のチェックボックス、及び「周」の左側のチェックボックスにタッチすると、UI処理部262は、ユーザU2が「トム」であり、ユーザU3が「周」であることを記憶部25に記憶させる。
図7は、会話をする際に表示部23に表示される会話用画面を示す図である。図7(a)に示すように、会話用画面には、自分が発した音声が変換された第1言語テキストデータが表示される第1領域R1と、再翻訳データが表示される第2領域R2と、相手が発した音声が翻訳された第1言語翻訳データが表示される第3領域R3とが含まれている。
また、会話用画面には、ユーザが音声を入力する間に操作する「話す」アイコンが含まれている。テキスト変換部261は、「話す」アイコンに指がタッチされている間にヘッドセット1において入力された音声を第1言語テキストデータに変換し、「話す」アイコンから指が離れたタイミングで第1言語テキストデータへの変換処理を終了する。そして、テキスト変換部261は、「話す」アイコンに指がタッチしてから指が離れるまでの間に入力された音声に対応する第1言語テキストデータを翻訳装置3に送信する。このようにすることで、ユーザが指定した期間のみが翻訳の対象となるので、ユーザが音声を入力していない間にヘッドセット1に入力された周囲の音が誤って翻訳されることを防止できる。
図7(b)に示すように、ユーザU1が「話す」アイコンにタッチした状態で音声を発すると、第1領域R1には、ユーザU1が発した音声の内容を示す第1言語テキストデータが表示される。ユーザU1は、表示された第1言語テキストデータを視認して、音声が正しく認識されたことを確認することができる。
情報端末2aは、ユーザU1が視認した第1言語テキストデータに誤りがある場合、ユーザU1が所定の単語を発することで、入力された音声をキャンセルするように動作してもよい。テキスト変換部261は、例えば、ヘッドセット1aにおいて入力された音声中に「やり直し」という単語を検出した場合、「話す」アイコンがタッチされてから「やり直し」という単語を検出するまでの間に生成した第1言語テキストデータを削除する。テキスト変換部261は、UI処理部262に指示して、表示部23に表示された第1言語テキストデータも消去する。このようにすることで、テキスト変換部261は、ユーザU1が発した音声を正しい第1言語テキストデータに変換できなかった場合に、誤った第1言語テキストデータを翻訳装置3に送信してしまうことを防止できる。
図8は、ユーザU1が「話す」アイコンから指を離した後の情報端末2aの画面と情報端末2bの画面を示す図である。図8(a)に示す情報端末2aの画面の第2領域R2には、再翻訳データが表示されている。図8(b)は、情報端末2bの画面を示しており、情報端末2bの第3領域R3には、ユーザU1が発した「はじめまして」という日本語文が翻訳された英語文が表示されている。
ユーザU1は、情報端末2aに表示された再翻訳データを視認することにより、正しく翻訳されたかどうかを確認することができる。テキスト変換部261は、再翻訳データを表示している間にユーザU1が発した「やり直し」という単語を検出した場合、第2言語翻訳データに誤りがあったことを翻訳装置3に通知してもよい。翻訳装置3は、翻訳に誤りがあったということを認識すると、翻訳に誤りがあったことを情報端末2bに通知し、情報端末2bは、第3領域R3に表示された英語文を消去して、取り消されたことを示す単語(例えばcanceled)を表示してもよい。このようにすることで、翻訳装置3は、ユーザU1が発した音声を正しい第1言語テキストデータに変換できなかった場合に、誤った第2言語翻訳データが情報端末2bに表示し続けてしまうことを防止できる。
翻訳制御部331は、再翻訳データを情報端末2aに送信してから、ユーザU1が再翻訳データの内容を確認するために必要な時間だけ待機した後に、第2言語翻訳データを情報端末2bに送信してもよい。この場合、翻訳制御部331は、再翻訳データを情報端末2aに送信した後に、通信部31が所定の単語(例えば「やり直し」)を含む第1言語テキストデータを受信した場合に、ユーザU2への第2言語翻訳データの送信を中止してもよい。このようにすることで、翻訳装置3は、ユーザU1が発した音声を正しい第1言語テキストデータに変換できなかった場合に、誤った第2言語翻訳データが情報端末2bに送信されることを防止できる。
図9は、図8の状態に続いてユーザU2が第2言語の音声を発した後の情報端末2aの画面と情報端末2bの画面を示す図である。図9(b)に示す情報端末2bの第1領域R1には、ユーザU2が発した音声に対応する第2言語テキストデータが表示されており、図9(a)に示す情報端末2aの第1領域R1には、第2言語テキストデータが翻訳されて生成された第1言語翻訳データが表示されている。また、図9(b)に示す情報端末2bの第2領域R2には、第1言語翻訳データが翻訳された再翻訳データが表示されている。
ヘッドセット1aからは、図9(a)の第2領域R2に示す再翻訳データに対応する第1言語の音声、及び第3領域R3に示す第1言語翻訳データに対応する第1言語の音声が出力される。この際、ヘッドセット1aから第1言語の音声が出力されている最中にユーザU2が第2言語の音声を発して翻訳装置3に送信された場合、翻訳制御部331は、言語変換部332がヘッドセット1bにおいて入力された第2言語の言語情報を第1言語翻訳データに変換した場合に、再翻訳データの送信を中止して第1言語翻訳データを情報端末2aに送信する。このようにすることで、ユーザU1は、再翻訳データの内容よりもユーザU2が発した音声の内容を優先的に把握することが可能になる。
同様に、翻訳制御部331は、ユーザU2が発した第2言語の音声に基づく第1言語翻訳データを情報端末2aに送信している間に、言語変換部332が、新たにユーザU2が発した第2言語の音声を翻訳して新たな第1言語翻訳データの生成が終了すると、送信中の第1言語翻訳データの送信を中止して、新たな第1言語翻訳データの送信を開始してもよい。このようにすることで、ユーザU2は、間違えた内容を含む音声を発した場合に速やかに正しい内容の音声を発することで、ユーザU1に対して正しい内容が伝わるようになる。
翻訳制御部331は、ユーザU2が発した第2言語の音声に基づく第1言語翻訳データを情報端末2aに送信している間に、言語変換部332が、新たにユーザU3が発した第3言語の音声を翻訳して新たな第1言語翻訳データの生成が終了すると、送信中の第1言語翻訳データの送信を中止して、ユーザU3が発した第3言語の音声に基づく第1言語翻訳データの送信を開始してもよい。この場合、翻訳制御部331は、情報端末2bに対して、ユーザU2が発した音声に基づく第1言語翻訳データの送信が中断したことを通知し、情報端末2bが、第1言語翻訳データの送信が中断したことを表示してもよい。このようにすることで、ユーザU2は、自分が話したことがユーザU1に伝わっていないことを認識して、再度発言するといった適切な対応をとることが可能になる。
[翻訳システムS1における処理シーケンス]
図10は、翻訳システムS1における処理シーケンスを示す図である。図10は、ユーザU1がヘッドセット1aにおいて第1言語の音声の入力を開始した時点から開始している(ステップS11)。ヘッドセット1aは、第1言語の音声が入力されると、第1言語の音声に対応するデジタル音声データを情報端末2に送信する。
情報端末2aは、受信したデジタル音声データを第1言語テキストデータに変換する(ステップS12)。この間、情報端末2aのUI処理部262は、音声入力が終了したかどうかを監視し(ステップS13)、テキスト変換部261は、音声入力が終了するまでの間、第1言語テキストデータの生成を継続する。テキスト変換部261は、音声入力が終了したとUI処理部262が判定した場合(ステップS13においてYES)、第2通信部22を介して、生成した第1言語テキストデータを翻訳装置3に送信する。
続いて、言語変換部332は、通信部31を介して受信した第1言語テキストデータを第2言語テキストデータに変換して、第2言語翻訳データを生成する(ステップS14)。翻訳制御部331は、通信部31を介して、言語変換部332が生成した第2言語翻訳データを情報端末2bに送信する。
情報端末2bのテキスト変換部261は、第2言語翻訳データを受信すると、受信した第2言語翻訳データを第2言語のデジタル音声信号に変換する(ステップS15)。情報端末2bのテキスト変換部261は、第2言語のデジタル音声信号を、第1通信部21を介してヘッドセット1bに送信する。ヘッドセット1bの音声処理部151は、情報端末2bから受信したデジタル音声信号をアナログ音声信号に変換して、第2言語の音声を骨伝導スピーカー14から出力する(ステップS16)。
翻訳制御部331は、ステップS14において第2言語翻訳データが生成された後に、言語変換部332に、第2言語翻訳データを第1言語に翻訳させて再翻訳データを作成させ(ステップS17)、再翻訳データを情報端末2aに送信する。情報端末2aのテキスト変換部261は、再翻訳データを受信すると、受信した再翻訳データを第1言語のデジタル音声信号に変換する(ステップS18)。情報端末2aのテキスト変換部261は、第1言語のデジタル音声信号を、第1通信部21を介してヘッドセット1aに送信する。ヘッドセット1aの音声処理部151は、情報端末2aから受信したデジタル音声信号をアナログ音声信号に変換して、第1言語の音声を骨伝導スピーカー14から出力する(ステップS19)。
なお、上述したように、テキスト変換部261は、ステップS14の後に第2言語翻訳データを情報端末2bに送信する前に再翻訳データを情報端末2aに送信し、その後、ユーザU1が再翻訳データを確認するために必要な時間が経過してから第2言語翻訳データを情報端末2bに送信してもよい。
図11は、本実施形態の変形例に係る翻訳システムS2の構成を示す図である。翻訳システムS2においては、ユーザU1が、ヘッドセット1aの代わりに、情報端末2aの機能の一部の機能を有するヘッドセット10を使用するという点で翻訳システムS1と異なる。また、ユーザU2及びユーザU3が、ヘッドセット1b及びヘッドセット1cを使用しておらず、情報端末2b及び情報端末2cの代わりに情報端末20b及び情報端末20cを使用している点で翻訳システムS1と異なる。
ヘッドセット10は、図3に示したヘッドセット1が有する機能に加えて、テキスト変換部261の機能を有する。また、ヘッドセット1における通信部152の代わりに第2通信部22の機能を有する。このようにすることで、ユーザU1は、情報端末2aを使用することなくヘッドセット10を用いるだけで、第2言語を使用するユーザU2、及び第3言語を使用するユーザU3と会話をすることができる。
なお、ヘッドセット10は、無線チャネルを介して接続された情報端末2における操作内容を取得し、ユーザU1が、情報端末2を用いて、翻訳を開始するタイミングを設定できるように構成されていてもよい。また、ヘッドセット10は、アクセスポイント4aを介して翻訳装置3から受信した再翻訳データ及び第1言語翻訳データをユーザU1が視認できるように、無線チャネルを介して接続された情報端末2に表示させてもよい。
情報端末20は、情報端末2に加えて音声を入力するマイク、及び音声を出力するスピーカーを有する。ユーザU2及びユーザU3は、情報端末20b及び情報端末20cを使用することで、ヘッドセット1b及びヘッドセット1cを装着することなくユーザU1と会話をすることができる。
[翻訳システムS1及び翻訳システムS2による効果]
以上説明したように、本実施形態に係る翻訳システムS1及び翻訳システムS2においては、翻訳装置3が、ヘッドセット1aにおいて入力された第1言語の音声を第2言語の音声に翻訳してからヘッドセット1bに送信し、ヘッドセット1bが第2言語に翻訳された音声を出力する。また、翻訳装置3が、ヘッドセット1bにおいて入力された第2言語の音声を第1言語の音声に翻訳してからヘッドセット1aに送信し、ヘッドセット1aが第1言語に翻訳された音声を出力する。このようにすることで、ヘッドセット1a及びヘッドセット1bを装着したユーザは、自分と異なる言語を使う相手の顔を見ながら話しつつ、相手が話す内容を理解することができるので、異なる言語を使用する相手とのコミュニケーションの質を高めることができる。
また、ヘッドセット1は、骨伝導スピーカー14を有する。したがって、ユーザは、相手の生の声を耳で聞きながら、翻訳された後の音声を骨伝導により聞くことができるので、相手の感情を把握しつつ、相手が話す内容を理解することが可能になる。その結果、異なる言語を使用する相手とのコミュニケーションの質をさらに高めることができる。
なお、以上の説明においては、翻訳装置3が言語変換部332を有する場合を例示したが、翻訳装置3は、翻訳機能を有するクラウドサーバ等の外部のサーバを言語変換部332として使用してもよい。図12は、翻訳装置3と異なる言語変換サーバ5により言語変換部332の機能を実現する場合の翻訳装置3の構成を示す図である。このように、翻訳制御部331が、言語変換部332と同等に動作する外部の言語変換サーバ5と通信部31を介して連動することにより翻訳処理を実行してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
以上の説明においては、情報端末2がユーザUにレンタルされた端末である場合が想定されていたが、情報端末2は、ユーザUが携帯電話事業者と契約した端末であってもよい。この場合、情報端末2は、ユーザUが使用する言語情報を記憶しておき、図5に示した利用者選択画面を表示しないようにしてもよい。
1 ヘッドセット
2 情報端末
3 翻訳装置
4 アクセスポイント
5 言語変換サーバ
10 ヘッドセット
11 第1メインマイク
12 第2メインマイク
13 サブマイク
14 骨伝導スピーカー
15 制御ユニット
16 ケーブル
17 マイク収容部
18 接続部材
19 本体部
20 情報端末
21 第1通信部
22 第2通信部
23 表示部
24 操作部
25 記憶部
26 制御部
31 通信部
32 記憶部
33 制御部
151 音声処理部
152 通信部
153 制御部
261 テキスト変換部
262 処理部
331 翻訳制御部
332 言語変換部
本発明は、入力した音声を翻訳するための翻訳システム、翻訳方法、及び翻訳装置に関する。
上記の第1ユーザ端末は、例えば、第1言語の音声の入力を受ける音声入力部と、前記音声入力部が受けた前記第1言語の音声が変換されたテキストデータを、前記第1言語を第2言語に翻訳する翻訳装置に送信する端末送信部と、前記翻訳装置から、第2ユーザが使用する第2ユーザ端末において入力された前記第2言語の言語情報が前記第1言語に翻訳された第1言語翻訳データを受信する端末受信部と、前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第1言語翻訳データが変換された前記第1言語の音声を出力する音声出力部と、を有する。

Claims (16)

  1. 第1ユーザが使用する第1ユーザ端末と、前記第1ユーザ端末と通信可能な翻訳装置と、を備え、
    前記第1ユーザ端末は、
    第1言語の音声の入力を受ける音声入力部と、
    前記音声入力部が受けた前記第1言語の音声が変換された第1言語テキストデータを前記翻訳装置に送信する端末送信部と、
    前記翻訳装置から、第2ユーザが使用する第2ユーザ端末において入力された第2言語の言語情報が前記第1言語に翻訳された第1言語翻訳データを受信する端末受信部と、
    前記端末受信部が受信した前記第1言語翻訳データが変換された前記第1言語の音声を出力する音声出力部と、
    を有し、
    前記翻訳装置は、
    前記第1ユーザが使用する第1言語と、前記第2ユーザが使用する第2言語とを特定する特定部と、
    前記第1ユーザ端末から前記第1言語テキストデータを受信する装置受信部と、
    前記装置受信部が受信した前記第1言語テキストデータを第2言語翻訳データに変換する言語変換部と、
    前記第2ユーザ端末に対して前記第2言語翻訳データを送信する装置送信部と、
    を有する翻訳システム。
  2. 前記言語変換部は、前記第2言語翻訳データを前記第1言語に変換して再翻訳データを生成し、
    前記装置送信部は、前記再翻訳データを前記第1ユーザ端末に送信し、
    前記音声出力部は、前記音声入力部が前記第1言語の音声の入力を受けている間に、前記再翻訳データを出力する、
    請求項1に記載の翻訳システム。
  3. 前記装置送信部は、前記言語変換部が前記第2ユーザ端末において入力された前記第2言語の言語情報を前記第1言語翻訳データに変換した場合に、前記再翻訳データの送信を中止して前記第1言語翻訳データを送信する、
    請求項2に記載の翻訳システム。
  4. 前記装置送信部は、前記再翻訳データを前記第1ユーザ端末に送信した後に、前記装置受信部が所定の単語を含む前記第1言語テキストデータを受信した場合に、前記第2ユーザ端末への前記第2言語翻訳データの送信を中止する、
    請求項2又は3に記載の翻訳システム。
  5. 前記装置受信部は、前記第2ユーザ端末から第2言語の音声が変換された第2言語テキストデータを受信し、
    前記言語変換部は、前記装置受信部が受信した前記第2言語の前記第2言語テキストデータを第1言語翻訳データに変換し、
    前記装置送信部は、前記第1言語翻訳データを送信している間に、前記言語変換部が、新たな前記第1言語翻訳データの生成が終了すると、送信中の前記第1言語翻訳データの送信を中止して、新たな前記第1言語翻訳データの送信を開始する、
    請求項1から4のいずれか一項に記載の翻訳システム。
  6. 前記音声出力部は骨伝導スピーカーを有し、前記音声入力部が前記第1言語の音声の入力を受けている間に、前記骨伝導スピーカーから前記第1言語の音声を出力する、
    請求項1から5のいずれか一項に記載の翻訳システム。
  7. 前記音声入力部は、音を取得するための複数のメインマイクと、周囲音を取得するためのサブマイクとを有し、
    前記端末送信部は、前記複数のメインマイクが取得した音から前記サブマイクが取得した周囲音を除去した後の音に対応するテキストデータを前記第1言語の音声に対応する前記第1言語テキストデータとして送信する、
    請求項1から6のいずれか一項に記載の翻訳システム。
  8. 前記第1ユーザ端末をユーザが装着した状態で、前記サブマイクと前記第1ユーザの口との距離が、前記複数のメインマイクと前記第1ユーザの口との距離よりも大きい、
    請求項7に記載の翻訳システム。
  9. 前記第1ユーザ端末は、
    前記複数のメインマイクそれぞれに入力された音と、前記サブマイクに入力された音とを比較した結果に基づいて、前記複数のメインマイクの少なくともいずれかに入力された音から前記第1言語の音声を抽出する抽出部と、
    前記抽出部が抽出した前記第1言語の音声を前記第1言語テキストデータに変換するテキスト変換部と、
    をさらに有する、
    請求項7又は8に記載の翻訳システム。
  10. 前記抽出部は、前記複数のメインマイクそれぞれに入力された音を比較した結果に基づいて前記第1言語の音声と推定される音を特定し、特定した音と前記サブマイクに入力された音とを比較した結果に基づいて前記第1言語の音声を抽出する、
    請求項9に記載の翻訳システム。
  11. 前記端末送信部は、前記第1言語テキストデータに関連付けて、前記第2ユーザを特定するためのユーザ特定情報を前記翻訳装置に送信し、
    前記特定部は、複数のユーザに関連付けて、前記複数のユーザそれぞれが使用する言語を記憶する記憶部を参照することにより、前記端末送信部が送信した前記ユーザ特定情報が示す前記第2ユーザに関連付けて前記記憶部に記憶された前記第2言語を特定する、
    請求項1から10のいずれか一項に記載の翻訳システム。
  12. 前記端末送信部は、前記第1言語テキストデータの送信を開始する前に、前記第2ユーザの言語を特定するための言語情報を前記翻訳装置に送信し、
    前記特定部は、前記端末送信部が送信した前記言語情報に基づいて前記第2言語を特定する、
    請求項1から10のいずれか一項に記載の翻訳システム。
  13. 前記特定部は、前記第1言語テキストデータに含まれる単語に基づいて前記第2言語を特定する、
    請求項1から10のいずれか一項に記載の翻訳システム。
  14. 翻訳装置が、第1ユーザが使用する第1言語と、第2ユーザが使用する第2言語を特定するステップと、
    第1ユーザが使用する第1ユーザ端末が第1言語の音声の入力を受けるステップと、
    前記第1ユーザ端末が前記第1言語の音声をテキストデータに変換し、変換した前記テキストデータを前記翻訳装置に送信するステップと、
    前記翻訳装置が前記テキストデータを前記第2言語の翻訳データに変換するステップと、
    前記翻訳装置が、前記第2ユーザが使用する第2ユーザ端末に前記翻訳データを送信するステップと、
    前記第2ユーザ端末が、前記翻訳データが変換された前記第2言語の音声を出力するステップと、
    を有する翻訳方法。
  15. 第1ユーザが使用する第1言語と、第2ユーザが使用する第2言語とを特定する特定部と、
    前記第1ユーザが使用する第1ユーザ端末から、前記第1言語の音声が変換された第1言語テキストデータを受信する装置受信部と、
    前記装置受信部が受信した前記第1言語テキストデータを第2言語翻訳データに変換する言語変換部と、
    前記第2ユーザが使用する第2ユーザ端末に対して前記第2言語翻訳データを送信する装置送信部と、
    を有する翻訳装置。
  16. 第1言語の音声の入力を受ける音声入力部と、
    前記音声入力部が受けた前記第1言語の音声が変換されたテキストデータを、前記第1言語を第2言語に翻訳する翻訳装置に送信する端末送信部と、
    前記翻訳装置から、第2ユーザが使用する第2ユーザ端末において入力された前記第2言語の言語情報が前記第1言語に翻訳された第1言語翻訳データを受信する端末受信部と、
    前記音声入力部に音声が入力されている間に、前記端末受信部が受信した前記第1言語翻訳データが変換された前記第1言語の音声を出力する音声出力部と、
    を有する音声入出力装置。


JP2018545518A 2018-03-26 2018-03-26 翻訳システム、翻訳方法、及び翻訳装置 Active JP6457706B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/012098 WO2019186639A1 (ja) 2018-03-26 2018-03-26 翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018238284A Division JP2019175426A (ja) 2018-12-20 2018-12-20 翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置

Publications (2)

Publication Number Publication Date
JP6457706B1 JP6457706B1 (ja) 2019-02-06
JPWO2019186639A1 true JPWO2019186639A1 (ja) 2020-04-30

Family

ID=65270550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018545518A Active JP6457706B1 (ja) 2018-03-26 2018-03-26 翻訳システム、翻訳方法、及び翻訳装置

Country Status (3)

Country Link
JP (1) JP6457706B1 (ja)
TW (1) TWI695281B (ja)
WO (1) WO2019186639A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457716B (zh) * 2019-07-22 2023-06-06 维沃移动通信有限公司 一种语音输出方法及移动终端
CN111476040A (zh) * 2020-03-27 2020-07-31 深圳光启超材料技术有限公司 语言输出方法、头戴设备、存储介质及电子设备
CN111696552B (zh) * 2020-06-05 2023-09-22 北京搜狗科技发展有限公司 一种翻译方法、装置和耳机

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6094845B2 (ja) * 2015-03-16 2017-03-15 株式会社eRCC 耳装着型装置
JP6473066B2 (ja) * 2015-10-26 2019-02-20 日本電信電話株式会社 雑音抑圧装置、その方法及びプログラム
JP6697270B2 (ja) * 2016-01-15 2020-05-20 シャープ株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
WO2018008227A1 (ja) * 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法

Also Published As

Publication number Publication date
TW201941084A (zh) 2019-10-16
JP6457706B1 (ja) 2019-02-06
WO2019186639A1 (ja) 2019-10-03
TWI695281B (zh) 2020-06-01

Similar Documents

Publication Publication Date Title
JP2019175426A (ja) 翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
US10872605B2 (en) Translation device
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US10599785B2 (en) Smart sound devices and language translation system
TWI650034B (zh) 用於語音命令的智能藍牙頭戴式器件
JP6165321B2 (ja) 装置及び方法
US20050261890A1 (en) Method and apparatus for providing language translation
JP6457706B1 (ja) 翻訳システム、翻訳方法、及び翻訳装置
KR20180020368A (ko) 통역 장치 및 방법
JP2021150946A (ja) ワイヤレスイヤホンデバイスとその使用方法
CN110602675A (zh) 一种用于耳机对的翻译方法、装置、耳机对及翻译系统
KR101517975B1 (ko) 동시 통/번역 기능을 가지는 이어폰 장치
JP3820245B2 (ja) 3者通話方式の自動通訳システム及び方法
CN111783481A (zh) 耳机控制方法、翻译方法、耳机和云端服务器
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
US20210312143A1 (en) Real-time call translation system and method
JP2014186713A (ja) 会話システムおよびその会話処理方法
KR20200049404A (ko) 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법
WO2021080362A1 (ko) 이어셋을 이용한 언어 처리 시스템
WO2006001204A1 (ja) 自動翻訳装置及び自動翻訳方法
KR102349620B1 (ko) 사용자 단말을 통해 통번역 서비스를 제공하는 방법 및 그 장치
CN110210042A (zh) 语音数据处理方法、系统、电子装置以及计算机可读存储介质
WO2022113189A1 (ja) 音声翻訳処理装置
KR20200081925A (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180829

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180829

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181220

R150 Certificate of patent or registration of utility model

Ref document number: 6457706

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250