WO2018055983A1 - 翻訳装置、翻訳システム、および評価サーバ - Google Patents

翻訳装置、翻訳システム、および評価サーバ Download PDF

Info

Publication number
WO2018055983A1
WO2018055983A1 PCT/JP2017/030650 JP2017030650W WO2018055983A1 WO 2018055983 A1 WO2018055983 A1 WO 2018055983A1 JP 2017030650 W JP2017030650 W JP 2017030650W WO 2018055983 A1 WO2018055983 A1 WO 2018055983A1
Authority
WO
WIPO (PCT)
Prior art keywords
translation
data
evaluation value
speech recognition
control unit
Prior art date
Application number
PCT/JP2017/030650
Other languages
English (en)
French (fr)
Inventor
武寿 中尾
諒 石田
釜井 孝浩
持田 哲司
森岡 幹夫
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2016185236 priority Critical
Priority to JP2016-185236 priority
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2018055983A1 publication Critical patent/WO2018055983A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

翻訳装置は、発話者による第1の言語の発話を取得し、発話の内容を第2の言語に翻訳して情報を提示する翻訳装置であって、入力部と、制御部と、通知部とを備える。入力部は、第1の言語の発話を取得し、発話に基づく音声データを生成する。制御部は、音声データを音声認識処理して得られる音声認識データに対する第1の評価値、および、音声認識データを第2の言語に翻訳処理して得られる翻訳データに対する第2の評価値を取得する。通知部は、発話の再入力を促す情報を発話者に提示する。そして、通知部は、第1の評価値が第1の所定値以下であるときに、発話の再入力を促す第1の情報を提示し、第1の評価値が第1の所定値よりも大きく、かつ、第2の評価値が第2の所定値以下であるときに、第1の情報とは異なる、発話の再入力を促す第2の情報を提示する。

Description

翻訳装置、翻訳システム、および評価サーバ
 本開示は、一の言語で取得した発話を他の言語に翻訳する翻訳装置に関する。
 特許文献1は、計算機の自動翻訳機能を利用して翻訳を行う翻訳システムを開示する。この翻訳システムは、第一者から言語入力部を通して入力された入力言語を、翻訳変換部により第二者への翻訳言語に翻訳すると共に、再翻訳変換部にて第一者への翻訳言語に再翻訳し、この再翻訳言語を帰還言語出力部を通して常時第一者に提示させるように構成されている。これにより、第一者は、常に第二者に対する翻訳言語が正しい表現内容で翻訳されているかどうかを確認することができ、その表現内容が意に反する場合には、入力言語を翻訳解釈に好都合な別の表現で再入力することができる。
特開平4-319769号公報
 本開示は、発話者による第1の言語の発話を取得し、発話の内容を第2の言語に翻訳して情報を提示する翻訳装置であって、音声認識処理や翻訳処理における処理結果が適切なものでないときに発話者に対して再入力を要求できる翻訳装置を提供する。
 本開示の一態様において、発話者による第1の言語の発話を取得し、発話の内容を第2の言語に翻訳して情報を提示する翻訳装置が提供される。翻訳装置は、入力部と、制御部と、通知部とを備える。入力部は、第1の言語の発話を取得し、発話に基づく音声データを生成する。制御部は、音声データを音声認識処理して得られる音声認識データに対する第1の評価値、および、音声認識データを第2の言語に翻訳処理して得られる翻訳データに対する第2の評価値を取得する。通知部は、発話の再入力を促す情報を発話者に提示する。そして、通知部は、第1の評価値が第1の所定値以下であるときに、発話の再入力を促す第1の情報を提示し、第1の評価値が第1の所定値よりも大きく、かつ、第2の評価値が第2の所定値以下であるときに、第1の情報とは異なる、発話の再入力を促す第2の情報を提示する。
 本開示の翻訳装置によれば、音声認識処理や翻訳処理における処理結果が適切なものでないときに発話者に対して再入力を要求できる。その際、発話者に対して処理結果の状況に応じた適切な内容の情報を提示できる。
図1は、実施の形態1にかかる翻訳装置の外観を示す図である。 図2は、翻訳装置の電気的な構成を示すブロック図である。 図3は、ホストの発話の音声認識結果の評価値が低い場合の再入力要求の表示例を示す図である。 図4は、各処理における処理結果の評価値が低い場合に提示されるメッセージの例を示した図である。 図5は、実施の形態1における、翻訳装置の制御部による翻訳処理を示すフローチャートである。 図6は、音声認識データ(音声認識テキスト)の例を示す図である。 図7は、実施の形態2における、翻訳装置の制御部による翻訳処理を示すフローチャートである。 図8は、発話の再入力時において、過去の音声認識データを用いて新たな音声認識テキストを生成する際の処理を説明するための図である。 図9は、発話の再入力時において、過去の翻訳データを用いて新たな音声認識テキストを生成する際の処理を説明するための図である。 図10は、実施の形態3における、翻訳装置の制御部による翻訳処理を示すフローチャートである。 図11Aは、音声認識データの一例を示す図である。 図11Bは、翻訳データの一例を示す図である。 図12は、各処理における処理結果の評価値が低い場合に提示されるメッセージの例を示した図である。 図13は、実施の形態4における翻訳装置の逆翻訳結果の表示例を示す図である。 図14は、実施の形態4における翻訳装置の制御部による処理を示すフローチャートである。 図15は、実施の形態4の翻訳装置において逆翻訳結果の評価値が低い場合に表示される警告メッセージの例を示す図である。 図16は、他の実施の形態における翻訳システムの電気的な構成を示すブロック図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態1)
 以下、図1~5を用いて、実施の形態1を説明する。以下では、本開示にかかる音声入力装置及び方法を用いた翻訳装置を説明する。
 [1-1.構成]
 図1は、実施の形態1にかかる翻訳装置の外観を示す図である。図1に示す翻訳装置1は、例えばタブレットタイプであり、言語が異なる2人のユーザの会話を翻訳する。本実施の形態では、英語を話すゲスト(旅行者)と、日本語を話し、ゲストを案内するホスト(案内者)とが翻訳装置1を介して対面で行う会話を翻訳することを想定して説明する。
 翻訳装置1は、マイク10と、スピーカ12と、ディスプレイ14と、タッチパネル16とを備える。マイク10及びスピーカ12は、例えば、翻訳装置1の側面の開口近傍に配置されている。ディスプレイ14及びタッチパネル16は、翻訳装置1の主面に配置されている。ディスプレイ14の長手方向の一方側(例えば、ホスト側)の領域には、発話アイコン14h、14hg及び表示領域15hが配置される。ディスプレイ14の長手方向の他方側(例えば、ゲスト側)の領域には、発話アイコン14g及び表示領域15gが表示される。各発話アイコン14h、14g、14hgに対して、ユーザによるタッチ操作により操作がなされる。本実施の形態では、タッチ操作とは、ホストやゲストの指がタッチパネル16における発話アイコン14h、14g、14hgのそれぞれに対応する領域に接触して離れる操作のみならず、ホストやゲストの指がこの領域に接触した後にスライドして離れる操作も含む。
 発話アイコン14hは、ホストが発話を行う(すなわち、日本語の発話を翻訳装置1に入力する)ときに、ホスト本人がホストの発話の開始時点及び終了時点を指定するための操作アイコンである。発話アイコン14gは、ゲストが発話を行う(すなわち、英語の発話を入力する)ときに、ゲスト本人がゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。発話アイコン14hgは、ゲストが発話を行う(例えば、英語の発話を入力する)ときに、ゲスト本人に代わりホストがゲストの発話の開始時点及び終了時点を指定するための操作アイコンである。表示領域15h、15gは、音声認識結果、翻訳結果及び逆翻訳結果等を文字列として表示するための領域である。
 図2は、実施の形態1にかかる翻訳装置1の電気的な構成を示すブロック図である。翻訳装置1は、インターネットのようなネットワーク2を介して、音声認識サーバ3、翻訳サーバ4、音声合成サーバ5及び評価サーバ6のそれぞれとデータ通信を行う。
 音声認識サーバ3は、翻訳装置1からネットワーク2を介してデジタル音声データを受信し、受信したデジタル音声データを音声認識して文字列の音声認識データを生成するサーバである。
 翻訳サーバ4は、翻訳装置1からネットワーク2を介して音声認識データを受信し、受信した音声認識データを翻訳して文字列の翻訳データを生成するサーバである。
 音声合成サーバ5は、翻訳装置1からネットワーク2を介して文字列の翻訳データを受信し、受信した文字列の翻訳データを音声合成して音声信号を生成するサーバである。
 評価サーバ6は、翻訳装置1からネットワーク2を介して音声認識データまたは翻訳データを受信し、音声認識データまたは翻訳データが示す文の“文らしさ”の程度を示す評価値を算出するサーバである。ここで、“文らしさ”とは、その文の言語における文章としての適切さを意味する。
 翻訳装置1は、マイク10と、スピーカ12と、ディスプレイ14と、タッチパネル16とに加えて、通信部18と、記憶部20と、制御部22とを備える。
 マイク10は、音声をデジタル音声データに変換する装置である。具体的には、マイク10は、音声を音声信号(アナログ電気信号)に変換し、さらに、AD変換器により音声信号をデジタル音声データに変換する。すなわち、マイク10は、発話者の発話を取得し、発話に基づく音声データを生成する。
 通信部18は、Bluetooth(登録商標)、Wi-Fi(登録商標)、3G、LTE(登録商標)、IEEE802.11等の通信方式に従って、ネットワーク2を介して音声認識サーバ3、翻訳サーバ4、音声合成サーバ5および評価サーバ6とデータ通信を行う通信モジュールである。
 記憶部20は、フラッシュメモリ、強誘電体メモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)などで構成される記録媒体である。記憶部20は、マイク10からのデジタル音声データ及び翻訳サーバ4からの翻訳データを格納する。また、記憶部20は制御部22のための各種プログラムを格納している。
 制御部22は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等で構成され、記憶部20に格納された各種プログラムを実行することにより、翻訳装置1の全体の動作を制御する。本実施の形態では、制御部22の機能は、ハードウェアとソフトウェアの協同により実現するが、所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。すなわち、制御部22は、CPU、MPUのみならず、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等で構成することができる。
 スピーカ12は、電気信号を音声に変換する装置である。スピーカ12は、制御部22からの音声信号(電気信号)に基づいた音声を出力する。
 ディスプレイ14は、画像を表示する装置であり、液晶表示デバイスまたは有機EL表示デバイスで構成される。ディスプレイ14は、表示領域15h、15gにおいて、制御部22からの音声認識データ、翻訳データ、及び、逆翻訳データが示す画像を表示する。ディスプレイ14は、音声認識データ、翻訳データ、及び、逆翻訳データをホスト及びゲストに対して提示する通知部の一例である。また、ディスプレイ14は上述した発話アイコン14h、14g、14hgを表示する。
 タッチパネル16は、ユーザが操作する操作部であり、ユーザからの指示を受け付ける。タッチパネル16は、ディスプレイ14に重畳して配置されている。
 [1-2.動作]
 以上のように構成された翻訳装置1の動作の概要を説明する。
 翻訳装置1は、音声入力期間においてマイク10に入力される音声に応じたデジタル音声データを、ネットワーク2を介して音声認識サーバ3に送信する。音声認識サーバ3は、受信した音声データを音声認識して文字列の音声認識データ(テキストデータ)を生成する。翻訳装置1は、音声認識データを音声認識サーバ3からネットワーク2を介して受信する。
 翻訳装置1は、音声認識データを、ネットワーク2を介して翻訳サーバ4に送信する。翻訳サーバ4は、受信した音声認識データを翻訳して文字列の翻訳データ(テキストデータ)を生成する。翻訳装置1は、翻訳データを翻訳サーバ4からネットワーク2を介して受信する。
 翻訳装置1は、翻訳データを、ネットワーク2を介して音声合成サーバ5に送信する。音声合成サーバ5は、受信した翻訳データに基づき音声合成を行って音声信号を生成する。そして、翻訳装置1は、音声信号を音声合成サーバ5からネットワーク2を介して受信する。
 翻訳装置1は、受信した音声信号に基づき、スピーカ12から翻訳結果を示す音声を出力する。同時に、翻訳装置1は、翻訳データに基づくテキスト情報(翻訳結果)をディスプレイ14に表示する。
 この翻訳装置1において、ホストの発話を翻訳する場合、翻訳装置1は、まずタッチパネル16における発話アイコン14hに対するホストによるタッチ操作に基づいて、音声認識を行う音声の入力期間を決定する。具体的には、翻訳装置1は、ホストが発話アイコン14hを1回目にタッチしたときに音声入力期間の開始時点を決定し、ホストが発話アイコン14hを2回目にタッチしたときに音声入力期間の終了時点を決定する。翻訳装置1は、決定した開始時点から終了時点までの音声入力期間においてマイク10に入力されるホストの音声を音声認識して翻訳する。なお、発話の終了時点は、操作アイコンの押し忘れや音声入力が冗長となる場合を考慮して、開始時点から所定の時間経過後とすることもできる。翻訳装置1は、翻訳結果を示す音声をスピーカ12から出力する。同時に、翻訳装置1は、翻訳結果を文字列としてディスプレイ14のゲスト側の表示領域15gに表示するとともに、音声認識結果(必要に応じて、逆翻訳結果も)を文字列としてディスプレイ14のホスト側の表示領域15hに表示する。
 また、ゲストの発話を翻訳する場合、翻訳装置1は、まずタッチパネル16における発話アイコン14gに対するゲストによるタッチ操作に基づいて音声入力期間を決定する。具体的には、翻訳装置1は、ゲストが発話アイコン14gを1回目にタッチしたときに音声入力期間の開始時点を決定し、ゲストが発話アイコン14gを2回目にタッチしたときに音声入力期間の終了時点を決定する。翻訳装置1は、決定した開始時点から終了時点までの音声期間においてマイク10に入力されるゲストの音声を音声認識して翻訳する。なお、この時も発話の終了時点は、操作アイコンの押し忘れや音声入力が冗長となる場合を考慮して、開始時点から所定の時間経過後とすることもできる。翻訳装置1は、翻訳結果を音声としてスピーカ12から出力する。同時に、翻訳装置1は、翻訳結果を文字列としてディスプレイ14のホスト側の表示領域15hに表示するとともに、音声認識結果(必要であれば、逆翻訳結果も)を文字列としてディスプレイ14のゲスト側の表示領域15gに表示する。
 このような翻訳装置1において、途中の音声認識処理や翻訳処理において言語として適切な表現を含む結果が得られなかった場合、最終的に得られる翻訳結果も正しいものにならない。最終的に得られる翻訳結果が適切なものでない場合、ユーザは再度、発話(音声)を入力する必要があり、時間がかかるという問題があった。例えば、音声認識処理の結果が適切でない場合、最終的に正しい結果が得られない可能性があるにもかかわらず、その後の翻訳処理、音声合成処理等が実行される必要があった。また、翻訳処理の結果が正しくない場合も、その後の音声合成処理等が実行される必要があった。このように、結果として無駄となる処理を実行する必要があり、時間がかかっていた。
 そこで、本実施の形態では、音声認識処理や翻訳処理の結果が不適切なものであった場合、その不適切さが検出された時点で、その後段の処理は行わずに、ユーザに対して発話(音声)の再入力を要求する。例えば、ホストの発話に対する音声認識の結果、日本語の文として適切でないと判断した場合、その後段の処理は実施せずに、図3に示すように、ホスト側の表示領域15hにおいて発話の再入力を要求するメッセージを表示する。これにより、不適切なテキスト情報に基づいた無駄な処理を削減でき、ユーザに対して迅速に再度の発話(音声)入力を要求できる。
 図4は、発話の再入力要求時に表示されるメッセージの例を示した図である。音声認識結果の評価が低かった場合、「もう一度、はっきりとお話し下さい」のメッセージ(第1の情報の一例)が表示される。翻訳処理結果の評価が低かった場合、「言い方を変えて、もう一度お話し下さい」のメッセージ(第2の情報の一例)が表示される。また、逆翻訳(後述)の結果が低かった場合、「あなたの言いたいことが、相手に伝わっているかどうか確認して下さい」のメッセージ(第4の情報の一例)が表示される。音声認識、翻訳処理、逆翻訳処理のいずれも高かった場合は、再入力を要求するメッセージは表示されない。このように、評価が低かった処理の種類に応じて異なるメッセージが表示される。これにより、ユーザに対して、発話の再入力時に注意すべき点をより正確に伝達できるようになり、発話の再々入力の可能性を低減できる。但し、実施の形態1では、逆翻訳の評価を削除している。
 図5は、実施の形態1の翻訳装置1の制御部22による翻訳処理を示すフローチャートである。以下、図5のフローチャートを用いて翻訳装置1の翻訳処理を説明する。なお、以下の説明では、ホスト(例えば、案内者)が発した日本語の発話(音声)を翻訳装置1により英語に翻訳し、その翻訳結果をゲスト(例えば、旅行者)に伝達する場面を想定して説明する。
 マイク10は、ユーザの発話(音声)を取得し、音声データを生成する(S11)。制御部22は、マイク10から音声データを取得し、文字列の音声認識データを生成する音声認識を行う(S12)。具体的には、制御部22は、通信部18を介して音声データを音声認識サーバ3に送信する。音声認識サーバ3は、受信した音声データに基づき音声認識を行って音声認識データを生成し、生成した音声認識データを翻訳装置1に送信する。
 次に、制御部22は、受信した音声認識データの評価を行う(S13)。具体的には、制御部22は、受信した音声認識データを、通信部18を介して評価サーバ6に送信する。評価サーバ6は、受信した音声認識データから得られるテキスト(以下「音声認識テキスト」という)から、音声認識テキストが示す文の日本語としての「文らしさ」の程度を示す第1の評価値を算出する(S13)。
 「文らしさ」とは、その文が自然に出現する文であることを示す適切性である。「文らしさ」の程度は、文を構成する各単語の出現確率に基づいて算出する。すなわち、「文らしさ」の程度は、ある単語について、その単語近傍の別の単語との位置関係においてその単語が出現する確率を用いて評価する。この単語の出現確率は、あらかじめ大量の文データを解析して算出しておく。例えばN-gramモデル(本実施の形態では、バイグラムモデル(N=2))は、この出現確率を用いて文らしさを評価する手法の一つである。評価サーバ6は、N-gramモデルに従いあらかじめ行ったデータ解析によって生成された情報(テーブル)であって、ある単語と、その単語の近傍に存在する他の単語の前後にその単語が出現する確率とを対応づけた情報を備えている。
 例えば、図6に示すような文章A10の音声認識テキストが得られた場合を想定する。この例では、単語A1に続いて単語A2が出現する確率が0.1となり、単語A2に続いて単語A3が出現する確率が0.0001となり、単語A3に続いて単語A4が出現する確率が0.2となり、単語A4に続いて単語A5が出現する確率が0.15となり、単語A5に続いて単語A6が出現する確率が0.3となっている。評価サーバ6は、文らしさを示す第1の評価値を各単語の出現確率の相乗平均で求める。すなわち、文章A10についての第1の評価値は、(0.1×0.0001×0.2×0.15×0.3)の5乗根で求められる。この例では、「文らしさ」の程度が高いほど、第1の評価値が高くなるように設定されている。
 評価サーバ6は、求めた第1の評価値を翻訳装置1に送信する。翻訳装置1の制御部22は、第1の評価値を第1の所定値と比較する(S14)。
 第1の評価値が第1の所定値以下の場合(S14でNO)、制御部22は、ホストに対する、発話(音声)の再入力を要求するメッセージ(第1の情報)を設定する(S20)。また、制御部22は、ゲストに対するメッセージも設定する。そして、制御部22は、ホストに再入力の要求を促すメッセージをディスプレイ14のホスト側の表示領域15hに表示する(S21)。同時に、制御部22は、ゲスト側の表示領域15gにおいても、ゲスト用のメッセージを表示する。以上で、翻訳処理が終了する。
 例えば、図3に示すように、ホストに対して、表示領域15hにおいて「もう一度、はっきりとお話し下さい」のメッセージが表示され、ゲストに対して、表示領域15gにおいて、”Please wait.  Re-speech is being requested.”のメッセージが表示される。このようなメッセージが表示されることで、ホストは、音声(発話)の再入力が必要であることを認識できるとともに、ゲストは、音声の再入力のために、しばらく待つ必要があることを認識することができる。また、「はっきりとお話し下さい」のメッセージにより、ホストは自己の音声(発話)が明瞭でなかったことを認識でき、次の発話の際には明瞭に発音する必要があることを認識できる。
 一方、第1の評価値が第1の所定値を超えている場合(S14でYES)、制御部22は、音声認識データ(音声認識テキスト)に基づいて翻訳処理を行う(S15)。具体的には、制御部22は、通信部18を介して音声認識データを翻訳サーバ4に送信する。翻訳サーバ4は、受信した音声認識データを翻訳し、翻訳結果を示すテキストを含む翻訳データを翻訳装置1に送信する。
 翻訳装置1の制御部22は、翻訳データ(テキストデータ)を受信すると、受信した翻訳データの評価を行う(S16)。具体的には、制御部22は、受信した翻訳データを、通信部18を介して評価サーバ6に送信する。評価サーバ6は、受信した翻訳データから得られるテキスト(以下「翻訳テキスト」という)から、翻訳テキストが示す文の英語としての「文らしさ」の程度を示す第2の評価値を算出し(S16)、算出した第2の評価値を翻訳装置1に送信する。
 翻訳装置1の制御部22は、第2の評価値を第2の所定値と比較する(S17)。
 第2の評価値が第2の所定値以下の場合(S17でNO)、制御部22は、ホストに対する、発話(音声)の再入力を要求するメッセージ(第2の情報)を設定する(S20)。また、制御部22は、ゲストに対するメッセージも設定する。このとき、設定されるメッセージは、図4に示すように、音声認識結果に関する第1の評価値が低いときに再入力を要求するメッセージとは異なる内容のメッセージである。例えば、音声認識結果に関する第1の評価値が低いときは、「もう一度、はっきりとお話し下さい」というメッセージが表示される。これに対して、翻訳結果に関する第2の評価値が低いときは、「言い方を変えて、もう一度お話し下さい」というメッセージが表示される。このように、それぞれの再入力の原因に応じてメッセージを異ならせることで、ユーザに対して、再入力の原因を認識させることができ、より適切な発話の再入力を促すことができる。
 そして、制御部22は、ホストに再入力の要求を促すメッセージをディスプレイ14のホスト側の表示領域15hに表示する(S21)。同時に、制御部22は、ゲスト側の表示領域15gにおいても、ゲスト用のメッセージを表示する。以上で、翻訳処理が終了する。
 一方、第2の評価値が第2の所定値を超えている場合(S17でYES)、制御部22は、翻訳データを音声合成サーバ5に送信して音声合成処理を行う(S18)。音声合成サーバ5は、受信した翻訳データに基づき音声合成を行い、翻訳結果を示す音声を生成するための音声データを翻訳装置1に送信する。
 翻訳装置1の制御部22は、音声合成サーバ5から受信した音声データに基づき音声をスピーカ12から出力する(S19)。同時に、制御部22は、翻訳データに基づく文をディスプレイ14の表示領域15hに表示する(S19)。
 以上のようにして、ホストの発話が翻訳され、翻訳結果が音声及び文字情報でゲストに提示される。特に、本実施の形態の翻訳装置1は、音声認識及び翻訳それぞれの処理で得られた結果が文章として適切でない(文らしくない)と評価されたときには、その後の処理を行わず、メッセージを表示してユーザに再入力を促す。これにより、不適切な音声認識結果または翻訳結果に基づく無駄な処理の実行を排除し、ユーザに対して迅速に再入力を要求することが可能になる。また、ユーザに再入力を促すメッセージは、音声認識結果の評価が低い場合に表示されるものと、翻訳結果の評価が低い場合に表示されるものとは異なったものとなる。これにより状況に応じた適切なメッセージが表示される。このようなメッセージを参照することで、ユーザはどのような方法で再入力を行なえばよいかを認識することができる。
 [1-3.効果等]
 以上のように、本実施の形態の翻訳装置1は、発話者による第1の言語(例えば、日本語)の発話を取得し、発話の内容を第2の言語(例えば、英語)に翻訳して情報を提示する翻訳装置である。翻訳装置1は、マイク10(入力部の一例)と、制御部22と、ディスプレイ14(通知部の一例)とを備える。マイク10は、第1の言語の発話を取得し、発話に基づく音声データを生成する。制御部22は、音声データを音声認識処理して得られる音声認識データに対する第1の評価値、および、音声認識データを第2の言語に翻訳処理して得られる翻訳データに対する第2の評価値を取得する。そして、ディスプレイ14は、第1の評価値が第1の所定値以下であるときに(S14)、発話の再入力を促す第1のメッセージを提示し、第1の評価値が第1の所定値よりも大きく、かつ、第2の評価値が第2の所定値以下であるときに(S17)、第1のメッセージとは異なる、発話の再入力を促す第2のメッセージを提示する(S21)。
 以上の構成を有する翻訳装置1によれば、音声認識及び翻訳それぞれの処理で得られた結果が文章として適切でない(文らしくない)と評価されたときには、メッセージを表示して発話者に再入力を促す。これにより、発話者に対して迅速に再入力を要求することが可能になる。また、発話者に再入力を促すメッセージは、音声認識結果の評価が低い場合に表示されるものと、翻訳結果の評価が低い場合に表示されるものとは異なったものとなる。これにより処理結果の状況に応じた適切なメッセージが表示される。このようなメッセージを参照することで、発話者はどのような方法で再入力を行なえばよいかを認識することができる。
 また、制御部22は、音声認識処理の結果に対する第1の評価値が第1の所定値以下であることが判明したときは、以後の翻訳処理(S15)及び音声合成処理(S18)を行わない。さらに、制御部22は、翻訳処理の結果に対する第2の評価値が第2の所定値以下であることが判明したときは、以後の音声合成処理(S18)を行わない。これにより、発話者に対して、迅速に再入力を要求することができる。
 (実施の形態2)
 翻訳装置1の別の実施の形態を説明する。本実施の形態の翻訳装置1は、再入力された発話に基づく音声認識結果または翻訳結果に対する評価が低い場合に、過去のデータを用いて、音声認識データまたは翻訳データを作成する。本実施の形態の翻訳装置1のハードウェア構成は実施の形態1と同様である。
 図7は、実施の形態2における翻訳装置1の翻訳処理を示すフローチャートである。図7に示すフローチャートは、実施の形態1における図5に示すフローチャートのステップS11~S21に加えて、さらにステップS14-1~S14-3、S17-1~S17-4を備えている。
 本実施の形態では、ステップS11~S21までの処理は、基本的には、実施の形態1で説明したとおりである。以下、実施の形態1のフローチャートによる処理と異なる点を説明する。
 本実施の形態では、制御部22は、音声データが得られたとき(S11)、音声認識データが得られたとき(S12)、翻訳データが得られたときに(S15)、音声データ、音声認識データおよび翻訳データをそれぞれ記憶部20に格納する。なお、制御部22は、必ずしも、音声データ、音声認識データおよび翻訳データの全てを記憶部20に格納する必要はない。制御部22は、音声データだけを格納し、格納した音声データから必要に応じて音声認識データおよび翻訳データを生成してもよい。または、制御部22は、音声データを格納せずに、音声認識データおよび翻訳データのみを記憶部20に格納してもよい。
 また、音声認識結果に対する評価において、第1の評価値が第1の所定値以下である場合(S14でNO)、制御部22は、今回の発話の入力が再入力要求に対するものであるか否かを判断する(S14-1)。
 今回の発話の入力が再入力要求に対するものでない場合(S14-1でNO)、実施の形態1で説明したように、制御部22は、再入力要求のメッセージを設定し(S20)、メッセージをディスプレイ14に表示する(S21)。
 一方、今回の発話の入力が再入力要求に対するものである場合(S14-1でYES)、制御部22は、過去の音声認識結果を用いて新たな音声認識テキストを作成する(S14-2)。例えば、制御部22は、今回の音声認識テキスト(再入力された発話に対する音声認識データ)と前回の音声認識テキスト(過去の音声認識データ)を用いて新たな音声認識テキストを作成する。図8を用いて一例を説明する。
 図8の例では、前回(第1回目)の音声認識テキストが文章B10であり、今回(第2回目)の音声認識テキストが文章B20である。この場合、前回と今回の音声認識テキストに基づき、新たな音声認識テキストである文章B30を作成する。具体的には、前回の音声認識テキストにおいて、前回の音声認識テキストを構成する単語の中で出現確率が所定値よりも低い単語を、今回の音声認識テキストにおける対応する位置の単語に置き換える。図8の例では、単語B1の出現確率(0.001)が所定値(例えば、0.005)より低いため、前回の音声認識テキストにおいて単語B1を、今回の音声認識テキストにおける単語B2に置き換えて、新たな音声認識テキストである文章B30を作成している。
 ここで、制御部22は、前回の音声認識テキストと、今回の音声認識テキストとの間で、出現確率の高い方の単語を選択することにより新たな音声認識データを生成してもよい。具体的には、制御部22は、所定値との比較を行わずに、文章B10の単語B1の出現確率(0.001)と、単語B1に対応する文章B20の単語B2の出現確率(0.1)とを比較する。そして、制御部22は、出現確率の高い方の単語である単語B2を選択することにより、文章B30を生成してもよい。
 図7に戻り、その後、制御部22は、新たな音声認識テキストの評価を行う(S14-3)。音声認識テキストの評価の方法は前述したとおり(ステップS13、S14)である。新たな音声認識テキストの評価が低い場合(S14-3でNO)、すなわち、新たな音声認識テキストの第1の評価値が第1の所定値以下の場合、制御部22は、再入力要求のメッセージを設定し(S20)、メッセージをディスプレイ14に表示する(S21)。新たな音声認識テキストの評価が高い場合(S14-3でYES)、翻訳ステップ(S15、S16)に進む。
 翻訳結果に対する評価において、第2の評価値が第2の所定値以下である場合(S17でNO)、制御部22は、今回の発話の入力が再入力要求に対するものであるか否かを判断する(S17-1)。
 今回の発話の入力が再入力要求に対するものでない場合(S17-1でNO)、実施の形態1で説明したように、制御部22は、再入力要求のメッセージを設定し(S20)、メッセージをディスプレイ14に表示する(S21)。
 一方、今回の発話の入力が再入力要求に対するものである場合(S17-1でYES)、制御部22は、過去の翻訳結果を用いて新たな翻訳テキストを作成する(S17-2)。例えば、制御部22は、今回の翻訳テキストと前回の翻訳テキストを用いて新たな翻訳テキストを作成する。図9を用いて一例を説明する。
 図9の例では、前回(第1回目)の翻訳テキストが”You can go to Tokyo by bath”であり、今回(第2回目)の翻訳テキストが”To Tokyo you can go by bus”である。この場合、前回と今回の翻訳テキストに基づき、新たな翻訳テキスト”You can go to Tokyo by bus”を作成する。具体的には、前回の翻訳テキストにおいて、出現確率が所定値以下の単語を、今回の音声認識テキストにおける対応する位置の単語に置き換える。図9の例では、”bath”の出現確率(0.0)が所定値(例えば、0.005)より低いため、前回の翻訳テキストにおいて”bath”を、今回の翻訳テキストにおける”bus”に置き換えて、新たな翻訳テキストを作成している。
 ここで、制御部22は、前回の翻訳テキストと、今回の翻訳テキストとの間で、出現確率の高い方の単語を選択することにより新たな翻訳データを生成してもよい。具体的には、制御部22は、所定値との比較を行わずに、”bath”の出現確率(0.0)と、”bus”の出現確率(0.02)とを比較する。そして、制御部22は、出現確率の高い方の単語である”bus”を選択することにより、新たな翻訳データを生成してもよい。
 図7に戻り、その後、制御部22は、新たな翻訳テキストの評価を行う(S17-3)。翻訳テキストの評価の方法は前述したとおり(ステップS16、S17)である。新たな翻訳テキストの評価が低い場合(S17-3でNO)、すなわち、新たな翻訳テキストの第2の評価値が第2の所定値以下の場合、制御部22は、再入力要求のメッセージを設定し(S20)、メッセージをディスプレイ14に表示する(S21)。新たな翻訳テキストの評価値が所定値を超えた場合(S17-3でYES)、制御部22は記憶部20に格納していた過去の音声データ、音声認識データ、および翻訳データを消去する(S17-4)。言い換えると、新たな翻訳テキストの評価が高くなるまで、記憶部20は、入力された発話に対する各データを格納し続ける。これにより、新たな翻訳テキストの評価が高くなるまで、記憶部20は、新たな翻訳テキストを作成するのに必要なデータを保持し続けることができる。
 以上のように、本実施の形態では、再入力した発話に基づく音声認識または翻訳の結果が良好でない場合、過去の音声認識データまたは翻訳データを用いて新たに処理用のテキストを作成する。これにより、再入力の頻度を低減でき、結果として翻訳処理に要する時間を短縮できる。
 なお、制御部22は、上記のステップS17-4において記憶部20から音声認識データを削除した。しかし、制御部22は、ステップS14-3において新たな音声認識データに対する評価値が所定値を超えたときに、記憶部20から過去の音声認識データを消去してもよい。
 また、本実施の形態において、翻訳装置1の制御部22が新たな音声認識データまたは翻訳データを生成したが、本開示はこれに限定されない。例えば、評価サーバ6が、新たな音声認識データまたは翻訳データを生成してもよい。
 また、ステップS14-3でNOの場合、ディスプレイ14は、ステップS20において、発話の再入力を促す情報に加えて、新たな音声認識データを提示してもよい。これにより、発話者は、発話の再入力時に新たな音声認識データを認識することができる。
 (実施の形態3)
 翻訳装置のさらに別の実施の形態を説明する。上記の実施の形態の翻訳装置では、第1の言語(日本語)の音声認識データに対する第1の評価値または第2の言語(英語)の翻訳データに対する第2の評価値に基づいて、発話者に提示する情報を設定していた。しかし、各言語モデルのみに基づいた評価だけでは、翻訳の妥当性の評価を十分に行うことは難しい。そこで、本実施の形態の翻訳装置1は、音声認識データと翻訳データとの同一性に対する第3の評価値に基づき、発話者に提示する情報を設定する。ここで、第3の評価値は、音声認識データおよび翻訳データの分散表現に基づき生成される。本実施の形態の翻訳装置1のハードウェア構成は実施の形態1と同様である。
 図10は、実施の形態3における翻訳装置1の翻訳処理を示すフローチャートである。図10に示すフローチャートは、実施の形態1における図5に示すフローチャートのステップS11~S21に加えて、さらにステップS17-11~S17-13を備えている。
 本実施の形態では、ステップS11~S21までの処理は、基本的には、実施の形態1で説明したとおりである。以下、実施の形態1のフローチャートによる処理と異なる点を説明する。
 本実施の形態の翻訳装置1では、第2の評価値が第2の所定値を超えた場合に(S17でYES)、制御部22は、日本語の単語を分散表現に変換するための変換テーブル(第1の変換テーブル)に基づいて、日本語の音声認識データから第1の分散表現群を生成する。さらに、制御部22は、英語の単語を分散表現に変換するための変換テーブル(第2の変換テーブル)に基づいて、英語の翻訳データから第2の分散表現群を生成する(S17-11)。ここで、各変換テーブルは、単語以外に句や文を分散表現に変換するためのテーブルであってもよい。各分散表現群について、図11Aおよび図11Bを用いて以下に説明する。
 図11Aは、日本語の音声認識データの一例を示す図である。図11Bは、英語の翻訳データの一例を示す図である。図11Aにおいて、日本語の音声認識データが示す文章C10は、単語C11~C14からなる。同様に、図11Bにおいて、英語の翻訳データが示す文章C20は、単語C21~C24からなる。
 制御部22は、第1の変換テーブルに基づいて、単語C11~C14の各々を分散表現に変換する。ここで、分散表現として、単語、句、または文を、複数の数字の組み合わせからなるベクトルで表現した場合を例示する。以下では、単語あるいは複数の単語の組み合わせを一つの単語とみなしてベクトルで表現した単語ベクトルを分散表現として用いている。単語C11~C14の各分散表現は、第1の分散表現群を構成する。制御部22は、第1の分散表現群に含まれる、ベクトルで表された各分散表現の和を算出する。そして、制御部22は、各分散表現の和であるベクトルを単語の数である4で割ることにより、第1の分散表現群の文ベクトルSを算出する。単語C11~C14の各分散表現をベクトルFとし、単語の数をN(ここでは、N=4)とすると、文ベクトルSは、以下の式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 同様に、制御部22は、第2の変換テーブルに基づいて、単語C21~C24の各々を分散表現に変換する。単語C21~C24の各分散表現は、第2の分散表現群を構成する。制御部22は、第2の分散表現群に含まれる、ベクトルで表された各分散表現の和を算出する。そして、制御部22は、各分散表現の和であるベクトルを単語の数である4で割ることにより、第2の分散表現群の文ベクトルSを算出する。単語C21~C24の各分散表現をベクトルEとし、単語の数をM(ここでは、M=4)とすると、第2の分散表現群の文ベクトルSは、以下の式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
 なお、本実施の形態では、第1の分散表現群に含まれる単語の数(N)と、第2の分散表現群に含まれる単語の数(M)とが同じであるが、第1の分散表現群に含まれる単語の数と、第2の分散表現群に含まれる単語の数とが異なっていても、同様に各分散表現群の文ベクトルを算出することはできる。
 ここで、第1の変換テーブルおよび第2の変換テーブルは、一つの対訳テーブル(対訳コーパス)から生成されていてもよい。より具体的には、一つの対訳テーブルの日本語の部分から第1の変換テーブルが生成され、その対訳テーブルの英語の部分から第2の変換テーブルが生成されてもよい。各変換テーブルが一つの対訳テーブルから生成されていることで、各言語間における分散表現の対応の精度が向上する。これにより、各言語間における文ベクトルの対応の精度が向上する。そのため、各文ベクトルに基づいて算出される第3の評価値の精度が向上する。ここで、一つの対訳テーブルとは、実質的に同一である二つの対訳テーブルであってもよい。すなわち、共通の対訳文を多く含む二つ対訳テーブルから各変換テーブルが生成されていれば、第3の評価値の精度が向上する効果は得られる。
 制御部22は、文ベクトルSと文ベクトルSとに基づいて、第3の評価値を生成する(S17-12)。具体的には、第3の評価値(コサイン類似度:cosθ)は、以下の式(3)で算出される。これにより、第1の分散表現群と、第2の分散表現群との同一性に基づき、第3の評価値が生成される。
Figure JPOXMLDOC01-appb-M000003
 制御部22は、第3の評価値を第3の所定値と比較する(S17-13)。第3の評価値が第3の所定値(例えば、0.8)以下の場合(S17-13でNO)、制御部22は、発話の再入力を促すメッセージ(第3の情報)を設定する(S20)。例えば、制御部22は、図12に示すように、発話の再入力を促すメッセージとして「もう一度、言葉を変えてお話し下さい」を設定する。そして、ディスプレイ14は、そのメッセージをホスト(発話者)に提示する(S21)。
 第3の評価値が第3の所定値を超える場合(S17-13でYES)、制御部22は、音声合成を行い(S18)、スピーカ12から翻訳結果に応じた音声を出力するとともにディスプレイ14の表示領域15h,15gに翻訳結果を示すテキストを表示する(S19)。
 ここで、図12に示すように、第3の情報は、第1の情報および第2の情報とは異なる情報である。例えば、ディスプレイ14が第3の情報として「もう一度、言葉を変えてお話し下さい」と提示することにより、発話者は、音声認識処理および翻訳処理に問題があったのではなく、音声認識データと翻訳データとの同一性に問題があることがわかる。すなわち、発話者は、自分の発話の内容が翻訳処理に適していないために、発話中の言葉を変える必要があることがわかる。
 以上のように、本実施の形態では、音声認識データと翻訳データとの同一性に対する第3の評価値に基づいて、第1の情報および第2の情報とは異なる、再入力を促すメッセージを提示する。これにより、発話者に適切なメッセージを提示することができる。
 なお、ステップS17で第2の評価値が第2の所定値以下であれば、制御部22は、ステップS20の処理を行った。しかし、第2の評価値に関わらず(ステップS17を省略して)、制御部22は、ステップS17-11の処理を行ってもよい。そして、ステップS17-13で第3の評価値が第3の所定値以下であれば、制御部22は、第2の評価値および第3の評価値に応じて、ディスプレイ14に表示するメッセージを設定してもよい(S20)。具体的には、図12に示すように、第2の評価値が第2の所定値以下であり、かつ、第3の評価値が第3の所定値以下であるときに、制御部22は、発話の再入力を促す情報として「もう一度簡潔にお話し下さい」を設定してもよい。これにより、発話者は、音声認識処理には問題はなかったが、翻訳処理、および、音声認識データと翻訳データとの同一性に問題があったことがわかる。以上のように、本実施の形態では、第2の評価値が第2の所定値以下であり、かつ、第3の評価値が第3の所定値以下であるときに、ディスプレイ14は、第1の情報、第2の情報、および第3の情報とは異なる、発話の再入力を促す情報を提示してもよい。
 また、本実施の形態では、第3の評価値として、各文ベクトルのコサイン類似度を用いたが、本開示はこれに限定されない。第3の評価値として、ピアソンの相関係数や偏差パターン類似度を用いてもよい。
 (実施の形態4)
 本実施の形態の翻訳装置1は、発話の言語(例えば、日本語)を他の言語(例えば、英語)に翻訳して得られた翻訳結果(文)を、元の言語(例えば、日本語)に翻訳する逆翻訳機能を有する。図13に、ディスプレイ14上において翻訳結果とともに表示される逆翻訳結果の表示例を示す。発話者であるホスト側の表示領域15hにおいて、音声認識結果として文章D1が表示されるとともに、逆翻訳結果として文章D2が表示されている。また、ゲスト側の表示領域15gにおいて、翻訳結果として”What are you looking for?”が表示されている。
 本実施の形態の翻訳装置1は、逆翻訳結果を評価し、評価が低い場合には、翻訳結果を出力せずに、発話の再入力を促すメッセージを表示する。本実施の形態の翻訳装置1のハードウェア構成は実施の形態1のものと同様である。
 図14は、実施の形態4における翻訳装置1の翻訳処理を示すフローチャートである。図14に示すフローチャートは、実施の形態1における図5に示すフローチャートのステップS11~S21に加えて、さらにステップS17-21~S17-23を備えている。
 本実施の形態の翻訳装置1では、制御部22は、翻訳結果に対する評価(S16)の後、翻訳結果の逆翻訳を行う(S17-21)。このため、制御部22は、翻訳結果のデータを翻訳サーバ4に送信する。翻訳サーバ4は、受信した翻訳結果のデータが示すテキストを逆翻訳し、逆翻訳した結果を示す逆翻訳データを翻訳装置1に送信する。
 制御部22は、逆翻訳データを受信すると、逆翻訳結果に対する評価値を求める(S17-22)。このため、制御部22は、音声認識データと逆翻訳データを評価サーバ6に送信する。評価サーバ6は、音声認識データと逆翻訳データとから、逆翻訳結果に対する第4の評価値を算出する。逆翻訳結果に対する第4の評価値は以下のように算出される。
 すなわち、第4の評価値は、音声認識結果のデータが示すテキスト(以下「音声認識テキスト」という)と、逆翻訳結果のデータが示すテキスト(以下「逆翻訳テキスト」という)との間の文の近さ(距離)に基づいて算出される。文の近さは、例えば、音声認識テキストが示す文と逆翻訳テキストが示す文をそれぞれベクトル化し(参照:Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler, “Skip-Thought Vecors”, arXiv:1506.06726, 2015. 103)、それぞれの文のベクトル間のコサイン類似度を求めることで算出できる。または、それぞれの文の間で、それぞれの文を構成する単語間の類似度あるいは距離を算出し、その類似度あるいは距離に基づいて、文の近さを求めても良い。すなわち、2つの文間の単語の組み合わせの全てについて類似度あるいは距離を求め、求めた全ての類似度あるいは距離の相乗平均を文の近さとして求めても良い。このようにして求めた文の近さに基づき第4の評価値を算出する。すなわち、文が近いほど、すなわち、類似度が大きいあるいは距離が小さいほど、第4の評価値が高くなるように第4の評価値の計算式を設定する。
 この他にも文の近さの評価方法として、BLEU, BLEU+, WER, TER, RIBES, NISTスコア, METEOR, ROUGE-L, IMPACTがある(参照:Graham Neubig, ”文レベルの機械翻訳評価尺度に関する調査”, 情報処理学会研究報告, 1, 2013, 平尾努, 磯崎秀樹, Kevin Duh, 須藤克仁, 塚田元, 永田昌明, “RIBES:順位相関に基づく翻訳の自動評価法”, 言語処理学会 第17回年次大会 発表論文集, 1115, 2011)。さらに、文の意味も考慮した文の近さの評価方法として、隠れ層が1層のニューラルネットワーク法、リカレントニューラルネットワーク法、畳み込みニューラルネットワーク法、再帰ニューラルネットワーク法、フィードフォワードニューラルネットワーク法を使用することもできる(参照:坪井祐太, “自然言語処理におけるディープラーニングの発展”,オペレーションズ・リサーチ, 205, 2015)。単語や文のベクトル化も文の近さの評価方法として使用することができる(参照:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, “Efficient Estimation of Word Representations in Vector Space”, arXiv:1301.3781, 2013)。
 評価サーバ6は、算出した第4の評価値を翻訳装置1に送信する。翻訳装置1は、受信した第4の評価値を第4の所定値と比較する(S17-23)。
 第4の評価値が第4の所定値よりも大きい場合(S17-23でYES)、制御部22は、音声合成を行い(S18)、スピーカ12から翻訳結果に応じた音声を出力するとともにディスプレイ14の表示領域15h、15gに翻訳結果を示すテキストを表示する(S19)。
 一方、第4の評価値が第4の所定値以下の場合(S17-23でNO)、制御部22は、翻訳が適切でない可能性があることを示唆する旨のメッセージを設定する(S20)。これは、第4の評価値が第4の所定値以下の場合、翻訳テキストと逆翻訳テキストの内容が乖離しており、出力される翻訳結果が、発話者が意図していないものである可能性が高いと考えられるからである。このとき、発話者側の表示領域に表示するメッセージとして、例えば、図4に示すように、「あなたの言いたいことが、相手に伝わっているかどうか確認して下さい」のテキストを設定する。また、相手側の表示領域に対しては、しばらく待ってほしい旨のメッセージを設定する。逆翻訳結果に対する第4の評価値が低い場合に提示されるメッセージ(第4の情報)は、図4に示すように、音声認識結果や翻訳結果に対する評価値が低い場合に提示されるメッセージとは異なるメッセージとなる。このように、評価が低かった処理の内容に応じてメッセージの内容を異ならせることで、発話者に対して状況に応じた適切なメッセージを提示することができる。
 そして、制御部22は、ディスプレイ14に設定したメッセージを表示する(S21)。図15は、このときの表示の例を示した図である。図15に示すように、ホスト側の表示領域15hにおいて、音声認識した結果を示すテキストと、翻訳の結果を示す「What are you waiting for?」のテキストと、さらに逆翻訳した結果を示すテキストとともに、再入力の要否を確認するメッセージのテキストが表示されている。また、ゲスト側の表示領域15gにおいて翻訳の結果を示す「What are you waiting for?」のテキストと、翻訳結果が間違っている可能性を示す「The text shown above may be incorrect.」のメッセージが表示されている。発話者であるホストは、表示領域15hに表示された内容を確認するなどして再発話の要否を判断し、必要であれば再発話を行う。このようにホストは、自身が言いたいことが翻訳装置1で正しく翻訳できているか否かを認識でき、再入力の際の発話内容を適切な文言に決定することができる。
 以上のように、本実施の形態では、逆翻訳の結果に対しても評価を行い、逆翻訳に対する評価が低いときには、再入力を促すメッセージを表示する。これにより、適切でない翻訳結果が出力されることを防止できる。
 なお、本実施の形態において、実施の形態1における図5に示すフローチャートにステップS17-21~S17-23を加えるとしたが、実施の形態3における図10に示すフローチャートにステップS17-21~S17-23を加えるとしてもよい。その場合、ステップS17-13がYESのときにステップS17021を行うとすればよい。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1~4を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1~4で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
 上記実施の形態では、音声認識、翻訳、または逆翻訳に対する評価値が低いときに、再入力を促すメッセージをディスプレイ14に表示した。しかし、制御部22は、再入力を促すメッセージをディスプレイ14に表示せずに、再入力を促す音声をスピーカ12から出力してもよい。すなわち、スピーカ12は、通知部の別の一例である。また、図4に示したメッセージ内容は一例であり、他の内容でもよい。
 上記実施の形態において示した音声認識、翻訳、および逆翻訳の各処理に対する評価の方法は一例であり、他の方法により、各処理の結果を評価してもよい。すなわち、各処理により得られた文がその言語において適切な文であるか否かを評価できるような方法であればよい。
 上記実施の形態では、第1ないし第4の評価値について、処理の結果が良好なほど(すなわち評価が高いほど)、各評価値の値が大きくなるように各評価値を算出した。これに限らず、処理の結果が良好なほど(すなわち評価が高いほど)、各評価値の値が小さくなるように第1ないし第4の評価値を算出してもよい。
 上記実施の形態において、「文らしさ」をN-gramモデルを用いて評価したが、これに限定されない。「文らしさ」を分散表現(単語ベクトル)を用いて評価してもよい(参照:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, “Efficient Estimation of Word Representations in Vector Space”, arXiv:1301.3781, 2013)。このとき、隠れ層が1層のニューラルネットワーク法、リカレントニューラルネットワーク法、畳み込みニューラルネットワーク法、再帰ニューラルネットワーク法、フィードフォワードニューラルネットワーク法を併用することもできる(参照:坪井祐太, “自然言語処理におけるディープラーニングの発展”,オペレーションズ・リサーチ, 205, 2015)。単語や文のベクトル化も文の近さの評価方法として使用することができる。
 実施の形態2では、前回のテキストにおいて出現確率が極端に低い単語を置き換えたが、前回のテキストと今回のテキストの間で単語どうしを比較し、出現確率が高い方の単語を選択するようにしてもよい。
 上記の実施の形態では、音声認識を音声認識サーバ3で行い、翻訳を翻訳サーバ4で行い、音声合成を音声合成サーバ5で行ったが、本開示はこれに限定されない。音声認識、翻訳及び音声合成の少なくとも一つの処理を翻訳装置1内で行ってもよい。同様に、各評価値の算出を評価サーバ6で行ったが、各評価値の算出を翻訳装置1内で行ってもよい。
 上記の実施の形態では、日本語と英語の間の翻訳の例を示したが、翻訳対象とする言語は、日本語と英語に限定されず、他の言語(中国語、独語、仏語、スペイン語、韓国語、タイ語、ベトナム語、インドネシア語等)でもよい。
 上記の実施の形態1では、ステップS14(図5参照)で第1の評価値が第1の所定値以下であれば、制御部22は、ステップS20の処理を行った。しかし、第1の評価値に関わらず、制御部22は、ステップS15の処理を行ってもよい。そして、ステップS17で第2の評価値が第2の所定値以下であれば、制御部22は、音声認識処理および翻訳処理の双方で問題があった旨をディスプレイ14に表示してもよい。
 上記の実施の形態3では、制御部22が第3の評価値を生成したが、本開示はこれに限定されない。評価サーバ6が第3の評価値を生成してもよい。評価サーバ6が第3の評価値を生成する例について、図16を用いて説明する。図16に示すように、翻訳装置1と評価サーバ6とを備える翻訳システム100において、評価サーバ6は、取得部61と、評価部62とを備える。なお、図16において、音声認識サーバ3、翻訳サーバ4、および音声合成サーバ5を省略している。取得部61は、翻訳装置1から日本語の音声認識データおよび英語の翻訳データを取得する。評価部62は、音声認識データと翻訳データとの同一性に対する評価値を生成する。このとき、評価部62は、実施の形態3における制御部22と同様に、音声認識データを分散表現に変換することにより第1の分散表現群を生成する。同様に、評価部62は、翻訳データを分散表現に変換することにより第2の分散表現群を生成する。そして、評価部62は、第1の分散表現群と第2の分散表現群との同一性に対する評価値を生成する。以上のようにして、評価サーバ6が、第3の評価値を生成して、ネットワーク2を介してその第3の評価値を翻訳装置1の制御部22に送信してもよい。これにより、端末装置である翻訳装置1の構成を簡略にすることができる。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示は、発話者の音声に基づき翻訳する翻訳装置に適用可能である。
 1 翻訳装置
 2 ネットワーク
 3 音声認識サーバ
 4 翻訳サーバ
 5 音声合成サーバ
 6 評価サーバ
 10 マイク(入力部)
 12 スピーカ
 14 ディスプレイ(通知部)
 16 タッチパネル
 18 通信部
 20 記憶部
 22 制御部
 14h,14g,14hg 発話アイコン
 15h,15g 表示領域
 100 翻訳システム

Claims (22)

  1.  発話者による第1の言語の発話を取得し、前記発話の内容を第2の言語に翻訳して情報を提示する翻訳装置であって、
     前記第1の言語の発話を取得し、前記発話に基づく音声データを生成する入力部と、
     前記音声データを音声認識処理して得られる音声認識データに対する第1の評価値、および、前記音声認識データを前記第2の言語に翻訳処理して得られる翻訳データに対する第2の評価値を取得する制御部と、
     発話の再入力を促す情報を前記発話者に提示する通知部と、
    を備え、
     前記通知部は、
      前記第1の評価値が第1の所定値以下であるときに、発話の再入力を促す第1の情報を提示し、
      前記第1の評価値が前記第1の所定値よりも大きく、かつ、前記第2の評価値が第2の所定値以下であるときに、前記第1の情報とは異なる、発話の再入力を促す第2の情報を提示する、
    翻訳装置。
  2.  前記制御部は、前記音声認識データと前記翻訳データとの同一性に対する第3の評価値を取得し、
     前記通知部は、前記第3の評価値が第3の所定値以下であるときに、前記第1の情報および前記第2の情報とは異なる、発話の再入力を促す第3の情報を提示する、請求項1に記載の翻訳装置。
  3.  前記第3の評価値は、前記音声認識データを分散表現に変換して得られる第1の分散表現群と、前記翻訳データを分散表現に変換して得られる第2の分散表現群との同一性に基づき生成される、請求項2に記載の翻訳装置。
  4.  前記第1の分散表現群は、前記第1の言語の単語を分散表現に変換するための第1の変換テーブルに基づき生成され、
     前記第2の分散表現群は、前記第2の言語の単語を分散表現に変換するための第2の変換テーブルに基づき生成され、
     前記第1の変換テーブルおよび前記第2の変換テーブルは、一つの対訳テーブルから生成される、請求項3に記載の翻訳装置。
  5.  前記第3の評価値は、前記制御部により生成される、請求項2から4のいずれかに記載の翻訳装置。
  6.  評価サーバと通信する通信部をさらに備え、
     前記第3の評価値は、前記評価サーバにより生成され、
     前記制御部は、前記評価サーバから前記通信部を介して前記第3の評価値を取得する、請求項2から4のいずれかに記載の翻訳装置。
  7.  前記第1の評価値は、前記音声認識データに含まれる単語の出現確率に基づいて算出される、請求項1に記載の翻訳装置。
  8.  前記第1の評価値は、N-gramモデル、分散表現、およびニューラルネットワークの少なくとも一つに基づき算出される、請求項7に記載の翻訳装置。
  9.  前記第2の評価値は、前記翻訳データに含まれる単語の出現確率に基づいて算出される、請求項1に記載の翻訳装置。
  10.  前記第2の評価値は、N-gramモデル、分散表現、およびニューラルネットワークの少なくとも一つに基づき算出される、請求項9に記載の翻訳装置。
  11.  前記制御部は、前記翻訳データを前記第1の言語に逆翻訳して得られる逆翻訳データに対する第4の評価値を取得し、
     前記通知部は、前記第4の評価値が第4の所定値以下であるときに、前記第1の情報および前記第2の情報とは異なる、発話の再入力を促す第4の情報を提示する、
     請求項1から10のいずれかに記載の翻訳装置。
  12.  前記音声認識データを過去の音声認識データとして格納する記憶部をさらに備え、
     前記制御部は、再入力された発話に対する音声認識データに対する評価値が所定値以下であるときは、前記過去の音声認識データおよび前記再入力された発話に対する音声認識データを用いて新たな音声認識データを生成する、請求項1に記載の翻訳装置。
  13.  前記制御部は、前記過去の音声認識データと、前記再入力された発話に対する音声認識データとの間で、出現確率の高い方の単語を選択することにより、前記新たな音声認識データを生成する、請求項12に記載の翻訳装置。
  14.  前記制御部は、前記過去の音声認識データにおいて、前記過去の音声認識データを構成する単語の中で出現確率が所定値よりも低い単語を、前記再入力された発話に対する音声認識データを構成する単語で置換することにより、前記新たな音声認識データを生成する、請求項12に記載の翻訳装置。
  15.  前記制御部は、前記新たな音声認識データに対する評価値が所定値を超えた場合、前記記憶部から前記過去の音声認識データを消去する、請求項12から14のいずれかに記載の翻訳装置。
  16.  前記翻訳データを過去の翻訳データとして格納する記憶部をさらに備え、
     前記制御部は、再入力された発話に対する翻訳データに対する評価値が所定値以下であるときは、前記過去の翻訳データおよび前記再入力された発話に対する翻訳データを用いて新たな翻訳データを生成する、請求項1に記載の翻訳装置。
  17.  前記制御部は、前記過去の翻訳データと、前記再入力された発話に対する翻訳データとの間で、出現確率の高い方の単語を選択することにより、前記新たな翻訳データを生成する、請求項16に記載の翻訳装置。
  18.  前記制御部は、前記過去の翻訳データにおいて、前記過去の翻訳データを構成する単語の中で出現確率が所定値よりも低い単語を、前記再入力された発話に対する翻訳データを構成する単語で置換することにより、前記新たな翻訳データを生成する、請求項16に記載の翻訳装置。
  19.  前記制御部は、前記新たな翻訳データに対する評価値が所定値を超えた場合、前記記憶部から前記過去の翻訳データを消去する、請求項16から18のいずれかに記載の翻訳装置。
  20.  前記制御部は、前記第1の評価値が前記第1の所定値以下であることが判明したとき、前記翻訳処理以降の処理を行わずに前記第1の情報を提示し、
     前記制御部は、前記第2の評価値が前記第2の所定値以下であることが判明したとき、音声合成処理以降の処理を行わずに前記第2の情報を提示する、請求項1から19のいずれかに記載の翻訳装置。
  21.  請求項6に記載の翻訳装置と、
     前記評価サーバとを備える、翻訳システム。
  22.  音声データを音声認識処理して得られる第1の言語の音声認識データと、前記音声認識データを第2の言語に翻訳処理して得られる翻訳データとを取得する取得部と、
     前記音声認識データと前記翻訳データとの同一性に対する評価値を生成する評価部と、
    を備え、
     前記評価部は、前記音声認識データを分散表現に変換することにより第1の分散表現群を生成し、前記翻訳データを分散表現に変換することにより第2の分散表現群を生成し、前記第1の分散表現群と前記第2の分散表現群との同一性に基づき前記評価値を生成する、
    評価サーバ。
PCT/JP2017/030650 2016-09-23 2017-08-28 翻訳装置、翻訳システム、および評価サーバ WO2018055983A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016185236 2016-09-23
JP2016-185236 2016-09-23

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018540929A JP6709997B2 (ja) 2016-09-23 2017-08-28 翻訳装置、翻訳システム、および評価サーバ
US16/278,702 US11030418B2 (en) 2016-09-23 2019-02-18 Translation device and system with utterance reinput request notification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/278,702 Continuation US11030418B2 (en) 2016-09-23 2019-02-18 Translation device and system with utterance reinput request notification

Publications (1)

Publication Number Publication Date
WO2018055983A1 true WO2018055983A1 (ja) 2018-03-29

Family

ID=61689521

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/030650 WO2018055983A1 (ja) 2016-09-23 2017-08-28 翻訳装置、翻訳システム、および評価サーバ

Country Status (3)

Country Link
US (1) US11030418B2 (ja)
JP (1) JP6709997B2 (ja)
WO (1) WO2018055983A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019163718A1 (ja) * 2018-02-21 2021-02-04 日本電信電話株式会社 学習装置、音声認識順位推定装置、それらの方法、およびプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205272A (en) * 1988-02-10 1989-08-17 Toshiba Corp Automatic speech translating device
JP2010079647A (ja) * 2008-09-26 2010-04-08 Toshiba Corp 音声翻訳装置、方法、およびプログラム
WO2013014877A1 (ja) * 2011-07-28 2013-01-31 日本電気株式会社 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム
WO2016020368A1 (en) * 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations
JP2017009685A (ja) * 2015-06-18 2017-01-12 エヌ・ティ・ティ・コムウェア株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2585547B2 (ja) * 1986-09-19 1997-02-26 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPS63155259A (en) * 1986-12-18 1988-06-28 Fujitsu Ltd Speech word processor
JPH04319769A (en) 1991-04-18 1992-11-10 Toshiba Corp Interpretation system
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP3470664B2 (ja) * 1999-12-01 2003-11-25 日本電気株式会社 受信メール表示方法及び絵文字変換機能付き電子メール端末装置
JP4517260B2 (ja) 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
JP2005157166A (ja) 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
US20050288919A1 (en) * 2004-06-28 2005-12-29 Wang Jian C Method and system for model-parameter machine translation
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
US8010474B1 (en) * 2006-09-05 2011-08-30 Aol Inc. Translating paralinguisitic indicators
JP4481972B2 (ja) 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
CN102227723B (zh) * 2008-11-27 2013-10-09 国际商业机器公司 辅助误译的检测的装置及方法
JP5124001B2 (ja) * 2010-09-08 2013-01-23 シャープ株式会社 翻訳装置、翻訳方法、コンピュータプログラムおよび記録媒体
US8886515B2 (en) * 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205272A (en) * 1988-02-10 1989-08-17 Toshiba Corp Automatic speech translating device
JP2010079647A (ja) * 2008-09-26 2010-04-08 Toshiba Corp 音声翻訳装置、方法、およびプログラム
WO2013014877A1 (ja) * 2011-07-28 2013-01-31 日本電気株式会社 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム
WO2016020368A1 (en) * 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations
JP2017009685A (ja) * 2015-06-18 2017-01-12 エヌ・ティ・ティ・コムウェア株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019163718A1 (ja) * 2018-02-21 2021-02-04 日本電信電話株式会社 学習装置、音声認識順位推定装置、それらの方法、およびプログラム

Also Published As

Publication number Publication date
US20190179908A1 (en) 2019-06-13
US11030418B2 (en) 2021-06-08
JPWO2018055983A1 (ja) 2019-01-17
JP6709997B2 (ja) 2020-06-17

Similar Documents

Publication Publication Date Title
US9805718B2 (en) Clarifying natural language input using targeted questions
US9606986B2 (en) Integrated word N-gram and class M-gram language models
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6484236B2 (ja) オンライン音声翻訳方法及び装置
US20150127321A1 (en) Lexicon development via shared translation database
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US9594744B2 (en) Speech transcription including written text
EP2548201A1 (en) Enhanced speech-to-speech translation system and methods
WO2018055983A1 (ja) 翻訳装置、翻訳システム、および評価サーバ
EP3491641B1 (en) Acoustic model training using corrected terms
US9589578B1 (en) Invoking application programming interface calls using voice commands
EP2875509A1 (en) Speech and gesture recognition enhancement
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
CN111462740A (zh) 非语音字母语言的话音辅助应用原型测试的话音命令匹配
US11222185B2 (en) Lexicon development via shared translation database
US20190213261A1 (en) Translation device, translation method, and recording medium
JP2016218995A (ja) 機械翻訳方法、機械翻訳装置及びプログラム
US20160267902A1 (en) Speech recognition using a foreign word grammar
US20210233510A1 (en) Language-agnostic Multilingual Modeling Using Effective Script Normalization
KR20130112654A (ko) 통역 장치 및 방법
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
JP6985311B2 (ja) 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法
US20210311701A1 (en) Technique for generating a command for a voice-controlled electronic device

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018540929

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17852762

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17852762

Country of ref document: EP

Kind code of ref document: A1