WO2018087969A1

WO2018087969A1 - 翻訳装置の制御方法、翻訳装置、および、プログラム

Info

Publication number: WO2018087969A1
Application number: PCT/JP2017/028512
Authority: WO
Inventors: 夏樹佐伯; 三浦　康史
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2016-11-11
Filing date: 2017-08-07
Publication date: 2018-05-17

Abstract

翻訳装置を介した円滑な対話を阻害することを抑制する。翻訳装置は、マイクと、翻訳装置の姿勢を検出するセンサと、表示画面とを備え、翻訳装置の制御方法では、マイクにより第一ユーザの音声を示す音声信号を生成し（Ｓ１０４）、センサにより検出される翻訳装置の姿勢の変化を検知し、翻訳装置の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる（Ｓ１０８）。

Description

翻訳装置の制御方法、翻訳装置、および、プログラム

　本発明は、翻訳装置の制御方法、翻訳装置、および、プログラムに関する。

　特許文献１は、互いに異なる言語を使用する２者の間に配置され、第一の言語及び第二の言語の一方から他方への翻訳を行い、翻訳後の音声を再生する翻訳音声再生装置を開示している。この翻訳音声再生装置は、翻訳後の音声を出力する方向を制御することで、翻訳後の音声を聴取者に好適に提示する。

特開２０１１－１５０６５７号公報

　音声翻訳機能を備えた翻訳装置は、２者の一方の者が話す言葉を翻訳して他方の者に伝えることを、双方向にかつ自動的に行うことが求められる。しかしながら、翻訳結果を提示するために２者による明示的な入力操作を求めるとすれば、２者の円滑な対話を阻害し得るという問題がある。

　そこで、本発明は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。

　本開示の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示の翻訳装置の制御方法は、翻訳装置を介した円滑な対話を阻害することを抑制することができる。

図１は、実施の形態に係る翻訳装置の構成を示すブロック図である。図２は、実施の形態に係る対話管理記憶部に保存される情報の一例を示す説明図である。図３は、実施の形態に係る翻訳装置の姿勢情報の説明図である。図４は、実施の形態に係る傾き検出の説明図である。図５は、実施の形態に係る設定値を決定するために使用される画像の一例を示す説明図である。図６は、実施の形態に係る基準言語の設定を促す画像の一例を示す説明図である。図７は、実施の形態に係る翻訳装置のメイン処理を示すフロー図である。図８は、実施の形態に係る翻訳装置の録音開始処理を示すフロー図である。図９は、実施の形態に係る翻訳装置の録音終了処理を示すフロー図である。図１０は、実施の形態に係る音声認識結果の確認処理を示すフロー図である。図１１は、実施の形態に係る表示画面の説明図である。図１２は、実施の形態に係る表示画面の表示内容の説明図である。

　（本発明の基礎となった知見）
　本発明者は、「背景技術」の欄において記載した、翻訳装置の制御方法に関し、以下の問題が生じることを見出した。

　音声翻訳機能を備えた翻訳装置（例えば携帯型翻訳機器）では、正しい翻訳結果を得るために、その入力である音声の開始時点から終了時点までの区間を正しく検出し、検出した区間を翻訳対象とする必要がある。音声認識処理における音声の開始時点と終了時点との検出は、従来、無音区間を検出する方法等が検討されている。しかし、雑音又は環境音などの影響を受けやすく、無音区間の検出が適切に行われないなどの問題がある。また、音声認識処理を行うために本来不要な無音区間を設ける必要が生じることにより、対話中に本来不要な無言状態が発生し、円滑な対話の阻害要因となる。

　特許文献１は、機器の傾きを検出するセンサにより、対話する２者の言語間の変換方向（翻訳方向）を検出し、閲覧者にとって適切な翻訳結果の情報の表示を行う技術を開示している。特許文献１は、利用者の円滑な対話を補助するために翻訳方向を決定する方法を開示するものの、翻訳処理又は結果表示処理等を含む処理を翻訳装置が何をトリガとして行うかについて何ら開示がない。例えば上記処理の際に逐一、利用者による意図的な操作を要するとすれば、２者による円滑な対話を阻害し得る。

　本発明は、翻訳結果を提示する際に円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。

　このような問題を解決するために、本開示の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。

　上記態様によれば、翻訳装置は、話し手（第一ユーザ）と受け手（第二ユーザ）との対話において、翻訳装置の姿勢の変化の検知を契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。話し手は、対話中に自然に翻訳装置を傾けることで、容易に翻訳装置の姿勢を変化させことができる。よって、翻訳装置を介した円滑な対話を阻害することを抑制することができる。

　例えば、前記翻訳装置の姿勢の変化を検知する際には、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することで、前記翻訳装置の姿勢の変化を検知する。

　上記態様によれば、翻訳装置は、翻訳装置の表示画面が受け手に向けられるように傾けられることを契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。一般に、対話において話し手が受け手に対して視認させたい物がある場合には、その視認させたい物を受け手に見えるように傾けることが行われる。翻訳を介した対話の場面においては、上記の視認させたい物は、話し手の発話内容を翻訳した第二テキストに相当する。すなわち、話し手が受け手に対して見せたいものを受け手に見えるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、翻訳結果のテキストを受け手に提示することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができ、つまり、翻訳装置を介した円滑な対話を阻害することを抑制することができる。

　例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する。

　上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手に向けられるように傾けられることを契機として、話し手による発話の録音を開始する。一般に翻訳装置を用いた対話において、自身の発話内容を翻訳装置に聞き取らせよう（又は、取得させよう）と考える場合、話し手は、翻訳装置に自身の音声が明瞭に聞き取られることを期待して、翻訳装置の表示画面を自身の方へ向けると想定される。すなわち、話し手が翻訳装置に自身の発話を聞き取らせるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、話し手の音声の録音を開始することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。

　例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、取得した前記第一テキストを前記表示画面に表示する。

　上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手から遠い方向に向けられるように傾けられることを契機として、話し手による発話の録音を終了する。一般に翻訳装置を用いた対話において、話し手は、自身の発話を終えようとする場合、録音の開始のときと反対の動作をすれば、開始の反対の概念である終了をすることができると考えると想定される。すなわち、話し手が、録音開始とは反対の概念である録音終了をしようと考えて録音開始の際の翻訳装置の傾け方とは反対方向への傾け方をするという自然な動作によって、翻訳装置は、話し手の音声の録音を終了することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。

　例えば、前記制御方法では、さらに、前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する。

　上記態様によれば、翻訳装置は、翻訳装置による音声認識結果が自身の意図と異なる場合に、再度、話し手による発話の録音を開始する。話し手は、一度目の録音の開始の際と同じように翻訳装置を傾けることで、再び録音を開始させる、つまり、録音をやり直す手段を提供することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。

　例えば、前記翻訳装置は、前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う。

　上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて音声認識処理に用いる言語を適切に選定することができる。

　例えば、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う。

　上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて翻訳処理に用いる言語を適切に選定することができる。

　例えば、前記制御方法では、さらに、検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる。

　上記態様によれば、翻訳装置は、翻訳装置の姿勢の変化を話し手又は受け手に伝えることができる。これにより、話し手又は受け手は、翻訳装置の状態、つまり、翻訳装置が行っている処理を認識しながら翻訳装置を扱うことができ、意図に反して翻訳装置が動作することを未然に回避できる。

　例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む。

　上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。

　例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含む。

　上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度の変化に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。

　また、本開示の一態様に係る翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える。

　上記態様によれば、上記翻訳装置の制御方法と同様の効果を奏する。

　また、本開示の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるためのプログラムである。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態）
　本実施の形態において、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置について説明する。この翻訳装置は、互いに異なる言語を利用する２人の利用者の対話において、対話内容を２人のうちの一方の利用言語から他方の利用言語に翻訳する。

　なお、「利用言語」とは、翻訳装置を利用する際に用いる言語である。より具体的には、対話の話し手が翻訳装置に向けて翻訳元言語で発話する際に用いる言語、及び、対話の受け手が翻訳装置から受ける翻訳先言語のことである。利用言語は、原則、利用者の母国語とするが、これに限定されない。また、この翻訳装置は、２人の利用者の間の位置に配置されることが想定される。なお、話し手を第一ユーザともいい、受け手を第二ユーザともいう。また、対話の進行に応じて、話し手及び受け手は入れ替わる。

　図１は、本実施の形態における翻訳装置１の構成を示すブロック図である。図２は、本実施の形態に係る対話管理記憶部２８に保存される情報の一例を示す説明図である。

　図１に示されるように、翻訳装置１は、マイク１０と、音声入力制御部１２と、音声認識処理部１４と、表示制御部１６と、表示画面１８と、翻訳処理部２０と、対話制御部２２と、センサ値処理部２６と、ジャイロセンサ２４と、対話管理記憶部２８と、音声合成部３０と、音声出力部３２と、スピーカ３４とを備える。なお、図１において破線の枠で示される制御部４０に含まれる音声入力制御部１２等は、専用ハードウェアによって実現されてもよいし、コンピュータのプロセッサ（不図示）がメモリ（不図示）等を用いてプログラムを実行することによって、つまりソフトウェアによって実現されてもよい。また、翻訳装置１は、利用者の手によって持ち運び可能な携帯型翻訳装置として実現されてもよく、より具体的には、スマートフォン、タブレット又はパーソナルコンピュータ等により実現され得る。

　マイク１０は、話し手の音声を収音し、収音した音声を変換した音声信号を出力するマイクロホン装置である。

　音声入力制御部１２は、マイク１０から入力される音声信号の録音を行う。音声入力制御部１２は、音声信号の録音開始及び録音終了のタイミングをセンサ値処理部２６による制御に基づいて制御する。具体的には、上記タイミングは、録音を行っているか否かと、ジャイロセンサ２４が生成するセンサ値があらかじめ設定されたセンサ値の閾値を超えたか否かとによって決定される。なお、録音開始から録音終了までの区間を音声区間ともいう。音声の録音開始及び録音停止のタイミングについては、後で詳しく説明する。

　音声認識処理部１４は、音声入力制御部１２によって得られた音声区間に含まれる音声信号に対する音声認識処理を行い、あらかじめ設定された言語情報と、入力された音声信号とに基づくテキストデータ（以降、単にテキストともいう）を生成する。音声認識処理部１４により生成されるテキスト（第一テキストに相当）はプログラムによる処理が可能な文字からなる情報であり、このテキストが音声認識結果として表示画面１８により表示される。音声認識処理部１４は、公知の音声認識処理技術により実現され得る。

　表示制御部１６は、受け手に提示する画像の画像データを生成し、生成した画像データに基づいて表示画面１８に画像を表示させる処理部である。表示制御部１６は、ジャイロセンサ２４により検出される翻訳装置１の姿勢の変化を検知すると、翻訳装置１の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面１８に表示させる。後述するジャイロセンサ２４が取得する翻訳装置１の姿勢と、発話しようとしている利用者の言語とは、対話管理記憶部２８に保存されており、これらの情報を使うことで、表示画面１８を視認している利用者を特定できる。これにより、表示画面１８が表示する画像を、利用者の利便性を向上させるように切り替えることも可能である。

　表示画面１８は、画像を表示する表示装置である。表示画面１８は、表示制御部１６による制御に従って、音声認識処理部１４が生成した第一テキスト、及び、翻訳処理部２０が生成した翻訳先言語によるテキスト等を表示する。

　翻訳処理部２０は、入力言語の翻訳方向を制御する対話制御部２２から、翻訳対象であるテキストと、翻訳元言語及び翻訳先言語それぞれを示す情報とを受け取り、テキストを指定された翻訳元言語から翻訳先言語へ翻訳し、その翻訳結果として得られるテキストを対話制御部２２へ提供する。このテキストは第二テキストに相当する。翻訳処理部２０は、公知の翻訳処理技術により実現され得る。

　対話制御部２２は、話し手と受け手との間で行われる対話に並行して、受け手に翻訳結果を提供するように、音声認識処理部１４及び翻訳処理部２０などを制御する。対話制御部２２は、音声認識処理部１４が生成したテキストを音声入力制御部１２から取得し、取得したテキストを表示制御部１６及び翻訳処理部２０に提供する。また、対話制御部２２は、翻訳処理部２０から翻訳結果のテキストを取得し、表示制御部１６及び音声合成部３０に提供する。また、対話制御部２２は、センサ値処理部２６から取得する翻訳装置１の姿勢を示す姿勢情報に基づいて翻訳装置１の姿勢の変化を検出し、音声認識処理部１４及び翻訳処理部２０などの動作タイミングを制御する。なお、対話制御部２２が翻訳装置１の姿勢の変化を検知する際には、表示画面１８の法線に平行な方向であって表示画面１８が画像を提示する方向である提示方向が、翻訳装置１から受け手に向かう方向として予め定められた方向へ向けて所定角度だけ近づいたことを検知することで、翻訳装置１の姿勢の変化を検知してもよい。なお、翻訳装置１の姿勢の変化の検出に用いる初期提示方向は、翻訳装置１の出荷時等に予め対話管理記憶部２８に記憶されていてもよいし、翻訳装置１を用いる翻訳対話の冒頭において対話管理記憶部２８に記憶されてもよい。なお、合成音声による翻訳結果の提示が不要である場合、音声合成部３０へのテキストの提供は不要である。

　ジャイロセンサ２４は、角速度を計測するセンサであり、計測により取得したセンサ値をセンサ値処理部２６に提供する。

　センサ値処理部２６は、ジャイロセンサ２４が生成したセンサ値を取得し処理する処理部である。センサ値処理部２６は、ジャイロセンサ２４が生成したセンサ値に基づいて翻訳装置１の姿勢を検出し、検出した姿勢を示す姿勢情報を生成する。センサ値処理部２６は、生成した姿勢情報を対話制御部２２に提供する。なお、翻訳装置１の姿勢は、表示画面１８の法線に平行な方向であって表示画面１８が画像を提示する方向である「提示方向」と一対一の関係にある。以降では、翻訳装置１の姿勢を、上記「提示方向」により表現することもある。

　対話管理記憶部２８は、翻訳装置１を利用した２者の対話に用いられる設定情報について、設定名と設定値とを対応付けて保存する記憶装置である。２者の対話において発話は交互に行われ、かつ利用者ごとに別々の言語が利用されるので、翻訳装置１は、対話を開始する前に翻訳対話に必要ないくつかの項目を決定しておく必要がある。

　対話管理記憶部２８には、決定しておく必要がある項目を設定情報として保存している（図２参照）。この設定情報は、図２に示されるように、第一言語、第二言語、感度、基準言語、基準提示方向、初期提示方向、音声認識結果、及び、翻訳結果を含む。

　第一言語及び第二言語は、対話する２者が利用する互いに異なる２つの言語のそれぞれを示す情報である。

　感度は、翻訳装置１が姿勢の変化を検知する感度を示す情報である。

　基準言語は、第一言語及び第二言語のうち、現時点後に発話を行う利用者が利用する言語を示す情報である。

　基準提示方向は、現時点後に発話を行う利用者に表示画面１８を向けるときの提示方向を示す情報である。

　初期提示方向は、初期の時点として予め定められる時点における表示画面１８の提示方向を示す情報である。上記「初期の時点として予め定められる時点」とは、例えば、話し手による発話前（後述するステップＳ２０１に相当）、発話中（後述するステップＳ３０１に相当）、及び、音声認識結果の表示中（後述するステップＳ４０２に相当）のタイミングである。

　音声認識結果は、話し手の発話に対する音声認識処理の結果を示すテキストである。

　翻訳結果は、音声認識結果に対する翻訳処理の結果を示すテキストである。

　例えば、日本語を使用する利用者と英語を使用する利用者との２者が翻訳装置１を利用しており、話し手が英語の利用者である場合、対話管理記憶部２８に保存されている設定情報を図２の（ａ）に示す。翻訳装置１は、この設定情報を用いて、提示方向が話し手の方向に近づけられているときには日本語による画像の表示を行い、提示方向が受け手の方向に近づけられているときには英語による画像の表示を行う。また、基準言語を英語に設定したときの設定情報が図２の（ｂ）に示す。

　音声合成部３０は、翻訳処理部２０が生成した翻訳先言語によるテキストを取得し、取得したテキストを音声出力部３２へ出力するための音声信号へ変換する。

　音声出力部３２は、スピーカ３４へ出力する音声信号を出力する。

　スピーカ３４は、音声出力部３２から入力される音声信号を音声（空気の振動）に変換する音声出力装置である。スピーカ３４より発せられた合成音声は、翻訳した結果として利用者に聴取される。

　図３は、本実施の形態に係る翻訳装置１の姿勢情報の説明図である。

　翻訳装置１の姿勢を示す姿勢情報は、例えば図３に示されるように、翻訳装置１の所定の標準姿勢から、３軸（ヨー軸、ロール軸及びピッチ軸）それぞれの軸まわりにどれだけの角度旋回した姿勢であるかを示す値、つまり、３つの角度である。上記標準姿勢は、どのような姿勢であってもよいが、例えば、話し手と受け手との位置関係に基づいて、図３に示す表示画面１８の姿勢としてもよい。

　また、提示方向は、上記のとおり、表示画面１８の法線に平行な方向であって表示画面１８が画像を提示する方向であり、翻訳装置１に対して固定的に設定される方向である。提示方向は、３次元空間における直交する３軸とのなす角である３つの角度により一意に特定される。

　以上のように構成された翻訳装置１は、翻訳装置１の姿勢の変化をトリガとして各処理を実行することに特徴を有する。このことについて図４を参照しながら説明する。図４において、説明のため、話し手と受け手とを結ぶ線分の中点を原点Ｏとし、話し手と受け手とを結ぶ軸をｘ軸とし、話し手から受け手に向かう向きをｘ軸プラス方向とする。また、原点Ｏから話し手及び受け手にとっての上下方向の軸をｙ軸とし、話し手及び受け手の頭上へ向かう向きをｙ軸プラス方向とする。なお、上記座標軸の取り方は説明のための一例であり、他の位置及び向きに座標軸を取っても同様の説明が成立する。

　なお、翻訳装置１から第一ユーザに向かう方向として予め定められた方向は、ｘ軸マイナス方向に相当し、翻訳装置１から第二ユーザに向かう方向として予め定められた方向は、ｘ軸プラス方向に相当する。

　図４の（ａ）は、翻訳装置１が音声の録音を行う前の姿勢を示している。このとき、表示画面１８の提示方向はｙ軸プラス方向からｘ軸マイナス方向へ向けて角度θ１だけ傾いた方向である。図４の（ａ）に示される翻訳装置１の姿勢は、初期提示方向の一例である。

　図４の（ａ）に示される翻訳装置１の姿勢から、提示方向がｘ軸マイナス方向に近づく方向へ所定角度だけ翻訳装置１が旋回したことを検出すると、翻訳装置１は、音声の録音を開始する。このとき、提示方向は、上記θ１より大きい角度θ２だけ、ｙ軸プラス方向からｘ軸マイナス方向へ向けて傾いた方向である（図４の（ｂ））。なお、上記のように翻訳装置１が旋回することを、表示画面１８が話し手の方を向く、又は、話し手に視認される表示画面１８の見た目の面積が増加する、と表現することもできる。なお、角度θ２が取り得る範囲の下限は上記θ１である。角度θ２の上限は特に限定されないが、例えば９０度程度とすると、受け手が表示画面１８を視認するのに支障がないという利点がある。

　図４の（ｂ）に示される翻訳装置１の姿勢から、提示方向がｘ軸マイナス方向から遠ざかる方向へ所定角度だけ翻訳装置１が旋回したことを検出すると、翻訳装置１は、音声の録音を終了し、音声認識処理の結果得られるテキストを表示画面１８に表示する。このとき、表示画面１８の提示方向は、上記θ２より小さい角度θ３だけ、ｙ軸プラス方向からｘ軸マイナス方向へ傾いた方向である（図４の（ｃ））。なお、角度θ３はゼロ度、つまり、表示画面１８がｘ軸と並行になってもよい。なお、上記のように翻訳装置１が旋回することを、提示方向が話し手から遠ざけられる、又は、話し手に視認される表示画面１８の見た目の面積が減少する、と表現することもできる。

　例えば、話し手が「おはようございます」との発話をした場合、生成されるテキストは、音声信号として入力された「おはようございます」なる音声が、音声認識処理を経て生成された「おはようございます」なるテキストであり、言い換えればプログラムによる処理が可能なように変換されたものである。そして、このテキストに係るテキストが表示画面１８に話し手の利用言語で表示される。話し手は、表示画面１８に表示された音声認識結果たるテキストを確認し、自身の発話が翻訳装置１により正しく認識されたか否かを判断することができる。

　図４の（ｃ）に示される状況から、話し手は、以下（１）及び（２）の２つの行動をとり得る。そして、翻訳装置１は、以下（ｉ）及び（ｉｉ）の２つの処理を実行し得る。

　（１）話し手は、音声認識処理の結果が、自身の発話した内容に適合しない場合、翻訳装置１に再録音をさせるという行動をとることができる。自身の発話の内容に適合しないまま翻訳を行うと自身の意図と異なる翻訳結果となり不適切であるからである。

　具体的には、話し手の発話の内容に適合しない場合には、話し手は、表示画面１８を自身に向ける方向に翻訳装置１の姿勢を変化させる（図４の（ｄ））。これにより、音声入力制御部１２は、音声認識結果を消去（キャンセル）する処理を行う。これにより、話し手は、自身の意図に反する音声認識結果を用いて翻訳装置１が翻訳処理を行うことを回避し、音声の録音をやり直すことができる。

　（２）話し手は、音声の認識結果が、自身の発話した内容と適合する場合、翻訳装置１に翻訳処理を行わせ、翻訳結果を相手に伝えるという行動をとることができる。

　具体的には、音声認識結果が話し手の発話の内容に適合する場合には、話し手は、翻訳装置１から受け手に向かう方向に提示方向が近づくように翻訳装置１の姿勢を変化させる（図４の（ｅ））。これにより、翻訳装置１は、音声認識処理部１４により生成されたテキストを用いて翻訳処理部２０により翻訳処理を行う。

　翻訳装置１が実行し得る２つの処理（ｉ）及び（ｉｉ）を以下に記す。

　（ｉ）図４の（ｃ）に示される翻訳装置１の姿勢から、提示方向がｘ軸マイナス方向に近づく方向へ所定角度だけ翻訳装置１が旋回したことを検出すると、翻訳装置１は、音声の再録音を開始する。このとき、表示画面１８の提示方向は、上記θ３より大きい角度θ４だけ、ｙ軸プラス方向からｘ軸マイナス方向へ傾いた方向である（図４の（ｄ））。なお、角度θ４が取り得る範囲の下限は上記θ３である。角度θ４の上限は特に限定されないが、例えば角度θ２と同様の理由で９０度程度とすることができる。

　（ｉｉ）図４の（ｃ）に示される翻訳装置１の姿勢から、ｘ軸プラス方向へ向けて所定角度だけ翻訳装置１が旋回し、提示方向が、ｙ軸プラス方向からｘ軸プラス方向へ向けて角度θ５だけ傾けた方向になったことを検出すると、翻訳装置１は、翻訳処理の結果得られる翻訳後テキストを表示画面１８に表示する（図４の（ｅ））。なお、角度θ５の角度範囲は特に限定されないが、例えば、３０度～９０度程度であると表示画面１８が受け手に視認されやすい利点がある。

　このようにして、翻訳装置１は、音声認識処理又は翻訳処理の後など、表示画面１８を視認すべき利用者の方向へ表示画面１８を向けることを、その次の処理を実行するトリガとする。

　例えば、従来の音声区間の判定は、利用者によるボタンの押下操作などをトリガとして行われる。これに対して、音声入力制御部１２の上記手法によれば、翻訳装置１の姿勢の変化（図４の（ａ）から（ｂ）への変化、及び、（ｂ）から（ｃ）への変化）を検出することで音声区間の検出を自然な方法で実現することができる。翻訳装置１の姿勢の変化は、音声の入力時、音声認識結果の確認時、及び翻訳結果の受け手への提示時というに、話し手等が自然に行う動作の流れに沿ったものである。よって、この姿勢の変化によって、円滑な対話を阻害することが抑制される。さらに、ボタンの押下などの操作が不要となることから、翻訳装置１がボタン等の操作インタフェースを備える必要がなくなる。これにより、翻訳装置１のデザイン性の向上、又は、小型化に貢献する。

　２者による対話では、２者が交互に発話するので、翻訳装置１へ入力される発話の言語も交互に入れ替わる。後で説明を行うが、現在の話し手が利用する言語の判定は、話し手が発話している時の翻訳装置１の姿勢と、対話管理記憶部２８に保存されている「第一言語」、「第二言語」、「基準言語」及び「基準提示方向」の情報から判定される。話し手の利用言語は、音声認識処理部１４による音声認識処理の際に音声信号データを正しく認識するためにも参照される。また、翻訳処理部２０が、翻訳元言語と翻訳先言語とを決定するために利用される。

　なお、上記において、翻訳装置１の姿勢が変化したと判定するか否かの角度の閾値は、設定情報により調整され得る。

　図５は、本実施の形態に係る基準言語の設定を促す画像５０の一例を示す説明図である。具体的には、図５に示される画像５０は、対話管理記憶部２８に保存される設定情報の設定を行うための画像の一例である。

　画像５０は、対話する２者が利用する言語である「第一言語」及び「第二言語」のそれぞれを設定するボタン５２及び５４、並びに、翻訳装置１の姿勢の変化を検知する感度を示す「感度」を設定するボタン５６を含む。

　ボタン５２は、第一言語として選定される言語を示す文字列（図５では「日本語」）が付されており、ボタン５２に対するユーザのタッチ操作により他の言語に切り替え可能である。

　ボタン５４は、第二言語として選定される言語を示す文字列（図５では「英語」）が付されており、ボタン５４に対するユーザのタッチ操作により他の言語に切り替え可能である。

　ボタン５６は、姿勢の感度を設定するためのボタンである。姿勢の感度は、翻訳装置１の姿勢の変化を検知する感度を示す情報であり、例えば、「高」、「中」及び「低」の３段階のいずれかに切り替え可能である。姿勢の感度は、ジャイロセンサ２４が生成するセンサ値の変化量についての閾値に反映される。例えば、姿勢の感度を「高」とする場合、上記閾値が小さい値に設定される。すると、翻訳装置１の姿勢が比較的小さい変化をしただけで、その姿勢の変化量が閾値を超え、姿勢が変化したことが検知される。

　なお、翻訳装置１は、例えば、日本において外国人観光客を相手として接客を行う業態などで活用されることが多いと想定される。そのため、利用者の簡便性を考えて、第一言語は、よく利用される「日本語」などを規定値にしておいてもよい。その場合、利用者が翻訳装置１を使用するにあたって、実質的に選択する項目は第二言語だけになる。

　図６は、本実施の形態に係る基準言語の設定を促す画像６０の一例を示す説明図である。具体的には、画像６０は、最初の発話に用いる言語の設定を促すための画像の一例である。

　画像６０は、発話言語を選択するためのボタン６２を含む。

　ボタン６２は、第一言語及び第二言語のどちらを最初の発話に用いる言語とするかを切り替えるボタンである。最初の発話に用いる言語は、第一言語を示す文字列である「日本語」、及び、第二言語を示す文字列である「英語」のいずれかである。ボタン６２は、上記の言語のどちらを最初の発話に用いる言語とするかについての利用者による選択を受け付ける。

　機器を利用した翻訳対話において、最初の発話に用いる言語を、その発話に係る音声等から決定する必要がある。この決定を自動的に行うことが難しい場合、最初の発話に用いる言語について利用者による選択を要する。図６に示される画像６０によって選択された言語は、対話管理記憶部２８に保存されている設定情報の「基準言語」の項目に設定される。最初の発話時の翻訳装置１の提示方向がジャイロセンサ２４により取得され、この提示方向が対話管理記憶部２８の設定情報の「基準提示方向」として記憶される。これにより、翻訳装置１の提示方向が基準提示方向から所定角度範囲内である場合には、翻訳装置１の利用者である話し手は基準言語を利用言語とすることが判定でき、そうでない場合は第一言語と第二言語とのうちの基準言語ではない方の言語が発話に利用される言語であると判断することができる。このようにして、以降の発話言語の判別が翻訳装置１の提示方向によって決定することができる。

　以上のように構成された翻訳装置１について、その動作を以下に説明する。

　図７は、本実施の形態に係る翻訳装置１のメイン処理を示すフロー図である。

　ステップＳ１０１において、対話制御部２２は、翻訳装置１を用いた翻訳対話処理を進めるに必要な設定が欠落しているか否かを判定する。ここで、翻訳対話処理に必要な設定とは、対話管理記憶部２８に保存される設定項目のうちの「第一言語」、「第二言語」、「感度」及び「基準言語」である。これらの情報のうち１つでも欠落がある場合（ステップＳ１０１でｙｅｓ）、ステップＳ１０２に進み、それ以外の場合（ステップＳ１０１でｎｏ）、ステップＳ１０４に進む。なお、基準提示方向は、後で話し手が基準言語で示される言語で発話を行った際に提示方向を取得し、取得した提示方向を新たな基準提示方向とする。これにより基準言語を利用する話し手に対応する提示方向が分かる。また、反対に第一言語と第二言語とのうち基準言語ではない方の言語は、基準提示方向ではない方向に提示方向が向いている時に使われる言語として対応付けが行われる。

　ステップＳ１０２において、対話制御部２２は、翻訳対話処理を進めるのに必要な設定をする処理を行う。具体的には、対話制御部２２は、表示制御部１６を介して表示画面１８に、翻訳対話処理を進めるのに必要な設定を促すための画像（例えば図５の画像５０）を表示する。翻訳装置１が、日本で外国人観光客を相手に接客を行う業態などで活用される場合、利用者の簡便性を考え、第一言語の規定値を日本語にしておくなどしてもよい。この場合、利用者が実質的に選択する項目は「第二言語」だけである。

　姿勢の感度は、図４の（ｂ）、（ｃ）、（ｄ）及び（ｅ）で示すように話し手の操作によって翻訳装置１の姿勢が変わる前の提示方向と、変わった後の提示方向との差がどの程度あれば翻訳装置１の状態を遷移させるかを、３段階（「高」、「中」及び「低」）で表したものである。

　ステップＳ１０３において、対話制御部２２は、基準言語の設定を行う。基準言語はステップＳ１０２で設定した第一言語及び第二言語のどちらかであり、対話管理記憶部２８に保存される。ここで、基準言語は、これから発話を行う利用者の言語が選択されることが想定され、実際にはこの設定の後に発話する利用者が使う言語が設定される。また、ステップＳ１０３において、基準言語の設定が完了すると、対話管理記憶部２８に保存されているデータは、基準言語に第一言語及び第二言語のいずれか一方が設定され、基準提示方向は未設定状態になる（図２の（ｂ）参照）。このような状態である場合、次の発話が行われた際に取得された提示方向が基準提示方向として設定される。この処理は、図８のステップＳ２０５で詳説する。

　ステップＳ１０４において、翻訳装置１は、録音開始処理を行う。録音開始処理では、録音を開始するタイミングを適切に決定し、決定したタイミングに基づいて録音を開始する。詳細は後述する。

　ステップＳ１０５において、翻訳装置１は、録音終了処理を行う。録音終了処理では、ステップＳ１０４で開始された録音処理を適切に停止するタイミングを決定し、決定したタイミングに基づいて録音を停止する。詳細は後述する。

　ステップＳ１０６において、翻訳装置１は、音声認識結果の確認処理を行う。音声認識結果の確認処理では、対話制御部２２は、音声認識処理部１４による音声認識の結果を表示画面１８に表示する。話し手は、自身の発話内容と翻訳装置１が音声認識した内容が適合しているか否か確認することができる。ここで、翻訳装置１の音声認識処理結果が適合していない場合、話し手は音声認識処理結果をキャンセルして再度発話を行うことができる。詳細は後述する。

　ステップＳ１０７において、翻訳処理部２０は、話し手が表示画面１８に表示された確認済みの音声認識結果であるテキストと、発話に用いた言語と、出力となる翻訳結果の言語とを入力として翻訳処理部２０で翻訳を行い、その結果として翻訳テキストを生成する。ここで、発話に利用した言語は、前述のように対話管理記憶部２８に設定されている基準言語と、基準提示方向と、発話時の翻訳装置１の姿勢（又は提示方向）から判別できる。従って、翻訳結果として得られる翻訳テキストの言語は、第一言語と第二言語とのうち、上記発話に利用した言語ではない方の言語である。生成された翻訳テキストは、対話管理記憶部２８に、翻訳結果として保存される。

　ステップＳ１０８において、対話制御部２２は、翻訳処理部２０による翻訳処理の結果を表示画面１８に表示する。表示制御部１６は、第一言語及び第二言語のうち、発話に利用した言語ではない方の言語を用いて受け手のための表示用画像を生成し、翻訳結果を表示画面１８に出力する。翻訳結果は、ステップＳ１０７で生成し対話管理記憶部２８に翻訳結果として保存された情報を利用する。

　ステップＳ１０９において、音声合成部３０は、ステップＳ１０７で生成し対話管理記憶部２８に翻訳結果として保存された翻訳結果と、翻訳に利用した言語とを用いて合成音声信号データを生成する。生成した合成音声信号データは、受け手に聞こえるように音声出力部３２及びスピーカ３４より出力される。

　図８は、本実施の形態に係る翻訳装置１の録音開始処理を示すフロー図であり、図７におけるステップＳ１０４の処理を詳細に示すものである。

　ステップＳ２０１において、センサ値処理部２６は、初期提示方向を取得する。具体的には、センサ値処理部２６は、ジャイロセンサ２４が生成したセンサ値を取得し、翻訳装置１の提示方向を算出する。本ステップにおいて、例えば、翻訳装置１は図４の（ａ）に示される姿勢になっている。そして、対話制御部２２は、センサ値処理部２６が算出した提示方向を、対話管理記憶部２８に「初期提示方向」として保存する。

　ステップＳ２０２において、センサ値処理部２６は、現時点の提示方向を取得する。具体的には、センサ値処理部２６は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置１の提示方向を算出する。このようにして、対話制御部２２は、話し手の操作によって刻々と変化する提示方向を取得する。

　ステップＳ２０３において、対話制御部２２は、ステップＳ２０１で取得した初期提示方向と、ステップＳ２０２で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部２８に保存されている「姿勢の感度」の設定に基づいて定められる。これによって、翻訳装置１の表示画面１８が話し手へ向く方向へ傾けられたか否かを判定する（図４の（ｂ））。なお、上記閾値は、第二所定角度に相当する。

　上記ステップＳ２０３において、提示方向の差が閾値を超えた場合（ステップＳ２０３でｙｅｓ）には、ステップＳ２０４へ進み、それ以外の場合（ステップＳ２０３でｎｏ）にはステップＳ２０２を再度実行する。

　ステップＳ２０４において、対話制御部２２は、対話管理記憶部２８の基準言語と、基準提示方向の設定内容を調べる。具体的には、対話制御部２２は、基準言語のみが設定されており、かつ、基準提示方向の設定が欠落している（つまり未設定である）とき、すなわち、基準言語を発話の言語として使用する者の方向が未設定である場合（ステップＳ２０４でｙｅｓ）には、ステップＳ２０５へ進み、それ以外の場合には、ステップＳ２０６へ進む。

　ステップＳ２０５は、上記ステップＳ２０４で説明したように、基準言語のみ判別済みで、基準提示方向が未設定の場合に実行される。このとき翻訳装置１の姿勢は、例えば、図４の（ｂ）で示すような、話し手の側に表示画面１８が向いている状態である。この時の翻訳装置１の姿勢をジャイロセンサ２４から取得し、対話管理記憶部２８に基準提示方向として記憶する。これにより、以降においても翻訳装置１の提示方向が基準提示方向と同じ方向を向いている時は、基準言語が話し手の利用する言語とし、翻訳装置１の提示方向がそれ以外の方向を向いている場合には、第一言語と第二言語とのうち基準言語ではない方の言語が、話し手の利用する言語であるとする。

　ステップＳ２０６において、音声入力制御部１２は、音声の録音の開始処理を実行し、マイク１０から入力される話し手の音声録音を開始する。

　図９は、本実施の形態に係る翻訳装置１における録音終了処理を示すフロー図であり、図７におけるステップＳ１０５の処理を詳細に示すものである。

　ステップＳ３０１において、センサ値処理部２６は、初期提示方向を取得する。具体的には、センサ値処理部２６は、ジャイロセンサ２４が生成したセンサ値を取得し、翻訳装置１の提示方向を算出する。本ステップにおいて、例えば、翻訳装置１は図４の（ｂ）に示される姿勢になっている。対話制御部２２は、対話管理記憶部２８の設定情報の「初期提示方向」として設定する。なお、上記設定の時点で既に「初期提示方向」が設定されていた場合には上書きしてもよい。

　ステップＳ３０２において、センサ値処理部２６は、現時点の提示方向を取得する。具体的には、センサ値処理部２６は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置１の提示方向を算出する。このようにして、対話制御部２２は、話し手の操作によって刻々と変化する提示方向を取得する。

　ステップＳ３０３において、対話制御部２２は、ステップＳ３０１で取得した初期提示方向と、ステップＳ３０２で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部２８に保存されている感度の設定に基づいて定められる。これによって、翻訳装置１の表示画面１８が話し手に向く方向から遠ざけられたか否かを判定する（図４の（ｃ））。上記差が閾値を超えた場合（ステップＳ３０３でｙｅｓ）、ステップＳ３０４へ進み、それ以外の場合（ステップＳ３０３でｎｏ）、ステップＳ３０２を再度実行する。なお、上記閾値は、第三所定角度に相当する。

　ステップＳ３０４において、音声入力制御部１２は、音声の録音の停止処理を実行し、マイク１０から入力される話し手の音声の録音を終了する。このようにして音声入力制御部１２は、ステップＳ２０６（図８）の録音開始処理時からステップＳ３０４の録音終了処理時までの期間に得られた音声信号の音声信号データを生成する。

　ステップＳ３０５において、音声認識処理部１４は、ステップＳ３０４で生成した音声信号データと、発話時の翻訳装置１の提示方向から判別される言語から、音声認識処理を行うことで音声信号データをテキストに変換し、対話管理記憶部２８に音声認識結果として保存する。

　図１０は、本実施の形態に係る翻訳装置１における音声認識結果確認処理のフロー図であり、図７におけるステップＳ１０６の処理を詳細に示すものである。

　ステップＳ４０１において、表示制御部１６は、ステップＳ３０５（図９）で生成されて対話管理記憶部２８に音声認識結果として保存されたテキストを取得し、表示画面１８に出力するための表示用データを生成する。生成された表示用データが表示画面１８に出力されると、表示画面１８は、表示用データに基づいて、上記テキストを表示する。表示画面１８に表示されたテキストは、図４の（ｃ）に示される姿勢において話し手が使用する言語で表示されるので、話し手は自身の意図したとおりに音声認識処理がなされたかを表示画面１８に表示されたテキストで確認することができる。後続のステップでは、話し手が翻訳装置１をどの向きに傾けるかに応じて、音声認識の結果をキャンセルし再度録音を行うか、又は、音声認識の結果を確定し、受け手へその翻訳結果を提示するか、のいずれかの処理を行う。

　ステップＳ４０２において、センサ値処理部２６は、初期提示方向を取得する。具体的には、センサ値処理部２６は、ジャイロセンサ２４が生成したセンサ値を取得し、翻訳装置１の提示方向を算出する。本ステップにおいて、例えば、翻訳装置１は図４の（ｃ）に示される姿勢になっている。そして、対話制御部２２は、センサ値処理部２６が算出した提示方向を、対話管理記憶部２８に「初期提示方向」として保存する。なお、上記設定の時点で既に初期提示方向が設定されていた場合には上書きしてもよい。

　ステップＳ４０３において、センサ値処理部２６は、現時点の提示方向を取得する。具体的には、センサ値処理部２６は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置１の提示方向を算出する。このようにして、対話制御部２２は、話し手の操作によって刻々と変化する提示方向を取得する。

　ステップＳ４０４において、対話制御部２２は、ステップＳ４０２で取得した初期提示方向と、ステップＳ４０３で取得した提示方向との差が閾値を超えたか否かを判定する。上記差が閾値を超えた場合（ステップＳ４０４でｙｅｓ）、ステップＳ４０５へ進み、それ以外の場合（ステップＳ４０４でｎｏ）、ステップＳ４０３を再度実行する。なお、上記閾値は、第一所定角度に相当する。

　ステップＳ４０５において、対話制御部２２は、提示方向が受け手に向かう向きに傾けられたか、又は、提示方向が話し手に向かう向きに傾けられたか、を判定する。これによって、対話制御部２２は、提示方向が図４の（ｄ）のように話し手側に傾けられた場合と、図４の（ｅ）のように受け手側に傾けられた場合とで処理を分岐させる。

　図４の（ｄ）のように話し手側に傾けられるのは、例えば、表示画面１８上に表示された音声認識結果を見た話し手が、その音声認識結果が自身の意図と異なると判断した場合である。

　上記ステップＳ４０５において、提示方向が受け手に向かう向きに傾けられた場合（ステップＳ４０５で「受け手側」）には、ステップＳ４０１で表示画面１８に表示させた音声認識結果を確定させることとして、本フロー図に示される一連の処理を終了する。一方、上記ステップＳ４０５において、提示方向が話し手に向かう向きに傾けられた場合（ステップＳ４０５で「話し手側」）には、ステップＳ４０１で表示画面１８に表示させた音声認識結果をキャンセルすることとして、本フロー図に示される一連の処理を終了する。

　このようにすることで、翻訳装置１は２者間の対話における翻訳処理の音声認識の精度を向上させることができる。また翻訳装置１の利用者は違和感のない操作によるやりとりで、異なる言語間の対話を簡易に行うことができる。

　なお、本実施の形態によれば２者間の対話における翻訳装置１の動作を想定して説明したが、１人で使用することも可能である。

　なお、音声認識処理部１４は、図１のように翻訳装置１の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ上に配置されていてもよい。

　なお、翻訳処理部２０は、図１のように翻訳装置１の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ等にあってもよい。

　なお、表示画面１８は、図１のように翻訳装置１の内部にある必要はなく、利用者が確認可能な場所にあればよく、例えば翻訳装置１と接続された外部ディスプレイなどで代替してもよい。

　なお、本実施の形態では、翻訳結果を合成音声で出力する例を説明したが、合成音声での確認は必須ではない。翻訳結果を合成音声で出力することが必要ではない場合には、音声合成部３０、音声出力部３２及びスピーカ３４は必要ない。

　なお、翻訳装置１は、上記で説明した表示画面１８に加えて、翻訳装置１の翻訳に関する動作の状態を示す表示画面１８Ａを備えていてもよい。表示画面１８Ａについて具体例を用いて説明する。

　図１１は、本実施の形態に係る表示画面１８Ａの説明図である。図１２は、本実施の形態に係る表示画面１８Ａの表示内容の説明図である。図１１及び図１２に示される表示画面１８Ａは、表示領域１８Ｂ、１８Ｃ及び１８Ｄを含む。

　表示領域１８Ｂ、１８Ｃ及び１８Ｄは、ジャイロセンサ２４により検知される翻訳装置１の姿勢、つまり、翻訳装置１の翻訳に関する動作の状態に対応して設けられている。すなわち、表示領域１８Ｂは、翻訳装置１が翻訳結果を表示している状態（図４の（ｅ）の状態）に対応している。表示領域１８Ｃは、翻訳装置１が音声認識結果を表示している状態（図４の（ｃ）の状態）に対応している。表示領域１８Ｄは、翻訳装置１が録音している状態（図４の（ｂ）から（ｃ）までの間の状態）に対応している。

　そして、表示領域１８Ｂ、１８Ｃ及び１８Ｄのいずれかには、インジケータ（指示子又は表示子である画像）１８Ｅが表示されている。表示領域１８Ｂ、１８Ｃ及び１８Ｄのうち、インジケータ１８Ｅが表示されている表示領域に対応する状態が、翻訳装置１の現在の状態を示している。このように、翻訳装置１の姿勢に応じてインジケータ１８Ｅ（画像に相当）が表示画面１８Ａに表示される。

　例えば、翻訳装置１が話し手の音声を録音している状態では、表示領域１８Ｄにインジケータ１８Ｅが表示されている（図１２の（ａ））。これにより、話し手は、翻訳装置１が確かに自身の音声を録音していることを認識しながら、翻訳装置１に音声の録音をさせることができる。仮に話し手の意思に反して手ぶれなどにより翻訳装置１の姿勢が変化して、録音状態が終了した場合には、話し手はそのことを認識し、適切な行動を取ることができる利点もある。

　また、翻訳装置１が翻訳結果を表示している状態では、表示領域１８Ｂにインジケータ１８Ｅが表示されている（図１２の（ｂ））。これにより、受け手は、翻訳装置１が翻訳結果を表示していることを認識することができる。

　なお、各表示領域におけるインジケータ１８Ｅの表示位置は、任意としてもよいが、翻訳装置１の姿勢に応じて変化してもよい。例えば、図１２の（ａ）の場合、提示方向がｘ軸マイナス方向に近づくほど、インジケータ１８Ｅの表示位置が、表示領域１８Ｃから離れた位置に変化してもよい。また、図１２の（ｂ）の場合、提示方向がｘ軸プラス方向に近づくほど、インジケータ１８Ｅの表示位置が、表示領域１８Ｃから離れた位置に変化してもよい。

　すなわち、インジケータ１８Ｅの表示は、提示方向と、受け手に向かう方向として予め定められた方向または話し手に向かう方向として予め定められた方向と、の角度の差分に応じたインジケータ１８Ｅの表示を含んでもよい。また、インジケータ１８Ｅの表示は、提示方向が、（ａ）受け手に向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または、（ｂ）話し手に向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含んでもよい。これにより、翻訳装置１の姿勢の変化をインジケータ１８Ｅの表示位置によって表現することができる。

　また、表示領域１８Ｂ、１８Ｃ及び１８Ｄのうち、翻訳装置１の現在の状態に対応した表示領域の色を変化させるようにしてもよい。話し手及び受け手に、より直観的に現在の翻訳装置１の状態を認識させることができる利点がある。

　なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の翻訳装置などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、翻訳装置の制御方法であって、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる制御方法を実行させる。

　以上、一つまたは複数の態様に係る翻訳装置などについて、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本開示は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置に利用可能である。

　　１　　翻訳装置
　　１０　　マイク
　　１２　　音声入力制御部
　　１４　　音声認識処理部
　　１６　　表示制御部
　　１８，１８Ａ　　表示画面
　　１８Ｂ，１８Ｃ，１８Ｄ　　表示領域
　　１８Ｅ　　インジケータ
　　２０　　翻訳処理部
　　２２　　対話制御部
　　２４　　ジャイロセンサ
　　２６　　センサ値処理部
　　２８　　対話管理記憶部
　　３０　　音声合成部
　　３２　　音声出力部
　　３４　　スピーカ
　　４０　　制御部
　　５０，６０　　画像
　　５２，５４，５６，６２　　ボタン

Claims

　翻訳装置の制御方法であって、
　前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、
　前記制御方法では、
　前記マイクにより第一ユーザの音声を示す音声信号を生成し、
　前記センサにより検出される前記翻訳装置の姿勢の変化を検知し、
　前記翻訳装置の姿勢の変化の検知までに生成された前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる
　制御方法。
　前記翻訳装置の姿勢の変化の検知は、
　前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することを含む
　請求項１に記載の制御方法。
　前記制御方法では、さらに、
　前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する
　請求項２に記載の制御方法。
　前記制御方法では、さらに、
　前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、
　前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、
　取得した前記第一テキストを前記表示画面に表示させる
　請求項２又は３に記載の制御方法。
　前記制御方法では、さらに、
　前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する
　請求項４に記載の制御方法。
　前記翻訳装置は、
　前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、
　前記制御方法では、さらに、
　前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う
　請求項１～５のいずれか１項に記載の制御方法。
　前記制御方法では、さらに、
　前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う
　請求項６に記載の制御方法。
　検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる
　請求項１～７のいずれか１項に記載の制御方法。
　前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む
　請求項８に記載の制御方法。
　前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、
　　前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、
　　または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、
　に応じた画像の表示を含む
　請求項８に記載の制御方法。
　翻訳装置であって、
　マイクと、
　前記翻訳装置の姿勢を検出するセンサと、
　前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、
　前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える
　翻訳装置。
　請求項１～１０のいずれか１項に記載の制御方法をコンピュータに実行させるためのプログラム。