JPWO2018020828A1

JPWO2018020828A1 - 翻訳装置および翻訳システム

Info

Publication number: JPWO2018020828A1
Application number: JP2018529396A
Authority: JP
Inventors: 持田　哲司; 哲司持田
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-07-28
Filing date: 2017-06-01
Publication date: 2018-11-22
Anticipated expiration: 2037-06-01
Also published as: JP6624476B2; KR20190034494A; WO2018020828A1; EP3493048A1; EP3493048A4; US20190026266A1; CN109074239A

Abstract

翻訳装置（１）は、操作入力部（１１）と、音声入力部（１２）と、翻訳情報取得部（１６）と、情報出力部（１７）と、実行部（１３）と、制御部（１４）とを備える。操作入力部（１１）には、ユーザ操作が入力される。音声入力部（１２）には、音声が入力される。翻訳情報取得部（１６）は、音声入力部（１２）に入力された音声の翻訳結果を取得する。情報出力部（１７）は、翻訳結果を出力する。制御部（１４）は、情報出力部（１７）による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部（１１）に入力されたユーザ操作の操作内容に基づく動作を実行部（１３）に実行させる。

Description

本開示は、翻訳装置および翻訳システムに関する。

特許文献１は、入力音声を翻訳する翻訳手段を備える通信システムを開示している。この通信システムは、テレビ会議装置等において当事者が発声する会話音声を入力するマイクロフォンと、テレビカメラから撮像入力された画像信号の画像が一時蓄積される画像メモリとを備えている。この通信システムによると、音声信号を通信するに際して、その音声を翻訳して出力し、またこの音声の翻訳出力に同期して入力音声に対応して入力された画像の表示が行われている。これにより、テレビ会議等において、翻訳された音声に対応した画像から通信相手の表情等を読取ることが可能となる。

特許文献２は、利用者同士が音声翻訳装置を介して会話する際に円滑な対話を可能にすることを目的とする技術を開示している。この音声翻訳装置は、第１言語の音声信号の音声認識を行う音声認識手段と、その認識した第１言語から第２言語に翻訳する第１機械翻訳手段と、その翻訳した第２言語を第１言語に逆翻訳する第２機械翻訳手段とを備える。この音声翻訳装置は、機械翻訳結果の合成音声と逆翻訳結果の合成音声とを同期させて音声出力する。これにより、一方の利用者の発話した音声の機械翻訳結果の合成音声を他方の利用者が聞いている間に、自分の発話した内容が正しく翻訳されているかを確認することが可能となる。

特許第２６６４６７９号公報特開２０１５−０６０３３２号公報

本開示は、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる翻訳装置および翻訳システムを提供する。

本開示の一態様における翻訳装置は、操作入力部と、音声入力部と、翻訳情報取得部と、情報出力部と、実行部と、制御部とを備える。操作入力部には、ユーザ操作が入力される。音声入力部には、音声が入力される。翻訳情報取得部は、音声入力部に入力された音声の翻訳結果を取得する。情報出力部は、翻訳結果を出力する。制御部は、情報出力部による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を実行部に実行させる。

本開示の別の態様における翻訳システムは、翻訳装置と、翻訳サーバとを備える。翻訳サーバは、音声入力部に入力された音声を示す音声情報を翻訳装置から受信し、音声情報の翻訳処理を行う。

本開示における翻訳装置および翻訳システムによると、翻訳対象の音声の入力中にユーザ操作が入力されると、翻訳結果の出力に同期してユーザ操作の操作内容に基づく動作が出力される。これにより、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる。

図１は、実施形態１に係る翻訳システムを示すブロック図である。図２は、翻訳システムにおける翻訳装置のハードウェア構成を例示する図である。図３Ａは、翻訳システムにおける翻訳装置の動作を説明するための図である。図３Ｂは、翻訳システムにおける翻訳装置の動作を説明するための図である。図３Ｃは、翻訳システムにおける翻訳装置の動作を説明するための図である。図３Ｄは、翻訳システムにおける翻訳装置の動作を説明するための図である。図４は、実施形態１に係る翻訳システムの動作を示すシーケンス図である。図５は、実施形態１に係る翻訳装置の動作例を説明するためのタイミングチャートである。図６は、翻訳装置による入力処理を説明するためのフローチャートである。図７は、翻訳装置における履歴データベースを説明するための図である。図８は、翻訳装置による再生処理を説明するためのフローチャートである。図９Ａは、実施形態１の変形例における翻訳装置の動作を説明するための図である。図９Ｂは、実施形態１の変形例における翻訳装置の動作を説明するための図である。図９Ｃは、実施形態１の変形例における翻訳装置の動作を説明するための図である。図１０Ａは、実施形態１の変形例における翻訳装置の表示例を示す図である。図１０Ｂは、実施形態１の変形例における翻訳装置の表示例を示す図である。図１０Ｃは、実施形態１の変形例における翻訳装置の動作を説明するための図である。図１１は、実施形態２に係る翻訳システムを示す機能ブロック図である。図１２は、実施形態３に係る翻訳システムを示す機能ブロック図である。図１３Ａは、実施形態３に係る翻訳装置の表示例を示す図である。図１３Ｂは、実施形態３に係る翻訳装置の表示例を示す図である。図１４Ａは、変形例に係る翻訳装置の動作を説明するための図である。図１４Ｂは、変形例に係る翻訳装置の動作を説明するための図である。図１４Ｃは、変形例に係る翻訳装置の動作を説明するための図である。図１５は、他の実施形態に係る翻訳装置の動作を説明するための図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

（実施形態１）
１．構成
本実施形態に係る翻訳システムの構成を、図１，２を参照して説明する。図１は、実施形態１に係る翻訳システムを示すブロック図である。図２は、翻訳システムにおける翻訳装置のハードウェア構成を例示する図である。

本実施形態に係る翻訳システム２０は、図１に示すように、翻訳装置１と、翻訳サーバ２とを備える。本実施形態では、音声の入出力などを翻訳装置１で行い、機械翻訳のための処理を翻訳サーバ２で行う翻訳システム２０について説明する。本実施形態に係る翻訳システム２０は、例えば、翻訳装置１を操作するユーザが対面する相手と対話する時に、ユーザが発話した音声を機械翻訳して、翻訳装置１から音声出力する。翻訳装置１と、翻訳サーバ２とは、例えばインターネットなどのネットワーク３を介してデータ通信を行う。

図２に、翻訳装置１のハードウェア構成を例示する。翻訳装置１は、図２に示すように、タッチパネル１１Ａと、マイク１２Ａと、ＣＰＵ（Central Processing Unit）１４Ａと、メモリ１５Ａと、通信モジュール１６Ａと、スピーカ１７Ａとを備える。翻訳装置１は、例えばタブレット端末、ＰＣ、スマートフォン及びモバイル端末などの情報処理端末で構成される。

図１に戻り、翻訳装置１は、操作入力部１１と、音声入力部１２と、表示部１３と、制御部１４と、記憶部１５と、翻訳情報取得部１６と、音声出力部１７とを備える。制御部１４は、表示制御部１４１と、登録部１４２と、操作再生部１４３とを備える。

操作入力部１１は、ユーザが翻訳装置１を操作する種々のユーザ操作を受け付ける。操作入力部１１は、例えばタッチパネル１１Ａにおけるタッチセンサを含む。タッチパネル１１Ａ上の表示面に触れるタッチ操作が入力されると、操作入力部１１は、例えばタッチ位置を座標で示す信号を生成し、表示制御部１４１等に出力する。

操作入力部１１は、タッチパネル１１Ａに限らず、マウス、キーボードなどの種々の入力装置を含んでもよい。また、タッチパネル１１Ａは、表示面近傍におけるジェスチャー操作等も入力可能に構成されてもよい。ユーザ操作には、タッチ操作、ジェスチャー操作、マウス操作及びキーボード操作などの種々の操作が含まれる。操作入力部１１は、例えばタッチ位置の履歴によって表される、ユーザ操作の操作内容を取得する。

音声入力部１２は、例えばマイク１２Ａで構成される。音声入力部１２は、音声の入力を受け付け、入力音声を示す音声情報（音声データ）を生成する。入力音声には、例えばユーザが発話した音声が含まれる。

表示部１３は、例えばタッチパネル１１Ａの表示面を構成する液晶ディスプレイ又は有機ＥＬディスプレイなどである。表示部１３は、表示制御部１４１の制御により、種々の情報を表示する。例えば、表示部１３は、所定のアプリケーションソフトウェアの画面を表示したり、ユーザの操作内容に応じた画像を表示したりする。表示部１３は、本実施形態における翻訳装置１の実行部の一例である。

制御部１４は、翻訳装置１における各部の動作全体を制御する。制御部１４は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵ１４Ａで構成される。制御部１４は、記憶部１５に格納されたデータやプログラムを読み出して種々の演算処理を行い、表示制御部１４１、登録部１４２および操作再生部１４３などの各種機能を実現する。また、制御部１４は、例えばＳＲＡＭ（Static Random Access Memory）又はＤＲＡＭ（Dynamic Random Access Memory）などで構成される内部メモリを有する。

表示制御部１４１は、操作入力部１１からの信号に基づき、表示部１３による表示動作を制御する。例えば、表示制御部１４１は、タッチパネル１１Ａにおいてタッチ操作中のタッチ位置を判断し、タッチ位置の軌跡に応じて画像表示を制御する。

登録部１４２は、制御部１４の内部メモリに一時保存された情報等を記憶部１５に書き込み、履歴データベースＤ１への情報登録を行う。履歴データベースＤ１は、ユーザ操作の操作内容と入力音声とを関連付けて、操作内容の履歴を管理するデータベースである。履歴データベースＤ１の詳細については後述する。

操作再生部１４３は、履歴データベースＤ１に登録された情報に基づき、例えば所定のコマンドを生成する。これにより、操作再生部１４３は、ユーザ操作の操作内容を再生するための動作を設定する。

なお、制御部１４は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路で構成されてもよい。制御部１４は、ＣＰＵ、ＭＰＵ（Micro Processing Unit）、マイクロコントローラ、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等の種々の半導体集積回路で構成されてもよい。

記憶部１５は、翻訳装置１の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。例えば、記憶部１５は、上記の履歴データベースＤ１を格納する。記憶部１５は、例えばＳＲＡＭ又はＤＲＡＭなどの高速メモリ、もしくはフラッシュメモリなどのメモリ１５Ａを含む。

翻訳情報取得部１６は、本実施形態において、ネットワーク３を介した翻訳サーバ２とのデータ通信により、特定の入力音声の翻訳結果を含む翻訳情報を取得する。翻訳情報取得部１６は、例えば所定の通信規格に準拠した通信を行う通信モジュール１６Ａを含む。所定の通信規格には、ＩＥＥＥ８０２．３，ＩＥＥＥ８０２．１１ａ／１１ｂ／１１ｇ／１１ａｃ等の通信規格が含まれる。翻訳情報取得部１６は、ＣＰＵ１４Ａ上の制御プログラムなどのソフトウェアとの協働において実現されてもよい。

音声出力部１７は、例えばスピーカ１７Ａで構成される。音声出力部１７は、例えば翻訳情報取得部１６によって取得された翻訳情報が示す翻訳結果などの音声出力を行う。音声出力部１７は、本実施形態における翻訳装置１の情報出力部の一例である。

翻訳サーバ２は、例えばＡＳＰ（Application Service Provider）サーバなどの一つ又は複数のサーバ装置で構成される。翻訳サーバ２は、ネットワーク３を介して翻訳装置１と音声情報の送受信を行う。翻訳サーバ２は、受信した音声情報に基づき、音声認識処理、翻訳処理、及び音声合成処理などの処理を行う。翻訳サーバ２において、各処理を実行するサーバ装置は、一体的に構成されてもよいし、別体で構成されてもよい。また、翻訳サーバ２は、クラウドコンピューティングを行ってもよい。

２．動作
以下、本実施形態に係る翻訳システムおよび翻訳装置の動作について説明する。

２−１．動作の概要
本実施形態に係る翻訳システム２０の動作の概要について、図３Ａ〜図３Ｄを参照して説明する。図３Ａ〜図３Ｄは、翻訳システム２０における翻訳装置１の動作を説明するための図である。

図３Ａ〜図３Ｄは、本実施形態に係る翻訳装置１の一連の使用例を示している。翻訳装置１は、例えば、外国人に接客したり、道案内したりする対応において使用できる。以下、翻訳装置１を用いて案内を行う側のユーザを「ホスト」といい、案内される側のユーザを「ゲスト」という。本使用例において、ホストが使用する言語は日本語であり、ゲストが使用する言語は英語である。

図３Ａは、ホストが発話中のタッチパネル１１Ａの表示例を示す。図３Ｂは、図３Ａの状態後に翻訳装置１が翻訳結果を音声出力中の表示例を示す。図３Ｃは、図３Ｂの状態後にさらにホストが発話中の表示例を示す。図３Ｄは、図３Ｃの状態後に翻訳装置１が翻訳結果を音声出力中の表示例を示す。

図３Ａ〜図３Ｄの使用例は、ホストがゲストに道案内を行う際の使用例である。本実施形態に係る翻訳システム２０は、一例として、１発話文毎に翻訳動作を行う。

例えば、図３Ａの状態において、ホストは、音声Ｖ１という発話文を発話している。翻訳システム２０は、翻訳装置１から発話文を音声入力して、機械翻訳を翻訳サーバ２で行う（図１参照）。翻訳装置１は、発話の終了時から所定期間後（例えば２秒後）に、図３Ｂに示すように、音声Ｖ１に対応した翻訳結果Ｔ１の翻訳文「Please go straight along this road.」を音声出力する。

また、図３Ｂの音声出力後、ホストがさらに、図３Ｃに示すように、音声Ｖ２という発話文を発話している。これに応じて、翻訳装置１は、図３Ｄに示すように、音声Ｖ２に対応した翻訳結果Ｔ２の翻訳文「Please turn the first corner to the left.」を音声出力する。

以上のように、翻訳装置１を用いて道案内を行う際には、ホストが地図上の道などを指し示しながら説明することで、ホストが説明したい内容がゲストに伝わり易いと考えられる。そこで、本実施形態に係る翻訳システム２０では、機械翻訳を用いてホストがゲストに種々の案内を行う際に、翻訳装置１が、翻訳結果を音声出力すると共に、地図、写真、物の使い方及び所在を表す情報などの補助情報を表示する。図３Ａ〜図３Ｄの使用例では、地図の画面が表示されている。

図３Ａの例では、ホストが、音声Ｖ１と発話しながら、タッチパネル１１Ａ上で特定の道を指でなぞるタッチ操作を行っている。この際、ホストの発話を直接には理解できないゲストにとって、ホストの発話中に視認されるユーザ操作から、ホストが意図する内容を読み取ることは困難である。そこで、本実施形態に係る翻訳装置１は、ユーザの発話の音声入力中に、操作入力部１１から入力されたユーザ操作の操作内容を、翻訳結果の音声出力に同期して再生する。

例えば、翻訳装置１は、図３Ｂに示すように、翻訳結果Ｔ１の翻訳文「Please go straight along this road.」を音声出力しながら、手型のアイコン等が特定の道をなぞるように、画像表示を行う。これにより、翻訳文中の「this road」が示す道がどの道であるのかをゲストに伝え易くなる。

また、図３Ｃの例では、ホストが、音声Ｖ２と発話しながら、タッチパネル１１Ａ上で特定の曲がり角をなぞるタッチ操作を行っている。すると、翻訳装置１は、図３Ｄに示すように、音声Ｖ２に対応した翻訳結果Ｔ２の翻訳文「Please turn the first corner to the left.」を音声出力しながら、アイコンが特定の曲がり角をなぞるように、画像表示を行う。これにより、翻訳文中の「the first corner」が示す角が何処かであったり、「the left」がどの向きであるかだったりをゲストに伝え易くなる。

また、図３Ａ，Ｃの例では、ホストがタッチパネル１１Ａをなぞるタッチ操作を行った際に、タッチパネル１１Ａは、なぞった軌跡を示す矢印画像を表示している。図３Ａ，Ｃの表示例で表示された矢印画像は、図３Ｂ，Ｄに示すように、翻訳結果の音声出力時にも、同様に表示される。このように、発話中のホストが視認する操作内容自体を翻訳時に再生することで、翻訳装置１を介することの不自然さを低減して、ホストが自身の意図を伝え易くすることができる。

以下、本実施形態に係る翻訳システムおよび翻訳装置の動作の詳細を説明する。

２−２．翻訳システムの動作
本実施形態に係る翻訳システム２０の動作を、図４，５を参照して説明する。図４は、本実施形態に係る翻訳システム２０の動作を示すシーケンス図である。図５は、本実施形態に係る翻訳装置１の動作を説明するためのタイミングチャートである。

図５における（ａ）は、発話開始ボタン及び発話終了ボタンの操作タイミングを示す。図５における（ｂ）は、入力音声の入力タイミングを示す。図５における（ｃ）は、ユーザによるタッチ操作の操作タイミングを示す。図５における（ｄ）は、タッチ操作におけるタッチ位置の履歴を示す。図５における（ｅ）は、翻訳結果の音声出力の出力タイミングを示す。図５における（ｆ）は、再生表示の動作タイミングを示す。

図４のシーケンスにおいて、まず、翻訳装置１は、ユーザが発話する音声とユーザ操作の入力を受け付ける入力処理を行う（ステップＳ１）。例えば、図３Ａの例において、ステップＳ１の入力処理は時刻ｔ１〜時刻ｔ２に行われる（図５における（ａ）〜（ｄ）参照）。また、図３Ｃの例において、ステップＳ１の入力処理は時刻ｔ３〜時刻ｔ４に行われる。

図３Ａの例では、音声Ｖ１という発話文を示す音声情報が、発話文の識別情報と共に、翻訳装置１から翻訳サーバ２に送信される。発話文の識別情報は、例えば発話開始の時刻ｔ１を示す時刻情報である。ステップＳ１の入力処理の詳細については後述する。

翻訳サーバ２は、翻訳装置１から音声情報及び識別情報を受信すると、受信した音声情報が示す発話文を音声認識する音声認識処理を行う（ステップＳ２１）。本処理において、翻訳サーバ２は、音声認識した発話文を示す情報として、例えば日本語のテキストデータを生成する。また、翻訳サーバ２は、音声情報と共に受信した識別情報（ｔ１）に関連付けて、生成したテキストデータを管理する。

次に、翻訳サーバ２は、生成したテキストデータに基づいて翻訳処理を行う（ステップＳ２２）。図３Ａ〜図３Ｄの例では、翻訳サーバ２は、ステップＳ２２において日本語から英語への機械翻訳を行う。翻訳サーバ２は、英語への翻訳結果を示す翻訳文のテキストデータを生成する。

次に、翻訳サーバ２は、生成した翻訳文のテキストデータに基づいて、テキストデータが示す翻訳文を表すように音声合成する音声合成処理を行う（ステップＳ２３）。図３Ａ，Ｂの例では、翻訳サーバ２は、音声合成処理によって翻訳文「Please go straight along this road.」の音声情報を生成する。翻訳サーバ２は、翻訳対象の音声情報と共に受信した識別情報（ｔ１）、及び翻訳結果の音声情報を含む翻訳情報を翻訳装置１に送信する。

翻訳装置１は、翻訳サーバ２から翻訳情報を受信すると、翻訳結果の音声情報と、対応するユーザ操作の操作内容とを同期再生する再生処理を行う（ステップＳ３）。

図３Ａ，Ｂの例では、入力処理（Ｓ１）が終了した時刻ｔ２から時刻ｔ２１までの間にステップＳ２１〜Ｓ２３の処理が行われる。そして、翻訳装置１は、時刻ｔ２１から、ステップＳ３による再生処理の再生動作を開始する（図５における（ｅ），（ｆ）参照）。この際、翻訳装置１は、翻訳情報に含まれる識別情報（ｔ１）に基づき、翻訳結果の音声情報に対応するユーザ操作の操作内容を識別する。ステップＳ３の再生処理の詳細については後述する。

翻訳装置１がステップＳ３の処理を実行することにより、本シーケンスにおける翻訳システム２０の処理は終了する。

以上の処理によると、翻訳システム２０において、翻訳サーバ２が機械翻訳を行い、翻訳装置１がユーザ操作の入出力に同期してユーザの発話と翻訳結果の入出力を行うことができる。

以上の処理において、ステップＳ２１，Ｓ２２，Ｓ２３の各処理は、例えば各処理の入出力時に識別情報を付与して管理することにより、翻訳サーバ２に含まれる別々のサーバ装置で行われてもよい。

ステップＳ２１〜Ｓ２３間のデータの送受信は翻訳サーバ２内で行われてもよい。また、各処理が完了する毎に翻訳サーバ２が翻訳装置１にデータを戻して、翻訳装置１が次の処理サーバにデータを送信してもよい。これにより、例えば異なるサービス会社の音声認識と翻訳を用いることが可能となる。

また、音声認識処理（Ｓ２１）、翻訳処理（Ｓ２２）及び音声合成処理（Ｓ２３）のうちの一部又は全ての処理が、翻訳サーバ２に代えて、翻訳装置１によって行われてもよい。

２−２−１．翻訳装置の入力処理
図４のステップＳ１における翻訳装置１の入力処理について、図５〜７を参照して説明する。図６は、翻訳装置１の入力処理（図４のＳ１）を示すフローチャートである。図７は、翻訳装置１における履歴データベースＤ１を説明するための図である。

図６のフローチャートによる処理は、タッチパネル１１Ａの表示部１３が予め、図３Ａに例示する地図の画面に加えて、発話開始ボタン及び発話終了ボタンを表示している状態で開始される。

図６のフローチャートにおいて、まず、翻訳装置１の制御部１４は、ユーザの発話が開始したか否かを検知する（ステップＳ１１）。本実施形態において、ステップＳ１１の検知処理は、発話開始ボタンを押下する操作に応じて操作入力部１１が生成する信号に基づいて行われる。制御部１４は、発話の開始を検知するまで、例えば周期的にステップＳ１１の処理を繰り返す（Ｓ１１でＮｏ）。

制御部１４は、発話の開始を検知すると（Ｓ１１でＹｅｓ）、発話が開始した開始時刻を取得する（ステップＳ１２）。例えば、図３Ａの例では、図５における（ａ）に示すように、発話開始ボタンが時刻ｔ１に押下されている。このとき、制御部１４は、ステップＳ１１において「Ｙｅｓ」に進み、開始時刻として時刻ｔ１を取得する（Ｓ１２）。

次に、制御部１４は、例えば内部メモリに、音声入力部１２から入力される入力音声を記録し、これと共に操作入力部１１から入力されるユーザ操作の操作内容を記録する（ステップＳ１３）。ステップＳ１３の処理は、入力音声と操作内容とをまとめて履歴データベースＤ１に登録するために、ユーザの発話中に一時保存する処理である。

次に、制御部１４は、ユーザの発話が終了したか否かを検知する（ステップＳ１４）。本実施形態において、ステップＳ１４の検知処理は、発話終了ボタンを押下する操作に応じて操作入力部１１が生成する信号に基づいて行われる。制御部１４は、発話の終了を検知するまで、例えば１／６０秒などの所定周期においてステップＳ１３，Ｓ１４の処理を繰り返す（Ｓ１４でＮｏ）。

図３Ａの例では、ユーザの発話は、時刻ｔ１から時刻ｔ２までの間に行われる（図５における（ａ），（ｂ））。制御部１４は、音声入力部１２を介して入力される発話文の音声Ｖ１を、時刻ｔ１から逐次、記録する（Ｓ１３）。また、図３Ａの例では、ユーザは、発話と同時にタッチ操作を行っている（図５における（ｃ））。制御部１４は、例えば、図５における（ｄ）に示すように、タッチ操作によるタッチ位置の履歴として、１／６０秒毎のタッチ位置の座標(１０，１５)，（１２，１５），…を記録する（Ｓ１３）。

制御部１４は、発話の終了を検知すると（Ｓ１４でＹｅｓ）、発話が終了した終了時刻を取得する（ステップＳ１５）。例えば、ユーザが、１発話文を発話した後の時刻ｔ２に発話終了ボタンを押下すると（図５における（ａ））、制御部１４は、一時保存の処理（Ｓ１３）を終了してステップＳ１４で「Ｙｅｓ」に進み、時刻ｔ２を終了時刻として取得する（Ｓ１５）。

次に、制御部１４は、登録部１４２として機能し、一時保存した入力音声及びユーザ操作の操作内容を互いに関連付けて履歴データベースＤ１に登録する（ステップＳ１６）。ステップＳ１６において、制御部１４は、内部メモリに一時保存した情報を記憶部１５に書き込む。本実施形態において、登録部１４２は、取得した開始時刻及び終了時刻を用いて履歴データベースＤ１への情報の登録を行う。図７を用いて、履歴データベースＤ１について説明する。

本実施形態において、履歴データベースＤ１は、図７に示すように、「開始時刻」、「終了時刻」、「入力音声」、及び「操作内容」を関連付けて管理する。図３Ａの例では、ステップＳ１６において、登録部１４２は、開始時刻ｔ１及び終了時刻ｔ２をそれぞれ、履歴データベースＤ１の「開始時刻」及び「終了時刻」のデータ項目に記録する。また、登録部１４２は、各時刻ｔ１，ｔ２に関連付けて、それぞれ一時保存した入力音声を示す音声情報、及びタッチ操作の操作内容を登録する。履歴データベースＤ１において、「音声情報」のデータ項目には、例えば入力音声を示す音声情報のデータファイルへのリンクが記録される。また、「操作内容」のデータ項目には、例えばタッチ位置の履歴の座標が記録される。

図７に例示する履歴データベースＤ１によると、開始時刻（又は終了時刻）をキーとして用いて、特定の音声情報に関連付けされた操作内容を検索することができる。また、開始時刻及び終了時刻の双方を参照して、関連付けされた入力音声及びユーザ操作が入力された入力期間を算出することができる。

次に、制御部１４は、翻訳情報取得部１６を介して、履歴データベースＤ１に登録した入力音声の音声情報を翻訳サーバ２に送信する（ステップＳ１７）。本実施形態では、制御部１４は、履歴データベースＤ１を参照し、入力音声に関連付けされた開始時刻を識別情報として入力音声の音声情報に付加する。そして、制御部１４は、その音声情報を翻訳サーバ２に送信する（図４参照）。

ステップＳ１７の処理を実行することにより、翻訳装置１の制御部１４は本フローチャートによる処理を終了する。これにより、翻訳システム２０における処理は、図４のステップＳ２１に進む。

以上の処理によると、ユーザは、翻訳対象の内容を発話しながら、発話内容に応じたユーザ操作を翻訳装置１に入力することができる。翻訳装置１は、発話の入力音声に関連付けて、発話と同時に為されたユーザ操作の操作内容を蓄積することができる。

また、例えば図３Ａ，Ｃの例では、上記のステップＳ１３において操作入力部１１からユーザ操作が入力されると、表示制御部１４１は、操作入力部１１が生成する信号に応じて、表示部１３の表示を制御する。これにより、発話中のホストが自身の操作に基づく動作を確認しながら発話でき、ホストにとって翻訳装置１を使い易くすることができる。

以上の説明では、履歴データベースＤ１の一例として図７に例示する履歴データベースＤ１を説明した。履歴データベースＤ１は、「開始時刻」、「終了時刻」、「入力音声」、及び「操作内容」に加えて「アプリケーション状態」を関連付けて管理してもよい。「アプリケーション状態」は、ユーザが操作しているアプリケーションの状態を決定するパラメータのことである。具体的には、「アプリケーション状態」は、例えば、地図アプリケーションにおける、表示地図座標や表示倍率や、Ｗｅｂブラウザの表示ページアドレス（ＵＲＬ）、表示位置、表示倍率などである。

図５における（ｃ）における時刻ｔ１から時刻ｔ２のユーザ操作の中で地図アプリケーションの表示倍率を変更する操作が行われた場合について説明する。時刻ｔ１では地図アプリケーションの表示倍率が１万分の１に設定されていたが、表示倍率を変更する操作により、時刻ｔ２では表示倍率が２万５千分の１に変更されていたとする。この場合、時刻ｔ２１からの再生表示時には表示倍率を時刻ｔ１における表示倍率である１万分の１に戻してから再生表示する必要がある。

この場合に、制御部１４は、「アプリケーション状態」として時刻ｔ１における表示倍率を履歴データベースＤ１に記録しておく。そして、制御部１４は、時刻ｔ２１からの再生表示時に時刻ｔ１における表示倍率を取得し、地図アプリケーションの表示倍率を取得した値に変更する。

また、以上の説明では、入力音声とユーザ操作とを関連付ける識別情報として、発話の開始時刻を用いる例を例示したが、これに限らず、例えば発話の終了時刻などの他の時刻情報を用いてもよい。また、識別情報は、時刻情報に限らず種々の識別情報であってもよく、例えば、発話順にインクリメントされるような発話文毎に付与されるＩＤであってもよい。

また、ステップＳ１１における発話開始の検知処理は、発話開始ボタンの押下検知に応じて行われたが、これに限らない。発話開始の検知処理は、例えば音声入力部１２によって入力される音声の音声解析結果に応じて行われてもよい。例えば、発話開始の検知処理は、翻訳装置１が発話開始を意味する所定のフレーズを検知することに応じて、行われてもよい。

また、ステップＳ１４における発話終了の検知処理も、発話終了ボタンの押下検知に応じて行われたが、これに限らない。発話終了の検知処理は、例えば音声解析結果に応じて行われてもよい。例えば、発話終了の検知処理は、翻訳装置１が、音声入力部１２を介して、接続詞を検知することに応じて行われてもよいし、所定期間以上の無音状態を検知することに応じて行われてもよい。

また、ステップＳ１７の処理において、翻訳装置１は、必ずしも履歴データベースＤ１に登録した情報を全て翻訳サーバ２に送信する必要はない。例えば、翻訳装置１は、入力音声の情報のみを翻訳サーバ２に送信してもよい。この際、例えば、翻訳装置１は、送信した入力音声の翻訳結果を受信するまで、新たな入力音声を受け付けないようにしてもよい。

また、以上の説明では、図６のステップＳ１３の処理は、入力音声と操作内容とを履歴データベースＤ１に登録するために、ユーザの発話中に入力音声と操作内容とを一時保存する処理とした。これに代えて、ステップＳ１３の処理は、入力音声と操作内容とを直接履歴データベースＤ１に記録する処理としてもよい。その場合、図６に示すフローチャートにおいて、内部メモリに一時保存した情報を履歴データベースＤ１に記録するステップＳ１６の処理を省略してもよい。

２−２−２．翻訳装置の再生処理
図４のステップＳ３における翻訳装置１の再生処理について、図８を参照して説明する。図８は、翻訳装置１の再生処理（図４のＳ３）を示すフローチャートである。

まず、制御部１４は、翻訳情報取得部１６が翻訳サーバ２から翻訳情報を受信したか否かを判断する（ステップＳ３１）。例えば、図３Ａ，Ｂの例では、翻訳情報取得部１６は、翻訳文「Please go straight along this road.」の音声情報及び識別情報（ｔ１）を含む翻訳情報を受信する（図４参照）。ステップＳ３１の処理は、翻訳情報取得部１６が翻訳情報を受信するまで、例えば周期的に繰り返される（Ｓ３１でＮｏ）。

翻訳情報取得部１６が翻訳情報を受信すると（Ｓ３１でＹｅｓ）、制御部１４は、履歴データベースＤ１における検索のキーとして、受信した翻訳情報における識別情報の時刻を取得する（ステップＳ３２）。上記の例では、制御部１４は、キーとして翻訳元の入力音声の開始時刻ｔ１を取得する。

次に、制御部１４は、操作再生部１４３として機能し、履歴データベースＤ１における検索を行って、取得したキーの時刻に関連付けされた操作内容を取得する（ステップＳ３３）。図３Ａ，Ｂの例では、操作再生部１４３は、図７に例示する履歴データベースＤ１を参照して、翻訳元の入力音声と共に関連付けされた操作内容「（１０，１５），（１２，１５），…」を取得する。このように、受信した翻訳情報に基づき、翻訳情報の翻訳元の入力音声と同時に入力されたユーザ操作の操作内容を識別することができる。

さらに、制御部１４は、操作再生部１４３として機能し、取得した操作内容に基づく再生表示の表示動作（再生動作）を設定する（ステップＳ３４）。図３Ａ，Ｂの例では、操作再生部１４３は、取得した操作内容に応じて、例えばユーザによるタッチ操作が為されることを画面上で表現するためのコマンドを表示制御部１４１に発行する（Ｓ３４）。当該コマンドに基づき、表示制御部１４１は、タッチ位置の履歴に追従するようにアイコンを表示部１３に表示させる（図５における（ｆ）参照）。

また、上記の例において、操作再生部１４３は、例えばステップＳ１３において操作入力部１１によって生成される信号と同じ内容を示すコマンドを表示制御部１４１に発行する（Ｓ３４）。当該コマンドに基づき、表示制御部１４１は、ユーザがタッチ操作を開始した時刻ｔ１から表示された矢印画像を再現するように、矢印画像を表示部１３に表示させる（図５における（ｃ），（ｆ）参照）。表示制御部１４１は、矢印画像を表示させる際に、タッチ位置履歴に追従するアイコンを表示部１３に表示させてもよいし、表示させなくてもよい。

次に、制御部１４は、例えば音声出力部１７の動作と表示制御部１４１の動作とを同期させる同期信号を生成する。そして、制御部１４は、この同期信号に基づき、受信した翻訳情報に含まれる翻訳結果の音声情報の音声出力と、操作内容に応じた再生表示とを同期して出力させる（ステップＳ３５）。なお、制御部１４は、必ずしも音声出力と同時に再生表示を出力させなくてもよい。制御部１４は、音声出力に対して所定の期間後に再生表示を出力させることにより、音声出力と再生表示とを同期して出力させてもよい。

図３Ａ，Ｂの例では、音声出力部１７は、図５における（ｅ）に示すように、時刻ｔ２１から翻訳文「Please go straight …」を音声出力する。この際、表示制御部１４１は、音声出力部１７による音声出力に同期して、時刻ｔ２１から操作再生部１４３からのコマンドに従う再生表示を行う。

制御部１４は、ステップＳ３５の処理を実行することにより、本フローチャートによる処理を終了する。

以上の処理によると、入力音声の翻訳結果の音声出力に同期して、入力音声に関連付けされたユーザ操作の操作内容が再生表示される（Ｓ３５）。これにより、例えばホストの発話時の操作内容が翻訳結果の音声出力に同期して再生表示される。そのため、ホストの発話の翻訳結果を聴くゲストにとって、ホストの意図を理解しやすくすることができる。

上記のステップＳ３５において、例えば入力音声の入力期間が翻訳結果の音声出力期間よりも長い場合には、翻訳装置１は、音声出力期間の長さに応じて、操作内容の再生表示を、間延びさせたり、繰り返し再生したりしてもよい。また、入力音声の期間が翻訳結果の音声出力期間よりも短い場合には、翻訳装置１は、再生表示を、間引きしたり、高速化したりしてもよい。

例えば、ステップＳ３４において、翻訳装置１の操作再生部１４３は、履歴データベースＤ１に登録された開始時刻と終了時刻に基づいて入力音声の入力期間を算出する。また、操作再生部１４３は、翻訳情報取得部１６が取得した翻訳情報に基づいて翻訳結果の音声出力期間を取得する。操作再生部１４３は、入力期間と音声出力期間とを比較し、比較結果に応じて再生表示における間延び或いは間引き等の設定を行う。これにより、操作再生部１４３は、翻訳結果の音声出力期間と操作内容の再生表示の期間とが同期するように、表示部１３の再生動作の設定を行う。

なお、上記のように、入力音声の入力期間と翻訳結果の音声出力期間とを特に比較せずに操作内容に基づく動作が設定される場合には、履歴データベースＤ１は開始時刻と終了時刻の双方を管理しなくてもよい。この場合、入力処理（図６）においてステップＳ１２又はステップＳ１５の処理が省略されてもよい。

３．効果等
以上のように、本実施形態において、翻訳装置１は、操作入力部１１と、音声入力部１２と、翻訳情報取得部１６と、情報出力部の一例である音声出力部１７と、実行部の一例である表示部１３と、制御部１４とを備える。操作入力部１１には、ユーザ操作が入力される。音声入力部１２には、音声が入力される。翻訳情報取得部１６は、音声入力部１２に入力された音声の翻訳結果を取得する。音声出力部１７は、翻訳結果を出力する。表示部１３は、ユーザ操作に応じた出力動作として、表示動作を実行する。制御部１４は、表示部１３による動作を制御する。制御部１４は、音声出力部１７による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部１１に入力されたユーザ操作の操作内容に基づく動作を表示部１３に実行させる。

また、本実施形態において、音声出力部１７は、翻訳結果を音声として出力する。

以上の翻訳装置１によると、翻訳対象の音声を入力中に、意図する内容に応じたユーザ操作が翻訳装置１に入力され、翻訳結果の音声出力に同期して、入力したユーザ操作の操作内容が出力される。これにより、翻訳結果の音声出力を聴く相手に対して、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる。

本実施形態において、制御部１４は、翻訳結果が出力される期間とユーザ操作の操作内容に基づく動作が実行される期間とが同期するように、操作内容に基づく動作を設定する。これにより、翻訳結果の音声出力を聴く相手にとって、出力される操作内容を確認し易くできる。

また、本実施形態において、制御部１４は、ユーザ操作の操作入力部１１への入力に同期して、ユーザ操作の操作内容に基づく動作を表示部１３に実行させる。これにより、例えば図３Ａに示す矢印画像のように、ユーザが発話しながらユーザ操作を行っている際に、ユーザは表示部１３による出力動作を確認できる。そのため、例えばホストにとって、翻訳装置１を使い易くすることができる。

また、本実施形態において、翻訳結果の出力に同期した動作は、ユーザ操作の操作入力部１１への入力に同期した動作を再現する動作を含む。これにより、例えば図３Ｂの矢印画像のように、ホストが発話中に確認した出力動作がそのまま再生され、ホストとゲストの相互の理解を支援できる。

また、本実施形態において、翻訳結果の出力に同期した動作は、ユーザ操作が為されることを表現する動作を含む。これにより、例えば図３Ｂのアイコン表示のように、翻訳結果の音声出力中に、入力された操作内容のユーザ操作が行われているような印象をゲストに与えることができる。そのため、ゲストにとって翻訳装置１を利用し易くすることができる。

また、本実施形態において、翻訳装置１は、記憶部１５をさらに備える。記憶部１５は、音声入力部１２に入力された音声を示す音声情報と、音声の入力中に操作入力部１１に入力されたユーザ操作とを関連付けて管理する履歴データベースＤ１を記録する。制御部１４は、記憶部１５に記録された履歴データベースＤ１を参照し、音声情報が示す音声の翻訳結果の音声出力に同期して、ユーザ操作の操作内容に基づく動作を表示部１３に実行させる。これにより、翻訳装置１は、記憶部１５に記録された履歴データベースＤ１に基づき、翻訳情報に同期させる操作内容を管理できる。

また、本実施形態において、翻訳装置１の実行部は、情報を表示する表示部１３を含む。制御部１４は、翻訳結果の音声出力に同期して、ユーザ操作の操作内容に応じた情報を表示部１３に表示させる。これにより、ユーザは操作内容に応じた情報を視覚的に確認できる。

また、本実施形態において、翻訳システム２０は、翻訳装置１と、翻訳サーバ２とを備える。翻訳サーバ２は、音声入力部１２に入力された音声を示す音声情報を翻訳装置１から受信し、音声情報の翻訳処理を行う。これにより、翻訳装置１は、翻訳サーバ２から翻訳情報を取得して、翻訳情報の音声出力を行うことができる。

図３Ａ〜図３Ｄでは、翻訳システム２０において、一つの画面を用いて発話文毎に機械翻訳を行う例を説明したが、本開示はこれに限定されない。翻訳システム２０において、複数の画面を用いて機械翻訳を行ってもよい。また、発話文毎の機械翻訳に限らず、リアルタイム翻訳が行われてもよい。この変形例について、図９Ａ，図９Ｂ，図１０Ａおよび図１０Ｂを用いて説明する。

図９Ａは、ホスト用の画面の表示例である。図９Ｂは、ゲスト用の画面の表示例である。図９Ｃは、ホストの発話による入力音声、および、ホストの操作の操作内容を示す。

本例では、図９Ａ，Ｂに示すように、ホスト用の画面１３ａ及びゲスト用の画面１３ｂが別々に表示される。ホスト用の画面１３ａは、ホストのユーザが視認し、タッチ操作するための画面である。ゲスト用の画面１３ｂは、ゲストのユーザが視認するための画面である。ホスト用及びゲスト用の画面１３ａ，１３ｂは、表示部１３の一つの表示面上で二つの画面として表示されてもよい。また、表示部１３が、ホスト用及びゲスト用の画面１３ａ，１３ｂをそれぞれ表示する複数の表示面を有してもよい。この場合、各表示面は、例えば有線接続又は無線接続により、表示制御部１４１によって適宜、表示制御される。

図９Ａ〜図９Ｃの例では、ホストが、図９Ｃに示すように、ホスト用の画面１３ａの第１の座標（１０，２０）をタッチしながら音声Ｖ３と発話し、続けて第２の座標（３０，５０）をタッチしながら音声Ｖ４と発話している。なお、本例では、ホスト用の画面１３ａにおいて、ホストのタッチ操作による表示動作は特に生じない。

このとき、翻訳装置１の制御部１４は、例えば音声入力部１２からの入力音声に基づく無音検出、接続詞検出、或いは操作入力部１１からの信号に基づくタッチ位置変化の検出などにより、二つの音声Ｖ３，Ｖ４の区切れを検知する。これにより、翻訳装置１において、音声Ｖ３，Ｖ４が順次、それぞれ、第１及び第２の座標（１０，２０），（３０，５０）に関連付けて履歴データベースＤ１に登録される。翻訳装置１は、各入力音声の音声情報を随時、識別情報と共に翻訳サーバ２に送信する。そして、翻訳装置１は、それぞれの翻訳結果の翻訳情報を順次、取得する。

図１０Ａは、第１の翻訳結果の音声出力時におけるゲスト用の画面の表示例である。図１０Ｂは、第２の翻訳結果の音声出力時におけるゲスト用の画面の表示例である。図１０Ｃは、ホストの発話に対する翻訳結果、および、ホストの操作の操作に基づく動作内容を示す。

翻訳装置１は、音声Ｖ３に対応した翻訳結果Ｔ３「This is post office」の翻訳情報を取得すると、翻訳結果Ｔ３を音声出力する。翻訳装置１は、図１０Ａおよび図１０Ｃに示すように、音声出力中に第１の入力音声の入力時のタッチ操作を表現するアイコンの再生表示を行う。また、翻訳装置１は、音声Ｖ４に対応した翻訳結果Ｔ４「This is police station」の翻訳情報を取得すると、翻訳結果Ｔ４を音声出力する。翻訳装置１は、図１０Ｂおよび図１０Ｃに示すように、音声出力中に第２の入力音声の入力時のタッチ操作を表現するアイコンの再生表示を行う。このような再生表示は、ゲスト用の画面１３ｂにおいて行われる。このため、ゲストにとって、音声出力中の再生表示の内容がわかり易い。

また、上記の再生表示は、ホスト用の画面１３ａの状態に拘わらず、翻訳結果の音声出力時に順次、行われる。このため、ホストは再生表示を気にせずにユーザ操作及び発話を行え、ホストにとっても使い易い。また、上記のようなリアルタイム翻訳によると、例えばホストに代えて会議の参加者が翻訳装置１を使用する際に、会議の流れを乱さずにユーザ操作及び発話を行える。そのため、会議の参加者にとって使い易い。

（実施形態２）
以下、図１１を用いて、実施形態２を説明する。実施形態１では、実行部として表示部１３を備える翻訳装置１を説明した。実施形態２では、実行部として外部機器を制御する制御信号送信部を備える翻訳装置１Ａ及び翻訳システム２０Ａを説明する。

以下、実施形態１に係る翻訳装置１及び翻訳システム２０と同様の構成、動作の説明は適宜、省略して、本実施形態に係る翻訳装置１Ａ及び翻訳システム２０Ａを説明する。なお、図１１において、翻訳サーバ２を省略している。

図１１は、本実施形態に係る翻訳システム２０Ａを示す機能ブロック図である。本実施形態に係る翻訳システム２０Ａは、図１１に示すように、翻訳装置１Ａに加えて、さらに機器４（外部機器の一例）を備える。本実施形態に係る翻訳装置１Ａは、実施形態１に係る翻訳装置１の構成に加えて、さらに制御信号送信部１８を備える。

制御信号送信部１８は、例えば赤外線通信において、所定の機器４の動作を制御する制御信号を送信する。制御信号送信部１８は、例えば赤外線ＬＥＤ（Light Emitting Diode）及び送信回路を備える。制御信号送信部１８は、本実施形態に係る信号送信部の一例であって、翻訳装置１Ａにおける実行部の一例である。

機器４は、翻訳装置１Ａでの翻訳情報を出力するときの画面表示を行う表示装置であってもよい。また、機器４は、種々の電子機器であってもよく、例えばエアコン、テレビ等の家電機器であってもよいし、ロボットのマニピュレータなどの作業機器であってもよい。また、上記の制御信号に基づく機器４における操作対象は、例えば、ボタン、レバー、遠隔パネルなどであってもよい。

本実施形態に係る翻訳装置１Ａは、例えばホストが機器４の操作方法をゲスト等に説明するために用いることができる。例えば、表示部１３が機器４を表すＧＵＩ（Graphical User Interface）などを表示し、ホストが発話しながら操作入力部１１を介して機器４を表すＧＵＩを操作する。例えば、ホストが、「まず機器４の電源ボタンをＯＮし、次に左レバーを奥に倒し、さらに右レバーを右に倒してください。」などの一連の処理手順の説明を発話しながら、ＧＵＩを操作する。

このとき、翻訳装置１Ａは、実施形態１と同様に、発話による入力音声の翻訳結果を示す翻訳情報を取得する。次に、本実施形態に係る翻訳装置１Ａは、翻訳情報の音声出力に同期して、機器４がユーザの発話時の操作内容に応じた動作を行うように制御する制御信号を送信する。すると、機器４は、翻訳結果の音声出力時に、機器４のＧＵＩにおいて操作された処理手順と同じ処理動作を行う。これにより、ゲストは、翻訳結果の音声出力時に、実際の機器４の動作を確認でき、翻訳結果の内容を理解し易くすることができる。

以上のように、本実施形態において、翻訳装置１Ａの実行部は、機器４に制御信号を送信する制御信号送信部１８を含む。制御部１４は、翻訳結果の音声出力に同期して、機器４へ、機器４の動作を制御する制御信号を、制御信号送信部１８に送信させる。

これにより、翻訳結果の音声出力に同期して実際の機器４の動作が確認され、操作したユーザが意図する内容を伝え易くすることができる。

上記の説明では、ホストの操作対象は、表示部１３における機器４を表すＧＵＩであったが、これに限らず、例えば実際の機器４であってもよい。例えば、翻訳装置１Ａは、ホストが機器４を操作したときに、制御部１４から機器４に制御信号を送信する。この場合、ユーザの操作時にも制御信号送信部１８が実行部として動作しており、翻訳装置１Ａにおいて表示部１３は適宜、省略されてもよい。

（実施形態３）
以下、図１２を用いて、実施形態３を説明する。実施形態３では、実施形態２における翻訳システム２０Ａにおいて、機器４の動作状態に応じて翻訳動作を制限する機能を有する翻訳装置１Ｂを説明する。

以下、実施形態１，２に係る翻訳装置１，１Ａ及び翻訳システム２０，２０Ａと同様の構成、動作の説明は適宜、省略して、本実施形態に係る翻訳装置１Ｂ及び翻訳システム２０Ｂを説明する。なお、図１２において、翻訳サーバ２を省略している。

図１２は、本実施形態に係る翻訳システム２０Ｂを示す機能ブロック図である。本実施形態に係る翻訳システム２０Ｂにおいて、翻訳装置１Ｂは、実施形態２に係る翻訳装置１Ａの構成に加えて、さらに完了信号受信部１９を備える。完了信号受信部１９は、例えば赤外線通信において、機器４から所定の完了信号を受信する。完了信号は、機器４が所定の動作を完了したことを示す信号である。完了信号受信部１９は、例えば赤外線受光部及び受信回路を備える。完了信号受信部１９は、翻訳装置１Ｂにおける信号受信部の一例である。

図１３Ａ，Ｂは、翻訳装置１Ｂにおける制御信号の送信前後の表示部１３の表示例を示す。翻訳装置１Ｂは、図１３Ａ，Ｂに示すように、発話開始ボタン及び発話終了ボタンを表示部１３に表示している。図１３Ｂでは、発話開始ボタンの操作が禁止された表示状態を示している。

本実施形態に係る翻訳装置１Ｂの制御部１４は、制御信号の送信前には、ユーザが発話開始ボタンを押下操作することにより、実施形態２と同様に、音声入力部１２からの入力音声に基づく翻訳動作を開始する（図１３Ａ参照）。本翻訳動作において、入力されるユーザ操作に基づき制御信号が翻訳装置１Ｂから送信されたとき、翻訳装置１Ｂの表示制御部１４１は、図１３Ｂに示すように表示部１３による表示を切り替える。

図１３Ｂの表示状態において、制御部１４は、翻訳動作のための音声入力部１２における音声の入力を制限する。この状態において、ユーザが発話開始ボタンの押下操作を行ったとしても、制御部１４は、新たな入力音声の翻訳動作を開始しない。制御部１４は、機器４から完了信号受信部１９を介して完了信号を受信するまで、図１３Ｂの表示状態を維持する。

本実施形態において、機器４は、翻訳装置１Ｂから受信した制御信号に基づく動作を完了すると、完了信号を翻訳装置１Ｂに送信する。これにより、機器４の動作が完了する前に機器４に対して新たな制御信号が送信されるような事態を回避できる。そのため、翻訳装置１Ｂにおいて、翻訳対象の新たな入力音声を受け付けるタイミングを調整することができる。

以上のように、本実施形態において、翻訳装置１Ｂは、機器４から動作完了信号を受信する完了信号受信部１９をさらに備える。制御部１４は、制御信号を送信してから、完了信号受信部１９を介して機器４から制御信号が制御する動作の完了を示す完了信号を受信するまで、音声入力部１２における音声の入力を制限する。

これにより、機器４の動作状態に応じて、翻訳装置１Ｂにおける入力処理を制限する機能が実現され、ユーザが機器４の動作に応じた内容を説明し易くすることができる。

上記の説明では、表示部１３に表示される発話開始ボタンを用いて、動作完了信号に基づき入力処理を制限する例を説明したが、表示される発話開始ボタンを用いずに、動作完了信号に基づき入力処理を制限してもよい。制御部１４は、例えば制御信号送信部１８から機器４に制御信号を送信した後、機器４から完了信号を受信するまで、入力処理の実行を禁止して、音声入力部１２における音声の入力を制限してもよい。

（他の実施形態）
以上のように、本出願において開示する技術の例示として、実施形態１〜３を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。

上記の実施形態では、翻訳装置１において、発話文毎に入力音声とユーザ操作の操作内容とを関連付けする例について説明した。入力音声とユーザ操作の操作内容との関連付けは、発話文中を分割する文節又は単語などの所定単位において行われてもよい。この変形例について、図１４Ａ〜図１４Ｃを用いて説明する。

図１４Ａは、１発話文に複数のユーザ操作を関連付けた動作例を示す。図１４Ａの例で、ユーザは、音声Ｖ５、音声Ｖ６、および音声Ｖ７からなる音声Ｖ１０を発話している。ユーザは、音声Ｖ１０を発話中に、順次、第１の操作内容Ａ５、第２の操作内容Ａ６及び第３の操作内容Ａ７のユーザ操作を行っている。このとき、翻訳装置１は、ユーザ操作の操作タイミングに基づいて、逐次、音声Ｖ５と第１の操作内容Ａ１とを関連付け、音声Ｖ６と第２の操作内容Ａ２とを関連付け、音声Ｖ７と第３の操作内容Ａ３とを関連付ける。それぞれ関連付けられた情報は、翻訳装置１において履歴データベースＤ１に登録される。

図１４Ｂ，Ｃは、第１及び第２の翻訳結果のパターンを示す。図１４Ｂに示す第１のパターンでは、音声Ｖ１０に対応した翻訳結果が翻訳結果Ｔ１０ａ「Please turn the first corner to the left」になっている。図１４Ｃに示す第２のパターンでは、音声Ｖ１０に対応した翻訳結果が翻訳結果Ｔ１０ｂ「Please turn left at the first corner」になっている。このように、同じ発話文に対して異なるパターンの語順を有する翻訳結果が生じることが想定される。

そこで、翻訳装置１は、上記のように関連付けした各操作内容Ａ５，Ａ６，Ａ７に基づき、翻訳結果の語順に応じて、操作内容Ａ５，Ａ６，Ａ７を再生する順番を変化させる。例えば、第１のパターンの翻訳結果の音声出力時に、翻訳装置１は、図１４Ｂに示すように、翻訳結果Ｔ７「Please turn」と第３の操作内容Ａ７とを同期させ、翻訳結果Ｔ５「the first corner」と第１の操作内容Ａ５とを同期させ、翻訳結果Ｔ６「to the left」と第２の操作内容Ａ６とを同期させる。一方、第２のパターンの翻訳結果を音声出力する際には、翻訳装置１は、図１４Ｃに示すように、翻訳結果Ｔ７「Please turn」と第３の操作内容Ａ７とを同期させ、翻訳結果Ｔ６「left」と第２の操作内容Ａ６とを同期させ、翻訳結果Ｔ５「at the first corner」と第１の操作内容Ａ５とを同期させる。

この際、翻訳装置１は、例えば翻訳結果Ｔ７の「Please turn」と音声Ｖ７など、翻訳前後の単語間の関係を予め取得する。単語間の関係は、例えば翻訳装置１の記憶部１５に格納されていてもよいし、翻訳サーバ２によって発行されてもよい。

以上のように、翻訳結果の語順に応じて操作内容の再生順序を変化させることにより、音声出力中の翻訳結果の単語毎に対応する操作内容が再生される。そのため、翻訳結果の音声を聴くユーザの理解を促進することができる。

上記の各実施形態では、翻訳元言語及び翻訳先言語がそれぞれ日本語及び英語の例を説明したが、翻訳元言語及び翻訳先言語は特に限定されず、種々の自然言語を用いてもよい。

また、上記の各実施形態では、翻訳装置１の翻訳情報取得部１６が、翻訳処理を行う翻訳サーバ２から翻訳情報を取得する例を説明したが、翻訳装置１（制御部１４）が、入力音声の翻訳処理を行ってもよい。この場合、翻訳情報取得部１６は、翻訳装置１の内部処理として実行された翻訳処理による翻訳結果を翻訳情報として取得する。

また、上記の各実施形態では、翻訳装置１として一つの情報処理端末を備える翻訳システム２０について説明したが、翻訳システム２０は翻訳装置１として機能する複数の情報処理端末を備えてもよい。例えば、ホストとゲストとがそれぞれ上記の情報処理端末を所持してもよい。この際、翻訳サーバ２やネットワーク３を介して、情報処理端末間で各種情報の送受信が行われてもよい。

また、上記の各実施形態では、翻訳装置１の例を用いて説明したが、本開示の思想を、翻訳の代わりにノイズ除去、音声変換などの所定の音声処理を行うシステム又は装置に適用してもよい。すなわち、翻訳装置１における翻訳情報取得部１６を、音声入力部に入力された音声に対する所定の音声処理の結果を取得する取得部に代えて、所定の音声処理を行うシステム又は電子装置を構成してもよい。その電子装置において、制御部は、音声出力部による音声処理結果の音声出力に同期して、音声処理結果に対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を実行部に実行させる。これにより、上記の音声処理の対象となる発話を行うユーザが意図する内容を伝えやすくすることができる電子装置又はシステムを提供することができる。

上記の音声処理は、電子装置の内部で行われてもよいし、システム中のサーバにおいて行われてもよい。また、入力音声に基づく翻訳結果の出力は音声出力に限らない。例えば翻訳結果をテキスト表示する場合に、制御部１４は、テキスト表示に同期して、対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を表示部１３に実行させてもよい。

例えば、表示部１３は、翻訳情報をテキスト情報として出力してもよい。より具体的には、表示部１３は、図３Ｂに示す翻訳結果の音声出力に代えて、図１５に示すように翻訳情報を示すテキスト情報を画像Ｉ１として出力してもよい。このとき、制御部１４は、テキスト情報の出力に同期して、ユーザ操作の操作内容に基づく動作を表示部１３に実行させる。表示部１３は、本実施形態における翻訳装置１の情報出力部の一例である。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。

本開示は、例えば接客、案内或いは説明を行うユーザの発話の翻訳結果を音声出力する翻訳装置として利用可能である。

１，１Ａ，１Ｂ翻訳装置
１１操作入力部
１２音声入力部
１３表示部
１４制御部
１５記憶部
１６翻訳情報取得部
１７音声出力部
１８制御信号送信部
１９完了信号受信部
２翻訳サーバ
２０，２０Ａ，２０Ｂ翻訳システム
４機器

Claims

ユーザ操作が入力される操作入力部と、
音声が入力される音声入力部と、
前記音声入力部に入力された音声の翻訳結果を取得する翻訳情報取得部と、
前記翻訳結果を出力する情報出力部と、
実行部と、
前記情報出力部による前記翻訳結果の出力に同期して、前記翻訳結果に対応する音声の入力中に前記操作入力部に入力されたユーザ操作の操作内容に基づく動作を前記実行部に実行させる制御部とを備える
翻訳装置。
前記情報出力部は、前記翻訳結果を音声として出力する
請求項１に記載の翻訳装置。
前記情報出力部は、前記翻訳結果をテキスト情報として出力する
請求項１に記載の翻訳装置。
前記制御部は、前記翻訳結果が出力される期間と前記動作が実行される期間とが同期するように、前記動作を設定する
請求項１〜３のいずれか１項に記載の翻訳装置。
前記翻訳結果の出力に同期した前記動作は、前記ユーザ操作が為されることを表現する第１動作を含む
請求項１〜４のいずれか１項に記載の翻訳装置。
前記制御部は、ユーザ操作の前記操作入力部への入力に同期して、前記ユーザ操作の操作内容に基づく第２動作を前記実行部に実行させる
請求項１〜５のいずれか１項に記載の翻訳装置。
前記翻訳結果の出力に同期した前記動作は、前記ユーザ操作の前記操作入力部への入力に同期した前記第２動作を再現する動作を含む
請求項６に記載の翻訳装置。
前記音声入力部に入力された音声を示す音声情報と、前記音声の入力中に前記操作入力部に入力されたユーザ操作とを関連付けて記録する記憶部をさらに備え、
前記制御部は、前記記憶部に記録された前記音声情報および前記ユーザ操作を参照し、前記音声情報が示す音声の前記翻訳結果の出力に同期して、前記ユーザ操作の操作内容に基づく動作を前記実行部に実行させる
請求項１〜７のいずれか１項に記載の翻訳装置。
前記実行部は、情報を表示する表示部を含み、
前記制御部は、前記翻訳結果の出力に同期して、前記ユーザ操作の操作内容に応じた情報を前記表示部に表示させる
請求項１〜８のいずれか１項に記載の翻訳装置。
前記実行部は、外部機器に信号を送信する信号送信部を含み、
前記制御部は、前記翻訳結果の出力に同期して、前記外部機器へ、前記外部機器の動作を制御する制御信号を、前記信号送信部に送信させる
請求項１〜９のいずれか１項に記載の翻訳装置。
前記外部機器から信号を受信する信号受信部をさらに備え、
前記制御部は、前記制御信号を送信してから、前記信号受信部を介して前記外部機器から前記制御信号が制御する前記動作の完了を示す信号を受信するまで、前記音声入力部における音声の入力を制限する
請求項１０に記載の翻訳装置。
請求項１〜１１のいずれか１項に記載の翻訳装置と、
前記音声入力部に入力された音声を示す音声情報を前記翻訳装置から受信し、前記音声情報の翻訳処理を行う翻訳サーバと
を備える翻訳システム。