JPWO2018020828A1 - 翻訳装置および翻訳システム - Google Patents

翻訳装置および翻訳システム Download PDF

Info

Publication number
JPWO2018020828A1
JPWO2018020828A1 JP2018529396A JP2018529396A JPWO2018020828A1 JP WO2018020828 A1 JPWO2018020828 A1 JP WO2018020828A1 JP 2018529396 A JP2018529396 A JP 2018529396A JP 2018529396 A JP2018529396 A JP 2018529396A JP WO2018020828 A1 JPWO2018020828 A1 JP WO2018020828A1
Authority
JP
Japan
Prior art keywords
translation
unit
input
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018529396A
Other languages
English (en)
Other versions
JP6624476B2 (ja
Inventor
持田 哲司
哲司 持田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2018020828A1 publication Critical patent/JPWO2018020828A1/ja
Application granted granted Critical
Publication of JP6624476B2 publication Critical patent/JP6624476B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

翻訳装置(1)は、操作入力部(11)と、音声入力部(12)と、翻訳情報取得部(16)と、情報出力部(17)と、実行部(13)と、制御部(14)とを備える。操作入力部(11)には、ユーザ操作が入力される。音声入力部(12)には、音声が入力される。翻訳情報取得部(16)は、音声入力部(12)に入力された音声の翻訳結果を取得する。情報出力部(17)は、翻訳結果を出力する。制御部(14)は、情報出力部(17)による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部(11)に入力されたユーザ操作の操作内容に基づく動作を実行部(13)に実行させる。

Description

本開示は、翻訳装置および翻訳システムに関する。
特許文献1は、入力音声を翻訳する翻訳手段を備える通信システムを開示している。この通信システムは、テレビ会議装置等において当事者が発声する会話音声を入力するマイクロフォンと、テレビカメラから撮像入力された画像信号の画像が一時蓄積される画像メモリとを備えている。この通信システムによると、音声信号を通信するに際して、その音声を翻訳して出力し、またこの音声の翻訳出力に同期して入力音声に対応して入力された画像の表示が行われている。これにより、テレビ会議等において、翻訳された音声に対応した画像から通信相手の表情等を読取ることが可能となる。
特許文献2は、利用者同士が音声翻訳装置を介して会話する際に円滑な対話を可能にすることを目的とする技術を開示している。この音声翻訳装置は、第1言語の音声信号の音声認識を行う音声認識手段と、その認識した第1言語から第2言語に翻訳する第1機械翻訳手段と、その翻訳した第2言語を第1言語に逆翻訳する第2機械翻訳手段とを備える。この音声翻訳装置は、機械翻訳結果の合成音声と逆翻訳結果の合成音声とを同期させて音声出力する。これにより、一方の利用者の発話した音声の機械翻訳結果の合成音声を他方の利用者が聞いている間に、自分の発話した内容が正しく翻訳されているかを確認することが可能となる。
特許第2664679号公報 特開2015−060332号公報
本開示は、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる翻訳装置および翻訳システムを提供する。
本開示の一態様における翻訳装置は、操作入力部と、音声入力部と、翻訳情報取得部と、情報出力部と、実行部と、制御部とを備える。操作入力部には、ユーザ操作が入力される。音声入力部には、音声が入力される。翻訳情報取得部は、音声入力部に入力された音声の翻訳結果を取得する。情報出力部は、翻訳結果を出力する。制御部は、情報出力部による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を実行部に実行させる。
本開示の別の態様における翻訳システムは、翻訳装置と、翻訳サーバとを備える。翻訳サーバは、音声入力部に入力された音声を示す音声情報を翻訳装置から受信し、音声情報の翻訳処理を行う。
本開示における翻訳装置および翻訳システムによると、翻訳対象の音声の入力中にユーザ操作が入力されると、翻訳結果の出力に同期してユーザ操作の操作内容に基づく動作が出力される。これにより、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる。
図1は、実施形態1に係る翻訳システムを示すブロック図である。 図2は、翻訳システムにおける翻訳装置のハードウェア構成を例示する図である。 図3Aは、翻訳システムにおける翻訳装置の動作を説明するための図である。 図3Bは、翻訳システムにおける翻訳装置の動作を説明するための図である。 図3Cは、翻訳システムにおける翻訳装置の動作を説明するための図である。 図3Dは、翻訳システムにおける翻訳装置の動作を説明するための図である。 図4は、実施形態1に係る翻訳システムの動作を示すシーケンス図である。 図5は、実施形態1に係る翻訳装置の動作例を説明するためのタイミングチャートである。 図6は、翻訳装置による入力処理を説明するためのフローチャートである。 図7は、翻訳装置における履歴データベースを説明するための図である。 図8は、翻訳装置による再生処理を説明するためのフローチャートである。 図9Aは、実施形態1の変形例における翻訳装置の動作を説明するための図である。 図9Bは、実施形態1の変形例における翻訳装置の動作を説明するための図である。 図9Cは、実施形態1の変形例における翻訳装置の動作を説明するための図である。 図10Aは、実施形態1の変形例における翻訳装置の表示例を示す図である。 図10Bは、実施形態1の変形例における翻訳装置の表示例を示す図である。 図10Cは、実施形態1の変形例における翻訳装置の動作を説明するための図である。 図11は、実施形態2に係る翻訳システムを示す機能ブロック図である。 図12は、実施形態3に係る翻訳システムを示す機能ブロック図である。 図13Aは、実施形態3に係る翻訳装置の表示例を示す図である。 図13Bは、実施形態3に係る翻訳装置の表示例を示す図である。 図14Aは、変形例に係る翻訳装置の動作を説明するための図である。 図14Bは、変形例に係る翻訳装置の動作を説明するための図である。 図14Cは、変形例に係る翻訳装置の動作を説明するための図である。 図15は、他の実施形態に係る翻訳装置の動作を説明するための図である。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施形態1)
1.構成
本実施形態に係る翻訳システムの構成を、図1,2を参照して説明する。図1は、実施形態1に係る翻訳システムを示すブロック図である。図2は、翻訳システムにおける翻訳装置のハードウェア構成を例示する図である。
本実施形態に係る翻訳システム20は、図1に示すように、翻訳装置1と、翻訳サーバ2とを備える。本実施形態では、音声の入出力などを翻訳装置1で行い、機械翻訳のための処理を翻訳サーバ2で行う翻訳システム20について説明する。本実施形態に係る翻訳システム20は、例えば、翻訳装置1を操作するユーザが対面する相手と対話する時に、ユーザが発話した音声を機械翻訳して、翻訳装置1から音声出力する。翻訳装置1と、翻訳サーバ2とは、例えばインターネットなどのネットワーク3を介してデータ通信を行う。
図2に、翻訳装置1のハードウェア構成を例示する。翻訳装置1は、図2に示すように、タッチパネル11Aと、マイク12Aと、CPU(Central Processing Unit)14Aと、メモリ15Aと、通信モジュール16Aと、スピーカ17Aとを備える。翻訳装置1は、例えばタブレット端末、PC、スマートフォン及びモバイル端末などの情報処理端末で構成される。
図1に戻り、翻訳装置1は、操作入力部11と、音声入力部12と、表示部13と、制御部14と、記憶部15と、翻訳情報取得部16と、音声出力部17とを備える。制御部14は、表示制御部141と、登録部142と、操作再生部143とを備える。
操作入力部11は、ユーザが翻訳装置1を操作する種々のユーザ操作を受け付ける。操作入力部11は、例えばタッチパネル11Aにおけるタッチセンサを含む。タッチパネル11A上の表示面に触れるタッチ操作が入力されると、操作入力部11は、例えばタッチ位置を座標で示す信号を生成し、表示制御部141等に出力する。
操作入力部11は、タッチパネル11Aに限らず、マウス、キーボードなどの種々の入力装置を含んでもよい。また、タッチパネル11Aは、表示面近傍におけるジェスチャー操作等も入力可能に構成されてもよい。ユーザ操作には、タッチ操作、ジェスチャー操作、マウス操作及びキーボード操作などの種々の操作が含まれる。操作入力部11は、例えばタッチ位置の履歴によって表される、ユーザ操作の操作内容を取得する。
音声入力部12は、例えばマイク12Aで構成される。音声入力部12は、音声の入力を受け付け、入力音声を示す音声情報(音声データ)を生成する。入力音声には、例えばユーザが発話した音声が含まれる。
表示部13は、例えばタッチパネル11Aの表示面を構成する液晶ディスプレイ又は有機ELディスプレイなどである。表示部13は、表示制御部141の制御により、種々の情報を表示する。例えば、表示部13は、所定のアプリケーションソフトウェアの画面を表示したり、ユーザの操作内容に応じた画像を表示したりする。表示部13は、本実施形態における翻訳装置1の実行部の一例である。
制御部14は、翻訳装置1における各部の動作全体を制御する。制御部14は、例えばソフトウェアと協働して所定の機能を実現するCPU14Aで構成される。制御部14は、記憶部15に格納されたデータやプログラムを読み出して種々の演算処理を行い、表示制御部141、登録部142および操作再生部143などの各種機能を実現する。また、制御部14は、例えばSRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などで構成される内部メモリを有する。
表示制御部141は、操作入力部11からの信号に基づき、表示部13による表示動作を制御する。例えば、表示制御部141は、タッチパネル11Aにおいてタッチ操作中のタッチ位置を判断し、タッチ位置の軌跡に応じて画像表示を制御する。
登録部142は、制御部14の内部メモリに一時保存された情報等を記憶部15に書き込み、履歴データベースD1への情報登録を行う。履歴データベースD1は、ユーザ操作の操作内容と入力音声とを関連付けて、操作内容の履歴を管理するデータベースである。履歴データベースD1の詳細については後述する。
操作再生部143は、履歴データベースD1に登録された情報に基づき、例えば所定のコマンドを生成する。これにより、操作再生部143は、ユーザ操作の操作内容を再生するための動作を設定する。
なお、制御部14は、所定の機能を実現するように設計された専用の電子回路や再構成可能な電子回路などのハードウェア回路で構成されてもよい。制御部14は、CPU、MPU(Micro Processing Unit)、マイクロコントローラ、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の種々の半導体集積回路で構成されてもよい。
記憶部15は、翻訳装置1の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。例えば、記憶部15は、上記の履歴データベースD1を格納する。記憶部15は、例えばSRAM又はDRAMなどの高速メモリ、もしくはフラッシュメモリなどのメモリ15Aを含む。
翻訳情報取得部16は、本実施形態において、ネットワーク3を介した翻訳サーバ2とのデータ通信により、特定の入力音声の翻訳結果を含む翻訳情報を取得する。翻訳情報取得部16は、例えば所定の通信規格に準拠した通信を行う通信モジュール16Aを含む。所定の通信規格には、IEEE802.3,IEEE802.11a/11b/11g/11ac等の通信規格が含まれる。翻訳情報取得部16は、CPU14A上の制御プログラムなどのソフトウェアとの協働において実現されてもよい。
音声出力部17は、例えばスピーカ17Aで構成される。音声出力部17は、例えば翻訳情報取得部16によって取得された翻訳情報が示す翻訳結果などの音声出力を行う。音声出力部17は、本実施形態における翻訳装置1の情報出力部の一例である。
翻訳サーバ2は、例えばASP(Application Service Provider)サーバなどの一つ又は複数のサーバ装置で構成される。翻訳サーバ2は、ネットワーク3を介して翻訳装置1と音声情報の送受信を行う。翻訳サーバ2は、受信した音声情報に基づき、音声認識処理、翻訳処理、及び音声合成処理などの処理を行う。翻訳サーバ2において、各処理を実行するサーバ装置は、一体的に構成されてもよいし、別体で構成されてもよい。また、翻訳サーバ2は、クラウドコンピューティングを行ってもよい。
2.動作
以下、本実施形態に係る翻訳システムおよび翻訳装置の動作について説明する。
2−1.動作の概要
本実施形態に係る翻訳システム20の動作の概要について、図3A〜図3Dを参照して説明する。図3A〜図3Dは、翻訳システム20における翻訳装置1の動作を説明するための図である。
図3A〜図3Dは、本実施形態に係る翻訳装置1の一連の使用例を示している。翻訳装置1は、例えば、外国人に接客したり、道案内したりする対応において使用できる。以下、翻訳装置1を用いて案内を行う側のユーザを「ホスト」といい、案内される側のユーザを「ゲスト」という。本使用例において、ホストが使用する言語は日本語であり、ゲストが使用する言語は英語である。
図3Aは、ホストが発話中のタッチパネル11Aの表示例を示す。図3Bは、図3Aの状態後に翻訳装置1が翻訳結果を音声出力中の表示例を示す。図3Cは、図3Bの状態後にさらにホストが発話中の表示例を示す。図3Dは、図3Cの状態後に翻訳装置1が翻訳結果を音声出力中の表示例を示す。
図3A〜図3Dの使用例は、ホストがゲストに道案内を行う際の使用例である。本実施形態に係る翻訳システム20は、一例として、1発話文毎に翻訳動作を行う。
例えば、図3Aの状態において、ホストは、音声V1という発話文を発話している。翻訳システム20は、翻訳装置1から発話文を音声入力して、機械翻訳を翻訳サーバ2で行う(図1参照)。翻訳装置1は、発話の終了時から所定期間後(例えば2秒後)に、図3Bに示すように、音声V1に対応した翻訳結果T1の翻訳文「Please go straight along this road.」を音声出力する。
また、図3Bの音声出力後、ホストがさらに、図3Cに示すように、音声V2という発話文を発話している。これに応じて、翻訳装置1は、図3Dに示すように、音声V2に対応した翻訳結果T2の翻訳文「Please turn the first corner to the left.」を音声出力する。
以上のように、翻訳装置1を用いて道案内を行う際には、ホストが地図上の道などを指し示しながら説明することで、ホストが説明したい内容がゲストに伝わり易いと考えられる。そこで、本実施形態に係る翻訳システム20では、機械翻訳を用いてホストがゲストに種々の案内を行う際に、翻訳装置1が、翻訳結果を音声出力すると共に、地図、写真、物の使い方及び所在を表す情報などの補助情報を表示する。図3A〜図3Dの使用例では、地図の画面が表示されている。
図3Aの例では、ホストが、音声V1と発話しながら、タッチパネル11A上で特定の道を指でなぞるタッチ操作を行っている。この際、ホストの発話を直接には理解できないゲストにとって、ホストの発話中に視認されるユーザ操作から、ホストが意図する内容を読み取ることは困難である。そこで、本実施形態に係る翻訳装置1は、ユーザの発話の音声入力中に、操作入力部11から入力されたユーザ操作の操作内容を、翻訳結果の音声出力に同期して再生する。
例えば、翻訳装置1は、図3Bに示すように、翻訳結果T1の翻訳文「Please go straight along this road.」を音声出力しながら、手型のアイコン等が特定の道をなぞるように、画像表示を行う。これにより、翻訳文中の「this road」が示す道がどの道であるのかをゲストに伝え易くなる。
また、図3Cの例では、ホストが、音声V2と発話しながら、タッチパネル11A上で特定の曲がり角をなぞるタッチ操作を行っている。すると、翻訳装置1は、図3Dに示すように、音声V2に対応した翻訳結果T2の翻訳文「Please turn the first corner to the left.」を音声出力しながら、アイコンが特定の曲がり角をなぞるように、画像表示を行う。これにより、翻訳文中の「the first corner」が示す角が何処かであったり、「the left」がどの向きであるかだったりをゲストに伝え易くなる。
また、図3A,Cの例では、ホストがタッチパネル11Aをなぞるタッチ操作を行った際に、タッチパネル11Aは、なぞった軌跡を示す矢印画像を表示している。図3A,Cの表示例で表示された矢印画像は、図3B,Dに示すように、翻訳結果の音声出力時にも、同様に表示される。このように、発話中のホストが視認する操作内容自体を翻訳時に再生することで、翻訳装置1を介することの不自然さを低減して、ホストが自身の意図を伝え易くすることができる。
以下、本実施形態に係る翻訳システムおよび翻訳装置の動作の詳細を説明する。
2−2.翻訳システムの動作
本実施形態に係る翻訳システム20の動作を、図4,5を参照して説明する。図4は、本実施形態に係る翻訳システム20の動作を示すシーケンス図である。図5は、本実施形態に係る翻訳装置1の動作を説明するためのタイミングチャートである。
図5における(a)は、発話開始ボタン及び発話終了ボタンの操作タイミングを示す。図5における(b)は、入力音声の入力タイミングを示す。図5における(c)は、ユーザによるタッチ操作の操作タイミングを示す。図5における(d)は、タッチ操作におけるタッチ位置の履歴を示す。図5における(e)は、翻訳結果の音声出力の出力タイミングを示す。図5における(f)は、再生表示の動作タイミングを示す。
図4のシーケンスにおいて、まず、翻訳装置1は、ユーザが発話する音声とユーザ操作の入力を受け付ける入力処理を行う(ステップS1)。例えば、図3Aの例において、ステップS1の入力処理は時刻t1〜時刻t2に行われる(図5における(a)〜(d)参照)。また、図3Cの例において、ステップS1の入力処理は時刻t3〜時刻t4に行われる。
図3Aの例では、音声V1という発話文を示す音声情報が、発話文の識別情報と共に、翻訳装置1から翻訳サーバ2に送信される。発話文の識別情報は、例えば発話開始の時刻t1を示す時刻情報である。ステップS1の入力処理の詳細については後述する。
翻訳サーバ2は、翻訳装置1から音声情報及び識別情報を受信すると、受信した音声情報が示す発話文を音声認識する音声認識処理を行う(ステップS21)。本処理において、翻訳サーバ2は、音声認識した発話文を示す情報として、例えば日本語のテキストデータを生成する。また、翻訳サーバ2は、音声情報と共に受信した識別情報(t1)に関連付けて、生成したテキストデータを管理する。
次に、翻訳サーバ2は、生成したテキストデータに基づいて翻訳処理を行う(ステップS22)。図3A〜図3Dの例では、翻訳サーバ2は、ステップS22において日本語から英語への機械翻訳を行う。翻訳サーバ2は、英語への翻訳結果を示す翻訳文のテキストデータを生成する。
次に、翻訳サーバ2は、生成した翻訳文のテキストデータに基づいて、テキストデータが示す翻訳文を表すように音声合成する音声合成処理を行う(ステップS23)。図3A,Bの例では、翻訳サーバ2は、音声合成処理によって翻訳文「Please go straight along this road.」の音声情報を生成する。翻訳サーバ2は、翻訳対象の音声情報と共に受信した識別情報(t1)、及び翻訳結果の音声情報を含む翻訳情報を翻訳装置1に送信する。
翻訳装置1は、翻訳サーバ2から翻訳情報を受信すると、翻訳結果の音声情報と、対応するユーザ操作の操作内容とを同期再生する再生処理を行う(ステップS3)。
図3A,Bの例では、入力処理(S1)が終了した時刻t2から時刻t21までの間にステップS21〜S23の処理が行われる。そして、翻訳装置1は、時刻t21から、ステップS3による再生処理の再生動作を開始する(図5における(e),(f)参照)。この際、翻訳装置1は、翻訳情報に含まれる識別情報(t1)に基づき、翻訳結果の音声情報に対応するユーザ操作の操作内容を識別する。ステップS3の再生処理の詳細については後述する。
翻訳装置1がステップS3の処理を実行することにより、本シーケンスにおける翻訳システム20の処理は終了する。
以上の処理によると、翻訳システム20において、翻訳サーバ2が機械翻訳を行い、翻訳装置1がユーザ操作の入出力に同期してユーザの発話と翻訳結果の入出力を行うことができる。
以上の処理において、ステップS21,S22,S23の各処理は、例えば各処理の入出力時に識別情報を付与して管理することにより、翻訳サーバ2に含まれる別々のサーバ装置で行われてもよい。
ステップS21〜S23間のデータの送受信は翻訳サーバ2内で行われてもよい。また、各処理が完了する毎に翻訳サーバ2が翻訳装置1にデータを戻して、翻訳装置1が次の処理サーバにデータを送信してもよい。これにより、例えば異なるサービス会社の音声認識と翻訳を用いることが可能となる。
また、音声認識処理(S21)、翻訳処理(S22)及び音声合成処理(S23)のうちの一部又は全ての処理が、翻訳サーバ2に代えて、翻訳装置1によって行われてもよい。
2−2−1.翻訳装置の入力処理
図4のステップS1における翻訳装置1の入力処理について、図5〜7を参照して説明する。図6は、翻訳装置1の入力処理(図4のS1)を示すフローチャートである。図7は、翻訳装置1における履歴データベースD1を説明するための図である。
図6のフローチャートによる処理は、タッチパネル11Aの表示部13が予め、図3Aに例示する地図の画面に加えて、発話開始ボタン及び発話終了ボタンを表示している状態で開始される。
図6のフローチャートにおいて、まず、翻訳装置1の制御部14は、ユーザの発話が開始したか否かを検知する(ステップS11)。本実施形態において、ステップS11の検知処理は、発話開始ボタンを押下する操作に応じて操作入力部11が生成する信号に基づいて行われる。制御部14は、発話の開始を検知するまで、例えば周期的にステップS11の処理を繰り返す(S11でNo)。
制御部14は、発話の開始を検知すると(S11でYes)、発話が開始した開始時刻を取得する(ステップS12)。例えば、図3Aの例では、図5における(a)に示すように、発話開始ボタンが時刻t1に押下されている。このとき、制御部14は、ステップS11において「Yes」に進み、開始時刻として時刻t1を取得する(S12)。
次に、制御部14は、例えば内部メモリに、音声入力部12から入力される入力音声を記録し、これと共に操作入力部11から入力されるユーザ操作の操作内容を記録する(ステップS13)。ステップS13の処理は、入力音声と操作内容とをまとめて履歴データベースD1に登録するために、ユーザの発話中に一時保存する処理である。
次に、制御部14は、ユーザの発話が終了したか否かを検知する(ステップS14)。本実施形態において、ステップS14の検知処理は、発話終了ボタンを押下する操作に応じて操作入力部11が生成する信号に基づいて行われる。制御部14は、発話の終了を検知するまで、例えば1/60秒などの所定周期においてステップS13,S14の処理を繰り返す(S14でNo)。
図3Aの例では、ユーザの発話は、時刻t1から時刻t2までの間に行われる(図5における(a),(b))。制御部14は、音声入力部12を介して入力される発話文の音声V1を、時刻t1から逐次、記録する(S13)。また、図3Aの例では、ユーザは、発話と同時にタッチ操作を行っている(図5における(c))。制御部14は、例えば、図5における(d)に示すように、タッチ操作によるタッチ位置の履歴として、1/60秒毎のタッチ位置の座標(10,15),(12,15),…を記録する(S13)。
制御部14は、発話の終了を検知すると(S14でYes)、発話が終了した終了時刻を取得する(ステップS15)。例えば、ユーザが、1発話文を発話した後の時刻t2に発話終了ボタンを押下すると(図5における(a))、制御部14は、一時保存の処理(S13)を終了してステップS14で「Yes」に進み、時刻t2を終了時刻として取得する(S15)。
次に、制御部14は、登録部142として機能し、一時保存した入力音声及びユーザ操作の操作内容を互いに関連付けて履歴データベースD1に登録する(ステップS16)。ステップS16において、制御部14は、内部メモリに一時保存した情報を記憶部15に書き込む。本実施形態において、登録部142は、取得した開始時刻及び終了時刻を用いて履歴データベースD1への情報の登録を行う。図7を用いて、履歴データベースD1について説明する。
本実施形態において、履歴データベースD1は、図7に示すように、「開始時刻」、「終了時刻」、「入力音声」、及び「操作内容」を関連付けて管理する。図3Aの例では、ステップS16において、登録部142は、開始時刻t1及び終了時刻t2をそれぞれ、履歴データベースD1の「開始時刻」及び「終了時刻」のデータ項目に記録する。また、登録部142は、各時刻t1,t2に関連付けて、それぞれ一時保存した入力音声を示す音声情報、及びタッチ操作の操作内容を登録する。履歴データベースD1において、「音声情報」のデータ項目には、例えば入力音声を示す音声情報のデータファイルへのリンクが記録される。また、「操作内容」のデータ項目には、例えばタッチ位置の履歴の座標が記録される。
図7に例示する履歴データベースD1によると、開始時刻(又は終了時刻)をキーとして用いて、特定の音声情報に関連付けされた操作内容を検索することができる。また、開始時刻及び終了時刻の双方を参照して、関連付けされた入力音声及びユーザ操作が入力された入力期間を算出することができる。
次に、制御部14は、翻訳情報取得部16を介して、履歴データベースD1に登録した入力音声の音声情報を翻訳サーバ2に送信する(ステップS17)。本実施形態では、制御部14は、履歴データベースD1を参照し、入力音声に関連付けされた開始時刻を識別情報として入力音声の音声情報に付加する。そして、制御部14は、その音声情報を翻訳サーバ2に送信する(図4参照)。
ステップS17の処理を実行することにより、翻訳装置1の制御部14は本フローチャートによる処理を終了する。これにより、翻訳システム20における処理は、図4のステップS21に進む。
以上の処理によると、ユーザは、翻訳対象の内容を発話しながら、発話内容に応じたユーザ操作を翻訳装置1に入力することができる。翻訳装置1は、発話の入力音声に関連付けて、発話と同時に為されたユーザ操作の操作内容を蓄積することができる。
また、例えば図3A,Cの例では、上記のステップS13において操作入力部11からユーザ操作が入力されると、表示制御部141は、操作入力部11が生成する信号に応じて、表示部13の表示を制御する。これにより、発話中のホストが自身の操作に基づく動作を確認しながら発話でき、ホストにとって翻訳装置1を使い易くすることができる。
以上の説明では、履歴データベースD1の一例として図7に例示する履歴データベースD1を説明した。履歴データベースD1は、「開始時刻」、「終了時刻」、「入力音声」、及び「操作内容」に加えて「アプリケーション状態」を関連付けて管理してもよい。「アプリケーション状態」は、ユーザが操作しているアプリケーションの状態を決定するパラメータのことである。具体的には、「アプリケーション状態」は、例えば、地図アプリケーションにおける、表示地図座標や表示倍率や、Webブラウザの表示ページアドレス(URL)、表示位置、表示倍率などである。
図5における(c)における時刻t1から時刻t2のユーザ操作の中で地図アプリケーションの表示倍率を変更する操作が行われた場合について説明する。時刻t1では地図アプリケーションの表示倍率が1万分の1に設定されていたが、表示倍率を変更する操作により、時刻t2では表示倍率が2万5千分の1に変更されていたとする。この場合、時刻t21からの再生表示時には表示倍率を時刻t1における表示倍率である1万分の1に戻してから再生表示する必要がある。
この場合に、制御部14は、「アプリケーション状態」として時刻t1における表示倍率を履歴データベースD1に記録しておく。そして、制御部14は、時刻t21からの再生表示時に時刻t1における表示倍率を取得し、地図アプリケーションの表示倍率を取得した値に変更する。
また、以上の説明では、入力音声とユーザ操作とを関連付ける識別情報として、発話の開始時刻を用いる例を例示したが、これに限らず、例えば発話の終了時刻などの他の時刻情報を用いてもよい。また、識別情報は、時刻情報に限らず種々の識別情報であってもよく、例えば、発話順にインクリメントされるような発話文毎に付与されるIDであってもよい。
また、ステップS11における発話開始の検知処理は、発話開始ボタンの押下検知に応じて行われたが、これに限らない。発話開始の検知処理は、例えば音声入力部12によって入力される音声の音声解析結果に応じて行われてもよい。例えば、発話開始の検知処理は、翻訳装置1が発話開始を意味する所定のフレーズを検知することに応じて、行われてもよい。
また、ステップS14における発話終了の検知処理も、発話終了ボタンの押下検知に応じて行われたが、これに限らない。発話終了の検知処理は、例えば音声解析結果に応じて行われてもよい。例えば、発話終了の検知処理は、翻訳装置1が、音声入力部12を介して、接続詞を検知することに応じて行われてもよいし、所定期間以上の無音状態を検知することに応じて行われてもよい。
また、ステップS17の処理において、翻訳装置1は、必ずしも履歴データベースD1に登録した情報を全て翻訳サーバ2に送信する必要はない。例えば、翻訳装置1は、入力音声の情報のみを翻訳サーバ2に送信してもよい。この際、例えば、翻訳装置1は、送信した入力音声の翻訳結果を受信するまで、新たな入力音声を受け付けないようにしてもよい。
また、以上の説明では、図6のステップS13の処理は、入力音声と操作内容とを履歴データベースD1に登録するために、ユーザの発話中に入力音声と操作内容とを一時保存する処理とした。これに代えて、ステップS13の処理は、入力音声と操作内容とを直接履歴データベースD1に記録する処理としてもよい。その場合、図6に示すフローチャートにおいて、内部メモリに一時保存した情報を履歴データベースD1に記録するステップS16の処理を省略してもよい。
2−2−2.翻訳装置の再生処理
図4のステップS3における翻訳装置1の再生処理について、図8を参照して説明する。図8は、翻訳装置1の再生処理(図4のS3)を示すフローチャートである。
まず、制御部14は、翻訳情報取得部16が翻訳サーバ2から翻訳情報を受信したか否かを判断する(ステップS31)。例えば、図3A,Bの例では、翻訳情報取得部16は、翻訳文「Please go straight along this road.」の音声情報及び識別情報(t1)を含む翻訳情報を受信する(図4参照)。ステップS31の処理は、翻訳情報取得部16が翻訳情報を受信するまで、例えば周期的に繰り返される(S31でNo)。
翻訳情報取得部16が翻訳情報を受信すると(S31でYes)、制御部14は、履歴データベースD1における検索のキーとして、受信した翻訳情報における識別情報の時刻を取得する(ステップS32)。上記の例では、制御部14は、キーとして翻訳元の入力音声の開始時刻t1を取得する。
次に、制御部14は、操作再生部143として機能し、履歴データベースD1における検索を行って、取得したキーの時刻に関連付けされた操作内容を取得する(ステップS33)。図3A,Bの例では、操作再生部143は、図7に例示する履歴データベースD1を参照して、翻訳元の入力音声と共に関連付けされた操作内容「(10,15),(12,15),…」を取得する。このように、受信した翻訳情報に基づき、翻訳情報の翻訳元の入力音声と同時に入力されたユーザ操作の操作内容を識別することができる。
さらに、制御部14は、操作再生部143として機能し、取得した操作内容に基づく再生表示の表示動作(再生動作)を設定する(ステップS34)。図3A,Bの例では、操作再生部143は、取得した操作内容に応じて、例えばユーザによるタッチ操作が為されることを画面上で表現するためのコマンドを表示制御部141に発行する(S34)。当該コマンドに基づき、表示制御部141は、タッチ位置の履歴に追従するようにアイコンを表示部13に表示させる(図5における(f)参照)。
また、上記の例において、操作再生部143は、例えばステップS13において操作入力部11によって生成される信号と同じ内容を示すコマンドを表示制御部141に発行する(S34)。当該コマンドに基づき、表示制御部141は、ユーザがタッチ操作を開始した時刻t1から表示された矢印画像を再現するように、矢印画像を表示部13に表示させる(図5における(c),(f)参照)。表示制御部141は、矢印画像を表示させる際に、タッチ位置履歴に追従するアイコンを表示部13に表示させてもよいし、表示させなくてもよい。
次に、制御部14は、例えば音声出力部17の動作と表示制御部141の動作とを同期させる同期信号を生成する。そして、制御部14は、この同期信号に基づき、受信した翻訳情報に含まれる翻訳結果の音声情報の音声出力と、操作内容に応じた再生表示とを同期して出力させる(ステップS35)。なお、制御部14は、必ずしも音声出力と同時に再生表示を出力させなくてもよい。制御部14は、音声出力に対して所定の期間後に再生表示を出力させることにより、音声出力と再生表示とを同期して出力させてもよい。
図3A,Bの例では、音声出力部17は、図5における(e)に示すように、時刻t21から翻訳文「Please go straight …」を音声出力する。この際、表示制御部141は、音声出力部17による音声出力に同期して、時刻t21から操作再生部143からのコマンドに従う再生表示を行う。
制御部14は、ステップS35の処理を実行することにより、本フローチャートによる処理を終了する。
以上の処理によると、入力音声の翻訳結果の音声出力に同期して、入力音声に関連付けされたユーザ操作の操作内容が再生表示される(S35)。これにより、例えばホストの発話時の操作内容が翻訳結果の音声出力に同期して再生表示される。そのため、ホストの発話の翻訳結果を聴くゲストにとって、ホストの意図を理解しやすくすることができる。
上記のステップS35において、例えば入力音声の入力期間が翻訳結果の音声出力期間よりも長い場合には、翻訳装置1は、音声出力期間の長さに応じて、操作内容の再生表示を、間延びさせたり、繰り返し再生したりしてもよい。また、入力音声の期間が翻訳結果の音声出力期間よりも短い場合には、翻訳装置1は、再生表示を、間引きしたり、高速化したりしてもよい。
例えば、ステップS34において、翻訳装置1の操作再生部143は、履歴データベースD1に登録された開始時刻と終了時刻に基づいて入力音声の入力期間を算出する。また、操作再生部143は、翻訳情報取得部16が取得した翻訳情報に基づいて翻訳結果の音声出力期間を取得する。操作再生部143は、入力期間と音声出力期間とを比較し、比較結果に応じて再生表示における間延び或いは間引き等の設定を行う。これにより、操作再生部143は、翻訳結果の音声出力期間と操作内容の再生表示の期間とが同期するように、表示部13の再生動作の設定を行う。
なお、上記のように、入力音声の入力期間と翻訳結果の音声出力期間とを特に比較せずに操作内容に基づく動作が設定される場合には、履歴データベースD1は開始時刻と終了時刻の双方を管理しなくてもよい。この場合、入力処理(図6)においてステップS12又はステップS15の処理が省略されてもよい。
3.効果等
以上のように、本実施形態において、翻訳装置1は、操作入力部11と、音声入力部12と、翻訳情報取得部16と、情報出力部の一例である音声出力部17と、実行部の一例である表示部13と、制御部14とを備える。操作入力部11には、ユーザ操作が入力される。音声入力部12には、音声が入力される。翻訳情報取得部16は、音声入力部12に入力された音声の翻訳結果を取得する。音声出力部17は、翻訳結果を出力する。表示部13は、ユーザ操作に応じた出力動作として、表示動作を実行する。制御部14は、表示部13による動作を制御する。制御部14は、音声出力部17による翻訳結果の出力に同期して、翻訳結果に対応する音声の入力中に操作入力部11に入力されたユーザ操作の操作内容に基づく動作を表示部13に実行させる。
また、本実施形態において、音声出力部17は、翻訳結果を音声として出力する。
以上の翻訳装置1によると、翻訳対象の音声を入力中に、意図する内容に応じたユーザ操作が翻訳装置1に入力され、翻訳結果の音声出力に同期して、入力したユーザ操作の操作内容が出力される。これにより、翻訳結果の音声出力を聴く相手に対して、翻訳対象の発話を行うユーザが意図する内容を伝えやすくすることができる。
本実施形態において、制御部14は、翻訳結果が出力される期間とユーザ操作の操作内容に基づく動作が実行される期間とが同期するように、操作内容に基づく動作を設定する。これにより、翻訳結果の音声出力を聴く相手にとって、出力される操作内容を確認し易くできる。
また、本実施形態において、制御部14は、ユーザ操作の操作入力部11への入力に同期して、ユーザ操作の操作内容に基づく動作を表示部13に実行させる。これにより、例えば図3Aに示す矢印画像のように、ユーザが発話しながらユーザ操作を行っている際に、ユーザは表示部13による出力動作を確認できる。そのため、例えばホストにとって、翻訳装置1を使い易くすることができる。
また、本実施形態において、翻訳結果の出力に同期した動作は、ユーザ操作の操作入力部11への入力に同期した動作を再現する動作を含む。これにより、例えば図3Bの矢印画像のように、ホストが発話中に確認した出力動作がそのまま再生され、ホストとゲストの相互の理解を支援できる。
また、本実施形態において、翻訳結果の出力に同期した動作は、ユーザ操作が為されることを表現する動作を含む。これにより、例えば図3Bのアイコン表示のように、翻訳結果の音声出力中に、入力された操作内容のユーザ操作が行われているような印象をゲストに与えることができる。そのため、ゲストにとって翻訳装置1を利用し易くすることができる。
また、本実施形態において、翻訳装置1は、記憶部15をさらに備える。記憶部15は、音声入力部12に入力された音声を示す音声情報と、音声の入力中に操作入力部11に入力されたユーザ操作とを関連付けて管理する履歴データベースD1を記録する。制御部14は、記憶部15に記録された履歴データベースD1を参照し、音声情報が示す音声の翻訳結果の音声出力に同期して、ユーザ操作の操作内容に基づく動作を表示部13に実行させる。これにより、翻訳装置1は、記憶部15に記録された履歴データベースD1に基づき、翻訳情報に同期させる操作内容を管理できる。
また、本実施形態において、翻訳装置1の実行部は、情報を表示する表示部13を含む。制御部14は、翻訳結果の音声出力に同期して、ユーザ操作の操作内容に応じた情報を表示部13に表示させる。これにより、ユーザは操作内容に応じた情報を視覚的に確認できる。
また、本実施形態において、翻訳システム20は、翻訳装置1と、翻訳サーバ2とを備える。翻訳サーバ2は、音声入力部12に入力された音声を示す音声情報を翻訳装置1から受信し、音声情報の翻訳処理を行う。これにより、翻訳装置1は、翻訳サーバ2から翻訳情報を取得して、翻訳情報の音声出力を行うことができる。
図3A〜図3Dでは、翻訳システム20において、一つの画面を用いて発話文毎に機械翻訳を行う例を説明したが、本開示はこれに限定されない。翻訳システム20において、複数の画面を用いて機械翻訳を行ってもよい。また、発話文毎の機械翻訳に限らず、リアルタイム翻訳が行われてもよい。この変形例について、図9A,図9B,図10Aおよび図10Bを用いて説明する。
図9Aは、ホスト用の画面の表示例である。図9Bは、ゲスト用の画面の表示例である。図9Cは、ホストの発話による入力音声、および、ホストの操作の操作内容を示す。
本例では、図9A,Bに示すように、ホスト用の画面13a及びゲスト用の画面13bが別々に表示される。ホスト用の画面13aは、ホストのユーザが視認し、タッチ操作するための画面である。ゲスト用の画面13bは、ゲストのユーザが視認するための画面である。ホスト用及びゲスト用の画面13a,13bは、表示部13の一つの表示面上で二つの画面として表示されてもよい。また、表示部13が、ホスト用及びゲスト用の画面13a,13bをそれぞれ表示する複数の表示面を有してもよい。この場合、各表示面は、例えば有線接続又は無線接続により、表示制御部141によって適宜、表示制御される。
図9A〜図9Cの例では、ホストが、図9Cに示すように、ホスト用の画面13aの第1の座標(10,20)をタッチしながら音声V3と発話し、続けて第2の座標(30,50)をタッチしながら音声V4と発話している。なお、本例では、ホスト用の画面13aにおいて、ホストのタッチ操作による表示動作は特に生じない。
このとき、翻訳装置1の制御部14は、例えば音声入力部12からの入力音声に基づく無音検出、接続詞検出、或いは操作入力部11からの信号に基づくタッチ位置変化の検出などにより、二つの音声V3,V4の区切れを検知する。これにより、翻訳装置1において、音声V3,V4が順次、それぞれ、第1及び第2の座標(10,20),(30,50)に関連付けて履歴データベースD1に登録される。翻訳装置1は、各入力音声の音声情報を随時、識別情報と共に翻訳サーバ2に送信する。そして、翻訳装置1は、それぞれの翻訳結果の翻訳情報を順次、取得する。
図10Aは、第1の翻訳結果の音声出力時におけるゲスト用の画面の表示例である。図10Bは、第2の翻訳結果の音声出力時におけるゲスト用の画面の表示例である。図10Cは、ホストの発話に対する翻訳結果、および、ホストの操作の操作に基づく動作内容を示す。
翻訳装置1は、音声V3に対応した翻訳結果T3「This is post office」の翻訳情報を取得すると、翻訳結果T3を音声出力する。翻訳装置1は、図10Aおよび図10Cに示すように、音声出力中に第1の入力音声の入力時のタッチ操作を表現するアイコンの再生表示を行う。また、翻訳装置1は、音声V4に対応した翻訳結果T4「This is police station」の翻訳情報を取得すると、翻訳結果T4を音声出力する。翻訳装置1は、図10Bおよび図10Cに示すように、音声出力中に第2の入力音声の入力時のタッチ操作を表現するアイコンの再生表示を行う。このような再生表示は、ゲスト用の画面13bにおいて行われる。このため、ゲストにとって、音声出力中の再生表示の内容がわかり易い。
また、上記の再生表示は、ホスト用の画面13aの状態に拘わらず、翻訳結果の音声出力時に順次、行われる。このため、ホストは再生表示を気にせずにユーザ操作及び発話を行え、ホストにとっても使い易い。また、上記のようなリアルタイム翻訳によると、例えばホストに代えて会議の参加者が翻訳装置1を使用する際に、会議の流れを乱さずにユーザ操作及び発話を行える。そのため、会議の参加者にとって使い易い。
(実施形態2)
以下、図11を用いて、実施形態2を説明する。実施形態1では、実行部として表示部13を備える翻訳装置1を説明した。実施形態2では、実行部として外部機器を制御する制御信号送信部を備える翻訳装置1A及び翻訳システム20Aを説明する。
以下、実施形態1に係る翻訳装置1及び翻訳システム20と同様の構成、動作の説明は適宜、省略して、本実施形態に係る翻訳装置1A及び翻訳システム20Aを説明する。なお、図11において、翻訳サーバ2を省略している。
図11は、本実施形態に係る翻訳システム20Aを示す機能ブロック図である。本実施形態に係る翻訳システム20Aは、図11に示すように、翻訳装置1Aに加えて、さらに機器4(外部機器の一例)を備える。本実施形態に係る翻訳装置1Aは、実施形態1に係る翻訳装置1の構成に加えて、さらに制御信号送信部18を備える。
制御信号送信部18は、例えば赤外線通信において、所定の機器4の動作を制御する制御信号を送信する。制御信号送信部18は、例えば赤外線LED(Light Emitting Diode)及び送信回路を備える。制御信号送信部18は、本実施形態に係る信号送信部の一例であって、翻訳装置1Aにおける実行部の一例である。
機器4は、翻訳装置1Aでの翻訳情報を出力するときの画面表示を行う表示装置であってもよい。また、機器4は、種々の電子機器であってもよく、例えばエアコン、テレビ等の家電機器であってもよいし、ロボットのマニピュレータなどの作業機器であってもよい。また、上記の制御信号に基づく機器4における操作対象は、例えば、ボタン、レバー、遠隔パネルなどであってもよい。
本実施形態に係る翻訳装置1Aは、例えばホストが機器4の操作方法をゲスト等に説明するために用いることができる。例えば、表示部13が機器4を表すGUI(Graphical User Interface)などを表示し、ホストが発話しながら操作入力部11を介して機器4を表すGUIを操作する。例えば、ホストが、「まず機器4の電源ボタンをONし、次に左レバーを奥に倒し、さらに右レバーを右に倒してください。」などの一連の処理手順の説明を発話しながら、GUIを操作する。
このとき、翻訳装置1Aは、実施形態1と同様に、発話による入力音声の翻訳結果を示す翻訳情報を取得する。次に、本実施形態に係る翻訳装置1Aは、翻訳情報の音声出力に同期して、機器4がユーザの発話時の操作内容に応じた動作を行うように制御する制御信号を送信する。すると、機器4は、翻訳結果の音声出力時に、機器4のGUIにおいて操作された処理手順と同じ処理動作を行う。これにより、ゲストは、翻訳結果の音声出力時に、実際の機器4の動作を確認でき、翻訳結果の内容を理解し易くすることができる。
以上のように、本実施形態において、翻訳装置1Aの実行部は、機器4に制御信号を送信する制御信号送信部18を含む。制御部14は、翻訳結果の音声出力に同期して、機器4へ、機器4の動作を制御する制御信号を、制御信号送信部18に送信させる。
これにより、翻訳結果の音声出力に同期して実際の機器4の動作が確認され、操作したユーザが意図する内容を伝え易くすることができる。
上記の説明では、ホストの操作対象は、表示部13における機器4を表すGUIであったが、これに限らず、例えば実際の機器4であってもよい。例えば、翻訳装置1Aは、ホストが機器4を操作したときに、制御部14から機器4に制御信号を送信する。この場合、ユーザの操作時にも制御信号送信部18が実行部として動作しており、翻訳装置1Aにおいて表示部13は適宜、省略されてもよい。
(実施形態3)
以下、図12を用いて、実施形態3を説明する。実施形態3では、実施形態2における翻訳システム20Aにおいて、機器4の動作状態に応じて翻訳動作を制限する機能を有する翻訳装置1Bを説明する。
以下、実施形態1,2に係る翻訳装置1,1A及び翻訳システム20,20Aと同様の構成、動作の説明は適宜、省略して、本実施形態に係る翻訳装置1B及び翻訳システム20Bを説明する。なお、図12において、翻訳サーバ2を省略している。
図12は、本実施形態に係る翻訳システム20Bを示す機能ブロック図である。本実施形態に係る翻訳システム20Bにおいて、翻訳装置1Bは、実施形態2に係る翻訳装置1Aの構成に加えて、さらに完了信号受信部19を備える。完了信号受信部19は、例えば赤外線通信において、機器4から所定の完了信号を受信する。完了信号は、機器4が所定の動作を完了したことを示す信号である。完了信号受信部19は、例えば赤外線受光部及び受信回路を備える。完了信号受信部19は、翻訳装置1Bにおける信号受信部の一例である。
図13A,Bは、翻訳装置1Bにおける制御信号の送信前後の表示部13の表示例を示す。翻訳装置1Bは、図13A,Bに示すように、発話開始ボタン及び発話終了ボタンを表示部13に表示している。図13Bでは、発話開始ボタンの操作が禁止された表示状態を示している。
本実施形態に係る翻訳装置1Bの制御部14は、制御信号の送信前には、ユーザが発話開始ボタンを押下操作することにより、実施形態2と同様に、音声入力部12からの入力音声に基づく翻訳動作を開始する(図13A参照)。本翻訳動作において、入力されるユーザ操作に基づき制御信号が翻訳装置1Bから送信されたとき、翻訳装置1Bの表示制御部141は、図13Bに示すように表示部13による表示を切り替える。
図13Bの表示状態において、制御部14は、翻訳動作のための音声入力部12における音声の入力を制限する。この状態において、ユーザが発話開始ボタンの押下操作を行ったとしても、制御部14は、新たな入力音声の翻訳動作を開始しない。制御部14は、機器4から完了信号受信部19を介して完了信号を受信するまで、図13Bの表示状態を維持する。
本実施形態において、機器4は、翻訳装置1Bから受信した制御信号に基づく動作を完了すると、完了信号を翻訳装置1Bに送信する。これにより、機器4の動作が完了する前に機器4に対して新たな制御信号が送信されるような事態を回避できる。そのため、翻訳装置1Bにおいて、翻訳対象の新たな入力音声を受け付けるタイミングを調整することができる。
以上のように、本実施形態において、翻訳装置1Bは、機器4から動作完了信号を受信する完了信号受信部19をさらに備える。制御部14は、制御信号を送信してから、完了信号受信部19を介して機器4から制御信号が制御する動作の完了を示す完了信号を受信するまで、音声入力部12における音声の入力を制限する。
これにより、機器4の動作状態に応じて、翻訳装置1Bにおける入力処理を制限する機能が実現され、ユーザが機器4の動作に応じた内容を説明し易くすることができる。
上記の説明では、表示部13に表示される発話開始ボタンを用いて、動作完了信号に基づき入力処理を制限する例を説明したが、表示される発話開始ボタンを用いずに、動作完了信号に基づき入力処理を制限してもよい。制御部14は、例えば制御信号送信部18から機器4に制御信号を送信した後、機器4から完了信号を受信するまで、入力処理の実行を禁止して、音声入力部12における音声の入力を制限してもよい。
(他の実施形態)
以上のように、本出願において開示する技術の例示として、実施形態1〜3を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。
上記の実施形態では、翻訳装置1において、発話文毎に入力音声とユーザ操作の操作内容とを関連付けする例について説明した。入力音声とユーザ操作の操作内容との関連付けは、発話文中を分割する文節又は単語などの所定単位において行われてもよい。この変形例について、図14A〜図14Cを用いて説明する。
図14Aは、1発話文に複数のユーザ操作を関連付けた動作例を示す。図14Aの例で、ユーザは、音声V5、音声V6、および音声V7からなる音声V10を発話している。ユーザは、音声V10を発話中に、順次、第1の操作内容A5、第2の操作内容A6及び第3の操作内容A7のユーザ操作を行っている。このとき、翻訳装置1は、ユーザ操作の操作タイミングに基づいて、逐次、音声V5と第1の操作内容A1とを関連付け、音声V6と第2の操作内容A2とを関連付け、音声V7と第3の操作内容A3とを関連付ける。それぞれ関連付けられた情報は、翻訳装置1において履歴データベースD1に登録される。
図14B,Cは、第1及び第2の翻訳結果のパターンを示す。図14Bに示す第1のパターンでは、音声V10に対応した翻訳結果が翻訳結果T10a「Please turn the first corner to the left」になっている。図14Cに示す第2のパターンでは、音声V10に対応した翻訳結果が翻訳結果T10b「Please turn left at the first corner」になっている。このように、同じ発話文に対して異なるパターンの語順を有する翻訳結果が生じることが想定される。
そこで、翻訳装置1は、上記のように関連付けした各操作内容A5,A6,A7に基づき、翻訳結果の語順に応じて、操作内容A5,A6,A7を再生する順番を変化させる。例えば、第1のパターンの翻訳結果の音声出力時に、翻訳装置1は、図14Bに示すように、翻訳結果T7「Please turn」と第3の操作内容A7とを同期させ、翻訳結果T5「the first corner」と第1の操作内容A5とを同期させ、翻訳結果T6「to the left」と第2の操作内容A6とを同期させる。一方、第2のパターンの翻訳結果を音声出力する際には、翻訳装置1は、図14Cに示すように、翻訳結果T7「Please turn」と第3の操作内容A7とを同期させ、翻訳結果T6「left」と第2の操作内容A6とを同期させ、翻訳結果T5「at the first corner」と第1の操作内容A5とを同期させる。
この際、翻訳装置1は、例えば翻訳結果T7の「Please turn」と音声V7など、翻訳前後の単語間の関係を予め取得する。単語間の関係は、例えば翻訳装置1の記憶部15に格納されていてもよいし、翻訳サーバ2によって発行されてもよい。
以上のように、翻訳結果の語順に応じて操作内容の再生順序を変化させることにより、音声出力中の翻訳結果の単語毎に対応する操作内容が再生される。そのため、翻訳結果の音声を聴くユーザの理解を促進することができる。
上記の各実施形態では、翻訳元言語及び翻訳先言語がそれぞれ日本語及び英語の例を説明したが、翻訳元言語及び翻訳先言語は特に限定されず、種々の自然言語を用いてもよい。
また、上記の各実施形態では、翻訳装置1の翻訳情報取得部16が、翻訳処理を行う翻訳サーバ2から翻訳情報を取得する例を説明したが、翻訳装置1(制御部14)が、入力音声の翻訳処理を行ってもよい。この場合、翻訳情報取得部16は、翻訳装置1の内部処理として実行された翻訳処理による翻訳結果を翻訳情報として取得する。
また、上記の各実施形態では、翻訳装置1として一つの情報処理端末を備える翻訳システム20について説明したが、翻訳システム20は翻訳装置1として機能する複数の情報処理端末を備えてもよい。例えば、ホストとゲストとがそれぞれ上記の情報処理端末を所持してもよい。この際、翻訳サーバ2やネットワーク3を介して、情報処理端末間で各種情報の送受信が行われてもよい。
また、上記の各実施形態では、翻訳装置1の例を用いて説明したが、本開示の思想を、翻訳の代わりにノイズ除去、音声変換などの所定の音声処理を行うシステム又は装置に適用してもよい。すなわち、翻訳装置1における翻訳情報取得部16を、音声入力部に入力された音声に対する所定の音声処理の結果を取得する取得部に代えて、所定の音声処理を行うシステム又は電子装置を構成してもよい。その電子装置において、制御部は、音声出力部による音声処理結果の音声出力に同期して、音声処理結果に対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を実行部に実行させる。これにより、上記の音声処理の対象となる発話を行うユーザが意図する内容を伝えやすくすることができる電子装置又はシステムを提供することができる。
上記の音声処理は、電子装置の内部で行われてもよいし、システム中のサーバにおいて行われてもよい。また、入力音声に基づく翻訳結果の出力は音声出力に限らない。例えば翻訳結果をテキスト表示する場合に、制御部14は、テキスト表示に同期して、対応する音声の入力中に操作入力部に入力されたユーザ操作の操作内容に基づく動作を表示部13に実行させてもよい。
例えば、表示部13は、翻訳情報をテキスト情報として出力してもよい。より具体的には、表示部13は、図3Bに示す翻訳結果の音声出力に代えて、図15に示すように翻訳情報を示すテキスト情報を画像I1として出力してもよい。このとき、制御部14は、テキスト情報の出力に同期して、ユーザ操作の操作内容に基づく動作を表示部13に実行させる。表示部13は、本実施形態における翻訳装置1の情報出力部の一例である。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。
本開示は、例えば接客、案内或いは説明を行うユーザの発話の翻訳結果を音声出力する翻訳装置として利用可能である。
1,1A,1B 翻訳装置
11 操作入力部
12 音声入力部
13 表示部
14 制御部
15 記憶部
16 翻訳情報取得部
17 音声出力部
18 制御信号送信部
19 完了信号受信部
2 翻訳サーバ
20,20A,20B 翻訳システム
4 機器

Claims (12)

  1. ユーザ操作が入力される操作入力部と、
    音声が入力される音声入力部と、
    前記音声入力部に入力された音声の翻訳結果を取得する翻訳情報取得部と、
    前記翻訳結果を出力する情報出力部と、
    実行部と、
    前記情報出力部による前記翻訳結果の出力に同期して、前記翻訳結果に対応する音声の入力中に前記操作入力部に入力されたユーザ操作の操作内容に基づく動作を前記実行部に実行させる制御部とを備える
    翻訳装置。
  2. 前記情報出力部は、前記翻訳結果を音声として出力する
    請求項1に記載の翻訳装置。
  3. 前記情報出力部は、前記翻訳結果をテキスト情報として出力する
    請求項1に記載の翻訳装置。
  4. 前記制御部は、前記翻訳結果が出力される期間と前記動作が実行される期間とが同期するように、前記動作を設定する
    請求項1〜3のいずれか1項に記載の翻訳装置。
  5. 前記翻訳結果の出力に同期した前記動作は、前記ユーザ操作が為されることを表現する第1動作を含む
    請求項1〜4のいずれか1項に記載の翻訳装置。
  6. 前記制御部は、ユーザ操作の前記操作入力部への入力に同期して、前記ユーザ操作の操作内容に基づく第2動作を前記実行部に実行させる
    請求項1〜5のいずれか1項に記載の翻訳装置。
  7. 前記翻訳結果の出力に同期した前記動作は、前記ユーザ操作の前記操作入力部への入力に同期した前記第2動作を再現する動作を含む
    請求項6に記載の翻訳装置。
  8. 前記音声入力部に入力された音声を示す音声情報と、前記音声の入力中に前記操作入力部に入力されたユーザ操作とを関連付けて記録する記憶部をさらに備え、
    前記制御部は、前記記憶部に記録された前記音声情報および前記ユーザ操作を参照し、前記音声情報が示す音声の前記翻訳結果の出力に同期して、前記ユーザ操作の操作内容に基づく動作を前記実行部に実行させる
    請求項1〜7のいずれか1項に記載の翻訳装置。
  9. 前記実行部は、情報を表示する表示部を含み、
    前記制御部は、前記翻訳結果の出力に同期して、前記ユーザ操作の操作内容に応じた情報を前記表示部に表示させる
    請求項1〜8のいずれか1項に記載の翻訳装置。
  10. 前記実行部は、外部機器に信号を送信する信号送信部を含み、
    前記制御部は、前記翻訳結果の出力に同期して、前記外部機器へ、前記外部機器の動作を制御する制御信号を、前記信号送信部に送信させる
    請求項1〜9のいずれか1項に記載の翻訳装置。
  11. 前記外部機器から信号を受信する信号受信部をさらに備え、
    前記制御部は、前記制御信号を送信してから、前記信号受信部を介して前記外部機器から前記制御信号が制御する前記動作の完了を示す信号を受信するまで、前記音声入力部における音声の入力を制限する
    請求項10に記載の翻訳装置。
  12. 請求項1〜11のいずれか1項に記載の翻訳装置と、
    前記音声入力部に入力された音声を示す音声情報を前記翻訳装置から受信し、前記音声情報の翻訳処理を行う翻訳サーバと
    を備える翻訳システム。
JP2018529396A 2016-07-28 2017-06-01 翻訳装置および翻訳システム Active JP6624476B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016148859 2016-07-28
JP2016148859 2016-07-28
PCT/JP2017/020457 WO2018020828A1 (ja) 2016-07-28 2017-06-01 翻訳装置および翻訳システム

Publications (2)

Publication Number Publication Date
JPWO2018020828A1 true JPWO2018020828A1 (ja) 2018-11-22
JP6624476B2 JP6624476B2 (ja) 2019-12-25

Family

ID=61015923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018529396A Active JP6624476B2 (ja) 2016-07-28 2017-06-01 翻訳装置および翻訳システム

Country Status (6)

Country Link
US (1) US20190026266A1 (ja)
EP (1) EP3493048A4 (ja)
JP (1) JP6624476B2 (ja)
KR (1) KR20190034494A (ja)
CN (1) CN109074239A (ja)
WO (1) WO2018020828A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089305B1 (en) * 2017-07-12 2018-10-02 Global Tel*Link Corporation Bidirectional call translation in controlled environment
US10558763B2 (en) * 2017-08-03 2020-02-11 Electronics And Telecommunications Research Institute Automatic translation system, device, and method
JP2020009100A (ja) * 2018-07-06 2020-01-16 富士ゼロックス株式会社 情報処理装置、端末装置、情報処理システム、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2664679B2 (ja) 1987-05-30 1997-10-15 株式会社東芝 通信システム
JPH09153069A (ja) * 1995-09-29 1997-06-10 Toshiba Corp 情報収集装置、情報収集再生装置およびパトロール端末装置
JP2993872B2 (ja) * 1995-10-16 1999-12-27 株式会社エイ・ティ・アール音声翻訳通信研究所 マルチモーダル情報統合解析装置
JP4416643B2 (ja) * 2004-06-29 2010-02-17 キヤノン株式会社 マルチモーダル入力方法
US7492367B2 (en) * 2005-03-10 2009-02-17 Motus Corporation Apparatus, system and method for interpreting and reproducing physical motion
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US7991607B2 (en) * 2005-06-27 2011-08-02 Microsoft Corporation Translation and capture architecture for output of conversational utterances
JP4398966B2 (ja) * 2006-09-26 2010-01-13 株式会社東芝 機械翻訳を行う装置、システム、方法およびプログラム
JP5121252B2 (ja) * 2007-02-26 2013-01-16 株式会社東芝 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
CN101620595A (zh) * 2009-08-11 2010-01-06 上海合合信息科技发展有限公司 电子设备的文本翻译方法及系统
US20110112821A1 (en) * 2009-11-11 2011-05-12 Andrea Basso Method and apparatus for multimodal content translation
CN103534751B (zh) * 2013-05-27 2016-05-18 华为技术有限公司 语音同步方法及装置
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2016134331A1 (en) * 2015-02-19 2016-08-25 Tertl Studos Llc Systems and methods for variably paced real-time translation between the written and spoken forms of a word
JP2017084090A (ja) * 2015-10-28 2017-05-18 シャープ株式会社 接客システム

Also Published As

Publication number Publication date
JP6624476B2 (ja) 2019-12-25
KR20190034494A (ko) 2019-04-02
WO2018020828A1 (ja) 2018-02-01
EP3493048A1 (en) 2019-06-05
EP3493048A4 (en) 2019-07-03
US20190026266A1 (en) 2019-01-24
CN109074239A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
US11158102B2 (en) Method and apparatus for processing information
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
JP2021009701A (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
JP7467635B2 (ja) 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
JP6624476B2 (ja) 翻訳装置および翻訳システム
KR20220109373A (ko) 발화 영상 제공 방법
JP2015106203A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2018005011A (ja) プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
US9870197B2 (en) Input information support apparatus, method for supporting input information, and computer-readable recording medium
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2011086123A (ja) 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
JP7519441B2 (ja) 使用者端末、及びその制御方法
Panek et al. Challenges in adopting speech control for assistive robots
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
KR102546532B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102509106B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
JP2015038525A (ja) 音声認識装置及び音声認識方法
US20240098183A1 (en) Marking method on image combined with sound signal, terminal apparatus, and server
KR20220053863A (ko) 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191113

R150 Certificate of patent or registration of utility model

Ref document number: 6624476

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150