JPWO2019150996A1 - 言語提示装置、言語提示方法、及び言語提示プログラム - Google Patents

言語提示装置、言語提示方法、及び言語提示プログラム Download PDF

Info

Publication number
JPWO2019150996A1
JPWO2019150996A1 JP2019569004A JP2019569004A JPWO2019150996A1 JP WO2019150996 A1 JPWO2019150996 A1 JP WO2019150996A1 JP 2019569004 A JP2019569004 A JP 2019569004A JP 2019569004 A JP2019569004 A JP 2019569004A JP WO2019150996 A1 JPWO2019150996 A1 JP WO2019150996A1
Authority
JP
Japan
Prior art keywords
language
content
voice
face
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019569004A
Other languages
English (en)
Inventor
満 高見
満 高見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2019150996A1 publication Critical patent/JPWO2019150996A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/24Generation of individual character patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3179Video signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3191Testing thereof
    • H04N9/3194Testing thereof including sensor feedback
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B21/00Projectors or projection-type viewers; Accessories therefor
    • G03B21/54Accessories
    • G03B21/56Projection screens
    • G03B21/60Projection screens characterised by the nature of the surface
    • G03B21/62Translucent screens
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Abstract

言語提示装置は、透明提示部を挟んで互いに対面して位置する第1のユーザと第2のユーザとの会話に供する。言語提示装置は、第1のユーザ及び第2のユーザのうち少なくとも一方の発した第1の音声を取得し、第1の音声の内容と、第1の音声の内容が第1のユーザ又は第2のユーザに適した言語に翻訳された翻訳内容とを取得し、第1の音声の内容及び翻訳内容を、いずれか一方を左右方向に反転して透明提示部に提示する。

Description

本開示は、発言された音声の認識結果に基づく言語を提示する言語提示装置、言語提示方法、及び言語提示プログラムに関する。
特許文献1では、少なくとも2種類の言語による音声を入力し、入力された内容を認識し、認識された内容を異なる言語の内容に翻訳する音声翻訳装置が開示されている。この音声翻訳装置は、翻訳された内容を音声で出力するとともに、入力された音声のテキストと翻訳された内容のテキストとを画面上の互いに異なる向きに表示する。
国際公開第2017/086434号
本開示は、上述した従来の事情に鑑みて案出され、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムを提供することを目的とする。
本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザのうち少なくとも一方の発した第1の音声を取得する第1の取得部と、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得する第2の取得部と、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示する制御部と、を備える、言語提示装置を提供する。
また、本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する言語提示装置における言語提示方法であって、前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を有する、言語提示方法を提供する。
また、本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する、コンピュータである言語提示装置に、前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を実現させるための、言語提示プログラムを提供する。
また、本開示は、透明提示部と、ユーザの発した第1言語における第1の音声を取得する取得部と、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された第2の内容とを、お互いが左右方向に反転するように前記透明提示部に提示する制御部と、を備える、言語提示装置を提供する。
また、本開示は、透明提示部に接続されたコンピュータである言語提示装置に、ユーザの発した第1言語における第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された第2の内容と、を取得するステップと、取得された前記第1の音声の内容及び前記第2の内容を、お互いが左右方向に反転するように前記透明提示部に提示するステップと、を実現させるための、言語提示プログラムを提供する。
本開示によれば、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化できる。
実施の形態1に係る言語提示システムのシステム構成例を詳細に示すブロック図 ホスト及びゲストによる言語提示システムの使用例を示す説明図 時刻t1におけるホストの発言をトリガとした言語提示システムの動作概要の一例を示す説明図 図3のタイミング以降の時刻t2における言語提示システムの動作概要の一例を示す説明図 図4のタイミング以降の時刻t3における言語提示システムの動作概要の一例を示す説明図 時刻t3以降の時刻t4におけるゲストの発言をトリガとした言語提示システムの動作概要の一例を示す説明図 図6のタイミング以降の時刻t5における言語提示システムの動作概要の一例を示す説明図 実施の形態1に係る言語提示システムの動作手順の一例を詳細に説明するシーケンス図
(実施の形態1の内容に至る経緯)
上述した特許文献1の構成によれば、互いの言語を理解できない人同士の会話であっても、互いに画面を見ることで両者の円滑な会話を実現できる可能性はある。しかし、この特許文献1では、互いの言語を理解できない人同士の会話の途中に、両者とも相手の顔(例えば、目)から離れて音声翻訳装置の画面を見る必要があった。従って、会話中に互いに相手の目を見て会話することに日常的に慣れている人(例えば、日本に観光や仕事等で訪れた外国人)にとっては違和感を与えることになり、自然な感じでスムーズな会話を実現することが困難であるという課題があった。
そこで、以下の実施の形態1では、上述した従来の事情に鑑みて案出され、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムの例を説明する。
以下、添付図面を適宜参照しながら、本開示に係る言語提示装置、言語提示方法、及び言語提示プログラムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
以下、本開示に係る言語提示装置を含む言語提示システムのユースケースの一例として、受付等のカウンターに配置された透明スクリーンを挟んで、互いの言語を理解できないホスト及びゲストが互いに相手の顔を見ながら対面して行う会話に供する(言い換えると、会話を支援する)例を説明する(図2参照)。なお、以下の実施の形態は、言語提示システムのユーザとして、ホスト及びゲストの関係(つまり、サービスを提供する側と提供を受ける側との関係)が常に成り立たなくてよく、例えば互いに均等な立場の関係にあるユーザ同士の会話にも同様に適用されてよい。
図1は、実施の形態1に係る言語提示システム100のシステム構成例を詳細に示すブロック図である。図2は、ホストHST1及びゲストGST1による言語提示システム100の使用例を示す説明図である。図2に示すように、実施の形態1に係る言語提示システム100の利用者であって互いの言語(例えば母国語)を理解できないホストHST1及びゲストGST1は、カウンター等のテーブルTBL1上に固定的に設置された透明スクリーン30を挟んで互いの相手の顔を見ながら対面して会話を行う。
図1に示す言語提示システム100は、対面翻訳機10と、プロジェクタ20と、透明スクリーン30と、ボタンBT1と、スイッチSW1,SW2と、マイクMC1と、スピーカSP1と、翻訳サーバ50とを含む構成である。対面翻訳機10と翻訳サーバ50とは、有線もしくは無線の通信路を用いたネットワークNWを介して互いに通信可能に接続される。
言語提示装置の一例としての対面翻訳機10は、通信部11と、メモリ12と、制御部13と、記憶部14とを含む構成である。対面翻訳機10は、例えばサーバ装置もしくはPC(Personal Computer)等のコンピュータである情報処理装置を用いて構成され、例えばホストHST1及びゲストGST1がともに視認不可な位置(例えば、カウンター内(図示略)もしくはバックヤードの監視室(図示略)内)に配置される。対面翻訳機10は、透明スクリーン30を挟んで互いに対面して位置するホストHST1及びゲストGST1の会話を支援する。
通信部11は、翻訳サーバ50との間の通信に関する通信インターフェースとしての役割を有し、マイクMC1により収音された音声(後述参照)のデータ(以下、「発話音声データ」という)を、ネットワークNWを介して翻訳サーバ50に送信する。通信部11は、翻訳サーバ50から送信された翻訳テキストデータや翻訳音声データを、ネットワークNWを介して受信する。通信部11は、自ら取得したデータ又は情報をメモリ12に一時的に保存してよい。
メモリ12は、例えばRAM(Random Access Memory)とROM(Read Only Memory)とを用いて構成され、対面翻訳機10の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えば対面翻訳機10の動作時に使用されるワークメモリである。ROMは、例えば対面翻訳機10を制御するためのプログラム及びデータを予め記憶して保持する。
また、メモリ12は、ホストHST1が使用する言語(例えば日本語)に関する情報と、ゲストGST1が使用する言語(例えば英語)に関する情報とを対応付けて保持する。ホストHST1が使用する言語に関する情報は、例えばROMに予め記録されてもよいし、ホストHST1の操作(例えば、言語選択用のボタンBT1の押下)により設定された情報として都度メモリ12に記憶されてよい。ゲストGST1が使用する言語に関する情報は、ゲストGST1の操作(例えば、言語選択用のボタンBT1の押下)により設定された情報として都度メモリ12に記憶される。なお、図2では、透明スクリーン30に、ゲストGST1が使用する言語に関する情報が設定される状況が図示されている。例えば、ゲストGST1は、プロジェクタ20から透明スクリーン30に投影された言語の種類(例えば、英語、韓国語、中文(繁体字)、中文(簡体字))のうち、自己が使用するいずれか一つの言語を、ボタンBT1を短押ししながら切り替え、ボタンBT1の長押しによって自己の言語を選択する。ここでは、英語、韓国語、中文(繁体字)、中文(簡体字)が例示されているが、これらの言語に限定されず、例えばメモリ12に予め登録されている使用可能な言語情報に対応して透明スクリーン30に選択可能に提示されてよい。図2では、例えば英語(English)が選択肢として仮に選択された状態又は最終的に選択された状態を示すためにハイライト提示されている。この選択されたゲストGST1が使用する言語に関する情報は、ボタンBT1からのゲストGST1の操作に応じた信号が対面翻訳機10に入力されてメモリ12に登録される。なお、言語に関する情報の設定の仕方は、上述した例に限定されない。
また、メモリ12は、ホストHST1が発した音声(第1の音声の一例)の内容が文字認識された第1のテキストデータの透明スクリーン30における投影位置の情報(つまり、第1のテキストデータが透明スクリーン30に提示される高さの情報)を保持する。同様に、メモリ12は、ゲストGST1が発した音声(第2の音声の一例)の内容が文字認識された第2のテキストデータの透明スクリーン30における投影位置の情報(つまり、第2のテキストデータが透明スクリーン30に提示される高さの情報)を保持する。
制御部13は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)もしくはFPGA(Field Programmable Gate Array)を用いて構成されたプロセッサPRC1である。制御部13は、対面翻訳機10の動作を司るコントローラとして機能し、対面翻訳機10の各部の動作を全体的に統括するための制御処理、対面翻訳機10の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。制御部13は、メモリ12に記憶されたプログラム及びデータに従って動作する。制御部13は、動作時にメモリ12を使用し、制御部13が生成又は取得したデータ又は情報をメモリ12に一時的に保存してよい。制御部13の動作の詳細については、図8を参照して後述する。
記憶部14は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)を用いて構成された記録装置である。記憶部14は、例えば制御部13が生成又は取得したデータ又は情報を記憶する。なお、記憶部14は対面翻訳機10の構成から省略されてもよい。
透明提示部の一例としてのプロジェクタ20は、対面翻訳機10との間でデータもしくは情報の送受信が可能に接続される。プロジェクタ20は、透明スクリーン30に対向するように配置される。プロジェクタ20は、対面翻訳機10から送出された投影指示を含む投影画像のデータを受信して取得すると、その投影指示に基づき、その投影指示により指定された投影画像を透明スクリーン30に投影するための投影光(例えば可視光)を生成して透明スクリーン30に向けて投影する。これにより、プロジェクタ20は、対面翻訳機10により指定された投影画像(例えば、ホストHST1やゲストGST1の発した音声に対応するテキストデータ)を透明スクリーン30に投影可能となり、ホストHST1及びゲストGST1の会話を支援できる。
透明提示部の一例としての透明スクリーン30は、例えば透明なガラス板にプロジェクタ20からの投影光が映し出されるためのシートが貼り付けられた構成であり、固定的に設置される。透明スクリーン30は、プロジェクタ20からの投影光(例えば可視光)が投影されて、ホストHST1及びゲストGST1の会話を支援するための投影画像(例えば、ホストHST1やゲストGST1の発した音声に対応するテキストデータ)をホストHST1及びゲストGST1の両方に提示する。なお、透明スクリーン30は、必ずしもプロジェクタ20は必要ではなく、例えば透過率が約40%以上の透過性のあるディスプレイが好ましく、特に透過率70%以上であることが好ましい。また、上記のような透過性のある液晶ディスプレイや透過性のある有機ELディスプレイなどでもよい。
さらに、例えば透明モードとスクリーンモードとが交互に切り換え可能な透明スクリーン(例えば、下記参考非特許文献1参照)でよい。
(参考非特許文献1)
パナソニック株式会社、透明スクリーン、[online]、[平成30年1月22日検索]、インターネット<URL:https://panasonic.biz/cns/invc/screen/technology.html>
なお、実施の形態1において、プロジェクタ20及び透明スクリーン30の代わりに、透明提示部の一例として、対面翻訳機10からのデータもしくは情報の表示が可能であってホストHST1及びゲストGST1が直接にタッチ等の操作を検出可能な、透明のタッチパネルが設けられてもよい。
ボタンBT1は、ホストHST1やゲストGST1の使用する言語に関する情報を設定するために使用される言語選択用のボタンであり、例えば図2に示すように、テーブルTBL1上に載置された透明スクリーン30の円形基台の略中央部に押下可能に設けられる。図2の透明スクリーン30には、ゲストGST1のための言語選択用の投影画像が投影されており、ゲストGST1は、自己の使用する言語(例えば、ゲストGST1の母国語)を、ボタンBT1を押下することで選択等する。なお、ボタンBT1は、ゲストGST1が押下し易いように、ホストHST1が位置する側よりもゲストGST1が位置する側により近くに配置されてよいし(図2参照)、ホストHST1及びゲストGST1から略等距離の位置に配置されてもよい。
スイッチSW1は、ホストHST1が発言するタイミングを対面翻訳機10に指示するために、ホストHST1により押下されるスイッチである。言い換えると、スイッチSW1は、ホストHST1が発言する直前にホストHST1により押下される。これにより、対面翻訳機10は、スイッチSW1からの信号に基づいて、ホストHST1が発言したタイミングを認識可能である。
スイッチSW2は、ゲストGST1が発言を行うタイミングを対面翻訳機10に指示するために、ゲストGST1により押下されるスイッチである。言い換えると、スイッチSW2は、ゲストGST1が発言する直前にゲストGST1により押下される。これにより、対面翻訳機10は、スイッチSW2からの信号に基づいて、ゲストGST1が発言したタイミングを認識可能である。
マイクMC1は、交互に会話を行うホストHST1及びゲストGST1のうちいずれかが発した音声を収音し、収音された音声の信号を対面翻訳機10に送出する。なお、マイクMC1は、ホストHST1の音声よりゲストGST1の音声をより収音し易くするために、透明スクリーン30の基台のゲストGST1側に向くように配置されてよい。また、マイクMC1は、ホストHST1及びゲストGST1のそれぞれの音声を均等に収音するために、透明スクリーン30の基台のホストHST1側及びゲストGST1側の両方から等距離となるように配置されてよい。
スピーカSP1は、対面翻訳機10から出力された音声データの信号を入力して音声出力する。スピーカSP1に入力される音声データの信号は、例えば、ホストHST1の発した音声の音声データの信号、ゲストGST1の発した音声の音声データの信号、ホストHST1の発した音声の内容がゲストGST1に適した言語に翻訳された翻訳結果の音声の音声データ(つまり、翻訳音声データ)の信号、又は、ゲストGST1の発した音声の内容がホストHST1に適した言語に翻訳された翻訳結果の音声の音声データ(つまり、翻訳音声データ)の信号のうちいずれかである。
言語提示装置の一例としての翻訳サーバ50は、通信部51と、メモリ52と、翻訳制御部53と、記憶部54とを含む構成である。翻訳サーバ50は、例えばサーバ装置もしくはPC等のコンピュータである情報処理装置を用いて構成され、対面翻訳機10とネットワークNWを介して接続されるクラウドサーバである。翻訳サーバ50は、対面翻訳機10から音声データを受信して取得すると、その音声データに対応する音声を文字認識するとともに、その音声データを翻訳処理する。翻訳サーバ50は、文字認識結果であるテキストデータ(以下、「認識テキストデータ」という)、翻訳処理結果であるテキストデータ(以下、「翻訳テキストデータ」という)、翻訳処理結果である音声データ(以下、「翻訳音声データ」という)を対面翻訳機10に送信する。
通信部51は、対面翻訳機10との間の通信に関する通信インターフェースとしての役割を有し、上述した認識テキストデータ、翻訳テキストデータ、翻訳音声データを、ネットワークNWを介して対面翻訳機10に送信する。通信部11は、対面翻訳機10から送信された発話音声データを、ネットワークNWを介して受信する。通信部51は、自ら取得したデータ又は情報をメモリ52に一時的に保存してよい。
メモリ52は、例えばRAMとROMとを用いて構成され、翻訳サーバ50の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えば翻訳サーバ50の動作時に使用されるワークメモリである。ROMは、例えば翻訳サーバ50を制御するためのプログラム及びデータを予め記憶して保持する。
翻訳制御部53は、例えばCPU、MPU、DSPもしくはFPGAを用いて構成されたプロセッサPRC2である。翻訳制御部53は、翻訳サーバ50の動作を司るコントローラとして機能し、翻訳サーバ50の各部の動作を全体的に統括するための制御処理、翻訳サーバ50の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。翻訳制御部53は、メモリ52に記憶されたプログラム及びデータに従って動作する。翻訳制御部53は、動作時にメモリ52を使用し、翻訳制御部53が生成又は取得したデータ又は情報をメモリ52に一時的に保存してよい。翻訳制御部53の動作の詳細については、図8を参照して後述する。
記憶部54は、例えばHDD又はSSDを用いて構成された記録装置である。記憶部54は、例えば翻訳制御部53が生成又は取得したデータ又は情報を記憶する。また、記憶部54は、翻訳制御部53が認識テキストデータを翻訳処理する時に用いる辞書DB(database)を保持する。また、記憶部54は、翻訳制御部53が翻訳テキストデータに対応する音声データ(つまり、翻訳音声データ)を生成するために用いる音声DBを保持する。翻訳サーバ50は、例えばネットワークNWを介して接続された外部辞書サーバ(図示略)との間で定期的に通信することで、上述した辞書DBや音声DBそれぞれの内容を定期的に更新してよい。
次に、実施の形態1に係る言語提示システム100の動作概要について、図3から図7を参照して説明する。図3は、時刻t1におけるホストHST1の発言をトリガとした言語提示システム100の動作概要の一例を示す説明図である。図4は、図3のタイミング以降の時刻t2における言語提示システム100の動作概要の一例を示す説明図である。図5は、図4のタイミング以降の時刻t3における言語提示システム100の動作概要の一例を示す説明図である。図6は、時刻t3以降の時刻t4におけるゲストGST1の発言をトリガとした言語提示システム100の動作概要の一例を示す説明図である。図7は、図6のタイミング以降の時刻t5における言語提示システム100の動作概要の一例を示す説明図である。なお、図3〜図7では、例えばゲストGST1から見た視点が主方向となるように図示されている。
図3に示すように、時刻t=t1において、ホストHST1がスイッチSW1を押下して「浜離宮から大江戸線に乗って下さい」と発言したとする。対面翻訳機10は、マイクMC1においてホストHST1の発した「浜離宮から大江戸線に乗って下さい」の音声が収音されると、その音声のデータ(発話音声データ)をマイクMC1から取得して翻訳サーバ50に送信する。翻訳サーバ50は、対面翻訳機10から送信された発話音声データを文字認識処理し、その文字認識結果である認識テキストデータ(つまり、「浜離宮から大江戸線に乗って下さい」のテキストデータ)を生成して対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された認識テキストデータを受信して取得する。対面翻訳機10は、認識テキストデータHTX1を、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示する。
次に、図4に示すように、時刻t=t1以降の時刻t=t2において、翻訳サーバ50は、文字認識結果である認識テキストデータを、記憶部54内に記憶される辞書DBを参照して翻訳処理して翻訳テキストデータ(つまり、「Please get on the Oedo Line from the Hamarikyu」のテキストデータ)を生成する。また、時刻t=t2において、翻訳サーバ50は、翻訳テキストデータに対応する音声データ(翻訳音声データ)を生成する。翻訳サーバ50は、翻訳テキストデータ及び翻訳音声データを対応付けて対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する。対面翻訳機10は、翻訳テキストデータGLTX1を、認識テキストデータHTX1が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示する。また、対面翻訳機10は、時刻t=t2において、翻訳音声データをスピーカSP1から音声出力する。なお、翻訳サーバ50が翻訳テキストデータ及び翻訳音声データを生成するタイミングは時刻t2でなくその前の時刻t1でもよい。図4では、時刻t2において、対面翻訳機10は、少なくとも翻訳テキストデータGLTX1を、認識テキストデータHTX1が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示すればよい。
次に、図5に示すように、時刻t=t2以降の時刻t=t3において、対面翻訳機10は、時刻t=t2において透明スクリーン30上に投影されていた認識テキストデータHTX1の投影を翻訳テキストデータGLTX1の投影よりも早く停止するように、プロジェクタ20に認識テキストデータHTX1の投影停止を指示する。これにより、時刻t=t2より後の時刻t3においては、透明スクリーン30上にはゲストGST1に提示される翻訳テキストデータGLTX1が長く投影され続けることで、対面翻訳機10は、ホストHST1と比べてゲストGST1に対して一層親切な会話支援を行うことができる。
次に、時刻t=t3以降の時刻t=t4において、ゲストGST1がスイッチSW2を押下して「Thank you for letting me know」と発言したとする。対面翻訳機10は、マイクMC1においてゲストGST1の発した「Thank you for letting me know」の音声が収音されると、その音声のデータ(発話音声データ)をマイクMC1から取得して翻訳サーバ50に送信する。翻訳サーバ50は、対面翻訳機10から送信された発話音声データを文字認識処理し、その文字認識結果である認識テキストデータ(つまり、「Thank you for letting me know」のテキストデータ)を生成して対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された認識テキストデータを受信して取得する。対面翻訳機10は、認識テキストデータGLTX2を、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示する。
次に、図7に示すように、時刻t=t4以降の時刻t=t5において、翻訳サーバ50は、文字認識結果である認識テキストデータを、記憶部54内に記憶される辞書DBを参照して翻訳処理して翻訳テキストデータ(つまり、「教えてくれてありがとう」のテキストデータ)を生成する。また、時刻t=t5において、翻訳サーバ50は、翻訳テキストデータに対応する音声データ(翻訳音声データ)を生成する。翻訳サーバ50は、翻訳テキストデータ及び翻訳音声データを対応付けて対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する。対面翻訳機10は、翻訳テキストデータHLTX2を、認識テキストデータGLTX2が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示する。また、対面翻訳機10は、時刻t=t5において、翻訳音声データをスピーカSP1から音声出力する。なお、翻訳サーバ50が翻訳テキストデータ及び翻訳音声データを生成するタイミングは時刻t5でなくその前の時刻t4でもよい。図7では、時刻t5において、対面翻訳機10は、少なくとも翻訳テキストデータHLTX2を、認識テキストデータGLTX2が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示すればよい。
次に、実施の形態1に係る言語提示システム100の動作手順について、図8を参照して説明する。図8は、実施の形態1に係る言語提示システム100の動作手順の一例を詳細に説明するシーケンス図である。図8の説明の前提として、言語提示システム100の利用者であるホストHST1(第1のユーザの一例)が使用する言語(例えば、日本語)に関する情報と、ゲストGST1(第2のユーザの一例)が使用する言語(例えば、英語)に関する情報とは対面翻訳機10及び翻訳サーバ50において既知とする。また、図8に示す動作手順は、ホストHST1及びゲストGST1のいずれが先に発言するかを問わない。
図8において、会話の発言を行うホストHST1又はゲストGST1は、スイッチSW1又はスイッチSW2を押下する。この押下された旨の信号は、対面翻訳機10の通信部11を介して制御部13により入力される。マイクMC1は、ホストHST1又はゲストGST1が発した音声の音声データを収音する(S1)。
対面翻訳機10の制御部13(第1の取得部の一例)は、ステップS1においてマイクMC1により収音された音声(第1の音声の一例)の音声データを、通信部11を介して入力して取得する(S11)。対面翻訳機10の制御部13は、ステップS11の時点の直前にどのスイッチが押下されたかを認識できるので、ステップS11の時点で取得された音声データがホストHST1又はゲストGST1のいずれにより発言されたのかを把握できる。なお、対面翻訳機10の制御部13は、ホストHST1及びゲストGST1がどの言語を使用するかを予め認識しているので、例えば発話音声データを用いた公知の言語推定処理を実行することで発話音声データの言語を推定し、ホストHST1が発言したのかゲストGST1が発言したのかを推測してもよい。
対面翻訳機10の通信部11は、ステップS11において取得された音声データ(つまり、発話音声データ)を翻訳サーバ50に送信する(S12)。なお、ホストHST1が使用する言語(例えば、日本語)に関する情報並びにゲストGST1が使用する言語(例えば、英語)に関する情報を翻訳サーバ50の翻訳制御部53が認識していない設定である場合、例えば、対面翻訳機10の通信部11は、発話音声データとともに、ホストHST1及びゲストGST1がそれぞれ使用する言語に関する情報を翻訳サーバ50に送信してよい。これにより、翻訳サーバ50の翻訳制御部53は、ステップS12の時点で対面翻訳機10から送信された言語に関する情報に基づいて、いずれの言語からいずれの言語に翻訳すればよいかを認識できる。
翻訳サーバ50の翻訳制御部53は、ステップS12において対面翻訳機10から送信された発話音声データを受信して取得し、その発話音声データを用いて公知の文字認識処理を実行する(S21)。翻訳サーバ50の翻訳制御部53は、ステップS21の文字認識結果を用いて、発話音声データの内容が文字認識処理された認識テキストデータを生成する(S22)。翻訳サーバ50の通信部51は、ステップS22において生成された認識テキストデータを対面翻訳機10に送信する(S23)。
また、翻訳サーバ50の翻訳制御部53は、ステップS21の文字認識結果を用いて、記憶部54に記憶される辞書DBを参照してホストHST1又はゲストGST1に適した言語に翻訳処理することで、翻訳テキストデータを生成する(S24)。更に、翻訳サーバ50の翻訳制御部53は、記憶部54に記憶される音声DBを参照してホストHST1又はゲストGST1に適した、翻訳テキストデータ内のそれぞれのテキストデータ(例えば単語、文章)に対応する音声データを繋ぎ合わせた翻訳音声データを生成する(S24)。翻訳サーバ50の通信部51は、ステップS24において生成された翻訳テキストデータ及び翻訳音声データの両方を対面翻訳機10に送信する(S25)。
翻訳サーバ50の翻訳制御部53は、ステップS21の処理を実行した後、ステップS22,S23の処理とステップS24,S25の処理とを並列に実行してもよいし、ステップS22,S23,S24,S25の順に実行してもよい。
なお、図8ではステップS21〜S25のそれぞれの処理が対面翻訳機10とは異なる外部のサーバ(つまり、翻訳サーバ50)により実行される旨を説明しているが、実施の形態1において、ステップS21〜S25のそれぞれの処理のうち一部の処理又は全部の処理は例えば対面翻訳機10において実行されても構わない。これにより、言語提示システム100のシステム構成のうち、翻訳サーバ50の構成を省略できたり、又は翻訳サーバ50の処理量を軽減可能となったりできる。従って、言語提示システム100は、対面翻訳機10と翻訳サーバ50との間のネットワークNWを介したデータの通信量を低減でき、又は対面翻訳機10単独において図8に示す処理を完結できるので、ホストHST1とゲストGST1との会話の迅速な反応性を効果的に支援できる。
対面翻訳機10の通信部11(第2の取得部の一例)は、ステップS23において翻訳サーバ50から送信された認識テキストデータを受信して取得する(S13)。対面翻訳機10の制御部13は、その認識テキストデータを透明スクリーン30に投影するための第1の投影指示を生成し、その認識テキストデータを含む第1の投影指示を、通信部11を介してプロジェクタ20に送信する(S13)。プロジェクタ20は、対面翻訳機10からの第1の投影指示に基づいて、ホストHST1やゲストGST1に視認可能に認識テキストデータを透明スクリーン30に投影する(S2)。
また、対面翻訳機10の通信部11(第2の取得部の一例)は、ステップS25において翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する(S14)。翻訳テキストデータは、発話音声データの音声の内容がホストHST1又はゲストGST1に適した言語に翻訳された音声(第2の音声の一例)の内容を示す。翻訳音声データは、翻訳テキストデータを構成するそれぞれの単語に対応する音声データが連結されて構成された音声データである。対面翻訳機10の制御部13は、その翻訳音声データをスピーカSP1に出力することで、翻訳音声データの内容である翻訳音声をスピーカSP1から音声出力させてホストHST1又はゲストGST1に提示する(S3)。
また、対面翻訳機10の制御部13は、認識テキストデータの透明スクリーン30上における向きとは左右方向に反転した状態で翻訳テキストデータが投影されるための第2の投影指示を生成し、翻訳テキストデータを含む第2の投影指示を、通信部11を介してプロジェクタ20に送信する(S15)。プロジェクタ20は、対面翻訳機10からの第2の投影指示に基づいて、ホストHST1やゲストGST1に視認可能に翻訳テキストデータを透明スクリーン30に投影する(S4)。
以上により、実施の形態1の言語提示システム100では、対面翻訳機10は、透明スクリーン30を挟んで互いに対面して位置するホストHST1とゲストGST1のうち少なくとも一方の発した発話音声データを取得する。対面翻訳機10は、取得された発話音声データの音声の内容と、発話音声データの音声の内容がホストHST1又はゲストGST1に適した言語に翻訳された翻訳音声データの音声の内容とを取得する。対面翻訳機10は、取得された発話音声データの音声の内容及び翻訳音声データの音声の内容を、いずれか一方を左右方向に反転して透明スクリーン30に提示する。
これにより、言語提示システム100によれば、例えばホストHST1及びゲストGST1のように、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示できるので、互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化できる。
また、対面翻訳機10は、発話音声データの音声の内容が文字認識された認識テキストデータ(第1のテキストデータの一例)を第1の音声の内容として取得し、認識テキストデータがホストHST1又はゲストGST1に適する言語に翻訳された翻訳テキストデータ(第2のテキストデータの一例)を翻訳内容として取得する。これにより、対面翻訳機10は、ホストHST1又はゲストGST1の発言した会話の内容をテキストデータとして透明スクリーン30に的確に提示できるので、例えばテレビジョン放送におけるテロップ(つまり、字幕)のように会話の理解を効果的に促すことができる。
また、対面翻訳機10は、発話音声データの内容がホストHST1又はゲストGST1に適した言語に翻訳された第2の音声の音声データ(例えば、翻訳音声データ)を翻訳内容として更に取得する。これにより、対面翻訳機10は、テキストだけでなく音声出力でも相手に伝えることで、ホストHST1又はゲストGST1の発言した会話が相手の理解可能な言語に翻訳された音声を相手に効果的に伝えることができ、相手の理解の一助として会話内容の迅速な理解を支援できる。
また、対面翻訳機10は、発話音声データの音声の内容を、第1の色(例えば、水色)で塗り潰された第1の形状枠(例えば、矩形状の枠)からの抜き文字として透明スクリーン30に提示可能にプロジェクタ20に投影指示する。抜き文字とは、例えば水色で全て塗りつぶされた矩形状枠から、文字の部分だけ切り抜かれて浮き出てホストHST1が視認可能となる文字であり、後述する枠文字に比べると認識し易くはない。一方、対面翻訳機10は、翻訳テキストデータの音声の内容を、透明色の第2の形状枠(例えば、矩形状の枠)内に第2の色(例えば、白)を付与した枠文字として透明スクリーン30に提示可能にプロジェクタ20に投影指示する。枠文字とは、例えば背景が透明色で白色の矩形状枠内に、文字の部分だけ白が付与されてゲストGST1が視認可能となる文字であり、上述した抜き文字に比べると認識し易い。これにより、対面翻訳機10は、例えばホストHST1には抜き文字として自身の発言した内容のテキストを確認的に提示すればよく、一方で、ゲストGST1には枠文字として抜き文字に比べてゲストGST1にとって視認性の良好なテキストを提示可能となるので、互いの理解可能なテキストデータの認識の混同を避けるように、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
また、透明提示部の一例として、プロジェクタ20及び透明スクリーン30の代わりに、ホストHST1及びゲストGST1がそれぞれ操作可能なタッチパネル(図示略)により構成されてよい。対面翻訳機10は、ホストHST1及びゲストGST1によりそれぞれタッチパネルに指定された、第1の提示位置及び第2の提示位置に基づいて、認識テキストデータ(第1の音声の内容の一例)を第1の提示位置に提示するとともに、翻訳テキストデータ(翻訳内容の一例)を第2の提示位置に提示する。これにより、対面翻訳機10は、ホストHST1及びゲストGST1の双方がそれぞれ指定したタッチパネル上の任意の位置に認識テキストデータや翻訳テキストデータを表示(提示)でき、ホストHST1及びゲストGST1が相手の顔を見易く、かつ例えば目線の少し下程度の位置等、実際の会話時において互いに視認し易い位置にそれぞれの言語に対応したテキストデータを提示できる。
また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を認識テキストデータ(第1の音声の内容の一例)より上部となるように、認識テキストデータ及び翻訳テキストデータのそれぞれの内容を透明スクリーン30に提示する。これにより、対面翻訳機10は、例えばホストHST1よりもゲストGST1の方を優先して、翻訳テキストデータをゲストGST1が見易い透明スクリーン30の上部側の位置に提示でき、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を認識テキストデータ(第1の音声の内容の一例)より時間的に長く透明スクリーン30に提示する。これにより、対面翻訳機10は、例えばホストHST1よりもゲストGST1の方を優先して、ゲストGST1が視認する翻訳テキストデータを、ホストHST1が確認的に視認する認識テキストデータよりも時間的に長く透明スクリーン30上に提示できるので、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を、認識率の高い所定色(例えば、白色)を付与して透明スクリーン30に提示する。これにより、対面翻訳機10は、透明スクリーン30に投影された所定色(例えば、白色)の翻訳テキストデータをゲストGST1に視認させるので、ゲストGST1の翻訳テキストデータの内容の理解を迅速に行わせることができる。
また、透明提示部の一例として、透明スクリーン30とプロジェクタ20とにより構成される。対面翻訳機10は、認識テキストデータ(第1の音声の内容の一例)及び翻訳テキストデータ(翻訳内容の一例)を透明スクリーン30への投影指示をプロジェクタ20に送出する。これにより、対面翻訳機10は、プロジェクタ20を介して、ホストHST1の発言した認識テキストデータやゲストGST1に適した翻訳テキストデータを透明スクリーン30上に簡易に提示できる。
また、透明提示部の一例として、ホストHST1及びゲストGST1がそれぞれ操作可能なタッチパネル(図示略)により構成される。対面翻訳機10は、認識テキストデータ(第1の音声の内容の一例)及び翻訳テキストデータ(翻訳内容の一例)を表示するようにタッチパネルに送出する。これにより、プロジェクタ20や透明スクリーンが配備されていなくても、対面翻訳機10は、ホストHST1及びゲストGST1がタッチパネルを挟んで対面した状態でタッチパネルに表示された認識テキストデータや翻訳テキストデータを確認できるので、自然な感じの会話を効果的に実現可能となる。
また、実施の形態1では、透明スクリーン30に投影される各種のテキストデータ(具体的には、認識テキストデータ、翻訳テキストデータ)の大きさはプロジェクタ20により指定され、その大きさは例えば対面翻訳機10からの投影指示に含まれてよい。これにより、対面翻訳機10は、例えばホストHST1やゲストGST1の操作により指定された年代に合わせて、透明スクリーン30に提示されるテキストデータの大きさを柔軟に変更可能である。
また、実施の形態1では、透明提示部の一例として透明スクリーン30が配備される。従って、例えば高級感の演出が可能な場所(例えば、デパートの化粧品売り場やプレミアム列車の受付)に透明スクリーン30が配置されることで、特別な顧客(例えば、ゲストGST1)に対するおもてなしを行う際のサービスツールとして言語提示システム100の利用が可能となる。
また、実施の形態1の言語提示システム100では、対面翻訳機10の制御部13(取得部の一例)は、透明スクリーン30(透明提示部の一例)と、ホストHST1又はゲストGST1(ユーザの一例)の発した第1言語(例えば、日本語)における第1の音声(例えば、発話音声データに含まれる音声)を取得する。対面翻訳機10の制御部13は、取得された第1の音声の内容と、第1の音声の内容が第1言語とは異なる第2言語(例えば、英語)に翻訳された翻訳内容とを、お互いが左右方向に反転するようにプロジェクタ20を介して又は直接に、透明スクリーン30に提示する。
これにより、対面翻訳機10は、ユーザ(例えば、日本語を話すホストHST1)の発言した第1言語(例えば、日本語)の音声の内容と、その音声の内容が他のユーザ(例えば、英語を話すゲストGST1)に適した第2言語(例えば、英語)に翻訳された翻訳内容とをそれぞれ左右方向に反転して透明スクリーン30に提示できる。従って、例えば互いに言語を理解できない人同士が会話する場合に、自己の言語及び相手の言語を、透明スクリーン30を介して相手の顔が見えながら確認可能となるので、自然な感じでスムーズな会話の実現を簡易化できる。
以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
なお、実施の形態1に係る言語提示システム100において、透明スクリーン30が配置されるテーブルTBL1は図2に示したカウンター上に載置されることに限定されず、例えば人が把持して移動可能なスタンド付きポールに接続されたテーブル(図示略)であってもよい。これにより、特定の限定された位置にホストHST1やゲストGST1が立ち寄って会話することに留まらず、透明スクリーン30のモビリティ性を向上できてホストHST1やゲストGST1の会話場所を任意に変更可能となる。
なお、上述した実施の形態1では、ホストHST1及びゲストGST1が受付等のカウンターに配置された透明スクリーンを挟んで対面して会話する例を説明したが、透明スクリーンが配置される場所は、受付等のカウンターに限定されず、例えばタクシー、飲食店、会議室、駅の案内所等でも構わない。例えば、タクシー内の運転席と後部座席との間の透明ガラスを透明スクリーン30として利用可能であるし、飲食店や会議室や駅の案内所では対面して会話する人同士の間に透明スクリーン30が配備されてよい。
また、上述した実施の形態1に係る言語提示システム100は、いわゆるタッチパネル等に互いの言語のテキストデータが表示される指差し翻訳においても適用可能である。
なお、本出願は、2018年1月30日出願の日本特許出願(特願2018−013415)に基づくものであり、その内容は本出願の中に参照として援用される。
本開示は、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムとして有用である。
10 対面翻訳機
11、51 通信部
12、52 メモリ
13 制御部
14、54 記憶部
20 プロジェクタ
30 透明スクリーン
53 翻訳制御部
MC1 マイク
NW ネットワーク
PRC1,PRC2 プロセッサ
SP1 スピーカ
SW1、SW2 スイッチ
100 言語提示システム

Claims (14)

  1. 透明提示部を挟んで位置する第1のユーザと第2のユーザのうち少なくとも一方の発した第1の音声を取得する第1の取得部と、
    取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得する第2の取得部と、
    取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示する制御部と、を備える、
    言語提示装置。
  2. 前記第2の取得部は、
    前記第1の音声の内容が文字認識された第1のテキストデータを前記第1の音声の内容として取得し、
    前記第1のテキストデータが前記言語に翻訳された第2のテキストデータを前記翻訳内容として取得する、
    請求項1に記載の言語提示装置。
  3. 前記第2の取得部は、
    前記第1の音声の内容が前記言語に翻訳された前記翻訳内容の音声データを更に取得する、
    請求項1に記載の言語提示装置。
  4. 前記制御部は、
    前記第1の音声の内容を、第1の色で塗り潰された第1の形状枠からの抜き文字として前記透明提示部に提示し、
    前記翻訳内容を、透明色の第2の形状枠内に第2の色を付与した枠文字として前記透明提示部に提示する、
    請求項1に記載の言語提示装置。
  5. 前記透明提示部は、
    前記第1のユーザ及び前記第2のユーザがそれぞれ操作可能なタッチパネルにより構成され、
    前記制御部は、
    前記第1のユーザ及び前記第2のユーザによりそれぞれ前記タッチパネルに指定された、第1の提示位置及び第2の提示位置に基づいて、前記第1の音声の内容を前記第1の提示位置に提示するとともに、前記翻訳内容を前記第2の提示位置に提示する、
    請求項1に記載の言語提示装置。
  6. 前記制御部は、
    前記翻訳内容を前記第1の音声の内容より上部となるように、前記第1の音声の内容及び前記翻訳内容をそれぞれ前記透明提示部に提示する、
    請求項1に記載の言語提示装置。
  7. 前記制御部は、
    前記翻訳内容を前記第1の音声の内容より長く前記透明提示部に提示する、
    請求項1に記載の言語提示装置。
  8. 前記制御部は、
    前記翻訳内容を、認識率の高い所定色を付与して前記透明提示部に提示する、
    請求項1に記載の言語提示装置。
  9. 前記透明提示部は、
    透明スクリーンとプロジェクタとにより構成され、
    前記制御部は、
    前記第1の音声の内容及び前記翻訳内容の前記透明スクリーンへの投影指示を前記プロジェクタに送出する、
    請求項1に記載の言語提示装置。
  10. 前記透明提示部は、
    前記第1のユーザ及び前記第2のユーザがそれぞれ操作可能なタッチパネルにより構成され、
    前記制御部は、
    前記第1の音声の内容及び前記翻訳内容を表示するように前記タッチパネルに送出する、
    請求項1に記載の言語提示装置。
  11. 透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する言語提示装置における言語提示方法であって、
    前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、
    取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、
    取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を有する、
    言語提示方法。
  12. 透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する、コンピュータである言語提示装置に、
    前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、
    取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、
    取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を実現させるための、
    言語提示プログラム。
  13. 透明提示部と、
    ユーザの発した第1言語における第1の音声を取得する取得部と、
    取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された翻訳内容とを、お互いが左右方向に反転するように前記透明提示部に提示する制御部と、を備える、
    言語提示装置。
  14. 透明提示部に接続されたコンピュータである言語提示装置に、
    ユーザの発した第1言語における第1の音声を取得するステップと、
    取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された翻訳内容と、を取得するステップと、
    取得された前記第1の音声の内容及び前記翻訳内容を、お互いが左右方向に反転するように前記透明提示部に提示するステップと、を実現させるための、
    言語提示プログラム。
JP2019569004A 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム Pending JPWO2019150996A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018013415 2018-01-30
JP2018013415 2018-01-30
PCT/JP2019/001554 WO2019150996A1 (ja) 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム

Publications (1)

Publication Number Publication Date
JPWO2019150996A1 true JPWO2019150996A1 (ja) 2021-02-25

Family

ID=67478088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019569004A Pending JPWO2019150996A1 (ja) 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム

Country Status (5)

Country Link
US (1) US20200372902A1 (ja)
JP (1) JPWO2019150996A1 (ja)
CN (1) CN111684410A (ja)
SG (1) SG11202007315UA (ja)
WO (1) WO2019150996A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021005157A (ja) * 2019-06-25 2021-01-14 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置および画像処理方法
EP3968259A1 (en) * 2020-09-15 2022-03-16 Hyosung Tns Inc. Digital desk and image control method using same
CN112822468B (zh) * 2020-12-31 2023-02-17 成都极米科技股份有限公司 一种投影控制方法、装置、投影设备及激光控制器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318031B2 (en) * 2001-05-09 2008-01-08 International Business Machines Corporation Apparatus, system and method for providing speech recognition assist in call handover
IL159677A0 (en) * 2001-07-06 2004-06-20 Explay Ltd An image projecting device and method
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
EP2708183B1 (en) * 2012-09-17 2020-02-26 Université de Montréal Method for measuring the visually-induced postural instability of a person
JP6178198B2 (ja) * 2013-09-30 2017-08-09 株式会社東芝 音声翻訳システム、方法およびプログラム
EP3242162B1 (en) * 2014-12-29 2021-05-05 Arc Co., Ltd. Transparent screen and method for manufacturing transparent screen
KR20170056841A (ko) * 2015-11-16 2017-05-24 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
WO2017163284A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 翻訳装置
US9785632B1 (en) * 2016-05-12 2017-10-10 Xevo Inc. Beacon-based translation for smart signs
US10627911B2 (en) * 2017-04-25 2020-04-21 International Business Machines Corporation Remote interaction with content of a transparent display
TW201843604A (zh) * 2017-05-03 2018-12-16 捷音特科技股份有限公司 互動翻譯系統

Also Published As

Publication number Publication date
SG11202007315UA (en) 2020-08-28
US20200372902A1 (en) 2020-11-26
CN111684410A (zh) 2020-09-18
WO2019150996A1 (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
CN108063820B (zh) 一种云会议的投屏同步方法
JP6646817B2 (ja) 翻訳装置および翻訳方法
JPWO2019150996A1 (ja) 言語提示装置、言語提示方法、及び言語提示プログラム
US20170272784A1 (en) Live video broadcasting method and device
TWI660304B (zh) 虛擬實境即時導覽方法及系統
JP6179834B1 (ja) テレビ会議装置
US20200026764A1 (en) Method of video call
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
TWI716885B (zh) 即時外語溝通系統
JP2019533181A (ja) 通訳装置及び方法(device and method of translating a language)
CN113890932A (zh) 一种音频控制方法、系统及电子设备
US20060074624A1 (en) Sign language video presentation device , sign language video i/o device , and sign language interpretation system
CA2499154A1 (en) A videophone sign language conversation assistance device and a sign language interpretation system using the same
US20210304743A1 (en) Voice assistant management
JP2021150946A (ja) ワイヤレスイヤホンデバイスとその使用方法
US20060187336A1 (en) System, method and computer program product for distributed moderation of theatrical productions
KR20140000570U (ko) 안경형 원격 제어 장치
JP6980150B1 (ja) 3次元仮想現実空間提供サーバ、3次元仮想現実空間提供方法、3次元仮想現実空間提供プログラム、3次元仮想現実空間表示制御装置、3次元仮想現実空間表示制御方法、3次元仮想現実空間表示制御プログラムおよび3次元仮想現実空間提供システム
CN107113361B (zh) 用于会议系统的中央单元
CN203368454U (zh) 可视语音控制器、无线通讯系统
JP2010213127A (ja) コールセンター応対システム
TWI660305B (zh) 虛擬實境即時導覽方法及系統
JP2016062026A (ja) 作業工程学習支援システム
WO2022113189A1 (ja) 音声翻訳処理装置
WO2022038928A1 (ja) コミュニケーションシステム