WO2017183127A1

WO2017183127A1 - 表示装置、出力装置、および情報表示方法

Info

Publication number: WO2017183127A1
Application number: PCT/JP2016/062473
Authority: WO
Inventors: 甲　展明; 慶華孫; 孝志松原
Original assignee: 日立マクセル株式会社
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2017-10-26
Also published as: JPWO2017183127A1; JP6802264B2

Abstract

翻訳が伴うプレゼンテーションにおいて、的確なスライド送りを行うことにより、円滑なプレゼンテーションを行う。映像を表示する表示装置は、表示部２３４、音声入力部２３６、および制御部を有する。制御部は、音声要素抽出部２３７、音声要素抽出部２３７、および翻訳音声生成部２３９よりなる。表示部２３４は、表示する映像を出力する。音声入力部２３６は、音声信号が入力される。制御部は、音声入力部２３６に入力された音声信号から音声を抽出して出力し、その音声を翻訳した翻訳音声信号を翻訳音声として再生する。また、制御部は、該翻訳音声を再生している期間、表示部２３４が表示する映像の切り換えを保留する。

Description

表示装置、出力装置、および情報表示方法

　本発明は、表示装置、出力装置、および情報表示方法に関し、特に、翻訳が必要なプレゼンテーションにおけるスライドの切り換えに有効な技術に関する。

　会議や発表会などのプレゼンテーションにおいては、話者が表示装置などによってスライドを表示しながら説明を行うことが広く行われている。２カ国語などによるプレゼンテーションを行う場合には、第１の言語による説明の後、該第１の言語を翻訳した第２の言語をスピーカまたはヘッドホンなどによって流すことが行われている。

　例えば日本語と英語とによるプレゼンテーションでは、話者が日本語によってスライドの説明を行った後に、その説明を英語に翻訳した音声がスピーカから流される。そして、英語による音声が終了すると、話者はスライド送りを指示して、次のスライドが表示される。また、ヘッドホンの場合には、話者による日本語の説明中に、翻訳された英語の音声がヘッドホンから流される。

　この種のプレゼンテーション技術については、例えばプレゼンテーションにおける音声データとポインタ軌跡とを記録し、再生時の音声データとポインタ軌跡との同期ずれを低減するものがある（例えば特許文献１）。

特開２００９－１５７６７７号公報

　しかしながら、上述した２カ国語のプレゼンテーション技術では、話者が翻訳音声を理解できない場合に翻訳音声終了のタイミングがわからなくなってしまうことがある。そのため、翻訳音声終了前にスライド送り指示が出される、あるいは翻訳音声終了後に間をおいてスライド送り指示が出されるといった事態が発生してしまい、円滑なスライド送り、言い換えれば円滑なプレゼンテーションができないと言った問題がある。

　また、話者がスライド説明中にヘッドホンで翻訳を流す場合でも、話者は翻訳音声の終了タイミングがわからず、上記と同様に円滑なスライド送りができないという課題がある。

　本発明の目的は、翻訳が伴うプレゼンテーションにおいて、的確なスライド送りを行うことにより、円滑なプレゼンテーションを行うことのできる技術を提供することにある。

　本発明の前記ならびにその他の目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。

　本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。

　すなわち、代表的な表示装置は、映像出力部、音声入力部、および制御部を有する。映像出力部は、表示する映像を出力する。音声入力部は、音声信号が入力される。制御部は、音声入力部に入力された音声信号から音声を抽出して出力し、音声を翻訳した翻訳音声信号を翻訳音声として再生する。そして、制御部は、該翻訳音声を再生している期間、映像出力部が表示する映像の切り換えを保留する。

　また、制御部は、認識信号に基づいて、音声入力部に入力された音声信号から音声を抽出する。認識信号は、外部から入力され、映像に対する翻訳前の説明が終了したことを示す信号である。

　特に、制御部は、翻訳音声を再生している期間、映像出力部から出力される映像に翻訳音声が再生されていることを示す表示記号を付加して表示する。

　本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

　円滑なプレゼンテーションを実現することができる。

実施の形態１による映像表示システムにおける構成の一例を示す説明図である。図１の映像表示システムが有する投射装置および翻訳サーバにおける構成の一例を示すブロック図である。図１の映像表示システムによる動作および話者操作の一例を示す説明図である。実施の形態による映像表示システムにおける構成の一例を示す説明図である。図４の映像表示システムによる動作および話者操作の一例を示す説明図である。実施の形態３による映像表示システムが有する投射装置および翻訳サーバにおける構成の一例を示すブロック図である。図６の映像表示システムによる動作および話者操作の一例を示す説明図である。実施の形態４による図６の映像表示システムにおける動作および話者操作の一例を示す説明図である。実施の形態５によるスライド画面の表示の一例を示す説明図である。図９のポインタ位置を翻訳した語順に合わせて変更する機能を有する映像表示システムの一例を示す説明図である。実施の形態６による映像表示システムにおける構成の一例を示す説明図である。図１１の映像表示システムが有する携帯機器における構成の一例を示す説明図である。実施の形態７による映像表示システムにおける構成の一例を示す説明図である。

　以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。

　また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

　さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。

　同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

　また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。なお、図面をわかりやすくするために平面図であってもハッチングを付す場合がある。

　〈表示システムの構成例〉
　以下、実施の形態を詳細に説明する。

　図１は、本実施の形態１による映像表示システムにおける構成の一例を示す説明図である。

　映像表示システムは、２カ国語などによるプレゼンテーションを行う翻訳プレゼンテーションをシステムである。映像表示システムは、話者の音声を異なる言語に翻訳して再生する。

　翻訳音声の再生中は、画像のスライド送りを保留させ、翻訳音声の再生終了後には、スライド送りを行う。そして、話者に翻訳音声終了を知らせて、次のスライド説明を開始する。

　この映像表示システムは、図１に示すように、映像源１２、投射装置１３、操作器１６、マイク１７、スピーカ１８、および翻訳サーバ２０を有する。

　映像源１２は、例えばパーソナルコンピュータなどであり、プレゼンテーション用などの映像信号を出力する。マイク１７は、話者の音声を集音して投射装置１３に送信する。マイク１７と投射装置１３とは、無線接続あるいは有線接続のいずれであってもよい。

　投射装置１３は、映像源１２から出力される映像信号をスクリーン１５に投射表示するとともに、マイク１７から送信された話者の音声をスピーカ１８にて再生する。

　また、投射装置１３は、インターネットや通信回線などのネットワーク１９に接続されており、マイク１７から送信された話者の音声要素を抽出して該ネットワーク１９を経由して翻訳サーバ２０に送信する。翻訳サーバ２０は、ネットワーク１９を経由して送信された音声を予め指定された言語に翻訳する。

　翻訳サーバ２０によって翻訳された翻訳データは、ネットワーク１９を経由して投射装置１３に送信される。投射装置１３は、翻訳サーバ２０から受け取った翻訳データを音声信号に変換してスピーカ１８に出力することによって再生させる。

　操作器１６は、話者によって説明がされている期間を示す話者音声期間を指示する。話者音声期間の指示は、例えば操作器１６に設けられたボタンなどを操作することによって行われる。このボタンを操作することによって、認識信号が生成される。

　この認識信号に基づいて、話者音声の翻訳対象期間を認識することができる。認識信号に基づいた翻訳対象期間の認識は、図２の音認期間指示部２３５により行われる。これにより、翻訳前の説明が終了したことを認識することができる。

　また、認識信号によって、抽出した音声要素を翻訳サーバ２０に送信するタイミングを判定することができる。認識信号の生成は、音声認識やジェスチャー入力などであってもよい。また、それらを組み合わせてもよい。操作器１６と投射装置１３とは、無線接続あるいは有線接続のいずれであってもよい。

　例えば、ボタン操作やジェスチャーにて概略タイミングを決めた後、話者音声を最初に検出した時から、ボタン操作やジェスチャー入力前に話者音声を最後に検出した時までを話者音声の翻訳対象期間とする。これにより、翻訳言語再生時間の時間を短縮することができる。

　操作器１６は、ミュート入力を設けてもよい。このミュート入力によって、話者の音声の中から翻訳対象としない音声部分を指示することができる。これによって、原語と翻訳言語とを交互に流すことで１言語に比べて２倍近い時間がかかるプレゼンテーション時間を短縮することができる。

　さらに　操作器１６は、スクリーン１５に投射された映像の説明場所を指し示すレーザポインタの機能を合わせ持ってもよい。操作器１６は、電子ポインタとして、ポインタ位置を映像源１２や投射装置１３へ送り、ポインタを映像に重畳表示させる機能をもたせてもよい。

　〈投射装置および翻訳サーバの構成例〉
　図２は、図１の映像表示システムが有する投射装置１３および翻訳サーバ２０における構成の一例を示すブロック図である。

　投射装置１３は、通信部２３１，２３４，２３８、映像入力部２３２、表示部２４１、音認期間指示部２３５、音声入力部２３６、音声要素抽出部２３７、翻訳音声再生部２３９、および音声切り換え部２４０を有する。

　映像入力部２３２には、映像源１２から出力される映像信号が入力される。映像出力部である表示部２４１は、映像入力部２３２から入力される映像信号を図１のスクリーン１５に投射表示する。

　音声入力部２３６は、マイク１７が集めた話者音声を受信する。音声切り換え部２４０は、後述する翻訳再生タイミング信号に基づいて、音声入力部２３６が受信した話者音声または翻訳音声再生部２３９が再生する翻訳音声のいずれかをスピーカ１８にて再生するように出力する。

　制御部を構成する音声要素抽出部２３７は、音声入力部２３６に入力された話者音声の音声要素を抽出する。通信部２３８は、ネットワーク１９を介して翻訳サーバ２０との通信を行う。音声要素抽出部２３７が抽出した音声要素は、音声認識のために通信部２３８からネットワーク１９を経由して翻訳サーバ２０に送信される。

　通信部２３１は、操作器１６との通信を行う。操作器１６による話者音声期間の指示は、通信部２３１を経由して音認期間指示部２３５に伝えられる。音認期間指示部２３５は、音声認識タイミング信号や翻訳再生タイミング信号、スライド送りタイミング信号などを生成する。認識信号である音声認識タイミング信号は、前述した認識信号に基づいて生成される。

　音声認識タイミング信号は、音声要素抽出部２３７が話者音声の音声要素を抽出する際に出力される信号である。翻訳再生タイミング信号は、音声切り換え部２４０が翻訳音声の再生する際に出力される信号である。

　スライド送りタイミング信号は、映像源１２に次のスライドを表示させる信号である。スライド送りタイミング信号は、通信部２３１を経由して映像源１２に出力される。

　翻訳サーバ２０は、通信部２０１、音声文字化部２０２、および翻訳音声部２０３を有する。通信部２０１は、投射装置１３の通信部２３８との通信を行う。前述したように、投射装置１３から送信された音声要素は、ネットワーク１９を経由して通信部２０１が受信する。

　音声文字化部２０２は、通信部２０１が受信した音声要素を文字に変換する。翻訳音声部２０３は、音声文字化部２０２が変換した文字を翻訳して翻訳データを生成する。翻訳音声部２０３が生成した翻訳データは、通信部２０１から投射装置１３に送信される。

　通信部２３８が受信した翻訳データは、翻訳音声再生部２３９に出力される。制御部を構成する翻訳音声再生部２３９は、その翻訳データを音声信号として再生する。

　再生された翻訳音声信号は、日本語音声説明後に音声切り換え部２４０にて切り換えて、スピーカ１８により音声再生する。切り換えタイミングについては、上述した翻訳再生タイミング信号に基づいて、切り換えが行われる。

　以下、話者操作と機器動作の流れについて説明する。

　〈映像表示システムの動作例〉
　図３は、図１の映像表示システムによる動作および話者操作の一例を示す説明図である。

　図３の左に示す「表示」は、説明スライドに相当する映像＃１と映像＃２を時系列に示したものである。

　「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。＃１日本語および＃２日本語は、話者の音声である。また、＃１英語および＃２英語は、翻訳された英語の音声である。

　「音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。（ｕ＊）は、話者による操作を示している。（ａ＊）は、映像表示システムによる動作を示している。

　まず、話者が話始めのタイミングを操作器１６に入力して翻訳プレゼン開始する（ｕ１）。映像源１２から出力される映像信号が投射装置１３に出力されると、スクリーン１５に映像＃１が表示される。これにより、話者１１は、その映像＃１の説明を日本語で開始する（ｕ２）。

　話者の説明する日本語音声はマイク１７にて集音される。この時、音声切り換え部２４０は、マイク１７にて集音される音声がスピーカ１８から出力されるように、切り替えが行われている。よって、集音された音声は、投射装置１３に接続されたスピーカ１８によって拡声される。

　そして、話者１１は、映像＃１の日本語による説明が終わる際に、説明の終わりタイミングを操作器１６に入力する（ｕ３）。日本語のみのプレゼンテーションであれば、この終話タイミングにて投射装置１３が映像源１２に次の映像＃２を提供するように指示を出す。

　しかし、ここでのプレゼンテーションでは、日本語の説明の後に、翻訳音声があるので、投射装置１３は、翻訳音声の再生が終了するまで映像源１２に対して映像＃２を要求するスライド送り指示であるスライド送りタイミング信号を出力しない。

　話者１１が説明した日本語の音声要素は、順次投射装置１３の音声要素抽出部２３７が抽出してネットワーク１９を経由して翻訳サーバ２０に送信される。翻訳サーバ２０は、送信された音声要素に基づいて日本語を英語に翻訳する。英語に翻訳した翻訳データは、ネットワーク１９を経由して投射装置１３に送信される。

　その翻訳データは、例えば翻訳音声再生部２３９が有する図示しない記憶部などに一時的に格納される。映像＃１に対する日本語の説明終了（ｕ３）を受けて、翻訳音声再生部２３９は、翻訳データを再生する。翻訳音声再生部２３９が再生する英語の音声は、音声切り換え部２４０から出力され、スピーカ１８によって拡声される（ａ１）。

　音認期間指示部２３５は、操作器１６による話者音声期間の指示に基づいて、翻訳再生タイミング信号を生成する。翻訳音声再生部２３９は、生成した翻訳再生タイミング信号を音声切り換え部２４０に送信する。

　音声切り換え部２４０は、翻訳再生タイミング信号に基づいて、翻訳音声再生部２３９が再生する音声が出力されるように切り換えるとともに、音声再生開始信号を翻訳音声再生部２３９に出力する。翻訳音声再生部２３９は、音声再生開始信号を受け取ると、上記した記憶部などに一時的に格納されている翻訳データを再生する。

　映像＃１に対する翻訳した英語音声の再生が終わると（ａ２）、投射装置１３の音認期間指示部２３５は、映像源１２に次のスライドである映像＃２を出力するように指示を出す（ａ３）。

　映像源１２が映像＃１の映像信号を出力すると、投射装置１３は、スクリーン１５に該映像源１２が出力した映像＃２を表示する。表示映像が映像＃１から映像＃２に切り替わったことを確認した話者は、英語の翻訳音声が終了したことを理解して、映像＃２の説明を日本語で始める。

　以下、（ｕ５）（ａ４）（ａ５）（ａ６）は、先に説明した（ｕ３）（ａ１）（ａ２）（ａ３）と同様であるので、説明は省略する。

　なお、話者の音声を聞く聴衆と翻訳音声を聞く聴衆とが同じ映像を見ながら聞くことになる。映像は、英語表記、話者音声は日本語、翻訳音声は英語又は中国語などとしてもよい。

　音声に比べると映像は、文字以外の図形要素が多いので映像中のテキストが理解できなくても音声で補うことができる。また、映像には、話者の音声と翻訳音声との両方の言語を併記してもよい。両言語を表記すれば、それぞれの視聴者が理解しやすくなる利点がある。

　このように、翻訳音声の再生中においては、スライド送りを停止させ、翻訳音声の再生が終了すると次スライドを再生させるように、翻訳音声と説明対象のスライドとの同期をとることができる。

　以上により、話者は、翻訳音声終了後のスライドの切り換えを目視にて確認することができるので、次のスライド説明を開始するタイミングを容易につかむことができる。それにより、円滑な翻訳プレゼンテーションを実現することができる。
　（実施の形態２）
　〈概要〉
　前記実施の形態１では、話者音声と翻訳音声とを交互にスピーカ１８から流す構成としたが、本実施の形態２においては、話者音声をスピーカにて出力し、翻訳音声はヘッドホンにて流す技術について説明する。これによって、話者音声と翻訳音声との混濁を避けるとともに、プレゼンテーションの時間を短縮することができる。

　〈映像表示システムの構成例〉
　図４は、本実施の形態２による映像表示システムにおける構成の一例を示す説明図である。

　図４の映像表示システムが、前記実施の形態１の図１に示す映像表示システムと異なるところは、翻訳音声再生装置２１、音声配信装置２２、およびヘッドホン３０が新たに追加されている点である。

　図１の映像表示システムでは、翻訳音声の再生を投射装置１３にて行っていたが、図４の映像表示システムにおいては、ネットワーク１９に接続された翻訳音声再生装置２１によって再生される。

　翻訳データは、翻訳サーバ２０からネットワーク１９を経由して受信する。翻訳音声再生装置２１によって再生された翻訳音声信号は、音声配信装置２２に出力される。音声配信装置２２は、聴衆が使用するヘッドホン３０に翻訳音声信を無線などによって配信する。音声配信装置２２による翻訳音声信の配信は、無線通信に限定されるものではなく、有線通信であってもよい。

　なお、その他の構成については、前記実施の形態１の図１および図２と同様であるので説明は省略する。また、図４の翻訳音声再生装置２１および音声配信装置２２の各機能は、図４の映像表示システムが有する投射装置１３に設けるようにしてもよい。その場合、翻訳音声再生装置２１の機能は、図２の翻訳音声再生部２３９によって行うことができる。

　〈映像表示システムの動作例〉
　図５は、図４の映像表示システムによる動作および話者操作の一例を示す説明図である。

　図５の左に示す「表示」は、説明スライドに相当する映像＃１と映像＃２を時系列に示したものである。「表示」の右側に示す「話者音声」は、話者の音声を時系列にて示したものであり、「話者音声」の右側に示す「翻訳音声」は、再生されている翻訳音声を時系列にて示したものである。

　「翻訳音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。（ｕ＊）は、話者による操作を示している。（ａ＊）は、映像表示システムによる動作を示している。

　前記実施の形態１の図３では、翻訳音声の再生開始（ａ１）が話者説明終了（ｕ３）後であった。一方、図５では、話者の説明開始（ｕ２）後に、翻訳音声データが準備でき次第、すなわち話者の音声よりやや遅れて再生が開始される。

　翻訳の音声は、ヘッドホン３０によって流されるので、翻訳の音声を必要としない聴衆には聞こえない。よって、話者の音声をさえぎることなく再生される。

　また、図５においては、話者が説明終了（ｕ３）を指示しても、翻訳音声が終了（ａ２）するまではスライド送りが行われない。翻訳音声が終了（ａ２）すると、投射装置１３の音認期間指示部２３５は、スライド送りタイミング信号を映像源１２に送る（ａ３）。

　これによって、映像＃２のスライドが表示される。話者は、表示された映像＃２のスライドが表示されたことを確認すると、次の説明を開始する（ｕ４）。

　このように、円滑な翻訳プレゼンテーションを実現することができる。また、話者の説明音声をスピーカにて出力しながら、翻訳音声をヘッドホンにて流すことができるので、話者音声と翻訳音声との混濁を避けながら、プレゼンテーションの時間を短縮することができる。

　（実施の形態３）
　〈概要〉
　前記実施の形態１，２では、スライドの切り換えによって翻訳音声の終了を話者に伝えていたが、本実施の形態３においては、翻訳音声を再生している間、翻訳音声を再生していることを示す文字やマークなどを映像の中に重畳表示する技術について説明する。

　翻訳音声の再生中は、それを示す文字や記号を画面上に重畳して表示させる。これにより、スライド間の差異が小さい場合でも、話者は明確に示すことができる。また、翻訳音声を再生中であることを明確に話者や聴衆に伝えることができる。翻訳音声を再生中であることを明示することにより、１つのスライド説明を細かく分割して説明できるという利点も生じる。

　〈投射装置および翻訳サーバの構成例〉
　図６は、本実施の形態３による映像表示システムが有する投射装置１３および翻訳サーバ２０における構成の一例を示すブロック図である。

　なお、映像表示システムの構成については、前記実施の形態１の図１と同様であるので、説明は省略する。

　図６に示す投射装置１３が、図２の投射装置１３と異なる点は、文字重畳部２３３が新たに設けられたところである。その他の接続構成については、図２の投射装置１３と同様であるので、説明は省略する。また、図６の翻訳サーバ２０についても、図２の翻訳サーバ２０と同様であるので、説明は省略する。

　制御部を構成する文字重畳部２３３は、映像源１２から映像入力部２３２に入力された映像信号に、翻訳再生中であることを示す文字や記号などを重畳させる。文字重畳部２３３は、音認期間指示部２３５が生成する翻訳再生タイミング信号に基づいて、翻訳再生中であることを示す文字や記号などを映像に重畳する。

　〈映像表示システムの動作例〉
　図７は、図６の映像表示システムによる動作および話者操作の一例を示す説明図である。

　図７の左に示す「表示」は、説明スライドに相当する映像＃１と映像＃２を時系列に示したものである。「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。＃１日本語および＃２日本語は、話者の音声である。また、＃１英語および＃２英語は、翻訳された英語の音声である。

　この図７において、前記実施の形態１の図３と大きく異なる点は翻訳音声の再生中に翻訳再生中であることを示す文字、例えば＜翻訳中＞を表記すること、および音声説明の終了時にスライド送り可否を合わせて指示入力している点である。

　話者操作（ｕ１）、（ｕ２）と表示装置動作（ａ１）は、図３と同様である。話者が映像＃１に対する説明一時停止を指示すると（ｕ１３）、投射装置１３は、「翻訳中」の文字やマークを映像＃１に重畳して表示（ｂ１）する。

　そして、映像＃１への翻訳音声の終了（ａ２）後に、「翻訳中」の文字またはマークの映像重畳を中止（ｂ２）する。この時、映像＃１に対する説明の一時停止の操作である説明一時停止操作（ｕ１３）には、スライド送り指示が含まれていない。よって、スライド送りタイミング信号を映像源１２に出力しない点が図３と異なっている。

　話者は、「翻訳中」の文字またはマークの消去（ｂ２）を確認すると、映像＃１の続きの説明＃１ａを開始する（ｕ１４）。話者が、映像＃１の説明終了の指示と共に、操作器１６からスライド送りの指示（ｕ１５）を行うと、投射装置１３は、「翻訳中」の文字あるいはマークを映像＃１に重畳して表示（ｂ３）する。

　そして、翻訳音声の終了（ａ５）後に「翻訳中」の文字またはマークの映像重畳を中止（ｂ４）する。同時に、図３と同様にスライド送りタイミング信号を映像源１２へ出力する（ａ６）。

　このように、１つのスライドを使って複数回の説明を行う場合には、説明終了の指示入力にスライド送り有無を示すとよい。上述のようにスライド送りのない説明一時停止ボタンとスライド送り付説明終了ボタンをつけてもよい。また、スライド送りと説明終了のボタンを独立させ、両方のボタン入力時にスライド送り付説明終了を示すようにしてもよい。

　以上述べてきたように、話者がスライド送り付説明終了を指示後、スライド送り命令の送出を一時保留することによって翻訳音声再生中のスライド送りを止めて、翻訳音声聴衆者に該当映像表示を継続することができる。

　翻訳音声再生終了後にスライド送りタイミング信号を映像源１２へ出力して　次のスライドを表示させることによって、話者が説明を再開するタイミングをつかむことができる。

　また、次のスライドが前のスライドと同じような映像の場合は、タイミングがつかみにくいが、翻訳音声再生中のテキストやマークが消去されるのを確認することができるので、話者が説明を再開するタイミングを確実に伝えることができる利点がある。

　さらに、スライド送りなしの説明終了入力の場合は、次のスライドに切り替わらなくても、翻訳音声再生中のテキストやマークが消去されるのを見て、話者が説明を再開するタイミングをつかむことができる。話者は、映像を停止することによって翻訳音声出力中のテキストやマークが消えることでスライドの続き説明に入ることができる。

　翻訳音声を再生中は、スライド送りを停止させて、翻訳音声と説明対象のスライドの同期をとることで円滑な翻訳プレゼンを実現できる。さらに、話者は、翻訳音声終了後のスライドの切り替わりを見て、次のスライド説明を開始するタイミングをつかむことができる利点がある。

　（実施の形態４）
　〈概要〉
　前記実施の形態１においては、話者の説明中と翻訳音声の再生中の表示が共通であった。本実施の形態４では、翻訳音声の再生中は、表示映像の中にある文字を翻訳文字に置き換える技術について説明する。これにより、翻訳音声を聞く聴衆の理解をよりしやすくするものである。

　〈映像表示システムの動作例〉
　図８は、本実施の形態４による図６の映像表示システムにおける動作および話者操作の一例を示す説明図である。なお、映像表示システムの構成については、前記実施の形態３の図６と同様であるので、説明は省略する。

　この図８においても、左に示す「表示」は、説明スライドに相当する映像＃１と映像＃２を時系列に示したものである。「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。＃１日本語および＃２日本語は、話者の音声である。また、＃１英語および＃２英語は、翻訳された英語の音声である。

　まず、翻訳のプレゼンテーションの開始（ｕ１）が指示されると、投射装置１３は映像源１２から入力される映像中の文字を抽出して翻訳サーバ２０にネットワーク１９を経由して送信する。映像中の文字を抽出する処理は、例えば図６の文字重畳部２３３などが行う。あるいは、図６の投射装置１３に、後述する図１０に示す文字抽出部４３４を新たに設ける構成としてもよい。文字抽出部４３４は、映像中の文字を抽出する処理を実行する。

　そして、翻訳サーバ２０は、受信した映像中の文字の翻訳を開始する（ｃ１）。話者の説明が終了し、説明終了の指示が操作器１６から出力される（ｕ３）と、投射装置１３は、文字抽出領域に翻訳サーバ２０が翻訳した文字を上書きしてスクリーン１５に投射する（ｃ２）。

　この処理においても、例えば図６の文字重畳部２３３などが行うものとする。あるいは、図６の投射装置１３に後述する図１０に示す翻訳文字上書き部４３１を新たに設ける構成としてもよい。翻訳文字上書き部４３１は、文字抽出領域に翻訳サーバ２０が翻訳した文字を上書きする。

　以上によって、翻訳音声の再生中は、翻訳文字で上書きした映像を表示することができる。翻訳音声の終了（ａ２）の後、投射装置１３は、図３と同様にスライド送りタイミング信号を映像源１２に出力して送り（ａ３）次のスライド映像を表示させる。

　これによって、翻訳音声と同じ言語の翻訳文字で表示された画面と共に翻訳音声を聞くことができる。その結果、聴衆の理解をより高めることができる。

　（実施の形態５）
　〈概要〉
　プレゼンテーションなどにおいては、話者の説明にてポインタを併用する場合が多々ある。本実施の形態５では、翻訳音声の再生中に、話者が差したポインタの位置を翻訳語順に合わせて移動させる技術について説明する。

　前記実施の形態４は、翻訳音声の再生中に、表示された映像の文字を翻訳して、該文字を翻訳文字に上書きするものであった。しかし、翻訳音声の語順によっては、話者音声の語順と異なる場合がある。

　〈スライド表示例〉
　図９は、本実施の形態５によるスライド画面の表示の一例を示す説明図である。

　図９の左側に示す表示画面３１，３２は、話者の説明時における表示画面例を示している。また、図９の右側に示す表示画面３３，３４は、翻訳音声の再生中の表示される表示画面の一例を示したものである。

　表示画面３１，３２において、左側には鉛筆３１１がそれぞれ表示されており、該鉛筆３１１の下方には、説明文として「鉛筆」が表示されている。鉛筆３１１の右側には、箱３１２が表示されており、該箱３１２の下方には、説明文として「箱」が表示されている。

　一方、図９の右側に示す翻訳再生中の表示画面３３，３４では、鉛筆３１１の下方の説明文である「鉛筆」が「pencil」に翻訳されて置き換えられている、同様に、箱３１２の下方の説明文である「箱」が「Box」に翻訳されて置き換えられている。

　ここで、話者の日本語の説明音声が、図９の左側上方に示すように、例えば「箱の上に鉛筆を置く。」であるとすると、その翻訳文章は、図９の右側上方に示すように、「Put a pencil on the box.」となる。この場合、日本語の文章では、“箱”と“鉛筆”の語順が“箱”、“鉛筆”となる。

　一方、上記の日本語を翻訳した英語文章の場合には、並び順が“pencil”“Box”と日本語とは逆の語順になる。このため、話者が表示画面３１，３２を用いて説明する際には、ポインタの指し場所は、図９左側の一点鎖線にて示すようにポインタ差し位置３１３からポインタ差し位置３２３に移動することになる。

　これに対して、翻訳音声の再生中において、表示画面３３，３４を用いる場合には、図９右側の一点鎖線に示すように、翻訳音声、すなわち翻訳の語順に合わせて、ポインタの指し場所がポインタ位置３３３からポインタ位置３４３に移動させるとわかりやすいことになる。

　〈映像表示システムの構成例〉
　図１０は、図９のポインタ位置を翻訳した語順に合わせて変更する機能を有する映像表示システムの一例を示す説明図である。

　図１０の映像表示システムが図６の映像表示システムと異なるところは、カメラ４４０が新たに設けられた点である。また、投射装置１３においては、文字抽出部４３４、翻訳文字上書き部４３１、故障診断部４３５、マイクアレイ４３６、話者解析部４３７、およびポインタ位置判別部４３９を新たに設けられている。翻訳サーバ２０においては、議事録作成部４０２および文字翻訳部４０１が新たに設けられている。

　マイクアレイ４３６は、複数のマイクから構成されており、話者の声を集音する。ここでは、投射装置１３が話者から離れている場合を考慮して、マイクアレイ４３６には、指向性が与えられている。

　話者解析部４３７は、マイクアレイ４３６の集音結果に基づいて、話者がどの位置にいるかを解析する。話者音声抽出部４３８は、話者音声を抽出する。これは、投射装置１３や周辺の雑音と話者音声とを分離するためであり、例えば雑音除去フィルタやそれぞれの周波数特性の特徴を使った分離技術により、話者音声を抽出する。

　話者音声抽出部４３８が抽出した話者音声は、音声要素抽出部２３７によって音声要素が抽出されて翻訳サーバ２０に送信される。

　翻訳サーバ２０において、音声文字化部２０２によって文字化された話者音声は、翻訳音声部２０３にて翻訳される。その翻訳結果である翻訳データは、投射装置１３に送信される。翻訳データは、話者音声および翻訳音声の語順を含むデータからなる。

　翻訳音声再生部２３９は、受け取った翻訳データを翻訳音声信号に再生して、音声切り換え部を経てスピーカ１８にて翻訳音声が再生される。

　映像入力部２３２が受信した映像源１２の映像は、文字抽出部４３４と翻訳文字上書き部４３１にそれぞれ入力される。

　文字抽出部４３４は、映像中の文字を抽出して該当文字の位置情報と共に翻訳サーバ２０に送信する。そして、文字翻訳部４０１にて翻訳された投射装置１３に送り返される。
翻訳文字上書き部４３１は、翻訳された文字を受信すると、文字抽出部４３４から得られる抽出文字領域情報に基づいて、該当文字領域上に翻訳文字を上書きする。翻訳文字で上書きすることは、前記実施の形態４にて述べたとおりである。

　カメラ４４０は、話者が指し示す図９のポインタ差し位置３１３，３２３を撮影する。ポインタ位置判別部４３９は、カメラ４４０が撮影した撮影結果に基づいて、ポインタ差し位置３１３，３２３の位置、大きさ、および時間などを判別して、該ポインタ位置判別部４３９に設けられる図示しないメモリなどに記憶しておく。

　ポインタ同期合成部４３２は、ポインタ位置判別部４３９に記憶された判別結果に従って、翻訳音声の再生中にポインタ差し位置３３３，３４３を生成する。そして、翻訳データに含まれる語順情報に基づいて、翻訳音声の語順に合わせて映像へ重畳し、表示部２４１から出力する。

　以上述べてきたように、翻訳音声の語順に合わせてポインタを表示画面上に表示することができる。これによって、聴衆の理解をより高めることができる。

　なお、上記した説明では、ポインタ位置をカメラ４４０にて検出する例を示したが、話者が操作器を操作して電子ポインタとして映像上に重畳する場合は、操作器からの位置情報を用いて電子ポインタの位置を検出するようにしてもよい。

　さらに、音声文字化部２０２にて文字化された話者の音声は、例えば議事録作成部４０２が記録して議事録として記録するようにしてもよい。また、話者の説明後の質疑応答において、話者解析部４３７が質問者の声を解析して話者音声抽出部４３８によって質問者音声を抽出し、翻訳サーバ２０にて質問者の音声を記録するようにしてもよい。

　質問者が話者音声の翻訳先の言語である場合は、翻訳サーバ２０が話者音声翻訳と逆の翻訳を行い、質問者の音声を再生するようにしてもよい。この場合、話者と質問者とは、対話翻訳を通じた質疑応答ができるので、利便性を向上することができる。

　さらに、前記実施の形態１～５では、映像源１２へのスライド送り命令を一時的に止めて、翻訳音声再生中の映像を保持する例を説明してきたが、スライド送り命令の一時停止に代えて、翻訳音声用の映像を図示しない記憶装置に記憶させ、記憶させた映像を表示させるようにしてもよい。スライド送りを操作する操作器と翻訳用の話者音声入力タイミングを指示する指示器とを独立に構成する場合などに連携制御を簡単にすることができる。

　（実施の形態６）
　〈概要〉
　前記実施の形態１～５における映像表示システムは、例えばパーソナルコンピュータなどを映像源として用いた構成とした。本実施の形態６では、映像源を携帯機器によって代用する技術について説明する。

　〈映像表示システムの構成例および動作例〉
　図１１は、本実施の形態６による映像表示システムにおける構成の一例を示す説明図である。

　図１１の映像表示システムが、図１の映像表示システムと異なる点は、図１の映像源１２および操作器１６の機能を有する携帯機器５６に替わっているところである。出力装置である携帯機器５６は、例えばスマートフォンやタブレット端末などからなり、ネットワーク１９に接続することができる。

　〈携帯機器の構成例〉
　図１２は、図１１の映像表示システムが有する携帯機器５６における構成の一例を示す説明図である。

　携帯機器５６は、図１２に示すように、音声入力部５７、制御部５８、および映像信号出力部５９を有する。第２の音声入力部となる音声入力部５７は、マイク１７の音声を例えばＢｌｕｅｔｏｏｔｈなどを使用して受信する。

　映像信号出力部５９は、投射装置１３が表示する映像信号を該投射装置１３に出力する。映像信号は、例えば無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、あるいはＭｉｒａｃａｓｔ（登録商標）などの無線によって送信される。あるいは携帯機器５６と投射装置１３とを有線接続するようにしてもよい。

　音声抽出出力部および翻訳音声変換部として機能する制御部５８は、音声入力部５７が受信した音声から音声要素を抽出して翻訳サーバ２０に送信する。また、制御部５８は、翻訳サーバ２０が翻訳した翻訳データを受信して、受信した翻訳データを音声信号に変換して投射装置１３に転送する。

　投射装置１３は、転送された音声信号を受信して再生し、スピーカ１８から翻訳音声を出力する。もちろん、マイク１７が集音した話者の音声信号も携帯機器５６の制御部５８から投射装置１３に転送して、話者音声と翻訳音声を交互に出力してもよい。

　さらに、制御部５８は、前述した図１の操作器１６の機能を有する。具体的には、話者によって説明がされている期間である話者音声期間を指示する機能である。話者音声期間の指示は、例えば携帯機器５６に設けられたボタンなどを操作することによって行われる。該ボタンを操作することによって、認識信号が生成される。

　携帯機器５６は、認識信号に基づいて、話者音声の翻訳対象期間を認識することができる。これにより、翻訳前の説明が終了したことを認識することができる。また、認識信号によって抽出した音声要素を翻訳サーバ２０に送信するタイミングを判定することができる。加えて、携帯機器５６には、電子ポインタなどの機能も備えていてもよい。

　これらの制御部５８における動作および各種の機能は、例えば携帯機器５６にインストールされたアプリケーションによって実現するようにしてもよい。アプリケーションによって実現する際には、制御部５８あるいは携帯機器５６が有する図示しないＣＰＵ（Central Prosessing Unit）などが、同じく携帯機器５６に設けられた図示しないプログラム格納メモリなどに記憶されているプログラム形式のソフトウェアに基づいて、処理を実行する。

　携帯機器５６は、投射装置１３が表示する映像信号を該投射装置１３に出力する。映像信号は、例えば無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、あるいはＭｉｒａｃａｓｔ（登録商標）などの無線によって送信される。あるいは携帯機器５６と投射装置１３とを有線接続するようにしてもよい。

　また、携帯機器５６は、マイク１７の音声をＢｌｕｅｔｏｏｔｈなどを使用して受信して、音声要素を抽出して翻訳サーバ２０に送信する機能を有する。そして、携帯機器５６は、翻訳サーバ２０が翻訳した翻訳データを受信する。受信した翻訳データは、携帯機器５６によって音声信号に変換されて投射装置１３に転送される。

　投射装置１３は、転送された音声信号を受信して再生し、スピーカ１８から翻訳音声を出力する。もちろん、マイク１７が集音した話者の音声信号も携帯機器５６から投射装置１３に転送して、話者音声と翻訳音声を交互に出力してもよい。

　携帯機器５６は、前述した図１の操作器１６の機能を有する。具体的には、話者によって説明がされている期間である話者音声期間を指示する機能である。話者音声期間の指示は、例えば携帯機器５６に設けられたボタンなどを操作することによって行われる。該ボタンを操作することによって、認識信号が生成される。

　これらの携帯機器５６における動作および各種の機能は、例えば携帯機器５６にインストールされたアプリケーションによって実現する。アプリケーションによって実現する際には、携帯機器５６が有する図示しないＣＰＵ（Central Prosessing Unit）などが、同じく携帯機器５６に設けられた図示しないプログラム格納メモリなどに記憶されているプログラム形式のソフトウェアに基づいて、各機能の処理を実行する。あるいは上記した機能を有するハードウェアによって構成するようにしてもよい。

　以上により、映像源１２や操作器１６などを不要とすることができるので、映像表示システムの構成を簡易にすることができる。また、携帯機器５６が音声要素の抽出などを行うことにより、投射装置１３を小型化することができる。

　さらに、上記した携帯機器５６における各種の機能をアプリケーションによって実現することによって、映像源１２、および操作器１６などを不要とすることができるので映像表示システムのコストを低減することができる。

　（実施の形態７）
　〈映像表示システムの構成例および動作例〉
　図１３は、本実施の形態７による映像表示システムにおける構成の一例を示す説明図である。

　図１３に示す映像表示システムは、２台の投射装置１３、１３ａが設けられている。投射装置１３は、話者の説明に用いられる投射装置であり、投射装置１３ａは、翻訳音声の再生に用いられる投射装置である。

　それに合わせて、スクリーン１５，１５ａおよびスピーカ１８，１８ａがそれぞれ設けられている。スクリーン１５は、投射装置１３が投射する映像を表示する。スクリーン１５ａは、投射装置１３ａが投射する映像を表示する。スピーカ１８は、投射装置１３から出力される話者の説明音声を拡声し、スピーカ１８ａは、投射装置１３ａから出力される翻訳音声を拡声する。

　図１３に示す映像表示システムは、話者説明と翻訳音声の再生をほぼ同時進行させるものであるが、翻訳処理のために翻訳音声再生は話者説明よりも遅れてしまうことが多い。このため、翻訳音声再生中はスライド送りを抑制することが有用である。

　投射装置１３が映像源１２から出力される映像信号を受けて、話者説明用の映像をスクリーン１５に表示する。投射装置１３ａは、投射装置１３から映像信号を受けて、翻訳音声視聴者用にスクリーン１５ａに翻訳音声説明用の映像表示を行う。

　投射装置１３ａの表示映像は、前記実施の形態４にて示したように、映像源１２の映像信号から文字を抽出して翻訳した文字を上書きしたものであってもよい。文字の抽出や翻訳は、投射装置１３または投射装置１３ａのいずれで行ってもよい。

　投射装置１３ａの表示映像は、前記実施の形態５にて示したように、話者がスクリーン１５上に指したポインタを、翻訳遅延時間分遅らせて重畳表示、または翻訳音声語順に合わせて重畳表示するものであってもよい。ポインタの重畳表示は、投射装置１３，１３ａのどちらで行ってもよい。

　話者からスライド送り指示があっても、翻訳音声の再生中は投射装置１３の表示映像が次のスライドに移行しないように構成する。例えば、翻訳音声の再生中は、（１）スライド送り命令を保留する、（２）投射装置１３に映像を記憶させて投射装置１３ａへの映像出力を継続する、（３）投射装置１３ａが映像記憶して映像出力を保持するなどの技術によって実現することができる。

　翻訳音声は、投射装置１３ａからスピーカ１８ａにて翻訳を聞く聴衆へ流される。翻訳音声は、前記実施の形態２の図４に示した翻訳音声再生装置２１の機能を投射装置１３ａが備えることによって実現することができる。

　あるいは、投射装置１３が前記実施の形態３の翻訳音声再生部２３９を持ち、翻訳音声を映像信号と共に投射装置１３ａに送信することによって実現することもできる。

　このように、２台の投射装置１３，１３ａを用いて。話者説明と翻訳音声の再生をほぼ同時進行させるものであっても、翻訳音声の再生中は、少なくとも翻訳音声を聞いている聴衆向けに、該翻訳音声に該当する映像表示を継続することによって、翻訳音声と映像の同期がとれ、聴衆が理解しやすいプレゼンテーションを実現することができる。

　以上、実施の形態１～７は、静止画プレゼンを例にとって説明してきたが、アニメーション付や動画であっても同様な効果を有することができる。話者説明と翻訳音声の交互切り換えの場合は、映像切り換えの保留に代えて、翻訳音声の再生開始時に該スライド映像の最初に戻って映像再生開始を指示してもよい。

　本実施の形態７では、翻訳遅延時間分だけ、映像を送らせて表示させて、映像と翻訳音声の同期を実現してもよい。

　以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

　前記実施の形態１～７では、スクリーン１５に映像を投射する投影型映像表示装置である投射装置を例にとって説明したが、映像を表示する機器は、投射装置に限らず、液晶やＯＬＥＤ（Organic Light Emitting Diode）などの直視型ディスプレイなどを含め、一般的な表示装置であってもよい。

　なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

　また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。

１２　映像源
１３　投射装置
１３ａ投射装置
１５スクリーン
１５ａスクリーン
１６操作器
１７マイク
１８スピーカ
１８ａ　スピーカ
１９　ネットワーク
２０　翻訳サーバ
２１　翻訳音声再生装置
２２　音声配信装置
３０　ヘッドホン
５６　携帯機器
５８　音声入力部
５８　制御部
５９　映像信号出力部
２０１　通信部
２０２　音声文字化部
２０３　翻訳音声部
２３１　通信部
２３２　映像入力部
２３３　文字重畳部
２４１　表示部
２３５　音認期間指示部
２３６　音声入力部
２３７　音声要素抽出部
２３８　通信部
２３９　翻訳音声再生部
２４０　音声切り換え部
４０１　文字翻訳部
４０２　議事録作成部
４３１　翻訳文字上書き部
４３２　ポインタ同期合成部
４３４　文字抽出部
４３５　故障診断部
４３６　マイクアレイ
４３７　話者解析部
４３８　話者音声抽出部
４３９　ポインタ位置判別部
４４０　カメラ

Claims

　映像を表示する表示装置であって、
　表示する映像を出力する映像出力部と、
　音声信号が入力される音声入力部と、
　前記音声入力部に入力された音声信号から音声を抽出して出力し、前記音声を翻訳した翻訳音声信号を翻訳音声として再生する制御部と、
　を有し、
　前記制御部は、前記翻訳音声を再生している期間、前記映像出力部が表示する映像の切り換えを保留する、表示装置。
　請求項１記載の表示装置において、
　前記制御部は、認識信号に基づいて、前記音声入力部に入力された音声信号から音声を抽出し、
　前記認識信号は、外部から入力され、前記映像に対する翻訳前の説明が終了したことを示す信号である、表示装置。
　請求項１記載の表示装置において、
　前記制御部は、前記翻訳音声を再生している期間、前記映像出力部から出力される前記映像に前記翻訳音声が再生されていることを示す表示記号を付加して表示する、表示装置。
　請求項１記載の表示装置において、
　前記制御部は、前記翻訳音声を再生する際に、前記映像出力部が表示する映像中の文字を翻訳した翻訳文字に置換し、
　前記映像出力部は、前記制御部が置換した前記翻訳文字を前記映像に表示する、表示装置。
　請求項４記載の表示装置において、
　前記制御部は、前記映像出力部が表示する映像に指し示されるポインタの位置を判定し、前記翻訳音声を再生する際に、前記ポインタの差し位置が翻訳音声信号の語順に合致するように並び替えて前記映像に表示する、表示装置。
　映像を表示する表示装置および音声を翻訳した音声信号である翻訳音声信号に変換する翻訳装置にそれぞれ接続される出力装置であって、
　前記出力装置は、
　前記表示装置に映像信号を出力する映像信号出力部と、
　前記音声信号が入力される第２の音声入力部と、
　前記第２の音声入力部に入力された音声信号から前記音声を抽出して前記翻訳装置に出力する音声抽出出力部と、
　前記翻訳装置が翻訳した前記翻訳音声信号を受け取り、受け取った前記翻訳音声信号を音声に変換して前記表示装置に出力する翻訳音声変換部と、
　を有し、
　前記映像信号出力部は、前記表示装置から前記翻訳音声信号の再生が終了したことを示す終了信号を受け取った際に、次に表示する映像信号を前記表示装置に出力する、出力装置。
　請求項６記載の出力装置において、
　認識信号に基づいて、翻訳前の説明が終了したことを認識する認識部を有し、
　前記音声抽出出力部は、前記認識部が翻訳前の説明が終了したことを認識した際に、前記翻訳前の説明が終了した際に抽出した前記音声を出力する、出力装置。
　請求項６記載の出力装置において、
　前記表示装置が表示する映像を指し示すポインタ機能を有する、出力装置。
　映像を表示する表示装置、音声を翻訳した音声信号である翻訳音声信号に変換する翻訳装置、および前記表示装置に映像信号を出力する出力装置による情報表示方法であって、
　前記表示装置が、映像を表示するステップと、
　前記表示装置が、表示された前記映像を説明する音声を抽出するステップと、
　前記翻訳装置が、前記表示装置が抽出した前記音声を翻訳した翻訳音声に変換して、前記表示装置に出力するステップと、
　前記表示装置が、前記翻訳装置から受け取った前記翻訳音声を再生するステップと、
　を有し、
　前記翻訳音声信号を再生するステップは、前記翻訳音声が再生されている期間、前記表示装置が映像の切り換えを保留する、情報表示方法。
　請求項９記載の情報表示方法において、
　前記音声を抽出するステップは、表示された前記映像の説明が終了した際に、前記音声を抽出する、情報表示方法。
　請求項９記載の情報表示方法において、
　前記表示装置が、前記翻訳音声が再生されていることを示す表示記号を生成するステップを有し、
　前記翻訳音声を再生するステップは、前記翻訳音声が再生されている期間、表示されている前記映像に前記表示記号を付加して表示する、情報表示方法。
　請求項１１記載の情報表示方法において、
　前記表示装置が、表示されている映像中の文字を抽出するステップと、
　前記翻訳装置が、抽出した前記文字を翻訳するステップと、
　前記表示装置が、前記翻訳音声の再生の際に、前記映像中の前記文字を前記翻訳装置が翻訳した前記文字に置換して表示するステップと、
　を有する、情報表示方法。
　請求項１２記載の情報表示方法において、
　前記表示装置が、表示されている前記映像に指し示されるポインタの位置を判定するステップと、
　前記表示装置が、前記翻訳音声が再生される際に、判定した前記ポインタの差し位置が翻訳音声の語順に合致するように並び替えて前記映像に表示するステップと、
　を有する、情報表示方法。