WO2023002300A1

WO2023002300A1 - スライド再生プログラム、スライド再生装置及びスライド再生方法

Info

Publication number: WO2023002300A1
Application number: PCT/IB2022/056404
Authority: WO
Inventors: ドゥクグェントアン
Original assignee: アイメソフトジェイエスシー
Priority date: 2021-07-21
Filing date: 2022-07-12
Publication date: 2023-01-26
Also published as: JP2023016504A; JP2023162179A

Abstract

音声合成を用いたプレゼンテーションにおいて、より臨場感を出すことが可能なスライド再生プログラム等を提供すること。スライド再生プログラムは、発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する処理をコンピュータに行わせる。

Description

スライド再生プログラム、スライド再生装置及びスライド再生方法

　本発明は、プレゼンテーションデータに含まれる複数のスライドを順次表示出力するスライド再生プログラム等に関する。

　近年、商談などにおいて、表示装置に画像を表示し、この画像を順次切り替えながら商材の説明することが行われている。表示される各画像をスライドと呼び、複数のスライドをまとめたものはプレゼンテーションデータと呼ばれている。

　また、音声合成技術を利用したプレゼンテーション装置が提案されている（特許文献１）。特許文献１に記載のプレゼンテーション装置は、スライドの切り替えと同期して、音声合成でテキストデータの読み上げを自動的に行う。

特開２００１−５４７６号公報

　しかしながら、音声のみでは臨場感に欠け、聴取者は内容を理解しにくくなる場合がある。本発明はこのような状況に鑑みてなされたものである。その目的は、音声合成を用いたプレゼンテーションにおいて、より臨場感を出すことが可能なスライド再生プログラム等を提供することである。

　本願の一態様に係るスライド再生プログラムは、発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する処理をコンピュータに行わせることを特徴とする。

　本願の一観点によれば、人物が話しをしている人物動画を表示することにより、臨場感のあるプレゼンテーションが可能となる。

プレゼンテーションシステムの構成例を示す説明図である。再生装置のハードウェア構成例を示すブロック図である。基本設定ＤＢの例を示す説明図である。モデルＤＢの例を示す説明図である。発話設定ＤＢの例を示す説明図である。画面設定ＤＢの例を示す説明図である。遷移設定ＤＢの例を示す説明図である。メイン処理の手順例を示すフローチャートである。コマンド実行処理の手順例を示すフローチャートである。再生処理の手順例を示すフローチャートである。ＶＲモデル作成処理の手順例を示すフローチャートである。発表設定画面の例を示す説明図である。モデル作成画面の例を示す説明図である。発話設定画面の例を示す説明図である。発表者設定画面の例を示す説明図である。スライドショー設定画面の例を示す説明図である。スライド再生画面及び発表者画面の例を示す説明図である。再生処理の他の手順例を示すフローチャートである。再生処理の他の手順例を示すフローチャートである。スクリプト実行処理の手順例を示すフローチャートである。スライド再生画面及び発表者画面の他の例を示す説明図である。再生処理の他の手順例を示すフローチャートである。再生処理の他の手順例を示すフローチャートである。再生処理の他の手順例を示すフローチャートである。

（実施の形態１）
　以下実施の形態を、図面を参照して説明する。以下の説明におけるプレゼンテーションデータについて述べる。プレゼンテーションデータは複数のスライドを含む。スライドは、コンピュータのディスプレイに表示したり、プロジェクターで投影したりするためのプレゼンテーションソフト用の表示データをいう。スライドはオブジェクト（表示要素）を含む。オブジェクトはテキスト、図形、動画、表、グラフ等である。オブジェクトは属性として、大きさ、位置、傾きを有する。スライドには、プロジェクターで投影する際には表示されない、テキスト（発話テキスト）を含めることが可能である。当該テキストは、スピーカーノート、発表者ノート、単にノートともいう。スピーカーノートはプロジェクターで投影する画像には含まれないが、プレゼンテーションソフトを実行するコンピュータのディスプレイには表示可能である。

　図１はプレゼンテーションシステムの構成例を示す説明図である。プレゼンテーションシステム１００は再生装置１及び音声合成サーバ２を含む。再生装置１及び音声合成サーバ２はネットワークＮにより、互いに通信可能に接続されている。図１において、再生装置１は１台のみ記載しているが、２台以上でもよい。図１では、再生装置Ｋも再生装置１と同様であり、その中身の処理概念図を示す。再生装置１、再生装置Ｋは共に再生装置と呼ぶ。また、再生装置１をプロジェクターに接続しても良い（例えば、ＵＳＢケーブル、若しくは、ＶＧＡケーブル等による有線接続、又は、Ｗｉｆｉ若しくはＢｌｕｅｔｏｏｔｈ（登録商標）などによる無線接続を行なう）。その場合、後述する再生装置１の表示部のデータをプロジェクターに送信する。プロジェクターからの出力をスクリーン等に投影し、画像を表示させることになる。

　再生装置１はユーザがプレゼンテーションに用いる装置である。再生装置１はノートパソコン、パネルコンピュータ、タブレットコンピュータ、スマートフォン等で構成する。再生装置１の論理的な処理は再生装置Ｋで示す。再生装置１は後述のハードウェア構成で、プレゼンテーションデータＫ１、ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ：バーチャルリアリティー）モデルＤＢＫ２、設定データＫ３を保持している。本願における一つの実施形態のスライド再生プログラムＫ４はこれらのデータを読み込み、発表者ノートのテキストを音声合成サーバ２に送信し、音声合成結果を得る。更に、スライドデータからスライド再生プログラムＫ４（例えば、Ｍｉｃｒｏｓｏｆｔ　ＰｏｗｅｒＰｏｉｎｔ，Ｇｏｏｇｌｅプレゼンテーションなど）でスライドを表示し、ＶＲエンジンでＶＲアバターＫ６を表示させる。スライド再生プログラムＫ４はスライド表示Ｋ５、ＶＲアバターＫ６及び音声合成結果Ｋ７を表示、再生する。また、スライド再生プログラムＫ４はスライド表示、音声合成結果の再生、アバター表示と同時に、スライドのページ遷移の制御も自動的に行い、これらの要素の表示、再生を同期化する。音声合成サーバ２は音声合成エンジンを備える。音声合成サーバ２は再生装置１からテキストデータを受け付け、音声合成モデルを用いて受け付けたテキストを読み上げる音声を合成し、音声データを再生装置１へ返信する。音声合成サーバ２はサーバコンピュータ、ワークステーション等で構成する。また、音声合成サーバ２を複数のコンピュータからなるマルチコンピュータ、ソフトウェアによって仮想的に構築された仮想マシン又は量子コンピュータで構成してもよい。さらに、音声合成サーバ２の機能をクラウドサービスで実現してもよい。

　図２は再生装置のハードウェア構成例を示すブロック図である。再生装置１は制御部１１、主記憶部１２、補助記憶部１３、通信部１４、入力部１５、表示部１６、音声出力部１７及び読み取り部１８を含む。制御部１１、主記憶部１２、補助記憶部１３、通信部１４、入力部１５、表示部１６、音声出力部１７及び読み取り部１８はバスＢにより接続されている。

　制御部１１は、一又は複数のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＭＰＵ（Ｍｉｃｒｏ−Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の演算処理装置を有する。制御部１１は、補助記憶部１３に記憶された制御プログラム１Ｐ（スライド再生プログラム、プログラム製品）を読み出して実行することにより、再生装置１に係る種々の情報処理、制御処理等を行い、取得部及び出力部等の機能部を実現する。

　主記憶部１２は、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、フラッシュメモリ等である。主記憶部１２は主として制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。

　補助記憶部１３はハードディスク又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等であり、制御部１１が処理を実行するために必要な制御プログラム１Ｐや各種ＤＢ（Ｄａｔａｂａｓｅ）を記憶する。補助記憶部１３は、基本設定ＤＢ１３１、モデルＤＢ１３２、発話設定ＤＢ１３３、画面設定ＤＢ１３４及び遷移設定ＤＢ１３５、ＶＲモデルデータ１３６、並びに、プレゼンテーションデータ１３７を記憶する。補助記憶部１３は再生装置１に接続された外部記憶装置であってもよい。補助記憶部１３に記憶する各種ＤＢ等を、再生装置１とは異なるデータベースサーバやクラウドストレージに記憶してもよい。一方、基本設定ＤＢ１３１、モデルＤＢ１３２、発話設定ＤＢ１３３、画面設定ＤＢ１３４及び遷移設定ＤＢ１３５が記憶する内容を、まとめて一つのファイルとして、補助記憶部１３に記憶してもよい。

　通信部１４はネットワークＮを介して、音声合成サーバ２と通信を行う。また、制御部１１が通信部１４を用い、ネットワークＮ等を介して他のコンピュータから制御プログラム１Ｐをダウンロードし、補助記憶部１３に記憶してもよい。

　入力部１５はキーボードやマウス等を含む。表示部１６は液晶表示パネル等を含む。表示部１６はプレゼンテーションデータ１３７を構成するスライドなどを表示する。また、入力部１５と表示部１６とを一体化し、タッチパネルディスプレイを構成してもよい。さらに、再生装置１は外部の表示装置に表示を行ってもよい。

　音声出力部１７は音声スピーカを含む。音声出力部１７はデジタル音声データをアナログ音声信号に変換し、スピーカから出力する。

　読み取り部１８はＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）−ＲＯＭ及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）−ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読み取り部１８を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、補助記憶部１３に記憶してもよい。また、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでもよい。

　次にデータベースについて説明する。図３は基本設定ＤＢの例を示す説明図である。基本設定ＤＢ１３１はスライド再生に関する基本設定を記憶する。基本設定ＤＢ１３１はモデルＩＤ列及びＵＲＩ列を含む。モデルＩＤ列は発表者として表示されるＶＲモデルのＩＤを記憶する。ＵＲＩ列はプレゼンテーションデータのＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）を記憶する。

　図４はモデルＤＢの例を示す説明図である。モデルＤＢ１３２は発表者として表示されるＶＲモデルの情報を記憶する。モデルＤＢ１３２はモデルＩＤ列、名称列、写真列及びモデル列を含む。モデルＩＤ列はＶＲモデルを一意に特定するモデルＩＤを記憶する。モデルＩＤはモデルＤＢ１３２の主キーであり、上述の基本設定ＤＢ１３１のモデルＩＤ列は、外部キーとしてモデルＩＤを記憶する。名称列はＶＲモデルの名称を記憶する。写真列はＶＲモデルを作成する際に用いた静止画像を記憶する。予め用意されているＶＲモデルなどの場合、写真列は静止画像を記憶しなくともよい。モデル列はＶＲモデルの実体についての情報を記憶する。図４に示す例ではＶＲモデルデータ１３６に相当するファイルの名称を、モデル列は記憶している。なお、ＶＲモデルは動画より生成してもよい。この場合、写真列に替えて又は加えて、動画列を設ける。動画列はＶＲモデルを作成する際に用いた動画像を記憶する。

　図５は発話設定ＤＢの例を示す説明図である。発話設定ＤＢ１３３は発話音声の設定を記憶する。発話設定ＤＢ１３３はエンジン列、ピッチ列、速さ列、言語列、性別列及び声モデル列を含む。エンジン列は音声合成に用いる音声合成エンジンの識別情報を記憶する。ピッチ列は合成音声の音程を記憶する。速さ列は発話の速度を記憶する。言語列は発話する言語を記憶する。性別列は発話音声の性別を記憶する。声モデル列は音声合成エンジンが複数の音声モデルを備えている場合、音声合成に用いる音声モデルの識別情報（特定情報）を記憶する。

　図６は画面設定ＤＢの例を示す説明図である。画面設定ＤＢ１３４はアバター画像を表示する発表者画面の設定を記憶する。画面設定ＤＢ１３４は背景画像列、幅列、高さ列、位置列を含む。背景画像列はアバターの背景に表示する画像の情報を記憶する。背景の画像は静止画像でも動画像でもよい。図６に示す例では静止画像または動画画像ファイルの名称を、背景画像列は記憶する。幅列は発表者画面の幅を記憶する。高さ列は発表者画面の高さを記憶する。位置列は画面全体の中で、発表者画面を表示する位置を記憶する。

　図７は遷移設定ＤＢの例を示す説明図である。遷移設定ＤＢ１３５はスライドが次のスライドに遷移する際の設定を記憶する。遷移設定ＤＢ１３５はディレイ列及び切り替え列を含む。ディレイ列は表示しているスライドの発話テキストの音声読み上げが完了してから、次のスライドに遷移するまでの間隔時間（以下、「遷移間隔時間」という。）を記憶する。切り替え列は現在のスライドから次のスライドに切り替える際の効果、モーションを記憶する。

　次に、プレゼンテーションシステム１００で行われる処理について説明する。図８はメイン処理の手順例を示すフローチャートである。再生装置１の制御部１１は設定を読み込む（ステップＳ１）。設定は、基本設定ＤＢ１３１、発話設定ＤＢ１３３、画面設定ＤＢ１３４及び遷移設定ＤＢ１３５に記憶されている。制御部１１は読み込んだ設定に基づく設定画面を生成し、表示部１６に表示する（ステップＳ２）。設定項目は種々あるため、複数グループに分けられており、設定画面では、設定内容をグループ毎にタブ表示している。制御部１１は入力部１５を介して、ユーザの操作入力を受け付ける（ステップＳ３）。制御部１１は操作入力が設定画面のタブ切り替えであるか否かを判定する（ステップＳ４）。制御部１１は操作入力が設定画面のタブ切り替えであると判定した場合（ステップＳ４でＹＥＳ）、表示するタブを指定されたタブに切り替える（ステップＳ５）。制御部１１は操作入力が設定画面のタブ切り替えでないと判定した場合（ステップＳ４でＮＯ）、操作入力が設定の入力であるか否かを判定する（ステップＳ６）。制御部１１は操作入力が設定の入力であると判定した場合（ステップＳ６でＹＥＳ）、入力を受け付ける（ステップＳ７）。制御部１１は処理をステップＳ３へ戻す。この際、受け付けた入力内容が設定画面に反映される。制御部１１は操作入力が設定の入力でないと判定した場合（ステップＳ６でＮＯ）、操作入力が終了指示であるか否かを判定する（ステップＳ８）。制御部１１は操作入力が終了指示でないと判定した場合（ステップＳ８でＮＯ）、入力に応じたコマンドを実行し（ステップＳ９）、処理をステップＳ３へ戻す。制御部１１は操作入力が終了指示であると判定した場合（ステップＳ８でＹＥＳ）、処理を終了する。

　図９はコマンド実行処理の手順例を示すフローチャートである。制御部１１は実行するコマンドがスライドの再生であるか否かを判定する（ステップＳ２１）。制御部１１は実行するコマンドがスライドの再生であると判定した場合（ステップＳ２１でＹＥＳ）、スライドの再生を行う（ステップＳ２２）。再生完了後、制御部１１は処理を呼び出し元へ戻す。制御部１１は実行するコマンドがスライドの再生でないと判定した（ステップＳ２１でＮＯ）、実行するコマンドがＶＲモデル作成であるか否かを判定する（ステップＳ２３）。制御部１１は実行するコマンドがＶＲモデル作成であると判定した場合（ステップＳ２３でＹＥＳ）、ＶＲモデル作成を行う（ステップＳ２４）。モデル作成後、制御部１１は処理を呼び出し元へ戻す。制御部１１は実行するコマンドがＶＲモデル作成でないと判定した場合（ステップＳ２３でＮＯ）、処理を呼び出し元へ戻す。

　図１０は再生処理の手順例を示すフローチャートである。制御部１１は再生に必要な設定が済みであるか否かを判定する（ステップＳ３１）。制御部１１は再生に必要な設定が済みでないと判定した場合（ステップＳ３１でＮＯ）、エラー表示を行い（ステップＳ４１）、処理を呼び出し元へ戻す。必要な設定が済みでないと判定する場合には、再生するプレゼンテーションデータが指定されているが、当該データの存在を確認できない場合も含む。制御部１１は再生に必要な設定が済みであると判定した場合（ステップＳ３１でＹＥＳ）、ＶＲモデルデータを取得する（ステップＳ３２）。制御部１１はスライドデータを取得する（ステップＳ３３）。制御部１１はスライドを表示部１６に表示する（ステップＳ３４）。制御部１１はスライドデータに含まれる発話テキストを、音声合成サーバ２へ送信する（ステップＳ３５）。音声合成サーバ２は発話テキストの読み上げ音声のデータを作成し、作成した音声データを再生装置１へ送信する。制御部１１は音声データを音声合成サーバ２から受信する（ステップＳ３６）。制御部１１は動画を出力する（ステップＳ３７）。制御部１１はＶＲモデルデータより作成したアバターの動画（人物動画）を作成し、表示部１６に表示するとともに、発話テキストの読み上げ音声を音声出力部１７から出力する。制御部１１は読み上げ音声の出力が終了したか否かを判定する（ステップＳ３８）。制御部１１は読み上げ音声の出力が終了していないと判定した場合（ステップＳ３８でＮＯ）、ステップＳ３８を再度、実行する。制御部１１は読み上げ音声の出力が終了したと判定した場合（ステップＳ３８でＹＥＳ）、次のスライドデータがあるか否かを判定する（ステップＳ３９）。制御部１１は次のスライドデータがあると判定した場合（ステップＳ３９でＹＥＳ）、遷移間隔時間（所定時間）が経過した否かを判定する（ステップＳ４０）。制御部１１は遷移間隔時間が経過していないと判定した場合（ステップＳ４０でＮＯ）、ステップＳ４０を再度、実行する。制御部１１は遷移間隔時間が経過したと判定した場合（ステップＳ４０でＹＥＳ）、処理をステップＳ３３へ戻す。制御部１１は次のスライドデータがないと判定した場合（ステップＳ３９でＮＯ）、処理を呼び出し元へ戻す。

　図１１はＶＲモデル作成処理の手順例を示すフローチャートである。再生装置１の制御部１１はＶＲモデル作成に用いる画像を取得する（ステップＳ５１）。画像は人物のポートレートの写真画像である。制御部１１は取得した画像からＶＲモデルの作成を行う（ステップＳ５２）。制御部１１は、写真画像内の顔を認識し、２次元または３次元のＶＲモデルを生成する。制御部１１は目、口を認識、まばたきや話しをしているかのようなアニメーションを作成する。ＶＲモデルの作成は、公知技術を用いることが可能であるので、詳細な説明は省略する。ＶＲモデルの作成は再生装置１ではなく、外部サーバやクラウドサービスを利用して行ってもよい。制御部１１は作成したＶＲモデルの実体を補助記憶部１３に、ＶＲモデルの名称等の属性データをモデルＤＢ１３２に記憶し（ステップＳ５３）、処理を呼び出し元へ戻す。

　続いて、再生装置１が表示部１６に表示する画面の例について説明する。図１２は発表設定画面の例を示す説明図である。発表設定画面ｄ０１はスライドの再生を行うに当たり、最低限必要な設定を行う画面である。発表設定画面ｄ０１はモデル選択メニューｄ０１１、プレゼンデータ指定欄ｄ０１２、参照ボタンｄ０１３及び再生ボタンｄ０１４を含む。モデル選択メニューｄ０１１は、動画表示する発表者のモデルを選択するプルダウンメニューである。プレゼンデータ指定欄ｄ０１２は再生するプレゼンテーションデータのＵＲＩを入力する。参照ボタンｄ０１３を選択すると、ファイル選択のダイアログボックスが表示され、再生するプレゼンテーションデータとして、補助記憶部１３に記憶しているファイルを選択可能である。再生ボタンｄ０１４を選択するとスライドの再生（スライドショー）を開始する。

　図１３はモデル作成画面の例を示す説明図である。モデル作成画面ｄ０２はＶＲモデルを作成する際に使用する画面である。モデル作成画面ｄ０２は名称入力欄ｄ０２１、ファイル選択ボタンｄ０２２及び作成ボタンｄ０２３を含む。名称入力欄ｄ０２１には、新たに作成するＶＲモデルの名称を入力する。ファイル選択ボタンｄ０２２を選択すると、ファイル選択のダイアログボックスが表示され、ＶＲモデルの基となる人物の写真ファイルを選択することが可能となる。作成ボタンｄ０２３を選択すると、写真ファイルを基にＶＲデータが作成される。この際、再生装置１は写真内で人が写っている領域を認識して、人の領域以外は、背景画像として設定し、記憶する。

　図１４は発話設定画面の例を示す説明図である。発話設定画面ｄ０３は発話テキストの読み上げ音声についての設定を行う画面である。発話設定画面ｄ０３はエンジン選択メニューｄ０３１、ピッチ入力欄ｄ０３２、速度入力欄ｄ０３３、言語選択メニューｄ０３４、性別設定欄ｄ０３５及びモデル選択メニューｄ０３６を含む。エンジン選択メニューｄ０３１は発話テキストから読み上げ音声を作成する際に、利用する音声合成エンジンを選択するプルダウンメニューである。ピッチ入力欄ｄ０３２には音声のピッチ（高さ）の設定を入力する。０を入力すると既定の声の高さで音声が作成される。正の値を入力すると既定よりも高い声の高さで音声が作成される。負の値を入力すると既定よりも低い声の高さで音声が作成される。速度入力欄ｄ０３３は発話の速度設定を行う。０を入力すると既定の速度で、音声が再生される。正の値を入力すると既定よりも速い速度で音声が再生される。負の値を入力すると既定よりも遅い速度で音声が再生される。言語選択メニューｄ０３４は作成する音声の言語を選択メニューである。選択する言語は発話テキストが記述されている言語と一致する必要がある。性別設定欄ｄ０３５は音声の性別を設定する。モデル選択メニューｄ０３６は音声のモデルを選択するプルダウンメニューである。モデル選択メニューｄ０３６により選択可能な音声のモデルは、エンジン選択メニューｄ０３１、言語選択メニューｄ０３４及び性別設定欄ｄ０３５の設定によって、変動する。

　なお、音声のモデルとして、発表する人間の声のモデルを音声合成エンジンに登録しておけば、発表者自身の声が利用可能となる。この場合、発話設定ＤＢ１３３の声モデル列に氏名等の識別情報（話者識別情報）を記憶する。声のモデルの作成は、例えば、ＷａｖｅＮｅｔを利用する。ＷａｖｅＮｅｔはＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）により構成され、話者の声の特徴を学習し、音声を合成することが可能である。

　図１５は発表者設定画面の例を示す説明図である。発表者設定画面ｄ０４は発表者画面の設定を行う画面である。発表者設定画面ｄ０４は背景選択メニューｄ０４１、幅設定欄ｄ０４２、高さ設定欄ｄ０４３及び位置選択メニューｄ０４４を含む。背景選択メニューｄ０４１は発表者画面において、発表者の背景として表示する画像を選択するプルダウンメニューである。幅設定欄ｄ０４２には発表画面の幅を入力する。高さ設定欄ｄ０４３には発表者画面の高さを入力する。幅、高さの単位は例えばピクセルである。位置選択メニューｄ０４４は発表者画面の表示位置を選択するプルダウンメニューである。表示位置は、スライドを表示する画面を基準とした相対的な位置である。表示位置と例えば、右上、右下、左上又は左下である。

　図１６はスライドショー設定画面の例を示す説明図である。スライドショー設定画面ｄ０５はスライドの再生設定を行う画面である。スライドショー設定画面ｄ０５は時間設定欄ｄ０５１を含む。再生装置１は表示しているスライドに対応する発話テキストの読み上げ音声の再生が終わると、次のスライドを表示するが、音声の再生終了後から次のスライドを表示するまでに時間を置くことが可能である。時間設定欄ｄ０５１には、再生終了後から次のスライドを表示するまでの時間を秒単位で入力する。

　図１７はスライド再生画面及び発表者画面の例を示す説明図である。図１７では、スライド再生画面ｄ０６の右上に発表者画面ｄ０７を表示している。発表者画面ｄ０７は閉じるボタンｄ０７１、音量アイコンｄ０７２、進行バーｄ０７３、再生／一時停止アイコンｄ０７４及び表示頁アイコンｄ０７５を含む。これらはマウスポインタを発表者画面ｄ０７上に移動させた場合に表示される。閉じるボタンｄ０７１を選択すると、スライドの再生は停止され、発表者画面ｄ０７は閉じられる。音量アイコンｄ０７２を選択すると、トラックバーが表示され、トラックバーのつまみをドラッグすることより、音量を調整可能である。進行バーｄ０７３はスライドの再生位置をトラックバーにより表示する。つまみｄ０７３１をドラッグすることより、表示するスライドを戻したり、先へ進めたりすることが可能である。また、キーボードの左矢印キー、右矢印キーを押しても、表示するスライドを切り替える同様の操作が可能である。再生／一時停止アイコンｄ０７４は再生時に選択すると一時停止し、一時停止時に選択する再生を再開する。表示頁アイコンｄ０７５はスライド再生画面ｄ０６に表示しているスライドの順番号を表示する。

　本実施の形態は以下の効果を奏する。本実施の形態においては、プレゼンテーションデータを構成する各スライドデータに発話テキストを設定しておくことにより、発話テキストの読み上げ音声を出力しながら各スライドを順に再生するので、発表（プレゼンテーション）を自動化することが可能となる。また、ＶＲモデルの動画を表示する発表者画面をスライドと共に表示するので、単に動画を視聴する場合に比べて、臨場感を与えることが可能となる。また、スライドの再生を一時停止することが可能であるので、スライドや発話テキストには含まれていない事柄について、補足説明が可能である。また、プレゼンテーション中に質問を受け付けて、回答することも可能である。さらに、ＶＲモデルは写真から作成可能であるので、ＶＲモデルを実際の発表者の写真から生成し、発表者の声を学習したＷａｖｅＮｅｔを用いて、音声合成を行うことにより、発表者自身の動画（人物動画）と発表者自身の声による発話テキストの読み上げが可能となる。それにより、発表者自身がその場で発表しているかのような印象を視聴者に与えることが可能となる。そして、発話テキストはスピーカーノートに記述するので、内容の修正が容易であり、修正をしたらすぐに発表に反映することが可能である。そのため、即座の対応や微修正の繰り返しが容易に可能となる。

（実施の形態２）
　本実施の形態は発話テキストの翻訳を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態では、発話テキストの記述言語と読み上げ音声の言語（出力言語）とが異なる場合について述べる。本実施の形態は、例えば、発話テキストが日本語で記述し、発話設定画面ｄ０３において、言語選択メニューｄ０３４で英語を選択して、発表を行う。

　図１８は再生処理の他の手順例を示すフローチャートである。図１８に示すフローチャートの一部は、図１０と同様である。制御部１１は再生に必要な設定が済みであるか否かを判定する（ステップＳ６１）。制御部１１は再生に必要な設定が済みでないと判定した場合（ステップＳ６１でＮＯ）、エラー表示を行い（ステップＳ７４）、処理を呼び出し元へ戻す。制御部１１は再生に必要な設定が済みであると判定した場合（ステップＳ６１でＹＥＳ）、ＶＲモデルデータを取得する（ステップＳ６２）。制御部１１はスライドデータを取得する（ステップＳ６３）。制御部１１はスライドを表示部１６に表示する（ステップＳ６４）。制御部１１はスライドデータに含まれる発話テキストの記述言語を判定する（ステップＳ６５）。言語の判定は周知技術により可能である。例えば、言語の判定はその言語における文字数を数えて、割合を計算するなどの手法があるが、公知の技術であるので説明を省略する。制御部１１は判定した記述言語が読み上げ音声の言語と一致するか否かを判定する（ステップＳ６６）。制御部１１は記述言語が読み上げ音声の言語と一致しないと判定した場合（ステップＳ６６でＮＯ）、発話テキストの翻訳を行う（ステップＳ６７）。翻訳は再生装置１が行ってもよいが、公知のクラウドサービスを用いて行ってもよい。制御部１１は発話テキストを翻訳サービスサイトに送信し、翻訳された発話テキストを受信する。制御部１１は記述言語が読み上げ音声の言語と一致すると判定した場合（ステップＳ６６でＹＥＳ）、ステップＳ６８へ処理を進める。制御部１１は発話テキスト又は翻訳された発話テキストを、音声合成サーバ２へ送信する（ステップＳ６８）。ステップＳ６９からＳ７３の処理内容は、図１０に示したステップＳ３６からＳ４０の処理内容と同様であるから、説明を省略する。なお、上述した、言語の判定については、グェン　トアン　ドゥク，“Ｌａｔｅｎｔ　Ｒｅｌａｔｉｏｎａｌ　Ｗｅｂ　Ｓｅａｒｃｈ　Ｅｎｇｉｎｅ　Ｂａｓｅｄ　ｏｎ　ｔｈｅ　Ｒｅｌａｔｉｏｎａｌ　Ｓｅｍｉｌａｒｉｔｙ　ｂｅｔｗｅｅｎ　Ｅｎｔｉｔｙ　Ｐａｉｒｓ．”，２０１２年，東京大学，博士論文甲２８４８０等に開示されている。

　本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。本実施の形態では、発話テキストの記述言語と読み上げ音声の言語とが異なる場合であっても、発表が可能となる。なお、スライドに含まれるテキストデータを抽出し、当該テキストデータを読み上げ音声の言語へ翻訳して表示してもよい。

（実施の形態３）
　本実施の形態はスライド再生中にポインティングデバイスのポインタの制御を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態において、発話テキスト内にポインタの制御を行うための命令（制御命令）を記述可能とする。例えば、発話テキストを以下のように記述する。

　「ＡＭトークはマルチモーダルＡＩと、アアル・ピイ・エイの技術を利用するバーチャルプレゼンターのアプリケーションです。ＡＭトークはスライドを自動的に再生できます。合成音声でスライドの内容を読み上げ、スライドのページ送りを自動的に制御します。＜ｓｃｒｉｐｔ＞ｍｏｕｓｅ＿ｍｏｖｅ（ＰＲＥＳＥＮＷＩＮ，ＣＥＮＴＥＲ）＜／ｓｃｒｉｐｔ＞発表者の顔アニメーションを生成できます。」

　＜ｓｃｒｉｐｔ＞はスクリプトが始まることを示し、＜／ｓｃｒｉｐｔ＞はスクリプトが終わることを示す。関数ｍｏｕｓｅ＿ｍｏｖｅ（引数１，引数２）はポインティングデバイスのポインタを引数でしてした位置を移動させるコマンドである。例えば、引数１は表示されているウィンドウやスライドに含まれるオブジェクトを指定する。引数２は引数１で指定した表示要素内での位置をさらに指定するオプショナル引数であり指定しなくともよい。上述の例では、ＲＥＳＥＮＷＩＮは発表者画面を示し、ＣＥＮＴＥＲは表示要素の中心を示す。ｍｏｕｓｅ＿ｍｏｖｅ（ＰＲＥＳＥＮＷＩＮ，ＣＥＮＴＥＲ）を実行すると、ポインタが発表者画面の中心に移動する。

　図１９は再生処理の他の手順例を示すフローチャートである。図１９に示すフローチャートの一部は、図１０と同様である。制御部１１は再生に必要な設定が済みであるか否かを判定する（ステップＳ９１）。制御部１１は再生に必要な設定が済みでないと判定した場合（ステップＳ９１でＮＯ）、エラー表示を行い（ステップＳ１０４）、処理を呼び出し元へ戻す。制御部１１は再生に必要な設定が済みであると判定した場合（ステップＳ９１でＹＥＳ）、ＶＲモデルデータを取得する（ステップＳ９２）。制御部１１はスライドデータを取得する（ステップＳ９３）。制御部１１はスライドを表示部１６に表示する（ステップＳ９４）。制御部１１はスライドデータに含まれる発話テキストにスクリプトが記述されていないか探索する（ステップＳ９５）。制御部１１は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する（ステップＳ９６）。制御部１１は発話テキストにスクリプトが記述されていないと判定した場合（ステップＳ９６でＮＯ）、処理をステップＳ９７へ進める。ステップＳ９７からＳ１０２の処理内容は、図１０に示したステップＳ３５からＳ４０の処理内容と同様であるから、説明を省略する。制御部１１は発話テキストにスクリプトが記述されていると判定した場合（ステップＳ９６でＹＥＳ）、サブルーチン・スクリプト実行を行う（ステップＳ１０３）。制御部１１はステップＳ１０１以降を実行する。

　図２０はスクリプト実行処理の手順例を示すフローチャートである。制御部１１はスライドデータに含まれる発話テキストをスクリプトの前後で分割する（ステップＳ１１１）。制御部１１は分割した発話テキストを個別に音声合成サーバ２へ送信する（ステップＳ１１２）。制御部１１は音声合成サーバ２から音声データを受信する（ステップＳ１１３）。この際、制御部１１はスクリプト前の発話テキストに対応する音声データと、スクリプト後の発話テキストに対応する音声データとを判別可能なように、主記憶部１２又は補助記憶部１３に設けた一時記憶領域に記載順に記憶する。また、スクリプトの実行タイミングが判定可能なデータも一時記憶領域に記憶しておくことが望ましい。例えば、「ＴＥＸＴ１，ＳＣＲＩＰＴ１，ＴＥＸＴ２」という配列を記憶しておく。ＴＥＸＴ１はスクリプト前の発話テキストを、ＴＥＸＴ２はスクリプト後の発話テキストを、ＳＣＲＩＰＴ１はスクリプトを示す。当該配列を参照することにより、制御部１１は音声出力の途中に、スクリプトの実行を行うことが可能である。制御部１１は動画出力を開始する（ステップＳ１１４）。制御部１１は実行データを選択する（ステップＳ１１５）。制御部１１は実行データが音声データであり、音声出力を行うか否かを判定する（ステップＳ１１６）。制御部１１は音声出力を行うと判定した場合（ステップＳ１１６でＹＥＳ）、音声出力を行う（ステップＳ１１７）。制御部１１は音声出力が終了したか否かを判定する（ステップＳ１１８）。制御部１１は音声出力が終了してないと判定した場合（ステップＳ１１８でＮＯ）、ステップＳ１１８を再度行う。制御部１１は音声出力が終了したと判定した場合（ステップＳ１１８でＹＥＳ）、次に実行すべき処理があるか否かを判定する（ステップＳ１１９）。実行すべき処理は、音声出力又はスクリプト実行である。制御部１１は次に実行すべき処理があると判定した場合（ステップＳ１１９でＹＥＳ）、処理をステップＳ１１５へ戻す。制御部１１は次に実行すべき処理がないと判定した場合（ステップＳ１１９でＮＯ）、処理を呼び出し元へ戻す。制御部１１は音声出力を行なわないと判定した場合（ステップＳ１１６でＮＯ）、スクリプトを実行し（ステップＳ１２０）、処理をステップＳ１１９へ移す。ステップＳ１１６やステップＳ１１９の判定は、例えば、上述した配列を参照することにより可能である。

　再生処理により、上述の発話テキストでは、まず、「ＡＭトークはマルチモーダルＡＩと、…スライドのページ送りを自動的に制御します。」の読み上げ音声が出力される。次にスクリプトが実行され、ポインティングデバイスのポインタが、発表者画面の中心に移動する。そして「発表者の顔アニメーションを生成できます。」の読み上げ音声が出力される。

　本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。本実施の形態においては、スクリプトにより、ポインティングデバイスのポインタ移動等の制御が可能となる。スライド内で注目すべき箇所を視聴者に示すので、発表の効果を高めることが可能となる。なお、ポインティングデバイスのポインタ移動制御は、スクリプトの一例であり、他の制御も可能である。例えば、スライドの効果として、スライド内の複数テキストを一気に表示するのではなく、マウスクリックする毎に、表示するテキストを追加する効果がある。このような効果を実行する場合、発話テキストの中に、マウスクリックするスクリプトを記述し、当該スクリプトを実行することにより、人手を介すことなく実行可能である。なお、本実施の形態において、実施の形態２で示した翻訳機能を設けてもよい。また、スクリプトにより、キーボードの操作をエミュレートしてもよい。

（実施の形態４）
　本実施の形態はＶＲモデルを用いた発表者の制御を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態は実施の形態３に関連する形態である。

　上述の実施の形態では、発表者画面に表示するＶＲモデルを用いた発表者は、目と口を動作させている。本実施の形態においては、ジェスチャーも可能とする。ジェスチャーを行わせるためには、発話テキストにスクリプトを記載する。

　発表者に行わせるジェスチャーは、例えば、所定方向を指し示すコマンドと通常の姿勢に戻るコマンドとが想定される。所定方向は、右上、真上、左上、左下、真下及び右下等である。例えば、スクリプトに記述する関数として、ｐｒｓｔｒ＿ｐｏｓｅ（引数）を設ける。引数はＵＲ（右上）、ＤＡ（真上）、ＵＬ（左上）、ＬＬ（左下）、ＤＢ（真下）、ＬＲ（右下）及びＮＲ（通常）。引数ＬＬを指定すると、発表者は発表者画面の左下方向を指し示す。引数ＮＲを指定すると、発表者は指し示す姿勢を通常の姿勢に戻す。

　本実施の形態において、再生装置１が行なう再生処理は上述の実施の形態と同様であるから、説明を省略する。また、ＶＲモデルにより発表者にジェスチャーを行わせる制御は公知の技術で可能であるので、説明を省略する。

　図２１はスライド再生画面及び発表者画面の他の例を示す説明図である。図２１では、スライド再生画面ｄ０６の中央下に発表者画面ｄ０７を表示している。そして、発表者画面ｄ０７に表示している発表者は、真上方向を指し示している。なお、図２１の発表者画面ｄ０７において、発表者は指し棒（指示棒）を持っているが、指し棒は必ずしも表示する必要はない。

　本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。発表者にジェスチャーを行わせることより、視聴者がスライドの内容に注目することを期待できる。

（実施の形態５）
　本実施の形態は他のアプリケーションソフトとの連携動作を行なう形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。

　まず、スライドの表示要素に動画が含まれている場合の処理について説明する。図２２及び図２３は再生処理の他の手順例を示すフローチャートである。図２２及び図２３に示すフローチャートの一部は、図１９と同様である。制御部１１は再生に必要な設定が済みであるか否かを判定する（ステップＳ１３１）。制御部１１は再生に必要な設定が済みでないと判定した場合（ステップＳ１３１でＮＯ）、エラー表示を行い（ステップＳ１５１）、処理を呼び出し元へ戻す。制御部１１は再生に必要な設定が済みであると判定した場合（ステップＳ１３１でＹＥＳ）、ＶＲモデルデータを取得する（ステップＳ１３２）。制御部１１はスライドデータを取得する（ステップＳ１３３）。制御部１１はスライドデータに含まれる表示要素に動画があるか探索する（ステップＳ１３４）。制御部１１は探索結果から表示要素に動画があるか否かを判定する（ステップＳ１３５）。制御部１１は探索結果から表示要素に動画があると判定した場合（ステップＳ１３５でＹＥＳ）、発話テキストにスクリプトが記述されていないか探索する（ステップ１３６）。制御部１１は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する（ステップＳ１３７）。制御部１１は発話テキストにスクリプトが記述されていないと判定した場合（ステップＳ１３７でＮＯ）、スライドを表示する共に表示要素である動画の再生を開始する（ステップＳ１３８）。制御部１１は必要に応じて、動画再生のアプリケーションを起動し、動画を再生する。この際、スライド再生画面及び発表者画面を最小化し、動画再生画面を全画面表示とすることが望ましい。制御部１１は動画再生が終了したか否かを判定する（ステップＳ１３９）。制御部１１は動画再生が終了していないと判定した場合（ステップＳ１３９でＮＯ）、再度、ステップＳ１１９を実行する。制御部１１は動画再生が終了したと判定した場合（ステップＳ１３９でＹＥＳ）、画面の表示状態を動画再生前の状態へ戻し、処理をステップＳ１４９（図２３）へ進める。なお、ステップＳ１３７でＮＯと判定された場合、発話テキストは書かれていないことが前提である。もし、発話テキストに何か書かれていても、その内容は無視されて、読み上げ音声は出力されない。発話テキストにスクリプトが含まれていない場合、動画を再生するタイミングを制御部１１は判定できないからである。

　制御部１１は発話テキストにスクリプトが記述されていると判定した場合（ステップＳ１３７でＹＥＳ）、制御部１１はスライドを表示部１６に表示する（ステップＳ１４０）。制御部１１はサブルーチン・スクリプト実行を行う（ステップＳ１４１）。なお、ここでは発話テキストに記載されたスクリプトの中には、動画再生の命令が書かれていることが前提である。発話テキストに動画再生の命令が書かれていない場合は、動画は再生されない。また、スクリプト実行処理において、動画再生の命令が実行される場合、当該命令は動画再生が完了するまで、処理を完了しない。動画再生が完了すると、処理を完了する。制御部１１はサブルーチン・スクリプト実行後、処理をステップＳ１４９へ移す。

　制御部１１は探索結果から表示要素に動画がないと判定した場合（ステップＳ１３５でＮＯ）、制御部１１はスライドデータに含まれる発話テキストにスクリプトが記述されていないか探索する（ステップＳ１４２）。制御部１１は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する（ステップＳ１４３）。制御部１１は発話テキストにスクリプトが記述されていないと判定した場合（ステップＳ１４３でＮＯ）、発話テキストを音声合成サーバ２へ送信する（ステップＳ１４４）。制御部１１は音声合成サーバ２から音声データを受信する（ステップＳ１４５）。制御部１１はスライドを表示部１６に表示する（ステップＳ１４６）。制御部１１は処理をステップＳ１４７（図２３）へ移す。制御部１１は発表者動画を出力する（ステップＳ１４７）。ステップＳ１４８からステップＳ１５０は、図１０のステップＳ３８からＳ４０と同様であるから説明を省略する。制御部１１は発話テキストにスクリプトが記述されていると判定した場合（ステップＳ１４３でＹＥＳ）、処理をステップＳ１４０へ移す。

　以上、動画の再生について説明したが、ＵＲＬ（リンク情報）が表示要素に含まれている場合も同様である。ただし、動画の場合と異なり、発話テキストにスクリプトが含まれていない場合でも、ＵＲＬで指定されたデータを出力するために、直ちにインターネットブラウザを起動はしない。発話テキストにＵＲＬが含まれている否かを探索する。探索の結果、発話テキストにＵＲＬが含まれているときは、記載されたＵＲＬを出力するために、インターネットブラウザを起動するスクリプトが記載されていると解釈する。なお、動画再生時と同様に、インターネットブラウザを表示する際、スライド再生画面及び発表者画面を最小化し、インターネットブラウザを全画面表示とすることが望ましい。また、インターネットブラウザでの表示を終了し、スライド再生に戻るスクリプトが発話テキストに書かれていない場合、制御部１１は所定時間が経過したら、インターネットブラウザでの表示を終了し、スライド再生に戻す。

　本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。スライドの再生途中で、他のアプリケーションの実行が可能となるので、発表内容をより充実させることが可能となる。なお、他のアプリケーションにおいても、スクリプトの実行が可能である場合、他のアプリケーションでもスクリプトを実行させれば、スライド再生で行える動作が多彩となり、発表内容をさらに充実させることが可能となる。

　なお、表示要素に動画を含めていない場合でも、ＵＲＬで動画ファイル等を指定すれば、インターネットブラウザを、利用して又は介して、動画の再生が可能である。また、動画再生中にスクリプトの実行を可能とし、スクリプトでマウスポインタの位置制御とクリック操作を行えば、動画を一時停止して、発話テキストを読み上げ音声を出力し、音声が終了したら、動画の再生を再開するなどの動作も可能である。

（実施の形態６）
　本実施の形態はスライドデータに発表者ノートが含まれていない場合の動作に関する形態である。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態においては、スライドデータに発表者ノートが含まれていない場合、スライドデータに含まれるオブジェクトを利用して、発話テキストを作成する。

　図２４は再生処理の他の手順例を示すフローチャートである。図２４は、図１０に示した再生処理に新たな処理を追加することを示している。再生処理において、制御部１１はスライド表示（ステップＳ３４）を行った後、スライドデータに発表者ノートが含まれているか否かを判定する（ステップＳ１６１）。制御部１１はスライドデータに発表者ノートが含まれていると判定した場合（ステップＳ１６１でＹＥＳ）、処理を図１０のステップＳ３５へ移す。制御部１１はスライドデータに発表者ノートが含まれていないと判定した場合（ステップＳ１６１でＮＯ）、スライドを構成するオブジェクトを対象に、テキストオブジェクトを探索する（ステップＳ１６２）。制御部１１はテキストオブジェクトがあるか否かを判定する（ステップＳ１６３）。制御部１１はテキストオブジェクトがあると判定した場合（ステップＳ１６３でＹＥＳ）、テキストオブジェクトのテキストから発話テキストを作成する（ステップＳ１６４）。例えば、箇条書きのテキストが得られた場合、助詞や助動詞等を補い、文章作成し、発話テキストとする。制御部１１は処理を図１０のステップＳ３５へ移す。制御部１１はテキストオブジェクトがないと判定した場合（ステップＳ１６３でＮＯ）、画像オブジェクトに対して文字認識を行なう（ステップＳ１６５）。例えば、ＯＣＲ（Ｏｐｔｉｃａｌ　ｃｈａｒａｃｔｅｒ　ｒｅｃｏｇｎｉｔｉｏｎ）技術を用いる。制御部１１は認識処理の結果、文字が得られたか否かを判定する（ステップＳ１６６）。制御部１１は文字が得られたと判定した場合（ステップＳ１６６でＹＥＳ）、処理をステップＳ１６４へ移す。制御部１１は文字が得られなかったと判定した場合（ステップＳ１６６でＮＯ）、スライドデータに含まれる画像オブジェクトを選択し、画像を説明するキャプションを生成し（ステップＳ１６７）、処理を図１０のステップＳ３５へ移す。キャプションの生成には、画像キャプション自動生成ＡＩを用いる。例えば、画像キャプション自動生成ＡＩはＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）とＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）とを組み合わせた深層学習モデルを用いる。当該学習モデルでは次の手順で学習を行なう。学習済みＣＮＮで画像の特徴量を抽出する。ＬＳＴＭで文章の特徴量を抽出する。ＣＮＮとＬＳＴＭの特徴量を結合する。Ｓｏｆｔｍａｘ関数で次に来る単語を予測する。これらのステップを繰り返すことで、画像のキャプションを学習モデルは生成する。学習モデルが生成したキャプションが正解のキャプションに近づくように、学習モデルを訓練する。訓練済みの学習モデルにおいて、ＣＮＮに画像を入力し、ＬＳＴＭに文開始記号を入力すると、キャプションを生成することができる。

　上述の説明において、実施の形態１の再生処理を変形する例を述べたが、それに限らない。他の実施形態の再生処理を変形することも可能である。

　本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。発表者ノートを用意しなくとも、ＶＲモデルを用いた発表者による発表の自動化が可能となる。

　各実施の形態で記載されている技術的特徴（構成要件）はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
　今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

　１００　　プレゼンテーションシステム
　１　　　　再生装置
　１Ｐ　　　制御プログラム
　１１　　　制御部
　１２　　　主記憶部
　１３　　　補助記憶部
　１３１　　基本設定ＤＢ
　１３２　　モデルＤＢ
　１３３　　発話設定ＤＢ
　１３４　　画面設定ＤＢ
　１３５　　遷移設定ＤＢ
　１３６　　ＶＲモデルデータ
　１３７　　プレゼンテーションデータ
　１４　　　通信部
　１５　　　入力部
　１６　　　表示部
　１７　　　音声出力部
　１８　　　読み取り部
　１ａ　　　可搬型記憶媒体
　１ｂ　　　半導体メモリ
　２　　　　音声合成サーバ
　Ｂ　　　　バス
　Ｎ　　　　ネットワーク

Claims

　発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、
　複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する
　処理をコンピュータに行わせることを特徴とするスライド再生プログラム。
　１枚の静止画像を取得し、
　取得した前記静止画像に基づいて、前記人物動画を作成する
　ことを特徴とする請求項１に記載のスライド再生プログラム。
　出力言語を取得し、
　前記発話テキストを前記出力言語に翻訳し、翻訳した発話テキストの読み上げ音声を出力する
　ことを特徴とする請求項１又は請求項２に記載のスライド再生プログラム。
　出力している前記表示要素に対応する前記発話テキストの読み上げ音声の出力完了後に、前記スライドデータの次のスライドデータの前記表示要素を出力する
　ことを特徴とする請求項１から請求項３のいずれか一項に記載のスライド再生プログラム。
　前記読み上げ音声の出力完了後、さらに所定時間の経過後に、前記スライドデータの次のスライドデータの前記表示要素を出力する
　ことを特徴とする請求項４に記載のスライド再生プログラム。
　性別を含む音声合成モデルを特定する特定情報、並びに、声の高さ及び発話の速さを受け付け、
　前記特定情報に対応した前記音声合成モデルに基づき、受け付けた声の高さ、及び、発話の速さで、前記発話テキストの読み上げ音声を出力する
　ことを特徴とする請求項１から請求項５のいずれか一項に記載のスライド再生プログラム。
　前記音声合成モデルは、特定の話者の発話音声を学習して生成したモデルを含み、
　前記特定情報は話者を特定する話者識別情報を含み、該話者識別情報に対応する前記音声合成モデルに基づき、前記読み上げ音声を出力する
　ことを特徴とする請求項６に記載のスライド再生プログラム。
　前記表示要素が動画である場合、該動画の再生を行う
　ことを特徴とする請求項１から請求項７のいずれか一項に記載のスライド再生プログラム。
　前記スライドデータは、制御命令を含めることが可能であり、
　出力対象となっている前記スライドデータにポインティングデバイスにより制御されるポインタの前記制御命令が含まれている場合、当該制御命令に従い、前記ポインタを制御する
　ことを特徴とする請求項１から請求項８のいずれか一項に記載のスライド再生プログラム。
　前記表示要素は全画面表示で出力し、
　出力対象となっている前記スライドデータに、他のアプリケーションソフトへ遷移するリンク情報が含まれている場合、前記表示要素を表示している画面を最小化し、前記アプリケーションソフトへ制御を渡し、
　前記アプリケーションソフトから制御が戻った場合、前記表示要素を全画面表示で再出力する
　ことを特徴とする請求項１から請求項９のいずれか一項に記載のスライド再生プログラム。
　出力対象となっている前記スライドデータに、人物に所定のジェスチャーを行わせる制御命令が含まれている場合、当該制御命令に従ったジェスチャーを行う前記人物動画を出力する
　ことを特徴とする請求項１から請求項１０のいずれか一項に記載のスライド再生プログラム。
　前記プレゼンテーションデータは、前記発話テキストを含まないスライドデータを含み、当該スライドデータに含む前記表示要素から発話テキストを生成する
　ことを特徴とする請求項１から請求項１１のいずれか一項に記載のスライド再生プログラム。
　発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得する取得部と、
　複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する出力部と
　を備えることを特徴とするスライド再生装置。
　コンピュータが、
　発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、
　複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する
　処理を行うことを特徴とするスライド再生方法。