WO2023090419A1

WO2023090419A1 - コンテンツ生成装置、コンテンツ生成方法、及びプログラム

Info

Publication number: WO2023090419A1
Application number: PCT/JP2022/042847
Authority: WO
Inventors: 平張; 汐里多田
Original assignee: 凸版印刷株式会社
Priority date: 2021-11-19
Filing date: 2022-11-18
Publication date: 2023-05-25

Abstract

このコンテンツ生成装置（２０）は、読み上げ対象である第１のテキストを示すテキストデータを取得する取得部（２４１）と、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいてユーザの音声による第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得されたテキストデータが示す第１のテキストがユーザの音声で読み上げられる合成音声を生成する音声生成部（２４６）と、生成された合成音声と、ユーザの本人画像とを合成して合成コンテンツを生成する合成部（２４８）と、を備える。

Description

コンテンツ生成装置、コンテンツ生成方法、及びプログラム

　本発明は、コンテンツ生成装置、コンテンツ生成方法、及びプログラムに関する。
　本願は、２０２１年１１月１９日に日本に出願された特願２０２１－１８８７９１号に基づき優先権を主張し、その内容をここに援用する。

　従来、ユーザを表すキャラクターなどをアバターとして用いて、ユーザ間のコミュニケーションを行うための技術が各種提案されている。

　例えば、下記特許文献１には、自立的で動きのあるキャラクターをアバターとして用いて、ユーザ間における文書に関するコミュニケーションを促進する技術が開示されている。当該技術では、予めユーザの音声を録音した音声データを用意しておき、当該音声データが再生された際にアバターの表情が変化するよう定義しておくことで、当該音声データと対応するテキストをアバターが読み上げているように見せることができる。これにより、例えば、話し手であるユーザ本人の代わりにアバターにプレゼンテーションを行わせることができる。

日本国特開平１１－３１２１６０号公報

　しかしながら、上記特許文献１の技術のように、話し手のアバターと話し手の音声データを単に用いるだけでは、話し手の本人らしさを十分に再現できず、プレゼンテーションの聞き手に違和感を与えてしまう。聞き手は、この違和感によってプレゼンテーションに対する集中力が妨げられてしまう。

　上述の課題を鑑み、本発明の目的は、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することが可能なコンテンツ生成装置、コンテンツ生成方法、及びプログラムを提供することにある。

　上述の課題を解決するために、本発明の一態様に係るコンテンツ生成装置は、読み上げ対象である第１のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、を備える。

　本発明の一態様に係る、コンテンツ生成方法は、取得部が、読み上げ対象である第１のテキストを示すテキストデータを取得する取得過程と、音声生成部が、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、合成部が、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成過程と、を含む。

　本発明の一態様に係るプログラムは、コンピュータを、読み上げ対象である第１のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、として機能させる。

　本発明によれば、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することができる。

本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。本実施形態に係るプレゼンデータの一例を示す図である。本実施形態に係るプレゼンデータの一例を示す図である。本実施形態に係るプレゼンデータの一例を示す図である。本実施形態に係る合成動画の一例を示す図である。本実施形態に係る合成動画の一例を示す図である。本実施形態に係る合成動画の一例を示す図である。本実施形態に係る音声生成モデルの生成における処理の流れの一例を示すフローチャートである。本実施形態に係る画像生成モデルの生成における処理の流れの一例を示すフローチャートである。本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。本実施形態の一変形例に係る合成動画の一例を示す図である。本実施形態の一変形例に係る合成動画の生成における処理の流れの一例を示すフローチャートである。本実施形態の一変形例に係る合成動画の一例を示す図である。

　以下、図面を参照しながら本発明の実施形態について詳しく説明する。

＜１．コンテンツ生成システムの構成＞
　図１を参照して、本実施形態に係るコンテンツ生成システムの構成について説明する。図１は、本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。
　図１に示すように、コンテンツ生成システム１は、ユーザ端末１０と、コンテンツ生成装置２０とを備える。ユーザ端末１０とコンテンツ生成装置２０は、ネットワークＮＷを介して、通信可能に接続されている。なお、ユーザ端末１０とコンテンツ生成装置２０は、それぞれ有線通信又は無線通信のいずれによって接続されてもよい。

　（１）コンテンツ生成システム１
　コンテンツ生成システム１は、ユーザのデジタルクローンがユーザの代わりに資料の説明を行うコンテンツを生成するシステムである。コンテンツは、例えば、画像コンテンツ、ＷＥＢコンテンツ、３Ｄ（３次元）コンテンツ、３Ｄホログラムコンテンツなどである。画像コンテンツは、静止画や動画（映像）などの画像によってデジタルクローンを表示するコンテンツである。ＷＥＢコンテンツは、ＷＥＢのブラウザ上で表示される３Ｄ空間内にデジタルクローンを表示するコンテンツである。３Ｄコンテンツは、３Ｄのデジタルクローンに話をさせるコンテンツである。３Ｄホログラムは、３Ｄホログラムを使ってデジタルクローンを投影するコンテンツである。
　デジタルクローンは、ユーザのデジタル化された複製である。デジタルクローンは、ユーザ本人の画像（以下、「本人画像」とも称される）によって表され、ユーザ本人の音声（以下、「本人音声」とも称される）によって資料のテキストを読み上げる。

　コンテンツ生成システム１は、ユーザの音声、ユーザの画像、資料の画像などを合成することでコンテンツを生成する。合成によって生成されたコンテンツは、以下では「合成コンテンツ」とも称される。合成コンテンツは、画像コンテンツ、ＷＥＢコンテンツ、３Ｄコンテンツ、３Ｄホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じた合成によって生成される。
　以下では、ユーザが利用するコンテンツが画像コンテンツであり、コンテンツ生成システム１がユーザの音声、ユーザの画像、資料の画像などを合成し、デジタルクローンが資料の説明を行う動画（以下、「合成動画」とも称される）を合成コンテンツとして生成する例について説明する。

　コンテンツ生成システム１は、資料のデータに基づき、コンテンツを生成する。資料のデータは、読み上げ対象である第１のテキストを示すデータ（以下、「テキストデータ」とも称される）と、テキストデータの内容と対応して表示されるデータ（以下、「表示データ」とも称される）を少なくとも含むデータである。
　以下では、一例として、資料がプレゼンテーションに用いられる資料である例について説明する。また、一例として、資料のデータ（以下、「プレゼンデータ」とも称される）がマイクロソフト社のパワーポイントを用いて作成されたデータである例について説明する。パワーポイントのデータは、テキストデータと表示データの両方を含むデータである。具体的に、テキストデータは、ノート部に入力されているテキストである。また、表示データは、主にスライドであり、スライドに付帯されている動画やアニメーションが含まれてもよい。

　コンテンツ生成システム１は、テキストデータに基づき、第１のテキストがユーザの本人音声で読み上げられる音声（以下、「合成音声」とも称される）を生成する。コンテンツ生成システム１は、機械学習によって学習した学習済みモデルを用いて合成音声を生成する。合成音声を生成する学習済みモデルは、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいてユーザの音声による第２のテキストの読み上げ方を学習したモデル（以下、「音声生成モデル」とも称される）である。
　学習対象となるユーザの読み上げ方は、例えば、ユーザに特有のイントネーション、アクセント、読み上げ速度などである。
　音声生成モデルは、テキストデータが入力されると、当該テキストデータが示す第１のテキストをユーザの本人音声と読み上げ方で読み上げる合成音声を生成して出力することができる。これにより、コンテンツ生成システム１は、プレゼンデータのテキストデータを音声生成モデルに入力することで、当該テキストデータが示す第１のテキストがユーザの本人音声と読み上げ方で読み上げられる合成音声を取得することができる。

　また、コンテンツ生成システム１は、ユーザの本人画像に基づき、デジタルクローン用の本人画像（以下、「合成用本人画像」とも称される）を生成する。合成用本人画像は、静止画又は動画（映像）のいずれであってもよい。コンテンツ生成システム１は、機械学習によって学習した学習済みモデルを用いて合成用本人画像を生成する。合成用本人画像を生成する学習済みモデルは、ユーザの本人画像に基づいてユーザの動作を学習したモデル（以下、「画像生成モデル」とも称される）である。
　学習対象となるユーザの動作は、例えば、ユーザの顔の動きやジェスチャーである。ユーザの顔の動きは、例えば、読み上げに応じた口元の動きや表情の変化である。ジェスチャーは、例えば、読み上げに応じた頭の動きや身振り手振りである。
　画像生成モデルは、ユーザの音声（例えば合成音声）が入力されると、当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することができる。これにより、コンテンツ生成システム１は、プレゼンデータのテキストデータに基づき生成された合成音声を画像生成モデルに入力することで、当該合成音声に応じて動作が変化する本人画像を、合成用本人画像として取得することができる。

　そして、コンテンツ生成システム１は、生成した合成音声と合成用本人画像を合成することで、ユーザのデジタルクローンを表すデータ（以下、「クローンデータ」とも称される）を生成する。
　クローンデータでは、読み上げ対象である第１のテキストがユーザの本人音声によって読み上げられ、当該第１のテキストの内容に応じてユーザが動作を行っているように本人画像が変化する。例えば、本人画像は、読み上げられている第１のテキスト（出力されている本人音声）に合わせてユーザの口元やユーザの表情が変化したり、ユーザが頭を動かしたり身振り手振りを行っているように変化したりする。
　このように、ユーザ本人の音声に合わせてユーザ本人の画像が変化することで、音声と画像との間に生じるズレが低減し、聞き手に与える違和感を低減することできる。

　クローンデータは、画像コンテンツ、ＷＥＢコンテンツ、３Ｄコンテンツ、３Ｄホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じたデータ形式で生成される。
　以下では、ユーザが利用するコンテンツが画像コンテンツであり、ユーザのデジタルクローンを表す動画（以下、「クローン動画」とも称される）をクローンデータとして生成する例について説明する。

　コンテンツ生成システム１は、表示データに基づき、合成音声と対応して表示される画像（以下、「表示画像」とも称される）を生成する。また、コンテンツ生成システム１は、テキストデータに基づき、字幕として表示されるテキストのデータ（以下、「字幕テキスト」とも称される）を生成する。そして、コンテンツ生成システム１は、クローン動画と表示画像と字幕テキストを合成することで、ユーザのデジタルクローンが資料の内容を説明している動画を合成動画として生成する。合成動画は、コンテンツ生成システム１で生成されるコンテンツの一例である。
　合成動画では、表示されている資料の内容に応じて、ユーザのデジタルクローンが第１のテキストの読み上げを行う。これにより、ユーザのデジタルクローンがユーザの代わりに資料の説明を行っているように見せることができる。

　（２）ユーザ端末１０
　ユーザ端末１０は、ユーザによって利用される端末である。ユーザ端末１０は、入力装置（マウス、キーボード、タッチパネルなど）、出力装置（ディスプレイ、スピーカなど）、中央処理装置などを備える。ユーザ端末１０は、例えば、ＰＣ（Personal Computer）、スマートフォン、タブレットなどのような端末であればいずれを用いるようにしてもよい。

　ユーザは、ユーザ端末１０を操作して、音声生成モデル及び画像生成モデルの生成（学習）に必要な情報と、合成動画の生成に必要な情報をコンテンツ生成装置２０へアップロードする。
　音声生成モデルの生成に必要な情報は、学習対象である第２のテキストをユーザが読み上げた音声（以下、「学習用音声」とも称される）である。学習用音声は、例えば、ユーザに２００個程の第２のテキストを実際に読み上げてもらうことで生成される。画像生成モデルの生成に必要な情報は、学習用のユーザの本人画像（以下、「学習用本人画像」とも称される）である。学習用本人画像は、静止画又は動画（映像）のいずれであってもよいが、画像生成モデルは動画の方がユーザの動作の変化をより精度高く学習することができる。
　合成動画の生成に必要な情報は、プレゼンデータである。コンテンツ生成装置２０は、アップロードされたプレゼンデータに基づき、音声生成モデルと画像生成モデルを用いて合成動画を生成する。
　ユーザは、ユーザ端末１０を操作して、コンテンツ生成装置２０から合成動画をダウンロードして再生することで、自身の代わりにデジタルクローンにプレゼンテーションを行わせることができる。

　（３）コンテンツ生成装置２０
　コンテンツ生成装置２０は、合成動画（コンテンツの一例）を生成する装置である。コンテンツ生成装置２０は、入力装置（マウス、キーボード、タッチパネルなど）、出力装置（ディスプレイ、スピーカなど）、中央処理装置などを備える。コンテンツ生成装置２０は、例えば、ＰＣ（Personal Computer）によって実現されるサーバ装置である。

　コンテンツ生成装置２０は、ユーザ端末１０からアップロードされる各種情報に基づき、音声生成モデル、画像生成モデル、及び合成動画の生成を行う。
　具体的に、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされた学習用音声に基づき、音声生成モデルを生成する。また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされた学習用本人画像に基づき、画像生成モデルを生成する。また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされたプレゼンデータの表示データに基づき、表示画像を生成する。また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされたプレゼンデータのテキストデータに基づき、字幕テキストを生成する。
　また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされたプレゼンデータのテキストデータを音声生成モデルに入力して合成音声を生成し、生成した合成音声を画像生成モデルに入力して合成用本人画像を生成し、生成した合成音声と合成用本人画像を合成してクローン動画を生成する。そして、コンテンツ生成装置２０は、生成した表示画像と字幕テキストとクローン動画を合成して合成動画を生成する。

＜２．コンテンツ生成装置の機能構成＞
　以上、本実施形態に係るコンテンツ生成システム１の構成について説明した。続いて、図１から図７を参照して、本実施形態に係るコンテンツ生成装置２０の機能構成について説明する。
　図１に示すように、コンテンツ生成装置２０は、通信部２１０と、入力部２２０と、記憶部２３０と、制御部２４０と、出力部２５０とを備える。

　（１）通信部２１０
　通信部２１０は、各種情報の送受信を行う機能を有する。例えば、通信部２１０は、ネットワークＮＷを介して、ユーザ端末１０と通信を行う。通信部２１０は、ユーザ端末１０との通信において、音声生成モデルの生成に必要な情報である学習用音声を受信する。また、通信部２１０は、ユーザ端末１０との通信において、画像生成モデルの生成に必要な情報である学習用本人画像を受信する。また、通信部２１０は、ユーザ端末１０との通信において、合成動画の生成に必要な情報であるプレゼンデータを受信する。また、通信部２１０は、ユーザ端末１０との通信において、合成動画を送信する。

　（２）入力部２２０
　入力部２２０は、入力を受け付ける機能を有する。例えば、入力部２２０は、コンテンツ生成装置２０がハードウェアとして備えるマウス、キーボード、タッチパネルなどの入力装置によって入力された情報の入力を受け付ける。

　（３）記憶部２３０
　記憶部２３０は、各種情報を記憶する機能を有する。記憶部２３０は、コンテンツ生成装置２０がハードウェアとして備える記憶媒体、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ(Solid State Drive)、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＡＭ（Random Access read/write Memory）、ＲＯＭ（Read Only Memory）、又はこれらの記憶媒体の任意の組み合わせによって構成される。
　図１に示すように、記憶部２３０は、音声生成モデル２３１と画像生成モデル２３２を記憶する。また、記憶部２３０は、通信部２１０がユーザ端末１０から受信した学習用音声、学習用本人画像、プレゼンデータなどを記憶してもよい。また、記憶部２３０は、コンテンツ生成装置２０にて生成された表示画像、字幕テキスト、合成音声、合成用本人画像、クローン動画、合成動画などを記憶してもよい。

　（４）制御部２４０
　制御部２４０は、コンテンツ生成装置２０の動作全般を制御する機能を有する。制御部２４０は、例えば、コンテンツ生成装置２０がハードウェアとして備えるＣＰＵ（Central Processing Unit）にプログラムを実行させることによって実現される。
　図１に示すように、制御部２４０は、取得部２４１と、学習部２４２と、分割部２４３と、再生時間決定部２４４と、字幕生成部２４５と、音声生成部２４６と、画像生成部２４７と、合成部２４８と、出力処理部２４９とを備える。

　　（４－１）取得部２４１
　取得部２４１は、各種情報を取得する機能を有する。例えば、取得部２４１は、通信部２１０がユーザ端末１０から受信した学習用音声、学習用本人画像、プレゼンデータを取得する。取得部２４１は、プレゼンデータから、読み上げ対象であるテキストデータと、当該テキストデータの内容と対応して表示される表示データを取得する。

　ここで、図２から図４を参照して、取得部２４１が取得するプレゼンデータの一例について説明する。図２から図４は、本実施形態に係るプレゼンデータの一例を示す図である。図２から図４には、ｎ枚（ｎは自然数）のスライド３１－１～３１－ｎで構成されるプレゼンデータ３０が示されている。プレゼンデータ３０の表示領域ＤＡ１にはスライド３１－１～３１－ｎが表示されている。プレゼンデータ３０の表示領域ＤＡ２にはスライド３１－１～３１－ｎのうち選択されたスライドが表示されている。プレゼンデータ３０の表示領域ＤＡ３にはスライド３１－１～３１－ｎのうち選択されたスライドに対応する第１のテキストが表示されている。

　図２は、１枚目のスライドを示す図である。図２に示すように、表示領域ＤＡ２には、１枚目のスライド３１－１が表示され、表示領域ＤＡ３にはスライド３１－１に対応する第１のテキスト３２－１が表示されている。
　図３は、２枚目のスライドを示す図である。図３に示すように、表示領域ＤＡ２には、２枚目のスライド３１－２が表示され、表示領域ＤＡ３にはスライド３１－２に対応する第１のテキスト３２－２が表示されている。
　図４は、ｎ枚目のスライドを示す図である。図４に示すように、表示領域ＤＡ２には、ｎ枚目のスライド３１－ｎが表示され、表示領域ＤＡ３にはスライド３１－ｎに対応する第１のテキスト３２－ｎが表示されている。
　取得部２４１は、プレゼンデータ３０から、スライド３１－１～３１－ｎを表示データとして取得し、第１のテキスト３２－１～３２－ｎをテキストデータとして取得する。

　　（４－２）学習部２４２
　学習部２４２は、学習済みモデルを生成する機能を有する。例えば、学習部２４２は、取得部２４１によって取得された学習データを用いた機械学習によって学習済みモデルを生成する。

　具体的に、学習部２４２は、取得部２４１によって取得された学習用音声を教師データとして用いて、ユーザの音声によるテキストの読み上げ方を機械学習する。当該機械学習により、学習部２４２は、テキストデータが入力された場合に当該テキストデータが示す第１のテキストをユーザの本人音声で読み上げる合成音声を生成して出力することが可能な音声生成モデル２３１を生成する。
　本実施形態では、学習部２４２は、テキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、学習用音声（教師データ）を転移学習させることで、本人オリジナルの音声生成モデル２３１を生成する。なお、音声生成モデル２３１を生成するための既存の学習済みモデルは、記憶部２３０に予め記憶されている。また、音声生成モデル２３１を生成するための既存の学習済みモデルは、一般的なイントネーションやアクセントを示す辞書を有しており、一般的なイントネーションやアクセントについては再現できる。
　既存の学習済みモデルが複数用意されている場合、学習部２４２は、１つの学習済みモデルに対して１人のユーザの学習用音声のみを学習させることで、複数のユーザの本人オリジナルの音声生成モデル２３１を生成することができる。また、言語ごとに既存の学習済みモデルが用意されている場合、学習部２４２は、各言語の学習済みモデルにユーザの学習用音声を転移学習させることで、言語ごとに本人オリジナルの音声生成モデル２３１を生成することができる。
　学習部２４２は、生成した音声生成モデル２３１を記憶部２３０に書き込んで、記憶させる。

　また、学習部２４２は、取得部２４１によって取得された学習用本人画像を用いて、ユーザの動作を機械学習する。当該機械学習により、学習部２４２は、合成音声が入力された場合に当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することが可能な画像生成モデル２３２を学習済みモデルとして生成する。
　本実施形態では、学習部２４２は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、学習用本人画像（教師データ）を転移学習させることで、本人オリジナルの画像生成モデル２３２を生成する。なお、画像生成モデル２３２を生成するための既存の学習済みモデルは、記憶部２３０に予め記憶されている。また、画像生成モデル２３２を生成するための既存の学習済みモデルは、例えば、ＧＡＮ（Generative Adversarial Network）を用いて、予め音声と同期した口の動きを学習したモデルである。
　既存の学習済みモデルが複数用意されている場合、学習部２４２は、１つの学習済みモデルに対して１人のユーザの学習用本人画像のみを学習させることで、複数のユーザの本人オリジナルの画像生成モデル２３２を生成することができる。
　学習部２４２は、生成した画像生成モデル２３２を記憶部２３０に書き込んで、記憶させる。

　　（４－３）分割部２４３
　分割部２４３は、第１のテキスト（テキストデータ）を分割する機能を有する。例えば、分割部２４３は、第１のテキストの分割箇所を示す入力に基づき、第１のテキストを複数に分割する。分割箇所を示す入力は、例えば、改行である。分割部２４３は、第１のテキストを改行ごとに複数の文章に分割する。分割部２４３が第１のテキストを分割することで、第１のテキストは分割された文章単位で読み上げられる。これにより、分割された１つの文章が読み上げられる度に音声が途切れるため、第１のテキストの読み上げに間を持たせることができる。

　例えば、図２に示した第１のテキスト３２－１の場合、「それでは、・・・ご説明します。」の後に改行が入力されている。「本中期経営計画に基づき、・・・経営基盤の強化に」の後は改行されているように見えるが、これはノート部の表示範囲に基づく折り返し表示であり、この部分に改行は入力されていない。そのため、分割部２４３は、第１のテキスト３２－１を、「それでは、・・・ご説明します。」の文章と、「本中期経営計画に基づき、・・・注力してまいります。」の文章の２つに分割する。
　また、図３に示した第１のテキスト３２－２の場合、「“デジタルトランスフォーメーション”を・・・展開します。」の後に改行が入力されている。そのため、分割部２４３は、第１のテキスト３２－２を、「“デジタルトランスフォーメーション”を・・・展開します。」の文章と、「弊社は、・・・はかってまいります。」の文章の２つに分割する。
　また、図４に示した第１のテキスト３２－ｎの場合、改行は入力されていない。そのため、分割部２４３は、第１のテキスト３２－ｎを分割しない。

　　（４－４）再生時間決定部２４４
　再生時間決定部２４４は、合成動画の再生時間を決定する機能を有する。例えば、再生時間決定部２４４は、第１のテキストの文字数に基づき、合成動画の再生時間を決定する。具体的に、再生時間決定部２４４は、取得されたテキストデータごとに、テキストが示す第１のテキストの文字数を時間に換算することで、当該テキストデータと対応する表示画像の再生時間を決定する。
　また、再生時間決定部２４４は、合成音声の読み上げ速度に基づき、合成動画の再生時間を決定してもよい。具体的に、再生時間決定部２４４は、取得されたテキストデータごとに、読み上げ速度に基づき読み上げ終わる時間を算出することで、当該テキストデータと対応する表示画像の再生時間を決定する。
　表示画像が複数ある場合、再生時間決定部２４４は、各表示画像の再生時間を合計することで合成動画の再生時間を算出する。
　なお、再生時間決定部２４４は、第１のテキストの文字数と読み上げ速度の両方に基づき、合成動画の再生時間を決定してもよい。

　また、再生時間決定部２４４は、第１のテキストの読み上げにおける間を考慮して、合成動画の再生時間を決定してもよい。例えば、再生時間決定部２４４は、分割部２４３によって分割された文章の数に応じて、間の表現に必要な時間を算出し、上述した文字数や読み上げ速度に基づき算出した再生時間に加算する。

　　（４－５）字幕生成部２４５
　字幕生成部２４５は、字幕テキストを生成する機能を有する。例えば、字幕生成部２４５は、取得部２４１によって取得されたテキストデータに基づき、字幕テキストを生成する。具体的に、字幕生成部２４５は、分割部２４３によって分割された文章単位で字幕テキストを生成する。

　なお、取得部２４１によって取得されたテキストデータに用いられている言語と音声生成モデル２３１が対応している言語とが異なる場合、字幕生成部２４５は、音声生成モデル２３１が対応している言語に応じてテキストデータを翻訳した字幕テキストを生成してもよい。

　　（４－６）音声生成部２４６
　音声生成部２４６は、合成音声を生成する機能を有する。例えば、音声生成部２４６は、ユーザの本人オリジナルの音声生成モデル２３１を用いて、取得部２４１によって取得されたテキストデータが示す第１の音声がユーザの音声で読み上げられる合成音声を生成する。
　音声生成部２４６は、分割部２４３によって分割されたテキストデータ（文章）ごとに合成音声を生成する。これにより、生成された複数の合成音声の１つが読み上げられる度に音声が途切れるため、テキストデータが示す第１のテキストの読み上げに間を持たせることができる。

　なお、第１の言語（例えば日本語）が使用されているテキストデータから、第１の言語とは異なる第２の言語（例えば英語）で読み上げられる合成音声の生成が必要であるとする。この場合、音声生成部２４６は、第１の言語に対応する音声生成モデル２３１が学習に用いた第１の言語による学習用音声（教師データ）に基づき転移学習した、第２の言語に対応する音声生成モデル２３１を用いる。これにより、音声生成部２４６は、第１の言語で示されるテキストデータが示す第１のテキストが第２の言語を用いたユーザの音声で読み上げられる合成音声を生成することができる。

　　（４－７）画像生成部２４７
　画像生成部２４７は、合成動画を生成するための各種画像を生成する機能を有する。例えば、画像生成部２４７は、取得部２４１によって取得された表示データに基づき、合成音声と対応して表示される表示画像を生成する。具体的に、画像生成部２４７は、表示データを画像に変換することで表示画像を生成する。

　また、画像生成部２４７は、ユーザの本人オリジナルの画像生成モデル２３２を用いて、音声生成モデル２３１によって生成された合成音声に応じてユーザの動作が変化する合成用本人画像を生成する。
　例えば、画像生成部２４７は、合成音声による読み上げに応じてユーザの顔の動きが変化する合成用本人画像を生成する。具体的に、画像生成部２４７は、合成音声による読み上げに応じてユーザの口元の動きや表情が変化する合成用本人画像を生成する。
　また、画像生成部２４７は、合成音声による読み上げに応じてユーザがジェスチャーを行っているように変化する合成用本人画像を生成してもよい。具体的に、画像生成部２４７は、合成音声による読み上げに応じてユーザが頭を動かしたり、ユーザが身振り手振りを行ったりする合成用本人画像を生成する。
　このようにして、画像生成部２４７は、ユーザがテキストを読み上げる際やプレゼンテーションを行う際のユーザ本人の動きを再現した合成用本人画像を生成する。これにより、クローン動画のクローンは、より自然にユーザ本人らしい動きをしながらテキストの読み上げやプレゼンテーションを行うことができる。

　　（４－８）合成部２４８
　合成部２４８は、各種の合成を行う機能を有する。例えば、合成部２４８は、音声生成部２４６によって生成された合成音声と画像生成部２４７によって生成された表示画像と、ユーザの本人画像とを少なくとも合成して合成動画を生成する。具体的に、合成部２４８は、音声生成部２４６によって生成された合成音声と画像生成部２４７によって生成された合成用本人画像とを合成してクローン動画を生成する。そして、合成部２４８は、表示画像と生成したクローン動画とを合成して合成動画を生成する。

　なお、図２から図４に示したプレゼンデータのように複数のスライド（表示データ）と複数の第１のテキスト（テキストデータ）がある場合、１組のスライドと第１のテキストごとに表示画像、合成音声、合成用本人画像が生成される。そのため、合成部２４８は、１組のスライドと第１のテキストごとにクローン動画を生成し、合成動画を生成する。これにより、１つのプレゼンデータからスライドの数だけ合成動画が生成される。そして、合成部２４８は、１つのプレゼンデータから生成した複数の合成動画を合成することで、最終的な１つの合成動画を生成する。
　また、分割部２４３によって１つの第１のテキストが複数の文章に分割された場合、音声生成部２４６によって１つの第１のテキストから複数の合成音声が生成される。そのため、画像生成部２４７は、複数の合成音声のそれぞれに対して合成用本人画像を生成する。これにより、合成部２４８は、複数の合成音声と複数の合成用本人画像をそれぞれ対応させて合成することで、１つのクローン動画を生成する。

　さらに、合成部２４８は、表示画像とクローン動画に加え、字幕生成部２４５によって生成された字幕テキストも合成して合成動画を生成してもよい。合成部２４８は、字幕テキストを合成する際に、一度に１つの字幕テキストのみが表示されるように合成してもよいし、一度に複数の字幕テキストが表示されるように合成してもよい。

　ここで、図５から図７を参照して、合成部２４８が生成する合成動画の一例について説明する。図５から図７は、本実施形態に係る合成動画の一例を示す図である。図５から図７には、図２から図４に示したプレゼンデータ３０に基づき生成された合成動画の一部がそれぞれ示されている。

　図５には、プレゼンデータ３０に基づき生成された合成動画の一部として、図２に示したスライド３１－１及び第１のテキスト３２－１に基づき生成された合成動画４０－１が示されている。図５に示すように、合成動画４０－１は、表示画像４１－１、クローン動画４２－１、及び字幕テキスト４３－１で構成されている。合成動画のうち合成動画４０－１の部分が再生されると、クローン動画４２－１に表示されているユーザのクローンは、ユーザ本人の音声を用いてユーザ本人の読み上げ方で、表示されている字幕テキスト４３－１を読み上げる。表示されている字幕テキスト４３－１の読み上げが終了すると、次の字幕テキスト４３－１が表示される。合成動画４０－１に含まれる全ての字幕テキスト４３－１の読み上げが終了すると、表示画像４１－１は次の画像に切り替わる（即ち合成動画のうちの次の部分が再生される）。
　図６には、プレゼンデータ３０に基づき生成された合成動画の一部として、図３に示したスライド３１－２及び第１のテキスト３２－２に基づき生成された合成動画４０－２が示されている。図６に示すように、合成動画４０－２は、表示画像４１－２、クローン動画４２－２、及び字幕テキスト４３－２で構成されている。合成動画のうちの合成動画４０－１の部分の再生が終了すると、合成動画４０－１の部分と同様に合成動画４０－２の部分が再生される。
　図７には、プレゼンデータ３０に基づき生成された合成動画の一部として、図４に示したスライド３１－ｎ及び第１のテキスト３２－ｎに基づき生成された合成動画４０－ｎが示されている。図７に示すように、合成動画４０－ｎは、表示画像４１－ｎ、クローン動画４２－ｎ、及び字幕テキスト４３－ｎで構成されている。合成動画４０－ｎは、合成動画のうちの最後の部分である。合成動画のうちの合成動画４０－ｎの部分は、合成動画４０－１及び合成動画４０－２の部分と同様に再生され、合成動画４０－ｎの部分の再生が終了すると合成動画全体の再生が終了する。

　　（４－９）出力処理部２４９
　出力処理部２４９は、各種の出力を制御する機能を有する。例えば、出力処理部２４９は、合成部２４８によって生成された合成動画をユーザ端末１０へ送信する。また、出力処理部２４９は、合成部２４８によって生成された合成動画を再生し、再生されている映像及び音声をユーザ端末１０へ送信し、ユーザ端末１０に出力させてもよい。

　（５）出力部２５０
　出力部２５０は、各種情報を出力する機能を有する。出力部２５０は、例えば、コンテンツ生成装置２０がハードウェアとして備えるディスプレイやタッチパネルなどの表示装置、スピーカなどの音声出力装置によって実現される。出力部２５０は、出力処理部２４９からの入力に応じて、例えば画面や音声などを出力する。

＜３．処理の流れ＞
　以上、本実施形態に係るコンテンツ生成装置２０の機能構成について説明した。続いて、図８から図１０を参照して、本実施形態に係るコンテンツ生成装置２０が行う処理の流れについて説明する。

　（１）音声生成モデルの生成処理
　図８を参照して、コンテンツ生成装置２０による音声生成モデル２３１の生成処理について説明する。図８は、本実施形態に係る音声生成モデル２３１の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置２０は、合成動画の生成を行うために、予め音声生成モデル２３１を生成し、用意しておく。

　図８に示すように、まず、コンテンツ生成装置２０の取得部２４１は、学習用音声を取得する（ステップＳ１０１）。具体的に、取得部２４１は、コンテンツ生成装置２０の通信部２１０がユーザ端末１０から受信した学習用音声を取得する。

　次いで、コンテンツ生成装置２０の学習部２４２は、音声生成モデル２３１を生成する（ステップＳ１０２）。具体的に、学習部２４２は、学習対象である第２のテキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、取得部２４１が取得した学習用音声（教師データ）を転移学習させることで、ユーザの本人オリジナルの音声生成モデル２３１を生成する。なお、音声生成モデル２３１を生成するための既存の学習済みモデルは、コンテンツ生成装置２０の記憶部２３０に予め記憶されている。

　そして、学習部２４２は、生成した音声生成モデル２３１を記憶部２３０に書き込んで、記憶させる（ステップＳ１０３）。

　（２）画像生成モデルの生成処理
　図９を参照して、コンテンツ生成装置２０による画像生成モデル２３２の生成処理について説明する。図９は、本実施形態に係る画像生成モデル２３２の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置２０は、合成動画の生成を行うために、予め画像生成モデル２３２を生成し、用意しておく。

　図９に示すように、まず、取得部２４１は、学習用本人画像を取得する（ステップＳ２０１）。具体的に、取得部２４１は、通信部２１０がユーザ端末１０から受信した学習用本人画像を取得する。

　次いで、学習部２４２は、画像生成モデル２３２を生成する（ステップＳ２０２）。具体的に、学習部２４２は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、取得部２４１が取得した学習用本人画像（教師データ）を転移学習させることで、ユーザの本人オリジナルの画像生成モデル２３２を生成する。なお、画像生成モデル２３２を生成するための既存の学習済みモデルは、コンテンツ生成装置２０の記憶部２３０に予め記憶されている。

　そして、学習部２４２は、生成した画像生成モデル２３２を記憶部２３０に書き込んで、記憶させる（ステップＳ２０３）。

　（３）合成動画の生成処理
　図１０を参照して、コンテンツ生成装置２０による合成動画の生成処理について説明する。図１０は、本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。

　図１０に示すように、まず、取得部２４１は、プレゼンデータを取得する（ステップＳ３０１）。具体的に、取得部２４１は、通信部２１０がユーザ端末１０から受信したプレゼンデータを取得する。

　次いで、取得部２４１は、表示データを取得する（ステップＳ３０２）。具体的に、取得部２４１は、取得したプレゼンデータに含まれるスライドを表示データとして取得する。

　次いで、コンテンツ生成装置２０の画像生成部２４７は、表示画像を生成する（ステップＳ３０３）。具体的に、画像生成部２４７は、取得部２４１によって取得された表示データを画像に変換することで、表示画像を生成する。

　次いで、取得部２４１は、テキストデータを取得する（ステップＳ３０４）。具体的に、取得部２４１は、取得したプレゼンデータに含まれるノート部の第１のテキストをテキストデータとして取得する。

　次いで、コンテンツ生成装置２０の分割部２４３は、分割処理を行う（ステップＳ３０５）。具体的に、分割部２４３は、取得部２４１が取得した第１のテキストを改行ごとに分割することで、１つの第１のテキストを複数の文章に分割する。

　次いで、コンテンツ生成装置２０の再生時間決定部２４４は、合成動画の再生時間を決定する（ステップＳ３０６）。具体的に、再生時間決定部２４４は、第１のテキストの文字数、読み上げ速度、分割された第１のテキストの間などに基づき、合成動画の再生時間を決定する。

　次いで、コンテンツ生成装置２０の字幕生成部２４５は、字幕テキストを生成する（ステップＳ３０７）。具体的に、字幕生成部２４５は、分割された第１のテキスト単位で字幕テキストを生成する。

　次いで、コンテンツ生成装置２０の音声生成部２４６は、合成音声を生成する（ステップＳ３０８）。具体的に、音声生成部２４６は、記憶部２３０に記憶されている音声生成モデル２３１に対して、分割部２４３によって分割された複数の文章を１つずつ入力する。これにより、音声生成モデル２３１によって合成音声が生成される。そして、音声生成部２４６は、音声生成モデル２３１から出力される合成音声を取得する。

　次いで、画像生成部２４７は、合成用本人画像を生成する（ステップＳ３０９）。具体的に、画像生成部２４７は、記憶部２３０に記憶されている画像生成モデル２３２に対して、音声生成部２４６によって生成された合成音声を１つずつ入力する。これにより、画像生成モデル２３２によって合成用本人画像が生成される。そして、画像生成部２４７は、画像生成モデル２３２から出力される合成用本人画像を取得する。

　次いで、コンテンツ生成装置２０の合成部２４８は、クローン動画を生成する（ステップＳ３１０）。具体的に、合成部２４８は、音声生成部２４６によって生成された合成音声ごとに、画像生成部２４７によって生成された合成用本人画像を合成し、クローン動画を生成する。

　次いで、合成部２４８は、合成動画を生成する（ステップＳ３１１）。具体的に、合成部２４８は、画像生成部２４７によって生成された表示画像と、字幕生成部２４５によって生成された字幕テキストと、合成したクローン動画とを合成し、合成動画を生成する。　合成動画の生成後、コンテンツ生成装置２０は処理を終了する。なお、コンテンツ生成装置２０は、必要に応じて、生成した合成動画を記憶部２３０に書き込んで記憶したり、ユーザ端末１０へ送信したりしてもよい。

　以上説明したように、本実施形態に係るコンテンツ生成装置２０は、取得部２４１と、音声生成部２４６と、画像生成部２４７と、合成部２４８とを備える。
　取得部２４１は、読み上げ対象である第１のテキストを示すテキストデータと、当該テキストデータの内容と対応して表示される表示データを取得する。
　音声生成部２４６は、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいてユーザの音声による第２のテキストの読み上げ方を学習した音声生成モデル２３１を用いて、取得されたテキストデータが示す第１のテキストがユーザの音声で読み上げられる合成音声を生成する。
　画像生成部２４７は、取得された表示データに基づき、合成音声と対応して表示される表示画像を生成する。
　合成部２４８は、生成された合成音声及び表示画像と、ユーザの本人画像とを合成して合成コンテンツを生成する。

　かかる構成により、生成された合成コンテンツを再生すると、読み上げ対象であるテキストデータが示す第１のテキストがユーザ本人の音声かつユーザ本人らしい読み上げ方で読み上げられる。
　よって、本実施形態に係るコンテンツ生成装置２０は、テキストの読み上げにおいて聞き手に与える違和感を低減するとともに、より本人らしさを表現することを可能とする。

＜４．変形例＞
　以上、本発明の実施形態について説明した。続いて、本発明の実施形態の変形例について説明する。なお、以下に説明する各変形例は、単独で本発明の実施形態に適用されてもよいし、組み合わせで本発明の実施形態に適用されてもよい。また、各変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の実施形態で説明した構成に対して追加的に適用されてもよい。

　例えば、音声生成部２４６は、パラメータを調整することによって、合成音声でユーザの感情を表現してもよい。音声生成部２４６は、テキストデータの内容に応じて、例えば喜びが８割、驚きが２割のようにパラメータを設定する。なお、感情の種類は、喜びと驚き以外にも悲しみや怒りなど様々な感情が組み合わせられてよい。これにより、音声生成部２４６は、ユーザ本人らしい読み上げ方に加え、テキストデータの内容に応じた多様な感情も表現可能な合成音声を生成することができるようになる。

　また、コンテンツ生成装置２０は、合成部２４８によって生成された合成コンテンツを編集可能な機能を有してもよい。ユーザは、ユーザ端末１０に編集内容を入力する。コンテンツ生成装置２０は、ユーザ端末１０に対するユーザの入力に応じて、合成コンテンツを編集する。当該機能では、例えば、スライド（表示画像）、字幕テキスト、クローンデータの音声や本人画像などの編集が可能である。スライドの編集では、スライドの内容の編集や、複数あるスライドの表示順の入れ替え、新規スライドの追加、既存スライドの削除などが可能である。

　また、上述の実施形態では、複数の合成音声と複数の合成用本人画像とが合成されたクローン動画が、１つの表示画像に対して合成される例について説明したが、かかる例に限定されない。例えば、１つの合成音声と１つの合成用本人画像とが合成されたクローン動画に対して、複数の表示画像が合成されてもよい。この場合、１つの合成音声による読み上げが終了するまでの間に、複数の表示画像が切り替わって表示される。

　また、上述の実施形態では、資料のデータがパワーポイントのデータである例について説明したが、かかる例に限定されない。例えば、資料のデータは、テキストデータと表示データを含むデータであれば、マイクロソフト社のワードを用いて作成されたデータ、マイクロソフト社のエクセルを用いて作成されたデータ、ＰＤＦ（Portable Document Format）データなどであってもよい。また、資料のデータは、テキストデータのみを含むデータと表示データのみを含むデータとの組み合わせであってもよい。

　また、上述の実施形態では、コンテンツ生成システム１がユーザ端末１０（クライアント）とコンテンツ生成装置２０（サーバ）とで構成される例について説明したが、かかる例に限定されない。例えば、コンテンツ生成システム１は、ユーザが直接操作可能なコンテンツ生成装置２０のみで構成されてもよい。即ち、コンテンツ生成装置２０がユーザ端末１０としての役割も担ってよい。この場合、ユーザは、端末をネットワークＮＷに接続することなく合成コンテンツを生成して利用することができる。
　また、コンテンツ生成装置２０の機能は、複数の装置によって実現されてもよい。例えば、音声生成モデル２３１や画像生成モデル２３２を生成するための機能は他の装置によって実現されてもよい。この場合、コンテンツ生成装置２０は、他の装置によって生成された音声生成モデル２３１と画像生成モデル２３２を記憶部２３０に記憶することで、上述の実施形態と同様にして合成コンテンツを生成することができる。

　また、上述の実施形態では、取得部２４１が、プレゼンデータに含まれるスライドを表示データとして取得し、画像生成部２４７が、取得部２４１によって取得された表示データを画像に変換して表示画像を生成する例について説明したが、かかる例に限定されない。
　取得部２４１が、デジタルクローンによって読み上げられるテキストデータを取得し、表示データを取得せず、画像生成部２４７が、生成された合成音声に応じてユーザの動作が変化する合成用本人画像（デジタルクローン）を生成し、合成音声と対応して表示される表示画像を生成しない構成であってもよい。
　本変形例において、図１１に示すように、表示される合成動画５０は、合成音声とデジタルクローン５１とを合成した動画（クローン動画５２）であり、合成動画５０に、画像生成部２４７が生成するスライド等の表示画像は含まれない。
　本変形例において、クローン動画５２内に字幕テキストを表示してもよい。一方、字幕テキストが不要な場合は、上述の実施形態におけるコンテンツ生成装置２０の構成要素のうち、字幕生成部２４５は省略してもよい。
　次に、本変形例の合成動画の生成における処理の流れを、図１２を参照して説明する。本変形例のコンテンツ生成装置２０は、図１２に示すように、上述の実施形態におけるステップのうち、ステップＳ３０４、Ｓ３０５、Ｓ３０６、Ｓ３０８、Ｓ３０９、Ｓ３１０を順に実行する。上述の実施形態と異なる点を以下に説明する。
　ステップＳ３０４において、取得部２４１は、デジタルクローンが読み上げるテキストデータを少なくとも取得する。分割処理のステップＳ３０５、及び再生時間決定のステップＳ３０６は共に実行するが、テキストデータが既に分割されている場合はステップＳ３０５、及びこのステップを実行する分割部２４３は省略してもよく、再生時間を決定する必要がなければ、ステップＳ３０６、及びこのステップを実行する再生時間決定部２４４は省略してもよい。
　ステップＳ３０９において、画像生成部２４７は、生成された合成音声に応じてユーザの動作が変化する合成用本人画像（デジタルクローン）を生成する一方で、合成音声と対応して表示されるスライド等の表示画像は生成しない。
　本変形例では、生成される合成動画には、合成音声と合成用本人画像が含まれるが、表示画像は含まれないため、ステップＳ３１０のクローン動画生成によって合成動画の生成は終了する。すなわち、本変形例において、上述の実施形態におけるステップＳ３１１は必須ではない。ただし、合成動画に字幕テキストを含める場合は、ステップＳ３１１において、クローン動画と字幕テキストとを合成し、合成動画としてもよい。

　また、上述の実施形態では、図５～図７に示すように、スライド等の表示画像４１－１～４１－ｎが平面的に表示された例について説明したが、かかる例に限定されない。
　例えば図１３に示すように、コンテンツ生成装置２０が、３Ｄ空間内に３Ｄ表示されたスライド等の表示画像及びデジタルクローン（３Ｄアバター）が配置された３Ｄコンテンツを生成してもよい。図１３に示すように、本変形例のコンテンツ生成装置２０が生成する合成動画６０は、３Ｄ空間６１内に、３Ｄ表示された２つの表示画像６２、６３と３Ｄアバター６４とが配置されている。２つの表示画像６２、６３の各々は、合成動画６０の左右方向における一方の端部（合成動画６０の周縁部に近い端部）が他方の端部よりも合成動画６０の視聴者側に位置するように斜めに表現されている。ただし、３Ｄ空間の表示は図１３に示した例に限定されず、表示画像の数、大きさ、配置位置、傾斜の向きなどは適宜変更してよい。２つの表示画像６２、６３には、スライド、静止画、動画、及び字幕テキスト等が表示される。２つの表示画像６２、６３に、合成動画６０の視聴者がＳＮＳ（Social Networking Service）にアップロードしたコメント等がリアルタイムで表示されるように構成してもよい。図１３において、３Ｄアバター６４は２つの表示画像６２、６３よりも視聴者側に位置するように表現されているが、これに限定されず、表示画像を用いた説明や合成音声等に合わせて、３Ｄアバター６４を３Ｄ空間６１内で動き回らせたり、３Ｄアバター６４の表情を変えたり、口、頭、手、足、胴体といった部位を動かしたりしてもよい。また、上述した実施形態では、まず合成音声とユーザの本人画像からクローン動画を作成し、このクローン動画を用いて合成動画を作成しているが、３Ｄ空間を用いた３Ｄコンテンツの場合は、本人画像を用いてユーザに相当する３Ｄアバターを作成し、３Ｄ空間内で合成音声に合わせて３Ｄアバターの例えば口を動かしている状況を抽出することで合成動画を制作してもよい。すなわち、クローン動画の生成と合成動画の生成とが同時に行われてもよく、これは上述した実施形態においても同様である。

　また、上述の実施形態では、図５～図７に示すように、合成動画４０－１～４０－ｎの各々には、スライド、静止画、及び動画等の表示画像４１－１～４１－ｎ、クローン動画４２－１～４２－ｎ、並びに字幕テキスト４３－１～４３－ｎが同時に表示された例について説明したが、かかる例に限定されない。
　例えば、本変形例の合成動画は、スライド、静止画、及び動画等の表示画像、クローン動画、並びに字幕テキスト等が連続的に組み合わされ、時間と共に表示態様が変化する動画であってもよい。言い換えれば、再生されている合成動画の一時点において、スライド、静止画、動画、クローン動画、及び字幕テキスト等のうち、少なくとも１つが表示されるような動画であってもよい。

　また、上述の実施形態では、画像生成部２４７が、合成音声に応じてユーザの動作が変化する合成用本人画像（本人画像）を生成し、合成部２４８が、合成音声と、生成された合成用本人画像とを用いて合成動画を生成する例について説明したが、かかる例に限定されない。
　例えば、合成部２４８が、合成音声とは独立したユーザの本人画像（以下、独立本人画像と称する場合がある）を用いて合成動画を生成してもよい。独立本人画像は、合成音声に応じてユーザの動作が変化しない本人画像であり、例えば、ユーザの静止画像や、ユーザの画像（デジタルクローン）における口が合成音声とは関係なく動いている動画等が挙げられる。独立本人画像は、ユーザ端末１０から通信部２１０を介して取得される画像であってもよいし、画像生成部２４７が学習用本人画像から生成する画像であってもよい。独立本人画像がユーザ端末１０から通信部２１０を介して取得される場合は、コンテンツ生成装置２０における画像生成部２４７を省略してもよい。

　以上、本発明の実施形態の変形例について説明した。
　なお、上述した実施形態におけるコンテンツ生成装置２０の一部又は全部をコンピュータで実現するようにしてもよい。このコンピュータは、少なくとも、１つのプロセッサと１つのメモリとを含んでいてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
　なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
　また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

　なお、本発明は以下の態様も含む。
　本発明の一態様は、プログラムを非一時的に記憶する記録媒体であって、前記プログラムは、コンピュータを、読み上げ対象である第１のテキストを示すテキストデータを取得する取得部と、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、として機能させる。

　以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…コンテンツ生成システム、１０…ユーザ端末、２０…コンテンツ生成装置、３０…プレゼンデータ、３１－１～３０－ｎ…スライド、３２－１～３２－ｎ…第１のテキスト、４０－１～４０－ｎ…合成動画、４１－１～４１－ｎ…表示画像、４２－１～４２－ｎ…クローン動画、４３－１～４３－ｎ…字幕テキスト、２１０…通信部、２２０…入力部、２３０…記憶部、２３１…音声生成モデル、２３２…画像生成モデル、２４０…制御部、２４１…取得部、２４２…学習部、２４３…分割部、２４４…再生時間決定部、２４５…字幕生成部、２４６…音声生成部、２４７…画像生成部、２４８…合成部、２４９…出力処理部、２５０…出力部

Claims

　読み上げ対象である第１のテキストを示すテキストデータを取得する取得部と、
　ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
　生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、
　を備えるコンテンツ生成装置。
　前記取得部は、前記テキストデータの内容と対応して表示される表示データを取得し、
　前記コンテンツ生成装置は、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成部をさらに備え、
　前記合成部は、生成された前記合成音声及び前記表示画像と、前記ユーザの前記本人画像とを合成して合成コンテンツを生成する、
　請求項１に記載のコンテンツ生成装置。
　前記合成部は、前記合成音声と前記本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを生成し、前記表示画像と生成された前記クローンデータとを合成して前記合成コンテンツを生成する、
　請求項２に記載のコンテンツ生成装置。
　前記画像生成部は、前記ユーザの学習用本人画像に基づいて前記ユーザの動作を学習した画像生成モデルを用いて、生成された前記合成音声に応じて前記ユーザの動作が変化する前記本人画像を生成し、
　前記合成部は、生成された前記本人画像を用いて前記合成コンテンツを生成する、
　請求項２又は請求項３に記載のコンテンツ生成装置。
　前記画像生成部は、前記合成音声による読み上げに応じて前記ユーザの顔の動きが変化する前記本人画像を生成する、
　請求項４に記載のコンテンツ生成装置。
　前記画像生成部は、前記合成音声による読み上げに応じて前記ユーザがジェスチャーを行っているように変化する前記本人画像を生成する、
　請求項４又は請求項５に記載のコンテンツ生成装置。
　前記第１のテキストの分割箇所を示す入力に基づき、前記第１のテキストを複数に分割する分割部、
　をさらに備え、
　前記音声生成部は、分割された前記第１のテキストごとに前記合成音声を生成する、
　請求項１から請求項６のいずれか１項に記載のコンテンツ生成装置。
　前記第１のテキストの文字数に基づき、前記合成コンテンツの再生時間を決定する再生時間決定部、
　をさらに備える請求項１から請求項７のいずれか１項に記載のコンテンツ生成装置。
　前記再生時間決定部は、前記合成音声の読み上げ速度に基づき、前記合成コンテンツの再生時間を決定する、
　請求項８に記載のコンテンツ生成装置。
　前記再生時間決定部は、前記第１のテキストの文字数又は前記合成音声の読み上げ速度の少なくともいずれか一方に基づき算出した前記再生時間に、前記第１のテキストの読み上げにおける間の表現に必要な時間を加算する、
　請求項９に記載のコンテンツ生成装置。
　前記音声生成部は、第１の言語に対応する前記音声生成モデルが学習に用いた前記第１の言語による音声に基づき転移学習した、前記第１の言語とは異なる第２の言語に対応する前記音声生成モデルを用いて、前記第１の言語で示される前記第１のテキストが前記第２の言語を用いた前記ユーザの音声で読み上げられる前記合成音声を生成する、
　請求項１から請求項１０のいずれか１項に記載のコンテンツ生成装置。
　取得された前記テキストデータが示す前記第１のテキストに基づき字幕テキストを生成する字幕生成部、
　をさらに備え、
　前記合成部は、生成された前記字幕テキストも合成して前記合成コンテンツを生成する、
　請求項１から請求項１１のいずれか１項に記載のコンテンツ生成装置。
　前記字幕生成部は、分割された前記第１のテキストごとに前記字幕テキストを生成する、
　請求項１２に記載のコンテンツ生成装置。
　前記字幕生成部は、前記音声生成モデルが対応している言語に応じて前記テキストデータを翻訳した前記字幕テキストを生成する、
　請求項１２又は請求項１３に記載のコンテンツ生成装置。
　取得部が、読み上げ対象である第１のテキストを示すテキストデータを取得する取得過程と、
　音声生成部が、ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、
　合成部が、生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成過程と、
　を含むコンテンツ生成方法。
　前記取得過程において、前記取得部が、前記テキストデータの内容と対応して表示される表示データを取得し、
　前記コンテンツ生成方法は、画像生成部が、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成過程をさらに含み、
　前記合成過程において、前記合成部が、生成された前記合成音声及び前記表示画像と、前記本人画像とを合成して合成コンテンツを生成する、
　請求項１５に記載のコンテンツ生成方法。
　コンピュータを、
　読み上げ対象である第１のテキストを示すテキストデータを取得する取得部と、
　ユーザが学習対象である第２のテキストを読み上げた際の音声に基づいて前記ユーザの音声による前記第２のテキストの読み上げ方を学習した音声生成モデルを用いて、取得された前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
　生成された前記合成音声と、前記ユーザの本人画像とを合成して合成コンテンツを生成する合成部と、
　として機能させるためのプログラム。
　前記取得部は、前記テキストデータの内容と対応して表示される表示データを取得し、
　前記プログラムは、前記コンピュータを、取得された前記表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成部としても機能させ、
　前記合成部は、生成された前記合成音声及び前記表示画像と、前記本人画像とを合成して合成コンテンツを生成する、
　請求項１７に記載のプログラム。