WO2022113293A1

WO2022113293A1 - 画像生成装置、画像生成方法及び画像生成プログラム

Info

Publication number: WO2022113293A1
Application number: PCT/JP2020/044317
Authority: WO
Inventors: 俊一瀬古
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-02

Abstract

発話シーンを漫画風に表現する際、発話内容を理解しやすくする。画像生成装置は、既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部とを有する。

Description

画像生成装置、画像生成方法及び画像生成プログラム

　本開示は、画像生成装置、画像生成方法及び画像生成プログラムに関する。

　発話中の話者を撮影した撮影画像データや、発話中の音声を記録した音声データを用いて、発話シーンを漫画風に表現した画像（「漫画表現画像」と称す）を生成する画像生成技術が知られている。当該技術を用いれば、画像の閲覧者（例えば、視覚優位な人、聴覚からでは情報を理解しづらい人等）による発話内容の理解を支援することができる。

Maciej Pesko, Adam Svystun, Pawel Andruszkiewicz, Przemyslaw Rokita, Tomasz Trzcinski, "Comixify: Transform video into a comics", arXiv:1812.03473v1 [cs.CV], December 11, 2018

　しかしながら、上記画像生成技術の場合、漫画特有の表現方法（コマ割り、吹き出し等）が適用されていないため、発話中の話者の感情が閲覧者に伝わりにくいという問題がある。このため、閲覧者による発話内容の理解が十分に進まない場合がある。

　本開示は、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることを目的とする。

　本開示の一態様によれば、画像生成装置は、
　既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、
　前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部とを有する。

　本開示によれば、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることができる。

図１は、漫画特有の表現方法による効果を説明するための第１の図である。図２は、漫画特有の表現方法による効果を説明するための第２の図である。図３は、学習装置の一例を示す図である。図４は、画像生成装置の一例を示す図である。図５は、学習装置または画像生成装置のハードウェア構成の一例を示す図である。図６は、学習用データ生成部の処理の具体例を示す図である。図７は、コマ割り学習部の処理の具体例を示す図である。図８は、学習処理の流れを示すフローチャートである。図９は、データ生成部の処理の具体例を示す図である。図１０は、コマ区切り情報生成部の処理の具体例を示す図である。図１１は、コマ区切り情報の具体例を示す図である。図１２は、コマ割り推定部の処理の具体例を示す図である。図１３は、漫画表現画像生成部の処理の具体例を示す図である。図１４は、画像生成処理の流れを示すフローチャートである。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

　［第１の実施形態］
　＜漫画特有の表現方法による効果の説明＞
　はじめに、漫画特有の表現方法（コマ割り、吹き出し等）による効果について説明する。図１及び図２は、漫画特有の表現方法による効果を説明するための第１及び第２の図である。

　図１及び図２に示す漫画画像１１０、漫画画像１２０、漫画画像２１０、漫画画像２２０は、いずれも、二人の話者の発話内容を吹き出しで示した、発話シーンを示す漫画画像である。

　このうち、図１の漫画画像１１０は、１コマの漫画画像である。また、図１の漫画画像２２０は、２コマの漫画コマ画像１２１、１２２を有する漫画画像である。このように、同じ発話シーンを示す漫画画像であっても、コマ割りによって、閲覧者が受ける印象は変わってくる。

　更に、図２の漫画画像２１０は、３コマの漫画コマ画像２１１～２１３を有し、３コマ目の話者の大きさを２コマ目の話者の大きさよりも大きくした漫画画像である。このように、コマの数を増やし、発話をしていない漫画コマ画像２１２を入れることで、話者が戸惑っている感情を表現することができる。また、３コマ目の話者の大きさを大きくすることで、話者が意を決して発話した感情を表現することができる。

　また、図３の漫画画像２２０は、３コマの漫画コマ画像２２１～２２３を有し、３コマ目のコマの大きさを、他のコマの大きさよりも大きくしてレイアウトし、かつ、効果線を入れた漫画画像である。このように、コマの大きさを変えてレイアウトし、３コマ目のコマに効果線を入れることで、話者が意を決して発話した感情を、より効果的に表現することができるとともに、他方の話者が衝撃を受けた感情を表現することもできる。

　以上のように、漫画特有の表現方法を適切に用いることで、閲覧者は、話者の感情を考慮しながら発話内容を理解することができるようになる。そこで、以下に説明する第１の実施形態に係る画像生成装置では、発話シーンから漫画表現画像を生成するにあたり、漫画特有の表現方法が適切に用いられるように構成する。具体的には、学習装置が既存の漫画画像に基づいて漫画特有の表現方法（コマ割り）を学習し、画像生成装置が、当該学習結果（学習済みモデル）を用いて発話シーンから漫画表現画像を生成する。これにより、第１の実施形態に係る画像生成装置によれば、漫画特有の表現方法が適切に用いられた漫画表現画像を生成することができ、発話内容を理解しやすくすることができる。

　＜学習装置の説明＞
　はじめに、漫画特有の表現方法を学習する学習装置について説明する。

　図３は、学習装置の一例を示す図である。学習装置３００には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習装置３００は、学習用データ生成部３１０、コマ割り学習部３２０として機能する。

　学習用データ生成部３１０は、既存の漫画画像が複数格納された漫画画像格納部３３０より漫画画像を読み出す。また、学習用データ生成部３１０は、読み出した複数の漫画画像それぞれについて、作品ごと、コマの順番ごとにナンバリングを行い、コマごとに分割した漫画コマ画像を生成する。

　また、学習用データ生成部３１０は、生成した漫画コマ画像それぞれに対して画像認識処理を行うことで、「漫画コマ情報」を抽出する。なお、漫画コマ情報には、対応する漫画コマ画像内の登場人物のセリフ等の発話テキスト、登場人物の感情、シーンを示す情報等が含まれる。

　更に、学習用データ生成部３１０は、漫画コマ画像及び漫画コマ情報を入力データ、漫画画像を正解データとする学習用データ３４１を生成し、学習用データ格納部３４０に格納する。

　コマ割り学習部３２０は、学習用データ格納部３４０より学習用データ３４１を読み出し、漫画コマ画像及び漫画コマ情報をコマ割りモデルに入力する。そして、コマ割り学習部３２０は、コマ割りモデルの出力が、学習用データ３４１の正解データである漫画画像に近づくよう、コマ割りモデルに対して学習処理を行う。

　また、コマ割り学習部３２０は、コマ割りモデルに対する学習処理により、漫画コマ画像及び漫画コマ情報と、漫画画像（コマ割りされたもの）との関係を学習することで、学習済みコマ割りモデルを生成し、後述する画像生成装置に出力する。

　＜画像生成装置の説明＞
　次に、学習済みコマ割りモデルを用いて、発話シーンから漫画表現画像を生成する画像生成装置について説明する。図４は、画像生成装置の一例を示す図である。画像生成装置４００には、画像生成プログラムがインストールされており、当該プログラムが実行されることで、画像生成装置４００は、データ生成部４１０、コマ区切り情報生成部４２０として機能する。また、画像生成装置４００は、コマ割り推定部４３０、漫画表現画像生成部４４０として機能する。

　データ生成部４１０は、画像生成装置４００と接続される音声入力装置４６０（例えば、マイク）より、話者４０１及び話者４０２の発話から検出された音声データを取得する。

　また、データ生成部４１０は、画像生成装置４００と接続される撮像装置４７０（例えば、カメラ）より、話者４０１及び話者４０２を撮影した撮影画像データを取得する。

　また、データ生成部４１０は、音声データから発話テキストを抽出し、文書構造の解析を行うことで、文書構造解析済み発話テキストを生成する。

　また、データ生成部４１０は、音声データと撮影画像データとに基づいて、話者の感情を示す感情情報を生成する。

　更に、データ生成部４１０は、生成した文書構造解析済み発話テキスト、感情情報、及び、撮影画像データをコマ区切り情報生成部４２０に通知する。

　コマ区切り情報生成部４２０は情報生成部の一例である。コマ区切り情報生成部４２０は、文書構造解析済み発話テキスト、感情情報、撮影画像データに基づいて、１コマとして区切る単位を抽出し、コマ区切り情報を生成する。コマ区切り情報生成部４２０は、生成したコマ区切り情報を、コマ区切り情報格納部４５０に格納する。

　コマ割り推定部４３０は推定部の一例である。コマ割り推定部４３０は、コマ区切り情報格納部４５０より、コマ区切り情報を読み出し、学習済みコマ割りモデルに入力する。また、コマ割り推定部４３０は、コマ区切り情報を入力したことで学習済みコマ割りモデルにより推定された、適切なコマ割りを示すコマ割り情報を、漫画表現画像生成部４４０に出力する。

　漫画表現画像生成部４４０は画像生成部の一例である。漫画表現画像生成部４４０は、コマ区切り情報格納部４５０より、コマ区切り情報を読み出し、コマ割り情報に基づくコマ割りで漫画表現に変換することで、漫画表現画像を生成する。また、漫画表現画像生成部４４０は、生成した漫画表現画像を漫画表現画像表示装置４８０に送信することで、閲覧者４９１に表示する。

　＜学習装置及び画像生成装置のハードウェア構成＞
　次に、学習装置３００及び画像生成装置４００のハードウェア構成について説明する。なお、学習装置３００と画像生成装置４００とは、同様のハードウェア構成を有することから、ここでは、図５を用いて、まとめて説明する。図５は、学習装置または画像生成装置のハードウェア構成の一例を示す図である。

　図５に示すように、学習装置３００または画像生成装置４００は、プロセッサ５０１、メモリ５０２、補助記憶装置５０３、操作装置５０４、表示装置５０５、Ｉ／Ｆ（Interface）装置５０６、通信装置５０７、ドライブ装置５０８を有する。なお、学習装置３００または画像生成装置４００の各ハードウェアは、バス５０９を介して相互に接続される。

　プロセッサ５０１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の各種演算デバイスを有する。プロセッサ５０１は、各種プログラム（例えば、学習プログラムまたは画像生成プログラム等）をメモリ５０２上に読み出して実行する。

　メモリ５０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ５０１とメモリ５０２とは、いわゆるコンピュータを形成し、プロセッサ５０１が、メモリ５０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。なお、ここでいう各種機能とは、学習装置３００の場合、例えば、学習用データ生成部３１０～コマ割り学習部３２０を指し、画像生成装置４００の場合、例えば、データ生成部４１０～漫画表現画像生成部４４０を指す。

　補助記憶装置５０３は、各種プログラムや、各種プログラムがプロセッサ５０１によって実行される際に用いられる各種データを格納する。例えば、学習装置３００の場合は、漫画画像格納部３３０、学習用データ格納部３４０が、画像生成装置４００の場合は、コマ区切り情報格納部４５０が、それぞれ補助記憶装置５０３において実現される。

　操作装置５０４は、学習装置３００または画像生成装置４００の管理者が学習装置３００または画像生成装置４００に対して各種指示を入力する際に、管理者の各種操作を受け付ける。表示装置５０５は、学習装置３００または画像生成装置４００の管理者に対して、学習装置３００または画像生成装置４００の内部状態を表示する。

　Ｉ／Ｆ装置５０６は、学習装置３００または画像生成装置４００と、外部装置５２０とを接続する。画像生成装置４００の場合、Ｉ／Ｆ装置５０６を介して、例えば、外部装置５２０である音声入力装置４６０や撮像装置４７０と接続される。

　通信装置５０７は、学習装置３００または画像生成装置４００がネットワークを介して外部装置と通信可能に接続するための通信デバイスである。画像生成装置４００の場合、通信装置５０７は、漫画表現画像表示装置４８０と通信可能に接続される。

　ドライブ装置５０８は記録媒体５３０をセットするためのデバイスである。ここでいう記録媒体５３０には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体５３０には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置５０３にインストールされる各種プログラムは、例えば、配布された記録媒体５３０がドライブ装置５０８にセットされ、該記録媒体５３０に記録された各種プログラムがドライブ装置５０８により読み出されることでインストールされる。あるいは、補助記憶装置５０３にインストールされる各種プログラムは、不図示のネットワークを介してダウンロードされることで、インストールされてもよい。

　＜学習装置の各部の処理の具体例＞
　次に、学習装置３００の各部（学習用データ生成部３１０、コマ割り学習部３２０）の処理の具体例について説明する。

　（１）学習用データ生成部３１０の処理の具体例
　図６は、学習用データ生成部の処理の具体例を示す図である。図６に示すように、学習用データ生成部３１０は、更に、コマ分割処理部６１０とコマ情報抽出部６２０とを有する。

　コマ分割処理部６１０は、漫画画像格納部３３０より漫画画像を読み出す。図６の例は、漫画画像２２０が、作品名＝"Ａ"、ページ＝"１"の漫画画像であることを示している。

　また、コマ分割処理部６１０は、漫画画像２２０内のエッジを検出し、コマとしての区切り線（多角形で囲まれている領域）ごとに漫画画像２２０を分割することで、漫画コマ画像２２１～２２３を生成する。また、コマ分割処理部６１０は、漫画コマ画像２２１～２２３について、上かつ右に位置する漫画コマ画像から順番にナンバリングを行う。

　図６の例は、コマ分割処理部６１０が、漫画コマ画像２２１に"１"のナンバリングを行い、漫画コマ画像２２２に"２"のナンバリングを行い、漫画コマ画像２２３に"３"のナンバリングを行った様子を示している。

　コマ情報抽出部６２０は、ナンバリングが行われた漫画コマ画像２２１～２２３に対して画像認識を行い、登場人物のセリフ等の発話テキスト、登場人物の感情、シーンを示す情報を抽出することで、漫画コマ情報６３１～６３３を生成する。

　図６の例は、コマ情報抽出部６２０が、漫画コマ画像２２１から、テキスト＝"お昼はラーメンにしようか"、感情＝"気楽"、シーン＝"提案"を抽出することで、漫画コマ情報６３１を生成した様子を示している。

　同様に、図６の例は、コマ情報抽出部６２０が、漫画コマ画像２２２から、テキスト＝"ｎｕｌｌ"、感情＝"ニュートラル"、シーン＝"間"を抽出することで、漫画コマ情報６３２を生成した様子を示している。

　同様に、図６の例は、コマ情報抽出部６２０が、漫画コマ画像２２３から、テキスト＝"太るから嫌"、感情＝"嫌悪"、シーン＝"提案"を抽出することで、漫画コマ情報６３３を生成した様子を示している。

　なお、学習用データ生成部３１０は、漫画コマ画像２２１～２２３及び漫画コマ情報６３１～６３３を学習用データ３４１の入力データとして、漫画画像２２０を学習用データ３４１の正解データとして、学習用データ格納部３４０に格納する。

　（２）コマ割り学習部３２０の処理の具体例
　図７は、コマ割り学習部の処理の具体例を示す図である。図７に示すように、コマ割り学習部３２０は、更に、コマ割りモデル７１０と比較／変更部７２０とを有する。

　コマ割りモデル７１０は、例えば、ＲＮＮ（Recurrent Neural Network）や、ＬＳＴＭ（Long short-term memory）等により構成される。コマ割り学習部３２０は、学習用データ３４１の入力データである漫画コマ画像２２１～２２３及び漫画コマ情報６３１～６３３をコマ割りモデル７１０に入力することで、コマ割りモデル７１０を実行させる。また、コマ割り学習部３２０は、コマ割りモデル７１０より出力された漫画画像を、比較／変更部７２０に入力する。

　比較／変更部７２０は、コマ割りモデル７１０より出力された漫画画像が、学習用データ３４１の正解データである漫画画像（例えば、漫画画像２２０）に近づくように、コマ割りモデル７１０のモデルパラメータを更新する。このように、コマ割り学習部３２０では、コマ割りモデル７１０に対して学習処理を行い、漫画コマ画像及び漫画コマ情報と、漫画画像（コマ割りされたもの）との関係を学習することで、学習済みコマ割りモデルを生成する。

　＜学習処理の流れ＞
　次に、学習装置３００による学習処理の流れについて説明する。図８は、学習処理の流れを示すフローチャートである。なお、学習処理を開始するにあたり、漫画画像格納部３３０には、複数の漫画画像が格納されているものとする。

　ステップＳ８０１において、学習用データ生成部３１０は、漫画画像格納部３３０より漫画画像を読み出す。

　ステップＳ８０２において、学習用データ生成部３１０は、読み出した漫画画像をコマごとに分割し、漫画コマ画像を生成する。

　ステップＳ８０３において、学習用データ生成部３１０は、生成した漫画コマ画像に対して画像認識を行い、漫画コマ情報を生成する。

　ステップＳ８０４において、学習用データ生成部３１０は、生成した漫画コマ画像及び漫画コマ情報と漫画画像とを対応付け、学習用データとして、学習用データ格納部３４０に格納する。

　ステップＳ８０５において、コマ割り学習部３２０は、学習用データ格納部３４０より学習用データを読み出し、コマ割りモデルに入力することで、コマ割りモデルに対して学習処理を行う。

　ステップＳ８０６において、コマ割り学習部３２０は、コマ割りモデルに対する学習処理を終了するか否かを判定する。ステップＳ８０６において、コマ割りモデルに対する学習処理を終了しないと判定した場合には（ステップＳ８０６においてＮＯの場合には）、ステップＳ８０１に戻る。一方、ステップＳ８０６において、コマ割りモデルに対する学習処理を終了すると判定した場合には（ステップＳ８０６においてＹＥＳの場合には）、ステップＳ８０７に進む。

　ステップＳ８０７において、コマ割り学習部３２０は、生成した学習済みコマ割りモデルを出力し、学習処理を終了する。

　＜画像生成装置の各部の処理の具体例＞
　次に、画像生成装置４００の各部（データ生成部４１０、コマ区切り情報生成部４２０、コマ割り推定部４３０、漫画表現画像生成部４４０）の処理の具体例について説明する。

　（１）データ生成部４１０の処理の具体例
　図９は、データ生成部４１０の処理の具体例を示す図である。図９に示すように、データ生成部４１０は、更に、音声認識部９１０、文書構造解析部９２０、感情情報推定部９３０を有する。

　音声認識部９１０は、音声データから発話テキストを抽出し、文書構造解析部９２０に通知する。

　文書構造解析部９２０は、発話テキストの文書構造を解析し、文書構造解析済み発話テキストを生成する。なお、文書構造解析部９２０による解析は、周知の技術であるSpeech to Text（音声認識機能）や自然文解析機能等を利用する。

　感情情報推定部９３０は、音声データと撮影画像データとに基づいて、感情情報を生成する。なお、感情情報推定部９３０による感情情報の生成は、周知の技術（例えば、特許第５４３７２９７や特開２０１９－２８４８５号公報等に開示された技術）を利用する。周知の技術を利用するにあたっては、データ生成部４１０は、例えば、撮影画像データより抽出される視線情報を用いて、共感情報を取得するように構成されてもよい。あるいは、データ生成部４１０は、新たに呼吸運動情報を取得し、取得した呼吸運動情報に基づいて算出される盛り上がり情報を取得するように構成されてもよい。

　（２）コマ区切り情報生成部４２０による処理の具体例
　図１０は、コマ区切り情報生成部による処理の具体例を示す図である。図１０に示すように、コマ区切り情報生成部４２０は、更に、発話区間分割部１０１０、感情情報判定部１０２０、発話区間連結部１０３０、コマ区切り情報出力部１０４０を有する。

　発話区間分割部１０１０は、文書構造解析済み発話テキストに沿って、句点を区切りとして、時刻軸を複数の発話区間に分割する。図１０において、グラフ１０５０は、横軸に時刻を、縦軸に感情情報の変化をとったグラフである。グラフ１０５０において、縦方向の点線は、時刻軸を発話区間ごとに分割した様子を示している。

　感情情報判定部１０２０は、感情情報の変化が大きい発話区間を判定する。図１０において、グラフ１０５０の実線１０５１は、各時刻における感情情報の変化を示している。

　なお、感情情報の変化は、０～１の範囲の値となるように、予め正規化されているものとする。具体的には、感情情報として共感情報を用いる場合には、共感情報を正規化するために、例えば、従来技術である特許第５４３７２９７号に開示された方法が用いられるものとする。また、感情情報として盛り上がり情報を用いる場合には、盛り上がり情報を正規化するために、例えば、従来技術である特開２０１９－２８４８５号公報に開示された方法が用いられるものとする。

　また、感情情報の変化（Ｍ）は、例えば、下式に基づいて算出されるものとする。

　　Ｍ＝（２×ＨＵＰ×ＥＭＴ）／（ＨＵＰ＋ＥＭＴ）
　なお、上式において、ＨＵＰは、正規化した盛り上がり度［０≦ＨＵＰ≦１］を表し、ＥＭＴは正規化した共感度［０≦ＥＭＴ≦１］を表す。

　発話区間連結部１０３０は、発話区間分割部１０１０により時刻軸が分割されることで得た複数の発話区間について、下記の２つの条件（（ｉ）、（ｉｉ））のうちの少なくともいずれか一方を満たすか否かを判定する。そして、発話区間連結部１０３０は、いずれか一方に該当すると判定した発話区間について、発話内容が同一の発話区間であると判定し、発話区間グループを生成する。
（ｉ）感情情報の変化が大きいと判定され、文書構造的にも関連している発話区間である（例えば、符号１０６２）。
（ｉｉ）発話の開始タイミングや、文書構造的に主張ポイントであるなど、発話内容が重要であると思われる発話区間である（例えば、符号１０６１、１０６３）。

　また、発話区間連結部１０３０は、生成した発話区間グループの中から、以下の３つの条件（（ａ）、（ｂ）、（ｃ））のうちのいずれかを満たす発話区間グループを抽出する。

　（ａ）発話区間グループの位置が最初の位置である
　発話の開始時には、話題や発話のきっかけ等のように、重要な情報が含まれている可能性が高い。このため、発話区間連結部１０３０では、最初の位置の発話区間グループを抽出する（例えば、発話区間グループ１０７１参照）。

　（ｂ）感情情報の変化が所定の閾値を超えた発話区間が含まれる
　感情情報が変化した際の話者の発話には、主張や心を動かす情報が含まれている可能性が高い。このため、発話区間連結部１０３０では、感情情報の変化が所定の閾値を超えた発話区間が含まれる発話区間グループを抽出する（例えば、発話区間グループ１０７２、１０７３参照）。なお、所定の閾値は、例えば、画像生成装置４００の管理者によって予め設定されているものとする。

　（ｃ）論理構成的な重要度が所定の閾値を超えた発話区間が含まれる。

　論理構成的に重要な発話には、主張や説明などの情報が含まれている可能性が高い。このため、発話区間連結部１０３０では、発話内容についての論理構成的な重要度が所定の閾値を超えた発話区間を含む発話区間グループを抽出する（例えば、発話区間グループ１０７４参照）。なお、所定の閾値は、例えば、画像生成装置４００の管理者によって予め設定されているものとする。また、論理構成的な重要度は、従来技術の方法を用いて算出され、０～１の範囲の値となるように、予め正規化されているものとする。

　コマ区切り情報出力部１０４０は、生成された発話区間グループそれぞれに対応する撮影画像データから、漫画表現画像を生成する際に用いる代表画像を抽出する。なお、代表画像を抽出するにあたり、コマ区切り情報出力部１０４０は、既知のハイライト画像抽出技術等を用いる。

　また、コマ区切り情報出力部１０４０は、抽出した代表画像を、対応する発話区間グループの発話テキスト、及び、対応する発話区間グループの感情情報と対応付けることで、コマ区切り情報を生成する。更に、コマ区切り情報出力部１０４０は、生成したコマ区切り情報を、コマ区切り情報格納部４５０に格納する。

　図１１は、コマ区切り情報の具体例を示す図である。図１１に示すように、コマ区切り情報１１００には、情報の項目として、"発話区間グループＩＤ"、"発話テキスト"、"感情情報"、"代表画像"が含まれる。

　"発話区間グループＩＤ"には、発話区間グループを識別するための識別子が格納される。"発話テキスト"には、対応する発話区間グループに含まれる発話テキストが格納される。"感情情報"には、対応する発話区間グループにおける感情情報が格納される。"代表画像"には、対応する発話区間グループにおける撮影画像データの中から抽出された代表画像が格納される。

　（３）コマ割り推定部４３０による処理の具体例
　図１２は、コマ割り推定部による処理の具体例を示す図である。図１２に示すように、コマ割り推定部４３０は、学習済みコマ割りモデル１２００を有する。

　コマ割り推定部４３０は、コマ区切り情報格納部４５０よりコマ区切り情報（例えば、コマ区切り情報１１００）を読み出し、学習済みコマ割りモデル１２００に入力することで、学習済みコマ割りモデル１２００を実行させる。これにより、学習済みコマ割りモデル１２００では、コマ割り情報を推定する。

　図１２において、コマ割り情報１２１０は、コマ区切り情報１１００に基づいて、学習済みコマ割りモデル１２００を実行させることにより推定されたコマ割り情報の一例である。図１２の例は、
・発話区間グループＩＤ＝"１"の代表画像＝"Ａ－０１．ｊｐｇ"が、推定された大きさ及び形状のコマ１２１１の位置にレイアウトされること、
・発話区間グループＩＤ＝"１"の発話テキストが、コマ１２１１内に吹き出しの位置にレイアウトされること、
・コマ１２１１には効果線が付加されること、
・発話区間グループＩＤ＝"２"の代表画像＝"Ａ－０２．ｊｐｇ"が、推定された大きさ及び形状のコマ１２１２の位置にレイアウトされること、
・発話区間グループＩＤ＝"２"の発話テキストが、コマ１２１２内に吹き出しの位置にレイアウトされること、
・発話区間グループＩＤ＝"３"の代表画像＝"Ａ－０３．ｊｐｇ"が、推定された大きさ及び形状のコマ１２１３の位置にレイアウトされること、
・発話区間グループＩＤ＝"３"の発話テキストが、コマ１２１３内に吹き出しの位置にレイアウトされること、
・コマ１２１３には効果線が付加されること、
等を示すコマ割り情報１２１０が推定された様子を示している。

　コマ割り推定部４３０は、学習済みコマ割りモデル１２００により推定されたコマ割り情報１２１０を、漫画表現画像生成部４４０に出力する。

　なお、コマ割り推定部４３０は、コマ区切り情報を学習済みコマ割りモデル１２００に入力する際、リアルタイム処理かバッチ処理かの処理形態に応じて処理方法を切り替える。

　リアルタイム処理とは、話者４０１または話者４０２が発話中に、リアルタイムに漫画表現画像を生成する処理を指す。リアルタイム処理を行う場合、コマ割り推定部４３０は、新たなコマ区切り情報が追加（新たな行が追加）されたタイミングで、最新ｎ個のコマ区切り情報を、学習済みコマ割りモデル１２００に入力することで、コマ割り情報を推定する。なお、コマ割り推定部４３０が学習済みコマ割りモデル１２００に入力するコマ区切り情報の数（＝ｎ）は、予め設定されているものとする。

　一方、バッチ処理とは、話者４０１または話者４０２の過去の発話時に記録された音声データ及び撮影画像データについて生成された、全てのコマ区切り情報を用いて、漫画表現画像を生成する処理を指す。コマ割り推定部４３０は、コマ区切り情報格納部４５０に格納された全てのコマ区切り情報を、学習済みコマ割りモデル１２００に入力することで、コマ割り情報を推定する。

　（４）漫画表現画像生成部４４０の処理の具体例
　図１３は、漫画表現画像生成部による処理の具体例を示す図である。図１３に示すように、漫画表現画像生成部４４０は、コマ区切り情報（例えば、コマ区切り情報１１００）と、コマ割り情報（例えば、コマ割り情報１２１０）とに基づいて、漫画表現画像を生成する。

　図１３の例は、コマ１２１１に、
・発話区間グループＩＤ＝"１"の代表画像＝"Ａ－０１．ｊｐｇ"がレイアウトされ、
・吹き出しの位置に、発話区間グループＩＤ＝"１"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像１３１１が生成された様子を示している。

　同様に、図１３の例は、コマ１２１２に、
・発話区間グループＩＤ＝"２"の代表画像＝"Ａ－０２．ｊｐｇ"がレイアウトされ、
・吹き出しの位置に、発話区間グループＩＤ＝"２"の発話テキストがレイアウトされる、
ことで、漫画コマ画像１３１２が生成された様子を示している。

　同様に、図１３の例は、コマ１２１３に、
・発話区間グループＩＤ＝"３"の代表画像＝"Ａ－０３．ｊｐｇ"がレイアウトされ、
・吹き出しの位置に、発話区間グループＩＤ＝"３"の発話テキストがレイアウトされ、
・効果線が付加される、
ことで、漫画コマ画像１３１３が生成された様子を示している。

　＜画像生成処理の流れ＞
　次に、画像生成装置４００による画像生成処理の流れについて説明する。図１４は、画像生成処理の流れを示すフローチャートである。

　ステップＳ１４０１において、データ生成部４１０は、音声入力装置４６０及び撮像装置４７０より、音声データ及び撮影画像データを取得する。

　ステップＳ１４０２において、データ生成部４１０は、音声データに基づいて、発話テキストを生成し、文書構造を解析することで、文書構造解析済み発話テキストを生成する。また、データ生成部４１０は、音声データ及び撮影画像データに基づいて、感情情報を生成する。

　ステップＳ１４０３において、コマ区切り情報生成部４２０は、文書構造解析済み発話テキストに基づいて時刻軸を複数の発話区間に分割したうえで、複数のグループに分類し、発話区間グループを生成する。また、コマ区切り情報生成部４２０は、発話区間グループの位置、感情情報の変化、論理構成的な重要度等に基づいて、所定の発話区間グループを抽出する。更に、コマ区切り情報生成部４２０は、抽出した発話区間グループごとに、撮影画像データから代表画像を抽出し、発話テキスト及び感情情報と対応付けることで、コマ区切り情報を生成する。

　ステップＳ１４０４において、コマ割り推定部４３０は、コマ区切り情報を学習済みコマ割りモデルに入力することで学習済みコマ割りモデルを実行させる。また、コマ割り推定部４３０は、学習済みコマ割りモデルにより推定されたコマ割り情報を、漫画表現画像生成部４４０に出力する。

　ステップＳ１４０５において、漫画表現画像生成部４４０は、コマ区切り情報とコマ割り情報とに基づいて、漫画表現画像を生成する。

　ステップＳ１４０６において、漫画表現画像生成部４４０は、漫画表現画像を漫画表現画像表示装置４８０に表示する。

　ステップＳ１４０７において、画像生成装置４００は画像生成処理を終了するか否かを判定し、終了しないと判定した場合には（ステップＳ１４０７においてＮＯの場合には）、ステップＳ１４０１に戻る。

　一方、ステップＳ１４０７において、終了すると判定した場合には（ステップＳ１４０７においてＹＥＳの場合には）、画像生成処理を終了する。

　＜まとめ＞
　以上の説明から明らかなように、第１の実施形態に係る画像生成装置４００は、
・既存の漫画画像に基づいて、コマ割りを学習した、学習済みコマ割りモデルを有する。
・発話シーンにおける話者の音声データと撮影画像データとに基づいて生成したコマ区切り情報を、学習済みコマ割りモデルに入力することで、コマ割りを推定する。
・推定したコマ割りに基づいて、発話シーンを示す漫画表現画像を生成する。

　このように、既存の漫画画像を用いて、漫画特有の表現方法（コマ割り）を学習し、発話シーンから漫画表現画像を生成する際に、学習した表現方法を反映させることで、話者の感情が表現された漫画表現画像を生成することができる。

　この結果、第１の実施形態に係る画像生成装置４００によれば、発話シーンを漫画風に表現する際、発話内容を理解しやすくすることができる。

　［第２の実施形態］
　上記第１の実施形態では、学習装置３００と画像生成装置４００とを別体の装置として構成したが、学習装置３００と画像生成装置４００とは、一体の装置として構成してもよい。

　また、上記第１の実施形態では、画像生成装置４００と、音声入力装置４６０、撮像装置４７０、漫画表現画像表示装置４８０とが、別体の装置として構成されるものとして説明した。しかしながら、画像生成装置４００は、音声入力装置４６０、撮像装置４７０、漫画表現画像表示装置４８０のうちの一部または全部と、一体の装置として構成されてもよい。その場合、画像生成装置４００は、タブレット端末等のように携帯可能な装置により構成されてもよい。

　また、上記第１の実施形態では、発話シーンにおける話者が二人の場合を例に説明したが、話者の人数は二人に限定されず、一人であっても三人以上であってもよい。

　また、上記第１の実施形態では、任意の漫画画像を用いて、コマ割りモデルに対して学習処理を行うものとして説明した。しかしながら、画像生成装置４００の適用先において想定されるシーンに対応する漫画画像を選択的に用いて、コマ割りモデルに対して学習処理を行うように構成してもよい。

　なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

　３００　　：学習装置
　３１０　　：学習用データ生成部
　３２０　　：コマ割り学習部
　３４１　　：学習用データ
　４００　　：画像生成装置
　４１０　　：データ生成部
　４２０　　：コマ区切り情報生成部
　４３０　　：コマ割り推定部
　４４０　　：漫画表現画像生成部
　４６０　　：音声入力装置
　４７０　　：撮像装置
　４８０　　：漫画表現画像表示装置
　１１００　：コマ区切り情報
　１２００　：学習済みコマ割りモデル
　１２１０　：コマ割り情報

Claims

　既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定部と、
　前記推定部により推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成部と
　を有する画像生成装置。
　前記学習済みモデルは、既存の漫画画像をコマごとに分割し、それぞれの漫画コマ画像と、それぞれの漫画コマ画像におけるセリフ、登場人物の感情を示す情報とを入力として、コマ割りを学習した学習済みモデルである、請求項１に記載の画像生成装置。
　前記推定部は、前記学習済みモデルに、前記発話シーンにおける話者の撮影画像データから抽出した画像と、前記発話シーンにおける話者の音声データから抽出した発話テキストと、前記発話シーンにおける話者の音声データ及び撮影画像データから推定される話者の感情を示す情報とを入力することで、前記コマ割りを推定する、請求項２に記載の画像生成装置。
　前記発話テキストに基づいて生成した複数の発話区間を複数のグループに分け、所定の条件を満たすグループを、コマを区切る単位として抽出し、抽出したグループごとに、前記学習済みモデルに入力する、前記画像と、前記発話テキストと、前記感情を示す情報とを含むコマ区切り情報を生成する情報生成部を更に有する、請求項３に記載の画像生成装置。
　前記所定の条件を満たすグループは、発話の開始時の発話区間を含むグループ、感情を示す情報の変化が閾値を超えた発話区間を含むグループ、発話内容についての論理構成的な重要度が閾値を超えた発話区間を含むグループのいずれかのグループを含む、請求項４に記載の画像生成装置。
　前記推定部は、
　前記情報生成部により新たなコマ区切り情報が追加されたタイミングで最新のｎ個のコマ区切り情報を前記学習済みモデルに入力し、コマ割りを推定する、請求項４に記載の画像生成装置。
　既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定工程と、
　前記推定工程において推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成工程と
　を有する画像生成方法。
　既存の漫画画像に基づいて、コマ割りを学習した学習済みモデルに、発話シーンにおける話者の音声データと撮影画像データとに基づいて生成した情報を入力し、コマ割りを推定する推定工程と、
　前記推定工程において推定されたコマ割りに基づいて、前記発話シーンを示す画像を生成する画像生成工程と
　をコンピュータに実行させるための画像生成プログラム。