WO2021192931A1

WO2021192931A1 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: WO2021192931A1
Application number: PCT/JP2021/008779
Authority: WO
Inventors: 和博嶋内
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-27
Filing date: 2021-03-05
Publication date: 2021-09-30
Also published as: CN115315936A; US20230124466A1; JPWO2021192931A1

Abstract

情報処理装置は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える。

Description

情報処理装置、情報処理方法、および情報処理プログラム

　本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

　セミナーなどのプレゼンテーションの様子を撮影し、講演者の映像と、プレゼンテーションの資料とを含む映像を生成する技術が知られている。

　例えば、特許文献１には、資料を説明する人物の位置に応じて、人物と資料とを含む映像のレイアウトを変更する技術が開示されている。

特開２０１４－１７５９４１号公報

　セミナーのシーンに応じた適切な映像を生成することが望まれている。

　そこで、本開示では、セミナーのシーンに応じた適切な映像を生成することのできる情報処理装置、情報処理方法、および情報処理プログラムを提案する。

　本開示に係る一態様の情報処理装置は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える。

実施形態に係る情報処理システムの概要を説明するための図である。実施形態に係る情報処理装置の構成の一例を示すブロック図である。姿勢推定部が姿勢を推定する人物を説明するための図である。姿勢推定部が人物の姿勢を推定する方法を説明するための図である。姿勢推定部が人物の顔の表情を推定する方法を説明するための図である。クロップ部の切り出し処理を説明するための図である。サイドバイサイド配置の第１の例を説明するための図である。サイドバイサイド配置の第２の例を説明するための図である。ピクチャインピクチャ配置の表示画像の第１の例を説明するための図である。ピクチャインピクチャ配置の表示画像の第２の例を説明するための図である。ピクチャインピクチャ配置の表示画像の第３の例を説明するための図である。ピクチャインピクチャ配置の表示画像の第４の例を説明するための図である。抽出配置の表示画像の第１の例を説明するための図である。抽出配置の表示画像の第２の例を説明するための図である。透過配置の一例を説明するための図である。第１実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。第２実施形態に係る情報処理装置の構成を示すブロック図である。第２実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。第３実施形態に係る情報処理装置の構成を示すブロック図である。主要被写体が歩いていると判定された場合の表示画像のレイアウトを説明するための図である。第３実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。第４実施形態に係る情報処理装置の構成を示すブロック図である。質疑応答が行われていると判定された場合の表示画像のレイアウトを説明するための図である。第４実施形態に係る情報処理装置の処理の流れの一例を示す図である。第４実施形態に係る表示画像のレイアウトの第１の変形例を示す図である。第４実施形態に係る表示画像のレイアウトの第２の変形例を示す図である。第４実施形態に係る表示画像のレイアウトの第３の変形例を示す図である。第４実施形態に係る表示画像のレイアウトの第４の変形例を示す図である。第４実施形態に係る表示画像のレイアウトの第５の変形例を示す図である。第４実施形態に係る情報処理装置の処理の変形例の流れの一例を示すフローチャートである。第５実施形態に係る情報処理装置の構成を示すブロック図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行うものとする。
　　１．第１実施形態
　　　１－１．概要
　　　１－２．情報処理装置の構成
　　　１－３．レイアウトの決定
　　　　１－３－１．質疑応答シーン
　　　　１－３－２．質問シーン
　　　　１－３－３．資料切り替えシーン
　　　　１－３－４．板書シーン
　　　　１－３－５．説明シーン
　　　１－４．表示画像のレイアウト
　　　　１－４－１．サイドバイサイド配置
　　　　１－４－２．ピクチャインピクチャ配置
　　　　１－４－３．抽出配置
　　　　１－４－４．透過配置
　　　　１－４－５．単一配置
　　　１－５．情報処理装置の処理
　　２．第２実施形態
　　　２－１．情報処理装置の構成
　　　２－２．情報処理装置の処理
　　３．第３実施形態
　　　３－１．情報処理装置の構成
　　　３－２．情報処理装置の処理
　　４．第４実施形態
　　　４－１．情報処理装置の構成
　　　４－２．情報処理装置の処理
　　　４－３．レイアウトの変形例
　　　４－４．情報処理装置の処理の変形例
　　５．第５実施形態
　　　５－１．情報処理装置の構成
　　６．ハードウェア構成
　　７．効果

＜１．第１実施形態＞
［１－１．概要］
　図１を用いて、実施形態に係る情報処理システムの概要について説明する。図１は、実施形態に係る情報処理システムの概要を説明するための図である。

　図１に示すように、情報処理システム１は、撮像装置１００と、入力装置２００と、情報処理装置３００と、表示装置４００と、記録再生装置５００と、を含む。撮像装置１００と、入力装置２００と、情報処理装置３００と、表示装置４００と、記録再生装置５００とは、それぞれ、ＨＤＭＩ（High-Definition　Multimedia　Interface）（登録商標）およびＳＤＩ（Serial　Digital　Interface）などで直接接続されてよい。撮像装置１００と、入力装置２００と、情報処理装置３００と、表示装置４００と、記録再生装置５００とは、それぞれ、有線又は無線のネットワークを介して接続されてもよい。情報処理システム１は、セミナーの様子を撮像し、リアルタイムで配信したり、記録再生装置５００に記録したりする。本開示において、セミナーとは、各種の講演、授業、トークショー、研修などを含む。

　撮像装置１００は、セミナーの会場に配置されており、セミナーの様子を撮像する。撮像装置１００は、例えば、セミナーの会場の全体を撮像する俯瞰カメラで実現される。撮像装置１００は、例えば、複数のカメラで構成され、複数のカメラでセミナー会場の全体を撮像する構成であってもよい。撮像装置１００は、４Ｋまたは８Ｋなどの高解像度の映像を撮像するカメラであってもよい。撮像装置１００には、マイクロフォンが設けられ、セミナーの会場の音声を収音する。撮像装置１００は、主要被写体１０と、提示オブジェクト２０と、副被写体３０と、を撮像する。主要被写体１０は、セミナーが講演および授業などである場合には、講演者、登壇者、講師などである。主要被写体１０は、セミナーがトークショーなどである場合には、司会者、主催者、発言者、主賓者などである。提示オブジェクト２０は、主要被写体１０により提示されるオブジェクトである。提示オブジェクト２０は、例えば、プロジェクタなどでスクリーンに投影されたセミナーに関する資料である。提示オブジェクト２０は、例えば、主要被写体１０が板書可能な黒板、ホワイトボード、タッチパネルに記載された板書による記述であってもよい。副被写体３０は、セミナーを受講する生徒、参加者、聴講者などである。撮像装置１００は、主要被写体１０、提示オブジェクト２０、および副被写体３０の撮像画像を情報処理装置３００に出力する。

　入力装置２００は、セミナーで使用される提示オブジェクト２０に関する情報を情報処理装置３００に出力する。入力装置２００は、例えば、主要被写体１０がセミナーで使用する資料が保存されたＰＣ（Personal　Computer）などである。入力装置２００は、例えば、セミナーで資料を投影するプロジェクタなどであってもよい。

　情報処理装置３００は、撮像装置１００から受けた撮像画像に基づいて、セミナーのシーンを判定する。情報処理装置３００は、撮像装置１００から受けた撮像画像と、入力装置２００から受けた撮像画像とに基づいて、セミナーのシーンを判定する。情報処理装置３００は、セミナーのシーンを示すシーン情報を生成する。情報処理装置３００は、シーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する。ここで、表示制御情報は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である。言い換えれば、表示制御情報は、シーン情報に対応する表示画像の表示制御を行うために生成される情報である。表示制御情報は、姿勢推定情報、シーン情報、追尾結果に関する情報、レイアウト情報を含む。各種情報についてはのちに詳述する。表示制御情報は、表示画像の表示制御を行うために用いられる情報であれば、その他の情報を含んでもよい。具体的には、情報処理装置３００は、セミナーのシーンに応じて、表示装置４００に表示させるための表示画像を生成する。情報処理装置３００は、生成した表示画像を表示装置４００と、記録再生装置５００とに出力する。

　表示装置４００は、各種の画像を表示する。表示装置４００は、情報処理装置３００から受けた表示画像を表示する。ユーザは、表示画像を視聴することで、セミナーの内容を把握することができる。表示装置４００は、例えば、液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）または有機ＥＬ（Organic　Electro-Luminescence）ディスプレイなどを含むディスプレイで構成される。

　記録再生装置５００は、各種の映像を記録する。記録再生装置５００は、情報処理装置３００から受けた表示画像を記録する。ユーザは、記録再生装置５００に記録された表示画像を再生することで、表示装置４００に表示することができる。これにより、ユーザは、セミナーの内容を把握することができる。

［１－２．情報処理装置の構成］
　図２を用いて、実施形態に係る情報処理装置の構成について説明する。図２は、実施形態に係る情報処理装置の構成の一例を示す図である。

　図２に示すように、情報処理装置３００は、通信部３１０と、記憶部３２０と、制御部３３０と、を含む。

　通信部３１０は、情報処理装置３００と、外部の装置との間で信号を入出力する通信回路である。通信部３１０は、撮像装置１００から撮像画像を受ける。通信部３１０は、入力装置２００からセミナーの資料に関する情報を受ける。通信部３１０は、表示装置４００および記録再生装置５００に情報処理装置３００が生成した表示画像を出力する。

　記憶部３２０は、各種のデータを記憶する。記憶部３２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）などの半導体メモリ素子、またはハードディスク、ソリッドステートドライブなどの記憶装置で実現することができる。

　制御部３３０は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、またはＧＰＵ（Graphics　Processing　Unit）等によって、図示しない記憶部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ等を作業領域として実行されることにより実現される。制御部３３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。制御部３３０は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

　制御部３３０は、姿勢推定部３３１と、追尾部３３２と、行動認識部３３３と、レイアウト決定部３３４と、クロップ部３３５と、表示画像生成部３３６と、を含む。

　姿勢推定部３３１は、撮像装置１００から受けた撮像画像に含まれる人物の姿勢を推定する。人物の姿勢は、骨格情報を含む。具体的には、姿勢推定部３３１は、骨格情報に含まれる各関節部と、各骨部との位置に基づいて、人物の姿勢を推定する。

　図３は、姿勢推定部３３１が姿勢を推定する人物を説明するための図である。図３には、撮像装置１００がセミナーの様子を撮像した撮像画像ＩＭ１が示されている。撮像画像ＩＭ１には、主要被写体１０と、複数の副被写体３０と、を含む。図３においては、主要被写体１０はセミナーの講演者、副被写体３０はセミナーの受講者である。姿勢推定部３３１は、主要被写体１０の姿勢を推定する。姿勢推定部３３１は、副被写体３０の姿勢を推定する。姿勢推定部３３１は、複数の副被写体３０のうちの、１人の姿勢を推定してもよいし、全員の姿勢を推定してもよい。姿勢推定部３３１は、主要被写体１０の姿勢を推定するために、主要被写体１０の骨格を示す骨格情報１１を推定する。姿勢推定部３３１は、副被写体３０の姿勢を推定するために、副被写体３０の骨格を示す骨格情報３１を推定する。

　図４は、姿勢推定部３３１が人物の姿勢を推定する方法を説明するための図である。図４には、人物の骨格情報を示す骨格モデルＭ１が示されている。姿勢推定部３３１は、主要被写体１０の骨格情報１１および副被写体３０の骨格情報３１を、図４に示すような骨格モデルＭ１として推定する。

　骨格モデルＭ１には、関節部Ｊ１～関節部Ｊ１８と、各関節部を繋ぐ骨部Ｂ１～Ｂ１３と、を含む。関節部Ｊ１と、関節部Ｊ２とは、人物の首に対応している。関節部Ｊ３～関節部Ｊ５は、人物の右腕に対応している。関節部Ｊ６～関節部Ｊ８は、人物の左腕に対応している。関節部Ｊ９～関節部Ｊ１１は、人物の右足に対応している。関節部Ｊ１２～関節部Ｊ１４は、人物の左足に対応している。関節部Ｊ１５～関節部Ｊ１８は、人物の頭部に対応している。

　姿勢推定部３３１は、図４に示したように、主要被写体１０および副被写体３０の各関節部の位置および各骨部の位置を推定する。姿勢推定部３３１は、各関節部の位置および各骨部の位置に基づいて、主要被写体１０および副被写体３０の姿勢を推定する。姿勢推定部３３１は、主要被写体１０および副被写体３０の推定された姿勢に関する姿勢推定情報を追尾部３３２に出力する。姿勢推定部３３１は、主要被写体１０および副被写体３０の顔の表情を推定してもよい。

　図５は、姿勢推定部３３１が人物の顔の表情を推定する方法を説明するための図である。図５には、人物の顔を示す顔モデルＭ２が示されている。顔モデルＭ２には、顔の輪郭の特徴点Ｆ１～特徴点Ｆ１０が含まれる。顔モデルＭ２には、右眉の特徴点ＢＲ１～特徴点ＢＲ６が含まれる。顔モデルＭ２には、左眉の特徴点ＢＬ１～特徴点ＢＬ６が含まれる。顔モデルＭ２には、右目の輪郭の特徴点ＥＲ１～特徴点ＥＲ６と、右目の特徴点ＰＲと、が含まれる。顔モデルＭ２には、左目の輪郭の特徴点ＥＬ１～特徴点ＥＬ６と、左目の特徴点ＰＬと、が含まれる。顔モデルＭ２には、鼻の特徴点Ｎ１～特徴点Ｎ５が含まれる。顔モデルＭ２には、口の特徴点Ｍ１～特徴点Ｍ９が含まれる。

　姿勢推定部３３１は、顔モデルＭ２に示したように、顔の輪郭と、右眉と、左眉と、右目の輪郭と、右目と、左目の輪郭と、左目と、口との各特徴点の位置や動きに基づいて、主要被写体１０および副被写体３０の表情を推定する。姿勢推定部３３１は、主要被写体１０および副被写体３０の推定された表情に関する表情推定データを、追尾部３３２に出力する。

　図２に戻る。追尾部３３２は、撮像装置１００が撮像した撮像画像と、姿勢推定部３３１から姿勢推定情報とを受ける。追尾部３３２は、撮像画像に含まれる主要被写体１０および副被写体３０を追尾する。具体的には、追尾部３３２は、主要被写体１０および副被写体３０が撮像画像のフレーム間をまたがって移動した場合に、フレーム間で移動した被写体を追尾する。これにより、撮像画像において、主要被写体１０および副被写体３０の個々が識別されたデータを得ることができる。追尾部３３２は、例えば、動体検出処理などの周知技術を用いて主要被写体１０および副被写体３０を追尾するようにすればよい。追尾部３３２は、主要被写体１０および副被写体３０の服の色を判定し、服の色に基づいて、主要被写体１０および副被写体３０を追尾してもよい。追尾部３３２は、姿勢推定部３３１から受けた姿勢推定情報のみを用いて、主要被写体１０および副被写体３０の動きを追尾してよい。追尾部３３２は、撮像装置１００から受けた撮像画像のみを用いて、主要被写体１０および副被写体３０の動きを追尾してよい。追尾部３３２は、撮像画像と、姿勢推定情報との両方を用いて、主要被写体１０および副被写体３０の動きを追尾してよい。追尾部３３２は、追尾結果に関する情報を行動認識部３３３に出力する。

　追尾部３３２は、追尾対象となる主要被写体１０および副被写体３０の属性を付加してもよい。追尾部３３２は、例えば、主要被写体１０の顔画像と、記憶部３２０に予め登録されている講師の顔画像とが一致した場合には、主要被写体１０に対して追尾対象となる講師の属性を付加してもよい。追尾部３３２は、例えば、講師として判定された以外の人物に対して、受講者の属性を付加してよい。追尾対象は、撮像画像に基づいて、ユーザが設定するようにしてもよい。各属性は、撮像画像に基づいて、ユーザが設定するようにしてもよい。

　行動認識部３３３は、撮像装置１００が撮像したセミナー撮像画像に基づいて、セミナーのシーンを判定する。行動認識部３３３は、シーンの判定結果に応じたシーン情報を生成する。行動認識部３３３は、セミナーのシーンとして、講師および受講者が姿勢方向を判定する。行動認識部３３３は、セミナーのシーンとして、講師が説明しているか否か、講師が歩いているか否か、資料を切り替えたか否か、スクリーンに投影されている資料をスライド送りしたか否か、板書しているか否か、質疑応答が行われている否かを判定する。行動認識部３３３は、判定されたシーンに関するシーン情報をレイアウト決定部３３４に出力する。

　レイアウト決定部３３４は、行動認識部３３３によるシーン情報の判定結果に基づいて、表示画像のレイアウトを決定する。レイアウト決定部３３４は、例えば、記憶部３２０に記憶された、シーン情報とレイアウトが対応付けられたテーブルに基づいて、表示画像のレイアウトを決定する。レイアウト決定部３３４は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する。レイアウト決定部３３４は、表示画像のレイアウトを示すレイアウト情報を生成する。レイアウト情報には、構成画像を示す情報が含まれうる。

　本開示において、構成画像は、表示画像の少なくとも一部を構成する画像のことを意味する。言い換えれば、レイアウト決定部３３４は、１つまたは複数の構成画像から表示画像のレイアウトを決定する。構成画像は、セミナーにおいて、撮像装置１００によって撮像された各種の画像を含む。具体的には、構成画像は、セミナーにおいて、撮像装置１００によって撮像された主要被写体１０を被写体とする画像、提示オブジェクト２０を含む画像、および副被写体３０を被写体とする画像を含む。主要被写体１０または副被写体３０の少なくとも一方を被写体とする画像は、人物画像とも呼ばれる。

　人物画像は、俯瞰画像である全体画像と、特定の人物をクローズアップした画像である注視画像を含む。具体的には、全体画像としては、主要被写体１０を被写体として含む全体画像（主要被写体１０を含む全体画像）と、副被写体３０を被写体として含む全体画像（副被写体３０を含む全体画像）がある。例えば、主要被写体１０を含む全体画像は、主要被写体１０と、副被写体３０とを含む俯瞰画像である。主要被写体１０を含む全体画像に含まれる副被写体３０の人数に制限はない。主要被写体１０を含む全体画像には、副被写体３０が含まれていなくてもよい。副被写体３０を含む全体画像は、複数の副被写体３０を含む俯瞰画像である。副被写体３０を含む全体画像は、副被写体３０が１人のみの俯瞰画像であってもよい。

　注視画像としては、主要被写体１０をクローズアップした画像、または、副被写体３０をクローズアップした画像を含む。副被写体３０をクローズアップした画像は、特定の副被写体３０をクローズアップした画像である。提示オブジェクト２０の画像は提示オブジェクト画像とも呼ばれる。提示オブジェクト画像はプロジェクタなどでスクリーンに投影されたセミナーに関する資料の画像を含む。提示オブジェクト画像は、黒板、ホワイトボード、タッチパネルに主要被写体１０により記載された板書による記述に関する情報を含む記述画像を含む。記述画像は、黒板、ホワイトボード、タッチパネルの撮像画像を含む。記述画像は、黒板、ホワイトボード、タッチパネルの撮像画像から記述を抽出した記述結果を示す画像を含む。

　レイアウト決定部３３４は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の表示画像内での表示配置を決定する。レイアウト決定部３３４は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の数を決定する。レイアウト決定部３３４は、１つの構成画像をクローズアップした画像を表示画像のレイアウトとして決定する。例えば、レイアウト決定部３３４は、複数の構成画像を組み合わせて配置して、レイアウトを決定する。レイアウト決定部３３４は、構成画像の数が複数であるときは、レイアウトとして、並列配置または重畳配置のいずれかの配置を決定する。並列配列とは、複数の構成画像を、視聴者からみて上下または左右に並列に配置した配置を意味する。本開示では、２つの構成画像を左右に並列に配置したサイドバイサイド配置であるものとして説明するが、これは例示であり、構成画像の数および配置の方向を限定するものではない。重畳配置は、構成画像の少なくとも１部が互いに重畳している配置のことを意味する。重畳配置は、ピクチャインピクチャ配置、抽出配置、透過配置を含む。並列配置および重畳配置の具体例については後述する。レイアウト決定部３３４は、表示画像が複数の構成画像により構成されているときは、複数の構成画像の１つである人物画像（第１の表示画像）における人物の姿勢の方向に基づいて、人物画像の表示配置を決定する。レイアウト決定部３３４は、表示画像が少なくとも人物画像と、第２の構成画像により構成されているとき、人物画像における人物の姿勢の方向と、表示画像内における人物画像の中心の位置に対する第２の構成画像の中心の位置関係とが対応するように表示配置を決定する。ここで、第２の構成画像は、例えば、説明対象の提示オブジェクト２０の画像である。レイアウト決定部３３４は、表示画像のレイアウトを示すレイアウト情報を生成する。レイアウト情報には、構成画像の数、構成画像の配置を示す情報が含まれうる。すなわち、レイアウト情報には、表示画像を生成するための各種の情報が含まれうる。

　レイアウト決定部３３４は、表示画像を生成するための撮像画像における切り出し位置を特定する。レイアウト決定部３３４は、例えば、撮像装置１００から撮像画像を受けた場合に、その撮像画像から複数の切り出し位置を特定し、特定した複数の切り出し位置の中から、構成画像に対応する切り出し位置を特定してもよい。レイアウト決定部３３４は、例えば、複数の撮像装置１００からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から、構成画像を選択してもよい。レイアウト決定部３３４は、例えば、複数の撮像装置１００からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から選択した撮像画像から切り出し位置を決定し、切り出し位置に対応する画像を構成画像としてもよい。レイアウト決定部３３４が生成するレイアウト情報には、切り出し位置を示す情報が含まれてもよい。

　クロップ部３３５は、撮像装置１００が撮像した撮像画像から所定の領域の切り出す処理を実行する。クロップ部３３５は、レイアウト決定部３３４から受けたレイアウト情報に基づいて、撮像画像から所定の領域の画像を切り出す処理を実行する。クロップ部３３５は、撮像画像から所定の領域の画像を切り出すことで、切り出し画像を生成する。クロップ部３３５は、切り出し画像を表示画像生成部３３６に出力する。

　図６は、クロップ部３３５の切り出し処理を説明するための図である。図６に示すようにクロップ部３３５は、レイアウト決定部３３４から受けたレイアウト情報に基づいて、撮像画像ＩＭ１から領域Ｒの画像を切り出す処理を実行する。クロップ部３３５は、撮像画像ＩＭ１から領域Ｒの画像を切り出した、切り出し画像５０を生成する。クロップ部３３５は、生成した切り出し画像５０を表示画像生成部３３６に出力する。

　表示画像生成部３３６は、入力装置２００から受けた資料と、クロップ部３３５から受けた画像とを合成して、表示画像を生成する。表示画像生成部３３６は、レイアウト決定部３３４から受けたレイアウト情報に基づいて、表示画像を生成する。表示画像生成部３３６は、表示画像を生成する際に、切り出し画像および資料の少なくとも一部に対して、拡大処理および縮小処理などを実行して、表示画像を生成してもよい。表示画像生成部３３６は、表示画像を生成する際に、表示画像に効果をつけてもよい。例えば、表示画像生成部３３６は、生成した表示画像に対して、資料が動く、資料にエフェクトをかける、フェードアウトするなどの効果をつけてよい。表示画像生成部３３６は、資料および切り出し画像などを単独または加工して、表示画像として出力してよい。

［１－３．レイアウトの決定］
　次に、セミナーのシーンに応じて、表示画像のレイアウトを決定する方法について説明する。例えば、セミナーのシーンとしては、「質疑応答シーン」、「歩行シーン」、「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンが例示される。シーンを示すシーン情報は主要被写体１０の行動を示す主要被写体行動情報である。主要被写体行動情報には、各種のシーン情報が含まれる。「質疑応答シーン」、「歩行シーン」、「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンを示す情報が、本開示に係るシーン情報の一例となる。主要被写体行動情報は、セミナーにおいて提示される提示オブジェクト２０に関連して主要被写体１０が行う行動を示す提示オブジェクト関連行動情報を含む。ここで、提示オブジェクト関連行動情報は、種々のシーンのうち「資料切り替えシーン」、「板書シーン」、「説明シーン」といったシーンを示す情報、が含まれる。言い換えれば、提示オブジェクト関連行動情報は、主要被写体１０が提示オブジェクト２０を用いた行動に関するシーン情報であれば、特に制限はない。シーン情報には、主要被写体１０または副被写体３０の姿勢方向を示す情報が含まれる。

（１－３－１．質疑応答シーン）
　「質疑応答シーン」は、講師と受講者との間で質疑応答が行われているシーンを意味する。すなわち、「質疑応答シーン」に対応するシーン情報は質疑応答を示す情報である。「質疑応答シーン」の表示画像のレイアウトとしては、主要被写体１０である講師を含む全体画像である「講師を含む俯瞰画像の単一配置」、副被写体３０である受講者の全体画像である「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」が例示される。すなわち、「質疑応答シーン」の表示画像の構成画像には、副被写体３０である受講者を被写体とする画像が含まれる。

　「講師を含む俯瞰画像の単一配置」は、講師を含む俯瞰画像をのみを構成画像とするレイアウトである。「受講者の俯瞰画像の単一配置」は、少なくとも受講者を含む俯瞰画像を意味する。「受講者のクローズアップ画像の単一配置」は、受講者のクローズアップの画像の単一配置を意味する。「受講者のクローズアップ画像と講師の画像との並列配置」は、受講者のクローズアップの画像と、講師の画像とを並列配置で表示した画像のレイアウトを意味する。「受講者のクローズアップ画像と講師の画像との重畳配置」は、受講者のクローズアップの画像と、講師の画像とを重畳配置で表示した画像のレイアウトを意味する。

　レイアウト決定部３３４は、セミナーのシーンが「質疑応答シーン」であると判定された場合には、「講師を含む俯瞰画像の単一配置」、「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」のいずれかのレイアウトを表示画像のレイアウトとして決定する。この場合、レイアウト決定部３３４は、「講師を含む俯瞰画像の単一配置」を主要なレイアウトとして決定する。そして、レイアウト決定部３３４は、状況に応じて、「受講者の俯瞰画像の単一配置」、「受講者のクローズアップ画像の単一配置」、「受講者のクローズアップ画像と講師の画像との並列配置」、および「受講者のクローズアップ画像と講師の画像との重畳配置」のレイアウトに切り替える。

（１－３－２．歩行シーン）
　「歩行シーン」は、講師がセミナーでの講演中に歩いているシーンを意味する。すなわち、「歩行シーン」を示すシーン情報は主要被写体１０である講師の歩行に関する情報である。「歩行シーン」の表示画像のレイアウトとしては、「講師の追尾切り出し画像の単一配置」、「講師の俯瞰画像の単一配置」、および「講師を含む俯瞰画像の単一配置」が例示される。「講師の追尾切り出し画像の単一配置」は、講師をクローズアップした状態で追尾する画像のレイアウトを意味する。すなわち、「歩行シーン」の表示画像の構成画像には、主要被写体１０である講師を被写体とする画像が含まれる。

　レイアウト決定部３３４は、セミナーのシーンが「歩行シーン」であると判定された場合には、「講師の追尾切り出し画像の単一配置」、「講師の俯瞰画像の単一配置」、または「講師を含む俯瞰画像の単一配置」のレイアウトを表示画像のレイアウトとして決定する。この場合、レイアウト決定部３３４は、「講師の追尾切り出し画像」を主要なレイアウトして決定する。そして、レイアウト決定部３３４は、状況に応じて、「講師の俯瞰画像の単一配置」または「講師を含む俯瞰画像の単一配置」のレイアウトに切り替える。

（１－３－３．資料切り替えシーン）
　「資料切り替えシーン」は、講師によりセミナーの講演で受講者に提示される提示オブジェクト２０である資料を切り替えたシーンを意味する。すなわち、「資料切り替えシーン」を示すシーン情報は提示オブジェクト関連行動情報に含まれる、主要被写体１０による資料の切り替えを示す情報である。ここで、「資料切り替えシーン」は、提示資料であるスライド送りを行うシーンも含まれる。「資料切り替えシーンの表示画像のレイアウトとしては、「提示オブジェクト画像の単一配置」が例示される。特に、提示オブジェクト画像は提示されている資料の画像である。

　「提示オブジェクト画像の単一配置」は、提示オブジェクト画像を表示画面の全面に表示するレイアウトを意味する。レイアウト決定部３３４は、セミナーのシーンが「資料切り替えシーン」であると判定された場合には、「提示オブジェクト画像の単一配置」を表示画像のレイアウトとして決定する。

（１－３－４．板書シーン）
　「板書シーン」は、セミナーで講師が黒板やホワイトボードなどの筆記対象に筆記しているシーンを意味する。すなわち、「板書シーン」を示すシーン情報は提示オブジェクト関連行動情報に含まれる、主要被写体１０による板書を示す情報である。「板書シーン」の表示画像のレイアウトとしては、「記述画像と講師の画像との並列配置」、「記述画像と講師の画像との重畳配置」、「記述画像の単一配置」がある。「記述画像と講師の画像との重畳配置」として、「記述画像と講師の画像とのピクチャインピクチャ配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて記述画像に重畳させる、透過配置」が例示される。すなわち、「板書シーン」の表示画像の構成画像には、記述画像が含まれる。記述画像は板書抽出結果を示す画像であってもよい。

　「記述画像と講師の画像との並列配置」は、記述画像と、講師の画像とを並列配置で表示した画像のレイアウトを意味する。「記述画像と講師の画像との重畳配置」は、記述画像と、講師の画像とをピ重畳配置で表示した画像のレイアウトを意味する。「記述画像の単一配置」は、記述画像を表示画面の全面に単一で表示するレイアウトを意味する。「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」は、記述画像に、講師を重畳させた画像のレイアウトを意味する。「講師を透過させて記述画像に重畳させる、透過配置」は、記述画像に、講師を透過して重畳させた画像のレイアウトを意味する。

　レイアウト決定部３３４、セミナーのシーンが「板書シーン」であると判定された場合、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて板書抽出結果に重畳させる、透過配置」のいずれかのレイアウトを、表示画面のレイアウトとして決定する。この場合、レイアウト決定部３３４は、「講師を透過させて記述画像に重畳させる、透過配置」を主要なレイアウトとして決定する。そして、レイアウト決定部３３４は、状況に応じて、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、および「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」のいずれかのレイアウトに切り替える。

（１－３－５．説明シーン）
　「説明シーン」は、セミナーで講師が提示オブジェクト２０の説明をしているシーンを意味する。すなわち、「説明シーン」を示すシーン情報は、提示オブジェクト関連行動情報に含まれる、主要被写体１０による提示オブジェクト２０の説明を示す情報である。「説明シーン」の表示画像のレイアウトとしては、「記述画像と講師の画像との並列配置」、「記述画像と講師の画像との重畳配置」、「記述画像の単一配置」がある。「記述画像と講師の画像との重畳配置」として、「記述画像と講師の画像とのピクチャインピクチャ配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、「講師を透過させて記述画像に重畳させる、透過配置」が例示される。「記述画像の単一配置」として、資料または板書の記述画像を全画面に表示する「記述画像の単一配置」が例示される。すなわち、「説明シーン」の表示画像の構成画像には、提示オブジェクト画像、すなわち、資料または板書抽出結果を示す画像が含まれる。

　レイアウト決定部３３４は、セミナーのシーンが「説明シーン」であると判定された場合、「記述画像と講師の画像とのサイドバイサイド配置」、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を記述画像に重畳させる、抽出配置」、および「講師を透過させて、記述画像に重畳させる、透過配置」のいずれかを表示画像のレイアウトとして決定する。この場合、レイアウト決定部３３４は、「記述画像と講師の画像とのサイドバイサイド配置」を主要なレイアウトとして決定する。そして、レイアウト決定部３３４は、状況に応じて、「記述画像と講師の画像とのピクチャインピクチャ配置」、「記述画像の単一配置」、「講師を抽出して記述画像に重畳させる、講師の画像と記述画像の抽出配置」、および「講師を透過させて資料や板書抽出結果に重畳させる、透過配置」のいずれかのレイアウトに切り替える。

　レイアウト決定部３３４は、例えば、姿勢推定部３３１により推定された表情推定データを用いて、レイアウトを決定してもよい。例えば、レイアウト決定部３３４は、表情推定データにより講師のテンションの上昇がみられたときは、講師をクローズアップして表示するレイアウトに決定してもよい。例えば、レイアウト決定部３３４は、表情推定データ委より講師の低下がみられたときは、講師を俯瞰する表示や、資料を全画面に表示するレイアウトに決定してもよい。例えば、レイアウト決定部３３４は、セミナーの受講者がセミナーに集中していることがみられたときは、その受講者を含む受講者たちの俯瞰映像を表示するレイアウトに決定してもよい。例えば、レイアウト決定部３３４は、セミナーの受講者が驚いていることがみられたときは、その受講者をクローズアップして表示するレイアウトに決定してもよい。

［１－４．表示画像のレイアウト］
　次に、本開示に係る表示画像のレイアウトについて説明する。本開示おいて表示画像のレイアウトは、並列配置と、重畳配置と、記述画像の単一配置とがある。並列配置は、サイドバイサイド配置を含む。重畳配置は、ピクチャインピクチャ配置と、抽出配置と、透過配置と、記述画像の単一配置とについて説明する。

（１－４－１．サイドバイサイド配置）
　サイドバイサイド配置は、２つの構成画像を左右に並べて配置するレイアウトである。図７Ａと、図７Ｂとは、サイドバイサイド配置の表示画像を示している。

　図７Ａは、サイドバイサイド配置の第１の例を説明するための図である。表示画像４０は、第１画像表示領域４１と、第２画像表示領域４２と、を含む。第１画像表示領域４１には、主要被写体１０の画像が表示される。

　図７Ｂは、サイドバイサイド配置の第２の例を説明するための図である。表示画像４０Ａは、第１画像表示領域４１Ａと、第２画像表示領域４２Ａと、を含む。第１画像表示領域４１Ａには、主要被写体１０の画像が表示される。

（１－４－２．ピクチャインピクチャ配置）
　ピクチャインピクチャ配置は、複数の画像を重畳して配置する配置方法である。具体的には、ピクチャインピクチャ配置は、例えば、表示画面の全体に表示される第１画像のうち、部分的な領域に第２画像を重畳させる配置である。この場合、第２画像を重畳させる位置に特に制限なく、例えば、第１画像の中心の領域に第２画像を重畳させてもよいし、第１画像の４隅のいずれかに第２画像を重畳させてもよい。また、第１画像に対して、第３画像、第４画像、・・・、といった複数の画像を重畳させてもよい。以下では、ピクチャインピクチャ配置の例として、第１画像の４隅のいずれかに第２画像を配置させる例を説明する。

　図８Ａと、図８Ｂと、図８Ｃと、図８Ｄは、ピクチャインピクチャ配置の表示画像を示している。

　図８Ａは、ピクチャインピクチャ配置の表示画像の第１の例を説明するための図である。表示画像４０Ｂは、第１画像表示領域４１Ｂと、第２画像表示領域４２Ｂと、を含む。第１画像表示領域４１Ｂには、主要被写体１０の画像が表示される。第２画像表示領域４２Ｂには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部３３４は、資料の映像が表示画面の全体に表示され、左上隅に主要被写体１０が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。

　図８Ｂは、ピクチャインピクチャ配置の表示画像の第２の例を説明するための図である。表示画像４０Ｃは、第１画像表示領域４１Ｃと、第２画像表示領域４２Ｃと、を含む。第１画像表示領域４１Ｃには、主要被写体１０の画像が表示される。第２画像表示領域４２Ｃには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部３３４は、資料の映像が表示画面の全体に表示され、右上隅に主要被写体１０が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。

　図８Ｃは、ピクチャインピクチャ配置の表示画像の第３の例を説明するための図である。表示画像４０Ｄは、第１画像表示領域４１Ｄと、第２画像表示領域４２Ｄと、を含む。第１画像表示領域４１Ｄには、主要被写体１０の画像が表示される。第２画像表示領域４２Ｄには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部３３４は、資料の映像が表示画面の全体に表示され、左下隅に主要被写体１０が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。

　図８Ｄは、ピクチャインピクチャ配置の表示画像の第４の例を説明するための図である。表示画像４０Ｅは、第１画像表示領域４１Ｅと、第２画像表示領域４２Ｅと、を含む。第１画像表示領域４１Ｅには、主要被写体１０の画像が表示される。第２画像表示領域４２Ｅには、セミナー時にスクリーンに投影された資料などが表示される。すなわち、レイアウト決定部３３４は、資料の映像が表示画面の全体に表示され、右下隅に主要被写体１０が表示されるピクチャインピクチャ配置のレイアウトに決定してよい。

　レイアウト決定部３３４は、ピクチャインピクチャ配置のレイアウトに決定する場合には、表示画面の全体に表示された資料うち、文字や図などが記載されていない箇所に主要被写体１０の画像を表示させてもよい。

（１－４－３．抽出配置）
　レイアウト決定部３３４は、表示画像のレイアウトとして、提示オブジェクト２０に主要被写体１０の画像を抽出して重畳させる、抽出配置のレイアウトに決定してもよい。図９Ａと、図９Ｂとは、透過配置の表示画像を示している。

　図９Ａは、抽出配置の表示画像の第１の例を説明するための図である。表示画像４０Ｆは、第２画像表示領域４２Ｆを含む。表示画像４０Ｆは、主要被写体１０が表示される領域を含んでいない。表示画像４０Ｆでは、主要被写体１０は、第２画像表示領域４２Ｆに重畳して表示される。この場合、撮像画像に基づいて、周知の人物抽出処理を用いて主要被写体１０を抽出し、第２画像表示領域４２Ｆに重畳させるようにすればよい。

　図９Ｂは、抽出配置の表示画像の第２の例を説明するための図である。表示画像４０Ｇは、第２画像表示領域４２Ｇを含む。表示画像４０Ｇでは、主要被写体１０は、縮小された状態で第２画像表示領域４２Ｇに重畳して表示される。これにより、第２画像表示領域４２Ｇの文字などが重畳された主要被写体１０で隠れてしまうことが防止されるので、表示画像４０Ｇを視認しやすくなる。

（１－４－４．透過配置）
　レイアウト決定部３３４は、表示画像のレイアウトとして、資料に主要被写体１０の画像を透過するように重畳させる、透過配置のレイアウトに決定してもよい。図１０は、透過配置の表示画像を示している。

　図１０は、透過配置の一例を説明するための図である。表示画像４０Ｈは、表示画像４０Ｈは、第２画像表示領域４２Ｈを含む。表示画像４０Ｇでは、主要被写体１０は、透過された状態で第２画像表示領域４２Ｈに重畳して表示される。これにより、第２画像表示領域４２Ｈの文字などが重畳された主要被写体１０で隠れてしまうことが防止されるので、表示画像４０Ｈを視認しやすくなる。

（１－４－５．単一配置）
　レイアウト決定部３３４は、表示画像のレイアウトとして、１つの構成画像を表示画像の全体に単一で表示するレイアウトとしてよい。例えば、提示オブジェクト画像を表示画面の全体に単一で表示する。この場合、表示画像には主要被写体１０は表示されずに、提示オブジェクト２０を全画面に表示するようにしてよい。また、例えば、主要被写体１０または副被写体３０を被写体として含む人物画像を表示画面の全体に単一で表示してもよい。この場合、主要被写体１０の画像のみを含む単一配置でもよいし、副被写体３０の画像のみを含む単一配置でもよい。また、主要被写体１０と、副被写体３０のみを含む単一配置でもよい。　

［１－５．情報処理装置の処理］
　図１１を用いて、第１実施形態に係る情報処理装置の処理の流れについて説明する。図１１は、第１実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。

　図１１に示すフローチャートは、主要被写体１０である講師が、プロジェクタなどでスクリーンに投影された資料を用いて講演しているセミナーのシーンを判定し、シーンに応じた表示画像を生成する処理の流れを示している。

　制御部３３０は、講師の姿勢を推定する（ステップＳ１０）。具体的には、姿勢推定部３３１は、撮像装置１００が撮像した撮像画像に基づいて、講師の姿勢を推定する。

　制御部３３０は、追尾処理を実行する（ステップＳ１１）。具体的には、追尾部３３２は、撮像装置１００が撮像した撮像画像と、講師の姿勢の推定結果に基づいて、撮像画像のフレーム間において講師を追尾する。

　制御部３３０は、セミナーのシーンを判定する（ステップＳ１２）。具体的には、行動認識部３３３は、撮像装置１００が撮像した撮像画像に基づいて、シーンを判定する。

　制御部３３０は、セミナーのシーンに応じたレイアウトを決定する（ステップＳ１３）。具体的には、レイアウト決定部３３４は、行動認識部３３３によるシーンの判定結果に基づいて、表示画面に表示させる表示画像のレイアウトを決定する。

　制御部３３０は、撮像画像に対して切り出し処理を実行する（ステップＳ１４）。具体的には、クロップ部３３５は、レイアウト決定部３３４により決定されたレイアウトに基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。

　制御部３３０は、表示装置４００に表示させるための表示画像を生成する（ステップＳ１５）。具体的には、表示画像生成部３３６は、切り出し画像を用いて、レイアウト決定部３３４Ｃにより決定されたレイアウトに従って、表示画像を生成する。

　制御部３３０は、表示画像の生成処理が終了したか否かを判定する（ステップＳ１６）。具体的には、制御部３３０は、セミナーが終了した場合や、ユーザによる生成処理を終了する旨の指示を受け付けた場合に、表示画像の生成処理が終了したと判定する。ステップＳ１６でＹｅｓと判定された場合、図６の処理を終了する。一方、ステップＳ１６でＮｏと判定された場合、ステップＳ１０に進み、ステップＳ１０～ステップＳ１５の処理を繰り返す。

　上述のとおり、第１実施形態では、セミナーのシーンを判定し、シーンの判定結果に応じて、表示画像のレイアウトを決定する。これにより、第１実施形態は、セミナーのシーンに応じた適切な表示画像を生成することができる。

　なお、上述の実施形態では、表示装置４００に表示させる表示画像を生成する処理の全てを情報処理装置３００が単一で行っていたが、これは例示であり、本開示を限定するものではない。情報処理装置３００は、姿勢推定部３３１、追尾部３３２、行動認識部３３３、レイアウト決定部３３４のいずれか１つを含む構成であってもよい。すなわち、本開示では、姿勢推定部３３１、追尾部３３２、行動認識部３３３、レイアウト決定部３３４とは複数の装置に分散して設けられてもよい。言い換えれば、本開示では、表示装置４００に表示させる表示画像を生成する処理を複数の異なる装置で分散して行ってもよい。

＜２．第２実施形態＞
　次に、第２実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、講演の状況が変化することが想定される。例えば、講師がスクリーンに投影された資料を用いて説明する際に、講師の姿勢方向が視聴者から見て右を向いて説明している状況と、左を向いて説明している状況とが想定される。そこで、第２実施形態では、講師の姿勢方向に応じて適切な表示配置のレイアウトに変更する。

［２－１．情報処理装置の構成］
　図１２を用いて、第２実施形態に係る情報処理装置の構成について説明する。図１２は、第２実施形態に係る情報処理装置の構成を示すブロック図である。

　図１２に示すように、情報処理装置３００Ａは、制御部３３０Ａの行動認識部３３３Ａと、レイアウト決定部３３４Ａが実行する処理が、図２に示す情報処理装置３００と、異なっている。

　行動認識部３３３Ａは、主要被写体１０または副被写体３０の姿勢方向を特定する。姿勢方向とは人物の向いている方向である。行動認識部３３３Ａは、追尾結果と姿勢推定情報を用いて、主要被写体１０および副被写体３０の各々が姿勢方向を特定する。追尾結果には、姿勢推定情報が含まれてもよい。行動認識部３３３Ａは、ルールベースで主要被写体１０および副被写体３０の向いている方向を特定してもよい。ルールベースとしては、例えば、姿勢推定情報である骨格の関節部と骨部との状態と、姿勢方向とが予め対応付けられており、行動認識部３３３Ａは、骨格の関節部と骨部との状態との推定結果に基づいて、主要被写体１０および副被写体３０が姿勢方向を特定してもよい。行動認識部３３３Ａは、主要被写体１０および副被写体３０の全ての人物について姿勢方向を特定してもよいし、特定の人物のみの姿勢方向を特定してもよい。行動認識部３３３Ａは、認識結果に関する情報をレイアウト決定部３３４に出力する。

　行動認識部３３３Ａは、記憶部３２０に記憶されているデータを参照し、主要被写体１０および副被写体３０の姿勢方向を特定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部３３３Ａは、生成した判定モデルを用いて、主要被写体１０および副被写体３０の向いている方向を特定してよい。すなわち、行動認識部３３３Ａは、機械学習を用いて、主要被写体１０および副被写体３０の姿勢方向を特定してもよい。この場合、行動認識部３３３Ａは、追尾結果や姿勢推定情報を用いずに、人物の姿勢方向が各種の方向となっている映像を機械学習で学習することで、撮像装置１００が撮像した撮像画像に基づいて、主要被写体１０および副被写体３０の姿勢方向を特定してもよい。本実施形態では、行動認識部３３３Ａは、例えば、主要被写体１０が視聴者からみて右を向いているか、または左を向いているかを特定する。

　レイアウト決定部３３４Ａは、表示装置４００に表示させる表示画像のレイアウトを決定する。レイアウト決定部３３４Ａは、撮像装置１００から受けた撮像画像と、入力装置２００から受けた資料に関する情報（提示オブジェクト２０）と、行動認識部３３３Ａから受けた認識結果と、に基づいて、表示画像のレイアウトを決定する。レイアウト決定部３３４Ａは、例えば、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する。レイアウト決定部３３４Ａは、例えば、主要被写体１０の姿勢方向に基づいて、表示装置４００に表示させる表示画像のレイアウトを決定する。レイアウト決定部３３４Ａは、表示画像が複数の構成画像により構成されているとき、複数の構成画像の１つである第１の構成画像である人物画像における人物の姿勢方向に基づいて、表示画像における第１の構成画像の表示配置を決定する。人物画像における人物が視聴者から見て右を向いているときは、人物画像を表示画像の中心が人物画像の中心よりも左側に配置するように配置する。レイアウト決定部３３４Ａは、表示画像が、少なくとも第１の構成画像と第２の構成画像により構成されているとき、第１の構成画像である人物画像における人物の姿勢方向と、表示画像内における第１の構成画像の中心の位置に対する第２の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である。具体的には、レイアウト決定部３３４Ａは、第１の構成画像である人物の姿勢方向が第２の構成画像の中心を向くように表示配置を決定する。ここで、画像の中心は画像の重心であってもよい。

　レイアウト決定部３３４Ａは、表示画像を生成するための撮像画像における切り出し位置を特定する。レイアウト決定部３３４Ａは、例えば、撮像装置１００から撮像画像を受けた場合に、その撮像画像から複数の切り出し位置を特定し、特定した複数の切り出し位置の中から、表示画像を特定してもよい。レイアウト決定部３３４Ａは、例えば、複数の撮像装置１００からそれぞれ撮像画像を受けた場合には、複数の撮像画像の中から、表示画像を選択してもよい。レイアウト決定部３３４は、決定したレイアウトに関するレイアウト情報を、切り出し位置に関する情報をクロップ部３３５と、表示画像生成部３３６とに出力する。

　レイアウト決定部３３４Ａは、視聴者から見た主要被写体１０の姿勢方向に応じて、表示配置を決定する。レイアウト決定部３３４Ａは、表示配置として、例えば、並列配置および重畳配置のいずれかに配置に決定する。並列配置は、サイドバイサイド配置を含む。重畳配置は、ピクチャインピクチャ配置、抽出配置、および透過配置を含む。本開示では、レイアウト決定部３３４Ａは、例えば、表示画像のレイアウトをサイドバイサイド配置に決定した場合には、視聴者から見た主要被写体１０の姿勢方向に応じて、サイドバイサイド配置のレイアウトを変更する。

　レイアウト決定部３３４Ａは、行動認識部３３３Ａにより主要被写体１０が視聴者から見て右を向いていると特定された場合、表示画像のレイアウトを図７Ａに図示のサイドバイサイド配置のレイアウトに決定する。図７Ａには、主要被写体１０が視聴者から見て右を向いている場合の表示画像４０が示されている。表示画像４０は、第１画像表示領域４１と、第２画像表示領域４２と、を含む。第１画像表示領域４１には、主要被写体１０の画像が表示される。第２画像表示領域４２には、セミナー時にスクリーンに投影された資料などが表示される。レイアウト決定部３３４は、主要被写体１０が向かって右を向いている場合には、左側に主要被写体１０が表示され、右側に資料が表示されるレイアウトに決定する。

　レイアウト決定部３３４Ａは、行動認識部３３３Ａにより主要被写体１０が視聴者から見て左を向いていると特定された場合、表示画像のレイアウトを図７Ｂに図示のサイドバイサイド配置の表示画像のレイアウトを説明するための図である。図７Ｂには、主要被写体１０が視聴者から見て左を向いている場合の表示画像４０Ａが示されている。表示画像４０Ａは、第１画像表示領域４１Ａと、第２画像表示領域４２Ａと、を含む。第１画像表示領域４１Ａには、主要被写体１０の画像が表示される、第２画像表示領域４２Ａには、セミナー時にスクリーンに投影された資料などが表示される。レイアウト決定部３３４は、主要被写体１０が視聴者から見て左を向いている場合には、左側に資料が表示され、右側に主要被写体１０が表示されるレイアウトに決定する。

　すなわち、レイアウト決定部３３４は、主要被写体１０と、資料との画像が隣接して並んだサイドバイサイド配置のレイアウトに決定する。図７Ａおよび図７Ｂに示すようなサイドバイサイド配置の表示画像にすることで、主要被写体１０の向きに資料の映像が位置することになるので、ユーザは、表示画像４０および表示画像４０Ａを視認しやすくなる。

　レイアウト決定部３３４は、主要被写体１０の向きが変わるごとに表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部３３４は、主要被写体１０が所定時間以上（例えば、５秒以上）同一の方向を向いている場合に、レイアウトを変更するようにしてもよい。

　レイアウト決定部３３４Ａ、行動認識部３３３Ａの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部３３４Ａは、主要被写体１０が所定時間以上（例えば、１０秒以上）同一の方向を向いている場合に、レイアウトを変更するようにしてもよい。

［２－２．情報処理装置の処理］
　図１３を用いて、第２実施形態に係る情報処理装置の処理の流れについて説明する。図１３は、第２実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。

　図１３に示すフローチャートは、主要被写体１０である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図１３に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。

　制御部３３０Ａは、講師の姿勢を推定する（ステップＳ２０）。具体的には、姿勢推定部３３１は、撮像装置１００が撮像した撮像画像に基づいて、講師の姿勢を推定する。

　制御部３３０Ａは、追尾処理を実行する（ステップＳ２１）。具体的には、追尾部３３２は、撮像装置１００が撮像した撮像画像と、講師の姿勢の推定結果に基づいて、撮像画像のフレーム間において講師を追尾する。

　制御部３３０Ａは、講師は視聴者から見て右を向いているか否かを判定する（ステップＳ２２）。具体的には、行動認識部３３３Ａは、講師の姿勢の推定結果に基づいて、講師は視聴者から見て右を向いていると判定された場合（ステップＳ２２；Ｙｅｓ）、ステップＳ２３に進む。一方、講師は視聴者から見て右を向いていないと判定された場合（ステップＳ２２；Ｎｏ）、ステップＳ２４に進む。

　ステップＳ２２でＹｅｓと判定された場合、制御部３３０Ａは、表示画像のレイアウトを第１レイアウトに決定する（ステップＳ２３）。具体的には、レイアウト決定部３３４Ａは、表示画像のレイアウトを、左側に講師、右側に資料が表示されるレイアウトに決定する。

　ステップＳ２２でＮｏと判定された場合、制御部３３０Ａは、表示画像のレイアウトを第２レイアウトに決定する（ステップＳ２４）。具体的には、レイアウト決定部３３４Ａは、表示画像のレイアウトを、左側に資料、右側に講師が表示されるレイアウトに決定する。

　制御部３３０Ａは、撮像画像における切り出し位置を特定する（ステップＳ２５）。具体的には、レイアウト決定部３３４Ａは、表示画像に使用するための切り出し画像を生成するための、切り出し位置を特定する。

　制御部３３０Ａは、撮像画像に対して切り出し処理を実行する（ステップＳ２６）。具体的には、クロップ部３３５は、レイアウト決定部３３４Ａによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。

　制御部３３０は、表示装置４００に表示させるための表示画像を生成する（ステップＳ２７）。具体的には、表示画像生成部３３６は、切り出し画像と、資料の画像とを、レイアウト決定部３３４Ａにより決定されたレイアウトに従って、表示画像を生成する。

　制御部３３０Ａは、表示画像の生成処理が終了したか否かを判定する（ステップＳ２８）。具体的には、制御部３３０Ａは、セミナーが終了した場合や、ユーザによる生成処理を終了する旨の指示を受け付けた場合に、表示画像の生成処理が終了したと判定する。ステップＳ２８でＹｅｓと判定された場合、図９の処理を終了する。一方、ステップＳ２８でＮｏと判定された場合、ステップＳ２０に進み、ステップＳ２０～ステップＳ２７の処理を繰り返す。

　上述のとおりに、第１実施形態では、資料を用いて講演する講師の向きに応じて、講師と資料とを並べて表示するサイドバイサイド配置のレイアウトに変更することができる。これにより、第１実施形態は、講師の向きが変わっても、違和感のない表示画面を提供することができる。

＜３．第３実施形態＞
　次に、第３実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、講演の状況が変化することが想定される。例えば、講師が歩きながら説明している状況などでは、資料を用いずに説明している状況が想定される。このような場合に、表示画像に資料が含まれている場合、その資料とは関係のないことを説明している可能性がある。そこで、第２実施形態では、講師が歩きながら説明していると判定された場合には、表示画像のレイアウトを資料が含まれないような適切なレイアウトに変更する。

［３－１．情報処理装置の構成］
　図１４を用いて、第３実施形態に係る情報処理装置の構成について説明する。図１４は、第３実施形態に係る情報処理装置の構成を示すブロック図である。

　図１４に示すように、情報処理装置３００Ｂは、制御部３３０Ｂの行動認識部３３３Ｂと、レイアウト決定部３３４Ｂが実行する処理が、図２に示す情報処理装置３００と、異なっている。

　行動認識部３３３Ｂは、主要被写体１０および副被写体３０の各々が歩いているか否かを判定する。行動認識部３３３Ｂは、追尾結果を用いて、主要被写体１０および副被写体３０が歩いているか否かを判定する。行動認識部３３３Ｂは、例えば、追尾結果を用いて、主要被写体１０および副被写体３０の各々の動きベクトルを算出し、歩行速度と判定される動きベクトルが算出された場合に、その人物は歩いていると判定する。歩行速度と判定される動きベクトルは、予め記憶部３２０に情報として記憶されていればよい。行動認識部３３３Ｂは、主要被写体１０および副被写体３０の全ての人物について歩いているか否かを判定してもよいし、特定の人物のみ歩いているか否かを判定してもよい。行動認識部３３３Ｂは、歩いているか否かを示す歩行情報をレイアウト決定部３３４Ｂに出力する。

　行動認識部３３３Ｂは、記憶部３２０に記憶されているデータを参照し、主要被写体１０および副被写体３０が歩いているか否かを判定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部３３３Ｂは、生成した判定モデルを用いて、主要被写体１０および副被写体３０が歩いていることを特定してよい。すなわち、行動認識部３３３Ｂは、機械学習を用いて、主要被写体１０および副被写体３０が歩いていることを特定してもよい。この場合、行動認識部３３３Ｂは、追尾結果や姿勢推定情報を用いずに、人物が歩いている映像を機械学習で学習することで、撮像装置１００が撮像した撮像画像に基づいて、主要被写体１０および副被写体３０が歩いているか否かを判定してよい。

　レイアウト決定部３３４Ｂは、表示装置４００に表示させる表示画像のレイアウトを決定する。レイアウト決定部３３４Ｂは、主要被写体１０が歩いているか否かに応じてレイアウトを変更する。レイアウト決定部３３４Ｂは、主要被写体１０が歩いているか否かに応じて、適切な表示配置のレイアウトに変更する。レイアウト決定部３３４Ｂは、主要被写体１０が歩いていると判定された場合には、表示画像のレイアウトを、主要被写体１０をクローズアップした注視画像の単一配置に決定する。

　図１５は、主要被写体１０が歩いていると判定された場合の表示画像のレイアウトを説明するための図である。図１５には、主要被写体１０としての講師６１を含む表示画像６０が示されている。レイアウト決定部３３４Ｂは、行動認識部３３３Ｂによって、講師６１が歩いていると判定された場合、講師６１を含む領域６２を特定する。レイアウト決定部３３４Ｂは、領域６２の拡大映像６２Ａを表示装置４００に表示させる表示映像のレイアウトとして決定する。レイアウト決定部３３４Ｂは、特定されて領域６２の位置に関する情報をクロップ部３３５に出力する。

　レイアウト決定部３３４Ｂは、行動認識部３３３Ｂの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部３３４Ｂは、講師６１が所定時間以上（例えば、３秒以上）歩いている場合に、レイアウトを変更するようにしてもよい。

［３－２．情報処理装置の処理］
　図１６を用いて、第３実施形態に係る情報処理装置の処理の流れについて説明する。図１６は、第３実施形態に係る情報処理装置の処理の流れの一例を示すフローチャートである。

　図１６に示すフローチャートは、主要被写体１０である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図１６に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。

　ステップＳ３０およびステップＳ３１の処理は、図１３に図示のステップＳ２０およびステップＳ２１の処理と同一の処理なので、説明を省略する。

　制御部３３０Ｂは、講師が歩いているか否かを判定する（ステップＳ３２）。具体的には、行動認識部３３３Ｂは、姿勢推定情報に基づいて講師の動きベクトルを算出することで、講師が歩いているか否かを判定する。講師が歩いていると判定された場合（ステップＳ３２；Ｙｅｓ）、ステップＳ３３に進む。一方、講師が歩いていないと判定された場合（ステップＳ３２；Ｎｏ）、ステップＳ３７に進む。

　ステップＳ３２でＹｅｓと判定された場合、制御部３３０Ｂは、表示画像のレイアウトを第３レイアウトに決定する（ステップＳ３３）。具体的には、レイアウト決定部３３４Ｂは、表示画像のレイアウトを、講師６１をクローズアップした注視画像の単一配置をレイアウトに決定する。

　制御部３３０Ｂは、撮像画像における切り出し位置を特定する（ステップＳ３４）。具体的には、レイアウト決定部３３４Ｂは、切り出し画像を生成するための、切り出し位置を特定する。

　制御部３３０Ｂは、撮像画像に対して切り出し処理を実行する（ステップＳ３５）。具体的には、クロップ部３３５は、レイアウト決定部３３４Ｂによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。

　制御部３３０Ｂは、表示装置４００に表示させるための表示画像を生成する（ステップＳ３６）。具体的には、表示画像生成部３３６は、切り出し画像を表示画像として生成する。

　ステップＳ３７～ステップＳ４３の処理は、それぞれ、図１３に図示のステップＳ２２～ステップＳ２８の処理と同一なので、説明を省略する。

　上述のとおりに、第３実施形態では、講師が歩いているか否かに応じて、表示画面のレイアウトを変更することができる。これにより、第３実施形態は、講師が資料を用いずに歩きながら説明しているシーンであっても、違和感のない表示画面を提供することができる。

＜４．第４実施形態＞
　次に、第４実施形態について説明する。講師がスクリーンに投影された資料を用いて講演において、例えば、質疑応答が行われることが想定される。このような場合、講師と、質問者と、資料とを含むように表示画像を生成することが望ましいことがある。そこで、第４実施形態では、講演において質疑応答が行われていると判定された場合には、表示画像のレイアウトを講演者と、質問者と、を含む全体画像の単一配置に決定する。

［４－１．情報処理装置の構成］
　図１７を用いて、第４実施形態に係る情報処理装置の構成について説明する。図１７は、第４実施形態に係る情報処理装置の構成を示すブロック図である。

　図１７に示すように、情報処理装置３００Ｃは、制御部３３０Ｃの行動認識部３３３Ｃと、レイアウト決定部３３４Ｃが実行する処理が、図２に示す情報処理装置３００と、異なっている。

　行動認識部３３３Ｃは、セミナーなどの講演において、質疑応答が行われているか否かを判定する。行動認識部３３３Ｃは、主要被写体１０および副被写体３０の撮像画像に基づいて、質疑応答が行われているか否かを判定する。行動認識部３３３Ｃは、例えば、主要被写体１０が副被写体３０に向かって指を指していたり、手を差し伸べていたりする動作を検出した場合に、質疑応答が行われていると判定する。行動認識部３３３Ｃは、例えば、主要被写体１０が副被写体３０の方を向いて、うなずいたり、首を縦又は横に振ったりしている動作を検出した場合には、主要被写体１０が副被写体３０の話を聞いている可能性が高いため、質疑応答が行われていると判定する。行動認識部３３３Ｃは、副被写体３０の少なくとも１人が手を挙げていたり、起立していたりする動作を検出した場合に、質疑応答が行われていると判定する。

　行動認識部３３３Ｃは、記憶部３２０に記憶されているデータを参照し、質疑応答が行われているか否かを判定するための学習をニューラルネットワークによって行い、学習した結果から判定モデルを生成してよい。行動認識部３３３Ｃは、生成した判定モデルを用いて、質疑応答が行われているか否かを判定してよい。すなわち、行動認識部３３３Ｃは、機械学習を用いて、質疑応答が行われていることを特定してもよい。この場合、行動認識部３３３Ｃは、追尾結果や姿勢推定情報を用いずに、質疑応答が行われている映像を機械学習で学習することで、撮像装置１００が撮像した撮像画像に基づいて、質疑応答が行われているか否かを判定してよい。

　レイアウト決定部３３４Ｃは、表示装置４００に表示させる表示画像のレイアウトを決定する。レイアウト決定部３３４Ｃは、質疑応答が行われているか否かに応じてレイアウトを決定する。レイアウト決定部３３４Ｃは、質疑応答が行われている否かに応じて、適切な表示配置のレイアウトに変更する。レイアウト決定部３３４Ｃは、質疑応答が行われていると判定された場合には、表示装置４００においては、主要被写体１０と、副被写体３０と、を含む俯瞰画像のみを構成画像とする表示画像とする。俯瞰画像は、全体画像と呼ぶこともある。

　図１８は、質疑応答が行われていると判定された場合の表示画像のレイアウトを説明するための図である。図１８には、主要被写体１０としての講師７１と、副被写体３０としての受講者７２と、を含む表示画像７０が示されている。レイアウト決定部３３５Ｂは、行動認識部３３３Ｂによって、質疑応答が行われていると判定された場合には、講師７１と、受講者７２と、を含む構成画像のみで構成されている表示画像７０のようなレイアウトを表示画像のレイアウトとして決定する。

　レイアウト決定部３３４Ｃは、行動認識部３３３Ｃの誤検出などにより、表示画像のレイアウトが変更されると、ユーザが表示画像を視認しづらくなることが想定されるので、表示画像のレイアウトが安定するような処理を実行してもよい。例えば、レイアウト決定部３３４Ｃは、講師７１と、受講者７２とが所定時間以上（例えば、１０秒以上）会話をしていると判定された場合に、レイアウトを変更するようにしてもよい。

［４－２．情報処理装置の処理］
　図１９を用いて、第４実施形態に係る情報処理装置の処理の流れについて説明する。図１９は、第４実施形態に係る情報処理装置の処理の流れの一例を示す図である。

　図１９に示すフローチャートは、主要被写体１０である講師がセミナーなどで、プロジェクタなどでスクリーンに投影された資料を用いて講演している様子の表示画像を生成する処理の流れを示している。なお、図１９に示すフローチャートは、講師が板書をしながら説明する場合であっても、同様に適用することができる。

　ステップＳ５０およびステップＳ５１の処理は、図１３に図示のステップＳ２０およびステップＳ２１の処理と同一の処理なので、説明を省略する。

　制御部３３０Ｃは、質疑応答が行われているか否かを判定する（ステップＳ５２）。具体的には、行動認識部３３３Ｃは、講師と受講者との撮像画像に基づいて、質疑応答が行われているか否かを判定する。質疑応答が行われていると判定された場合（ステップＳ５２；Ｙｅｓ）、ステップＳ５３に進む。質疑応答が行われていないと判定された場合（ステップＳ５２；Ｎｏ）、ステップＳ５７に進む。

　ステップＳ５２でＹｅｓと判定された場合、制御部３３０Ｃは、表示画像のレイアウトを第４レイアウトに決定する（ステップＳ５３）。具体的には、レイアウト決定部３３４Ｃは、講師と、受講者と、を含む俯瞰画像のみを構成画像とするレイアウトを表示画像のレイアウトとして決定する。

　制御部３３０Ｃは、撮像画像の全画面を切り出し画像として特定する（ステップＳ５４）。具体的には、レイアウト決定部３３４Ｃは、俯瞰画像全体を切り出し位置として特定する。

　制御部３３０Ｃは、撮像画像に対して切り出し処理を実行する（ステップＳ５５）。具体的には、クロップ部３３５は、レイアウト決定部３３４Ｃによる切り出し位置の特定結果に基づいて、撮像画像に対して切り出し処理を実行して、切り出し画像を生成する。

　制御部３３０Ｃは、表示装置４００に表示させるための表示画像を生成する（ステップＳ５６）。具体的には、表示画像生成部３３６は、切り出し画像を構成画像として表示画像を生成する。

　ステップＳ５７～ステップＳ６３の処理は、それぞれ、図１３に図示のステップＳ２２～ステップＳ２８の処理と同一なので、説明を省略する。

　上述のとおり、第４実施形態は、質疑応答が行われているか否かに応じて、表示画像のレイアウトを変更することができる。これにより、第３実施形態は、セミナーにおいて質疑応答が行われた場合に、適切なレイアウトに変更することができる。

［４－３．レイアウトの変形例］
　次に、第４実施形態に係る表示画像のレイアウトの変形例について説明する。第４実施形態では、表示画像のレイアウトは、講師と、受講者と、スクリーンに投影された資料などを含む俯瞰レイアウトであるものとして説明したが、本開示はこれに限定されない。

　図２０は、第３実施形態に係る表示画像のレイアウトの第１の変形例を示す図である。図２０は、受講者の俯瞰画像（全体画像ともいう）を示している。

　表示画像７０Ａは、複数の受講者７２を含む。レイアウト決定部３３４Ｃは、例えば、講師から受講者７２に対して、質問が投げかけられた場合には、受講者７２を俯瞰した画像である全体画像のみを構成画像とするレイアウトに決定してよい。これにより、講師の質問に対する受講者７２に様子が把握しやすくなる。

　図２１は、第４実施形態に係る表示画像のレイアウトの第２の変形例を示す図である。図２１は、質問者のクローズアップした画像を示している。クローズアップした画像は、注視画像と呼ぶこともある。

　表示画像７０Ｂは、受講者７２を含む。表示画像７０Ｂにおける受講者７２は、講師と質疑応答をしている受講者である。受講者７２は、例えば、講師と質疑応答している受講者である。レイアウト決定部３３４Ｃは、講師７１と、受講者７２との間で質疑応答が開始されたと判定された場合に、受講者７２がクローズアップされた注視画像をレイアウトに決定してよい。これにより、質疑応答のおける受講者７２に様子を把握しやすくなる。

　図２２は、第４実施形態に係る表示画像のレイアウトの第３の変形例を示す図である。図２２は、講師７１をクローズアップした注視画像と受講者７２をクローズアップした注視画像とのサイドバイサイド配置のレイアウトを示している。

　表示画像７０Ｃは、第１画像表示領域７４と、第１画像表示領域７５と、を含む。第１画像表示領域７４には、講師７１の画像が表示される。講師７１と、受講者７２とは、質疑応答をしている。レイアウト決定部３３４Ｃは、講師７１と、受講者７２との間で質疑応答が開始されていると判定された場合に、講師７１をクローズアップした注視画像と、受講者７２をクローズアップした注視画像とが並んで表示された並列配置であるサイドバイサイド配置のレイアウトに決定してよい。レイアウト決定部３３４Ｃは、行動認識部３３３Ｃによる講師７１および受講者７２の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。これにより、講師７１と、受講者７２との質疑応答の様子がより把握しやすくなる。

　図２３は、第４実施形態に係る表示画像のレイアウトの第４の変形例を示す図である。図２３は、講師７１をクローズアップした注視画像と、受講者７２をクローズアップした注視画像とのピクチャインピクチャ配置のレイアウトを示している。

　表示画像７０Ｄは、第１画像表示領域７４Ａと、第１画像表示領域７５Ａと、を含む。第１画像表示領域７４Ａは、表示画像７０Ｄにおいて、右下隅に位置している。第１画像表示領域７４Ａは、表示画像７０Ｄにおいて、左上隅、右上隅、または左下隅に位置してもよい。第１画像表示領域７４Ａは、表示画像７０Ｄの隅に限らず、例えば、表示画像７０Ｄの中央部を含む任意の場所に位置してもよい。レイアウト決定部３３４Ｃは、行動認識部３３３Ｂによる講師７１および受講者７２の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。第１画像表示領域７４Ａには、講師７１をクローズアップした注視画像が表示される。第１画像表示領域７５Ａは、表示画像７０Ｄの全体を占める。第１画像表示領域７５には、受講者７２をクローズアップした注視画像が表示される。これにより、講師７１と、受講者７２とが、質疑応答をしている際に、受講者７２が発言していると判定された場合などに、講師７１と、受講者７２との質疑応答の様子がより把握しやすくなる。

　図２４は、第４実施形態に係る表示画像のレイアウトの第５の変形例を示す図である。図２４は、講師７１をクローズアップした注視画像と、受講者７２をクローズアップした注視画像との重畳配置であるピクチャインピクチャ配置のレイアウトを示している。

　表示画像７０Ｅは、第１画像表示領域７３Ｂと、第２画像表示領域７５Ｂと、を含む。第１画像表示領域７４Ｂは、表示画像７０Ｅの全体を占める。第１画像表示領域７４Ｂには、講師７１をクローズアップした注視画像が表示される。第２画像表示領域７５Ｂは、表示画像７０Ｅにおいて、左下隅に位置している。第２画像表示領域７５Ｂは、表示画像７０Ｅにおいて、右上隅、左上隅、または右下隅に位置してもよい。第２画像表示領域７５Ｂは、表示画像７０Ｅの隅に限らず、例えば、表示画像７０Ｅの中央部を含む任意の場所に位置してもよい。レイアウト決定部３３４Ｃは、行動認識部３３３Ｂによる講師７１および受講者７２の少なくとも一方の姿勢方向の判定結果に応じて、表示画像のレイアウトを決定してよい。第２画像表示領域７５Ｂには、受講者７２をクローズアップした注視画像が表示される。これにより、講師７１と、受講者７２とが、質疑応答をしている際に、講師７１が発言していると判定された場合などに講師７１と、受講者７２との質疑応答の様子がより把握しやすくなる。

［４－４．情報処理装置の処理の変形例］
　図２５を用いて、第４実施形態に係る情報処理装置の処理の変形例について説明する。図２５は、第４実施形態に係る情報処理装置の処理の変形例の流れの一例を示すフローチャートである。

　第２実施形態では、講師の姿勢方向に応じて表示画像のレイアウトを変更する。第３実施形態では、講師が歩いているか否かに応じて表示画像のレイアウトを変更する。第４実施形態では、質疑応答であるか否かに応じて表示画像のレイアウトを変更する。第４実施形態の変形例では、講師の姿勢方向、講師が歩いているか否か、質疑応答であるか否かの全てを判定してよい。

　ステップＳ７０～ステップＳ７６の処理は、それぞれ、図１９に図示のステップＳ５０～ステップＳ５６の処理と同一なので、説明を省略する。

　ステップＳ７７～ステップＳ７９の処理は、それぞれ、図１６に図示のステップＳ３２～ステップＳ３４の処理と同一なので、説明を省略する。

　ステップＳ８０～ステップＳ９６の処理は、ぞれぞれ、図１３に図示のステップＳ２２～ステップＳ２８の処理と同一なので、説明を省略する。

　＜５．第５実施形態＞
　次に、第５実施形態について説明する。第１実施形態～第４実施形態では、表示画面に表示させる表示画像を生成する。本開示では、第５実施形態に示すように、表示画像を制御したり、表示制御情報をメタデータとして記録したりするようにしてもよい。

［５－１．情報処理装置の構成］
　図２６を用いて、第５実施形態に係る情報処理装置の構成について説明する。図２６は、第５実施形態に係る情報処理装置の構成を示すブロック図である。

　図２６に示すように、情報処理装置３００Ｄは、制御部３３０Ｄが出力制御部３３７と関連部３３８とを備える点で、図２に示す情報処理装置３００と、異なっている。

　出力制御部３３７は、表示装置４００に表示させる各種の画像の出力を制御する。例えば、出力制御部３３７は、表示制御情報に基づいて、表示画像生成部３３６で合成された表示画像を表示装置４００に表示させる制御を行う。

　関連部３３８は、１または複数の撮像画像に表示制御情報を関連付ける。関連部３３８は、表示制御情報をメタデータとして、撮像画像に関連付ける。関連部３３８は、シーン情報をメタデータとして、撮影画像に関連付ける。関連部３３８は、姿勢方向に関する情報やレイアウト情報を撮像画像に関連付けてよい。関連部３３８は、その他の情報を撮影画像に関連付けてよい。

＜６．ハードウェア構成＞
　上述してきた各実施形態に係る情報処理装置３００～情報処理装置３００Ｄは、例えば図２７に示すような構成のコンピュータ１０００によって実現される。以下、上述の実施形態に係る情報処理装置３００を例に挙げて説明する。図２９は、コンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。また、コンピュータ１０００は、ＣＰＵ１１００の代わりにＧＰＵを有してもよい。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る開発支援プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が上述の実施形態に係る情報処理装置３００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部３３０に含まれる各機能部を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部３２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

＜７．効果＞
　本開示に係る情報処理装置３００は、セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部３３０を備える。

　これにより、情報処理装置３００は、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、１または複数の撮像画像に基づいて決定される。これにより、情報処理装置３００は、セミナーの様子を撮像した１または複数の撮像画像に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、セミナーの主要被写体１０の行動を示す主要被写体行動情報である。これにより、情報処理装置３００は、講師などの主要被写体１０の行動に基づくことで、情報処理装置３００は、セミナーのシーンに応じた適切な映像を生成することができる。

　主要被写体１０行動情報は、セミナーにおいて提示される提示オブジェクト２０に関連して主要被写体１０が行う行動を示す提示オブジェクト関連行動情報を含む。これにより、情報処理装置３００、セミナーにおいて示された資料などの提示オブジェクト関連情報に基づくことで、情報処理装置３００は、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、人物の姿勢に基づいて決定された情報である。これにより、情報処理装置３００は、シーン情報に含まれる人物の姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　人物とは、セミナーの主要被写体１０または副被写体３０である。これにより、情報処理装置３００は、講師などの主要被写体１０と、受講者などの副被写体３０との姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である。これにより、情報処理装置３００は、シーン情報に基づいて表示画像に含まれる構成画像を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　構成画像はセミナーの主要被写体１０または副被写体３０の少なくとも一方を被写体とする人物画像を含む。これにより、情報処理装置３００は、講師などの主要被写体１０と、受講者などの副被写体３０との姿勢に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、主要被写体１０の歩行に関する情報である。人物画像は、主要被写体１０を被写体とする画像である。これにより、情報処理装置３００は、対象人物が歩行している画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、質疑応答を示す情報である。人物画像は、副被写体３０を被写体とする画像である。これにより、情報処理装置３００は、対象人物が質疑応答している画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　人物画像は、全体画像または注視画像を含む。これにより、情報処理装置３００は、対象人物を含む全体画像または注視画像を表示画像の構成画像として決定するができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、セミナーにおいて提示される提示オブジェクト２０に関連してセミナーの主要被写体１０が行う行動を示す提示オブジェクト関連行動情報である。シーン情報に対応する構成画像は、提示オブジェクト２０の提示オブジェクト画像を含む。これにより、情報処理装置３００は、スクリーンに投影された資料などの提示オブジェクトの画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　提示オブジェクト関連行動情報は、主要被写体１０による提示オブジェクト２０の説明を示す情報である。これにより、これにより、情報処理装置３００は、講師などが説明している様子に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　提示オブジェクト関連行動情報は、主要被写体１０による板書を示す情報である。れにより、情報処理装置３００は、黒板やホワイボードの板書されている様子に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　提示オブジェクト画像は、板書による記述に関する情報を含む記述画像を含む。これにより、情報処理装置３００は、板書の記述を含む記述画像を表示画像の構成画像として決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　記述画像は、１または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である。これにより、情報処理装置３００は、板書を含む画像に基づいて板書の内容を抽出することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の表示画像内での表示配置を決定する制御である。これにより、情報処理装置３００は、表示画像のレイアウトを決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　表示制御は、シーン情報に基づいて、表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である。これにより、情報処理装置３００は、表示画像を構成する構成画像を選択することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　構成画像の数は複数である。表示配置は、並列配置または重畳配置である。これにより、情報処理装置３００は、構成画像が複数ある場合には構成画像を並列配置または重畳配置とすることで、表示画像を生成することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　シーン情報は、構成画像のうち人物を被写体として含む人物画像における人物の姿勢方向を示す情報を含む。これにより、情報処理装置３００は、構成画像に含まれる姿勢の方向に基づくことで、セミナーのシーンに応じた適切な映像を生成することができる。

　表示画像が複数の構成画像により構成されているとき、表示制御は、複数の構成画像の１つである第１の構成画像である人物画像における人物の姿勢方向に基づいて、表示画像における前記第１の構成画像の表示配置を決定する制御である。これにより、情報処理装置３００は、第１の構成画像に含まれる人物の姿勢の方向に基づいて、表示画像における第１の構成画像の配置する位置を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　表示画像が、少なくとも構成画像である第１の構成画像と第２の構成画像により構成されているとき、表示制御は、第１の構成画像である人物画像における人物の姿勢方向と、表示画像内における第１の構成画像の中心の位置に対する第２の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である。これにより、情報処理装置３００は、第１の画像に含まれる人物の姿勢の方向を第２の画像の中心を向くように、第１の構成画像と、第２の構成画像とを配置する位置を決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　第２の構成画像は、セミナーにおいて提示される提示オブジェクト２０の提示オジェクト画像である。これにより、情報処理装置３００は、第１の構成画像に含まれる人物の姿勢方向を、第２の構成画像に含まれるスクリーンに投影された資料などの提示オブジェクト２０を向くようにレイアウトを決定することができるので、セミナーのシーンに応じた適切な映像を生成することができる。

　制御部３３０は、１または複数の撮像画像に表示制御情報を関連付ける。これにより、情報処理装置３００は、生成した表示制御情報を分析することができるので、分析結果を利用することで、セミナーのシーンに応じた適切な映像を生成することができる。

　制御部３３０は、前記表示制御情報に基づいて表示画像を生成する。これにより、情報処理装置３００は、各種の表示制御を行うことができるので、セミナーのシーンに応じた適切な表示制御を行うことができる。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。　

　なお、本技術は以下のような構成も取ることができる。
（１）
　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える、情報処理装置。
（２）
　前記シーン情報は、１または複数の撮像画像に基づいて決定される、
　前記（１）に記載の情報処理装置。
（３）
　前記シーン情報は、前記セミナーの主要被写体の行動を示す主要被写体行動情報である、
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記主要被写体行動情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記主要被写体が行う行動を示す提示オブジェクト関連行動情報を含む、
　前記（３）に記載の情報処理装置。
（５）
　前記シーン情報は、人物の姿勢に基づいて決定された情報である、
　前記（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記人物とは、前記セミナーの主要被写体または副被写体である、
　前記（５）に記載の情報処理装置。
（７）
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である、
　前記（１）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記構成画像は前記セミナーの主要被写体または副被写体の少なくとも一方を被写体とする人物画像を含む、
　前記（７）に記載の情報処理装置。　
（９）
　前記シーン情報は、前記主要被写体の歩行に関する情報であり、
　前記人物画像は、前記主要被写体を被写体とする画像である、
　前記（８）に記載の情報処理装置。
（１０）
　前記シーン情報は、質疑応答を示す情報であり、
　前記人物画像は、前記副被写体を被写体とする画像である、
　前記（８）に記載の情報処理装置。
（１１）
　前記人物画像は、全体画像または注視画像を含む、
　前記（８）～（１０）のいずれか１つに記載の情報処理装置。
（１２）
　前記シーン情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記セミナーの主要被写体が行う行動を示す提示オブジェクト関連行動情報であり、前記シーン情報に対応する前記構成画像は、前記提示オブジェクトの提示オブジェクト画像を含む、
　前記（７）に記載の情報処理装置。
（１３）
　前記提示オブジェクト関連行動情報は、前記主要被写体による前記提示オブジェクトの説明を示す情報である、
　前記（１２）に記載の情報処理装置。
（１４）
　前記提示オブジェクト関連行動情報は、前記主要被写体による板書を示す情報である、
　前記（１２）または（１３）に記載の情報処理装置。
（１５）
　前記提示オブジェクト画像は、前記板書による記述に関する情報を含む記述画像を含む、
　前記（１４）に記載の情報処理装置。
（１６）
　前記記述画像は、１または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である、
　前記（１５）に記載の情報処理装置。
（１７）
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の前記表示画像内での表示配置を決定する制御である、
　前記（１）～（１６）のいずれか１つに記載の情報処理装置。
（１８）
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である、
　前記（１７）に記載の情報処理装置。
（１９）
　前記構成画像の数は複数であり、
　前記表示配置は、並列配置または重畳配置である、
　前記（１８）に記載の情報処理装置。
（２０）
　前記シーン情報は、前記構成画像のうち人物を被写体として含む人物画像における前記人物の姿勢方向を示す情報を含む、
　前記（１９）に記載の情報処理装置。
（２１）
　前記表示画像が複数の前記構成画像により構成されているとき、
　前記表示制御は、
　複数の前記構成画像の１つである第１の構成画像である人物画像における人物の姿勢方向に基づいて、前記表示画像における前記第１の構成画像の表示配置を決定する制御である、
　前記（１９）に記載の情報処理装置。
（２２）
　前記表示画像が、少なくとも前記構成画像である前記第１の構成画像と第２の構成画像により構成されているとき、
　前記表示制御は、
　前記第１の構成画像である前記人物画像における前記人物の姿勢方向と、前記表示画像内における前記第１の構成画像の中心の位置に対する前記第２の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である、
　前記（２１）に記載の情報処理装置。
（２３）
　前記第２の構成画像は、前記セミナーにおいて提示される提示オブジェクトの提示オジェクト画像である、
　前記（２２）に記載の情報処理装置。
（２４）
　前記制御部は、１または複数の撮像画像に前記表示制御情報を関連付ける、
　前記（１）～（２３）のいずれか１つに記載の情報処理装置。
（２５）
　前記制御部は、前記表示制御情報に基づいて前記表示画像を生成する、
　前記（１）～（２４）のいずれか１つに記載の情報処理装置。
（２６）
　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
　処理をコンピュータが実行する情報処理方法。
（２７）
　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
　処理をコンピュータに実行させる情報処理プログラム。

　１００　撮像装置
　２００　入力装置
　３００，３００Ａ，３００Ｂ，３００Ｃ，３００Ｄ　情報処理装置
　３１０　通信部
　３２０　記憶部
　３３０　制御部
　３３１　姿勢推定部
　３３２　追尾部
　３３３　行動認識部
　３３４　レイアウト決定部
　３３５　クロップ部
　３３６　表示画像生成部
　３３７　出力制御部
　３３８　関連部
　４００　表示装置
　５００　記録再生装置

Claims

　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する制御部を備える、情報処理装置。
　前記シーン情報は、１または複数の撮像画像に基づいて決定される、
　請求項１に記載の情報処理装置。
　前記シーン情報は、前記セミナーの主要被写体の行動を示す主要被写体行動情報である、
　請求項１に記載の情報処理装置。
　前記主要被写体行動情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記主要被写体が行う行動を示す提示オブジェクト関連行動情報を含む、
　請求項３に記載の情報処理装置。
　前記シーン情報は、人物の姿勢に基づいて決定された情報である、
　請求項１に記載の情報処理装置。
　前記人物とは、前記セミナーの主要被写体または副被写体である、
　請求項５に記載の情報処理装置。
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像を決定する制御である、
　請求項１に記載の情報処理装置。
　前記構成画像は前記セミナーの主要被写体または副被写体の少なくとも一方を被写体とする人物画像を含む、
　請求項７に記載の情報処理装置。
　前記シーン情報は、前記主要被写体の歩行に関する情報であり、
　前記人物画像は、前記主要被写体を被写体とする画像である、
　請求項８に記載の情報処理装置。
　前記シーン情報は、質疑応答を示す情報であり、
　前記人物画像は、前記副被写体を被写体とする画像である、
　請求項８に記載の情報処理装置。
　前記人物画像は、全体画像または注視画像を含む、
　請求項８に記載の情報処理装置。
　前記シーン情報は、前記セミナーにおいて提示される提示オブジェクトに関連して前記セミナーの主要被写体が行う行動を示す提示オブジェクト関連行動情報であり、前記シーン情報に対応する前記構成画像は、前記提示オブジェクトの提示オブジェクト画像を含む、
　請求項７に記載の情報処理装置。
　前記提示オブジェクト関連行動情報は、前記主要被写体による前記提示オブジェクトの説明を示す情報である、
　請求項１２に記載の情報処理装置。
　前記提示オブジェクト関連行動情報は、前記主要被写体による板書を示す情報である、
　請求項１２に記載の情報処理装置。
　前記提示オブジェクト画像は、前記板書による記述に関する情報を含む記述画像を含む、
　請求項１４に記載の情報処理装置。
　前記記述画像は、１または複数の撮像画像から記述を抽出した記述抽出結果を示す画像である、
　請求項１５に記載の情報処理装置。
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の前記表示画像内での表示配置を決定する制御である、
　請求項１に記載の情報処理装置。
　前記表示制御は、
　前記シーン情報に基づいて、前記表示画像の少なくとも一部を構成する画像である構成画像の数を決定する制御である、
　請求項１に記載の情報処理装置。
　前記構成画像の数は複数であり、
　前記表示配置は、並列配置または重畳配置である、
　請求項１７に記載の情報処理装置。
　前記シーン情報は、前記構成画像のうち人物を被写体として含む人物画像における前記人物の姿勢方向を示す情報を含む、
　請求項１７に記載の情報処理装置。
　前記表示画像が複数の前記構成画像により構成されているとき、
　前記表示制御は、
　複数の前記構成画像の１つである第１の構成画像である人物画像における人物の姿勢方向に基づいて、前記表示画像における前記第１の構成画像の表示配置を決定する制御である、
　請求項２０に記載の情報処理装置。
　前記表示画像が、少なくとも前記構成画像である前記第１の構成画像と第２の構成画像により構成されているとき、
　前記表示制御は、
　前記第１の構成画像である前記人物画像における前記人物の姿勢方向と、前記表示画像内における前記第１の構成画像の中心の位置に対する前記第２の構成画像の中心の位置関係とが対応するように表示配置を決定する制御である、
　請求項２１に記載の情報処理装置。
　前記第２の構成画像は、前記セミナーにおいて提示される提示オブジェクトの提示オジェクト画像である、
　請求項２２に記載の情報処理装置。
　前記制御部は、１または複数の撮像画像に前記表示制御情報を関連付ける、
　請求項１に記載の情報処理装置。
　前記制御部は、前記表示制御情報に基づいて前記表示画像を生成する、
　請求項１に記載の情報処理装置。
　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
　処理をコンピュータが実行する情報処理方法。
　セミナーのシーンを示すシーン情報に対応する表示画像の表示制御に関する情報である表示制御情報を生成する、
　処理をコンピュータに実行させる情報処理プログラム。