WO2023166852A1

WO2023166852A1 - 情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体

Info

Publication number: WO2023166852A1
Application number: PCT/JP2023/000250
Authority: WO
Inventors: 利昇井原
Original assignee: ソニーグループ株式会社
Priority date: 2022-03-01
Filing date: 2023-01-10
Publication date: 2023-09-07
Also published as: CN118805196A

Abstract

情報処理装置（１）は、チューニング部（１３）およびアップコンバータ（１４）を有する。チューニング部（１３）は、シーケンスの一部に対応する第１低解像度映像（ＬＶ１）および高解像度映像（ＨＶ）を学習用データセットとして画像処理ネットワーク（ＮＷ）をファインチューニングする。アップコンバータ（１４）は、ファインチューニングされた画像処理ネットワーク（ＮＷ）を用いてシーケンスの残りの部分に対応する第２低解像度映像（ＬＶ２）をアップスケーリングする。

Description

情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体

　本発明は、情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体に関する。

　近年のＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）映画製作では、レイトレーシングを用いた高精細なレンダリングが行われている。しかし、レンダリングにかかる時間が膨大となるため、処理時間の削減が課題となっている。

Ｐｉｘｅｒ：Ｄｅｅｐ　Ｌｅａｒｎｅｄ　Ｓｕｐｅｒ　Ｒｅｓｏｌｕｔｉｏｎ　ｆｏｒ　Ｆｅａｔｕｒｅ　Ｆｉｌｍ　Ｐｒｏｄｕｃｔｉｏｎ　＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｒａｐｈｉｃｓ．ｐｉｘａｒ．ｃｏｍ／ｌｉｂｒａｒｙ／ＳｕｐｅｒＲｅｓｏｌｕｔｉｏｎ／ｐａｐｅｒ．ｐｄｆ＞（２０２２年０２月１５日検索）

　実際の制作の場では、低解像度（例えば２Ｋ）でレンダリングして、後処理で高解像度（例えば４Ｋ）に拡大する場合が多い（アップスケーリング）。これにより、比較的短い時間で高精細な映像を生成することができる。しかし、アップスケーリングによって得られた映像は、高解像度でレンダリングされた映像に比べて画質が不十分になりやすい。

　そこで、本開示では、短い時間で高画質な映像を生成することが可能な情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体を提案する。

　本開示によれば、シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングするチューニング部と、ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングするアップコンバータと、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムを記憶した、コンピュータ読み取り可能な非一時的記憶媒体が提供される。

本開示の背景を説明する図である。本開示の背景を説明する図である。本開示のレンダリングシステムの一例を示す図である。レンダリングシステムで行われる情報処理を模式的に示す図である。ファインチューニング用の第１映像領域の選択方法の一例を示す図である。ファインチューニング用の第１映像領域の選択方法の一例を示す図である。ファインチューニングの一例を示す図である。表示映像の生成処理に関する処理フローの一例を示す図である。情報処理装置のハードウェア構成例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．背景］
［２．レンダリングシステム］
［３．情報処理方法］
　［３－１．ファインチューニング用の映像領域の選択］
　［３－２．ファインチューニング］
　［３－３．処理フロー］
［４．ハードウェア構成例］
［５．効果］

［１．背景］
　図１および図２は、本開示の背景を説明する図である。

　近年のＣＧ映画製作ではレイトレーシングを用いた高精細なレンダリングが行われるが、レンダリングにかかる時間が膨大となることが課題となっている。このため、実際の制作の場では低解像度（例えば２Ｋ）でレンダリングして、後処理で高解像度（例えば４Ｋ）に拡大する場合が多い。この後処理はアップスケーリングと呼ばれる。しかし、アップスケーリングされた映像は高解像度でレンダリングされた映像と比較すると画質が不十分になりやすい。

　非特許文献１では、アップスケーリングに、汎用データセットでトレーニングした汎用ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が用いられている。汎用データセットとは、映画の製作前までに蓄積されていた多様なＣＧコンテンツを含む汎用性の高い学習用データセットを意味する。この方法では、様々な映像コンテンツに対して標準的な画質を確保することができる。しかし、制作現場で制作される映像は多種多様であり、目的とする映像コンテンツに対して必ずしも十分な画質を提供することができない。

　例えば、ＣＧ映画には多種多様なテイストの作品が存在し、１つの作品の中でも様々なシーンが存在する。ＤＮＮの登場によりアップスケーリングの性能は大きく向上しているが、多種多様なテイストの作品やシーンに対してロバストに性能を発揮することは難しい。作品やシーンによっては、汎用ＤＮＮでは復元効果が不十分となり、高解像度でレンダリングされた映像と比較すると画質の差が大きくなる。

　そこで、本開示では、一連の映像を複数のシーケンスに分割し、シーケンスごとに、専用の学習用データセット（専用データセット）を用意する。専用データセットには、シーケンス内の一部の映像が含まれる。本開示では、汎用ＤＮＮを専用データセットを用いてファインチューニングし、シーケンスごとに専用ＤＮＮを生成する。シーケンスごとに専用ＤＮＮによる高精度なアップスケーリングを行うことで、映像全体にわたって十分に画質を高めることができる。以下、具体的に説明する。

［２．レンダリングシステム］
　図３は、本開示のレンダリングシステムの一例を示す図である。

　本開示のレンダリングシステムは、図３に示す情報処理装置１によって実現される。情報処理装置１は、例えば、コンテンツデータベースＤＢ、低解像度レンダリング部１０、選択部１１、高解像度レンダリング部１２、チューニング部１３、アップコンバータ１４および出力部１５を有する。

　コンテンツデータベースＤＢは、映像コンテンツＣＴを記憶する。映像コンテンツＣＴは、レンダリングに用いられる３Ｄデータを含む。映像コンテンツＣＴは、低解像度レンダリング処理およびアップスケーリング処理を経て高画質映像として出力される。

　低解像度レンダリング部１０は、一連の映像を複数のシーケンスに分割する。低解像度レンダリング部１０は、シーケンスごとに、映像コンテンツＣＴを低解像度でレンダリングし、低解像度シーケンス映像ＬＳ（図４参照）を生成する。低解像度シーケンス映像ＬＳの一部は、アップスケーリング用の画像処理ネットワークＮＷのファインチューニングに用いられる。なお、「低解像度」とは、最終的に出力すべき表示映像の解像度よりも低い解像度を意味する。「高解像度」とは、表示映像において提供されるべき高い解像度を意味する。

　以下、ファインチューニングに用いられる映像領域を第１映像領域ＶＡ１（図４参照）と記載し、第１映像領域ＶＡ１に対応する映像コンテンツＣＴを第１映像コンテンツＣＴ１と記載する。ファインチューニングに用いられない残りの映像領域（第１映像領域ＶＡ１以外の全ての映像領域）を第２映像領域ＶＡ２（図４参照）と記載し、第２映像領域ＶＡ２に対応する映像コンテンツＣＴを第２映像コンテンツＣＴ２と記載する。

　選択部１１はシーケンスからファインチューニング用の第１映像領域ＶＡ１を選択する。低解像度レンダリング部１０は、第１映像コンテンツＣＴ１を低解像度でレンダリングして、シーケンスの一部に対応する第１低解像度映像ＬＶ１を生成する。低解像度レンダリング部１０は、第２映像コンテンツＣＴ２を低解像度でレンダリングして、シーケンスの残りの部分に対応する第２低解像度映像ＬＶ２を生成する。高解像度レンダリング部１２は、第１映像コンテンツＣＴ１を高解像度でレンダリングして高解像度映像ＨＶを生成する。

　チューニング部１３は、シーケンスの一部に対応する第１低解像度映像ＬＶ１（入力データ）および高解像度映像ＨＶ（正解データ）を学習用データセットＤＳ（図４参照）として、汎用ＤＮＮである画像処理ネットワークＮＷをファインチューニングする。

　ファインチューニングとは、学習済みネットワークの重み（ベースウェイトＢＷ）を初期値として、モデル全体の重みを再学習する処理を意味する。チューニング部１３は、再学習前の画像処理ネットワークＮＷ（汎用ＤＮＮ）の重み（ベースウェイトＢＷ）を再学習後の重み（ファインチューンウェイトＦＷ）によって置き換える。これにより、シーケンスに特化した専用の画像処理ネットワークＮＷ（専用ＤＮＮ）が得られる。

　アップコンバータ１４は、ファインチューニングされた画像処理ネットワークＮＷ（専用ＤＮＮ）を用いて第２低解像度映像ＬＶ２をアップスケーリングする。出力部１５は、第２低解像度映像ＬＶ２をアップスケーリングして得られたコンバート映像ＣＶと、ファインチューニング用に生成された高解像度映像ＨＶと、を合成する。出力部１５は、合成によって得られた高解像度シーケンス映像ＨＳを表示映像として出力する。

［３．情報処理方法］
　図４は、レンダリングシステムで行われる情報処理を模式的に示す図である。

　低解像度レンダリング部１０はシーケンス内の全てのフレームに対して低解像度のレンダリング画像ＲＩ（低解像度レンダリング画像ＬＩ）を生成する。これにより、全フレームの低解像度レンダリング画像ＬＩを含む低解像度レンダリング映像ＬＳが生成される。

　選択部１１は、フレームの順番、もしくは、低解像度シーケンス映像ＬＳの画像解析結果に基づいて、学習用データセットＤＳに使用すべき複数のフレームを選択する。選択された複数のフレーム（選択フレームＳＦ）は第１映像領域ＶＡ１に対応し、選択されなかった複数のフレーム（非選択フレームＮＦ）は第２映像領域ＶＡ２に対応する。

　高解像度レンダリング部１２は、全ての選択フレームＳＦに対して高解像度のレンダリング画像ＲＩ（高解像度レンダリング画像ＨＩ）を生成する。これにより、各選択フレームＳＦの高解像度レンダリング画像ＨＩを選択的に含む高解像度映像ＨＶが生成される。

　チューニング部１３は、同一の選択フレームＳＦについて生成された低解像度レンダリング画像ＬＩと高解像度レンダリング画像ＨＩとをトレーニング用の画像ペアとして抽出する。チューニング部１３は、全ての選択フレームＳＦの画像ペアに基づいて学習用データセットＤＳを生成する。チューニング部１３は、学習用データセットＤＳを用いて、アップコンバータ１４の画像処理ネットワークＮＷをファインチューニングする。

　アップコンバータ１４は、低解像度シーケンス映像ＬＶから全ての非選択フレームＮＦの低解像度レンダリング画像ＬＩを抽出する。アップコンバータ１４は、ファインチューニングされた画像処理ネットワークＮＷを用いて、非選択フレームＮＦの低解像度レンダリング画像ＬＩをアップスケーリングし、コンバート画像ＣＩを生成する。これにより、各非選択フレームＮＦのコンバート画像ＣＩを選択的に含むコンバート映像ＣＶが生成される。

　出力部１５は、第１映像領域ＶＡ１（選択フレームＳＦ）について生成された高解像度映像ＨＶと、第２映像領域ＶＡ２（非選択フレームＮＦ）について生成されたコンバート映像ＣＶと、を合成して高解像度シーケンス映像ＨＳを生成する。出力部１５は、高解像度シーケンス映像ＨＳを表示映像として出力する。

［３－１．ファインチューニング用の映像領域の選択］
　図５および図６は、ファインチューニング用の第１映像領域ＶＡ１の選択方法の一例を示す図である。

＜フレームの順番に基づく機械的な選択＞
　図５の例は、機械的な処理に基づく選択例である。選択部１１は、フレームの順番に基づいて第１映像領域ＶＡ１を選択する。

　例えば、図５の上段の例では、シーケンスの先頭から予め設定された数のフレームが選択フレームＳＦ（第１映像領域ＶＡ１）として選択される。図５の中段および下段の例では、概ね一定の間隔で並ぶ複数のフレームが選択フレームＳＦとして選択される。図５の中段の例は外挿がない場合を示し、図５の下段の例は外挿がある場合を示す。

＜映像内容に基づく選択＞
　図６の例は、映像内容に基づく選択例である。選択部１１は、シーケンスを画像解析して第１映像領域ＶＡ１を選択する。

　例えば、選択部１１は、低解像度シーケンス映像ＬＶを画像解析し、画像類似度が類似規準を超える映像領域を第１映像領域ＶＡ１として選択する。画像類似度とは、低解像度レンダリング画像ＬＩどうしの類似度を意味する。類似規準は、類比判断の基準を意味する。類似規準は、ユーザが任意に設定することができる。選択部１１は、類似規準に照らして、他のフレームの低解像度レンダリング画像ＬＩよりも情報量が多く、画像類似度が低い複数のフレームを選択フレームＳＦとして選択する。

　類比判断は、閾値などのルールに基づいて行われてもよいし、類比判断用のＤＮＮを用いて行われてもよい。

　前者の例としては、輝度の分散などの特徴量を利用して低解像度レンダリング画像ＬＩの情報量を算出し、算出された情報量もしくは情報量から算出される画像特徴量を所定の規準値と比較して類比判断を行う方法が考えられる。あるいは、低解像度レンダリング画像ＬＩを縮小した後にＰＳＮＲ（Ｐｅａｋ　Ｓｉｇｎａｌ－ｔｏ－Ｎｏｉｓｅ　Ｒａｔｉｏ）等で画像類似度を計測し、計測された画像類似度を所定の規準値と比較して類比判断を行う方法も考えられる。

　後者の例としては、ＰＳＮＲが高いフレームの組み合わせを選択できる類比判断用のＤＮＮを事前に学習しておくことが考えられる。類比判断用のＤＮＮの学習は次のようにして行うことができる。

　まず、ユーザは、様々なキャラクタやシーンを示す画像群を用意する。ユーザは、選択部１１で選択すべきフレームの数（選択フレーム数：例えばＮ個）を事前に決定しておく。ユーザは、各画像のＰＳＮＲを計測し、ＰＳＮＲの合計値が最も高くなるＮ個の画像の組み合わせを正解データとして決定する。ユーザは、画像群と正解データとを学習用データセットとして、類比判断用のＤＮＮの学習を行う。これにより、ＰＳＮＲ（画像類似度）が高いＮ個のフレームの組み合わせを高確率で選択可能なＤＮＮが生成される。

［３－２．ファインチューニング］
　図７は、ファインチューニングの一例を示す図である。

　チューニング部１３は、各選択フレームＳＦの画像ペアを学習用データセットＤＳとして取得する。チューニング部１３は、画像ペアから特定の画像領域をパッチとして抽出し、抽出されたパッチを用いてファインチューニングを行うことができる。パッチの大きさは、１２８画素×１２８画素、あるいは、６４画素×６４画素など、任意に決定できる。パッチの抽出方法としては、画像内からランダムに抽出する方法や、画像解析結果に基づいて学習に有効な領域を適応的に抽出する方法などが挙げられる。

　学習用データセットＤＳは、上述した画像データ（画像ペア）以外の画像データを含んでもよい。例えば、チューニング部１３は、シーケンスの映像コンテンツＣＴとは異なる別コンテンツの画像データを学習用データセットＤＳに加えることができる。別コンテンツの画像データは、例えば、ファインチューニングされる前の画像処理ネットワークＮＷの機械学習に用いられたプレトレインデータの一部を含むことができる。チューニング部１３は、プレトレインデータから抽出されたパッチをファインチューニングに用いることができる。これにより、未知の入力に対する汎化性能がある程度得られる。

［３－３．処理フロー］
　図８は、表示映像の生成処理に関する処理フローの一例を示す図である。

　低解像度レンダリング部１０は、シーケンスの映像コンテンツＣＴを低解像度でレンダリングして低解像度シーケンス映像ＬＳを生成する（ステップＳ１）。選択部１１は、ファインチューニングに使用するシーケンス内の第１映像領域ＶＡ１を選択する（ステップＳ２）。高解像度レンダリング部１２は、第１映像領域ＶＡ１の映像コンテンツＣＴを高解像度でレンダリングして高解像度映像ＨＶを生成する（ステップＳ３）。

　チューニング部１３は、第１映像領域ＶＡ１の低解像度映像ＬＶ（第１低解像度映像ＬＶ１）および高解像度映像ＨＶを学習用データセットＤＳとしてアップスケーリング用の画像処理ネットワークＮＷをファインチューニングする（ステップＳ４）。チューニング部１３は、ファインチューニングが適正か否かを判定する（ステップＳ５）。

　例えば、チューニング部１３は、学習用データセットＤＳの一部をバリデーション用データセットとして用いる。チューニング部１３は、バリデーション用データセットに含まれる第１低解像度映像ＬＶ１をアップスケーリングして得られるコンバート映像ＣＶと、コンバート映像ＣＶに対応する高解像度映像ＨＶと、の比較結果に基づいてファインチューニングの適正度を判定する。

　チューニング部１３は、適正度が許容基準を満たす場合には、ファインチューニングが適正に行われたと判定する。例えば、チューニング部１３は、学習用データセットＤＳを用いた学習中に適正度が許容基準を満たした場合にファインチューニングが完了したと判定し、学習を終了する。チューニング部１３は、許容基準を満たす適正度が得られない場合には、ファインチューニングが適正に行われていないと判定する。適正度は、例えば、比較対象となるコンバート映像ＣＶと高解像度映像ＨＶとの差として算出される。許容基準は、閾値などを用いてユーザが任意に設定することができる。

　ファインチューニングが適正である場合には（ステップＳ５：Ｙｅｓ）、アップコンバータ１４は、ファインチューニングされた画像処理ネットワークＮＷを用いてシーケンス内の第２映像領域ＶＡ２の低解像度映像ＬＶ（第２低解像度映像ＬＶ２）をアップスケーリングする（ステップＳ９）。出力部１５は、アップスケーリングによって得られたコンバート映像ＣＶとファインチューニングに用いた高解像度映像ＨＶとを合成して高解像度シーケンス映像ＨＳを生成する（ステップＳ１０）。

　ファインチューニングが適正でない場合には（ステップＳ５：Ｎｏ）、チューニング部１３は、学習条件の変更の余地があるか否かを判定する（ステップＳ６）。学習条件の変更の例としては、ハイパーパラメータの変更が挙げられる。学習条件の変更の余地がある場合には（ステップＳ６：Ｙｅｓ）、チューニング部１３は、学習条件を変更し（ステップＳ７）、ステップＳ４に戻って再度学習を行う。

　学習条件の変更の余地がない場合には（ステップＳ６：Ｎｏ）、チューニング部１３は、学習用データセットＤＳに用いるフレーム（第１映像領域ＶＡ１）を変更し（ステップＳ８）、ステップＳ３に戻って再度学習を行う。ステップＳ８では、チューニング部１３は、第１映像領域ＶＡ１の変更を行う代わりに、シーケンスの長さを変更してもよい。

［４．ハードウェア構成例］
　図９は、情報処理装置１のハードウェア構成例を示す図である。

　情報処理装置１の情報処理は、例えば、コンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１００、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒy）１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラム（プログラムデータ１４５０）に基づいて動作し、各部の制御を行う。たとえば、ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）などのブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラムなどを格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な非一時的記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（たとえばインターネット）と接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、表示装置やスピーカーやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）などの光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。

　たとえば、コンピュータ１０００が実施形態にかかる情報処理装置１として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、前述した各部の機能を実現する。また、ＨＤＤ１４００には、本開示にかかる情報処理プログラム、各種モデルおよび各種データが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［５．効果］
　情報処理装置１は、チューニング部１３およびアップコンバータ１４を有する。チューニング部１３は、シーケンスの一部に対応する第１低解像度映像ＬＶ１および高解像度映像ＨＶを学習用データセットＤＳとして画像処理ネットワークＮＷをファインチューニングする。アップコンバータ１４は、ファインチューニングされた画像処理ネットワークＮＷを用いてシーケンスの残りの部分に対応する第２低解像度映像ＬＶ２をアップスケーリングする。本開示の情報処理方法は、情報処理装置１の処理がコンピュータ１０００により実行される。本開示のコンピュータ読み取り可能な非一時的記憶媒体は、情報処理装置１の処理をコンピュータ１０００に実現させるプログラムを記憶する。

　この構成によれば、アップスケーリング用の画像処理ネットワークＮＷがシーケンスの映像の一部を用いて適切にファインチューニングされる。ファインチューニング用に高解像度映像ＨＶを生成する必要があるが、対象となる映像領域はシーケンスの一部のみであるため、演算にかかる時間は比較的短い。よって、ファインチューニングにかかる時間を考慮しても、比較的短い時間で高画質なシーケンスの映像が生成される。この点について発明者が行った検証実験では、次のようなレンダリング時間の短縮効果が得られている。

＜検証実験の前提条件＞
・１シーケンス：：２００フレーム
・高解像度（４Ｋ）でのレンダリング時間：１２時間／フレーム
・低解像度（２Ｋ）でのレンダリング時間：３時間／フレーム
・ファインチューニングの学習にかかる時間：２時間
・推論（アップスケーリング）にかかる時間：１００秒／フレーム

＜検証実験で得られたレンダリング時間の比較＞
・全て高解像度（４Ｋ）でレンダリングした場合のレンダリング時間：１００日
・本開示の手法を用いた場合のレンダリング時間：約２８日
　　（内訳）
　　　・全フレームに対する低解像度（２Ｋ）のレンダリング時間：２５日
　　　・第１映像領域に対する高解像度（４Ｋ）のレンダリング時間：２．５日
　　　・ファインチューニングにかかる時間：２時間
　　　・推論（アップスケーリング）にかかる時間：約０．５時間

　情報処理装置１は、出力部１５を有する。出力部１５は、第２低解像度映像ＬＶ２をアップスケーリングして得られたコンバート映像ＣＶと、ファインチューニング用に生成された高解像度映像ＨＶと、を合成して高解像度シーケンス映像ＨＳとして出力する。

　この構成によれば、大規模演算によって得られた高解像度映像ＨＶが、ファインチューニング用としてだけでなく、出力映像の一部としても有効に活用される。

　情報処理装置１は、選択部１１、低解像度レンダリング部１０および高解像度レンダリング部１２を有する。選択部１１は、シーケンスからファインチューニング用の第１映像領域ＶＡ１を選択する。低解像度レンダリング部１０は、第１映像領域ＶＡ１の映像コンテンツＣＴを低解像度でレンダリングして第１低解像度映像ＬＶ１を生成する。低解像度レンダリング部１０は、第１映像領域ＶＡ１以外の第２映像領域ＶＡ２の映像コンテンツＣＴを低解像度でレンダリングして第２低解像度映像ＬＶ２を生成する。高解像度レンダリング部１２は、第１映像領域ＶＡ１の映像コンテンツＣＴを高解像度でレンダリングして高解像度映像ＨＶを生成する。

　この構成によれば、第１映像領域ＶＡ１の選択に応じた適切なファインチューニングが行われる。

　選択部１１は、フレームの順番に基づいて第１映像領域ＶＡ１を選択する。

　この構成によれば、第１映像領域ＶＡ１の選択を機械的に行うことができる。

　選択部１１は、シーケンスを画像解析して第１映像領域ＶＡ１を選択する。

　この構成によれば、映像コンテンツＣＴに応じた適切な領域を第１映像領域ＶＡ１として選択することができる。

　選択部１１は、画像類似度が類似規準を超える映像領域を第１映像領域ＶＡ１として選択する。

　この構成によれば、情報量が多く、他のフレームとの類似度が低い領域を第１映像領域ＶＡ１として選択することができる。

　チューニング部１３は、シーケンスの映像コンテンツＣＴとは異なる別コンテンツの画像データを学習用データセットＤＳに加える。

　この構成によれば、未知の入力に対する汎化性能が高まる。

　別コンテンツの画像データは、ファインチューニングされる前の画像処理ネットワークＮＷの機械学習に用いられたプレトレインデータの一部を含む。

　この構成によれば、別コンテンツの画像データを改めて用意する手間が省ける。

　チューニング部１３は、学習用データセットＤＳの一部をバリデーション用データセットとして用いる。チューニング部１３は、バリデーション用データセットに含まれる第１低解像度映像ＬＶ１をアップスケーリングして得られるコンバート映像ＣＶと、コンバート映像ＣＶに対応する高解像度映像ＨＶと、の比較結果に基づいてファインチューニングの適正度を判定する。

　この構成によれば、ファインチューニングの進捗状況が定量的に判定される。

　チューニング部１３は、学習用データセットＤＳを用いた学習中に適正度が許容基準を満たした場合にファインチューニングが完了したと判定する。

　この構成によれば、適正度に基づいてファインチューニングを自動で終了させることができる。

　チューニング部１３は、許容基準を満たす適正度が得られない場合には、学習条件を変更して再度学習を行う。

　この構成によれば、適正度の高いファインチューニングが行われる。

　チューニング部１３は、学習条件の変更の余地がない場合には、学習用データセットＤＳに用いるシーケンスの映像領域（第１映像領域ＶＡ１）の変更またはシーケンスの長さの変更を行って再度学習を行う。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［付記］
　なお、本技術は以下のような構成も採ることができる。
（１）
　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングするチューニング部と、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングするアップコンバータと、
　を有する情報処理装置。
（２）
　前記第２低解像度映像をアップスケーリングして得られたコンバート映像と、前記高解像度映像と、を合成して高解像度シーケンス映像として出力する出力部を有する、
　上記（１）に記載の情報処理装置。
（３）
　前記シーケンスからファインチューニング用の第１映像領域を選択する選択部と、
　前記第１映像領域の映像コンテンツを低解像度でレンダリングして前記第１低解像度映像を生成し、かつ、前記第１映像領域以外の第２映像領域の映像コンテンツを低解像度でレンダリングして前記第２低解像度映像を生成する低解像度レンダリング部と、
　前記第１映像領域の映像コンテンツを高解像度でレンダリングして前記高解像度映像を生成する高解像度レンダリング部と、
　を有する上記（１）または（２）に記載の情報処理装置。
（４）
　前記選択部は、フレームの順番に基づいて前記第１映像領域を選択する、
　上記（３）に記載の情報処理装置。
（５）
　前記選択部は、前記シーケンスを画像解析して前記第１映像領域を選択する、
　上記（３）に記載の情報処理装置。
（６）
　前記選択部は、画像類似度が類似規準を超える映像領域を前記第１映像領域として選択する、
　上記（５）に記載の情報処理装置。
（７）
　前記チューニング部は、前記シーケンスの映像コンテンツとは異なる別コンテンツの画像データを前記学習用データセットに加える、
　上記（１）ないし（６）のいずれか１つに記載の情報処理装置。
（８）
　前記別コンテンツの画像データは、ファインチューニングされる前の前記画像処理ネットワークの機械学習に用いられたプレトレインデータの一部を含む、
　上記（７）に記載の情報処理装置。
（９）
　前記チューニング部は、前記学習用データセットの一部をバリデーション用データセットとして用い、前記バリデーション用データセットに含まれる前記第１低解像度映像をアップスケーリングして得られるコンバート映像と、前記コンバート映像に対応する前記高解像度映像と、の比較結果に基づいてファインチューニングの適正度を判定する、
　上記（１）ないし（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記チューニング部は、前記学習用データセットを用いた学習中に前記適正度が許容基準を満たした場合にファインチューニングが完了したと判定する、
　上記（９）に記載の情報処理装置。
（１１）
　前記チューニング部は、前記許容基準を満たす前記適正度が得られない場合には、学習条件を変更して再度学習を行う、
　上記（１０）に記載の情報処理装置。
（１２）
　前記チューニング部は、前記学習条件の変更の余地がない場合には、前記学習用データセットに用いるシーケンスの映像領域の変更または前記シーケンスの長さの変更を行って再度学習を行う、
　上記（１１）に記載の情報処理装置。
（１３）
　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングし、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングする、
　ことを有する、コンピュータにより実行される情報処理方法。
（１４）
　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングし、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングする、
　ことをコンピュータに実現させるプログラムを記憶した、コンピュータ読み取り可能な非一時的記憶媒体。

１　情報処理装置
１０　低解像度レンダリング部
１１　選択部
１２　高解像度レンダリング部
１３　チューニング部
１４　アップコンバータ
１５　出力部
ＣＴ　映像コンテンツ
ＣＶ　コンバート映像
ＤＳ　学習用データセット
ＬＶ１　第１低解像度映像
ＬＶ２　第２低解像度映像
ＨＳ　高解像度シーケンス映像
ＨＶ　高解像度映像
ＮＷ　画像処理ネットワーク
ＶＡ１　第１映像領域
ＶＡ２　第２映像領域

Claims

　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングするチューニング部と、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングするアップコンバータと、
　を有する情報処理装置。
　前記第２低解像度映像をアップスケーリングして得られたコンバート映像と、前記高解像度映像と、を合成して高解像度シーケンス映像として出力する出力部を有する、
　請求項１に記載の情報処理装置。
　前記シーケンスからファインチューニング用の第１映像領域を選択する選択部と、
　前記第１映像領域の映像コンテンツを低解像度でレンダリングして前記第１低解像度映像を生成し、かつ、前記第１映像領域以外の第２映像領域の映像コンテンツを低解像度でレンダリングして前記第２低解像度映像を生成する低解像度レンダリング部と、
　前記第１映像領域の映像コンテンツを高解像度でレンダリングして前記高解像度映像を生成する高解像度レンダリング部と、
　を有する請求項１に記載の情報処理装置。
　前記選択部は、フレームの順番に基づいて前記第１映像領域を選択する、
　請求項３に記載の情報処理装置。
　前記選択部は、前記シーケンスを画像解析して前記第１映像領域を選択する、
　請求項３に記載の情報処理装置。
　前記選択部は、画像類似度が類似規準を超える映像領域を前記第１映像領域として選択する、
　請求項５に記載の情報処理装置。
　前記チューニング部は、前記シーケンスの映像コンテンツとは異なる別コンテンツの画像データを前記学習用データセットに加える、
　請求項１に記載の情報処理装置。
　前記別コンテンツの画像データは、ファインチューニングされる前の前記画像処理ネットワークの機械学習に用いられたプレトレインデータの一部を含む、
　請求項７に記載の情報処理装置。
　前記チューニング部は、前記学習用データセットの一部をバリデーション用データセットとして用い、前記バリデーション用データセットに含まれる前記第１低解像度映像をアップスケーリングして得られるコンバート映像と、前記コンバート映像に対応する前記高解像度映像と、の比較結果に基づいてファインチューニングの適正度を判定する、
　請求項１に記載の情報処理装置。
　前記チューニング部は、前記学習用データセットを用いた学習中に前記適正度が許容基準を満たした場合にファインチューニングが完了したと判定する、
　請求項９に記載の情報処理装置。
　前記チューニング部は、前記許容基準を満たす前記適正度が得られない場合には、学習条件を変更して再度学習を行う、
　請求項１０に記載の情報処理装置。
　前記チューニング部は、前記学習条件の変更の余地がない場合には、前記学習用データセットに用いるシーケンスの映像領域の変更または前記シーケンスの長さの変更を行って再度学習を行う、
　請求項１１に記載の情報処理装置。
　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングし、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングする、
　ことを有する、コンピュータにより実行される情報処理方法。
　シーケンスの一部に対応する第１低解像度映像および高解像度映像を学習用データセットとして画像処理ネットワークをファインチューニングし、
　ファインチューニングされた前記画像処理ネットワークを用いて前記シーケンスの残りの部分に対応する第２低解像度映像をアップスケーリングする、
　ことをコンピュータに実現させるプログラムを記憶した、コンピュータ読み取り可能な非一時的記憶媒体。