WO2024070610A1

WO2024070610A1 - 情報処理方法及び情報処理装置

Info

Publication number: WO2024070610A1
Application number: PCT/JP2023/032952
Authority: WO
Inventors: 直之川畑
Original assignee: ソニーグループ株式会社
Priority date: 2022-09-29
Filing date: 2023-09-11
Publication date: 2024-04-04

Abstract

本技術は、３次元ＣＧによる３次元モデルを用いた学習用データセットの質を向上させることができるようにする情報処理方法及び情報処理装置に関する。情報処理装置が、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を制御し、前記３次元モデルの状態及び前記レンダリング条件に基づいて、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データを生成する。本技術は、例えば、視線推定モデルの学習用データセットの生成処理に適用できる。

Description

情報処理方法及び情報処理装置

　本技術は、情報処理方法及び情報処理装置に関し、特に、機械学習に用いられる情報処理方法及び情報処理装置に関する。

　近年、深層学習技術の発展により、画像内の人物や行動の認識精度が飛躍的に向上し、画像内の人物の非言語情報を推定する技術の開発が盛んである。その中でも、人物の興味や注意の対象に関連する視線推定技術に、大きな注目が集まっている。

　視線推定技術では、他の非言語情報の推定技術と同様に、人物のサンプルの画像を含む入力データと正解データのペアを含む学習用データの集合である学習用データセットを用いた機械学習が一般的に行われる。ここで、正解データには、サンプルの視線方向の正解を示す視線情報が含まれる。

　また、機械学習においては、学習用データセットの収集が重要になる。すなわち、いかに質の良い学習用データを大量に集めるかが重要になる。

　ここで、視線推定用の学習用データを収集する手法には、大きく分けて以下の２種類がある。

　第１の手法は、実際の人物からなるサンプルを用いた学習用データを収集する手法である。この手法では、例えば、実写による人物の顔画像と視線方向のペアを含む学習用データが収集される（例えば、特許文献１参照）。

　第２の手法は、３次元ＣＧ（Computer Graphics）による人物の３次元モデル（以下、アバターと称する）からなるサンプルを用いた学習用データを収集する手法である。この手法では、例えば、アバターの片目の目元をレンダリングした片目画像と、アバターの眼球オブジェクトの片目画像内の傾きに基づく視線情報のペアを含む学習用データが収集される（例えば、非特許文献１参照）。

特開２０２１－１９００４１号公報

X. Zhang, 外３名, "Appearance-based gaze estimation in the wild", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, p.4511-4520

　第１の手法は、正解データに含まれる視線情報に誤差（ノイズ）が含まれたり、大規模かつ偏りのないデータの収集が困難であったりするため、現在では下火になりつつある。ここで、データの偏りとは、顔画像内の顔の位置の偏り、特定の方向に視線を向けたときの顔の位置や傾きの不必要な相関等である。具体的には、例えば、顔の位置が画像内の下方向にある顔画像が多いとか、視線方向が右方向である場合、顔が右方向を向いている顔画像が多い等の偏りが想定される。

　一方、第２の手法は、例えば、正確な視線情報のアノテーションが可能であったり、自動で大量のデータを生成できたり、顔の凹凸やテクスチャを変化させることにより様々な目元画像を生成できたりする利点がある。そのため、最近では、第２の手法により収集された学習用データセットを用いて、視線推定モデルの学習が行われることが多い。

　以上の経緯により、アバターを用いた学習用データセットの質を向上させることが望まれている。

　本技術は、このような状況に鑑みてなされたものであり、３次元ＣＧによる３次元モデルを用いた学習用データセットの質を向上させるようにするものである。また、その結果、機械学習の精度を向上させるようにするものである。さらに、機械学習により得られた学習モデルを用いた処理の精度を向上させるようにするものである。

　本技術の第１の側面の情報処理方法は、情報処理装置が、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を制御し、前記３次元モデルの状態及び前記レンダリング条件に基づいて、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データを生成する。

　本技術の第２の側面の情報処理装置は、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を備える。

　本技術の第２の側面の情報処理方法は、情報処理装置が、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する。

　本技術の第１の側面においては、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件が制御され、前記３次元モデルの状態及び前記レンダリング条件に基づいて、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データが生成される。

　本技術の第２の側面においては、３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理が実行される。

学習用の片目画像とファインチューン用の片目画像の例を示す図である。本技術を適用した情報処理システムの第１の実施の形態を示すブロック図である。図２の学習用データセット生成部の構成例を示すブロック図である。図２の情報処理システムにより実行される情報処理を説明するためのフローチャートである。学習用データセット生成処理の詳細を説明するためのフローチャートである。ＣＧ空間内に生成されるオブジェクトの例を示す図である。アバターの顔の向きを変化させる方向の例を示す図である。アバターの顔の向きを変化させる方向の例を示す図である。アバターの顔の向きを変化させる方向の例を示す図である。アバターの顔の向きを変化させる方向の例を示す図である。アバターの顔の向きを変化させる方向の例を示す図である。カメラオブジェクトの移動方向の例を示す図である。アバターの顔の位置を変化させる方法の例を示す図である。注視点オブジェクトの位置の例を示す図である。注視点オブジェクトの位置の例を示す図である。各オブジェクトの位置とアバター画像の関係の例を示す図である。アバター画像の例を示す図である。アバター画像の例を示す図である。アバターが白目と同様の状態になる例を示す図である。本技術を適用した情報処理システムの第２の実施の形態を示すブロック図である。図２０の学習用データセット生成部の構成例を示すブロック図である。図２１の情報処理システムにより実行される学習用データセット生成処理の詳細を説明するためのフローチャートである。本技術を適用した情報処理システムの第３の実施の形態を示すブロック図である。学習用データセット補充部の構成例を示すブロック図である。図２３の情報処理システムにより実行される情報処理を説明するためのフローチャートである。学習用データセット生成処理の詳細を説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．本技術の背景
　２．第１の実施の形態
　３．第２の実施の形態
　４．第３の実施の形態
　５．変形例
　６．その他

　＜＜１．本技術の背景＞＞
　まず、本技術の背景について説明する。

　非特許文献１に示されるように、従来のアバターを用いた視線推定モデルの機械学習では、片目画像、及び、片目画像に基づく視線情報のペアを含む学習用データの集合である学習用データセットが用いられる。この場合、機械学習により得られた視線推定モデルを用いて、実際の人物を撮影した撮影画像に基づいて視線方向を推定する場合、例えば、以下の４つの問題が生じる。

１．撮影画像から切り出された片目画像を用いて、片目ずつ視線推定が実行されるため、推定誤差により各目の視線の推定方向が交わらない場合がある。この場合、視線推定モデルでは対処できないため、最終的な視線方向を推定するために、別のアルゴリズムが必要になる。

２．運用時に、ユーザを撮影した撮影画像を用いて視線推定モデルのファインチューンを実行する場合、撮影画像から得られるファインチューン用の片目画像が、学習用データに含まれる学習用の片目画像の特性と大きく異なる場合がある。例えば、図１のＡは、学習用の片目画像の例を模式的に示し、図１のＢは、ファインチューン用の片目画像の例を模式的に示している。例えば、学習用の片目画像とファインチューン用の片目画像とで、目の傾き、目の大きさ、画素数等が大きく異なる場合がある。従って、学習用の片目画像とファインチューン用の片目画像とを同じように処理することが困難になる場合がある。

３．従来のアバターを用いた視線推定モデルの機械学習では、アバターの目とカメラとの位置関係が略一定のため、レンダリングされた片目画像の解像度もほぼ一定になる。一方、運用時には、カメラと人間との相対位置が動的に変化するため、片目画像が常に同じ解像度で得られるとは限らない。また、撮影画像の遠近感や歪み等により、撮影画像内の顔の位置によって、目の写り方が異なる。従って、撮影画像から切り出した片目画像を用いて視線推定を実行した場合、推定精度が低下するときがある。

４．非特許文献１では、ロール方向（首をかしげる方向）の顔の傾きが考慮されていない。従って、ロール方向に顔が傾いた撮影画像から目元画像を切り出す場合に、顔の傾きを別途検出する仕組みが必要になる。

　これに対して、本技術は、これらの問題を解消し、視線推定モデル等の人物に関する推定処理を実行する学習モデル（以下、推定モデルと称する）の精度を向上させるようにするものである。

　＜＜２．第１の実施の形態＞＞
　次に、図２乃至図１８を参照して、本技術の第１の実施の形態について説明する。

　　＜情報処理システム１０１の構成例＞
　まず、図２を参照して、本技術を適用した情報処理システム１０１の構成例について説明する。

　情報処理システム１０１は、ＣＧによる人物の３次元モデルであるアバターを用いて機械学習を実行し、機械学習の結果に基づいて人物に関する推定処理を実行するシステムである。

　情報処理システム１０１は、学習用データセット生成部１１１、学習用データセット蓄積部１１２、学習部１１３、及び、推定部１１４を備える。

　学習用データセット生成部１１１は、ＣＧ空間内にアバターを生成し、アバターを用いて学習用データセットを生成する。学習用データセット生成部１１１は、生成した学習用データセットを学習用データセット蓄積部１１２に蓄積する。

　学習部１１３は、学習用データセット蓄積部１１２に蓄積されている学習用データセットを用いて機械学習を行い、人物に関する推定処理を実行する推定モデルを生成する。学習部１１３は、推定モデルを推定部１１４に供給する。

　推定部１１４は、推定モデルを用いて、実際の人物を撮影した撮影画像に基づいて、人物に関する推定処理を実行するシステム、装置、又は、プログラムにより構成される。例えば、推定部１１４は、撮影画像に基づいて、人物の非言語情報（例えば、状態及び特性のうち少なくとも１つ）を推定する。また、推定部１１４は、必要に応じて、推定処理の結果に基づいて、さらに各種の処理を実行する。

　　＜学習用データセット生成部１１１の構成例＞
　図３は、学習用データセット生成部１１１の構成例を示している。

　学習用データセット生成部１１１は、オブジェクト生成部１５１、状態制御部１５２、及び、学習用データ生成部１５３を備える。

　オブジェクト生成部１５１は、ＣＧ空間内に各種のオブジェクトを生成する。例えば、オブジェクト生成部１５１は、アバター、アバターのレンダリング条件の制御（アバターの仮想的な撮影）に用いられるカメラオブジェクト、アバターが注視する位置を示す注視点オブジェクト等をＣＧ空間内に生成する。オブジェクト生成部１５１は、生成した各オブジェクトに関する情報を状態制御部１５２に供給する。

　状態制御部１５２は、例えば、ＣＧ空間の状態、及び、ＣＧ空間内の各オブジェクトの状態を制御することにより、学習用データを生成する条件を制御する。ＣＧ空間の状態は、例えば、レンダリングする際のレンダリング条件（仮想的な撮影条件）に関する状態を含む。具体的には、例えば、ＣＧ空間の状態は、ＣＧ空間の光線又は照明の状態、ＣＧ空間の背景等を含む。ＣＧ空間内の各オブジェクトの状態は、例えば、上述したアバター、カメラオブジェクト、及び、注視点オブジェクトの状態を含む。状態制御部１５２は、ＣＧ空間に関する情報（以下、ＣＧ空間情報と称する）を学習用データ生成部１５３に供給する。ＣＧ空間情報は、例えば、ＣＧ空間の状態及びＣＧ空間内の各オブジェクトの状態に関する情報を含む。

　また、状態制御部１５２は、必要に応じて、ＣＧ空間内のオブジェクトの生成をオブジェクト生成部１５１に指示する。

　学習用データ生成部１５３は、ＣＧ空間の状態及びＣＧ空間内の各オブジェクトの状態に基づいて、学習用データを生成する。学習用データは、入力データ、及び、入力データに対する正解データを含む。

　入力データは、ＣＧ空間内のアバターをレンダリングする（カメラオブジェクトにより仮想的に撮影する）ことにより得られる画像（以下、アバター画像と称する）を含む。

　正解データは、アバター画像内のアバターの状態及び特性のうちの少なくとも１つの正解を示す情報を含む。例えば、人物の視線を推定する推定モデル（視線推定モデル）を学習する場合、正解データは、アバターの視線方向の正解を示す情報である視線情報を含む。

　学習用データ生成部１５３は、学習用データセット蓄積部１１２に蓄積されている学習用データセットに、生成した学習用データを追加する。

　なお、以下、情報処理システム１０１が、人物の視線方向を推定する視線推定モデルの学習を行い、視線推定モデルを用いて、人物の視線方向を推定する場合の例について説明する。

　　＜情報処理システム１０１による情報処理＞
　次に、図４のフローチャートを参照して、情報処理システム１０１により実行される情報処理について説明する。

　ステップＳ１において、学習用データセット生成部１１１は、学習用データセット生成処理を実行する。

　ここで、図５のフローチャートを参照して、学習用データセット生成処理の詳細について説明する。

　ステップＳ５１において、オブジェクト生成部１５１は、ＣＧ空間内に各オブジェクトを生成する。例えば、図６に示されるように、オブジェクト生成部１５１は、アバター２０１、カメラオブジェクト２０２、及び、注視点オブジェクト２０３をＣＧ空間内に生成する。

　上述した従来技術では、単純にアバターの片目の眼球の回転角を指定するだけで、片目画像の生成が可能であった。一方、本技術では、アバターの両目の視線を同一座標に向ける仕組みが必要となる。

　これに対して、アバター２０１は、各目にそれぞれ眼球オブジェクトを備えており、各目の眼球の向きを個別に制御可能である。従って、アバター２０１は、例えば、両目の視線を注視点オブジェクト２０３（ＣＧ空間内の同一座標）に向けることが可能である。

　なお、以下、図によって、アバター２０１の種類が異なる場合があるが、基本的に符号の区別は行わない。

　オブジェクト生成部１５１は、生成した各オブジェクトに関する情報を状態制御部１５２に供給する。

　ステップＳ５２において、状態制御部１５２は、各オブジェクトの状態を更新する。

　視線推定モデルを実際に運用する場合、視線の推定対象となる人物を撮影する条件が様々に変化する。例えば、人物の顔とカメラとの相対的な位置及び姿勢、並びに、人物の眼球の向きが様々に変化する。これにより、撮影画像内の人物の顔の位置、大きさ、向き、並びに、眼球の向きが変化する。

　これに対して、状態制御部１５２は、例えば、１つのアバター２０１に対して、アバター画像内のアバター２０１の顔の位置、大きさ、向き、並びに、眼球の向きのバリエーションが広がるように、ＣＧ空間内の各オブジェクトの状態を変化させる。具体的には、例えば、状態制御部１５２は、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置及び姿勢、並びに、アバター２０１の目に対する注視点オブジェクト２０３の位置を変化させる。

　例えば、状態制御部１５２は、図７に示されるように、アバター２０１の顔の向きを、ロール軸、ピッチ軸、及び、ヨー軸の３軸を中心に変化させる。これにより、アバター２０１の顔の向きが、矢印Ａ１１の方向（ロール方向）、矢印Ａ１２の方向（ピッチ方向）、及び、Ａ１３の方向（ヨー方向）に変化する。

　より具体的には、例えば、図８に示されるように、アバター２０１の顔のロール角が、所定の範囲内において所定の刻み幅で変えられる。なお、ロール角は、例えば、図８のＢに示されるように、アバター２０１の顔が正面を向いている方向を基準（０°）とする。そして、図８のＡに示されるように、アバター２０１の顔が右方向に傾く方向を負の方向とし、図８のＣに示されるように、アバター２０１の顔が左方向に傾く方向を正の方向とする。

　例えば、アバター２０１の顔のロール角を変化させる範囲を－２５°～＋２５°とし、刻み幅を５°とした場合、アバター２０１の顔のロール角は１１段階に変化する。これにより、上述した従来技術の問題４が解消する。

　例えば、図９に示されるように、アバター２０１の顔のピッチ角が、所定の範囲内において所定の刻み幅で変えられる。なお、ピッチ角は、例えば、図９のＢに示されるように、アバター２０１の顔が正面を向いている方向を基準（０°）とする。そして、図９のＡに示されるように、アバター２０１の顔が上方向に傾く方向を負の方向とし、図９のＣに示されるように、アバター２０１の顔が下方向に傾く方向を正の方向とする。

　例えば、アバター２０１の顔のピッチ角を変化させる範囲を－２５°～＋２５°とし、刻み幅を５°とした場合、アバター２０１の顔のピッチ角は１１段階に変化する。

　例えば、図１０に示されるように、アバター２０１の顔のヨー角が、所定の範囲内において所定の刻み幅で変化される。なお、ヨー角は、例えば、図１０のＢに示されるように、アバター２０１の顔が正面を向いている方向を基準（０°）とする。そして、図１０のＡに示されるように、アバター２０１の顔が右に向く方向を負の方向とし、図１０のＣに示されるように、アバター２０１の顔が左に向く方向を正の方向とする。

　例えば、アバター２０１の顔のヨー角を変化させる範囲を－２５°～＋２５°とし、刻み幅を５°とした場合、アバター２０１の顔のヨー角は１１段階に変化する。

　なお、例えば、図１１のＡ乃至Ｃに示されるように、ロール角、ピッチ角、及び、ヨー角のうち２つ以上を組み合わせて、アバター２０１の顔の向きを変化させるようにしてもよい。

　また、例えば、状態制御部１５２は、図１２に示されるように、アバター２０１の顔に対して、カメラオブジェクト２０２を左右方向、上下方向、及び、前後方向に平行移動させる。これにより、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置が変化する。また、アバター２０１の顔の向きの変化と組み合わせることにより、アバター２０１の顔とカメラオブジェクト２０２との相対的な姿勢が変化する。

　なお、例えば、アバター２０１のみを移動させたり、アバター２０１とカメラオブジェクト２０２の両方を移動させたりすることにより、アバター２０１の顔とカメラオブジェクト２０２の相対位置を変化させるようにしてもよい。

　例えば、図１３は、カメラオブジェクト２０２として、ラップトップ型のＰＣ（Personal Computer）２０４に搭載されたカメラを想定した場合の例を示している。

　例えば、状態制御部１５２は、カメラオブジェクト２０２の仮想的な撮影範囲Ａ２１内においてアバター２０１の顔の位置を移動させる。

　例えば、カメラオブジェクト２０２に対するアバター２０１の距離が、距離Ｄ１乃至距離Ｄ５の５段階に変えられる。また、各距離において、アバター２０１の顔の上下方向（高さ方向）及び左右方向（横方向）の位置が変えられる。例えば、図１３の例では、アバター２０１とカメラオブジェクト２０２との距離が距離Ｄ５の場合に、アバター２０１の顔の位置が、撮影範囲Ａ２１内において、上下方向に所定の間隔で４か所×左右方向に所定の間隔で５か所の合計２０か所に設定される。そして、例えば、各距離において、アバター２０１の顔の位置がそれぞれ２０か所に設定されることにより、アバター２０１の顔とカメラオブジェクト２０２との相対位置が、１００通りに変化する。

　なお、以下では、カメラオブジェクト２０２の位置を移動させて、アバター２０１とカメラオブジェクト２０２との相対位置を変化させる例について説明する。

　また、例えば、カメラオブジェクト２０２の姿勢のみを変化させたり、アバター２０１とカメラオブジェクト２０２の両方の姿勢を変化させたりすることにより、アバター２０１の顔とカメラオブジェクト２０２との相対姿勢を変化させるようにしてもよい。また、アバター２０１の顔の向きだけでなく、アバター２０１の全身の向きを変化させるようにしてもよい。

　なお、以下では、アバター２０１の顔の向きを変化させて、アバター２０１の顔とカメラオブジェクト２０２との相対姿勢を変化させる例について説明する。

　さらに、例えば、状態制御部１５２は、図１４に示されるように、注視点オブジェクト２０３を、カメラ平面上において左右方向及び上下方向に移動させる。カメラ平面とは、例えば、カメラオブジェクト２０２の前端において、カメラオブジェクト２０２の光軸に垂直な面とされる。カメラ平面上に格子状に並べられた直方体の枠は、注視点オブジェクト２０３の位置の候補を示している。そのうち、斜線パターンで示される直方体の枠が、現在の注視点オブジェクト２０３の位置を示している。

　図１５は、注視点オブジェクト２０３の位置の候補の他の例を示している。図１５は、図１２の例と同様に、カメラオブジェクト２０２として、ラップトップ型のＰＣ２０４に搭載されたカメラを想定した場合の例を示している。

　例えば、カメラオブジェクト２０２のカメラ平面Ｐ１において、カメラオブジェクト２０２の光軸を中心にして、左右方向に９か所×上下方向に９か所の合計８１か所が、注視点オブジェクト２０３の位置の候補に設定されている。例えば、各候補位置の間隔は、上下方向及び左右方向とも５ｃｍに設定される。

　このように、注視点オブジェクト２０３の位置を移動させることにより、アバター２０１の顔と注視点オブジェクト２０３との相対的な位置が変化する。

　なお、各注視点オブジェクト２０３は、必ずしもカメラ平面上に配置されなくてもよい。また、各注視点オブジェクト２０３は、必ずしも同一平面上に配置されなくてもよい。

　以上のように、状態制御部１５２は、アバター画像のバリエーションを広げるために、例えば所定のアルゴリズムにより、各オブジェクトの状態の組み合わせを変化させる。そして、ステップＳ５２において、状態制御部１５２は、まだ学習用データを生成していない各オブジェクトの状態の組み合わせのうちの１つに各オブジェクトの状態を更新する。

　図５に戻り、ステップＳ５３において、状態制御部１５２は、アバター２０１の視線を注視点オブジェクト２０３の方向に向ける。例えば、状態制御部１５２は、アバター２０１の各目の眼球オブジェクトと注視点オブジェクト２０３との相対位置を計算する。状態制御部１５２は、アバター２０１の各目の眼球オブジェクトと注視点オブジェクト２０３との相対位置に基づいて、アバター２０１の各目の視線が注視点オブジェクト２０３の方向を向いた場合の各目の眼球オブジェクトの向き（回転角）を計算する。

　状態制御部１５２は、計算した回転角に基づいて、アバター２０１の各目の眼球オブジェクトを回転させる。例えば、アバター２０１の各目の眼球オブジェクトの中心と黒目中央の点を結んだ線（瞳孔中心線）が、注視点オブジェクト２０３の方向を向くように、眼球オブジェクトが回転される。この場合、例えば、実際の人物において生じる瞳孔中心線と実際の中心窩のずれが反映されてもよい。また、例えば、動的な視線の移動を考慮して、目のサッカード、ドリフト等が、眼球オブジェクトの動きに反映されてもよい。

　これにより、アバター２０１の視線が注視点オブジェクト２０３の方向に向く。すなわち、アバター２０１の両目が注視点オブジェクト２０３の方向を見た状態になる。

　状態制御部１５２は、ステップＳ５２及びステップＳ５３の処理により設定したＣＧ空間の状態及びＣＧ空間内の各オブジェクトの状態を示す情報を含むＣＧ空間情報を学習用データ生成部１５３に供給する。

　ステップＳ５４において、学習用データ生成部１５３は、アバター２０１の視線情報を生成する。具体的には、学習用データ生成部１５３は、ＣＧ空間内のアバター２０１の顔とカメラオブジェクト２０２との相対的な位置及び姿勢、アバター２０１の各目の眼球オブジェクトの回転角、並びに、注視点オブジェクトの位置のうちの１つ以上に基づいて、アバター２０１の視線情報を生成する。

　アバター２０１の視線情報は、アバター２０１の視線方向に関する情報を含む。アバター２０１の視線方向は、例えば、カメラオブジェクト２０２から見た場合のアバター２０１の各目の眼球オブジェクトの回転角により表される。または、例えば、アバターの視線方向は、アバター２０１の各目の視線が交わる点のカメラオブジェクト２０２に対する相対位置により表される。または、アバターの視線方向は、例えば、カメラオブジェクト２０２に対する注視点オブジェクト２０３の相対位置により表される。または、例えば、アバター２０１の視線方向は、カメラオブジェクト２０２に対する相対位置ではなく、アバター画像における座標により表されてもよい。

　なお、運用時に、推定誤差等により人物の各目の視線が交わらない場合にも人物の視線方向を１つに定めることができるように、視線情報におけるアバター２０１の視線方向を１つの値に絞るようにすることが望ましい。この場合、例えば、アバター２０１の両目の視線の交点や、注視点オブジェクト２０３の座標等が、アバター２０１の視線方向に用いられる。

　なお、アバター２０１の両目の視線が交わらない場合、例えば、学習用データ生成部１５３は、注視点オブジェクト２０３により近い方の視線方向を選択したり、両目の視線方向に基づいて、１つの視線方向を算出したりしてもよい。

　これにより、運用時に人物の両目の視線が交わらなくても、視線推定モデル以外の演算を行うことなく、正確に人物の視線方向を推定することが可能になる。すなわち、上述した従来技術の問題１が解消する。

　ステップＳ５５において、学習用データ生成部１５３は、アバター画像を生成する。例えば、学習用データ生成部１５３は、アバター２０１とカメラオブジェクト２０２との相対的な位置及び姿勢に基づいて、ＣＧ空間においてカメラオブジェクト２０２によりキャプチャされるアバター２０１の画像をレンダリングする。これにより、アバター２０１の顔を含むアバター画像が生成される。

　なお、図１６に示されるように、アバター２０１と注視点オブジェクト２０３との位置関係が同じでも、カメラオブジェクト２０２の位置が異なる場合、生成されるアバター画像は変化する。

　図１６のＡは、カメラオブジェクト２０２と注視点オブジェクト２０３との位置が略同じ場合の例を示している。この場合、アバター２０１の視線が、カメラオブジェクト２０２の方向を向く。従って、この状態で生成されるアバター画像ＩＭ１１では、例えば、アバター２０１が略中央で正面方向を向くようになる。

　図１６のＢは、カメラオブジェクト２０２と注視点オブジェクト２０３との位置が離れている場合の例を示している。この場合、アバター２０１の視線が、カメラオブジェクト２０２と異なる方向を向く。従って、この状態で生成されるアバター画像ＩＭ１２では、例えば、アバター２０１が画像内の右下隅で左斜め下方向に向くようになる。

　従って、アバター２０１及び注視点オブジェクト２０３が動かなくても、アバター２０１とカメラオブジェクト２０２との相対的な位置及び姿勢のうちの少なくとも１つが変化した場合、視線情報を再計算する必要がある。これは、常に眼球が片目画像の中央に位置している従来技術では、発生しない処理である。

　図１７及び図１８は、アバター画像の例を示している。

　図１７は、アバター２０１が、カメラオブジェクト２０２の方向を見ていない場合のアバター画像の例を示している。

　図１８のＡ乃至Ｃは、アバター２０１の顔の向き、及び、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置が異なる場合のアバター画像の例を示している。

　図１８のＡは、アバター２０１の顔と視線の向きが一致しない場合のアバター画像の例を示している。

　図１８のＢ及びＣは、アバター２０１の顔及び視線が右斜め上方向を向いている場合のアバター画像の例を示している。ただし、図１８のＢとＣとでは、アバター２０１に対するカメラオブジェクト２０２の相対位置が異なるため、アバター画像内のアバター２０１の位置及び大きさが異なる。

　図５に戻り、ステップＳ５６において、学習用データ生成部１５３は、アバター画像及び視線情報に基づいて学習用データを生成し、学習用データセットに追加する。具体的には、学習用データ生成部１５３は、ステップＳ５５の処理で生成したアバター画像（のデータ）を含む入力データを生成する。学習用データ生成部１５３は、ステップＳ５４の処理で生成したアバター２０１の視線情報を含む正解データを生成する。学習用データ生成部１５３は、入力データ及び正解データを含む学習用データを生成する。これにより、入力データに含まれるアバター画像と正解データに含まれる視線情報がペアにされる。すなわち、アバター画像内のアバター２０１の視線方向の正解が視線情報により示される。

　学習用データ生成部１５３は、生成した学習用データを、学習用データセット蓄積部１１２に蓄積されている学習用データセットに追加する。

　ステップＳ５７において、状態制御部１５２は、学習用データセットの量及び質が十分であるか否かを判定する。

　例えば、状態制御部１５２は、学習用データセット蓄積部１１２に蓄積されている学習用データセットのデータ量が十分であるか否かを判定する。

　また、例えば、状態制御部１５２は、学習用データセット蓄積部１１２に蓄積されている学習用データセットのバリエーションが十分であるか否かを判定する。学習用データセットのバリエーションは、例えば、学習用データセットに含まれる各学習用データの入力データに含まれるアバター画像のバリエーション、及び、正解データに含まれる視線情報のバリエーションのうち少なくとも１つに基づいて判定される。

　アバター画像のバリエーションは、例えば、アバター画像内のアバター２０１の顔の位置、顔の大きさ、顔の向き、眼球の向き、及び、特性のうち少なくとも１つに基づいて判定される。アバター２０１の特性は、例えば、アバターの人種、性別、年齢、顔のつくり、顔の大きさ、肌の色等のうち少なくとも１つが想定される。

　視線情報のバリエーションは、例えば、視線情報により示される視線方向のバリエーションに基づいて判定される。

　状態制御部１５２は、学習用データセットのデータ量がまだ十分でない場合、又は、学習用データセットのバリエーションがまだ十分でない場合、まだ学習用データセットの量及び質のうち少なくとも一方が不十分であると判定し、処理はステップＳ５８に進む。

　ステップＳ５８において、学習用データセット生成部１１１は、必要に応じてアバター２０１を変更する。

　例えば、状態制御部１５２は、現在のアバター２０１を用いて生成された学習用データのバリエーションが十分である場合、学習用データセットのアバター２０１の特性のバリエーションが広がるように、アバター２０１の特性の変更をオブジェクト生成部１５１に指示する。例えば、状態制御部１５２は、アバターの人種、性別、年齢、顔のつくり、顔の大きさ、及び、肌の色のうち少なくとも１つの変更をオブジェクト生成部１５１に指示する。

　これに対して、オブジェクト生成部１５１は、状態制御部１５２の指示に従って、新たなアバター２０１をＣＧ空間内に生成し、古いアバター２０１を削除する。オブジェクト生成部１５１は、生成したアバター２０１に関する情報を状態制御部１５２に供給する。

　一方、学習用データ生成部１５３は、現在のアバター２０１を用いて生成された学習用データのバリエーションがまだ不十分である場合、現在のアバター２０１のまま学習用データの生成を継続すると判定する。

　その後、処理はステップＳ５２に戻り、ステップＳ５７において、学習用データセットの量及び質が十分であると判定されるまで、ステップＳ５２乃至ステップＳ５８の処理が繰り返し実行される。

　一方、ステップＳ５７において、状態制御部１５２は、学習用データセットのデータ量が十分である場合、かつ、学習用データセットのバリエーションが十分である場合、学習用データセットの量及び質が十分であると判定し、学習用データセット生成処理は終了する。

　図４に戻り、ステップＳ２において、学習部１１３は、生成された学習用データセットを用いて、機械学習を実行し、視線推定モデルを生成する。具体的には、学習部１１３は、学習用データセット蓄積部１１２に蓄積されている学習用データセットを用いて、例えばニューラルネットワークベースの学習手法を用いて、機械学習を実行する。学習部１１３は、機械学習により得られた視線推定モデルを推定部１１４に供給する。

　例えば、視線推定モデルは、対象となる人物を撮影した撮影画像のピクセル情報や入力画像から抽出した人物の顔の特徴点情報に基づいて、撮影画像内の人物の視線方向を推定するニューラルネットワークベースのモデルとされる。

　なお、例えば、アバター画像内の顔の位置及び向き、並びに、黒目の移動量等と、正解データの視線情報とを統計分析することより、視線推定モデルを生成することも可能である。

　ステップＳ３において、推定部１１４は、生成された視線推定モデルを用いて、視線推定処理を実行する。例えば、推定部１１４は、視線推定モデルを用いて、対象となる人物を撮影した撮影画像に基づいて、当該人物の視線方向を推定する。具体的には、例えば、推定部１１４は、撮影画像を視線推定モデルに入力し、視線推定モデルから出力される、当該人物の視線方向を示す視線情報を取得する。

　なお、例えば、推定部１１４は、視線推定モデルを用いて、各種のアプリケーションを実行するようにしてもよい。例えば、推定部１１４は、視線推定モデルを用いて、オンラインミーティング時に聴講者が共有資料のどの部分を見ているのかを推定するアプリケーションを実行する。これにより、発表者は、発表中に聴講者の興味のある内容に関して詳細な説明を追加したり、聴講者が見落としていそうな内容を補って説明したりすることが可能になる。

　その後、情報処理は終了する。

　以上のようにして、アバターを用いた学習用データセットの質を向上させることができる。具体的には、例えば、偏りの少ない大量の学習用データセットを自動で生成することが可能になる。その結果、学習用データセットの生成にかかる負荷の増大を抑制しつつ、視線推定モデルの学習精度を向上させることが可能になる。また、生成した視線推定モデルを用いて、人物の視線方向を高精度に推定することが可能になる。すなわち、上述した従来技術の問題３が解消する。

　さらに、学習用データのトレーサビリティが向上する。

　例えば、学習用データ生成部１５３は、各学習用データ生成時のスクリプトを保存する。各スクリプトは、例えば、学習用データ生成時のアバター２０１の種類、ＣＧ空間の状態、及び、ＣＧ空間内の各オブジェクトの状態を含む。ＣＧ空間内の各オブジェクトの状態は、ＣＧ空間内のアバター２０１の位置及び姿勢、ＣＧ空間内のカメラオブジェクト２０２の位置及び姿勢、ＣＧ空間内の注視点オブジェクト２０３の位置等を含む。

　これにより、各学習用データの生成に用いたアバター２０１の種類、ＣＧ空間の状態、及び、ＣＧ空間内の各オブジェクトの状態を後から確認することが可能になる。

　また、学習用データが保存されなくても、スクリプトが保存されることにより、学習用データの再生が可能になる。これにより、例えば、学習用データセットの公開時に、学習用データセット内に含まれる個人のプライバシーの考慮が不要になる。

　さらに、例えば、学習用データセットを保持していなくても、アバター２０１の権利を持っていれば、学習用データセットの公開が要求された場合、スクリプトを用いて容易に対応することが可能になる。

　＜＜３．第２の実施の形態＞＞
　次に、図１９乃至図２２を参照して、本技術の第２の実施の形態について説明する。

　例えば、上述したようにＣＧ空間内の各オブジェクトの状態を変化させながら学習用データセットを生成した場合、各オブジェクトの状態の組み合わせによっては、アバター２０１の状態が異常になる場合が想定される。

　ここで、アバター２０１が異常な状態とは、例えば、その状態のアバター２０１を含むアバター画像が非現実的な画像等になり、機械学習に用いられた場合、学習効率が低下する可能性がある状態である。

　例えば、図１９は、アバター２０１の状態が異常となる例を示している。

　この例では、アバター２０１の顔が、左下方向に大きく傾いている。一方、注視点オブジェクト２０３は、アバター２０１の顔から右下方向に大きく傾いた位置に配置されている。従って、アバター２０１の両目の視線が、右下方向に大きく傾いている。そして、アバター２０１の顔と視線の向きが大きく異なるため、アバター２０１の黒目の部分がほとんど見えなくなり、アバター２０１の両目が、ほぼ白目になっている。

　その結果、カメラオブジェクト２０２によりレンダリングされたアバター画像ＩＭ２１において、アバター２０１の両目がほぼ白目になり、アバター２０１の視線方向が不明瞭になる。従って、アバター画像ＩＭ２１のアバター２０１の視線方向と、正解データの視線情報により示される視線方向とが一致せず、学習効率が低下する可能性がある。

　これに対して、本技術の第２の実施の形態は、アバター画像ＩＭ２１のように、異常な状態のアバター２０１に対応するアバター画像を学習用データセットから除外することにより、学習用データセットの質を向上させるものである。

　　＜情報処理システム３０１の構成例＞
　図２０は、本技術を適用した情報処理システムの第２の実施の形態である情報処理システム３０１の構成例を示している。なお、図中、図２の情報処理システム１０１と対応する部分には同じ符号を付しており、その説明は適宜省略する。

　情報処理システム３０１は、情報処理システム１０１と比較して、学習用データセット生成部１１１の代わりに、学習用データセット生成部３１１が設けられている点が異なる。

　　＜学習用データセット生成部３１１の構成例＞
　次に、図２１を参照して、学習用データセット生成部３１１の構成例について説明する。なお、図中、図３の学習用データセット生成部１１１と対応する部分には同じ符号を付しており、その説明は適宜省略する。

　学習用データセット生成部３１１は、学習用データセット生成部１１１と比較して、状態判定部３５１が追加されている点が異なる。

　状態判定部３５１は、ＣＧ空間情報を状態制御部１５２から取得する。状態判定部３５１は、ＣＧ空間情報に含まれるＣＧ空間の状態、及び、ＣＧ空間内の各オブジェクトの状態に基づいて、アバター２０１の状態が異常であるか否かを判定する。状態判定部３５１は、アバター２０１の状態が異常であると判定した場合、アバター２０１の状態が異常であることを状態制御部１５２に通知する。一方、状態判定部３５１は、アバター２０１の状態が正常であると判定した場合、状態制御部１５２から取得したＣＧ空間情報を学習用データ生成部１５３に供給する。

　　＜情報処理システム３０１の処理＞
　次に、情報処理システム３０１の処理について説明する。

　なお、情報処理システム３０１による情報処理は、情報処理システム１０１による情報処理と同様に、上述した図４のフローチャートに従って実行される。ただし、ステップＳ１の学習用データセット生成処理が、図２２のフローチャートに従って実行されている点が、情報処理システム１０１の処理と異なる。

　　＜学習用データセット生成処理＞
　ここで、図２２のフローチャートを参照して、情報処理システム３０１の学習用データセット生成処理の詳細について説明する。

　ステップＳ１０１及びステップＳ１０２において、図５のステップＳ５１及びステップＳ５２と同様の処理が実行される。

　ステップＳ１０３において、状態制御部１５２は、図５のステップＳ５３の処理と同様に、アバター２０１の視線を注視点オブジェクト２０３の方向に向ける。状態制御部１５２は、ＣＧ空間の状態及びＣＧ空間内の各オブジェクトの状態を示す情報を含むＣＧ空間情報を状態判定部３５１に供給する。

　ステップＳ１０４において、状態判定部３５１は、アバター２０１の状態が異常であるか否かを判定する。

　具体的には、状態判定部３５１は、例えば、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置、アバター２０１の顔とカメラオブジェクト２０２との相対的な姿勢、及び、アバター２０１の眼球オブジェクトの向き（回転角）のうち１つ以上に基づいて、アバター２０１が異常な状態であるか否かを判定する。

　例えば、アバター２０１が異常な状態として、アバター画像においてアバター２０１の少なくとも一方の目が見えない状態が想定される。

　アバター画像においてアバター２０１の少なくとも一方の目が見えない状態の例として、例えば、アバター２０１の少なくとも一方の目がカメラオブジェクト２０２の画角からはみ出ている状態（以下、画角外状態と称する）が想定される。すなわち、アバター２０１の少なくとも一方の目がアバター画像からはみ出ている状態である。

　画角外状態は、例えば、アバター２０１の各目の眼球オブジェクトとカメラオブジェクト２０２との相対位置に基づいて検出することが可能である。

　アバター画像においてアバター２０１の少なくとも一方の目が見えない状態の他の例として、例えば、アバター２０１の顔がカメラオブジェクト２０２と異なる方向を向いており、カメラオブジェクト２０２から見て、アバター２０１の少なくとも一方の目が隠れている状態（以下、隠れ状態と称する）が想定される。すなわち、アバター画像においてアバター２０１の少なくとも一方の目が隠れている状態である。

　隠れ状態は、例えば、アバター２０１の少なくとも一方の目の眼球オブジェクトとカメラオブジェクト２０２とを結んだ線分上にアバター２０１の顔が存在する場合に発生する。従って、隠れ状態は、例えば、アバター２０１の各目の眼球オブジェクトとカメラオブジェクト２０２との相対位置、及び、アバター２０１の顔とカメラオブジェクト２０２との相対位置に基づいて検出することが可能である。

　さらに、アバター２０１が異常な状態として、例えば、カメラオブジェクト２０２から見て、アバター２０１の少なくとも一方の目が白目と同様の状態になっている状態（以下、白目状態と称する）が想定される。すなわち、アバター画像においてアバター２０１の少なくとも一方の目が白目と同様の状態になっている状態である。

　なお、白目と同様の状態とは、例えば、アバター２０１の目における黒目の領域の割合又は面積が所定の閾値未満の状態とされる。

　白目状態は、例えば、図１９を参照して上述したように、アバター２０１の顔向きと視線方向の差が大きすぎる場合に発生する。従って、白目状態は、例えば、アバター２０１の顔の向き、及び、各目の眼球オブジェクトの向き（回転角）に基づいて検出することが可能である。

　例えば、状態判定部３５１は、画角外状態、隠れ状態、及び、白目状態のいずれも検出できなかった場合、アバター２０１の状態が正常であると判定し、状態制御部１５２から取得したＣＧ空間情報を学習用データ生成部１５３に供給する。その後、処理はステップＳ１０５に進む。

　ステップＳ１０５乃至ステップＳ１０７において、図５のステップＳ５４乃至ステップＳ５６と同様の処理が実行される。その後、処理はステップＳ１０８に進む。

　一方、ステップＳ１０４において、状態判定部３５１は、画角外状態、隠れ状態、及び、白目状態のうち少なくとも１つを検出した場合、アバター２０１の状態が異常であると判定し、アバター２０１の状態が異常であることを状態制御部１５２に通知する。その後、ステップＳ１０５乃至ステップＳ１０７の処理はスキップされ、処理はステップＳ１０８に進む。すなわち、アバター２０１の状態が異常である場合、学習用データは生成されず、異常であると判定されたアバター２０１に基づく学習用データが、学習用データセットに追加されない。

　ステップＳ１０８において、図７のステップＳ５７の処理と同様に、学習用データセットの量及び質が十分であるか否かが判定される。学習用データセットの量及び質のうち少なくとも一方がまだ不十分であると判定された場合、処理はステップＳ１０９に進む。

　ステップＳ１０９において、図７のステップＳ５８の処理と同様に、必要に応じてアバター２０１が変更される。

　その後、処理はステップＳ１０２に戻り、ステップＳ１０８において、学習用データセットの量及び質が十分であると判定されるまで、ステップＳ１０２乃至ステップＳ１０９の処理が繰り返し実行される。これにより、ＣＧ空間内の各オブジェクトの状態、及び、アバター２０１を変化させながら、学習用データが生成される。ただし、アバター２０１の状態が異常である場合、学習用データは生成されない。

　一方、ステップＳ１０８において、学習用データセットの量及び質が十分であると判定された場合、学習用データセット生成処理は終了する。

　以上のようにして、アバター２０１が異常な状態で生成される学習用データが除外され、学習用データセットの質が向上する。その結果、視線推定モデルの精度が向上する。

　＜＜４．第３の実施の形態＞＞
　次に、図２３乃至図２６を参照して、本技術の第３の実施の形態について説明する。

　上述した特許文献１のように、実際に人物を撮影した撮影画像を用いて学習用データセットを生成し、利用する場合、学習用データセットの偏りが生じるときがある。学習用データセットの偏りの詳細については後述するが、例えば、撮影画像における人物の顔の位置や視線方向等の偏りが想定される。

　偏りがある学習用データセットを用いて学習された視線推定モデルは、偏りのある要素に対して非ロバストなモデルになってしまう傾向にある。例えば、撮影画像内において人物の顔の位置が右にあるだけで、視線方向が右方向であると推定されるような事象が発生する場合がある。

　これに対して、本技術の第３の実施の形態では、アバター２０１を用いて、取得済みの学習用データセットの不足を補充することにより、学習用データセットの偏り等を低減させ、学習用データセットの量及び質を向上させるものである。

　　＜情報処理システム４０１の構成例＞
　図２３は、本技術を適用した情報処理システムの第３の実施の形態である情報処理システム４０１の構成例を示している。なお、図中、図２の情報処理システム１０１と対応する部分には同じ符号を付しており、その説明は適宜省略する。

　情報処理システム４０１は、情報処理システム１０１と比較して、学習用データセット取得部４１１及び学習用データセット補充部４１２が追加され、学習用データセット生成部１１１が削除されている点が異なる。

　学習用データセット取得部４１１は、学習用データセットを取得し、取得した学習用データセットを学習用データセット蓄積部１１２に蓄積する。

　学習用データセット補充部４１２は、学習用データセット蓄積部１１２に蓄積されている取得済みの学習用データセットの不足を補充する。

　　＜学習用データセット補充部４１２の構成例＞
　図２４は、学習用データセット補充部４１２の構成例を示している。なお、図中、図２１の学習用データセット生成部３１１と対応する部分には同じ符号を付しており、その説明は適宜省略する。

　学習用データセット補充部４１２は、データ分析部４５１、補充計画部４５２、及び、学習用データセット生成部４５３を備える。学習用データセット生成部４５３は、学習用データセット生成部３１１と比較して、オブジェクト生成部１５１及び状態制御部１５２の代わりに、オブジェクト生成部４６１及び状態制御部４６２が設けられている点が異なる。

　データ分析部４５１は、学習用データセット蓄積部１１２に蓄積されている取得済みの学習用データセットを分析する。データ分析部４５１は、学習用データセットの分析結果を示す情報を補充計画部４５２に供給する。

　補充計画部４５２は、学習用データセットの分析結果に基づいて、学習用データセットの不足を補充するための計画を作成する。補充計画部４５２は、学習用データセットの補充計画を示す情報をオブジェクト生成部４６１及び状態制御部４６２に供給する。

　オブジェクト生成部４６１は、学習用データセットの補充計画に基づいて、ＣＧ空間内に各種のオブジェクトを生成する。例えば、オブジェクト生成部４６１は、アバター２０１、カメラオブジェクト２０２、注視点オブジェクト２０３等をＣＧ空間内に生成する。オブジェクト生成部４６１は、生成した各オブジェクトに関する情報を状態制御部４６２に供給する。

　状態制御部４６２は、学習用データセットの補充計画に基づいて、ＣＧ空間の状態、及び、ＣＧ空間内の各オブジェクトの状態を制御することにより、学習用データを生成する条件を制御する。状態制御部４６２は、ＣＧ空間内の各オブジェクトの状態及びＣＧ空間の状態を示す情報を含むＣＧ空間情報を状態判定部３５１に供給する。

　また、状態制御部４６２は、必要に応じて、ＣＧ空間内のオブジェクトの生成をオブジェクト生成部４６１に指示する。

　　＜情報処理システム４０１による情報処理＞
　次に、図２５のフローチャートを参照して、情報処理システム４０１により実行される情報処理について説明する。

　ステップＳ２０１において、学習用データセット取得部４１１は、学習用データセットを取得する。

　なお、学習用データセットの取得方法は、特に限定されない。例えば、学習用データセット取得部４１１は、インターネット等において公開されている学習用データセットを自動的に収集する。例えば、学習用データセット取得部４１１は、ユーザにより入力される学習用データセットを取得する。

　また、学習用データセットの入力データに用いられる人物のサンプルの画像（以下、サンプル画像と称する）は、実際に人物を撮影することにより得られる画像（撮影画像）でもよいし、ＣＧにより生成される画像（アバター画像）でもよい。

　さらに、例えば、学習用データセット取得部４１１は、インターネット等に公開されているサンプル画像を収集し、各サンプル画像、及び、収集したサンプル画像に対して付与される正解データを用いて、学習用データセットを生成するようにしてもよい。

　学習用データセット取得部４１１は、取得した学習用データセットを学習用データセット蓄積部１１２に蓄積する。

　ステップＳ２０２において、学習用データセット補充部４１２は、学習用データセット補充処理を実行する。

　ここで、図２６のフローチャートを参照して、学習用データセット補充処理の詳細について説明する。

　ステップＳ２５１において、データ分析部４５１は、取得済みの学習用データセットを分析する。すなわち、データ分析部４５１は、ステップＳ２０１の処理で取得され、学習用データセット蓄積部１１２に蓄積されている学習用データセットを分析する。

　データ分析部４５１は、学習用データセットの分析結果に基づいて、学習用データの不足を検出する。

　ここで、学習用データセットの不足とは、例えば、学習用データセットの量及び質のうち少なくとも１つの不足である。学習用データセットの量の不足とは、例えば、学習用データセットのデータ量の不足である。学習用データセットの質の不足とは、例えば、学習用データセットのバリエーションの不足を含む。

　学習用データセットのバリエーションの不足は、例えば、学習用データセットの偏りにより表される。学習用データセットの偏りは、例えば、入力データの偏り及び正解データの偏りを含む。

　入力データの偏りは、例えば、サンプルの偏り、及び、サンプル画像の偏りを含む。サンプルの偏りは、例えば、サンプルの特性の偏りを含む。サンプルの特性の偏りは、例えば、人種、性別、年齢、顔のつくり、顔の大きさ、顔の色等のうち少なくとも１つの偏りを含む。サンプル画像の偏りは、例えば、サンプル画像内の顔から得られる情報の偏りを含む。サンプル画像内の顔から得られる情報の偏りは、例えば、顔の位置、顔の大きさ、顔向き、眼球の向き、視線方向と顔向きの相関等のうち少なくとも１つの偏りを含む。

　正解データの偏りは、例えば、視線情報の偏りを含む。視線情報の偏りは、例えば、視線情報により示される視線方向の偏りを含む。

　データ分析部４５１は、学習用データの不足の検出結果を示す情報を補充計画部４５２に供給する。

　ステップＳ２５２において、補充計画部４５２は、分析結果に基づいて、学習用データの補充を計画する。

　具体的には、例えば、補充計画部４５２は、学習用データセットが十分なデータ量になり、かつ、学習用データセットの偏りが補正されるように、学習用データセットの補充を計画する。例えば、補充計画部４５２は、補充分の学習用データを生成する際のアバター２０１の特性、及び、ＣＧ空間内の各オブジェクトの状態を計画する。

　アバターの特性は、例えば、人種、性別、年齢、顔のつくり、顔の大きさ、顔の色等のうち少なくとも１つを含む。

　ＣＧ空間内の各オブジェクトの状態は、例えば、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置及び姿勢、並びに、アバター２０１の目に対する注視点オブジェクト２０３の相対位置等を含む。

　例えば、取得済みの学習用データセットのサンプル画像において、サンプルの顔とカメラとの距離が略一定である場合、アバター２０１の顔とカメラオブジェクト２０２との距離が異なるアバター画像が生成されるように、ＣＧ空間内の各オブジェクトの状態が計画される。例えば、サンプル画像におけるサンプルの顔とカメラとの距離が主に５０ｃｍ前後である場合、アバター２０１の顔とカメラオブジェクト２０２との距離が４０ｃｍ、６０ｃｍ、７０ｃｍの状態でアバター画像が生成されるように、ＣＧ空間内の各オブジェクトの状態が計画される。

　例えば、取得済みの学習用データセットにおいて、サンプルがカメラより下を見たサンプル画像がほとんどである場合、アバター２０１がカメラオブジェクト２０２より上を見たアバター画像が生成されるように、ＣＧ空間内の各オブジェクトの状態が計画される。例えば、カメラオブジェクト２０２の上方５ｃｍ、１０ｃｍ、１５ｃｍの位置に注視点オブジェクトが配置された状態でアバター画像が生成されるように、ＣＧ空間内の各オブジェクトの状態が計画される。

　例えば、取得済みの学習用データセットに特定の人種のサンプル画像しか含まれていない場合、アバター２０１の人種の種類が増えるように、アバター２０１の生成が計画される。例えば、アバター２０１の人種の割合が一定になるように、アバター２０１の生成が計画される。

　補充計画部４５２は、学習用データセットの補充計画に基づいて、補充分の学習用データを生成する際のアバター２０１の特性、及び、ＣＧ空間内の各オブジェクトの状態をパラメータ化した補充パラメータリストを生成する。補充計画部４５２は、補充パラメータリストをオブジェクト生成部４６１及び状態制御部４６２に供給する。

　ステップＳ２５３において、オブジェクト生成部４６１は、補充計画に基づいて、ＣＧ空間内に各オブジェクトを生成する。例えば、オブジェクト生成部４６１は、補充パラメータリストに基づいて、アバター２０１の特性を設定し、設定した特性を有するアバター２０１をＣＧ空間内に生成する。オブジェクト生成部４６１は、カメラオブジェクト２０２及び注視点オブジェクト２０３をＣＧ空間内に生成する。オブジェクト生成部４６１は、生成した各オブジェクトに関する情報を状態制御部４６２に供給する。

　ステップＳ２５４において、状態制御部４６２は、補充計画に基づいて、ＣＧ空間内の状態を更新する。具体的には、状態制御部４６２は、補充パラメータリストに基づいて、図５のステップＳ５２の処理と同様に、まだ学習用データを生成していない各オブジェクトの状態の組み合わせのうちの１つに各オブジェクトの状態を更新する。

　ステップＳ２５５乃至ステップＳ２５９において、図２２のステップＳ１０３乃至ステップＳ１０７と同様の処理が実行される。

　このとき、例えば、取得済み学習用データセットに含まれるサンプル画像と同様の形式で、アバター画像が生成される。これにより、学習時に、取得済み学習用データセットに含まれる学習用データと補充された学習用データとが、区別されずに同様に処理されることが可能になる。これにより、上述した従来技術の問題２が解消する。

　ステップＳ２６０において、状態制御部４６２は、学習用データセットの補充が終了したか否かを判定する。状態制御部４６２は、補充パラメータリストの中に、まだ学習用データを生成していないパラメータが残っている場合、学習用データセットの補充が終了していないと判定し、処理はステップＳ２６１に進む。

　ステップＳ２６１において、学習用データセット生成部４５３は、補充計画に基づいて、必要に応じてアバター２０１を変更する。

　例えば、状態制御部４６２は、補充パラメータリストに基づいて、現在のアバター２０１を用いて全てのパラメータの学習用データが生成済みであるか否かを判定する。状態制御部４６２は、現在のアバター２０１を用いて全てのパラメータの学習用データが生成済みであると判定した場合、補充パラメータリストに基づいて、まだ学習用データを生成していないアバター２０１の特性のうちの１つを選択する。状態制御部４６２は、アバター２０１の特性を、選択した特性に変更するようにオブジェクト生成部４６１に指示する。

　これに対して、オブジェクト生成部４６１は、状態制御部４６２の指示に従って、新たなアバター２０１をＣＧ空間内に生成し、古いアバター２０１を削除する。オブジェクト生成部４６１は、生成したアバター２０１に関する情報を状態制御部４６２に供給する。

　一方、状態制御部４６２は、現在のアバター２０１を用いてまだ全てのパラメータの学習用データが生成済みでないと判定した場合、現在のアバター２０１のまま学習用データの生成を継続すると判定する。

　その後、処理はステップＳ２５４に戻り、ステップＳ２６０において、学習用データセットの補充が終了したと判定されるまで、ステップＳ２５４乃至ステップＳ２６１の処理が繰り返し実行される。

　一方、ステップＳ２６０において、状態制御部４６２は、補充パラメータリストの中に、学習用データを生成していないパラメータが残っていない場合、学習用データセットの補充が終了したと判定し、学習用データセット補充処理は終了する。

　図２５に戻り、ステップＳ２０３において、学習部１１３は、補充後の学習用データセットを用いて、機械学習を実行し、視線推定モデルを生成する。具体的には、学習部１１３は、学習用データセット蓄積部１１２に蓄積されている補充後の学習用データセットを用いて、所定の学習手法を用いて、機械学習を実行する。学習部１１３は、機械学習により得られた視線推定モデルを推定部１１４に供給する。

　ステップＳ２０４において、図４のステップＳ３の処理と同様に、生成された視線推定モデルを用いて、視線推定処理が実行される。

　以上のようにして、取得済みの学習用データセットを補充することにより、学習用データセットの量及び質が向上する。そして、補充後の学習用データセットを用いて機械学習が行われることにより、視線推定モデルの精度が向上する。

　また、本技術の第３の実施の形態は、特定のユーザ（以下、対象ユーザと称する）に対して視線推定モデルのファインチューンを実行し、対象ユーザに対して視線推定モデルを最適化する場合に適用することができる。

　例えば、対象ユーザに対して視線推定モデルのファインチューンを実行する場合、対象ユーザを撮影した撮影画像を用いて取得された学習用データセットを用いて追加学習が行われる。

　この場合、例えば、撮影画像を用いて取得された学習用データセットの量が十分でなかったり、学習用データセットの偏りが大きかったりする場合、視線推定モデルが学習用データセットに対して最適化されることにより、視線推定モデルのロバスト性が低下する。

　これに対して、例えば、対象ユーザに類似するアバター２０１を用いて、上述したように、取得済みの学習用データセットの補充が実行されることにより、対象ユーザ用の学習用データセットの量及び質が向上する。また、事前に対象ユーザを撮影した撮影画像を用いて取得する学習用データセットのデータ量を削減することができ、学習用データセットの生成に必要な負荷が軽減される。

　なお、アバター２０１が対象ユーザに類似するか否かは、例えば、顔のつくりに関する特徴量を比較することにより判定可能である。例えば、対象ユーザの目頭間の距離と顔全体の長さの比が最も近いアバター２０１が、対象ユーザに類似するアバター２０１として用いられる。

　そして、補充された学習用データセットを用いて追加学習が実行されることにより、ファインチューンの精度が向上し、視線推定モデルによる対象ユーザの視線の推定精度が向上する。例えば、視線推定モデルのロバスト性が向上する。

　＜＜５．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　例えば、一度に２体以上のアバター２０１がＣＧ空間内に生成されるようにしてもよい。

　例えば、アバター２０１の少なくとも一方の目が白目と同様の状態になっている場合、その目の眼球オブジェクトの回転角を白目にならない範囲で補正するようにしてもよい。

　以上の説明では、アバター２０１の顔とカメラオブジェクト２０２との相対的な位置及び姿勢、並びに、アバター２０１の顔と注視点オブジェクト２０３との相対位置を変化させながら、学習用データを生成する例を示したが、各オブジェクトの他の状態を変化させながら、学習用データを生成するようにしてもよい。そのような各オブジェクトの状態として、例えば、アバター２０１の全身又は顔以外の部分とカメラオブジェクト２０２との相対的な位置及び姿勢、アバター２０１の全身又は顔以外の部分と注視点オブジェクト２０３の相対位置が想定される。また、例えば、アバター２０１の表情やジェスチャ等が想定される。

　例えば、ＣＧ空間の状態を変化させながら、学習用データを生成するようにしてもよい。そのようなＣＧ空間の状態としては、例えば、ＣＧ空間の光線又は照明の状態、ＣＧ空間の背景等が想定される。

　注視点オブジェクト２０３は、アバター２０１の眼球オブジェクトの向き（回転角）を制御するための座標を指定できればよく、外観は上述した例に限定されない。また、注視点オブジェクト２０３は、必ずしも視認可能でなくてもよい。

　アバター２０１の状態の異常判定に加えて、又は、アバター２０１の状態の異常判定に代えて、学習用データセットの質の低下につながるようなアバター画像を検出するための異常判定が実行されるようにしてもよい。

　本技術は、例えば、視線以外の人物の非言語情報（例えば、人物の状態及び特性のうち少なくとも１つ）に関する推定処理を実行する推定モデルの学習用データセットを生成する場合にも適用することが可能である。例えば、本技術は、人物のジェスチャや感情を推定する推定モデルの学習用データセットを生成する場合に適用することが可能である。例えば、本技術は、人物の唇の動きにより人物の発言内容を推定する読唇を実行する推定モデルの学習用データセットを生成する場合に適用することができる。例えば、本技術は、人物の人種、性別、年齢等の特性を推定する推定モデルの学習用データセットを生成する場合に適用することができる。

　＜＜６．その他＞＞
　　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１、ROM（Read Only Memory）１００２、RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記憶部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記憶部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記憶部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　情報処理装置が、
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を制御し、
　前記３次元モデルの状態及び前記レンダリング条件に基づいて、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データを生成する
　情報処理方法。
（２）
　前記３次元モデルの状態は、前記仮想空間における前記３次元モデルの位置及び姿勢のうち少なくとも１つを含む
　前記（１）に記載の情報処理方法。
（３）
　前記３次元モデルの状態は、前記仮想空間における前記３次元モデルの眼球の向きをさらに含む
　前記（２）に記載の情報処理方法。
（４）
　前記正解データは、前記３次元モデルの視線方向を示す視線情報を含む
　前記（３）に記載の情報処理方法。
（５）
　前記３次元モデル画像は、前記３次元モデルの両目を含み、
　前記視線情報は、前記３次元モデルの両目に対して１つの視線方向を示す
　前記（４）に記載の情報処理方法。
（６）
　前記情報処理装置は、
　前記仮想空間内において前記３次元モデルが注視する位置を示す注視点の位置をさらに制御し、
　前記３次元モデルの眼球と前記注視点との相対位置に基づいて、前記３次元モデルの眼球の向きを制御する
　前記（３）乃至（５）のいずれかに記載の情報処理方法。
（７）
　前記情報処理装置は、
　前記３次元モデルと、前記レンダリング条件の制御に用いられるカメラオブジェクトとの相対的な位置及び姿勢を制御する
　前記（２）乃至（６）のいずれかに記載の情報処理方法。
（８）
　前記３次元モデルの姿勢は、前記仮想空間における前記３次元モデルの顔の向きを含む
　前記（２）乃至（７）のいずれかに記載の情報処理方法。
（９）
　前記情報処理装置は、
　前記３次元モデルの状態及び前記レンダリング条件を制御し、前記学習用データの集合である学習用データセットにおいて、前記３次元モデル画像内の前記３次元モデルの状態、及び、前記正解データのうち少なくとも１つのバリエーションを広げる
　前記（１）乃至（８）のいずれかに記載の情報処理方法。
（１０）
　前記学習用データセットは、人物の状態及び特性のうち少なくとも１つを推定する学習モデルの学習に用いられる
　前記（９）に記載の情報処理方法。
（１１）
　前記情報処理装置は、
　前記３次元モデルの状態を判定し、
　前記３次元モデルの状態が異常であると判定した場合、異常であると判定された前記３次元モデルに基づく前記学習用データを、前記学習用データの集合である学習用データセットに追加しない
　前記（１）乃至（１０）のいずれかに記載の情報処理方法。
（１２）
　前記３次元モデルが異常な状態とは、前記３次元モデルに基づく前記３次元モデル画像を含む前記学習用データが学習に用いられた場合、学習効率が低下する可能性がある状態である
　前記（１１）に記載の情報処理方法。
（１３）
　前記３次元モデルが異常な状態は、前記３次元モデル画像において前記３次元モデルの少なくとも一方の目が含まれない状態、及び、前記３次元モデルの少なくとも一方の目が白目と同様の状態である状態のうち少なくとも１つである
　前記（１２）に記載の情報処理方法。
（１４）
　前記情報処理装置は、
　取得済みの学習用データセットを分析し、
　前記学習用データセットの分析結果に基づいて、前記学習用データセットの量及び質のうち少なくとも１つの不足を補充する
　前記（１）乃至（１３）のいずれかに記載の情報処理方法。
（１５）
　前記情報処理装置は、
　前記学習用データセットの偏りを検出し、
　前記学習用データセットの偏りを補正する前記学習用データを生成し、前記学習用データセットに追加する
　前記（１４）に記載の情報処理方法。
（１６）
　前記情報処理装置は、
　前記３次元モデルを生成するとともに、前記３次元モデルの特性を変化させる
　前記（１）乃至（１５）のいずれかに記載の情報処理方法。
（１７）
　前記情報処理装置は、
　前記仮想空間の状態をさらに制御する
　前記（１）乃至（１６）のいずれかに記載の情報処理方法。
（１８）
　前記３次元モデルの状態は、前記３次元モデルの表情及びジェスチャのうち少なくとも１つを含む
　前記（１）乃至（１７）のいずれかに記載の情報処理方法。
（１９）
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を
　備える情報処理装置。
（２０）
　情報処理装置が、
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する
　情報処理方法。
（２１）
　情報処理装置が、
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いて、人物に関する推定処理を実行する学習モデルの学習を実行する
　情報処理方法。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１０１　情報処理システム，　１１１　学習用データセット生成部，　１１２　学習用データセット蓄積部，　１１３　学習部，　１１４　推定部，　１５１　オブジェクト生成部，　１５２　状態制御部，　１５３　学習用データ生成部，　３０１　情報処理システム，　３１１　学習用データセット生成部，　３５１　状態判定部，　４０１　情報処理システム，　４１１　学習用データセット取得部，　４１２　学習用データセット補充部，　４５１　データ分析部，　４５２　補充計画部，　４５３　学習用データセット生成部，　４６１　オブジェクト生成部，　４６２　状態制御部

Claims

　情報処理装置が、
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を制御し、
　前記３次元モデルの状態及び前記レンダリング条件に基づいて、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データを生成する
　情報処理方法。
　前記３次元モデルの状態は、前記仮想空間における前記３次元モデルの位置及び姿勢のうち少なくとも１つを含む
　請求項１に記載の情報処理方法。
　前記３次元モデルの状態は、前記仮想空間における前記３次元モデルの眼球の向きをさらに含む
　請求項２に記載の情報処理方法。
　前記正解データは、前記３次元モデルの視線方向を示す視線情報を含む
　請求項３に記載の情報処理方法。
　前記３次元モデル画像は、前記３次元モデルの両目を含み、
　前記視線情報は、前記３次元モデルの両目に対して１つの視線方向を示す
　請求項４に記載の情報処理方法。
　前記情報処理装置は、
　前記仮想空間内において前記３次元モデルが注視する位置を示す注視点の位置をさらに制御し、
　前記３次元モデルの眼球と前記注視点との相対位置に基づいて、前記３次元モデルの眼球の向きを制御する
　請求項３に記載の情報処理方法。
　前記情報処理装置は、
　前記３次元モデルと、前記レンダリング条件の制御に用いられるカメラオブジェクトとの相対的な位置及び姿勢を制御する
　請求項２に記載の情報処理方法。
　前記３次元モデルの姿勢は、前記仮想空間における前記３次元モデルの顔の向きを含む
　請求項２に記載の情報処理方法。
　前記情報処理装置は、
　前記３次元モデルの状態及び前記レンダリング条件を制御し、前記学習用データの集合である学習用データセットにおいて、前記３次元モデル画像内の前記３次元モデルの状態、及び、前記正解データのうち少なくとも１つのバリエーションを広げる
　請求項１に記載の情報処理方法。
　前記学習用データセットは、人物の状態及び特性のうち少なくとも１つを推定する学習モデルの学習に用いられる
　請求項９に記載の情報処理方法。
　前記情報処理装置は、
　前記３次元モデルの状態を判定し、
　前記３次元モデルの状態が異常であると判定した場合、異常であると判定された前記３次元モデルに基づく前記学習用データを、前記学習用データの集合である学習用データセットに追加しない
　請求項１に記載の情報処理方法。
　前記３次元モデルが異常な状態とは、前記３次元モデルに基づく前記３次元モデル画像を含む前記学習用データが学習に用いられた場合、学習効率が低下する可能性がある状態である
　請求項１１に記載の情報処理方法。
　前記３次元モデルが異常な状態は、前記３次元モデル画像において前記３次元モデルの少なくとも一方の目が含まれない状態、及び、前記３次元モデルの少なくとも一方の目が白目と同様の状態である状態のうち少なくとも１つである
　請求項１２に記載の情報処理方法。
　前記情報処理装置は、
　取得済みの学習用データセットを分析し、
　前記学習用データセットの分析結果に基づいて、前記学習用データセットの量及び質のうち少なくとも１つの不足を補充する
　請求項１に記載の情報処理方法。
　前記情報処理装置は、
　前記学習用データセットの偏りを検出し、
　前記学習用データセットの偏りを補正する前記学習用データを生成し、前記学習用データセットに追加する
　請求項１４に記載の情報処理方法。
　前記情報処理装置は、
　前記３次元モデルを生成するとともに、前記３次元モデルの特性を変化させる
　請求項１に記載の情報処理方法。
　前記情報処理装置は、
　前記仮想空間の状態をさらに制御する
　請求項１に記載の情報処理方法。
　前記３次元モデルの状態は、前記３次元モデルの表情及びジェスチャのうち少なくとも１つを含む
　請求項１に記載の情報処理方法。
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を
　備える情報処理装置。
　情報処理装置が、
　３次元の仮想空間内の人物の３次元モデルの状態、及び、前記３次元モデルをレンダリングするレンダリング条件を変化させながら、前記３次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記３次元モデルをレンダリングした画像である３次元モデル画像を含む入力データ、及び、前記３次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する
　情報処理方法。