WO2023175727A1

WO2023175727A1 - 情報処理システム、情報処理方法及びプログラム

Info

Publication number: WO2023175727A1
Application number: PCT/JP2022/011645
Authority: WO
Inventors: 祥悟佐藤; 徹悟稲田; 博之勢川
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-09-21

Abstract

訓練データの整備を容易にしつつ機械学習モデルの精度を向上させる。　情報処理システムは、訓練データにより学習された機械学習モデルに入力データが入力された際の当該機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力し、前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成し、前記新たな訓練データにより機械学習モデルを学習させる。

Description

情報処理システム、情報処理方法及びプログラム

　本発明は、情報処理システム、情報処理方法及びプログラムに関する。

　一般的な機械学習モデルは、予め準備された訓練データにより学習される。

　Sida Peng et alは、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)において、論文PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationを発表している。この論文では、入力画像と、正解の出力画像とを含む訓練データにより機械学習モデルを学習させ、さらにその機械学習モデルに撮影された画像が入力された際の出力に基づいて姿勢推定に用いるキーポイントの画像上の位置を算出することが開示されている。

　機械学習モデルを学習させるためには多量の訓練データが必要となるが、そのデータを準備するには多くの手間がかかる。一方、訓練データの量を減らすと、機械学習モデルの精度が確保できない恐れがある。

　本発明は上記実情に鑑みてなされたものであって、その目的は、訓練データの整備にかかる手間を抑制しつつ機械学習モデルの精度を向上させる技術を提供することにある。

　上記課題を解決するために、本発明に係る情報処理システムは、訓練データにより学習された機械学習モデルと、入力データが入力された際の前記機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力する信頼度出力手段と、前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成する生成手段と、前記新たな訓練データにより機械学習モデルを学習させる学習制御手段と、を含む。

　本発明の一態様では、情報処理システムは、前記機械学習モデルの出力に基づいて推定結果を出力する学習済の推定モデルを含み、前記信頼度出力手段は、前記推定モデルの出力に基づいて前記入力データに対する前記機械学習モデルの出力の信頼度を出力してよい。

　本発明の一態様では、前記入力データは、対象オブジェクトが撮影された画像を含み、前記推定モデルは、前記機械学習モデルの出力に基づいて、前記対象オブジェクトの姿勢推定のためのキーポイントを示す画像を出力し、前記信頼度出力手段は、前記画像に基づいて前記信頼度を出力してよい。

　本発明の一態様では、前記推定モデルは、各点がキーポイントとの位置関係を示す画像を出力し、前記信頼度出力手段は、複数のキーポイントの位置の候補であってそれぞれ前記推定モデルが出力した画像に含まれる互いに異なる点から生成されるキーポイントの位置の候補のばらつきに基づいて、前記信頼度を出力してよい。

　本発明の一態様では、前記信頼度出力手段は、対象オブジェクトが撮影された入力画像が前記推定モデルに入力された際の当該推定モデルの出力と、前記入力画像が所定の加工処理により加工された加工画像が前記推定モデルに入力された際の出力との相違を示す情報に基づいて、前記信頼度を出力してよい。

　本発明の一態様では、前記機械学習モデルは前記入力データが前記対象オブジェクトを含むか否かを示す情報を出力してよい。

　本発明の一態様では、前記推定モデルは推定訓練データにより学習され、前記生成手段は、前記信頼度が前記所定の条件を満たす場合に、前記入力データに基づいて新たな推定訓練データを生成し、前記学習制御手段は、前記新たな訓練データにより機械学習モデルを学習させてよい。

　本発明の一態様では、前記入力データは、対象オブジェクトが撮影された画像を含み、前記機械学習モデルは、前記入力データに基づいて、対象オブジェクトの姿勢推定のためのキーポイントを示す画像を出力し、前記信頼度出力手段は、前記画像に基づいて前記信頼度を出力させてよい。

　本発明の一態様では、前記訓練データは３次元形状モデルからレンダリングされた複数の学習画像とそれぞれが前記学習画像に対する正解データである正解画像とを含んでよい。

　本発明の一態様では、前記生成手段は、前記入力データが第１の加工処理により加工された第１の追加画像と、前記入力データが前記第１の加工処理と異なる第２の加工処理により加工された第２の追加画像とを含む新たな訓練データを生成し、前記学習制御手段は、前記機械学習モデルに前記第１の追加画像を入力した際の出力と、前記機械学習モデルに前記第２の追加画像を追加した際の出力との違いに基づいて、機械学習モデルを学習させてよい。

　また、本発明に係る情報処理方法は、訓練データにより学習された機械学習モデルに入力データが入力された際の当該機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力するステップと、前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成するステップと、前記新たな訓練データにより機械学習モデルを学習させるステップと、を含む。

　また、本発明に係るプログラムは、訓練データにより学習された機械学習モデルに入力データが入力された際の当該機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力し、前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成し、前記新たな訓練データにより機械学習モデルを学習させる、処理をコンピュータに実行させる。

　本発明によれば、訓練データの整備にかかる手間を抑制しつつ機械学習モデルの精度を向上させることができる。

本発明の一実施形態に係る情報処理システムの構成の一例を示す図である。本発明の一実施形態に係る情報処理システムで実装される機能の一例を示す機能ブロック図である。入力画像の一例を示す図である。対象オブジェクトのキーポイントの一例を示す図である。対象領域における位置画像の一例を模式的に示す図である。主に対象領域取得部および姿勢推定部の処理の一例を示すフロー図である。検出された対象オブジェクトの姿勢を説明する図である。識別モデルおよび推定モデルの学習を概略的に説明するフロー図である。初期の訓練データを生成する処理の一例を示すフロー図である。対象オブジェクトの撮影を説明する図である。推定モデルの再学習の処理の一例を示すフロー図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。本実施形態では、オブジェクトが撮影された画像を入力し、その姿勢を推定する情報処理システムに発明を適用した場合について説明する。

　この情報処理システムは、撮影された画像の少なくとも一部がオブジェクトを含むか否かを判定する機械学習モデルと、オブジェクトを含む画像からそのオブジェクトの推定される姿勢を示す情報を出力する機械学習モデルとを含んでいる。また情報処理システムはその学習を短時間で完了するように構成されている。所要時間は、例えば、オブジェクトを把持して回転させるのに数十秒、機械学習に数分程度が想定されている。

　図１は、本発明の一実施形態にかかる情報処理システムの構成の一例を示す図である。本実施形態にかかる情報処理システムは、情報処理装置１０を含む。情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、情報処理装置１０は、例えば、プロセッサ１１、記憶部１２、通信部１４、操作部１６、表示部１８、撮影部２０を含んでいる。情報処理システムは１台の情報処理装置１０により構成されてもよいし、情報処理装置１０を含む複数の装置により構成されてもよい。

　プロセッサ１１は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

　記憶部１２は、ＲＯＭやＲＡＭ等の記憶素子やソリッドステートドライブのような外部記憶装置のうち少なくとも一部からなる。記憶部１２には、プロセッサ１１によって実行されるプログラムなどが記憶される。

　通信部１４は、例えばネットワークインタフェースカードのような、有線通信又は無線通信用の通信インタフェースであり、インターネット等のコンピュータネットワークを介して、他のコンピュータや端末との間でデータを授受する。

　操作部１６は、例えば、キーボード、マウス、タッチパネル、ゲームコンソールのコントローラ等の入力デバイスであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１１に出力する。

　表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１１の指示に従って各種の画像を表示する。表示部１８は、外部の表示デバイスに対して映像信号を出力するデバイスであってもよい。

　撮影部２０は、デジタルカメラ等の撮影デバイスである。本実施形態にかかる撮影部２０は、例えば動画像の撮影が可能なカメラである。撮影部２０は、可視のＲＧＢ画像を取得可能なカメラであってよい。撮影部２０は、可視のＲＧＢ画像と、そのＲＧＢ画像と同期した深度情報とを取得可能なカメラであってもよい。撮影部２０は情報処理装置１０の外部にあってもよく、この場合は情報処理装置１０と撮影部２０とが、通信部１４または後述の入出力部を介して接続されてよい。

　なお、情報処理装置１０は、マイクやスピーカなどといった音声入出力デバイスを含んでいてもよい。また、情報処理装置１０は、例えば、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、外部機器とデータの入出力をするための入出力部（ＵＳＢ（Universal Serial Bus）ポート）を含んでいてもよい。

　図２は、本発明の一実施形態に係る情報処理システムで実装される機能の一例を示す機能ブロック図である。図２に示すように、情報処理システムは、機能的に、対象領域取得部２１、姿勢推定部２５、撮影画像取得部３３、識別訓練データ生成部３４、識別学習部３５、形状モデル取得部３６、推定訓練データ生成部３７、推定学習部３８、信頼度取得部３９を含む。対象領域取得部２１は、機能的に、領域抽出部２２、特徴抽出部２３、および識別モデル２４を含む。姿勢推定部２５は、機能的に、推定モデル２６、キーポイント決定部２７、および姿勢算出部２８を含む。識別モデル２４および推定モデル２６は、どちらも機械学習モデルの一種である。

　これらの機能は、主にプロセッサ１１及び記憶部１２により実装される。より具体的には、これらの機能は、コンピュータである情報処理装置１０にインストールされた、以上の機能に対応する実行命令を含むプログラムをプロセッサ１１で実行することにより実装されてよい。また、このプログラムは、例えば、光学的ディスク、磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置１０に供給されてもよい。

　なお、本実施形態にかかる情報処理システムに、必ずしも図２に示す機能のすべてが実装されていなくてもよく、また、図２に示す機能以外の機能が実装されていてもよい。

　対象領域取得部２１は、撮影部２０により撮影された入力画像を取得し、その取得された入力画像に含まれる１または複数の候補領域５６（図３参照）のそれぞれが対象オブジェクト５１の画像を含むか否か判定する。領域抽出部２２は、この１または複数の候補領域５６を抽出し、特徴抽出部２３は候補領域５６のそれぞれから画像の特徴を示す特徴量を抽出する。識別モデル２４には、その候補領域５６の画像としてその特徴量が入力され、その候補領域５６が対象オブジェクト５１の画像を含むか否かを示す情報を出力する。

　対象領域取得部２１は、候補領域５６が対象オブジェクト５１を含む場合に、入力画像から抽出される、対象オブジェクト５１の画像を含む対象領域５５を取得する。対象オブジェクト５１は、情報処理装置１０において姿勢の推定の対象となるオブジェクトである。対象オブジェクト５１は事前の学習の対象となる。

　図３は、入力画像の一例を示す図である。図３の例では、対象オブジェクト５１は電動工具であり、以降の図においても特に説明のない場合は対象オブジェクト５１の例は電動工具であるとする。入力画像は、撮影部２０により撮影されており、対象領域５５は対象オブジェクト５１およびその近傍を含む矩形の領域である。なお、対象領域５５の取得の過程において、対象オブジェクト５１を含む領域の候補として、対象オブジェクト５１を含まない領域も含む１または複数の候補領域５６も抽出される。

　領域抽出部２２は、入力画像から、識別モデル２４の判定の対象となる候補領域５６の画像を抽出する。より具体的には、領域抽出部２２は、公知のRegion Proposal技術により、入力画像から、何らかのオブジェクトが撮影された１または複数の候補領域５６を識別し、その１または複数の候補領域５６のそれぞれを抽出する。

　識別モデル２４は機械学習モデルであり、訓練データにより学習され、学習済の識別モデル２４は、入力データが入力されると、識別の結果としてデータを出力する。識別モデル２４に入力される入力データは、候補領域５６の画像を示す情報であり、例えば、特徴抽出部２３がその画像から抽出した特徴量である。また、識別モデル２４は、入力データが入力されると、その候補領域５６の画像が対象オブジェクト５１の画像を含むか否かを示す情報を出力する。

　識別モデル２４の訓練データは、対象オブジェクト５１が撮影された画像を含む複数の正例画像と、対象オブジェクト５１を含まない複数の負例画像とを含む学習画像のそれぞれを示すデータを含む。識別モデル２４およびその学習の詳細については後述する。学習画像のそれぞれは、撮影された画像のうち対象オブジェクト５１が存在する領域の画像であってよい。その領域の抽出は、領域抽出部２２と同様の手法で行われてよい。なお、識別モデル２４は、上記の訓練データだけでなく、追加の訓練データによっても学習される。

　なお、特徴抽出部２３を介さずに候補領域５６の画像が識別モデル２４に直接的に入力されてもよい。精度が低下する恐れはあるが、領域抽出部２２が存在しなくてもよい。この場合、特徴抽出部２３が入力画像そのものから特徴を抽出し、識別モデル２４がその入力画像に対象オブジェクト５１が存在するか判定してもよいし、入力画像が直接的に識別モデル２４に入力されてもよい。

　姿勢推定部２５は、推定モデル２６に対象領域５５が入力された際に出力される情報に基づいて、対象オブジェクト５１の姿勢を推定する。推定モデル２６は、機械学習モデルであり、訓練データにより学習され、学習済の推定モデル２６は、入力データが入力されると、推定結果としてデータを出力する。訓練データは、対象オブジェクト５１の３次元形状モデルによりレンダリングされた複数の学習画像とその学習画像における対象オブジェクト５１の姿勢に関する情報である正解データとを含む。

　学習済の推定モデル２６には、対象領域５５の画像を示す情報が入力され、推定モデル２６は対象オブジェクトの姿勢推定のためのキーポイントの位置を示す情報を出力する。対象領域５５は、識別モデル２４の出力に基づいて選択された候補領域５６に基づく画像である。推定モデル２６の訓練データは、対象オブジェクト５１の３次元形状モデルによりレンダリングされた複数の学習画像と、学習画像における前記対象オブジェクト５１のキーポイントの位置を示す正解データとを含む。キーポイントは、対象オブジェクト５１内にある仮想的な点であって、姿勢の算出に用いる点である。なお、推定モデル２６は、上記の訓練データだけでなく、追加の訓練データによっても学習される。追加の訓練データは、入力画像に基づいて生成される画像を含み、また入力画像に基づいて訓練データを追加するか否かは推定モデル２６の出力に基づいて判定される。

　図４は、対象オブジェクト５１のキーポイントの一例を示す図である。対象オブジェクト５１のキーポイントの３次元位置は、対象オブジェクト５１の３次元形状モデル（より具体的には３次元形状モデルに含まれる頂点の情報）から、例えば公知のFarthest Point アルゴリズムにより決定される。図４には説明の容易のため、３つのキーポイントＫ１～Ｋ３が記載されているが、実際のキーポイントの数はより多くてよい。例えば本実施形態では対象オブジェクト５１の実際のキーポイントの数は８である。

　学習済の推定モデル２６は、対象領域５５が入力された際に、対象領域５５における対象オブジェクト５１のキーポイントの２次元位置を示す情報を出力する。対象領域５５におけるキーポイントの２次元位置と入力画像における対象領域５５の位置とから、入力画像におけるキーポイントの２次元位置が求められる。キーポイントの位置を示すデータは、各点がその点とキーポイントとの位置関係（例えば方向）を示す位置画像であってよい。

　図５は、対象領域５５における位置画像の一例を模式的に示す図である。位置画像は、キーポイントの種類ごとに生成されてよい。位置画像は、各点におけるその点とキーポイントとの相対的な方向を示す。図５に示される位置画像では、各点の値に応じたパターンが記載され、各点の値は、その点の座標とキーポイントの座標との方向を示している。図５はあくまで模式的な図であり、各点の実際の値は連続的に変化する。図では明示されていないが、位置画像は、各点におけるその点を基準としたキーポイントの相対的な方向を示すVector Field画像である。

　キーポイント決定部２７は、推定モデル２６の出力に基づいて、対象領域５５および入力画像におけるキーポイントの２次元位置を決定する。より具体的には、例えば、キーポイント決定部２７は、推定モデル２６から出力される位置画像に基づいて、対象領域５５におけるキーポイントの２次元位置の候補を算出し、算出された２次元位置の候補から入力画像におけるキーポイントの２次元位置を決定する。キーポイント決定部２７は、例えば、位置画像のうちの任意の２点の組み合わせのそれぞれからキーポイントの候補点を算出し、複数の候補点に対して位置画像の各点が示す方向と合致しているかを示すスコアを生成する。キーポイント決定部２７はそのスコアが最も大きい候補点をキーポイントの位置と推定してよい。またキーポイント決定部２７は、キーポイントごとに上記の処理を繰り返す。

　姿勢算出部２８は、入力画像におけるキーポイントの２次元位置を示す情報と対象オブジェクト５１の３次元形状モデルにおけるキーポイントの３次元位置を示す情報とに基づいて、対象オブジェクト５１の姿勢を推定し、推定された姿勢を示す姿勢データを出力する。対象オブジェクト５１の姿勢は、公知のアルゴリズムによって推定される。例えば、姿勢推定についてのPerspective-n-Point（ＰＮＰ）問題の解法（例えばＥＰｎＰ）により推定されてよい。また、姿勢算出部２８は対象オブジェクト５１の姿勢だけでなく入力画像における対象オブジェクト５１の位置も推定し、姿勢データにその位置を示す情報が含まれてもよい。

　推定モデル２６、キーポイント決定部２７、姿勢算出部２８の詳細は、PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationの論文に記載されたものであってよい。

　撮影画像取得部３３、識別訓練データ生成部３４、識別学習部３５、形状モデル取得部３６、推定訓練データ生成部３７、推定学習部３８、信頼度取得部３９は、識別モデル２４および推定モデルの学習に関する構成である。本実施形態では、まず、対象オブジェクト５１が撮影された画像に基づいて、識別モデル２４および推定モデル２６が、例えばそれぞれ数秒、数分といった短時間で学習され、学習済の識別モデル２４、推定モデル２６に基づく対象領域取得部２１および姿勢推定部２５の動作の後に、識別モデル２４、推定モデル２６についての再度の学習が行われる。

　撮影画像取得部３３は姿勢推定部２５に含まれる推定モデル２６および／または対象領域取得部２１に含まれる識別モデル２４を学習させるために、撮影部２０により対象オブジェクト５１が撮影された撮影画像を取得する。撮影部２０は、予めキャリブレーションによってカメラ内部パラメータが取得されているものとする。このパラメータは、ＰｎＰ問題を解く際に用いられる。

　識別訓練データ生成部３４は、対象オブジェクト５１を含む画像に基づく正例訓練データと、対象オブジェクト５１を含まない画像に基づく負例訓練データとを生成する。対象オブジェクト５１を含む画像は、撮影画像取得部３３により取得されてよい。

　識別学習部３５は、識別訓練データ生成部３４により生成された訓練データに基づいて、対象領域取得部２１に含まれる識別モデル２４を学習させる。

　形状モデル取得部３６は、撮影画像取得部３３により取得された対象オブジェクト５１についての複数の撮影画像のそれぞれについて局所的な特徴を示す複数の特徴ベクトルを抽出し、複数の撮影画像から抽出された互いに対応する複数の特徴ベクトルと撮影画像においてその特徴ベクトルが抽出された位置とからその特徴ベクトルが抽出された点の３次元位置を求め、その３次元位置に基づいて対象オブジェクト５１の３次元形状モデルを取得する。この方法は、いわゆるＳｆＭやVisual SLAMを実現するソフトウェアでも用いられる公知の方法であるので、詳細の説明は省略する。

　推定訓練データ生成部３７は、推定モデル２６を学習させるための訓練データを生成する。より具体的には、推定訓練データ生成部３７は、初期の訓練データとして、対象オブジェクト５１の３次元形状モデルから、レンダリングされた訓練画像と、キーポイントの位置を示す正解データとを含む訓練データを生成する。

　推定学習部３８は、推定訓練データ生成部３７により生成された訓練データにより、姿勢推定部２５に含まれる推定モデル２６を学習させる。

　信頼度取得部３９は、入力データが入力された際の機械学習モデルの出力に基づいて、その入力データに対する機械学習モデルの出力の信頼度を取得する。機械学習モデルの出力に基づいて信頼度を取得するとは、例えば、機械学習モデルである識別モデル２４の出力、より具体的にはその出力を受けた後段の処理の結果に基づいて信頼度を算出することであり、推定モデル２６が出力する位置画像に基づいて信頼度を算出することである。

　次に、姿勢の推定に関する処理について説明する。図６は、主に対象領域取得部２１および姿勢推定部２５の処理の一例を示すフロー図である。図６に示される処理は、定期的に繰り返し実行されてよい。

　はじめに、対象領域取得部２１に含まれる領域抽出部２２は、撮影部２０により撮影された入力画像を取得する（Ｓ１０１）。領域抽出部２２は、撮影部２０から直接的に入力画像を受信することにより入力画像を取得してもよいし、撮影部２０から受信され記憶部１２に格納された入力画像を取得してもよい。

　領域抽出部２２は、入力画像から、何らかの物体が写っている１または複数の候補領域５６を抽出する（Ｓ１０２）。領域抽出部２２は、予め学習されたＲＰＮ（Regional Proposal Network）を含んでよい。ＲＰＮは、対象オブジェクト５１が撮影された画像と関連しない訓練データによって学習されてよい。この処理によって、計算の無駄が低減され、環境に対する一定のロバストネスが確保される。

　ここで、領域抽出部２２は、さらに、抽出された候補領域５６の画像に対して、例えば、背景の除去処理（マスク処理）やサイズ調整などの加工処理を実行してよい。また加工された候補領域５６の画像が以降の処理に用いられてよい。この処理によって、背景や照明条件によるドメインギャップを縮小させ、少ない訓練データで識別モデル２４を学習させることが可能になる。

　対象領域取得部２１は、候補領域５６のそれぞれが対象オブジェクト５１の画像を含むか判定する（Ｓ１０３）。この処理は、特徴抽出部２３が候補領域５６の画像から特徴量を抽出する処理と、識別モデル２４がその特徴量から候補領域５６が対象オブジェクト５１を含むか否かを示す情報を出力する処理とを含む。

　特徴抽出部２３は、候補領域５６の画像からその画像に応じた特徴量を出力する。特徴抽出部２３は、学習済のＣＮＮ（Convolutional Neural Network）を含む。このＣＮＮは、画像の入力に応じて、当該画像に対応する特徴量を示す特徴量データ（入力特徴量データ）を出力する。特徴抽出部２３は、ＲＰＮにより抽出された候補領域５６の画像から特徴量を抽出してもよいし、例えばFaster R-CNNのように、ＲＰＮの処理において抽出された特徴量を取得してもよい。

　識別モデル２４は、ＳＶＭ（Support Vector Machine）などであり、一種の機械学習モデルである。識別モデル２４は、候補領域５６の画像に対応する特徴量を示す入力特徴量データの入力に応じて、候補領域５６に写るオブジェクトが識別モデル２４における正クラスに属するものである確率を示す識別スコアを出力する。識別モデル２４は、正例についての複数の正例訓練データと負例についての複数の負例訓練データとにより学習されている。正例訓練データは対象オブジェクト５１が撮影された画像を含む学習画像から生成され、負例訓練データは対象オブジェクト５１と異なるオブジェクトの画像であって、予め準備された画像から生成される。負例訓練データは、撮影部２０により撮影された、その撮影部２０の環境を撮影することにより生成されてもよい。

　本実施形態では、このＣＮＮを用いて、正規化処理が実行された画像に対応する特徴量を示す特徴量データの生成が行われる。なお、特徴抽出部２３は、画像の特徴を示す特徴量を算出する他の公知のアルゴリズムにより、画像の入力に応じて、当該画像に対応する特徴量を示す特徴量データを出力してもよい。

　対象領域取得部２１は、例えば識別スコアが閾値より大きい場合に、その候補領域５６が対象オブジェクト５１の画像を含むと判定する。

　候補領域５６のそれぞれが対象オブジェクト５１の画像を含むか判定されると、対象領域取得部２１はその判定結果に基づいて対象領域５５を決定する（Ｓ１０４）。より具体的には、対象領域取得部２１は、対象オブジェクト５１を含むと判定された候補領域５６に基づいて、対象オブジェクト５１の近傍の領域を含む矩形の領域を対象領域５５として取得する。対象領域取得部２１は、対象オブジェクト５１の近傍の領域を含む正方形の領域を対象領域５５として取得してよいし、単に候補領域５６を対象領域５５として取得してもよい。なお、対象領域取得部２１は、常にＳ１０２，Ｓ１０３の処理により対象領域５５を取得しなくてもよい。例えば、対象領域取得部２１は、対象領域５５を取得した後に取得された入力画像に対して、公知の時系列の追尾処理を行うことにより、対象領域５５を取得してもよい。

　姿勢推定部２５は、学習済の推定モデル２６に、対象領域５５の画像を入力する（Ｓ１０５）。ここで入力される対象領域５５の画像は、推定モデル２６の入力画像のサイズにあわせてサイズが調整（拡大または縮小）された画像であってよい。サイズを調整（正規化）することにより、推定モデル２６の学習の効率が向上する。なお、姿勢推定部２５は、対象領域５５の画像の背景をマスクし、その背景がマスクされた対象領域５５の画像を推定モデル２６に入力してよい。

　姿勢推定部２５に含まれるキーポイント決定部２７は、推定モデル２６の出力に基づいて、対象領域５５および入力画像におけるキーポイントの２次元位置を決定する（Ｓ１０６）。推定モデル２６の出力が位置画像である場合には、キーポイント決定部２７は位置画像の各点からキーポイントの位置の候補を算出し、その候補に基づいてキーポイントの位置を決定する。推定モデル２６の出力が対象領域５５におけるキーポイントの位置である場合には、その位置から入力画像におけるキーポイントの位置を算出してよい。なお、Ｓ１０５、Ｓ１０６の処理はキーポイントの種類ごとに行われる。

　姿勢推定部２５に含まれる姿勢算出部２８は、決定されたキーポイントの２次元位置に基づいて、対象オブジェクト５１の推定される姿勢を算出する（Ｓ１０７）。姿勢算出部２８は姿勢とともに対象オブジェクト５１の位置を算出してよい。姿勢および位置は、前述のＰＮＰ問題の解法により算出されてよい。

　図７は、検出された対象オブジェクト５１の姿勢を説明する図である。図７では、説明の容易のため、対象オブジェクト５１のローカル座標系を示すローカル座標軸５９により対象オブジェクト５１の姿勢を表している。ローカル座標軸５９の原点の位置が対象オブジェクト５１の位置を示し、ローカル座標軸５９の線の向きが姿勢を示している。

　ここで、信頼度取得部３９は、対象領域５５に対する推定モデル２６の出力について信頼度を算出する（Ｓ１０８）。そして、その信頼度があらかじめ定められた条件を満たす場合に、識別訓練データ生成部３４および推定訓練データ生成部３７は、その対象領域に基づいて、それぞれ識別モデル２４および推定モデル２６に対する追加の訓練データを生成する（Ｓ１０９）。Ｓ１０９の処理は、機械学習モデルの学習後（推論時）に、その機械学習モデルに入力されるデータに基づいて追加の訓練データを生成するものである。Ｓ１０８およびＳ１０９の処理の詳細については後述する。

　推定された対象オブジェクト５１の姿勢および位置は、様々に利用されてよい。例えば、コントローラによって入力される操作情報の代わりにゲームなどのアプリケーションソフトウェアに入力されてよい。そしてアプリケーションソフトウェアの実行コードを実行するプロセッサ１１は、その姿勢（および位置）に基づいて、画像のデータを生成し、表示部１８にその画像を出力させてよい。またプロセッサ１１は、情報処理装置１０または情報処理装置１０に接続される音声出力装置に、その姿勢（および位置）に基づく音を出力させてよい。またプロセッサ１１は、例えばロボットのようなＡＩエージェントにオブジェクトの位置姿勢を通知することにより、ＡＩエージェントの動作を制御し、例えば物体の把持などを行わせてもよい。

　次に、識別モデル２４および推定モデル２６の学習の概要について説明する。図８は、識別モデル２４および推定モデル２６の学習を概略的に説明するフロー図である。

　はじめに、識別訓練データ生成部３４は識別モデル２４の初期の訓練データを取得し、推定訓練データ生成部３７は、推定モデル２６の初期の訓練データを取得する（Ｓ２０１）。

　ステップＳ２０１の処理についてさらに詳細に説明する。図９は、初期の訓練データを生成する処理の一例を示すフロー図である。

　撮影画像取得部３３は、対象オブジェクト５１が撮影された複数の撮影画像を取得する（Ｓ３０１）。

　図１０は、対象オブジェクト５１の撮影を説明する図である。対象オブジェクト５１は、例えば手５３によって保持されており、撮影部２０により撮影される。本実施形態では、対象オブジェクト５１を様々な方向から撮影することが望ましい。そのため、撮影部２０は動画撮影のように定期的に画像を撮影しつつ、対象オブジェクト５１の撮影方向を変化させる。例えば手５３によって対象オブジェクト５１の姿勢を変化させることで対象オブジェクト５１の撮影方向を変化させてよい。またＡＲマーカー上に対象オブジェクト５１を配置し、撮影部２０を動かすことにより撮影方向を変化させてもよい。後述の処理で用いられる撮影画像の取得間隔は、動画の撮影間隔より広くてもよい。

　撮影画像が取得されると、撮影画像取得部３３は、それらの撮影画像から手５３の画像をマスクする（Ｓ３０２）。手５３の画像のマスクは公知の方法により行われてよい。例えば、撮影画像取得部３３は、撮影画像に含まれる肌の色の領域を検出することにより手５３の画像をマスクしてよい。

　そして形状モデル取得部３６は、複数の撮影画像から、対象オブジェクト５１の３次元形状モデルと、撮影画像のそれぞれにおける姿勢とを算出する（Ｓ３０３）。この処理は、いわゆるＳｆＭやVisual SLAMを実現するソフトウェアでも用いられる前述の公知の方法より行われてよい。形状モデル取得部３６は、この方法によるカメラの撮影方向の算出ロジックに基づいて対象オブジェクト５１の姿勢を算出してよい。

　対象オブジェクト５１の３次元形状モデルが算出されると、形状モデル取得部３６は、その３次元形状モデルの姿勢の推定に用いる複数のキーポイントの３次元位置を決定する（Ｓ３０４）。形状モデル取得部３６は、例えば、公知のFarthest Pointアルゴリズムにより複数のキーポイントの３次元位置を決定してよい。

　キーポイントの３次元位置が算出されると、推定訓練データ生成部３７は、推定モデル２６向けに、複数の訓練画像と、複数の位置画像とを含む訓練データを生成する（Ｓ３０５）。より具体的には、推定訓練データ生成部３７は、３次元形状モデルからレンダリングされた複数の訓練画像を生成し、その複数の訓練画像におけるキーポイントの位置を示す位置画像を生成する。複数の訓練画像は、互いに異なる複数の方向からみた対象オブジェクト５１のレンダリング画像であり、位置画像は訓練画像とキーポイントとの組み合わせごとに生成される。

　推定訓練データ生成部３７はレンダリングされた訓練画像にキーポイントの位置を仮想的に投影し、その投影されたキーポイントの位置と画像内の各点との相対位置に基づいて位置画像を生成する。推定モデル２６の学習に用いる訓練データは訓練画像と位置画像とを含む。

　初期の訓練データに含まれる訓練画像は、レンダリングされた画像である。これは、短時間で多様な撮影方向から撮影された撮影画像を取得することが難しい一方、３次元形状モデルを用いれば容易に多様な撮影方向からみた画像を生成できるからである。なお、初期の訓練データに実写の訓練画像が含まれてもよい。

　識別訓練データ生成部３４は、撮影画像取得部３３により取得された複数の撮影画像、より具体的には対象オブジェクト５１を含む画像から、正例訓練データを生成し、例えば記憶部１２に格納された対象オブジェクトを含まない画像から負例訓練データを取得する（Ｓ３０６）。正例訓練データおよび負例訓練データが、識別モデル２４の訓練データである。

　識別訓練データ生成部３４は、識別モデル２４に入力される画像に応じた加工、例えば対象オブジェクト５１を含む領域の切り出し、サイズの正規化、背景のマスク、特徴量の抽出をすることにより、撮影画像から正例訓練データを生成してよい。識別訓練データ生成部３４は、予め記憶部１２に格納される負例サンプル画像を特徴抽出部２３に入力し、出力される特徴量データを取得することにより複数の負例訓練データを生成する。特徴量は、識別モデル２４に含まれる特徴抽出部２３と同じ処理により抽出される。負例サンプル画像は、例えば、予め撮影部２０によって撮影された画像、Ｗｅｂから収集された画像、他の物体についての正例の画像であってよい。負例訓練データは予め生成され記憶部１２に格納されていてもよい。

　なお識別モデル２４はこれまでに説明したものには限られず、画像から直接的に対象オブジェクト５１が存在するか判定するものであってもよい。

　識別モデル２４および推定モデル２６の初期の訓練データが取得されると、識別学習部３５は識別モデル２４を識別モデル向けの初期の訓練データにより学習させ、推定学習部３８は推定モデル２６を識別モデル向けの初期の訓練データにより学習させる（Ｓ２０２）。識別モデル２４は、例えばＳＶＭであり、識別学習部３５はそのＳＶＭを正例訓練データおよび負例訓練データにより学習させてよい。

　識別モデル２４および推定モデル２６が学習されると、Ｓ２０３からＳ２０７において、情報処理システムは、それらのモデルを用いていわゆる推論の処理を実行しつつ、信頼度に応じて識別モデル２４および推定モデル２６のそれぞれについての追加の訓練データ（追加訓練データ）を取得する。

　Ｓ２０３においては、情報処理システムは、撮影された画像を入力画像として対象領域取得部２１に入力し、対象領域取得部２１および姿勢推定部２５は対象領域５５の抽出および対象領域５５に含まれる対象オブジェクト５１の姿勢の推定の処理を実行する。Ｓ２０３の処理は、図６のＳ１０１からＳ１０７までの処理に相当する。

　次に、信頼度取得部３９は、姿勢推定部２５に含まれる推定モデル２６の出力に基づいて、その出力の信頼度を算出する（Ｓ２０４）。この処理は図６のＳ１０８の処理に相当する。

　より具体的には、信頼度取得部３９は例えば以下の手順で信頼度を算出する。信頼度取得部３９は推定モデル２６が出力する位置画像から、それぞれ２つの点を含む複数のグループを選択する。信頼度取得部３９は、そのグループのそれぞれについて、グループに含まれる各点が示すキーポイントの方向に基づいて、キーポイントの候補位置を算出する。候補位置は、ある点からその点が示す方向に伸ばした直線と、もう一つの点からその点が示す方向に伸ばした直線との交点に相当する。グループのそれぞれについて信頼度が算出されると、信頼度取得部３９は、候補位置のばらつきを示す値を信頼度として算出する。信頼度取得部３９は、例えば候補位置の重心からの距離の平均値を信頼度としてとってもよいし、候補位置の任意の方向の標準偏差を信頼度として算出してもよい。

　信頼度取得部３９は、候補位置のばらつきを示す値以外から信頼度を算出してもよい。例えば、信頼度取得部３９は、例えば対象領域の画像のような入力画像が推定モデル２６に入力された際のその推定モデル２６の出力と、その入力画像が所定の加工処理により加工された加工画像が推定モデル２６に入力された際の出力との相違を示す情報に基づいて、信頼度を算出してもよい。

　より具体的には、はじめに、信頼度取得部３９は、対象領域の画像に所定の加工（Augmentation）を実行する。この加工は例えば明度の変更やノイズの付加のうちいずれかであってよい。次に信頼度取得部３９は、加工された画像を推定モデル２６に入力し、その出力である位置画像を取得する。そして信頼度取得部３９は、当初の対象領域の画像に対して出力された位置画像（当初の出力）と、加工された画像により出力された位置画像との違いを示す値を信頼度として算出する。この値は、当初の出力と加工された画像に対する出力との各点における値の違いの統計量であってもよいし、当初の出力により算出されたキーポイントの位置と加工された画像に対する出力により算出されたキーポイントの位置との距離であってもよい。また当初の対象領域の画像に対する出力の代わりに、対象領域の画像に所定の加工と異なる加工がされた画像を推定モデル２６に入力した際の出力が用いられてもよい。なお、ここで行われる加工（Augmentation）は、後述の推定訓練データ生成部３７による加工と手法が異なってよい。手法が異なることにより、追加訓練データにより学習された推定モデルに２６を用いて信頼度を算出する際に生じる信頼度の精度が抑制される。

　信頼度取得部３９は、候補位置のばらつきを示す値から算出される信頼度（の要素）と、当初の出力と加工された画像に対する出力との違いを示す値とを組み合わせて最終的な信頼度を出力してよい。信頼度取得部３９は例えば前者と後者とを重みづけ加算した値を信頼度として出力してよい。

　信頼度が算出されると、信頼度取得部３９は、算出された信頼度が訓練データを追加するための追加条件を満たすか判定する（Ｓ２０５）。追加条件は、例えば、信頼度として算出されたばらつきの値が閾値より小さいことであってよい。

　信頼度が追加条件を満たす場合には（Ｓ２０５のＹ）、識別訓練データ生成部３４および推定訓練データ生成部３７は、それぞれ識別モデル２４および推定モデル２６の訓練データに追加される追加訓練データを生成する（Ｓ２０６）。Ｓ２０５およびＳ２０６は図６のＳ１０９の処理に相当する。

　より具体的には、識別訓練データ生成部３４はその位置画像の元となった対象領域５５に相当する画像（例えば対応する候補領域５６の画像）を正例画像として決定し、その正例画像のデータを識別モデルの訓練データに追加する。識別訓練データ生成部３４は正例画像として決定された画像に、識別モデル２４に入力される画像に応じた加工、例えば特徴量の抽出をすることにより、撮影画像から正例訓練データを生成してよい。

　また推定訓練データ生成部３７は、その位置画像の元となった対象領域の画像に基づいて第１の追加画像、第２の追加画像のセットを生成し、そのセットを推定モデルの追加訓練データに追加する。

　より具体的には、推定訓練データ生成部３７は、対象領域の画像に第１の加工（Augmentation）を実行し、加工された画像を第１の追加画像として取得する。また推定訓練データ生成部３７は、対象領域の画像に第２の加工（Augmentation）を実行し、加工された画像を第２の追加画像として取得する。第１の加工および第２の加工は互いに異なり、それぞれ、例えば明度の変更やノイズの付加のうちいずれかが行われてよい。また、第１の加工および第２の加工のうち一方は、実質的な加工を行わないものであってもよい。第１の追加画像および第２の追加画像のセットを用いた推定モデルの学習の手法（Consistency loss）については後述する。

　なお、推定訓練データ生成部３７は、その位置画像の元となった対象領域の画像と、その画像について姿勢推定部２５により算出された姿勢を示す正解データとのセットを追加訓練データに追加してもよい。こちらについては初期の学習と同じ手法により推定モデル２６が学習されてよい。

　本実施形態では、学習済の機械学習モデルを用いて推論をする際の入力データの一部を訓練データに追加している。一方、通常は推論の際の入力データを訓練データに追加することはない。例えば入力データに対する出力が誤っている場合に、その入力データの追加により訓練データの質の低下を招く恐れがあるからである。本実施形態では、機械学習モデルの出力について信頼度を算出し、その信頼度を用いて訓練データに追加するか否かをフィルタリングすることにより、その追加されるデータの質を確保し、訓練データの生成の手間を減らしつつ機械学習モデルの精度を向上させることを可能にしている。

　ここで、本実施形態で算出される信頼度は、識別モデル２４および推定モデル２６の信頼度と考えることができる。識別モデル２４の出力の信頼度という観点では、識別モデル２４の後段にある推定モデル２６が出力する位置画像がキーポイントを正確に求められる状態であるかを示す信頼度を求めているといえる。このように後段の機械学習モデルを含む処理が適切に行えることを信頼度の指標とすることで、簡易かつ効果的に信頼度を算出することができる。また推定モデル２６の出力の信頼度という観点では、出力となる位置画像からキーポイントを求める後段の処理が適切に行えることを信頼度の指標としているといえる。

　追加訓練データが取得されると、再学習を開始する条件を満たさない限り（Ｓ２０７のＮ）、Ｓ２０３以降の処理が繰り返し実行される。再学習を開始する条件は、取得された追加訓練データの数が閾値に達することであってもよいし、いわゆる繰り返しの推定の処理の終了の操作が入力されることであってもよい。

　再学習を開始する条件が満たされると（Ｓ２０７のＹ）、識別学習部３５および推定学習部３８は、それぞれ識別モデル２４および推定モデル２６を再学習させる（Ｓ２０８）。

　ここで、再学習は、追加訓練データを含む訓練データを用いて機械学習モデルを学習させることを指している。学習の対象となる機械学習モデル（識別モデル２４および推定モデル２６）は、推論を実行している機械学習モデルである識別モデル２４および推定モデル２６と異なるインスタンスであってよいし、推論を実行している機械学習モデルと同一のインスタンスであってもよい。前者の場合には、学習が終了した後に推論に用いる識別モデル２４および推定モデル２６のインスタンスが切り替えられてよい。またインスタンスの切替の代わりに、推論に用いる識別モデル２４および推定モデル２６のインスタンスに対して新たに学習された機械学習モデルのパラメータがコピーされてもよい。

　識別モデル２４については、識別学習部３５は初期の訓練データに追加訓練データを追加し、その追加後の訓練データにより識別モデル２４を学習してよい。また識別モデル２４の学習に用いられる訓練データは、初期の訓練データおよび追加訓練データのすべてであってもよいし、それらの一部でああってもよい。識別モデル２４の学習に用いられる一部の訓練データは、例えばその数がサンプル総数の最大値以下になるように選択されたものであってもよいし、何らかの手法で品質が低いと判定されたサンプルが除外されたものであってもよい。

　一方、第１の追加画像および第２の追加画像についての追加訓練データを有する推定モデル２６の再学習の手法は異なる。図１１は、推定モデルの再学習の処理の一例を示すフロー図であり、再学習においては、図１１に示される処理が複数回繰り返し実行される。

　まず、推定学習部３８は、推定モデル２６向けの初期の訓練データにより、推定モデル２６を学習させる（Ｓ５０１）。この学習は、ステップＳ２０２における推定モデル２６の学習と同様の手法、より具体的には、推定学習部３８は、推定モデル２６が出力する位置画像と正解データとの相違（L1ロス）を教師信号として、推定モデル２６のパラメータを調整する。

　次に、推定学習部３８は、推定モデル２６向けの追加訓練データに含まれる未取得のセットのうち１つを取得する（Ｓ５０２）。推定学習部３８はそのセットに含まれる第１の追加画像を推定モデル２６に入力し、推定モデル２６の出力（第１の出力）を取得する（Ｓ５０３）。また推定学習部３８はそのセットに含まれる第２の追加画像を推定モデル２６に入力し、推定モデル２６の出力（第２の出力）を取得する（Ｓ５０４）。

　推定学習部３８は、第１の出力と第２の出力との相違（Consistency loss）を示す情報を算出し（Ｓ５０５）、その相違を示す情報に基づいて推定モデル２６のパラメータを調整する（Ｓ５０６）。相違を示す情報は、第１の出力および第２の出力の各点における値の違いの統計量（例えば平均）であってよい。

　ここで、追加訓練データについては、第１の出力と第２の出力との相違に応じた学習が行われるため、主にこの手法で学習すると、例えば入力に関わらず同じ位置画像を出力するように推定モデル２６のパラメータが収束する恐れがある。その事態を避けるため、初期の訓練データを含むすべての訓練データの数に対する追加訓練データの数の割合を所定の値（例えば２０％）以内に抑えることが望ましい。

　追加訓練データを用いて、同一の画像をベースとする２つの画像が一致するか否かで再学習させることにより、正解のラベルのない訓練データも用いて学習させることが可能になり、精度を向上させることができる。

　本実施形態では、対象領域取得部２１の処理により、推定モデル２６に入力する画像を、撮影された画像のうち対象オブジェクト５１が存在する領域の画像であって、対象オブジェクト５１が中央に存在する蓋然性が十分に高い画像に限定している。また姿勢推定部２５の推定モデル２６は３次元形状モデルにより生成された訓練データにより学習され、一方で、対象領域取得部２１の識別モデル２４は、対象オブジェクト５１が撮影された画像に基づいて学習されている。

　推定モデル２６に入力される画像を適切に限定することにより、推定モデル２６の出力の精度が向上し、推定される対象オブジェクト５１の姿勢の精度が向上する。さらに、識別モデル２４を、３次元形状モデルに基づく画像ではなく撮影画像に基づいて学習させることにより、対象領域５５をより正確に選択することが可能になり、ひいては推定モデル２６の精度を向上させることができる。

　本実施形態では、姿勢推定部２５の推定モデル２６を学習するための３次元形状モデルを生成するための撮影画像を、識別モデル２４を学習する際にも用いている。これにより、対象オブジェクト５１の撮影にかかる手間を低減し、推定モデル２６および識別モデル２４の学習にかかる時間を低減する。

　なお、本発明は上述の実施形態に限定されるものではない。

　例えば、識別モデル２４は、任意のカーネルのＳＶＭであってもよい。また、識別モデル２４は、Ｋ近傍法、ロジスティック回帰、アダブースト等のブースティング方法などの方法を用いた識別器であってもよい。また、識別モデル２４が、ニューラルネットワーク、ナイーブベイズ分類器、ランダムフォレスト、決定木などによって実装されてもよい。

　推定モデル２６の出力は、キーポイントの位置を示すヒートマップのような位置画像であってもよい。この場合、例えば、信頼度取得部３９は、推定モデル２６が出力する位置画像が有するピークの数を信頼度として求めてよい。このピークの数が閾値より小さい場合に、入力データが訓練データに追加されてよい。

　また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されず、必要に応じて改変されてよい。

Claims

　訓練データにより学習された機械学習モデルと、
　入力データが入力された際の前記機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力する信頼度出力手段と、
　前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成する生成手段と、
　前記新たな訓練データにより機械学習モデルを学習させる学習制御手段と、
　を含む情報処理システム。
　請求項１に記載の情報処理システムにおいて、
　前記機械学習モデルの出力に基づいて推定結果を出力する学習済の推定モデルを含み、
　前記信頼度出力手段は、前記推定モデルの出力に基づいて前記入力データに対する前記機械学習モデルの出力の信頼度を出力する、
　情報処理システム。
　請求項２に記載の情報処理システムにおいて、
　前記入力データは、対象オブジェクトが撮影された画像を含み、
　前記推定モデルは、前記機械学習モデルの出力に基づいて、前記対象オブジェクトの姿勢推定のためのキーポイントを示す画像を出力し、
　前記信頼度出力手段は、前記画像に基づいて前記信頼度を出力する、
　情報処理システム。
　請求項３に記載の情報処理システムにおいて、
　前記推定モデルは、各点がキーポイントとの位置関係を示す画像を出力し、
　前記信頼度出力手段は、複数のキーポイントの位置の候補であってそれぞれ前記推定モデルが出力した画像に含まれる互いに異なる点から生成されるキーポイントの位置の候補のばらつきに基づいて、前記信頼度を出力する、
　情報処理システム。
　請求項３または４に記載の情報処理システムにおいて、
　前記信頼度出力手段は、入力画像が前記推定モデルに入力された際の当該推定モデルの出力と、前記入力画像が所定の加工処理により加工された加工画像が前記推定モデルに入力された際の出力との相違を示す情報に基づいて、前記信頼度を出力する、
　情報処理システム。
　請求項３から５のいずれか１項に記載の情報処理システムにおいて、
　前記機械学習モデルは前記入力データが前記対象オブジェクトを含むか否かを示す情報を出力する、
　情報処理システム。
　請求項２から６のいずれかに記載の情報処理システムにおいて、
　前記推定モデルは推定訓練データにより学習され、
　前記生成手段は、前記信頼度が前記所定の条件を満たす場合に、前記入力データに基づいて新たな推定訓練データを生成し、
　前記学習制御手段は、前記新たな訓練データにより機械学習モデルを学習させる、
　情報処理システム。
　請求項１に記載の情報処理システムにおいて、
　前記入力データは、対象オブジェクトが撮影された画像を含み、
　前記機械学習モデルは、前記入力データに基づいて、対象オブジェクトの姿勢推定のためのキーポイントを示す画像を出力し、
　前記信頼度出力手段は、前記画像に基づいて前記信頼度を出力する、
　情報処理システム。
　請求項８に記載の情報処理システムにおいて、
　前記訓練データは３次元形状モデルからレンダリングされた複数の学習画像とそれぞれが前記学習画像に対する正解データである正解画像とを含む、
　情報処理システム。
　請求項９に記載の情報処理システムにおいて、
　前記生成手段は、前記入力データが第１の加工処理により加工された第１の追加画像と、前記入力データが前記第１の加工処理と異なる第２の加工処理により加工された第２の追加画像とを含む新たな訓練データを生成し、
　前記学習制御手段は、前記機械学習モデルに前記第１の追加画像を入力した際の出力と、前記機械学習モデルに前記第２の追加画像を追加した際の出力との違いに基づいて、機械学習モデルを学習させる、
　情報処理システム。
　訓練データにより学習された機械学習モデルに入力データが入力された際の当該機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力するステップと、
　前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成するステップと、
　前記新たな訓練データにより機械学習モデルを学習させるステップと、
　を含む情報処理方法。
　訓練データにより学習された機械学習モデルに入力データが入力された際の当該機械学習モデルの出力に基づいて、前記入力データに対する当該出力の信頼度を出力し、
　前記信頼度が所定の条件を満たす場合に、前記入力データに基づいて新たな訓練データを生成し、
　前記新たな訓練データにより機械学習モデルを学習させる、
　処理をコンピュータに実行させるためのプログラム。