WO2023195099A1

WO2023195099A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2023195099A1
Application number: PCT/JP2022/017177
Authority: WO
Inventors: 祥悟佐藤; 徹悟稲田; 博之勢川
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2023-10-12

Abstract

キーポイントを用いた姿勢認識の精度を向上させる　情報処理システムは、物体の３次元モデルに基づいて当該物体の姿勢を認識するための複数のキーポイントを決定し、前記複数のキーポイントのうち少なくとも一部に対して１または複数の候補キーポイントを決定し、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する機械学習モデルに撮影された画像を入力することにより出力される情報であって、キーポイントおよび前記候補キーポイントの位置を示す情報から、キーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する。

Description

情報処理装置、情報処理方法及びプログラム

　本発明は、情報処理装置、情報処理方法及びプログラムに関する。

　撮影された画像から物体のキーポイントの位置を推定し、その推定されたキーポイントからその物体の姿勢を推定する手法がある。この手法では、予め物体の３Ｄモデルにおけるキーポイントの３次元位置を決定しておき、その３次元位置と画像内の推定されたキーポイントの位置とを用いて所定の処理を行うことにより姿勢が推定される。物体の３次元モデルにおけるキーポイントを決定する手法として、例えばFarthest Point 法が知られている。

　Sida Peng et alは、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)において、論文PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationを発表している。この論文では、３Ｄモデルから生成される入力画像と、正解の出力画像とを含む訓練データにより機械学習モデルを学習させ、さらにその機械学習モデルに撮影された画像が入力された際の出力に基づいて姿勢推定に用いるキーポイントの画像上の位置を算出することが開示されている。

　Farthest Point 法のような既知の手法で、３Ｄモデルからキーポイントを決定した場合、学習済の機械学習モデルを用いて物体が撮影された画像からキーポイントの位置を認識することが難しい場合があった。例えば実際の物体との誤差がある３Ｄモデルの端部がキーポイントとして選択された場合や、凹部の底がキーポイントとして選択された場合には、撮影された画像から端部を正確に認識することが難しい。そのような場合には、キーポイントの推定の精度が低下し、姿勢の推定の精度が低下する恐れがある。

　本発明は上記実情に鑑みてなされたものであって、その目的は、キーポイントを用いた姿勢認識の精度を向上させる技術を提供することにある。

　上記課題を解決するために、本発明に係る情報処理装置は、オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するセット決定手段と、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定する候補決定手段と、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定する信頼度決定手段と、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する交換手段と、を含む。

　本発明の一態様では、撮影された画像が入力された前記機械学習モデルは、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置をそれぞれ示す複数の画像を出力してよい。

　本発明の一態様では、撮影された画像が入力された前記機械学習モデルが出力する複数の画像のそれぞれは、各点が、前記セットに含まれるキーポイントおよび前記候補キーポイントのうちいずれかとの位置関係を示し、
　前記信頼度決定手段は、前記出力された複数の画像のいずれかについて、前記いずれかの画像に対応する複数のキーポイントおよび候補キーポイントのうちいずれかの位置の候補であって、前記いずれかの画像に含まれるそれぞれ互いに異なる点から求められる複数の位置の候補のばらつきに基づいて、複数のキーポイントおよび候補キーポイントのうち前記いずれかの信頼度を決定してよい。

　本発明の一態様では、情報処理装置は、撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、前記信頼度決定手段は、前記決定された姿勢に基づいて再投影された前記キーポイントおよび前記候補キーポイントの位置と、前記出力された情報が示す前記キーポイントおよび前記候補キーポイントの位置とに基づいて、前記キーポイントおよび前記候補キーポイントの信頼度を決定してよい。

　本発明の一態様では、情報処理装置は、撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、前記信頼度決定手段は、前記決定された姿勢と、前記撮影された画像における前記オブジェクトの姿勢の正解データとに基づいて、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての推定された信頼度を決定してよい。

　また、本発明に係る情報処理方法は、オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するステップと、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定するステップと、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定するステップと、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換するステップと、を含む。

　また、本発明に係るプログラムは、オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定し、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定し、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する、処理をコンピュータに実行させる。

　本発明によれば、キーポイントを用いた姿勢認識の精度を向上させることができる。

本発明の一実施形態に係る情報処理システムの構成の一例を示す図である。本発明の一実施形態に係る情報処理システムで実装される機能の一例を示す機能ブロック図である。情報処理システムの処理を概略的に示すフロー図である。オブジェクトを撮影し３次元モデルを生成する処理の一例を示すフロー図である。オブジェクトの撮影を説明する図である。回転軸を検出する処理の一例を示すフロー図である。回転軸および追加撮影の指示の一例を示す図である。キーポイントの決定および推定モデルの学習の処理の一例を示すフロー図である。オブジェクトから生成されるプライマリおよびサブキーポイントを説明する図である。訓練データを生成し推定モデルを学習させる処理の一例を示すフロー図である。正解データの一例を示す図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。本実施形態では、オブジェクトが撮影された画像を入力し、その姿勢を推定する情報処理システムに発明を適用した場合について説明する。

　この情報処理システムは、オブジェクトが撮影された画像からそのオブジェクトの推定される姿勢を示す情報を出力する機械学習モデルを含んでいる。また情報処理システムはその機械学習モデルの学習を短時間で完了するように構成されている。所要時間は、例えば、オブジェクトを把持して回転させるのに数十秒、機械学習に数分程度が想定されている。

　図１は、本発明の一実施形態にかかる情報処理システムの構成の一例を示す図である。本実施形態にかかる情報処理システムは、情報処理装置１０を含む。情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、情報処理装置１０は、例えば、プロセッサ１１、記憶部１２、通信部１４、操作部１６、表示部１８、撮影部２０を含んでいる。情報処理システムは１台の情報処理装置１０により構成されてもよいし、情報処理装置１０を含む複数の装置により構成されてもよい。

　プロセッサ１１は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

　記憶部１２は、ＲＯＭやＲＡＭ等の記憶素子やソリッドステートドライブのような外部記憶装置のうち少なくとも一部からなる。記憶部１２には、プロセッサ１１によって実行されるプログラムなどが記憶される。

　通信部１４は、例えばネットワークインタフェースカードのような、有線通信又は無線通信用の通信インタフェースであり、インターネット等のコンピュータネットワークを介して、他のコンピュータや端末との間でデータを授受する。

　操作部１６は、例えば、キーボード、マウス、タッチパネル、ゲームコンソールのコントローラ等の入力デバイスであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１１に出力する。

　表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１１の指示に従って各種の画像を表示する。表示部１８は、外部の表示デバイスに対して映像信号を出力するデバイスであってもよい。

　撮影部２０は、デジタルカメラ等の撮影デバイスである。本実施形態にかかる撮影部２０は、例えば動画像の撮影が可能なカメラである。撮影部２０は、可視のＲＧＢ画像を取得可能なカメラであってよい。撮影部２０は、可視のＲＧＢ画像と、そのＲＧＢ画像と同期した深度情報とを取得可能なカメラであってもよい。撮影部２０は情報処理装置１０の外部にあってもよく、この場合は情報処理装置１０と撮影部２０とが、通信部１４または後述の入出力部を介して接続されてよい。

　なお、情報処理装置１０は、マイクやスピーカなどといった音声入出力デバイスを含んでいてもよい。また、情報処理装置１０は、例えば、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、外部機器とデータの入出力をするための入出力部（ＵＳＢ（Universal Serial Bus）ポート）を含んでいてもよい。

　図２は、本発明の一実施形態に係る情報処理システムで実装される機能の一例を示す機能ブロック図である。図２に示すように、情報処理システムは、機能的に、姿勢推定部２５、撮影画像取得部３１、形状モデル取得部３２、対称検出部３３、学習制御部３４を含む。姿勢推定部２５は、機能的に、推定モデル２６、キーポイント決定部２７、および姿勢決定部２８を含む。学習制御部３４は、機能的に、初期生成部３５、交換候補決定部３６、推定学習部３７、信頼度決定部３８、交換部３９を含む。推定モデル２６は、機械学習モデルの一種である。

　これらの機能は、主にプロセッサ１１及び記憶部１２により実装される。より具体的には、これらの機能は、コンピュータである情報処理装置１０にインストールされた、以上の機能に対応する実行命令を含むプログラムをプロセッサ１１で実行することにより実装されてよい。また、このプログラムは、例えば、光学的ディスク、磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置１０に供給されてもよい。

　なお、本実施形態にかかる情報処理システムに、必ずしも図２に示す機能のすべてが実装されていなくてもよく、また、図２に示す機能以外の機能が実装されていてもよい。

　姿勢推定部２５は、推定モデル２６に入力画像が入力された際に出力される情報に基づいて、対象オブジェクト５１の姿勢を推定する。入力画像は、撮影部２０により撮影されたオブジェクトの画像であり、撮影画像取得部３１により取得される。推定モデル２６は、機械学習モデルであり、訓練データにより学習され、学習済の推定モデル２６は、入力データが入力されると、推定結果としてデータを出力する。

　学習済の推定モデル２６には、対象となるオブジェクトが撮影された画像の情報が入力され、推定モデル２６はそのオブジェクトの姿勢推定のためのキーポイントの位置を示す情報を出力する。推定モデル２６は、撮影された画像が入力され、セットに含まれるプライマリキーポイントの位置を示す画像と、サブキーポイントの位置を示す画像とを出力する。プライマリキーポイントおよびサブキーポイントについては後述する。

　推定モデル２６の訓練データは、対象となるオブジェクトの３次元形状モデルによりレンダリングされた複数の学習画像と、学習画像におけるオブジェクトのキーポイントの位置を示す正解データとを含む。キーポイントは、オブジェクト内にある仮想的な点であって、姿勢の算出に用いる点である。キーポイントの位置を示すデータは、各点がその点とキーポイントとの位置関係（例えば相対方向）を示す位置画像であってもよいし、各点がキーポイントが存在する確率を示すヒートマップである位置画像であってもよい。推定モデル２６の学習の詳細については後述する。

　入力画像は、撮影部２０により撮影されたオブジェクトの画像が加工された画像であってもよい。例えば対象となるオブジェクトを除く領域がマスクされた画像であってもよいし、画像におけるオブジェクトのサイズが所定の大きさになるように拡大または縮小された画像であってもよい。

　キーポイント決定部２７は、推定モデル２６の出力に基づいて、入力画像におけるキーポイントの２次元位置を決定する。より具体的には、例えば、キーポイント決定部２７は、推定モデル２６から出力される位置画像に基づいて、入力画像におけるキーポイントの２次元位置の候補を決定する。キーポイント決定部２７は、例えば、位置画像のうちの任意の２点の組み合わせのそれぞれからキーポイントの候補点を算出し、複数の候補点に対して位置画像の各点が示す方向と合致しているかを示すスコアを生成する。キーポイント決定部２７はそのスコアが最も大きい候補点をキーポイントの位置と推定してよい。またキーポイント決定部２７は、キーポイントごとに上記の処理を繰り返す。

　姿勢決定部２８は、入力画像におけるキーポイントの２次元位置を示す情報と対象オブジェクト５１の３次元形状モデルにおけるキーポイントの３次元位置を示す情報とに基づいて、対象オブジェクト５１の姿勢を推定し、推定された姿勢を示す姿勢データを出力する。対象オブジェクト５１の姿勢は、公知のアルゴリズムによって推定される。例えば、姿勢推定についてのPerspective-n-Point（ＰＮＰ）問題の解法（例えばＥＰｎＰ）により推定されてよい。また、姿勢決定部２８は対象オブジェクト５１の姿勢だけでなく入力画像における対象オブジェクト５１の位置も推定し、姿勢データにその位置を示す情報が含まれてもよい。

　推定モデル２６、キーポイント決定部２７、姿勢決定部２８の詳細は、PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationの論文に記載されたものであってよい。

　撮影画像取得部３１は撮影部２０により対象となるオブジェクトが撮影された撮影画像を取得する。撮影部２０は、予めキャリブレーションによってカメラ内部パラメータが取得されているものとする。このパラメータは、ＰｎＰ問題を解く際に用いられる。

　形状モデル取得部３２は、撮影画像取得部３１により取得された、オブジェクトについての複数の撮影画像から、オブジェクトの３次元モデルを生成し取得する。より具体的には、形状モデル取得部３２は、複数の撮影画像のそれぞれについて局所的な特徴を示す複数の特徴ベクトルを抽出し、複数の撮影画像から抽出された互いに対応する複数の特徴ベクトルと撮影画像においてその特徴ベクトルが抽出された位置とからその特徴ベクトルが抽出された点の３次元位置を求める。そして、形状モデル取得部３２はその３次元位置に基づいて対象オブジェクト５１の３次元形状モデルを取得する。この方法は、いわゆるＳｆＭやVisual SLAMを実現するソフトウェアでも用いられる公知の方法であるので、詳細の説明は省略する。

　対称検出部３３は、３次元モデルから、オブジェクトの対称性を検出する。より具体的には、対称検出部３３は、３次元モデルからオブジェクトの鏡像対称または回転対称を検出する。

　学習制御部３４は、３次元モデルに基づいて、対象となるオブジェクトのキーポイントを決定するとともに推定モデル２６を学習させる。

　初期生成部３５は、３次元モデルに基づいて、複数のプライマリキーポイントの初期のセットを生成する。初期生成部３５は、例えば公知のFarthest Point アルゴリズムにより複数のキーポイント（プライマリキーポイント）のセットを生成してよい。また、初期生成部３５は、３次元モデルに基づいて、キーポイントと交換される候補となりうる複数の代替キーポイント（サブキーポイント）を生成する。初期生成部３５は、例えば公知のFarthest Point アルゴリズムにより複数のサブキーポイントを生成してよい。本実施形態ではプライマリキーポイントの数Ｎは８であるが、４以上の整数であればよい。サブキーポイントの数Ｍは２０から５０であるが、サブキーポイントの数Ｍはプライマリキーポイントの数Ｎより大きい整数であればよい。

　交換候補決定部３６は、セットに含まれる複数のプライマリキーポイントのうち少なくとも一部（対象キーポイント）と交換される候補である１または複数のサブキーポイント（交換候補）を決定する。交換候補決定部３６は、複数のサブキーポイントのうち、対象キーポイントの近傍にあるＮ個（Ｎは１以上Ｍ未満の整数）のサブキーポイントを交換候補として決定してよい。近傍は、複数のサブキーポイントと対象キーポイントとの距離が１～Ｎ番目に近いことであってよい。また対象キーポイントの数は、１以上プライマリキーポイントの数以下であってよい。以下では、一度の処理において、対象キーポイントの数が１である例について説明する。

　推定学習部３７は、推定モデル２６の学習に用いる訓練データを生成し、その訓練データにより推定モデル２６を学習させる。訓練データは、対象となるオブジェクトの３次元形状モデルによりレンダリングされた複数の学習画像と、学習画像におけるオブジェクトのキーポイントの位置を示す正解データとを含む。推定学習部３７による正解データの生成の対象となるキーポイントは、少なくともプライマリキーポイントのセットと交換候補となるサブキーポイントとを含む。推定学習部３７は、初期のセットに含まれる複数のプライマリキーポイントとすべてのサブキーポイントとについて、正解データを生成してよい。

　推定学習部３７は、より具体的には、レンダリングされたオブジェクトの姿勢に基づいて学習画像におけるプライマリキーポイントおよびサブキーポイントの位置を決定し、プライマリキーポイントおよびサブキーポイントのそれぞれについて、その位置に応じた正解の位置画像を生成してよい。なお、訓練データは、オブジェクトが撮影された学習画像と、いわゆるＳｆＭやVisual SLAMにより推定される学習画像内のオブジェクトの姿勢から生成される位置画像とを含んでよい。

　信頼度決定部３８は、学習済の推定モデルに撮影された画像を入力することにより出力される情報であって、プライマリキーポイントと交換候補となるサブキーポイントとの位置を示す情報から、プライマリキーポイントおよび交換候補となるサブキーポイントのそれぞれについての信頼度を決定する。

　交換部３９は、信頼度に基づいて、対象キーポイントを、交換候補となるサブキーポイントのうち少なくとも一部と交換する。なお交換部３９は、対象キーポイントの信頼度がサブキーポイントより高い場合には交換しなくてよい。なお、プライマリキーポイントのセットは、交換部３９による交換がされた後に、推定モデル２６の出力に基づく姿勢推定に用いられる。対象キーポイントが複数の場合は、交換部３９は、対象キーポイントのそれぞれを、交換候補となるサブキーポイントのうち信頼度に応じた１つのサブキーポイントと交換する。

　以下では、情報処理システムの処理について説明する。図３は、情報処理システムの処理を概略的に示すフロー図である。

　はじめに情報処理システムは、対象となるオブジェクトが撮影された画像に基づいて、そのオブジェクトの３次元形状モデルを生成する（Ｓ１０１）。そして情報処理システムに含まれる学習制御部３４は、３次元形状モデルに基づいてキーポイントの３次元位置を決定するとともに、姿勢推定のための推定モデル２６を学習させる（Ｓ１０２）。ここではキーポイントはプライマリキーポイントを指し、Ｓ１０３からＳ１０５においても同様である。

　推定モデル２６が学習されると、姿勢推定部２５はオブジェクトが撮影された入力画像を学習済の推定モデル２６に入力し（Ｓ１０３）、その推定モデル２６が出力するデータを取得する。そして、その推定モデル２６の出力に基づいて、画像中のキーポイントの２次元位置を決定する（Ｓ１０４）。

　より具体的には、推定モデル２６の出力が、各点がキーポイントとの相対方向を示す位置画像である場合には、姿勢推定部２５に含まれるキーポイント決定部２７は、位置画像の各点からキーポイントの位置の候補を算出し、その候補に基づいてキーポイントの位置を決定する。推定モデル２６の出力がヒートマップの位置画像である場合には、キーポイント決定部２７は公知の方法により最も確率の高い点の位置をキーポイントの位置として決定してよい。

　姿勢推定部２５は、決定されたキーポイントの２次元位置と、３次元形状モデルにおけるそのキーポイントの３次元位置とに基づいて、オブジェクトの姿勢を推定する（Ｓ１０５）。図３ではＳ１０３からＳ１０５の処理が１回行われる記載となっているが、実際には、利用者からの指示があるまでＳ１０３からＳ１０５の処理が繰り返し実行されてよい。

　図４は、対象となるオブジェクトを撮影し３次元モデルを生成する処理の一例を示すフロー図であり、Ｓ１０１の処理をより詳細に記載した図である。

　はじめに撮影画像取得部３１は、対象となるオブジェクトが撮影された複数の撮影画像を取得する（Ｓ２０１）。

　図５は、対象となるオブジェクトの撮影を説明する図である。図５に示される対象オブジェクト５１は、例えば手５３によって保持されており、撮影部２０により撮影される。本実施形態では、対象オブジェクト５１を様々な方向から撮影することが望ましい。そのため、撮影部２０は動画撮影のように定期的に画像を撮影しつつ、対象オブジェクト５１の撮影方向を変化させる。例えば手５３によって対象オブジェクト５１の姿勢を変化させることで対象オブジェクト５１の撮影方向を変化させてよい。またＡＲマーカー上に対象オブジェクト５１を配置し、撮影部２０を動かすことにより撮影方向を変化させてもよい。後述の処理で用いられる撮影画像の取得間隔は、動画の撮影間隔より広くてもよい。撮影画像取得部３１は、それらの撮影画像から公知の方法（例えば肌の色の検出）により、手５３の画像をマスクしてもよい。

　次に、形状モデル取得部３２は、取得された複数の撮影画像から、オブジェクトの３次元形状モデルを生成する（Ｓ２０２）。３次元形状モデルの生成方法の詳細については以前に説明されたものと同じでよい。

　３次元形状モデルが生成されると、対称検出部３３は、オブジェクトの対称性を検出する（Ｓ２０３）。ここでは、対称検出部３３は、オブジェクトの対称性として、回転対象であるか否か、および回転軸を検出してよいし、オブジェクトが鏡像対象であるか否かおよび対称面を検出してもよい。

　オブジェクトの対称性の検出についてさらに説明する。図６は、回転軸を検出する処理の一例を示すフロー図である。

　はじめに対称検出部３３は、オブジェクトのモデル座標系の中心を原点とする、鉛直上向きの軸を第１の軸（ｙ軸）として設定する（Ｓ２２１）。次にｙ軸に垂直な平面ＰＬ内にある、３次元形状モデルの複数の頂点を取得する（Ｓ２２２）。

　図７は、オブジェクトと軸との関係の一例を示す図である。平面ＰＬは例えば原点を通るｘｚ平面である。回転方向表示Ｒについては後述する。

　対称検出部３３は、平面ＰＬ内に原点を通り互いに異なる複数の軸を設定し、その複数の軸のそれぞれについて鏡像対象性を示すスコアを生成する（Ｓ２２３）。スコアは、３次元形状モデルの、その軸について１８０度回転した点と、その点に最も近い頂点との距離の和である。

　スコアが算出されると、対称検出部３３は、複数の軸のそれぞれについて算出されたスコアに基づいて、スコアを最小とする軸を第２の軸（例えばｘ軸）として決定する（Ｓ２２５）。なお、第１および第２の軸が決定されると、第３の軸は必然的に求まる。第１の軸および第２の軸は回転対称軸である可能性がある。

　対称検出部３３は、第１の軸、第２の軸のうちから回転対称軸をオブジェクトの対称性として決定する（Ｓ２２７）。対称検出部３３は、軸にそった座標を細かく分割し、分割された範囲内にある頂点のそれぞれと軸の原点との距離のばらつきが最も小さい軸を対称軸として決定してよい。なお、対称検出部３３が検出する対称軸はあくまで回転対称軸の候補であり、厳密な回転対称でなくてもよい。

　なお、対称検出部３３は、回転対称軸の代わりに鏡像対称面を決定してもよい。また、対称検出部３３は、対称軸をユーザに入力させてもよい。

　Ｓ２０３においてオブジェクトの対称性が検出されると、形状モデル取得部３２は、回転方向の撮影が不足しているか判定する（Ｓ２０５）。撮影方向の判定の際には、３次元モデルの作成の際に判定された画像の撮影方向と、となりの画像の撮影方向との差の対象軸にそった回転方向の成分が閾値以内か否かにより判定してよい。回転方向の撮影が不足していないと判定された場合には（Ｓ２０５のＮ）、図４の処理は終了する。

　一方、回転方向の撮影が不足していると判定された場合には（Ｓ２０５のＹ）、形状モデル取得部３２は、追加撮影の指示を出力する（Ｓ２０６）。追加撮影の指示は、オブジェクトのレンダリング画像および回転方向表示Ｒを含む画像を表示させることにより行ってよい。また撮影画像取得部３１は、追加の撮影画像を取得し、Ｓ２０２以降の処理を繰り返す。

　図４に示される処理により、オブジェクトの３次元形状モデルが取得される。またＳ２０３～２０７の処理により、対象性のあるオブジェクトについても、一定の精度をもつ３次元形状モデルを取得することが可能になる。

　図８は、プライマリおよびサブキーポイントの決定および推定モデル２６の学習の処理の一例を示すフロー図である。図８は、図３におけるＳ１０２の処理をより詳細に説明する図である。

　はじめに初期生成部３５は、初期のプライマリキーポイントのセットおよび複数の代替キーポイント（サブキーポイント）を生成する（Ｓ３０１）。より具体的には、初期生成部３５は、オブジェクトの３次元形状モデル（より具体的には３次元形状モデルに含まれる頂点の情報）から、初期のキーポイントおよび複数の代替キーポイントの３次元位置を、例えば公知のFarthest Point アルゴリズムにより生成してよい。

　図９は、オブジェクトから生成されるプライマリおよびサブキーポイントを説明する図である。図９では説明の容易のため、プライマリキーポイントＫ１～Ｋ４の数は実際より少ない。また図３には、プライマリキーポイントＫ４の近傍のサブキーポイントＳ１～Ｓ３のみ記載されている。

　プライマリおよびサブキーポイントが生成されると、推定学習部３７は、推定モデル２６の訓練データを生成する（Ｓ３０２）。訓練データは、３次元形状モデルに基づいてレンダリングされた訓練画像と、訓練画像におけるプライマリおよびサブキーポイントのそれぞれの位置を示す正解データとを含む。

　図１０は、訓練データを生成する処理の一例を示すフロー図である。図１０はＳ３０２の処理をより詳細に説明する図である。はじめに推定学習部３７は、オブジェクトの３次元形状モデルのデータを取得する（Ｓ３２１）。そして、推定学習部３７はレンダリングのための複数の視点を取得する（Ｓ３２２）。より厳密には、推定学習部３７はレンダリングのための複数のカメラ視点と、カメラ視点に応じた撮影方向とを取得する。複数のカメラ視点は３次元形状モデルの原点からの距離が一定となる位置に設けられてよく、撮影方向はカメラ視点から３次元形状モデルの原点に向かう方向である。

　さらに、対称性として対称軸が設定されている場合には、推定学習部３７は、対称軸にそって１８０度回転する方向にカメラ視点を追加する。回転方向へのカメラ視点の追加により、間違いやすい角度について集中的に学習をすることができ、対称性により見た目が類似することに起因する姿勢推定の精度の低下を抑えることができる。

　視点が取得されると、推定学習部３７は３次元形状モデルに基づいて、視点のそれぞれについてオブジェクトの画像をレンダリングする（Ｓ３２５）。画像は公知の手法によりレンダリングされてよい。

　画像がレンダリングされると、推定学習部３７は変調フィルタを用いてレンダリングされた画像を変換し、変換された画像を訓練画像として取得する（Ｓ３２６）。変調フィルタは、撮影された画像の色が実物の色と異なることに起因する推論性能の低下を防ぐために、レンダリングされた画像の各ピクセルの明るさを意図的に変化させるものである。推定学習部３７はレンダリングされた画像の各ピクセルの要素の値と、変調フィルタの対応するピクセルの値との積を算出することにより、レンダリングされた画像を変換する。変調フィルタは、レンダリングした訓練画像に対するデータ拡張手法のうちの１つであり、推定学習部３７はＳ３２６において他のデータ拡張手法を適用してもよい。例えば、推定学習部３７は、レンダリングされた画像に対して、画像の輝度、彩度、色相のうち少なくとも一部に対する擾乱を与えたり、画像の一部を切り抜いて元と同じサイズにリサイズする、といった一般的なデータ拡張を変調フィルタによる変換と合わせて行ってよい。

　変調フィルタは以下の方法により生成される。はじめに、推定学習部３７はレンダリングされた画像の解像度（例えば９６×９６）より低い解像度（例えば８×８）の元画像について、それぞれのピクセルの値が０．５～１．５のうちいずれかの値であってランダム性のある値となるように設定する。なおピクセルの値の平均値が１．０となるように各ピクセルの値が設定される。

　次に推定学習部３７は、元画像のサイズをレンダリングされた画像の解像度のサイズに拡大する。推定学習部３７は拡大の際には各ピクセルの値を線形補間により決定してよい。サイズが拡大されると、推定学習部３７はさらに３×３のガウシアンフィルタを複数回（例えば３回）適用し、各ピクセルの値の空間的な変化をより緩やかにする。

　これにより訓練データに含まれる画像の明るさにばらつきが生じ、推定モデル２６が明るさについて過剰に学習されることを防ぎ、推定モデル２６が実写画像を処理する際の精度の低下を抑えることができる。なお、推定学習部３７はレンダリングされた画像のうち一部のみを変換し、レンダリングされた画像のうち一部をそのまま訓練画像にしてもよい。一部のみの変換は、より高い効果を得ることができる。また画像そのものを変換する代わりに、３次元形状モデルのテクスチャマップを変換してもよい。

　Ｓ３２６の処理がされると、推定学習部３７は、視点付きのオブジェクトの撮影画像を訓練画像に追加する（Ｓ３２７）。この撮影画像は、３次元形状モデルの生成に用いられた撮影画像であってよい。撮影画像のカメラ視点は３次元形状モデルの生成の際に取得されたカメラ視点であってよい。

　訓練画像が整備されると、推定学習部３７は、訓練画像のそれぞれについて、プライマリおよびサブキーポイントの３次元位置と、訓練画像の視点とに基づいて、訓練画像におけるキーポイントの位置を示す正解データを生成する（Ｓ３２８）。推定学習部３７は、訓練画像ごとに、プライマリおよびサブキーポイントのそれぞれに対して正解データを生成する。

　図１１は、正解データの一例を模式的に示す図である。正解データは、訓練画像におけるオブジェクトのキーポイントの２次元位置を示す情報であり、各点がその点とキーポイントとの位置関係（例えば方向）を示す位置画像であってよい。

　位置画像は、キーポイントの種類ごとに生成されてよい。位置画像は、各点におけるその点とキーポイントとの相対的な方向を示す。図１１に示される位置画像では、各点の値に応じたパターンが記載され、各点の値は、その点の座標とキーポイントの座標との方向を示している。図１１はあくまで模式的な図であり、各点の実際の値は連続的に変化する。図１１では明示されていないが、位置画像は、各点におけるその点を基準としたキーポイントの相対的な方向を示すVector Field画像である。

　図１０に示す処理により、訓練画像と正解データとを含む訓練データが生成される。

　訓練データが生成されると、推定学習部３７は、訓練データによりプライマリおよびサブキーポイントの推定モデル２６を学習させる（Ｓ３０３）。

　推定モデル２６の学習においては、はじめに推定学習部３７は、プライマリキーポイントについての訓練データにより、推定モデル２６のうちプライマリキーポイントを出力するニューラルネットワークを学習させる。ニューラルネットワークは、論文PVNetに記載されたものであってよい。

　次に学習済のニューラルネットワークに含まれる複数の層のうち前段のいくつかの層に接続されるサブキーポイント用のネットワークを追加し、前段の層についてはパラメータを固定して、サブキーポイントについての訓練データによりニューラルネットワークを学習させる。このようにサブキーポイントについての学習の際にプライマリキーポイントにより学習されたパラメータを用いることにより、学習に要する時間を短縮することができる。

　推定モデル２６が学習されると、交換候補決定部３６は、未選択かつ初期のプライマリキーポイントのうち１つを対象キーポイントとして選択し、選択されたプライマリキーポイントの近傍にあるＮ個のサブキーポイントを交換候補として選択する（Ｓ３０４）。なお、交換候補決定部３６は、近傍のサブキーポイントとして、対象キーポイントとの距離が１からＮ番目に小さいサブキーポイントを選択してよい。

　信頼度決定部３８は、信頼度算出用の撮影画像を推定モデル２６に入力された際にその推定モデル２６から出力される、プライマリキーポイントおよび交換候補の位置を示す情報を取得する（Ｓ３０５）。なお、推定モデル２６への撮影画像の入力は、このステップで行われてもよいし、Ｓ３０４の前に行われてもよい。信頼度算出用の撮影画像は、３次元形状モデルの生成の際に利用された画像の一部であってもよい。

　信頼度決定部３８は、その取得された情報に基づいて、対象キーポイントおよび交換候補の位置の信頼度を算出する（Ｓ３０６）。取得された情報がプライマリキーポイントおよび交換候補のそれぞれについてのVector Field画像である場合には、信頼度決定部３８は、例えば対象キーポイントおよび交換候補のそれぞれについて、以下の方法で信頼度を算出してよい。

　信頼度決定部３８は推定モデル２６が出力するVector Field画像から、それぞれ２つの点を含む複数のグループを選択する。信頼度決定部３８は、そのグループのそれぞれについて、グループに含まれる各点が示すキーポイントの方向に基づいて、キーポイントの候補位置を算出する。候補位置は、ある点からその点が示す方向に伸ばした直線と、もう一つの点からその点が示す方向に伸ばした直線との交点に相当する。グループのそれぞれについて信頼度が算出されると、信頼度決定部３８は、候補位置のばらつきを示す値を信頼度として算出する。信頼度決定部３８は、例えば候補位置の重心からの距離の平均値を信頼度の値としてもよいし、候補位置の任意の方向の標準偏差を信頼度の値として算出してもよい。

　上記の方法で信頼度が算出された場合、信頼度の値が小さい（信頼度が高い）ほど、正確にキーポイントの位置が推測されることを示す。もちろん、信頼度は、複数の撮影画像のそれぞれについて算出される信頼度要素の平均値であってよい。複数の撮影画像では互いに撮影方向が異なってよい。

　他の手法で信頼度を求めてもよい。例えば、信頼度決定部３８は姿勢決定部２８により推定されたオブジェクトの姿勢と、その正解の姿勢とに基づいて信頼度を決定してもよい。より具体的には、信頼度決定部３８は、対象キーポイントおよび交換候補のうち１つを選択し、選択されたキーポイントと選択されていないプライマリキーポイントとから姿勢決定部２８によりオブジェクトの姿勢を推定する。信頼度決定部３８は、対象キーポイントおよび交換候補のそれぞれについて上記の手法で姿勢を推定する。信頼度決定部３８は、対象キーポイントおよび交換候補のそれぞれについて、推定された姿勢と対象キーポイントおよび交換候補のうち選択されていないキーポイントの３次元位置とに基づいて、撮影画像における対象キーポイントおよび交換候補の位置を再投影し、再投影された位置を記憶部１２に格納する。そして、信頼度決定部３８は、対象キーポイントおよび交換候補のそれぞれについて、推定モデル２６の出力により推定される位置と、再投影された位置との距離の平均を信頼度として算出する。

　例えば、信頼度決定部３８は、撮影画像の正解の姿勢から求められる画像内のキーポイントの正解の位置に基づいて、信頼度を算出してもよい。撮影画像として３次元形状モデルの生成の際に用いられた画像であれば、ＳＬＡＭ技術等により求められた姿勢を正解として用いることができる。この場合、信頼度決定部３８は、推定モデル２６の出力により求められるキーポイントの位置と、正解のキーポイントの位置との違いに基づいて、信頼度を算出する。

　交換部３９は、対象キーポイントおよび交換候補のうち最も信頼度の高いものを新たなプライマリキーポイントとして決定する（Ｓ３０７）。つまり、交換部３９は、交換候補のいずれかの信頼度が対象キーポイントより高い場合には、対象キーポイントは交換候補のうち最も信頼度が高いものと交換する。

　そして未選択かつ初期のプライマリキーポイントが存在する場合には（Ｓ３０８のＹ）、Ｓ３０４以降の処理を繰り返す。一方、未選択かつ初期のプライマリキーポイントが存在しない場合には（Ｓ３０８のＮ）、図８の処理を終了する。

　図８の処理を終了する際に、交換部３９は、推定モデル２６に含まれるニューラルネットワークのうち、最終的なプライマリキーポイントのセットに含まれない初期のプライマリキーポイントやサブキーポイントの推定のみに利用する部分を取り除いてよい。つまり、交換部３９は、推定モデル２６について、姿勢推定に用いるプライマリキーポイントに関するニューラルネットワークのみを残し、それ以外のニューラルネットワークを乗り除いてよい。これにより、推論時の推定モデル２６の計算量の増加を抑えることができる。

　例えばFarthest Point アルゴリズムのような手法のみでプライマリキーポイントを決定した場合には、その決定された箇所が姿勢推定に適切でない場合が生じうる。実写画像から３次元形状モデルを生成する場合には、突端の形状が不正確になりやすい一方で、Farthest Point アルゴリズムでは端部がキーポイントとして選択されやすい（図９のＫ４参照）。すると、不正確な端部が反映されたレンダリング画像で学習された推定モデル２６によりキーポイントを推定することになり、キーポイントの推定精度の低下が懸念される。また仮に完全な３次元形状モデルであっても、キーポイントとしてくぼみが選択された場合には、オブジェクトの他の部分に隠れやすくキーポイントの位置を正確に推定することが難しい。本実施形態では、必要に応じてより正確に位置を推定可能なキーポイントと交換することにより、姿勢推定の精度を向上させることができる。

　さらに、初期のプライマリキーポイントの近傍のサブキーポイントと交換することにより、プライマリキーポイント間が接近する可能性を減少させ、計算量を削減しつつプライマリキーポイントの交換により、より確実に姿勢推定の精度を向上させることができる。

　なお、本発明は上述の実施形態に限定されるものではない。

　例えば、姿勢推定の精度が低下する可能性はあるが、プライマリキーポイントの近傍ではないサブキーポイントが交換候補として用いられてもよい。また複数の対象キーポイントのセットと、交換候補となる複数のサブキーポイントのセットとのそれぞれについて信頼度が算出され、信頼度に応じてセットごと交換されてもよい。

　推定モデル２６の出力がヒートマップのような位置画像である場合には、信頼度決定部３８は、推定モデル２６が出力する位置画像が有するピークの数を信頼度として決定してもよい。

　また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されず、必要に応じて改変されてよい。

Claims

　オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するセット決定手段と、
　前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定する候補決定手段と、
　撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定する信頼度決定手段と、
　前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する交換手段と、
　を含む情報処理装置。
　請求項１に記載の情報処理装置において、
　撮影された画像が入力された前記機械学習モデルは、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置をそれぞれ示す複数の画像を出力する、
　情報処理装置。
　請求項２に記載の情報処理装置において、
　撮影された画像が入力された前記機械学習モデルが出力する複数の画像のそれぞれは、各点が、前記セットに含まれるキーポイントおよび前記候補キーポイントのうちいずれかとの位置関係を示し、
　前記信頼度決定手段は、前記出力された複数の画像のいずれかについて、前記いずれかの画像に対応する複数のキーポイントおよび候補キーポイントのうちいずれかの位置の候補であって、前記いずれかの画像に含まれるそれぞれ互いに異なる点から求められる複数の位置の候補のばらつきに基づいて、複数のキーポイントおよび候補キーポイントのうち前記いずれかの信頼度を決定する、
　情報処理装置。
　請求項１または２に記載の情報処理装置において、
　撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、
　前記信頼度決定手段は、前記決定された姿勢に基づいて再投影された前記キーポイントおよび前記候補キーポイントの位置と、前記出力された情報が示す前記キーポイントおよび前記候補キーポイントの位置とに基づいて、前記キーポイントおよび前記候補キーポイントの信頼度を決定する、
　情報処理装置。
　請求項１または２に記載の情報処理装置において、
　撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、
　前記信頼度決定手段は、前記決定された姿勢と、前記撮影された画像における前記オブジェクトの姿勢の正解データとに基づいて、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての推定された信頼度を決定する、
　情報処理装置。
　オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するステップと、
　前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定するステップと、
　撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定するステップと、
　前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換するステップと、
　を含む情報処理方法。
　オブジェクトの３次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定し、
　前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である１または複数の候補キーポイントを決定し、
　撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、
　前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する、
　処理をコンピュータに実行させるためのプログラム。