WO2023195099A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- WO2023195099A1 WO2023195099A1 PCT/JP2022/017177 JP2022017177W WO2023195099A1 WO 2023195099 A1 WO2023195099 A1 WO 2023195099A1 JP 2022017177 W JP2022017177 W JP 2022017177W WO 2023195099 A1 WO2023195099 A1 WO 2023195099A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- key points
- candidate
- determining
- information processing
- reliability
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 43
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 24
- 238000001514 detection method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Abstract
キーポイントを用いた姿勢認識の精度を向上させる 情報処理システムは、物体の3次元モデルに基づいて当該物体の姿勢を認識するための複数のキーポイントを決定し、前記複数のキーポイントのうち少なくとも一部に対して1または複数の候補キーポイントを決定し、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する機械学習モデルに撮影された画像を入力することにより出力される情報であって、キーポイントおよび前記候補キーポイントの位置を示す情報から、キーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する。
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
撮影された画像から物体のキーポイントの位置を推定し、その推定されたキーポイントからその物体の姿勢を推定する手法がある。この手法では、予め物体の3Dモデルにおけるキーポイントの3次元位置を決定しておき、その3次元位置と画像内の推定されたキーポイントの位置とを用いて所定の処理を行うことにより姿勢が推定される。物体の3次元モデルにおけるキーポイントを決定する手法として、例えばFarthest Point 法が知られている。
Sida Peng et alは、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)において、論文PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationを発表している。この論文では、3Dモデルから生成される入力画像と、正解の出力画像とを含む訓練データにより機械学習モデルを学習させ、さらにその機械学習モデルに撮影された画像が入力された際の出力に基づいて姿勢推定に用いるキーポイントの画像上の位置を算出することが開示されている。
Farthest Point 法のような既知の手法で、3Dモデルからキーポイントを決定した場合、学習済の機械学習モデルを用いて物体が撮影された画像からキーポイントの位置を認識することが難しい場合があった。例えば実際の物体との誤差がある3Dモデルの端部がキーポイントとして選択された場合や、凹部の底がキーポイントとして選択された場合には、撮影された画像から端部を正確に認識することが難しい。そのような場合には、キーポイントの推定の精度が低下し、姿勢の推定の精度が低下する恐れがある。
本発明は上記実情に鑑みてなされたものであって、その目的は、キーポイントを用いた姿勢認識の精度を向上させる技術を提供することにある。
上記課題を解決するために、本発明に係る情報処理装置は、オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するセット決定手段と、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定する候補決定手段と、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定する信頼度決定手段と、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する交換手段と、を含む。
本発明の一態様では、撮影された画像が入力された前記機械学習モデルは、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置をそれぞれ示す複数の画像を出力してよい。
本発明の一態様では、撮影された画像が入力された前記機械学習モデルが出力する複数の画像のそれぞれは、各点が、前記セットに含まれるキーポイントおよび前記候補キーポイントのうちいずれかとの位置関係を示し、
前記信頼度決定手段は、前記出力された複数の画像のいずれかについて、前記いずれかの画像に対応する複数のキーポイントおよび候補キーポイントのうちいずれかの位置の候補であって、前記いずれかの画像に含まれるそれぞれ互いに異なる点から求められる複数の位置の候補のばらつきに基づいて、複数のキーポイントおよび候補キーポイントのうち前記いずれかの信頼度を決定してよい。
前記信頼度決定手段は、前記出力された複数の画像のいずれかについて、前記いずれかの画像に対応する複数のキーポイントおよび候補キーポイントのうちいずれかの位置の候補であって、前記いずれかの画像に含まれるそれぞれ互いに異なる点から求められる複数の位置の候補のばらつきに基づいて、複数のキーポイントおよび候補キーポイントのうち前記いずれかの信頼度を決定してよい。
本発明の一態様では、情報処理装置は、撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、前記信頼度決定手段は、前記決定された姿勢に基づいて再投影された前記キーポイントおよび前記候補キーポイントの位置と、前記出力された情報が示す前記キーポイントおよび前記候補キーポイントの位置とに基づいて、前記キーポイントおよび前記候補キーポイントの信頼度を決定してよい。
本発明の一態様では、情報処理装置は、撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、前記信頼度決定手段は、前記決定された姿勢と、前記撮影された画像における前記オブジェクトの姿勢の正解データとに基づいて、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての推定された信頼度を決定してよい。
また、本発明に係る情報処理方法は、オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するステップと、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定するステップと、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定するステップと、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換するステップと、を含む。
また、本発明に係るプログラムは、オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定し、前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定し、撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する、処理をコンピュータに実行させる。
本発明によれば、キーポイントを用いた姿勢認識の精度を向上させることができる。
以下、本発明の一実施形態について図面に基づき詳細に説明する。本実施形態では、オブジェクトが撮影された画像を入力し、その姿勢を推定する情報処理システムに発明を適用した場合について説明する。
この情報処理システムは、オブジェクトが撮影された画像からそのオブジェクトの推定される姿勢を示す情報を出力する機械学習モデルを含んでいる。また情報処理システムはその機械学習モデルの学習を短時間で完了するように構成されている。所要時間は、例えば、オブジェクトを把持して回転させるのに数十秒、機械学習に数分程度が想定されている。
図1は、本発明の一実施形態にかかる情報処理システムの構成の一例を示す図である。本実施形態にかかる情報処理システムは、情報処理装置10を含む。情報処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、情報処理装置10は、例えば、プロセッサ11、記憶部12、通信部14、操作部16、表示部18、撮影部20を含んでいる。情報処理システムは1台の情報処理装置10により構成されてもよいし、情報処理装置10を含む複数の装置により構成されてもよい。
プロセッサ11は、例えば情報処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部12は、ROMやRAM等の記憶素子やソリッドステートドライブのような外部記憶装置のうち少なくとも一部からなる。記憶部12には、プロセッサ11によって実行されるプログラムなどが記憶される。
通信部14は、例えばネットワークインタフェースカードのような、有線通信又は無線通信用の通信インタフェースであり、インターネット等のコンピュータネットワークを介して、他のコンピュータや端末との間でデータを授受する。
操作部16は、例えば、キーボード、マウス、タッチパネル、ゲームコンソールのコントローラ等の入力デバイスであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ11に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ11の指示に従って各種の画像を表示する。表示部18は、外部の表示デバイスに対して映像信号を出力するデバイスであってもよい。
撮影部20は、デジタルカメラ等の撮影デバイスである。本実施形態にかかる撮影部20は、例えば動画像の撮影が可能なカメラである。撮影部20は、可視のRGB画像を取得可能なカメラであってよい。撮影部20は、可視のRGB画像と、そのRGB画像と同期した深度情報とを取得可能なカメラであってもよい。撮影部20は情報処理装置10の外部にあってもよく、この場合は情報処理装置10と撮影部20とが、通信部14または後述の入出力部を介して接続されてよい。
なお、情報処理装置10は、マイクやスピーカなどといった音声入出力デバイスを含んでいてもよい。また、情報処理装置10は、例えば、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、外部機器とデータの入出力をするための入出力部(USB(Universal Serial Bus)ポート)を含んでいてもよい。
図2は、本発明の一実施形態に係る情報処理システムで実装される機能の一例を示す機能ブロック図である。図2に示すように、情報処理システムは、機能的に、姿勢推定部25、撮影画像取得部31、形状モデル取得部32、対称検出部33、学習制御部34を含む。姿勢推定部25は、機能的に、推定モデル26、キーポイント決定部27、および姿勢決定部28を含む。学習制御部34は、機能的に、初期生成部35、交換候補決定部36、推定学習部37、信頼度決定部38、交換部39を含む。推定モデル26は、機械学習モデルの一種である。
これらの機能は、主にプロセッサ11及び記憶部12により実装される。より具体的には、これらの機能は、コンピュータである情報処理装置10にインストールされた、以上の機能に対応する実行命令を含むプログラムをプロセッサ11で実行することにより実装されてよい。また、このプログラムは、例えば、光学的ディスク、磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置10に供給されてもよい。
なお、本実施形態にかかる情報処理システムに、必ずしも図2に示す機能のすべてが実装されていなくてもよく、また、図2に示す機能以外の機能が実装されていてもよい。
姿勢推定部25は、推定モデル26に入力画像が入力された際に出力される情報に基づいて、対象オブジェクト51の姿勢を推定する。入力画像は、撮影部20により撮影されたオブジェクトの画像であり、撮影画像取得部31により取得される。推定モデル26は、機械学習モデルであり、訓練データにより学習され、学習済の推定モデル26は、入力データが入力されると、推定結果としてデータを出力する。
学習済の推定モデル26には、対象となるオブジェクトが撮影された画像の情報が入力され、推定モデル26はそのオブジェクトの姿勢推定のためのキーポイントの位置を示す情報を出力する。推定モデル26は、撮影された画像が入力され、セットに含まれるプライマリキーポイントの位置を示す画像と、サブキーポイントの位置を示す画像とを出力する。プライマリキーポイントおよびサブキーポイントについては後述する。
推定モデル26の訓練データは、対象となるオブジェクトの3次元形状モデルによりレンダリングされた複数の学習画像と、学習画像におけるオブジェクトのキーポイントの位置を示す正解データとを含む。キーポイントは、オブジェクト内にある仮想的な点であって、姿勢の算出に用いる点である。キーポイントの位置を示すデータは、各点がその点とキーポイントとの位置関係(例えば相対方向)を示す位置画像であってもよいし、各点がキーポイントが存在する確率を示すヒートマップである位置画像であってもよい。推定モデル26の学習の詳細については後述する。
入力画像は、撮影部20により撮影されたオブジェクトの画像が加工された画像であってもよい。例えば対象となるオブジェクトを除く領域がマスクされた画像であってもよいし、画像におけるオブジェクトのサイズが所定の大きさになるように拡大または縮小された画像であってもよい。
キーポイント決定部27は、推定モデル26の出力に基づいて、入力画像におけるキーポイントの2次元位置を決定する。より具体的には、例えば、キーポイント決定部27は、推定モデル26から出力される位置画像に基づいて、入力画像におけるキーポイントの2次元位置の候補を決定する。キーポイント決定部27は、例えば、位置画像のうちの任意の2点の組み合わせのそれぞれからキーポイントの候補点を算出し、複数の候補点に対して位置画像の各点が示す方向と合致しているかを示すスコアを生成する。キーポイント決定部27はそのスコアが最も大きい候補点をキーポイントの位置と推定してよい。またキーポイント決定部27は、キーポイントごとに上記の処理を繰り返す。
姿勢決定部28は、入力画像におけるキーポイントの2次元位置を示す情報と対象オブジェクト51の3次元形状モデルにおけるキーポイントの3次元位置を示す情報とに基づいて、対象オブジェクト51の姿勢を推定し、推定された姿勢を示す姿勢データを出力する。対象オブジェクト51の姿勢は、公知のアルゴリズムによって推定される。例えば、姿勢推定についてのPerspective-n-Point(PNP)問題の解法(例えばEPnP)により推定されてよい。また、姿勢決定部28は対象オブジェクト51の姿勢だけでなく入力画像における対象オブジェクト51の位置も推定し、姿勢データにその位置を示す情報が含まれてもよい。
推定モデル26、キーポイント決定部27、姿勢決定部28の詳細は、PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimationの論文に記載されたものであってよい。
撮影画像取得部31は撮影部20により対象となるオブジェクトが撮影された撮影画像を取得する。撮影部20は、予めキャリブレーションによってカメラ内部パラメータが取得されているものとする。このパラメータは、PnP問題を解く際に用いられる。
形状モデル取得部32は、撮影画像取得部31により取得された、オブジェクトについての複数の撮影画像から、オブジェクトの3次元モデルを生成し取得する。より具体的には、形状モデル取得部32は、複数の撮影画像のそれぞれについて局所的な特徴を示す複数の特徴ベクトルを抽出し、複数の撮影画像から抽出された互いに対応する複数の特徴ベクトルと撮影画像においてその特徴ベクトルが抽出された位置とからその特徴ベクトルが抽出された点の3次元位置を求める。そして、形状モデル取得部32はその3次元位置に基づいて対象オブジェクト51の3次元形状モデルを取得する。この方法は、いわゆるSfMやVisual SLAMを実現するソフトウェアでも用いられる公知の方法であるので、詳細の説明は省略する。
対称検出部33は、3次元モデルから、オブジェクトの対称性を検出する。より具体的には、対称検出部33は、3次元モデルからオブジェクトの鏡像対称または回転対称を検出する。
学習制御部34は、3次元モデルに基づいて、対象となるオブジェクトのキーポイントを決定するとともに推定モデル26を学習させる。
初期生成部35は、3次元モデルに基づいて、複数のプライマリキーポイントの初期のセットを生成する。初期生成部35は、例えば公知のFarthest Point アルゴリズムにより複数のキーポイント(プライマリキーポイント)のセットを生成してよい。また、初期生成部35は、3次元モデルに基づいて、キーポイントと交換される候補となりうる複数の代替キーポイント(サブキーポイント)を生成する。初期生成部35は、例えば公知のFarthest Point アルゴリズムにより複数のサブキーポイントを生成してよい。本実施形態ではプライマリキーポイントの数Nは8であるが、4以上の整数であればよい。サブキーポイントの数Mは20から50であるが、サブキーポイントの数Mはプライマリキーポイントの数Nより大きい整数であればよい。
交換候補決定部36は、セットに含まれる複数のプライマリキーポイントのうち少なくとも一部(対象キーポイント)と交換される候補である1または複数のサブキーポイント(交換候補)を決定する。交換候補決定部36は、複数のサブキーポイントのうち、対象キーポイントの近傍にあるN個(Nは1以上M未満の整数)のサブキーポイントを交換候補として決定してよい。近傍は、複数のサブキーポイントと対象キーポイントとの距離が1~N番目に近いことであってよい。また対象キーポイントの数は、1以上プライマリキーポイントの数以下であってよい。以下では、一度の処理において、対象キーポイントの数が1である例について説明する。
推定学習部37は、推定モデル26の学習に用いる訓練データを生成し、その訓練データにより推定モデル26を学習させる。訓練データは、対象となるオブジェクトの3次元形状モデルによりレンダリングされた複数の学習画像と、学習画像におけるオブジェクトのキーポイントの位置を示す正解データとを含む。推定学習部37による正解データの生成の対象となるキーポイントは、少なくともプライマリキーポイントのセットと交換候補となるサブキーポイントとを含む。推定学習部37は、初期のセットに含まれる複数のプライマリキーポイントとすべてのサブキーポイントとについて、正解データを生成してよい。
推定学習部37は、より具体的には、レンダリングされたオブジェクトの姿勢に基づいて学習画像におけるプライマリキーポイントおよびサブキーポイントの位置を決定し、プライマリキーポイントおよびサブキーポイントのそれぞれについて、その位置に応じた正解の位置画像を生成してよい。なお、訓練データは、オブジェクトが撮影された学習画像と、いわゆるSfMやVisual SLAMにより推定される学習画像内のオブジェクトの姿勢から生成される位置画像とを含んでよい。
信頼度決定部38は、学習済の推定モデルに撮影された画像を入力することにより出力される情報であって、プライマリキーポイントと交換候補となるサブキーポイントとの位置を示す情報から、プライマリキーポイントおよび交換候補となるサブキーポイントのそれぞれについての信頼度を決定する。
交換部39は、信頼度に基づいて、対象キーポイントを、交換候補となるサブキーポイントのうち少なくとも一部と交換する。なお交換部39は、対象キーポイントの信頼度がサブキーポイントより高い場合には交換しなくてよい。なお、プライマリキーポイントのセットは、交換部39による交換がされた後に、推定モデル26の出力に基づく姿勢推定に用いられる。対象キーポイントが複数の場合は、交換部39は、対象キーポイントのそれぞれを、交換候補となるサブキーポイントのうち信頼度に応じた1つのサブキーポイントと交換する。
以下では、情報処理システムの処理について説明する。図3は、情報処理システムの処理を概略的に示すフロー図である。
はじめに情報処理システムは、対象となるオブジェクトが撮影された画像に基づいて、そのオブジェクトの3次元形状モデルを生成する(S101)。そして情報処理システムに含まれる学習制御部34は、3次元形状モデルに基づいてキーポイントの3次元位置を決定するとともに、姿勢推定のための推定モデル26を学習させる(S102)。ここではキーポイントはプライマリキーポイントを指し、S103からS105においても同様である。
推定モデル26が学習されると、姿勢推定部25はオブジェクトが撮影された入力画像を学習済の推定モデル26に入力し(S103)、その推定モデル26が出力するデータを取得する。そして、その推定モデル26の出力に基づいて、画像中のキーポイントの2次元位置を決定する(S104)。
より具体的には、推定モデル26の出力が、各点がキーポイントとの相対方向を示す位置画像である場合には、姿勢推定部25に含まれるキーポイント決定部27は、位置画像の各点からキーポイントの位置の候補を算出し、その候補に基づいてキーポイントの位置を決定する。推定モデル26の出力がヒートマップの位置画像である場合には、キーポイント決定部27は公知の方法により最も確率の高い点の位置をキーポイントの位置として決定してよい。
姿勢推定部25は、決定されたキーポイントの2次元位置と、3次元形状モデルにおけるそのキーポイントの3次元位置とに基づいて、オブジェクトの姿勢を推定する(S105)。図3ではS103からS105の処理が1回行われる記載となっているが、実際には、利用者からの指示があるまでS103からS105の処理が繰り返し実行されてよい。
図4は、対象となるオブジェクトを撮影し3次元モデルを生成する処理の一例を示すフロー図であり、S101の処理をより詳細に記載した図である。
はじめに撮影画像取得部31は、対象となるオブジェクトが撮影された複数の撮影画像を取得する(S201)。
図5は、対象となるオブジェクトの撮影を説明する図である。図5に示される対象オブジェクト51は、例えば手53によって保持されており、撮影部20により撮影される。本実施形態では、対象オブジェクト51を様々な方向から撮影することが望ましい。そのため、撮影部20は動画撮影のように定期的に画像を撮影しつつ、対象オブジェクト51の撮影方向を変化させる。例えば手53によって対象オブジェクト51の姿勢を変化させることで対象オブジェクト51の撮影方向を変化させてよい。またARマーカー上に対象オブジェクト51を配置し、撮影部20を動かすことにより撮影方向を変化させてもよい。後述の処理で用いられる撮影画像の取得間隔は、動画の撮影間隔より広くてもよい。撮影画像取得部31は、それらの撮影画像から公知の方法(例えば肌の色の検出)により、手53の画像をマスクしてもよい。
次に、形状モデル取得部32は、取得された複数の撮影画像から、オブジェクトの3次元形状モデルを生成する(S202)。3次元形状モデルの生成方法の詳細については以前に説明されたものと同じでよい。
3次元形状モデルが生成されると、対称検出部33は、オブジェクトの対称性を検出する(S203)。ここでは、対称検出部33は、オブジェクトの対称性として、回転対象であるか否か、および回転軸を検出してよいし、オブジェクトが鏡像対象であるか否かおよび対称面を検出してもよい。
オブジェクトの対称性の検出についてさらに説明する。図6は、回転軸を検出する処理の一例を示すフロー図である。
はじめに対称検出部33は、オブジェクトのモデル座標系の中心を原点とする、鉛直上向きの軸を第1の軸(y軸)として設定する(S221)。次にy軸に垂直な平面PL内にある、3次元形状モデルの複数の頂点を取得する(S222)。
図7は、オブジェクトと軸との関係の一例を示す図である。平面PLは例えば原点を通るxz平面である。回転方向表示Rについては後述する。
対称検出部33は、平面PL内に原点を通り互いに異なる複数の軸を設定し、その複数の軸のそれぞれについて鏡像対象性を示すスコアを生成する(S223)。スコアは、3次元形状モデルの、その軸について180度回転した点と、その点に最も近い頂点との距離の和である。
スコアが算出されると、対称検出部33は、複数の軸のそれぞれについて算出されたスコアに基づいて、スコアを最小とする軸を第2の軸(例えばx軸)として決定する(S225)。なお、第1および第2の軸が決定されると、第3の軸は必然的に求まる。第1の軸および第2の軸は回転対称軸である可能性がある。
対称検出部33は、第1の軸、第2の軸のうちから回転対称軸をオブジェクトの対称性として決定する(S227)。対称検出部33は、軸にそった座標を細かく分割し、分割された範囲内にある頂点のそれぞれと軸の原点との距離のばらつきが最も小さい軸を対称軸として決定してよい。なお、対称検出部33が検出する対称軸はあくまで回転対称軸の候補であり、厳密な回転対称でなくてもよい。
なお、対称検出部33は、回転対称軸の代わりに鏡像対称面を決定してもよい。また、対称検出部33は、対称軸をユーザに入力させてもよい。
S203においてオブジェクトの対称性が検出されると、形状モデル取得部32は、回転方向の撮影が不足しているか判定する(S205)。撮影方向の判定の際には、3次元モデルの作成の際に判定された画像の撮影方向と、となりの画像の撮影方向との差の対象軸にそった回転方向の成分が閾値以内か否かにより判定してよい。回転方向の撮影が不足していないと判定された場合には(S205のN)、図4の処理は終了する。
一方、回転方向の撮影が不足していると判定された場合には(S205のY)、形状モデル取得部32は、追加撮影の指示を出力する(S206)。追加撮影の指示は、オブジェクトのレンダリング画像および回転方向表示Rを含む画像を表示させることにより行ってよい。また撮影画像取得部31は、追加の撮影画像を取得し、S202以降の処理を繰り返す。
図4に示される処理により、オブジェクトの3次元形状モデルが取得される。またS203~207の処理により、対象性のあるオブジェクトについても、一定の精度をもつ3次元形状モデルを取得することが可能になる。
図8は、プライマリおよびサブキーポイントの決定および推定モデル26の学習の処理の一例を示すフロー図である。図8は、図3におけるS102の処理をより詳細に説明する図である。
はじめに初期生成部35は、初期のプライマリキーポイントのセットおよび複数の代替キーポイント(サブキーポイント)を生成する(S301)。より具体的には、初期生成部35は、オブジェクトの3次元形状モデル(より具体的には3次元形状モデルに含まれる頂点の情報)から、初期のキーポイントおよび複数の代替キーポイントの3次元位置を、例えば公知のFarthest Point アルゴリズムにより生成してよい。
図9は、オブジェクトから生成されるプライマリおよびサブキーポイントを説明する図である。図9では説明の容易のため、プライマリキーポイントK1~K4の数は実際より少ない。また図3には、プライマリキーポイントK4の近傍のサブキーポイントS1~S3のみ記載されている。
プライマリおよびサブキーポイントが生成されると、推定学習部37は、推定モデル26の訓練データを生成する(S302)。訓練データは、3次元形状モデルに基づいてレンダリングされた訓練画像と、訓練画像におけるプライマリおよびサブキーポイントのそれぞれの位置を示す正解データとを含む。
図10は、訓練データを生成する処理の一例を示すフロー図である。図10はS302の処理をより詳細に説明する図である。はじめに推定学習部37は、オブジェクトの3次元形状モデルのデータを取得する(S321)。そして、推定学習部37はレンダリングのための複数の視点を取得する(S322)。より厳密には、推定学習部37はレンダリングのための複数のカメラ視点と、カメラ視点に応じた撮影方向とを取得する。複数のカメラ視点は3次元形状モデルの原点からの距離が一定となる位置に設けられてよく、撮影方向はカメラ視点から3次元形状モデルの原点に向かう方向である。
さらに、対称性として対称軸が設定されている場合には、推定学習部37は、対称軸にそって180度回転する方向にカメラ視点を追加する。回転方向へのカメラ視点の追加により、間違いやすい角度について集中的に学習をすることができ、対称性により見た目が類似することに起因する姿勢推定の精度の低下を抑えることができる。
視点が取得されると、推定学習部37は3次元形状モデルに基づいて、視点のそれぞれについてオブジェクトの画像をレンダリングする(S325)。画像は公知の手法によりレンダリングされてよい。
画像がレンダリングされると、推定学習部37は変調フィルタを用いてレンダリングされた画像を変換し、変換された画像を訓練画像として取得する(S326)。変調フィルタは、撮影された画像の色が実物の色と異なることに起因する推論性能の低下を防ぐために、レンダリングされた画像の各ピクセルの明るさを意図的に変化させるものである。推定学習部37はレンダリングされた画像の各ピクセルの要素の値と、変調フィルタの対応するピクセルの値との積を算出することにより、レンダリングされた画像を変換する。変調フィルタは、レンダリングした訓練画像に対するデータ拡張手法のうちの1つであり、推定学習部37はS326において他のデータ拡張手法を適用してもよい。例えば、推定学習部37は、レンダリングされた画像に対して、画像の輝度、彩度、色相のうち少なくとも一部に対する擾乱を与えたり、画像の一部を切り抜いて元と同じサイズにリサイズする、といった一般的なデータ拡張を変調フィルタによる変換と合わせて行ってよい。
変調フィルタは以下の方法により生成される。はじめに、推定学習部37はレンダリングされた画像の解像度(例えば96×96)より低い解像度(例えば8×8)の元画像について、それぞれのピクセルの値が0.5~1.5のうちいずれかの値であってランダム性のある値となるように設定する。なおピクセルの値の平均値が1.0となるように各ピクセルの値が設定される。
次に推定学習部37は、元画像のサイズをレンダリングされた画像の解像度のサイズに拡大する。推定学習部37は拡大の際には各ピクセルの値を線形補間により決定してよい。サイズが拡大されると、推定学習部37はさらに3×3のガウシアンフィルタを複数回(例えば3回)適用し、各ピクセルの値の空間的な変化をより緩やかにする。
これにより訓練データに含まれる画像の明るさにばらつきが生じ、推定モデル26が明るさについて過剰に学習されることを防ぎ、推定モデル26が実写画像を処理する際の精度の低下を抑えることができる。なお、推定学習部37はレンダリングされた画像のうち一部のみを変換し、レンダリングされた画像のうち一部をそのまま訓練画像にしてもよい。一部のみの変換は、より高い効果を得ることができる。また画像そのものを変換する代わりに、3次元形状モデルのテクスチャマップを変換してもよい。
S326の処理がされると、推定学習部37は、視点付きのオブジェクトの撮影画像を訓練画像に追加する(S327)。この撮影画像は、3次元形状モデルの生成に用いられた撮影画像であってよい。撮影画像のカメラ視点は3次元形状モデルの生成の際に取得されたカメラ視点であってよい。
訓練画像が整備されると、推定学習部37は、訓練画像のそれぞれについて、プライマリおよびサブキーポイントの3次元位置と、訓練画像の視点とに基づいて、訓練画像におけるキーポイントの位置を示す正解データを生成する(S328)。推定学習部37は、訓練画像ごとに、プライマリおよびサブキーポイントのそれぞれに対して正解データを生成する。
図11は、正解データの一例を模式的に示す図である。正解データは、訓練画像におけるオブジェクトのキーポイントの2次元位置を示す情報であり、各点がその点とキーポイントとの位置関係(例えば方向)を示す位置画像であってよい。
位置画像は、キーポイントの種類ごとに生成されてよい。位置画像は、各点におけるその点とキーポイントとの相対的な方向を示す。図11に示される位置画像では、各点の値に応じたパターンが記載され、各点の値は、その点の座標とキーポイントの座標との方向を示している。図11はあくまで模式的な図であり、各点の実際の値は連続的に変化する。図11では明示されていないが、位置画像は、各点におけるその点を基準としたキーポイントの相対的な方向を示すVector Field画像である。
図10に示す処理により、訓練画像と正解データとを含む訓練データが生成される。
訓練データが生成されると、推定学習部37は、訓練データによりプライマリおよびサブキーポイントの推定モデル26を学習させる(S303)。
推定モデル26の学習においては、はじめに推定学習部37は、プライマリキーポイントについての訓練データにより、推定モデル26のうちプライマリキーポイントを出力するニューラルネットワークを学習させる。ニューラルネットワークは、論文PVNetに記載されたものであってよい。
次に学習済のニューラルネットワークに含まれる複数の層のうち前段のいくつかの層に接続されるサブキーポイント用のネットワークを追加し、前段の層についてはパラメータを固定して、サブキーポイントについての訓練データによりニューラルネットワークを学習させる。このようにサブキーポイントについての学習の際にプライマリキーポイントにより学習されたパラメータを用いることにより、学習に要する時間を短縮することができる。
推定モデル26が学習されると、交換候補決定部36は、未選択かつ初期のプライマリキーポイントのうち1つを対象キーポイントとして選択し、選択されたプライマリキーポイントの近傍にあるN個のサブキーポイントを交換候補として選択する(S304)。なお、交換候補決定部36は、近傍のサブキーポイントとして、対象キーポイントとの距離が1からN番目に小さいサブキーポイントを選択してよい。
信頼度決定部38は、信頼度算出用の撮影画像を推定モデル26に入力された際にその推定モデル26から出力される、プライマリキーポイントおよび交換候補の位置を示す情報を取得する(S305)。なお、推定モデル26への撮影画像の入力は、このステップで行われてもよいし、S304の前に行われてもよい。信頼度算出用の撮影画像は、3次元形状モデルの生成の際に利用された画像の一部であってもよい。
信頼度決定部38は、その取得された情報に基づいて、対象キーポイントおよび交換候補の位置の信頼度を算出する(S306)。取得された情報がプライマリキーポイントおよび交換候補のそれぞれについてのVector Field画像である場合には、信頼度決定部38は、例えば対象キーポイントおよび交換候補のそれぞれについて、以下の方法で信頼度を算出してよい。
信頼度決定部38は推定モデル26が出力するVector Field画像から、それぞれ2つの点を含む複数のグループを選択する。信頼度決定部38は、そのグループのそれぞれについて、グループに含まれる各点が示すキーポイントの方向に基づいて、キーポイントの候補位置を算出する。候補位置は、ある点からその点が示す方向に伸ばした直線と、もう一つの点からその点が示す方向に伸ばした直線との交点に相当する。グループのそれぞれについて信頼度が算出されると、信頼度決定部38は、候補位置のばらつきを示す値を信頼度として算出する。信頼度決定部38は、例えば候補位置の重心からの距離の平均値を信頼度の値としてもよいし、候補位置の任意の方向の標準偏差を信頼度の値として算出してもよい。
上記の方法で信頼度が算出された場合、信頼度の値が小さい(信頼度が高い)ほど、正確にキーポイントの位置が推測されることを示す。もちろん、信頼度は、複数の撮影画像のそれぞれについて算出される信頼度要素の平均値であってよい。複数の撮影画像では互いに撮影方向が異なってよい。
他の手法で信頼度を求めてもよい。例えば、信頼度決定部38は姿勢決定部28により推定されたオブジェクトの姿勢と、その正解の姿勢とに基づいて信頼度を決定してもよい。より具体的には、信頼度決定部38は、対象キーポイントおよび交換候補のうち1つを選択し、選択されたキーポイントと選択されていないプライマリキーポイントとから姿勢決定部28によりオブジェクトの姿勢を推定する。信頼度決定部38は、対象キーポイントおよび交換候補のそれぞれについて上記の手法で姿勢を推定する。信頼度決定部38は、対象キーポイントおよび交換候補のそれぞれについて、推定された姿勢と対象キーポイントおよび交換候補のうち選択されていないキーポイントの3次元位置とに基づいて、撮影画像における対象キーポイントおよび交換候補の位置を再投影し、再投影された位置を記憶部12に格納する。そして、信頼度決定部38は、対象キーポイントおよび交換候補のそれぞれについて、推定モデル26の出力により推定される位置と、再投影された位置との距離の平均を信頼度として算出する。
例えば、信頼度決定部38は、撮影画像の正解の姿勢から求められる画像内のキーポイントの正解の位置に基づいて、信頼度を算出してもよい。撮影画像として3次元形状モデルの生成の際に用いられた画像であれば、SLAM技術等により求められた姿勢を正解として用いることができる。この場合、信頼度決定部38は、推定モデル26の出力により求められるキーポイントの位置と、正解のキーポイントの位置との違いに基づいて、信頼度を算出する。
交換部39は、対象キーポイントおよび交換候補のうち最も信頼度の高いものを新たなプライマリキーポイントとして決定する(S307)。つまり、交換部39は、交換候補のいずれかの信頼度が対象キーポイントより高い場合には、対象キーポイントは交換候補のうち最も信頼度が高いものと交換する。
そして未選択かつ初期のプライマリキーポイントが存在する場合には(S308のY)、S304以降の処理を繰り返す。一方、未選択かつ初期のプライマリキーポイントが存在しない場合には(S308のN)、図8の処理を終了する。
図8の処理を終了する際に、交換部39は、推定モデル26に含まれるニューラルネットワークのうち、最終的なプライマリキーポイントのセットに含まれない初期のプライマリキーポイントやサブキーポイントの推定のみに利用する部分を取り除いてよい。つまり、交換部39は、推定モデル26について、姿勢推定に用いるプライマリキーポイントに関するニューラルネットワークのみを残し、それ以外のニューラルネットワークを乗り除いてよい。これにより、推論時の推定モデル26の計算量の増加を抑えることができる。
例えばFarthest Point アルゴリズムのような手法のみでプライマリキーポイントを決定した場合には、その決定された箇所が姿勢推定に適切でない場合が生じうる。実写画像から3次元形状モデルを生成する場合には、突端の形状が不正確になりやすい一方で、Farthest Point アルゴリズムでは端部がキーポイントとして選択されやすい(図9のK4参照)。すると、不正確な端部が反映されたレンダリング画像で学習された推定モデル26によりキーポイントを推定することになり、キーポイントの推定精度の低下が懸念される。また仮に完全な3次元形状モデルであっても、キーポイントとしてくぼみが選択された場合には、オブジェクトの他の部分に隠れやすくキーポイントの位置を正確に推定することが難しい。本実施形態では、必要に応じてより正確に位置を推定可能なキーポイントと交換することにより、姿勢推定の精度を向上させることができる。
さらに、初期のプライマリキーポイントの近傍のサブキーポイントと交換することにより、プライマリキーポイント間が接近する可能性を減少させ、計算量を削減しつつプライマリキーポイントの交換により、より確実に姿勢推定の精度を向上させることができる。
なお、本発明は上述の実施形態に限定されるものではない。
例えば、姿勢推定の精度が低下する可能性はあるが、プライマリキーポイントの近傍ではないサブキーポイントが交換候補として用いられてもよい。また複数の対象キーポイントのセットと、交換候補となる複数のサブキーポイントのセットとのそれぞれについて信頼度が算出され、信頼度に応じてセットごと交換されてもよい。
推定モデル26の出力がヒートマップのような位置画像である場合には、信頼度決定部38は、推定モデル26が出力する位置画像が有するピークの数を信頼度として決定してもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されず、必要に応じて改変されてよい。
Claims (7)
- オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するセット決定手段と、
前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定する候補決定手段と、
撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定する信頼度決定手段と、
前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する交換手段と、
を含む情報処理装置。 - 請求項1に記載の情報処理装置において、
撮影された画像が入力された前記機械学習モデルは、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置をそれぞれ示す複数の画像を出力する、
情報処理装置。 - 請求項2に記載の情報処理装置において、
撮影された画像が入力された前記機械学習モデルが出力する複数の画像のそれぞれは、各点が、前記セットに含まれるキーポイントおよび前記候補キーポイントのうちいずれかとの位置関係を示し、
前記信頼度決定手段は、前記出力された複数の画像のいずれかについて、前記いずれかの画像に対応する複数のキーポイントおよび候補キーポイントのうちいずれかの位置の候補であって、前記いずれかの画像に含まれるそれぞれ互いに異なる点から求められる複数の位置の候補のばらつきに基づいて、複数のキーポイントおよび候補キーポイントのうち前記いずれかの信頼度を決定する、
情報処理装置。 - 請求項1または2に記載の情報処理装置において、
撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、
前記信頼度決定手段は、前記決定された姿勢に基づいて再投影された前記キーポイントおよび前記候補キーポイントの位置と、前記出力された情報が示す前記キーポイントおよび前記候補キーポイントの位置とに基づいて、前記キーポイントおよび前記候補キーポイントの信頼度を決定する、
情報処理装置。 - 請求項1または2に記載の情報処理装置において、
撮影された画像を前記機械学習モデルに入力することにより出力された情報であって、前記セットに含まれるキーポイントのうち一部と前記候補キーポイントのうちいずれかとの位置を示す情報から、前記オブジェクトの姿勢を決定する姿勢決定手段をさらに含み、
前記信頼度決定手段は、前記決定された姿勢と、前記撮影された画像における前記オブジェクトの姿勢の正解データとに基づいて、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての推定された信頼度を決定する、
情報処理装置。 - オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定するステップと、
前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定するステップと、
撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定するステップと、
前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換するステップと、
を含む情報処理方法。 - オブジェクトの3次元モデルに基づいて当該オブジェクトの姿勢を認識するための複数のキーポイントを含むセットを決定し、
前記セットに含まれる複数のキーポイントのうち少なくとも一部と交換される候補である1または複数の候補キーポイントを決定し、
撮影された画像が入力され前記セットに含まれるキーポイントの位置を示す情報と、前記候補キーポイントの位置を示す情報とを出力する学習された機械学習モデルに撮影された画像を入力することにより出力される情報であって、前記セットに含まれるキーポイントおよび前記候補キーポイントの位置を示す情報から、前記セットに含まれるキーポイントおよび前記候補キーポイントのそれぞれについての信頼度を決定し、
前記決定された信頼度に基づいて、前記セットに含まれるキーポイントのうち少なくとも一部を、前記候補キーポイントのうち少なくとも一部と交換する、
処理をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/017177 WO2023195099A1 (ja) | 2022-04-06 | 2022-04-06 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/017177 WO2023195099A1 (ja) | 2022-04-06 | 2022-04-06 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023195099A1 true WO2023195099A1 (ja) | 2023-10-12 |
Family
ID=88242712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/017177 WO2023195099A1 (ja) | 2022-04-06 | 2022-04-06 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023195099A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007333690A (ja) * | 2006-06-19 | 2007-12-27 | Sony Corp | モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム |
JP2015167008A (ja) * | 2013-07-30 | 2015-09-24 | キヤノン株式会社 | 姿勢推定装置、姿勢推定方法およびプログラム |
WO2020054442A1 (ja) * | 2018-09-10 | 2020-03-19 | 国立大学法人東京大学 | 関節位置の取得方法及び装置、動作の取得方法及び装置 |
-
2022
- 2022-04-06 WO PCT/JP2022/017177 patent/WO2023195099A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007333690A (ja) * | 2006-06-19 | 2007-12-27 | Sony Corp | モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム |
JP2015167008A (ja) * | 2013-07-30 | 2015-09-24 | キヤノン株式会社 | 姿勢推定装置、姿勢推定方法およびプログラム |
WO2020054442A1 (ja) * | 2018-09-10 | 2020-03-19 | 国立大学法人東京大学 | 関節位置の取得方法及び装置、動作の取得方法及び装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11600013B2 (en) | Facial features tracker with advanced training for natural rendering of human faces in real-time | |
US9639914B2 (en) | Portrait deformation method and apparatus | |
CN106650630B (zh) | 一种目标跟踪方法及电子设备 | |
JP4829141B2 (ja) | 視線検出装置及びその方法 | |
CN109859305B (zh) | 基于多角度二维人脸的三维人脸建模、识别方法及装置 | |
US20120306874A1 (en) | Method and system for single view image 3 d face synthesis | |
CN107484428B (zh) | 用于显示对象的方法 | |
CN113366491B (zh) | 眼球追踪方法、装置及存储介质 | |
JP7164045B2 (ja) | 骨格認識方法、骨格認識プログラムおよび骨格認識システム | |
US11681910B2 (en) | Training apparatus, recognition apparatus, training method, recognition method, and program | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
CN111739134B (zh) | 虚拟角色的模型处理方法、装置及可读存储介质 | |
US11107267B2 (en) | Image generation apparatus, image generation method, and program | |
WO2023195099A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20210018114A (ko) | 교차 도메인 메트릭 학습 시스템 및 방법 | |
US20220392251A1 (en) | Method and apparatus for generating object model, electronic device and storage medium | |
CN116863044A (zh) | 人脸模型的生成方法、装置、电子设备及可读存储介质 | |
KR20230101469A (ko) | 타겟 객체의 디지털 모델로부터 에지의 특성을 검출하고 샘플 포인트를 설정하여 타겟 객체를 학습하는 방법 및 이를 이용하여 타켓 객체를 구현한 실물 객체에 가상 모델을 증강하는 방법 | |
CN114972587A (zh) | 表情驱动方法、装置、电子设备及可读存储介质 | |
JP6967150B2 (ja) | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム | |
WO2023175727A1 (ja) | 情報処理システム、情報処理方法及びプログラム | |
US20240127456A1 (en) | Method for learning a target object by extracting an edge from a digital model of the target object, and a method for augmenting a virtual model on a real object corresponding to the digital model of the target object using the same | |
CN116880723B (zh) | 一种3d场景显示方法及系统 | |
JP2018200175A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20220254052A1 (en) | Three-dimensional pose estimation method, program, recording medium and three-dimensional pose estimation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22936499 Country of ref document: EP Kind code of ref document: A1 |