JPWO2021033242A1 - 画像認識装置、画像認識方法、及び、画像認識プログラム - Google Patents

画像認識装置、画像認識方法、及び、画像認識プログラム Download PDF

Info

Publication number
JPWO2021033242A1
JPWO2021033242A1 JP2021541364A JP2021541364A JPWO2021033242A1 JP WO2021033242 A1 JPWO2021033242 A1 JP WO2021033242A1 JP 2021541364 A JP2021541364 A JP 2021541364A JP 2021541364 A JP2021541364 A JP 2021541364A JP WO2021033242 A1 JPWO2021033242 A1 JP WO2021033242A1
Authority
JP
Japan
Prior art keywords
image
state
recognition
input image
pickup device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021541364A
Other languages
English (en)
Other versions
JP7177280B2 (ja
Inventor
勉 堀川
大地 小野
博之 矢部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2021033242A1 publication Critical patent/JPWO2021033242A1/ja
Application granted granted Critical
Publication of JP7177280B2 publication Critical patent/JP7177280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

撮影時の撮像装置の状態情報を用いることで、学習時に必要とされる教師画像の数が少なく、認識精度が高く、かつ、計算負荷の低い画像認識装置、画像認識方法、及び、画像認識プログラムを提供する。画像認識装置は、第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部と、第2状態の撮像装置により撮像された入力画像と、該第2状態を表す第2状態情報と、を取得する入力画像取得部と、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理を適用することにより、変換画像を生成する画像変換部と、を含み、前記認識部は、前記変換画像に対する認識処理を実行する。

Description

本発明は、画像認識装置、画像認識方法、及び、画像認識プログラムに関する。
画像に対して、当該画像に表された対象を認識する技術がある。例えば、撮像された画像の被写体の人物を認識する技術や、画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識する(いわゆる、セマンティックセグメンテーション(Semantic segmentation))技術等が知られている。近年、より高精度な認識処理を行うために、教師画像に基づいて学習が実行された機械学習モデルを用いて認識処理が行われることもある。
学習が実行された機械学習モデルを用いて認識処理を実行する場合、当該学習に用いられる教師画像を準備する必要がある。撮像装置の姿勢や撮像装置が置かれた位置によって、撮影された画像の画角や撮影画像における鉛直方向の向きは異なる。従って、不作為の条件下で教師画像が撮像された場合、当該教師画像には、画角や向きが様々な撮影画像が含まれる。画角や向きが様々な撮影画像を教師画像として学習が実行された機械学習モデルは、種々の画角や向きで撮影された入力画像に対して認識処理を実行できる反面、必要とされる教師画像の数が多くなり、認識精度の向上が困難である。また、必要な認識精度を確保するためには、パラメータの数を増やす必要があり、計算規模が大型化するという問題がある。
本発明は、上記問題点に鑑みてなされたものであり、その目的は、撮影時の撮像装置の状態情報を用いることで、学習時に必要とされる教師画像の数が少なく、認識精度が高く、計算負荷の低い画像認識装置、画像認識方法、及び、画像認識プログラムを提供することである。
上記課題を解決するために、本発明に係る画像認識装置は、第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部と、第2状態の撮像装置により撮像された入力画像と、該第2状態を表す第2状態情報と、を取得する入力画像取得部と、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理を適用することにより、変換画像を生成する画像変換部と、を含み、前記認識部は、前記変換画像に対する認識処理を実行する、ことを特徴とする。
本発明の一態様では、前記変換処理は、前記入力画像の回転である、ことを特徴とする。
本発明の一態様では、前記変換処理は、前記入力画像の一部の切り取りである、ことを特徴とする。
本発明の一態様では、切り取られる前記入力画像の一部は、前記入力画像の中心と、前記入力画像に表された水平軸と、を含むことを特徴とする。
本発明の一態様では、前記変換処理は、前記入力画像に対するアフィン変換である、ことを特徴とする。
本発明の一態様では、前記認識部は、さらに、第3状態の撮像装置により撮像された教師画像に基づいて、学習が実行済の機械学習モデルであって、前記画像変換部は、前記第1状態または前記第3状態のうち前記第2状態に近い状態で撮像された画像に近づける前記変換処理を行う、ことを特徴とする。
本発明に係る画像認識方法は、撮像装置により撮像された入力画像と、状態情報と、を取得する入力画像取得ステップと、前記入力画像に対して変換処理を適用することにより、変換画像を生成する画像変換ステップと、第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部によって、前記変換画像に対する認識処理を実行する認識ステップと、を含み、前記入力画像は第2状態の撮像装置に撮像された画像であり、前記入力画像取得ステップで取得される状態情報は、前記第2状態を表す第2状態情報であり、前記変換処理は、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理である、ことを特徴とする。
本発明に係る画像認識プログラムは、撮像装置により撮像された入力画像と、状態情報と、を取得する入力画像取得手順と、前記入力画像に対して変換処理を適用することにより、変換画像を生成する画像変換手順と、第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部によって、前記変換画像に対する認識処理を実行する認識手順と、をコンピュータに実行させる画像認識プログラムであって、前記入力画像は第2状態の撮像装置に撮像された画像であり、前記入力画像取得ステップで取得される状態情報は、前記第2状態を表す第2状態情報であり、前記変換処理は、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理である、ことを特徴とする。
本発明の一実施形態に係る画像認識装置の構成図である。 本発明の一実施形態に係る画像認識装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る画像処理装置で行われる学習処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る画像処理装置で行われる画像認識の流れの一例を示すフロー図である。 本発明の一実施形態に係る画像認識の一例を示す図である。 本発明の一実施形態に係る画像認識の一例を示す図である。
以下、本発明の一実施形態について図面に基づき詳細に説明する。図1は、本実施形態に係る画像認識装置10の構成図である。
本実施形態に係る画像認識装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。また、画像認識装置10は、デジタルカメラ等の撮像装置であってもよい。図1に示すように、本実施形態に係る画像認識装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば画像認識装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、画像認識装置10は、ネットワークボードなどの通信インタフェース、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
図2は、本発明の一実施形態に係る画像認識装置10で実装される機能の一例を示す機能ブロック図である。図2に示すように、画像認識装置10は、認識部204及びパラメータ保存部206を含む学習部202と、入力画像取得部208と、画像変換部210と、を含む。
認識部204は、第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである。具体的には、例えば、認識部204は、例えば、畳み込みニューラルネットワーク(CNN)により実装された機械学習モデルである。教師画像は、カメラ等の撮像装置により、一定の状態で撮像された複数の画像である。当該状態により、撮像装置のレンズによって定まる水平方向及び鉛直方向の画角(または焦点距離)や、撮像装置の鉛直方向に対する角度などが決定される。当該状態によって、撮像される対象となる実空間における領域が定まる。
すなわち、撮像装置は実空間における一定の領域から入射した光を画像に変換するが、当該領域は、撮像装置に含まれる複数のレンズの位置関係や、撮像装置に含まれる撮像素子の鉛直方向に対する角度等によって定まる。当該領域を決定する要素であるレンズの位置関係や撮像装置の姿勢(撮像素子の角度)等の撮像条件を表す情報を、以下、状態情報と呼称する。教師画像は、例えば、レンズの焦点距離が35mmであって、撮像装置の底面(または、当該撮像装置の内部に配置された撮像素子の下側端部)と鉛直方向とのなす角度が90度(すなわち、撮像装置が水平に固定された状態)であるという固定された状態の撮像装置によって複数撮像される。
また、認識部204は、変換画像に対する認識処理を実行する。具体的には、例えば、認識部204は、後述する変換画像に含まれる被写体の人物や建物等を認識する。また、認識部204は、変換画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識するセマンティックセグメンテーションを行ってもよい。
認識部204は、上記のような第1状態の撮像装置により撮像された教師画像に基づいて、予め学習が実行された機械学習モデルである。当該学習は、学習に用いられる教師画像が、一定の状態の撮像素子により撮像された画像である点が特徴であるが、その他は従来から知られた方法で行われてもよい。当該学習について、学習の態様を示す図3を参照しながら説明する。
まず、撮像装置が第1状態で固定された状態で、複数の教師画像を撮像する。そして、認識部204は、当該複数の教師画像を取得する(S302)。また、学習部202は、S302で取得された教師画像に対して認識処理が行われた結果を取得する(S304)。当該認識処理は、学習部202に含まれる認識部204によって行われる処理ではなく、従来から知られた任意の方法によって、正解の認識結果が得られる処理である。従って、学習部202は、S302で取得された教師画像に対する正解の認識結果を取得する。
そして、学習部202は、教師画像及び当該教師画像の正解の認識結果を用いて、認識部204の学習を実行する(S306)。当該学習では、例えば、正解の認識結果と、入力された教師画像に対して認識部204が認識処理を行った結果と、の比較結果(以下、誤差)が特定される。誤差は、0以上1以下の値をとるデータであってもよい。この場合、誤差は例えば、正解の認識結果と、入力された教師画像に対して認識部204が認識処理を行った結果と、が一致する場合に値として0をとり、一致しない場合に値として1をとるデータであってもよい。学習部202は、当該誤差に基づいて、例えば誤差逆伝搬法により、認識部204のパラメータの値が更新される。
そして、学習部202は、事前に定められた終了条件を満たしたか否かを確認する(S308)。事前に定められた終了条件を満たしていない場合は(S308:N)、学習部202は、S306に示す処理に戻る。事前に定められた終了条件を満たした場合は(S308:Y)、本処理例に示す処理を終了する。これにより、認識部204のパラメータの値の更新が、繰り返し実行される。以上のようにして、画像認識装置10に実装されている認識部204は、実行された機械学習モデルである。
パラメータ保存部206は、機械学習モデルである認識部204のパラメータを保存する。具体的には、例えば、パラメータ保存部206は、図3に示すフローで学習が実行されることによって決定されたパラメータを保存する。
入力画像取得部208は、第2状態の撮像装置により撮像された入力画像と、該第2状態を表す第2状態情報と、を取得する。具体的には、例えば、入力画像取得部208は、任意の状態(例えば、焦点距離が28mmであって、撮像装置の底面と鉛直方向とのなす角度が120度)の撮像装置によって撮像された画像と、当該状態を表す第2状態情報と、を取得する。
ここで、撮像装置の内部に配置されたレンズの動作を制御する制御部は、焦点距離を表す情報を取得できる。また、撮像装置がジャイロセンサを有する場合には、ジャイロセンサは、撮像装置の底面と鉛直方向とのなす角度を表す情報を取得できる。入力画像取得部208は、撮像装置に含まれる制御部やジャイロセンサから第2状態を表す第2状態情報を取得できる。
なお、入力画像取得部208は、認識処理を実行する対象となる画像の数に応じて、複数の入力画像と第2状態情報の組み合わせを取得してもよい。第1状態情報は一定であるが、第2状態は任意でよいため、第2状態情報は取得される入力画像ごとに異なっていてもよい。
画像変換部210は、第2状態情報に基づいて、入力画像に対して、第1状態で撮像された画像に近づける変換処理を適用することにより、変換画像を生成する。具体的には、例えば、変換処理は、入力画像の回転である。画像変換部210は、第2状態(焦点距離が28mmであって、撮像装置の底面と鉛直方向とのなす角度が120度)の撮像装置に撮像された入力画像を、第1状態(レンズの焦点距離が28mmであって、撮像装置の底面と鉛直方向とのなす角度が90度)で撮像された画像に近づけるように回転させる。第1状態と第2状態の焦点距離は同じであるため、画角は同じである。一方、第1状態と第2状態の上記角度は、30度異なる。従って、画像変換部210は、入力画像を反時計回りに30度回転させる。
なお、変換処理は、入力画像の一部の切り取りであってもよい。具体的には、例えば、画像変換部210は、第2状態(焦点距離が28mmであって、撮像装置の底面と鉛直方向とのなす角度が90度)の撮像装置に撮像された入力画像を、第1状態(レンズの焦点距離が35mmであって、撮像装置の底面と鉛直方向とのなす角度が90度)で撮像された画像に近づけるように切り取る。この場合、第1状態と第2状態の角度は同じである。一方、第1状態と第2状態の焦点距離が異なるため、画角が異なる。従って、画像変換部210は、第2状態で撮像された入力画像のうち、第1状態で撮像された画角に相当する領域を切り取ってもよい。
また、変換処理は、入力画像に対するアフィン変換であってもよい。具体的には、画像変換部210は、入力画像を第1状態で撮像された画像に近づけるように、入力画像に対して、拡大縮小、剪断、回転、平行移動を行ってもよい。
以上のように、一定の状態である第1状態で撮像された教師画像を用いて学習が実行された機械学習モデルと、撮影時の撮像装置の状態を表す第2状態情報を用いることで、教師画像と入力画像が撮像される際の撮像装置の状態に関する条件を揃えることができる。従って、低い計算負荷で精度の高い認識処理を実行できる。
上記において、第1状態の撮像装置により撮像された教師画像に基づいて学習を実行する実施形態について説明したが、認識部204は、さらに、第3状態の撮像装置により撮像された教師画像に基づいて、学習が実行済の機械学習モデルであってもよい。この場合、第2状態情報に基づいて、画像変換部210は、第1状態または第3状態のうち第2状態に近い状態で撮像された画像に近づける変換処理を行う。
具体的には、例えば、認識部204は、撮像装置が第1状態で固定された状態で撮像された複数の教師画像と、撮像装置が第3状態で固定された状態で撮像された複数の教師画像と、が混合された複数の教師画像に基づいて図3に示すフローで学習が実行された機械学習モデルであってもよい。この場合、撮像装置が第1状態で固定された状態で撮像された複数の教師画像のみを用いて決定されたパラメータとは異なるパラメータが決定される。認識部204は、当該パラメータを用いることによって、認識処理を実行する。
また、例えば、認識部204は、撮像装置が第1状態で固定された状態で撮像された複数の教師画像に基づいて実行される学習と、撮像装置が第3状態で固定された状態で撮像された複数の教師画像に基づいて実行される学習と、が個別に実行された機械学習モデルであってもよい。この場合、パラメータ保存部206は、第1状態の撮像装置により撮像された教師画像に基づいて学習が実行されたときに決定された第1パラメータと、第3状態の撮像装置により撮像された教師画像に基づいて学習が実行されたときに決定された第3パラメータと、の2種類を保存する。そして、第2状態情報が表す状態が第1状態または第3状態のいずれと近いか判定された後、近いと判定された状態と関連付けられたパラメータが選別される。認識部204は、当該選別されたパラメータを用いることによって、認識処理を実行する。
上記の場合も、教師画像と入力画像が撮像される際の撮像装置の状態に関する条件を揃えることができるため、低い計算負荷で高精度な認識処理を実行できる。
次に、本実施形態に係る画像認識装置10で行われる、認識処理の一例を、図4から図6に例示するフロー図を参照しながら説明する。なお、認識部204は、第1状態だけでなく、第3状態の撮像装置により撮像された教師画像に基づいて、学習が実行済の機械学習モデルであるとする。具体的には、例えば、第1状態は、焦点距離が35mmであって、撮像装置の底面と鉛直方向とのなす角度が90度を表し、第3状態は、焦点距離が28mmであって、撮像装置の底面と鉛直方向とのなす角度が90度を表すとする。
まず、入力画像取得部208は、第2状態の撮像装置により撮像された入力画像を取得する(S402)。また、入力画像取得部208は、該第2状態を表す第2状態情報を取得する(S404)。具体的には、図5の例で示す入力画像は、焦点距離が35mmであって、撮像装置の底面と鉛直方向とのなす角度が120度である第2状態の撮像装置に撮像された画像である。また、図6の例で示す入力画像は、焦点距離が20mmであって、撮像装置の底面と鉛直方向とのなす角度が90度である第2状態の撮像装置に撮像された画像である。入力画像取得部208は、図5または図6に示す入力画像が撮像された時の状態を表す第2状態情報を取得する。
次に、第2状態情報が表す状態が、教師画像が撮像された時の状態である第1状態または第3状態のいずれと近いか判定される(S406)。当該判定は、各状態における焦点距離や撮像装置の底面と鉛直方向とのなす角度の相違の大きさに基づいて判定される。例えば、各状態の焦点距離または上記角度の一方のみが異なる場合、相違の絶対値の大きさに基づいて、第1状態と第3状態のいずれが第2状態に近いか判定される。各状態の焦点距離または上記角度の双方が異なる場合、使用の用途等に応じて、適宜重み付け等を用いて、第1状態と第3状態のいずれが第2状態に近いか判定される。第2状態が第1状態に近いと判定された場合、S408へ進む。
第2状態が第1状態に近いと判定された場合、画像変換部210は、第2状態情報に基づいて、入力画像に対して、第1状態で撮像された画像に近づける変換処理を適用する(S408)。この場合、図5に示すように、画像変換部210は、入力画像を反時計回りに30度回転させる。なお、図5では回転のみを行った後の画像を記載しているが、画像変換部210は、さらに、画像の上下左右の端部が縦方向及び横方向に平行になるように画像の切り取りを行ってもよい。
一方、S406において第2状態が第3状態に近いと判定された場合、S410へ進む。画像変換部210は、第2状態情報に基づいて、入力画像に対して、第3状態で撮像された画像に近づける変換処理を適用する(S410)。この場合、図6に示すように、画像変換部210は、第2状態で撮像された入力画像のうち、第3状態で撮像された画角に相当する領域を切り取る。
ここで、画像変換部210で入力画像の切り取りを行う場合、入力画像のうち重要な領域を含むように切り取る領域を移動させてもよい。重要な領域は、入力画像の中心領域、撮影時にユーザの視線が集中した領域、別途行われた顔認識領域などによって決定される。移動させる大きさは、使用の用途等に応じて、適宜重み付け等を用いて、状態情報の一致度と、切り取った画像に占められる重要な領域の割合と、の合計値を最大化するように決定される。画像変換部210は、第2状態情報に基づいて、入力画像に対して、第1状態で撮像された画像に近づける変換処理を適用するため、切り取る領域が入力画像の端に寄ってしまう場合がある。このように切り取る領域を移動することで、ユーザが意図した領域である可能性の高い領域について画像認識を実行できる。
例えば、入力画像の中心領域を含むように切り取る場合、画像変換部210は、図6のように水平軸602及び中心604が含まれるように入力画像を切り取る。なお、水平軸602を表す情報は、撮像装置のジャイロセンサ等から取得した第2状態情報に基づいて判断される。図6の上側画像のように入力画像の水平軸602が画像上部に存在する場合、画像変換部210は、入力画像の上側中央部から、焦点距離が28mmである画角に相当する領域を切り取る。図6の下側画像のように入力画像の水平軸602が画像下部に存在する場合、画像変換部210は、入力画像の下側中央部から、焦点距離が28mmである画角に相当する領域を切り取る。
そして、S408またはS410で作成された変換画像に対して、認識部204は、画像認識を実行する(S412)。ここでは、パラメータ保存部206は、第1状態の撮像装置により撮像された教師画像に基づいて学習が実行されたときに決定された第1パラメータと、第3状態の撮像装置により撮像された教師画像に基づいて学習が実行されたときに決定された第3パラメータと、の2種類を保存しているとする。S408によって作成された変換画像は、認識部204によって、第1パラメータを用いて、認識処理が実行される。一方、S410によって作成された変換画像は、認識部204によって、第3パラメータを用いて、認識処理が実行される。
以上の機能は、コンピュータである画像認識装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像認識装置10に供給されてもよい。また、教師画像が撮像されるときの状態は第1状態及び第3状態の2種類に限られず、限定されていれば3種類以上であってもよい。
なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (8)

  1. 第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部と、
    第2状態の撮像装置により撮像された入力画像と、該第2状態を表す第2状態情報と、を取得する入力画像取得部と、
    前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理を適用することにより、変換画像を生成する画像変換部と、
    を含み、
    前記認識部は、前記変換画像に対する認識処理を実行する、
    ことを特徴とする画像認識装置。
  2. 前記変換処理は、前記入力画像の回転である、
    ことを特徴とする請求項1に記載の画像認識装置。
  3. 前記変換処理は、前記入力画像の一部の切り取りである、
    ことを特徴とする請求項1に記載の画像認識装置。
  4. 切り取られる前記入力画像の一部は、前記入力画像の中心と、前記入力画像に表された水平軸と、を含むことを特徴とする請求項3に記載の画像認識装置。
  5. 前記変換処理は、前記入力画像に対するアフィン変換である、
    ことを特徴とする請求項1に記載の画像認識装置。
  6. 前記認識部は、さらに、第3状態の撮像装置により撮像された教師画像に基づいて、学習が実行済の機械学習モデルであって、
    前記画像変換部は、前記第1状態または前記第3状態のうち前記第2状態に近い状態で撮像された画像に近づける前記変換処理を行う、
    ことを特徴とする請求項1から5のいずれかに記載の画像認識装置。
  7. 撮像装置により撮像された入力画像と、状態情報と、を取得する入力画像取得ステップと、
    前記入力画像に対して変換処理を適用することにより、変換画像を生成する画像変換ステップと、
    第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部によって、前記変換画像に対する認識処理を実行する認識ステップと、
    を含み、
    前記入力画像は第2状態の撮像装置に撮像された画像であり、
    前記入力画像取得ステップで取得される状態情報は、前記第2状態を表す第2状態情報であり、
    前記変換処理は、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理である、
    ことを特徴とする画像認識方法。
  8. 撮像装置により撮像された入力画像と、状態情報と、を取得する入力画像取得手順と、
    前記入力画像に対して変換処理を適用することにより、変換画像を生成する画像変換手順と、
    第1状態情報で表される第1状態の撮像装置により撮像された教師画像に基づいて学習が実行された機械学習モデルである認識部によって、前記変換画像に対する認識処理を実行する認識手順と、
    をコンピュータに実行させる画像認識プログラムであって、
    前記入力画像は第2状態の撮像装置に撮像された画像であり、
    前記入力画像取得ステップで取得される状態情報は、前記第2状態を表す第2状態情報であり、
    前記変換処理は、前記第2状態情報に基づいて、前記入力画像に対して、前記第1状態で撮像された画像に近づける変換処理である、
    ことを特徴とする画像認識プログラム。
JP2021541364A 2019-08-19 2019-08-19 画像認識装置、画像認識方法、及び、画像認識プログラム Active JP7177280B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/032309 WO2021033242A1 (ja) 2019-08-19 2019-08-19 画像認識装置、画像認識方法、及び、画像認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2021033242A1 true JPWO2021033242A1 (ja) 2021-12-16
JP7177280B2 JP7177280B2 (ja) 2022-11-22

Family

ID=74659886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541364A Active JP7177280B2 (ja) 2019-08-19 2019-08-19 画像認識装置、画像認識方法、及び、画像認識プログラム

Country Status (2)

Country Link
JP (1) JP7177280B2 (ja)
WO (1) WO2021033242A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693694A (zh) * 2020-12-25 2022-07-01 日本电气株式会社 图像处理的方法、设备和计算机可读存储介质
WO2024166600A1 (ja) * 2023-02-10 2024-08-15 日本電気株式会社 学習モデル生成装置、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017227957A (ja) * 2016-06-20 2017-12-28 株式会社リコー 情報処理装置、および、情報処理システム
JP2019125116A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017227957A (ja) * 2016-06-20 2017-12-28 株式会社リコー 情報処理装置、および、情報処理システム
JP2019125116A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP7177280B2 (ja) 2022-11-22
WO2021033242A1 (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
CN111723691B (zh) 一种三维人脸识别方法、装置、电子设备及存储介质
CN109426835B (zh) 信息处理装置、信息处理装置的控制方法和存储介质
CN110163087B (zh) 一种人脸姿态识别方法及系统
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
US11042730B2 (en) Method, apparatus and device for determining an object, and storage medium for the same
CN112257696B (zh) 视线估计方法及计算设备
CN110555426A (zh) 视线检测方法、装置、设备及存储介质
CN113129451B (zh) 基于双目视觉定位的全息三维影像空间定量投影方法
WO2021033242A1 (ja) 画像認識装置、画像認識方法、及び、画像認識プログラム
CN108648141B (zh) 一种图像拼接方法及装置
CN115187663A (zh) 扫描仪姿态定位方法、装置、设备及存储介质
WO2021258251A1 (zh) 用于可移动平台的测绘方法、可移动平台和存储介质
JP2961264B1 (ja) 3次元物体モデル生成方法及び3次元物体モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2730457B2 (ja) 視覚に基く三次元位置および姿勢の認識方法ならびに視覚に基く三次元位置および姿勢の認識装置
KR101891457B1 (ko) 비대칭 렌즈의 안식각을 결정하기 위한 시스템들 및 방법들
CN116670565A (zh) 用于确定符合性的方法和系统
JP2021000694A (ja) ロボット教示装置及びロボットシステム
CN117253022A (zh) 一种对象识别方法、装置及查验设备
CN112036253A (zh) 一种基于深度学习的人脸关键点定位方法
CN115578432B (zh) 图像处理方法、装置、电子设备及存储介质
JP2009302731A (ja) 画像処理装置、画像処理プログラム、画像処理方法、および電子機器
CN112991255A (zh) 机器人平衡判定装置及机器人平衡判定方法
TW202311815A (zh) 在實體表面上顯示數位媒體內容
CN114549825A (zh) 目标检测方法、装置、电子设备与存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221110

R150 Certificate of patent or registration of utility model

Ref document number: 7177280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150