WO2021220342A1 - 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体 - Google Patents

物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021220342A1
WO2021220342A1 PCT/JP2020/017967 JP2020017967W WO2021220342A1 WO 2021220342 A1 WO2021220342 A1 WO 2021220342A1 JP 2020017967 W JP2020017967 W JP 2020017967W WO 2021220342 A1 WO2021220342 A1 WO 2021220342A1
Authority
WO
WIPO (PCT)
Prior art keywords
graph
node
product
objects
teacher
Prior art date
Application number
PCT/JP2020/017967
Other languages
English (en)
French (fr)
Inventor
壮馬 白石
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/920,468 priority Critical patent/US20230306717A1/en
Priority to PCT/JP2020/017967 priority patent/WO2021220342A1/ja
Priority to JP2022518440A priority patent/JPWO2021220342A5/ja
Publication of WO2021220342A1 publication Critical patent/WO2021220342A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

物体認識装置において、画像取得手段は画像を取得する。物体認識手段は、画像に含まれる物体を認識し、認識結果を生成する。グラフ生成手段は、認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、物体間の関係をノードとエッジの他方に定義したグラフを生成する。グラフ解析手段は、グラフを解析し、物体間の関係性を示す解析結果を生成する。

Description

物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体
 本発明は、画像に含まれる物体の認識に関する。
 店舗内の商品棚の撮影画像を用いて、商品の棚割を管理する手法が提案されている。例えば、特許文献1は、商品棚の撮影画像に対する画像認識処理により、物体領域のカテゴリの分類及び信頼度の算出を行う手法を記載している。
国際公開WO2019/088223号公報
 実際の店舗における商品棚の場合、一般的に同一カテゴリの商品は近い場所に配置される傾向があり、外観が似ている商品が並んで配置されることが多い。このため、商品棚の撮影画像から物体認識処理により個々の商品を認識した場合に、誤認識が発生することがある。
 本発明の1つの目的は、画像に含まれる複数の物体を精度よく認識することが可能な物体識別装置を提供することにある。
 本発明の一つの観点では、物体認識装置は、
 画像を取得する画像取得手段と、
 前記画像に含まれる物体を認識し、認識結果を生成する物体認識手段と、
 前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成するグラフ解析手段と、
 を備える。
 本発明の他の観点では、物体認識方法は、
 画像を取得し、
 前記画像に含まれる物体を認識し、認識結果を生成し、
 前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する。
 本発明のさらに他の観点では、記録媒体は、
 画像を取得し、
 前記画像に含まれる物体を認識し、認識結果を生成し、
 前記認識結果に基づき、認識された個々の物体をノード及びのエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する処理をコンピュータに実行させるプログラムを記録する。
 本発明のさらに他の観点では、学習装置は、
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成する教師データ生成手段と、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成するグラフ解析手段と、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する学習手段と、
 を備える。
 本発明のさらに他の観点では、学習方法は、
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する。
 本発明のさらに他の観点では、記録媒体は、
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、画像に含まれる複数の物体を精度よく認識することが可能となる。
第1実施形態に係る物体認識装置を示す。 第1実施形態に係る物体認識装置のハードウェア構成を示す。 第1実施形態に係る物体認識装置の機能構成を示す。 商品棚の撮影画像の例を示す。 商品棚の画像からの物体認識結果及びそのグラフの例を示す。 商品棚の画像からの物体認識結果及びそのグラフの例を示す。 グラフを生成する際のエッジ付与ルールの例を示す。 グラフ解析部が出力する解析結果の例を示す。 物体認識装置による物体認識処理のフローチャートである。 第1実施形態の応用例に係る物体認識装置の機能構成を示す。 修正部による認識結果の修正方法の例を示す。 修正部による認識結果の修正方法の例を示す。 第1実施形態に係る学習装置の機能構成を示す。 学習装置による学習処理のフローチャートである。 変形例4に係るグラフの例を示す。 第2実施形態に係る物体認識装置及び学習装置の機能構成を示す。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 <第1実施形態>
 [基本概念]
 カメラなどで商品棚を撮影した画像を用いて、物体認識処理により、商品棚に商品がどのように並んでいるかを認識することが行われている。しかし、実際の店舗における商品棚の場合、様々な理由により個別の商品の誤認識が発生しうる。一方で、店舗における商品の並び方には、特定のルールがあることが多い。例えば、「同じ商品は隣り合って並ぶ」、「同じサイズの商品は同じ段に並ぶ」、「大きい商品は棚の下の方に並ぶ」などのルール(以下、「陳列ルール」とも呼ぶ。)がある。そこで、本実施形態では、商品棚の画像の認識結果に対して上記のような陳列ルールを考慮することで、個々の商品の認識精度を改善する。なお、陳列ルールには、業界全体に共通するルール、店舗の種類毎(例えば、スーパーマーケット毎、コンビニ毎など)のルール、個別の店舗毎のローカルルールなどがあるが、本実施形態ではいずれのルールにも対応可能である。
 図1は、第1実施形態に係る物体認識装置の概略を示す。物体認識装置100は、店舗の商品棚の撮影画像から、商品棚に陳列された個々の商品を認識する。具体的に、物体認識装置100は、商品棚を撮影した画像から個々の商品を認識し、その認識結果を解析した解析結果を出力する。
 [ハードウェア構成]
 図2は、物体認識装置100のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
 IF11は、外部装置との間でデータの入出力を行う。具体的に、商品棚を撮影した画像はIF11を介して入力される。また、物体認識装置100により生成された解析結果は、必要に応じてIF11を通じて外部装置へ出力される。
 プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。具体的に、プロセッサ12は、後述する物体認識処理、学習処理を実行する。
 メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。物体認識装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
 データベース15は、IF11を通じて入力された撮影画像や、物体認識装置100による認識結果及び解析結果などを記憶する。また、データベース15は、後述する物体認識モデルやグラフ解析モデル、及び、それらの学習に用いられる教師データなどを記憶する。なお、物体認識装置100は、使用者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
 [機能構成]
 図3は、物体認識装置100の機能構成を示すブロック図である。物体認識装置100は、機能的には、画像取得部21と、物体認識部22と、グラフ生成部23と、グラフ解析部24と、を備える。
 画像取得部21は、商品棚を撮影した画像を取得する。具体的に、画像取得部21は、商品棚の撮影に使用されたカメラから画像を直接取得してもよく、撮影した画像を予め蓄積したデータベースなどから画像を取得してもよい。図4は、商品棚を撮影した画像の例を示す。図4の例では、商品棚40は、上段41a、中段41b、下段41cの3つの段を備え、各段に複数の商品が陳列されている。各商品は、同じ商品は隣り合って並ぶ、大きい商品は棚の下の方に並ぶなど、先に例示した陳列ルールに従って配置されている。
 物体認識部22は、画像取得部21が取得した画像に対して物体認識処理を行い、個々の物体を認識する。例えば、物体認識部22は、ニューラルネットワークなどを用いた学習済みの物体認識モデルを使用して物体を認識する。図5(A)は、物体認識部22による個々の物体の認識結果の例を示す。物体認識部22は、まず、画像から個々の物体に対応する矩形領域を検出する。次に、物体認識部22は、各矩形領域の位置、サイズ、特徴量を抽出し、それらに基づいて各商品の種類(例えば、商品名や商品カテゴリ(酒、ジュース、ミルクなど)。以下、「商品クラス」とも呼ぶ。)を認識する。さらに、物体認識部22は、特徴量の一致度又は類似度が所定の閾値以上である商品を同一の商品クラスと判定する。図5(A)の例では、商品棚40の商品が商品A~Eの5種類の商品クラスに分類されている。物体認識部22は、こうして得られた各商品の位置、サイズ、種類、特徴量などを認識結果としてグラフ生成部23に出力する。
 グラフ生成部23は、物体認識部22から入力される各商品の認識結果に基づいて、各商品の関係性を示すグラフを生成する。具体的に、グラフ生成部23は、商品の位置、サイズ、種類、特徴量などをノードやエッジに定義して、各商品の関係性を示すグラフを生成する。一例では、グラフ生成部23は、物体認識部22により認識された各商品をノードとし、個々のノードにその商品の位置、サイズ、種類、特徴量などを定義する。そして、グラフ生成部23は、各商品の位置、サイズ、種類、特徴量などに基づいてノード間にエッジを定義してグラフを生成する。図5(B)は、図5(A)に示す商品棚の画像に基づいて生成されたグラフの一例を示す。図5(B)のグラフでは、各商品がノードNdとなっており、各ノードNdには商品クラス(商品A~E)が示されている。また、同一種類の商品に対応するノードNdの間にエッジEdが付与されている。このグラフにより、商品棚に陳列されている複数種類の商品の配置が表現される。
 図6(A)は、図5(A)に示す商品棚の画像において、一部の商品を入れ替えた例を示す。具体的に、図6(A)では、図5(A)に示す商品棚40の上段41aの中央付近の商品Aと商品Bを入れ替え、中段41bの中央付近の商品Cと商品Dを入れ替えている。図6(B)は、図6(A)の画像に対応するグラフの例を示す。図6(B)においては、破線の楕円91で示すように、上段の商品Aと商品Bの位置が入れ替わっており、それらの商品についてのエッジが無くなっている。同様に、破線の楕円92で示すように、中段の商品Cと商品Dの位置が入れ替わっており、それらの商品についてのエッジが無くなっている。このように、グラフ生成部23が生成するグラフにより、各商品の種類及び位置関係が表現される。
 なお、上記の例では、同一種類の商品をエッジで接続しているが、エッジを付与するルール(以下、「エッジ付与ルール」と呼ぶ。)はこれには限られない。図7は、グラフ生成部23がグラフを生成する際のエッジ付与ルールの例を示す。グラフ生成部23は、以下のエッジ付与ルールのいずれか1つ又は複数の組み合わせに基づいてエッジを付与する。なお、以下の例において、各商品をノードとする点は同じである。
 (1)物理距離関係
 図7(A)に示すように、この例では、商品間の物理的な距離に基づいてエッジの有無を決定する。具体的には、グラフ生成部23は、隣接する商品間にエッジを付与するか、一定の距離以内に存在する商品間にエッジを付与する。
 (2)商品類似関係
 図7(B)に示すように、この例では、隣接する商品の類似関係に基づいてエッジの有無を決定する。具体的には、グラフ生成部23は、隣接する商品が同一の商品クラスであればエッジを付与する。もしくは、グラフ生成部23は、相互に隣接し、かつ、サイズが近い商品間にエッジを付与する。
 (3)特徴量類似関係
 図7(C)に示すように、この例では、隣接する商品間にエッジを付与し、それら商品の特徴量の類似度(距離)をそのエッジの重みとして設定する。なお、重みの値は「0」~「1」とする。図7(C)の例では、商品Aと商品Bの類似度が「0.3」であるので、商品Aと商品Bの間のエッジの重みが「0.3」となっている。同様に、中央の商品Bと右側の商品Bの類似度が「0.9」であるので、それらの間のエッジの重みが「0.9」となっている。
 (4)位置関係
 図7(D)及び7(E)に示すように、この例では、上下又は左右に隣接する商品にエッジを付与する。図7(D)の例では、上下の位置関係にある商品間にエッジが付与されている。図7(E)の例では、左右の位置関係にある商品間にエッジが付与されている。
 図3に戻り、グラフ解析部24は、グラフ生成部23が生成したグラフを解析し、解析結果を出力する。グラフ解析部24は、グラフCNN(Convolutional Neural Network)などのグラフ解析モデルを用いて、入力されたグラフを解析する。ここで、グラフCNNについて簡単に説明する。前述のように、グラフ解析部24に入力されるグラフは、各ノードに各商品の位置、サイズ、種類、特徴量など(以下、これらをまとめて「特徴量(特徴ベクトル)X」と呼ぶ。)が与えられている。グラフCNNでは、基本的に通常のニューラルネットワークと同様に、各ノードの特徴ベクトル(特徴行列)Xに重みベクトルWを掛け合わせ、これを活性化関数に入力する処理を繰り返す。
 但し、グラフCNNでは、さらにノードの接続先を加味する。具体的に、ノードの接続関係を示す隣接行列Aを以下のように定義する。なお、隣接行列とは、接続されたノードにあたるインデックスの交差点が「1」、それ以外が「0」であるN×Nの行列である。単純化のため、以下では3×3の隣接行列を用いる。
Figure JPOXMLDOC01-appb-M000001
 また、各ノードの特徴量を示す特徴行列Xを以下のように定義する。
Figure JPOXMLDOC01-appb-M000002
 隣接行列Aに特徴行列Xをかけると、
Figure JPOXMLDOC01-appb-M000003
のようになる。
 これに、活性化関数σ(x)=ReLU(x)を組み合わせて、
Figure JPOXMLDOC01-appb-M000004
のように繰り返し演算すると、レイヤを繰り返すごとに、エッジで接続された周辺のノードの情報が加味されていく。こうして、入力されたグラフにおける各ノードの関係性を示す解析結果が得られる。
 図8は、グラフ解析部24が出力する解析結果の例を示す。いま、図8(A)に示すように、3つの商品の個別認識結果は各商品のクラス「商品A」、「商品B」、「商品B」であると仮定する。図8(B)は、解析結果の第1の出力例を示す。この例では、解析結果は、個々の商品の修正要否を示す。この例では、最も左のノードが「修正要(Yes)」であり、他の2つのノードが「修正不要(No)」となっている。
 図8(C)は、解析結果の第2の出力例を示す。この例では、解析結果は、個々の商品名などの商品ラベルであり、最も左のノードが「お茶X」であり、他の2つのノードが「コーヒーY」である。なお、第2の出力例の場合、物体認識部22が画像における各商品の外観上の特徴量に基づいて各商品の商品ラベル(商品名など)を認識し、グラフ解析部24に供給することが必要となる。具体的には、図3の破線29に示すように、物体認識部22は、各商品の外観上の特徴に基づいて各商品の商品ラベルを生成し、グラフ解析部24に出力する。グラフ解析部24は、入力された各商品の商品ラベルを用いて、図8(C)に示すように解析結果を出力する。
 図8(C)は、解析結果の第3の出力例を示す。この例では、解析結果は、個々の商品間のエッジの有無を示す。例えば、同一クラスの商品間にエッジを付与するエッジ付与ルールの場合、図8(C)に示すように、中央及び右側の2つのノード間にエッジが付与される。
 グラフ解析部24は上記のようにいくつかの形式で解析結果を出力することができるが、いずれの解析結果も、直接的又は間接的に商品の修正要否を示すものとなる。具体的に、第1の出力例は直接的に商品の修正要否を示すものであるが、第2及び第3の出力例も間接的に「最も左の商品Aを商品Bに修正することが必要である」ことを示すと理解することができる。
 なお、上記のグラフCNNは、グラフ解析部24に使用可能なモデルの一例に過ぎず、グラフCNN以外の各種のGNN(Graph Neural Network)やグラフ解析モデルをグラフ解析部24に適用することが可能である。
 [物体認識処理]
 図9は、物体認識装置100による物体認識処理のフローチャートである。この処理は、図2に示すプロセッサ12が、予め用意されたプログラムを実行し、図3に示す各構成要素として動作することにより実現される。
 まず、画像取得部21は、商品棚を撮影した画像を取得し、物体認識部22に出力する(ステップS11)。次に、物体認識部22は、入力された画像から各商品の領域を検出し、各商品の位置、サイズ、種類、特徴量などを認識結果としてグラフ生成部23に出力する(ステップS12)。グラフ生成部23は、入力された各商品の認識結果に基づいて、各商品の関係性を示すグラフを生成し、グラフ解析部24に出力する(ステップS13)。グラフ解析部24は、入力されたグラフを解析し、個々の商品の関係性を示す解析結果を出力する(ステップS14)。そして、処理は終了する。
 [物体認識装置の応用例]
 次に、物体認識装置の応用例について説明する。図10は、第1実施形態の応用例に係る物体認識装置100xの機能構成を示す。図3と比較すると理解されるように、物体認識装置100xは、物体認識装置100の構成に加えて修正部25を備える。物体認識装置100xは、グラフ解析部24による解析結果に基づいて、物体認識部22が出力した認識結果を修正する。
 具体的に、物体認識装置100xにおいて、物体認識部22は、画像取得部21から入力された画像に基づいて生成した認識結果を修正部25に出力する。また、グラフ解析部24は、図8(B)~(D)に例示されるように、個々の商品の関連性を示す解析結果を修正部25に出力する。修正部25は、グラフ解析部24が出力した解析結果に基づいて、物体認識部22が生成した認識結果を修正して出力する。例えば、グラフ解析部24が図8(B)に示すように解析結果として個々の商品の修正要否を出力する場合、修正部25は、修正要(Yes)と判定された商品を別の商品に修正する。グラフ解析部24が、図8(C)に示すように解析結果として各商品の商品ラベルを出力した場合、修正部25は、商品ラベルに基づいていずれかの商品の修正が必要か否かを判定し、修正が必要と判定された商品を修正する。グラフ解析部24が、図8(D)に示すように解析結果として商品間のエッジの有無を出力した場合、修正部25は、各商品間のエッジの有無に基づいていずれかの商品の修正が必要か否かを判定し、修正が必要と判定された商品を修正する。
 以下、修正部25による修正方法の具体例を説明する。図11は、修正部25による認識結果の修正方法の例を示す。図11(A)、(B)は、第1の修正方法を示す。第1の修正方法は、グラフ解析部24の解析結果として、ノード毎に修正要否がスコアとして得られる場合に適用される。なお、1つのノードは1つの商品に対応している。図11(A)、(B)においては、説明の便宜上、各ノードに番号1~4を付し、各ノードに対応する矩形のボックス内に各ノードの認識結果(商品クラス)を示す。また、各ボックスの括弧内の数値は各ノードの修正要否を示すスコアである。このスコアは、値が大きいほど修正の必要性が高いことを示す。
 修正部25は、各ノードのスコアを予め決められた第1の閾値と比較し、スコアが第1の閾値より大きいノードを修正対象ノードと決定する。そして、修正部25は、修正対象ノードを、それと隣接する別の商品のうち最も数が多いものに修正する。なお、「隣接する」とは、その商品を中心とする予め決められた所定範囲に属することをいい、図11の例では、隣接する商品がノード1~4の4商品であるとする。また、仮に第1の閾値を「0.5」とする。
 グラフ解析部24が図11(A)に示す解析結果を出力した場合、修正部25は、ノード1~4のスコアを第1の閾値と比較し、スコアが「0.8」であるノード2を修正対象ノードと決定する。そして、修正部25は、ノード2の商品Bを、隣接する商品のうち最多である商品Aに修正する。また、グラフ解析部24が図11(B)に示す解析結果を出力した場合も、修正部25は、ノード2を修正対象ノードと決定する。そして、修正部25は、ノード2の商品Bを、隣接する商品のうち最多である商品Aに修正する。
 なお、隣接する商品群において、修正対象ノードと同一クラスの商品の数と、修正対象ノードに隣接する別のクラスの商品の数とが同数である場合、修正部25は修正対象ノードを修正しないこととしてもよい。具体的に、図11(C)に示すように、ノード2が修正対象ノードと判定されたが、隣接する商品群のうち、修正対象ノードを含む2つのノードが商品Bであり、修正対象ノードと別の2つのノードが商品Aである場合、修正部25はノード2を修正しないこととしてもよい。
 また、上記の第1の修正方法では、修正部25は修正対象ノードを決定し、その修正まで行っているが、その代わりに、修正までは行わず、修正対象ノードを提示するにとどめてもよい。例えば図11(A)の例では、修正部25は、修正対象ノードとしてノード2を出力して処理を終了してもよい。この場合は、修正部25の出力を見て、修正対象ノードをどの商品に修正するかを人間などが決めればよい。
 図12(A)は、第2の修正方法を示す。第2の修正方法では、グラフ解析部24が解析結果として各ノードの同一商品らしさを示すスコア(以下、「一致度スコア」とも呼ぶ。)を出力するものとする。一致度スコアは「0」~「1」の値をとる。修正部25は、解析結果として得られた異なる商品クラスの組み合わせ(ペア)について、それらの商品クラス間の一致度スコアの最大値が予め決められた第2の閾値を超えた場合、それらのノードを同一商品に揃えるように修正を行う。なお、第2の修正方法では、第1の修正方法と同一又は異なる方法により、修正対象ノードが決まっているものとする。
 具体的に、図12(A)の例において、修正対象ノードがノード2であるとする。ノード2は、ノード1、3、4と商品クラスが異なっている。また、ノード1とノード2との一致度スコアは「0.8」、ノード2とノード3との一致度スコアは「0.7」、ノード2とノード4との一致度スコアは「0.7」である。いま、第2の閾値を「0.7」とする。この場合、商品Aと商品Bのペアについての一致度スコアは、ノード1とノード2の一致度スコア「0.8」、及び、ノード2とノード3の一致度スコア「0.7」であり、それらの最大値は「0.8」である。また、商品Bと商品Cのペアについての一致度スコアは、ノード2とノード3の一致度スコア「0.7」であり、その最大値は「0.7」である。よって、異なる商品ラベル間の一致度スコアの最大値は、商品Aと商品Bの一致度スコア「0.8」であり、これは第2の閾値「0.7」を超えている。よって、修正部25は、ノード2をノード1と同じ商品Aに修正する。
 なお、上記の方法で、最大値の代わりに、平均値を用いてもよい。この場合、商品Aと商品Bのペアについての一致度スコアは、ノード1とノード2の一致度スコア「0.8」、及び、ノード2とノード3の一致度スコア「0.7」であり、その平均値は「0.75」であり、これは第2の閾値「0.7」を超えている。よって、修正部25は、商品Bであるノード2を商品Aに修正する。一方、商品Bと商品Cのペアについての一致度スコアは、ノード2とノード3の一致度スコア「0.7」であり、その平均値は「0.7」であり、これは第2の閾値「0.7」を超えていない。よって、修正部25は、商品Bと商品Cとの間の修正は行わない。
 図12(B)は、第3の修正方法を示す。なお、第3の修正方法でも、グラフ解析部24は解析結果として各ノードの同一商品らしさを示す一致度スコアを出力し、一致度スコアは「0」~「1.0」の値をとるものとする。また、第3の修正方法でも、第1の修正方法と同一又は異なる方法により、修正対象ノードが決まっているものとする。
 第3の修正方法では、修正部25は、修正対象のノードを、予め決められた第3の閾値以上の一致度スコアを示す商品のうち、最も数が多いものに修正する。図12(B)の例において、各ノードの商品ラベル及び一致度は図12(A)と同様である。いま、第3の閾値を「0.7」とする。修正対象ノードであるノード2との一致度スコアが第3の閾値「0.7」以上であるのは、ノード1、3、4であり、ノード1とノード3は商品Aであるので、最多の商品は商品Aとなる。よって、修正部25は、ノード2を商品Bから商品Aに修正する。
 このように、応用例に係る物体認識装置100xでは、解析結果に基づいて修正された認識結果を得ることができる。
 [学習装置]
 次に、グラフ解析部24が使用するグラフ解析モデルの学習装置について説明する。
 (機能構成)
 図13は、学習装置200の機能構成を示すブロック図である。学習装置200は、グラフ生成部23と、グラフ解析部24と、教師データ生成部31と、学習部32とを備える。グラフ生成部23及びグラフ解析部24は図3に示す物体認識装置100のものと同様である。
 教師データ生成部31は、商品棚の画像に物体認識処理を適用して得た認識結果に基づいて、グラフ解析モデルの学習に使用される教師データを生成する。なお、商品棚に対する複数の商品の配置を「棚割」と呼び、商品棚の画像に対する認識結果を「棚割認識結果」とも呼ぶ。教師データは、教師入力データと、それに対する正解を示す教師ラベルとのセットである。
 グラフ解析部24が使用するグラフ解析モデルは、商品棚の画像についての誤った棚割認識結果を入力すると、その誤りを補正するための解析結果を出力するように学習される。よって、教師入力データは、誤りを含む棚割認識結果であり、教師データ生成部31は、一部の商品の認識結果が誤りとなっている棚割認識結果を教師入力データとして生成し、グラフ生成部23に出力する。まず、教師入力データの生成方法について説明する。
(1)第1の方法
 第1の方法では、教師データ生成部31は、商品棚を撮影した実際の画像から物体認識処理により生成された各商品の認識結果を取得する。そして、教師データ生成部31は、取得した認識結果のうち、誤りを含むものを教師入力データとする。
(2)第2の方法
 第2の方法では、教師データ生成部31は、第1の方法と同様に、商品棚を撮影した実際の画像から物体認識処理により生成された各商品の認識結果を取得する。この認識結果は、各商品について、複数の商品候補毎の信頼度を示すスコアを含む。教師データ生成部31は、取得した認識結果のうち、信頼度が1位のスコアと2位のスコアの差が予め決められた第4の閾値未満の商品を抽出し、ランダムなN個の商品について、1位と2位の結果を入れ替えることで教師入力データを生成する。即ち、この方法では、物体認識部22が生成した認識結果は正しいものであるとし、その一部の商品について意図的に認識結果を誤りに変更する。
 具体的に、教師データ生成部31は、信頼度が1位である商品候補のスコアと、信頼度が2位である商品候補のスコアとの差が第4の閾値未満である場合、信頼度が1位の商品候補の代わりに、信頼度が2位の商品候補をその商品の認識結果とする。教師データ生成部31は、この処理を、信頼度の1位と2位のスコア差が第4の閾値未満である複数の商品のうち、ランダムに選択したN個の商品について適用する。これにより、1枚の画像から物体認識処理により生成した認識結果において、ランダムに選択したN個の商品の認識結果が誤りとなった教師入力データが得られる。
(3)第3の方法
 第3の方法では、教師データ生成部31は、正解が付与された複数の商品の認識結果を取得する。そして、教師データ生成部31は、正解が付与された複数の商品のうち、ランダムに選択したN個の商品を、別の商品と入れ替える。これにより、ランダムに選択したN個の商品の認識結果が誤りとなった教師入力データが得られる。
(4)第4の方法
 第4の方法では、教師データ生成部31は、第3の方法と同様に、正解が付与された複数の商品の認識結果を取得する。また、商品棚の実際の画像に含まれる複数の商品のうち、誤認識が起こりやすい商品(以下、「誤認識候補」と呼ぶ。)を予め特定しておく。そして、教師データ生成部31は、複数の商品の認識結果に含まれる誤認識候補を、別の商品と入れ替える。例えば、ある商品Mと商品Nが類似していて誤認識が起こりやすいことがわかっている場合、教師データ生成部31は、正解が付与された複数の商品の認識結果に含まれる商品Mと商品Nを入れ替える。これにより、誤認識候補についての認識結果が誤りとなった教師入力データが得られる。
 なお、上記の第1~第4の方法によって、認識結果に含まれる商品を入れ替える際、教師データ生成部31は、入れ替えの対象となるノードについて、商品クラスとともに特徴ベクトルを入れ替える。
(5)第5の方法
 上記の第1~第4の方法では、画像に対して物体認識処理を適用して得られた認識結果を用いて教師入力データを生成している。これに対し、第5の方法では、画像データ自体を変更する。具体的には、商品棚などの画像を教師データ生成部31に入力する。教師データ生成部31は、入力された画像から個々の商品を個別に切り出して個別商品画像を生成し、個別商品画像を一定のルールに従って画像中に再配置する。再配置のルールとしては、前述の陳列ルールと同様に、「同じ商品は隣り合って並ぶ」、「同じサイズの商品は同じ段に並ぶ」、「大きい商品は棚の下の方に並ぶ」などを用いることができる。そして、教師データ生成部31は、個別商品画像を再配置して得られた画像データに対して物体認識を適用して認識結果を生成し、得られた認識結果に対して上述の第1又は第2の方法を適用して教師入力データを生成する。
 第1~第5の方法のいずれを用いた場合でも、教師データ生成部31は、生成した教師入力データに対する教師ラベルを生成する。教師ラベルは、教師入力データにおける修正箇所、即ち、修正が必要な商品の位置を示す。教師ラベルは、グラフ解析部24が出力する解析結果の形態に応じて、図8(B)~(D)のいずれかの形態で用意される。具体的に、教師データ生成部31は、上記のいずれかの方法で教師入力データとして生成された、誤りを含む認識結果と、それに対応する正しい認識結果との差分を算出し、修正箇所を示す教師ラベルを生成する。こうして得られた教師データ、即ち、教師入力データと教師ラベルのセットは、DB15などに記憶される。
 教師データ生成部31が生成した教師入力データはグラフ生成部23に入力される。グラフ生成部23は、教師入力データに基づいてグラフを生成し、グラフ解析部24に出力する。グラフ解析部24は、生成された教師入力データのグラフを解析し、解析結果を学習部32に出力する。
 学習部32は、グラフ解析部24が出力した解析結果を、予め用意された教師ラベルと比較し、その差(損失)に基づいてグラフ解析モデルを学習する。例えばグラフ解析モデルが前述のようにニューラルネットワークを用いたGCNNである場合、学習部32は、解析結果と教師ラベルとの損失に基づいて、グラフ解析モデルを構成するニューラルネットワークのパラメータを最適化する。
 (学習処理)
 次に、学習装置200による学習処理について説明する。図14は、学習処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図13に示す構成要素として動作することにより実現される。なお、以下の学習処理では、実際の商品棚の画像に対して、各商品の認識結果の正解情報が用意されていることを前提とする。
 まず、教師データ生成部31は、商品棚の画像を取得するとともに(ステップS21)、その画像について用意された各商品の認識結果の正解情報を取得する(ステップS22)。次に、教師データ生成部31は、取得した画像に対して画像認識処理を行って画像の認識結果を取得し、前述の第1~第4の方法のいずれかを用いて教師入力データを生成する(ステップS23)。また、教師データ生成部31は、生成した教師入力データと、ステップS22で取得した正解情報とを用いて、修正箇所を示す教師ラベルを生成する(ステップS24)。
 次に、教師入力データがグラフ生成部23に入力され、グラフ生成部23は、教師入力データに基づいてグラフを生成し(ステップS25)、グラフ解析部24に出力する。グラフ解析部24は、入力されたグラフを解析し、解析結果を学習部32に出力する(ステップS26)。
 学習部32は、グラフ解析部24が出力した解析結果を、ステップS24で生成された教師ラベルと比較し、その差(損失)に基づいてグラフ解析モデルを更新する(ステップS27)。以上の処理が、用意された画像分だけ実行され、学習処理は終了する。
 [変形例]
 次に、本実施形態の変形例を説明する。以下の変形例は、適宜組み合わせて適用することができる。
 (変形例1)
 上記の実施形態では、物体認識部22からグラフ生成部23に入力される個々の商品の特徴量は、商品の外観に関する特徴を含んでいるが、商品の外観に関する特徴量を含まない特徴量を用いてもよい。即ち、グラフ生成部23は、商品の外観に関する特徴を含まない特徴ベクトルを用いてグラフを生成し、グラフ解析部24はそのグラフの解析を行ってもよい。
 (変形例2)
 図12に示す物体認識装置100xは、修正部25により修正が行われた後の認識結果を出力するが、この出力を物体認識部22が使用する物体認識モデルの再学習に使用してもよい。即ち、物体認識部22は、学習済みの物体認識モデルを用いて入力された画像データから物体認識を行うが、修正部25による修正後の認識結果は、物体認識モデルによる誤認識箇所を修正した認識結果となるので、これを用いて物体認識モデルの再学習を行うことにより、物体認識モデルの認識精度を向上させることが可能となる。
 (変形例3)
 上記の実施形態では、グラフ生成部23は、各商品をノードとするグラフを生成するが、これに加えて、各商品を属性などにより分類するためのノード(以下、「分類ノード」と呼ぶ。)を設けてもよい。例えば、商品のサイズを「大型商品」、「中型商品」、「小型商品」などに分類し、分類ノードとして「大型商品ノード」、「中型商品ノード」、「小型商品ノード」を設ける。エッジを付与して各商品をいずれかの分類ノードに接続することにより、各商品のサイズ分類の情報をグラフに持たせることができる。同様に、商品の種類やカテゴリを分類するノードを設けてもよい。さらに、商品棚の各段(上段、中段、下段など)に対応する分類ノードを設け、各商品をいずれかのノードと接続することにより、各商品が商品棚のどの段にあるかを表現することができる。このような分類ノードを用いることにより、商品棚に配置された商品間の様々な関係を利用して、商品の認識精度を向上させることができる。
 (変形例4)
 上記の実施形態では、図5に例示するように、各ノードが商品を示し、各エッジが商品間の関係を示すグラフを用いて物体を認識しているが、そのグラフを線グラフ化したグラフを用いてもよい。ここで、「線グラフ(Line graph)」とは、あるグラフのエッジをノードに変換し、ノードをエッジに変換したグラフである。図15(A)は、上記の実施形態により生成されるグラフの例を示し、図15(B)は図15(A)のグラフを線グラフ化したグラフを示す。図15(A)に示すグラフでは、各ノードが商品を示し、各エッジが商品間の関係を示している。これに対し、図15(B)に示す線グラフでは、各ノードが商品間の関係を示し、各エッジは共通の商品を含むノードを結ぶことにより商品を示している。このような線グラフ化したグラフを用いても、各商品の種類や位置関係などの特徴を表現することができるので、上記の実施形態と同様の物体認識を行うことができる。この場合、上記の変形例3における分類ノードは、分類エッジとして表現することができる。
 <第2実施形態>
 次に、本発明の第2実施形態について説明する。図16(A)は、第2実施形態に係る物体認識装置の機能構成を示すブロック図である。図16(A)に示すように、物体認識装置70は、画像取得手段71と、物体認識手段72と、グラフ生成手段73と、グラフ解析手段74と、を備える。画像取得手段71は、商品棚の撮影画像などの画像を取得する。物体認識手段72は、画像に含まれる物体を認識し、認識結果を生成する。グラフ生成手段73は、認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、物体間の関係をノードとエッジの他方に定義したグラフを生成する。グラフ解析手段74は、グラフを解析し、物体間の関係性を示す解析結果を生成する。
 図16(B)は、第2実施形態に係る学習装置の機能構成を示すブロック図である。図16(B)に示すように、学習装置80は、教師データ生成手段81と、グラフ生成手段82と、グラフ解析手段83と、学習手段84と、を備える。教師データ生成手段81は、画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、教師入力データにおける修正箇所を示す教師ラベルを生成する。グラフ生成手段82は、教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、物体間の関係をノードとエッジの他方に定義したグラフを生成する。グラフ解析手段83は、グラフ解析モデルを用いてグラフを解析し、物体間の関係を示す解析結果を生成する。学習手段84は、解析結果と、教師ラベルとを用いて、グラフ解析モデルを学習する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 画像を取得する画像取得手段と、
 前記画像に含まれる物体を認識し、認識結果を生成する物体認識手段と、
 前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成するグラフ解析手段と、
 を備える物体認識装置。
 (付記2)
 前記認識結果は、前記物体のサイズ、位置、種類、及び、特徴量の少なくとも一つを含む付記1に記載の物体認識装置。
 (付記3)
 前記グラフ生成手段は、個々の物体の位置関係、距離関係、種類の類似関係、及び、特徴量の類似関係の少なくとも一つに基づいて前記ノード又はエッジを定義する付記1又は2に記載の物体認識装置。
 (付記4)
 前記グラフ生成手段は、前記物体のサイズ、位置及び種類の少なくとも1つに関する分類を示す分類ノード又は分類エッジを含むグラフを生成する付記1乃至3のいずれか一項に記載の物体認識装置。
 (付記5)
 前記解析結果は、個々の物体の認識結果についての修正要否を示す情報である付記1乃至4のいずれか一項に記載の物体認識装置。
 (付記6)
 前記修正要否を示す情報に基づいて、物体の修正候補を出力する修正手段を備える付記5に記載の物体認識装置。
 (付記7)
 前記解析結果は、前記個々の物体の修正要否を示すスコアを含み、
 前記修正手段は、前記スコアが第1の閾値より大きい物体について、当該物体から所定範囲に存在する別の物体のうち最多の物体を前記修正候補として出力する付記6に記載の物体認識装置。
 (付記8)
 前記解析結果は、物体間の同一物体らしさを示すスコアを含み、
 前記修正手段は、前記スコアの最大値又は平均値が第2の閾値より大きい場合、当該最大値を有する物体を前記修正候補として出力する付記6に記載の物体認識装置。
 (付記9)
 前記物体認識手段は、学習済みの物体認識モデルを用いて物体を認識し、
 前記修正候補を用いて、前記物体認識モデルを再学習する再学習手段を備える付記6乃至8のいずれか一項に記載の物体認識装置。
 (付記10)
 前記解析結果は、物体間の種類の同一性を示す情報である付記1乃至4のいずれか一項に記載の物体認識装置。
 (付記11)
 前記物体認識手段は、個々の物体のラベルを認識し、
 前記グラフ解析手段は、個々の物体のラベルを含む解析結果を生成する付記1乃至4のいずれか一項に記載の物体認識装置。
 (付記12)
 前記画像取得手段は、商品が陳列された商品棚の撮影画像を取得し、
 前記物体認識部は、前記撮影画像中の商品を前記物体として認識する付記1乃至11のいずれか一項に記載の物体認識装置。
 (付記13)
 画像を取得し、
 前記画像に含まれる物体を認識し、認識結果を生成し、
 前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する物体認識方法。
 (付記14)
 画像を取得し、
 前記画像に含まれる物体を認識し、認識結果を生成し、
 前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 (付記15)
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成する教師データ生成手段と、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成するグラフ解析手段と、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する学習手段と、
 を備える学習装置。
 (付記16)
 前記教師データ生成手段は、前記物体の認識結果の正解情報を取得し、前記教師入力データと前記正解情報との差分を用いて前記教師ラベルを生成する付記15に記載の学習装置。
 (付記17)
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する学習方法。
 (付記18)
 画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
 前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
 グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
 前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 12 プロセッサ
 13 メモリ
 15 データベース(DB)
 21 画像取得部
 22 物体認識部
 23 グラフ生成部
 24 グラフ解析部
 25 修正部
 31 教師データ生成部
 32 学習部
 40 商品棚
 100、100x 物体認識装置
 200 学習装置

Claims (18)

  1.  画像を取得する画像取得手段と、
     前記画像に含まれる物体を認識し、認識結果を生成する物体認識手段と、
     前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
     前記グラフを解析し、前記物体間の関係性を示す解析結果を生成するグラフ解析手段と、
     を備える物体認識装置。
  2.  前記認識結果は、前記物体のサイズ、位置、種類、及び、特徴量の少なくとも一つを含む請求項1に記載の物体認識装置。
  3.  前記グラフ生成手段は、個々の物体の位置関係、距離関係、種類の類似関係、及び、特徴量の類似関係の少なくとも一つに基づいて前記ノード又はエッジを定義する請求項1又は2に記載の物体認識装置。
  4.  前記グラフ生成手段は、前記物体のサイズ、位置及び種類の少なくとも1つに関する分類を示す分類ノード又は分類エッジを含むグラフを生成する請求項1乃至3のいずれか一項に記載の物体認識装置。
  5.  前記解析結果は、個々の物体の認識結果についての修正要否を示す情報である請求項1乃至4のいずれか一項に記載の物体認識装置。
  6.  前記修正要否を示す情報に基づいて、物体の修正候補を出力する修正手段を備える請求項5に記載の物体認識装置。
  7.  前記解析結果は、前記個々の物体の修正要否を示すスコアを含み、
     前記修正手段は、前記スコアが第1の閾値より大きい物体について、当該物体から所定範囲に存在する別の物体のうち最多の物体を前記修正候補として出力する請求項6に記載の物体認識装置。
  8.  前記解析結果は、物体間の同一物体らしさを示すスコアを含み、
     前記修正手段は、前記スコアの最大値又は平均値が第2の閾値より大きい場合、当該最大値を有する物体を前記修正候補として出力する請求項6に記載の物体認識装置。
  9.  前記物体認識手段は、学習済みの物体認識モデルを用いて物体を認識し、
     前記修正候補を用いて、前記物体認識モデルを再学習する再学習手段を備える請求項6乃至8のいずれか一項に記載の物体認識装置。
  10.  前記解析結果は、物体間の種類の同一性を示す情報である請求項1乃至4のいずれか一項に記載の物体認識装置。
  11.  前記物体認識手段は、個々の物体のラベルを認識し、
     前記グラフ解析手段は、個々の物体のラベルを含む解析結果を生成する請求項1乃至4のいずれか一項に記載の物体認識装置。
  12.  前記画像取得手段は、商品が陳列された商品棚の撮影画像を取得し、
     前記物体認識部は、前記撮影画像中の商品を前記物体として認識する請求項1乃至11のいずれか一項に記載の物体認識装置。
  13.  画像を取得し、
     前記画像に含まれる物体を認識し、認識結果を生成し、
     前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
     前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する物体認識方法。
  14.  画像を取得し、
     前記画像に含まれる物体を認識し、認識結果を生成し、
     前記認識結果に基づき、認識された個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
     前記グラフを解析し、前記物体間の関係性を示す解析結果を生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
  15.  画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成する教師データ生成手段と、
     前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成するグラフ生成手段と、
     グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成するグラフ解析手段と、
     前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する学習手段と、
     を備える学習装置。
  16.  前記教師データ生成手段は、前記物体の認識結果の正解情報を取得し、前記教師入力データと前記正解情報との差分を用いて前記教師ラベルを生成する請求項15に記載の学習装置。
  17.  画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
     前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
     グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
     前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する学習方法。
  18.  画像に含まれる物体の認識結果を取得し、一部に誤り箇所を含む認識結果を教師入力データとして生成するとともに、前記教師入力データにおける修正箇所を示す教師ラベルを生成し、
     前記教師入力データに含まれる個々の物体をノードとエッジの一方に定義し、前記物体間の関係を前記ノードと前記エッジの他方に定義したグラフを生成し、
     グラフ解析モデルを用いて前記グラフを解析し、前記物体間の関係を示す解析結果を生成し、
     前記解析結果と、前記教師ラベルとを用いて、前記グラフ解析モデルを学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2020/017967 2020-04-27 2020-04-27 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体 WO2021220342A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/920,468 US20230306717A1 (en) 2020-04-27 2020-04-27 Object recognition device, object recognition method, learning device, learning method, and recording medium
PCT/JP2020/017967 WO2021220342A1 (ja) 2020-04-27 2020-04-27 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体
JP2022518440A JPWO2021220342A5 (ja) 2020-04-27 物体認識装置、物体認識方法、学習装置、学習方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/017967 WO2021220342A1 (ja) 2020-04-27 2020-04-27 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021220342A1 true WO2021220342A1 (ja) 2021-11-04

Family

ID=78373420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017967 WO2021220342A1 (ja) 2020-04-27 2020-04-27 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体

Country Status (2)

Country Link
US (1) US20230306717A1 (ja)
WO (1) WO2021220342A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024062632A1 (ja) * 2022-09-22 2024-03-28 日本電気株式会社 制御装置、制約条件選択装置、データ生成装置、制御方法、制約条件選択方法、データ生成方法及び記憶媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3770840A1 (en) * 2020-02-07 2021-01-27 ChannelSight Limited Method and system for determining product similarity in digital domains

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178060A1 (en) * 2015-12-18 2017-06-22 Ricoh Co., Ltd. Planogram Matching
WO2019107157A1 (ja) * 2017-11-29 2019-06-06 株式会社Nttドコモ 棚割情報生成装置及び棚割情報生成プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170178060A1 (en) * 2015-12-18 2017-06-22 Ricoh Co., Ltd. Planogram Matching
WO2019107157A1 (ja) * 2017-11-29 2019-06-06 株式会社Nttドコモ 棚割情報生成装置及び棚割情報生成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024062632A1 (ja) * 2022-09-22 2024-03-28 日本電気株式会社 制御装置、制約条件選択装置、データ生成装置、制御方法、制約条件選択方法、データ生成方法及び記憶媒体

Also Published As

Publication number Publication date
US20230306717A1 (en) 2023-09-28
JPWO2021220342A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
JP4618098B2 (ja) 画像処理システム
JP6708847B1 (ja) 機械学習装置及び方法
JP4623387B2 (ja) 学習装置および方法、認識装置および方法、並びにプログラム
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
WO2021220342A1 (ja) 物体認識装置、物体認識方法、学習装置、学習方法、及び、記録媒体
JP6270182B2 (ja) 属性要因分析方法、装置、およびプログラム
US20120197827A1 (en) Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program
WO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US20190026655A1 (en) Machine Learning System for Patient Similarity
JP2017090970A (ja) 物品管理装置、その方法、及びそのプログラム
JP2017102906A (ja) 情報処理装置、情報処理方法及びプログラム
US20210196428A1 (en) Artificial Intelligence (AI) based Decision-Making Model for Orthodontic Diagnosis and Treatment Planning
JP2018106618A (ja) 画像データ分類装置、オブジェクト検出装置及びこれらのプログラム
TW202201275A (zh) 手部作業動作評分裝置、方法及電腦可讀取存儲介質
Rajasekar et al. Performance analysis of soft computing techniques for the automatic classification of fruits dataset
JP2021135898A (ja) 行動認識方法、行動認識プログラム及び行動認識装置
JP2012123796A (ja) アクティブアピアランスモデルマシン、アクティブアピアランスモデルシステムを実装する方法およびアクティブアピアランスモデルマシンをトレーニングする方法
KR20210082222A (ko) 화상 인식 장치 및 방법
CN112445846A (zh) 医疗项目识别方法、装置、设备及计算机可读存储介质
WO2020227669A1 (en) Computer vision systems and methods for machine learning using a set packing framework
US20220067480A1 (en) Recognizer training device, recognition device, data processing system, data processing method, and storage medium
Boom et al. Uncertainty-aware estimation of population abundance using machine learning
US20220405534A1 (en) Learning apparatus, information integration system, learning method, and recording medium
CN113705092A (zh) 基于机器学习的疾病预测方法及装置
WO2020152870A1 (ja) 信号処理方法,信号処理装置および信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20934073

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022518440

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20934073

Country of ref document: EP

Kind code of ref document: A1