WO2021234938A1

WO2021234938A1 - 処理装置、処理方法及びプログラム

Info

Publication number: WO2021234938A1
Application number: PCT/JP2020/020260
Authority: WO
Inventors: 壮馬白石; 克菊池; 貴美佐藤; 悠鍋藤
Original assignee: 日本電気株式会社
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-11-25
Also published as: JPWO2021234938A1; JP2024039025A; JP7396476B2; US20230186271A1

Abstract

本発明は、顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得部（１１）と、複数の画像各々から物体を検出する検出部（１２）と、検出された物体毎に、画像内の位置を示す位置情報を生成する位置情報生成部（１３）と、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する商品種別関連情報生成部（１４）と、互いに異なるカメラが生成した画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出部（１５）と、抽出された集合毎に、商品認識結果を出力する商品認識結果出力部（１６）と、を有する処理装置（１０）を提供する。

Description

処理装置、処理方法及びプログラム

　本発明は、処理装置、処理方法及びプログラムに関する。

　非特許文献１及び２は、レジカウンターでの決済処理（商品登録及び支払い等）をなくした店舗システムを開示している。当該技術では、店内を撮影するカメラが生成した画像に基づき顧客が手に持っている商品を認識し、顧客が店舗を出たタイミングで認識結果に基づき自動的に決済処理を行う。

　特許文献１は、次のような装置を開示している。まず、当該装置は、第１のカメラから取得した第１画像中の第１飛行物体を検出し、第１のカメラからみた第１の飛行物体の方向を示すエピポーラ線を求める。そして、当該装置は、当該エピポーラ線に沿って撮影するように第２のカメラを制御する。次いで、当該装置は、第２のカメラから取得した第２の画像中の第２の飛行物体を検出し、第１の飛行物体と第２の飛行物体とが同一か判断し、第１の飛行物体及び第２の飛行物体の位置を算出する。

　特許文献２は、複数のカメラから得られた画像中の人物頭部の位置に応じて人物の３次元位置を推定する方法を切り替えることで、物体が映っているカメラの台数によらず、物体の３次元的な位置を精度よく取得する技術を開示している。

特開２０１８－１９５９６５号公報特開２０１７－１０３６０２号公報

宮田拓弥、"Ａｍａｚｏｎ　Ｇｏの仕組み「カメラとマイク」で実現するレジなしスーパー"、[online]、２０１６年１２月１０日、［２０１９年１２月６日検索］、インターネット<URL:https://www.huffingtonpost.jp/tak-miyata/amazon-go_b_13521384.html> "ＮＥＣ、レジレス店舗「ＮＥＣ　ＳＭＡＲＴ　ＳＴＯＲＥ」を本社内にオープン--顔認証活用、退店と同時決済"、[online]、２０２０年２月２８日、［２０２０年３月２７日検索］、インターネット<URL: https://japan.cnet.com/article/35150024/>

　顧客が手に取った商品を精度よく認識する技術が望まれている。例えば、非特許文献１及び２に記載のレジカウンターでの決済処理（商品登録及び支払い等）をなくした店舗システムにおいては、顧客が手に持っている商品を精度よく認識する技術が必要となる。その他、顧客の嗜好調査やマーケティング調査等の目的で顧客の店内行動を調査する場合にも、当該技術は有用である。

　本発明の課題は、顧客が手に持っている商品を精度よく認識する技術を提供することである。

　本発明によれば、
　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
　前記複数の画像各々から物体を検出する検出手段と、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置が提供される。

　また、本発明によれば、
　コンピュータが、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
　前記複数の画像各々から物体を検出し、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
　前記抽出された集合毎に、商品認識結果を出力する処理方法が提供される。

　また、本発明によれば、
　コンピュータを、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
　　前記複数の画像各々から物体を検出する検出手段、
　　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
　　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラムが提供される。

　本発明によれば、顧客が手に持っている商品を精度よく認識する技術が実現される。

本実施形態の処理装置のハードウエア構成の一例を示す図である。本実施形態の処理装置の機能ブロック図の一例である。本実施形態のカメラの設置例を説明するための図である。本実施形態のカメラの設置例を説明するための図である。本実施形態の処理装置が処理する画像の一例を示す図である。本実施形態の処理装置が処理する情報の一例を示す図である。本実施形態の処理装置が処理する情報の一例を示す図である。本実施形態の処理装置の処理の流れの一例を示すフローチャートである。本実施形態の処理装置が処理する情報の一例を示す図である。本実施形態の処理装置が処理する情報の一例を示す図である。

＜第１の実施形態＞
「概要」
　本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行する。そして、複数のカメラが生成した画像の解析結果が整合（位置が整合、外観が整合等）する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却する。本実施形態の処理装置によれば、このような「複数のカメラが生成した画像の解析結果が整合（位置が整合、外観が整合等）する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。

「ハードウエア構成」
　次に、処理装置のハードウエア構成の一例を説明する。

　処理装置の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図１は、処理装置のハードウエア構成を例示するブロック図である。図１に示すように、処理装置は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。処理装置は周辺回路４Ａを有さなくてもよい。なお、処理装置は物理的及び／又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び／又は論理的に一体となった１つの装置で構成されてもよい。処理装置が物理的及び／又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　図２に、処理装置１０の機能ブロック図の一例を示す。図示するように、処理装置１０は、取得部１１と、検出部１２と、位置情報生成部１３と、商品種別関連情報生成部１４と、抽出部１５と、商品認識結果出力部１６とを有する。

　取得部１１は、顧客が手に持っている商品を複数のカメラが互いに異なる位置及び互いに異なる方向から撮影することで生成された複数の画像を取得する。タイムスタンプ等により、複数のカメラが同じタイミングで生成した画像を特定できるようになっている。取得部１１への画像の入力は、リアルタイム処理で行われてもよいし、バッチ処理で行われてもよい。いずれの処理とするかは、例えば商品認識結果の利用内容に応じて決定することができる。

　ここで、複数のカメラについて説明する。本実施形態では顧客が手に持っている商品を複数の位置及び複数の方向から撮影できるように複数のカメラ（２台以上のカメラ）が設置される。例えば商品陳列棚毎に、各々から取り出された商品を撮影する位置及び向きで複数のカメラが設置されてもよい。カメラは、商品陳列棚に設置されてもよいし、天井に設置されてもよいし、床に設置されてもよいし、壁面に設置されてもよいし、その他の場所に設置されてもよい。なお、商品陳列棚毎にカメラを設置する例はあくまで一例であり、これに限定されない。

　カメラは動画像を常時（例えば、営業時間中）撮影してもよいし、動画像のフレーム間隔よりも大きい時間間隔で静止画像を継続的に撮影してもよいし、人感センサー等で所定位置（商品陳列棚の前等）に存在する人を検出している間のみこれらの撮影を実行してもよい。

　ここで、カメラ設置の一例を示す。なお、ここで説明するカメラ設置例はあくまで一例であり、これに限定されない。図３に示す例では、商品陳列棚１毎に２つのカメラ２が設置されている。図４は、図３の枠４を抽出した図である。枠４を構成する２つの部品各々には、カメラ２と照明（不図示）とが設けられる。

　照明の光放射面は一方向に延在しており、発光部及び発光部を覆うカバーを有している。照明は、主に、光放射面の延在方向に直交する方向に光を放射する。発光部は、ＬＥＤなどの発光素子を有しており、カバーによって覆われていない方向に光を放射する。なお、発光素子がＬＥＤの場合、照明が延在する方向（図において上下方向）に、複数のＬＥＤが並んでいる。

　そしてカメラ２は、直線状に延伸する枠４の部品の一端側に設けられており、照明の光が放射される方向を撮影範囲としている。例えば図４の左側の枠４の部品において、カメラ２は下方及び右斜め下を撮影範囲としている。また、図４の右側の枠４の部品において、カメラ２は上方及び左斜め上を撮影範囲としている。

　図３に示すように、枠４は、商品載置スペースを構成する商品陳列棚１の前面フレーム（又は両側の側壁の前面）に取り付けられる。枠４の部品の一方は、一方の前面フレームに、カメラ２が下方に位置する向きに取り付けられる。枠４の部品の他方は、他方の前面フレームに、カメラ２が上方に位置する向きに取り付けられる。そして、枠４の部品の一方に取り付けられたカメラ２は、商品陳列棚１の開口部を撮影範囲に含むように、上方及び斜め上方を撮影する。一方、枠４の部品の他方に取り付けられたカメラ２は、商品陳列棚１の開口部を撮影範囲に含むように、下方及び斜め下方を撮影する。このように構成することで、２つのカメラ２で商品陳列棚１の開口部の全範囲を撮影することができる。結果、商品陳列棚１から取り出されている商品（顧客が手に持っている商品）を２つのカメラ２で撮影することが可能となる。

　例えば図３及び図４に示す構成を採用した場合、図５に示すように、顧客が手に持っている商品を２つのカメラ２で撮影することになる。結果、当該商品を複数の位置及び複数の方向から撮影した２つの画像７及び８が生成される。

　なお、以下では、「顧客が手に持っている商品を２つのカメラで撮影」することを前提とする。そして、本実施形態の末尾において、変形例として、「顧客が手に持っている商品を３つ以上のカメラで撮影」する場合の構成を説明する。

　図２に戻り、検出部１２は、複数のカメラが生成した複数の画像各々から物体が存在する領域を検出することで、物体を検出する。画像から物体が存在する領域を検出する技術は広く知られているので、ここでの詳細な説明は省略する。なお、検出される「物体が存在する領域」は、物体及びその周辺を含む矩形領域であってもよいし、物体のみが存在する物体の輪郭に沿った形状の領域であってもよい。例えば、画像内の矩形領域毎に物体が存在するか判断する手法を採用する場合、検出される「物体が存在する領域」は、図５に示すように、物体及びその周辺を含む矩形領域Ｗとなる。一方、セマンティックセグメンテーションやインスタンスセグメンテーションと呼ばれる検出対象が存在するピクセル領域を検出する手法を採用する場合、検出される「物体が存在する領域」は、物体のみが存在する物体の輪郭に沿った形状の領域となる。

　位置情報生成部１３は、検出された物体毎に、画像内の位置を示す位置情報を生成する。位置情報は、例えば画像上に設定された２次元座標系の座標で示される。位置情報は、画像内の一定領域を示してもよいし、画像内の一点を示してもよい。画像内の一定領域を示す位置情報は、例えば、上述した物体が存在する領域を示してもよい。画像内の一点を示す位置情報は、例えば、上述した物体が存在する領域の中の代表点（中心点、重心点等）を示してもよい。

　商品種別関連情報生成部１４は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する。本実施形態の商品種別関連情報は、複数の商品種別を互いに識別する商品種別識別情報（商品名、商品コード等）である。

　画像に含まれる物体の商品種別を認識する技術は広く知られており、本実施形態ではあらゆる技術を採用できる。例えば、商品種別関連情報生成部１４は、予め機械学習等で生成された分類器と、上記「物体が存在する領域」の画像とに基づき、その物体の商品種別を認識してもよい。その他、商品種別関連情報生成部１４は、予め用意された各商品の外観のテンプレート画像と上記「物体が存在する領域」の画像とを照合するパターンマッチングにより、その物体の商品種別を認識してもよい。

　ここまで説明した取得部１１、検出部１２、位置情報生成部１３及び商品種別関連情報生成部１４により、図６及び図７に示すような情報が生成される。

　図６に示す第１の物体情報は、第１のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「１－０１」、「１－０２」は、画像から検出された複数の物体を互いに識別するための通番である。

　図７に示す第２の物体情報は、第２のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「２－０１」、「２－０２」は、画像から検出された複数の物体を互いに識別するための通番である。

　図２に戻り、抽出部１５は、互いに異なるカメラが生成した画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する。「顧客が手に持っている商品を２つのカメラで撮影」する例の場合、抽出部１５は、第１のカメラが生成した画像から検出された物体である第１の物体と、第２のカメラが生成した画像から検出された物体である第２の物体とのペアであって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第１の物体及び第２の物体のペアを抽出する。抽出部１５は、図６及び図７に示すような情報に基づき、当該抽出処理を行う。

　抽出部１５による当該抽出は、第１のカメラが生成した画像の解析結果と第２のカメラが生成した画像の解析結果が整合（位置が整合、外観が整合等）する物体の抽出を意味する。

　まず、位置条件について説明する。位置条件は、第１のカメラが生成した画像内における第１の物体の位置と、第２のカメラが生成した画像内における第２の物体の位置とが、その第１の物体とその第２の物体とが同一の被写体であった場合の位置関係を満たすことである。

　当該位置条件の一例は、「第１のカメラの設定情報」と「第１のカメラが生成した画像内における第１の物体の位置」とから推定される「３次元空間内において第１の物体が存在し得る位置」、及び、「第２のカメラの設定情報」と「第２のカメラが生成した画像内における第２の物体の位置」と「第１のカメラと第２のカメラとの相対的な関係」とから推定される「上記３次元空間内において第２の物体が存在し得る位置」とが整合する（第１の物体と第２の物体とが同一の被写体であった場合の位置関係を満たす）ことである。このような位置条件を満たすか否かの判断手法の詳細は特段制限されず、あらゆる手法を採用できる。以下、一例を説明するがこれに限定されない。

　例えば、エピポーラ線の利用が考えられる。まず、第１のカメラの設定情報（焦点距離、画角等）、第２のカメラの設定情報（焦点距離、画角等）、及び、第１のカメラと第２のカメラとの相対的な関係（相対的な位置関係、相対的な向きの関係等）等に基づき、第１のカメラと第１のカメラが生成した画像内の所定の点とを通る線を、第２のカメラが生成した画像内に投影した線（エピポーラ線）を求めることができる。上記所定の点を、第１のカメラが生成した画像内における第１の物体の位置に基づき設定することで、第１の物体が存在し得る第２の画像内の位置を求めることができる。第２の物体が、この第１の物体が存在し得る第２の画像内の位置に存在する場合、その第１の物体と第２の物体は位置条件を満たす（画像内の互いの位置が整合する）と判断することができる。

　次に、商品種別条件について説明する。上述の通り、本実施形態の商品種別関連情報は、物体の外観の特徴量に基づき特定された商品種別識別情報である。そして、本実施形態の商品種別条件は、第１の物体の商品種別識別情報と、第２の物体の商品種別識別情報とが一致すること（商品種別の認識結果が一致すること）である。

　図２に戻り、商品認識結果出力部１６は、抽出部１５により抽出されたペア（集合）毎に、第１の物体又は第２の物体の商品認識結果（商品種別識別情報）を出力する。本実施形態の場合、抽出部１５により抽出されたペア（集合）は、「第１の物体の商品種別識別情報と、第２の物体の商品種別識別情報とが一致」という商品種別条件を満たしているので、第１の物体の商品認識結果及び第２の物体の商品認識結果は一致する。

　なお、本実施形態では、商品認識結果出力部１６が出力した商品認識結果に対するその後の処理内容は特段制限されない。

　例えば、商品認識結果は、非特許文献１及び２に開示のようなレジカウンターでの決済処理（商品登録及び支払い等）をなくした店舗システムにおける決済処理で利用されてもよい。以下、一例を説明する。

　まず、店舗システムは、出力された商品認識結果（商品種別識別情報）を、その商品を手に持っている顧客を特定する情報に紐づけて登録する。例えば、店内には、商品を手に持っている顧客の顔を撮影するカメラが設置されており、店舗システムは、当該カメラが生成した画像から顧客の顔の外観の特徴量を抽出してもよい。そして、店舗システムは、当該顔の外観の特徴量（顧客を特定する情報）に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報（単価、商品名等）を登録してもよい。その他の商品情報は、予め店舗システムに記憶されている商品マスタ（商品種別識別情報と、その他の商品情報とを紐づけた情報）から取得することができる。

　その他、予め、顧客の顧客識別情報（会員番号、氏名等）と、顔の外観の特徴量とが紐づけて任意の場所（店舗システム、センターサーバ等）に登録されていてもよい。そして、店舗システムは、商品を手に持っている顧客の顔を含む画像から顧客の顔の外観の特徴量を抽出すると、当該予め登録された情報に基づきその顧客の顧客識別情報を特定してもよい。そして、店舗システムは、特定した顧客識別情報に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報を登録してもよい。

　また、店舗システムは、登録内容に基づき決済金額を算出し、決済処理を実行する。例えば、顧客がゲートから退場したタイミングや、顧客が出口から店舗外に出たタイミング等で、決済処理が実行される。これらのタイミングの検出は、ゲートや出口に設置されたカメラが生成した画像で顧客の退店を検出することで実現されてもよいし、ゲートや出口に設置された入力装置（近距離無線通信するリーダ等）に対する退店する顧客の顧客識別情報の入力で実現されてもよいし、その他の手法で実現されてもよい。決済処理の詳細は、予め登録されたクレジットカード情報に基づくクレジットカードでの決済処理であってもよいし、予めチャージされたお金に基づく決済であってもよいし、その他であってもよい。

　商品認識結果出力部１６が出力した商品認識結果のその他の利用場面として、顧客の嗜好調査やマーケティング調査等が例示される。例えば、各顧客が手に取った商品を各顧客に紐づけて登録することで、各顧客が興味を有する商品などを分析することができる。また、商品ごとに顧客が手に取った旨を登録することで、どの商品が顧客に興味を持たれているかを分析することができる。さらに、従来の画像解析技術を利用して顧客の属性（性別、年代、国籍等）を推定し、各商品を手に取った顧客の属性を登録することで、各商品がどのような属性の顧客に興味を持たれているかを分析することができる。

　次に、図８のフローチャートを用いて、処理装置１０の処理の流れの一例を説明する。

　まず、取得部１１は、第１のカメラ及び第２のカメラが同じタイミングで撮影して生成された２つの画像を取得する（Ｓ１０）。第１のカメラ及び第２のカメラは、顧客が手に持っている商品を互いに異なる位置及び方向から撮影するように設置されている。

　次いで、検出部１２は、この２つの画像各々を解析し、各画像から物体を検出する（Ｓ１１）。次いで、位置情報生成部１３は、Ｓ１１で検出された物体毎に、画像内の位置を示す位置情報を生成する（Ｓ１２）。また、商品種別関連情報生成部１４は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する（Ｓ１３）。なお、Ｓ１２及びＳ１３の処理順は図示するものに限定されない。

　ここまでの処理により、図６及び図７に示すような情報が生成される。図６に示す第１の物体情報は、第１のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図７に示す第２の物体情報は、第２のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。

　次いで、抽出部１５は、第１のカメラが生成した画像から検出された物体である第１の物体と、第２のカメラが生成した画像から検出された物体である第２の物体とのペア（集合）であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第１の物体及び第２の物体のペアを抽出する（Ｓ１４）。

　そして、商品認識結果出力部１６は、Ｓ１４で抽出されたペア（集合）毎に、第１の物体又は第２の物体の商品認識結果（商品種別識別情報）を出力する（Ｓ１５）。

「作用効果」
　以上説明した本実施形態の処理装置１０によれば、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行することができる。そして、複数のカメラが生成した画像の解析結果が整合（位置が整合、外観が整合等）する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却することができる。その他の商品認識結果は、抽出部１５により抽出されなかった第１の物体及び第２の物体の商品認識結果である。

　本実施形態の処理装置１０によれば、このような「複数のカメラが生成した画像の解析結果が整合（位置が整合、外観が整合等）する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。

「変形例」
　上述の通り、本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から３つ以上のカメラで撮影してもよい。

　この場合、処理装置１０は、Ｎ個（Ｎは３以上の整数）のカメラが生成した画像の解析結果のすべてが整合（位置が整合、外観が整合等）する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部１５は、Ｎ個のカメラが生成したＮ個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、Ｎ個の物体が属する集合を抽出する。この条件は、集合に属する物体（メンバー）の数の条件がさらに加わっている点で、上述した条件と異なる。

　その他、処理装置１０は、Ｎ個（Ｎは３以上の整数）のカメラが生成した画像のＮ個の解析結果の中の少なくともＭ個（Ｍは２以上の整数、ＭはＮ未満）の解析結果が整合（位置が整合、外観が整合等）する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部１５は、Ｎ個のカメラが生成したＮ個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、Ｍ個以上の物体が属する集合を抽出する。この条件は、集合に属する物体（メンバー）の数の条件がさらに加わっている点で、上述した条件と異なる。

　その他、処理装置１０は、Ｎ個（Ｎは３以上の整数）のカメラが生成した画像の解析結果の中の所定割合以上の解析結果が整合（位置が整合、外観が整合等）する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部１５は、Ｎ個のカメラが生成したＮ個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、Ｎの所定割合以上の個数の物体が属する集合を抽出する。この条件は、集合に属する物体（メンバー）の数の条件がさらに加わっている点で、上述した条件と異なる。

　当該変形例においても、上記作用効果が実現される。また、カメラの台数を増やし、上述のような条件とすることで、人の手や何かにより商品が死角となり、一部のカメラでその商品を撮影できない状況が生じても、その他の複数のカメラが生成した画像の解析結果が整合すれば真とすることができる。結果、より利便性が向上する。

＜第２の実施形態＞
　本実施形態は、商品種別条件が、第１の実施形態と異なる。具体的には、本実施形態の商品種別条件は、「商品種別が一致」、かつ、「第１のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第１のカメラに対向している商品の特徴部分と、第２のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第２のカメラに対向している商品の特徴部分との関係が向き条件を満たす」である。

　例えば、図３乃至図５の例のように、第１のカメラ及び第２のカメラが商品を挟み込むように撮影し、互いの撮影方向が約１８０°異なる場合、上記向き条件は「表裏の関係」となる。すなわち、第１のカメラに対向している商品の特徴部分と、第２のカメラに対向している商品の特徴部分は、その商品において表裏の関係にあることが、向き条件となる。

　例えば、図９に示すように、商品種別ごとに、複数の方向から撮影した場合の画像各々から抽出された特徴量を登録しておく。なお、図９では６方向（前から、後ろから、上から、下から、右から、左から）から撮影した場合の特徴量を登録しているが、撮影方向の数はこれに限定されない。

　また、図１０に示すように、第１のカメラ及び第２のカメラの撮影方向の関係を登録しておく。当該関係は、「第１のカメラが商品をある方向から撮影した場合、第２のカメラはその商品をどの方向から撮影することになるか」という関係を示す。

　そして、抽出部１５は、これらの情報に基づき、上記向き条件を満たすか否かを判断することができる。

　具体的には、まず、商品種別関連情報生成部１４は、第１のカメラが生成した画像から抽出された物体の外観の特徴量と、図９に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第１のカメラに対向しているか特定する。また、商品種別関連情報生成部１４は、第２のカメラが生成した画像から抽出された物体の外観の特徴量と、図９に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第２のカメラに対向しているか特定する。これらの特定処理は、機械学習で生成された分類器を利用して実現されてもよいし、パターンマッチングで実現されてもよいし、その他の手法で実現されてもよい。

　そして、抽出部１５は、第１のカメラに対向しているか特徴部分が撮影される撮影方向と、第２のカメラに対向しているか特徴部分が撮影される撮影方向とが図１０に示す関係を満たす場合、上記向き条件を満たすと判断する。

　本実施形態の処理装置１０のその他の構成は、第１の実施形態と同様である。なお、本実施形態の処理装置１０は、顧客が手に持っている商品を互いに異なる位置及び方向から３つ以上のカメラで撮影する変形例も採用できる。例えば、３つ以上のカメラの撮影方向の関係を予め登録しておけば、上記と同様の処理で同様の作用効果が実現される。

　本実施形態の処理装置１０によれば、第１の実施形態と同様の作用効果が実現される。また、本実施形態の処理装置１０は、「互いに異なる位置及び方向から複数のカメラで商品を撮影した場合、どの方向から撮影するかに応じて画像に現れる商品の特徴部分が異なり得る」という特徴を考慮し、上述のような向き条件をさらに加えたものである。当該向き条件を付すことで、誤認識をさらに抑制し、顧客が手に持っている商品をより精度よく認識することが可能となる。

＜第３の実施形態＞
　本実施形態の商品種別関連情報は、画像から抽出された物体の外観の特徴量である。そして、商品種別条件は、上記外観の特徴量の類似度が基準値以上である。

　本実施形態の処理装置１０のその他の構成は、第１の実施形態と同様である。本実施形態の処理装置１０によれば、第１の実施形態と同様の作用効果が実現される。

＜変形例＞
　ここで、すべての実施形態に適用可能な変形例を説明する。上記実施形態では、検出された物体毎に位置情報生成部１３が位置情報を生成し、検出された物体毎に商品種別関連情報生成部１４が商品種別関連情報を生成した後、抽出部１５が位置条件及び商品種別条件を満たす複数の物体の集合を抽出した。

　変形例１では、検出された物体毎に位置情報生成部１３が位置情報を生成した後、抽出部１５は位置条件を満たす複数の物体の集合を抽出する。そして、その後、商品種別関連情報生成部１４は、抽出された集合に属する複数の物体が互いに商品種別条件を満たすか判断する。そして、抽出部１５は、商品種別条件を満たすと判断された複数の物体の集合を抽出する。

　この場合、商品種別関連情報生成部１４は、複数の物体各々の外観の特徴量に基づき各物体の商品種別識別情報を特定する処理を実行してもよい。そして、商品種別関連情報生成部１４は、特定した商品種別識別情報が互いに一致する物体の組み合わせは商品種別条件を満たすと判断してもよい。

　その他の処理例として、商品種別関連情報生成部１４は、第１の物体の外観の特徴量に基づきその第１の物体の商品種別識別情報を特定した後、他の物体の外観の特徴量が「特定した第１の物体の商品識別情報で識別される商品の外観の特徴量」とマッチングするか否かを判断してもよい。そして、商品種別関連情報生成部１４は、マッチングする場合、商品種別条件を満たすと判断してもよい。この処理例の場合、複数種類の商品種別各々の特徴量との照合により商品種別識別情報を特定する処理を第１の物体に対してのみ行い、他の物体に対しては行わない。このため、コンピュータの処理負担が軽減される。

　なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。

　以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
１．　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
　前記複数の画像各々から物体を検出する検出手段と、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置。
２．　前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである１に記載の処理装置。
３．　前記位置条件は、第１のカメラの設定情報と、前記第１のカメラが生成した前記画像内における第１の物体の位置とから推定される３次元空間内において前記第１の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第２の物体の位置と、前記第１のカメラと前記他のカメラとの相対的な関係とから推定される前記３次元空間内において前記第２の物体が存在し得る位置とが、前記第１の物体と前記第２の物体とが同一の被写体であった場合の位置関係を満たすことである２に記載の処理装置。
４．　前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
　前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である１から３のいずれかに記載の処理装置。
５．　前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
　前記商品種別条件は、前記商品種別識別情報が一致することである１から３のいずれかに記載の処理装置。
６．　前記商品種別条件は、
　　前記商品種別が一致し、かつ、
　　第１のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第１のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである５に記載の処理装置。
７．　コンピュータが、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
　前記複数の画像各々から物体を検出し、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
　前記抽出された集合毎に、商品認識結果を出力する処理方法。
８．　コンピュータを、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
　　前記複数の画像各々から物体を検出する検出手段、
　　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
　　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラム。

Claims

　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
　前記複数の画像各々から物体を検出する検出手段と、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置。
　前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである請求項１に記載の処理装置。
　前記位置条件は、第１のカメラの設定情報と、前記第１のカメラが生成した前記画像内における第１の物体の位置とから推定される３次元空間内において前記第１の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第２の物体の位置と、前記第１のカメラと前記他のカメラとの相対的な関係とから推定される前記３次元空間内において前記第２の物体が存在し得る位置とが、前記第１の物体と前記第２の物体とが同一の被写体であった場合の位置関係を満たすことである請求項２に記載の処理装置。
　前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
　前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である請求項１から３のいずれか１項に記載の処理装置。
　前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
　前記商品種別条件は、前記商品種別識別情報が一致することである請求項１から３のいずれか１項に記載の処理装置。
　前記商品種別条件は、
　　前記商品種別が一致し、かつ、
　　第１のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第１のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである請求項５に記載の処理装置。
　コンピュータが、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
　前記複数の画像各々から物体を検出し、
　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
　前記抽出された集合毎に、商品認識結果を出力する処理方法。
　コンピュータを、
　　顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
　　前記複数の画像各々から物体を検出する検出手段、
　　前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
　　前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
　互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
　前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラム。