WO2021152829A1 - 物体認識装置、物体認識理方法、及び、記録媒体 - Google Patents

物体認識装置、物体認識理方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021152829A1
WO2021152829A1 PCT/JP2020/003712 JP2020003712W WO2021152829A1 WO 2021152829 A1 WO2021152829 A1 WO 2021152829A1 JP 2020003712 W JP2020003712 W JP 2020003712W WO 2021152829 A1 WO2021152829 A1 WO 2021152829A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
area
unit
feature points
object area
Prior art date
Application number
PCT/JP2020/003712
Other languages
English (en)
French (fr)
Inventor
悠 鍋藤
壮馬 白石
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/003712 priority Critical patent/WO2021152829A1/ja
Priority to US17/792,841 priority patent/US20230039355A1/en
Priority to JP2021574410A priority patent/JPWO2021152829A5/ja
Publication of WO2021152829A1 publication Critical patent/WO2021152829A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to a technique for recognizing an object from a captured image.
  • Patent Document 1 extracts an image feature amount from an object area of a captured image by an object area extraction function and an image feature amount extraction function, and collates it with an image master registered in a DB server to identify and quantity an object.
  • the inventory management system to be acquired is described.
  • Patent Document 1 since it is necessary to collate the feature amount extracted from the photographed image with the image master of a large number of products, there is a problem that processing time is required when recognizing a large number of products.
  • One object of the present invention is to provide an object recognition method capable of efficiently recognizing a large number of objects.
  • a storage unit that stores a table in which a plurality of feature quantities and an object having feature points of each feature quantity are associated with each other.
  • An object area detection unit that detects the object areas of multiple objects from the input image,
  • a feature amount extraction unit that extracts the feature amount of the feature point from the input image,
  • a narrowing-down unit that narrows down all objects to be recognized to object candidates corresponding to the object region based on the feature quantities of the feature points belonging to the object region.
  • a collating unit that collates the feature points belonging to the object region with the feature points of each object candidate to recognize the object and outputs the recognition result is provided.
  • Another aspect of the present invention is an object recognition method. Detects the object area of multiple objects from the input image and The feature amount of the feature point is extracted from the input image, and the feature amount is extracted.
  • all objects to be recognized correspond to the object region based on the feature quantities of the feature points belonging to the object region. Narrow down to the object candidates to be The feature points belonging to the object region are collated with the feature points of each object candidate to recognize the object, and the recognition result is output.
  • Another aspect of the present invention is a recording medium, which is a recording medium. Detects the object area of multiple objects from the input image and The feature amount of the feature point is extracted from the input image, and the feature amount is extracted. Refer to a table that associates a plurality of feature quantities with an object having feature points of each feature quantity, and based on the feature quantities of the feature points belonging to the object region, all objects to be recognized correspond to the object region. Narrow down to the object candidates to be A program for causing a computer to execute a process of collating a feature point belonging to the object region with a feature point of each object candidate to recognize the object and outputting a recognition result is recorded.
  • the object recognition apparatus which concerns on 1st Embodiment is shown. It is a block diagram which shows the hardware structure of the object recognition apparatus. It is a block diagram which shows the functional structure of the object recognition apparatus. An example of a product image is shown. The feature points extracted in the product image are schematically shown. An example of the object area detected from the product image is shown. An example of a hash table and a search method are shown. It is a flowchart of an object recognition process. The object recognition device which concerns on 2nd Embodiment is shown.
  • FIG. 1 shows an object recognition device according to the first embodiment.
  • An image of the product is input to the object recognition device 100.
  • the image of the product is an image of, for example, a product shelf of a store taken from the front, and includes a plurality of products displayed on the shelf. Normally, different types of products are displayed on the product shelves, and the object recognition device 100 recognizes which product each product is and outputs the recognition result.
  • the recognition result is used for replenishing products on product shelves and inventory management at stores.
  • the application of the present invention is not limited to the product image, and can be applied to, for example, recognition of an object piled on the floor.
  • a feature amount file showing the feature amount for each product to be recognized is generated in advance. Then, the object recognition device 100 sequentially collates the feature points extracted from the product image with the feature amount of each product included in the feature amount file, and determines which product the product included in the product image is. recognize.
  • collation processing since the above-mentioned collation processing has a large processing amount, if the feature points of the product image are collated with the feature amounts of all the products in the feature amount file, the processing time becomes long. Therefore, in the present embodiment, after narrowing down the search based on the feature amount to reduce the products to be collated, the actual collation process is performed. This shortens the overall processing time.
  • FIG. 2 is a block diagram showing a hardware configuration of the object recognition device 100.
  • the object recognition device 100 includes an input IF (InterFace) 11, a processor 12, a memory 13, a recording medium 14, a database (DB) 15, an input device 16, a display device 17, and an output.
  • the device 18 is provided.
  • Input IF11 inputs and outputs data. Specifically, the input IF 11 acquires a product image from the outside and outputs a recognition result generated by the object recognition device 100 based on the image.
  • the processor 12 is a computer such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), and controls the entire object recognition device 100 by executing a program prepared in advance. In particular, the processor 12 performs the object recognition process described later.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the memory 13 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 13 stores various programs executed by the processor 12.
  • the memory 13 is also used as a working memory during execution of various processes by the processor 12.
  • the recording medium 14 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the object recognition device 100.
  • the recording medium 14 records various programs executed by the processor 12.
  • DB15 stores the data input from the input IF11. Specifically, the product image is stored in the DB 15. Further, the DB 15 stores data used for recognizing an object, specifically, a database file and a feature amount file described later.
  • the input device 16 is, for example, a keyboard, a mouse, a touch panel, or the like, and is used when a user gives an instruction or input necessary in connection with processing by the object recognition device 100.
  • the display device 17 is, for example, a liquid crystal display or the like, and displays the object recognition result.
  • the output device 18 outputs the object recognition result to the external device.
  • the output device 18 may output the object recognition result to a POS (Point Of Sale) terminal or the like via a network.
  • POS Point Of Sale
  • FIG. 3 is a block diagram showing a functional configuration of the object recognition device 100.
  • the object recognition device 100 includes an image acquisition unit 21, a feature amount extraction unit 22, an object area detection unit 23, a narrowing search unit 24, a feature amount file storage unit 25, a hash table generation unit 26, and a feature amount file.
  • a reading unit 27 and a collating unit 28 are provided.
  • the image acquisition unit 21 acquires the product image.
  • FIG. 4 shows an example of a product image.
  • the product image is, for example, a photographed image of a product shelf of a store, and includes a plurality of types of products.
  • the image acquisition unit 21 outputs the acquired product image to the feature amount extraction unit 22.
  • the feature amount extraction unit 22 extracts the feature amount from the product image.
  • the feature amount extraction unit 22 detects a feature point from the product image and generates a feature amount at the feature point.
  • a SIFT Scale-Invariant Feature Transfer
  • feature points called key points are detected by smoothing an image or the like, and features of a 128-dimensional vector showing a gradient of brightness are extracted for each feature point.
  • the SIFT feature amount is an example of the feature amount used in the present embodiment, and is not limited thereto.
  • FIG. 5 schematically shows the feature points extracted in the product image.
  • the feature point P is detected on the product or in the vicinity of the product in the product image.
  • the feature amount extraction unit 22 outputs the product image and the feature amount information regarding the extracted feature amount to the object area detection unit 23.
  • the feature amount information includes the position information of each feature point in the product image and the feature amount of each feature point.
  • the object area detection unit 23 detects the object area from the product image.
  • the object area is an area corresponding to each product.
  • the detection of the object region can be performed by, for example, a region detection method using a neural network.
  • FIG. 6 shows an example of an object region detected from a product image. By detecting the object region, a rectangular object region R surrounding each product included in the product image is detected.
  • the object area detection unit 23 narrows down the feature amount information and the object area information and outputs the information to the search unit 24.
  • the object area information includes the position information of the object area R corresponding to each product included in the product image.
  • the feature amount file storage unit 25 stores the feature amount file.
  • the feature amount file shows the feature amount of each of a large number of products to be recognized by the object recognition device 100.
  • the feature amount extraction process as described above is performed in advance based on the photographed image, and the feature amount information possessed by the product is generated. That is, for each product, the position information of a plurality of feature points possessed by the product and the feature amount of each feature point are generated as a feature amount file and stored in the feature amount file storage unit 25.
  • the hash table generation unit 26 generates a hash table from the feature amount file.
  • FIG. 7A shows an example of a hash table.
  • the hash table generation unit 25 inputs each feature amount obtained from the product image into a predetermined hash function as a key to generate a hash value, and creates an array using each hash value as an index.
  • each feature amount is converted into hash values of "0" to "6" by a hash function, and arrays ft [0] to ft [6] using them as indexes are created. .. Then, for the sequences ft [0] to ft [6], the products having the feature amounts classified in the sequence are assigned as values.
  • FIG. 7A shows an example of a hash table.
  • the hash table generation unit 25 inputs each feature amount obtained from the product image into a predetermined hash function as a key to generate a hash value, and creates an array using each hash value as an index.
  • each feature amount is converted
  • the hash table generation unit 25 generates a hash table including all the products to be recognized by the object recognition device 100 as values as preprocessing.
  • the refined search unit 24 performs a refined search (hash search) using a hash table.
  • the object area information and the feature amount information are input to the narrowing search unit 24.
  • the narrowing search unit 24 divides the feature amount into each object area and generates the feature amount for each object area.
  • the narrowing search unit 24 votes the feature points for each object area using the hash table. Specifically, as shown in FIG. 7A, the narrowing search unit 24 votes for one object region R for products corresponding to the feature quantities of the individual feature points P included in the object region R. In the example of FIG.
  • the narrowing search unit 24 refers to the hash table, gives one vote to each of the products A, D, and F based on the feature point P1, and gives the products A, C, and H based on the feature point P2. Give 1 vote to each.
  • the narrowing search unit 24 votes for the product indicated as the value by the hash table based on all the feature points corresponding to one object area R.
  • FIG. 7B shows an example of the voting result thus obtained.
  • the horizontal axis shows the type of product, and the vertical axis shows the number of votes. The larger the number of votes in the voting result, the higher the probability that the product is a product in the object region R.
  • the number of votes for product D is the largest, and the number of votes for product B and product I is almost the same, which is the second highest.
  • the narrowing search unit 24 selects the products with the first to third highest number of votes as product candidates. In this way, the narrowing search unit 24 performs the above processing on all the object areas R, determines product candidates for each object area R, and outputs the product candidates to the collating unit 28. For example, when determining the top N products with the highest number of votes as product candidates, the narrowing search unit 24 outputs N product candidates for each object area R detected from the product image.
  • the feature amount file reading unit 27 reads the feature amount file from the feature amount file storage unit 25 and outputs it to the collation unit 28.
  • the collation unit 28 collates the feature points of the product candidates determined by the narrowing search unit 24. Specifically, the collating unit 28 matches the feature points included in the object region with the feature points of the product candidates determined by the narrowing search unit 24 for the object region for each object region, and the similarity is obtained. High feature points are the corresponding points. For example, in the example of FIG. 7B, when the narrowing search unit 24 determines the product candidates as products B, D, and I, the collating unit 28 determines the feature amount of the object area and the product B in the feature amount file. Matching with the features of D and I is performed.
  • the collation unit 28 determines that the product having the most corresponding points among the plurality of products included in the product candidates is the recognition result for the object region, that is, the product existing in the object region.
  • the collation unit 28 performs this process for all the object areas, and outputs the product corresponding to each object area as the recognition result.
  • the narrowing search unit 24 narrows down all the products to some product candidates, and the collating unit 28 collates the feature points only for the product candidates.
  • the collation of feature points is extremely processing-intensive because it compares all combinations of a plurality of feature points included in the object area with the feature points of each product stored in the feature amount file. Assuming that 60 products can be displayed on one product shelf and there are thousands of types of products to be handled, 60 x thousands of combinations for one product image taken of one product shelf. It takes a lot of time to perform the collation process.
  • the narrowing search unit 24 narrows down thousands of products to sufficiently fewer product candidates by using the hash table generated based on the feature amount, and the collating unit only for those product candidates. Since the 28 may collate the feature points, the processing time can be significantly shortened.
  • FIG. 8 is a flowchart of the object recognition process. This process is realized by the processor 12 shown in FIG. 2 executing a program prepared in advance and operating as each element shown in FIG. First, as a preliminary process, the hash table generation unit 26 acquires the feature amount information of all the products to be recognized from the feature amount file and generates a hash table (step S11).
  • the image acquisition unit 21 acquires the product image (step S12), and the feature amount extraction unit 22 extracts the feature amount from the product image as illustrated in FIG. 5 (step S13).
  • the object area detection unit 23 detects the object area corresponding to each product as illustrated in FIG. 6 (step S14).
  • the narrowing search unit 24 refers to the hash table, performs a narrowing search based on the feature amount of each object region, and determines a product candidate (step S15).
  • the collation unit 28 performs a collation process using the feature amount of each object area and the feature amount of each product candidate stored in the feature amount file, and outputs a recognition result for each object area (step S16). ). Then, the process ends.
  • Modification example 1 Next, a modified example of the above embodiment will be described. The following modifications can be applied in combination as appropriate.
  • the feature amount extraction unit 22 extracts the feature amount from the entire product image, then the object area detection unit 23 detects the object area, and the feature amount is divided for each detected object area. The feature amount for each object area is obtained.
  • the object area detection unit 23 may first detect the object area, and the feature amount extraction unit 22 may extract the feature amount from the image for each object area.
  • the collating unit 28 can detect the rectangle of the product corresponding to the object area by matching the feature points included in the object area with the feature points of each product included in the feature amount file.
  • the rectangle of the object area detected by the object area detection unit 23 (hereinafter, referred to as “object area rectangle”) and the rectangle obtained by matching the feature points by the collating unit 28 (hereinafter, referred to as “feature point matching rectangle”). )
  • object area rectangle the rectangle of the object area detected by the object area detection unit 23
  • feature point matching rectangle the rectangle obtained by matching the feature points by the collating unit 28
  • the collation unit 28 may discard the collation result obtained for the object region. This is because when the object area rectangle and the feature point matching rectangle are significantly different, the accuracy of the object area detection process or collation process is considered to be insufficient.
  • the feature points are selected based on the object area rectangle detected by the object area detection unit 23, and the narrowing search unit 24 performs the narrowing search and the collating unit 28 performs the collating process.
  • at least one of the narrowing search and the collation process may be performed by using not only the feature points existing inside the object area rectangle but also the feature points existing around the object area rectangle.
  • the "periphery" of the object area rectangle is, for example, an area including a predetermined pixel outside the object area rectangle.
  • the narrowing search and the collation processing may be performed by using a part of the feature points existing inside the object area rectangle.
  • the narrowing search unit 24 may perform a narrowing search using a part of the feature amounts in the object area rectangle, and the collating unit 28 may perform the matching using all the feature points in the object area rectangle.
  • the narrowing search unit 24 may perform a narrowing search using all the feature amounts in the object area rectangle, and the collating unit 28 may perform the matching using some feature points in the object area rectangle. ..
  • the collation unit 28 uses the product. You may notify the user that the registration of the product has been omitted or that there is a possibility of a new product that has not been registered. If the product is not registered, it means that the feature file for the product is not prepared.
  • the collation unit 28 may display a product image on the display device 17, indicate the portion of the product in black, or display a message. When displaying a product name or the like as a collation result list on the display device 17, "Unknown”, “Registration omission?”, "New product?”, Etc. may be displayed in the product name column.
  • the collation unit 28 may indicate that there is a possibility of a related product such as a new label or a new series of product candidate products determined by the narrowing search unit 24. The user may be notified. For example, when the refined search unit 24 determines the products A, D, and F as product candidates, the collating unit 28 displays the display device 17 as "there is a possibility that any of the new products A, D, and F is a new product. May be displayed.
  • the object area detection unit 23 may remove the object area rectangle as a false detection. Further, the object area detection unit 23 may remove not only the adjacent left and right object area rectangles but also the object area rectangles whose areas are significantly different from those of other object area rectangles in the same stage as false detections.
  • the object area detection unit 23 may add a rectangle having the same size as the object area rectangle detected in the same stage to the empty area. As a result, the subsequent narrowing search and collation processing are executed even for the free area. Then, the collation unit 28 adopts the collation result when the collation result is finally obtained for the free area (determined as one of the products), and when the collation result is not obtained, the collation unit 28 adopts the result.
  • the object area detection unit 23 may not detect the object area from the product image.
  • the failure can be compensated for by adding the object area rectangle to the empty area.
  • the recognition target of the object recognition device 100 is a product such as a beverage, but the recognition target may be a product other than a beverage.
  • the object area is not limited to a rectangle, and may have a polygonal shape or a complicated outer shape other than that.
  • the recognition target is not limited to the product, and may be various objects stored on the shelf.
  • FIG. 9 is a block diagram showing a functional configuration of the object recognition device 50 according to the second embodiment.
  • the object recognition device 50 includes a storage unit 51, an object area detection unit 52, a feature amount extraction unit 53, a narrowing-down unit 54, and a collation unit 55.
  • the storage unit 51 stores a table in which a plurality of feature quantities are associated with an object having feature points of each feature quantity.
  • the object area detection unit 52 detects the object areas of a plurality of objects from the input image.
  • the feature amount extraction unit 53 extracts the feature amount of the feature point from the input image.
  • the narrowing-down unit 54 refers to the table and narrows down all the objects to be recognized to the object candidates corresponding to the object area based on the feature amount of the feature points belonging to the object area.
  • the collation unit 55 collates the feature points belonging to the object region with the feature points for each object candidate, recognizes the object, and outputs the recognition result.
  • a storage unit that stores a table in which a plurality of feature quantities and an object having feature points of each feature quantity are associated with each other.
  • An object area detection unit that detects the object areas of multiple objects from the input image,
  • a feature amount extraction unit that extracts the feature amount of the feature point from the input image,
  • a narrowing-down unit that narrows down all objects to be recognized to object candidates corresponding to the object region based on the feature quantities of the feature points belonging to the object region.
  • a collating unit that recognizes the object by collating the feature points belonging to the object region with the feature points of each object candidate and outputs the recognition result.
  • An object recognition device including.
  • Appendix 2 The object recognition device according to Appendix 1, wherein the narrowing-down unit votes an object having the feature amount for each feature amount belonging to the object area, and determines a plurality of objects having a higher number of votes as the object candidate.
  • the collating unit detects the outer shape of the object by collating the feature points, and when the area indicated by the detected outer shape and the object area of the object detected by the object area detecting unit differ by a predetermined amount or more.
  • the object recognition device according to Appendix 1 or 2, which discards the recognition result for the object.
  • the narrowing-down portion uses a part of the feature points included in the object area, and uses the narrowed-down portion.
  • the object recognition device according to any one of Supplementary note 1 to 5, wherein the collation unit uses all of the feature points included in the object area.
  • the narrowing section uses all of the feature points included in the object area, and uses all of the feature points.
  • the object recognition device according to any one of Supplementary note 1 to 5, wherein the collation unit uses a part of feature points included in the object area.
  • Appendix 8 A table that acquires the feature amounts of the feature points possessed by each of the plurality of objects, classifies the feature amounts into a plurality of groups, and generates the table by associating the objects having the feature amounts belonging to each group with the feature amounts.
  • the object recognition device according to any one of Appendix 1 to 7, further comprising a generation unit.
  • Appendix 9 The object recognition device according to any one of Appendix 1 to 8, further comprising a notification unit for notifying that an object existing in the object area is unregistered for an object area for which a recognition result has not been obtained by the collation unit. ..
  • the object area detection unit has the same size as the adjacently detected object area.
  • the object recognition device according to any one of Supplementary note 1 to 12, which adds the object area to the empty area.
  • Image acquisition unit 22 Feature quantity extraction unit 23 Object area detection unit 24 Narrowing search unit 25 Feature quantity file storage unit 26 Hash table generation unit 27 Feature quantity file reading unit 28 Matching unit 100 Object recognition device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

物体認識装置において、記憶部は、複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを記憶する。物体領域検出部は、入力画像から、複数の物体の物体領域を検出する。特徴量抽出部は、入力画像から、物体領域に属する特徴点の特徴量を抽出する。絞り込み部は、テーブルを参照し、物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込む。照合部は、物体領域に属する特徴点と、物体候補毎の特徴点とを照合して物体を認識し、認識結果を出力する。

Description

物体認識装置、物体認識理方法、及び、記録媒体
 本発明は、撮影画像から物体を認識する技術に関する。
 店舗における在庫管理などの目的で、陳列棚にある商品の撮影画像から個々の商品を認識する手法が提案されている。特許文献1は、物体領域抽出機能と画像特徴量抽出機能により撮影画像の物体領域から画像特徴量を抽出し、DBサーバに登録している画像マスタと照合する事で、物体の特定と数量を取得する在庫管理システムを記載している。
特開2019-40227号公報
 特許文献1の手法では、撮影画像から抽出された特徴量を、多数の商品の画像マスタと照合する必要があるため、大量の商品を認識する場合に処理時間がかかってしまうという問題がある。
 本発明の1つの目的は、大量の物体を効率的に認識することが可能な物体認識手法を提供することにある。
 本発明の一つの観点は、物体認識装置であって、
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを記憶する記憶部と、
 入力画像から、複数の物体の物体領域を検出する物体領域検出部と、
 前記入力画像から、特徴点の特徴量を抽出する特徴量抽出部と、
 前記テーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込む絞り込み部と、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する照合部と、を備える。
 本発明の他の観点は、物体認識方法であって、
 入力画像から、複数の物体の物体領域を検出し、
 前記入力画像から、特徴点の特徴量を抽出し、
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する。
 本発明の他の観点は、記録媒体であって、
 入力画像から、複数の物体の物体領域を検出し、
 前記入力画像から、特徴点の特徴量を抽出し、
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、大量の物体を効率的に認識することが可能なとなる。
第1実施形態に係る物体認識装置を示す。 物体認識装置のハードウェア構成を示すブロック図である。 物体認識装置の機能構成を示すブロック図である。 商品画像の一例を示す。 商品画像において抽出された特徴点を模式的に示す。 商品画像から検出された物体領域の例を示す。 ハッシュテーブルの例、及び、検索方法を示す。 物体認識処理のフローチャートである。 第2実施形態に係る物体認識装置を示す。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 <第1実施形態>
 [物体認識装置]
 図1は、第1実施形態に係る物体認識装置を示す。物体認識装置100には、商品の画像が入力される。商品の画像は、例えば店舗の商品棚などを正面から撮影した画像であり、棚に陳列された複数の商品が含まれている。通常、商品棚には異なる種類の商品が陳列されており、物体認識装置100は個々の商品がどの商品であるかを認識し、認識結果を出力する。認識結果は、商品棚への商品の補充作業や、店舗での在庫管理などに利用される。なお、本発明の適用は商品画像には限定されず、例えば床に積まれた物体などの認識にも適用可能である。
 本実施形態では、認識対象の個々の商品について特徴量を示す特徴量ファイルを予め生成しておく。そして、物体認識装置100は、商品画像から抽出された特徴点と、特徴量ファイルに含まれる各商品の特徴量とを順に照合して、商品画像に含まれる商品がいずれの商品であるかを認識する。しかしながら、上記の照合処理は処理量が大きいため、商品画像の特徴点を特徴量ファイル内の全ての商品の特徴量と照合していると、処理時間が長くなってしまう。そこで、本実施形態では、特徴量に基づく絞り込み検索を行って照合処理の対象とする商品を減らしてから、実際の照合処理を行う。これにより、全体の処理時間を短縮する。
 [ハードウェア構成]
 図2は、物体認識装置100のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、入力IF(InterFace)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、入力装置16と、表示装置17と、出力装置18と、を備える。
 入力IF11は、データの入出力を行う。具体的に、入力IF11は、外部から商品画像を取得するとともに、その画像に基づいて物体認識装置100が生成した認識結果を出力する。
 プロセッサ12は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。特に、プロセッサ12は、後述する物体認識処理を行う。
 メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12により実行される各種のプログラムを記憶する。また、メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。
 DB15は、入力IF11から入力されるデータを記憶する。具体的に、DB15には、商品画像が記憶される。また、DB15には、物体の認識に使用されるデータ、具体的には後述するデータベースファイルや特徴量ファイルが記憶される。
 入力装置16は、例えばキーボード、マウス、タッチパネルなどであり、物体認識装置100による処理に関連してユーザが必要な指示、入力を行う際に使用される。表示装置17は例えば液晶ディスプレイなどであり、物体認識結果が表示される。出力装置18は、物体認識結果を外部装置へ出力する。例えば、出力装置18は、ネットワークを介して、物体認識結果をPOS(Point Of Sale)端末などに出力してもよい。
 [機能構成]
 図3は、物体認識装置100の機能構成を示すブロック図である。物体認識装置100は、画像取得部21と、特徴量抽出部22と、物体領域検出部23と、絞り込み検索部24と、特徴量ファイル記憶部25と、ハッシュテーブル生成部26と、特徴量ファイル読込部27と、照合部28と、を備える。
 画像取得部21は、商品画像を取得する。図4は、商品画像の一例を示す。商品画像は、例えば店舗の商品棚の撮影画像であり、複数種類の商品が含まれている。画像取得部21は、取得した商品画像を特徴量抽出部22に出力する。
 特徴量抽出部22は、商品画像から特徴量を抽出する。特徴量抽出部22は、商品画像から特徴点を検出し、その特徴点における特徴量を生成する。特徴量としては、例えばSIFT(Scale-Invariant Feature Transform)特徴量などを使用することができる。SIFT特徴量の場合、画像の平滑化などによりキーポイントと呼ばれる特徴点が検出され、各特徴点について輝度の勾配を示す128次元のベクトルの特徴量が抽出される。なお、SIFT特徴量は本実施形態で使用する特徴量の一例であり、これに限定されるものではない。図5は、商品画像において抽出された特徴点を模式的に示す。商品画像における商品上又は商品の近傍において特徴点Pが検出される。特徴量抽出部22は、商品画像と、抽出された特徴量に関する特徴量情報を物体領域検出部23に出力する。特徴量情報は、その商品画像における各特徴点の位置情報と、各特徴点の特徴量とを含む。
 物体領域検出部23は、商品画像から物体領域を検出する。物体領域は、個々の商品に対応する領域である。物体領域の検出は、例えばニューラルネットワークを用いた領域検出手法により行うことができる。図6は、商品画像から検出された物体領域の例を示す。物体領域の検出により、商品画像に含まれる個々の商品を囲む矩形の物体領域Rが検出される。物体領域検出部23は、特徴量情報と、物体領域情報とを絞り込み検索部24に出力する。物体領域情報は、商品画像に含まれる個々の商品に対応する物体領域Rの位置情報を含む。
 特徴量ファイル記憶部25は、特徴量ファイルを記憶している。特徴量ファイルは、物体認識装置100が認識対象とする多数の商品それぞれの特徴量を示す。認識対象となる商品については、予めその撮影画像に基づいて上述のような特徴量抽出処理を行い、その商品が有する特徴量情報が生成されている。即ち、個々の商品について、その商品が有する複数の特徴点の位置情報、及び、各特徴点の特徴量が特徴量ファイルとして生成され、特徴量ファイル記憶部25に記憶されている。
 ハッシュテーブル生成部26は、特徴量ファイルからハッシュテーブルを生成する。図7(A)はハッシュテーブルの例を示す。ハッシュテーブル生成部25は、商品画像から得られた各特徴量をキーとして所定のハッシュ関数に入力してハッシュ値を生成し、各ハッシュ値をインデックスとする配列を作成する。図7(A)の例では、ハッシュ関数により各特徴量を「0」~「6」のハッシュ値に変換し、それらをインデックスとする配列ft[0]~ft[6]を作成している。そして、配列ft[0]~ft[6]に対して、その配列に分類される特徴量を有する商品を値として割り当てる。図7(A)の例では、ハッシュ値が「0」となる特徴量を有する商品A、D、Fが配列ft[0]の値に割り当てられている。同様に、ハッシュ値が「1」となる特徴量を有する商品A、C、Hが配列ft[1]の値に割り当てられ、ハッシュ値が「5」となる特徴量を有する商品C、F、G、Iが配列ft[5]の値に割り当てられている。このように、ハッシュテーブル生成部25は、事前処理として、物体認識装置100が認識対象とする全ての商品を値として含むハッシュテーブルを生成する。
 絞り込み検索部24は、ハッシュテーブルを用いて、絞り込み検索(ハッシュ検索)を行う。前述のように、絞り込み検索部24には、物体領域情報と、特徴量情報とが入力される。まず、絞り込み検索部24は、特徴量を物体領域毎に分割し、物体領域毎の特徴量を生成する。次に、絞り込み検索部24は、ハッシュテーブルを用いて物体領域毎に特徴点の投票を行う。詳しくは、図7(A)に示すように、絞り込み検索部24は、1つの物体領域Rについて、その物体領域Rに含まれる個々の特徴点Pの特徴量に対応する商品の投票を行う。図7(A)の例では、絞り込み検索部24は、ハッシュテーブルを参照し、特徴点P1に基づき商品A、D、Fにそれぞれ1票を与え、特徴点P2に基づき商品A、C、Hにそれぞれ1票を与える。こうして、絞り込み検索部24は、1つの物体領域Rに対応する全ての特徴点に基づき、ハッシュテーブルが値として示す商品に投票する。図7(B)は、こうして得られた投票結果の例を示す。横軸は商品の種類を示し、縦軸は投票数を示す。投票結果における投票数が多い商品ほど、その商品が物体領域Rの商品である確率が高いことになる。図7(B)の例では、商品Dの投票数が最も多く、商品Bと商品Iがほぼ同数で2番目に多い。
 そこで、絞り込み検索部24は、投票結果の投票数に基づいて商品を絞り込む。例えば、絞り込み検索部24は、投票数が上位のN個(例えばN=5とすると上位5位まで)の商品を商品候補として選択する。他の例では、絞り込み検索部24は、全ての商品を投票数の順に並べ、投票数が上位の商品から順に、次の順位の商品との投票数の差を算出し、その差が所定値以上となった場合に、その順位より上の順位の商品を商品候補として選択する。例えば、所定数を「10」とし、投票数1位の商品と2位の商品との投票数差が「5」、投票数2の商品と3位の商品との投票数差が「7」、投票数3位の商品と4位の商品との投票数差が「11」であった場合、絞り込み検索部24は投票数1位~3位の商品を商品候補とする。こうして、絞り込み検索部24は、上記の処理を全ての物体領域Rに対して行い、物体領域R毎に商品候補を決定して照合部28へ出力する。例えば、投票数の上位N個の商品を商品候補に決定する場合、絞り込み検索部24は、商品画像から検出された全ての物体領域Rについて、N個ずつの商品候補を出力する。
 特徴量ファイル読込部27は、特徴量ファイル記憶部25から特徴量ファイルを読み込み、照合部28へ出力する。照合部28は、絞り込み検索部24が決定した商品候補について特徴点の照合を行う。具体的に、照合部28は、個々の物体領域について、その物体領域に含まれる特徴点と、その物体領域について絞り込み検索部24が決定した商品候補の特徴点とのマッチングを行い、類似性が高い特徴点を対応点とする。例えば、図7(B)の例において、絞り込み検索部24が商品候補を商品B、D、Iと決定した場合、照合部28は、物体領域の特徴量と、特徴量ファイル内の商品B、D、Iの特徴量とのマッチングを行う。そして、照合部28は、商品候補に含まれる複数の商品のうち、対応点が最も多い商品をその物体領域に対する認識結果、即ち、その物体領域に存在する商品と決定する。照合部28は、この処理を全ての物体領域について行い、各物体領域に対応する商品を認識結果として出力する。
 このように、本実施形態では、絞り込み検索部24が全商品をいくつかの商品候補に絞り込み、照合部28は商品候補のみを対象に特徴点の照合を行う。特徴点の照合は、物体領域に含まれる複数の特徴点と、特徴量ファイルに記憶されている各商品の特徴点との全ての組み合わせを比較するため、非常に処理負荷が高い。仮に1つの商品棚に60点の商品が陳列可能であり、取り扱う商品の種類が数千点あるとすると、1つの商品棚を撮影した1枚の商品画像に対して、60×数千の組み合わせについて照合処理を行うことになり、処理に非常に時間がかかる。この点、本実施形態では、特徴量に基づいて生成したハッシュテーブルを利用して、絞り込み検索部24が数千点の商品をそれより十分に少ない商品候補に絞り込み、それら商品候補のみについて照合部28が特徴点の照合を行えばよいので、処理時間を大幅に短縮することが可能となる。
 [物体認識処理]
 図8は、物体認識処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行し、図3に示す各要素として動作することにより実現される。まず、事前処理として、ハッシュテーブル生成部26は、特徴量ファイルから認識対象の全商品の特徴量情報を取得し、ハッシュテーブルを生成する(ステップS11)。
 次に、画像取得部21は商品画像を取得し(ステップS12)、特徴量抽出部22は、図5に例示するように商品画像から特徴量を抽出する(ステップS13)。次に、物体領域検出部23は、図6に例示するように各商品に対応する物体領域を検出する(ステップS14)。次に、絞り込み検索部24は、ハッシュテーブルを参照し、各物体領域の特徴量に基づいて絞り込み検索を行い、商品候補を決定する(ステップS15)。そして、照合部28は、各物体領域の特徴量と、特徴量ファイルに記憶されている各商品候補の特徴量とを用いて照合処理を行い、各物体領域に対する認識結果を出力する(ステップS16)。そして、処理は終了する。
 [変形例]
 次に、上記の実施形態の変形例について説明する。以下の変形例は、適宜組み合わせて適用することができる。
 (変形例1)
 上記の実施形態では、まず、特徴量抽出部22が商品画像全体から特徴量を抽出し、次に物体領域検出部23が物体領域を検出し、検出された物体領域毎に特徴量を分割して物体領域毎の特徴量を求めている。その代わりに、まず、物体領域検出部23が物体領域を検出し、特徴量抽出部22は物体領域毎の画像から特徴量を抽出してもよい。
 (変形例2)
 照合部28は、物体領域に含まれる特徴点と、特徴量ファイルに含まれる各商品の特徴点とのマッチングを行うことにより、その物体領域に対応する商品の矩形を検出することができる。物体領域検出部23が検出した物体領域の矩形(以下、「物体領域矩形」と呼ぶ。)と、照合部28による特徴点のマッチングで得られる矩形(以下、「特徴点マッチング矩形」と呼ぶ。)が大きく異なる場合、照合部28は、その物体領域について得られた照合結果を破棄してもよい。これは、物体領域矩形と特徴点マッチング矩形とが大きく異なる場合、物体領域の検出処理又は照合処理の精度が不十分と考えられるためである。
 (変形例3)
 上記の実施形態では、物体領域検出部23が検出した物体領域矩形に基づいて特徴点を選択し、絞り込み検索部24による絞り込み検索及び照合部28による照合処理を行っている。その際、物体領域矩形の内部に存在する特徴点のみならず、物体領域矩形の周囲に存在する特徴点も用いて、絞り込み検索及び照合処理の少なくとも一方を行うこととしてもよい。ここで、物体領域矩形の「周囲」とは、例えば、物体領域矩形の外側の所定画素分を含む領域である。これにより、物体領域検出部23が検出した物体領域が実際の商品の位置に対して多少ずれていても、その商品を正しく認識することが可能となる。
 また、物体領域矩形の内部に存在する特徴点の一部を使用して、絞り込み検索及び照合処理を行ってもよい。例えば、絞り込み検索部24は物体領域矩形内の一部の特徴量を使用して絞り込み検索を行い、照合部28は物体領域矩形内の全ての特徴点を使用して照合を行ってもよい。逆に、絞り込み検索部24は物体領域矩形内の全ての特徴量を使用して絞り込み検索を行い、照合部28は物体領域矩形内の一部の特徴点を使用して照合を行ってもよい。
 (変形例4)
 物体領域検出部23が検出した物体領域について照合部28が照合処理を行った結果、照合結果が0件であった場合、即ち、該当する商品が見つからなかった場合、照合部28は、その商品の登録が漏れている旨、又は、未登録の新商品の可能性がある旨をユーザに通知してもよい。なお、商品の登録がされていないとは、その商品についての特徴量ファイルが用意されていないことを指す。例えば、照合部28は、表示装置17に商品画像を表示し、その商品の部分を黒塗りで示したり、メッセージを表示したりしてもよい。また、表示装置17に照合結果リストとして商品名などを表示する場合には、商品名の欄に「不明」、「登録漏れ?」、「新商品?」などと表示してもよい。
 また、上記のように照合結果が0件であった場合、照合部28は、絞り込み検索部24により決定された商品候補の商品の新ラベルや新シリーズなどの関連商品の可能性があることをユーザに通知してもよい。例えば、絞り込み検索部24により、商品A、D、Fが商品候補に決定されている場合、照合部28は表示装置17に「商品A、D、Fのいずれかの新商品の可能性あり。」などと表示してもよい。
 (変形例5)
 店舗の商品棚は、各段にほぼ同じ大きさの商品が配置されていることが多い。特に、飲料などについてはその傾向が高い。そこで、物体領域検出部23は、検出された物体領域矩形の面積が、隣接する左右の物体領域矩形の面積と大きく異なる場合には、その物体領域矩形を誤検出として除去してもよい。また、物体領域検出部23は、隣接する左右の物体領域矩形のみでなく、同じ段の他の物体領域矩形と比較して面積が大きく異なる物体領域矩形を誤検出として除去してもよい。
 (変形例6)
 物体領域検出部23による物体領域の検出結果において、物体領域が検出されなかった領域(以下、「空き領域」と呼ぶ。)があり、その空き領域の大きさが、商品棚の同じ段で検出された物体領域が入るぐらいの大きさである場合には、物体領域検出部23は、同じ段で検出された物体領域矩形と同じ大きさの矩形をその空き領域に追加してもよい。これにより、空き領域についても、その後の絞り込み検索や照合処理が実行される。そして、照合部28は、最終的に空き領域について照合結果が得られた(いずれかの商品と判定された)場合には、その結果を採用し、照合結果が得られなかった場合には、その空き領域には商品が存在しないと判定すればよい。商品棚に対する照明の状態により、商品画像において暗い位置の商品などは物体領域が検出されないことがある。また、商品が重なっていたり、値札などが商品に重なっている場合にも物体領域が検出されないことがある。このように、物体領域検出部23が商品画像からの物体領域の検出に失敗した場合でも、空き領域に物体領域矩形を追加することにより、その失敗を補うことが可能となる。
 (変形例7)
 上記の実施形態では、物体認識装置100の認識対象を飲料などの商品としているが、認識対象を飲料以外の商品としてもよい。その場合、物体領域は矩形とは限らず、多角形やそれ以外の複雑な外形となることがある。また、認識対象は商品には限られず、棚に保管されている様々な物体であってもよい。
 <第2実施形態>
 図9は、第2実施形態に係る物体認識装置50の機能構成を示すブロック図である。物体認識装置50は、記憶部51と、物体領域検出部52と、特徴量抽出部53と、絞り込み部54と、照合部55と、を備える。記憶部51は、複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを記憶する。物体領域検出部52は、入力画像から、複数の物体の物体領域を検出する。特徴量抽出部53は、入力画像から、特徴点の特徴量を抽出する。絞り込み部54は、テーブルを参照し、物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込む。照合部55は、物体領域に属する特徴点と、物体候補毎の特徴点とを照合して物体を認識し、認識結果を出力する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを記憶する記憶部と、
 入力画像から、複数の物体の物体領域を検出する物体領域検出部と、
 前記入力画像から、特徴点の特徴量を抽出する特徴量抽出部と、
 前記テーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込む絞り込み部と、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する照合部と、
 を備える物体認識装置。
 (付記2)
 前記絞り込み部は、前記物体領域に属する特徴量毎に当該特徴量を有する物体の投票を行い、投票数が上位である複数の物体を前記物体候補と決定する付記1に記載の物体認識装置。
 (付記3)
 前記照合部は、前記特徴点の照合により前記物体の外形を検出し、検出された外形が示す領域と、前記物体領域検出部が検出した当該物体の物体領域とが所定量以上異なる場合には、当該物体についての認識結果を破棄する付記1又は2に記載の物体認識装置。
 (付記4)
 前記特徴量抽出部は、前記物体領域の周囲の所定領域においても前記特徴量を抽出する付記1乃至3のいずれか一項に記載の物体認識装置。
 (付記5)
 前記照合部は、前記物体領域の周囲の所定領域に存在する特徴点を含めて前記特徴点の照合を行う1乃至4のいずれか一項に記載の物体認識装置。
 (付記6)
 前記絞り込み部は、前記物体領域に含まれる特徴点の一部を使用し、
 前記照合部は、前記物体領域に含まれる特徴点の全てを使用する付記1乃至5のいずれか一項に記載の物体認識装置。
 (付記7)
 前記絞り込み部は、前記物体領域に含まれる特徴点の全てを使用し、
 前記照合部は、前記物体領域に含まれる特徴点の一部を使用する付記1乃至5のいずれか一項に記載の物体認識装置。
 (付記8)
 複数の物体の各々が有する特徴点の特徴量を取得し、前記特徴量を複数のグループに分類し、各グループに属する特徴量を有する物体を、当該特徴量に関連付けて前記テーブルを生成するテーブル生成部を備える付記1乃至7のいずれか一項に記載の物体認識装置。
 (付記9)
 前記照合部により認識結果が得られなかった物体領域について、当該物体領域に存在する物体が未登録である旨を通知する通知部を備える付記1乃至8のいずれか一項に記載の物体認識装置。
 (付記10)
 前記通知部は、前記物体領域に存在する物体が、前記絞り込み部により決定された物体候補に関連する物体である可能性が高い旨を通知する付記9に記載の物体認識装置。
 (付記11)
 前記照合部は、左右の物体領域の面積と所定値以上異なる物体領域について得られた認識結果を誤検出として破棄する付記1乃至10のいずれか一項に記載の物体認識装置。
 (付記12)
 前記物体は棚に配置されており、
 前記照合部は、前記棚の同一の段において検出された物体領域の面積と所定値以上異なる物体領域について得られた認識結果を誤検出として破棄する付記1乃至10のいずれか一項に記載の物体認識装置。
 (付記13)
 前記物体領域検出部は、前記物体領域を検出しなかった空き領域が、隣接して検出された物体領域と同等以上の面積を有する場合には、前記隣接して検出された物体領域と同じ大きさの物体領域を当該空き領域に追加する付記1乃至12のいずれか一項に記載の物体認識装置。
 (付記14)
 入力画像から、複数の物体の物体領域を検出し、
 前記入力画像から、特徴点の特徴量を抽出し、
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する物体認識方法。
 (付記15)
 入力画像から、複数の物体の物体領域を検出し、
 前記入力画像から、特徴点の特徴量を抽出し、
 複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
 前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 21 画像取得部
 22 特徴量抽出部
 23 物体領域検出部
 24 絞り込み検索部
 25 特徴量ファイル記憶部
 26 ハッシュテーブル生成部
 27 特徴量ファイル読込部
 28 照合部
 100 物体認識装置

Claims (15)

  1.  複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを記憶する記憶部と、
     入力画像から、複数の物体の物体領域を検出する物体領域検出部と、
     前記入力画像から、特徴点の特徴量を抽出する特徴量抽出部と、
     前記テーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込む絞り込み部と、
     前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する照合部と、
     を備える物体認識装置。
  2.  前記絞り込み部は、前記物体領域に属する特徴量毎に当該特徴量を有する物体の投票を行い、投票数が上位である複数の物体を前記物体候補と決定する請求項1に記載の物体認識装置。
  3.  前記照合部は、前記特徴点の照合により前記物体の外形を検出し、検出された外形が示す領域と、前記物体領域検出部が検出した当該物体の物体領域とが所定量以上異なる場合には、当該物体についての認識結果を破棄する請求項1又は2に記載の物体認識装置。
  4.  前記特徴量抽出部は、前記物体領域の周囲の所定領域においても前記特徴量を抽出する請求項1乃至3のいずれか一項に記載の物体認識装置。
  5.  前記照合部は、前記物体領域の周囲の所定領域に存在する特徴点を含めて前記特徴点の照合を行う1乃至4のいずれか一項に記載の物体認識装置。
  6.  前記絞り込み部は、前記物体領域に含まれる特徴点の一部を使用し、
     前記照合部は、前記物体領域に含まれる特徴点の全てを使用する請求項1乃至5のいずれか一項に記載の物体認識装置。
  7.  前記絞り込み部は、前記物体領域に含まれる特徴点の全てを使用し、
     前記照合部は、前記物体領域に含まれる特徴点の一部を使用する請求項1乃至5のいずれか一項に記載の物体認識装置。
  8.  複数の物体の各々が有する特徴点の特徴量を取得し、前記特徴量を複数のグループに分類し、各グループに属する特徴量を有する物体を、当該特徴量に関連付けて前記テーブルを生成するテーブル生成部を備える請求項1乃至7のいずれか一項に記載の物体認識装置。
  9.  前記照合部により認識結果が得られなかった物体領域について、当該物体領域に存在する物体が未登録である旨を通知する通知部を備える請求項1乃至8のいずれか一項に記載の物体認識装置。
  10.  前記通知部は、前記物体領域に存在する物体が、前記絞り込み部により決定された物体候補に関連する物体である可能性が高い旨を通知する請求項9に記載の物体認識装置。
  11.  前記照合部は、左右の物体領域の面積と所定値以上異なる物体領域について得られた認識結果を誤検出として破棄する請求項1乃至10のいずれか一項に記載の物体認識装置。
  12.  前記物体は棚に配置されており、
     前記照合部は、前記棚の同一の段において検出された物体領域の面積と所定値以上異なる物体領域について得られた認識結果を誤検出として破棄する請求項1乃至10のいずれか一項に記載の物体認識装置。
  13.  前記物体領域検出部は、前記物体領域を検出しなかった空き領域が、隣接して検出された物体領域と同等以上の面積を有する場合には、前記隣接して検出された物体領域と同じ大きさの物体領域を当該空き領域に追加する請求項1乃至12のいずれか一項に記載の物体認識装置。
  14.  入力画像から、複数の物体の物体領域を検出し、
     前記入力画像から、前記物体領域に属する特徴点の特徴量を抽出し、
     複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
     前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する物体認識方法。
  15.  入力画像から、複数の物体の物体領域を検出し、
     前記入力画像から、前記物体領域に属する特徴点の特徴量を抽出し、
     複数の特徴量と、各特徴量の特徴点を持つ物体とを関連付けたテーブルを参照し、前記物体領域に属する特徴点の特徴量に基づいて、認識対象の全物体を、当該物体領域に対応する物体候補に絞り込み、
     前記物体領域に属する特徴点と、前記物体候補毎の特徴点とを照合して前記物体を認識し、認識結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2020/003712 2020-01-31 2020-01-31 物体認識装置、物体認識理方法、及び、記録媒体 WO2021152829A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/003712 WO2021152829A1 (ja) 2020-01-31 2020-01-31 物体認識装置、物体認識理方法、及び、記録媒体
US17/792,841 US20230039355A1 (en) 2020-01-31 2020-01-31 Object recognition apparatus, object recognition method, and recording medium
JP2021574410A JPWO2021152829A5 (ja) 2020-01-31 物体認識装置、物体認識理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/003712 WO2021152829A1 (ja) 2020-01-31 2020-01-31 物体認識装置、物体認識理方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021152829A1 true WO2021152829A1 (ja) 2021-08-05

Family

ID=77078815

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003712 WO2021152829A1 (ja) 2020-01-31 2020-01-31 物体認識装置、物体認識理方法、及び、記録媒体

Country Status (2)

Country Link
US (1) US20230039355A1 (ja)
WO (1) WO2021152829A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299210A (ja) * 2006-04-28 2007-11-15 Sharp Corp 画像処理装置、画像形成装置、画像読取装置及び画像処理方法
JP2008287438A (ja) * 2007-05-16 2008-11-27 Canon Inc 画像処理装置及び画像検索方法
JP2019040227A (ja) * 2017-08-22 2019-03-14 株式会社日立製作所 在庫管理システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101536035B (zh) * 2006-08-31 2012-09-26 公立大学法人大阪府立大学 图像识别方法、以及图像识别装置
US20080095465A1 (en) * 2006-10-18 2008-04-24 General Electric Company Image registration system and method
US8737724B2 (en) * 2011-06-10 2014-05-27 Microsoft Corporation Image type classifier for improved remote presentation session compression
US8655029B2 (en) * 2012-04-10 2014-02-18 Seiko Epson Corporation Hash-based face recognition system
US20150125835A1 (en) * 2012-04-17 2015-05-07 David Wittich System and Method for Providing Recursive Feedback During and Assembly Operation
US9177225B1 (en) * 2014-07-03 2015-11-03 Oim Squared Inc. Interactive content generation
WO2018078408A1 (en) * 2016-10-28 2018-05-03 The Nielsen Company (Us), Llc Reducing scale estimate errors in shelf images
JP2019012360A (ja) * 2017-06-29 2019-01-24 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
FR3071341B1 (fr) * 2017-09-19 2019-09-20 Ses-Imagotag Procede mis en oeuvre par camera de controle de disposition d'articles pour des etageres equipees d'etiquettes electroniques de gondole
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques
EP3742336A1 (en) * 2018-01-10 2020-11-25 Trax Technology Solutions Pte Ltd. Automatically monitoring retail products based on captured images
US11568554B2 (en) * 2019-10-25 2023-01-31 7-Eleven, Inc. Contour-based detection of closely spaced objects
CN112074842A (zh) * 2019-03-21 2020-12-11 京东方科技集团股份有限公司 价签信息显示方法、装置及货架系统
US11080566B2 (en) * 2019-06-03 2021-08-03 Zebra Technologies Corporation Method, system and apparatus for gap detection in support structures with peg regions
US11158075B2 (en) * 2019-06-03 2021-10-26 Zebra Technlogies Corporation Method, system and apparatus for depth sensor artifact removal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299210A (ja) * 2006-04-28 2007-11-15 Sharp Corp 画像処理装置、画像形成装置、画像読取装置及び画像処理方法
JP2008287438A (ja) * 2007-05-16 2008-11-27 Canon Inc 画像処理装置及び画像検索方法
JP2019040227A (ja) * 2017-08-22 2019-03-14 株式会社日立製作所 在庫管理システム

Also Published As

Publication number Publication date
JPWO2021152829A1 (ja) 2021-08-05
US20230039355A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
US20220405321A1 (en) Product auditing in point-of-sale images
JP6098701B2 (ja) 複数の整理されたオブジェクトを含む画像を解析する方法、システム及びコンピュータ可読プログラム
JP6693059B2 (ja) 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置
JP5863786B2 (ja) 画像中の特定物体の迅速且つ堅牢性のある識別方法及び識別システム
US9098775B2 (en) Multi-class identifier, method, and computer-readable recording medium
US20190188729A1 (en) System and method for detecting counterfeit product based on deep learning
CN107403128B (zh) 一种物品识别方法及装置
JP2018041261A (ja) 情報処理装置及びプログラム
JP6624063B2 (ja) 自動販売機認識装置、商品棚認識装置、自動販売機認識方法、プログラムおよび画像処理装置
CN101398900A (zh) 模式识别方法、参数学习方法和设备
US11354549B2 (en) Method and system for region proposal based object recognition for estimating planogram compliance
EP3217324A1 (en) Hybrid detection recognition system
JP5103955B2 (ja) 画像検索方法、装置およびプログラム
JP2019045909A (ja) 画像認識システム
US11600084B2 (en) Method and apparatus for detecting and interpreting price label text
Boia et al. Logo localization and recognition in natural images using homographic class graphs
JP2019212157A (ja) 商品特定装置、プログラム及び学習方法
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2021152829A1 (ja) 物体認識装置、物体認識理方法、及び、記録媒体
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
CN107392212A (zh) 一种图像信息快速识别方法
JP2019016128A (ja) 画像類否判断プログラム、画像類否判断装置および画像類否判断方法
CN112668583A (zh) 图像识别方法、装置以及电子设备
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
US11847175B2 (en) Table row identification using machine learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20916978

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021574410

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20916978

Country of ref document: EP

Kind code of ref document: A1