WO2021234938A1 - 処理装置、処理方法及びプログラム - Google Patents

処理装置、処理方法及びプログラム Download PDF

Info

Publication number
WO2021234938A1
WO2021234938A1 PCT/JP2020/020260 JP2020020260W WO2021234938A1 WO 2021234938 A1 WO2021234938 A1 WO 2021234938A1 JP 2020020260 W JP2020020260 W JP 2020020260W WO 2021234938 A1 WO2021234938 A1 WO 2021234938A1
Authority
WO
WIPO (PCT)
Prior art keywords
product
product type
camera
image
related information
Prior art date
Application number
PCT/JP2020/020260
Other languages
English (en)
French (fr)
Inventor
壮馬 白石
克 菊池
貴美 佐藤
悠 鍋藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/020260 priority Critical patent/WO2021234938A1/ja
Priority to US17/925,046 priority patent/US20230186271A1/en
Priority to JP2022524827A priority patent/JP7396476B2/ja
Publication of WO2021234938A1 publication Critical patent/WO2021234938A1/ja
Priority to JP2023201508A priority patent/JP2024039025A/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/208Input by product or record sensing, e.g. weighing or scanner processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/18Payment architectures involving self-service terminals [SST], vending machines, kiosks or multimedia terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a processing device, a processing method and a program.
  • Non-Patent Documents 1 and 2 disclose a store system that eliminates payment processing (product registration, payment, etc.) at the cashier counter.
  • the product that the customer has is recognized based on the image generated by the camera that captures the inside of the store, and the payment process is automatically performed based on the recognition result when the customer leaves the store.
  • Patent Document 1 discloses the following devices. First, the device detects the first flying object in the first image acquired from the first camera, and obtains an epipolar line indicating the direction of the first flying object as seen from the first camera. Then, the device controls the second camera to shoot along the epipolar line. Next, the device detects the second flying object in the second image acquired from the second camera, determines whether the first flying object and the second flying object are the same, and determines whether the first flying object and the second flying object are the same, and the first flight. Calculate the position of the object and the second flying object.
  • Patent Document 2 sets an object by switching a method of estimating a three-dimensional position of a person according to the position of a person's head in an image obtained from a plurality of cameras, regardless of the number of cameras in which the object is shown. Discloses a technique for accurately acquiring the three-dimensional position of.
  • Non-Patent Documents 1 and 2 There is a demand for technology that accurately recognizes the products that customers have picked up. For example, in a store system that eliminates payment processing (product registration, payment, etc.) at the cashier counter described in Non-Patent Documents 1 and 2, a technique for accurately recognizing a product held by a customer is required. .. In addition, the technology is also useful for investigating customer in-store behavior for the purpose of customer preference investigation, marketing research, and the like.
  • An object of the present invention is to provide a technique for accurately recognizing a product held by a customer.
  • a detection means for detecting an object from each of the plurality of images,
  • a position information generating means for generating position information indicating a position in the image for each of the detected objects, and a position information generating means.
  • a product type-related information generation means that generates product type-related information that specifies a product type for each of the detected objects based on the image.
  • a product recognition result output means for outputting a product recognition result for each extracted set, and a product recognition result output means.
  • the computer Acquire multiple images generated by multiple cameras taking pictures of the product that the customer has in their hands from different directions.
  • An object is detected from each of the plurality of images, and the object is detected.
  • position information indicating the position in the image is generated.
  • product type-related information that specifies the product type is generated based on the image.
  • Computer An acquisition method that acquires multiple images generated by multiple cameras taking pictures of a product held by a customer from different directions.
  • a detection means for detecting an object from each of the plurality of images.
  • a position information generation means that generates position information indicating a position in the image for each of the detected objects.
  • a product type-related information generation means that generates product type-related information that specifies a product type for each of the detected objects based on the image.
  • Extraction means to extract a set A product recognition result output means that outputs a product recognition result for each extracted set.
  • a program is provided that functions as.
  • the product recognition process is executed based on the images generated by a plurality of cameras that shoot the products held by the customer from different positions and directions. Then, only the product recognition result of the object in which the analysis results of the images generated by the plurality of cameras are matched (position matching, appearance matching, etc.) is output, and other product recognition results are rejected, for example.
  • the processing apparatus of the present embodiment by adding such a condition that "it is true when the analysis results of the images generated by a plurality of cameras are matched (position matching, appearance matching, etc.)". It is possible to suppress erroneous recognition and accurately recognize the product that the customer has.
  • Each functional unit of the processing device is stored in the CPU (Central Processing Unit) of an arbitrary computer, memory, a program loaded in the memory, and a storage unit such as a hard disk for storing the program (from the stage of shipping the device in advance).
  • CPU Central Processing Unit
  • a storage unit such as a hard disk for storing the program (from the stage of shipping the device in advance).
  • programs it can also store programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet), and is realized by any combination of hardware and software centered on the network connection interface. .. And, it is understood by those skilled in the art that there are various variations in the method of realizing the device and the device.
  • FIG. 1 is a block diagram illustrating a hardware configuration of a processing device.
  • the processing device includes a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the processing device does not have to have the peripheral circuit 4A.
  • the processing device may be composed of a plurality of physically and / or logically separated devices, or may be composed of one physically and / or logically integrated device. When the processing device is composed of a plurality of physically and / or logically separated devices, each of the plurality of devices can be provided with the above hardware configuration.
  • the bus 5A is a data transmission path for the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A to transmit and receive data to each other.
  • the processor 1A is, for example, an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, a memory such as a RAM (RandomAccessMemory) or a ROM (ReadOnlyMemory).
  • the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. ..
  • the input device is, for example, a keyboard, a mouse, a microphone, a physical button, a touch panel, or the like.
  • the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
  • the processor 1A can issue a command to each module and perform a calculation based on the calculation result thereof.
  • FIG. 2 shows an example of a functional block diagram of the processing device 10.
  • the processing device 10 includes an acquisition unit 11, a detection unit 12, a position information generation unit 13, a product type-related information generation unit 14, an extraction unit 15, and a product recognition result output unit 16. ..
  • the acquisition unit 11 acquires a plurality of images generated by a plurality of cameras taking pictures of the product held by the customer from different positions and different directions. Images generated by a plurality of cameras at the same timing can be specified by a time stamp or the like.
  • the input of the image to the acquisition unit 11 may be performed by real-time processing or batch processing. Which process should be used can be determined, for example, according to the content of use of the product recognition result.
  • a plurality of cameras will be described.
  • a plurality of cameras (two or more cameras) are installed so that the product held by the customer can be photographed from a plurality of positions and a plurality of directions.
  • a plurality of cameras may be installed for each product display shelf at a position and orientation for photographing the products taken out from each.
  • the camera may be installed on a product display shelf, on the ceiling, on the floor, on the wall, or in another place. ..
  • the example of installing a camera for each product display shelf is just an example, and the present invention is not limited to this.
  • the camera may shoot moving images at all times (for example, during business hours), may continuously shoot still images at time intervals larger than the frame interval of moving images, or may be determined by a motion sensor or the like. These photographs may be performed only while the person present at the position (such as in front of the product display shelf) is detected.
  • FIG. 4 is a diagram obtained by extracting the frame 4 of FIG. A camera 2 and lighting (not shown) are provided for each of the two components constituting the frame 4.
  • the light emitting surface of the illumination extends in one direction, and has a light emitting part and a cover that covers the light emitting part. Illumination mainly emits light in a direction orthogonal to the extending direction of the light emitting surface.
  • the light emitting unit has a light emitting element such as an LED, and emits light in a direction not covered by the cover. When the light emitting element is an LED, a plurality of LEDs are lined up in the direction in which the illumination extends (vertical direction in the figure).
  • the camera 2 is provided on one end side of a part of the frame 4 extending linearly, and the shooting range is the direction in which the light of the illumination is radiated.
  • the shooting range is the direction in which the light of the illumination is radiated.
  • the camera 2 has a lower right and an oblique lower right as a shooting range.
  • the camera 2 has the upper left and the diagonally upper left as the shooting range.
  • the frame 4 is attached to the front frame (or the front of the side walls on both sides) of the product display shelf 1 constituting the product storage space.
  • One of the parts of the frame 4 is attached to one of the front frames in a direction in which the camera 2 is located downward.
  • the other of the parts of the frame 4 is attached to the other front frame in a direction in which the camera 2 is located upward.
  • the camera 2 attached to one of the parts of the frame 4 photographs the upper side and the diagonally upper side so as to include the opening of the product display shelf 1 in the photographing range.
  • the camera 2 attached to the other side of the component of the frame 4 photographs the lower part and the diagonally lower part so as to include the opening of the product display shelf 1 in the photographing range.
  • the detection unit 12 detects an object by detecting a region in which the object exists from each of the plurality of images generated by the plurality of cameras. Since the technique of detecting the region where an object exists from an image is widely known, detailed description thereof is omitted here.
  • the "region in which the object exists” may be a rectangular region including the object and its surroundings, or may be a region having a shape along the contour of the object in which only the object exists. For example, when a method of determining whether an object exists for each rectangular area in an image is adopted, the detected "area in which an object exists” is a rectangular area W including the object and its surroundings, as shown in FIG. It becomes.
  • the detected "area in which an object exists” has a shape along the contour of the object in which only the object exists. It becomes an area.
  • the position information generation unit 13 generates position information indicating a position in the image for each detected object.
  • the position information is indicated by, for example, the coordinates of the two-dimensional coordinate system set on the image.
  • the position information may indicate a certain area in the image or may indicate a point in the image.
  • the position information indicating a certain area in the image may indicate, for example, the area in which the above-mentioned object exists.
  • the position information indicating one point in the image may indicate, for example, a representative point (center point, center of gravity point, etc.) in the region where the above-mentioned object exists.
  • the product type-related information generation unit 14 generates product-type-related information that specifies the product type for each detected object based on the image.
  • the product type-related information of the present embodiment is product type identification information (product name, product code, etc.) that identifies a plurality of product types from each other.
  • the product type-related information generation unit 14 may recognize the product type of the object based on the classifier generated in advance by machine learning or the like and the image of the above-mentioned "region in which the object exists".
  • the product type-related information generation unit 14 recognizes the product type of the object by pattern matching that collates the template image of the appearance of each product prepared in advance with the image of the above-mentioned "area where the object exists”. May be good.
  • the acquisition unit 11, the detection unit 12, the position information generation unit 13, and the product type-related information generation unit 14 described so far generate information as shown in FIGS. 6 and 7.
  • the first object information shown in FIG. 6 shows the position information and the product type-related information of each of the plurality of objects detected from the image generated by the first camera.
  • "1-01" and "1-02" are serial numbers for distinguishing a plurality of objects detected from the image from each other.
  • the second object information shown in FIG. 7 shows the position information and the product type-related information of each of the plurality of objects detected from the image generated by the second camera.
  • "2-01" and "2-02" are serial numbers for distinguishing a plurality of objects detected from the image from each other.
  • the extraction unit 15 is a set of a plurality of objects detected from images generated by different cameras, the position information satisfies each other's position condition, and the product type-related information satisfies each other's product type condition. Extract a set of multiple objects that satisfy.
  • the extraction unit 15 has a first object, which is an object detected from an image generated by the first camera, and a second object.
  • a pair of a second object that is an object detected from an image generated by a camera, a first object in which position information satisfies each other's position conditions, and product type-related information satisfies each other's product type conditions. Extract a second pair of objects.
  • the extraction unit 15 performs the extraction process based on the information shown in FIGS. 6 and 7.
  • the extraction by the extraction unit 15 means extraction of an object in which the analysis result of the image generated by the first camera and the analysis result of the image generated by the second camera match (position matching, appearance matching, etc.). ..
  • the position condition is that the position of the first object in the image generated by the first camera and the position of the second object in the image generated by the second camera are the first object and the second object. It is to satisfy the positional relationship when the object is the same subject.
  • the position condition is "the first object in the three-dimensional space” estimated from “the setting information of the first camera” and "the position of the first object in the image generated by the first camera". "Position where can exist”, “Setting information of the second camera”, “Position of the second object in the image generated by the second camera”, and "The position of the first camera and the second camera”. It is consistent with the "position where the second object can exist in the above three-dimensional space” estimated from the "relative relationship” (when the first object and the second object are the same subject). Satisfy the positional relationship of).
  • the details of the method for determining whether or not such a position condition is satisfied are not particularly limited, and any method can be adopted. Hereinafter, an example will be described, but the present invention is not limited to this.
  • the use of epipolar lines can be considered.
  • the setting information of the first camera (focal length, angle of view, etc.)
  • the setting information of the second camera (focal length, angle of view, etc.)
  • the second camera generates a line passing through a predetermined point in the image generated by the first camera and the first camera based on the relationship (relative positional relationship, relative orientation relationship, etc.).
  • the line (epipolar line) projected in the image can be obtained.
  • the predetermined point based on the position of the first object in the image generated by the first camera
  • the position in the second image in which the first object can exist can be obtained.
  • the first object and the second object satisfy the position condition (the positions of each other in the image are different from each other). It can be judged that it is consistent).
  • the product type-related information of the present embodiment is the product type identification information specified based on the feature amount of the appearance of the object.
  • the product type condition of the present embodiment is that the product type identification information of the first object and the product type identification information of the second object match (the recognition results of the product types match).
  • the product recognition result output unit 16 outputs the product recognition result (product type identification information) of the first object or the second object for each pair (set) extracted by the extraction unit 15.
  • the pair (set) extracted by the extraction unit 15 satisfies the product type condition that "the product type identification information of the first object and the product type identification information of the second object match". Therefore, the product recognition result of the first object and the product recognition result of the second object match.
  • the subsequent processing contents for the product recognition result output by the product recognition result output unit 16 are not particularly limited.
  • the product recognition result may be used in the payment processing in the store system that eliminates the payment processing (product registration, payment, etc.) at the cashier counter as disclosed in Non-Patent Documents 1 and 2. An example will be described below.
  • the store system registers the output product recognition result (product type identification information) in association with the information that identifies the customer who holds the product. For example, a camera that captures the face of a customer holding a product is installed in the store, and the store system can extract features of the appearance of the customer's face from the image generated by the camera. good. Then, the store system links the feature amount of the appearance of the face (information that identifies the customer) to the product type identification information of the product that the customer has and other product information (unit price, product name, etc.). ) May be registered. Other product information can be acquired from the product master (information associated with the product type identification information and other product information) stored in the store system in advance.
  • the customer identification information (membership number, name, etc.) of the customer and the feature amount of the appearance of the face may be linked and registered in any place (store system, center server, etc.) in advance. Then, the store system extracts the feature amount of the appearance of the customer's face from the image including the face of the customer holding the product, and identifies the customer identification information of the customer based on the pre-registered information. May be good. Then, the store system may register the product type identification information of the product held by the customer and other product information in association with the specified customer identification information.
  • the store system calculates the settlement amount based on the registered contents and executes the settlement process.
  • the payment process is executed at the timing when the customer leaves the gate, the timing when the customer leaves the store from the exit, and the like.
  • the detection of these timings may be realized by detecting the customer's exit from the image generated by the camera installed at the gate or exit, or the input device (near field communication) installed at the gate or exit. It may be realized by inputting the customer identification information of the customer who leaves the store to the reader, etc., or it may be realized by another method.
  • the details of the payment process may be a payment process using a credit card based on pre-registered credit card information, a payment process based on pre-charged money, or any other.
  • a customer preference survey, a marketing survey, etc. are exemplified.
  • a customer preference survey, a marketing survey, etc. are exemplified.
  • the product recognition result output by the product recognition result output unit 16 a customer preference survey, a marketing survey, etc. are exemplified.
  • by linking the products picked up by each customer to each customer and registering them it is possible to analyze the products that each customer is interested in.
  • by registering the fact that the customer has picked up each product it is possible to analyze which product is interested in the customer.
  • estimating the attributes of the customer (gender, age, nationality, etc.) using conventional image analysis technology and registering the attributes of the customer who picked up each product, what kind of attributes each product has? It is possible to analyze whether the customer is interested.
  • the acquisition unit 11 acquires two images generated by the first camera and the second camera taking pictures at the same timing (S10).
  • the first camera and the second camera are installed so as to photograph the product held by the customer from different positions and directions.
  • the detection unit 12 analyzes each of these two images and detects an object from each image (S11).
  • the position information generation unit 13 generates position information indicating a position in the image for each object detected in S11 (S12).
  • the product type-related information generation unit 14 generates product-type-related information for specifying the product type for each detected object based on the image (S13).
  • the processing order of S12 and S13 is not limited to those shown in the figure.
  • the first object information shown in FIG. 6 shows the position information and the product type-related information of each of the plurality of objects detected from the image generated by the first camera.
  • the second object information shown in FIG. 7 shows the position information and the product type-related information of each of the plurality of objects detected from the image generated by the second camera.
  • the extraction unit 15 pairs a first object, which is an object detected from the image generated by the first camera, and a second object, which is an object detected from the image generated by the second camera.
  • a set a pair of a first object and a second object whose position information satisfies each other's position conditions and whose product type-related information satisfies each other's product type conditions is extracted (S14).
  • the product recognition result output unit 16 outputs the product recognition result (product type identification information) of the first object or the second object for each pair (set) extracted in S14 (S15).
  • the product recognition process can be executed based on the images generated by a plurality of cameras that shoot the products held by the customer from different positions and directions. Then, only the product recognition result of the object in which the analysis results of the images generated by the plurality of cameras are matched (position matching, appearance matching, etc.) can be output, and other product recognition results can be rejected, for example.
  • the other product recognition results are the product recognition results of the first object and the second object that were not extracted by the extraction unit 15.
  • the condition that "it is true when the analysis results of the images generated by a plurality of cameras are matched (position matching, appearance matching, etc.)" is added. , It is possible to suppress erroneous recognition and accurately recognize the product that the customer has.
  • the product held by the customer may be photographed by three or more cameras from different positions and directions.
  • the processing device 10 outputs only the product recognition result of the object in which all the analysis results of the images generated by N cameras (N is an integer of 3 or more) are matched (position matching, appearance matching, etc.). However, other product recognition results may be rejected, for example.
  • the extraction unit 15 is a set of a plurality of objects detected from N images generated by N cameras, the position information satisfies each other's position conditions, and the product type-related information is mutual products. Extract a set that satisfies the type condition and belongs to N objects. This condition differs from the above-mentioned condition in that the condition of the number of objects (members) belonging to the set is further added.
  • the processing device 10 analyzes at least M (M is an integer of 2 or more, M is less than N) among the analysis results of N images generated by N cameras (N is an integer of 3 or more). Only the product recognition result of the object whose result is consistent (position matching, appearance matching, etc.) may be output, and other product recognition results may be rejected, for example.
  • the extraction unit 15 is a set of a plurality of objects detected from N images generated by N cameras, the position information satisfies each other's position conditions, and the product type-related information is mutual products. Extract a set that satisfies the type condition and belongs to M or more objects. This condition differs from the above-mentioned condition in that the condition of the number of objects (members) belonging to the set is further added.
  • the processing device 10 is an object in which the analysis results of a predetermined ratio or more among the analysis results of the images generated by N cameras (N is an integer of 3 or more) are matched (position matching, appearance matching, etc.). Only the product recognition result may be output, and other product recognition results may be rejected, for example.
  • the extraction unit 15 is a set of a plurality of objects detected from N images generated by N cameras, the position information satisfies each other's position conditions, and the product type-related information is mutual products. Extract a set to which the number of objects satisfying the type condition and having a predetermined ratio of N or more belongs. This condition differs from the above-mentioned condition in that the condition of the number of objects (members) belonging to the set is further added.
  • the product type conditions are different from those in the first embodiment.
  • the product type condition of the present embodiment is the first specified by "the product type matches” and "the feature amount of the appearance of the object extracted from the image generated by the first camera".
  • the characteristic part of the product facing the camera and the characteristic part of the product facing the second camera specified based on the feature amount of the appearance of the object extracted from the image generated by the second camera. The relationship meets the orientation conditions.
  • the above-mentioned orientation condition is "relationship between front and back". ". That is, the orientation condition is that the characteristic portion of the product facing the first camera and the characteristic portion of the product facing the second camera have a front-to-back relationship in the product.
  • the feature amount extracted from each of the images taken from a plurality of directions is registered for each product type.
  • the feature quantities when shooting from six directions are registered, but the number of shooting directions is not limited to this.
  • the relationship between the shooting directions of the first camera and the second camera is registered.
  • the relationship indicates the relationship "when the first camera shoots the product from a certain direction, the second camera shoots the product from which direction".
  • the extraction unit 15 can determine whether or not the above orientation condition is satisfied based on this information.
  • the product type-related information generation unit 14 collates the feature amount of the appearance of the object extracted from the image generated by the first camera with the feature amount shown in FIG. 9, and from which direction. It is specified whether the feature portion of the product to be photographed when the image is photographed faces the first camera. Further, the product type-related information generation unit 14 takes a picture from which direction by collating the feature amount of the appearance of the object extracted from the image generated by the second camera with the feature amount shown in FIG. It is specified whether the feature portion of the product to be manufactured faces the second camera.
  • These specific processes may be realized by using a classifier generated by machine learning, may be realized by pattern matching, or may be realized by other methods.
  • the extraction unit 15 the relationship between the shooting direction in which the feature portion is photographed or facing the first camera and the shooting direction in which the feature portion is photographed facing the second camera are shown in FIG. If the above conditions are satisfied, it is determined that the above orientation conditions are satisfied.
  • processing device 10 of the present embodiment can also adopt a modified example in which the product held by the customer is photographed by three or more cameras from different positions and directions. For example, if the relationship between the shooting directions of three or more cameras is registered in advance, the same operation and effect can be realized by the same processing as described above.
  • the processing device 10 of the present embodiment has a feature that "when a product is photographed by a plurality of cameras from different positions and directions, the characteristic portion of the product appearing in the image may differ depending on which direction the product is photographed".
  • the above-mentioned orientation condition is further added. By adding the orientation condition, it is possible to further suppress erroneous recognition and more accurately recognize the product held by the customer.
  • the product type-related information of the present embodiment is a feature amount of the appearance of the object extracted from the image.
  • the similarity of the feature quantities of the appearance is equal to or higher than the reference value.
  • processing device 10 of the present embodiment are the same as those of the first embodiment. According to the processing apparatus 10 of the present embodiment, the same operation and effect as those of the first embodiment are realized.
  • the position information generation unit 13 generates position information for each detected object
  • the product type related information generation unit 14 generates product type related information for each detected object
  • the extraction unit 15 generates the product type related information. A set of a plurality of objects satisfying the position condition and the product type condition was extracted.
  • the extraction unit 15 extracts a set of a plurality of objects satisfying the position conditions. Then, after that, the product type-related information generation unit 14 determines whether or not the plurality of objects belonging to the extracted set satisfy the product type conditions with each other. Then, the extraction unit 15 extracts a set of a plurality of objects determined to satisfy the product type condition.
  • the product type-related information generation unit 14 may execute a process of specifying the product type identification information of each object based on the feature amount of the appearance of each of the plurality of objects. Then, the product type-related information generation unit 14 may determine that the combination of objects whose specified product type identification information matches each other satisfies the product type condition.
  • the product type-related information generation unit 14 specifies the product type identification information of the first object based on the feature amount of the appearance of the first object, and then the feature amount of the appearance of the other object is determined. It may be determined whether or not it matches with "the feature amount of the appearance of the product identified by the product identification information of the specified first object". Then, the product type-related information generation unit 14 may determine that the product type condition is satisfied in the case of matching.
  • the processing for specifying the product type identification information by collating with the feature amount of each of the plurality of types of product types is performed only for the first object and not for the other objects. Therefore, the processing load of the computer is reduced.
  • acquisition means “the own device goes to fetch the data stored in another device or storage medium” based on the user input or the instruction of the program (actively). Acquisition) ”, for example, requesting or inquiring about other devices to receive, accessing and reading other devices or storage media, etc., and based on user input or program instructions,“ Entering data output from another device into your own device (passive acquisition) ”, for example, receiving data to be delivered (or transmitted, push notification, etc.), and received data or information. Select and acquire from among, and generate new data by editing the data (text conversion, data sorting, partial data extraction, file format change, etc.), and the new data Includes at least one of "acquiring data”.
  • a detection means for detecting an object from each of the plurality of images,
  • a position information generating means for generating position information indicating a position in the image for each of the detected objects, and a position information generating means.
  • a product type-related information generation means that generates product type-related information that specifies a product type for each of the detected objects based on the image.
  • the position where the second object can exist in the estimated three-dimensional space satisfies the positional relationship when the first object and the second object are the same subject.
  • the product type-related information is a feature amount of the appearance of the object extracted from the image.
  • the product type-related information is product type identification information specified based on the feature amount of the appearance of the object extracted from the image.
  • the processing device according to any one of 1 to 3, wherein the product type condition is that the product type identification information matches. 6.
  • the product type condition is The product types match, and From the feature portion of the product facing the first camera, which is specified based on the feature amount of the appearance of the object extracted from the image generated by the first camera, and the image generated by another camera. 5.
  • the processing apparatus according to 5, wherein the relationship with the characteristic portion of the product facing the other camera specified based on the extracted feature amount of the appearance of the object satisfies the orientation condition.
  • the computer Acquire multiple images generated by multiple cameras taking pictures of the product that the customer has in their hands from different directions. An object is detected from each of the plurality of images, and the object is detected. For each of the detected objects, position information indicating the position in the image is generated.
  • product type-related information that specifies the product type is generated based on the image.
  • Extract the set A processing method for outputting a product recognition result for each extracted set.
  • 8. Computer An acquisition method that acquires multiple images generated by multiple cameras taking pictures of a product held by a customer from different directions.
  • a position information generating means that generates position information indicating a position in the image for each of the detected objects.
  • a product type-related information generation means that generates product type-related information that specifies a product type for each of the detected objects based on the image.
  • Extraction means to extract a set A product recognition result output means that outputs a product recognition result for each extracted set.
  • a program that functions as.

Abstract

本発明は、顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得部(11)と、複数の画像各々から物体を検出する検出部(12)と、検出された物体毎に、画像内の位置を示す位置情報を生成する位置情報生成部(13)と、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する商品種別関連情報生成部(14)と、互いに異なるカメラが生成した画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出部(15)と、抽出された集合毎に、商品認識結果を出力する商品認識結果出力部(16)と、を有する処理装置(10)を提供する。

Description

処理装置、処理方法及びプログラム
 本発明は、処理装置、処理方法及びプログラムに関する。
 非特許文献1及び2は、レジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムを開示している。当該技術では、店内を撮影するカメラが生成した画像に基づき顧客が手に持っている商品を認識し、顧客が店舗を出たタイミングで認識結果に基づき自動的に決済処理を行う。
 特許文献1は、次のような装置を開示している。まず、当該装置は、第1のカメラから取得した第1画像中の第1飛行物体を検出し、第1のカメラからみた第1の飛行物体の方向を示すエピポーラ線を求める。そして、当該装置は、当該エピポーラ線に沿って撮影するように第2のカメラを制御する。次いで、当該装置は、第2のカメラから取得した第2の画像中の第2の飛行物体を検出し、第1の飛行物体と第2の飛行物体とが同一か判断し、第1の飛行物体及び第2の飛行物体の位置を算出する。
 特許文献2は、複数のカメラから得られた画像中の人物頭部の位置に応じて人物の3次元位置を推定する方法を切り替えることで、物体が映っているカメラの台数によらず、物体の3次元的な位置を精度よく取得する技術を開示している。
特開2018-195965号公報 特開2017-103602号公報
宮田拓弥、"Amazon Goの仕組み「カメラとマイク」で実現するレジなしスーパー"、[online]、2016年12月10日、[2019年12月6日検索]、インターネット<URL:https://www.huffingtonpost.jp/tak-miyata/amazon-go_b_13521384.html> "NEC、レジレス店舗「NEC SMART STORE」を本社内にオープン--顔認証活用、退店と同時決済"、[online]、2020年2月28日、[2020年3月27日検索]、インターネット<URL: https://japan.cnet.com/article/35150024/>
 顧客が手に取った商品を精度よく認識する技術が望まれている。例えば、非特許文献1及び2に記載のレジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムにおいては、顧客が手に持っている商品を精度よく認識する技術が必要となる。その他、顧客の嗜好調査やマーケティング調査等の目的で顧客の店内行動を調査する場合にも、当該技術は有用である。
 本発明の課題は、顧客が手に持っている商品を精度よく認識する技術を提供することである。
 本発明によれば、
 顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
 前記複数の画像各々から物体を検出する検出手段と、
 前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
 前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
 前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置が提供される。
 また、本発明によれば、
 コンピュータが、
  顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
 前記複数の画像各々から物体を検出し、
 前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
 前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
 前記抽出された集合毎に、商品認識結果を出力する処理方法が提供される。
 また、本発明によれば、
 コンピュータを、
  顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
  前記複数の画像各々から物体を検出する検出手段、
  前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
  前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
 前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラムが提供される。
 本発明によれば、顧客が手に持っている商品を精度よく認識する技術が実現される。
本実施形態の処理装置のハードウエア構成の一例を示す図である。 本実施形態の処理装置の機能ブロック図の一例である。 本実施形態のカメラの設置例を説明するための図である。 本実施形態のカメラの設置例を説明するための図である。 本実施形態の処理装置が処理する画像の一例を示す図である。 本実施形態の処理装置が処理する情報の一例を示す図である。 本実施形態の処理装置が処理する情報の一例を示す図である。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 本実施形態の処理装置が処理する情報の一例を示す図である。 本実施形態の処理装置が処理する情報の一例を示す図である。
<第1の実施形態>
「概要」
 本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行する。そして、複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却する。本実施形態の処理装置によれば、このような「複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。
「ハードウエア構成」
 次に、処理装置のハードウエア構成の一例を説明する。
 処理装置の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図1は、処理装置のハードウエア構成を例示するブロック図である。図1に示すように、処理装置は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置は周辺回路4Aを有さなくてもよい。なお、処理装置は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理装置が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
「機能構成」
 図2に、処理装置10の機能ブロック図の一例を示す。図示するように、処理装置10は、取得部11と、検出部12と、位置情報生成部13と、商品種別関連情報生成部14と、抽出部15と、商品認識結果出力部16とを有する。
 取得部11は、顧客が手に持っている商品を複数のカメラが互いに異なる位置及び互いに異なる方向から撮影することで生成された複数の画像を取得する。タイムスタンプ等により、複数のカメラが同じタイミングで生成した画像を特定できるようになっている。取得部11への画像の入力は、リアルタイム処理で行われてもよいし、バッチ処理で行われてもよい。いずれの処理とするかは、例えば商品認識結果の利用内容に応じて決定することができる。
 ここで、複数のカメラについて説明する。本実施形態では顧客が手に持っている商品を複数の位置及び複数の方向から撮影できるように複数のカメラ(2台以上のカメラ)が設置される。例えば商品陳列棚毎に、各々から取り出された商品を撮影する位置及び向きで複数のカメラが設置されてもよい。カメラは、商品陳列棚に設置されてもよいし、天井に設置されてもよいし、床に設置されてもよいし、壁面に設置されてもよいし、その他の場所に設置されてもよい。なお、商品陳列棚毎にカメラを設置する例はあくまで一例であり、これに限定されない。
 カメラは動画像を常時(例えば、営業時間中)撮影してもよいし、動画像のフレーム間隔よりも大きい時間間隔で静止画像を継続的に撮影してもよいし、人感センサー等で所定位置(商品陳列棚の前等)に存在する人を検出している間のみこれらの撮影を実行してもよい。
 ここで、カメラ設置の一例を示す。なお、ここで説明するカメラ設置例はあくまで一例であり、これに限定されない。図3に示す例では、商品陳列棚1毎に2つのカメラ2が設置されている。図4は、図3の枠4を抽出した図である。枠4を構成する2つの部品各々には、カメラ2と照明(不図示)とが設けられる。
 照明の光放射面は一方向に延在しており、発光部及び発光部を覆うカバーを有している。照明は、主に、光放射面の延在方向に直交する方向に光を放射する。発光部は、LEDなどの発光素子を有しており、カバーによって覆われていない方向に光を放射する。なお、発光素子がLEDの場合、照明が延在する方向(図において上下方向)に、複数のLEDが並んでいる。
 そしてカメラ2は、直線状に延伸する枠4の部品の一端側に設けられており、照明の光が放射される方向を撮影範囲としている。例えば図4の左側の枠4の部品において、カメラ2は下方及び右斜め下を撮影範囲としている。また、図4の右側の枠4の部品において、カメラ2は上方及び左斜め上を撮影範囲としている。
 図3に示すように、枠4は、商品載置スペースを構成する商品陳列棚1の前面フレーム(又は両側の側壁の前面)に取り付けられる。枠4の部品の一方は、一方の前面フレームに、カメラ2が下方に位置する向きに取り付けられる。枠4の部品の他方は、他方の前面フレームに、カメラ2が上方に位置する向きに取り付けられる。そして、枠4の部品の一方に取り付けられたカメラ2は、商品陳列棚1の開口部を撮影範囲に含むように、上方及び斜め上方を撮影する。一方、枠4の部品の他方に取り付けられたカメラ2は、商品陳列棚1の開口部を撮影範囲に含むように、下方及び斜め下方を撮影する。このように構成することで、2つのカメラ2で商品陳列棚1の開口部の全範囲を撮影することができる。結果、商品陳列棚1から取り出されている商品(顧客が手に持っている商品)を2つのカメラ2で撮影することが可能となる。
 例えば図3及び図4に示す構成を採用した場合、図5に示すように、顧客が手に持っている商品を2つのカメラ2で撮影することになる。結果、当該商品を複数の位置及び複数の方向から撮影した2つの画像7及び8が生成される。
 なお、以下では、「顧客が手に持っている商品を2つのカメラで撮影」することを前提とする。そして、本実施形態の末尾において、変形例として、「顧客が手に持っている商品を3つ以上のカメラで撮影」する場合の構成を説明する。
 図2に戻り、検出部12は、複数のカメラが生成した複数の画像各々から物体が存在する領域を検出することで、物体を検出する。画像から物体が存在する領域を検出する技術は広く知られているので、ここでの詳細な説明は省略する。なお、検出される「物体が存在する領域」は、物体及びその周辺を含む矩形領域であってもよいし、物体のみが存在する物体の輪郭に沿った形状の領域であってもよい。例えば、画像内の矩形領域毎に物体が存在するか判断する手法を採用する場合、検出される「物体が存在する領域」は、図5に示すように、物体及びその周辺を含む矩形領域Wとなる。一方、セマンティックセグメンテーションやインスタンスセグメンテーションと呼ばれる検出対象が存在するピクセル領域を検出する手法を採用する場合、検出される「物体が存在する領域」は、物体のみが存在する物体の輪郭に沿った形状の領域となる。
 位置情報生成部13は、検出された物体毎に、画像内の位置を示す位置情報を生成する。位置情報は、例えば画像上に設定された2次元座標系の座標で示される。位置情報は、画像内の一定領域を示してもよいし、画像内の一点を示してもよい。画像内の一定領域を示す位置情報は、例えば、上述した物体が存在する領域を示してもよい。画像内の一点を示す位置情報は、例えば、上述した物体が存在する領域の中の代表点(中心点、重心点等)を示してもよい。
 商品種別関連情報生成部14は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する。本実施形態の商品種別関連情報は、複数の商品種別を互いに識別する商品種別識別情報(商品名、商品コード等)である。
 画像に含まれる物体の商品種別を認識する技術は広く知られており、本実施形態ではあらゆる技術を採用できる。例えば、商品種別関連情報生成部14は、予め機械学習等で生成された分類器と、上記「物体が存在する領域」の画像とに基づき、その物体の商品種別を認識してもよい。その他、商品種別関連情報生成部14は、予め用意された各商品の外観のテンプレート画像と上記「物体が存在する領域」の画像とを照合するパターンマッチングにより、その物体の商品種別を認識してもよい。
 ここまで説明した取得部11、検出部12、位置情報生成部13及び商品種別関連情報生成部14により、図6及び図7に示すような情報が生成される。
 図6に示す第1の物体情報は、第1のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「1-01」、「1-02」は、画像から検出された複数の物体を互いに識別するための通番である。
 図7に示す第2の物体情報は、第2のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「2-01」、「2-02」は、画像から検出された複数の物体を互いに識別するための通番である。
 図2に戻り、抽出部15は、互いに異なるカメラが生成した画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する。「顧客が手に持っている商品を2つのカメラで撮影」する例の場合、抽出部15は、第1のカメラが生成した画像から検出された物体である第1の物体と、第2のカメラが生成した画像から検出された物体である第2の物体とのペアであって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第1の物体及び第2の物体のペアを抽出する。抽出部15は、図6及び図7に示すような情報に基づき、当該抽出処理を行う。
 抽出部15による当該抽出は、第1のカメラが生成した画像の解析結果と第2のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の抽出を意味する。
 まず、位置条件について説明する。位置条件は、第1のカメラが生成した画像内における第1の物体の位置と、第2のカメラが生成した画像内における第2の物体の位置とが、その第1の物体とその第2の物体とが同一の被写体であった場合の位置関係を満たすことである。
 当該位置条件の一例は、「第1のカメラの設定情報」と「第1のカメラが生成した画像内における第1の物体の位置」とから推定される「3次元空間内において第1の物体が存在し得る位置」、及び、「第2のカメラの設定情報」と「第2のカメラが生成した画像内における第2の物体の位置」と「第1のカメラと第2のカメラとの相対的な関係」とから推定される「上記3次元空間内において第2の物体が存在し得る位置」とが整合する(第1の物体と第2の物体とが同一の被写体であった場合の位置関係を満たす)ことである。このような位置条件を満たすか否かの判断手法の詳細は特段制限されず、あらゆる手法を採用できる。以下、一例を説明するがこれに限定されない。
 例えば、エピポーラ線の利用が考えられる。まず、第1のカメラの設定情報(焦点距離、画角等)、第2のカメラの設定情報(焦点距離、画角等)、及び、第1のカメラと第2のカメラとの相対的な関係(相対的な位置関係、相対的な向きの関係等)等に基づき、第1のカメラと第1のカメラが生成した画像内の所定の点とを通る線を、第2のカメラが生成した画像内に投影した線(エピポーラ線)を求めることができる。上記所定の点を、第1のカメラが生成した画像内における第1の物体の位置に基づき設定することで、第1の物体が存在し得る第2の画像内の位置を求めることができる。第2の物体が、この第1の物体が存在し得る第2の画像内の位置に存在する場合、その第1の物体と第2の物体は位置条件を満たす(画像内の互いの位置が整合する)と判断することができる。
 次に、商品種別条件について説明する。上述の通り、本実施形態の商品種別関連情報は、物体の外観の特徴量に基づき特定された商品種別識別情報である。そして、本実施形態の商品種別条件は、第1の物体の商品種別識別情報と、第2の物体の商品種別識別情報とが一致すること(商品種別の認識結果が一致すること)である。
 図2に戻り、商品認識結果出力部16は、抽出部15により抽出されたペア(集合)毎に、第1の物体又は第2の物体の商品認識結果(商品種別識別情報)を出力する。本実施形態の場合、抽出部15により抽出されたペア(集合)は、「第1の物体の商品種別識別情報と、第2の物体の商品種別識別情報とが一致」という商品種別条件を満たしているので、第1の物体の商品認識結果及び第2の物体の商品認識結果は一致する。
 なお、本実施形態では、商品認識結果出力部16が出力した商品認識結果に対するその後の処理内容は特段制限されない。
 例えば、商品認識結果は、非特許文献1及び2に開示のようなレジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムにおける決済処理で利用されてもよい。以下、一例を説明する。
 まず、店舗システムは、出力された商品認識結果(商品種別識別情報)を、その商品を手に持っている顧客を特定する情報に紐づけて登録する。例えば、店内には、商品を手に持っている顧客の顔を撮影するカメラが設置されており、店舗システムは、当該カメラが生成した画像から顧客の顔の外観の特徴量を抽出してもよい。そして、店舗システムは、当該顔の外観の特徴量(顧客を特定する情報)に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報(単価、商品名等)を登録してもよい。その他の商品情報は、予め店舗システムに記憶されている商品マスタ(商品種別識別情報と、その他の商品情報とを紐づけた情報)から取得することができる。
 その他、予め、顧客の顧客識別情報(会員番号、氏名等)と、顔の外観の特徴量とが紐づけて任意の場所(店舗システム、センターサーバ等)に登録されていてもよい。そして、店舗システムは、商品を手に持っている顧客の顔を含む画像から顧客の顔の外観の特徴量を抽出すると、当該予め登録された情報に基づきその顧客の顧客識別情報を特定してもよい。そして、店舗システムは、特定した顧客識別情報に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報を登録してもよい。
 また、店舗システムは、登録内容に基づき決済金額を算出し、決済処理を実行する。例えば、顧客がゲートから退場したタイミングや、顧客が出口から店舗外に出たタイミング等で、決済処理が実行される。これらのタイミングの検出は、ゲートや出口に設置されたカメラが生成した画像で顧客の退店を検出することで実現されてもよいし、ゲートや出口に設置された入力装置(近距離無線通信するリーダ等)に対する退店する顧客の顧客識別情報の入力で実現されてもよいし、その他の手法で実現されてもよい。決済処理の詳細は、予め登録されたクレジットカード情報に基づくクレジットカードでの決済処理であってもよいし、予めチャージされたお金に基づく決済であってもよいし、その他であってもよい。
 商品認識結果出力部16が出力した商品認識結果のその他の利用場面として、顧客の嗜好調査やマーケティング調査等が例示される。例えば、各顧客が手に取った商品を各顧客に紐づけて登録することで、各顧客が興味を有する商品などを分析することができる。また、商品ごとに顧客が手に取った旨を登録することで、どの商品が顧客に興味を持たれているかを分析することができる。さらに、従来の画像解析技術を利用して顧客の属性(性別、年代、国籍等)を推定し、各商品を手に取った顧客の属性を登録することで、各商品がどのような属性の顧客に興味を持たれているかを分析することができる。
 次に、図8のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
 まず、取得部11は、第1のカメラ及び第2のカメラが同じタイミングで撮影して生成された2つの画像を取得する(S10)。第1のカメラ及び第2のカメラは、顧客が手に持っている商品を互いに異なる位置及び方向から撮影するように設置されている。
 次いで、検出部12は、この2つの画像各々を解析し、各画像から物体を検出する(S11)。次いで、位置情報生成部13は、S11で検出された物体毎に、画像内の位置を示す位置情報を生成する(S12)。また、商品種別関連情報生成部14は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する(S13)。なお、S12及びS13の処理順は図示するものに限定されない。
 ここまでの処理により、図6及び図7に示すような情報が生成される。図6に示す第1の物体情報は、第1のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図7に示す第2の物体情報は、第2のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。
 次いで、抽出部15は、第1のカメラが生成した画像から検出された物体である第1の物体と、第2のカメラが生成した画像から検出された物体である第2の物体とのペア(集合)であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第1の物体及び第2の物体のペアを抽出する(S14)。
 そして、商品認識結果出力部16は、S14で抽出されたペア(集合)毎に、第1の物体又は第2の物体の商品認識結果(商品種別識別情報)を出力する(S15)。
「作用効果」
 以上説明した本実施形態の処理装置10によれば、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行することができる。そして、複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却することができる。その他の商品認識結果は、抽出部15により抽出されなかった第1の物体及び第2の物体の商品認識結果である。
 本実施形態の処理装置10によれば、このような「複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。
「変形例」
 上述の通り、本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から3つ以上のカメラで撮影してもよい。
 この場合、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像の解析結果のすべてが整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、N個の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
 その他、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像のN個の解析結果の中の少なくともM個(Mは2以上の整数、MはN未満)の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、M個以上の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
 その他、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像の解析結果の中の所定割合以上の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、Nの所定割合以上の個数の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
 当該変形例においても、上記作用効果が実現される。また、カメラの台数を増やし、上述のような条件とすることで、人の手や何かにより商品が死角となり、一部のカメラでその商品を撮影できない状況が生じても、その他の複数のカメラが生成した画像の解析結果が整合すれば真とすることができる。結果、より利便性が向上する。
<第2の実施形態>
 本実施形態は、商品種別条件が、第1の実施形態と異なる。具体的には、本実施形態の商品種別条件は、「商品種別が一致」、かつ、「第1のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第1のカメラに対向している商品の特徴部分と、第2のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第2のカメラに対向している商品の特徴部分との関係が向き条件を満たす」である。
 例えば、図3乃至図5の例のように、第1のカメラ及び第2のカメラが商品を挟み込むように撮影し、互いの撮影方向が約180°異なる場合、上記向き条件は「表裏の関係」となる。すなわち、第1のカメラに対向している商品の特徴部分と、第2のカメラに対向している商品の特徴部分は、その商品において表裏の関係にあることが、向き条件となる。
 例えば、図9に示すように、商品種別ごとに、複数の方向から撮影した場合の画像各々から抽出された特徴量を登録しておく。なお、図9では6方向(前から、後ろから、上から、下から、右から、左から)から撮影した場合の特徴量を登録しているが、撮影方向の数はこれに限定されない。
 また、図10に示すように、第1のカメラ及び第2のカメラの撮影方向の関係を登録しておく。当該関係は、「第1のカメラが商品をある方向から撮影した場合、第2のカメラはその商品をどの方向から撮影することになるか」という関係を示す。
 そして、抽出部15は、これらの情報に基づき、上記向き条件を満たすか否かを判断することができる。
 具体的には、まず、商品種別関連情報生成部14は、第1のカメラが生成した画像から抽出された物体の外観の特徴量と、図9に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第1のカメラに対向しているか特定する。また、商品種別関連情報生成部14は、第2のカメラが生成した画像から抽出された物体の外観の特徴量と、図9に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第2のカメラに対向しているか特定する。これらの特定処理は、機械学習で生成された分類器を利用して実現されてもよいし、パターンマッチングで実現されてもよいし、その他の手法で実現されてもよい。
 そして、抽出部15は、第1のカメラに対向しているか特徴部分が撮影される撮影方向と、第2のカメラに対向しているか特徴部分が撮影される撮影方向とが図10に示す関係を満たす場合、上記向き条件を満たすと判断する。
 本実施形態の処理装置10のその他の構成は、第1の実施形態と同様である。なお、本実施形態の処理装置10は、顧客が手に持っている商品を互いに異なる位置及び方向から3つ以上のカメラで撮影する変形例も採用できる。例えば、3つ以上のカメラの撮影方向の関係を予め登録しておけば、上記と同様の処理で同様の作用効果が実現される。
 本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。また、本実施形態の処理装置10は、「互いに異なる位置及び方向から複数のカメラで商品を撮影した場合、どの方向から撮影するかに応じて画像に現れる商品の特徴部分が異なり得る」という特徴を考慮し、上述のような向き条件をさらに加えたものである。当該向き条件を付すことで、誤認識をさらに抑制し、顧客が手に持っている商品をより精度よく認識することが可能となる。
<第3の実施形態>
 本実施形態の商品種別関連情報は、画像から抽出された物体の外観の特徴量である。そして、商品種別条件は、上記外観の特徴量の類似度が基準値以上である。
 本実施形態の処理装置10のその他の構成は、第1の実施形態と同様である。本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。
<変形例>
 ここで、すべての実施形態に適用可能な変形例を説明する。上記実施形態では、検出された物体毎に位置情報生成部13が位置情報を生成し、検出された物体毎に商品種別関連情報生成部14が商品種別関連情報を生成した後、抽出部15が位置条件及び商品種別条件を満たす複数の物体の集合を抽出した。
 変形例1では、検出された物体毎に位置情報生成部13が位置情報を生成した後、抽出部15は位置条件を満たす複数の物体の集合を抽出する。そして、その後、商品種別関連情報生成部14は、抽出された集合に属する複数の物体が互いに商品種別条件を満たすか判断する。そして、抽出部15は、商品種別条件を満たすと判断された複数の物体の集合を抽出する。
 この場合、商品種別関連情報生成部14は、複数の物体各々の外観の特徴量に基づき各物体の商品種別識別情報を特定する処理を実行してもよい。そして、商品種別関連情報生成部14は、特定した商品種別識別情報が互いに一致する物体の組み合わせは商品種別条件を満たすと判断してもよい。
 その他の処理例として、商品種別関連情報生成部14は、第1の物体の外観の特徴量に基づきその第1の物体の商品種別識別情報を特定した後、他の物体の外観の特徴量が「特定した第1の物体の商品識別情報で識別される商品の外観の特徴量」とマッチングするか否かを判断してもよい。そして、商品種別関連情報生成部14は、マッチングする場合、商品種別条件を満たすと判断してもよい。この処理例の場合、複数種類の商品種別各々の特徴量との照合により商品種別識別情報を特定する処理を第1の物体に対してのみ行い、他の物体に対しては行わない。このため、コンピュータの処理負担が軽減される。
 なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。
 以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
 前記複数の画像各々から物体を検出する検出手段と、
 前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
 前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
 前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置。
2. 前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである1に記載の処理装置。
3. 前記位置条件は、第1のカメラの設定情報と、前記第1のカメラが生成した前記画像内における第1の物体の位置とから推定される3次元空間内において前記第1の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第2の物体の位置と、前記第1のカメラと前記他のカメラとの相対的な関係とから推定される前記3次元空間内において前記第2の物体が存在し得る位置とが、前記第1の物体と前記第2の物体とが同一の被写体であった場合の位置関係を満たすことである2に記載の処理装置。
4. 前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
 前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である1から3のいずれかに記載の処理装置。
5. 前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
 前記商品種別条件は、前記商品種別識別情報が一致することである1から3のいずれかに記載の処理装置。
6. 前記商品種別条件は、
  前記商品種別が一致し、かつ、
  第1のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第1のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである5に記載の処理装置。
7. コンピュータが、
  顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
 前記複数の画像各々から物体を検出し、
 前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
 前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
 前記抽出された集合毎に、商品認識結果を出力する処理方法。
8. コンピュータを、
  顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
  前記複数の画像各々から物体を検出する検出手段、
  前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
  前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
 互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
 前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラム。

Claims (8)

  1.  顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
     前記複数の画像各々から物体を検出する検出手段と、
     前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
     前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
     互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
     前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
    を有する処理装置。
  2.  前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである請求項1に記載の処理装置。
  3.  前記位置条件は、第1のカメラの設定情報と、前記第1のカメラが生成した前記画像内における第1の物体の位置とから推定される3次元空間内において前記第1の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第2の物体の位置と、前記第1のカメラと前記他のカメラとの相対的な関係とから推定される前記3次元空間内において前記第2の物体が存在し得る位置とが、前記第1の物体と前記第2の物体とが同一の被写体であった場合の位置関係を満たすことである請求項2に記載の処理装置。
  4.  前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
     前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である請求項1から3のいずれか1項に記載の処理装置。
  5.  前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
     前記商品種別条件は、前記商品種別識別情報が一致することである請求項1から3のいずれか1項に記載の処理装置。
  6.  前記商品種別条件は、
      前記商品種別が一致し、かつ、
      第1のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第1のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである請求項5に記載の処理装置。
  7.  コンピュータが、
      顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
     前記複数の画像各々から物体を検出し、
     前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
     前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
     互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
     前記抽出された集合毎に、商品認識結果を出力する処理方法。
  8.  コンピュータを、
      顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
      前記複数の画像各々から物体を検出する検出手段、
      前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
      前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
     互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
     前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
    として機能させるプログラム。
PCT/JP2020/020260 2020-05-22 2020-05-22 処理装置、処理方法及びプログラム WO2021234938A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2020/020260 WO2021234938A1 (ja) 2020-05-22 2020-05-22 処理装置、処理方法及びプログラム
US17/925,046 US20230186271A1 (en) 2020-05-22 2020-05-22 Processing apparatus, processing method, and non-transitory storage medium
JP2022524827A JP7396476B2 (ja) 2020-05-22 2020-05-22 処理装置、処理方法及びプログラム
JP2023201508A JP2024039025A (ja) 2020-05-22 2023-11-29 処理装置、処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020260 WO2021234938A1 (ja) 2020-05-22 2020-05-22 処理装置、処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2021234938A1 true WO2021234938A1 (ja) 2021-11-25

Family

ID=78708339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020260 WO2021234938A1 (ja) 2020-05-22 2020-05-22 処理装置、処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20230186271A1 (ja)
JP (2) JP7396476B2 (ja)
WO (1) WO2021234938A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015033577A1 (ja) * 2013-09-06 2015-03-12 日本電気株式会社 顧客行動分析システム、顧客行動分析方法、非一時的なコンピュータ可読媒体及び棚システム
JP2016532932A (ja) * 2013-06-26 2016-10-20 アマゾン テクノロジーズ インコーポレイテッド 物品の相互作用及び移動検出方法
WO2017030177A1 (ja) * 2015-08-20 2017-02-23 日本電気株式会社 展示装置、表示制御装置および展示システム
WO2019171573A1 (ja) * 2018-03-09 2019-09-12 日本電気株式会社 セルフレジシステム、購入商品管理方法および購入商品管理プログラム
JP2020053019A (ja) * 2018-07-16 2020-04-02 アクセル ロボティクス コーポレーションAccel Robotics Corp. 自律店舗追跡システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016532932A (ja) * 2013-06-26 2016-10-20 アマゾン テクノロジーズ インコーポレイテッド 物品の相互作用及び移動検出方法
WO2015033577A1 (ja) * 2013-09-06 2015-03-12 日本電気株式会社 顧客行動分析システム、顧客行動分析方法、非一時的なコンピュータ可読媒体及び棚システム
WO2017030177A1 (ja) * 2015-08-20 2017-02-23 日本電気株式会社 展示装置、表示制御装置および展示システム
WO2019171573A1 (ja) * 2018-03-09 2019-09-12 日本電気株式会社 セルフレジシステム、購入商品管理方法および購入商品管理プログラム
JP2020053019A (ja) * 2018-07-16 2020-04-02 アクセル ロボティクス コーポレーションAccel Robotics Corp. 自律店舗追跡システム

Also Published As

Publication number Publication date
JPWO2021234938A1 (ja) 2021-11-25
JP2024039025A (ja) 2024-03-21
JP7396476B2 (ja) 2023-12-12
US20230186271A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
Santra et al. A comprehensive survey on computer vision based approaches for automatic identification of products in retail store
JP5984096B2 (ja) 物体を識別する方法及び機構
US10210423B2 (en) Image match for featureless objects
AU2017231602A1 (en) Method and system for visitor tracking at a POS area
JP2023153316A (ja) 処理装置、処理方法及びプログラム
CN111428743B (zh) 商品识别方法、商品处理方法、装置及电子设备
Shekokar et al. Shop and Go: An innovative approach towards shopping using Deep Learning and Computer Vision
Setta et al. Real-time facial recognition using SURF-FAST
US20240054677A1 (en) Item identification using digital image processing
WO2021234938A1 (ja) 処理装置、処理方法及びプログラム
US20220414900A1 (en) Item identification using multiple cameras
US20220414374A1 (en) Reducing a search space for item identification using machine learning
US20220414899A1 (en) Item location detection using homographies
US20220414375A1 (en) Image cropping using depth information
US20220414379A1 (en) Hand detection trigger for item identification
US20230222803A1 (en) Processing apparatus, processing method, and non-transitory storage medium
JP7435758B2 (ja) 処理システム、処理方法及びプログラム
US20230154039A1 (en) Processing apparatus, processing method, and non-transitory storage medium
WO2019215966A1 (ja) 登録システム、登録方法及びプログラム
WO2021240795A1 (ja) 処理装置、前処理装置、処理方法及びプログラム
US20220414587A1 (en) Determining dimensions of an item using point cloud information
JP7322945B2 (ja) 処理装置、処理方法及びプログラム
US20240020857A1 (en) System and method for identifying a second item based on an association with a first item
JP7338706B2 (ja) 処理装置、処理方法及びプログラム
JP2023078237A (ja) 処理装置、処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20936373

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022524827

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20936373

Country of ref document: EP

Kind code of ref document: A1