WO2021112234A1 - 情報処理システム、情報処理装置及び情報処理方法 - Google Patents

情報処理システム、情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021112234A1
WO2021112234A1 PCT/JP2020/045287 JP2020045287W WO2021112234A1 WO 2021112234 A1 WO2021112234 A1 WO 2021112234A1 JP 2020045287 W JP2020045287 W JP 2020045287W WO 2021112234 A1 WO2021112234 A1 WO 2021112234A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information processing
control unit
processing system
partial image
Prior art date
Application number
PCT/JP2020/045287
Other languages
English (en)
French (fr)
Inventor
暁艶 戴
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019221131A external-priority patent/JP7316203B2/ja
Priority claimed from JP2019230748A external-priority patent/JP2021099629A/ja
Priority claimed from JP2019233268A external-priority patent/JP7381330B2/ja
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to US17/756,882 priority Critical patent/US20230013468A1/en
Priority to CN202080084524.7A priority patent/CN114766033A/zh
Publication of WO2021112234A1 publication Critical patent/WO2021112234A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • G07G1/0063Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles with means for detecting the geometric dimensions of the article of which the code is read, such as its size or height, for the verification of the registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/202Interconnection or interaction of plural electronic cash registers [ECR] or to host computer, e.g. network details, transfer of information from host to ECR or from ECR to ECR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/208Input by product or record sensing, e.g. weighing or scanner processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image

Definitions

  • This disclosure relates to an information processing system, an information processing device, and an information processing method.
  • a cash register terminal in a store or the like has proposed an information processing system that recognizes which product the object is based on an image of an object on the product recognition area (see Patent Document 1). ..
  • the information processing system is An imaging unit that generates an image signal by imaging, An information processing device that executes at least one of a plurality of image processes on an captured image corresponding to the image signal is provided.
  • the information processing apparatus includes a portion included in the captured image based on either the condition of an object corresponding to the partial image included in the captured image or the reliability given to the processing result of the executed image processing. Identify the object that corresponds to the image.
  • the information processing device is A communication unit that can communicate with an imaging unit that generates an image signal by imaging, A control unit that acquires an captured image corresponding to the image signal by the communication unit and executes at least one of a plurality of image processes on the acquired image.
  • the control unit uses the partial image included in the captured image based on either the condition of the object corresponding to the partial image included in the captured image or the reliability given to the processing result of the executed image processing. Identify the object corresponding to.
  • the information processing method is Generating an image signal by imaging and Acquiring an captured image corresponding to the image signal and executing at least one of a plurality of image processing on the acquired captured image. Based on either the situation of the object corresponding to the partial image included in the captured image or the reliability given to the processing result of the executed image processing, the object corresponding to the partial image included in the captured image is selected. Including to identify.
  • the information processing system is An imaging unit that generates an image signal by imaging, Information that acquires a captured image corresponding to the image signal and identifies an object corresponding to a partial image included in at least one of the two captured images based on a difference image of the two captured images having different imaging times. It is equipped with a processing device.
  • the information processing device is A communication unit that can communicate with an imaging unit that generates an image signal by imaging, An object corresponding to a partial image included in at least one of the two captured images based on a difference image of the two captured images having different imaging times by acquiring an captured image corresponding to the image signal by the communication unit. It is provided with a control unit for specifying the above.
  • the information processing method is Generating an image signal by imaging and Acquiring a captured image corresponding to the image signal and identifying an object corresponding to a partial image included in at least one of the two captured images based on a difference image of the two captured images having different imaging times. And, including.
  • the information processing system is A camera that generates an image signal by imaging, A reflecting portion that is arranged within the imaging range of the camera and whose reflecting surface is inclined with respect to the optical axis of the camera.
  • An information processing device that recognizes an object for a first partial image in a region occupied by the reflective portion in the entire region of an image corresponding to an image signal received from the camera and a second partial image in a region other than the region. And.
  • the information processing device is A communication unit that receives an image signal generated by the camera, including a reflection unit whose reflecting surface is inclined with respect to the optical axis of the camera within the imaging range.
  • a control unit that recognizes an object by using a first partial image in a region occupied by the reflection portion in the entire region of the image corresponding to the image signal and a second partial image in a region other than the region is provided.
  • the information processing method is An image signal is generated by imaging in the camera including a reflecting portion whose reflecting surface is inclined with respect to the optical axis of the camera within the imaging range. Object recognition is performed using the first partial image in the region occupied by the reflective portion in the entire region of the image corresponding to the image signal and the second partial image in the region other than the region.
  • an improved information processing system, information processing apparatus and information processing method may be provided.
  • the settlement system 11 including the information processing system 10 includes at least one information processing system 10 and a server 12.
  • the settlement system 11 includes a plurality of information processing systems 10.
  • the information processing system 10 is included in the cash register terminal.
  • the information processing system 10 takes an image of a product placed on the cash register terminal by the purchaser.
  • the information processing system 10 performs object recognition on the image obtained by imaging, and recognizes which product in the store the object contained in the image is.
  • the object in the image means the object drawn in the image.
  • the information processing system 10 notifies the server 12 of the recognition results of all the placed products via the network 13.
  • the server 12 calculates the billing amount based on the recognition result.
  • the server 12 notifies the information processing system 10 of the billed amount.
  • the information processing system 10 presents the billing amount to the purchaser and requests payment of the purchase amount.
  • the information processing system 10 includes a camera 14, a reflecting unit 15, and an information processing device 17. Further, the information processing system 10 may further include a display device 16, a mounting table 18, and a support column 19.
  • the camera 14 is fixed so that the entire range of the mounting table 18 can be imaged.
  • the camera 14 is fixed to, for example, a support pillar 19 extending from the side surface of the mounting table 18.
  • the camera 14 is fixed so that, for example, the entire upper surface us of the mounting table 18 can be imaged and the optical axis is perpendicular to the upper surface us.
  • the camera 14 continuously captures images at an arbitrary frame rate and generates an image signal.
  • the reflection unit 15 is arranged at an arbitrary position within the imaging range of the camera 14.
  • the reflecting portion 15 may be arranged at any position such as the center and the edge within the imaging range.
  • a single reflective portion 15 may be arranged, and a plurality of reflective portions 15 may be arranged.
  • the single reflecting portion 15 is fixed in a state of being arranged along one side of the rectangular mounting table 18.
  • the reflecting portion 15 is, for example, a triangular prism having the same length as the longitudinal direction of the mounting table 18 and having a bottom surface of an isosceles right triangle.
  • the reflecting portion 15 is arranged so that the vertices on the two bottom surfaces of the triangular prism are located on the same long side of the mounting table 18, and the side surface of the triangular prism faces the upper surface us of the mounting table 18. Further, the size of the reflecting portion 15 may be appropriately set to an optimum size according to the size of the mounting table 18 and the imaging range of the camera 14.
  • the reflecting surface rs is inclined with respect to the optical axis of the camera 14.
  • the reflecting surface rs is formed by adhering a metal material such as aluminum, silver, or chromium on the side surface corresponding to the bottom surface of the bottom surface.
  • the reflective surface rs is flat, but may be spherical, aspherical, cylindrical side surface, convex or concave.
  • the display device 16 is any conventionally known display.
  • the display device 16 displays an image corresponding to an image signal transmitted from the information processing device 17. Further, as will be described later, the display device 16 may function as a touch screen.
  • the information processing device 17 includes a communication unit 20, an input unit 21, a storage unit 22, and a control unit 23.
  • the information processing device 17 is configured as a device different from the camera 14, the reflecting unit 15, and the display device 16, but for example, the camera 14, the reflecting unit 15, the mounting table 18, the support column 19, and the support column 19. It may be integrally configured with at least one of the display devices 16.
  • the communication unit 20 includes, for example, a communication module that communicates with the camera 14 via a communication line including wired or wireless.
  • the communication unit 20 receives an image signal from the camera 14.
  • the communication unit 20 includes a communication module that communicates with the display device 16 via a communication line.
  • the communication unit 20 transmits an image signal corresponding to the image to be displayed to the display device 16.
  • the communication unit 20 may receive a position signal corresponding to a position where contact is detected on the display surface from the display device 16.
  • the communication unit 20 includes a communication module that communicates with the server 12 via the network 13.
  • the communication unit 20 transmits the result information corresponding to the confirmed recognition result to the server 12, which will be described later.
  • the communication unit 20 may receive the amount information corresponding to the billed amount from the server 12 from the server 12.
  • the input unit 21 includes one or more interfaces for detecting user input.
  • the input unit 21 may include, for example, a physical key, a capacitance key, and a touch screen integrally provided with the display device 16. In this embodiment, the input unit 21 is a touch screen.
  • the storage unit 22 includes an arbitrary storage device such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the storage unit 22 stores various programs that make the control unit 23 function and various information used by the control unit 23.
  • the control unit 23 includes one or more processors and memory.
  • the processor may include a general-purpose processor that loads a specific program and executes a specific function, and a dedicated processor specialized for a specific process.
  • the dedicated processor may include an application specific integrated circuit (ASIC).
  • the processor may include a programmable logic device (PLD).
  • the PLD may include an FPGA (Field-Programmable Gate Array).
  • the control unit 23 may be either a System (System-on-a-Chip) or a SiP (System In a Package) in which one or a plurality of processors cooperate.
  • the control unit 23 divides the image im corresponding to the image signal received from the camera 14 into the first partial image im p1 and the second partial image im p2.
  • the first partial image im p1 is an image of a region occupied by the reflecting portion 15 in the entire region of the image im corresponding to the image signal.
  • the second partial image im p2 is an image of a region other than the region occupied by the reflecting portion 15 in the entire region of the image.
  • the control unit 23 performs object recognition on the first partial image im p1 and the second partial image im p2 as described below.
  • Object recognition means grasping what the object in the image im is and creating a recognition result.
  • the control unit 23 may detect an object in the image im and create a recognition result of what the detected object is, for example.
  • the detection of an object in the image im means that the existence of the object in the image im is individually grasped together with the position.
  • the control unit 23 may create a recognition result by directly recognizing the object without detecting the object in the image im, for example.
  • the control unit 23 recognizes an object located within the imaging range of the camera 14 by, for example, mounting it on the mounting table 18 by object recognition.
  • the control unit 23 uses known recognition methods such as barcode detection, deep learning (DNN), pattern matching, and character recognition for the first partial image im p1 and the second partial image im p2. , Perform object recognition.
  • the control unit 23 provisionally recognizes the object in the image im by object recognition, and calculates the reliability of the provisional recognition result of the object.
  • the reliability is an index showing the accuracy of the recognition result.
  • the control unit 23 may recognize the object by any of the first to fourth methods described below, for example. It should be noted that the object recognition performed for the situation where "rice balls” and “bottled tea” (hereinafter referred to as “tea”) are placed on the mounting table 18 is used as an example, and each method is used. The recognition of an object will be explained.
  • the control unit 23 recognizes an object for one of the first partial image im p1 and the second partial image im p2. In the present embodiment, the control unit 23 recognizes an object for the second partial image im p2. The control unit 23 tentatively recognizes each object by object recognition, and creates a recognition result as a tentative recognition result. The control unit 23 compares the reliability given to each object with the threshold value. When all the reliability given to each object exceeds the threshold value, the control unit 23 determines each provisional recognition result for all objects by object recognition for the second partial image im p2 as a final recognition result.
  • the control unit 23 provides the tentative recognition result. "Onigiri” and "tea” are confirmed as the final recognition result.
  • the control unit 23 sets the first partial image im p1 which is the other partial image.
  • object recognition is performed. For example, when the provisional recognition results of the two objects recognized by the second partial image im p2 are "rice ball” and "green juice” and the reliability of one of them is equal to or less than the threshold value, the control unit 23 first Object recognition is performed on the partial image im p1.
  • the control unit 23 determines a tentative recognition result of all objects by object recognition for the first partial image im p1 as a final recognition result. For example, the control unit 23 determines "rice balls" and "tea”, which are tentative recognition results of the two objects recognized in the first partial image im p1, as the final recognition results.
  • the control unit 23 performs object recognition for one of the first partial image im p1 and the second partial image im p2 and comparison with the threshold value of the reliability for all objects, as in the first method.
  • the control unit 23 finally determines the recognition result of the object whose reliability exceeds the threshold value among all the objects by the object recognition for the second partial image im p2 which is one of the partial images. It is confirmed as a recognition result. For example, when the tentative recognition result of one of the two objects recognized by the second partial image im p2 is "rice ball" and the reliability exceeds the threshold value, the control unit 23 of the control unit 23 of the object. The tentative recognition result "rice ball" is confirmed as the final recognition result.
  • the control unit 23 and the object in the second partial image im p2 and the first partial image im p1 Corresponds to the object recognized in.
  • the control unit 23 may consider an object located at the same position in a specific direction of the first partial image im p1 and the second partial image im p2 as the same object and associate them with each other.
  • the control unit 23 recognizes the associated object with respect to the first partial image im p1, which is the other partial image.
  • the control unit 23 is concerned. Object recognition is performed on the first partial image im p1 for the object.
  • the control unit 23 determines the provisional recognition result of the object by the object recognition for the first partial image im p1 as the final recognition result. For example, the control unit 23 uses the provisional recognition result of the object recognition for the first partial image im p1 for the object for which the provisional recognition result of "green juice” is created by the object recognition for the second partial image im p2. A certain “tea” is confirmed as the final recognition result.
  • the control unit 23 determines which of the first partial image im p1 and the second partial image im p2 first performs object recognition based on the degree of ease. It's okay.
  • the degree of easiness quantifies the easiness of creating an accurate recognition result for an image recognized as an object.
  • Control unit 23 for calculating the easiness performs segmentation on each first partial image im p1 and the second partial image im p2, segmentation in the first partial image im p1 and the second partial image im p2 respectively Extract the area.
  • the segmentation area is the area where the image considered to be a single object is formed.
  • the control unit 23 may calculate the number of segmentation regions to be extracted for each of the first partial image im p1 and the second partial image im p2 as the degree of ease.
  • the number of segmentation regions is equivalent to the number of objects detected in each of the first partial image im p1 and the second partial image im p2.
  • control unit 23 may calculate the total size of the segmentation regions with respect to the size of the first partial image im p1 and the total size of the segmentation regions with respect to the size of the second partial image im p2 as the degree of ease.
  • control unit 23 may calculate the total size of the segmentation area of the first partial image im p1 and the total size of the segmentation area of the second partial image im p2 as the degree of ease.
  • the control unit 23 may perform object recognition on one of the first partial image im p1 and the second partial image im p2 , which has a higher degree of ease of calculation.
  • the control unit 23 recognizes an object for each of the first partial image im p1 and the second partial image im p2.
  • the control unit 23 associates the object temporarily recognized in the first partial image im p1 with the object temporarily recognized in the second partial image im p2.
  • the control unit 23 may consider an object located at the same position in a specific direction of the first partial image im p1 and the second partial image im p2 as the same object and associate them with each other.
  • the control unit 23 may consider objects having the same shape including the edges of the objects located in the first partial image im p1 and the second partial image im p2 as the same object and associate them with each other.
  • the control unit 23 determines the provisional recognition result of the object as the final recognition result.
  • the control unit 23 when the provisional recognition results of the associated objects are different, the control unit 23 presents each provisional recognition result.
  • the control unit 23 may present the temporary recognition result to the user, for example, by displaying an image showing the temporary recognition result on the display device 16.
  • the control unit 23 controls the communication unit 20 so as to generate an image signal corresponding to the image and transmit it to the display device 16.
  • the control unit 23 may present a tentative recognition result by a method other than displaying an image, for example, by presenting by voice.
  • the control unit 23 may present the provisional recognition results in descending order of reliability.
  • the control unit 23 may determine the selected tentative recognition result as the final recognition result.
  • the control unit 23 has a provisional recognition result of "tea” and “blue” for the objects associated between the first partial image im p1 and the second partial image im p2.
  • the recognition results “tea” and “green juice” are presented. If the reliability of "tea”, which is the provisional recognition result in the first partial image im p1 , is greater than the reliability of "green juice", which is the provisional recognition result in the second partial image im p2, the provisional recognition result is , "Tea” and “Aojiru” are presented in this order.
  • the control unit 23 when the tentative recognition result of the associated object is different and the reliability of at least one tentative recognition result exceeds the threshold value, the control unit 23 obtains a tentative recognition result having a high reliability. It is determined as the final recognition result of the object. For example, the control unit 23 has a provisional recognition result of "tea” and “blue” for the objects associated between the first partial image im p1 and the second partial image im p2. When it is "juice” and the reliability of each provisional recognition result exceeds the threshold value, "tea”, which is a provisional recognition result with higher reliability, is determined as the final recognition result.
  • the control unit 23 detects an object in each of the first partial image im p1 and the second partial image im p2.
  • the control unit 23 associates the objects detected in the first partial image im p1 and the second partial image im p2, respectively.
  • the control unit 23 extracts a portion where the associated object is detected in each of the first partial image im p1 and the second partial image im p2.
  • the control unit 23 performs object recognition by combining the portions extracted from each of the first partial image im p1 and the second partial image im p2.
  • the control unit 23 creates a tentative recognition result of an object by object recognition for a partial combination of the first partial image im p1 and the second partial image im p2.
  • the control unit 23 determines the provisional recognition result to be created as the final recognition result.
  • the control unit 23 controls the communication unit 20 so as to transmit the information indicating the confirmed final recognition result to the server 12.
  • the control unit 23 receives the information indicating the billing amount from the server 12 for the transmission of the information indicating the final recognition result, the control unit 23 presents the billing amount to the user.
  • the control unit 23 may present the image to the user, for example, by creating an image requesting payment of the billed amount and displaying it on the display device 16.
  • the server 12 is composed of, for example, a physical server or a cloud server.
  • the server 12 identifies an object mounted on the mounting table 18 in the information processing system 10 based on the information indicating the final recognition result transmitted from the information processing system 10.
  • the server 12 calculates the amount billed to the user of the information processing system 10 by reading the selling price of the object from the database.
  • the server 12 transmits information indicating the billed amount to the information processing system 10.
  • the server 12 has a reference database for images, feature quantities, characters drawn on the surface, etc. of a plurality of specific objects used for object recognition in the information processing system 10, and is a reference in the reference database. Information may be transmitted to the information processing system 10.
  • the confirmation process by the first method executed by the control unit 23 in the present embodiment will be described with reference to the flowchart of FIG.
  • the confirmation process according to the first method is started every time an image signal of one frame is received from the camera 14.
  • step S100 the control unit 23 divides the image im corresponding to the received image signal into the first partial image im p1 and the second partial image im p2. After the split, the process proceeds to step S101.
  • step S101 the control unit 23 extracts a segmentation region from each of the first partial image im p1 and the second partial image im p2 divided in step S100. After extraction, the process proceeds to step S102.
  • step S102 the control unit 23 calculates the easiness of each of the first partial image im p1 and the second partial image im p2 based on the segmentation region extracted in step S101. After the calculation, the process proceeds to step S103.
  • step S103 the control unit 23 selects one of the highly easy partial images calculated in step S102 from the first partial image im p1 and the second partial image im p2. After selection, the process proceeds to step S104.
  • step S104 the control unit 23 recognizes an object for one of the partial images selected in step S103.
  • the control unit 23 calculates the reliability of the tentative recognition result of each object tentatively recognized by the object recognition. After recognizing the object, the process proceeds to step S105.
  • step S105 the control unit 23 determines whether or not the reliability for each of all the objects recognized in step S104 exceeds the threshold value. If the confidence for each of all objects exceeds the threshold, the process proceeds to step S106. If the confidence in at least some of the objects does not exceed the threshold, the process proceeds to step S107.
  • step S106 the control unit 23 determines the tentative recognition result of all the objects tentatively recognized in step S104 as the final recognition result. After confirmation, the process proceeds to step S109.
  • step S107 the control unit 23 performs object recognition on the other partial image for one partial image selected in step S103. After recognizing the object, the process proceeds to step S108.
  • step S108 the control unit 23 determines the tentative recognition result of all the objects tentatively recognized by the object recognition in step S108 as the final recognition result. After confirmation, the process proceeds to step S109.
  • step S109 the control unit 23 controls the communication unit 20 so as to transmit the information indicating the final recognition result determined in step S106 or step S108 to the server 12. After transmission, the confirmation process by the first method is completed.
  • the confirmation process by the second method executed by the control unit 23 in the present embodiment will be described with reference to the flowchart of FIG.
  • the confirmation process according to the second method is started every time an image signal of one frame is received from the camera 14.
  • step S200 to S206 the control unit 23 performs the same processing as in steps S100 to S106 of the confirmation process according to the first method.
  • step S205 the process proceeds to step S207 if the confidence in at least some of the objects does not exceed the threshold.
  • step S210 the process proceeds to step S210.
  • step S207 the control unit 23 includes an object that is a tentative recognition result whose reliability calculated in step S204 is lower than the threshold value and an object that is recognized in the other partial image with respect to one partial image selected in step S203. Is associated with. After the association, the process proceeds to step S208.
  • step S208 the control unit 23 recognizes the object associated with the object in step S207 with respect to one partial image selected in step S203 with respect to the other partial image. After recognizing the object, the process proceeds to step S209.
  • step S209 the control unit 23 determines the provisional recognition result whose reliability calculated in step S204 is lower than the threshold value as the final recognition result for the object of the provisional recognition result.
  • the control unit 23 determines the tentative recognition result by the object recognition in step S208 as the final recognition result for the object which is the tentative recognition result whose reliability calculated in step S204 is lower than the threshold value. After confirmation, the process proceeds to step S210.
  • step S210 the control unit 23 controls the communication unit 20 so as to transmit the information indicating the final recognition result determined in step S206 or step S209 to the server 12. After transmission, the confirmation process by the second method is completed.
  • the confirmation process by the third method executed by the control unit 23 in the present embodiment will be described with reference to the flowchart of FIG. 7.
  • the confirmation process according to the third method is started every time an image signal of one frame is received from the camera 14.
  • step S300 the control unit 23 divides the image im corresponding to the received image signal into the first partial image im p1 and the second partial image im p2. After the split, the process proceeds to step S301.
  • step S301 the control unit 23 recognizes an object for each of the first partial image im p1 and the second partial image im p2 divided in step S300. After recognizing the object, the process proceeds to step S302.
  • step S302 the control unit 23 associates each object provisionally recognized in each of the first partial image im p1 and the second partial image im p2 by object recognition in step S301. After the association, the process proceeds to step S303.
  • step S303 the control unit 23 selects an object for which it has not been determined whether or not the tentative recognition results match among all the objects associated in step S302. After selection, the process proceeds to step S304.
  • step S304 the control unit 23 determines whether or not the provisional recognition results of the object recognition for each of the first partial image im p1 and the second partial image im p2 match with respect to the associated object. If there is a match, the process proceeds to step S305. If they do not match, the process proceeds to step S306.
  • step S305 the control unit 23 determines the provisional recognition result of the object recognition in step S301 for the object selected in step S303 as the final recognition result. After confirmation, the process proceeds to step S310.
  • step S306 the control unit 23 presents the tentative recognition results of the first partial image im p1 and the second partial image im p2 by object recognition to the user in descending order of reliability. After presentation, the process proceeds to step S307.
  • step S307 the control unit 23 determines whether or not the user input for selecting any of the presented provisional recognition results is detected. If not detected, the process returns to step S307. If detected, the process proceeds to step S308.
  • step S308 the control unit 23 determines the tentative recognition result for which the selected user input is confirmed in step S307 as the final recognition result. After confirmation, the process proceeds to step S309.
  • step S309 the control unit 23 determines whether or not it is determined whether or not the provisional recognition results match for all the objects associated with each other in step S302. If not discriminated against all objects, the process returns to step S303. If all objects have been identified, the process proceeds to step S310.
  • step S310 the control unit 23 controls the communication unit 20 so as to transmit the information indicating the final recognition result determined in step S305 or step S308 to the server 12. After transmission, the confirmation process by the third method is completed.
  • the confirmation process according to the modified example of the third method is started every time the image signal of one frame is received from the camera 14.
  • step S400 to S405 the control unit 23 performs the same processing as in steps S300 to S305 of the finalization process according to the third method.
  • step S304 if the provisional recognition results of the object recognition for each of the first partial image im p1 and the second partial image im p2 match with respect to the associated object, the process proceeds to step S406. After confirmation in step S405, the process proceeds to step S412.
  • step S406 the control unit 23 determines at least the reliability of the tentative recognition result by the object recognition performed for each of the first partial image im p1 and the second partial image im p2 with respect to the object selected in step S403. Determine if one exceeds the threshold. If so, the process proceeds to step S407. If not, the process proceeds to step S408.
  • step S407 the control unit 23 determines a tentative recognition result with higher reliability for the object selected in step S403 as the final recognition result. After confirmation, the process proceeds to step S412.
  • step S408 to S412 the control unit 23 performs the same processing as in steps S306 to S310 of the finalizing process according to the third method.
  • step S412 after the information indicating the final recognition result is transmitted, the confirmation process according to the modified example of the third method is completed.
  • the confirmation process by the fourth method executed by the control unit 23 in the present embodiment will be described with reference to the flowchart of FIG.
  • the confirmation process according to the fourth method is started every time an image signal of one frame is received from the camera 14.
  • step S500 the control unit 23 divides the image im corresponding to the received image signal into the first partial image im p1 and the second partial image im p2. After the split, the process proceeds to step S501.
  • step S501 the control unit 23 detects an object for each of the first partial image im p1 and the second partial image im p2 divided in step S500. After detecting the object, the process proceeds to step S502.
  • step S502 the control unit 23 associates the objects detected in the first partial image im p1 and the second partial image im p2 in step S501, respectively. After the association, the process proceeds to step S503.
  • step S503 the control unit 23 extracts the portions detected in the first partial image im p1 and the second partial image im p2 of each object associated in step S502.
  • the control unit 23 performs object recognition by combining the extracted parts with respect to the associated object. After recognizing the object, the process proceeds to step S504.
  • step S504 the control unit 23 determines the provisional recognition result of the object recognition performed in step S503 as the final recognition result. After confirmation, the process proceeds to step S505.
  • step S505 the control unit 23 controls the communication unit 20 so as to transmit the information indicating the final recognition result determined in step S504 to the server 12. After transmission, the confirmation process by the fourth method is completed.
  • the information processing system 10 of the present embodiment having the above configuration includes the first partial image im p1 in the region occupied by the reflecting portion 15 in the entire region of the image im corresponding to the image signal received from the camera 14, and the region other than the region. Object recognition is performed for the second partial image im p2 in the region of.
  • the first partial image im p1 and the second partial image im p2 may include images of the same object viewed from different directions. Therefore, the information processing system 10 can perform object recognition using images of an object viewed from a plurality of directions even with a single camera 14 without adjusting the posture of the object to be recognized. As a result, the information processing system 10 can improve the recognition accuracy of the object with a simple configuration.
  • the information processing system 10 of the present embodiment performs object recognition on one of the first partial image im p1 and the second partial image im p2 , and calculates the reliability of the provisional recognition result of the object by the object recognition. Then, when the reliability exceeds the threshold value, the provisional recognition result of the object is determined. With such a configuration, the information processing system 10 determines the recognition result based on the reliability, which is an index indicating the accuracy of the recognition result, so that the recognition accuracy of the object can be further improved.
  • the information processing system 10 of the present embodiment when the reliability of at least a part of the objects by object recognition for one of the first partial image im p1 and the second partial image im p2 is equal to or less than the threshold value, the other Object recognition is performed, and the provisional recognition result of all objects by the object recognition is determined.
  • the information processing system 10 can perform object recognition of an object viewed from different directions when the recognition result has low recognition accuracy, so that the information processing system 10 can perform object recognition while maintaining high recognition accuracy. ..
  • the information processing system 10 of the present embodiment includes the object in the other.
  • the object is recognized in the portion, and the tentative recognition result of the object tentatively recognized by the object recognition is determined.
  • the information processing system 10 further improves the recognition accuracy because the object recognition using the other partial image is performed for the object whose recognition result by the object recognition of one partial image is equal to or less than the threshold value. I can let you.
  • the information processing system 10 of this embodiment calculates the easiness of object recognition in the first partial image im p1 and the second partial image im p2, in the first partial image im p1 and the second partial image im p2
  • the object is recognized first for the one with the higher degree of ease.
  • the information processing system 10 reduces the possibility of performing object recognition for both the first partial image im p1 and the second partial image im p2 , and contributes to the reduction of the processing load and the speeding up of the processing. obtain.
  • the information processing system 10 of the present embodiment performs object recognition for each of the first partial image im p1 and the second partial image im p2 , and the object temporarily recognized in the first partial image im p1 and the second portion.
  • the tentative recognition result of the object is determined by associating it with the tentatively recognized object in the image im p2 and when the tentative recognition results of the associated objects match.
  • the information processing system 10 can further improve the recognition accuracy of the object.
  • the information processing system 10 of the present embodiment presents each provisional recognition result when the provisional recognition results of the associated objects are different. If the tentative recognition results are different, each tentative recognition result may be incorrect. Therefore, according to the above configuration, the information processing system 10 can notify the user of an object whose tentative recognition result has not been determined and a tentative recognition result of the object as candidates.
  • the information processing system 10 of the present embodiment presents each provisional recognition result in descending order of reliability for each provisional recognition result.
  • the information processing system 10 can allow the user to quickly identify an object for which a tentative recognition result has not been determined.
  • the provisional recognition result of the associated objects when the provisional recognition results of the associated objects are different and the reliability of at least one of the provisional recognition results exceeds the threshold value, the provisional recognition result having a high reliability is obtained. Is determined as the recognition result of the object. Even if the tentative recognition results are different, it is highly possible that the tentative recognition results that exceed the threshold value are correct. Therefore, with the above configuration, the information processing system 10 can automatically perform object recognition without requesting an operation from the user as much as possible.
  • the information processing system 10 of the present embodiment detects an object in each of the first partial image im p1 and the second partial image im p2 , and the object detected in the first partial image im p1 and the second partial image im p2.
  • the objects detected in the above are associated with each other, and the associated objects are combined with the parts detected in the first partial image im p1 and the second partial image im p2 to perform object recognition, and the object is provisionally recognized by the object recognition. Confirm the recognition result.
  • Object recognition using the appearance of the object to be recognized from a plurality of directions generally has higher recognition accuracy than object recognition using the appearance from a single direction. Therefore, with the above configuration, the information processing system 10 can further improve the recognition accuracy.
  • the settlement system 111 includes at least one information processing system 110 and a server 112.
  • the server 112 may be a physical server or a cloud server.
  • the information processing system 110 and the server 112 can communicate with each other via the network 113.
  • the network 113 may be wireless, wired, or a combination of wireless and wired.
  • the information processing system 110 may be arranged in any store such as a convenience store and a supermarket.
  • the information processing system 110 may be configured as a cash register terminal of a store.
  • the information processing system 110 generates an captured image by capturing an image of a product placed on a mounting table 114, which will be described later by the customer.
  • the information processing system 110 identifies which product in the store the object in the generated captured image is.
  • the "object in the captured image” means an image of an object drawn as an image in the captured image.
  • the information processing system 110 transmits the specified product information to the server 112 via the network 113.
  • the product information may include the product name, the number of products, and the like.
  • the server 112 calculates the amount billed to the customer based on the product information.
  • the server 112 transmits the billed amount to the information processing system 110 via the network 113.
  • the information processing system 110 requests the customer to pay the billed amount by presenting the billed amount to the customer.
  • the information processing system 110 includes a camera 116 (imaging unit) and an information processing device 118.
  • the information processing system 110 may include a mounting table 114, a support column 115, and a display device 117.
  • the mounting table 114 includes a mounting surface 114a. At the time of checkout, the customer places the product he / she wants to purchase on the mounting surface 114a.
  • the mounting surface 114a has a substantially rectangular shape. However, the mounting surface 114a may have any shape.
  • the support pillar 115 extends from the side portion of the mounting table 114 toward one of the normal directions of the mounting surface 114a.
  • One of the normal directions may be a direction away from the mounting surface 114a among the normal directions of the mounting surface 114a.
  • the camera 116 is located at the tip of the support column 115.
  • the camera 116 generates an image signal corresponding to the captured image by imaging.
  • the camera 116 images the mounting surface 114a of the mounting table 114.
  • the range imaged by the camera 116 may be at least a part of the mounting surface 114a, and may be a range exceeding the mounting surface 114a.
  • the range of imaging by the camera 116 is not limited to the mounting surface 114a of the mounting table 114.
  • the range imaged by the camera 116 may be in the shopping cart 314 as shown in FIG. 26 described later.
  • the camera 116 may be arranged so that the mounting surface 114a of the mounting table 114 can be imaged.
  • the camera 116 may be arranged so that the optical axis is perpendicular to the mounting surface 114a.
  • the camera 116 may be arranged at the tip of the support column 115.
  • the camera 116 may be fixed to, for example, the tip of the support column 115 so that the mounting surface 114a of the mounting table 114 can be imaged.
  • the camera 116 can acquire a signal instructing the start of imaging from the information processing device 118.
  • the camera 116 may start imaging when it acquires a signal instructing the start of imaging.
  • the camera 116 outputs the image signal generated by the imaging to the information processing device 118 via the communication line.
  • the camera 116 continuously performs imaging at an arbitrary frame rate.
  • the camera 116 can generate image signals having different imaging times by continuously performing imaging. However, the camera 116 may capture a still image at any time based on a predetermined trigger.
  • the display device 117 may be configured to include an arbitrary display such as a liquid crystal display.
  • the display device 117 displays an image based on the signal acquired from the information processing device 118.
  • the display device 117 may acquire a signal indicating the billing amount of the product from the information processing device 118.
  • the display device 117 may display an image showing the billed amount based on the signal indicating the billed amount of the product.
  • the display device 117 may have a touch screen function.
  • the display device 117 may be arranged near the mounting table 114.
  • the display device 117 may be arranged so that the customer faces the customer when placing the product on the mounting table 114.
  • the information processing device 118 may be arranged in the vicinity of the mounting table 114. As shown in FIG. 12, the information processing device 118 includes a control unit 123. The information processing device 118 may include a communication unit 120, an input unit 121, and a storage unit 122.
  • the communication unit 120 includes an arbitrary communication module.
  • the arbitrary communication module includes a communication module capable of communicating with the camera 116 via the communication line, a module capable of communicating with the display device 117 via the communication line, and a communication module capable of communicating with the server 112 via the network 113. May include.
  • the communication line between the camera 116 and the communication unit 120 and the communication line between the display device 117 and the communication unit 120 may be configured to include a wire or a radio.
  • the input unit 121 includes one or more interfaces capable of detecting user input.
  • the input unit 121 may include at least one of a physical key, a capacitance key, and a touch screen.
  • the input unit 121 is a touch screen.
  • the input unit 121 which is a touch screen, is provided integrally with the display device 117.
  • the storage unit 122 includes an arbitrary storage device such as RAM and ROM.
  • the storage unit 122 stores various programs that make the control unit 123 function and various information used by the control unit 123.
  • the storage unit 122 may store the product data of the store.
  • the product data can be used for object detection, object recognition, etc., which will be described later.
  • the product data may include a product image, characters attached to the product package, and the like associated with an identifier that identifies the product.
  • the identifier that identifies the product shall be the product name for convenience.
  • Control unit 123 includes one or more processors and memory.
  • the processor may include a general-purpose processor that loads a specific program and executes a specific function, and a dedicated processor specialized for a specific process.
  • Dedicated processors may include application specific integrated circuits (ASICs).
  • the processor may include a programmable logic device (PLD).
  • PLD programmable logic device
  • the control unit 123 may be either SoC or SiP in which one or a plurality of processors cooperate.
  • the control unit 123 may acquire the above-mentioned product data from the server 112 via the network 113 by the communication unit 120.
  • the control unit 123 may store the acquired product data in the storage unit 122.
  • the control unit 123 may transmit a signal instructing the start of imaging to the camera 116 by the communication unit 120.
  • the control unit 123 may transmit a signal instructing the start of imaging when the information processing device 118 is activated.
  • the control unit 123 may transmit a signal instructing the start of imaging.
  • the user input can be input from the input unit 121 by the store clerk at the time of opening the store or the like.
  • the control unit 123 acquires an image signal from the camera 116 by the communication unit 120. By acquiring the image signal, the control unit 123 can acquire the captured image corresponding to the image signal.
  • the control unit 123 may store the acquired captured image in the storage unit 122. By generating image signals having different imaging times by the camera 116, the control unit 123 can acquire captured images having different imaging times.
  • the customer purchases a plurality of products the customers can place the products on the mounting surface 114a of the mounting table 114 one after another. By placing the products on the mounting surface 114a of the mounting table 114 one after another by the customer, the products are mounted on the mounting table 114 one after another as the imaging time of the captured image advances. Can be reflected.
  • the control unit 123 can acquire the captured images 130, 131, 132 as shown in FIGS. 13, 14 and 15.
  • the captured image 130 as shown in FIG. 13 is an image captured at the imaging time t0. At the imaging time t0, no product or the like is placed on the mounting surface 114a of the mounting table 114.
  • the captured image 130 includes an image corresponding to the mounting surface 114a of the mounting table 114.
  • the captured image 131 as shown in FIG. 14 is an image captured at the imaging time t1.
  • the imaging time t1 is a time after the imaging time t0.
  • butter is placed on the mounting surface 114a of the mounting table 114.
  • the captured image 131 includes a partial image 131a.
  • the partial image 131a is a part of the captured image 131.
  • the partial image 131a corresponds to butter.
  • the captured image 132 as shown in FIG. 15 is an image captured at the imaging time t2.
  • the imaging time t2 is a time after the imaging time t1.
  • the butter and the rice ball are placed on the mounting surface 114a of the mounting table 114.
  • the rice balls are placed after the customer has placed the butter on the mounting table 114.
  • the rice balls are layered on a piece of butter.
  • the captured image 132 includes a partial image 132a and a partial image 132b.
  • the partial image 132a and the partial image 132b are a part of the captured image 132.
  • Partial image 132a corresponds to butter.
  • the partial image 132b corresponds to a rice ball. Due to the onigiri being superimposed on a part of the butter, the partial image 132a is partially missing, unlike the partial image 131a as shown in FIG.
  • the control unit 123 generates a difference image based on two captured images having different imaging times. For example, the control unit 123 may generate a difference image by calculating the difference in the brightness values of each pixel included in each of the two captured images.
  • the control unit 123 may generate a difference image.
  • an example of the process of determining whether or not there is a difference between the two captured images will be described.
  • the control unit 123 detects the number of objects in the captured image by object detection.
  • object detection means that an object to be detected is detected separately from the background and other objects in the captured image.
  • the object to be detected is a product of a store in which the information processing system 110 is arranged.
  • the control unit 123 may detect the number of objects by detecting the objects in the captured image by a known object detection method.
  • a known object detection method there is a method using segmentation, semantic segmentation and / or a bounding box.
  • the control unit 123 may detect the number of objects in the captured image by a known object recognition method.
  • a known object recognition method there is a method using machine learning such as deep learning and / or feature amount pattern matching.
  • the control unit 123 determines whether or not the number of individually detected objects in the captured image has changed.
  • the control unit 123 compares the number of objects detected by the latest detection process with the number of objects detected by the detection process immediately before the latest object detection process, and thereby individually in the captured image. It may be determined whether or not the number of detected objects has changed. With such a configuration, it can be determined whether or not there is a difference between the two captured images.
  • the control unit 123 determines that the captured image when the number of objects has changed and the captured image at the imaging time earlier than the imaging time of the captured image. Is used to generate a difference image.
  • an image captured at an imaging time before the imaging time of the captured image when the number of objects changes an captured image captured at a predetermined time before the imaging time of the captured image when the number of objects changes May be used.
  • the predetermined time may be appropriately set assuming the time required for the customer to place one product on the mounting table 114 and the next product on the mounting table 114.
  • the captured image at the imaging time before the imaging time of the captured image when the number of objects changes may be used.
  • the captured image before the number of the objects changes may be the latest one among the captured images before the number of the objects changes.
  • the captured image before the number of objects changes is used as the captured image at the imaging time before the capturing time of the captured image when the number of objects changes.
  • the control unit 123 detects that the number of objects in the captured image 130 is zero. In the next detection process, the control unit 123 detects the number of objects in the captured image 131 as one. The control unit 123 takes an image by comparing one of the number of objects detected by the latest detection process with zero of the number of objects detected by the detection process immediately before the latest detection process. It is determined that the number of individually detected objects in the image 131 has changed. The control unit 123 generates a difference image 140 as shown in FIG. 16 by using the captured image 131 in which the number of objects is changed to one and the captured image 130 in which the number of objects is changed to one. To do. The difference image 140 includes a partial image 140a.
  • the partial image 140a is a region where non-zero pixels are continuous.
  • the partial image 140a can be generated based on the difference value between the partial image 131a of the captured image 131 and the portion of the captured image 130 corresponding to the partial image 131a.
  • the partial image 140a corresponds to the partial image 131a included in the captured image 131 of the two captured images, that is, the captured image 130 and the captured image 131.
  • the control unit 123 detects two objects in the captured image 132. It is assumed that the detection process immediately before the detection process is the detection process for the captured image 131. The control unit 123 takes an image by comparing two of the number of objects detected by the latest detection process with one of the number of objects detected by the detection process immediately before the latest detection process. It is determined that the number of individually detected objects in image 132 has changed. The control unit 123 generates a difference image 141 as shown in FIG. 17 by using the captured image 132 in which the number of objects is changed to two and the captured image 131 in which the number of objects is changed to two. To do. The difference image 141 includes a partial image 141a.
  • the partial image 141a is a region where non-zero pixels are continuous.
  • the partial image 141a can be generated based on the difference value between the partial image 132b of the captured image 132 and the portion of the captured image 131 corresponding to the partial image 132b.
  • the partial image 141a corresponds to the partial image 132b included in the captured image 132 of the two captured images, that is, the captured image 131 and the captured image 132.
  • the control unit 123 identifies an object corresponding to a partial image included in at least one of the captured images 130 to 132 by executing object recognition on the difference images 140 and 141.
  • Object recognition for a difference image may include identifying an identifier, or name, of an object corresponding to the partial image by analyzing the partial image in the difference image.
  • Object recognition for a difference image may include detecting an object from the difference image.
  • the control unit 123 may execute a known object recognition method on the difference image. As an example of a known object recognition method, there is a method using machine learning such as deep learning, character recognition, and / or feature amount pattern matching.
  • the control unit 123 detects the partial image 140a by executing the object recognition on the difference image 140, and identifies that the product name of the object corresponding to the partial image 140a is "butter”.
  • the control unit 123 detects the partial image 141a corresponding to the object by executing the object recognition for the difference image 141, and identifies that the product name of the object corresponding to the partial image 141a is "rice ball”. To do.
  • the control unit 123 ends the generation of the difference image.
  • the user input instructing the accounting request can be input from the input unit 121 by the customer after the customer has placed all the products on the mounting table 114.
  • the control unit 123 does not change the number of objects individually detected in the captured image even after a predetermined time has elapsed after determining that the number of objects in the captured image has changed, the control unit 123 generates a difference image. May be terminated.
  • the predetermined time may be longer than the time expected to be required from the customer placing one product on the mounting table 114 to mounting the next product on the mounting table 114.
  • the control unit 123 When the control unit 123 finishes the process of identifying the object, the control unit 123 transmits the specified product information to the server 112 via the network 113 by the communication unit 120.
  • the product information may include the product name, the number of products, and the like.
  • the server 112 acquires the product information from the information processing device 118 via the network 113.
  • the server 112 calculates the billing amount to be billed to the customer based on the product information.
  • the server 112 transmits a signal indicating the billing amount to the information processing device 118 via the network 113.
  • the control unit 123 acquires a signal indicating the billing amount from the server 112 via the network 113 by the communication unit 120.
  • the control unit 123 transmits a signal indicating the billed amount to the display device 117 by the communication unit 120.
  • FIG. 18 is a flowchart showing an object identification process of the information processing system 110 according to another embodiment of the present disclosure.
  • the control unit 123 starts acquiring the image signal from the camera 116
  • the object identification process may be started.
  • the control unit 123 may store the image signal acquired from the camera 116 in the storage unit 122. Further, the control unit 123 may start the object identification process again after the customer's accounting is completed.
  • the control unit 123 detects the number of objects in the captured image (step S610). The control unit 123 determines whether or not the number of individually detected objects in the captured image has changed (step S611).
  • step S611: YES When the control unit 123 determines that the number of individually detected objects has changed (step S611: YES), the control unit 123 proceeds to the process of step S612. On the other hand, when the control unit 123 determines that the number of individually detected objects does not change (step S611: NO), the control unit 123 returns to the process of step S610.
  • control unit 123 In the process of step S612, the control unit 123 generates a difference image by using the captured image when the number of objects changes and the captured image at the imaging time before the imaging time of the captured image. In the process of step S613, the control unit 123 identifies the object by executing the object recognition for the difference image.
  • step S614 the control unit 123 determines whether or not the user input instructing the accounting request is detected by the input unit 121.
  • step S614: YES the control unit 123 proceeds to the process of step S615.
  • step S614: Nello the control unit 123 returns to the process of step S610.
  • control unit 123 transmits the specified product information to the server 112 by the communication unit 120.
  • control unit 123 determines that the number of individually detected objects has changed in the process of step S611, and even after a lapse of a predetermined time, the number of individually detected objects in the captured image has passed. If does not change, the process of step S615 may proceed.
  • the information processing device 118 generates a difference image from two captured images having different imaging times. Even if any of the two captured images includes a plurality of partial images corresponding to the object, the plurality of partial images can be included in separate difference images.
  • the captured image 132 as shown in FIG. 15 includes a partial image 132a corresponding to butter and a partial image 132b corresponding to rice balls.
  • the partial image 140a corresponding to the partial image 132a is included in the difference image 140.
  • the partial image 141a corresponding to the partial image 132b is included in the difference image 141.
  • the object can be identified by executing the object recognition on the difference image without having to image the object from a plurality of directions with a camera.
  • the information processing system 110 according to the present embodiment can identify an object with a simpler configuration.
  • an improved information processing system 110 information processing device 118, and information processing method can be provided.
  • the captured image when the number of individually detected objects changes and the captured image at the imaging time before the imaging time of the captured image are used.
  • a difference image is generated. With such a configuration, a difference image can be generated using a captured image having a difference more reliably.
  • control unit 123 captures images before and after the imaging time of the captured image including the partial image corresponding to the fingers as the above-mentioned two captured images having different imaging times used for generating the difference image.
  • the captured image of the time is used.
  • the storage unit 22 may store images of fingers and the like.
  • the control unit 123 determines whether or not the captured image acquired from the camera 116 includes a partial image corresponding to the fingers.
  • the control unit 123 may determine whether or not the partial image corresponding to the finger is included by executing the object recognition in the captured image.
  • the control unit 123 determines that the partial image corresponding to the finger is included in the captured image
  • the control unit 123 acquires the captured image at the imaging time before and after the imaging time of the captured image.
  • the control unit 123 has a second image than the imaging time of the captured image including the partial image corresponding to the finger and the captured image of the captured image including the partial image corresponding to the finger.
  • the captured image at the imaging time after 2 hours may be acquired.
  • the first time and the second time may be appropriately set in consideration of the time required for the customer to place the individual products on the mounting table 114.
  • the first time and the second time may be the same or different.
  • control unit 123 has a captured image at an imaging time 1 hour before the imaging time of the captured image including the partial image corresponding to the finger, and an imaging time of the captured image including the partial image corresponding to the finger.
  • the captured image at the imaging time after the second hour is acquired.
  • the control unit 123 acquires the captured image 133 as shown in FIG.
  • the captured image 133 is an image captured at the imaging time t01. At the imaging time t01, the customer is trying to grab the butter by hand and place it on the mounting surface 114a of the mounting table 114.
  • the captured image 133 includes a partial image 133a and a partial image 133b.
  • the partial image 133a and the partial image 133b are a part of the captured image 133.
  • the partial image 133a corresponds to the fingers.
  • Partial image 133b corresponds to butter.
  • the control unit 123 determines that the captured image 133 includes the partial image 133a corresponding to the fingers.
  • the imaging time one hour before the imaging time t01 is the imaging time t0 of the above-mentioned captured image 130. Further, it is assumed that the imaging time after the second hour from the imaging time t01 is the imaging time t1 of the above-mentioned captured image 131.
  • the control unit 123 uses the above-mentioned captured image 130 and the above-mentioned captured image 131 to generate the above-mentioned difference image 140.
  • the control unit 123 acquires the captured image 134 as shown in FIG.
  • the captured image 134 is an image captured at the imaging time t12.
  • the captured image 134 includes a partial image 134a, a partial image 134b, and a partial image 134c.
  • the partial image 134a, the partial image 134b, and the partial image 134c are a part of the captured image 134.
  • the partial image 134a corresponds to the fingers.
  • the partial image 134b corresponds to a rice ball. Partial image 134c corresponds to butter.
  • the control unit 123 determines that the captured image 134 includes the partial image 134a corresponding to the fingers.
  • the imaging time one hour before the imaging time t12 is the imaging time t1 of the above-mentioned captured image 131.
  • the imaging time after the second hour from the imaging time t12 is the imaging time t2 of the above-mentioned captured image 132.
  • the control unit 123 generates the above-mentioned difference image 141 by using the above-mentioned captured image 131 and the above-mentioned captured image 132.
  • FIG. 21 is a flowchart showing an object identification process of the information processing system 110 according to still another embodiment of the present disclosure.
  • the control unit 123 starts acquiring the image signal from the camera 116
  • the object identification process may be started.
  • the control unit 123 may store the image signal acquired from the camera 116 in the storage unit 122. Further, the control unit 123 may start the object identification process again after the customer's accounting is completed.
  • the control unit 123 determines whether or not the partial image corresponding to the finger is included by executing the object recognition in the captured image (step S620) (step S621). When the control unit 123 determines that the partial image corresponding to the finger is included in the captured image (step S621: YES), the control unit 123 proceeds to the process of step S622. On the other hand, when it is not determined that the partial image corresponding to the finger is included in the captured image (step S621: NO), the process returns to step S620.
  • control unit 123 In the process of step S622, the control unit 123 generates a difference image by using the captured images at the captured times before and after the captured time of the captured image including the partial image corresponding to the fingers.
  • the control unit 123 executes the process of steps S623, S624, and S625 in the same manner as the process of steps S613, S614, and S615 shown in FIG.
  • FIG. 22 is a diagram showing an overall configuration of the information processing system 210 according to still another embodiment of the present disclosure.
  • the information processing system 210 includes a camera 116, an information processing device 118, and a weight sensor 119.
  • the information processing system 210 may include a mounting table 114, a support column 115, and a display device 117.
  • the weight sensor 119 detects the weight applied to the mounting surface 114a of the mounting table 114.
  • the weight sensor 119 outputs the detected weight to the information processing device 118 via the communication line.
  • the weight sensor 119 is appropriately arranged at a position where the weight applied to the mounting surface 114a can be detected.
  • the communication unit 120 may include a communication module capable of communicating with the weight sensor 119 via a communication line.
  • the communication line between the weight sensor 119 and the communication unit 120 may be configured to include wire or wireless.
  • the control unit 123 has the time when the weight applied to the mounting surface 114a of the mounting table 114 changes as the above-mentioned two captured images having different imaging times used for generating the difference image. The captured images of the previous and next imaging times are used.
  • the control unit 123 can acquire the weight applied to the mounting surface 114a of the mounting table 114 by the communication unit 120 from the weight sensor 119 via the communication line. The control unit 123 determines whether or not the weight applied to the mounting surface 114a of the mounting table 114 has changed.
  • the control unit 123 determines that the weight applied to the mounting surface 114a of the mounting table 114 has changed, the control unit 123 acquires captured images at the imaging times before and after the time when the weight applied to the mounting surface 114a of the mounting table 114 has changed. .. As an image of the imaging time before the time when the weight changes, the control unit 123 may acquire an image captured at the imaging time 3 hours before the time when the weight applied to the mounting surface 114a changes. The third time may be appropriately set assuming the time required for the customer to place the individual products on the mounting table 114.
  • the control unit 123 determines the weight applied to the mounting surface 114a in the captured image captured after the time when the weight applied to the mounting surface 114a changes.
  • the captured image at the imaging time closest to the time when is changed may be acquired.
  • the control unit 123 shall acquire the above-mentioned captured images 130 and 131 as captured images at the captured images before and after the time when the weight applied to the mounting surface 114a of the mounting table 114 changes.
  • the control unit 123 can generate the above-mentioned difference image 140 by using the captured image 130 and the captured image 131.
  • the control unit 123 shall acquire the above-mentioned captured images 131 and 132 as captured images at the captured images before and after the time when the weight applied to the mounting surface 114a of the mounting table 114 changes.
  • the control unit 123 can generate the above-mentioned difference image 141 by using the captured image 131 and the captured image 132.
  • the control unit 123 may transmit a signal instructing the camera 116 to take an image by the communication unit 120 when the weight applied to the mounting surface 114a of the mounting table 114 changes.
  • the customers can place the products on the mounting surface 114a of the mounting table 114 one after another.
  • the weight applied to the mounting surface 114a may change at any time.
  • the control unit 123 transmits a signal instructing the camera 116 to take an image when the weight applied to the mounting surface 114a changes
  • the control unit 123 performs imaging.
  • the indicating signal can be transmitted at any time.
  • the camera 116 may capture a still image at any time by using a signal instructing imaging from the control unit 123 as a predetermined trigger.
  • FIG. 23 is a flowchart showing an object identification process of the information processing system 210 according to still another embodiment of the present disclosure.
  • the control unit 123 starts acquiring the image signal from the camera 116
  • the object identification process may be started.
  • the control unit 123 may store the image signal acquired from the camera 116 in the storage unit 122. Further, the control unit 123 may start the object identification process again after the customer's accounting is completed.
  • the control unit 123 acquires the weight applied to the mounting surface 114a of the mounting table 114 by the communication unit 120 from the weight sensor 119 via the communication line (step S630). The control unit 123 determines whether or not the weight applied to the mounting surface 114a of the mounting table 114 has changed (step S631).
  • step S631: YES When the control unit 123 determines that the weight applied to the mounting surface 114a of the mounting table 114 has changed (step S631: YES), the control unit 123 proceeds to the process of step S632. On the other hand, when the control unit 123 does not determine that the weight applied to the mounting surface 114a of the mounting table 114 has changed (step S631: NO), the control unit 123 returns to the process of step S630.
  • control unit 123 In the process of step S632, the control unit 123 generates a difference image using the captured images at the imaging times before and after the time when the weight applied to the mounting surface 114a of the mounting table 114 changes.
  • the control unit 123 executes the process of steps S633, S634, S635 in the same manner as the process of steps S613, S614, and S615 shown in FIG.
  • FIG. 24 is a diagram showing an example of the difference image 142 according to still another embodiment of the present disclosure.
  • the difference image 142 includes a partial image corresponding to each of the two objects.
  • the difference image 142 includes a partial image 142a and a partial image 142b.
  • the partial image 142a and the partial image 142b are a part of the difference image 142.
  • Partial image 142a corresponds to chocolate.
  • the partial image 142b corresponds to a rice ball.
  • a plurality of products may be placed on the mounting surface 114a of the mounting table 114 at the same time.
  • a difference image including a partial image corresponding to each of the plurality of objects, such as the difference image 142, can be generated.
  • the control unit 123 executes object recognition for each partial image corresponding to each object.
  • the control unit 123 may detect the number of objects in the difference image.
  • the control unit 123 may detect the number of objects by detecting the objects in the difference image by the above-mentioned known object detection method.
  • the control unit 123 determines whether or not a plurality of objects are individually detected from the difference image. When it is determined that a plurality of objects are individually detected from the difference image, the control unit 123 executes object recognition for each partial image corresponding to each object.
  • the control unit 123 detects two distinct objects from the difference image 142.
  • the control unit 123 determines that a plurality of objects have been detected separately from the difference image 142.
  • the control unit 123 executes object recognition for each of the partial image 142a and the partial image 142b corresponding to each object.
  • the control unit 123 identifies the object corresponding to the partial image 142a as chocolate by executing the object recognition on the partial image 142a.
  • the control unit 123 identifies the object corresponding to the partial image 142b as a rice ball by executing the object recognition on the partial image 142b.
  • FIG. 25 is a flowchart showing object recognition for a difference image of the information processing system 110 according to still another embodiment of the present disclosure.
  • the object recognition for the difference image may be executed instead of the process of step S613 shown in FIG. 18, the process of step S623 shown in FIG. 21, and the process of step S633 shown in FIG. 23.
  • the control unit 123 performs the process of step S612 shown in FIG. 18, then the process of step S622 shown in FIG. 21, or the process of step S632 shown in FIG. 23, and then the difference.
  • Object recognition for the image may be started.
  • the control unit 123 detects the number of objects in the difference image (step S640). The control unit 123 determines whether or not a plurality of objects are individually detected from the difference image (step S641).
  • step S641 N Comment
  • the control unit 123 proceeds to the process of step S642. For example, when the control unit 123 determines that one object has been detected from the difference image, the control unit 123 proceeds to the process of step S642.
  • the control unit 123 executes object recognition for the difference image. After executing the process of step S642, the control unit 123 proceeds to the process of step S614 shown in FIG. 18, the process of step S624 shown in FIG. 21, or the process of step S634 shown in FIG. 23.
  • control unit 123 determines that a plurality of objects are individually detected from the difference image (step S641: YES)
  • the control unit 123 proceeds to the process of step S643.
  • the control unit 123 may store the number of objects detected from the difference image in the storage unit 122.
  • control unit 123 executes object recognition on the partial image corresponding to one object included in the difference image. In the process of step S644, the control unit 123 determines whether or not the process of step S643 is executed for all the partial images corresponding to the objects included in the difference image.
  • step S644 determines that the process of step S643 has been executed for all of the partial images corresponding to the objects (step S644: YES), the process of step S614 shown in FIG. 18 and the process of step S624 shown in FIG. 21 The process proceeds to the process or the process of step S634 shown in FIG.
  • step S643 determines that the process of step S643 has been executed for all of the partial images corresponding to the objects (step S644: NO)
  • the control unit 123 executes the process of step S643 again.
  • the control unit 123 executes the object recognition for the partial image corresponding to the object detected from the difference image and for which the object recognition is not executed.
  • object recognition is executed for each partial image corresponding to each object. By such processing, the object can be identified more accurately.
  • FIG. 26 is a diagram showing the overall configuration of the information processing system 310 according to still another embodiment of the present disclosure.
  • the information processing system 310 includes a shopping cart 314, a camera 116, a display device 117, and an information processing device 118.
  • the shopping cart 314 can be used by customers who visit the store. The customer can put the goods he / she wants to purchase in the shopping cart 314.
  • the camera 116 images the inside of the shopping cart 314.
  • the camera 116 may be arranged so that the inside of the shopping cart 314 can be imaged.
  • the camera 116 may be located at the upper edge of the shopping cart 314.
  • the camera 116 may be fixed to the upper edge of the shopping cart 314 so that the inside of the shopping cart 314 can be imaged, for example.
  • the camera 116 may include a communication module capable of wireless communication with the information processing device 118.
  • the camera 116 may transmit an image signal to the information processing device 118 by the wireless module.
  • the information processing device 118 can identify an object corresponding to an image included in at least one of the two captured images based on the difference image of the two captured images having different imaging times.
  • the settlement system 411 includes at least one information processing system 410 and a server 412.
  • the server 412 may be a physical server or a cloud server.
  • the information processing system 410 and the server 412 can communicate with each other via the network 413.
  • the network 413 may be wireless, wired, or a combination of wireless and wired.
  • the information processing system 410 may be arranged in any store such as a convenience store and a supermarket.
  • the information processing system 410 may be configured as a cash register terminal of a store.
  • the information processing system 410 generates an captured image by capturing an image of a product placed on a mounting table 414, which will be described later by the customer.
  • the information processing system 410 identifies which product in the store the object in the generated captured image is.
  • the "object in the captured image” means an image of an object drawn as an image in the captured image.
  • the information processing system 410 transmits the specified product information to the server 412 via the network 413.
  • the product information may include the product name, the number of products, and the like.
  • the server 412 calculates the amount billed to the customer based on the product information.
  • the server 412 transmits the billed amount to the information processing system 410 via the network 413.
  • the information processing system 410 requests the customer to pay the billed amount by presenting the billed amount to the customer.
  • the information processing system 410 includes a camera 416 (imaging unit) and an information processing device 418.
  • the information processing system 410 may include a mounting table 414, a support column 415, and a display device 417.
  • the mounting table 414 includes a mounting surface 414a. At the time of checkout, the customer places the product he / she wants to purchase on the mounting surface 414a.
  • the mounting surface 414a has a substantially rectangular shape. However, the mounting surface 414a may have any shape.
  • the support pillar 415 extends from the side portion of the mounting table 414 toward one of the normal directions of the mounting surface 414a.
  • One of the normal directions may be a direction away from the mounting surface 414a among the normal directions of the mounting surface 414a.
  • the camera 416 is located at the tip of the support column 415.
  • the camera 416 generates an image signal corresponding to the captured image by imaging.
  • the camera 416 may be arranged so that at least a part of the mounting surface 414a of the mounting table 414 can be imaged.
  • the camera 416 may be arranged so that the optical axis is perpendicular to the mounting surface 414a.
  • the camera 416 may be arranged at the tip of the support column 415.
  • the camera 416 may be fixed to, for example, the tip of the support column 415 so that the mounting surface 414a of the mounting table 414 can be imaged.
  • the camera 416 can acquire a signal instructing the start of imaging from the information processing device 418.
  • the camera 416 may start imaging when it acquires a signal instructing the start of imaging.
  • the camera 416 outputs the image signal generated by the imaging to the information processing device 418 via the communication line.
  • the camera 416 may perform imaging at any frame rate.
  • the camera 416 may continuously perform imaging at an arbitrary frame rate, or may capture still images at any time based on a predetermined trigger.
  • the predetermined trigger may be a signal instructing imaging from the information processing device 418.
  • the display device 417 may be configured to include an arbitrary display such as a liquid crystal display.
  • the display device 417 displays an image based on the signal acquired from the information processing device 418.
  • the display device 417 may acquire a signal indicating the billing amount of the product from the information processing device 418.
  • the display device 417 may display an image showing the billed amount based on the signal indicating the billed amount of the product.
  • the display device 417 may have a touch screen function.
  • the display device 417 may be arranged near the mounting table 414.
  • the display device 417 may be arranged so that the customer faces the customer when placing the product on the mounting table 414.
  • the information processing device 418 may be arranged in the vicinity of the mounting table 414. As shown in FIG. 29, the information processing device 418 includes a control unit 423.
  • the information processing device 418 may include a communication unit 420, an input unit 421, and a storage unit 422.
  • the communication unit 420 includes an arbitrary communication module.
  • the arbitrary communication module includes a communication module capable of communicating with the camera 416 via the communication line, a module capable of communicating with the display device 417 via the communication line, and a communication module capable of communicating with the server 412 via the network 413. May include.
  • the communication line between the camera 416 and the communication unit 420 and the communication line between the display device 417 and the communication unit 420 may be configured to include a wire or a radio.
  • the input unit 421 includes one or more interfaces capable of detecting user input.
  • the input unit 421 may include at least one of a physical key, a capacitance key, and a touch screen.
  • the input unit 421 is a touch screen.
  • the input unit 421, which is a touch screen, is provided integrally with the display device 417.
  • the storage unit 422 includes any storage device such as RAM and ROM.
  • the storage unit 422 stores various programs for functioning the control unit 423 and various information used by the control unit 423.
  • the storage unit 422 may store the product data of the store.
  • Product data may include character data.
  • the character data may include a character string attached to the product package or the like.
  • the character string attached to the product package or the like may be associated with an identifier that identifies the product. Examples of the identifier include a product name, a product code, a barcode, an arbitrary ID (Identification), and the like.
  • the identifier that identifies the product shall be the product name.
  • the character data can be used in the first process described later.
  • the product data may include arbitrary data used in the first process described later, in addition to the character data.
  • a one-dimensional code such as a barcode
  • a two-dimensional code such as a QR code (registered trademark)
  • an image of a marker such as an identification marker are included. Good. These images may be associated with an identifier.
  • the product data may include a machine learning model.
  • Machine learning models can be generated by machine learning and training data, as described below.
  • the machine learning model can be used in the second process described later.
  • the machine learning model may have been trained.
  • the product data may include product image data.
  • the product image data may include a product image associated with an identifier that identifies the product.
  • the identifier that identifies the product shall be the product name.
  • the product image data can be used in the second and third processes described later. The same product image data may be used in the second and third processes described later. Alternatively, different product image data may be used in the second and third processes described later.
  • the storage unit 422 stores the product image data used in the second process and the product image data used in the third process. Good.
  • the product data may include the data corresponding to the object recognition associated with the identifier.
  • Control unit 423 includes one or more processors and memory.
  • the processor may include a general-purpose processor that loads a specific program and executes a specific function, and a dedicated processor specialized for a specific process.
  • Dedicated processors may include application specific integrated circuits (ASICs).
  • the processor may include a programmable logic device (PLD).
  • PLD programmable logic device
  • the control unit 423 may be either SoC or SiP in which one or more processors cooperate.
  • the control unit 423 may acquire the above-mentioned product data from the server 412 via the network 413 by the communication unit 420.
  • the control unit 423 may store the acquired product data in the storage unit 422.
  • the control unit 423 can transmit a signal instructing the start of imaging to the camera 416 by the communication unit 420.
  • the control unit 423 may transmit a signal instructing the start of imaging when the information processing device 418 is activated.
  • the control unit 423 may transmit a signal instructing the start of imaging.
  • the user input can be input from the input unit 421 by the clerk at the time of opening the store or the like.
  • the control unit 423 acquires an image signal from the camera 416 by the communication unit 420. By acquiring the image signal, the control unit 423 can acquire the captured image corresponding to the image signal.
  • the control unit 423 may store the acquired captured image in the storage unit 422. For example, the control unit 423 can acquire the captured image 430 as shown in FIG.
  • the captured image 430 includes a partial image 430a, a partial image 430b, and a partial image 430c.
  • the partial image 430a, the partial image 430b, and the partial image 430c are a part of the captured image 430.
  • the partial image 430a corresponds to a plum rice ball.
  • the partial image 430b corresponds to butter.
  • Partial image 430c corresponds to chocolate.
  • Plum rice balls, butter and chocolate are store products. Character strings are attached to the plum rice ball package and butter package. The chocolate package is striped. Plum rice balls, butter and chocolate are placed on the mounting surface 414a of the mounting table 414 by the customer. A part of the partial image 430b is missing due to the rice balls being overlaid on the butter in the mounting table 414.
  • a part of the partial image is missing means that the actual partial image is compared with the appearance of the entire object when viewed from the camera 416 side. It means that some parts are missing.
  • a part of the partial image 430c is missing due to the butter being superposed on the chocolate in the mounting table 414.
  • the control unit 423 executes at least one of a plurality of image processes on the captured image.
  • the image processing may be an object recognition processing.
  • the object recognition process may be a process of detecting a partial image corresponding to an object included in the captured image and identifying which product the object is.
  • the control unit 423 may give reliability to the processing result of the executed image processing.
  • the reliability is an index showing the reliability of the processing result.
  • specifying which product the object is is defined as specifying the product name of the object.
  • the plurality of image processes include a first process, a second process, and a third process. However, the plurality of image processes are not limited to the first process, the second process, and the third process.
  • the first process is an object recognition process using symbol recognition.
  • Symbol recognition may include, but is not limited to, character recognition and code recognition.
  • Code recognition is not limited, but recognizes one-dimensional codes such as barcodes, two-dimensional codes such as QR codes (registered trademarks), and markers such as identification markers that identify products. Processing may be included.
  • the first process may be a character recognition process, a process of recognizing a one-dimensional code, a process of recognizing a two-dimensional code, a process of recognizing a marker, or an object recognition process using at least a part of these combinations. ..
  • the first process is an object recognition process using character recognition as symbol recognition. That is, in the present embodiment, the first process is a process of specifying the product name of the object in the captured image by character recognition.
  • the control unit 423 extracts a character image from the captured image.
  • the control unit 423 extracts a character string from the extracted character image.
  • the control unit 423 identifies the product name of the object by analyzing the extracted character string. As the analysis, the control unit 423 matches the extracted character string with the character string included in the character data of the storage unit 422 to obtain the product name of the object corresponding to the partial image from which the character string is extracted. May be specified.
  • control unit 423 extracts the character string "rice ball plum” from the partial image 430a of the captured image 430.
  • the control unit 423 matches the extracted character string "rice ball plum” with the character data of the storage unit 422, so that the product name of the object corresponding to the partial image 430a is the product name "ume rice ball”. Identify as.
  • control unit 423 may add reliability to the process result of the first process.
  • the control unit 423 may calculate the reliability based on the matching rate when matching the extracted character string with the character string included in the character data of the storage unit 422.
  • the processing speed of the first processing can be relatively high.
  • the processing speed of the first processing can be higher than the processing speed of the third processing in which the feature amount matching described later is used.
  • Preliminary data preparation for executing the first process is relatively easier than prior data preparation for executing the second process and the third process, which will be described later.
  • the character data used in the first process can be prepared relatively easily than the product image data used in the second and third processes described later.
  • the control unit 423 can identify the object by the character string. In the first process, depending on the condition of the object on the mounting table 414, the object can be identified more accurately than in the second process and the third process described later.
  • the product “Ume Onigiri” and the product “Konbu Onigiri” are different products.
  • the appearance of the product "Plum Onigiri” and the appearance of the product “Konbu Onigiri” can be similar if these products have the same triangular shape. It may be difficult to identify products having similar appearances as different products by the second processing and the third processing described later from the captured image. Even if the products have similar appearances, if the product has a character string, it can be identified as a different product from the captured image by the first process.
  • control unit 423 can identify the product name of the object corresponding to the partial image 430a as "Ume no Onigiri” by extracting the character string of "rice ball plum" from the partial image 430a. it can.
  • some of the products handled in stores can be transformed.
  • a product whose package is a bag can be deformed by deforming the bag by applying an external force.
  • the shape of the image corresponding to the product in the captured image may also change. If the shape of the partial image corresponding to the object changes, it may not be possible to prepare the machine learning model described later that can correspond to the deformed partial image in the second process described later. In this case, it may be difficult to identify the object by the second process described later.
  • the shape of the partial image changes if the character string can be extracted from the partial image, the object can be specified by the first process.
  • a plurality of products may be stacked on the mounting table 414. Due to the overlapping of a plurality of products, a part of the partial image corresponding to the product may be missing in the captured image. If a part of the partial image corresponding to the object is missing, it may not be possible to sufficiently extract the predetermined feature amount described later in the third process described later. In this case, it may be difficult to identify the object by the third process described later. Even if a part of the partial image corresponding to the object is missing, the object can be specified by the first process as long as the character string can be extracted from the partial image. For example, a part of the partial image 430b is missing. The character string "butter" can be extracted from the partial image 430b. In the first process, the control unit 423 can identify that the product name of the object corresponding to the partial image 430b is the product name "butter" by extracting the character string of "butter” from the partial image 430b. it can.
  • the second process is an object recognition process using machine learning.
  • the second process is a process of specifying the product name of the object in the captured image based on machine learning.
  • the control unit 423 determines the feature amount used for object recognition based on the machine learning model.
  • the feature amount may include at least one of the brightness and color of the pixels included in the product image, the shape of the product image, and the number of pixels constituting the product image.
  • object recognition is not limited to feature quantity matching.
  • the feature amount matching is to specify the product name of the object by matching the feature amount extracted from the captured image with the feature amount of the product image of the product image data of the storage unit 422.
  • control unit 423 determines the feature amount to be extracted from the partial image by the machine learning model.
  • the control unit 423 extracts the determined feature amount from the partial image, and identifies the product name of the object by matching the extracted feature amount with the feature amount of the product image of the product image data of the storage unit 422. To do.
  • the machine learning model may be generated based on the machine learning and the learning data.
  • a trained machine learning model may be used.
  • the machine learning used to generate the machine learning model may be at least one of a support vector machine (SVM: Support Vector Machine), Bayesian inference, deep learning, and the like.
  • SVM Support Vector Machine
  • the machine learning model may be generated by appropriately combining a support vector machine, Bayesian estimation, deep learning, and the like.
  • control unit 423 may add reliability to the process result of the second process.
  • the control unit 423 may calculate the reliability based on the matching rate between the feature amount of the partial image and the feature amount of the product image of the storage unit 422 in the feature amount matching.
  • the feature amount used for object recognition such as feature amount matching can be determined by the machine learning model.
  • the feature amount used for the feature amount matching is predetermined.
  • the processing speed of the second processing can be higher than the processing speed of the third processing described later because the feature amount is determined by the machine learning model.
  • the object in the second process, the object can be identified more accurately than in the first process and the third process described later, depending on the condition of the object on the mounting table 414.
  • some of the products handled in stores do not have a character string attached to the package or the like. It may be difficult to identify an object to which a character string is not attached from a captured image by the above-mentioned first process. Even if the object does not have a character string attached to the package or the like, it can be identified from the captured image by the second process. For example, as shown in FIG. 30, since the package of chocolate, which is a product, does not have a character string attached, the character string cannot be extracted from the partial image 430c. By the third process, the trade name of the partial image 430c can be specified as chocolate.
  • the feature amount to be used for object recognition such as feature amount matching may change for each partial image corresponding to the product. In this case, it may be difficult to identify the product from the captured image by the third process described later. The reason is that, as will be described later, in the third process, the feature amount used in the feature amount matching is determined in advance.
  • the feature amount used for object recognition such as feature amount matching can be determined by the machine learning model for each partial image.
  • the feature amount used for object recognition such as feature amount matching can be determined by the machine learning model for each partial image. Further, even when a character string is attached to an object, the character string may not be extracted from the image in the first process because a part of the partial image corresponding to the object is missing. In this case, it is difficult to identify the object by the first process.
  • the object can be specified from the image even if the character string cannot be extracted due to the lack of a part of the image corresponding to the object.
  • the third process is an object recognition process using feature matching.
  • the third process is a process of specifying the product name of the object in the captured image by feature quantity matching.
  • the feature amount used in the feature amount matching is predetermined.
  • the feature amount used in the feature amount matching may be appropriately determined from the above-mentioned feature amounts. That is, in the third process, the control unit 423 extracts a predetermined feature amount from the partial image. The control unit 423 identifies the product name of the object by matching the extracted feature amount with the feature amount of the product image of the product image data of the storage unit 422.
  • control unit 423 may add reliability to the process result of the third process. Further, the control unit 423 may calculate the reliability based on the matching rate between the feature amount of the partial image and the feature amount of the product image of the storage unit 422 in the feature amount matching.
  • Preliminary data preparation for executing the third process is relatively easier than prior data preparation for executing the second process described above.
  • the feature amount used for the feature amount matching is predetermined.
  • the feature amount is determined in advance, it is not necessary to prepare a machine learning model for determining the feature amount as in the second process described above.
  • the object in the third process, the object can be identified more accurately than in the first process and the second process, depending on the condition of the object on the mounting table 414.
  • some of the products handled in stores are deformable.
  • the shape of the partial image corresponding to the object in the captured image may also change.
  • the character string may not be extracted from the partial image in the first process depending on the degree of deformation of the partial image corresponding to the object. In this case, it is difficult to identify the object by the first process.
  • the third process unlike the first process, an object can be specified from the partial image even if the character string cannot be extracted due to the deformation of the image.
  • the object can be identified from the deformed partial image by not using the machine learning model.
  • control unit 423 identifies the object corresponding to the partial image based on either the condition of the object corresponding to the partial image or the reliability given to the processing result. In the present embodiment, the control unit 423 identifies the object corresponding to the partial image based on the reliability given to the processing result.
  • control unit 423 executes the first process, the second process, and the third process on the captured image.
  • the control unit 423 imparts reliability to the processing results of the first processing, the second processing, and the third processing that have been executed.
  • the control unit 423 may execute at least two of the plurality of image processes.
  • the control unit 423 may execute the character recognition and the code recognition included in the first process as at least two of the plurality of image processes, or may execute the first process and the second process.
  • the control unit 423 may execute the first process, the second process, and the third process in parallel, or may sequentially execute the first process, the second process, and the third process in a predetermined order.
  • control unit 423 may detect the number of objects from the captured image by a known object detection method before executing the first process or the like. In this case, when the control unit 423 detects a plurality of objects from the captured image, the control unit 423 executes the first process, the second process, and the third process for each partial image corresponding to the object, and performs the first process and the second process. Reliability may be given to the processing results of the processing and the third processing. For example, the control unit 423 can detect three objects from the captured image 430. The control unit 423 may execute the first process, the second process, and the third process for each of the partial images 430a, 430b, and 430c corresponding to each object, and impart reliability to the process results. For example, the control unit 423 acquires the processing result as shown in FIG.
  • the control unit 423 specifies that the product name of the object is "plum rice ball" as the processing result of the first processing for the partial image 430a.
  • the control unit 423 calculates the reliability given to the processing result of the first processing as 95%. Further, the control unit 423 identifies that the product name of the object is "plum rice ball” as the processing result of the second processing for the partial image 430a.
  • the control unit 423 calculates the reliability given to the processing result of the second processing as 65%. Further, the control unit 423 identifies that the product name of the object is "kelp rice ball” as a result of the third processing on the partial image 430a.
  • the control unit 423 calculates that the reliability given to the processing result of the third processing is 64%.
  • the control unit 423 specifies that the product name of the object is "butter” as the processing result of the first processing for the partial image 430b.
  • the control unit 423 calculates the reliability given to the processing result of the first processing as 94%. Further, the control unit 423 specifies that the product name of the object is "butter” as a processing result of the second processing for the partial image 430b.
  • the control unit 423 calculates the reliability given to the processing result of the second processing as 90%. Further, the control unit 423 specifies that the trade name of the object is "cheese” as a result of the third processing on the partial image 430b.
  • the control unit 423 calculates the reliability given to the processing result of the third processing as 75%.
  • the control unit 423 cannot specify the processing result of the first processing because the character string cannot be extracted from the partial image 430c. Further, the control unit 423 specifies that the trade name of the object is "chocolate” as a result of the second processing on the partial image 430c. The control unit 423 calculates the reliability given to the processing result of the second processing as 80%. Further, the control unit 423 recognizes that the trade name of the object is "chocolate” as a recognition result of the third process for the partial image 430c. The control unit 423 calculates that the reliability given to the recognition result of the third process is 70%.
  • control unit 423 identifies the object corresponding to the partial image based on the processing result having the highest reliability given. As described above, when the first process, the second process, and the third process are executed for each partial image corresponding to the plurality of objects, the control unit 423 specifies the corresponding object for each partial image. Good.
  • the control unit 423 acquires the processing result of the first processing having the highest reliability of 95%. Based on the processing result of the first processing, the control unit 423 identifies that the product name of the object corresponding to the partial image 430a is "plum rice ball".
  • the control unit 423 acquires the processing result of the first processing having the highest reliability of 94%.
  • the control unit 423 identifies that the trade name of the object corresponding to the partial image 430b is "butter" based on the processing result of the first processing.
  • the control unit 423 acquires the processing result of the second processing having the highest reliability of 80%.
  • the control unit 423 identifies that the trade name of the object corresponding to the partial image 430c is "chocolate" based on the processing result of the second processing.
  • the control unit 423 transmits the specified product information to the server 412 via the network 413 by the communication unit 420.
  • the product information may include the product name, the number of products, and the like.
  • the server 412 acquires the product information from the information processing device 418 via the network 413.
  • the server 412 calculates the billing amount to be billed to the customer based on the product information.
  • the server 412 transmits a signal indicating the billing amount to the information processing device 418 via the network 413.
  • the control unit 423 acquires a signal indicating the billing amount from the server 412 via the network 413 by the communication unit 420.
  • the control unit 423 transmits a signal indicating the billed amount to the display device 417 by the communication unit 420.
  • FIG. 32 is a flowchart showing an object identification process of the information processing system 410 according to still another embodiment of the present disclosure.
  • the control unit 423 may execute the object identification process every time the image signal corresponding to the captured image of one frame is acquired from the camera 416.
  • the control unit 423 may store the acquired captured image in the storage unit 422.
  • the control unit 423 detects the number of objects from the captured image (step S710). In the process of step S710, the control unit 423 stores the number of detected objects in the storage unit 422.
  • the control unit 423 selects a partial image that has not been processed in step S714, which will be described later (step S711).
  • the control unit 423 executes the first process, the second process, and the third process in parallel on the partial image selected in the process of step S711 (step S712).
  • the control unit 423 imparts reliability to the process results of the first process, the second process, and the third process.
  • the control unit 423 acquires the processing result having the highest reliability from the processing results of the first processing, the second processing, and the third processing (step S713).
  • the control unit 423 identifies the object based on the processing result acquired in the processing of step S713 (step S714).
  • the control unit 423 determines whether or not the process of step S714 has been executed for all the partial images corresponding to the objects included in the captured image (step S715). If the control unit 423 does not determine that the process of step S714 has been executed for all of the partial images (step S715: NO), the control unit 423 returns to the process of step S711. On the other hand, when the control unit 423 determines that the process of step S714 has been executed for all of the partial images (step S715: YES), the control unit 423 proceeds to the process of step S716.
  • control unit 423 transmits the product information to the server 412 via the network 413 by the communication unit 420.
  • the number of products purchased by the customer may be one or two.
  • the processes of steps S710, S711, and S715 do not have to be executed.
  • the control unit 423 may execute the first process, the second process, and the third process on the captured image in the process of step S712.
  • control unit 423 does not have to execute the first process, the second process, and the third process in parallel.
  • control unit 423 may sequentially execute the first process, the second process, and the third process in a predetermined order.
  • the control unit 423 executes the first process, the second process, and the third process on the captured image.
  • the control unit 423 identifies the object from the captured image based on the processing result having the highest reliability among the processing results of the first processing, the second processing, and the third processing.
  • the information processing system 410 can be concisely configured by not having to image the object mounted on the mounting table 414 from a plurality of directions. Therefore, according to the present embodiment, an improved information processing system 410, information processing device 418, and information processing method can be provided.
  • control unit 423 executes the first process, the second process, and the third process on the captured image. Similar to the above-described embodiment, the control unit 423 may execute the first process, the second process, and the third process in parallel or sequentially in a predetermined order. The control unit 423 imparts reliability to the processing results of the first processing, the second processing, and the third processing. Similar to the above-described embodiment, the control unit 423 acquires the highest reliability from the reliability given to the processing results of the first processing, the second processing, and the third processing.
  • control unit 423 identifies an object based on the processing result given the highest reliability when the highest reliability exceeds the threshold value.
  • the threshold value may be appropriately set based on the accuracy rate of past processing results and the like.
  • the control unit 423 identifies a candidate object based on the processing result to which the reliability is given.
  • control unit 423 shall obtain the above-mentioned result with reference to FIG. 31.
  • the threshold is assumed to be 90%.
  • the highest reliability is 95% of the reliability given to the processing result of the first processing.
  • the control unit 423 determines that the highest reliability of 95% exceeds the threshold of 90%. Based on the processing result of the first processing, the control unit 423 identifies that the product name of the object corresponding to the partial image 430a is "plum rice ball".
  • the highest reliability is 94% of the reliability given to the processing result of the first processing.
  • the control unit 423 determines that the highest reliability of 94% exceeds the threshold of 90%.
  • the control unit 423 identifies that the trade name of the object corresponding to the partial image 430b is "butter" based on the processing result of the first processing.
  • the highest reliability is 80% of the reliability given to the recognition result of the second process.
  • the control unit 423 determines that the highest reliability of 80% is the threshold value of 90% or less.
  • the control unit 423 identifies that the candidate object corresponding to the partial image 430c is "chocolate" based on the recognition result of the second process.
  • the control unit 423 may display the object candidate on the display device 417 by appropriately transmitting a control signal to the display device 417 by the communication unit 420.
  • the control unit 423 may present the object candidate to the customer by displaying it on the display device 417.
  • the control unit 423 may present a predetermined message to the customer by displaying the predetermined message together with the object candidate on the display device 417.
  • the predetermined message may be a message asking the customer whether or not the candidate object matches the actual object. In the example of the partial image 430c described above, the predetermined message may be "Is the product chocolate?".
  • the control unit 423 may determine or modify the object candidate according to the user input detected by the input unit 421.
  • the control unit 423 may specify an object candidate as an object for the partial image.
  • the control unit 423 sets the candidate of the object with the chocolate to the partial image 430c. It may be determined as the corresponding object. Further, the control unit 423 may modify the object candidate when the user input is an input that denies a predetermined message.
  • control unit 423 may display a message prompting the customer to input the correct product name on the display device 417 by appropriately transmitting the control signal to the display device 417 by the communication unit 420.
  • control unit 423 may modify the product name of the object with respect to the partial image to the product name indicated by the user input.
  • the control unit 423 may detect the number of objects from the captured image by a known object detection method before executing the first process or the like. In this case, when the control unit 423 detects a plurality of objects from the captured image, the control unit 423 executes the first process, the second process, and the third process for each partial image corresponding to the object, and performs the first process and the second process. Reliability may be given to the processing results of the processing and the third processing. Further, the control unit 423 may specify an object or a candidate object for each partial image according to the reliability.
  • FIG. 33 is a flowchart showing an object identification process of the information processing system 410 according to still another embodiment of the present disclosure.
  • the control unit 423 may execute the object identification process every time the image signal corresponding to the captured image of one frame is acquired from the camera 416.
  • the control unit 423 may store the acquired captured image in the storage unit 422.
  • the control unit 423 executes the process of step S720 in the same manner as the process of step S710 shown in FIG.
  • the control unit 423 selects a partial image that has not been processed in step S725 or step S728, which will be described later (step S721).
  • the control unit 423 executes the first process, the second process, and the third process in parallel on the partial image selected in the process of step S721 (step S722). In the process of step S722, the control unit 423 imparts reliability to the process results of the first process, the second process, and the third process.
  • the control unit 423 acquires the highest reliability from the reliability given to the recognition results of the first process, the second process, and the third process (step S723).
  • the control unit 423 determines whether or not the highest reliability exceeds the threshold value (step S724).
  • step S724: YES the control unit 423 proceeds to the process of step S725.
  • step S724: NO the control unit 423 proceeds to the process of step S726.
  • control unit 423 identifies the object corresponding to the partial image based on the process result to which the highest reliability is given.
  • control unit 423 identifies the candidate object based on the process result to which the highest reliability is given. In the process of step S727, the control unit 423 presents the candidate object to the customer by displaying it on the display device 417. In the process of step S728, the control unit 423 determines or corrects the object candidate according to the user input detected by the input unit 421.
  • step S729 the control unit 423 determines whether or not the process of step S725 or the process of step S728 is executed for all the partial images corresponding to the objects included in the captured image.
  • step S729: NO the control unit 423 returns to the process of step S721.
  • step S729: YES the control unit 423 proceeds to the process of step S730.
  • control unit 423 transmits the product information specified by the process of step S725 or the product information confirmed or corrected by the process of step S728 to the server 412 via the network 413 by the communication unit 420. To do.
  • the number of products purchased by the customer may be one or two.
  • the processes of steps S720, S721, and S729 do not have to be executed.
  • the control unit 423 may execute the first process, the second process, and the third process on the captured image in the process of step S722.
  • control unit 423 does not have to execute the first process, the second process, and the third process in parallel.
  • control unit 423 may sequentially execute the first process, the second process, and the third process in a predetermined order.
  • the control unit 423 executes a plurality of image processes on the captured image in a predetermined order.
  • the predetermined order shall be the order of the first process, the second process, and the third process.
  • the predetermined order is not limited to the order of the first process, the second process and the third process.
  • the control unit 423 executes the first process on the captured image, and imparts reliability to the processing result of the executed first process.
  • the control unit 423 identifies the object corresponding to the partial image based on the processing result of the first processing.
  • the threshold value may be appropriately set based on the accuracy rate of past processing results and the like.
  • the processing speed of the first processing can be relatively high.
  • the control unit 423 executes the second processing on the captured image.
  • the control unit 423 imparts reliability to the processing result of the second processing.
  • the control unit 423 identifies the object based on the processing result of the second processing.
  • the processing speed of the second processing can be higher than the processing speed of the third processing.
  • the control unit 423 executes the third process on the captured image when the reliability given to the process result of the second process is equal to or less than the threshold value.
  • the control unit 423 imparts reliability to the processing result of the third processing.
  • the control unit 423 identifies the object based on the processing result of the third processing.
  • the control unit 423 is based on any of the processing result of the first processing, the processing result of the second processing, and the processing result of the third processing. Identify candidate objects.
  • the control unit 423 may identify a candidate object based on the processing result to which the highest reliability is given among the processing results of the first processing, the second processing, and the third processing. Similar to the above-described embodiment, when specifying an object candidate, the control unit 423 may display the object candidate on the display device 417 by appropriately transmitting a control signal to the display device 417 by the communication unit 420. The control unit 423 may present the object candidate to the customer by displaying it on the display device 417.
  • control unit 423 may present the predetermined message to the customer by displaying the predetermined message together with the candidate object on the display device 417. Similar to the above-described embodiment, the control unit 423 may determine or modify the object candidate according to the user input detected by the input unit 421.
  • the control unit 423 may detect the number of objects from the captured image by a known object detection method before executing the first process or the like. In this case, when the control unit 423 detects a plurality of objects from the captured image, the control unit 423 sequentially executes the first process, the second process, and the third process for each partial image corresponding to the object, and performs the first process and the first process. Reliability may be given to the processing results of the second processing and the third processing. Further, the control unit 423 may specify an object or a candidate object for each partial image according to the reliability.
  • FIG. 34 is a flowchart showing an object identification process of the information processing system 410 according to still another embodiment of the present disclosure.
  • the control unit 423 may execute the object identification process every time the image signal corresponding to the captured image of one frame is acquired from the camera 416.
  • the control unit 423 may store the acquired captured image in the storage unit 422.
  • the control unit 423 executes the process of step S740 in the same manner as the process of step S710 shown in FIG.
  • the control unit 423 selects a partial image in which none of the processes of steps S744, S747, S750, and S753 described later is executed (step S741).
  • the control unit 423 executes the first process on the partial image selected in the process of step S741 (step S742). In the process of step S742, the control unit 423 imparts reliability to the process result of the executed first process.
  • the control unit 423 determines whether or not the reliability given to the processing result of the first processing exceeds the threshold value (step S743). When the control unit 423 determines that the reliability exceeds the threshold value (step S743: YES), the control unit 423 proceeds to the process of step S744. On the other hand, when the control unit 423 determines that the reliability is equal to or lower than the threshold value (step S743: NO), the control unit 423 proceeds to the process of step S745.
  • control unit 423 identifies the object corresponding to the partial image based on the process result of the first process. After executing the process of step S744, the control unit 423 proceeds to the process of step S754.
  • control unit 423 executes the second process on the partial image selected in the process of step S741.
  • control unit 423 imparts reliability to the process result of the second process.
  • step S746 the control unit 423 determines whether or not the reliability given to the process result of the second process exceeds the threshold value.
  • step S746: YES the control unit 423 proceeds to the process of step S747.
  • step S746: NO the control unit 423 proceeds to the process of step S748.
  • step S747 the control unit 423 identifies the object based on the process result of the second process. After executing the process of step S747, the control unit 423 proceeds to the process of step S754.
  • control unit 423 executes the third process on the partial image selected in the process of step S741. In the process of step S748, the control unit 423 imparts reliability to the process result of the third process.
  • step S749 the control unit 423 determines whether or not the reliability given to the process result of the third process exceeds the threshold value.
  • step S749: YES the control unit 423 proceeds to the process of step S750.
  • step S749: NO the control unit 423 proceeds to the process of step S751.
  • step S750 the control unit 423 identifies the object based on the process result of the third process. After executing the process of step S750, the control unit 423 proceeds to the process of step S754.
  • step S751 the control unit 423 identifies a candidate object based on any of the process result of the first process, the process result of the second process, and the process result of the third process.
  • the control unit 423 presents the candidate object to the customer by displaying it on the display device 417.
  • the control unit 423 determines or corrects the object candidate according to the user input detected by the input unit 421. After executing the process of step S753, the control unit 423 proceeds to the process of step S754.
  • step S754 the control unit 423 determines whether or not any of the processes of steps S744, S747, S750, and S753 has been executed for all the partial images corresponding to the objects included in the captured image.
  • step S754: NO the control unit 423 returns to the process of step S741.
  • step S754: YES the control unit 423 proceeds to the process of step S755.
  • control unit 423 communicates the product information specified in the process of steps S744, S747, S750 and the product information confirmed or corrected in the process of step S753 to the server 412 via the network 413. It is transmitted by unit 420.
  • the number of products purchased by the customer may be one or two.
  • the processes of steps S740, S741 and S754 do not have to be executed.
  • the control unit 423 may execute the first process, the second process and the third process on the captured image.
  • control unit 423 when the control unit 423 detects an object in a predetermined situation on the mounting table 414 from the captured image, the control unit 423 executes image processing according to the predetermined situation on the partial image corresponding to the object. Identify the object.
  • the control unit 423 may execute the second process on the partial image corresponding to the object to detect the object.
  • the control unit 423 may detect the superimposed object from the captured image by using a known method.
  • the superposed object may be an object in which the corresponding partial image is missing because it is located under another object among the overlapping objects.
  • the superimposed object can be the butter corresponding to the partial image 430b and the chocolate corresponding to the partial image 430c in the above-mentioned example of the captured image 430 (FIG. 30).
  • the superposed objects may be all of the overlapping objects.
  • the superimposed object can be the rice ball corresponding to the partial image 430a, the butter corresponding to the partial image 430b, and the chocolate corresponding to the partial image 430c in the above-mentioned captured image 430.
  • control unit 423 When the control unit 423 detects a deformed object from the captured image as a predetermined situation, the control unit 423 may execute a third process on the partial image corresponding to the object to detect the object.
  • the control unit 423 may detect a deformed object from the captured image by using a known method.
  • control unit 423 may execute the first process on the partial image corresponding to the object to detect the object. Further, in the predetermined situation, when the character string is detected from the predetermined image, the control unit 423 may execute the first process to identify the object in which the character string is detected.
  • control unit 423 When the control unit 423 detects an object causing halation from the captured image as a predetermined situation, the control unit 423 may execute a second process on the partial image corresponding to the object to identify the object. If the amount of reflected light from a part of the object is locally large, halation may occur in the partial image corresponding to the object. As an example of an object that causes halation, an object including a mirror surface, an object including a glossy surface, and the like can be mentioned. The control unit 423 may detect an object causing halation from the captured image by using a known method. The control unit 423 may execute the second process in the region of the partial image excluding the region where the halation occurs to identify the object.
  • control unit 423 may not be able to extract the character string from the partial image even if the character string is attached to the object. In this case, it may be difficult to identify the object by the first process. Further, when halation occurs in the partial image, the control unit 423 may not be able to detect the feature amount used in the third process from the partial image. In this case, it may be difficult to identify the object by the third process.
  • control unit 423 When the control unit 423 detects a damaged object from the captured image as a predetermined situation, the control unit 423 appropriately transmits a control signal to the display device 417 by the communication unit 420 to indicate that the product is damaged. It may be displayed in. The control unit 423 may present to the customer and / or the clerk by displaying on the display device 417 that the product is damaged.
  • control unit 423 When the control unit 423 detects a dirty object from the captured image as a predetermined situation, the control unit 423 appropriately transmits a control signal to the display device 417 by the communication unit 420 to notify the display device 417 that the product is dirty. It may be displayed. The control unit 423 may present to the customer and / or the capacity by displaying on the display device 417 that the product is dirty.
  • control unit 423 may detect the number of objects from the captured image by a known object detection method. In this case, when a plurality of objects are detected from the captured image, the control unit 423 executes image processing according to the situation of the object among the plurality of image processes for each partial image corresponding to the object. , The object may be specified.
  • the control unit 423 acquires the captured image 431 as shown in FIG. 35.
  • the captured image 431 includes a partial image 431a, a partial image 431b, and a partial image 431c.
  • the partial image 431a, the partial image 431b, and the partial image 431c are a part of the captured image 431.
  • the control unit 423 can determine that the object corresponding to the partial image 431a is not superimposed and deformed.
  • the control unit 423 can determine that the object corresponding to the partial image 431b and the object corresponding to the partial image 431c are superimposed.
  • the control unit 423 may execute the first process on the partial image 431a and specify that the product name of the object corresponding to the partial image 431a is "plum rice ball”.
  • the control unit 423 executes the second processing on the partial image 431b and the partial image 431c, and the product name of the object corresponding to the partial image 431b is "butter", and the product name of the object corresponding to the partial image 430c is ". It may be specified as "chocolate”.
  • FIG. 36 is a flowchart showing an object identification process of the information processing system 410 according to still another embodiment of the present disclosure.
  • the control unit 423 may execute the object identification process every time the image signal corresponding to the captured image of one frame is acquired from the camera 416.
  • the control unit 423 may store the acquired captured image in the storage unit 422.
  • the control unit 423 executes the process of step S760 in the same manner as the process of step S710 shown in FIG.
  • the control unit 423 selects a partial image in which none of the processes of steps S764, S767, and S769 described later is executed (step S761).
  • the control unit 423 determines whether or not the object corresponding to the partial image selected in the process of step S761 is superimposed (step S762). When the control unit 423 determines that the objects are superimposed (step S762: YES), the control unit 423 proceeds to the process of step S763. On the other hand, when the control unit 423 determines that the objects are not superposed (step S762: NO), the control unit 423 proceeds to the process of step S765.
  • control unit 423 executes the second process on the partial image selected in the process of step S761.
  • control unit 423 identifies the object corresponding to the partial image based on the processing result of the second process in the process of step S763.
  • the control unit 423 proceeds to the process of step S770.
  • step S765 the control unit 423 determines whether or not the object corresponding to the partial image selected in the process of step S761 is deformed.
  • step S765: YES the control unit 423 proceeds to the process of step S766.
  • step S765: NO the control unit 423 proceeds to the process of step S768.
  • step S766 the control unit 423 executes the third process on the partial image selected in the process of step S761.
  • step S767 the control unit 423 identifies the object corresponding to the partial image based on the processing result of the third process in the process of step S766.
  • the control unit 423 proceeds to the process of step S770.
  • step S768 the control unit 423 executes the first process on the partial image selected in the process of step S761. That is, when the object corresponding to the partial image selected in the process of step S761 is not superimposed and deformed, the control unit 423 executes the first process on the partial image.
  • step S769 the control unit 423 identifies the object corresponding to the partial image based on the processing result of the first process in the process of step S768. After executing the process of step S769, the control unit 423 proceeds to the process of step S770.
  • step S770 the control unit 423 determines whether or not any of the processes of steps S764, S767, and S769 is executed for all the partial images corresponding to the objects included in the captured image. If the control unit 423 does not determine that any of the processes of steps S764, S767, and S769 has been executed for all of the partial images (step S770: NO), the control unit 423 returns to the process of step S761. On the other hand, when the control unit 423 determines that any of the processes of steps S764, S767, and S769 has been executed for all of the partial images (step S770: YES), the control unit 423 proceeds to the process of step S771.
  • control unit 423 transmits the product information specified in the process of steps S746, S767, and S769 to the server 412 via the network 413 by the communication unit 420.
  • the number of products purchased by the customer may be one or two.
  • the processes of steps S760, S761 and S770 do not have to be executed.
  • the control unit 423 may execute the first process, the second process, and the third process on the captured image, respectively.
  • the processing of the information processing device 418 will be described.
  • the process of calculating the price of the product in the information processing device 418 will be described.
  • the storage unit 422 may store the price of the product associated with the product name.
  • the control unit 423 determines whether or not the partial image corresponding to the object includes the image of the discount sticker.
  • the control unit 423 acquires the discount information from the image of the discount sticker. For example, the control unit 423 acquires information such as "XX yen discount”.
  • the control unit 423 determines the price of the product based on the acquired information and the price of the product stored in the storage unit 422.
  • the control unit 423 determines the price of the product stored in the storage unit 422 as the price of the product.
  • the control unit 423 may transmit the fixed price of the product to the server 412 via the network 413 by the communication unit 420. Alternatively, the control unit 423 may display the price of the product on the display device 417 by appropriately transmitting the control signal to the display device 417 by the communication unit 420. The control unit 423 may present the price of the product to the customer by displaying it on the display device 417.
  • FIG. 37 is a flowchart showing a process of calculating the price of the product of the information processing system 410 according to still another embodiment of the present disclosure.
  • the control unit 423 replaces the process of step S716 shown in FIG. 35, the process of step S730 shown in FIG. 33, the process of step S755 shown in FIG. 34, and the process of step S771 shown in FIG. May be executed.
  • the control unit 423 determines whether or not the partial image corresponding to the object includes the image of the discount sticker (step S780). When the control unit 423 determines that the image of the discount sticker is included (step S780: YES), the control unit 423 proceeds to the process of step S781. On the other hand, if the control unit 423 does not determine that the image of the discount sticker is included (step S780: NO), the control unit 423 proceeds to the process of step S782.
  • control unit 423 acquires the discount information from the image of the discount sticker.
  • step S783 when the control unit 423 acquires the discount information in the process of step S782, the control unit 423 determines the price of the product based on the acquired information and the price of the product stored in the storage unit 422. To do.
  • the control unit 423 determines the price of the product stored in the storage unit 422 as the price of the product.
  • step S784 the price of the confirmed product is transmitted to the server 412 via the network 413 by the communication unit 420.
  • the control unit 423 may present the price of the product to the customer by displaying it on the display device 417.
  • the information processing system 10 calculates the degree of easiness in the first method and the second method, and the first part is based on the degree of easiness.
  • the object is recognized from one of the image im p1 and the second partial image im p2 , the object may be recognized from one of the predetermined ones without calculating the degree of easiness.
  • the information processing system 10 is configured to be included in the cash register terminal, but the application target is not limited to the cash register terminal.
  • the information processing system 10 can be applied to object recognition in inventory confirmation, defective product detection, and the like in a warehouse or the like.
  • the camera 416 has been described as taking an image of a product mounted by a customer on the mounting surface 414a of the mounting table 414.
  • the product imaged by the camera 416 is not limited to the product mounted on the mounting surface 414a of the mounting table 414.
  • the camera 416 may image a product that the customer holds in front of the camera 416 without mounting it on the mounting surface 414a of the mounting table 414.
  • the descriptions such as “first” and “second” are identifiers for distinguishing the configuration.
  • the configurations distinguished by the descriptions such as “first” and “second” in the present disclosure can exchange numbers in the configurations.
  • the first image portion the second image portion and the identifiers “first” and “second” can be exchanged.
  • the exchange of identifiers takes place at the same time.
  • the configuration is distinguished.
  • the identifier may be deleted.
  • the configuration with the identifier removed is distinguished by a code. Based solely on the description of identifiers such as “first” and “second” in the present disclosure, it shall not be used as a basis for interpreting the order of the configurations and for the existence of identifiers with smaller numbers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

情報処理システムは、撮像により画像信号を生成する撮像部と、情報処理装置とを備える。情報処理装置は、画像信号に相当する撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行する。情報処理装置は、撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した画像処理の処理結果に付与した信頼度の何れかに基づいて、撮像画像に含まれる部分画像に対応する物体を特定する。

Description

情報処理システム、情報処理装置及び情報処理方法 関連出願の相互参照
 本出願は、2019年12月6日に日本国に特許出願された特願2019-221131、2019年12月20日に日本国に特許出願された特願2019-230748、及び、2019年12月24日に日本国に特許出願された特願2019-233268の優先権を主張するものであり、これらの先の出願の開示全体を、ここに参照のために取り込む。
 本開示は、情報処理システム、情報処理装置及び情報処理方法に関するものである。
 被写体の姿勢を調整することなく特定の方向から撮像した画像に基づいて、任意の物体を認識することが求められている。例えば、商店等におけるキャッシュレジスター端末において、商品認識エリア上の物体を撮像した画像に基づいて、当該物体が何れの商品であるかを認識する情報処理システムが提案されている(特許文献1参照)。
特開2017-220198号公報
 本開示の一実施形態に係る情報処理システムは、
 撮像により画像信号を生成する撮像部と、
 前記画像信号に相当する撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行する情報処理装置と、を備え、
 前記情報処理装置は、前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定する。
 本開示の一実施形態に係る情報処理装置は、
 撮像により画像信号を生成する撮像部と通信可能な通信部と、
 前記通信部によって前記画像信号に相当する撮像画像を取得し、取得した前記撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行する制御部と、を備え、
 前記制御部は、前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定する。
 本開示の一実施形態に係る情報処理方法は、
 撮像により画像信号を生成することと、
 前記画像信号に相当する撮像画像を取得し、取得した前記撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行することと、
 前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定することと、を含む。
 本開示の一実施形態に係る情報処理システムは、
 撮像により画像信号を生成する撮像部と、
 前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定する情報処理装置と、を備える。
 本開示の一実施形態に係る情報処理装置は、
 撮像により画像信号を生成する撮像部と通信可能な通信部と、
 前記通信部によって前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定する制御部と、を備える。
 本開示の一実施形態に係る情報処理方法は、
 撮像により画像信号を生成することと、
 前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定することと、を含む。
 本開示の一実施形態に係る情報処理システムは、
 撮像により画像信号を生成するカメラと、
 前記カメラの撮像範囲内に配置され、反射面が前記カメラの光軸に対して傾斜している反射部と、
 前記カメラから受信する画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像とに対して、物体認識を行う情報処理装置と、を備える。
 本開示の一実施形態に係る情報処理装置は、
 反射面がカメラの光軸に対して傾斜している反射部を撮像範囲内に含む当該カメラが撮像により生成する画像信号を受信する通信部と、
 前記画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像を用いて、物体認識を行う制御部と、を備える。
 本開示の一実施形態に係る情報処理方法は、
 反射面がカメラの光軸に対して傾斜している反射部を撮像範囲内に含む当該カメラに、撮像により画像信号を生成させ、
 前記画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像を用いて、物体認識を行う。
本実施形態に係る情報処理システムを含む精算システムの全体構成を示す構成図である。 図1の情報処理システムの全体構成を示す構成図である。 図2の情報処理装置の概略構成を示す機能ブロック図である。 図2のカメラが撮像する画像における第1部分画像及び第2部分画像の領域を説明するための図である。 図3の制御部が実行する第1の方式による確定処理を説明するためのフローチャートである。 図3の制御部が実行する第2の方式による確定処理を説明するためのフローチャートである。 図3の制御部が実行する第3の方式による確定処理を説明するためのフローチャートである。 図3の制御部が実行する第3の方式の変形例による確定処理を説明するためのフローチャートである。 図3の制御部が実行する第4の方式による確定処理を説明するためのフローチャートである。 本開示の他の実施形態に係る精算システムの全体構成を示す図である。 図10に示す情報処理システムの全体構成を示す図である。 図11に示す情報処理システムの機能ブロック図である。 本開示の他の実施形態に係る撮像画像の一例を示す図である。 本開示の他の実施形態に係る撮像画像の一例を示す図である。 本開示の他の実施形態に係る撮像画像の一例を示す図である。 本開示の他の実施形態に係る差分画像の一例を示す図である。 本開示の他の実施形態に係る差分画像の一例を示す図である。 本開示の他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る撮像画像の一例を示す図である。 本開示のさらに他の実施形態に係る撮像画像の一例を示す図である。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る情報処理システムの全体構成を示す図である。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る差分画像の一例を示す図である。 本開示のさらに他の実施形態に係る情報処理システムの差分画像に対する物体認識を示すフローチャートである。 本開示のさらに他の実施形態に係る情報処理システムの全体構成を示す図である。 本開示のさらに他の実施形態に係る精算システムの全体構成を示す図である。 図27に示す情報処理システムの全体構成を示す図である。 図28に示す情報処理システムの機能ブロック図である。 本開示のさらに他の実施形態に係る撮像画像の一例を示す図である。 本開示のさらに他の実施形態に係る処理結果及び信頼度の一例を示す図である。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る撮像画像の一例を示す図である。 本開示のさらに他の実施形態に係る情報処理システムの物体特定処理を示すフローチャートである。 本開示のさらに他の実施形態に係る情報処理システムの商品の値段の算出処理を示すフローチャートである。
 従来の情報処理システムには、改善の余地がある。本開示の一実施形態によれば、改善された、情報処理システム、情報処理装置及び情報処理方法が提供され得る。
 以下、本開示を適用した情報処理システムの実施形態について、図面を参照して説明する。
 図1に示すように、本開示の一実施形態に係る情報処理システム10を含む精算システム11は、少なくとも1つの情報処理システム10及びサーバ12を含んで構成されている。本実施形態では、精算システム11は、複数の情報処理システム10を含む。
 本実施形態において、情報処理システム10はレジ端末に含まれている。情報処理システム10は、購入者がレジ端末に載置する商品を撮像する。情報処理システム10は、撮像による画像に対して物体認識を行い、画像中に含まれる物体が店舗における何れの商品であるかを認識する。画像中の物体は、画像内に描画されている物体を意味する。情報処理システム10は、載置された全商品の認識結果を、ネットワーク13を介してサーバ12に通知する。サーバ12は認識結果に基づいて、請求金額を算出する。サーバ12は、請求金額を情報処理システム10に通知する。情報処理システム10は、購入者に請求金額を提示し、購入金額の支払いを要求する。
 図2に示すように、情報処理システム10は、カメラ14、反射部15及び情報処理装置17を含んで構成される。また、情報処理システム10は、表示装置16、載置台18及び支持柱19をさらに含んで構成されてもよい。
 カメラ14は、載置台18の全範囲を撮像可能に固定されている。カメラ14は、例えば、載置台18の側面から延びる支持柱19に固定されている。カメラ14は、例えば、載置台18の上面us全面を撮像可能、かつ当該上面usに光軸が垂直になるように固定されている。カメラ14は、任意のフレームレートで連続的に撮像を行い、画像信号を生成する。
 反射部15は、カメラ14の撮像範囲内の任意の位置に配置されている。反射部15は、例えば、撮像範囲内の中央及び端部等の何れの位置に配置されていてもよい。単一の反射部15が配置されてよく、複数の反射部15が配置されてよい。本実施形態において、単一の反射部15は、矩形の載置台18の1辺に沿うように配置された状態で固定されている。反射部15は、例えば、載置台18の長手方向と同じ長さで、底面が直角二等辺三角形の三角柱である。反射部15は、三角柱の2底面における頂点が載置台18の同じ長辺上に位置し、三角柱の側面が載置台18の上面usに対向するように配置されている。また、反射部15の大きさは、載置台18の大きさ及びカメラ14の撮像範囲に応じて適宜最適なものに設定されてよい。
 反射部15では、反射面rsがカメラ14の光軸に対して傾斜している。本実施形態において、反射部15では、底面における底辺に相当する側面に、アルミニウム、銀又はクロム等の金属材料等を被着することにより反射面rsが形成されている。本実施形態において、反射面rsは平坦状であるが、球面状、非球面状及び円筒側面状であってよく、凸状又は凹状であってよい。
 表示装置16は、従来公知の任意のディスプレイである。表示装置16は、情報処理装置17から送信される画像信号に相当する画像を表示する。また、後述するように、表示装置16は、タッチスクリーンとして機能してよい。
 図3に示すように、情報処理装置17は、通信部20、入力部21、記憶部22及び制御部23を含んで構成される。情報処理装置17は、本実施形態において、カメラ14、反射部15及び表示装置16とは別の装置として構成されているが、例えば、カメラ14、反射部15、載置台18、支持柱19及び表示装置16の少なくとも何れかと一体的に構成されてもよい。
 通信部20は、例えば、有線又は無線を含んで構成される通信線を介してカメラ14と通信する通信モジュールを含む。通信部20は、カメラ14から画像信号を受信する。通信部20は、通信線を介して表示装置16と通信する通信モジュールを含む。通信部20は、表示させる画像に相当する画像信号を表示装置16に向けて送信する。通信部20は、表示装置16から表示面において接触を検知した位置に相当する位置信号を受信してよい。通信部20は、ネットワーク13を介してサーバ12と通信する通信モジュールを含む。通信部20は、後述する、確定した認識結果に相当する結果情報をサーバ12に送信する。通信部20は、サーバ12から請求金額に相当する金額情報をサーバ12から受信してよい。
 入力部21は、ユーザ入力を検出する1つ以上のインタフェースを含む。入力部21は、例えば、物理キー、静電容量キー及び表示装置16と一体的に設けられたタッチスクリーンを含んでよい。本実施形態においては、入力部21はタッチスクリーンである。
 記憶部22は、例えば、RAM(Random Access Memory)及びROM(Read Only Memory)等、任意の記憶デバイスを含む。記憶部22は、制御部23を機能させる多様なプログラム及び制御部23が用いる多様な情報を記憶する。
 制御部23は、1以上のプロセッサ及びメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ及び特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部23は、1つ又は複数のプロセッサが協働するSoC(System-on-a-Chip)及びSiP(System In a Package)の何れかであってもよい。
 制御部23は、図4に示すように、カメラ14から受信する画像信号に相当する画像imを、第1部分画像imp1及び第2部分画像imp2に分割する。第1部分画像imp1は、画像信号に相当する画像imの全領域における反射部15が占める領域の画像である。第2部分画像imp2は、当該画像の全領域における反射部15が占める領域以外の領域の画像である。
 制御部23は、以下に説明するように、第1部分画像imp1及び第2部分画像imp2に対して物体認識を行う。物体認識は、画像im中の物体が何であるかを把握し、認識結果を作成することを意味する。制御部23は、例えば、画像im内で物体を検出し、当該検出した物体が何であるかの認識結果を作成してよい。本実施形態において、物体の画像im内での検出とは、画像im内の物体の存在を位置とともに個別に把握することを意味する。又は、制御部23は、例えば、画像im内で物体を検出することなく直接物体認識を行うことにより認識結果を作成してよい。制御部23は、物体認識により、例えば、載置台18に載置されることにより、カメラ14の撮像範囲内に位置する物体を認識する。
 制御部23は、第1部分画像imp1及び第2部分画像imp2に対して、例えば、バーコード検出、深層学習(DNN:Deep Neural Network)、パターンマッチング及び文字認識等の公知の認識方法によって、物体認識を行う。制御部23は、物体認識により画像im中の物体を仮認識するとともに、当該物体の仮の認識結果の信頼度を算出する。信頼度は、認識結果の正確性を示す指標である。
 制御部23は、例えば、以下に説明する第1の方式から第4の方式の何れかによって、物体の認識を行ってよい。なお、載置台18に「おにぎり」と「ボトル入りのお茶」(以下において「お茶」と呼ぶ。)とが載置された状況に対して行われる物体認識を例として用いて、それぞれの方式による物体の認識を説明する。
 第1の方式では、制御部23は、第1部分画像imp1及び第2部分画像imp2の一方に対して物体認識を行う。本実施形態では、制御部23は、第2部分画像imp2に対して物体認識を行う。制御部23は、物体認識により物体毎に仮認識して、認識結果を仮の認識結果として作成する。制御部23は、物体毎に付与される信頼度をそれぞれ閾値と比較する。制御部23は、物体毎に付与される信頼度が全て閾値を超える場合、第2部分画像imp2に対する物体認識による全物体に対するそれぞれの仮の認識結果を、最終的な認識結果として確定する。例えば、制御部23は、第2部分画像imp2で認識される2つの物体の仮の認識結果が「おにぎり」及び「お茶」であってそれぞれの信頼度が閾値を超える場合、仮の認識結果である「おにぎり」及び「お茶」を、最終的な認識結果として確定する。
 さらに第1の方式では、制御部23は、第2部分画像imp2に対する物体認識による少なくとも一部の物体に対する信頼度が閾値以下である場合、他方の部分画像である第1部分画像imp1に対して物体認識を行う。例えば、制御部23は、第2部分画像imp2で認識される2つの物体の仮の認識結果が「おにぎり」及び「青汁」であって一方の信頼度が閾値以下である場合、第1部分画像imp1に対して物体認識を行う。
 さらに第1の方式では、制御部23は、第1部分画像imp1に対する物体認識による全物体の仮の認識結果を、最終的な認識結果として確定する。例えば、制御部23は、第1部分画像imp1で認識される2つの物体の仮の認識結果である「おにぎり」及び「お茶」を、最終的な認識結果として確定する。
 第2の方式では、制御部23は、第1の方式と同じく、第1部分画像imp1及び第2部分画像imp2の一方に対する物体認識及び全物体に対する信頼度の閾値との比較を行う。本実施形態では、制御部23は、全物体の中で信頼度が閾値を超える物体に対して、一方の部分画像である第2部分画像imp2に対する物体認識による当該物体に対する認識結果を、最終的な認識結果として確定する。例えば、制御部23は、第2部分画像imp2で認識される2つの物体の中の1つの物体の仮の認識結果が「おにぎり」であって、信頼度が閾値を超える場合、当該物体の仮の認識結果である「おにぎり」を、最終的な認識結果として確定する。
 さらに第2の方式では、制御部23は、第2部分画像imp2に対する物体認識による物体に対する信頼度が閾値以下である場合、第2部分画像imp2における当該物体と、第1部分画像imp1において認識される物体との対応付けを行う。制御部23は、例えば、第1部分画像imp1及び第2部分画像imp2それぞれの特定の方向における同じ位置に位置する物体を同一の物体とみなして、対応付けてよい。制御部23は、対応付けられた物体に関して、他方の部分画像である第1部分画像imp1に対する物体認識を行う。例えば、制御部23は、第2部分画像imp2で認識される2つの物体の中の1つの物体の仮の認識結果が「青汁」であって、信頼度が閾値以下である場合、当該物体に対して第1部分画像imp1に対して物体認識を行う。
 さらに第2の方式では、制御部23は、第1部分画像imp1に対する物体認識による当該物体の仮の認識結果を、最終的な認識結果として確定する。例えば、制御部23は、第2部分画像imp2に対する物体認識により「青汁」という仮の認識結果が作成された物体に対して、第1部分画像imp1に対する物体認識による仮の認識結果である「お茶」を、最終的な認識結果として確定する。
 上述の第1の方式及び第2の方式では、制御部23は、第1部分画像imp1及び第2部分画像imp2の何れを先に物体認識を行うかを、容易度に基づいて決定してよい。容易度は、物体認識される画像に対する、正確な認識結果を作成できる容易性を数値化して示す。
 制御部23は、容易度の算出のための、例えば、第1部分画像imp1及び第2部分画像imp2それぞれにセグメンテーションを行い、第1部分画像imp1及び第2部分画像imp2それぞれにおいてセグメンテーション領域を抽出する。セグメンテーション領域は、単一の物体とみなされる像が形成されている領域である。制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれに対して抽出するセグメンテーション領域の数を、容易度として算出してよい。セグメンテーション領域の数は、第1部分画像imp1及び第2部分画像imp2それぞれにおいて検出される物体の数と同等である。又は、制御部23は、第1部分画像imp1の大きさに対するセグメンテーション領域合計の大きさ及び第2部分画像imp2の大きさに対するセグメンテーション領域合計の大きさを、容易度として算出してよい。又は、制御部23は、第1部分画像imp1のセグメンテーション領域合計の大きさ及び第2部分画像imp2のセグメンテーション領域合計の大きさを、容易度として算出してよい。
 制御部23は、第1部分画像imp1及び第2部分画像imp2の中で、算出した容易度が高い一方に対して、物体認識を行わせてよい。
 第3の方式では、制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれに対して物体認識を行う。制御部23は、第1部分画像imp1において仮認識される物体と、第2部分画像imp2において仮認識される物体とを対応付ける。制御部23は、例えば、第1部分画像imp1及び第2部分画像imp2それぞれの特定の方向における同じ位置に位置する物体を同一の物体とみなして、対応付けてよい。また、制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれに位置する物体のエッジを含む形状が同一である物体を同一の物体とみなして、対応付けてよい。制御部23は、対応付けられる物体のそれぞれの仮の認識結果が一致する場合、当該物体の仮の認識結果を、最終的な認識結果として確定する。
 さらに第3の方式では、制御部23は、対応付けられる物体の仮の認識結果が異なる場合、それぞれの仮の認識結果を提示する。制御部23は、例えば、仮の認識結果を示す画像を表示装置16に表示することによって、仮の認識結果を使用者に提示してよい。制御部23は、画像の表示を行う構成においては、当該画像に相当する画像信号を生成し、表示装置16に送信するように、通信部20を制御する。制御部23は、例えば、音声による提示のように、画像の表示以外の方法によって仮の認識結果を提示してよい。制御部23は、仮の認識結果の提示において、信頼度が大きい順番に提示してよい。制御部23は、提示している仮の認識結果に対して、使用者による選択を入力部21が検出するとき、選択された仮の認識結果を、最終的な認識結果として確定してよい。
 例えば、制御部23は、第1部分画像imp1及び第2部分画像imp2での間で対応付けられている物体に対して、それぞれの物体認識による仮の認識結果が「お茶」及び「青汁」である場合、認識結果である「お茶」及び「青汁」を提示する。第1部分画像imp1における仮の認識結果である「お茶」の信頼度が、第2部分画像imp2における仮の認識結果である「青汁」の信頼度より大きい場合、仮の認識結果は、「お茶」及び「青汁」の順番で提示される。
 あるいは第3の方式において、制御部23は、対応付けられる物体の仮の認識結果が異なり、且つ少なくとも一方の仮の認識結果の信頼度が閾値を超える場合、信頼度の大きな仮の認識結果を当該物体の最終的な認識結果として確定する。例えば、制御部23は、第1部分画像imp1及び第2部分画像imp2での間で対応付けられている物体に対して、それぞれの物体認識による仮の認識結果が「お茶」及び「青汁」であり、それぞれの仮の認識結果の信頼度が閾値を超える場合、より信頼度の大きな仮の認識結果である「お茶」を、最終的な認識結果として確定する。
 第4の方式では、制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれにおいて物体を検出する。制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれにおいて検出される物体を対応付ける。制御部23は、対応付けられた物体が第1部分画像imp1及び第2部分画像imp2それぞれにおいて検出される部分を抽出する。制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれから抽出した部分を組み合わせて物体認識を行う。制御部23は、第1部分画像imp1及び第2部分画像imp2の部分的な組み合わせに対する物体認識による物体の仮の認識結果を作成する。制御部23は、作成する仮の認識結果を最終的な認識結果として確定する。
 制御部23は、確定した最終的な認識結果を示す情報を、サーバ12に送信するように、通信部20を制御する。制御部23は、最終的な認識結果を示す情報の送信に対して、サーバ12から請求金額を示す情報を受信するとき、当該請求金額をユーザに提示する。制御部23は、例えば、当該請求金額の支払いを要求する画像を作成し、表示装置16に表示させることにより、ユーザに提示してよい。
 サーバ12は、例えば、物理サーバ又はクラウドサーバで構成されている。サーバ12は、情報処理システム10から送信される最終的な認識結果を示す情報に基づいて、当該情報処理システム10における載置台18に載置された物体を特定する。サーバ12は、データベースから当該物体の販売価格を読出すことにより当該情報処理システム10のユーザに対する請求金額を算出する。サーバ12は、当該請求金額を示す情報を情報処理システム10に送信する。
 サーバ12は、情報処理システム10において物体認識に用いる、複数の特定の物体の画像、特徴量、表面に描画されている文字等の参照用データベースを有しており、当該参照用データベース内の参照用情報を情報処理システム10に送信してよい。
 次に、本実施形態において制御部23が実行する、第1の方式による確定処理について、図5のフローチャートを用いて説明する。第1の方式による確定処理は、カメラ14から1フレームの画像信号を受信するたびに開始する。
 ステップS100において、制御部23は、受信する画像信号に相当する画像imを第1部分画像imp1及び第2部分画像imp2に分割する。分割後、プロセスはステップS101に進む。
 ステップS101では、制御部23は、ステップS100において分割した第1部分画像imp1及び第2部分画像imp2それぞれから、セグメンテーション領域を抽出する。抽出後、プロセスはステップS102に進む。
 ステップS102では、制御部23は、ステップS101において抽出したセグメンテーション領域に基づいて、第1部分画像imp1及び第2部分画像imp2それぞれの容易度を算出する。算出後、プロセスはステップS103に進む。
 ステップS103では、制御部23は、第1部分画像imp1及び第2部分画像imp2の中で、ステップS102において算出した容易度の高い一方の部分画像を選択する。選択後、プロセスはステップS104に進む。
 ステップS104では、制御部23は、ステップS103において選択した一方の部分画像に対して物体認識を行う。制御部23は、物体認識により仮認識される各物体の仮の認識結果の信頼度を算出する。物体認識後、プロセスはステップS105に進む。
 ステップS105では、制御部23は、ステップS104において認識した全物体それぞれに対する信頼度が閾値を超えているか否かを判別する。全物体それぞれに対する信頼度が閾値を超えている場合、プロセスはステップS106に進む。少なくとも一部の物体に対する信頼度が閾値を超えていない場合、プロセスはステップS107に進む。
 ステップS106では、制御部23は、ステップS104において仮認識された全物体の仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS109に進む。
 ステップS107では、制御部23は、ステップS103において選択された一方の部分画像に対する他方の部分画像に対して物体認識を行う。物体認識後、プロセスはステップS108に進む。
 ステップS108では、制御部23は、ステップS108において物体認識により仮認識された全物体の仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS109に進む。
 ステップS109では、制御部23は、ステップS106又はステップS108において確定した最終的な認識結果を示す情報をサーバ12に送信するように、通信部20を制御する。送信後、第1の方式による確定処理は終了する。
 次に、本実施形態において制御部23が実行する、第2の方式による確定処理について、図6のフローチャートを用いて説明する。第2の方式による確定処理は、カメラ14から1フレームの画像信号を受信するたびに開始する。
 ステップS200からステップS206において、制御部23は、第1の方式による確定処理のステップS100からステップS106と同じ処理を行う。ステップS205において、少なくとも一部の物体に対する信頼度が閾値を超えていない場合に、プロセスはステップS207に進む。ステップS206において、確定後、プロセスはステップS210に進む。
 ステップS207では、制御部23は、ステップS204において算出した信頼度が閾値より低い仮の認識結果である物体と、ステップS203において選択された一方の部分画像に対する他方の部分画像において認識される物体との対応付けを行う。対応付け後、プロセスはステップS208に進む。
 ステップS208では、制御部23は、ステップS207において対応付けられた物体に関して、ステップS203において選択された一方の部分画像に対する他方の部分画像に対する物体認識を行う。物体認識後、プロセスはステップS209に進む。
 ステップS209では、制御部23は、ステップS204において算出した信頼度が閾値より低い仮の認識結果を、当該仮の認識結果の物体に対する最終的な認識結果として確定する。制御部23は、ステップS204において算出した信頼度が閾値より低い仮の認識結果である物体に対しては、ステップS208における物体認識による仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS210に進む。
 ステップS210では、制御部23は、ステップS206又はステップS209において確定した最終的な認識結果を示す情報をサーバ12に送信するように、通信部20を制御する。送信後、第2の方式による確定処理は終了する。
 次に、本実施形態において制御部23が実行する、第3の方式による確定処理について、図7のフローチャートを用いて説明する。第3の方式による確定処理は、カメラ14から1フレームの画像信号を受信するたびに開始する。
 ステップS300において、制御部23は、受信する画像信号に相当する画像imを第1部分画像imp1及び第2部分画像imp2に分割する。分割後、プロセスはステップS301に進む。
 ステップS301では、制御部23は、ステップS300において分割した第1部分画像imp1及び第2部分画像imp2それぞれに対して物体認識を行う。物体認識後、プロセスはステップS302に進む。
 ステップS302では、制御部23は、ステップS301において物体認識により第1部分画像imp1及び第2部分画像imp2それぞれで仮認識された各物体の対応付けを行う。対応付け後、プロセスはステップS303に進む。
 ステップS303では、制御部23は、ステップS302において対応付けられた全物体の中で、仮の認識結果が一致しているか否かを判別されていない物体を選択する。選択後、プロセスはステップS304に進む。
 ステップS304では、制御部23は、対応付けられている物体に関して、第1部分画像imp1及び第2部分画像imp2それぞれに対する物体認識による仮の認識結果が一致しているか否かを判別する。一致する場合、プロセスはステップS305に進む。一致しない場合、プロセスはステップS306に進む。
 ステップS305では、制御部23は、ステップS303において選択した物体に対する、ステップS301の物体認識の仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS310に進む。
 ステップS306では、制御部23は、第1部分画像imp1及び第2部分画像imp2それぞれに対する物体認識による仮の認識結果を、信頼度が高い順でユーザに提示する。提示後、プロセスはステップS307に進む。
 ステップS307では、制御部23は、提示した仮の認識結果の何れかを選択するユーザ入力を検出しているか否かを判別する。検出されていない場合、プロセスはステップS307に戻る。検出されている場合、プロセスはステップS308に進む。
 ステップS308では、制御部23は、ステップS307において選択のユーザ入力が確認された仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS309に進む。
 ステップS309では、制御部23は、ステップS302において対応付けられている全物体に対して、仮の認識結果が一致しているかについての判別が行われているか否かを判別する。全物体に対して判別されていない場合、プロセスはステップS303に戻る。全物体に対して判別されている場合、プロセスはステップS310に進む。
 ステップS310では、制御部23は、ステップS305又はステップS308において確定した最終的な認識結果を示す情報をサーバ12に送信するように、通信部20を制御する。送信後、第3の方式による確定処理は終了する。
 次に、本実施形態において制御部23が実行する、第3の方式の変形例による確定処理について、図8のフローチャートを用いて説明する。第3の方式の変形例による確定処理は、カメラ14から1フレームの画像信号を受信するたびに開始する。
 ステップS400からステップS405において、制御部23は、第3の方式による確定処理のステップS300からステップS305と同じ処理を行う。ステップS304において、対応付けられている物体に関して、第1部分画像imp1及び第2部分画像imp2それぞれに対する物体認識による仮の認識結果が一致する場合、プロセスはステップS406に進む。ステップS405において、確定後、プロセスはステップS412に進む。
 ステップS406では、制御部23は、ステップS403において選択される物体に関する、第1部分画像imp1及び第2部分画像imp2それぞれに対して行われた物体認識による仮の認識結果の信頼度の少なくとも一方が閾値を超えているか否かを判別する。超えている場合、プロセスはステップS407に進む。超えていない場合、プロセスはステップS408に進む。
 ステップS407では、制御部23は、ステップS403で選択される物体に対して、信頼度がより高い仮の認識結果を、最終的な認識結果として確定する。確定後、プロセスはステップS412に進む。
 ステップS408からステップS412において、制御部23は、第3の方式による確定処理のステップS306からステップS310と同じ処理を行う。ステップS412において、最終的な認識結果を示す情報の送信後、第3の方式の変形例による確定処理は終了する。
 次に、本実施形態において制御部23が実行する、第4の方式による確定処理について、図9のフローチャートを用いて説明する。第4の方式の方式による確定処理は、カメラ14から1フレームの画像信号を受信するたびに開始する。
 ステップS500において、制御部23は、受信する画像信号に相当する画像imを第1部分画像imp1及び第2部分画像imp2に分割する。分割後、プロセスはステップS501に進む。
 ステップS501では、制御部23は、ステップS500において分割した第1部分画像imp1及び第2部分画像imp2それぞれに対して物体の検出を行う。物体検出後、プロセスはステップS502に進む。
 ステップS502では、制御部23は、ステップS501において第1部分画像imp1及び第2部分画像imp2それぞれで検出された各物体の対応付けを行う。対応付け後、プロセスはステップS503に進む。
 ステップS503では、制御部23は、ステップS502において対応付けられた各物体の第1部分画像imp1及び第2部分画像imp2それぞれにおいて検出される部分を抽出する。制御部23は、対応付けられている物体に対して抽出した部分を組み合わせて、物体認識を行う。物体認識後、プロセスはステップS504に進む。
 ステップS504では、制御部23は、ステップS503において行った物体認識による仮の認識結果を最終的な認識結果として確定する。確定後、プロセスはステップS505に進む。
 ステップS505では、制御部23は、ステップS504において確定した最終的な認識結果を示す情報をサーバ12に送信するように、通信部20を制御する。送信後、第4の方式による確定処理は終了する。
 以上のような構成の本実施形態の情報処理システム10は、カメラ14から受信する画像信号に相当する画像imの全領域における反射部15が占める領域における第1部分画像imp1と、当該領域以外の領域における第2部分画像imp2とに対して、物体認識を行う。このような構成により、情報処理システム10では、第1部分画像imp1及び第2部分画像imp2では、それぞれ異なる方向から見た同じ物体の像が含まれ得る。したがって、情報処理システム10は、認識させる物体の姿勢を調整することなく、単一のカメラ14であっても、複数の方向から見た物体の像を用いて物体認識を行い得る。その結果、情報処理システム10は、簡潔な構成で物体の認識精度を向上させ得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2の一方に対して物体認識を行い、当該物体認識による物体の仮の認識結果の信頼度を算出し、当該信頼度が閾値を超える場合、当該物体の仮の認識結果を確定する。このような構成により、情報処理システム10は、認識結果の正確性を示す指標である信頼度に基づいて認識結果を確定しているので、物体の認識精度をさらに向上させ得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2の一方に対して物体認識による少なくとも一部の物体に対する信頼度が閾値以下である場合、他方において物体認識を行い、当該物体認識による全物体の仮の認識結果を確定する。このような構成により、情報処理システム10は、認識精度の低い認識結果である場合に、異なる方向から見た物体の物体認識が行われるので、認識精度の高さを維持した物体認識を行い得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2の一方に対して物体認識による物体に対する信頼度が閾値以下である場合、他方における当該物体を含む部分において物体認識を行い、当該物体認識により仮認識される当該物体の仮の認識結果を確定する。このような構成により、情報処理システム10は、一方の部分画像の物体認識による認識結果が閾値以下の物体に対して、他方の部分画像を用いた物体認識が行われるので、認識精度をさらに向上させ得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2における物体認識の容易度を算出し、第1部分画像imp1及び第2部分画像imp2の中で容易度が高い一方に対して先に物体認識を行う。このような構成により、情報処理システム10は、第1部分画像imp1及び第2部分画像imp2の両者に対する物体認識を行う可能性を低減し、処理負荷の低減及び処理の迅速化に貢献し得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2それぞれに対して物体認識を行い、第1部分画像imp1において仮認識される物体と第2部分画像imp2において仮認識される物体とを対応付け、対応付けられる物体のそれぞれの仮の認識結果が一致する場合に当該物体の仮の認識結果を確定する。このような構成により、情報処理システム10は、物体の認識精度を一層向上させ得る。
 また、本実施形態の情報処理システム10は、対応付けられる物体のそれぞれの仮の認識結果が異なる場合、それぞれの仮の認識結果を提示する。仮の認識結果が異なる場合、それぞれの仮の認識結果は誤りである可能性がある。そこで、上述の構成により、情報処理システム10は、仮の認識結果が確定されていない物体及び当該物体の仮の認識結果を候補として、ユーザに報知し得る。
 また、本実施形態の情報処理システム10は、それぞれの仮の認識結果に対するそれぞれの信頼度が大きな順番で、それぞれの仮の認識結果を提示する。このような構成により、情報処理システム10は、仮の認識結果が確定されていない物体をユーザに迅速に特定させ得る。
 また、本実施形態の情報処理システム10は、対応付けられる物体のそれぞれの仮の認識結果が異なり且つ少なくとも一方の仮の認識結果の信頼度が閾値を超える場合、信頼度の大きな仮の認識結果を当該物体の認識結果として確定する。仮の認識結果が異なっている場合であっても、閾値を超えている仮の認識結果は正しい可能性が高い。そこで上述の構成により、情報処理システム10は、可能な限り、ユーザに操作を要請することなく、自動的に物体認識を実行し得る。
 また、本実施形態の情報処理システム10は、第1部分画像imp1及び第2部分画像imp2それぞれにおいて物体を検出し、第1部分画像imp1において検出される物体と第2部分画像imp2において検出される物体とを対応付け、対応付けられる物体が第1部分画像imp1及び第2部分画像imp2それぞれにおいて検出される部分を組み合わせて物体認識を行い、当該物体認識による物体の仮の認識結果を確定する。認識対象である物体の複数の方向からの外観を用いる物体認識は、単一の方向からの外観を用いる物体認識より、一般的に認識精度は高い。したがって上述の構成により、情報処理システム10は、認識精度をさらに向上させ得る。
 図10に示すように、精算システム111は、少なくとも1つの情報処理システム110と、サーバ112とを含む。サーバ112は、物理サーバであってよいし、クラウドサーバであってよい。情報処理システム110とサーバ112とは、ネットワーク113を介して通信可能である。ネットワーク113は、無線、有線、又は、無線及び有線の組み合わせであってよい。
 情報処理システム110は、コンビニエンスストア及びスーパーマーケット等の任意の店舗に、配置されてよい。情報処理システム110は、店舗のキャッシュレジスター端末として構成されてよい。情報処理システム110は、顧客が後述の載置台114に載置した商品を撮像することにより、撮像画像を生成する。情報処理システム110は、生成した撮像画像中の物体が、店舗の何れの商品であるかを特定する。本開示において「撮像画像中の物体」は、撮像画像中の、画像として描画される物体の像を意味する。情報処理システム110は、特定した商品情報を、ネットワーク113を介してサーバ112に送信する。当該商品情報には、商品名及び商品の数等が含まれ得る。サーバ112は、商品情報に基づいて、顧客に対する請求金額を算出する。サーバ112は、請求金額を、ネットワーク113を介して情報処理システム110に送信する。情報処理システム110は、顧客に請求金額を提示することにより、顧客に請求金額の支払いを要求する。
 図11に示すように、情報処理システム110は、カメラ116(撮像部)と、情報処理装置118とを含む。情報処理システム110は、載置台114と、支持柱115と、表示装置117とを含んでよい。
 載置台114は、載置面114aを含む。顧客は、会計時に、購入したい商品を載置面114aに載置する。本実施形態では、載置面114aは、略長方形状である。ただし、載置面114aは、任意の形状であってよい。
 支持柱115は、載置台114の側部から、載置面114aの法線方向の一方に向けて延びる。当該法線方向の一方は、載置面114aの法線方向のうち、載置面114aから離れる方向であってよい。支持柱115の先端には、カメラ116が位置する。
 カメラ116は、撮像により撮像画像に相当する画像信号を生成する。本実施形態では、カメラ116は、載置台114の載置面114aを撮像する。ただし、カメラ116が撮像する範囲は、載置面114aの少なくとも一部であればよく、載置面114aを超える範囲であってもよい。また、カメラ116が撮像する範囲は、載置台114の載置面114aに限定されない。例えば、カメラ116が撮像する範囲は、後述の図26に示すような、買い物かご314の中であってよい。
 カメラ116は、載置台114の載置面114aを撮像可能に、配置されていてよい。カメラ116は、載置面114aに光軸が垂直になるように、配置されていてよい。カメラ116は、支持柱115の先端に、配置されていてよい。カメラ116は、載置台114の載置面114aを撮像可能に、例えば支持柱115の先端に、固定されていてよい。
 カメラ116は、情報処理装置118から、撮像開始を指示する信号を取得し得る。カメラ116は、撮像開始を指示する信号を取得すると、撮像を開始し得る。カメラ116は、撮像により生成した画像信号を、通信線を介して情報処理装置118に、出力する。カメラ116は、任意のフレームレートで連続的に撮像を実行する。カメラ116は、連続的に撮像を実行することにより、撮像時刻が異なる画像信号を生成し得る。ただし、カメラ116は、所定トリガーに基づいて、静止画を随時撮像してよい。
 表示装置117は、液晶ディスプレイ等の任意のディスプレイを含んで構成されてよい。表示装置117は、情報処理装置118から取得した信号に基づいて、画像を表示する。例えば、表示装置117は、情報処理装置118から、商品の請求金額を示す信号を取得し得る。表示装置117は、当該商品の請求金額を示す信号に基づいて、請求金額を示す画像を表示し得る。
 表示装置117は、タッチスクリーン機能を有してよい。表示装置117は、載置台114の近辺の近くに配置されてよい。表示装置117は、顧客が商品を載置台114に置く際に、顧客の方を向くように、配置されていてよい。
 情報処理装置118は、載置台114の近辺に配置されてよい。図12に示すように、情報処理装置118は、制御部123を含む。情報処理装置118は、通信部120と、入力部121と、記憶部122とを含んでよい。
 通信部120は、任意の通信モジュールを含む。当該任意の通信モジュールは、通信線を介してカメラ116と通信可能な通信モジュール、通信線を介して表示装置117と通信可能なモジュール、及び、ネットワーク113を介してサーバ112と通信可能な通信モジュールを含んでよい。カメラ116と通信部120との間の通信線、及び、表示装置117と通信部120との間の通信線は、有線又は無線を含んで構成されていてよい。
 入力部121は、ユーザ入力を検出可能な1つ以上のインタフェースを含む。例えば、入力部121は、物理キー、静電容量キー及びタッチスクリーンの少なくとも何れかを含んで構成されてよい。本実施形態においては、入力部121は、タッチスクリーンである。タッチスクリーンである入力部121は、表示装置117と一体として設けられている。
 記憶部122は、RAM及びROM等の任意の記憶デバイスを含む。記憶部122は、制御部123を機能させる多様なプログラム及び制御部123が用いる多様な情報を記憶する。
 記憶部122は、店舗の商品データを記憶してよい。当該商品データは、後述の物体検出及び物体認識等に用いられ得る。商品データは、商品を識別する識別子と対応付けられた、商品画像及び商品のパッケージに付された文字等を含んでよい。以下、商品を識別する識別子は、便宜上、商品名であるものとする。
 制御部123は、1つ以上のプロセッサ及びメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び、特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD)を含んでよい。PLDは、FPGAを含んでよい。制御部123は、1つ又は複数のプロセッサが協働するSoC及びSiPの何れかであってよい。
 制御部123は、通信部120によって、ネットワーク113を介してサーバ112から、上述の商品データを取得してよい。制御部123は、取得した商品データを、記憶部122に記憶させてよい。
 制御部123は、カメラ116に、撮像開始を指示する信号を、通信部120によって送信し得る。制御部123は、情報処理装置118が起動したときに、撮像開始を指示する信号を送信してよい。制御部123は、撮像開始を指示するユーザ入力を、入力部121によって検出したとき、撮像開始を指示する信号を送信してよい。当該ユーザ入力は、店員によって、店舗の開店時等に、入力部121から入力され得る。
 制御部123は、カメラ116から、画像信号を、通信部120によって取得する。制御部123は、画像信号を取得することにより、画像信号に相当する撮像画像を取得し得る。制御部123は、取得した撮像画像を記憶部122に記憶させてよい。カメラ116によって撮像時刻が異なる画像信号が生成されることにより、制御部123は、撮像時刻が異なる撮像画像を取得し得る。ここで、顧客は、複数の商品を購入する場合、次々に、商品を載置台114の載置面114aに載置し得る。顧客が商品を次々に載置台114の載置面114aに載置することにより、撮像画像には、当該撮像画像の撮像時間が進むに連れて、次々に載置台114に載置されていく商品が映り得る。例えば、制御部123は、図13、図14及び図15に示すような、撮像画像130,131,132を取得し得る。
 図13に示すような撮像画像130は、撮像時刻t0に撮像された画像である。撮像時刻t0では、載置台114の載置面114aには、商品等が載置されていない。撮像画像130は、載置台114の載置面114aに対応する画像を含む。
 図14に示すような撮像画像131は、撮像時刻t1に撮像された画像である。撮像時刻t1は、撮像時刻t0よりも、後の時刻である。撮像時刻t1では、バターが載置台114の載置面114aに載置されている。撮像画像131は、部分画像131aを含む。部分画像131aは、撮像画像131の一部である。部分画像131aは、バターに対応する。
 図15に示すような撮像画像132は、撮像時刻t2に撮像された画像である。撮像時刻t2は、撮像時刻t1よりも、後の時刻である。撮像時刻t2では、バター及びおにぎりが、載置台114の載置面114aに載置されている。おにぎりは、顧客がバターを載置台114に載置した後に、載置される。おにぎりは、バターの一部に重ねられている。撮像画像132は、部分画像132aと、部分画像132bとを含む。部分画像132a及び部分画像132bは、撮像画像132の一部である。部分画像132aは、バターに対応する。部分画像132bは、おにぎりに対応する。おにぎりがバターの一部に重ねられていることにより、部分画像132aは、図14に示すような部分画像131aとは異なり、一部が欠けている。
 制御部123は、撮像時刻の異なる2つの撮像画像に基づいて、差分画像を生成する。例えば、制御部123は、2つの撮像画像にそれぞれ含まれる各画素の輝度値の差分を算出することにより、差分画像を生成してよい。ここで、制御部123は、撮像時刻の異なる2つの撮像画像に差分があると判定する場合、差分画像を生成してよい。以下、2つの撮像画像に差分があるか否かを判定する処理の一例を説明する。
 制御部123は、物体検出によって、撮像画像中の物体の数を検出する。本開示において「物体検出」は、検出の対象となる物体を、撮像画像中の背景及び他の物体から区別して検出することを意味する。検出の対象となる物体は、情報処理システム110が配置されている店舗の商品である。制御部123は、公知の物体検出方法によって撮像画像中の物体を検出することにより、物体の数を検出してよい。公知の物体検出方法の一例として、セグメンテーション、セマンティックセグメンテーション及び/又はバウンディングボックスを利用する方法が挙げられる。制御部123は、公知の物体認識方法によって、撮像画像中の物体の数を検出してよい。公知の物体認識方法の一例として、深層学習等の機械学習及び/又は特徴量パターンマッチングを利用する方法が挙げられる。
 制御部123は、撮像画像中の個別に検出された物体の数が変化したか否か判定する。制御部123は、最新の検出処理で検出された物体の数と、最新の物体検出の処理の1つ前の検出処理で検出された物体の数とを比較することにより、撮像画像中の個別に検出された物体の数が変化したか否か判定してよい。このような構成により、2つの撮像画像に差分があるか否かが判定され得る。
 制御部123は、個別に検出された物体の数が変化したと判定する場合、物体の数が変化したときの撮像画像と、当該撮像画像の撮像時刻よりも前の撮像時刻の撮像画像とを用いて、差分画像を生成する。物体の数が変化したときの撮像画像の撮像時刻よりも前の撮像時刻の撮像画像として、物体の数が変化したときの撮像画像の撮像時刻よりも、所定時間前に撮像された撮像画像が用いられてよい。所定時間は、顧客が1つの商品を載置台114に載置してから次の商品を載置台114に載置するまでに要する時間を想定して、適宜設定されてよい。又は、物体の数が変化したときの撮像画像の撮像時刻よりも前の撮像時刻の撮像画像として、物体の数が変化する前の撮像画像が用いられてよい。当該物体の数が変化する前の撮像画像は、物体の数が変化する前の撮像画像の中で、最新のものであってよい。本実施形態では、物体の数が変化したときの撮像画像の撮像時刻よりも前の撮像時刻の撮像画像として、物体の数が変化する前の撮像画像が用いられる。
 例えば、検出処理にて、制御部123は、撮像画像130の中の物体の数をゼロ個と検出する。次の検出処理にて、制御部123は、撮像画像131の中の物体の数を1個と検出する。制御部123は、最新の検出処理にて検出した物体の数の1個と、最新の検出処理の1つ前の検出処理で検出された物体の数のゼロ個とを比較することにより、撮像画像131中の個別に検出された物体の数が変化したと判定する。制御部123は、物体の数が1個に変化した撮像画像131と、物体の数が1個に変化する前の撮像画像130とを用いて、図16に示すような、差分画像140を生成する。差分画像140は、部分画像140aを含む。部分画像140aは、ゼロではない画素が連続する領域である。部分画像140aは、撮像画像131の部分画像131aと、部分画像131aに対応する撮像画像130の部分との間の差分値に基づいて生成され得る。部分画像140aは、2つの撮像画像すなわち撮像画像130及び撮像画像131のうちの、撮像画像131に含まれる部分画像131aに対応する。
 例えば、検出処理にて、制御部123は、撮像画像132の中の物体を2個と検出する。当該検出処理の1つ前の検出処理は、撮像画像131に対する検出処理であるとする。制御部123は、最新の検出処理にて検出した物体の数の2個と、最新の検出処理の1つ前の検出処理で検出された物体の数の1個とを比較することにより、撮像画像132の中の個別に検出された物体の数が変化したと判定する。制御部123は、物体の数が2個に変化した撮像画像132と、物体の数が2個に変化する前の撮像画像131とを用いて、図17に示すような、差分画像141を生成する。差分画像141は、部分画像141aを含む。部分画像141aは、ゼロではない画素が連続する領域である。部分画像141aは、撮像画像132の部分画像132bと、部分画像132bに対応する撮像画像131の部分との間の差分値に基づいて生成され得る。部分画像141aは、2つの撮像画像すなわち撮像画像131及び撮像画像132のうちの、撮像画像132に含まれる部分画像132bに対応する。
 制御部123は、差分画像140,141に対して物体認識を実行することにより、撮像画像130~132の少なくとも何れかに含まれる部分画像に対応する物体を特定する。差分画像に対する物体認識は、差分画像中の部分画像を解析することにより、当該部分画像に対応する物体の識別子すなわち名称を特定することを含んでよい。差分画像に対する物体認識は、差分画像から物体を検出することを含んでよい。制御部123は、公知の物体認識方法を、差分画像に対して実行してよい。公知の物体認識方法の一例として、深層学習等の機械学習、文字認識、及び/又は、特徴量パターンマッチングを利用する方法が挙げられる。制御部123は、差分画像140に対して物体認識を実行することにより、部分画像140aを検出して、部分画像140aに対応する物体の商品名が「バター」であると特定する。制御部123は、差分画像141に対して物体認識を実行することにより、物体に対応する部分画像141aを検出して、部分画像141aに対応する物体の商品名が「おにぎり」であることを特定する。
 制御部123は、会計の要求を指示するユーザ入力を、入力部121によって検出したとき、差分画像の生成を終了する。会計の要求を指示するユーザ入力は、顧客が商品を全て載置台114に載置させた後、顧客によって入力部121から入力され得る。又は、制御部123は、撮像画像中の物体の数が変化したと判定してから所定時間経過しても、撮像画像中から個別に検出される物体の数が変化しない場合、差分画像の生成を終了してよい。所定時間は、顧客が1つの商品を載置台114に載置してから次の商品を載置台114に載置するまでに要すると想定される時間よりも、長い時間であってよい。
 制御部123は、物体を特定する処理を終了すると、特定した商品情報を、ネットワーク113を介してサーバ112に、通信部120によって送信する。当該商品情報には、商品名及び商品の数等が含まれ得る。サーバ112は、当該商品情報を、ネットワーク113を介して情報処理装置118から取得する。サーバ112は、当該商品情報に基づいて、顧客に対して請求すべき請求金額を算出する。サーバ112は、請求金額を示す信号を、ネットワーク113を介して情報処理装置118に送信する。制御部123は、ネットワーク113を介してサーバ112から、請求金額を示す信号を、通信部120によって取得する。制御部123は、請求金額を示す信号を、通信部120によって表示装置117に送信する。
 図18は、本開示の他の実施形態に係る情報処理システム110の物体特定処理を示すフローチャートである。制御部123は、カメラ116からの画像信号の取得を開始すると、物体特定処理を開始してよい。制御部123は、カメラ116から取得した画像信号を、記憶部122に記憶させてよい。また、制御部123は、顧客の会計が終了した後、再び、物体特定処理を開始してよい。
 制御部123は、撮像画像中の物体の数を検出する(ステップS610)。制御部123は、撮像画像中の個別に検出された物体の数が変化したか否か判定する(ステップS611)。
 制御部123は、個別に検出された物体の数が変化したと判定する場合(ステップS611:YES)、ステップS612の処理に進む。一方、制御部123は、個別に検出された物体の数が変化しないと判定する場合(ステップS611:NO)、ステップS610の処理に戻る。
 ステップS612の処理では、制御部123は、物体の数が変化したときの撮像画像と、当該撮像画像の撮像時刻よりも前の撮像時刻の撮像画像とを用いて、差分画像を生成する。ステップS613の処理では、制御部123は、差分画像に対して物体認識を実行することにより、物体を特定する。
 ステップS614の処理では、制御部123は、会計の要求を指示するユーザ入力を、入力部121によって検出したか否か判定する。制御部123は、会計の要求を指示するユーザ入力を、入力部121によって検出したと判定する場合(ステップS614:YES)、ステップS615の処理に進む。一方、制御部123は、会計を指示するユーザ入力を、入力部121によって検出したと判定しない場合(ステップS614:Nо)、ステップS610の処理に戻る。
 ステップS615の処理では、制御部123は、特定した商品情報を、通信部120によってサーバ112に送信する。
 ここで、制御部123は、ステップS611の処理にて個別に検出された物体の数が変化したと判定してから、所定時間経過しても、撮像画像中から個別に検出された物体の数が変化しない場合、ステップS615の処理に進んでよい。
 このように本実施形態に係る情報処理システム110では、情報処理装置118によって、撮像時刻の異なる2つの撮像画像から、差分画像が生成される。2つの撮像画像の何れかが物体に対応する部分画像を複数含む場合でも、これら複数の部分画像は、別個の差分画像に含まれ得る。例えば、図15に示すような撮像画像132は、バターに対応する部分画像132aと、おにぎりに対応する部分画像132bとを含む。部分画像132aに対応する部分画像140aは、差分画像140に含まれる。部分画像132bに対応する部分画像141aは、差分画像141に含まれる。情報処理装置118は、このような差分画像に対して物体認識が実行されることにより、撮像画像に対して物体認識を実行する場合よりも、物体を精度良く特定することができる。
 さらに、本実施形態に係る情報処理システム110では、物体を複数方向からカメラによって撮像しなくても、差分画像に対して物体認識を実行することにより、物体を特定することができる。情報処理システム110では、物体を複数方向からカメラで撮像しなく済むことにより、複数のカメラを載置台114に向けて設置しなくて済む。このような構成により、本実施形態に係る情報処理システム110では、より簡素な構成で、物体を特定することができる。
 よって、本実施形態によれば、改善された、情報処理システム110、情報処理装置118及び情報処理方法が提供され得る。
 また、本実施形態に係る情報処理システム110では、個別に検出された物体の数が変化したときの撮像画像と、当該撮像画像の撮像時刻よりも前の撮像時刻の撮像画像とを用いて、差分画像が生成される。このような構成により、より確実に差分がある撮像画像を用いて、差分画像が生成され得る。
 次に、本開示のさらに他の実施形態に係る情報処理システム110について説明する。本開示のさらに他の実施形態では、制御部123は、差分画像の生成に用いる上述の撮像時刻の異なる2つの撮像画像として、手指に対応する部分画像を含む撮像画像の撮像時刻の前後の撮像時刻の撮像画像を用いる。本開示のさらに他の実施形態において、記憶部22は、手指の画像等を記憶してよい。
 制御部123は、カメラ116から取得する撮像画像に、手指に対応する部分画像が含まれているか否か判定する。制御部123は、撮像画像に物体認識を実行することにより、手指に対応する部分画像が含まれているか否か判定してよい。
 制御部123は、手指に対応する部分画像が撮像画像に含まれていると判定する場合、当該撮像画像の撮像時刻の前後の撮像時刻の撮像画像を取得する。例えば、制御部123は、手指に対応する部分画像を含む撮像画像の撮像時刻よりも第1時間前の撮像時刻の撮像画像と、手指に対応する部分画像を含む撮像画像の撮像時刻よりも第2時間後の撮像時刻の撮像画像とを取得してよい。第1時間及び第2時間は、顧客が個々の商品を載置台114に置く際に要する時間を想定して、適宜設定されてよい。第1時間と第2時間とは、同じであってよいし、異なってよい。本実施形態では、制御部123は、手指に対応する部分画像を含む撮像画像の撮像時刻よりも第1時間前の撮像時刻の撮像画像と、手指に対応する部分画像を含む撮像画像の撮像時刻よりも第2時間後の撮像時刻の撮像画像とを取得する。
 例えば、制御部123は、図19に示すような、撮像画像133を取得する。撮像画像133は、撮像時刻t01に撮像された画像である。撮像時刻t01では、顧客が手でバターを掴んで、載置台114の載置面114aに載置しようとしている。撮像画像133は、部分画像133aと、部分画像133bとを含む。部分画像133a及び部分画像133bは、撮像画像133の一部である。部分画像133aは、手指に対応する。部分画像133bは、バターに対応する。制御部123は、撮像画像133に、手指に対応する部分画像133aが含まれていると判定する。ここで、撮像時刻t01よりも、第1時間前の撮像時刻は、上述の撮像画像130の撮像時刻t0であるものとする。また、撮像時刻t01よりも、第2時間後の撮像時刻は、上述の撮像画像131の撮像時刻t1であるものとする。制御部123は、上述の撮像画像130と上述の撮像画像131とを用いて、上述の差分画像140を生成する。
 例えば、制御部123は、図20に示すような、撮像画像134を取得する。撮像画像134は、撮像時刻t12に撮像された画像である。撮像時刻t12では、顧客がおにぎりを手で掴んで、載置台114の載置面114aに載置しようとしている。撮像画像134は、部分画像134aと、部分画像134bと、部分画像134cとを含む。部分画像134a、部分画像134b及び部分画像134cは、撮像画像134の一部である。部分画像134aは、手指に対応する。部分画像134bは、おにぎりに対応する。部分画像134cは、バターに対応する。制御部123は、撮像画像134に、手指に対応する部分画像134aが含まれていると判定する。ここで、撮像時刻t12よりも、第1時間前の撮像時刻は、上述の撮像画像131の撮像時刻t1であるものとする。また、撮像時刻t12よりも、第2時間後の撮像時刻は、上述の撮像画像132の撮像時刻t2であるものとする。制御部123は、上述の撮像画像131と上述の撮像画像132とを用いて、上述の差分画像141を生成する。
 図21は、本開示のさらに他の実施形態に係る情報処理システム110の物体特定処理を示すフローチャートである。制御部123は、カメラ116から画像信号の取得を開始すると、物体特定処理を開始してよい。制御部123は、カメラ116から取得した画像信号を、記憶部122に記憶させてよい。また、制御部123は、顧客の会計が終了した後、再び、物体特定処理を開始してよい。
 制御部123は、撮像画像に物体認識を実行することにより(ステップS620)、手指に対応する部分画像が含まれているか否か判定する(ステップS621)。制御部123は、手指に対応する部分画像が撮像画像に含まれていると判定する場合(ステップS621:YES)、ステップS622の処理に進む。一方、手指に対応する部分画像が撮像画像に含まれていると判定しない場合(ステップS621:NO)、ステップS620の処理に戻る。
 ステップS622の処理では、制御部123は、手指に対応する部分画像を含む撮像画像の撮像時刻の前後の撮像時刻の撮像画像を用いて、差分画像を生成する。
 制御部123は、図18に示すステップS613,S614,S615の処理と同じく、ステップS623,S624,S625の処理を実行する。
 図22は、本開示のさらに他の実施形態に係る情報処理システム210の全体構成を示す図である。情報処理システム210は、カメラ116と、情報処理装置118と、重量センサ119とを含む。情報処理システム210は、載置台114と、支持柱115と、表示装置117とを含んでよい。
 重量センサ119は、載置台114の載置面114aにかかる重量を検出する。重量センサ119は、検出した重量を、通信線を介して情報処理装置118に、出力する。重量センサ119は、載置面114aにかかる重量を検出可能な位置に、適宜配置されている。
 本実施形態に係る情報処理装置118では、通信部120は、通信線を介して重量センサ119と通信可能な通信モジュールを含んでよい。重量センサ119と通信部120との間の通信線は、有線又は無線を含んで構成されてよい。
 本実施形態に係る情報処理装置118では、制御部123は、差分画像の生成に用いる上述の撮像時刻の異なる2つの撮像画像として、載置台114の載置面114aにかかる重量が変化した時刻の前後の撮像時刻の撮像画像を用いる。例えば、制御部123は、通信線を介して重量センサ119から、通信部120によって載置台114の載置面114aにかかる重量を取得し得る。制御部123は、載置台114の載置面114aにかかる重量が変化したか否か判定する。制御部123は、載置台114の載置面114aにかかる重量が変化したと判定する場合、載置台114の載置面114aにかかる重量が変化した時刻の前後の撮像時刻の撮像画像を取得する。重量が変化した時刻の前の撮像時刻の画像として、制御部123は、載置面114aにかかる重量が変化した時刻よりも第3時間前の撮像時刻の撮像画像を取得してよい。第3時間は、顧客が個々の商品を載置台114に置く際に要する時間を想定して、適宜設定されてよい。重量が変化した時刻の後の撮像時刻の撮像画像として、制御部123は、載置面114aにかかる重量が変化した時刻よりも後に撮像された撮像画像の中で、載置面114aにかかる重量が変化した時刻に最も近い撮像時刻の撮像画像を取得してよい。
 例えば、何も載置されていない載置台114に、顧客がバターを載置した場合、バターの重みによって、載置台114の載置面114aにかかる重量が大きくなる。つまり、載置台114の載置面114aにかかる重量は、変化する。制御部123は、載置台114の載置面114aにかかる重量が変化した時刻の前後の撮像時刻の撮像画像として、上述の撮像画像130及び撮像画像131を取得するものとする。制御部123は、撮像画像130及び撮像画像131を用いて、上述の差分画像140を生成し得る。
 例えば、バターが載置された載置台114に、顧客がおにぎりを載置した場合、おにぎりの重量によって、載置台114の載置面114aにかかる重量が大きくなる。つまり、載置台114の載置面114aにかかる重量は、変化する。制御部123は、載置台114の載置面114aにかかる重量が変化した時刻の前後の撮像時刻の撮像画像として、上述の撮像画像131及び撮像画像132を取得するものとする。制御部123は、撮像画像131及び撮像画像132を用いて、上述の差分画像141を生成し得る。
 制御部123は、載置台114の載置面114aにかかる重量が変化したとき、カメラ116に撮像を指示する信号を、通信部120によって送信してよい。ここで、顧客は、複数の商品を購入する場合、次々に、商品を載置台114の載置面114aに載置し得る。顧客が商品を次々に載置台114の載置面114aに載置することにより、載置面114aにかかる重量は、随時変化し得る。載置面114aにかかる重量が随時変化する場合に、制御部123が載置面114aにかかる重量が変化したときにカメラ116に撮像を指示する信号を送信する場合、制御部123は、撮像を指示する信号を、随時送信し得る。カメラ116は、制御部123からの撮像を指示する信号を所定トリガーとして、静止画を随時撮像してよい。
 図23は、本開示のさらに他の実施形態に係る情報処理システム210の物体特定処理を示すフローチャートである。制御部123は、カメラ116から画像信号の取得を開始すると、物体特定処理を開始してよい。制御部123は、カメラ116から取得した画像信号を、記憶部122に記憶させてよい。また、制御部123は、顧客の会計が終了した後、再び、物体特定処理を開始してよい。
 制御部123は、通信線を介して重量センサ119から、通信部120によって載置台114の載置面114aにかかる重量を取得する(ステップS630)。制御部123は、載置台114の載置面114aにかかる重量が変化したか否か判定する(ステップS631)。
 制御部123は、載置台114の載置面114aにかかる重量が変化したと判定する場合(ステップS631:YES)、ステップS632の処理に進む。一方、制御部123は、載置台114の載置面114aにかかる重量が変化したと判定しない場合(ステップS631:NO)、ステップS630の処理に戻る。
 ステップS632の処理では、制御部123は、載置台114の載置面114aにかかる重量が変化した時刻の前後の撮像時刻の撮像画像を用いて、差分画像を生成する。
 制御部123は、図18に示すステップS613,S614,S615の処理と同じく、ステップS633,S634,S635の処理を実行する。
 図24は、本開示のさらに他の実施形態に係る差分画像142の一例を示す図である。差分画像142は、2つの物体にそれぞれ対応する部分画像を含む。例えば、差分画像142は、部分画像142aと、部分画像142bとを含む。部分画像142a及び部分画像142bは、差分画像142の一部である。部分画像142aは、チョコレートに対応する。部分画像142bは、おにぎりに対応する。
 顧客によって複数の商品が、一度に、載置台114の載置面114aに載置される場合がある。顧客によって複数の商品が一度に載置面114aに載置される場合、差分画像142のような、複数の物体にそれぞれ対応する部分画像を含む差分画像が生成され得る。
 本実施形態に係る情報処理装置118では、制御部123は、差分画像から個別に複数の物体が検出された場合、各物体に対応する部分画像毎に物体認識を実行する。例えば、制御部123は、差分画像中の物体の数を検出してよい。制御部123は、上述の公知の物体検出方法によって差分画像中の物体を検出することにより、物体の数を検出してよい。制御部123は、差分画像から個別に複数の物体が検出されたか否か判定する。制御部123は、差分画像から個別に複数の物体が検出されたと判定する場合、各物体に対応する部分画像毎に、物体認識を実行する。
 例えば、制御部123は、差分画像142から、別個の2つの物体を検出する。制御部123は、差分画像142から別個に複数の物体が検出されたと判定する。制御部123は、各物体に対応する部分画像142a及び部分画像142b毎に、物体認識を実行する。制御部123は、部分画像142aに物体認識を実行することにより、部分画像142aに対応する物体がチョコレートであると特定する。制御部123は、部分画像142bに物体認識を実行することにより、部分画像142bに対応する物体がおにぎりであると特定する。
 図25は、本開示のさらに他の実施形態に係る情報処理システム110の差分画像に対する物体認識を示すフローチャートである。差分画像に対する物体認識は、図18に示すステップS613の処理、図21に示すステップS623の処理及び図23に示すステップS633の処理に代えて、実行されてよい。この場合、制御部123は、図18に示すステップS612の処理を実行した後、図21に示すステップS622の処理を実行した後、又は、図23に示すステップS632の処理を実行した後、差分画像に対する物体認識を開始してよい。
 制御部123は、差分画像中の物体の数を検出する(ステップS640)。制御部123は、差分画像から個別に複数の物体が検出されたか否か判定する(ステップS641)。
 制御部123は、差分画像から別個に複数の物体が検出されたと判定しない場合(ステップS641:Nо)、ステップS642の処理に進む。例えば、制御部123は、差分画像から1個の物体が検出されたと判定する場合、ステップS642の処理に進む。ステップS642の処理では、制御部123は、差分画像に対して物体認識を実行する。ステップS642の処理の実行後、制御部123は、図18に示すステップS614の処理、図21に示すステップS624の処理又は図23に示すステップS634の処理に、進む。
 制御部123は、差分画像から個別に複数の物体が検出されたと判定する場合(ステップS641:YES)、ステップS643の処理に進む。制御部123は、ステップS643の処理に進む際、差分画像から検出された物体の数を、記憶部122に記憶させておいてよい。
 ステップS643の処理では、制御部123は、差分画像に含まれる1個の物体に対応する部分画像に、物体認識を実行する。ステップS644の処理では、制御部123は、差分画像に含まれる、物体に対応する部分画像の全てに対して、ステップS643の処理を実行したか否か判定する。
 制御部123は、物体に対応する部分画像の全てに対してステップS643の処理を実行したと判定する場合(ステップS644:YES)、図18に示すステップS614の処理、図21に示すステップS624の処理又は図23に示すステップS634の処理に、進む。
 制御部123は、物体に対応する部分画像の全てに対してステップS643の処理を実行したと判定しない場合(ステップS644:NO)、ステップS643の処理を再び実行する。再び実行するステップS643の処理では、制御部123は、差分画像から検出された物体に対応する部分画像の中で、物体認識を実行していない部分画像に対して、物体認識を実行する。
 このように本実施形態によれば、差分画像から個別に複数の物体が検出された場合、各物体に対応する部分画像毎に物体認識を実行する。このような処理によって、物体がより精度良く特定され得る。
 図26は、本開示のさらに他の実施形態に係る情報処理システム310の全体構成を示す図である。情報処理システム310は、買い物かご314と、カメラ116と、表示装置117と、情報処理装置118とを含む。
 買い物かご314は、店舗に来店した顧客によって、使用され得る。顧客は、購入したい商品を、買い物かご314の中に入れ得る。
 カメラ116は、買い物かご314の中を撮像する。カメラ116は、買い物かご314の中を撮像可能に、配置されていてよい。カメラ116は、買い物かご314の上部の縁部に、配置されていてよい。カメラ116は、買い物かご314の中を撮像可能に、例えば買い物かご314の上部の縁部に、固定されていてよい。
 カメラ116は、情報処理装置118と無線通信可能な、通信モジュールを含んでよい。カメラ116は、画像信号を、当該無線モジュールによって情報処理装置118に送信してよい。
 情報処理装置118は、上述したように、撮像時刻の異なる2つの撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる画像に対応する物体を特定することができる。
 図27に示すように、精算システム411は、少なくとも1つの情報処理システム410と、サーバ412とを含む。サーバ412は、物理サーバであってよいし、クラウドサーバであってよい。情報処理システム410とサーバ412とは、ネットワーク413を介して通信可能である。ネットワーク413は、無線、有線、又は、無線及び有線の組み合わせであってよい。
 情報処理システム410は、コンビニエンスストア及びスーパーマーケット等の任意の店舗に、配置されてよい。情報処理システム410は、店舗のキャッシュレジスター端末として構成されてよい。情報処理システム410は、顧客が後述の載置台414に載置した商品を撮像することにより、撮像画像を生成する。情報処理システム410は、生成した撮像画像中の物体が、店舗の何れの商品であるかを特定する。本開示において「撮像画像中の物体」は、撮像画像中の、画像として描画される物体の像を意味する。情報処理システム410は、特定した商品情報を、ネットワーク413を介してサーバ412に送信する。当該商品情報には、商品名及び商品の数等が含まれ得る。サーバ412は、商品情報に基づいて、顧客に対する請求金額を算出する。サーバ412は、請求金額を、ネットワーク413を介して情報処理システム410に送信する。情報処理システム410は、顧客に請求金額を提示することにより、顧客に請求金額の支払いを要求する。
 図28に示すように、情報処理システム410は、カメラ416(撮像部)と、情報処理装置418とを含む。情報処理システム410は、載置台414と、支持柱415と、表示装置417とを含んでよい。
 載置台414は、載置面414aを含む。顧客は、会計時に、購入したい商品を載置面414aに載置する。本実施形態では、載置面414aは、略長方形状である。ただし、載置面414aは、任意の形状であってよい。
 支持柱415は、載置台414の側部から、載置面414aの法線方向の一方に向けて延びる。当該法線方向の一方は、載置面414aの法線方向のうち、載置面414aから離れる方向であってよい。支持柱415の先端には、カメラ416が位置する。
 カメラ416は、撮像により撮像画像に相当する画像信号を生成する。カメラ416は、載置台414の載置面414aの少なくとも一部を撮像可能に、配置されていてよい。カメラ416は、載置面414aに光軸が垂直になるように、配置されていてよい。カメラ416は、支持柱415の先端に、配置されてよい。カメラ416は、載置台414の載置面414aを撮像可能に、例えば支持柱415の先端に、固定されていてよい。
 カメラ416は、情報処理装置418から、撮像開始を指示する信号を取得し得る。カメラ416は、撮像開始を指示する信号を取得すると、撮像を開始し得る。カメラ416は、撮像により生成した画像信号を、通信線を介して情報処理装置418に、出力する。カメラ416は、任意のフレームレートで撮像を実行してよい。カメラ416は、任意のフレームレートで連続的に撮像を実行してよいし、所定トリガーに基づいて静止画を随時撮像してよい。当該所定トリガーは、情報処理装置418からの撮像を指示する信号であってよい。
 表示装置417は、液晶ディスプレイ等の任意のディスプレイを含んで構成されてよい。表示装置417は、情報処理装置418から取得した信号に基づいて、画像を表示する。例えば、表示装置417は、情報処理装置418から、商品の請求金額を示す信号を取得し得る。表示装置417は、当該商品の請求金額を示す信号に基づいて、請求金額を示す画像を表示し得る。
 表示装置417は、タッチスクリーン機能を有してよい。表示装置417は、載置台414の近辺の近くに配置されてよい。表示装置417は、顧客が商品を載置台414に置く際に、顧客の方を向くように、配置されていてよい。
 情報処理装置418は、載置台414の近辺に配置されてよい。図29に示すように、情報処理装置418は、制御部423を含む。情報処理装置418は、通信部420と、入力部421と、記憶部422とを含んでよい。
 通信部420は、任意の通信モジュールを含む。当該任意の通信モジュールは、通信線を介してカメラ416と通信可能な通信モジュール、通信線を介して表示装置417と通信可能なモジュール、及び、ネットワーク413を介してサーバ412と通信可能な通信モジュールを含んでよい。カメラ416と通信部420との間の通信線、及び、表示装置417と通信部420との間の通信線は、有線又は無線を含んで構成されていてよい。
 入力部421は、ユーザ入力を検出可能な1つ以上のインタフェースを含む。例えば、入力部421は、物理キー、静電容量キー及びタッチスクリーンの少なくとも何れかを含んで構成されてよい。本実施形態においては、入力部421は、タッチスクリーンである。タッチスクリーンである入力部421は、表示装置417と一体として設けられている。
 記憶部422は、RAM及びROM等の任意の記憶デバイスを含む。記憶部422は、制御部423を機能させる多様なプログラム及び制御部423が用いる多様な情報を記憶する。記憶部422は、店舗の商品データを記憶してよい。
 商品データは、文字データを含んでよい。文字データは、商品のパッケージ等に付された文字列を含んでよい。商品のパッケージ等に付された文字列は、商品を識別する識別子に対応付けられてよい。識別子の一例として、商品名、商品コード、バーコード及び任意のID(Identification)等が挙げられる。以下、説明の便宜上、商品を識別する識別子は、商品名であるものとする。文字データは、後述の第1処理にて用いられ得る。商品データは、文字データ以外にも、後述の第1処理にて用いられる任意のデータを含んでよい。例えば、後述の第1処理にて後述のコード認識が用いられる場合、バーコード等の一次元コード、QRコード(登録商標)等の二次元コード、及び、識別マーカ等のマーカの画像を含んでよい。これらの画像は、識別子に対応付けられてよい。
 商品データは、機械学習モデルを含んでよい。機械学習モデルは、後述のように、機械学習と学習データによって生成され得る。機械学習モデルは、後述の第2処理で用いられ得る。機械学習モデルは、学習済みであってよい。
 商品データは、商品画像データを含んでよい。商品画像データは、商品を識別する識別子に対応付けた、商品画像を含んでよい。以下、説明の便宜上、商品を識別する識別子は、商品名であるものとする。商品画像データは、後述の第2処理及び第3処理にて用いられ得る。同じ商品画像データが、後述の第2処理及び第3処理において用いてよい。又は、異なる商品画像データが、後述の第2処理及び第3処理において用いてよい。異なる商品画像データが後述の第2処理及び第3処理にて用いられる場合、記憶部422は、第2処理で用いられる商品画像データと、第3処理で用いられる商品画像データとを記憶してよい。また、後述の第2処理にて後述の特徴量マッチング以外の物体認識が用いられる場合、商品データは、識別子と対応付けられた、当該物体認識に応じたデータを含んでよい。
 制御部423は、1つ以上のプロセッサ及びメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び、特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD)を含んでよい。PLDは、FPGAを含んでよい。制御部423は、1つ又は複数のプロセッサが協働するSoC及びSiPの何れかであってよい。
 制御部423は、ネットワーク413を介してサーバ412から、上述の商品データを、通信部420によって取得してよい。制御部423は、取得した商品データを、記憶部422に記憶させてよい。
 制御部423は、カメラ416に、撮像開始を指示する信号を、通信部420によって送信し得る。制御部423は、情報処理装置418が起動したときに、撮像開始を指示する信号を送信してよい。制御部423は、撮像開始を指示するユーザ入力を、入力部421によって検出したとき、撮像開始を指示する信号を送信してよい。当該ユーザ入力は、店員によって、店舗の開店時等に、入力部421から入力され得る。
 制御部423は、カメラ416から、画像信号を、通信部420によって取得する。制御部423は、画像信号を取得することにより、画像信号に相当する撮像画像を取得し得る。制御部423は、取得した撮像画像を記憶部422に記憶させてよい。例えば、制御部423は、図30に示すような撮像画像430を取得し得る。
 撮像画像430は、部分画像430aと、部分画像430bと、部分画像430cとを含む。部分画像430a、部分画像430b及び部分画像430cは、撮像画像430の一部である。部分画像430aは、梅のおにぎりに対応する。部分画像430bは、バターに対応する。部分画像430cは、チョコレートに対応する。梅のおにぎり、バター及びチョコレートは、店舗の商品である。梅のおにぎりのパッケージ及びバターのパッケージには、文字列が付されている。チョコレートのパッケージには、縞模様が施されている。梅のおにぎり、バター及びチョコレートは、顧客によって載置台414の載置面414aに載置されている。載置台414においてバターの上におにぎりが重ねられていることにより、部分画像430bの一部は、欠けている。ここで、本開示において「部分画像の一部が欠ける」とは、実際の部分画像と、カメラ416側から観た際の当該物体全体の外観とを比較した場合に、その実際の部分画像の一部が欠けていることを意味する。載置台414においてチョコレートの上にバターが重ねられていることにより、部分画像430cの一部は、欠けている。
 制御部423は、撮像画像に、複数の画像処理のうちの少なくとも何れかを実行する。画像処理は、物体認識処理であってよい。物体認識処理は、撮像画像に含まれる物体に対応する部分画像を検出して、当該物体が何れの商品であるかを特定する処理であってよい。制御部423は、実行した当該画像処理の処理結果に信頼度を付与してよい。信頼度は、処理結果の信頼性を示す指標である。以下、物体が何れの商品であるかを特定することは、物体の商品名を特定することであるものとする。複数の画像処理は、第1処理、第2処理及び第3処理を含む。ただし、複数の画像処理は、第1処理、第2処理及び第3処理に限定されない。
 第1処理は、記号認識を用いた物体認識処理である。記号認識は、限定ではないが、文字認識及びコード認識を含んでよい。コード認識は、限定ではないが、バーコード等の一次元コードを認識する処理、QRコード(登録商標)等の二次元コードを認識する処理、及び、商品を識別する識別マーカ等のマーカを認識する処理を含んでよい。第1処理は、文字認識、一次元コードを認識する処理、二次元コードを認識する処理、マーカを認識する処理、又は、これらの少なくとも一部の組み合わせを用いた、物体認識処理であってよい。
 本実施形態では、第1処理は、記号認識として文字認識を用いた、物体認識処理であるものとする。つまり、本実施形態では、第1処理は、文字認識によって、撮像画像中の物体の商品名を特定する処理となる。一例として、第1処理では、制御部423は、撮像画像から文字画像を抽出する。制御部423は、抽出した文字画像から文字列を抽出する。制御部423は、抽出した文字列を解析することにより、物体の商品名を特定する。当該解析として、制御部423は、抽出した文字列と、記憶部422の文字データに含まれる文字列とをマッチングしていくことにより、文字列を抽出した部分画像に対応する物体の商品名を特定してよい。例えば、制御部423は、撮像画像430の部分画像430aから「おにぎり 梅」との文字列を抽出する。制御部423は、抽出した「おにぎり 梅」との文字列と、記憶部422の文字データをマッチングしていくことにより、部分画像430aに対応する物体の商品名が、商品名「梅のおにぎり」であると特定する。
 第1処理では、制御部423は、信頼度を、第1処理の処理結果に付与してよい。制御部423は、抽出した文字列と、記憶部422の文字データに含まれる文字列とをマッチングさせる際の、マッチング率に基づいて、信頼度を算出してよい。
 第1処理の処理速度は、比較的、高速となり得る。例えば第1処理にて文字認識が用いられる場合、第1処理の処理速度は、後述の特徴量マッチングが用いられる第3処理の処理速度よりも、高速となり得る。
 第1処理を実行するための事前のデータ準備は、後述の第2処理及び第3処理を実行するための事前のデータ準備よりも、比較的容易である。例えば第1処理にて文字認識が用いられる場合、第1処理で用いられる文字データは、後述の第2処理及び第3処理で用いられる商品画像データよりも、比較的容易に準備され得る。
 第1処理では、撮像画像から文字列が抽出可能であれば、制御部423は、当該文字列によって、物体を特定することができる。第1処理では、載置台414上における物体の状況に応じては、後述の第2処理及び第3処理よりも、当該物体を、精度良く特定することができる。
 例えば、店舗で扱われる商品の中には、異なる商品であっても、外観が類似する商品がある。一例として、商品「梅のおにぎり」と商品「昆布のおにぎり」とは、異なる商品である。しかしながら、商品「梅のおにぎり」の外観と商品「昆布のおにぎり」の外観とは、これらの商品が同じ三角形状を有する場合、類似し得る。外観が類似する商品を、異なる商品として、撮像画像から、後述の第2処理及び第3処理によって特定することは困難となる場合がある。外観が類似する商品であっても、当該商品に文字列が付されていれば、第1処理によって、異なる商品として、撮像画像から特定することができる。例えば、第1処理では、制御部423は、部分画像430aから「おにぎり 梅」の文字列を抽出することにより、部分画像430aに対応する物体の商品名を「梅のおにぎり」と特定することができる。
 例えば、店舗で扱われる商品の中には、変形し得る商品がある。一例として、パッケージが袋である商品は、外部から力が加えられて袋が変形することにより、変形し得る。商品が変形すると、撮像画像内の当該商品に対応する画像の形状も変わり得る。物体に対応する部分画像の形状が変わると、後述の第2処理において、変形した部分画像に対応可能な後述の機械学習モデルを準備できない場合がある。この場合、後述の第2処理によって当該物体を特定することは困難となる場合がある。これに対して、部分画像の形状が変わっても、当該部分画像から文字列が抽出可能であれば、第1処理によって当該物体を特定することができる。
 例えば、複数の商品が載置台414上において重ねられている場合がある。複数の商品が重ねられていることにより、撮像画像中で、商品に対応する部分画像の一部が欠ける場合がある。物体に対応する部分画像の一部が欠けていると、後述の第3処理において、後述の予め決定されている特徴量を十分に抽出できない場合がある。この場合、後述の第3処理によって当該物体を特定することは困難となる場合がある。物体に対応する部分画像の一部が欠けても、当該部分画像から文字列が抽出可能であれば、第1処理によって当該物体を特定することができる。例えば、部分画像430bの一部は、欠けている。部分画像430bからは、「バター」の文字列が抽出可能である。第1処理において、制御部423は、部分画像430bから「バター」の文字列を抽出することにより、部分画像430bに対応する物体の商品名が、商品名「バター」であると特定することができる。
 第2処理は、機械学習を用いた物体認識処理である。本実施形態では、第2処理は、機械学習に基づいて、撮像画像中の物体の商品名を特定する処理となる。制御部423は、機械学習モデルに基づいて、物体認識に用いる特徴量を決定する。特徴量は、商品画像に含まれる画素の輝度及び色、商品画像の形状、商品画像を構成する画素の数の少なくとも何れかを含んでよい。本実施形態では、物体認識は、限定ではないが、特徴量マッチングであるものとする。特徴量マッチングは、撮像画像から抽出された特徴量と、記憶部422の商品画像データの商品画像の特徴量とをマッチングさせていくことにより、物体の商品名を特定することである。つまり、第2処理では、制御部423は、機械学習モデルによって、部分画像から抽出する特徴量を決定する。制御部423は、決定した特徴量を部分画像から抽出し、抽出した特徴量と、記憶部422の商品画像データの商品画像の特徴量とをマッチングさせていくことにより、物体の商品名を特定する。
 第2処理において、機械学習モデルは、機械学習と学習データとに基づいて生成されてよい。第2処理では、学習済みの機械学習モデルが用いられてよい。機械学習モデルの生成に用いられる機械学習は、サポートベクターマシン(SVM:Support Vector Machine)、ベイス推定及び深層学習等の少なくとも何れかであってよい。機械学習モデルは、サポートベクターマシン、ベイス推定及び深層学習等を適宜組み合わせて、生成されてよい。
 第2処理では、制御部423は、信頼度を、第2処理の処理結果に付与してよい。制御部423は、特徴量マッチングにおける、部分画像の特徴量と、記憶部422の商品画像の特徴量とのマッチング率に基づいて、信頼度を算出してよい。
 第2処理では、特徴量マッチング等の物体認識に用いられる特徴量が機械学習モデルによって決定され得る。これに対し、後述のように、第3処理では、特徴量マッチングに用いられる特徴量は、予め決められている。第2処理の処理速度は、特徴量が機械学習モデルによって決定されることにより、後述の第3処理の処理速度よりも、高速となり得る。
 第2処理では、載置台414上における物体の状況に応じては、第1処理及び後述の第3処理よりも、当該物体を、精度良く特定することができる。
 例えば、店舗で扱われる商品の中には、パッケージ等に文字列が付されていない商品がある。文字列が付されていない物体を、撮像画像から、上述の第1処理によって特定することは困難となる場合がある。パッケージ等に文字列が付されていない物体であっても、第2処理によって、撮像画像から特定することができる。例えば、図30に示すように、商品であるチョコレートのパッケージには文字列が付されていないため、部分画像430cからは、文字列が抽出できない。第3処理によって、部分画像430cの商品名をチョコレートと特定することができる。
 例えば、店舗で扱われる商品の中には、同じ商品として扱われるものであっても、個体毎に異なる外観を有する商品がある。当該商品の一例として、野菜及び果物等が挙げられる。個体毎に異なる外観を有する商品では、商品に対応する部分画像毎に、特徴量マッチング等の物体認識に用いるべき特徴量が、変わる場合がある。この場合、当該商品を、後述の第3処理によって、撮像画像から特定することも困難となる場合がある。その理由は、後述のように、第3処理では、特徴量マッチングで用いられる特徴量が予め決定されているためである。これに対し、第2処理では、部分画像毎に、特徴量マッチング等の物体認識に用いる特徴量が機械学習モデルによって決定され得る。このような構成により、個体毎に異なる外観を有する商品であっても、第2処理によって、同じ商品として、撮像画像から、特定することができる。
 例えば、上述のように、複数の商品が重ねられていることにより、撮像画像中で、商品に対応する画像の一部が欠ける場合がある。物体に対応する部分画像の一部が欠けていると、後述の第3処理において、特徴量マッチングに用いられる特徴量を十分に抽出できない場合がある。この場合、後述の第3処理によって、当該物体を特定することは困難となる場合がある。これに対し、第2処理では、部分画像毎に、特徴量マッチング等の物体認識に用いられる特徴量が機械学習モデルによって決定され得る。また、物体に文字列が付されている場合でも、物体に対応する部分画像の一部が欠けていることにより、第1処理において、当該画像から文字列が抽出できない場合がある。この場合、第1処理によって、当該物体を特定することは困難である。第2処理では、第1処理とは異なり、物体に対応する画像の一部が欠けることにより文字列が抽出できなくても、当該画像から物体を特定することができる。
 第3処理は、特徴量マッチングを用いた物体認識処理である。本実施形態では、第3処理は、特徴量マッチングにより、撮像画像中の物体の商品名を特定する処理となる。第3処理では、上述の第2処理とは異なり、特徴量マッチングで用いられる特徴量が予め決定されている。特徴量マッチングで用いられる特徴量は、上述した特徴量の中から、適宜決定されてよい。つまり、第3処理では、制御部423は、部分画像から、予め決定されている特徴量を抽出する。制御部423は、抽出した特徴量と、記憶部422の商品画像データの商品画像の特徴量とをマッチングさせていくことにより、物体の商品名を特定する。
 第3処理では、制御部423は、信頼度を、第3処理の処理結果に付与してよい。また、制御部423は、特徴量マッチングにおける、部分画像の特徴量と、記憶部422の商品画像の特徴量とのマッチング率に基づいて、信頼度を算出してよい。
 第3処理を実行するための事前のデータ準備は、上述の第2処理を実行するための事前のデータ準備よりも、比較的、容易である。例えば、第3処理では、特徴量マッチングに用いられる特徴量が予め決定されている。第3処理では、特徴量が予め決定されていることにより、上述の第2処理のように特徴量を決定するための機械学習モデルを準備しなくてよい。
 第3処理では、載置台414上における物体の状況に応じては、第1処理及び第2処理よりも、当該物体を、精度良く特定することができる。
 例えば、上述のように、店舗で扱われる商品の中には、パッケージ等に文字列が付されていない商品がある。文字列が付されていない物体を、撮像画像から、上述の第1処理によって特定することは困難となる場合がある。パッケージ等に文字列が付されていない物体であっても、第3処理によって、撮像画像から特定することができる。
 例えば、上述のように、店舗で扱われる商品の中には、変形し得る商品がある。上述のように、商品が変形すると、撮像画像内の物体に対応する部分画像の形状も変わり得る。物体に文字列が付されている場合でも、当該物体に対応する部分画像の変形の度合いに応じては、第1処理において、当該部分画像から文字列が抽出できない場合がある。この場合、第1処理によって、当該物体を特定することは困難である。第3処理では、第1処理とは異なり、画像が変形することにより文字列が抽出できなくても、当該部分画像から物体を特定することができる。また、第2処理において、変形した部分画像に対応可能な機械学習モデルを準備できない場合がある。この場合、第2処理によって、変形した部分画像から、物体を特定することは困難である。第3処理では、機械学習モデルを用いないことにより、変形した部分画像から、物体を特定することができる。
 本開示において、制御部423は、部分画像に対応する物体の状況、又は、処理結果に付与した信頼度の何れかに基づいて、部分画像に対応する物体を特定する。本実施形態では、制御部423は、処理結果に付与した信頼度に基づいて、部分画像に対応する物体を特定する。
 具体的には、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行する。制御部423は、実行した第1処理、第2処理及び第3処理の処理結果に、信頼度を付与する。ただし、制御部423は、複数の画像処理のうちの少なくとも2つを実行すればよい。例えば、制御部423は、複数の画像処理のうちの少なくとも2つとして、第1処理に含まれる文字認識及びコード認識を実行してよいし、第1処理及び第2処理を実行してよい。また、制御部423は、第1処理、第2処理及び第3処理を、並行して実行してよいし、所定順序で順次実行してよい。また、制御部423は、第1処理等の実行前に、公知の物体検出方法によって、撮像画像から、物体の数を検出してよい。この場合、制御部423は、撮像画像から複数の物体を検出した場合、物体に対応する部分画像毎に、第1処理、第2処理及び第3処理を実行して、第1処理、第2処理及び第3処理の処理結果に信頼度を付与してよい。例えば、制御部423は、撮像画像430から3つの物体を検出し得る。制御部423は、各物体に対応する部分画像430a,430b,430c毎に、第1処理、第2処理及び第3処理を実行し、その処理結果に、信頼度を付与してよい。例えば、制御部423は、図31に示すような、処理結果を取得する。
 図31に示すように、制御部423は、部分画像430aに対する第1処理の処理結果として、物体の商品名が「梅のおにぎり」であると特定する。制御部423は、当該第1処理の処理結果に付与する信頼度を95%と算出する。また、制御部423は、部分画像430aに対する第2処理の処理結果として、物体の商品名が「梅のおにぎり」であると特定する。制御部423は、当該第2処理の処理結果に付与する信頼度を65%と算出する。また、制御部423は、部分画像430aに対する第3処理の処理結果として、物体の商品名が「昆布のおにぎり」であると特定する。制御部423は、当該第3処理の処理結果に付与する信頼度を64%と算出する。
 図31に示すように、制御部423は、部分画像430bに対する第1処理の処理結果として、物体の商品名が「バター」であると特定する。制御部423は、当該第1処理の処理結果に付与する信頼度を94%と算出する。また、制御部423は、部分画像430bに対する第2処理の処理結果として、物体の商品名が「バター」であると特定する。制御部423は、当該第2処理の処理結果に付与する信頼度を90%と算出する。また、制御部423は、部分画像430bに対する第3処理の処理結果として、物体の商品名が「チーズ」であると特定する。制御部423は、当該第3処理の処理結果に付与する信頼度を75%と算出する。
 図31に示すように、制御部423は、部分画像430cから文字列が抽出できないことにより、第1処理の処理結果を、特定不可とする。また、制御部423は、部分画像430cに対する第2処理の処理結果として、物体の商品名が「チョコレート」であると特定する。制御部423は、当該第2処理の処理結果に付与する信頼度を80%と算出する。また、制御部423は、部分画像430cに対する第3処理の認識結果として、物体の商品名が「チョコレート」であると認識する。制御部423は、当該第3処理の認識結果に付与する信頼度を70%と算出する。
 本実施形態では、制御部423は、付与した信頼度が最も高い処理結果に基づいて、部分画像に対応する物体を特定する。制御部423は、上述のように、複数の物体にそれぞれ対応する部分画像毎に、第1処理、第2処理及び第3処理を実行した場合、部分画像毎に、対応する物体を特定してよい。
 例えば、部分画像430aについて、制御部423は、信頼度が95%と最も高い第1処理の処理結果を取得する。制御部423は、第1処理の処理結果に基づいて、部分画像430aに対応する物体の商品名が「梅のおにぎり」であると特定する。
 例えば、部分画像430bについて、制御部423は、信頼度が94%と最も高い第1処理の処理結果を取得する。制御部423は、第1処理の処理結果に基づいて、部分画像430bに対応する物体の商品名が「バター」であると特定する。
 例えば、部分画像430cについて、制御部423は、信頼度が80%と最も高い第2処理の処理結果を取得する。制御部423は、第2処理の処理結果に基づいて、部分画像430cに対応する物体の商品名が「チョコレート」であると特定する。
 制御部423は、特定した商品情報を、ネットワーク413を介してサーバ412に、通信部420によって送信する。当該商品情報には、商品名及び商品の数等が含まれ得る。サーバ412は、当該商品情報を、ネットワーク413を介して情報処理装置418から取得する。サーバ412は、当該商品情報に基づいて、顧客に対して請求すべき請求金額を算出する。サーバ412は、請求金額を示す信号を、ネットワーク413を介して情報処理装置418に送信する。制御部423は、ネットワーク413を介してサーバ412から、請求金額を示す信号を、通信部420によって取得する。制御部423は、請求金額を示す信号を、通信部420によって表示装置417に送信する。
 図32は、本開示のさらに他の実施形態に係る情報処理システム410の物体特定処理を示すフローチャートである。制御部423は、カメラ416から1フレームの撮像画像に相当する画像信号を取得するたびに、物体特定処理を実行してよい。制御部423は、取得した撮像画像を記憶部422に記憶させてよい。
 制御部423は、撮像画像から、物体の数を検出する(ステップS710)。ステップS710の処理では、制御部423は、検出した物体の数を、記憶部422に記憶させる。
 制御部423は、後述のステップS714の処理を実行していない部分画像を選択する(ステップS711)。制御部423は、ステップS711の処理で選択した部分画像に、第1処理、第2処理及び第3処理を並行して実行する(ステップS712)。ステップS712の処理では、制御部423は、第1処理、第2処理及び第3処理の処理結果に信頼度を付与する。
 制御部423は、第1処理、第2処理及び第3処理の処理結果の中から、信頼度が最も高い処理結果を取得する(ステップS713)。制御部423は、ステップS713の処理で取得した処理結果に基づいて、物体を特定する(ステップS714)。
 制御部423は、撮像画像に含まれる物体に対応する部分画像の全てに対して、ステップS714の処理を実行したか否か判定する(ステップS715)。制御部423は、当該部分画像の全てに対してステップS714の処理を実行したと判定しない場合(ステップS715:NО)、ステップS711の処理に戻る。一方、制御部423は、当該部分画像の全てに対してステップS714の処理を実行したと判定する場合(ステップS715:YES)、ステップS716の処理に進む。
 ステップS716の処理では、制御部423は、商品情報を、ネットワーク413を介してサーバ412に、通信部420によって送信する。
 ここで、店舗形態に応じては、顧客が購入する商品の数が1つ又は2つとなる場合がある。この場合、ステップS710,S711,S715の処理は、実行されなくてよい。ステップS710,S711,S715の処理が実行されない場合、ステップS712の処理において、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行してよい。
 また、ステップS712の処理において、制御部423は、第1処理、第2処理及び第3処理を並行して実行しなくてよい。例えば、制御部423は、第1処理、第2処理及び第3処理を、所定順序で順次実行してよい。
 このように本実施形態に係る情報処理装置418では、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行する。制御部423は、第1処理、第2処理及び第3処理の処理結果の中で、付与した信頼度が最も高い処理結果に基づいて、撮像画像から物体を特定する。信頼度が最も高い処理結果に基づいて物体を特定することにより、載置台414に載置された物体を複数方向から撮像した画像を用いなくても、物体を精度良く特定することができる。載置台414に載置された物体を複数方向から撮像しなくてよいことにより、情報処理システム410は、簡潔に構成され得る。よって、本実施形態によれば、改善された、情報処理システム410、情報処理装置418及び情報処理方法が提供され得る。
 本開示のさらに他の実施形態に係る情報処理装置418の処理について説明する。上述した実施形態と同じく、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行する。上述した実施形態と同じく、制御部423は、第1処理、第2処理及び第3処理を、並行して実行してよいし、所定順序で順次実行してよい。制御部423は、第1処理、第2処理及び第3処理の処理結果に信頼度を付与する。上述した実施形態と同じく、制御部423は、第1処理、第2処理及び第3処理の処理結果に付与した信頼度の中から、最も高い信頼度を取得する。
 本開示のさらに他の実施形態では、制御部423は、最も高い信頼度が閾値を超える場合、最も高い信頼度が付与された処理結果に基づいて、物体を特定する。閾値は、過去の処理結果の正解率等に基づいて、適宜設定されてよい。一方、制御部423は、最も高い信頼度が閾値以下である場合、当該信頼度が付与された処理結果に基づいて物体の候補を特定する。
 例えば、制御部423は、図31を参照した上述した結果を得るものとする。閾値は、90%であるものとする。
 部分画像430aについて、最も高い信頼度は、第1処理の処理結果に付与された信頼度の95%である。部分画像430aについて、制御部423は、最も高い信頼度95%が閾値90%を超えると判定する。制御部423は、第1処理の処理結果に基づいて、部分画像430aに対応する物体の商品名が「梅のおにぎり」であると特定する。
 部分画像430bについて、最も高い信頼度は、第1処理の処理結果に付与された信頼度の94%である。部分画像430bについて、制御部423は、最も高い信頼度94%が閾値90%を超えると判定する。制御部423は、第1処理の処理結果に基づいて、部分画像430bに対応する物体の商品名が「バター」であると特定する。
 部分画像430cについて、最も高い信頼度は、第2処理の認識結果に付与された信頼度の80%である。部分画像430cについて、制御部423は、最も高い信頼度80%が閾値90%以下であると判定する。制御部423は、第2処理の認識結果に基づいて、部分画像430cに対応する物体の候補が「チョコレート」であると特定する。
 制御部423は、物体の候補を特定する場合、制御信号を表示装置417に通信部420によって適宜送信することにより、物体の候補を表示装置417に表示させてよい。制御部423は、物体の候補を、表示装置417に表示させることにより、顧客に提示してよい。制御部423は、物体の候補とともに所定メッセージを、表示装置417に表示させることにより、顧客に提示してよい。所定メッセージは、顧客に対して、物体の候補が実際の物体と合っているか否かを問うメッセージであってよい。上述の部分画像430cの例では、所定メッセージは、「商品はチョコレートであってますか?」であってよい。
 制御部423は、入力部421によって検出したユーザ入力に応じて、物体の候補を確定又は修正してよい。制御部423は、入力部421によって検出したユーザ入力が所定メッセージを肯定する入力である場合、物体の候補を、部分画像に対する物体として特定してよい。上述の部分画像430cの例では、ユーザ入力が「商品はチョコレートであってますか?」というメッセージを肯定する入力である場合、制御部423は、チョコレートとの物体の候補を、部分画像430cに対応する物体として確定してよい。また、制御部423は、ユーザ入力が所定メッセージを否定する入力である場合、物体の候補を修正してよい。この場合、制御部423は、制御信号を表示装置417に通信部420によって適宜送信することにより、顧客に対して正しい商品名の入力を促すメッセージを、表示装置417に表示させてよい。制御部423は、入力部421によって商品名を示すユーザ入力を検出すると、部分画像に対する物体の商品名を、ユーザ入力が示す商品名に修正してよい。
 ここで、上述した実施形態と類似して、制御部423は、第1処理等の実行前に、公知の物体検出方法によって、撮像画像から、物体の数を検出してよい。この場合、制御部423は、撮像画像から複数の物体を検出した場合、物体に対応する部分画像毎に、第1処理、第2処理及び第3処理を実行して、第1処理、第2処理及び第3処理の処理結果に信頼度を付与してよい。さらに、制御部423は、部分画像毎に、信頼度に応じて、物体を特定又は物体の候補を特定してよい。
 図33は、本開示のさらに他の実施形態に係る情報処理システム410の物体特定処理を示すフローチャートである。制御部423は、カメラ416から1フレームの撮像画像に相当する画像信号を取得するたびに、物体特定処理を実行してよい。制御部423は、取得した撮像画像を記憶部422に記憶させてよい。
 制御部423は、図32に示すステップS710の処理と同じく、ステップS720の処理を実行する。制御部423は、後述のステップS725又はステップS728の処理を実行していない部分画像を選択する(ステップS721)。
 制御部423は、ステップS721の処理で選択した部分画像に、第1処理、第2処理及び第3処理を並行して実行する(ステップS722)。ステップS722の処理では、制御部423は、第1処理、第2処理及び第3処理の処理結果に信頼度を付与する。
 制御部423は、第1処理、第2処理、第3処理の認識結果に付与した信頼度の中から、最も高い信頼度を取得する(ステップS723)。制御部423は、最も高い信頼度が閾値を超えるか否か判定する(ステップS724)。制御部423は、最も高い信頼度が閾値を超えると判定する場合(ステップS724:YES)、ステップS725の処理に進む。一方、制御部423は、最も高い信頼度が閾値以下であると判定する場合(ステップS724:NO)、ステップS726の処理に進む。
 ステップS725の処理では、制御部423は、最も高い信頼度が付与された処理結果に基づいて、部分画像に対応する物体を特定する。
 ステップS726の処理では、制御部423は、最も高い信頼度が付与された処理結果に基づいて物体の候補を特定する。ステップS727の処理では、制御部423は、物体の候補を、表示装置417に表示させることにより、顧客に提示する。ステップS728の処理では、制御部423は、入力部421によって検出したユーザ入力に応じて、物体の候補を確定又は修正する。
 ステップS729の処理では、制御部423は、撮像画像に含まれる物体に対応する部分画像の全てに対して、ステップS725の処理又はステップS728の処理を実行したか否か判定する。制御部423は、当該部分画像の全てにステップS725の処理又はステップS728の処理を実行したと判定しない場合(ステップS729:NO)、ステップS721の処理に戻る。一方、制御部423は、当該部分画像の全てにステップS725の処理又はステップS728の処理を実行したと判定する場合(ステップS729:YES)、ステップS730の処理に進む。
 ステップS730の処理では、制御部423は、ステップS725の処理により特定した商品情報、又は、ステップS728の処理により確定又は修正した商品情報を、ネットワーク413を介してサーバ412に、通信部420によって送信する。
 ここで、店舗形態に応じては、顧客が購入する商品の数が1つ又は2つとなる場合がある。この場合、ステップS720,S721,S729の処理は、実行されなくてよい。ステップS720,S721,S729の処理が実行されない場合、ステップS722の処理において、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行してよい。
 また、ステップS722の処理において、制御部423は、第1処理、第2処理及び第3処理を並行して実行しなくてよい。例えば、制御部423は、第1処理、第2処理及び第3処理を、所定順序で順次実行してよい。
 本開示のさらに他の実施形態に係る情報処理装置418の処理について説明する。本実施形態では、制御部423は、撮像画像に、複数の画像処理を、所定順序で実行する。以下、所定順序は、第1処理、第2処理及び第3処理の順序であるものとする。ただし、所定順序は、第1処理、第2処理及び第3処理の順序に限定されない。
 制御部423は、撮像画像に第1処理を実行し、実行した第1処理の処理結果に信頼度を付与する。制御部423は、付与した信頼度が閾値を超える場合、第1処理の処理結果に基づいて、部分画像に対応する物体を特定する。閾値は、上述のように、過去の処理結果の正解率等に基づいて、適宜設定されてよい。上述のように、第1処理の処理速度は、比較的、高速となり得る。第1処理を最初に実行することにより、商品に文字列が付されている場合、より高速に、物体を特定することができる。
 制御部423は、第1処理の処理結果に付与した信頼度が閾値以下である場合、撮像画像に、第2処理を実行する。制御部423は、第2処理の処理結果に信頼度を付与する。制御部423は、第2処理の処理結果に付与した信頼度が閾値を超える場合、第2処理の処理結果に基づいて、物体を特定する。上述のように、第2処理の処理速度は、第3処理の処理速度よりも、高速となり得る。第2処理を第3処理よりも先に実行することにより、物体が第2処理により特定可能である場合、より高速に、物体を特定することができる。
 制御部423は、第2処理の処理結果に付与した信頼度が閾値以下である場合、撮像画像に、第3処理を実行する。制御部423は、第3処理の処理結果に信頼度を付与する。制御部423は、第3処理の処理結果に付与した信頼度が閾値を超える場合、第3処理の処理結果に基づいて、物体を特定する。
 制御部423は、第3処理の処理結果に付与した信頼度が閾値以下である場合、第1処理の処理結果、第2処理の処理結果及び第3処理の処理結果の何れかに基づいて、物体の候補を特定する。制御部423は、第1処理、第2処理及び第3処理の処理結果のうち、最も高い信頼度が付与された処理結果に基づいて、物体の候補を特定してよい。上述した実施形態と同じく、制御部423は、物体の候補を特定する場合、制御信号を表示装置417に通信部420によって適宜送信することにより、物体の候補を表示装置417に表示させてよい。制御部423は、物体の候補を、表示装置417に表示させることにより、顧客に提示してよい。上述した実施形態と同じく、制御部423は、物体の候補とともに所定メッセージを、表示装置417に表示させることにより、顧客に提示してよい。上述した実施形態と同じく、制御部423は、入力部421によって検出したユーザ入力に応じて、物体の候補を確定又は修正してよい。
 ここで、上述した実施形態と類似にして、制御部423は、第1処理等の実行前に、公知の物体検出方法によって、撮像画像から、物体の数を検出してよい。この場合、制御部423は、撮像画像から複数の物体を検出した場合、物体に対応する部分画像毎に、第1処理、第2処理及び第3処理を順次実行して、第1処理、第2処理及び第3処理の処理結果に信頼度を付与してよい。さらに、制御部423は、部分画像毎に、信頼度に応じて、物体を特定又は物体の候補を特定してよい。
 図34は、本開示のさらに他の実施形態に係る情報処理システム410の物体特定処理を示すフローチャートである。制御部423は、カメラ416から1フレームの撮像画像に相当する画像信号を取得するたびに、物体特定処理を実行してよい。制御部423は、取得した撮像画像を記憶部422に記憶させてよい。
 制御部423は、図32に示すステップS710の処理と同じく、ステップS740の処理を実行する。制御部423は、後述のステップS744,S747,S750,S753の処理の何れも実行していない部分画像を選択する(ステップS741)。
 制御部423は、ステップS741の処理で選択した部分画像に、第1処理を実行する(ステップS742)。ステップS742の処理では、制御部423は、実行した第1処理の処理結果に信頼度を付与する。
 制御部423は、第1処理の処理結果に付与した信頼度が閾値を超えるか否か判定する(ステップS743)。制御部423は、信頼度が閾値を超えると判定する場合(ステップS743:YES)、ステップS744の処理に進む。一方、制御部423は、信頼度が閾値以下であると判定する場合(ステップS743:NO)、ステップS745の処理に進む。
 ステップS744の処理では、制御部423は、第1処理の処理結果に基づいて、部分画像に対応する物体を特定する。ステップS744の処理を実行した後、制御部423は、ステップS754の処理に進む。
 ステップS745の処理では、制御部423は、ステップS741の処理で選択した部分画像に、第2処理を実行する。ステップS745の処理では、制御部423は、第2処理の処理結果に信頼度を付与する。
 ステップS746の処理では、制御部423は、第2処理の処理結果に付与した信頼度が閾値を超えるか否か判定する。制御部423は、信頼度が閾値を超えると判定する場合(ステップS746:YES)、ステップS747の処理に進む。一方、制御部423は、信頼度が閾値以下であると判定する場合(ステップS746:NO)、ステップS748の処理に進む。
 ステップS747の処理では、制御部423は、第2処理の処理結果に基づいて、物体を特定する。ステップS747の処理を実行した後、制御部423は、ステップS754の処理に進む。
 ステップS748の処理では、制御部423は、ステップS741の処理で選択した部分画像に、第3処理を実行する。ステップS748の処理では、制御部423は、第3処理の処理結果に信頼度を付与する。
 ステップS749の処理では、制御部423は、第3処理の処理結果に付与した信頼度が閾値を超えるか否か判定する。制御部423は、信頼度が閾値を超えると判定する場合(ステップS749:YES)、ステップS750の処理に進む。一方、制御部423は、信頼度が閾値以下であると判定する場合(ステップS749:NO)、ステップS751の処理に進む。
 ステップS750の処理では、制御部423は、第3処理の処理結果に基づいて、物体を特定する。ステップS750の処理を実行した後、制御部423は、ステップS754の処理に進む。
 ステップS751の処理では、制御部423は、第1処理の処理結果、第2処理の処理結果及び第3処理の処理結果の何れかに基づいて、物体の候補を特定する。ステップS752の処理では、制御部423は、物体の候補を、表示装置417に表示させることにより、顧客に提示する。ステップS753の処理では、制御部423は、入力部421によって検出したユーザ入力に応じて、物体の候補を確定又は修正する。ステップS753の処理を実行した後、制御部423は、ステップS754の処理に進む。
 ステップS754の処理では、制御部423は、撮像画像に含まれる物体に対応する部分画像の全てに対して、ステップS744,S747,S750,S753の処理の何れかを実行したか否か判定する。制御部423は、当該部分画像の全てに対して、ステップS744,S747,S750,S753の処理の何れかを実行したと判定しない場合(ステップS754:NO)、ステップS741の処理に戻る。一方、制御部423は、当該部分画像の全てに対して、ステップS744,S747,S750,S753の処理の何れかを実行したと判定する場合(ステップS754:YES)、ステップS755の処理に進む。
 ステップS755の処理では、制御部423は、ステップS744,S747,S750の処理で特定した商品情報、及び、ステップS753の処理で確定又は修正した商品情報を、ネットワーク413を介してサーバ412に、通信部420によって送信する。
 ここで、店舗形態に応じては、顧客が購入する商品の数が1つ又は2つとなる場合がある。この場合、ステップS740,S741,S754の処理は、実行されなくてよい。ステップS740,S741,S754の処理が実行されない場合、ステップS742,S745,S748の処理において、制御部423は、撮像画像に、第1処理、第2処理及び第3処理を実行してよい。
 本開示のさらに他の実施形態に係る情報処理装置418の処理について説明する。本実施形態では、制御部423は、撮像画像から載置台414上における所定状況の物体を検出した場合、当該物体に対応する部分画像に、当該所定状況に応じた画像処理を実行して、当該物体を特定する。
 制御部423は、所定状況として、撮像画像から重畳した物体を検出した場合、当該物体に対応する部分画像に、第2処理を実行して、当該物体を検出してよい。制御部423は、公知の方法を用いて、撮像画像から重畳した物体を検出してよい。重畳した物体は、重なり合う物体のうち、別の物体の下に位置することにより、対応する部分画像が欠ける物体であってよい。この場合、重畳した物体は、上述の撮像画像430(図30)の例では、部分画像430bに対応するバター、及び、部分画像430cに対応するチョコレートとなり得る。又は、重畳した物体は、重なり合う物体の全てであってよい。この場合、重畳した物体は、上述の撮像画像430では、部分画像430aに対応するおにぎり、部分画像430bに対応するバター、及び、部分画像430cに対応するチョコレートとなり得る。
 制御部423は、所定状況として、撮像画像から変形した物体を検出した場合、当該物体に対応する部分画像に、第3処理を実行して、当該物体を検出してよい。制御部423は、公知の方法を用いて、撮像画像から変形した物体を検出してよい。
 制御部423は、所定状況として、撮像画像から検出した物体が重畳及び変形していない場合、当該物体に対応する部分画像に、第1処理を実行して、当該物体を検出してよい。また、制御部423は、所定状況として、所定画像から文字列が検出された場合、第1処理を実行して、文字列が検出された物体を特定してよい。
 制御部423は、所定状況として、撮像画像から、ハレーションを発生させている物体を検出した場合、当該物体に対応する部分画像に、第2処理を実行して、当該物体を特定してよい。物体の一部からの反射光の光量が局所的に多いと、当該物体に対応する部分画像においてハレーションが生じ得る。ハレーションを発生させる物体の一例として、鏡面を含む物体及び光沢面を含む物体等が挙げられる。制御部423は、公知の方法を用いて、撮像画像から、ハレーションを発生させている物体を検出してよい。制御部423は、部分画像のうちの、ハレーションが生じている領域を除いた領域に、第2処理を実行して、物体を特定してよい。ここで、部分画像にハレーションが生じている場合、当該物体に文字列が付されていても、制御部423は、当該部分画像から、文字列を抽出できない場合がある。この場合、第1処理によって当該物体を特定することは、困難となり得る。また、部分画像にハレーションが生じている場合、制御部423は、当該部分画像から、第3処理にて用いる特徴量を検出できない場合がある。この場合、第3処理によって当該物体を特定することは、困難となり得る。
 制御部423は、所定状況として、撮像画像から、破損した物体を検出した場合、制御信号を表示装置417に通信部420によって適宜送信することにより、商品が破損している旨を、表示装置417に表示させてよい。制御部423は、商品が破損している旨を、表示装置417に表示させることにより、顧客及び/又は店員に提示してよい。
 制御部423は、所定状況として、撮像画像から、汚れた物体を検出した場合、制御信号を表示装置417に通信部420によって適宜送信することにより、商品が汚れている旨を、表示装置417に表示させてよい。制御部423は、商品が汚れている旨を、表示装置417に表示させることにより、顧客及び/又は定員に提示してよい。
 ここで、上述した実施形態と類似にして、制御部423は、公知の物体検出方法によって、撮像画像から、物体の数を検出してよい。この場合、制御部423は、撮像画像から複数の物体を検出した場合、当該物体に対応する部分画像毎に、複数の画像処理のうちの、当該物体の状況に応じた画像処理を実行して、当該物体を特定してよい。
 以下、上述の処理の一例を説明する。制御部423は、図35に示すような撮像画像431を取得する。撮像画像431は、部分画像431aと、部分画像431bと、部分画像431cとを含む。部分画像431a、部分画像431b及び部分画像431cは、撮像画像431の一部である。制御部423は、部分画像431aに対応する物体が重畳及び変形していないと判定し得る。制御部423は、部分画像431bに対応する物体及び部分画像431cに対応する物体が重畳していると判定し得る。制御部423は、部分画像431aに第1処理を実行して、部分画像431aに対応する物体の商品名が「梅のおにぎり」であると特定してよい。制御部423は、部分画像431b及び部分画像431cに第2処理を実行して、部分画像431bに対応する物体の商品名が「バター」であり、部分画像430cに対応する物体の商品名が「チョコレート」であると特定してよい。
 図36は、本開示のさらに他の実施形態に係る情報処理システム410の物体特定処理を示すフローチャートである。制御部423は、カメラ416から1フレームの撮像画像に相当する画像信号を取得するたびに、物体特定処理を実行してよい。制御部423は、取得した撮像画像を記憶部422に記憶させてよい。
 制御部423は、図32に示すステップS710の処理と同じく、ステップS760の処理を実行する。制御部423は、後述のステップS764,S767,S769の処理の何れも実行していない部分画像を選択する(ステップS761)。
 制御部423は、ステップS761の処理で選択した部分画像に対応する物体が重畳しているか否か判定する(ステップS762)。制御部423は、当該物体が重畳していると判定する場合(ステップS762:YES)、ステップS763の処理に進む。一方、制御部423は、当該物体が重畳していないと判定する場合(ステップS762:NO)、ステップS765の処理に進む。
 ステップS763の処理では、制御部423は、ステップS761の処理で選択した部分画像に、第2処理を実行する。ステップS764の処理では、制御部423は、ステップS763の処理における第2処理の処理結果に基づいて、部分画像に対応する物体を特定する。ステップS764の処理を実行した後、制御部423は、ステップS770の処理に進む。
 ステップS765の処理では、制御部423は、ステップS761の処理で選択した部分画像に対応する物体が変形しているか否か判定する。制御部423は、当該物体が変形していると判定する場合(ステップS765:YES)、ステップS766の処理に進む。一方、制御部423は、当該物体が変形していないと判定する場合(ステップS765:NO)、ステップS768の処理に進む。
 ステップS766の処理では、制御部423は、ステップS761の処理で選択した部分画像に、第3処理を実行する。ステップS767の処理では、制御部423は、ステップS766の処理における第3処理の処理結果に基づいて、部分画像に対応する物体を特定する。ステップS766の処理を実行した後、制御部423は、ステップS770の処理に進む。
 ステップS768の処理では、制御部423は、ステップS761の処理で選択した部分画像に、第1処理を実行する。つまり、制御部423は、ステップS761の処理で選択した部分画像に対応する物体が重畳及び変形していない場合、部分画像に、第1処理を実行する。ステップS769の処理では、制御部423は、ステップS768の処理における第1処理の処理結果に基づいて、部分画像に対応する物体を特定する。ステップS769の処理を実行した後、制御部423は、ステップS770の処理に進む。
 ステップS770の処理では、制御部423は、撮像画像に含まれる物体に対応する部分画像の全てに対して、ステップS764,S767,S769の処理の何れかを実行したか否か判定する。制御部423は、当該部分画像の全てに対して、ステップS764,S767,S769の処理の何れかを実行したと判定しない場合(ステップS770:NO)、ステップS761の処理に戻る。一方、制御部423は、当該部分画像の全てに対して、ステップS764,S767,S769の処理の何れかを実行したと判定する場合(ステップS770:YES)、ステップS771の処理に進む。
 ステップS771の処理では、制御部423は、ステップS764,S767,S769の処理で特定した商品情報を、ネットワーク413を介してサーバ412に、通信部420によって送信する。
 ここで、店舗形態に応じては、顧客が購入する商品の数が1つ又は2つとなる場合がある。この場合、ステップS760,S761,S770の処理は、実行されなくてよい。ステップS760,S761,S770の処理が実行されない場合、ステップS763,S766,S768の処理において、制御部423は、撮像画像に、第1処理、第2処理及び第3処理をそれぞれ実行してよい。
 本開示のさらに他の実施形態に係る情報処理装置418の処理について説明する。本実施形態では、情報処理装置418において、商品の値段を算出する処理を説明する。本実施形態では、記憶部422は、商品名に対応付けられた、商品の価格を記憶してよい。
 制御部423は、物体の商品名を特定した後、当該物体に対応する部分画像に、値引きシールの画像が含まれているか否か判定する。制御部423は、値引きシールの画像が含まれていると判定する場合、値引きシールの画像から、値引きの情報を取得する。例えば、制御部423は、「〇〇円引き」といった情報を取得する。制御部423は、取得した情報と、記憶部422に記憶されている商品の価格とに基づいて、商品の値段を確定する。一方、制御部423は、値引きシールの画像が含まれていると判定しない場合、記憶部422に記憶されている商品の価格を、商品の値段として確定する。
 制御部423は、確定した商品の値段を、ネットワーク413を介してサーバ412に、通信部420によって送信してよい。又は、制御部423は、制御信号を表示装置417に通信部420によって適宜送信することにより、商品の値段を表示装置417に表示させてよい。制御部423は、商品の値段を、表示装置417に表示させることにより、顧客に提示してよい。
 図37は、本開示のさらに他の実施形態に係る情報処理システム410の商品の値段の算出処理を示すフローチャートである。制御部423は、図35に示すステップS716の処理、図33に示すステップS730の処理、図34に示すステップS755の処理及び図36に示すステップS771の処理に代えて、商品の値段の算出処理を実行してよい。
 制御部423は、物体に対応する部分画像に、値引きシールの画像が含まれているか否か判定する(ステップS780)。制御部423は、値引きシールの画像が含まれていると判定する場合(ステップS780:YES)、ステップS781の処理に進む。一方、制御部423は、値引きシールの画像が含まれていると判定しない場合(ステップS780:NO)、ステップS782の処理に進む。
 ステップS782の処理では、制御部423は、値引きシールの画像から、値引きの情報を取得する。
 ステップS783の処理では、制御部423は、ステップS782の処理で値引きの情報を取得した場合、取得した情報と、記憶部422に記憶されている商品の価格とに基づいて、商品の値段を確定する。制御部423は、ステップS781の処理にて値引きシールの画像が含まれていると判定しない場合、記憶部422に記憶されている商品の価格を、商品の値段として確定する。
 ステップS784の処理では、確定した商品の値段を、ネットワーク413を介してサーバ412に、通信部420によって送信する。確定した商品の値段をサーバ412に送信する代わりに、制御部423は、商品の値段を、表示装置417に表示させることにより、顧客に提示してよい。
 本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
 例えば、上述した実施形態では、情報処理システム10は、図5、6に示すように、第1の方式及び第2の方式において、容易度の算出を行い、当該容易度に基づいて第1部分画像imp1及び第2部分画像imp2の一方から物体認識を行う構成であるが、容易度の算出を行うことなく、予め定められている一方から物体認識を行ってよい。
 また、上述した実施形態では、情報処理システム10は、レジ端末に含まれる構成であるが、適用対象はレジ端末に限定されない。例えば、情報処理システム10は、倉庫等における在庫の確認及び不良品の検知等における物体認識に適用され得る。
 例えば、上述した実施形態では、カメラ416は、載置台414の載置面414aに、顧客によって載置された商品を、撮像するものとして説明した。ただし、カメラ416が撮像する商品は、載置台414の載置面414aに載置された商品に限定されない。例えば、カメラ416は、顧客が載置台414の載置面414aに載置せずにカメラ416の前にかざした商品を、撮像してよい。
 本開示において「第1」及び「第2」等の記載は、当該構成を区別するための識別子である。本開示における「第1」及び「第2」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第1画像部分は、第2画像部分と識別子である「第1」と「第2」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第1」及び「第2」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。
 10 情報処理システム
 11 精算システム
 12 サーバ
 13 ネットワーク
 14 カメラ
 15 反射部
 16 ディスプレイ
 17 情報処理装置
 18 載置台
 19 支持柱
 20 通信部
 21 入力部
 22 記憶部
 23 制御部
 im 画像
 imp1 第1部分画像
 imp2 第2部分画像
 rs 反射面
 us 上面
 110,210,310 情報処理システム
 111 精算システム
 112 サーバ
 113 ネットワーク
 114 載置台
 114a 載置面
 115 支持柱
 116 カメラ
 117 表示装置
 118 情報処理装置
 119 重量センサ
 120 通信部
 121 入力部
 314 買い物かご
 122 記憶部
 123 制御部
 130,131,132,133,134 撮像画像
 131a,132a,132b,133a,133b,134a,134b,134c 部分画像
 140,141,142 差分画像
 140a,141a,142a,142b 部分画像
 410 情報処理システム
 411 精算システム
 412 サーバ
 413 ネットワーク
 414 載置台
 414a 載置面
 415 支持柱
 416 カメラ
 417 表示装置
 418 情報処理装置
 420 通信部
 421 入力部
 422 記憶部
 423 制御部
 430,431 撮像画像
 430a,430b,430c,431a,431b,431c 部分画像

Claims (42)

  1.  撮像により画像信号を生成する撮像部と、
     前記画像信号に相当する撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行する情報処理装置と、を備え、
     前記情報処理装置は、前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定する
     情報処理システム。
  2.  請求項1に記載の情報処理システムにおいて、
     前記画像処理では、記号認識、機械学習、及び、特徴量マッチングの少なくとも何れかが用いられる
     情報処理システム。
  3.  請求項1又は2に記載の情報処理システムにおいて、
     前記情報処理装置は、前記複数の画像処理のうちの少なくとも2つを実行し、実行した前記画像処理の処理結果に信頼度を付与し、付与した信頼度が最も高い前記処理結果に基づいて、前記物体を特定する
     情報処理システム。
  4.  請求項3に記載の情報処理装置において、
     前記情報処理装置は、前記撮像画像から複数の物体を検出した場合、当該物体に対応する部分画像毎に、前記複数の画像処理のうちの少なくとも2つを実行し、実行した前記画像処理の処理結果に信頼度を付与し、付与した信頼度が最も高い前記処理結果に基づいて、前記物体を特定する
     情報処理システム。
  5.  請求項1又は2に記載の情報処理システムにおいて、
     前記情報処理装置は、前記複数の画像処理のうちの少なくとも2つを実行し、実行した前記画像処理の処理結果に信頼度を付与し、最も高い前記信頼度が閾値を超える場合、前記最も高い信頼度が付与された前記処理結果に基づいて、前記物体を特定する
     情報処理システム。
  6.  請求項1又は2に記載の情報処理システムにおいて、
     前記情報処理装置は、前記複数の画像処理のうちの少なくとも2つを実行し、実行した前記画像処理の処理結果に信頼度を付与し、最も高い前記信頼度が閾値以下である場合、前記最も高い信頼度が付与された前記処理結果に基づいて、前記物体の候補を特定する
     情報処理システム。
  7.  請求項5又は6に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から複数の物体を検出した場合、当該物体に対応する部分画像毎に、前記複数の画像処理のうちの少なくとも2つを実行して、当該物体を特定するか、又は、当該物体の候補を特定する
     情報処理システム。
  8.  請求項1又は2に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像に、前記複数の画像処理のうちの第1処理を実行し、実行した前記第1処理の処理結果に信頼度を付与し、付与した前記信頼度が閾値を超える場合、前記第1処理の処理結果に基づいて、前記物体を特定する
     情報処理システム。
  9.  請求項8に記載の情報処理システムにおいて、
     前記情報処理装置は、前記第1処理の処理結果に付与した前記信頼度が前記閾値以下である場合、前記撮像画像に、前記複数の画像処理のうちの前記第1処理とは異なる第2処理を実行し、実行した前記第2処理の処理結果に信頼度を付与し、前記第2処理の処理結果に付与した信頼度が前記閾値を超える場合、前記第2処理の処理結果に基づいて、前記物体を特定する
     情報処理システム。
  10.  請求項9に記載の情報処理システムにおいて、
     前記第1処理は、文字認識を用いた物体認識処理であり、前記第2処理は、機械学習を用いた物体認識処理であり、
     前記情報処理装置は、前記第2処理の処理結果に付与した前記信頼度が前記閾値以下である場合、前記撮像画像に、前記複数の画像処理のうちの特徴量マッチングを用いた物体認識処理であって、前記第2処理とは異なる第3処理を実行し、実行した前記第3処理の処理結果に信頼度を付与し、前記第3処理の処理結果に付与した信頼度が前記閾値を超える場合、前記第3処理の処理結果に基づいて、前記物体を特定する
     情報処理システム。
  11.  請求項10に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から複数の物体を検出した場合、当該物体に対応する部分画像毎に、前記第1処理、前記第2処理及び前記第3処理を順次実行する
     情報処理システム。
  12.  請求項1又は2に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から所定状況の物体を検出した場合、当該物体に対応する部分画像に、前記複数の画像処理のうちの、当該所定状況に応じた画像処理を実行して、当該物体を特定する
     情報処理システム。
  13.  請求項12に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から重畳した物体を検出した場合、当該物体に対応する部分画像に、前記複数の画像処理のうちの、機械学習を用いた物体認識処理である第2処理を実行して、当該物体を特定する
     情報処理システム。
  14.  請求項12に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から変形した物体を検出した場合、当該物体に対応する部分画像に、前記複数の画像処理のうちの、特徴量マッチングを用いた物体認識処理である第3処理を実行して、当該物体を特定する
     情報処理システム。
  15.  請求項12に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から検出した物体が重畳及び変形していない場合、当該物体に対応する部分画像に、前記複数の画像処理のうちの、文字認識を用いた物体認識処理である第1処理を実行して、当該物体を特定する
     情報処理システム。
  16.  請求項12に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から複数の物体を検出した場合、当該物体に対応する部分画像毎に、前記複数の画像処理のうちの、当該物体の状況に応じた画像処理を実行して、当該物体を特定する
     情報処理システム。
  17.  請求項1から16までの何れか一項に記載の情報処理システムにおいて、
     前記物体である商品が載置される載置台をさらに備え、
     前記撮像部は、前記載置台の載置面を撮像可能に配置されている
     情報処理システム。
  18.  撮像により画像信号を生成する撮像部と通信可能な通信部と、
     前記通信部によって前記画像信号に相当する撮像画像を取得し、取得した前記撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行する制御部と、を備え、
     前記制御部は、前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定する
     情報処理装置。
  19.  撮像により画像信号を生成することと、
     前記画像信号に相当する撮像画像を取得し、取得した前記撮像画像に対して、複数の画像処理のうちの少なくとも何れかを実行することと、
     前記撮像画像に含まれる部分画像に対応する物体の状況、又は、実行した前記画像処理の処理結果に付与した信頼度の何れかに基づいて、前記撮像画像に含まれる部分画像に対応する物体を特定することと、を含む
     情報処理方法。
  20.  撮像により画像信号を生成する撮像部と、
     前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定する情報処理装置と、を備える
     情報処理システム。
  21.  請求項20に記載の情報処理システムにおいて、
     前記情報処理装置は、前記差分画像に対して物体認識を実行することにより、前記物体を特定する
     情報処理システム。
  22.  請求項21に記載の情報処理システムにおいて、
     前記情報処理装置は、前記差分画像から個別に複数の物体が検出された場合、各物体に対応する部分画像毎に前記物体認識を実行する
     情報処理システム。
  23.  請求項20から22までの何れか一項に記載の情報処理システムにおいて、
     前記情報処理装置は、前記2つの撮像画像に差分があると判定する場合、前記差分画像を生成する、情報処理システム。
  24.  請求項23に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像画像から物体の数を検出し、個別に検出された物体の数が変化したときの前記撮像画像と、当該撮像画像の撮像時刻よりも前の撮像時刻の前記撮像画像とを用いて、前記差分画像を生成する
     情報処理システム。
  25.  請求項24に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像時刻よりも前の撮像時刻の撮像画像として、前記物体の数が変化する前の撮像画像を用いる
     情報処理システム。
  26.  請求項20から22までの何れか一項に記載の情報処理システムにおいて、
     前記情報処理装置は、前記撮像時刻の異なる2つの撮像画像として、手指に対応する部分画像を含む前記撮像画像の撮像時刻の前後の撮像時刻の撮像画像を用いる
     情報処理システム。
  27.  請求項20から26までの何れか一項に記載の情報処理システムにおいて、
     前記物体である商品が載置される載置台をさらに備え、
     前記撮像部は、前記載置台の載置面を撮像可能に配置されている
     情報処理システム。
  28.  請求項20から22までの何れか一項に記載の情報処理システムにおいて、
     前記物体である商品が載置される載置台と、
     前記載置台の載置面にかかる重量を検出する重量センサと、をさらに備え、
     前記情報処理装置は、前記撮像時刻の異なる2つの撮像画像として、前記載置面にかかる重量が変化した時刻の前後の撮像時刻の撮像画像を用いる
     情報処理システム。
  29.  撮像により画像信号を生成する撮像部と通信可能な通信部と、
     前記通信部によって前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定する制御部と、を備える
     情報処理装置。
  30.  撮像により画像信号を生成することと、
     前記画像信号に相当する撮像画像を取得し、撮像時刻の異なる2つの前記撮像画像の差分画像に基づいて、当該2つの撮像画像の少なくとも何れかに含まれる部分画像に対応する物体を特定することと、を含む
     情報処理方法。
  31.  撮像により画像信号を生成するカメラと、
     前記カメラの撮像範囲内に配置され、反射面が前記カメラの光軸に対して傾斜している反射部と、
     前記カメラから受信する画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像とに対して、物体認識を行う情報処理装置と、を備える
     情報処理システム。
  32.  請求項31に記載の情報処理システムにおいて、
     前記情報処理装置は、前記第1部分画像及び前記第2部分画像の一方に対して物体認識を行い、当該物体認識による物体の仮の認識結果の信頼度を算出し、当該信頼度が閾値を超える場合、当該物体の仮の認識結果を確定する
     情報処理システム。
  33.  請求項32に記載の情報処理システムにおいて、
     前記情報処理装置は、前記物体認識による少なくとも一部の物体に対する前記信頼度が閾値以下である場合、他方において物体認識を行い、当該物体認識による全物体の仮の認識結果を確定する
     情報処理システム。
  34.  請求項32に記載の情報処理システムにおいて、
     前記情報処理装置は、前記物体認識による物体に対する前記信頼度が閾値以下である場合、他方における当該物体を含む部分において物体認識を行い、当該物体認識により仮認識される当該物体の仮の認識結果を確定する
     情報処理システム。
  35.  請求項32から34までの何れか一項に記載の情報処理システムにおいて、
     情報処理装置は、前記第1部分画像及び前記第2部分画像における物体認識の容易度を算出し、前記第1部分画像及び前記第2部分画像の中で前記容易度が高い一方に対して先に物体認識を行う
     情報処理システム。
  36.  請求項31に記載の情報処理システムにおいて、
     前記情報処理装置は、前記第1部分画像及び前記第2部分画像それぞれに対して物体認識を行い、前記第1部分画像において仮認識される物体と前記第2部分画像において仮認識される物体とを対応付け、対応付けられる物体のそれぞれの仮の認識結果が一致する場合に当該物体の仮の認識結果を確定する
     情報処理システム。
  37.  請求項36に記載の情報処理システムにおいて、
     前記情報処理装置は、対応付けられる物体のそれぞれの仮の認識結果が異なる場合、前記それぞれの仮の認識結果を提示する
     情報処理システム。
  38.  請求項37に記載の情報処理システムにおいて、
     前記情報処理装置は、前記それぞれの仮の認識結果に対するそれぞれの信頼度が大きな順番で、前記それぞれの仮の認識結果を提示する
     情報処理システム。
  39.  請求項36から38までの何れか一項に記載の情報処理システムにおいて、
     前記情報処理装置は、
     前記第1部分画像及び前記第2部分画像に対する物体認識による物体毎の仮の認識結果の信頼度を算出し、
     対応付けられる物体のそれぞれの仮の認識結果が異なり且つ少なくとも一方の仮の認識結果の信頼度が閾値を超える場合、信頼度の大きな仮の認識結果を当該物体の認識結果として確定する
     情報処理システム。
  40.  請求項31に記載の情報処理システムにおいて、
     前記情報処理装置は、
     前記第1部分画像及び前記第2部分画像それぞれにおいて物体を検出し、前記第1部分画像において検出される物体と前記第2部分画像において検出される物体とを対応付け、対応付けられる物体が前記第1部分画像及び前記第2部分画像それぞれにおいて検出される部分を組み合わせて物体認識を行い、当該物体認識による物体の仮の認識結果を確定する
     情報処理システム。
  41.  反射面がカメラの光軸に対して傾斜している反射部を撮像範囲内に含む当該カメラが撮像により生成する画像信号を受信する通信部と、
     前記画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像を用いて、物体認識を行う制御部と、を備える
     情報処理装置。
  42.  反射面がカメラの光軸に対して傾斜している反射部を撮像範囲内に含む当該カメラに、撮像により画像信号を生成させ、
     前記画像信号に相当する画像の全領域における前記反射部が占める領域における第1部分画像と、当該領域以外の領域における第2部分画像を用いて、物体認識を行う
     情報処理方法。
     
PCT/JP2020/045287 2019-12-06 2020-12-04 情報処理システム、情報処理装置及び情報処理方法 WO2021112234A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/756,882 US20230013468A1 (en) 2019-12-06 2020-12-04 Information processing system, information processing device, and information processing method
CN202080084524.7A CN114766033A (zh) 2019-12-06 2020-12-04 信息处理系统、信息处理装置和信息处理方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2019-221131 2019-12-06
JP2019221131A JP7316203B2 (ja) 2019-12-06 2019-12-06 情報処理システム、情報処理装置、および情報処理方法
JP2019-230748 2019-12-20
JP2019230748A JP2021099629A (ja) 2019-12-20 2019-12-20 情報処理システム、情報処理装置及び情報処理方法
JP2019233268A JP7381330B2 (ja) 2019-12-24 2019-12-24 情報処理システム、情報処理装置及び情報処理方法
JP2019-233268 2019-12-24

Publications (1)

Publication Number Publication Date
WO2021112234A1 true WO2021112234A1 (ja) 2021-06-10

Family

ID=76221701

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/045287 WO2021112234A1 (ja) 2019-12-06 2020-12-04 情報処理システム、情報処理装置及び情報処理方法

Country Status (3)

Country Link
US (1) US20230013468A1 (ja)
CN (1) CN114766033A (ja)
WO (1) WO2021112234A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306280A (ja) * 1998-04-17 1999-11-05 Mitsubishi Electric Corp 画像認識装置
JP2008210388A (ja) * 2007-02-26 2008-09-11 Fujitsu Ltd コードを識別する方法、装置及びプログラム
JP2014146890A (ja) * 2013-01-28 2014-08-14 Glory Ltd 撮像システム及び撮像方法
JP2015022624A (ja) * 2013-07-22 2015-02-02 キヤノン株式会社 情報処理装置およびその制御方法、コンピュータプログラム、記憶媒体
JP2016018459A (ja) * 2014-07-09 2016-02-01 キヤノン株式会社 画像処理装置、その制御方法、プログラム、及び記憶媒体
WO2016143067A1 (ja) * 2015-03-10 2016-09-15 三菱電機株式会社 映像解析装置
JP2018181081A (ja) * 2017-04-18 2018-11-15 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11306280A (ja) * 1998-04-17 1999-11-05 Mitsubishi Electric Corp 画像認識装置
JP2008210388A (ja) * 2007-02-26 2008-09-11 Fujitsu Ltd コードを識別する方法、装置及びプログラム
JP2014146890A (ja) * 2013-01-28 2014-08-14 Glory Ltd 撮像システム及び撮像方法
JP2015022624A (ja) * 2013-07-22 2015-02-02 キヤノン株式会社 情報処理装置およびその制御方法、コンピュータプログラム、記憶媒体
JP2016018459A (ja) * 2014-07-09 2016-02-01 キヤノン株式会社 画像処理装置、その制御方法、プログラム、及び記憶媒体
WO2016143067A1 (ja) * 2015-03-10 2016-09-15 三菱電機株式会社 映像解析装置
JP2018181081A (ja) * 2017-04-18 2018-11-15 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム

Also Published As

Publication number Publication date
CN114766033A (zh) 2022-07-19
US20230013468A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
JP6274097B2 (ja) 商品識別装置および商品認識ナビゲーション方法
US11481751B1 (en) Automatic deep learning computer vision based retail store checkout system
EP3859638A1 (en) Self-service settlement method and device and storage medium
WO2019019525A1 (zh) 基于卷积神经网络的图像识别技术的结算方法和装置
US10169752B2 (en) Merchandise item registration apparatus, and merchandise item registration method
RU2739542C1 (ru) Система автоматической регистрации для торговой точки
US20160300247A1 (en) Sales data processing apparatus, server and method for acquiring attribute information
US11134798B1 (en) Vision-based frictionless self-checkouts for small baskets
CN112686220B (zh) 商品识别方法及装置、计算设备、计算机存储介质
US20230037427A1 (en) Identifying barcode-to-product mismatches using point of sale devices and overhead cameras
US11216657B2 (en) Commodity recognition apparatus
EP2570967A1 (en) Semi-automatic check-out system and method
US20190325461A1 (en) Sales data processing apparatus, server and method for acquiring attribute information
WO2010084744A1 (ja) 顧客分析システム、顧客データ収集装置、顧客分析装置、顧客分析方法、及びプログラム
US20180308084A1 (en) Commodity information reading device and commodity information reading method
JP2018097883A (ja) 情報表示装置および誘導表示方法
WO2021112234A1 (ja) 情報処理システム、情報処理装置及び情報処理方法
JP2016177433A (ja) 商品登録装置および商品登録方法
US10720027B2 (en) Reading device and method
JP7316203B2 (ja) 情報処理システム、情報処理装置、および情報処理方法
JP7381330B2 (ja) 情報処理システム、情報処理装置及び情報処理方法
JP6389141B2 (ja) サーバおよびプログラム
WO2023187993A1 (ja) 商品数特定装置、商品数特定方法、及び記録媒体
US20220391915A1 (en) Information processing system, information processing device, and control method thereof
JP6384309B2 (ja) 商品識別装置、商品認識ナビゲーション方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20897258

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20897258

Country of ref document: EP

Kind code of ref document: A1