WO2023127085A1 - 物体認識装置、物体認識方法、及び、記憶媒体 - Google Patents

物体認識装置、物体認識方法、及び、記憶媒体 Download PDF

Info

Publication number
WO2023127085A1
WO2023127085A1 PCT/JP2021/048764 JP2021048764W WO2023127085A1 WO 2023127085 A1 WO2023127085 A1 WO 2023127085A1 JP 2021048764 W JP2021048764 W JP 2021048764W WO 2023127085 A1 WO2023127085 A1 WO 2023127085A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
relationship
information
class
processing
Prior art date
Application number
PCT/JP2021/048764
Other languages
English (en)
French (fr)
Inventor
壮馬 白石
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/048764 priority Critical patent/WO2023127085A1/ja
Publication of WO2023127085A1 publication Critical patent/WO2023127085A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Definitions

  • the present disclosure relates to recognition of objects included in images.
  • a method has been proposed for managing the shelf allocation of products using images of product shelves in a store.
  • Patent Document 1 in an image obtained by photographing a product shelf on which a plurality of products are arranged, a product represented by one product area image is recognized as the first product. , the product represented by the product area image other than the one product area image is recognized as the second product, and further, based on the relationship between the first product and the second product, the one product is disclosed from the viewpoint of determining the validity of recognizing the product area image as the first product.
  • One object of the present disclosure is to provide an object identification device capable of improving the recognition accuracy of individual objects in a plurality of objects included in an image.
  • an object recognition device includes: an image acquisition means for acquiring an image including a plurality of objects; object recognition means for obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; a connection relationship identifying means for performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects based on the recognition result obtained by the object recognition processing; an area relationship acquisition means for acquiring area relationship information, which is information relating to the relationship between the object areas specified to have the connection relationship; class relationship acquisition means for acquiring class relationship information, which is information indicating relationships between a plurality of classes preset for obtaining the recognition result by the object recognition processing; Recognition for acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information result correction means; evaluation means for obtaining a final recognition result related to a class to which each of the plurality of objects belongs
  • an object recognition method comprises: Acquire an image containing multiple objects, obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; Based on the recognition result obtained by the object recognition processing, performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects, Acquiring area relationship information, which is information relating to the relationship between each object area specified to have the connection relationship, Acquiring class relationship information, which is information indicating a relationship between a plurality of classes preset for obtaining the recognition result by the object recognition processing, Acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information; By evaluating the recognition result obtained by the object recognition processing using the plurality of corrected recognition results, a final recognition result related to the class to which each of the plurality of objects belongs is acquired.
  • the recording medium comprises Acquire an image containing multiple objects, obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; Based on the recognition result obtained by the object recognition processing, performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects, Acquiring area relationship information, which is information relating to the relationship between each object area specified to have the connection relationship, Acquiring class relationship information, which is information indicating a relationship between a plurality of classes preset for obtaining the recognition result by the object recognition processing, Acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information; a process of obtaining a final recognition result related to a class to which each of the plurality of objects belongs by evaluating the recognition result obtained by the object recognition process using the plurality of corrected recognition results; Record the program to run.
  • an object identification device capable of improving the recognition accuracy of individual objects in a plurality of objects included in an image.
  • FIG. 2 is a block diagram showing the hardware configuration of the object recognition device according to the first embodiment
  • FIG. 1 is a block diagram showing the functional configuration of an object recognition device according to the first embodiment
  • FIG. FIG. 4 is a diagram showing an example of an image used in processing of the object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining product areas and empty areas detected by processing of the object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining processing related to identification of a connection relationship performed in the object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining processing related to identification of a connection relationship performed in the object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining processing related to identification of a connection relationship performed in the object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining processing related to identification of a connection relationship performed in the object recognition device according to the first embodiment
  • FIG. 1 is a block diagram showing the functional configuration of an object recognition device according to the first embodiment
  • FIG. 4 is a diagram for explaining processing related to identification of a connection relationship performed in the object recognition device according to the first embodiment;
  • FIG. 4 is a diagram for explaining an example of attribute information used when acquiring class relationship information;
  • FIG. 4 is a diagram for explaining an example of information that can be included as class relationship information;
  • FIG. 4 is a diagram for explaining an example of information that can be included as class relationship information;
  • 4 is a flowchart for explaining processing performed in the object recognition device according to the first embodiment;
  • the block diagram which shows the functional structure of the object recognition apparatus which concerns on 2nd Embodiment. 9 is a flowchart for explaining processing performed in the object recognition device according to the second embodiment;
  • FIG. 1 is a diagram showing an outline of an object recognition device according to the first embodiment.
  • the object recognition device 100 is configured as a portable terminal device such as a tablet terminal, for example. Further, the object recognition device 100 recognizes individual products displayed on the product shelf from images obtained by photographing the product shelf of the store. Further, the object recognition apparatus 100 acquires a processing result obtained by performing processing such as correction on the recognition result of recognizing each product as a final recognition result.
  • FIG. 2 is a block diagram showing the hardware configuration of the object recognition device according to the first embodiment.
  • the object recognition device 100 includes an interface (IF) 111, a processor 112, a memory 113, a recording medium 114, a database (DB) 115, a camera 116, and a touch panel 117, as shown in FIG. .
  • the IF 111 performs data input/output with external devices. Moreover, the final recognition result obtained by the object recognition apparatus 100 is output to an external device through IF111 as needed.
  • the processor 112 is a computer such as a CPU (Central Processing Unit), and controls the entire object recognition device 100 by executing a program prepared in advance. Specifically, the processor 112 performs processing such as object recognition processing and recognition result correction processing.
  • processing such as object recognition processing and recognition result correction processing.
  • the memory 113 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like.
  • the memory 113 is also used as working memory during execution of various processes by the processor 112 .
  • the recording medium 114 is a non-volatile, non-temporary recording medium such as a disc-shaped recording medium or a semiconductor memory, and is configured to be detachable from the object recognition device 100 .
  • the recording medium 114 records various programs executed by the processor 112 .
  • a program recorded on the recording medium 114 is loaded into the memory 113 and executed by the processor 112 .
  • the database 115 stores, for example, information input through the IF 111, processing results obtained by processing by the processor 112, images obtained by the camera 116, and the like.
  • the camera 116 acquires an image by photographing a product shelf on which multiple products are displayed.
  • the plurality of products may be arranged on furniture or the like other than the product shelf.
  • the object recognition apparatus 100 may be provided with, as the camera 116, for example, a depth camera capable of acquiring both an image and depth information at the time of photographing. Then, when a depth camera is provided in the object recognition device 100, for example, even if a plurality of products are not arranged at positions substantially equidistant from the camera 116, the size information SZJ, which will be described later, is appropriate information. can be obtained.
  • the touch panel 117 has a function capable of displaying, for example, the image captured by the camera 116 and the final recognition result obtained by the processing of the processor 112. Further, the touch panel 117 has, for example, a function capable of inputting an instruction, information, etc. according to a user's touch operation.
  • FIG. 3 is a block diagram showing the functional configuration of the object recognition device according to the first embodiment;
  • the object recognition apparatus 100 includes an image acquisition unit 21, an object recognition unit 22, a connection relationship identification unit 23, an area relationship acquisition unit 24, a class relationship acquisition unit 25, and a recognition result It has a correction section 26 , an evaluation section 27 and an output section 28 .
  • the image acquisition unit 21 acquires an image IMT by photographing a product shelf on which a plurality of products are displayed. Note that the image acquisition unit 21 is not limited to acquiring the image IMT by photographing the product shelf. good too.
  • the object recognition unit 22 performs object recognition processing on the image IMT using a trained object recognition model configured by, for example, a neural network or the like, thereby corresponding to each of a plurality of products included in the image IMT. Get the recognition result.
  • the object recognition unit 22 detects, as a plurality of product areas SA, rectangular areas corresponding to each of a plurality of products included in the image IMT, and also detects areas in the image IMT in which no product exists within a certain distance. It is detected as an empty area EA. Further, the object recognition unit 22 recognizes each of the products included in the plurality of product areas SA based on the extraction results obtained by extracting the positions, sizes, and feature amounts of the plurality of product areas SA. A recognition score, which is a value indicating the probability of each class when classified into one of the classes, is acquired.
  • connection relationship identifying unit 23 Based on the multiple product areas SA detected by the object recognition unit 22, the connection relationship identifying unit 23 performs processing for identifying the presence or absence of a connection relationship between the multiple product areas SA. In other words, the connection relationship specifying unit 23 performs processing for specifying the presence or absence of the connection relationship between the plurality of product areas SA corresponding to each of the plurality of products based on the recognition result obtained by the object recognition processing of the object recognition unit 22. I do.
  • the area relationship acquisition unit 24 acquires area relationship information ARJ, which is information related to the relationship between the product areas SA specified by the connection relationship specifying unit 23 to have a connection relationship. do. Specifically, by analyzing the image IMT, the area relationship acquisition unit 24 determines, for example, two adjacent product areas SA identified by the connection relationship identification unit 23 as having a connection relationship. Acquire the area relationship information ARJ related to the relationship between the product areas SA.
  • the class relationship acquisition unit 25 acquires a class relationship indicating a relationship between a plurality of classes preset for obtaining a recognition result in the object recognition unit 22. Processing for acquiring sex information CRJ is performed.
  • the recognition result correction unit 26 obtains the connection relationship of the plurality of product areas SA obtained by the connection relationship identification unit 23, the area relationship information ARJ obtained by the area relationship acquisition unit 24, and the class relationship acquisition unit 25.
  • the recognition result obtained by the object recognition unit 22 is corrected by performing recognition result correction processing based on the obtained class relationship information CRJ.
  • the recognition result correcting unit 26 makes a plurality of corrections according to the number of classes recognized by the object recognizing unit 22 and the number of product areas SA specified to have a connection relationship by the connection relationship specifying unit 23. Get later recognition results. That is, the recognition result correction unit 26 performs recognition result correction processing for correcting the recognition result obtained by the object recognition processing of the object recognition unit 22 based on the area relationship information ARJ and the class relationship information CRJ. , to obtain a plurality of corrected recognition results.
  • the evaluation unit 27 evaluates the recognition results obtained by the object recognition processing of the object recognition unit 22 using the plurality of corrected recognition results obtained by the recognition result correction unit 26, thereby obtaining a plurality of products. A final recognition result relating to the class to which each of the plurality of products included in the area SA belongs is acquired.
  • the output unit 28 generates a display screen for displaying the final recognition result obtained by the evaluation unit 27, and outputs the generated display screen to the display device. Also, the output unit 28 outputs data including the final recognition result obtained by the evaluation unit 27 to an external device.
  • the image acquisition unit 21 acquires an image IMT by photographing a product shelf on which a plurality of products are displayed. Specifically, the image acquiring unit 21 acquires, as the image IMT, for example, an image of a state in which products such as PET bottled beverages are arranged in a row on the product shelf PS as shown in FIG.
  • FIG. 4 is a diagram showing an example of an image used in processing of the object recognition device according to the first embodiment.
  • the object recognition unit 22 detects a plurality of product areas SA and empty areas EA by performing object recognition processing on the image IMT. According to such processing, for example, areas as shown in FIG. 5 are detected as the product area SA and the empty area EA.
  • FIG. 5 is a diagram for explaining product areas and empty areas detected by processing of the object recognition device according to the first embodiment.
  • the object recognition unit 22 calculates a plurality of recognition scores, which are values indicating the probability of each class when each of the products included in the plurality of product areas SA is classified into one of a plurality of classes set in advance. get. Specifically, for example, when four classes A to D are set in advance, the object recognition unit 22 recognizes one product included in one product area SA as the recognition result of the one product.
  • Recognition score RA that indicates the probability of classifying the product into class A
  • recognition score RB that shows the probability of classifying the product into class B
  • probability of classifying the product into class C A recognition score RC and a recognition score RD indicating the probability of classifying the product into class D are obtained.
  • the object recognition unit 22 obtains recognition scores RA to RD for all product areas SA detected in the image IMT. According to the present embodiment, the object recognition unit 22 performs processing for adjusting the range of output values output through object recognition processing using a softmax function or the like. Therefore, in the present embodiment, the total value of the plurality of recognition scores acquired by the object recognition unit 22 is 1, and each of the plurality of recognition scores takes a value of 0 or more and 1 or less. .
  • connection relationship specifying unit 23 Based on the multiple product areas SA and the empty areas EA detected by the object recognition unit 22, the connection relationship specifying unit 23 performs processing for specifying the presence or absence of a connection relationship between the multiple product areas SA.
  • connection relationship identification unit 23 when the product area SAL corresponding to L is detected by the object recognition unit 22 will be described.
  • 6A to 6C are diagrams for explaining the processing related to specifying the connection relationship performed in the object recognition device according to the first embodiment.
  • connection relationship specifying unit 23 sets a rectangular area SAKA having the same size as the product area SAK at a position adjacent to the product area SAK. Specifically, for example, as shown in FIG. 6B, the connection relationship specifying unit 23 sets a rectangular area SAKA at a position adjacent to the right side of the product area SAK.
  • connection relationship identifying unit 23 detects an overlapping area TRA where the product area SAL and the rectangular area SAKA overlap, and calculates the ratio RKL of the overlapping area TRA to the product area SAL.
  • the overlapping area TRA is represented, for example, as an area as shown in FIG. 6C.
  • connection relationship specifying unit 23 determines whether or not the product area SAK and the product area SAL are adjacent based on the ratio RKL and the threshold THA.
  • the connection relationship identifying unit 23 determines that the product area SAK and the product area SAL are not adjacent to each other. Specifically, when the ratio RKL calculated according to the overlapping area TRA in FIG. 6C is less than the threshold value THA, it is determined that the product area SAK and the product area SAL are not adjacent to each other on the right side of the product area SAK. . When such a determination is made, the connection relationship identifying unit 23 determines that the product area SAK and the product area SAL arranged on the product shelf PS have a connection relationship in the horizontal direction of the product shelf PS. Identify what not to do.
  • the connection relationship identifying unit 23 determines that the product area SAK and the product area SAL are adjacent in the direction in which the rectangular area SAKA is set. Specifically, when the ratio RKL calculated according to the overlapping area TRA in FIG. 6C is equal to or greater than the threshold value THA, it is determined that the product area SAK and the product area SAL are adjacent to each other on the right side of the product area SAK. When such a determination is made, the connection relationship identifying unit 23 determines that the product area SAK and the product area SAL arranged on the product shelf PS have a connection relationship in the horizontal direction of the product shelf PS. Identify things.
  • connection relationship specifying unit 23 does not perform the above-described processing, and has no connectivity (in the direction of the free area EA).
  • the area relationship acquisition unit 24 determines the relationship between two adjacent product areas SA among the product areas SA specified by the connection relationship specifying unit 23 to have a connection relationship. Acquire the related area relationship information ARJ.
  • the area relationship acquisition unit 24 acquires area relationship information ARJ corresponding to, for example, the product areas SAK and SAL among the product areas SA specified by the connection relationship specifying unit 23 to have a connection relationship.
  • area similarity information GSJ which is information related to appearance similarity
  • size information SZJ which is information related to the relative size relationship
  • the area relationship acquisition unit 24 uses, for example, the feature vector SAKV calculated based on the color and pattern of the product K included in the product area SAK, and the color and pattern of the product L included in the product area SAL.
  • An appearance similarity GSD which is a value indicating the similarity between the feature vector SALV calculated based on the pattern, is obtained. Note that, in the present embodiment, the appearance similarity GSD is acquired as a cosine similarity that takes a value in the range of 0 or more and 1 or less, for example.
  • the appearance similarity GSD is acquired as a relatively large value, for example, when the feature vectors SAKV and SALV are close, that is, when the product areas SAK and SAL are similar to each other. Also, the appearance similarity GSD is obtained as a relatively small value, for example, when the feature vectors SAKV and SALV are distant, that is, when the product areas SAK and SAL are not similar to each other.
  • the region relationship acquisition unit 24 determines that, for example, the products K and L are arranged on the same shelf board of the product shelf PS, and at least one of the products K and L When one lower part is hidden by a shield such as an advertisement or a price tag, the coordinate value of the top of the product area SAK in the vertical direction is compared with the coordinate value of the top of the product area SAL in the vertical direction. Information related to the result may be acquired as size information SZJ.
  • the class relationship acquisition unit 25 acquires classes indicating the relationships among the classes A to D preset for obtaining recognition results in the object recognition unit 22.
  • a process for acquiring the relationship information CRJ is performed.
  • the attribute information ATJ may be created as information shown in FIG. 7, for example, when four classes A to D are set in the object recognition unit 22.
  • FIG. 7 is a diagram for explaining an example of attribute information used when acquiring class relationship information.
  • the name of the product belonging to class A is "PNA”
  • the name of the product belonging to class B is “PNB”
  • the name of the product belonging to class C is It indicates that it is “PNC” and that the name of the product belonging to class D is "PND”.
  • the attribute information ATJ "height”
  • the height of the product belonging to class A is "15 cm”
  • the height of the product belonging to class B is “15 cm”
  • the height of the product belonging to class C is "15 cm”. It is indicated that the height of the product is "18 cm” and that the height of the product belonging to class D is "8 cm".
  • the class relationship acquisition unit 25 obtains, for example, product name relationship information NRJ as shown in FIG. 8 as the class relationship information CRJ. and height relationship information HRJ as shown in FIG. 8 and 9 are diagrams for explaining examples of information that can be included as class relationship information.
  • the product name relationship information NRJ in FIG. correspond to information indicating whether or not they match. Specifically, according to the product name relationship information NRJ in FIG. It is shown that they match, and that they do not match the name of the product recognized as one of class B, class C, and class D by the object recognition unit 22 .
  • the class relationship acquisition unit 25 calculates product name relationship information NRJ based on images of products belonging to classes A to D instead of the information shown in FIG. A value of the inter-class similarity CSD may be acquired. Details of the inter-class similarity CSD will be described later.
  • the height relationship information HRJ in FIG. It corresponds to information indicating what kind of relationship there is between , and . Specifically, according to the height relationship information HRJ in FIG. the height of the product recognized as class C by the object recognition unit 22, and the height of the product recognized as class D by the object recognition unit 22. is shown to be greater than
  • the recognition result correction unit 26 obtains the connection relationship of the plurality of product areas SA obtained by the connection relationship identification unit 23, the area relationship information ARJ obtained by the area relationship acquisition unit 24, and the class relationship acquisition unit 25.
  • the recognition result obtained by the object recognition unit 22 is corrected by performing recognition result correction processing based on the obtained class relationship information CRJ.
  • recognition result correction processing will be described.
  • the product areas SAK and SAL identified by the connection relationship identifying unit 23 as having a connection relationship are included in the product area SAL based on the recognition result of the product K included in the product area SAK.
  • recognition scores RLA, RLB, RLC and Description will be given assuming that the RLD has been acquired.
  • area relationship information ARJ including appearance similarity information GSJ and size information SZJ is acquired.
  • class relationship information CRJ including the product name relationship information NRJ illustrated in FIG. 8 and the height relationship information HRJ illustrated in FIG. 9 is acquired.
  • correction values HVA the correction values obtained by such processing are collectively referred to as correction values HVA.
  • the recognition result correction unit 26 corrects the recognition scores RLA, RLB, RLC, and RLD based on the appearance similarity information GSJ and the product name relationship information NRJ, for example, assuming that the product K actually belongs to class A. Acquire the correction value HVA for
  • the recognition result correction unit 26 sets the product name relationship information NRJ to Based on this, it is determined that there is a high probability that the product L belongs to class A, and that the product L has a low probability that it belongs to any of classes B to D. Then, when such a determination is made, the recognition result correction unit 26 acquires 0 as the correction value HVA when the product K belongs to class A and the product L belongs to class A.
  • the recognition result correction unit 26 sets the correction value HVA for the case where the product K belongs to class A and the product L belongs to one of classes B to D as follows: A value (-GSD) obtained by converting the appearance similarity GSD into a negative value is acquired.
  • the recognition result correction unit 26 determines the product based on the product name relationship information NRJ. It is determined that the probability that L belongs to class A is low and that the product L belongs to one of classes B to D is high. Then, when such a determination is made, the recognition result correction unit 26 uses the appearance similarity GSD as the correction value HVA for the case where the product K belongs to class A and the product L belongs to class A.
  • the recognition result correction unit 26 sets the correction value HVA to 0 when the product K belongs to the class A and the product L belongs to one of the classes B to D. to get
  • the recognition result correction unit 26 performs the same processing as described above, so that when it is assumed that product K actually belongs to class B, when it is assumed that product K actually belongs to class C, Then, for each case where it is assumed that the product K actually belongs to class D, a correction value HVA for correcting the recognition scores RLA, RLB, RLC and RLD is acquired.
  • the recognition result correction unit 26 corrects the recognition score obtained by the object recognition processing of the object recognition unit 22 based on the appearance similarity information GSJ and the product name relationship information NRJ.
  • a correction value HVA for is acquired. Further, according to the processing described above, if there is no contradiction between the magnitude of the value of the appearance similarity GSD and the relationship between the classes A to D indicated by the product name relationship information NRJ, 0 is acquired as the correction value HVA. Further, according to the processing described above, if there is a contradiction between the value of the appearance similarity GSD and the relationship between classes A to D indicated by the product name relationship information NRJ, -GSD is obtained as the correction value HVA.
  • the recognition result correction unit 26 determines the value of the inter-class similarity CSD obtained based on the relationship between classes A to D indicated by the product name relationship information NRJ, etc., and the appearance similarity.
  • the correction value HVA may be obtained using a function that calculates a value of 0 or less according to the difference between the value of the degree GSD and the value of the degree GSD.
  • the inter-class similarity CSD may be set to be 1 when the product names of products K and L match, and to be 0 when the product names of products K and L do not match. .
  • the inter-class similarity CSD is, for example, a feature vector calculated from the image of the product actually belonging to class A, a feature vector calculated from the image of the product actually belonging to class B, and a product actually belonging to class C. and the feature vector calculated from the image of the product that actually belongs to class D. good.
  • the above-mentioned function is configured with, for example, a neural network, and the comparison result of the product names in the product areas SAK and SAL and the relationship between the classes A to D indicated by the product name relationship information NRJ. , may be implemented using a machine learning model that has been learned in advance so as to output the correction value HVA according to the input of .
  • correction values HVB the correction values obtained by such processing are collectively referred to as correction values HVB.
  • the recognition result correction unit 26 corrects the recognition scores RLA, RLB, RLC, and RLD based on the size information SZJ and the height relationship information HRJ, for example, when it is assumed that the product K actually belongs to class A. to obtain the correction value HVB of .
  • the recognition result correction unit 26 determines that the product L is class A based on the height relationship information HRJ. or B, and the product L is unlikely to belong to class C or D. Then, when such a determination is made, the recognition result correction unit 26 sets 0 as the correction value HVB when the product K belongs to class A and the product L belongs to either class A or B. get. Further, when the determination as described above is performed, the recognition result correction unit 26 sets the correction value HVB in the case where the product K belongs to class A and the product L belongs to either class C or D as - Get 1.
  • the recognition result correction unit 26 determines the probability that the product L belongs to class D based on the height relationship information HRJ. is high, and the probability that the product L belongs to class A, B, or C is low. Then, when such a determination is made, the recognition result correction unit 26 acquires 0 as the correction value HVB when the product K belongs to class A and the product L belongs to class D. Further, when the determination as described above is performed, the recognition result correction unit 26 sets the correction value HVB in the case where the product K belongs to class A and the product L belongs to any one of classes A to C as - Get 1.
  • the recognition result correction unit 26 determines the probability that the product L belongs to class C based on the height relationship information HRJ. is high, and the probability that the product L belongs to class A, B, or D is low. Then, when such a determination is made, the recognition result correction unit 26 acquires 0 as the correction value HVB when the product K belongs to class A and the product L belongs to class C. Further, when the determination as described above is performed, the recognition result correction unit 26 determines the correction value HVB -1 is obtained as
  • the recognition result correction unit 26 performs the same processing as described above, so that when it is assumed that product K actually belongs to class B, when it is assumed that product K actually belongs to class C, Then, for each case where it is assumed that the product K actually belongs to class D, a correction value HVB for correcting the recognition scores RLA, RLB, RLC and RLD is acquired.
  • the recognition result correction unit 26 corrects the recognition score obtained by the object recognition processing of the object recognition unit 22 based on the size information SZJ and the height relationship information HRJ.
  • a correction value HVB is obtained.
  • the comparison result of the heights HK and HL included in the size information SZJ and the relationship between the classes A to D indicated by the height relationship information HRJ , 0 is obtained as the correction value HVB.
  • the comparison result of the heights HK and HL included in the size information SZJ and the relationship between the classes A to D indicated by the height relationship information HRJ is inconsistent, -1 is obtained as the correction value HVB.
  • the recognition result correction unit 26 calculates a value of 0 or more when there is no contradiction as described above, and calculates a negative value when there is a contradiction as described above. It is also possible to obtain the correction value HVB using such a function.
  • the above-mentioned function is configured with, for example, a neural network, and includes the comparison result of the sizes of the product areas SAK and SAL, the relationship between the classes A to D indicated by the height relationship information HRJ, may be implemented using a pre-learned machine learning model so as to output the correction value HVB according to the input of .
  • the recognition result correction unit 26 corrects the recognition result obtained by the object recognition unit 22 by performing recognition result correction processing using the correction value HVA and the correction value HVB.
  • the recognition result correction unit 26 performs, for example, a process of adding the correction value HVA and the correction value HVB to each of the recognition scores RLA, RLB, RLC and RLD. According to such processing, a corrected recognition score ARLA corresponding to RLA+HVA+HVB, a corrected recognition score ARLB corresponding to RLB+HVA+HVB, a corrected recognition score ARLC corresponding to RLC+HVA+HVB, and a corrected recognition score corresponding to RLD+HVA+HVB are obtained. Scores ARLD and are obtained. Also, the corrected recognition scores ARLA to ARLD are acquired for each class to which the product K is assumed to belong. That is, the recognition result correction unit 26 acquires the corrected recognition scores ARLA to ARLD for each of the classes A to D to which the product K is assumed to belong.
  • the evaluation unit 27 performs a process of evaluating the recognition results obtained by the object recognition unit 22 using the plurality of corrected recognition results obtained by the recognition result correction unit 26, thereby performing processing to evaluate the recognition results included in the plurality of product areas SA. Obtain the final recognition result for the class to which each of the products included in the product belongs.
  • recognition scores RKA, RKB, RKC and Description will be made assuming that the RKD has been acquired. Further, in the following, a case where processing is performed using recognition scores RKA to RKD and corrected recognition scores ARLA to ARLD will be mainly described.
  • the evaluation unit 27 performs a process of adding the recognition score RKA to each of the corrected recognition scores ARLA to ARLD obtained when it is assumed that the product K actually belongs to class A. According to such processing, an evaluation value EVAA corresponding to RKA+ARLA, an evaluation value EVAB corresponding to RKA+ARLB, an evaluation value EVAC corresponding to RKA+ARLC, and an evaluation value EVAD corresponding to RKA+ARLD are obtained. .
  • the evaluation unit 27 performs a process of adding the recognition score RKB to each of the corrected recognition scores ARLA to ARLD obtained when it is assumed that the product K actually belongs to class B, for example. According to such processing, an evaluation value EVBA corresponding to RKB+ARLA, an evaluation value EVBB corresponding to RKB+ARLB, an evaluation value EVBC corresponding to RKB+ARLC, and an evaluation value EVBD corresponding to RKB+ARLD are obtained. .
  • the evaluation unit 27 performs a process of adding the recognition score RKC to each of the corrected recognition scores ARLA to ARLD obtained when it is assumed that the product K actually belongs to the class C, for example. According to such processing, an evaluation value EVCA corresponding to RKC+ARLA, an evaluation value EVCB corresponding to RKC+ARLB, an evaluation value EVCC corresponding to RKC+ARLC, and an evaluation value EVCD corresponding to RKC+ARLD are acquired. .
  • the evaluation unit 27 performs a process of adding the recognition score RKD to each of the corrected recognition scores ARLA to ARLD obtained when it is assumed that the product K actually belongs to class D, for example. According to such processing, an evaluation value EVDA corresponding to RKD+ARLA, an evaluation value EVDB corresponding to RKD+ARLB, an evaluation value EVDC corresponding to RKD+ARLC, and an evaluation value EVDD corresponding to RKD+ARLD are acquired. .
  • N (N ⁇ 2) products are arranged in a row on the product shelf PS, that is, when N product areas are When there is a connection relationship in the left-right direction, by performing processing using dynamic programming according to the following formulas (1) and (2), the evaluation value EV of the following formula (1) is maximized. information indicating the class of each product is acquired as the final recognition result.
  • x 1 indicates the class to which the first product from the left of the product shelf PS is assumed to actually belong
  • s 1 (x 1 ) is the recognition score corresponding to the class of x 1 . is shown.
  • s j (x j ⁇ 1 , x j ) is the j ⁇ 1 (2 ⁇ j ⁇ N)-th product from the left of the product shelf PS that actually belongs. and the class to which the j-th product from the left of the product shelf PS is recognized to belong.
  • x j indicates the class to which the j-th (2 ⁇ j ⁇ N) product from the left of the product shelf PS is estimated to belong
  • s j (x j ) is the class of x j .
  • Recognition scores corresponding to classes are shown.
  • h size (x j-1 , x j ) is the correction calculated by applying the above-described method to the j-1th and jth products from the left of the product shelf. corresponds to the value HVB.
  • h sim (x j ⁇ 1 , x j ) is the correction calculated by applying the above-described method to the j ⁇ 1th and jth products from the left of the product shelf. corresponds to the value HVA.
  • the evaluation unit 27 performs processing according to the above formulas (1) and (2) for the product SH2 and the third product SH3 from the left on the product shelf PS.
  • the evaluation unit 27 sequentially performs the processing according to the above formulas (1) and (2) from the product on the left side of the product shelf PS to the product on the right side, so that each of the N products arranged on the product shelf PS belongs to Get an estimation result for a class.
  • the evaluation unit 27 determines that each of the N products arranged on the product shelf PS, which is acquired so that the evaluation value EV of the above formula (1) becomes the maximum value, belongs to An estimation result related to the class is obtained as a final recognition result.
  • the output unit 28 generates a display screen for displaying the final recognition result obtained by the evaluation unit 27, and outputs the generated display screen to the display device. Also, the output unit 28 outputs data including the final recognition result obtained by the evaluation unit 27 to an external device.
  • the class to which each of the N products placed on the product shelf PS belongs is not limited to displaying the class corresponding to the final recognition result obtained by the evaluation unit 27.
  • a class corresponding to the uncorrected recognition result obtained by the object recognition unit 22 may be displayed together.
  • each of the N products placed on the product shelf PS belongs, for example, based on the user's subjectivity, or based on the processing result obtained by performing processing such as character recognition.
  • a display screen may be displayed so that the final recognition result can be corrected based on this.
  • the recognition result correcting unit 26 and the processing of the evaluation unit 27 may be performed again.
  • the recognition result after re-correction by further correcting the recognition result after correction by processing such as character recognition may be displayed.
  • a dialog or the like may be displayed that allows the user to decide whether the recognition result after recorrection is appropriate.
  • FIG. 10 is a flowchart for explaining processing performed in the object recognition device according to the first embodiment.
  • the image acquisition unit 21 acquires an image by photographing a product shelf on which a plurality of products are displayed (step S11).
  • the object recognition unit 22 performs object recognition processing on the image obtained in step S11 to acquire recognition results corresponding to each of the plurality of products included in the image (step S12). Specifically, in the recognition result described above, for example, there are a plurality of product areas, and each class when the products included in the plurality of product areas are classified into one of a plurality of preset classes. and a recognition score, which is a value indicating probability.
  • connection relationship identifying unit 23 performs processing for identifying the presence or absence of a connection relationship between a plurality of product areas in the recognition results obtained in step S12 (step S13).
  • the region relationship acquisition unit 24 determines the relationship between two adjacent product regions among the product regions identified as having a connection relationship in step S13.
  • the related area relation information is acquired (step S14).
  • the class relationship acquisition unit 25 determines relationships among a plurality of classes preset for obtaining a recognition result by the object recognition processing in step S12 based on the attribute information stored in the attribute information storage unit 25a. (step S15).
  • the recognition result correction unit 26 determines the connection relationship between the plurality of product areas identified in step S13, the area relationship information obtained in step S14, and the class relationship information obtained in step S15.
  • the recognition score included in the recognition result obtained in step S12 is corrected by performing the recognition result correction process based on (step S16). According to such processing, the recognition result correction unit 26 determines the number of classes recognized by the object recognition unit 22, the number of product areas SA specified to have a connection relationship by the connection relationship specifying unit 23, Acquire recognition results after a plurality of corrections according to .
  • the evaluation unit 27 performs processing for evaluating the recognition results obtained in step S12 using the plurality of corrected recognition results obtained in step S16, so that each of the products included in the plurality of product areas is evaluated. acquires the final recognition result related to the class to which the belongs (step S17).
  • the output unit 28 outputs the final recognition result obtained in step S17 to the display device, external device, etc. (step S18).
  • object recognition processing is performed on an image including a plurality of objects to obtain recognition results of the plurality of objects, and recognition results obtained by the object recognition processing are obtained.
  • Acquire a plurality of corrected recognition results by correcting the result based on the region relationship information and the class relationship information, and obtain the recognition result obtained by the object recognition processing using the plurality of corrected recognition results.
  • a final (optimized) recognition result can be obtained by evaluating . Therefore, according to the present embodiment, it is possible to improve the recognition accuracy of each object in a plurality of objects included in an image.
  • connection relationship specifying unit 23 performs the same process as described above to determine the shelf board of the product shelf PS. It may be specified whether or not the product area SAK and the product area SAL arranged on both sides have a connection relationship in the vertical direction of the product shelf PS.
  • the recognition result correction unit 26 is configured as, for example, a learned machine learning model having a Graph convolutional neural network, and is configured to output a correction value according to the graph data input to the machine learning model.
  • a plurality of nodes corresponding to each of the plurality of products included in the image IMT are connected by edges, and the relationships between the plurality of product regions corresponding to each of the plurality of products are connected.
  • information such as the appearance similarity information GSJ and the size information SZJ indicating is configured as data embedded as an edge feature amount.
  • Modification 3 For example, when N products are arranged in a horizontal row on the product shelf PS, that is, when N product areas have a connection relationship in the horizontal direction, the evaluation unit 27 calculates the following formula ( 3) and (4) are processed using the dynamic programming method so that the final recognition result is It may be obtained as
  • x 1 indicates the class to which the first product from the left of the product shelf PS actually belongs
  • r 1 (x 1 ) is from 1.0 to the class of x 1 . Values obtained by subtracting the corresponding recognition scores are shown.
  • h k (x k ⁇ 1 , x k ) is the k ⁇ 1 (2 ⁇ k ⁇ N)-th product from the left of the product shelf PS that actually belongs. and the class to which the k-th product from the left of the product shelf PS is recognized to belong.
  • x k indicates the class to which the k-th product from the left of the product shelf PS is estimated to belong
  • r k (x k ) corresponds to the class of x k from 1.0. It shows the value obtained by subtracting the recognition score for
  • M size (x k ⁇ 1 , x k ) is obtained when the heights (sizes) of the k ⁇ 1th and kth products from the left of the product shelf PS are the same. is 0 when the heights (sizes) do not match, and is 1 when the heights (sizes) do not match.
  • M sim (x k ⁇ 1 , x k ) is 0 when the k ⁇ 1th and kth products from the left of the product shelf PS belong to the same class, In addition, when they belong to mutually different classes, correction values corresponding to the following formula (5) are shown.
  • ( ⁇ k ⁇ 1 , ⁇ k ) are the feature vector of the product area corresponding to the k ⁇ 1th product from the left of the product shelf PS and the k It shows the angle formed by the feature vector of the product area corresponding to the th product.
  • FIG. 11 is a block diagram showing the functional configuration of an object recognition device according to the second embodiment.
  • the object recognition device 100A has the same hardware configuration as the object recognition device 100. Further, the object recognition device 100A includes image acquisition means 41, object recognition means 42, connection relationship identification means 43, area relationship acquisition means 44, class relationship acquisition means 45, recognition result correction means 46, and evaluation means 47 .
  • FIG. 12 is a flowchart for explaining the processing performed by the object recognition device according to the second embodiment.
  • the image acquisition means 41 acquires an image including a plurality of objects (step S41).
  • the object recognition means 42 obtains recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image (step S42).
  • connection relationship identifying means 43 Based on the recognition results obtained by the object recognition processing, the connection relationship identifying means 43 performs processing for identifying the presence or absence of a connection relationship between multiple object regions corresponding to each of multiple objects (step S43).
  • the area relationship acquisition means 44 acquires area relationship information, which is information related to the relationship of each object area specified to have a connection relationship (step S44).
  • the class relationship acquisition means 45 acquires class relationship information, which is information indicating relationships between a plurality of classes preset for obtaining recognition results by object recognition processing (step S45).
  • Recognition result correction means 46 performs recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information, thereby obtaining a plurality of corrected recognition results. Acquire (step S46).
  • the evaluation unit 47 obtains a final recognition result related to the class to which each of the plurality of objects belongs by evaluating the recognition result obtained by the object recognition processing using the plurality of corrected recognition results (step S47). ).
  • an image acquisition means for acquiring an image including a plurality of objects; object recognition means for obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; a connection relationship identifying means for performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects based on the recognition result obtained by the object recognition processing; an area relationship acquisition means for acquiring area relationship information, which is information relating to the relationship between the object areas specified to have the connection relationship; class relationship acquisition means for acquiring class relationship information, which is information indicating relationships between a plurality of classes preset for obtaining the recognition result by the object recognition processing; Recognition for acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information result correction means; evaluation means for obtaining a final recognition result related to a class to which each of the plurality of objects belongs, by evaluating the recognition result obtained by
  • the object recognition means performs the object recognition processing on the image, and calculates the probability of each class when each of the plurality of objects is classified into one of the plurality of classes as the recognition result.
  • the object recognition device of Supplementary Note 1 that obtains a recognition score that is an indicated value.
  • Appendix 3 Appearance similarity, which is information related to appearance similarity between objects included in the two object regions, as the region relationship information corresponding to the two object regions having the connection relationship.
  • the object recognition device according to Supplementary Note 2 that acquires information.
  • the class relationship acquisition means obtains, as the class relationship information, a name of an object assumed to actually belong to one of the plurality of classes and a name of the object recognized by the object recognition processing. 3.
  • the object recognition device which acquires object name relationship information that is information indicating whether or not .
  • the area relationship acquisition means is information relating to a relative size relationship between objects included in the two object areas as the area relationship information corresponding to the two object areas having the connection relationship.
  • the object recognition device according to Supplementary Note 2, which acquires size information.
  • the class relationship acquisition means obtains, as the class relationship information, the height of the object when it is assumed that it actually belongs to one of the plurality of classes and the height of the object recognized by the object recognition processing. 6.
  • the object recognition device which acquires height relationship information, which is information indicating what kind of relationship there is between .
  • (Appendix 9) Acquire an image containing multiple objects, obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; Based on the recognition result obtained by the object recognition processing, performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects, Acquiring area relationship information, which is information relating to the relationship between each object area specified to have the connection relationship, Acquiring class relationship information, which is information indicating a relationship between a plurality of classes preset for obtaining the recognition result by the object recognition processing, Acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information; An object recognition method for acquiring a final recognition result related to a class to which each of the plurality of objects belongs by evaluating the recognition result obtained by the object recognition processing using the plurality of corrected recognition results.
  • (Appendix 10) Acquire an image containing multiple objects, obtaining recognition results corresponding to each of the plurality of objects included in the image by performing object recognition processing on the image; Based on the recognition result obtained by the object recognition processing, performing processing for identifying the presence or absence of a connection relationship between a plurality of object regions corresponding to each of the plurality of objects, Acquiring area relationship information, which is information relating to the relationship between each object area specified to have the connection relationship, Acquiring class relationship information, which is information indicating a relationship between a plurality of classes preset for obtaining the recognition result by the object recognition processing, Acquiring a plurality of corrected recognition results by performing recognition result correction processing for correcting the recognition results obtained by the object recognition processing based on the region relationship information and the class relationship information; a process of obtaining a final recognition result related to a class to which each of the plurality of objects belongs by evaluating the recognition result obtained by the object recognition process using the plurality of corrected recognition results;
  • a recording medium that records a program to be executed.
  • image acquisition unit 22 object recognition unit 23 connection relationship identification unit 24 area relationship acquisition unit 25 class relationship acquisition unit 26 recognition result correction unit 27 evaluation unit 28 output unit 100 object recognition device

Abstract

物体認識装置において、画像取得手段は、複数の物体を含む画像を取得する。物体認識手段は、物体認識処理を行うことにより、画像に含まれる複数の物体各々に対応する認識結果を取得する。接続関係特定手段は、認識結果に基づき、複数の物体各々に対応する複数の物体領域の接続関係の有無を特定する。領域関係性取得手段は、接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得する。クラス関係性取得手段は、認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得する。認識結果補正手段は、領域関係性情報及びクラス関係性情報に基づいて認識結果を補正することにより、複数の補正後の認識結果を取得する。評価手段は、複数の補正後の認識結果を用いて認識結果を評価することにより、複数の物体各々が属するクラスに係る最終的な認識結果を取得する。

Description

物体認識装置、物体認識方法、及び、記憶媒体
 本開示は、画像に含まれる物体の認識に関する。
 店舗内の商品棚を撮影した画像を用い、商品の棚割を管理する手法が提案されている。
 具体的には、例えば、特許文献1には、複数の商品が配列された商品棚を撮影して得られた画像において、一の商品領域画像により表される商品を第1の商品として認識し、当該一の商品領域画像以外の他の商品領域画像により表される商品を第2の商品として認識し、さらに、当該第1の商品と当該第2の商品との関連性に基づき、当該一の商品領域画像を当該第1の商品として認識したことの妥当性を判定する観点が開示されている。
国際公開WO2019/107157号公報
 しかし、特許文献1に開示された観点によれば、複数の商品における商品同士の関連性に基づいて認識結果の妥当性が判定されることに起因し、当該複数の商品における個々の商品の認識精度が低下してしまう場合がある、という課題が生じている。
 本開示の1つの目的は、画像に含まれる複数の物体における個々の物体の認識精度を向上させることが可能な物体識別装置を提供することにある。
 本開示の一つの観点では、物体認識装置は、
 複数の物体を含む画像を取得する画像取得手段と、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得する物体認識手段と、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行う接続関係特定手段と、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得する領域関係性取得手段と、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得するクラス関係性取得手段と、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得する認識結果補正手段と、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する評価手段と、を備える。
 本開示の他の観点では、物体認識方法は、
 複数の物体を含む画像を取得し、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する。
 本開示のさらに他の観点では、記録媒体は、
 複数の物体を含む画像を取得し、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する処理をコンピュータに実行させるプログラムを記録する。
 本開示によれば、画像に含まれる複数の物体における個々の物体の認識精度を向上させることが可能な物体識別装置を提供することができる。
第1実施形態に係る物体認識装置の概略を示す図。 第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図。 第1実施形態に係る物体認識装置の機能構成を示すブロック図。 第1実施形態に係る物体認識装置の処理において用いられる画像の一例を示す図。 第1実施形態に係る物体認識装置の処理により検出される商品領域及び空き領域を説明するための図。 第1実施形態に係る物体認識装置において行われる接続関係の特定に係る処理を説明するための図。 第1実施形態に係る物体認識装置において行われる接続関係の特定に係る処理を説明するための図。 第1実施形態に係る物体認識装置において行われる接続関係の特定に係る処理を説明するための図。 クラス関係性情報を取得する際に用いられる属性情報の例を説明するための図。 クラス関係性情報として含まれ得る情報の例を説明するための図。 クラス関係性情報として含まれ得る情報の例を説明するための図。 第1実施形態に係る物体認識装置において行われる処理を説明するためのフローチャート。 第2の実施形態に係る物体認識装置の機能構成を示すブロック図。 第2の実施形態に係る物体認識装置において行われる処理を説明するためのフローチャート。
 以下、図面を参照して、本開示の好適な実施形態について説明する。なお、本明細書においては、任意の記号の上に「~」が付された文字を、便宜上、「A~」(「A」は任意の文字)と表すものとする。
 <第1実施形態>
 [概略構成]
 図1は、第1実施形態に係る物体認識装置の概略を示す図である。物体認識装置100は、例えば、タブレット端末等のような可搬型の端末装置として構成されている。また、物体認識装置100は、店舗の商品棚を撮影して得られた画像から、商品棚に陳列された個々の商品を認識する。また、物体認識装置100は、個々の商品を認識した認識結果に対して補正等の処理を施すことにより得られた処理結果を、最終的な認識結果として取得する。
 [ハードウェア構成]
 図2は、第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。物体認識装置100は、図2に示すように、インタフェース(IF)111と、プロセッサ112と、メモリ113と、記録媒体114と、データベース(DB)115と、カメラ116と、タッチパネル117と、を備える。
 IF111は、外部装置との間でデータの入出力を行う。また、物体認識装置100により得られた最終的な認識結果は、必要に応じ、IF111を通じて外部装置へ出力される。
 プロセッサ112は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。具体的には、プロセッサ112は、物体認識処理、及び、認識結果補正処理等の処理を行う。
 メモリ113は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ113は、プロセッサ112による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体114は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体114は、プロセッサ112が実行する各種のプログラムを記録している。物体認識装置100が各種の処理を実行する際には、記録媒体114に記録されているプログラムがメモリ113にロードされ、プロセッサ112により実行される。
 データベース115には、例えば、IF111を通じて入力された情報、プロセッサ112の処理により得られた処理結果、及び、カメラ116により得られた画像等が格納される。
 カメラ116は、複数の商品が陳列された商品棚を撮影して画像を取得する。なお、本実施形態においては、複数の商品がカメラ116から略等距離の位置に配置されている限りは、当該複数の商品が商品棚以外の什器等に配置されていてもよい。また、本実施形態においては、カメラ116として、例えば、撮影時に画像及び奥行き情報を併せて取得することが可能なデプスカメラが物体認識装置100に設けられていてもよい。そして、デプスカメラを物体認識装置100に設けた場合には、例えば、複数の商品がカメラ116から略等距離の位置に配置されていない場合であっても、後述のサイズ情報SZJとして適正な情報を取得することができる。
 タッチパネル117は、例えば、カメラ116により撮影された画像、及び、プロセッサ112の処理により得られた最終的な認識結果等を表示可能な機能を有している。また、タッチパネル117は、例えば、ユーザのタッチ操作に応じた指示及び情報等を入力可能な機能を有している。
 [機能構成]
 図3は、第1実施形態に係る物体認識装置の機能構成を示すブロック図である。物体認識装置100は、図3に示すように、画像取得部21と、物体認識部22と、接続関係特定部23と、領域関係性取得部24と、クラス関係性取得部25と、認識結果補正部26と、評価部27と、出力部28と、を有している。
 画像取得部21は、複数の商品が陳列された商品棚を撮影して画像IMTを取得する。なお、画像取得部21は、商品棚を撮影して画像IMTを取得するものに限らず、例えば、商品棚を撮影した画像群が予め蓄積されているデータベース等から画像IMTを取得するようにしてもよい。
 物体認識部22は、例えば、ニューラルネットワーク等により構成された学習済みの物体認識モデルを用いて画像IMTに対して物体認識処理を行うことにより、当該画像IMTに含まれる複数の商品各々に対応する認識結果を取得する。
 具体的には、物体認識部22は、画像IMTに含まれる複数の商品各々に対応する矩形領域を複数の商品領域SAとして検出するとともに、当該画像IMTにおいて一定距離以内に商品が存在しない領域を空き領域EAとして検出する。また、物体認識部22は、複数の商品領域SAの位置、サイズ及び特徴量を抽出することにより得られた抽出結果に基づき、当該複数の商品領域SAに含まれる商品各々を予め設定された複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である認識スコアを取得する。
 接続関係特定部23は、物体認識部22により検出された複数の商品領域SAに基づき、当該複数の商品領域SAの接続関係の有無を特定するための処理を行う。換言すると、接続関係特定部23は、物体認識部22の物体認識処理により得られた認識結果に基づき、複数の商品各々に対応する複数の商品領域SAの接続関係の有無を特定するための処理を行う。
 領域関係性取得部24は、画像IMTを解析することにより、接続関係特定部23により接続関係を有することが特定された各商品領域SAの関係性に係る情報である領域関係性情報ARJを取得する。具体的には、領域関係性取得部24は、画像IMTを解析することにより、例えば、接続関係特定部23により接続関係を有することが特定された各商品領域SAのうち、互いに隣接する2つの商品領域SAの関係性に係る領域関係性情報ARJを取得する。
 クラス関係性取得部25は、属性情報格納部25aに格納されている属性情報ATJに基づき、物体認識部22において認識結果を得るために予め設定されている複数のクラスの関係性を示すクラス関係性情報CRJを取得するための処理を行う。
 認識結果補正部26は、接続関係特定部23により得られた複数の商品領域SAの接続関係と、領域関係性取得部24により得られた領域関係性情報ARJと、クラス関係性取得部25により得られたクラス関係性情報CRJと、に基づいて認識結果補正処理を行うことにより、物体認識部22により得られた認識結果を補正する。そして、認識結果補正部26は、物体認識部22により認識されるクラスの数と、接続関係特定部23により接続関係を有することが特定された商品領域SAの数と、に応じた複数の補正後の認識結果を取得する。すなわち、認識結果補正部26は、領域関係性情報ARJ及びクラス関係性情報CRJに基づいて物体認識部22の物体認識処理により得られた認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得する。
 評価部27は、認識結果補正部26により得られた複数の補正後の認識結果を用い、物体認識部22の物体認識処理により得られた認識結果を評価する処理を行うことにより、複数の商品領域SAに含まれる複数の商品各々が属するクラスに係る最終的な認識結果を取得する。
 出力部28は、評価部27により得られた最終的な認識結果を表示するための表示画面を生成し、当該生成した表示画面を表示装置へ出力する。また、出力部28は、評価部27により得られた最終的な認識結果等を含むデータを外部装置へ出力する。
 [物体認識装置において行われる処理の具体例]
 続いて、第1実施形態に係る物体認識装置において行われる処理の具体例について説明する。
 画像取得部21は、複数の商品が陳列された商品棚を撮影して画像IMTを取得する。具体的には、画像取得部21は、画像IMTとして、例えば、図4に示すような、商品棚PSの上にペットボトル飲料等の商品が一列に並べられた状態の画像を取得する。図4は、第1実施形態に係る物体認識装置の処理において用いられる画像の一例を示す図である。
 物体認識部22は、画像IMTに対して物体認識処理を行うことにより、複数の商品領域SA及び空き領域EAを検出する。このような処理によれば、商品領域SA及び空き領域EAとして、例えば、図5に示すような領域が検出される。図5は、第1実施形態に係る物体認識装置の処理により検出される商品領域及び空き領域を説明するための図である。
 また、物体認識部22は、複数の商品領域SAに含まれる商品各々を予め設定された複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である複数の認識スコアを取得する。具体的には、物体認識部22は、例えば、クラスA~Dの4つのクラスが予め設定されている場合には、一の商品領域SAに含まれる一の商品の認識結果として、当該一の商品をクラスAに分類した場合の蓋然性を示す認識スコアRA、当該一の商品をクラスBに分類した場合の蓋然性を示す認識スコアRB、当該一の商品をクラスCに分類した場合の蓋然性を示す認識スコアRC、及び、当該一の商品をクラスDに分類した場合の蓋然性を示す認識スコアRDを取得する。また、物体認識部22は、クラスA~Dの4つのクラスが予め設定されている場合には、画像IMTにおいて検出した全ての商品領域SAについて、認識スコアRA~RDを取得する。なお、本実施形態によれば、物体認識部22において、物体認識処理を経て出力された出力値の範囲をソフトマックス関数等により調整する処理が行われる。そのため、本実施形態においては、物体認識部22により取得された複数の認識スコアの合計値が1になるとともに、当該複数の認識スコア各々が0以上かつ1以下の値をとるものとして説明を行う。
 接続関係特定部23は、物体認識部22により検出された複数の商品領域SA及び空き領域EAに基づき、当該複数の商品領域SAの接続関係の有無を特定するための処理を行う。
 ここで、例えば、図6Aに示すように、商品棚PSに配置されている商品Kに対応する商品領域SAKと、当該商品棚PSにおいて当該商品Kと同一の棚板上に配置されている商品Lに対応する商品領域SALと、が物体認識部22により検出された場合における接続関係特定部23の処理について説明する。図6A~6Cは、第1実施形態に係る物体認識装置において行われる接続関係の特定に係る処理を説明するための図である。
 まず、接続関係特定部23は、商品領域SAKに隣接する位置に、当該商品領域SAKと同じサイズを有する矩形領域SAKAを設定する。具体的には、接続関係特定部23は、例えば、図6Bに示すように、商品領域SAKの右側に隣接する位置に矩形領域SAKAを設定する。
 次に、接続関係特定部23は、商品領域SALと矩形領域SAKAとが重複する重複領域TRAを検出するとともに、当該商品領域SALに対する当該重複領域TRAの割合RKLを算出する。重複領域TRAは、例えば、図6Cのような領域として表される。
 その後、接続関係特定部23は、割合RKLと、閾値THAと、に基づき、商品領域SAKと商品領域SALとが隣接するか否かを判定する。
 接続関係特定部23は、割合RKLが閾値THA未満である場合には、商品領域SAKと商品領域SALとが隣接しないと判定する。具体的には、図6Cの重複領域TRAに応じて算出した割合RKLが閾値THA未満である場合には、商品領域SAKの右側において、当該商品領域SAKと商品領域SALとが隣接しないと判定する。そして、このような判定を行った場合には、接続関係特定部23は、商品棚PSに配置されている商品領域SAKと商品領域SALとが、当該商品棚PSの左右方向に接続関係を有しないことを特定する。
 また、接続関係特定部23は、割合RKLが閾値THA以上である場合には、矩形領域SAKAを設定した方向において、商品領域SAKと商品領域SALとが隣接すると判定する。具体的には、図6Cの重複領域TRAに応じて算出した割合RKLが閾値THA以上である場合には、商品領域SAKの右側において、当該商品領域SAKと商品領域SALとが隣接すると判定する。そして、このような判定を行った場合には、接続関係特定部23は、商品棚PSに配置されている商品領域SAKと商品領域SALとが、当該商品棚PSの左右方向に接続関係を有することを特定する。
 なお、接続関係特定部23は、例えば、商品領域SAKと商品領域SALとの間に空き領域EAが存在する場合には、以上に述べた処理を行わずに、商品領域SAKと商品領域SALとが(当該空き領域EAの方向に)接続関係を有しないことを特定してもよい。
 領域関係性取得部24は、画像IMTを解析することにより、接続関係特定部23により接続関係を有することが特定された各商品領域SAのうち、互いに隣接する2つの商品領域SAの関係性に係る領域関係性情報ARJを取得する。
 具体的には、領域関係性取得部24は、接続関係特定部23により接続関係を有することが特定された各商品領域SAのうち、例えば、商品領域SAK及びSALに対応する領域関係性情報ARJとして、外観の類似性に係る情報である外観類似性情報GSJと、相対的なサイズの大小関係に係る情報であるサイズ情報SZJと、を取得する。
 領域関係性取得部24は、外観類似性情報GSJとして、例えば、商品領域SAKに含まれる商品Kの色及び模様に基づいて算出した特徴ベクトルSAKVと、商品領域SALに含まれる商品Lの色及び模様に基づいて算出した特徴ベクトルSALVと、の類似度を示す値である外観類似度GSDを取得する。なお、本実施形態においては、外観類似度GSDが、例えば、0以上かつ1以下の範囲の値をとるコサイン類似度として取得される。そのため、外観類似度GSDは、例えば、特徴ベクトルSAKV及びSALVが近い場合、すなわち、商品領域SAK及びSALが互いに類似している場合には、相対的に大きな値として取得される。また、外観類似度GSDは、例えば、特徴ベクトルSAKV及びSALVが遠い場合、すなわち、商品領域SAK及びSALが互いに類似していない場合には、相対的に小さな値として取得される。
 領域関係性取得部24は、サイズ情報SZJとして、例えば、商品領域SAKの鉛直方向の高さHKと、商品領域SALの鉛直方向の高さHLと、を比較することにより得られた比較結果に係る情報を取得する。具体的には、領域関係性取得部24は、サイズ情報SZJとして、例えば、高さHKが高さHLより大きいこと(HK>HL)、高さHKと高さHLとが一致すること(HK=HL)、または、高さHKが高さHLより小さいこと(HK<HL)のいずれかを示す情報を取得する。なお、本実施形態によれば、領域関係性取得部24は、例えば、商品K及びLが商品棚PSの同一の棚板上に配置されており、かつ、当該商品K及びLのうちの少なくとも一方の下部が広告及び値札等の遮蔽物により隠されている場合に、商品領域SAKの鉛直方向の最上部の座標値と、商品領域SALの鉛直方向の最上部の座標値と、を比較した結果に係る情報をサイズ情報SZJとして取得するようにしてもよい。
 クラス関係性取得部25は、属性情報格納部25aに格納されている属性情報ATJに基づき、物体認識部22において認識結果を得るために予め設定されているクラスA~Dの関係性を示すクラス関係性情報CRJを取得するための処理を行う。
 属性情報ATJは、クラスA~Dの4つのクラスが物体認識部22において設定されている場合には、例えば、図7に示すような情報として作成されていればよい。図7は、クラス関係性情報を取得する際に用いられる属性情報の例を説明するための図である。
 属性情報ATJの「商品名」によれば、クラスAに属する商品の名称が「PNA」であること、クラスBに属する商品の名称が「PNB」であること、クラスCに属する商品の名称が「PNC」であること、及び、クラスDに属する商品の名称が「PND」であることが示されている。また、属性情報ATJの「高さ」によれば、クラスAに属する商品の高さが「15cm」であること、クラスBに属する商品の高さが「15cm」であること、クラスCに属する商品の高さが「18cm」であること、及び、クラスDに属する商品の高さが「8cm」であることが示されている。
 クラス関係性取得部25は、図7の属性情報ATJが属性情報格納部25aに格納されている場合には、クラス関係性情報CRJとして、例えば、図8に示すような商品名関係性情報NRJと、図9に示すような高さ関係性情報HRJと、を取得するための処理を行う。図8及び図9は、クラス関係性情報として含まれ得る情報の例を説明するための図である。
 図8の商品名関係性情報NRJは、クラスA~Dの4つのクラスのうちの一のクラスに実際に属すると仮定した場合の商品の名称と、物体認識部22により認識された商品の名称と、が一致しているか否かを示す情報に相当する。具体的には、図8の商品名関係性情報NRJによれば、例えば、実際にクラスAに属すると仮定した商品の名称について、物体認識部22がクラスAであると認識した商品の名称と一致すること、並びに、物体認識部22がクラスB、クラスC及びクラスDのうちのいずれかであると認識した商品の名称とは一致しないことが示されている。
 なお、本実施形態によれば、クラス関係性取得部25は、商品名関係性情報NRJとして、例えば、図8に示した情報の代わりに、クラスA~Dに属する商品の画像に基づいて算出したクラス間類似度CSDの値を取得するものであってもよい。クラス間類似度CSDの詳細については、後程説明する。
 図9の高さ関係性情報HRJは、クラスA~Dの4つのクラスのうちの一のクラスに実際に属すると仮定した場合の商品の高さと、物体認識部22により認識された商品の高さと、がどのような関係を有しているかを示す情報に相当する。具体的には、図9の高さ関係性情報HRJによれば、例えば、実際にクラスAに属すると仮定した商品の高さについて、物体認識部22がクラスA及びクラスBのうちのいずれかであると認識した商品の高さと同じであること、物体認識部22がクラスCであると認識した商品の高さより小さいこと、並びに、物体認識部22がクラスDであると認識した商品の高さより大きいことが示されている。
 認識結果補正部26は、接続関係特定部23により得られた複数の商品領域SAの接続関係と、領域関係性取得部24により得られた領域関係性情報ARJと、クラス関係性取得部25により得られたクラス関係性情報CRJと、に基づいて認識結果補正処理を行うことにより、物体認識部22により得られた認識結果を補正する。
 ここで、認識結果補正処理の具体例について説明する。なお、以下においては、接続関係特定部23により接続関係を有することが特定された商品領域SAK及びSALについて、当該商品領域SAKに含まれる商品Kの認識結果を基準として、当該商品領域SALに含まれる商品Lの認識結果を補正する場合について説明する。また、以下においては、物体認識部22が商品領域SALに含まれる商品Lを認識した認識結果として、当該商品LをクラスA~Dに分類した場合の蓋然性を示す認識スコアRLA、RLB、RLC及びRLDが取得されたものとして説明を行う。また、以下においては、外観類似性情報GSJ及びサイズ情報SZJを含む領域関係性情報ARJが取得されたものとして説明を行う。また、以下においては、図8に例示した商品名関係性情報NRJと、図9に例示した高さ関係性情報HRJと、を含むクラス関係性情報CRJが取得されたものとして説明を行う。
 まず、領域関係性情報ARJに含まれる外観類似性情報GSJと、クラス関係性情報CRJに含まれる商品名関係性情報NRJと、に基づいて補正値を取得する処理について説明する。なお、以降においては、このような処理により取得される補正値を包括して補正値HVAと称するものとする。
 認識結果補正部26は、外観類似性情報GSJ及び商品名関係性情報NRJに基づき、例えば、商品Kが実際にクラスAに属すると仮定した場合において、認識スコアRLA、RLB、RLC及びRLDを補正するための補正値HVAを取得する。
 具体的には、認識結果補正部26は、例えば、外観類似性情報GSJに含まれる外観類似度GSDが大きな値(1または1に近い値)である場合には、商品名関係性情報NRJに基づき、商品LがクラスAに属する蓋然性が高く、かつ、当該商品LがクラスB~Dのいずれかに属する蓋然性が低いと判定する。そして、このような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスAに属する場合の補正値HVAとして0を取得する。また、前述のような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスB~Dのいずれかに属する場合の補正値HVAとして、外観類似度GSDを負の値に変換した値(-GSD)を取得する。
 また、認識結果補正部26は、例えば、外観類似性情報GSJに含まれる外観類似度GSDが小さな値(0または0に近い値)である場合には、商品名関係性情報NRJに基づき、商品LがクラスAに属する蓋然性が低く、かつ、当該商品LがクラスB~Dのいずれかに属する蓋然性が高いと判定する。そして、このような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスAに属する場合の補正値HVAとして、外観類似度GSDを負の値に変換した値(-GSD)を取得する。また、前述のような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスB~Dのいずれかに属する場合の補正値HVAとして0を取得する。
 認識結果補正部26は、以上に述べた処理と同様の処理を行うことにより、商品Kが実際にクラスBに属すると仮定した場合、当該商品Kが実際にクラスCに属すると仮定した場合、及び、当該商品Kが実際にクラスDに属すると仮定した場合の各々について、認識スコアRLA、RLB、RLC及びRLDを補正するための補正値HVAを取得する。
 すなわち、以上に述べた処理によれば、認識結果補正部26は、外観類似性情報GSJ及び商品名関係性情報NRJに基づき、物体認識部22の物体認識処理により得られた認識スコアを補正するための補正値HVAを取得する。また、以上に述べたような処理によれば、外観類似度GSDの値の大きさと、商品名関係性情報NRJにより示されるクラスA~Dの関係と、の間に矛盾がない場合には、補正値HVAとして0が取得される。また、以上に述べたような処理によれば、外観類似度GSDの値の大きさと、商品名関係性情報NRJにより示されるクラスA~Dの関係と、の間に矛盾がある場合には、補正値HVAとして-GSDが取得される。
 なお、本実施形態によれば、認識結果補正部26は、例えば、商品名関係性情報NRJ等により示されるクラスA~Dの関係に基づいて得られるクラス間類似度CSDの値と、外観類似度GSDの値と、の差に応じた0以下の値が算出される関数を用いて補正値HVAを取得するようにしてもよい。クラス間類似度CSDは、例えば、商品K及びLの商品名が一致する場合に1となり、かつ、当該商品K及びLの商品名が一致しない場合に0となるように設定されていればよい。または、クラス間類似度CSDは、例えば、実際にクラスAに属する商品の画像から算出した特徴ベクトルと、実際にクラスBに属する商品の画像から算出した特徴ベクトルと、実際にクラスCに属する商品の画像から算出した特徴ベクトルと、実際にクラスDに属する商品の画像から算出した特徴ベクトルと、のうちの2つの特徴ベクトルにおける類似度を示す0以上かつ1以下の値として設定されていればよい。また、前述の関数は、例えば、ニューラルネットワークを有して構成されているとともに、商品領域SAK及びSALの商品名の比較結果と、商品名関係性情報NRJにより示されるクラスA~Dの関係と、の入力に応じた補正値HVAを出力するように予め学習された機械学習モデルを用いて実現されるものであってもよい。そして、以上に述べた構成によれば、例えば、CSD=0.7かつGSD=0.7の場合の補正値HVAとして0を取得することができる。また、以上に述べた構成によれば、例えば、CSD=0.7かつGSD=0.8の場合の補正値HVAとして-0.1を取得することができる。また、以上に述べた構成によれば、例えば、CSD=0.7かつGSD=0.4の場合の補正値HVAとして-0.3を取得することができる。
 次に、領域関係性情報ARJに含まれるサイズ情報SZJと、クラス関係性情報CRJに含まれる高さ関係性情報HRJと、に基づいて補正値を取得する処理について説明する。なお、以降においては、このような処理により取得される補正値を包括して補正値HVBと称するものとする。
 認識結果補正部26は、サイズ情報SZJ及び高さ関係性情報HRJに基づき、例えば、商品Kが実際にクラスAに属すると仮定した場合において、認識スコアRLA、RLB、RLC及びRLDを補正するための補正値HVBを取得する。
 具体的には、認識結果補正部26は、例えば、HK=HLであることを示す情報がサイズ情報SZJに含まれている場合には、高さ関係性情報HRJに基づき、商品LがクラスAまたはBのいずれかに属する蓋然性が高く、かつ、当該商品LがクラスCまたはDのいずれかに属する蓋然性が低いと判定する。そして、このような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスAまたはBのいずれかに属する場合の補正値HVBとして0を取得する。また、前述のような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスCまたはDのいずれかに属する場合の補正値HVBとして-1を取得する。
 また、認識結果補正部26は、例えば、HK>HLであることを示す情報がサイズ情報SZJに含まれている場合には、高さ関係性情報HRJに基づき、商品LがクラスDに属する蓋然性が高く、かつ、当該商品LがクラスA、BまたはCのいずれかに属する蓋然性が低いと判定する。そして、このような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスDに属する場合の補正値HVBとして0を取得する。また、前述のような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスA~Cのいずれかに属する場合の補正値HVBとして-1を取得する。
 また、認識結果補正部26は、例えば、HK<HLであることを示す情報がサイズ情報SZJに含まれている場合には、高さ関係性情報HRJに基づき、商品LがクラスCに属する蓋然性が高く、かつ、当該商品LがクラスA、BまたはDのいずれかに属する蓋然性が低いと判定する。そして、このような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスCに属する場合の補正値HVBとして0を取得する。また、前述のような判定を行った場合には、認識結果補正部26は、商品KがクラスAに属し、かつ、商品LがクラスA、BまたはDのいずれかに属する場合の補正値HVBとして-1を取得する。
 認識結果補正部26は、以上に述べた処理と同様の処理を行うことにより、商品Kが実際にクラスBに属すると仮定した場合、当該商品Kが実際にクラスCに属すると仮定した場合、及び、当該商品Kが実際にクラスDに属すると仮定した場合の各々について、認識スコアRLA、RLB、RLC及びRLDを補正するための補正値HVBを取得する。
 すなわち、以上に述べた処理によれば、認識結果補正部26は、サイズ情報SZJ及び高さ関係性情報HRJに基づき、物体認識部22の物体認識処理により得られた認識スコアを補正するための補正値HVBを取得する。また、以上に述べたような処理によれば、サイズ情報SZJに含まれている高さHK及びHLの比較結果と、高さ関係性情報HRJにより示されるクラスA~Dの関係と、の間に矛盾がない場合には、補正値HVBとして0が取得される。また、以上に述べたような処理によれば、サイズ情報SZJに含まれている高さHK及びHLの比較結果と、高さ関係性情報HRJにより示されるクラスA~Dの関係と、の間に矛盾がある場合には、補正値HVBとして-1が取得される。
 なお、本実施形態によれば、認識結果補正部26は、例えば、前述の矛盾がない場合に0以上の値が算出され、かつ、前述の矛盾がある場合に負の値が算出されるような関数を用いて補正値HVBを取得するようにしてもよい。また、前述の関数は、例えば、ニューラルネットワークを有して構成されているとともに、商品領域SAK及びSALのサイズの比較結果と、高さ関係性情報HRJにより示されるクラスA~Dの関係と、の入力に応じた補正値HVBを出力するように予め学習された機械学習モデルを用いて実現されるものであってもよい。
 認識結果補正部26は、補正値HVA及び補正値HVBを用いた認識結果補正処理を行うことにより、物体認識部22により得られた認識結果を補正する。
 具体的には、認識結果補正部26は、認識結果補正処理として、例えば、認識スコアRLA、RLB、RLC及びRLDの各々に対し、補正値HVA及び補正値HVBを加算する処理を行う。そして、このような処理によれば、RLA+HVA+HVBに相当する補正済認識スコアARLAと、RLB+HVA+HVBに相当する補正済認識スコアARLBと、RLC+HVA+HVBに相当する補正済認識スコアARLCと、RLD+HVA+HVBに相当する補正済認識スコアARLDと、が取得される。また、補正済認識スコアARLA~ARLDは、商品Kが属すると仮定したクラス毎に取得される。すなわち、認識結果補正部26は、商品Kが属すると仮定したクラスA~Dの各々について、補正済認識スコアARLA~ARLDを取得する。
 評価部27は、認識結果補正部26により得られた複数の補正後の認識結果を用い、物体認識部22により得られた認識結果を評価する処理を行うことにより、複数の商品領域SAに含まれる商品各々が属するクラスに係る最終的な認識結果を取得する。
 ここで、物体認識部22により得られた認識結果の評価に係る処理の具体例について説明する。なお、以下においては、物体認識部22が商品領域SAKに含まれる商品Kを認識した認識結果として、当該商品KをクラスA~Dに分類した場合の蓋然性を示す認識スコアRKA、RKB、RKC及びRKDが取得されたものとして説明を行う。また、以下においては、認識スコアRKA~RKDと、補正済認識スコアARLA~ARLDと、を用いて処理を行う場合について主に説明する。
 評価部27は、例えば、商品Kが実際にクラスAに属すると仮定した場合に得られた補正済認識スコアARLA~ARLDの各々に対して認識スコアRKAを加算する処理を行う。そして、このような処理によれば、RKA+ARLAに相当する評価値EVAAと、RKA+ARLBに相当する評価値EVABと、RKA+ARLCに相当する評価値EVACと、RKA+ARLDに相当する評価値EVADと、が取得される。
 また、評価部27は、例えば、商品Kが実際にクラスBに属すると仮定した場合に得られた補正済認識スコアARLA~ARLDの各々に対して認識スコアRKBを加算する処理を行う。そして、このような処理によれば、RKB+ARLAに相当する評価値EVBAと、RKB+ARLBに相当する評価値EVBBと、RKB+ARLCに相当する評価値EVBCと、RKB+ARLDに相当する評価値EVBDと、が取得される。
 また、評価部27は、例えば、商品Kが実際にクラスCに属すると仮定した場合に得られた補正済認識スコアARLA~ARLDの各々に対して認識スコアRKCを加算する処理を行う。そして、このような処理によれば、RKC+ARLAに相当する評価値EVCAと、RKC+ARLBに相当する評価値EVCBと、RKC+ARLCに相当する評価値EVCCと、RKC+ARLDに相当する評価値EVCDと、が取得される。
 また、評価部27は、例えば、商品Kが実際にクラスDに属すると仮定した場合に得られた補正済認識スコアARLA~ARLDの各々に対して認識スコアRKDを加算する処理を行う。そして、このような処理によれば、RKD+ARLAに相当する評価値EVDAと、RKD+ARLBに相当する評価値EVDBと、RKD+ARLCに相当する評価値EVDCと、RKD+ARLDに相当する評価値EVDDと、が取得される。
 評価部27は、以上に述べた処理により取得した評価値EVAA~EVAD、評価値EVBA~EVBD、評価値EVCA~EVCD、及び、評価値EVDA~EVDDの16個の評価値を比較することにより、最も大きな値を有する評価値EVMを特定する。そして、評価部27は、評価値EVMに対応する商品K及びLのクラスを示す情報を最終的な認識結果として取得する。具体的には、例えば、EVM=EVABである場合には、商品KがクラスAに属し、かつ、商品LがクラスBに属することを示す情報を最終的な認識結果として取得する。
 一方、本実施形態においては、評価部27は、例えば、商品棚PSの上にN(N≧2)個の商品が横一列に並んで配置されている場合、すなわち、N個の商品領域が左右方向に接続関係を有する場合においては、下記数式(1)及び(2)による動的計画法を用いた処理を行うことにより、下記数式(1)の評価値EVを最大化する当該N個の商品各々のクラスを示す情報を最終的な認識結果として取得する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 なお、上記数式(1)において、xは商品棚PSの左から1番目の商品が実際に属すると仮定したクラスを示し、s(x)は当該xのクラスに対応する認識スコアを示している。また、上記数式(1)及び(2)において、s~(xj-1,x)は、商品棚PSの左からj-1(2≦j≦N)番目の商品が実際に属すると推定されたクラスと、当該商品棚PSの左からj番目の商品が属すると認識されたクラスと、の組み合わせにおける補正後の認識スコアを示している。また、上記数式(2)において、xは商品棚PSの左からj(2≦j≦N)番目の商品が属すると推定されたクラスを示し、s(x)は当該xのクラスに対応する認識スコアを示している。また、上記数式(2)において、hsize(xj-1,x)は、商品棚の左からj-1番目及びj番目の商品に対して前述の手法を適用することにより算出した補正値HVBに相当する。また、上記数式(2)において、hsim(xj-1,x)は、商品棚の左からj-1番目及びj番目の商品に対して前述の手法を適用することにより算出した補正値HVAに相当する。
 ここで、上記数式(1)及び(2)による動的計画法を用いた処理の概要について説明する。
 まず、評価部27は、商品棚PSの左から1番目の商品SH1、及び、当該商品棚PSの左から2番目の商品SH2について、上記数式(1)及び(2)による処理を行うことにより、前述の評価値EVAA~EVDDと同様の16個の評価値EVを取得するとともに、当該16個の評価値EVの中から最も大きな値を有する評価値EVMを特定する。そして、評価部27は、例えば、EVM=EVABである場合には、商品SH1がクラスAに属し、かつ、商品SH2がクラスBに属するとの推定結果を取得する。
 次に、評価部27は、商品SH2、及び、商品棚PSの左から3番目の商品SH3について、上記数式(1)及び(2)による処理を行う。評価部27は、上記数式(1)及び(2)による処理を行うに際し、例えば、商品SH2がクラスBに属するとの推定結果を予め取得している場合には、前述の評価値EVBA~EVBDと同様の4個の評価値EVを取得するとともに、当該4個の評価値EVの中から最も大きな値を有する評価値EVMを特定する。そして、評価部27は、例えば、EVM=EVBDである場合には、商品SH3がクラスDに属するとの推定結果を取得する。
 その後、評価部27は、上記数式(1)及び(2)による処理を商品棚PSの左の商品から右の商品にかけて順次行うことにより、商品棚PSに配置されたN個の商品各々が属するクラスに係る推定結果を取得する。
 すなわち、以上に述べた処理によれば、評価部27は、上記数式(1)の評価値EVが最大値になるように取得された、商品棚PSに配置されたN個の商品各々が属するクラスに係る推定結果を、最終的な認識結果として取得する。
 出力部28は、評価部27により得られた最終的な認識結果を表示するための表示画面を生成し、当該生成した表示画面を表示装置へ出力する。また、出力部28は、評価部27により得られた最終的な認識結果等を含むデータを外部装置へ出力する。
 なお、本実施形態においては、商品棚PSに配置されたN個の商品各々が属するクラスについて、評価部27により得られた最終的な認識結果に応じたクラスが表示されるものに限らず、例えば、物体認識部22により得られた補正前の認識結果に応じたクラスが併せて表示されるようにしてもよい。
 また、本実施形態においては、商品棚PSに配置されたN個の商品各々が属するクラスについて、例えば、ユーザの主観に基づいて、または、文字認識等の処理を行って得られた処理結果に基づいて最終的な認識結果を修正可能とするための表示画面が表示されるようにしてもよい。さらに、本実施形態においては、最終的な認識結果が修正された場合に、例えば、修正後の認識結果のうちの修正対象となった各商品のクラスを固定した状態で、認識結果補正部26及び評価部27の処理が再度行われるようにしてもよい。
 また、本実施形態においては、ユーザの主観に基づいて最終的な認識結果が修正された場合に、例えば、文字認識等の処理により修正後の認識結果をさらに修正した再修正後の認識結果が表示されるようにしてもよい。さらに、本実施形態においては、再修正後の認識結果の是非をユーザに決定させることが可能なダイアログ等が表示されるようにしてもよい。
 [処理フロー]
 続いて、物体認識装置において行われる処理の流れについて説明する。図10は、第1実施形態に係る物体認識装置において行われる処理を説明するためのフローチャートである。
 まず、画像取得部21は、複数の商品が陳列された商品棚を撮影して画像を取得する(ステップS11)。
 次に、物体認識部22は、ステップS11により得られた画像に対して物体認識処理を行うことにより、当該画像に含まれる複数の商品各々に対応する認識結果を取得する(ステップS12)。具体的には、前述の認識結果には、例えば、複数の商品領域と、当該複数の商品領域に含まれる商品を予め設定された複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である認識スコアと、が含まれている。
 続いて、接続関係特定部23は、ステップS12により得られた認識結果における複数の商品領域の接続関係の有無を特定するための処理を行う(ステップS13)。
 続いて、領域関係性取得部24は、ステップS11により得られた画像に基づき、ステップS13により接続関係を有することが特定された各商品領域のうち、互いに隣接する2つの商品領域の関係性に係る領域関係性情報を取得する(ステップS14)。
 続いて、クラス関係性取得部25は、属性情報格納部25aに格納されている属性情報に基づき、ステップS12の物体認識処理により認識結果を得るために予め設定されている複数のクラスの関係性を示すクラス関係性情報を取得するための処理を行う(ステップS15)。
 続いて、認識結果補正部26は、ステップS13により特定された複数の商品領域の接続関係と、ステップS14により得られた領域関係性情報と、ステップS15により得られたクラス関係性情報と、に基づいて認識結果補正処理を行うことにより、ステップS12により得られた認識結果に含まれる認識スコアを補正する(ステップS16)。このような処理によれば、認識結果補正部26は、物体認識部22により認識されるクラスの数と、接続関係特定部23により接続関係を有することが特定された商品領域SAの数と、に応じた複数の補正後の認識結果を取得する。
 続いて、評価部27は、ステップS16により得られた複数の補正後の認識結果を用い、ステップS12により得られた認識結果を評価する処理を行うことにより、複数の商品領域に含まれる商品各々が属するクラスに係る最終的な認識結果を取得する(ステップS17)。
 最後に、出力部28は、ステップS17により得られた最終的な認識結果を表示装置及び外部装置等へ出力する(ステップS18)。
 以上に述べたように、本実施形態によれば、複数の物体を含む画像に対して物体認識処理を施すことにより当該複数の物体の認識結果を取得し、当該物体認識処理により得られた認識結果を領域関係性情報及びクラス関係性情報に基づいて補正することにより複数の補正後の認識結果を取得し、当該複数の補正後の認識結果を用いて当該物体認識処理により得られた認識結果を評価することにより最終的な(最適化された)認識結果を得ることができる。そのため、本実施形態によれば、画像に含まれる複数の物体における個々の物体の認識精度を向上させることができる。
 [変形例]
 以下、上記の実施形態に対する変形例を説明する。なお、以降においては、簡単のため、既述の処理等を適用可能な部分に関する具体的な説明を適宜省略するものとする。
 (変形例1)
 接続関係特定部23は、例えば、商品領域SAKの上側または下側に隣接する位置に矩形領域SAKAを設定した状態において、既述の処理と同様の処理を行うことにより、商品棚PSの棚板を挟んで配置されている商品領域SAKと商品領域SALとが、当該商品棚PSの上下方向に接続関係を有するか否かを特定するようにしてもよい。
 (変形例2)
 認識結果補正部26は、例えば、Graph convolutional neural networkを有する学習済の機械学習モデルとして構成されているとともに、当該機械学習モデルに入力されたグラフデータに応じた補正値を出力するように構成されていてもよい。また、前述のグラフデータは、例えば、画像IMTに含まれる複数の商品各々に対応する複数のノード間がエッジで接続されているとともに、当該複数の商品各々に対応する複数の商品領域の関係性を示す外観類似性情報GSJ及びサイズ情報SZJ等の情報がエッジ特徴量として埋め込まれたデータとして構成されていればよい。
 (変形例3)
 評価部27は、例えば、商品棚PSの上にN個の商品が横一列に並んで配置されている場合、すなわち、N個の商品領域が左右方向に接続関係を有する場合において、下記数式(3)及び(4)による動的計画法を用いた処理を行うことにより、下記数式(1)のコスト値CVを最小化する当該N個の商品各々のクラスを示す情報を最終的な認識結果として取得するようにしてもよい。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 なお、上記数式(3)において、xは商品棚PSの左から1番目の商品が実際に属すると仮定したクラスを示し、r(x)は1.0から当該xのクラスに対応する認識スコアを減じて得られる値を示している。また、上記数式(3)及び(4)において、h~(xk-1,x)は、商品棚PSの左からk-1(2≦k≦N)番目の商品が実際に属すると推定されたクラスと、当該商品棚PSの左からk番目の商品が属すると認識されたクラスと、の組み合わせにおける補正後の認識スコアを示している。また、上記数式(4)において、xは商品棚PSの左からk番目の商品が属すると推定されたクラスを示し、r(x)は1.0から当該xのクラスに対応する認識スコアを減じて得られる値を示している。また、上記数式(4)において、Msize(xk-1,x)は、商品棚PSの左からk-1番目及びk番目の商品について、高さ(サイズ)が一致している場合には0となり、かつ、高さ(サイズ)が一致していない場合には1となるような補正値を示している。また、上記数式(4)において、Msim(xk-1,x)は、商品棚PSの左からk-1番目及びk番目の商品について、互いに同じクラスに属する場合には0となり、かつ、互いに異なるクラスに属する場合には下記数式(5)に応じた値となるような補正値を示している。
Figure JPOXMLDOC01-appb-M000005
 なお、上記数式(5)において、(φk-1,φ)は、商品棚PSの左からk-1番目の商品に対応する商品領域の特徴ベクトルと、当該商品棚PSの左からk番目の商品に対応する商品領域の特徴ベクトルと、がなす角度を示している。
 <第2実施形態>
 図11は、第2の実施形態に係る物体認識装置の機能構成を示すブロック図である。
 本実施形態に係る物体認識装置100Aは、物体認識装置100と同様のハードウェア構成を有している。また、物体認識装置100Aは、画像取得手段41と、物体認識手段42と、接続関係特定手段43と、領域関係性取得手段44と、クラス関係性取得手段45と、認識結果補正手段46と、評価手段47と、を有している。
 図12は、第2の実施形態に係る物体認識装置において行われる処理を説明するためのフローチャートである。
 画像取得手段41は、複数の物体を含む画像を取得する(ステップS41)。
 物体認識手段42は、画像に対して物体認識処理を行うことにより、当該画像に含まれる複数の物体各々に対応する認識結果を取得する(ステップS42)。
 接続関係特定手段43は、物体認識処理により得られた認識結果に基づき、複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行う(ステップS43)。
 領域関係性取得手段44は、接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得する(ステップS44)。
 クラス関係性取得手段45は、物体認識処理により認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得する(ステップS45)。
 認識結果補正手段46は、領域関係性情報及びクラス関係性情報に基づいて物体認識処理により得られた認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得する(ステップS46)。
 評価手段47は、複数の補正後の認識結果を用いて物体認識処理により得られた認識結果を評価することにより、複数の物体各々が属するクラスに係る最終的な認識結果を取得する(ステップS47)。
 本実施形態によれば、画像に含まれる複数の物体における個々の物体の認識精度を向上させることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 複数の物体を含む画像を取得する画像取得手段と、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得する物体認識手段と、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行う接続関係特定手段と、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得する領域関係性取得手段と、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得するクラス関係性取得手段と、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得する認識結果補正手段と、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する評価手段と、
 を備えた物体認識装置。
 (付記2)
 前記物体認識手段は、前記画像に対して前記物体認識処理を行うことにより、前記認識結果として、前記複数の物体各々を前記複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である認識スコアを取得する付記1の物体認識装置。
 (付記3)
 前記領域関係性取得手段は、前記接続関係を有する2つの物体領域に対応する前記領域関係性情報として、当該2つの物体領域に含まれる物体同士の外観の類似性に係る情報である外観類似性情報を取得する付記2の物体認識装置。
 (付記4)
 前記クラス関係性取得手段は、前記クラス関係性情報として、前記複数のクラスのうちの一のクラスに実際に属すると仮定した場合の物体の名称と、前記物体認識処理により認識された物体の名称と、が一致しているか否かを示す情報である物体名関係性情報を取得する付記3の物体認識装置。
 (付記5)
 前記認識結果補正手段は、前記外観類似性情報及び前記物体名関係性情報に基づき、前記物体認識処理により得られた前記認識スコアを補正するための補正値を取得する付記4の物体認識装置。
 (付記6)
 前記領域関係性取得手段は、前記接続関係を有する2つの物体領域に対応する前記領域関係性情報として、当該2つの物体領域に含まれる物体同士の相対的なサイズの大小関係に係る情報であるサイズ情報を取得する付記2の物体認識装置。
 (付記7)
 前記クラス関係性取得手段は、前記クラス関係性情報として、前記複数のクラスのうちの一のクラスに実際に属すると仮定した場合の物体の高さと、前記物体認識処理により認識された物体の高さと、がどのような関係を有しているかを示す情報である高さ関係性情報を取得する付記6の物体認識装置。
 (付記8)
 前記認識結果補正手段は、前記サイズ情報及び前記高さ関係性情報に基づき、前記物体認識処理により得られた前記認識スコアを補正するための補正値を取得する付記7の物体認識装置。
 (付記9)
 複数の物体を含む画像を取得し、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する物体認識方法。
 (付記10)
 複数の物体を含む画像を取得し、
 前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
 前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
 前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
 前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
 前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
 前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 21 画像取得部
 22 物体認識部
 23 接続関係特定部
 24 領域関係性取得部
 25 クラス関係性取得部
 26 認識結果補正部
 27 評価部
 28 出力部
 100 物体認識装置

Claims (10)

  1.  複数の物体を含む画像を取得する画像取得手段と、
     前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得する物体認識手段と、
     前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行う接続関係特定手段と、
     前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得する領域関係性取得手段と、
     前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得するクラス関係性取得手段と、
     前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得する認識結果補正手段と、
     前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する評価手段と、
     を備えた物体認識装置。
  2.  前記物体認識手段は、前記画像に対して前記物体認識処理を行うことにより、前記認識結果として、前記複数の物体各々を前記複数のクラスのうちのいずれかに分類した場合におけるクラス毎の蓋然性を示す値である認識スコアを取得する請求項1に記載の物体認識装置。
  3.  前記領域関係性取得手段は、前記接続関係を有する2つの物体領域に対応する前記領域関係性情報として、当該2つの物体領域に含まれる物体同士の外観の類似性に係る情報である外観類似性情報を取得する請求項2に記載の物体認識装置。
  4.  前記クラス関係性取得手段は、前記クラス関係性情報として、前記複数のクラスのうちの一のクラスに実際に属すると仮定した場合の物体の名称と、前記物体認識処理により認識された物体の名称と、が一致しているか否かを示す情報である物体名関係性情報を取得する請求項3に記載の物体認識装置。
  5.  前記認識結果補正手段は、前記外観類似性情報及び前記物体名関係性情報に基づき、前記物体認識処理により得られた前記認識スコアを補正するための補正値を取得する請求項4に記載の物体認識装置。
  6.  前記領域関係性取得手段は、前記接続関係を有する2つの物体領域に対応する前記領域関係性情報として、当該2つの物体領域に含まれる物体同士の相対的なサイズの大小関係に係る情報であるサイズ情報を取得する請求項2に記載の物体認識装置。
  7.  前記クラス関係性取得手段は、前記クラス関係性情報として、前記複数のクラスのうちの一のクラスに実際に属すると仮定した場合の物体の高さと、前記物体認識処理により認識された物体の高さと、がどのような関係を有しているかを示す情報である高さ関係性情報を取得する請求項6に記載の物体認識装置。
  8.  前記認識結果補正手段は、前記サイズ情報及び前記高さ関係性情報に基づき、前記物体認識処理により得られた前記認識スコアを補正するための補正値を取得する請求項7に記載の物体認識装置。
  9.  複数の物体を含む画像を取得し、
     前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
     前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
     前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
     前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
     前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
     前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する物体認識方法。
  10.  複数の物体を含む画像を取得し、
     前記画像に対して物体認識処理を行うことにより、前記画像に含まれる前記複数の物体各々に対応する認識結果を取得し、
     前記物体認識処理により得られた前記認識結果に基づき、前記複数の物体各々に対応する複数の物体領域の接続関係の有無を特定するための処理を行い、
     前記接続関係を有することが特定された各物体領域の関係性に係る情報である領域関係性情報を取得し、
     前記物体認識処理により前記認識結果を得るために予め設定されている複数のクラスの関係性を示す情報であるクラス関係性情報を取得し、
     前記領域関係性情報及び前記クラス関係性情報に基づいて前記物体認識処理により得られた前記認識結果を補正するための認識結果補正処理を行うことにより、複数の補正後の認識結果を取得し、
     前記複数の補正後の認識結果を用いて前記物体認識処理により得られた前記認識結果を評価することにより、前記複数の物体各々が属するクラスに係る最終的な認識結果を取得する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2021/048764 2021-12-28 2021-12-28 物体認識装置、物体認識方法、及び、記憶媒体 WO2023127085A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048764 WO2023127085A1 (ja) 2021-12-28 2021-12-28 物体認識装置、物体認識方法、及び、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048764 WO2023127085A1 (ja) 2021-12-28 2021-12-28 物体認識装置、物体認識方法、及び、記憶媒体

Publications (1)

Publication Number Publication Date
WO2023127085A1 true WO2023127085A1 (ja) 2023-07-06

Family

ID=86998398

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048764 WO2023127085A1 (ja) 2021-12-28 2021-12-28 物体認識装置、物体認識方法、及び、記憶媒体

Country Status (1)

Country Link
WO (1) WO2023127085A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014135092A (ja) * 2009-06-18 2014-07-24 Canon Inc 画像認識方法及び画像認識装置
WO2019107157A1 (ja) * 2017-11-29 2019-06-06 株式会社Nttドコモ 棚割情報生成装置及び棚割情報生成プログラム
JP2020061066A (ja) * 2018-10-12 2020-04-16 富士通株式会社 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
JP2020095408A (ja) * 2018-12-11 2020-06-18 日本電信電話株式会社 リスト生成装置、被写体識別装置、リスト生成方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014135092A (ja) * 2009-06-18 2014-07-24 Canon Inc 画像認識方法及び画像認識装置
WO2019107157A1 (ja) * 2017-11-29 2019-06-06 株式会社Nttドコモ 棚割情報生成装置及び棚割情報生成プログラム
JP2020061066A (ja) * 2018-10-12 2020-04-16 富士通株式会社 学習プログラム、検出プログラム、学習装置、検出装置、学習方法および検出方法
JP2020095408A (ja) * 2018-12-11 2020-06-18 日本電信電話株式会社 リスト生成装置、被写体識別装置、リスト生成方法、及びプログラム

Similar Documents

Publication Publication Date Title
CN110084236B (zh) 一种图像的矫正方法及装置
US6792134B2 (en) Multi-mode digital image processing method for detecting eyes
CN101267493B (zh) 透视变形文档图像的校正装置和校正方法
US20060285751A1 (en) Method, apparatus and storage medium for detecting cardio, thoracic and diaphragm borders
WO2020139743A1 (en) Computer-executed method and apparatus for assessing vehicle damage
US20020106112A1 (en) Digital image processing method and computer program product for detecting human irises in an image
KR101548928B1 (ko) 불변적인 시각적 장면 및 객체 인식
CN104424482A (zh) 图像处理设备和图像处理方法
CN101777129B (zh) 一种基于特征检测的图像匹配方法
CN104700062A (zh) 一种识别二维码的方法及设备
JP2003030667A (ja) イメージ内で目を自動的に位置決めする方法
TWI254891B (en) Face image detection method, face image detection system, and face image detection program
CN111814905A (zh) 目标检测方法、装置、计算机设备和存储介质
CN109308465A (zh) 表格线检测方法、装置、设备及计算机可读介质
WO2023284784A1 (zh) 条码图像修复方法、装置、计算机设备和存储介质
CN108875504A (zh) 基于神经网络的图像检测方法和图像检测装置
JP2007048172A (ja) 情報分類装置
CN104268550A (zh) 特征提取方法及装置
WO2023127085A1 (ja) 物体認識装置、物体認識方法、及び、記憶媒体
CN111476175B (zh) 适用于老年人脸比对的自适应拓扑图匹配方法及系统
US7609885B2 (en) System and method for effectively implementing a texture feature detector
US7957555B2 (en) Method and apparatus for localizing an object part in digital image data by updating an initial position estimate based on a displacement of the object part
CN112749713B (zh) 一种基于人工智能的大数据图像识别系统及方法
CN114359090A (zh) 一种口腔ct影像的数据增强方法
JP2007219899A (ja) 個人識別装置、個人識別方法および個人識別プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969967

Country of ref document: EP

Kind code of ref document: A1