WO2021166174A1 - 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム - Google Patents

被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2021166174A1
WO2021166174A1 PCT/JP2020/006844 JP2020006844W WO2021166174A1 WO 2021166174 A1 WO2021166174 A1 WO 2021166174A1 JP 2020006844 W JP2020006844 W JP 2020006844W WO 2021166174 A1 WO2021166174 A1 WO 2021166174A1
Authority
WO
WIPO (PCT)
Prior art keywords
maps
subject
feature point
map
vector
Prior art date
Application number
PCT/JP2020/006844
Other languages
English (en)
French (fr)
Inventor
誠明 松村
能登 肇
草地 良規
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/006844 priority Critical patent/WO2021166174A1/ja
Priority to US17/800,582 priority patent/US20230101653A1/en
Priority to JP2022501519A priority patent/JP7364959B2/ja
Publication of WO2021166174A1 publication Critical patent/WO2021166174A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Definitions

  • the present invention relates to a subject-specific feature point separation device, a subject-specific feature point separation method, and a computer program.
  • the two-dimensional coordinates of the feature points of the subject's joints, eyes, ears, nose, etc. in the image are estimated, and the characteristics of each subject are characterized.
  • a method for separating points has been proposed. Machine learning using deep learning is widely used in such technical fields. For example, using a heat map configured so that peaks appear at the coordinates where each feature point appears in the image, and a trained model trained in a vector field that describes the connection relationship of each feature point, the feature points Is used for each subject.
  • subject-specific feature point separation separating the feature points for each subject is referred to as subject-specific feature point separation.
  • FIG. 7 is a diagram showing an example of each feature point defined in the MS COCO (Microsoft Common Object in Context) data set.
  • MS COCO Microsoft Common Object in Context
  • learning is performed so as to generate a vector from the feature point of the child in the hierarchical structure in the direction of the feature point of the parent.
  • the feature point 110 is a feature point representing the position of the nose.
  • the feature point 111 is a feature point representing the position of the left eye.
  • the feature point 112 is a feature point representing the position of the right eye.
  • the feature points 113-126 are feature points representing the positions of other parts defined on the subject.
  • the parent in the hierarchical structure represents the feature point on the side closer to the feature point corresponding to the root in the hierarchical structure
  • the child in the hierarchical structure represents the feature point on the side far from the feature point corresponding to the root in the hierarchical structure.
  • the feature point corresponding to the root in the hierarchical structure is the feature point 110.
  • the first feature point close to the feature point 110 is the parent and the second feature point far from the feature point 110.
  • the feature points 117 and the feature points 119 shown in FIG. 7 as an example, the feature points 117 are closer to the feature points 110 than the feature points 119. Therefore, the feature point 117 is the feature point of the parent, and the feature point 119 is the feature point of the child.
  • Non-Patent Document 1 a vector field that describes the connection relationship of feature points called Part Affinity Field is trained, the certainty of the connection relationship between feature points is calculated by line integral of the vector field, and feature point separation for each subject is performed.
  • a high-speed method has been proposed.
  • Non-Patent Document 2 proposes a method of improving the feature point separation accuracy for each subject by using three vector fields and a mask. Specifically, in Non-Patent Document 2, first, in addition to the three vector fields of Short-range offsets, Mid-range offsets, and Long-range offsets, a Person segmentation mask that masks the subject area in the image in a silhouette shape is generated. do.
  • Non-Patent Document 2 a connection relationship between feature points is generated using two vector fields of Short-range offsets and Mid-range offsets. Then, in Non-Patent Document 2, the area in the image is divided by the number of subjects using Short-range offsets, Long-range offsets and Person segmentation mask. As a result, in Non-Patent Document 2, the accuracy of separating feature points for each subject is improved.
  • Mid-range offsets is the only vector field that describes the connection relationship between parent and child. Short-range offsets are correction vector fields described so that each feature point is centered.
  • Long-range offsets are vector fields in which the area surrounded by the Person segmentation mask faces the coordinates of the subject's nose.
  • the coordinates indicating the peak value in the heat map are used as the coordinates of the feature points, but if an image taken by a recent high-resolution camera is used as an input to generate a heat map and a vector field with the same resolution, the calculation load Will be higher. Deep Learning requires a huge amount of memory to generate a heat map and vector field with the same resolution. Therefore, it becomes difficult to implement a complicated network.
  • the calculation load can be reduced by lowering the output resolution of the heat map and vector field while maintaining the resolution of the input image. However, there is a problem that if the resolution is lowered, the coordinate estimation accuracy of the feature points is lowered.
  • an object of the present invention is to provide a technique capable of suppressing a decrease in estimation accuracy of feature points in subject-specific feature point separation while suppressing a calculation load.
  • One aspect of the present invention is a plurality of first aspects in which a captured image in which a subject is photographed is input, and a vector describing the connection relationship of each feature point of the subject is stored only around the feature point from the input captured image.
  • a trained model trained to output a map of The inference execution unit that outputs the first map and the plurality of second maps the plurality of first maps output from the inference execution unit, and the plurality of second maps are used.
  • a map correction unit that corrects a plurality of second maps, an upsampling unit that upsamples the plurality of first maps output from the inference execution unit, and the plurality of first maps after upsampling.
  • This is a subject-specific feature point separation device including a subject-specific feature point separation unit that separates feature points for each subject based on a plurality of corrected second maps.
  • One aspect of the present invention is a plurality of first aspects in which a captured image in which a subject is photographed is input, and a vector describing the connection relationship of each feature point of the subject is stored only around the feature point from the input captured image.
  • a trained model trained to output a map of The inference execution step that outputs the first map and the plurality of second maps the plurality of first maps output in the inference execution step, and the plurality of second maps are used.
  • a map correction step for correcting a plurality of second maps, an upsampling step for upsampling the plurality of first maps output in the inference execution step, and the plurality of first maps after upsampling.
  • This is a subject-specific feature point separation method including a subject-specific feature point separation step for separating feature points for each subject based on a plurality of corrected second maps.
  • One aspect of the present invention is a computer program for making a computer function as the above-mentioned subject-specific feature point separator.
  • FIG. 1 is a block diagram showing a specific example of the functional configuration of the subject-specific feature point separator 10 according to the present invention.
  • the subject-specific feature point separation device 10 is a device that separates the feature points of a subject in an image (hereinafter referred to as "captured image") in which a person to be a subject is photographed for each subject. More specifically, the subject-specific feature point separation device 10 separates feature points for each subject by using a captured image and a learned model generated by machine learning.
  • the feature points of the subject in the present embodiment are the parts defined for the subject such as the joints, eyes, ears, and nose of the subject.
  • the trained model in the present embodiment is model data trained to output a low-resolution vector field map group and a low-resolution heat map group by inputting a captured image.
  • the low-resolution vector field map group is a set of low-resolution vector field maps (first map) generated by captured images for all feature points.
  • the low-resolution heat map group is a set of low-resolution heat maps (second maps) generated by captured images for all feature points.
  • the operation by the trained model will be described. Specifically, first, in the trained model, a low-resolution vector field map that describes the connection relationship of each feature point of the subject and a low-resolution heat map for each feature point are generated from the input captured image.
  • the trained model outputs a low-resolution vector field map group obtained from the generated low-resolution vector field map and a low-resolution heat map group obtained from the generated low-resolution heat map.
  • the low resolution means a resolution lower than the resolution of the input image.
  • a low-resolution vector field map represents a vector field map whose resolution is lower than the resolution of the input image.
  • a low-resolution heat map represents a heat map whose resolution is lower than the resolution of the input image.
  • the low resolution vector field map group is referred to as a low resolution vector field map group
  • the low resolution heat map group is referred to as a low resolution heat map group.
  • the vector field map shows the vector from the child feature point to the parent feature point direction.
  • a vector describing the connection relationship of each feature point of the subject is stored only around the feature point.
  • the heat map is a map configured so that peaks appear at the coordinates where the feature points of the subject appear.
  • the heat map is the same as the heat map used in the conventional subject-specific feature point separation.
  • the present invention is characterized in that the heat map obtained by upsampling the low resolution heat map to the same resolution is corrected by the coordinate values pointed to by the low resolution vector field.
  • the same size resolution here means the same resolution as the input image.
  • the subject-specific feature point separation device 10 is configured by using an information processing device such as a personal computer.
  • the subject-specific feature point separator 10 includes a CPU (Central Processing Unit) connected by a bus, a memory, an auxiliary storage device, and the like, and executes a program. By executing the program, the subject-specific feature point separation device 10 functions as a device including an inference execution unit 101, a heat map correction unit 102, an upsampling unit 103, and a subject-specific separation unit 104. All or part of each function of the subject-specific feature point separator 10 is realized by using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). You may. The program may also be recorded on a computer-readable recording medium.
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • the program may also be transmitted and received via a telecommunication line.
  • the inference execution unit 101 inputs the captured image and the trained model.
  • the inference execution unit 101 outputs a low-resolution heat map group and a low-resolution vector field map group using the input captured image and the trained model.
  • the inference execution unit 101 outputs the low-resolution heat map group to the heat map correction unit 102, and outputs the low-resolution vector field map group to the heat map correction unit 102 and the upsample unit 103.
  • the heat map correction unit 102 inputs a low resolution heat map group and a low resolution vector field map group.
  • the heat map correction unit 102 uses the input low-resolution heat map group and low-resolution vector field map group to generate a heat map group having the same resolution. In this way, the heat map correction unit 102 corrects the low resolution heat map group by using the input low resolution heat map group and low resolution vector field map group.
  • the heat map correction unit 102 outputs the generated heat map group to the subject-specific separation unit 104.
  • the heat map correction unit 102 is an aspect of the map correction unit.
  • the upsample unit 103 inputs a low-resolution vector field map group.
  • the upsampling unit 103 upsamples the input low resolution vector field map group.
  • the upsampling unit 103 upsamples the input low-resolution vector field map group so that the resolution is the same. Bicubic technology may be used for upsampling.
  • An upsampled low-resolution vector field map is referred to as a vector field map.
  • the upsample unit 103 outputs the vector field map group to the subject-specific separation unit 104.
  • the subject-specific separation unit 104 inputs a heat map group and a vector field map group.
  • the subject-specific separation unit 104 separates feature points for each subject using the input heat map group and vector field map group.
  • the subject-specific separation unit 104 separates the feature points for each subject as a tree-like hierarchical structure, and outputs a coordinate group (coordinate group of the feature points separated for each subject) indicating the result to the outside.
  • FIG. 2 is a block diagram showing a specific example of the functional configuration of the learning device 20 in the present invention.
  • the learning device 20 is a device that generates a learned model to be used in the subject-specific feature point separating device 10.
  • the learning device 20 is communicably connected to the subject-specific feature point separation device 10.
  • the learning device 20 includes a CPU, a memory, an auxiliary storage device, and the like connected by a bus, and executes a program. By executing the program, the learning device 20 functions as a device including the learning model storage unit 201, the teacher data input unit 202, and the learning unit 203.
  • all or a part of each function of the learning device 20 may be realized by using hardware such as ASIC, PLD and FPGA.
  • the program may also be recorded on a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • the program may also be transmitted and received via a telecommunication line.
  • the learning model storage unit 201 is configured by using a storage device such as a magnetic storage device or a semiconductor storage device.
  • the learning model storage unit 201 stores the learning model of machine learning in advance.
  • the learning model is information indicating a machine learning algorithm used when learning the relationship between the input data and the output data.
  • There are various regression analysis methods and various algorithms such as decision tree, k-nearest neighbor method, neural network, support vector machine, deep learning, etc. in the learning algorithm of supervised learning, but in this embodiment, it is deep. A case where learning is used will be described.
  • the learning algorithm the above-mentioned other learning model may be used.
  • the teacher data input unit 202 has a function of randomly selecting a sample from a plurality of input teacher data and outputting the selected sample to the learning unit 203.
  • the teacher data is data for learning used for supervised learning, and is data represented by a combination of input data and output data that is assumed to have a correlation with the input data.
  • the input data is a captured image
  • the output data is a low-resolution heat map group and a low-resolution vector field map group related to feature points paired with the captured image.
  • the teacher data input unit 202 is communicably connected to an external device (not shown) that stores the teacher data group, and inputs the teacher data group from the external device via the communication interface. Further, for example, the teacher data input unit 202 inputs the teacher data group by reading the teacher data group from a recording medium (for example, a USB (Universal Serial Bus) memory, a hard disk, etc.) that stores the teacher data group in advance. It may be configured in.
  • a recording medium for example, a USB (Universal Serial Bus) memory, a hard disk, etc.
  • the learning unit 203 has a low-resolution heat map group for feature points and a low-resolution vector for feature points obtained by converting the captured image in the teacher data output from the teacher data input unit 202 based on the learning model.
  • a trained model is generated by learning to minimize the error between the field map group, the low-resolution heat map group for the feature points in the teacher data, and the low-resolution vector field map group for the feature points.
  • the generated learned model is input to the subject-specific feature point separator 10.
  • the input of the trained model to the subject-specific feature point separator 10 may be performed via communication between the subject-specific feature point separator 10 and the learning device 20, or a recording medium on which the trained model is recorded may be used. It may be done through.
  • FIG. 3 is a diagram showing a specific example of processing of the subject-specific feature point separator 10 in the embodiment.
  • the image 21 shown in FIG. 3 is a low-resolution heat map of the right elbow in the low-resolution heat map group output from the inference execution unit 101.
  • the area 211 in the image 21 is the area of the right wrist, and the area 212 is the area of the right elbow.
  • the right wrist is the characteristic point of the child and the right elbow is the characteristic point of the parent.
  • the vector field map in the direction of the parent feature point (right elbow) as seen from the child feature point (right wrist) is as shown in image 22.
  • Image 22 is a low-resolution vector field map in the right elbow direction as seen from the right wrist in the low-resolution heat map group output from the inference execution unit 101.
  • Image 23 in FIG. 3 represents a heat map in which the resolution of the right elbow region 212 is upsampled to the same resolution as the input image. It is assumed that the correct coordinates of the feature points in the image 23 are the coordinates shown in the area 231 and the peak coordinates of the heat map after upsampling are the coordinates shown in the area 232. If the coordinates indicating the peak value when the low-resolution heat map is upsampled by Bicubic interpolation deviate from the correct coordinates by a predetermined range or more, the coordinate estimation accuracy of the feature points is lowered.
  • a vector density map showing the degree of density of the vector is generated from the vector describing the connection relationship between the feature point and the child feature point, and the composite value with the upsampled low-resolution heat map is used. Determine the final feature point. As a result, it is possible to approach the correct coordinates, so that it is possible to suppress a decrease in the coordinate estimation accuracy of the feature points.
  • the vector density map 24 showing the degree of density of the vector from the vector describing the connection relationship between the feature point and the child feature point is generated from the low resolution vector field map (image 22). A specific method for generating the vector density map 24 will be described later.
  • the point 241 in the vector density map 24 represents the coordinates of the parent feature point pointed to by each vector in the low resolution vector field map.
  • the subject-specific feature point separator 10 multiplies each pixel of the image 23 (heat map) by a value of (1.0- ⁇ ), and obtains a value of ⁇ for each pixel of the vector density map 24. Multiply.
  • the composite ratio ⁇ of the vector density map 24 and the upsampled low-resolution heat map (image 23) is assumed to take a variable value according to the density of the vectors. For example, when the convergence density is extremely high (above the threshold value), the value of ⁇ is set high (a value closer to 1), and when the convergence density is low (less than the threshold value), the value of ⁇ is set low (0). Closer value) Set. Then, the subject-specific feature point separation device 10 acquires the final heat map 25 by adding the multiplication results. Then, the peak position 251 on the heat map 25 becomes the position of the feature point. The subject-specific feature point separation device 10 generates a heat map group by performing the above processing in the low-resolution heat map group output from the inference execution unit 101.
  • FIG. 4 is a flowchart showing a processing flow of the subject-specific feature point separator 10 according to the embodiment.
  • the inference execution unit 101 inputs the captured image and the trained model from the outside (step S101). The captured image and the trained model do not have to be input at the same timing. If the inference execution unit 101 has acquired the trained model from the learning device 20 in advance before starting the process of FIG. 4, the inference execution unit 101 inputs only the captured image in the process of step S101.
  • the inference execution unit 101 outputs a low-resolution heat map group and a low-resolution vector field map group of the subject captured in the captured image by inputting the captured image into the input trained model (step S102). ..
  • the inference execution unit 101 outputs the low resolution heat map group to the heat map correction unit 102.
  • the inference execution unit 101 outputs the low-resolution vector field map group to the heat map correction unit 102 and the upsample unit 103.
  • the heat map correction unit 102 upsamples the low-resolution heat map group output from the inference execution unit 101 so that the image has the same resolution (step S103). For example, the heat map correction unit 102 upsamples the low-resolution heat map group to an image having the same resolution by Bicubic interpolation.
  • the heat map correction unit 102 initializes the vector density map (step S104). That is, the heat map correction unit 102 initializes the value of each pixel of the vector density map to 0 in order to generate the vector density map group based on the low resolution vector field map group.
  • the heat map correction unit 102 first selects one low-resolution heat map from the plurality of input low-resolution heat map groups. Next, the heat map correction unit 102 generates a vector density map using the selected low resolution heat map and the low resolution vector field map corresponding to the selected low resolution heat map. Specifically, the heat map correction unit 102 is based on a normal distribution in which predetermined variance values are set around the coordinates pointed to by each vector of the low resolution vector field map indicating the direction of the feature points pointed to by the low resolution heat map. Then, addition synthesis is performed on the vector density map (step S105).
  • FIG. 5 is a diagram showing an example of generating a vector density map in the embodiment.
  • the image 21 and the image 22 shown in FIG. 5 are the same images as the image shown in FIG.
  • the heat map correction unit 102 generates the image 26 using the low resolution vector field map shown as the image 22.
  • the point 261 in the image 26 represents the coordinates of the parent feature point pointed to by each vector in the low resolution vector field map.
  • Area 262 in image 26 represents the coordinates in the map.
  • the heat map correction unit 102 calculates the coordinate value V to be assigned to each coordinate of the vector density map based on the following equation (1).
  • N represents the number of coordinates of the parent feature points pointed to by each vector in the low-resolution vector field map
  • C represents each coordinate of the vector density map
  • ⁇ 2 represents a known dispersion value.
  • the heat map correction unit 102 generates a vector density map by assigning the calculated coordinate value V of each coordinate to each coordinate of the initialized vector density map.
  • the vector density map generated by this process is the image 24 in FIG.
  • the heat map correction unit 102 divides the value of the vector density map by the maximum value in the generated vector density map and normalizes it so that the maximum value becomes 1.0 (step S106). After that, the heat map correction unit 102 multiplies each of the normalized vector density map and the upsampled heat map by a predetermined composition ratio.
  • the heat map correction unit 102 multiplies each pixel of the heat map after upsampling by a value of (1.0- ⁇ ), and multiplies each pixel of the vector density map by a value of ⁇ . For example, the heat map correction unit 102 compares the difference between the average value and the peak value in the sample within a certain distance from the coordinates indicating each peak of the vector density map and the upsampled heat map, and the difference value indicated by the vector density map. If is greater than or equal to the threshold value, the value of ⁇ is set to 0.5 or more.
  • the heat map correction unit 102 generates one final heat map by adding and synthesizing one vector density map after multiplication and one heat map after multiplication (step S107).
  • the heat map correction unit 102 outputs the generated heat map to the subject-specific separation unit 104.
  • the heat map correction unit 102 performs the processes from step S103 to step S107 on all the low-resolution heat map groups and low-resolution vector field map groups output from the inference execution unit 101.
  • a plurality of heat map groups are output from the heat map correction unit 102 to the subject-specific separation unit 104.
  • the heat map correction unit 102 determines whether or not the processes of steps S103 to S107 have been performed on all the low-resolution heat map groups and low-resolution vector field map groups output from the inference execution unit 101. (Step S108).
  • step S108-YES When the processing of steps S103 to S107 is performed on all the low-resolution heat map group and low-resolution vector field map group output from the inference execution unit 101 (step S108-YES), feature point separation for each subject is performed.
  • the device 10 performs the process of step S109.
  • step S108-NO when all the low-resolution heat map groups and low-resolution vector field map groups output from the inference execution unit 101 are not processed in steps S103 to S107 (step S108-NO), each subject is classified.
  • the feature point separator 10 performs the processing of steps S103 to S107 on the low-resolution heat map and the low-resolution vector field map that have not been processed.
  • the upsampling unit 103 upsamples all the low-resolution vector field maps output from the inference execution unit 101 so as to be an image having the same resolution (step S109). For example, the upsampling unit 103 upsamples the low resolution vector field map group to an image having the same resolution by Bicubic interpolation. The upsampling unit 103 outputs the vector field map group after upsampling to the subject-specific separation unit 104.
  • the subject-specific separation unit 104 separates feature points by subject using the heat map group output from the heat map correction unit 102 and the vector field map group output from the upsample unit 103 (step S110). ..
  • the subject-specific separation unit 104 outputs the coordinate group of the feature points separated for each subject.
  • the subject-specific feature point separator 10 outputs a low-resolution heat map group and a low-resolution vector field map group from the input image. Then, the subject-specific feature point separator 10 corrects the heat map group obtained by upsampling the low-resolution heat map group to the same resolution with the coordinate values indicated by the low-resolution vector field map. As a result, even when an image taken by a high-resolution camera is input, a heat map and a vector field map having the same resolution are not generated. Therefore, the calculation load can be reduced.
  • the subject-specific feature point separator 10 generates a vector density map showing the degree of density of the vector from the vector describing the connection relationship between the feature point and the child feature point, and uses the upsampled low-resolution heat map.
  • the subject-specific feature point separation device 10 and the learning device 20 may be integrated and configured.
  • the subject-specific feature point separation device 10 may be configured to include the learning function of the learning device 20.
  • the subject-specific feature point separator 10 has a learning mode and an inference mode, and executes an operation according to each mode.
  • the subject-specific feature point separation device 10 generates a trained model by performing the same processing as that performed by the learning device 20.
  • the subject-specific feature point separator 10 executes the process shown in FIG. 4 using the generated learned model.
  • step S105 in FIG. 4 above may be executed by another method.
  • 1.0 / ⁇ L which is the reciprocal of the total ⁇ L of the distance L between the coordinates pointed to by each vector in the low-resolution vector field map and the correct coordinates of the feature points. Is also good.
  • FIG. 6 is a diagram showing another generation example of the vector density map.
  • the image 21 and the image 22 shown in FIG. 6 are the same images as the image shown in FIG.
  • the heat map correction unit 102 generates the image 26 using the low resolution vector field map shown as the image 22. Then, the heat map correction unit 102 calculates the coordinate value V to be assigned to each coordinate of the vector density map based on the following equation (2).
  • step S105 in FIG. 4 can be substituted if it is a method that serves as a measure for measuring the density of the vector.
  • a vector density map may be used for the purpose of improving the estimation accuracy of the heat map of the same size by using the map and the vector field of the same size.
  • the present invention can be applied to a technique for separating feature points of a subject detected from an image in which the subject is captured for each subject.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

被写体が撮影された撮影画像を入力として、入力した撮影画像から、被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第1のマップと、被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、複数の第1のマップと、複数の第2のマップとを出力する推論実行部と複数の第1のマップ及び複数の第2のマップを用いて、複数の第2のマップを補正するマップ補正部と、複数の第1のマップをアップサンプリングするアップサンプリング部と、アップサンプリング後の複数の第1のマップと、補正後の複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、を備える被写体別特徴点分離装置。

Description

被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
 本発明は、被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラムに関する。
 デジタルカメラやビデオカメラ等の撮影装置で撮影された画像内に写された被写体毎に、画像内における被写体の関節、目、耳及び鼻等の特徴点の二次元座標を推定し、被写体別に特徴点を分離する手法が提案されている。このような技術分野には、広くDeep learningを用いた機械学習が使用されている。例えば、画像内にて各特徴点の現れる座標にピークが立つように構成されたヒートマップと、各特徴点の接続関係を記述するベクトル場等を学習させた学習済みモデルを用いて、特徴点を被写体毎に分離する手法が使用されている。以下、特徴点を被写体毎に分離することを被写体別特徴点分離と呼ぶ。
 被写体の特徴点は図7のようなツリー状の階層構造で記述される。図7は、MS COCO(Microsoft Common Object in Context)データセットにおいて定義された各特徴点の例を示す図である。各特徴点の接続関係を記述するベクトル場には階層構造における子の特徴点から親の特徴点方向へのベクトルを生成するように学習がなされる。特徴点110は、鼻の位置を表す特徴点である。特徴点111は、左目の位置を表す特徴点である。特徴点112は、右目の位置を表す特徴点である。特徴点113-126は、被写体に定められた他の部位の位置をそれぞれ表す特徴点である。
 階層構造における親とは階層構造におけるrootに該当する特徴点に近い側の特徴点を表し、階層構造における子とは階層構造におけるrootに該当する特徴点から遠い側の特徴点を表す。図7に示す例では、階層構造におけるrootに該当する特徴点は特徴点110である。この場合、第1の特徴点と、第2の特徴点とが接続された階層構造の場合、特徴点110に近い第1の特徴点が親であり、特徴点110から遠い第2の特徴点が子となる。例えば、図7に示す特徴点117と、特徴点119とを例にすると、特徴点117のほうが特徴点119よりも特徴点110に近い。そのため、特徴点117が親の特徴点であり、特徴点119が子の特徴点となる。
 非特許文献1では、Part Affinity Fieldと呼ぶ特徴点の接続関係を記述するベクトル場を学習させ、ベクトル場の線積分により特徴点同士の接続関係の確からしさを計算し、被写体別特徴点分離を高速に行う手法が提案されている。
 非特許文献2では、3つのベクトル場と、マスクとを用いて、被写体別特徴点分離精度を高める手法が提案されている。具体的には、非特許文献2では、まずShort-range offsets、Mid-range offsets及びLong-range offsetsの3つのベクトル場に加え、画像内の被写体領域をシルエット状にマスクしたPerson segmentation maskを生成する。次に、非特許文献2では、Short-range offsets及びMid-range offsetsの2つのベクトル場を用いて特徴点同士の接続関係を生成する。そして、非特許文献2では、Short-range offsets、Long-range offsets及びPerson segmentation maskを用いて被写体の人数で画像内を領域分割する。これにより、非特許文献2では、被写体別特徴点分離精度を高めている。なお、非特許文献2では、親と子の接続関係を記述するベクトル場はMid-range offsetsのみである。Short-range offsetsは、各特徴点を中心に向くよう記述された補正用のベクトル場である。Long-range offsetsは、Person segmentation maskに囲まれた領域が、被写体の鼻の座標を向くよう記述されたベクトル場である。
Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008, 2018. G. Papandreou, T. Zhu, L.-C. Chen, S. Gidaris, J. Tompson, and K. Murphy. PersonLab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. arXiv:1803.08225, 2018.
 従来手法では、ヒートマップ内のピーク値を示す座標を特徴点の座標とするが、近年の高解像カメラで撮影された画像を入力として等倍解像度のヒートマップとベクトル場を生成すると演算負荷が高くなる。等倍解像度のヒートマップとベクトル場を生成するためにはDeep Learningにて膨大なメモリが必要になる。そのため、複雑なネットワークを実装することが困難になる。入力した画像の解像度はそのままに、ヒートマップとベクトル場の出力解像度を下げると演算負荷を軽減することができる。しかしながら、解像度を下げると特徴点の座標推定精度が低下してしまうという問題があった。
 上記事情に鑑み、本発明は、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することができる技術の提供を目的としている。
 本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行部と、前記推論実行部から出力された前記複数の第1のマップ及び前記複数の第2のマップを用いて、前記複数の第2のマップを補正するマップ補正部と、前記推論実行部から出力された前記複数の第1のマップをアップサンプリングするアップサンプリング部と、アップサンプリング後の前記複数の第1のマップと、補正後の複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、を備える被写体別特徴点分離装置である。
 本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行ステップと、前記推論実行ステップにおいて出力された前記複数の第1のマップ及び前記複数の第2のマップを用いて、前記複数の第2のマップを補正するマップ補正ステップと、前記推論実行ステップにおいて出力された前記複数の第1のマップをアップサンプリングするアップサンプリングステップと、アップサンプリング後の前記複数の第1のマップと、補正後の複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、を有する被写体別特徴点分離方法である。
 本発明の一態様は、コンピュータを、上記の被写体別特徴点分離装置として機能させるためのコンピュータプログラムである。
 本発明により、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することが可能となる。
本発明における被写体別特徴点分離装置の機能構成の具体例を示すブロック図である。 本発明における学習装置の機能構成の具体例を示すブロック図である。 実施形態における被写体別特徴点分離装置の処理の具体例を示す図である。 実施形態における被写体別特徴点分離装置の処理の流れを示すフローチャートである。 実施形態におけるベクトル密度マップの生成例を示す図である。 ベクトル密度マップの他の生成例を示す図である。 MS COCOデータセットにおいて定義された各特徴点の例を示す図である。
 以下、本発明の一実施形態を、図面を参照しながら説明する。
 図1は、本発明における被写体別特徴点分離装置10の機能構成の具体例を示すブロック図である。被写体別特徴点分離装置10は、被写体となる人物が撮影された画像(以下「撮影画像」という。)内における被写体の特徴点を被写体別に分離する装置である。より具体的には、被写体別特徴点分離装置10は、撮影画像と、機械学習により生成された学習済みモデルとを用いて、被写体別に特徴点の分離を行う。本実施形態における被写体の特徴点は、被写体の関節、目、耳及び鼻等の被写体に定められた部位である。
 本実施形態において学習済みモデルとは、撮影画像を入力として、低解像度のベクトル場マップ群と低解像度のヒートマップ群とを出力するように学習されたモデルデータである。低解像度のベクトル場マップ群とは、撮影画像により生成される低解像のベクトル場マップ(第1のマップ)それぞれを全ての特徴点についてまとめた集合である。低解像度のヒートマップ群とは、撮影画像により生成される低解像のヒートマップ(第2のマップ)それぞれを全ての特徴点についてまとめた集合である。ここで学習済みモデルによる動作について説明する。具体的には、まず学習済みモデルでは、入力した撮影画像から、被写体の各特徴点の接続関係を記述する低解像のベクトル場マップ及び各特徴点に関する低解像のヒートマップを生成する。その後、学習済みモデルでは、生成した低解像のベクトル場マップから得られる低解像度のベクトル場マップ群と、生成した低解像のヒートマップから得られる低解像のヒートマップ群とを出力する。ここで、低解像とは、入力された画像の解像度よりも低い解像度を意味する。低解像のベクトル場マップとは、入力された画像の解像度よりも解像度を下げたベクトル場マップを表す。低解像のヒートマップとは、入力された画像の解像度よりも解像度を下げたヒートマップを表す。以下の説明では、低解像度のベクトル場マップ群を低解像ベクトル場マップ群と記載し、低解像度のヒートマップ群を低解像ヒートマップ群と記載する。
 ベクトル場マップには、子の特徴点から親の特徴点方向へのベクトルが示される。例えば、ベクトル場マップには、被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納されている。ヒートマップは、被写体の特徴点の現れる座標にピークが立つように構成されたマップである。ヒートマップは、従来の被写体別特徴点分離で使用されているヒートマップと同様である。本発明では、低解像ヒートマップを等倍解像度までアップサンプリングしたヒートマップを低解像ベクトル場が指し示す座標値によって補正することを特徴としている。ここでいう等倍解像度とは、入力した画像と同じ解像度を意味する。被写体別特徴点分離装置10は、例えばパーソナルコンピュータ等の情報処理装置を用いて構成される。
 被写体別特徴点分離装置10は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、被写体別特徴点分離装置10は、推論実行部101、ヒートマップ補正部102、アップサンプル部103、被写体別分離部104を備える装置として機能する。なお、被写体別特徴点分離装置10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。
 推論実行部101は、撮影画像と、学習済みモデルとを入力とする。推論実行部101は、入力した撮影画像と、学習済みモデルとを用いて、低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する。推論実行部101は、低解像ヒートマップ群をヒートマップ補正部102に出力し、低解像ベクトル場マップ群をヒートマップ補正部102及びアップサンプル部103に出力する。
 ヒートマップ補正部102は、低解像ヒートマップ群及び低解像ベクトル場マップ群を入力とする。ヒートマップ補正部102は、入力した低解像ヒートマップ群及び低解像ベクトル場マップ群を用いて、等倍解像度のヒートマップ群を生成する。このように、ヒートマップ補正部102は、入力した低解像ヒートマップ群及び低解像ベクトル場マップ群を用いて、低解像ヒートマップ群を補正する。ヒートマップ補正部102は、生成したヒートマップ群を被写体別分離部104に出力する。ヒートマップ補正部102は、マップ補正部の一態様である。
 アップサンプル部103は、低解像ベクトル場マップ群を入力とする。アップサンプル部103は、入力した低解像ベクトル場マップ群をアップサンプリングする。例えば、アップサンプル部103は、入力した低解像ベクトル場マップ群が等倍解像度になるようにアップサンプリングする。アップサンプリングには、Bicubicの技術が用いられてもよい。アップサンプリングされた低解像ベクトル場マップをベクトル場マップと記載する。アップサンプル部103は、ベクトル場マップ群を被写体別分離部104に出力する。
 被写体別分離部104は、ヒートマップ群及びベクトル場マップ群を入力とする。被写体別分離部104は、入力したヒートマップ群及びベクトル場マップ群を用いて、被写体別に特徴点の分離を行う。被写体別分離部104は、特徴点をツリー状の階層構造として被写体別に分離し、その結果を示す座標群(被写体別に分離された特徴点の座標群)を外部に出力する。
 図2は、本発明における学習装置20の機能構成の具体例を示すブロック図である。
 学習装置20は、被写体別特徴点分離装置10で利用する学習済みモデルを生成する装置である。学習装置20は、被写体別特徴点分離装置10と通信可能に接続される。
 学習装置20は、バスで接続されたCPUやメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、学習装置20は、学習モデル記憶部201、教師データ入力部202、学習部203を備える装置として機能する。なお、学習装置20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。
 学習モデル記憶部201は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部201は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。教師有り学習の学習アルゴリズムには、種々の回帰分析法や、決定木、k近傍法、ニューラルネットワーク、サポートベクターマシン、ディープラーニングなどをはじめとする様々なアルゴリズムがあるが、本実施形態では、ディープラーニングを用いる場合について説明する。なお、学習アルゴリズムは、上記のその他の学習モデルが用いられてもよい。
 教師データ入力部202は、入力される複数の教師データからランダムにサンプルを選出し、選出したサンプルを学習部203に出力する機能を有する。教師データは、教師有り学習に用いられる学習用のデータであり、入力データと、その入力データに対して相関性を有すると想定される出力データとの組み合わせによって表されるデータである。ここでは、入力データは撮影画像であり、出力データは当該撮影画像と対になる特徴点に関する低解像ヒートマップ群及び低解像ベクトル場マップ群となる。
 教師データ入力部202は、教師データ群を記憶している外部装置(図示せず)と通信可能に接続され、その通信インタフェースを介して外部装置から教師データ群を入力する。また例えば、教師データ入力部202は、予め教師データ群を記憶している記録媒体(例えば、USB(Universal Serial Bus)メモリやハードディスク等)から教師データ群を読み出すことによって教師データ群を入力するように構成されてもよい。
 学習部203は、教師データ入力部202から出力される教師データにおける撮影画像に対し、学習モデルに基づいて変換することで得られる特徴点に関する低解像ヒートマップ群及び特徴点に関する低解像ベクトル場マップ群と、教師データにおける特徴点に関する低解像ヒートマップ群及び特徴点に関する低解像ベクトル場マップ群の誤差を最小化するよう学習することにより学習済みモデルを生成する。生成された学習済みモデルは被写体別特徴点分離装置10に入力される。なお、被写体別特徴点分離装置10に対する学習済みモデルの入力は、被写体別特徴点分離装置10と学習装置20との通信を介して行われてもよいし、学習済みモデルを記録した記録媒体を介して行われてもよい。
 図3は、実施形態における被写体別特徴点分離装置10の処理の具体例を示す図である。図3に示す画像21は、推論実行部101から出力される低解像ヒートマップ群のうち右ひじの低解像ヒートマップである。画像21における領域211は右手首の領域であり、領域212は右ひじの領域である。ここで、右手首が子の特徴点であり、右ひじが親の特徴点であるとする。この場合、子の特徴点(右手首)から見た親の特徴点(右ひじ)方向のベクトル場マップは画像22のようになる。画像22は、推論実行部101から出力される低解像ヒートマップ群のうち右手首から見た右ひじ方向の低解像ベクトル場マップである。
 図3における画像23は、右ひじの領域212の解像度を、入力画像と同じ解像度にアップサンプリングしたヒートマップを表す。画像23において特徴点の正解座標が領域231で示される座標であり、アップサンプリング後のヒートマップのピーク座標が領域232で示される座標であるとする。低解像ヒートマップをBicubic補間によりアップサンプリングした時のピーク値を示す座標が正解座標から所定の範囲以上乖離している場合、特徴点の座標推定精度が低下する。そこで、本発明では、特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップを生成し、アップサンプリングした低解像ヒートマップとの合成値を用いて最終的な特徴点を決定する。これにより、正解座標に近付けることができるため特徴点の座標推定精度の低下を抑制することができる。
 特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップ24は、低解像ベクトル場マップ(画像22)から生成される。ベクトル密度マップ24の具体的な生成方法については後述する。ベクトル密度マップ24における点241は、低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標を表す。そして、被写体別特徴点分離装置10は、画像23(ヒートマップ)の各画素に対して(1.0-α)の値を乗算し、ベクトル密度マップ24の各画素に対してαの値を乗算する。なお、ベクトル密度マップ24とアップサンプリングした低解像ヒートマップ(画像23)の合成比率αはベクトルの密集度に応じて可変の値をとるものとする。例えば、収束密度が著しく高い場合(閾値以上の場合)にはαの値を高く(1により近い値)設定し、収束密度が低い場合(閾値未満の場合)にはαの値を低く(0により近い値)設定する。そして、被写体別特徴点分離装置10は、乗算結果を加算することによって最終的なヒートマップ25を取得する。そして、ヒートマップ25におけるピーク位置251が特徴点の位置となる。被写体別特徴点分離装置10では、推論実行部101から出力される低解像ヒートマップ群において上記の処理を行うことによって、ヒートマップ群を生成する。
 図4は、実施形態における被写体別特徴点分離装置10の処理の流れを示すフローチャートである。
 推論実行部101は、外部から撮影画像と、学習済みモデルとを入力する(ステップS101)。撮影画像と、学習済みモデルとは、同じタイミングで入力される必要はない。推論実行部101は、図4の処理を開始する前に、学習装置20から事前に学習済みモデルを取得している場合には、ステップS101の処理で撮影画像のみを入力する。
 推論実行部101は、入力した学習済みモデルに撮影画像を入力することによって、撮影画像に撮影されている被写体の低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する(ステップS102)。推論実行部101は、低解像ヒートマップ群をヒートマップ補正部102に出力する。推論実行部101は、低解像ベクトル場マップ群をヒートマップ補正部102及びアップサンプル部103に出力する。
 ヒートマップ補正部102は、推論実行部101から出力された低解像ヒートマップ群を等倍解像度の画像となるようにアップサンプリングする(ステップS103)。例えば、ヒートマップ補正部102は、Bicubic補間により、低解像ヒートマップ群を等倍解像度の画像となるようにアップサンプリングする。ヒートマップ補正部102は、ベクトル密度マップを初期化する(ステップS104)。すなわち、ヒートマップ補正部102は、低解像ベクトル場マップ群に基づくベクトル密度マップ群を生成するために、ベクトル密度マップの各画素の値を0で初期化する。
 ヒートマップ補正部102は、入力した複数の低解像ヒートマップ群のうち、まず1つの低解像ヒートマップを選択する。次に、ヒートマップ補正部102は、選択した低解像ヒートマップと、選択した低解像ヒートマップに対応する低解像ベクトル場マップとを用いて、ベクトル密度マップを生成する。具体的には、ヒートマップ補正部102は、低解像ヒートマップが指し示す特徴点の方向を示す低解像ベクトル場マップの各ベクトルが指し示す座標周辺に所定の分散値を設定した正規分布に基づいて、ベクトル密度マップに加算合成を行う(ステップS105)。
 図5は、実施形態におけるベクトル密度マップの生成例を示す図である。図5に示す画像21及び画像22は、図3に示す画像と同じ画像である。ヒートマップ補正部102は、画像22として示す低解像ベクトル場マップを用いて画像26を生成する。画像26における点261は、低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標を表す。画像26における領域262は、マップ内の座標を表す。そして、ヒートマップ補正部102は、以下の式(1)に基づいて、ベクトル密度マップの各座標に割り当てる座標値Vを算出する。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Nは低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標の数を表し、Cはベクトル密度マップの各座標を表し、σは既知の分散値を表す。ヒートマップ補正部102は、算出した各座標の座標値Vを、初期化したベクトル密度マップの各座標に割り当てることによって、ベクトル密度マップを生成する。この処理によって生成されたベクトル密度マップが図5における画像24である。
 ヒートマップ補正部102は、生成したベクトル密度マップ内の最大値でベクトル密度マップの値を除算して最大値が1.0になるよう正規化する(ステップS106)。その後、ヒートマップ補正部102は、正規化後のベクトル密度マップと、アップサンプリング後のヒートマップのそれぞれに対して所定の合成比率を乗算する。
 ヒートマップ補正部102は、アップサンプリング後のヒートマップの各画素に対しては(1.0-α)の値を乗算し、ベクトル密度マップの各画素に対してαの値を乗算する。例えば、ヒートマップ補正部102は、ベクトル密度マップとアップサンプリングしたヒートマップの各ピークを示す座標から一定距離内のサンプルにおける平均値とピーク値の差分をそれぞれ比較し、ベクトル密度マップの示す差分値が閾値以上である場合にはαの値を0.5以上に設定する。
 そして、ヒートマップ補正部102は、乗算後の1つのベクトル密度マップと乗算後の1つのヒートマップとを加算合成することによって最終的な1つのヒートマップを生成する(ステップS107)。ヒートマップ補正部102は、生成したヒートマップを被写体別分離部104に出力する。ヒートマップ補正部102は、ステップS103からステップS107の処理を、推論実行部101から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対して行う。これにより、ヒートマップ補正部102から複数のヒートマップ群が被写体別分離部104に出力される。ヒートマップ補正部102は、ステップS103からステップS107の処理を、推論実行部101から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対して行ったか否かを判定する(ステップS108)。
 推論実行部101から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対してステップS103からステップS107の処理を行った場合(ステップS108-YES)、被写体別特徴点分離装置10はステップS109の処理を行う。
 一方、推論実行部101から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対してステップS103からステップS107の処理を行っていない場合(ステップS108-NO)、被写体別特徴点分離装置10は処理を行っていない低解像ヒートマップ及び低解像ベクトル場マップに対してステップS103からステップS107の処理を行う。
 アップサンプル部103は、推論実行部101から出力された全ての低解像ベクトル場マップ群を等倍解像度の画像となるようにアップサンプリングする(ステップS109)。例えば、アップサンプル部103は、Bicubic補間により、低解像ベクトル場マップ群を等倍解像度の画像となるようにアップサンプリングする。アップサンプル部103は、アップサンプリング後のベクトル場マップ群を被写体別分離部104に出力する。
 被写体別分離部104は、ヒートマップ補正部102から出力されたヒートマップ群と、アップサンプル部103から出力されたベクトル場マップ群とを用いて、被写体別に特徴点の分離を行う(ステップS110)。被写体別分離部104は、被写体別に分離された特徴点の座標群を出力する。
 以上のように構成された被写体別特徴点分離装置10によれば、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することができる。具体的には、被写体別特徴点分離装置10は、入力画像から低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する。そして、被写体別特徴点分離装置10は、低解像ヒートマップ群を等倍解像度までアップサンプリングしたヒートマップ群を、低解像ベクトル場マップが指し示す座標値によって補正する。これにより、高解像カメラで撮影された画像を入力とした場合であっても、等倍解像度のヒートマップとベクトル場マップを生成しない。したがって、演算負荷を軽減することができる。さらに、被写体別特徴点分離装置10では、特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップを生成し、アップサンプリングした低解像ヒートマップとの合成値を用いて最終的な特徴点を決定することで正解座標に近付けることができる。そのため、特徴点の座標推定精度の低下を抑制することが可能になる。
 (変形例)
 被写体別特徴点分離装置10と、学習装置20とは一体化されて構成されてもよい。具体的には、被写体別特徴点分離装置10が、学習装置20の学習機能を備えるように構成されてもよい。このように構成される場合、被写体別特徴点分離装置10は、学習モードと推論モードを有し、各モードに応じた動作を実行する。具体的には、学習モードでは、被写体別特徴点分離装置10は、学習装置20が行う処理と同じ処理を行うことによって学習済みモデルを生成する。推論モードでは、被写体別特徴点分離装置10は、生成した学習済みモデルを用いて図4に示す処理を実行する。
 上記の図4におけるステップS105の処理は、他の手法で実行されてもよい。例えば、ベクトル密度マップにおける各座標に対して、低解像ベクトル場マップの各ベクトルが指し示す座標と特徴点の正解座標との距離Lの総和ΣLの逆数である1.0/ΣLなどを用いても良い。
 図6は、ベクトル密度マップの他の生成例を示す図である。図6に示す画像21及び画像22は、図3に示す画像と同じ画像である。ヒートマップ補正部102は、画像22として示す低解像ベクトル場マップを用いて画像26を生成する。そして、ヒートマップ補正部102は、以下の式(2)に基づいて、ベクトル密度マップの各座標に割り当てる座標値Vを算出する。
Figure JPOXMLDOC01-appb-M000002
 このように、図4におけるステップS105の処理は、ベクトルの密度を測る尺度となる手法であれば代用可能である。
 上記の実施形態では、低解像ヒートマップと低解像ベクトル場マップを使用する状況下であっても、特徴点の座標推定精度の低下を抑制する例を示したが、等倍解像度のヒートマップと等倍解像度のベクトル場を使用して、等倍解像度のヒートマップの推定精度を向上させる目的としてベクトル密度マップを利用してもよい。
 本発明は、被写体が撮影された画像から検出される被写体の特徴点を被写体毎に分離する技術に適用できる。
10…被写体別特徴点分離装置, 20…学習装置, 101…推論実行部, 102…ヒートマップ補正部, 103…アップサンプル部, 104…被写体別分離部, 201…学習モデル記憶部, 202…教師データ入力部, 203…学習部

Claims (6)

  1.  被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行部と、
     前記推論実行部から出力された前記複数の第1のマップ及び前記複数の第2のマップを用いて、前記複数の第2のマップを補正するマップ補正部と、
     前記推論実行部から出力された前記複数の第1のマップをアップサンプリングするアップサンプリング部と、
     アップサンプリング後の前記複数の第1のマップと、補正後の複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、
     を備える被写体別特徴点分離装置。
  2.  前記推論実行部から出力された前記複数の第1のマップ及び前記複数の第2のマップが低解像度であり、
     前記マップ補正部は、前記複数の第2のマップの解像度が等倍解像度になるようにアップサンプリングする、
     請求項1に記載の被写体別特徴点分離装置。
  3.  前記マップ補正部は、第1のマップの各ベクトルが指し示す特徴点の座標を用いて、ベクトルの密集度合いを示すベクトル密度マップを生成し、生成した前記ベクトル密度マップ内の最大値でベクトル密度マップの値を除算することによって前記ベクトル密度マップの正規化を行う、
     請求項2に記載の被写体別特徴点分離装置。
  4.  前記マップ補正部は、正規化後のベクトル密度マップと、アップサンプリング後の複数の第2のマップそれぞれに対して、所定の割合の値を乗算し、乗算結果を加算することによって前記補正後の複数の第2のマップを生成する、
     請求項3に記載の被写体別特徴点分離装置。
  5.  被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行ステップと、
     前記推論実行ステップにおいて出力された前記複数の第1のマップ及び前記複数の第2のマップを用いて、前記複数の第2のマップを補正するマップ補正ステップと、
     前記推論実行ステップにおいて出力された前記複数の第1のマップをアップサンプリングするアップサンプリングステップと、
     アップサンプリング後の前記複数の第1のマップと、補正後の複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、
     を有する被写体別特徴点分離方法。
  6.  コンピュータを、請求項1から4のいずれか一項に記載の被写体別特徴点分離装置として機能させるためのコンピュータプログラム。
PCT/JP2020/006844 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム WO2021166174A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/006844 WO2021166174A1 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
US17/800,582 US20230101653A1 (en) 2020-02-20 2020-02-20 Apparatus for separating feature points for each object, method for separating feature points for each object and computer program
JP2022501519A JP7364959B2 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006844 WO2021166174A1 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2021166174A1 true WO2021166174A1 (ja) 2021-08-26

Family

ID=77390748

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006844 WO2021166174A1 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230101653A1 (ja)
JP (1) JP7364959B2 (ja)
WO (1) WO2021166174A1 (ja)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEORGE PAPANDREOU, ZHU TYLER, CHEN LIANG-CHIEH, GIDARIS SPYROS, TOMPSON JONATHAN, MURPHY KEVIN: "PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model", ARXIV, 1 January 2018 (2018-01-01), pages 1 - 21, XP055611454, ISBN: 978-3-030-01264-9, Retrieved from the Internet <URL:https://arxiv.org/pdf/1803.08225.pdf> DOI: 10.1007/978-3-030-01264-9_17 *
YANG BAI; WEIQIANG WANG: "ACPNet:Anchor-Center Based Person Network for Human Pose Estimation and Instance Segmentation", 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), 8 July 2019 (2019-07-08), pages 1072 - 1077, XP033590402, DOI: 10.1109/ICME.2019.00188 *
ZHE CAO, TOMAS SIMON, SHIH-EN WEI, YASER SHEIKH: "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 14 April 2017 (2017-04-14), pages 7291 - 7299, XP055712609, ISBN: 978-1-5386-0457-1, DOI: 10.1109/CVPR.2017.143 *

Also Published As

Publication number Publication date
US20230101653A1 (en) 2023-03-30
JP7364959B2 (ja) 2023-10-19
JPWO2021166174A1 (ja) 2021-08-26

Similar Documents

Publication Publication Date Title
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
JP4372051B2 (ja) 手形状認識装置及びその方法
JP5406705B2 (ja) データ補正装置及び方法
US7925048B2 (en) Feature point detecting device, feature point detecting method, and feature point detecting program
US8615135B2 (en) Feature point positioning apparatus, image recognition apparatus, processing method thereof and computer-readable storage medium
US20110091113A1 (en) Image processing apparatus and method, and computer-readable storage medium
WO2010122721A1 (ja) 照合装置、照合方法および照合プログラム
EP3905195A1 (en) Image depth determining method and living body identification method, circuit, device, and medium
KR101558547B1 (ko) 얼굴 포즈 변화에 강한 연령 인식방법 및 시스템
WO2013122009A1 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
JP5791373B2 (ja) 特徴点位置決定装置、特徴点位置決定方法及びプログラム
CN110546687A (zh) 图像处理装置及二维图像生成用程序
WO2022018811A1 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP6202938B2 (ja) 画像認識装置および画像認識方法
CN113421186A (zh) 使用生成对抗网络的非监督视频超分辨率的设备和方法
WO2021166174A1 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
WO2021166181A1 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
JP7059701B2 (ja) 推定装置、推定方法、及び推定プログラム
JP2009217799A (ja) 輪郭検出方法、輪郭検出装置および輪郭検出プログラム
JP4942197B2 (ja) テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
JP6260146B2 (ja) 形状状態推定装置、形状モデル生成装置、及びプログラム
WO2023189195A1 (ja) 画像処理装置、画像処理方法、及びプログラム
US20220083771A1 (en) Filtering method, non-transitory computer-readable storage medium, and filtering apparatus
CN115909452A (zh) 人脸影像增益方法与系统
JP6751663B2 (ja) 画像処理装置、画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20920059

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022501519

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20920059

Country of ref document: EP

Kind code of ref document: A1