WO2021260780A1 - 物体位置推定装置、物体位置推定方法、および記録媒体 - Google Patents

物体位置推定装置、物体位置推定方法、および記録媒体 Download PDF

Info

Publication number
WO2021260780A1
WO2021260780A1 PCT/JP2020/024494 JP2020024494W WO2021260780A1 WO 2021260780 A1 WO2021260780 A1 WO 2021260780A1 JP 2020024494 W JP2020024494 W JP 2020024494W WO 2021260780 A1 WO2021260780 A1 WO 2021260780A1
Authority
WO
WIPO (PCT)
Prior art keywords
likelihood
size
map
target image
unit
Prior art date
Application number
PCT/JP2020/024494
Other languages
English (en)
French (fr)
Inventor
浩雄 池田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to CN202080102293.8A priority Critical patent/CN115720664A/zh
Priority to PCT/JP2020/024494 priority patent/WO2021260780A1/ja
Priority to US18/010,000 priority patent/US20230230277A1/en
Priority to JP2022531267A priority patent/JP7448006B2/ja
Publication of WO2021260780A1 publication Critical patent/WO2021260780A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Definitions

  • the present invention relates to an object position estimation device, an object position estimation method, and a recording medium, and more particularly to an object position estimation device for estimating the position of an object in an image, an object position estimation method, and a recording medium.
  • Patent Documents 1 and 2 A related technique for estimating the position of an object in an image is known (Patent Documents 1 and 2).
  • an estimator learns to identify an object using a sample image showing the entire object. The estimator learned in this way scans the image in order to estimate the position of the object in the image.
  • an estimator estimates a Haar-Like feature of an object in an image, and estimates an object region for the identified object. At this time, the estimator scans each partial region while changing the position and size of the partial regions in the image.
  • the present invention has been made in view of the above problems, and an object thereof is an object position estimation device capable of estimating the position of each object robustly and with high accuracy even if objects overlap each other in an image.
  • the method is to provide a recording medium.
  • the object position estimation device has a first feature extraction means for generating a first feature map by performing a convolution calculation process on the target image, and the first feature map.
  • the feature extraction means including the second feature extraction means for generating the second feature map by further performing the convolution calculation process and the first feature map, the first size at each position of the target image.
  • the first size is larger than the first size by using the first position likelihood estimation means for estimating the first probability map indicating the probability that the object having the object has the presence of the object and the second feature map.
  • a likelihood map estimation means including a second position likelihood estimation means for estimating a second likelihood map indicating the probability that an object having a large second size exists.
  • the object position estimation method generates a first feature map by performing a convolution calculation process on the target image, and further performs a convolution calculation process on the first feature map.
  • a second feature map is generated, and the first feature map is used to estimate a first likelihood map showing the probability that an object having the first size exists at each position of the target image.
  • the second feature map it is possible to estimate a second likelihood map showing the probability that an object having a second size larger than the first size exists at each position of the target image.
  • the recording medium generates a first feature map by performing a convolution calculation process on the target image, and further performs a convolution calculation process on the first feature map.
  • a second feature map is generated, and using the first feature map, a first likelihood map showing the probability that an object having the first size exists at each position of the target image is estimated.
  • a second likelihood map showing the probability that an object having a second size larger than the first size exists at each position of the target image is estimated. Let the computer do that.
  • the position of each object can be estimated robustly and with high accuracy.
  • FIG. It is a block diagram which shows the structure of the object position estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the structure of the system which includes the object position estimation apparatus which concerns on Embodiment 2.
  • FIG. It is a flowchart which shows the flow of the process which each part of the object position estimation apparatus which concerns on Embodiment 2 performs.
  • FIG. 1 schematically shows the configuration of the system according to the first embodiment.
  • the system according to the first embodiment includes an image acquisition device 90 and an object position estimation device 1.
  • the image acquisition device 90 acquires one or a plurality of images.
  • the image acquisition device 90 acquires a still image output from a video device such as a camera, or an image frame of a moving image output from a video device such as a video.
  • the image acquisition device 90 transmits one or a plurality of acquired images (for example, a still image or a moving image frame) to the object position estimation device 1.
  • the image transmitted by the image acquisition device 90 to the object position estimation device 1 is referred to as a target image 70.
  • the operation of the object position estimation device 1 is controlled by, for example, a computer program.
  • the object position estimation device 1 includes a feature extraction unit 10 and a likelihood map estimation unit 20.
  • the likelihood map estimation unit 20 is an example of the likelihood map estimation means.
  • the feature extraction unit 10 includes a first feature extraction unit 21 and a second feature extraction unit 22.
  • the likelihood map estimation unit 20 includes a first position likelihood estimation unit 23 and a second position likelihood estimation unit 24.
  • the object position estimation device 1 may have three or more feature extraction units and three or more position likelihood estimation units.
  • the first feature extraction unit 21 and the second feature extraction unit 22 are examples of the first feature extraction means and the second feature extraction means.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 are examples of the first position likelihood estimation means and the second position likelihood estimation means.
  • the first feature extraction unit 21 generates a first feature map showing the features of an object by performing a convolution calculation process on the target image 70. Specifically, the first feature extraction unit 21 applies the first filter to a matrix in which the target image 70 is represented by pixel values while sliding the first filter by a predetermined movement amount.
  • the first filter is a matrix (kernel) that is multiplied by a portion of the matrix (called a partial region) in which the target image 70 is represented by pixel values.
  • the first feature extraction unit 21 first is the sum of the values obtained by the matrix operation between a part of the matrix representing the target image 70 in pixel values and the matrix representing the first filter. Output as an element of the feature map.
  • the first feature extraction unit 21 outputs the first feature map composed of a plurality of elements to the first position likelihood estimation unit 23 of the likelihood map estimation unit 20.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map to generate a second feature map showing the features of the object. Specifically, the second feature extraction unit 22 applies the second filter to the first feature map while sliding it by a predetermined movement amount, and applies a part of the matrix of the first feature map and the second. The sum of the values obtained by the matrix operation with the matrix representing the filter of is output as an element of the second feature map. Specifically, the second filter is a matrix that is multiplied against a portion of the first feature map. The second feature extraction unit 22 outputs the second feature map composed of a plurality of elements to the second position likelihood estimation unit 24 of the likelihood map estimation unit 20.
  • the first position likelihood estimation unit 23 uses the first feature map received from the first feature extraction unit 21 to indicate the probability that an object having the first size exists at each position of the target image 70. Estimate the likelihood map. Specifically, as the first position likelihood estimation unit 23, an estimation unit (CNN; Convolutional Neural Network) trained using deep learning is used. The learned estimation unit estimates the position (likelihood map) of the object having the first size in the target image 70 from the first feature map. The first size indicates an arbitrary shape and size included in the first predetermined range (described later) in the target image 70.
  • CNN Convolutional Neural Network
  • the first position likelihood estimation unit 23 calculates the probability of being an object of the first size, that is, an object having the first size, for each partial region of the target image 70.
  • the first-position likelihood estimation unit 23 estimates a first-likelihood map that expresses the first-size object-likeness calculated for each partial region of the target image 70 by the likelihood.
  • the likelihood at each coordinate of the first likelihood map indicates the probability that an object having the first size exists at the corresponding position in the target image 70.
  • the first position likelihood estimation unit 23 outputs the first likelihood map estimated in this way.
  • the second position likelihood estimation unit 24 uses the second feature map to estimate a second likelihood map that indicates the probability that an object having a second size exists at each corresponding position in the target image 70. Specifically, the second feature extraction unit 22 calculates the probability of being an object of a second size, that is, an object having a second size, for each partial region of the target image 70. The second feature extraction unit 22 estimates a second likelihood map that expresses the second-sized object-likeness for each partial region of the target image 70 by the likelihood. The likelihood at each coordinate of the second likelihood map indicates the probability that an object of second size will be present at the corresponding position in the target image 70. The second position likelihood estimation unit 24 outputs the second likelihood map estimated in this way. The second size indicates an arbitrary size within the second predetermined range (described later) in the target image 70.
  • an object having a first size in the same meaning as an "object having a first size”.
  • an object having a second size in the same meaning as “an object having a second size”.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 estimate the positions of objects having different attributes for each attribute of the pre-classified object. Then, the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 estimate the first likelihood map / second likelihood map for each attribute of the object, and the first likelihood for each attribute of the object. Output the degree map / second likelihood map.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 may be configured by different networks for each attribute, or may be configured by a single network. In this case, both the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 output a plurality of likelihood maps in the channel direction called attributes.
  • the first feature extraction unit 21 of the feature extraction unit 10 generates a first feature map showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 of the feature extraction unit 10 further performs a convolution calculation process on the first feature map to generate a second feature map showing the features of the object.
  • the first position likelihood estimation unit 23 of the likelihood map estimation unit 20 uses the first feature map to generate a first likelihood map showing the probability that an object having the first size exists at each position of the image. presume.
  • the second position likelihood estimation unit 24 of the likelihood map estimation unit 20 uses the second feature map to determine the probability that an object having a second size larger than the first size exists at each position of the image. Estimate the second likelihood map shown.
  • the object position estimation device 1 uses the first feature map and the second feature map to separately position the object having the first size and the object having the second size in the target image 70. To estimate. Therefore, even if objects overlap with each other in the image, the position of each object can be estimated robustly and with high accuracy.
  • the object position estimation device 2 includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood estimation unit 24. I have.
  • the object position estimation device 2 acquires the target image 70 from the image acquisition device 90.
  • the object position estimation device 2 estimates the position of a predetermined type of object (hereinafter, simply referred to as an object) included in the target image 70.
  • the object position estimation device 2 estimates the position of a person, a car, a tree, an animal, an umbrella, or a part thereof. In the following, an example in which the object is a human head will be described.
  • the likelihood at each coordinate of the first likelihood map / second likelihood map output by the object position estimation device 2 is the first size / second at each corresponding position in the target image 70. Shows the probability that a person's head (an example of an object) with the size of is present. Make sure that the total likelihood in each of the first likelihood map / second likelihood map matches the number of heads of the person with the first size / second size shown in the target image 70. , The likelihood in the first likelihood map / second likelihood map is normalized. As a result, the total likelihood of each of the first likelihood map and the second likelihood map is the total likelihood of each person having the first size / second size reflected in the target image 70 in the target image 70. Corresponds to the total number of. It should be noted that normalization of the likelihood in the first likelihood map / second likelihood map is not essential.
  • the first feature extraction unit 21 generates a first feature map 80 showing the features of an object by performing a convolution calculation process on the target image 70.
  • the first feature extraction unit 21 is a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the first feature extraction unit 21 outputs the first feature map 80 to each of the first position likelihood estimation unit 23 and the second feature extraction unit 22.
  • the first feature map 80 is input from the first feature extraction unit 21 to the first position likelihood estimation unit 23.
  • the first position likelihood estimation unit 23 estimates the first likelihood map by performing a convolution calculation process on the first feature map 80.
  • the first position likelihood estimation unit 23 is realized as a convolutional neural network separately or integrally with the first feature extraction unit 21.
  • the likelihood at each coordinate of the first likelihood map indicates the probability that an object having the first size will be present at each corresponding position in the target image 70.
  • the first size indicates an arbitrary shape and size included in the first predetermined range (described later) in the target image 70.
  • the first position likelihood estimation unit 23 outputs the estimated first likelihood map.
  • the second feature extraction unit 22 acquires the first feature map 80 from the first feature extraction unit 21.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map 80 to generate a second feature map 81 showing the features of the object.
  • the data size of the second feature map 81 is smaller than the data size of the first feature map 80.
  • the second feature extraction unit 22 outputs the second feature map 81 to the second position likelihood estimation unit 24.
  • the data size of the first feature map 80 is relatively large compared to the data size of the second feature map 81. That is, each element of the first feature map 80 corresponds to a feature of a small partial region of the target image 70. Therefore, the first feature map 80 is suitable for capturing the detailed features of the target image 70.
  • each element of the second feature map 81 corresponds to a feature of a large partial region of the target image 70. Therefore, the second feature map 81 is suitable for capturing the rough features of the target image 70.
  • the first feature extraction unit 21 and the second feature extraction unit 22 of the object position estimation device 2 are shown as separate functional blocks. However, the first feature extraction unit 21 and the second feature extraction unit 22 may form one integrated network. In this case, the first half of the integrated network corresponds to the first feature extraction unit 21, and the second half of the integrated network corresponds to the second feature extraction unit 22.
  • the second feature map 81 is input from the second feature extraction unit 22 to the second position likelihood estimation unit 24.
  • the second position likelihood estimation unit 24 estimates the second likelihood map by performing a convolution operation process on the second feature map 81.
  • the likelihood at each coordinate of the second likelihood map indicates the probability that an object having a second size exists at each corresponding position in the target image 70.
  • the second size indicates an arbitrary size within the second predetermined range (described later) in the target image 70.
  • the second feature extraction unit 22 may generate a second feature map from the target image 70 itself.
  • the second feature extraction unit 22 acquires the target image 70 instead of the first feature map 80.
  • the second feature extraction unit 22 generates the second feature map 81 by performing a convolution calculation process on the target image 70.
  • the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, and the second position likelihood estimation unit 24 of the object position estimation device 2 are regarded as separate functional blocks. It is shown.
  • the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, and the second position likelihood estimation unit 24 may form one integrated network. ..
  • the first position likelihood estimation unit 23 estimates the position of an object having the first size within the first predetermined range. In other words, when the object existing in the target image 70 has the first size, the first position likelihood estimation unit 23 estimates the first likelihood map.
  • the second position likelihood estimation unit 24 estimates the position of the object having the second size within the second predetermined range. That is, when the object existing in the target image 70 has the second size, the position of the object is estimated by the second position likelihood estimation unit 24.
  • the second size is larger than the first size. It is determined in advance so that the first predetermined range that defines the first size and the second predetermined range that defines the second size do not overlap.
  • the first predetermined range and the second predetermined range are determined based on the data sizes of the corresponding first feature map 80 and the second feature map 81, respectively.
  • the reference size of the object in the target image 70 (hereinafter referred to as the first reference size) is first determined by using the first feature map 80.
  • the second feature map 81 another reference size of the object in the target image 70 (hereinafter, referred to as a second reference size) is determined.
  • the above-mentioned first reference size is T1
  • the above-mentioned second reference size is T2.
  • the first predetermined range is defined as a * T1 ⁇ k ⁇ b * T1 by using the first reference size T1 and the constants a and b (0 ⁇ a ⁇ b).
  • k represents the size of the object.
  • the second predetermined range is defined as c * T2 ⁇ k ⁇ d * T2 by using the second reference size T2 and the constants c and d (0 ⁇ c ⁇ d).
  • Each part (that is, the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, the second position likelihood estimation unit 24) provided in the object position estimation device 2 according to the second embodiment.
  • the learning method will be described in the sixth embodiment described later.
  • the learning function may be provided in the object position estimation device 2, or may be provided in another device other than the object position estimation device 2. In the latter case, the object position estimation device 2 acquires each part learned in advance by another device.
  • the term "acquiring each learned part” here may mean acquiring the network itself (that is, a program in which learned parameters are set) corresponding to each part, or only the learned parameters. May be obtained. In the latter case, the object position estimation device 2 acquires learned parameters from other devices, and sets the learned parameters in a program prepared in advance in the recording medium of the object position estimation device 2.
  • the first feature map 80 is suitable for capturing the detailed features of the target image 70.
  • the first position likelihood estimation unit 23 estimates the position of an object having the first size (an object that appears small on the image) in the target image 70 by using the first feature map 80.
  • the second feature map 81 is suitable for capturing the rough features of the target image 70.
  • the second position likelihood estimation unit 24 uses the second feature map 81 to estimate the position of an object having a second size larger than the first size (an object that appears large on the image).
  • the object position estimation device 2 uses the first feature map 80 and the second feature map 81 together to form an object having a first size and an object having a second size in the target image 70.
  • the position of can be estimated efficiently.
  • the first position likelihood estimation unit 23 may calculate the total number of objects having the first size in the target image 70 by summing the overall likelihoods of the normalized first likelihood map. Further, the second position likelihood estimation unit 24 may calculate the total number of objects having a second size by summing the total likelihoods of the normalized second likelihood maps. Further, the object position estimation device 2 is the first in the target image 70 by summing up the total number of objects having the first size and the total number of objects having the second size obtained by the above method. The total number of objects having the size of or a second size may be calculated.
  • FIG. 3 is a flowchart showing the operation of the object position estimation device 2.
  • the first feature extraction unit 21 acquires the target image 70 from the image acquisition device 90 (step S10).
  • the first feature extraction unit 21 generates the first feature map 80 by performing a convolution calculation process on the target image 70 (step S11).
  • the first feature extraction unit 21 outputs the first feature map 80 to the first position likelihood estimation unit 23 and the second feature extraction unit 22.
  • the first position likelihood estimation unit 23 estimates the first likelihood map showing the position of the object having the first size by performing the convolution calculation process on the first feature map 80 (step S12). ..
  • the first position likelihood estimation unit 23 outputs the estimated first likelihood map.
  • the second feature extraction unit 22 acquires the first feature map 80 from the first feature extraction unit 21 and generates the second feature map 81 by performing a convolution operation process on the first feature map 80 (step). S13).
  • the second position likelihood estimation unit 24 estimates the second likelihood map showing the position of the object having the second size by performing the convolution calculation process on the second feature map 81 (step S14). ..
  • the second position likelihood estimation unit 24 outputs the estimated second likelihood map.
  • steps S12, S13, and S14 may be executed sequentially. Further, the order between the processes of steps S12, S13 and S14 may be changed. However, the process of step S14 needs to be executed after the process of step S13.
  • the object position estimation device 2 has been the feature extraction unit (that is, the first feature extraction unit 21 and the second feature extraction unit 22) and the likelihood map estimation unit (that is, the first position likelihood estimation unit 23 and the second position).
  • the configuration including two likelihood estimation units 24) each is described above.
  • the object position estimation device 2 may have three or more feature extraction units and three or more position likelihood estimation units (modification example 1).
  • FIG. 4 shows the configuration of the object position estimation device 2a according to the present modification 1.
  • the object position estimation device 2a includes n (n is an integer of 3 or more) each of a feature extraction unit and a position likelihood estimation unit.
  • the first feature map is obtained by the first feature extraction unit performing a convolution calculation process on the target image.
  • the nth feature map is obtained by the i-th feature extraction unit performing a convolution operation process on the feature map in the previous stage, respectively.
  • i is any integer from 2 to n.
  • the i-th feature extraction unit of the object position estimation device 2a generates the i-feature map by performing a convolution calculation process on the (i-1) feature map.
  • the network in which the first feature extraction unit to the nth feature extraction unit are connected can be regarded as one integrated feature extraction unit 10.
  • the i-th position likelihood estimation unit estimates the position of an object having the i-th size by performing a convolution operation process on the i-th feature map. Then, the i-th position likelihood estimation unit estimates and outputs the i-th likelihood map showing the position of the object having the i-th size. Further, in the modification 1 shown in FIG. 4, all the feature extraction units and all the likelihood estimation units can be realized as one integrated neural network.
  • the present modification 1 it is possible to estimate and output three or more likelihood maps showing the positions of objects having three or more sizes different from each other from the target image. That is, the object position estimation device 2a according to the present modification 1 can estimate the positions of objects having three or more sizes different from each other.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 estimate the position of the object for each attribute of the pre-classified object. Then, the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 estimate the first likelihood map / second likelihood map for each attribute of the object, and the estimated first likelihood map / Output the second likelihood map.
  • the attributes may be the age of the person, the gender of the person, the orientation of the person's face, the speed of movement of the person, or the affiliation of the person (such as a member of society, a student, or a family member). , May be related to the person itself.
  • the attributes may relate to a group of objects, such as a procession or stagnation of a crowd containing a person, or a state of a crowd containing a person (eg, panic).
  • the attributes of a person (object) are classified into two categories: children and adults.
  • the first position likelihood estimation unit 23 estimates the positions of the child and the adult having the first size in the target image 70, respectively.
  • the second position likelihood estimation unit 24 estimates the positions of the child and the adult having the second size in the target image 70, respectively.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 may be configured as a neural network that outputs the position of a child and the position of an adult to each channel.
  • the first position likelihood estimation unit 23 estimates the position of the child having the first size and the position of the adult having the first size in the target image 70, and outputs them as each channel.
  • the second position likelihood estimation unit 24 estimates the position of the child having the second size and the position of the adult having the second size in the target image 70, and outputs them as each channel.
  • the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 use the attributes of the object (children and adults in the above example) as channels of the neural network, and for each attribute. , The position of the object having the size determined by each position likelihood estimation unit is estimated as a likelihood map. As a result, the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24 can estimate the position of the object according to the size of the object and further according to the attribute.
  • the first feature extraction unit 21 of the feature extraction unit 10 generates a first feature map showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 of the feature extraction unit 10 further performs a convolution calculation process on the first feature map to generate a second feature map showing the features of the object.
  • the first position likelihood estimation unit 23 of the likelihood map estimation unit 20 uses the first feature map to generate a first likelihood map showing the probability that an object having the first size exists at each position of the image. presume.
  • the second position likelihood estimation unit 24 of the likelihood map estimation unit 20 uses the second feature map to determine the probability that an object having a second size larger than the first size exists at each position of the image. Estimate the second likelihood map shown.
  • the object position estimation device 1 uses the first feature map and the second feature map to separately position the object having the first size and the object having the second size in the target image 70. Therefore, even if objects overlap with each other in the image, the position of each object can be estimated robustly and with high accuracy.
  • the object position estimation device 2 can accurately estimate the position of the object without depending on the arrangement of the partial regions.
  • the total likelihood of each of the first likelihood map and the second likelihood map is the first size / second size of the object in the target image 70.
  • the first likelihood map / second likelihood map is normalized to be equal to each total. Therefore, the object position estimation device 2 is an object having a first size included in the target image 70 based on the total likelihood of the entire first likelihood map and the total likelihood of the entire second likelihood map. The total number of objects having a second size, and the total number of objects contained in the image 70 can be obtained.
  • FIG. 5 is a block diagram showing the configuration of the object position estimation device 3 according to the third embodiment.
  • the object position estimation device 3 includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood estimation unit 24. Be prepared.
  • the object position estimation device 3 further includes a first counting unit 25 and a second counting unit 26. Similar to the object position estimation device 2a according to the modification of the second embodiment, the object position estimation device 3 according to the modification of the third embodiment has three or more feature extraction units and three or more position likelihood estimation units, respectively. You may have. In that case, a feature extraction unit and a number counting unit corresponding to the number of position likelihood estimates are added.
  • the first counting unit 25 and the second counting unit 26 are examples of the first counting means and the second counting means.
  • the first feature extraction unit 21 generates the first feature map 80 from the target image 70
  • the second feature extraction unit 22 generates the second feature map from the first feature map 80 generated by the first feature extraction unit 21. Generate 81.
  • the second feature extraction unit 22 may generate a second feature map from the target image 70 itself.
  • the second feature extraction unit 22 acquires the target image 70 instead of the first feature map 80.
  • the second feature extraction unit 22 generates the second feature map 81 by performing a convolution calculation process on the target image 70 itself.
  • the first counting unit 25 acquires the first feature map 80 from the first feature extraction unit 21, and calculates the total number of objects having the first size in the target image 70 using the first feature map 80. .. Specifically, the first counting unit 25 is learned so that the characteristics of the object having the first size can be discriminated. The first counting unit 25 for which the learning is completed detects the objects having the first size in the target image 70, and counts them to calculate the total number of the objects having the first size.
  • the second counting unit 26 acquires the second feature map 81 from the second feature extraction unit 22, and calculates the total number of objects having the second size in the target image 70 using the second feature map 81. .. Specifically, the second counting unit 26 is learned so that the characteristics of the object having the second size can be discriminated. The second counting unit 26 for which the learning is completed detects the objects having the second size in the target image 70, and counts them to calculate the total number of the objects having the second size.
  • the first counting unit 25 / second counting unit 26 is a convolutional neural network having learned parameters.
  • the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, the second position likelihood estimation unit 24, the first counting unit 25, and the second counting unit 26 are one. It may be configured as a neural network. An example of the learning method of the first counting unit 25 and the second counting unit 26 will be described later in the embodiment.
  • the first feature extraction unit 21 generates a first feature map 80 showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map 80 to generate a second feature map 81 showing the features of the object.
  • the first position likelihood estimation unit 23 uses the first feature map 80 to estimate a first likelihood map showing the probability that an object having the first size exists at each position of the target image 70.
  • the second position likelihood estimation unit 24 uses the second feature map 81 to indicate the probability that an object having a second size larger than the first size exists at each position of the target image 70. Estimate the degree map.
  • the object position estimation device 3 estimates the position of the object having the first size and the position of the object having the second size by using the first feature map 80 and the second feature map 81. Even if objects overlap with each other in the target image 70, the position of each object can be estimated robustly and with high accuracy.
  • the first counting unit 25 counts the object having the first size in the target image 70 by using the first feature map 80.
  • the second counting unit 26 counts an object having a second size in the target image 70 by using the second feature map 81.
  • the object position estimation device 3 can more accurately estimate the total number of objects having the first size / objects having the second size included in the target image 70.
  • FIG. 6 is a block diagram showing the configuration of the object position estimation device 4 according to the fourth embodiment.
  • the object position estimation device 4 includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood estimation unit 24. Be prepared.
  • the object position estimation device 4 further includes a first position specifying unit 27 and a second position specifying unit 28. Similar to the object position estimation device 2a according to the modification of the second embodiment, the object position estimation device 4 according to the modification of the fourth embodiment has three feature extraction units and three position likelihood estimation units, respectively. You may have more than one. In that case, a feature extraction unit and a number of position identification units corresponding to the number of position likelihood estimates are added.
  • the first position specifying unit 27 and the second position specifying unit 28 are examples of the first position specifying means and the second position specifying means.
  • the first position specifying unit 27 is the object having the first size in the target image 70 from the first likelihood map showing the position of the object having the first size obtained from the first position likelihood estimation unit 23. Identify the position.
  • the first position specifying unit 27 extracts the coordinates indicating the maximum value of the likelihood from the first likelihood map.
  • the first position specifying unit 27 acquires the coordinates indicating the maximum value of the likelihood from the first likelihood map, and then the distance between the coordinates indicating the maximum value of the likelihood, or the coordinates indicating the maximum value of the likelihood.
  • a plurality of coordinates indicating the maximum value of the likelihood may be integrated into one based on the Maharanobis distance whose variance value is the spread of the likelihood around.
  • the first position specifying unit 27 integrates those maximum values.
  • the first position specifying unit 27 may use the average value of a plurality of maximum values as an integrated maximum value.
  • the first position specifying unit 27 may use the intermediate position of the plurality of coordinates indicating the maximum value as the coordinate of the integrated maximum value.
  • the first position specifying unit 27 totals all the likelihoods in the first likelihood map to total the total number of objects having the first size in the target image 70 (hereinafter referred to as the first number of objects). ) Is calculated.
  • the first position specifying unit 27 When the number of the first objects in the target image 70 is not 0, the first position specifying unit 27 further uses the target image 70 in descending order of the likelihood among the coordinates indicating the maximum value of the likelihood in the first likelihood map. The same number of coordinates as the first number of objects in is extracted. As a result, even when a large amount of maximum values caused by noise appear in the first likelihood map, the first position specifying unit 27 eliminates the maximum values that do not correspond to the object having the first size. be able to.
  • the first position specifying unit 27 generates a first object position map when the one or a plurality of coordinates extracted in this way correspond to the position of an object having the first size.
  • the first position specifying unit 27 may output the coordinates themselves instead of the object position map.
  • the first object position map shows the position where the object having the first size exists in the target image 70.
  • the first position specifying unit 27 may further extract coordinates having a likelihood of a predetermined value or more from the coordinates indicating the maximum value of the likelihood extracted from the first likelihood map. As a result, the first position specifying unit 27 can eliminate the maximum value that does not correspond to the object having the first size.
  • the first position specifying unit 27 identifies that an object having the first size exists at a position in the target image 70 corresponding to the coordinates extracted in this way.
  • the second position specifying unit 28 specifies the position of the object having the second size in the target image 70 by using the second likelihood map. For example, the second position specifying unit 28 extracts the coordinates indicating the maximum value of the likelihood from the second likelihood map. The second position specifying unit 28 acquires the coordinates indicating the maximum value of the likelihood from the second likelihood map, and then the distance between the coordinates indicating the maximum value of the likelihood, or the coordinates indicating the maximum value of the likelihood. A plurality of coordinates indicating the maximum value of the likelihood may be integrated into one based on the Maharanobis distance whose variance value is the spread of the likelihood around.
  • the second position specifying unit 28 integrates those maximum values.
  • the second position specifying unit 28 may use the average value of a plurality of maximum values as an integrated maximum value.
  • the second position specifying unit 28 may use the intermediate position of the plurality of coordinates indicating the maximum value as the coordinate of the integrated maximum value.
  • the second position specifying unit 28 totals all the likelihoods in the second likelihood map to total the total number of objects having the second size in the target image 70 (hereinafter referred to as the number of second objects). ) Is calculated.
  • the second position specifying unit 28 When the number of the second objects in the target image 70 is not 0, the second position specifying unit 28 further sets the target image 70 in descending order of the likelihood from the coordinates showing the maximum value of the likelihood in the second likelihood map. Extract the same number of coordinates as the number of second objects.
  • the second position specifying unit 28 generates a second object position map when the one or a plurality of coordinates extracted in this way correspond to the position of the object having the second size.
  • the second position specifying unit 28 may output the coordinates themselves instead of the object position map.
  • the second object position map shows the position where the object having the second size exists in the target image 70.
  • the second position specifying unit 28 may further extract coordinates having a likelihood of a predetermined value or more from the coordinates indicating the maximum value of the likelihood extracted from the second likelihood map. As a result, the second position specifying unit 28 can eliminate the maximum value that does not correspond to the object having the second size.
  • the second position specifying unit 28 identifies that an object having a second size exists at a position in the target image 70 corresponding to the coordinates extracted in this way.
  • the first position specifying unit 27 / second position specifying unit 28 blurs the first likelihood map / second likelihood map as preprocessing for generating the first object position map / second object position map. Image processing such as processing may be performed. As a result, noise can be removed from the first likelihood map / second likelihood map.
  • the first position specifying unit 27 / second position specifying unit 28 may be, for example, an object having a first size / a second size. The first size / second using the Maharanobis distance whose dispersion value is the distance between the coordinates indicating the position and the spread of the likelihood around the coordinates indicating the position of the object having the first size / the second size. Coordinates indicating the position of an object having the size of may be integrated.
  • the first position specifying unit 27 / second position specifying unit 28 may output the coordinates indicating the positions of the objects having the first size / the second size estimated as described above by any method.
  • the first position specifying unit 27 / the second position specifying unit 28 may display a map showing the coordinates indicating the position of the object on the display device, and may not show the data of the coordinates indicating the position of the object. It may be stored in a storage device.
  • the first feature extraction unit 21 generates a first feature map 80 showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map 80 to generate a second feature map 81 showing the features of the object.
  • the first position likelihood estimation unit 23 uses the first feature map 80 to estimate a first likelihood map showing the probability that an object having the first size exists at each position of the target image 70.
  • the second position likelihood estimation unit 24 uses the second feature map 81 to indicate the probability that an object having a second size larger than the first size exists at each position of the target image 70. Estimate the degree map.
  • the object position estimation device 4 estimates the position of the object having the first size and the position of the object having the second size by using the first feature map 80 and the second feature map 81. Even if objects overlap with each other in the target image 70, the position of each object can be estimated robustly and with high accuracy.
  • the first likelihood map / second likelihood map is converted into a first object position map / second object position map showing a fixed position of an object. Then, as the estimation result of the position of the object, the first object position map / the second object position map or the information based on the first object position map is output. Thereby, the object position estimation device 4 can provide information indicating the estimation result of the position of the object in a form that is easy to handle for other devices or other applications.
  • FIG. 7 is a block diagram showing the configuration of the object position estimation device 5 according to the fifth embodiment.
  • the object position estimation device 5 has the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, and the second position, as in the third embodiment. It includes a likelihood estimation unit 24, a first counting unit 25, and a second counting unit 16.
  • the object position estimation device 5 further includes a first position specifying unit 29 and a second position specifying unit 30.
  • the object position estimation device 5 may have three or more feature extraction units, position likelihood estimation units, and counting units, respectively. In that case, a number of position specifying units corresponding to the number of feature extraction units, position likelihood estimation and counting units are added.
  • the first position specifying unit 29 acquires a first likelihood map showing the probability that an object having the first size exists from the first position likelihood estimation unit 23. Further, the first position specifying unit 29 acquires the number of first objects, which is the total number of objects having the first size, from the first counting unit 25. The first position specifying unit 29 specifies the coordinates indicating the maximum value of the likelihood from the first likelihood map. The first position specifying unit 29 extracts the same number of coordinates as the total number of objects indicated by the first number of objects from the coordinates indicating the maximum value of the likelihood in the first likelihood map in descending order of the likelihood. Then, the first position specifying unit 29 generates a first object position map showing the position of the object having the first size.
  • the second position specifying unit 30 acquires a second likelihood map showing the probability that an object having a second size exists from the second position likelihood estimation unit 24. Further, the second position specifying unit 30 acquires the number of second objects, which is the total number of objects having the second size, from the second counting unit 26. The second position specifying unit 30 specifies the coordinates indicating the maximum value of the likelihood from the second likelihood map. The second position specifying unit 30 extracts the same number of coordinates as the total number of objects indicated by the number of second objects from the coordinates indicating the maximum value of the likelihood in the second likelihood map in descending order of the likelihood. Then, the second position specifying unit 30 generates a second object position map when the extracted coordinates correspond to the positions of the objects having the second size.
  • first position specifying unit 29 and the second position specifying unit 30 may further have the functions of the first position specifying unit 27 and the second position specifying unit 28 described in the fourth embodiment.
  • the first likelihood map / second likelihood map may contain noise. Therefore, as a pre-processing for generating the first object position map / second object position map, the first position specifying unit 29 / second position specifying unit 30 may refer to the first likelihood map / second likelihood map. Then, image processing such as blurring processing may be performed for each. As a result, the noise included in the first likelihood map / second likelihood map can be made inconspicuous.
  • the first position specifying unit 29 / the second position specifying unit 30 obtains the coordinates indicating the maximum value of the likelihood from the first object position map / the second object position map, and then the maximum likelihood is obtained.
  • One multiple coordinates indicating the maximum likelihood value based on the distance between the coordinates indicating the value or the Maharanobis distance whose dispersion value is the spread of the likelihood around the coordinates indicating the maximum value of the likelihood. May be integrated into.
  • the first position specifying unit 29 / the second position specifying unit 30 integrates those maximum values.
  • the first position specifying unit 29 / the second position specifying unit 30 may use the average value of a plurality of maximum values as an integrated maximum value.
  • the first position specifying unit 29 / the second position specifying unit 30 may use the intermediate position of the plurality of coordinates indicating the maximum value as the coordinate of the integrated maximum value.
  • the first position specifying unit 29 / second position specifying unit 30 may output the first object position map / second object position map or information based on the first object position map by any method.
  • the first position specifying unit 29 / second position specifying unit 30 controls the display device to display the first object position map / second object position map, or information based on the first object position map / second object position map on the display device.
  • the first position specifying unit 29 / second position specifying unit 30 may store the first object position map / second object position map in a storage device accessible from the object position estimation device 5.
  • the first position specifying unit 29 / second position specifying unit 30 transmits the first object position map / second object position map or information based on the first object position map / second object position map to other devices accessible from the object position estimation device 5. You may.
  • the first feature extraction unit 21 generates a first feature map 80 showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map 80 to generate a second feature map 81 showing the features of the object.
  • the first position likelihood estimation unit 23 uses the first feature map 80 to estimate a first likelihood map showing the probability that an object having the first size exists at each position of the target image 70.
  • the second position likelihood estimation unit 24 uses the second feature map 81 to indicate the probability that an object having a second size larger than the first size exists at each position of the target image 70. Estimate the degree map.
  • the object position estimation device 5 estimates the position of the object having the first size / the second size by using the first feature map 80 and the second feature map 81, so that the object position estimation device 5 estimates the position in the target image 70. Even if these objects overlap each other, the position of each object can be estimated robustly and with high accuracy.
  • the first position specifying unit 29 / the second position specifying unit 30 displays the first likelihood map / second likelihood map as the first object position indicating the determined position of the object. Convert to map / second object position map. Then, as the estimation result of the position of the object, the first object position map / the second object position map or the information based on the first object position map is output. Thereby, the object position estimation device 5 can provide information indicating the estimation result of the position of the object in a form that is easy to handle for other devices or other applications.
  • the first position specifying unit 29 / the second position specifying unit 30 is the first coordinate indicating the maximum value of the likelihood in the likelihood map, which is counted by the first counting unit 25 and the second counting unit 26. Acquires the same number of coordinates as the total number of objects having size / second size in descending order of likelihood. Therefore, even when a large amount of maximum likelihood values due to noise appear on the first likelihood map / second likelihood map, the object position estimation device 5 appears on the target image 70. The coordinates of the object having the first size / the second size can be correctly obtained.
  • FIG. 8 is a block diagram showing the configuration of the object position estimation device 6 according to the sixth embodiment.
  • the object position estimation device 6 has the same function as the object position estimation device 2 according to the second embodiment, except for the points described below.
  • the object position estimation device 6 includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood. It is provided with a degree estimation unit 24.
  • the object position estimation device 6 further includes a learning unit 41.
  • the learning unit 41 is an example of learning means.
  • the object position estimation device 6 may have three or more feature extraction units and three or more position likelihood estimation units, respectively.
  • the object position estimation device 6 is provided with n (> 2) feature extraction units and n (> 2) position likelihood estimation units, respectively.
  • the training data that is, the teacher data
  • the training data includes the training image, the object information, and n correct-answer likelihood maps from the first correct-answer-likelihood map to the n-th correct-answer-likelihood map.
  • the n correct-answer likelihood maps from the first correct-answer-likelihood map to the n-th correct-answer-likelihood map may be referred to as correct-answer values.
  • the learning unit 41 learns each unit (however, excluding the learning unit 41) of the object position estimation device 6 by using the learning data (that is, the teacher data) prepared in advance.
  • the training data includes a training image, object information, a first correct-answer likelihood map, and a second correct-answer likelihood map.
  • the first correct likelihood map is a probability indicating the position of an object having the first size in the learning image, and is determined based on the object area.
  • the second correct likelihood map is a probability indicating the position of an object having a second size in the training image, and is determined based on the object area.
  • the method of generating the first correct likelihood map and the second correct likelihood map is not limited. For example, the operator may visually check the object area in the learning image displayed on the display device and manually generate the first correct likelihood map and the second correct likelihood map.
  • the object position estimation device 6 further includes a learning data generation unit 42 shown in the object position estimation device 6a described later, and the learning data generation unit 42 generates a first correct answer likelihood map and a second correct answer likelihood map. You may.
  • the object position estimation device 6 acquires the learning data from the other device.
  • the learning data is stored in advance in a storage device accessible from the object position estimation device 6.
  • the object position estimation device 6 acquires learning data from this storage device.
  • the object position estimation device 6 may acquire the learning data generated by the learning data generation unit 42 (a modification described later).
  • the object position estimation device 6 does not learn the characteristics of the shape of the object, but learns the position of the object in the learning image in consideration of the overlap between the objects. As a result, the object position estimation device 6 can learn the overlap between the objects in the learning image as it is.
  • the learning unit 41 inputs the learning image to the first feature extraction unit 21.
  • the first feature extraction unit 21 generates the first feature map 80 from the learning image.
  • the first position likelihood estimation unit 23 outputs a first likelihood map showing the position of an object having the first size based on the first feature map 80.
  • the first position likelihood estimation unit 23 outputs the first likelihood map to the learning unit 41.
  • the first feature map 80 is input from the first feature extraction unit 21 to the second feature extraction unit 22.
  • the second feature extraction unit 22 generates the second feature map 81 from the first feature map 80.
  • the second feature extraction unit 22 may generate a second feature map from the learning image itself.
  • the second feature extraction unit 22 acquires the learning image instead of the first feature map 80.
  • the second feature extraction unit 22 generates the second feature map 81 by performing more convolution calculation processing on the learning image itself than the first feature extraction unit 21.
  • the second position likelihood estimation unit 24 outputs a second likelihood map showing the position of an object having a second size in the learning image based on the second feature map 81.
  • the second position likelihood estimation unit 24 outputs the second likelihood map to the learning unit 41.
  • the learning unit 41 has each output (first likelihood map, second likelihood map) from the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24, and the correct answer value (first) included in the training data.
  • the error from the 1 correct answer likelihood map and the 2nd correct answer likelihood map) is calculated as the first loss.
  • the learning unit 41 calculates a mean square error between the first likelihood map / second likelihood map and the first correct likelihood map / second correct likelihood map. Then, the learning unit 41 sets the mean square error between the calculated maps as the first loss.
  • the learning unit 41 learns each unit (excluding the learning unit 41) of the object position estimation device 6 so as to reduce the calculated first loss.
  • Learning here means updating the parameters of each part of the object position estimation device 6.
  • the learning unit 41 can execute the learning process by using a known technique such as backpropagation. Specifically, the learning unit 41 calculates the first loss by using a preset first loss calculation formula (for example, a loss function), and the object position so as to reduce the first loss. Learning is performed for each part of the estimation device 6. Alternatively, the learning unit 41 acquires the first loss calculation formula stored in the accessible storage device, calculates the first loss, and reduces the first loss by the object position estimation device. Learn each part of 6.
  • a preset first loss calculation formula for example, a loss function
  • the learning unit 41 receives feedback from the output of the first position likelihood estimation unit 23 / second position likelihood estimation unit 24 to the learning unit 41 (that is, the first likelihood map / second likelihood map). ), The parameters of each part (excluding the learning part 41) of the object position estimation device 6 are updated. After the parameters of each part of the object position estimation device 6 (excluding the learning part 41) are updated, each part of the object position estimation device 6 uses different learning data, and the first likelihood map / second likelihood map is used. Is estimated and output. The output of the first position likelihood estimation unit 23 / second position likelihood estimation unit 24 feeds back the first likelihood map / second likelihood map to the learning unit 41. The learning unit 41 updates the parameters of each unit (excluding the learning unit 41) of the object position estimation device 6 again based on the fed-back information (that is, the first likelihood map / second likelihood map).
  • the learning unit 41 may repeatedly learn each unit of the object position estimation device 6 by the method described above until the magnitude of the first loss becomes equal to or less than a predetermined threshold value.
  • the conditions under which the learning unit 41 ends the learning of each unit (excluding the learning unit 41) of the object position estimation device 6 are not limited. In this way, the learning unit 41 repeatedly learns the parameters of each unit of the object position estimation device 6 so as to reduce the first loss.
  • the estimation of the first likelihood map and the estimation of the second likelihood map are simultaneously learned through the first feature extraction unit 21, so that the object position estimation device 6 can estimate the position of the object more accurately. , The learning speed can be improved.
  • FIG. 9 is a flowchart showing the operation flow of the object position estimation device 6.
  • the object position estimation device 6 performs learning using a single learning data
  • the object position estimation device 6 repeats the processes from steps S20 to S23 shown in FIG. 9 and executes each of the learning data.
  • the learning unit 41 acquires learning data (S20).
  • the learning unit 41 inputs the learning image included in the learning data to the first feature extraction unit 21 (S21).
  • the learning unit 41 calculates a first loss indicating an error between the output of each position likelihood estimation unit and the correct answer value (S22), and the object position estimation device 6 reduces the calculated first loss. Learning (parameter update) of each part is performed (S23).
  • the object information of the learning data shows the attributes of the object in addition to the position and size of the object.
  • the learning unit 41 has a first correct-answer likelihood map that is a probability of indicating the position of an object having a first size, and a second correct-answer likelihood that is a probability of indicating the position of an object having a second size.
  • the learning unit 41 shows the learning image, the first correct likelihood map which is the probability of showing the position of the object having the first size for each attribute, and the position of the object having the second size for each attribute.
  • the second correct likelihood map which is a probability
  • learning of each part of the object position estimation device 6 is executed by the above-mentioned method (FIG. 9).
  • the object position estimation device 6 can estimate the position of the object for each attribute of the object. For example, the object position estimation device 6 can estimate the position of an adult (an example of an attribute of an object) and the position of a child (another example of the position of an object) separately.
  • Modification 2 If the total number of objects in the training image is small or the placement of the objects is highly biased, the learning may not proceed correctly. Specifically, there may be many coordinates whose likelihood is 0 in the first correct likelihood map or the second correct likelihood map which is the learning data.
  • the learning unit 41 according to the second modification is the learning data, the first correct answer likelihood map / the second correct answer likelihood map, and the estimation result. Rather than using the error at all the coordinates in the 1-likelihood map / the 2nd likelihood map, each part of the object position estimation device 6 is learned so as to minimize the error at some coordinates.
  • the learning unit 41 according to the present modification 2 has the number of coordinates having a likelihood of 0 and the number of coordinates other than that in the first correct likelihood map / the second correct likelihood map, which is the learning data. Select some coordinates on the first correct likelihood map / the second correct likelihood map, which are the training data, so that and becomes a predetermined ratio.
  • the coordinates of the first-likelihood map / second-probability map which are the estimation results, are also selected according to the coordinates on the selected first correct-answer likelihood map / second correct-answer-likelihood map.
  • the learning unit 41 selects the same number of the coordinates having the likelihood of 0 and the coordinates other than the like from the first correct likelihood map / the second correct likelihood map, and the selected first correct likelihood is selected.
  • the coordinates of the first likelihood map / second likelihood map are also selected.
  • the learning unit 41 updates the parameters of each unit of the object position estimation device 6 so as to minimize the first error at the selected coordinates.
  • FIG. 10 is a block diagram showing a configuration of an object position estimation device 6a according to a modification of the sixth embodiment.
  • the object position estimation device 6a according to this modification includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood estimation unit 24.
  • the object position estimation device 6a further includes a learning unit 41 and a learning data generation unit 42.
  • the learning data generation unit 42 is an example of the learning data generation means.
  • the object position estimation device 6a is different from the above-mentioned object position estimation device 6 in that the learning data generation unit 42 is further provided.
  • the learning data generation unit 42 generates learning data (teacher data) for the learning unit 41 to perform learning.
  • FIG. 11 shows a flow of processing executed by the learning data generation unit 42 to create the first correct answer likelihood map and the second correct answer likelihood map which are learning data.
  • the learning data generation unit 42 acquires the learning image.
  • the learning image and the object information are input to the object position estimation device 6a by the operator.
  • the learning image includes an object having a first size / an object having a second size (a head which is a “target object” in FIG. 11) which is an object of position estimation by the object position estimation device 6a. ..
  • the object area in the learning image is specified by the object information associated with the learning image.
  • the object area corresponds to the area occupied by the object in the learning image.
  • the object area is an area surrounded by a rectangle or other two-dimensional shape that circumscribes the object in the training image.
  • the object information specifies the coordinates of the upper left corner and the lower right corner of the object area (for example, the circumscribed rectangle of the object) in the learning image, respectively.
  • the learning data generation unit 42 specifies the position and size of the object in the learning image by using the object information associated with the learning image. Then, according to the procedure described below, the learning data generation unit 42 generates the first correct answer likelihood map and the second correct answer likelihood map, respectively.
  • the learning data generation unit 42 first detects each of the object having the first size and the object having the second size based on the object information associated with the learning image.
  • the learning data generation unit 42 specifies the position of the object having the first size / the object having the second size in the learning image.
  • the learning data generation unit 42 prepares an initial first correct likelihood likelihood map / second correct answer likelihood map in which the likelihoods of all the coordinates are zero, and the first correct answer likelihood map / second correct answer. Generate a normal distribution of likelihood centered on the center or center of gravity of the object region for the first size object / second size object on the likelihood map. In the generation of the normal distribution of the likelihood, the learning data generation unit 42 generates the normal distribution of the likelihood for the object having the first size on the first correct likelihood map, and the object having the second size. A normal distribution of the likelihoods for is generated on the second correct likelihood map. Further, the learning data generation unit 42 defines the spread of the normal distribution on the first correct answer likelihood map / the second correct answer likelihood map by parameters.
  • the parameters may be the parameters of the center (mean) and variance of the function showing the normal distribution.
  • the center of the function showing the normal distribution is set to a value indicating the position of the object (for example, the center or the center of gravity of the object region), and the variance of the function showing the normal distribution is set to a value corresponding to the size of the object region. good.
  • the shape of the function showing the normal distribution may be set so that the value at the center of the function showing the normal distribution becomes 1.
  • the learning data generation unit 42 has a first correct likelihood map / a second correct answer showing the probability that an object having the first size / an object having the second size exists at each position of the training image. Generate a likelihood map.
  • the object region for the object with the first size / the object with the second size corresponds to the spread of the normal distribution of the likelihood.
  • the learning data generation unit 42 When the normal distributions of a plurality of likelihoods overlap in a certain part on the first correct answer likelihood map and the second correct answer likelihood map, the learning data generation unit 42 has the likelihood at the same coordinates in the part.
  • the maximum value of the degree may be the likelihood at the coordinates.
  • the learning data generation unit 42 may use the average value of the likelihoods at each coordinate of the portion where the plurality of normal distributions overlap as the likelihood at the coordinates.
  • the learning data generation unit 42 may calculate the likelihood in the portion where a plurality of normal distributions overlap on the first correct answer likelihood map and the second correct answer likelihood map by other methods.
  • the learning data generation unit 42 counts the total number of objects having the first size (the number of first objects) in the learning image based on the object information.
  • the learning data generation unit 42 normalizes the likelihood of the first correct answer likelihood map so that the total likelihood in the first correct answer likelihood map matches the number of first objects in the training image. In FIG. 11, the normalized first correct-answer likelihood map is omitted.
  • the learning data generation unit 42 may count the number of first objects by using the total ratio of the object regions included in the learning image.
  • the likelihood at each coordinate of the normalized first correct likelihood map represents the probability that an object with the first size will exist at the position indicated by that coordinate.
  • the sum of the likelihoods of the entire normalized first correct likelihood map is equal to the total number of objects with the first size contained in the training image. That is, the total likelihood of the entire first correct answer likelihood map also has the meaning of the total number of objects existing in the first correct answer probability map.
  • the learning data generation unit 42 makes the size of the normalized first correct likelihood map equal to the size of the first likelihood map which is the output of the first position likelihood estimation unit 23.
  • the learning data generation unit 42 transforms the first correct answer likelihood map so that each coordinate on the normalized first correct answer likelihood map and each position in the training image have a one-to-one correspondence. ..
  • the learning data generation unit 42 performs normalization has been described as an example, but the normalization process is not essential. That is, the learning data generation unit 42 does not have to normalize the first correct answer likelihood map and the second correct answer likelihood map.
  • the learning data generation unit 42 identifies an object having a second size from the learning image by using the object information.
  • the learning data generation unit 42 generates a normal distribution representing the position of an object having the specified second size. Then, the learning data generation unit 42 generates the second correct answer likelihood map and normalizes the second correct answer likelihood map in the same manner as the procedure described for the first correct answer likelihood map. In FIG. 11, the normalized second correct-answer likelihood map is omitted.
  • the learning data generation unit 42 matches the size of the normalized second correct likelihood map with the size of the second likelihood map. That is, the learning data generation unit 42 converts the second correct answer likelihood map so that each coordinate on the normalized second correct answer likelihood map and each position in the learning image have a one-to-one correspondence.
  • the likelihood at each coordinate on the second correct likelihood map indicates the probability that an object with a second size will exist at the corresponding position on the training image.
  • the learning data generation unit 42 performs normalization has been described as an example, but the normalization process is not essential. That is, the learning data generation unit 42 does not have to normalize the first correct answer likelihood map and the second correct answer likelihood map.
  • the learning data generation unit 42 associates the learning image, the object information, and the correct answer value.
  • the correct answer value includes the first correct answer likelihood map and the second correct answer likelihood map.
  • the first feature extraction unit 21 generates a first feature map 80 showing the features of an object by performing a convolution calculation process on the target image 70.
  • the second feature extraction unit 22 further performs a convolution calculation process on the first feature map 80 to generate a second feature map 81 showing the features of the object.
  • the first position likelihood estimation unit 23 uses the first feature map 80 to estimate a first likelihood map showing the probability that an object having the first size exists at each position of the target image 70.
  • the second position likelihood estimation unit 24 uses the second feature map 81 to indicate the probability that an object having a second size larger than the first size exists at each position of the target image 70. Estimate the degree map.
  • the object position estimation device 6 (6a) estimates the position of the object having the first size / the second size by using the first feature map 80 and the second feature map 81, so that the target image Even if these objects overlap each other in 70, the position of each object can be estimated robustly and with high accuracy.
  • the object position estimation device 6 (6a) uses the first correct answer likelihood map / the second correct answer likelihood map to superimpose the positions of the object having the first size / the object having the second size between the objects. It is learned as an arrangement pattern of an object including.
  • the first correct answer likelihood map / the second correct answer likelihood map expresses the probability that an object having the first size / an object having the second size exists at each coordinate of the training image by the likelihood.
  • the object position estimation device 6 (6a) can estimate the position of each object in the target image 70 robustly and with high accuracy. can.
  • FIG. 12 is a block diagram illustrating the configuration of the object position estimation device 7 according to the seventh embodiment.
  • the object position estimation device 7 includes a first feature extraction unit 21, a second feature extraction unit 22, a first position likelihood estimation unit 23, and a second position likelihood estimation unit 24. Be prepared.
  • the object position estimation device 7 includes a learning unit 41.
  • the object position estimation device 7 further includes a first counting unit 25 and a second counting unit 26.
  • each part of the object position estimation device 7 is realized by a neural network such as a convolutional neural network individually or integrally.
  • the learning unit 41 learns each unit (excluding the learning unit 41) included in the object position estimation device 7 by using the learning data (that is, teacher data) prepared in advance.
  • the learning data includes a learning image and object information.
  • the training image contains an object for which the position likelihood is estimated.
  • the learning image is used for the learning unit 41 to learn to estimate the likelihood of the position of the object and the total number of the objects.
  • the learning data further includes the correct answer of the first number of objects, the correct answer of the second number of objects, the first correct answer likelihood map, and the second correct answer likelihood map.
  • the first correct answer likelihood map, the second correct answer likelihood map, the correct answer of the first number of objects, and the correct answer of the second number of objects may be collectively referred to as a correct answer value.
  • These learning data are used to make each part (excluding the learning unit 41) of the object position estimation device 7 learn that the learning unit 41 estimates the likelihood of the position of the object and the total number of the objects.
  • the method of generating the correct answer value is not limited.
  • an operator locates an object with a first size / an object with a second size in a training image, and an initial first correct likelihood map / second with zero likelihood of all coordinates.
  • On the correct likelihood map a normal distribution of likelihood centered on the position of the object having the first size / second size is given.
  • the operator counts the objects having the first size and the objects having the second size shown in the learning image, respectively, and the total number of the objects having the first size shown in the learning image is the number of the first objects.
  • the correct answer is the total number of objects with the second size reflected in the learning image, and the number of the second objects is the correct answer.
  • the likelihood at each coordinate of the first correct likelihood map indicates the probability that an object having the first size exists at the corresponding position in the training image.
  • the likelihood at each coordinate of the second correct likelihood map indicates the probability that an object with a second size will be present at the corresponding position in the training image.
  • the correct answer for the first number of objects indicates the total number of objects having the first size included in the learning image.
  • the correct answer for the second number of objects indicates the total number of objects having the second size included in the training image.
  • the object position estimation device 7 may include a learning data generation unit 42 shown in the object position estimation device 7a described later, and the learning data generation unit 42 may generate each correct answer value.
  • the learning unit 41 inputs a learning image to the first feature extraction unit 21, and outputs a first likelihood map / second likelihood map from the first position likelihood estimation unit 23 and the second position likelihood estimation unit 24. And the error between the correct answer value (first correct answer likelihood map / second correct answer likelihood map) included in the training data is calculated as the first loss. Further, the learning unit 41 learns the number of first objects / the number of second objects output from the first counting unit 25 and the second counting unit 26 when the learning image is input to the first feature extraction unit 21. The error from other correct answer values (correct answer of the first number of objects and correct answer of the second number of objects) included in the data is calculated as the second loss.
  • the learning unit 41 trains each unit of the object position estimation device 7 so as to reduce at least one of the first loss and the second loss.
  • the learning unit 41 updates the parameters of each unit (excluding the learning unit 41) of the object position estimation device 7 based on at least one of the first loss and the second loss.
  • the learning unit 41 trains each part of the object position estimation device 7 so that the first likelihood map output by the first position likelihood estimation unit 23 and the first correct answer likelihood map match.
  • the learning unit 41 trains each part of the object position estimation device 7 so that the second likelihood map output by the second position likelihood estimation unit 24 and the second correct answer likelihood map match.
  • the learning unit 41 trains each part of the object position estimation device 7 so that the number of the first objects counted by the first counting unit 25 and the correct answer of the first number of objects match. Further, the learning unit 41 trains each part of the object position estimation device 7 so that the number of the second objects counted by the second counting unit 26 and the correct answer of the number of the second objects match.
  • the learning unit 41 may train each unit of the object position estimation device 7 so as to minimize the error in only a part of the coordinates in the first likelihood map / second likelihood map.
  • An example described here is shown in Modification 2 of the object position estimation device 6.
  • FIG. 13 is a block diagram showing a configuration of an object position estimation device 7a according to a modification of the present embodiment 7.
  • the object position estimation device 7a related to this modification includes the first feature extraction unit 21, the second feature extraction unit 22, the first position likelihood estimation unit 23, the second position likelihood estimation unit 24, and the first. It includes a counting unit 25, a second counting unit 26, and a learning unit 41.
  • the object position estimation device 7a further includes a learning data generation unit 42.
  • the object position estimation device 7a according to this modification is different from the object position estimation device 7 in that the learning data generation unit 42 is further provided.
  • the learning data generation unit 42 is learning data for performing learning related to estimation of the position of the object having the first size / the position of the object having the second size in the target image 70. Generate (teacher data).
  • the learning data generated by the learning data generation unit 42 includes a learning image, object information, and a correct answer value.
  • the learning data generation unit 42 related to this modification generates learning data including the correct answer of the first number of objects and the correct answer of the second number of objects as correct answer values.
  • the learning data generation unit 42 of the object position estimation device 7a is different from the learning data generation unit 42 of the object position estimation device 6a.
  • the learning data generation unit 42 of the object position estimation device 7a is the total number of objects having the first size obtained in the processing of the learning data generation unit 42 of the object position estimation device 6a according to the modification of the sixth embodiment. , And the total number of objects with the second size are used to generate the correct answer for the first number of objects and the correct answer for the second number of objects, respectively.
  • the total number of objects having the first size and the total number of objects having the second size are as described in the learning data generation unit 42 of the object position estimation device 6a according to the modification of the sixth embodiment. It is obtained by a count process for normalizing the 1-correct likelihood map and the 2nd correct-likelihood map.
  • the object position estimation device 7 according to the present embodiment 7 and the object position estimation device 7a according to a modification thereof are the first feature extraction unit 21 and the second feature extraction unit, respectively.
  • a plurality of parts are connected to the latter stage at the same time, and in learning, the first feature extraction unit 21 and the second feature extraction unit 22 are appropriately updated with parameters under the influence of the plurality of parts. Will be done.
  • the first feature extraction unit 21 and the second feature extraction unit 22 function as common parts of a plurality of units connected to the subsequent stage, and the first feature extraction unit 21 and the second feature extraction unit 22 learn at the same time. Will be done.
  • the accuracy of estimating the position of the object in the object position estimation devices 7 and 7a and the accuracy of counting the objects can be improved, and the learning speed can be improved.
  • FIG. 14 shows the hardware configuration of the object position estimation device 1 according to the first embodiment.
  • Each configuration of the object position estimation device 1 is realized as a function of the computer 100 to read and execute an object position estimation program 101 (hereinafter, simply referred to as a program 101).
  • the image acquisition device 90 is connected to the computer 100.
  • a recording medium 102 storing a program 101 that can be read by the computer 100 is connected to the computer 100.
  • the recording medium 102 is composed of a magnetic disk, a semiconductor memory, or the like.
  • the computer 100 reads the program 101 stored in the recording medium 102, for example, at startup. By controlling the operation of the computer 100, the program 101 causes the computer 100 to function as each part in the object position estimation device 1 according to the first embodiment of the present invention described above.
  • a first feature extraction means that generates a first feature map by performing a convolution calculation process on a target image, and a second feature map by further performing a convolution calculation process on the first feature map.
  • a feature extraction means including a second feature extraction means for generating The first position likelihood estimation means for estimating the first likelihood map showing the probability that an object having the first size exists at each position of the target image using the first feature map, and the second position likelihood estimation means.
  • a second position likelihood estimation means for estimating a second likelihood map indicating the probability that an object having a second size larger than the first size exists at each position of the target image using the feature map.
  • An object position estimation device equipped with a likelihood map estimation means including and.
  • Each coordinate on the first likelihood map corresponds to one position on the target image, and the likelihood at each coordinate on the first likelihood map corresponds to the corresponding position on the target image. It indicates the probability that an object having the first size exists at one position, or additionally indicates the number of objects having the first size existing on the target image.
  • Each coordinate on the second likelihood map corresponds to one position on the target image, and the likelihood at each coordinate on the second likelihood map corresponds to the corresponding position on the target image.
  • the object according to Appendix 1 which indicates the probability that an object having a second size exists at one position, or additionally indicates the number of objects having a second size existing on the target image.
  • the first position likelihood estimation means estimates the position of the object having the first size for each attribute of the object having the first size.
  • the object according to Appendix 1 or 2 wherein the second position likelihood estimating means estimates the position of the object having the second size for each attribute of the object having the second size.
  • Position estimation device
  • Appendix 4 A first counting means for counting the total number of objects having the first size in the target image based on the first feature map. In any of the appendices 1 to 3, further comprising a second counting means for counting the total number of objects having the second size in the target image based on the second feature map.
  • the described object position estimation device
  • a first position specifying means for specifying the position of an object having the first size in the target image based on the coordinates indicating the maximum value of the likelihood in the first likelihood map. It is characterized by further including a second position specifying means for specifying the position of the object having the second size in the target image based on the coordinates indicating the maximum value of the likelihood in the second likelihood map.
  • the object position estimation device according to any one of Supplementary note 1 to 4.
  • the first position specifying means is From the total likelihood of the entire first likelihood map, the total number of objects having the first size in the target image is calculated, or from the first counting means, in the target image, the first. Count the total number of objects with a size of 1 and Among the coordinates showing the maximum value of the likelihood in the first likelihood map, the same number of coordinates as the total number of the objects having the first size are extracted in descending order of the maximum value of the likelihood. Based on the extracted coordinates indicating the maximum value of the likelihood, the position of the object having the first size in the target image is specified.
  • the second position specifying means is From the total likelihood of the entire second likelihood map, the total number of objects having the second size in the target image is calculated, or from the second counting means, in the target image, the second Count the total number of objects with a size of 1 and Among the coordinates showing the maximum value of the likelihood in the second likelihood map, the same number of coordinates as the total number of the objects having the second size are extracted in descending order of the maximum value of the likelihood.
  • the object position estimation device according to Appendix 5, wherein the position of the object having the second size is specified in the target image based on the extracted coordinates indicating the maximum value of the likelihood.
  • the learning data includes the training image, object information, and correct answer values.
  • the correct answer value includes a first correct answer likelihood map and a second correct answer likelihood map.
  • the first correct answer probability map shows the position and the spread of the object area for the object having the first size in the trained image
  • the second correct answer probability map shows the second size in the trained image.
  • the learning means uses the first correct answer likelihood map and the second correct answer likelihood map included in the learning data as the correct answer values, and the first likelihood map and the second likelihood with respect to the correct answer values.
  • the object position estimation device according to Appendix 8, wherein the first loss indicating the error of the degree map is calculated.
  • the first size is an arbitrary size within a first predetermined range from the first minimum size to the first maximum size.
  • the second size is an arbitrary size within the second predetermined range from the second minimum size to the second maximum size, and the first predetermined range and the second predetermined range do not overlap with each other, and the second size is not overlapped with the second predetermined range.
  • the object position estimation device according to any one of Supplementary note 1 to 9, wherein the size of the object is larger than that of the first size.
  • the object position estimation device according to any one of Supplementary note 1 to 10, wherein the first size and the second size are proportional to the reciprocal of the data size of the first feature map and the second feature map.
  • a first feature map is generated by performing a convolution calculation process on the target image, and a second feature map is generated by further performing a convolution calculation process on the first feature map.
  • the first likelihood map showing the probability that an object having the first size exists at each position of the target image is estimated, and the second feature map is used to estimate the above.
  • An object position estimation method including estimating a second likelihood map showing the probability that an object having a second size larger than the first size exists at each position of the target image.
  • the first feature map is generated by performing the convolution calculation process on the target image
  • the second feature map is generated by further performing the convolution calculation process on the first feature map.
  • the present invention can be used in a video surveillance system for discovering a suspicious person or a suspicious object from a shot or recorded video, or detecting a suspicious behavior or state. Further, the present invention can be applied to marketing applications such as flow line analysis or behavioral analysis. In addition, the present invention can be applied to applications such as a user interface for estimating the position of an object from a captured or recorded video and inputting the estimated position information in a two-dimensional space or a three-dimensional space. In addition, the present invention can also be applied to applications such as a video / video search device or a video search function using the estimation result of the position of an object and the position as a trigger key.
  • Object position estimation device 2 (2a) Object position estimation device 3 Object position estimation device 4 Object position estimation device 5 Object position estimation device 6 (6a) Object position estimation device 7 Object position estimation device 10 Feature extraction unit 20 Probability map estimation Part 21 1st feature extraction section 22 2nd feature extraction section 23 1st position likelihood estimation section 24 2nd position likelihood estimation section 25 1st counting section 26 2nd counting section 27 1st position specifying section 28 2nd position specifying Part 29 1st position specifying part 30 2nd position specifying part 41 Learning part 42 Learning data generation part 80 1st feature map 81 2nd feature map 90 Image acquisition device

Abstract

画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定する。物体位置推定装置(1)は、対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成する第1特徴抽出部(21)と、第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成する第2特徴抽出部(22)とを含む特徴抽出部(10)と、第1特徴マップを用いて、対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する第1位置尤度推定部(23)と、第2特徴マップを用いて、対象画像の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する第2位置尤度推定部(24)とを含む尤度マップ推定部(20)とを備える。

Description

物体位置推定装置、物体位置推定方法、および記録媒体
 本発明は、物体位置推定装置、物体位置推定方法、および記録媒体に関し、特に、画像中の物体の位置を推定する物体位置推定装置、物体位置推定方法、および記録媒体に関する。
 画像中の物体の位置を推定するための関連する技術が知られている(特許文献1,2)。非特許文献1に記載の関連する技術では、物体の全体が映るサンプル画像を用いて、推定器が物体の識別を学習する。このように学習した推定器が、画像中の物体の位置を推定するために、画像を走査する。具体的には、非特許文献1に記載の関連する技術では、例えば推定器が画像中の物体のHaar-Like特徴量を推定し、識別した物体についての物体領域を推定する。このとき、推定器は、画像中の部分領域の位置および大きさを変化させながら、1つ1つの部分領域をそれぞれ走査する。
特開2019-096072号公報 特開2018-147431号公報
"Rapid Object Detection Using a Boosted Cascade of Simple Features", P.Viola,et al.,  CVPR (Conference on Computer Vision and Pattern Recognition), pp.511-518
 コンピュータの処理速度には限界がある。そのため、推定器が画像を走査する際、画像中の部分領域の位置および大きさを連続的かつ網羅的に変化させることは困難である。また、画像において、物体の一部または全体が、他の物体によって遮蔽されている場合、画像中の物体領域を特定し、それぞれの物体の位置を正確に推定することが難しい場合がある。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定できる物体位置推定装置及びその方法、ならびに記録媒体を提供することにある。
 本発明の一態様に係わる物体位置推定装置は、対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成する第1特徴抽出手段と、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成する第2特徴抽出手段とを含む特徴抽出手段と、前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する第1位置尤度推定手段と、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する第2位置尤度推定手段とを含む尤度マップ推定手段とを備えている。
 本発明の一態様に係わる物体位置推定方法は、対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成するともに、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成し、前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定するとともに、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定することを含む。
 本発明の一態様に係わる記録媒体は、対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成することと、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成することと、前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定することと、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定することとをコンピュータに実行させる。
 本発明の一態様によれば、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。
実施形態1に係わる物体位置推定装置の構成を示すブロック図である。 実施形態2に係わる物体位置推定装置を含むシステムの構成を示すブロック図である。 実施形態2に係わる物体位置推定装置の各部が実行する処理の流れを示すフローチャートである。 実施形態2の一変形例に係わる物体位置推定装置の構成を示すブロック図である。 実施形態3に係わる物体位置推定装置の構成を示すブロック図である。 実施形態4に係わる物体位置推定装置の構成を示すブロック図である。 実施形態5に係わる物体位置推定装置の構成を示すブロック図である。 実施形態6に係わる物体位置推定装置の構成を示すブロック図である。 実施形態6に係わる物体位置推定装置の各部が実行する処理の流れを示すフローチャートである。 実施形態6の一変形例に係わる物体位置推定装置の構成を示すブロック図である。 実施形態6の一変形例に係わる物体位置推定装置の学習データ生成手段が第1正解尤度マップ/第2正解尤度マップを生成する処理の流れを説明する図である。 実施形態7に係わる物体位置推定装置の構成を示すブロック図である。 実施形態7の一変形例に係わる物体位置推定装置の構成を示すブロック図である。 実施形態1から7のいずれかの物体位置推定装置のハードウェア構成を示す図である。
 〔実施形態1〕
 図1を参照して、実施形態1について説明する。
 (システム)
 図1を参照して、本実施形態1に係わるシステムについて説明する。図1は、本実施形態1に係わるシステムの構成を概略的に示す。図1に示すように、本実施形態1に係わるシステムは、画像取得装置90および物体位置推定装置1を備えている。画像取得装置90は、1または複数の画像を取得する。例えば、画像取得装置90は、カメラ等の映像装置から出力される静止画像、または、ビデオ等の映像装置から出力される動画の画像フレームを取得する。
 画像取得装置90は、取得した1または複数の画像(例えば、静止画像、または動画の画像フレーム)を、物体位置推定装置1へ送信する。以下では、画像取得装置90が物体位置推定装置1へ送信する画像を、対象画像70と呼ぶ。物体位置推定装置1は、例えば、コンピュータプログラムによって、その動作を制御される。
 (物体位置推定装置1)
 図1に示すように、物体位置推定装置1は、特徴抽出部10および尤度マップ推定部20を備えている。尤度マップ推定部20は、尤度マップ推定手段の一例である。
 特徴抽出部10は、第1特徴抽出部21および第2特徴抽出部22を備えている。尤度マップ推定部20は、第1位置尤度推定部23および第2位置尤度推定部24を備えている。なお、物体位置推定装置1は、特徴抽出部および位置尤度推定部を、それぞれ3つ以上有していてもよい。第1特徴抽出部21および第2特徴抽出部22は、第1特徴抽出手段および第2特徴抽出手段の一例である。第1位置尤度推定部23および第2位置尤度推定部24は、第1位置尤度推定手段および第2位置尤度推定手段の一例である。
 第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップを生成する。具体的には、第1特徴抽出部21は、対象画像70を画素値で表した行列に対して、第1のフィルタを所定の移動量ずつスライドさせながら適用する。第1のフィルタは、対象画像70を画素値で表した行列の部分(部分領域と呼ばれる)に対して掛け合わされる行列(カーネル)である。第1特徴抽出部21は、対象画像70を画素値で表した行列の一部と、第1のフィルタを表す行列との間の行列演算によって得られた値を足し合わせたものを、第1特徴マップの要素として出力する。第1特徴抽出部21は、複数の要素で構成される第1特徴マップを、尤度マップ推定部20の第1位置尤度推定部23へ出力する。
 第2特徴抽出部22は、第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップを生成する。具体的には、第2特徴抽出部22は、第1特徴マップに対して、第2のフィルタを所定の移動量ずつスライドさせながら適用し、第1特徴マップの行列の一部と、第2のフィルタを表す行列との間の行列演算によって得られた値を足し合わせたものを、第2特徴マップの要素として出力する。具体的には、第2のフィルタは、第1特徴マップの一部に対して掛け合わされる行列である。第2特徴抽出部22は、複数の要素で構成される第2特徴マップを、尤度マップ推定部20の第2位置尤度推定部24へ出力する。
 第1位置尤度推定部23は、第1特徴抽出部21から受信した第1特徴マップを用いて、対象画像70の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。具体的には、第1位置尤度推定部23として、ディープラーニングを用いて学習させた推定部(一例ではCNN;Convolutional Neural Network)を用いる。学習した推定部は、第1特徴マップから、対象画像70において、第1のサイズを持つ物体の位置(の尤度マップ)を推定する。第1のサイズは、対象画像70における第1所定範囲(後述する)に含まれる任意の形状および大きさを示す。
 第1位置尤度推定部23は、対象画像70の部分領域ごとに、第1のサイズの物体らしさ、すなわち第1のサイズを持つ物体である確率を算出する。第1位置尤度推定部23は、対象画像70の部分領域ごとに算出した第1のサイズの物体らしさを尤度によって表した第1尤度マップを推定する。第1尤度マップの各座標における尤度は、対象画像70中の対応する位置に、第1のサイズを持つ物体が存在する確率を示す。第1位置尤度推定部23は、このように推定した第1尤度マップを出力する。
 第2位置尤度推定部24は、第2特徴マップを用いて、対象画像70における対応する各位置において、第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。具体的には、第2特徴抽出部22は、対象画像70の部分領域ごとに、第2のサイズの物体らしさ、すなわち第2のサイズを持つ物体である確率を算出する。第2特徴抽出部22は、対象画像70の部分領域ごとの第2のサイズの物体らしさを尤度によって表した第2尤度マップを推定する。第2尤度マップの各座標における尤度は、対象画像70中の対応する位置に、第2のサイズを持つ物体が存在する確率を示す。第2位置尤度推定部24は、このように推定した第2尤度マップを出力する。第2のサイズは、対象画像70における第2所定範囲(後述)内の任意の大きさを示す。
 なお、以下では、「第1のサイズを持つ物体」と同じ意味で「第1のサイズを有する物体」と呼ぶ場合がある。また「第2のサイズを持つ物体」と同じ意味で「第2のサイズを有する物体」と呼ぶ場合がある。
 あるいは、第1位置尤度推定部23および第2位置尤度推定部24は、予め分類された物体の属性ごとに、互いに属性の異なる物体の位置をそれぞれ推定する。そして、第1位置尤度推定部23および第2位置尤度推定部24は、物体の属性ごとに、第1尤度マップ/第2尤度マップを推定し、物体の属性ごとの第1尤度マップ/第2尤度マップを出力する。なお、第1位置尤度推定部23および第2位置尤度推定部24は、属性ごとに、それぞれ異なるネットワークで構成されてもよいし、単一のネットワークで構成されてもよい。この場合、第1位置尤度推定部23と第2位置尤度推定部24のどちらも、属性というチャネル方向に複数の尤度マップを出力する。
 (本実施形態の効果)
 本実施形態の構成によれば、特徴抽出部10の第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップを生成する。特徴抽出部10の第2特徴抽出部22は、第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップを生成する。尤度マップ推定部20の第1位置尤度推定部23は、第1特徴マップを用いて、画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。尤度マップ推定部20の第2位置尤度推定部24は、第2特徴マップを用いて、画像の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置1は、第1特徴マップおよび第2特徴マップを用いて、第1のサイズを持つ物体および第2のサイズを持つ物体を、別々に、対象画像70中の位置を推定する。そのため、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。
 〔実施形態2〕
 図2から図3を参照して、実施形態2について説明する。
 (物体位置推定装置2)
 図2に示すように、物体位置推定装置2は、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備えている。
 物体位置推定装置2は、画像取得装置90から、対象画像70を取得する。物体位置推定装置2は、対象画像70に含まれる所定の種類の物体(以下、単に物体と呼ぶ)の位置を推定する。例えば、物体位置推定装置2は、人、車、木、動物、傘、又はその一部の位置を推定する。以下では、物体が人の頭部である例を説明する。
 本実施形態2において、物体位置推定装置2が出力する第1尤度マップ/第2尤度マップの各座標における尤度は、対象画像70における対応する各位置において、第1のサイズ/第2のサイズを持つ人の頭部(物体の一例である)が存在する確率を示す。第1尤度マップ/第2尤度マップのそれぞれにおける尤度の合計と、対象画像70に映る第1のサイズ/第2のサイズを持つ人の頭部のそれぞれの数とが一致するように、第1尤度マップ/第2尤度マップにおける尤度は正規化される。その結果、第1尤度マップ/第2尤度マップのそれぞれにおける全体の尤度の合計は、対象画像70内において、対象画像70に映る第1のサイズ/第2のサイズを持つそれぞれの人の総数と対応する。なお、第1尤度マップ/第2尤度マップにおける尤度の正規化は必須ではない。
 第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことによって、物体の特徴を示す第1特徴マップ80を生成する。例えば、第1特徴抽出部21は、畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)である。第1特徴抽出部21は、第1位置尤度推定部23および第2特徴抽出部22のそれぞれに、第1特徴マップ80を出力する。
 第1位置尤度推定部23に対し、第1特徴抽出部21から、第1特徴マップ80が入力される。第1位置尤度推定部23は、第1特徴マップ80に対して、畳み込み演算処理を行うことにより、第1尤度マップを推定する。例えば、第1位置尤度推定部23は、第1特徴抽出部21と別に、または一体で、畳み込みニューラルネットワークとして実現される。上述したように、第1尤度マップの各座標における尤度は、対象画像70中の対応する各位置において、第1のサイズを有する物体が存在する確率を示す。上述したように、第1のサイズは、対象画像70における第1所定範囲(後述する)に含まれる任意の形状および大きさを示す。第1位置尤度推定部23は、推定した第1尤度マップを出力する。
 第2特徴抽出部22は、第1特徴抽出部21から、第1特徴マップ80を取得する。第2特徴抽出部22は、第1特徴マップ80に対し、畳み込み演算処理をさらに行うことによって、物体の特徴を示す第2特徴マップ81を生成する。第2特徴マップ81のデータサイズは、第1特徴マップ80のデータサイズよりも小さい。第2特徴抽出部22は、第2位置尤度推定部24に対し、第2特徴マップ81を出力する。
 上述したように、第1特徴マップ80のデータサイズは、第2特徴マップ81のデータサイズと比較して、相対的に大きい。すなわち、第1特徴マップ80の各要素は、対象画像70の小さな部分領域の特徴にそれぞれ対応する。したがって、第1特徴マップ80は、対象画像70の細かな特徴を捉えることに適する。一方、第2特徴マップ81の各要素は、対象画像70の大きな部分領域の特徴にそれぞれ対応する。そのため、第2特徴マップ81は、対象画像70の大まかな特徴を捉えることに適する。
 図2では、物体位置推定装置2の第1特徴抽出部21および第2特徴抽出部22は、別々の機能ブロックとして示されている。しかしながら、第1特徴抽出部21および第2特徴抽出部22は、一つの統合されたネットワークを構成していてもよい。この場合、統合されたネットワークの前半部分が、第1特徴抽出部21に相当し、統合されたネットワークの後半部分が、第2特徴抽出部22に相当する。
 第2位置尤度推定部24に対し、第2特徴抽出部22から、第2特徴マップ81が入力される。第2位置尤度推定部24は、第2特徴マップ81に対して、畳み込み演算処理を行うことによって、第2尤度マップを推定する。上述したように、第2尤度マップの各座標における尤度は、対象画像70における対応する各位置において、第2のサイズを持つ物体が存在する確率を示す。上述したように、第2のサイズは、対象画像70における第2所定範囲(後述)内の任意の大きさを示す。
 あるいは、第2特徴抽出部22は、対象画像70そのものから、第2の特徴マップを生成してもよい。この場合、第2特徴抽出部22は、第1特徴マップ80の代わりに、対象画像70を取得する。第2特徴抽出部22は、対象画像70に対して、畳み込み演算処理を行うことによって、第2特徴マップ81を生成する。
 図2では、物体位置推定装置2の第1特徴抽出部21、第2特徴抽出部22、第1位置尤度推定部23、および、第2位置尤度推定部24は、別々の機能ブロックとして示されている。しかしながら、第1特徴抽出部21、第2特徴抽出部22、第1位置尤度推定部23、および、第2位置尤度推定部24は、一つの統合されたネットワークを構成していてもよい。
 第1位置尤度推定部23は、第1所定範囲内の第1のサイズを有する物体の位置を推定する。換言すれば、対象画像70中に存在する物体が第1のサイズを有する場合、第1位置尤度推定部23によって、第1尤度マップが推定される。
 一方、第2位置尤度推定部24は、第2所定範囲内の第2のサイズを有する物体の位置を推定する。すなわち、対象画像70中に存在する物体が第2のサイズを有する場合、第2位置尤度推定部24によって、その物体の位置が推定される。第2のサイズは第1のサイズよりも大きい。第1のサイズを規定する第1所定範囲と、第2のサイズを規定する第2所定範囲とは重複しないように、予め決定される。
 例えば、第1所定範囲と第2所定範囲は、それぞれ、対応する第1特徴マップ80および第2特徴マップ81のデータサイズに基づいて定められる。例えば、第1特徴マップ80を利用して、対象画像70における物体の基準サイズ(以下では、第1基準サイズと呼ぶ)がまず定められる。次に、第2特徴マップ81を利用して、対象画像70における物体の他の基準サイズ(以下では、第2基準サイズと呼ぶ)が定められる。
 具体的には、上述の第1基準サイズをT1とし、上述の第2基準サイズをT2とする。このとき、第1所定範囲は、第1基準サイズT1及び定数aとb(0<a<b)を用いて、a*T1<k≦b*T1と定められる。ここで、kは物体のサイズを表す。一方、第2所定範囲は、第2基準サイズT2及び定数cとd(0<c<d)を用いて、c*T2<k≦d*T2と定められる。
 第1所定範囲を定めるための定数(a,b)と、第2所定範囲を定めるための定数(c,d)とは、互いに等しくてもよいし、異なっていてもよい。第1所定範囲と第2所定範囲との間にギャップがないように、b*T1=c*T2の条件が満たされることが好ましい。
 基準サイズ及び所定範囲について補足する。上記に示す通り、各基準サイズは、各特徴マップのデータサイズに基づいて定められ、具体的には、各基準サイズは、各特徴マップのデータサイズの逆数に比例するサイズで定められる。基準サイズと所定範囲は、比例の関係である。したがって、各所定範囲は各特徴マップのデータサイズの逆数に比例するサイズで定められる。
 本実施形態2に係わる物体位置推定装置2が備えた各部(すなわち第1特徴抽出部21、第2特徴抽出部22、第1位置尤度推定部23、第2位置尤度推定部24)の学習方法について、後述の実施形態6で説明する。学習機能は、物体位置推定装置2に設けられていてもよいし、物体位置推定装置2ではない他の装置に設けられていてもよい。後者の場合、物体位置推定装置2は、他の装置によって事前に学習済の各部を取得する。
 ここでいう「学習済の各部を取得する」ことは、各部に対応するネットワークそのもの(すなわち、学習されたパラメータを設定されたプログラム)を取得することであってもよいし、学習されたパラメータのみを取得することであってもよい。後者の場合、物体位置推定装置2は、他の装置から、学習されたパラメータを取得し、学習されたパラメータを、物体位置推定装置2の記録媒体に予め準備されているプログラムに設定する。
 上述したように、第1特徴マップ80は、対象画像70の細かな特徴を捉えることに適する。第1位置尤度推定部23は、第1特徴マップ80を用いて、対象画像70中の第1のサイズを持つ物体(画像上で小さく映る物体)の位置を推定する。一方、第2特徴マップ81は、対象画像70の大まかな特徴を捉えることに適する。第2位置尤度推定部24は、第2特徴マップ81を用いて、第1のサイズよりも大きい第2のサイズを持つ物体(画像上で大きく映る物体)の位置を推定する。
 本実施形態2に係わる物体位置推定装置2は、第1特徴マップ80および第2特徴マップ81を併用することにより、対象画像70中の第1のサイズを持つ物体および第2のサイズを持つ物体の位置を効率的に推定することができる。
 第1位置尤度推定部23は、正規化された第1尤度マップの全体の尤度を合計することによって、対象画像70において第1のサイズを持つ物体の総数を算出してもよい。また、第2位置尤度推定部24は、正規化された第2尤度マップの全体の尤度を合計することによって、第2のサイズを持つ物体の総数を算出してもよい。さらに、物体位置推定装置2は、上記の方法によって得られた第1のサイズを持つ物体の総数、および、第2のサイズを持つ物体の総数を合計することによって、対象画像70中の第1のサイズまたは第2のサイズを有する物体の総数を算出してもよい。
 (物体位置推定装置2の動作)
 図3を参照して、本実施形態2に係わる物体位置推定装置2の動作について詳細に説明する。図3は、物体位置推定装置2の動作を示すフローチャートである。
 図3に示すように、第1特徴抽出部21は、画像取得装置90から、対象画像70を取得する(ステップS10)。
 第1特徴抽出部21は、対象画像70に対して畳み込み演算処理を行うことによって、第1特徴マップ80を生成する(ステップS11)。第1特徴抽出部21は、第1特徴マップ80を、第1位置尤度推定部23および第2特徴抽出部22へ出力する。
 第1位置尤度推定部23は、第1特徴マップ80に対して、畳み込み演算処理を行うことによって、第1のサイズを持つ物体の位置を示す第1尤度マップを推定する(ステップS12)。第1位置尤度推定部23は、推定した第1尤度マップを出力する。
 第2特徴抽出部22は、第1特徴抽出部21から第1特徴マップ80を取得し、第1特徴マップ80に対して畳み込み演算処理を行うことによって、第2特徴マップ81を生成する(ステップS13)。
 第2位置尤度推定部24は、第2特徴マップ81に対して、畳み込み演算処理を行うことによって、第2のサイズを持つ物体の位置を示す第2尤度マップを推定する(ステップS14)。第2位置尤度推定部24は、推定した第2尤度マップを出力する。
 なお、上述したステップS12、S13、及びS14は、逐次的に実行されてもよい。また、ステップS12、S13及びS14の各処理の間の順序は入れ替わってもよい。ただし、ステップS14の処理はステップS13の処理よりも後に実行される必要がある。
 以上で、物体位置推定装置2の動作は終了する。
 ここまでは、物体位置推定装置2が、特徴抽出部(すなわち第1特徴抽出部21および第2特徴抽出部22)および尤度マップ推定部(すなわち第1位置尤度推定部23および第2位置尤度推定部24)をそれぞれ2つずつ備える構成を上述した。しかしながら、物体位置推定装置2は、特徴抽出部および位置尤度推定部を、それぞれ3つ以上有していてもよい(変形例1)。
 (変形例1)
 図4は、本変形例1に係わる物体位置推定装置2aの構成を示す。図4に示すように、物体位置推定装置2aは、特徴抽出部および位置尤度推定部を、それぞれn(nは3以上の整数)個ずつ備える。第1特徴マップは、対象画像に対して、第1特徴抽出部が畳み込み演算処理を行うことによって得られる。第2特徴マップ、第3の特徴マップ、・・・第nの特徴マップは、それぞれ、前段の特徴マップに対して、第i特徴抽出部が畳み込み演算処理を行うことによって得られる。ここでiは2からnまでのいずれかの整数である。
 具体的には、物体位置推定装置2aの第i特徴抽出部は、第(i-1)特徴マップに対して、畳み込み演算処理を行うことによって、第i特徴マップを生成する。図4に示す変形例1において、第1特徴抽出部から第n特徴抽出部までが連結されたネットワークは、1つの統合された特徴抽出部10として捉えることができる。
 第i特徴マップ(i=1~n)は、第i位置尤度推定部へ入力される。第i位置尤度推定部は、第i特徴マップに対して、畳み込み演算処理を行うことによって、第iのサイズを持つ物体の位置を推定する。そして、第i位置尤度推定部は、第iのサイズを持つ物体の位置を示す第iの尤度マップを推定し、出力する。また、図4に示す変形例1において、全ての特徴抽出部及び全ての尤度推定部を、1つの統合されたニューラルネットワークとして実現することもできる。
 本変形例1の構成によれば、対象画像から、互いに異なる3つ以上のサイズを持つ物体の位置を示す3つ以上の尤度マップを推定し、出力することができる。すなわち、本変形例1に係わる物体位置推定装置2aは、互いに異なる3つ以上のサイズを持つ物体の位置を推定することができる。
 (変形例2)
 変形例2において、第1位置尤度推定部23および第2位置尤度推定部24は、予め分類された物体の属性ごとに、物体の位置をそれぞれ推定する。そして、第1位置尤度推定部23および第2位置尤度推定部24は、物体の属性ごとに、第1尤度マップ/第2尤度マップを推定し、推定した第1尤度マップ/第2尤度マップを出力する。
 例えば、物体が人物またはその一部である場合、属性は、人物の年齢、人物の性別、人物の顔の向き、人物の移動速度、または人物の所属(社会人、学生、又は家族など)など、人物そのものに関係していてもよい。あるいは、属性は、人物を含む群衆の行列または滞留、あるいは人物を含む群衆の状態(例えばパニック)など、物体が構成する集団に関係していてもよい。
 一例では、人物(物体)の属性が、子供および大人の2つに分類される。この場合、第1位置尤度推定部23は、対象画像70中、第1のサイズを有する子供および大人の位置をそれぞれ推定する。一方、第2位置尤度推定部24は、対象画像70中、第2のサイズを有する子供および大人の位置をそれぞれ推定する。
 第1位置尤度推定部23および第2位置尤度推定部24は、子供の位置および大人の位置を各チャネルに出力するニューラルネットワークとして構成してもよい。この場合、第1位置尤度推定部23は、対象画像70中、第1のサイズを有する子供の位置および第1のサイズを有する大人の位置をそれぞれ推定して、各チャネルとして出力する。第2位置尤度推定部24は、対象画像70中、第2のサイズを有する子供の位置および第2のサイズを有する大人の位置をそれぞれ推定して、各チャネルとして出力する。
 本変形例2によれば、第1位置尤度推定部23および第2位置尤度推定部24は、物体の属性(上記の例では、子供と大人)をニューラルネットワークのチャネルとし、属性ごとに、各位置尤度推定部で定められたサイズをもつ物体の位置を尤度マップとして推定する。これにより、第1位置尤度推定部23および第2位置尤度推定部24は、物体のサイズ別に、さらに、属性別に、物体の位置を推定することができる。
 (本実施形態の効果)
 本実施形態の構成によれば、特徴抽出部10の第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップを生成する。特徴抽出部10の第2特徴抽出部22は、第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップを生成する。尤度マップ推定部20の第1位置尤度推定部23は、第1特徴マップを用いて、画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。尤度マップ推定部20の第2位置尤度推定部24は、第2特徴マップを用いて、画像の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置1は、第1特徴マップおよび第2特徴マップを用いて、第1のサイズを持つ物体および第2のサイズを持つ物体を、別々に、対象画像70中の位置を推定するので、画像中で物体同士の重なりがあっても、それぞれの物体の位置を頑健かつ高精度に推定することができる。
 また、本実施形態の構成によれば、関連する技術のように、対象画像70を走査する際、物体を検出される部分領域のサイズおよび位置を変化させる必要がない。したがって、物体位置推定装置2は、部分領域の配置に依存しないで、物体の位置を精度良く推定することができる。
 さらに、本実施形態の構成によれば、第1尤度マップ/第2尤度マップのそれぞれの全体の尤度の合計が、対象画像70における第1のサイズ/第2のサイズを持つ物体の各総数と等しくなるように、第1尤度マップ/第2尤度マップは正規化される。そのため、物体位置推定装置2は、第1尤度マップの全体における尤度の合計と、第2尤度マップの全体における尤度の合計によって、対象画像70に含まれる第1のサイズを持つ物体の総数、第2のサイズを持つ物体の総数、および、画像70に含まれる物体の総数、を得ることができる。
 〔実施形態3〕
 図5を参照して、実施形態3について説明する。
 (物体位置推定装置3)
 図5は、本実施形態3に係わる物体位置推定装置3の構成を示すブロック図である。図5に示すように、物体位置推定装置3は、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備える。それに加えて、物体位置推定装置3は、第1計数部25および第2計数部26をさらに有する。前記実施形態2の変形例に係わる物体位置推定装置2aと同様に、本実施形態3の一変形例に係る物体位置推定装置3は、特徴抽出部および位置尤度推定部を、それぞれ3つ以上有していてもよい。その場合、特徴抽出部及び位置尤度推定の数に応じた数の計数部を追加する。第1計数部25および第2計数部26は、第1計数手段および第2計数手段の一例である。
 第1特徴抽出部21は、対象画像70から、第1特徴マップ80を生成し、第2特徴抽出部22は、第1特徴抽出部21が生成した第1特徴マップ80から、第2特徴マップ81を生成する。
 あるいは、第2特徴抽出部22は、対象画像70そのものから、第2の特徴マップを生成してもよい。この場合、第2特徴抽出部22は、第1特徴マップ80の代わりに、対象画像70を取得する。第2特徴抽出部22は、対象画像70そのものに対して、畳み込み演算処理を行うことによって、第2特徴マップ81を生成する。
 第1計数部25は、第1特徴抽出部21から、第1特徴マップ80を取得し、第1特徴マップ80を用いて、対象画像70中の第1のサイズを持つ物体の総数を算出する。具体的には、第1計数部25は、第1のサイズを持つ物体の特徴を判別できるように学習される。学習が完了した第1計数部25は、対象画像70中の第1のサイズを持つ物体をそれぞれ検出し、それらをカウントすることによって、第1のサイズを持つ物体の総数を算出する。
 第2計数部26は、第2特徴抽出部22から、第2特徴マップ81を取得し、第2特徴マップ81を用いて、対象画像70中の第2のサイズを持つ物体の総数を算出する。具体的には、第2計数部26は、第2のサイズを持つ物体の特徴を判別できるように学習される。学習が完了した第2計数部26は、対象画像70中の第2のサイズを持つ物体をそれぞれ検出し、それらをカウントすることによって、第2のサイズを持つ物体の総数を算出する。例えば、第1計数部25/第2計数部26は、学習されたパラメータを有する畳み込みニューラルネットワークである。そして、第1特徴抽出部21、第2特徴抽出部22、第1位置尤度推定部23、第2位置尤度推定部24、第1計数部25、及び第2計数部26は、1つのニューラルネットワークとして構成してもよい。なお、第1計数部25および第2計数部26の学習方法の一例を、後の実施形態で説明する。
 (本実施形態の効果)
 本実施形態の構成によれば、第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップ80を生成する。第2特徴抽出部22は、第1特徴マップ80に対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップ81を生成する。第1位置尤度推定部23は、第1特徴マップ80を用いて、対象画像70の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。第2位置尤度推定部24は、第2特徴マップ81を用いて、対象画像70の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置3は、第1特徴マップ80および第2特徴マップ81を用いて、第1のサイズを持つ物体の位置および第2のサイズを持つ物体の位置を推定するので、対象画像70中で物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。
 さらに、本実施形態の構成によれば、第1計数部25は、第1特徴マップ80を用いて、対象画像70中の第1のサイズを持つ物体を計数する。第2計数部26は、第2特徴マップ81を用いて、対象画像70中の第2のサイズを持つ物体を計数する。これにより、物体位置推定装置3は、対象画像70に含まれる第1のサイズを持つ物体/第2のサイズを持つ物体の総数をより正確に推定することができる。
 〔実施形態4〕
 図6を参照して、実施形態4について説明する。
 (物体位置推定装置4)
 図6は、本実施形態4に係わる物体位置推定装置4の構成を示すブロック図である。図6に示すように、物体位置推定装置4は、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備える。それに加えて、物体位置推定装置4は、第1位置特定部27および第2位置特定部28をさらに備える。なお、前記実施形態2の変形例に係わる物体位置推定装置2aと同様に、本実施形態4の一変形例に係る物体位置推定装置4は、特徴抽出部および位置尤度推定部を、それぞれ3つ以上有していてもよい。その場合、特徴抽出部及び位置尤度推定の数に応じた数の位置特定部を追加する。第1位置特定部27および第2位置特定部28は、第1位置特定手段および第2位置特定手段の一例である。
 第1位置特定部27は、第1位置尤度推定部23から得られた第1のサイズを持つ物体の位置を示す第1尤度マップから、対象画像70において第1のサイズを持つ物体の位置を特定する。
 具体的には、第1位置特定部27は、第1尤度マップから尤度の極大値を示す座標を抽出する。第1位置特定部27は、第1尤度マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を1つに統合してもよい。
 例えば、第1位置特定部27は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第1位置特定部27は、複数の極大値の平均値を、統合された極大値としてもよい。または、第1位置特定部27は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。
 その後、第1位置特定部27は、第1尤度マップ中の全ての尤度を合計することによって、対象画像70において第1のサイズを有する物体の総数(以下、第1の物体数と呼ぶ)を算出する。
 対象画像70において第1の物体数が0でない場合、さらに、第1位置特定部27は、第1尤度マップにおいて尤度の極大値を示す座標のうち、尤度の高い順に、対象画像70における第1の物体数と同数の座標を抽出する。これにより、ノイズを原因とする大量の極大値が第1尤度マップに表れた場合であっても、第1位置特定部27は、第1のサイズを持つ物体と対応しない極大値を排除することができる。第1位置特定部27は、このように抽出された1または複数の座標が、第1のサイズを有する物体の位置と対応するとした場合の第1物体位置マップを生成する。第1位置特定部27は、物体位置マップではなく、座標そのものを出力してもよい。第1物体位置マップは、対象画像70において第1のサイズを持つ物体が存在する位置を示す。
 第1位置特定部27は、第1尤度マップから抽出された尤度の極大値を示す座標のうち、所定値以上の尤度を持つ座標をさらに抽出してもよい。これにより、第1位置特定部27は、第1のサイズを持つ物体と対応しない極大値を排除することができる。第1位置特定部27は、このようにして抽出された座標と対応する対象画像70における位置に、第1のサイズを有する物体が存在すると特定する。
 具体的には、第2位置特定部28は、第2尤度マップを用いて、対象画像70中の第2のサイズを持つ物体の位置を特定する。例えば、第2位置特定部28は、第2尤度マップから尤度の極大値を示す座標を抽出する。第2位置特定部28は、第2尤度マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を1つに統合してもよい。
 例えば、第2位置特定部28は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第2位置特定部28は、複数の極大値の平均値を、統合された極大値としてもよい。または、第2位置特定部28は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。
 その後、第2位置特定部28は、第2尤度マップ中の全ての尤度を合計することによって、対象画像70において第2のサイズを有する物体の総数(以下、第2の物体数と呼ぶ)を算出する。
 対象画像70において第2の物体数が0でない場合、さらに、第2位置特定部28は、第2尤度マップにおいて尤度の極大値を示す座標から、尤度の高い順に、対象画像70における第2の物体数と同数の座標を抽出する。第2位置特定部28は、こうして抽出された1または複数の座標が、第2のサイズを有する物体の位置と対応するとした場合の第2物体位置マップを生成する。第2位置特定部28は、物体位置マップではなく、座標そのものを出力してもよい。第2物体位置マップは、対象画像70において第2のサイズを持つ物体が存在する位置を示す。
 第2位置特定部28は、第2尤度マップから抽出された尤度の極大値を示す座標のうち、所定値以上の尤度を持つ座標をさらに抽出してもよい。これにより、第2位置特定部28は、第2のサイズを持つ物体と対応しない極大値を排除することができる。第2位置特定部28は、このようにして抽出された座標と対応する対象画像70における位置に、第2のサイズを有する物体が存在すると特定する。
 第1位置特定部27/第2位置特定部28は、第1物体位置マップ/第2物体位置マップを生成するための前処理として、第1尤度マップ/第2尤度マップに対し、ぼかし処理などの画像処理を実施してもよい。これにより、第1尤度マップ/第2尤度マップから、ノイズを除去することができる。また、第1物体位置マップ/第2物体位置マップを生成した後処理として、第1位置特定部27/第2位置特定部28は、例えば、第1のサイズ/第2のサイズを持つ物体の位置を示す座標間の距離や、第1のサイズ/第2のサイズを持つ物体の位置を示す座標周辺の尤度の広がりを分散値とするマハラノビス距離を用いて、第1のサイズ/第2のサイズを持つ物体の位置を示す座標を統合してもよい。
 第1位置特定部27/第2位置特定部28は、以上のように推定した第1のサイズ/第2のサイズを持つ物体の位置を示す座標を、任意の方法で出力してよい。例えば、第1位置特定部27/第2位置特定部28は、物体の位置を示す座標を提示するマップをディスプレイ装置に表示させてもよいし、物体の位置を示す座標のデータを、図示しない記憶装置に格納してもよい。
 (本実施形態の効果)
 本実施形態の構成によれば、第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップ80を生成する。第2特徴抽出部22は、第1特徴マップ80に対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップ81を生成する。第1位置尤度推定部23は、第1特徴マップ80を用いて、対象画像70の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。第2位置尤度推定部24は、第2特徴マップ81を用いて、対象画像70の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置4は、第1特徴マップ80および第2特徴マップ81を用いて、第1のサイズを持つ物体の位置および第2のサイズを持つ物体の位置を推定するので、対象画像70中で物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。
 また、本実施形態の構成によれば、第1尤度マップ/第2尤度マップから、物体の確定した位置を示す第1物体位置マップ/第2物体位置マップに変換する。そして、物体の位置の推定結果として、第1物体位置マップ/第2物体位置マップあるいはそれに基づく情報を出力する。これにより、物体位置推定装置4は、他の装置または他のアプリケーションにとって扱いやすい形で、物体の位置の推定結果を示す情報を提供することができる。
 〔実施形態5〕
 図7を参照して、実施形態5について説明する。
 (物体位置推定装置5)
 図7は、本実施形態5に係わる物体位置推定装置5の構成を示すブロック図である。図7に示すように、物体位置推定装置5は、実施形態3と同様に、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24と、第1計数部25と、第2計数部16とを備える。それに加えて、物体位置推定装置5は、第1位置特定部29と第2位置特定部30とをさらに有する。なお、物体位置推定装置5は、特徴抽出部、位置尤度推定部、および計数部を、それぞれ3つ以上有していてもよい。その場合、特徴抽出部、位置尤度推定および計数部の数に応じた数の位置特定部を追加する。
 第1位置特定部29は、第1位置尤度推定部23から、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを取得する。また、第1位置特定部29は、第1計数部25から、第1のサイズを持つ物体の総数である第1物体数を取得する。第1位置特定部29は、第1尤度マップから、尤度の極大値を示す座標を特定する。第1位置特定部29は、第1尤度マップにおいて尤度の極大値を示す座標のうち、第1物体数が示す物体の総数と同数の座標を、尤度の高い順に抽出する。そして、第1位置特定部29は、第1のサイズを有する物体の位置を示す第1物体位置マップを生成する。
 第2位置特定部30は、第2位置尤度推定部24から、第2のサイズを持つ物体が存在する確率を示す第2尤度マップを取得する。また、第2位置特定部30は、第2計数部26から、第2のサイズを持つ物体の総数である第2物体数を取得する。第2位置特定部30は、第2尤度マップから、尤度の極大値を示す座標を特定する。第2位置特定部30は、第2尤度マップにおいて尤度の極大値を示す座標のうち、第2物体数が示す物体の総数と同数の座標を、尤度の高い順に抽出する。そして、第2位置特定部30は、抽出した座標が第2のサイズを有する物体の位置と対応するとした場合の第2物体位置マップを生成する。
 あるいは、第1位置特定部29および第2位置特定部30は、前記実施形態4で説明した第1位置特定部27および第2位置特定部28の機能をさらに有していてもよい。
 具体的には、第1尤度マップ/第2尤度マップはノイズを含む場合がある。そこで、第1物体位置マップ/第2物体位置マップを生成するための前処理として、第1位置特定部29/第2位置特定部30は、第1尤度マップ/第2尤度マップに対して、それぞれ、ぼかし処理などの画像処理を行ってもよい。これにより、第1尤度マップ/第2尤度マップに含まれるノイズを目立たなくさせることができる。
 また後処理として、第1位置特定部29/第2位置特定部30は、第1物体位置マップ/第2物体位置マップから、尤度の極大値を示す座標を取得した後、尤度の極大値を示す座標間の距離、または、尤度の極大値を示す座標の周辺での尤度の広がりを分散値としたマハラノビス距離に基づいて、尤度の極大値を示す複数の座標を1つに統合してもよい。
 例えば、第1位置特定部29/第2位置特定部30は、尤度の極大値を示す座標間のマハラノビス距離が閾値を下回る場合、それらの極大値を統合する。この場合、第1位置特定部29/第2位置特定部30は、複数の極大値の平均値を、統合された極大値としてもよい。または、第1位置特定部29/第2位置特定部30は、それぞれ極大値を示す複数の座標の中間の位置を、統合された極大値の座標としてもよい。
 第1位置特定部29/第2位置特定部30は、第1物体位置マップ/第2物体位置マップ、あるいはそれに基づく情報を、任意の方法で出力してよい。例えば、第1位置特定部29/第2位置特定部30は、ディスプレイ装置を制御して、第1物体位置マップ/第2物体位置マップ、あるいはそれに基づく情報を、ディスプレイ装置に表示させる。あるいは、第1位置特定部29/第2位置特定部30は、物体位置推定装置5からアクセス可能な記憶装置に、第1物体位置マップ/第2物体位置マップを格納してもよい。そのほか、第1位置特定部29/第2位置特定部30は、物体位置推定装置5からアクセス可能な他の装置に対し、第1物体位置マップ/第2物体位置マップあるいはそれに基づく情報を送信してもよい。
 (本実施形態の効果)
 本実施形態の構成によれば、第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップ80を生成する。第2特徴抽出部22は、第1特徴マップ80に対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップ81を生成する。第1位置尤度推定部23は、第1特徴マップ80を用いて、対象画像70の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。第2位置尤度推定部24は、第2特徴マップ81を用いて、対象画像70の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置5は、第1特徴マップ80および第2特徴マップ81を用いて、第1のサイズ/第2のサイズを持つ物体の位置を推定するので、対象画像70中で、これらの物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。
 また、本実施形態の構成によれば、第1位置特定部29/第2位置特定部30は、第1尤度マップ/第2尤度マップを、物体の確定した位置を示す第1物体位置マップ/第2物体位置マップに変換する。そして、物体の位置の推定結果として、第1物体位置マップ/第2物体位置マップあるいはそれに基づく情報を出力する。これにより、物体位置推定装置5は、他の装置または他のアプリケーションにとって扱いやすい形で、物体の位置の推定結果を示す情報を提供することができる。
 さらに、第1位置特定部29/第2位置特定部30は、尤度マップにおける尤度の極大値を示す座標のうち、第1計数部25および第2計数部26によってカウントされた第1のサイズ/第2のサイズを持つ物体の総数と同数の座標を、尤度の高い順に取得する。そのため、第1尤度マップ/第2尤度マップ上に、ノイズを原因とする尤度の極大値が大量に表れている場合であっても、物体位置推定装置5は、対象画像70に映る第1のサイズ/第2のサイズを持つ物体の座標を、正しく取得することができる。
 〔実施形態6〕
 図8から図9を参照して、実施形態6について説明する。
 (物体位置推定装置6)
 図8は、本実施形態6に係わる物体位置推定装置6の構成を示すブロック図である。物体位置推定装置6は、以下で説明する点を除き、前記実施形態2に係わる物体位置推定装置2と同等の機能を有する。
 図8に示すように、本実施形態6に係わる物体位置推定装置6は、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備える。そして、物体位置推定装置6は、学習部41をさらに有する。学習部41は、学習手段の一例である。
 なお、本実施形態6の一変形例では、物体位置推定装置6は、特徴抽出部および位置尤度推定部を、それぞれ3つ以上有していてもよい。例えば、物体位置推定装置6には、特徴抽出部および位置尤度推定部が、それぞれn(>2)個設けられる。この場合、学習データ(すなわち教師データ)は、学習画像と、物体情報と、第1正解尤度マップから第n正解尤度マップまでのn個の正解尤度マップとを含む。第1正解尤度マップから第n正解尤度マップまでのn個の正解尤度マップを、正解値と呼ぶ場合がある。
 (学習部41)
 学習部41は、予め準備された学習データ(すなわち教師データ)を利用して、物体位置推定装置6の各部(ただし学習部41を除く)の学習を行う。学習データは、学習画像、物体情報、第1正解尤度マップ、および第2正解尤度マップを含む。
 第1正解尤度マップは、学習画像において、第1のサイズを有する物体の位置を示す確率であり、物体領域に基づいて定められる。第2正解尤度マップは、学習画像中の第2のサイズを有する物体の位置を示す確率であり、物体領域に基づいて定められる。第1正解尤度マップおよび第2正解尤度マップを生成する方法は限定されない。例えば、オペレータが、ディスプレイデバイスに表示された学習画像中の物体領域を目視し、手動にて、第1正解尤度マップおよび第2正解尤度マップを生成してもよい。また、物体位置推定装置6は、後述の物体位置推定装置6aに示される学習データ生成部42をさらに備え、学習データ生成部42は、第1正解尤度マップおよび第2正解尤度マップを生成してもよい。
 なお、物体位置推定装置6とは異なる他の装置によって、学習データが生成される場合、物体位置推定装置6は、他の装置から学習データを取得する。例えば、学習データは、物体位置推定装置6からアクセス可能な記憶装置に予め格納されている。この場合、物体位置推定装置6は、この記憶装置から学習データを取得する。あるいは、物体位置推定装置6は、学習データ生成部42が生成した学習データを取得してもよい(後述する変形例)。
 物体位置推定装置6は、物体の形状の特徴を学習するのではなく、学習画像における物体の位置を物体同士の重なりも考慮して学習する。これにより、物体位置推定装置6は、学習画像における物体同士の重なりもそのまま学習することができる。
 学習部41は、学習画像を第1特徴抽出部21に入力する。第1特徴抽出部21は、学習画像から、第1特徴マップ80を生成する。そして、第1位置尤度推定部23は、第1特徴マップ80に基づいて、第1のサイズを持つ物体の位置を示す第1尤度マップを出力する。第1位置尤度推定部23は、第1尤度マップを学習部41へ出力する。
 第1特徴抽出部21から、第2特徴抽出部22に対して、第1特徴マップ80が入力される。第2特徴抽出部22は、第1特徴マップ80から、第2特徴マップ81を生成する。
 あるいは、第2特徴抽出部22は、学習画像そのものから、第2の特徴マップを生成してもよい。この場合、第2特徴抽出部22は、第1特徴マップ80の代わりに、学習画像を取得する。第2特徴抽出部22は、学習画像そのものに対して、第1特徴抽出部21よりも多くの畳み込み演算処理を行うことによって、第2特徴マップ81を生成する。
 第2位置尤度推定部24は、第2特徴マップ81に基づいて、学習画像において、第2のサイズを持つ物体の位置を示す第2尤度マップを出力する。第2位置尤度推定部24は、第2尤度マップを学習部41へ出力する。
 学習部41は、第1位置尤度推定部23および第2位置尤度推定部24からの各出力(第1尤度マップ、第2尤度マップ)と、学習データに含まれる正解値(第1正解尤度マップ、第2正解尤度マップ)との誤差を、第1の損失として算出する。例えば、学習部41は、第1尤度マップ/第2尤度マップと、第1正解尤度マップ/第2正解尤度マップとの間で、平均二乗誤差を算出する。そして、学習部41は、算出したマップの間の平均二乗誤差を第1の損失とする。学習部41は、算出した第1の損失を小さくするように、物体位置推定装置6の各部(学習部41を除く)の学習を行う。
 ここでいう学習とは、物体位置推定装置6の各部のパラメータを更新することを意味する。例えば、学習部41は、バックプロパゲーション等の既知の技術を利用して、学習処理を実行することができる。具体的には、学習部41は、予め設定された第1の損失の算出式(例えば損失関数)を用いて、第1の損失を算出し、第1の損失を低減するように、物体位置推定装置6の各部の学習を行う。または、学習部41は、アクセス可能な記憶装置に記憶された第1の損失の算出式を取得して、第1の損失を算出し、第1の損失を低減するように、物体位置推定装置6の各部の学習を行う。
 一例では、学習部41は、第1位置尤度推定部23/第2位置尤度推定部24の出力から、学習部41へフィードバックされた情報(すなわち第1尤度マップ/第2尤度マップ)に基づいて、物体位置推定装置6の各部(学習部41を除く)のパラメータを更新する。
 物体位置推定装置6の各部(学習部41を除く)のパラメータが更新された後、物体位置推定装置6の各部は、別の学習データを用いて、第1尤度マップ/第2尤度マップを推定し出力する。第1位置尤度推定部23/第2位置尤度推定部24の出力から、学習部41へ、第1尤度マップ/第2尤度マップがフィードバックされる。学習部41は、フィードバックされた情報(すなわち第1尤度マップ/第2尤度マップ)に基づいて、物体位置推定装置6の各部(学習部41を除く)のパラメータを再び更新する。
 学習部41は、第1の損失の大きさが所定の閾値以下となるまで、上述した方法で、物体位置推定装置6の各部の学習を繰り返し行ってもよい。しかしながら、学習部41が物体位置推定装置6の各部(学習部41を除く)の学習を終了する条件は限定されない。このようにして、学習部41は、第1の損失を低減するように、物体位置推定装置6の各部のパラメータを繰り返し学習する。これにより、第1尤度マップの推定および第2尤度マップの推定が、第1特徴抽出部21を通じて、同時に学習されるので、物体位置推定装置6が物体の位置をより精度よく推定できるとともに、学習速度を向上させることができる。
 (物体位置推定装置6の動作)
 図9を参照して、本実施形態6に係わる物体位置推定装置6の動作を説明する。図9は、物体位置推定装置6の動作の流れを示すフローチャートである。ここでは、物体位置推定装置6が単一の学習データを用いて学習を行う場合を説明する。なお、複数の学習データが存在する場合、物体位置推定装置6は、図9に示すステップS20からS23までの処理を繰り返し、学習データごとに実行する。
 図9に示すように、まず、学習部41は、学習データを取得する(S20)。学習部41は、学習データに含まれる学習画像を、第1特徴抽出部21に入力する(S21)。学習部41は、各位置尤度推定部の出力と正解値との誤差を示す第1の損失を算出し(S22)、算出した第1の損失を小さくするように、物体位置推定装置6の各部の学習(パラメータ更新)を行う(S23)。
 以上で、物体位置推定装置6の動作は終了する。
 (変形例1)
 変形例1では、学習データの物体情報は、物体の位置およびサイズに加え、その物体の属性も示す。学習部41は、学習データとして、第1のサイズを有する物体の位置を示す確率である第1正解尤度マップと、第2のサイズを有する物体の位置を示す確率である第2正解尤度マップを、物体の属性ごとに用意する。そして、学習部41は、学習画像と、属性毎の第1のサイズを有する物体の位置を示す確率である第1正解尤度マップと、属性毎の第2のサイズを有する物体の位置を示す確率である第2正解尤度マップとを用いて、上述した方法(図9)によって、物体位置推定装置6の各部の学習を実行する。
 本変形例1の構成によれば、属性毎の第1正解尤度マップおよび第2正解尤度マップを用いて、物体位置推定装置6の各部の学習を実行する。これにより、物体位置推定装置6は、物体の属性ごとに、物体の位置を推定することができる。例えば、物体位置推定装置6は、大人(物体の属性の一例である)の位置を推定するとともに、子供(物体の位置の他の例である)の位置も別に推定することができる。
 (変形例2)
 学習画像中の物体の総数が少なかったり、あるいは物体の配置の偏りが大きかったりする場合、学習が正しく進行しない可能性がある。具体的には、学習データである第1正解尤度マップまたは第2正解尤度マップにおいて、尤度が0である座標が多く存在する場合がある。
 本変形例2に係わる学習部41は、上述した第1の損失を最小化するための学習において、学習データである第1正解尤度マップ/第2正解尤度マップ、および推定結果である第1尤度マップ/第2尤度マップにおける全ての座標における誤差を用いるのではなく、一部の座標における誤差を最小化するように、物体位置推定装置6の各部の学習を行う。具体的には、本変形例2に係わる学習部41は、学習データである第1正解尤度マップ/第2正解尤度マップにおいて、尤度が0の座標の数とそれ以外の座標の数とが所定の比率になるように、学習データである第1正解尤度マップ/第2正解尤度マップ上のいくつかの座標を選択する。そして、選択された第1正解尤度マップ/第2正解尤度マップ上の座標に応じて、推定結果である第1尤度マップ/第2尤度マップの座標も選択する。例えば、学習部41は、尤度が0の座標と、それ以外の座標とを、同数ずつ、第1正解尤度マップ/第2正解尤度マップ上から選択し、選択された第1正解尤度マップ/第2正解尤度マップ上の座標に応じて、第1尤度マップ/第2尤度マップの座標も選択する。学習部41は、選択した座標における第1の誤差を最小化するように、物体位置推定装置6の各部のパラメータを更新する。
 (物体位置推定装置6a)
 図10は、本実施形態6の一変形例に係わる物体位置推定装置6aの構成を示すブロック図である。本変形例に係わる物体位置推定装置6aは、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備える。物体位置推定装置6aは、学習部41および学習データ生成部42をさらに有する。学習データ生成部42は、学習データ生成手段の一例である。物体位置推定装置6aは、学習データ生成部42をさらに備えている点で、上述した物体位置推定装置6とは構成が異なる。
(学習データ生成部42)
 学習データ生成部42は、学習部41が学習を行うための学習データ(教師データ)を生成する。
 図11を参照して、本変形例に係わる学習データ生成部42の動作を説明する。図11は、学習データ生成部42が、学習データである第1正解尤度マップおよび第2正解尤度マップを作成するために実行する処理の流れを示す。
 学習データ生成部42は、学習画像を取得する。例えば、学習画像および物体情報は、オペレータによって、物体位置推定装置6aへ入力される。ここで、学習画像は、物体位置推定装置6aによる位置の推定の対象である第1のサイズを持つ物体/第2のサイズを持つ物体(図11では「対象物体」である頭部)を含む。学習画像に紐付けられた物体情報によって、学習画像における物体領域が特定される。
 物体領域は、学習画像において、物体が占有する領域と対応する。例えば、物体領域は、学習画像中の物体に外接する矩形またはその他の2次元形状によって囲まれた領域である。例えば、物体情報は、学習画像における物体領域(例えば物体の外接矩形)の左上隅及び右下隅の座標をそれぞれ指定する。
 学習データ生成部42は、学習画像に紐付けられた物体情報を用いて、学習画像中の物体の位置および大きさを特定する。そして、以下で説明する手順にしたがって、学習データ生成部42は、第1正解尤度マップおよび第2正解尤度マップをそれぞれ生成する。
 図11に示すように、学習データ生成部42は、まず、学習画像に紐付けられた物体情報に基づいて、第1のサイズを持つ物体/第2のサイズを持つ物体のそれぞれを検出する。学習データ生成部42は、学習画像において、第1のサイズを持つ物体/第2のサイズを持つ物体の位置を特定する。
 次に、学習データ生成部42は、全ての座標の尤度がゼロである初期の第1正解尤度マップ/第2正解尤度マップを用意し、その第1正解尤度マップ/第2正解尤度マップ上に、第1のサイズを持つ物体/第2のサイズを持つ物体についての物体領域の中心または重心を中心とする尤度の正規分布を生成する。尤度の正規分布の生成において、学習データ生成部42は、第1のサイズを持つ物体についての尤度の正規分布を、第1正解尤度マップ上に生成し、第2のサイズを持つ物体についての尤度の正規分布を、第2正解尤度マップ上に生成する。
 また、学習データ生成部42は、第1正解尤度マップ/第2正解尤度マップ上における正規分布の広がりを、パラメータによって規定する。例えば、パラメータは、正規分布を示す関数の中心(平均)と分散のパラメータであってよい。この場合、正規分布を示す関数の中心を、物体の位置を示す値(例えば物体領域の中心または重心)とし、正規分布を示す関数の分散を、物体領域の大きさに対応した値にしてもよい。また、正規分布を示す関数の中心の値が1になるように、正規分布を示す関数の形を設定してもよい。
 以上のようにして、学習データ生成部42は、学習画像の各位置に第1のサイズを持つ物体/第2のサイズを持つ物体が存在する確率を示す第1正解尤度マップ/第2正解尤度マップを生成する。第1正解尤度マップ/第2正解尤度マップでは、第1のサイズを持つ物体/第2のサイズを持つ物体についての物体領域が、尤度の正規分布の広がりに対応する。
 なお、第1正解尤度マップおよび第2正解尤度マップ上のある部分において、複数の尤度の正規分布が重なっている場合、学習データ生成部42は、その部分内の同一の座標における尤度の最大値を、その座標における尤度としてもよい。あるいは、学習データ生成部42は、複数の正規分布が重なった部分の各座標での尤度の平均値を、その座標における尤度としてもよい。しかしながら、学習データ生成部42は、これ以外の方法で、第1正解尤度マップおよび第2正解尤度マップ上において、複数の正規分布が重なった部分における尤度を算出してもよい。
 学習データ生成部42は、物体情報に基づいて、学習画像における第1のサイズを持つ物体の総数(第1の物体数)をカウントする。第1正解尤度マップ内の尤度の合計が、学習画像における第1の物体数と一致するように、学習データ生成部42は、第1正解尤度マップの尤度を正規化する。なお、図11では、正規化した第1正解尤度マップを省略している。または、学習データ生成部42は、学習画像内に含まれる物体領域の割合の合計を用いて、第1の物体数のカウントを行ってもよい。
 正規化された第1正解尤度マップの各座標における尤度は、第1のサイズを持つ物体がその座標によって示される位置に存在する確率を表す。正規化された第1正解尤度マップ全体の尤度を合計すると、学習画像に含まれる第1のサイズを持つ物体の総数と等しくなる。つまり、第1正解尤度マップ全体の尤度の合計は、第1正解尤度マップに存在する物体の総数の意味も持つ。
 さらに、学習データ生成部42は、正規化された第1正解尤度マップのサイズを、第1位置尤度推定部23の出力である第1尤度マップのサイズと等しくする。言い換えれば、学習データ生成部42は、正規化された第1正解尤度マップ上の各座標と、学習画像における各位置とが一対一で対応するように、第1正解尤度マップを変換する。上記では、学習データ生成部42が正規化を行う場合を一例として説明したが、正規化の処理は必須ではない。すなわち、学習データ生成部42は、第1正解尤度マップおよび第2正解尤度マップの正規化を行わなくてもよい。
 学習データ生成部42は、物体情報を用いて、学習画像から、第2のサイズを持つ物体を特定する。学習データ生成部42は、特定した第2のサイズを持つ物体の位置を表す正規分布を生成する。そして、学習データ生成部42は、第1正解尤度マップに関して説明した手順と同様に、第2正解尤度マップを生成し、第2正解尤度マップを正規化する。なお、図11では、正規化した第2正解尤度マップを省略している。
 さらに、学習データ生成部42は、正規化された第2正解尤度マップのサイズを、第2尤度マップのサイズと一致させる。すなわち、学習データ生成部42は、正規化された第2正解尤度マップ上の各座標と、学習画像における各位置とが一対一で対応するように、第2正解尤度マップを変換する。第2正解尤度マップ上の各座標における尤度は、学習画像上の対応する位置において、第2のサイズを持つ物体が存在する確率を示す。上記では、学習データ生成部42が正規化を行う場合を例として説明したが、正規化の処理は必須ではない。すなわち、学習データ生成部42は、第1正解尤度マップおよび第2正解尤度マップの正規化を行わなくてもよい。
 学習データ生成部42は、学習画像と、物体情報と、正解値とを紐付ける。正解値は、第1正解尤度マップおよび第2正解尤度マップを含む。
 (本実施形態の効果)
 本実施形態の構成によれば、第1特徴抽出部21は、対象画像70に対して、畳み込み演算処理を行うことにより、物体の特徴を示す第1特徴マップ80を生成する。第2特徴抽出部22は、第1特徴マップ80に対して、畳み込み演算処理をさらに行うことにより、物体の特徴を示す第2特徴マップ81を生成する。第1位置尤度推定部23は、第1特徴マップ80を用いて、対象画像70の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する。第2位置尤度推定部24は、第2特徴マップ81を用いて、対象画像70の各位置において、第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する。
 このように、物体位置推定装置6(6a)は、第1特徴マップ80および第2特徴マップ81を用いて、第1のサイズ/第2のサイズを持つ物体の位置を推定するので、対象画像70中で、これらの物体同士の重なりがあっても、各物体の位置を頑健かつ高精度に推定することができる。
 物体位置推定装置6(6a)は、第1正解尤度マップ/第2正解尤度マップを用いて、第1のサイズを持つ物体/第2のサイズを持つ物体の位置を、物体同士の重なりを含む物体の配置パターンとして学習する。第1正解尤度マップ/第2正解尤度マップは、学習画像の各座標に、第1のサイズを持つ物体/第2のサイズを持つ物体が存在する確率を尤度によって表す。これにより、対象画像70中で、物体同士の重なりがある場合であっても、物体位置推定装置6(6a)は、対象画像70におけるそれぞれの物体の位置を頑健かつ高精度に推定することができる。
 〔実施形態7〕
 実施形態7について、図12から図13を参照して詳細に説明する。
 (物体位置推定装置7)
 図12は、本実施形態7に係わる物体位置推定装置7の構成を例示するブロック図である。図12に示すように、物体位置推定装置7は、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24とを備える。物体位置推定装置7は、学習部41を備える。それに加えて、物体位置推定装置7は、第1計数部25および第2計数部26をさらに有する。例えば、物体位置推定装置7の各部は、個別に、または一体で、畳み込みニューラルネットワーク等のニューラルネットワークで実現される。
 (学習部41)
 学習部41は、予め準備された学習データ(すなわち教師データ)を用いて、物体位置推定装置7が備える各部(学習部41を除く)の学習を行う。
 本実施形態7では、学習データは、学習画像および物体情報を含む。学習画像は、位置尤度の推定の対象である物体を含む。学習画像は、学習部41が物体の位置の尤度および物体の総数を推定することを学習するために利用される。また学習データは、第1の物体数の正解、第2の物体数の正解、第1正解尤度マップ、及び第2正解尤度マップをさらに含む。以下では、第1正解尤度マップ、第2正解尤度マップ、第1の物体数の正解、および第2の物体数の正解を、まとめて正解値と呼ぶ場合がある。これら学習データは、学習部41が物体の位置の尤度と物体の総数を推定することを、物体位置推定装置7の各部(学習部41を除く)に学習させるために利用される。なお、正解値を生成する方法は限定されない。
 例えば、オペレータが、学習画像における第1のサイズを持つ物体/第2のサイズを持つ物体の位置を特定し、全ての座標の尤度がゼロである初期の第1正解尤度マップ/第2正解尤度マップ上に、第1のサイズ/第2のサイズを持つ物体の位置を中心とする尤度の正規分布を付与する。また、オペレータが、学習画像に映る第1のサイズを持つ物体および第2のサイズを持つ物体をそれぞれカウントし、学習画像に映る第1のサイズを持つ物体の総数を、第1の物体数の正解とし、学習画像に映る第2のサイズを持つ物体の総数を、第2の物体数の正解とする。
 第1正解尤度マップの各座標における尤度は、第1のサイズを有する物体が、学習画像における対応する位置に存在する確率を示す。第2正解尤度マップの各座標における尤度は、第2のサイズを有する物体が、学習画像における対応する位置に存在する確率を示す。
 第1の物体数の正解は、学習画像に含まれる第1のサイズを持つ物体の総数を示す。第2の物体数の正解は、学習画像に含まれる第2のサイズを持つ物体の総数を示す。このほか、物体位置推定装置7は、後述の物体位置推定装置7aに示される学習データ生成部42を備え、学習データ生成部42は各正解値を生成してもよい。
 学習部41は、第1特徴抽出部21に学習画像を入力し、第1位置尤度推定部23及び第2位置尤度推定部24から出力される第1尤度マップ/第2尤度マップと、学習データに含まれる正解値(第1正解尤度マップ/第2正解尤度マップ)との誤差を、第1の損失として算出する。また、学習部41は、第1特徴抽出部21に学習画像を入力したときに第1計数部25及び第2計数部26から出力される第1の物体数/第2の物体数と、学習データに含まれる他の正解値(第1の物体数の正解、および第2の物体数の正解)との誤差を、第2の損失として算出する。
 学習部41は、第1の損失および第2の損失の少なくとも一方を低減するように、物体位置推定装置7の各部を学習させる。
 具体的には、学習部41は、第1の損失および第2の損失の少なくとも一方に基づいて、物体位置推定装置7の各部(学習部41を除く)のパラメータを更新する。一例では、学習部41は、第1位置尤度推定部23が出力する第1尤度マップと、第1正解尤度マップとが一致するように、物体位置推定装置7の各部を学習させる。それとともに、学習部41は、第2位置尤度推定部24が出力する第2尤度マップと、第2正解尤度マップとが一致するように、物体位置推定装置7の各部を学習させる。
 さらに、学習部41は、第1計数部25が計数した第1の物体数と、第1の物体数の正解とが一致するように、物体位置推定装置7の各部を学習させる。さらに加えて、学習部41は、第2計数部26が計数した第2の物体数と、第2の物体数の正解とが一致するように、物体位置推定装置7の各部を学習させる。
 なお、学習画像における物体の配置の偏りが大きい場合があり得る。そのような場合、学習部41は、第1尤度マップ/第2尤度マップにおける一部の座標のみにおける誤差を最小化するように、物体位置推定装置7の各部を学習させてもよい。ここで説明した例を、物体位置推定装置6の変形例2に示している。
 (物体位置推定装置7a)
 図13は、本実施形態7の一変形例に係わる物体位置推定装置7aの構成を示すブロック図である。本変形例に係わる物体位置推定装置7aは、第1特徴抽出部21と、第2特徴抽出部22と、第1位置尤度推定部23と、第2位置尤度推定部24と、第1計数部25と、第2計数部26と、学習部41とを備える。物体位置推定装置7aは、学習データ生成部42をさらに有する。本変形例に係わる物体位置推定装置7aは、学習データ生成部42をさらに備えている点で、物体位置推定装置7とは構成が異なる。
 前記実施形態6aと同様に、学習データ生成部42は、対象画像70中の第1のサイズを持つ物体の位置/第2のサイズを持つ物体の位置の推定に係わる学習を行うための学習データ(教師データ)を生成する。学習データ生成部42が生成する学習データは、学習画像、物体情報、および正解値を含む。
 本変形例に係わる学習データ生成部42は、第1の物体数の正解、および第2の物体数の正解を正解値として含む学習データを生成する。この点において、物体位置推定装置7aの学習データ生成部42は、物体位置推定装置6aの学習データ生成部42とは異なる。物体位置推定装置7aの学習データ生成部42は、前記実施形態6の一変形例に係わる物体位置推定装置6aの学習データ生成部42の処理の中で得られる第1のサイズを持つ物体の総数、および第2のサイズを持つ物体の総数を用いて、第1の物体数の正解、および第2の物体数の正解をそれぞれ生成する。第1のサイズを持つ物体の総数、および第2のサイズを持つ物体の総数は、前記実施形態6の一変形例に係わる物体位置推定装置6aの学習データ生成部42について説明したように、第1正解尤度マップおよび第2正解尤度マップの正規化を行うためのカウント処理で得られる。
 (本実施形態の効果)
 本実施形態の構成によれば、本実施形態7に係わる物体位置推定装置7、およびその一変形例に係わる物体位置推定装置7aは、それぞれ、第1特徴抽出部21、および第2特徴抽出部22において、後段に同時に複数の部が接続されるように構成され、学習において、第1特徴抽出部21、および第2特徴抽出部22は、複数の部の影響を受けて適切にパラメータが更新される。さらに、第1特徴抽出部21および第2特徴抽出部22は、後段に接続された複数の部の共通部分として機能し、また第1特徴抽出部21および第2特徴抽出部22は、同時に学習される。これにより、物体位置推定装置7、7aにおける物体の位置を推定する精度、および物体を計数する精度を向上させるとともに、学習速度を向上させることもできる。
 〔ハードウェア構成〕
 図14は、前記実施形態1に係わる物体位置推定装置1のハードウェア構成を示す。物体位置推定装置1の各構成は、コンピュータ100が物体位置推定用プログラム101(以下、単にプログラム101と記載する)を読み込んで実行する機能として実現される。図14を参照すると、画像取得装置90が、コンピュータ100に接続されている。また、コンピュータ100が読み取り可能なプログラム101を記憶した記録媒体102が、コンピュータ100に接続されている。
 記録媒体102は、磁気ディスクまたは半導体メモリ等で構成される。コンピュータ100は、例えば起動時に、記録媒体102に格納されたプログラム101を読み取る。プログラム101は、コンピュータ100の動作を制御することにより、そのコンピュータ100を前述した本発明の実施形態1に係る物体位置推定装置1内の各部として機能させる。
 ここでは、前記実施形態1に係わる物体位置推定装置1をコンピュータ100とプログラム101とで実現する構成を説明した。ただし、前記実施形態2~7に係わる物体位置推定装置2~7(7a)をコンピュータ100とプログラム101とで実現することも可能である。
 〔付記〕
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態の構成を組み合わせた構成や、上記以外の様々な構成を採用することもできる。上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成する第1特徴抽出手段と、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成する第2特徴抽出手段とを含む特徴抽出手段と、
 前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する第1位置尤度推定手段と、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する第2位置尤度推定手段とを含む尤度マップ推定手段と
 を備えた物体位置推定装置。
 (付記2)
 前記第1尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第1尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第1のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第1のサイズを持つ物体の数を示し、
 前記第2尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第2尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第2のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第2のサイズを持つ物体の数を示す
 ことを特徴とする付記1に記載の物体位置推定装置。
 (付記3)
 前記第1位置尤度推定手段は、前記第1のサイズを有する物体の属性ごとに、前記第1のサイズを持つ物体の位置をそれぞれ推定し、
 前記第2位置尤度推定手段は、前記第2のサイズを持つ物体の属性ごとに、前記第2のサイズを持つ物体の位置をそれぞれ推定する
 ことを特徴とする付記1または2に記載の物体位置推定装置。
 (付記4)
 前記第1特徴マップに基づいて、前記対象画像において、前記第1のサイズを持つ物体の総数を計数する第1計数手段と、
 前記第2特徴マップに基づいて、前記対象画像において、前記第2のサイズを持つ物体の総数を計数する第2計数手段と、をさらに備えた
 ことを特徴とする付記1から3のいずれかに記載の物体位置推定装置。
 (付記5)
 前記第1尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第1のサイズを持つ物体の位置を特定する第1位置特定手段と、
 前記第2尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第2のサイズを持つ物体の位置を特定する第2位置特定手段とをさらに備えた
 ことを特徴とする付記1から4のいずれかに記載の物体位置推定装置。
 (付記6)
 前記第1位置特定手段は、
  前記第1尤度マップの全体の尤度の合計から、前記対象画像において、前記第1のサイズを持つ物体の総数を算出し、もしくは、前記第1計数手段から、前記対象画像において、前記第1のサイズを持つ物体の総数を計数し、
  前記第1尤度マップにおいて尤度の極大値を示す座標のうち、前記第1のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
  抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第1のサイズを持つ物体の位置を特定し、
 前記第2位置特定手段は、
  前記第2尤度マップの全体の尤度の合計から、前記対象画像において、前記第2のサイズを持つ物体の総数を算出し、もしくは、前記第2計数手段から、前記対象画像において、前記第1のサイズを持つ物体の総数を計数し、
  前記第2尤度マップにおいて尤度の極大値を示す座標のうち、前記第2のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
  抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第2のサイズを持つ物体の位置を特定する
 ことを特徴とする付記5に記載の物体位置推定装置。
 (付記7)
 前記第1位置尤度推定手段および前記第2位置尤度推定手段から出力される前記第1尤度マップおよび前記第2尤度マップにおいて、予め得られた正解値に対する誤差が小さくなるように、前記物体位置推定装置の各部に学習させる学習手段をさらに備えた
 ことを特徴とする付記1から6のいずれかに記載の物体位置推定装置。
 (付記8)
 学習画像および物体情報に基づいて、前記学習手段による学習に用いられる学習データを生成する学習データ生成手段をさらに備え、
 前記学習データは、前記学習画像、物体情報、及び正解値を含み、
 前記正解値は、第1正解尤度マップおよび第2正解尤度マップを含み、
 前記第1正解尤度マップは、前記学習画像において、第1のサイズを有する物体についての位置および物体領域の広がりを示し、前記第2正解尤度マップは、前記学習画像において、第2のサイズを有する物体についての位置および物体領域の広がりを示す
 ことを特徴とする付記7に記載の物体位置推定装置。
 (付記9)
 前記学習手段は、前記学習データに含まれる前記第1正解尤度マップおよび前記第2正解尤度マップを前記正解値として用いて、前記正解値に対する、前記第1尤度マップおよび前記第2尤度マップの誤差を示す第1の損失を算出する
 ことを特徴とする付記8に記載の物体位置推定装置。
 (付記10)
 前記第1のサイズは、第1最小サイズから第1最大サイズまでの第1所定範囲内における任意のサイズであり、
 前記第2のサイズは、第2最小サイズから第2最大サイズまでの第2所定範囲内における任意のサイズであり、前記第1所定範囲と前記第2所定範囲とは重複せず、前記第2のサイズは前記第1のサイズよりも大きい
 ことを特徴とする付記1から9のいずれかに記載の物体位置推定装置。
 (付記11)
 前記第1のサイズおよび第2のサイズは、第1特徴マップおよび第2特徴マップのデータサイズの逆数に比例する
 ことを特徴とする付記1から10のいずれかに記載の物体位置推定装置。
 (付記12)
 対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成するともに、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成し、
 前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定するとともに、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する
 ことを含む物体位置推定方法。
 (付記13)
 対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成することと、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成することと、
 前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定することと、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定することと
 をコンピュータに実行させるための、一時的でない記録媒体。
 本発明は、映像監視システムにおいて、撮影又は録画された映像から、不審者または不審物を発見したり、不審な行動または状態を検知したりといった用途に利用できる。また、本発明は、動線解析または行動解析といったマーケティングでの用途に適用できる。加えて、本発明は、撮影又は録画された映像から、物体の位置を推定し、推定した2次元空間または3次元空間の位置情報を入力するためのユーザインタフェースといった用途に適用できる。この他、本発明は、物体の位置の推定結果とその位置をトリガ・キーとするビデオ/映像検索装置または映像探索機能といった用途にも適用できる。
  1  物体位置推定装置
 2(2a)物体位置推定装置
  3  物体位置推定装置
  4  物体位置推定装置
  5  物体位置推定装置
 6(6a)物体位置推定装置
  7  物体位置推定装置
 10  特徴抽出部
 20 尤度マップ推定部
 21 第1特徴抽出部
 22 第2特徴抽出部
 23 第1位置尤度推定部
 24 第2位置尤度推定部
 25 第1計数部
 26 第2計数部
 27 第1位置特定部
 28 第2位置特定部
 29 第1位置特定部
 30 第2位置特定部
 41 学習部
 42 学習データ生成部
 80 第1特徴マップ
 81 第2特徴マップ
 90 画像取得装置

Claims (13)

  1.  対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成する第1特徴抽出手段と、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成する第2特徴抽出手段とを含む特徴抽出手段と、
     前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定する第1位置尤度推定手段と、
     前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する第2位置尤度推定手段と、
      を含む尤度マップ推定手段と、
     を備えた物体位置推定装置。
  2.  前記第1尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第1尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第1のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第1のサイズを持つ物体の数を示し、
     前記第2尤度マップ上の各座標は、前記対象画像上の一つの位置にそれぞれ対応しており、前記第2尤度マップ上の各座標における尤度は、前記対象画像上の対応する前記一つの位置に第2のサイズを持つ物体が存在する確率を示す、もしくは追加で前記対象画像上に存在する第2のサイズを持つ物体の数を示す
     ことを特徴とする請求項1に記載の物体位置推定装置。
  3.  前記第1位置尤度推定手段は、前記第1のサイズを有する物体の属性ごとに、前記第1のサイズを持つ物体の位置をそれぞれ推定し、
     前記第2位置尤度推定手段は、前記第2のサイズを有する物体の属性ごとに、前記第2のサイズを持つ物体の位置をそれぞれ推定する
     ことを特徴とする請求項1または2に記載の物体位置推定装置。
  4.  前記第1特徴マップに基づいて、前記対象画像において、前記第1のサイズを持つ物体の総数を計数する第1計数手段と、
     前記第2特徴マップに基づいて、前記対象画像において、前記第2のサイズを持つ物体の総数を計数する第2計数手段と、をさらに備えた
     ことを特徴とする請求項1から3のいずれか1項に記載の物体位置推定装置。
  5.  前記第1尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第1のサイズを持つ物体の位置を特定する第1位置特定手段と、
     前記第2尤度マップにおいて尤度の極大値を示す座標に基づいて、前記対象画像において、前記第2のサイズを持つ物体の位置を特定する第2位置特定手段とをさらに備えた
     ことを特徴とする請求項1から4のいずれ1項に記載の物体位置推定装置。
  6.  前記第1位置特定手段は、
      前記第1尤度マップの全体の尤度の合計から、前記対象画像において、前記第1のサイズを持つ物体の総数を算出し、もしくは、前記対象画像において、前記第1のサイズを持つ物体の総数を計数し、
      前記第1尤度マップにおいて尤度の極大値を示す座標のうち、前記第1のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
      抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第1のサイズを持つ物体の位置を特定し、
     前記第2位置特定手段は、
      前記第2尤度マップの全体の尤度の合計から、前記対象画像において、前記第2のサイズを持つ物体の総数を算出し、もしくは、前記対象画像において、前記第1のサイズを持つ物体の総数を計数し、
      前記第2尤度マップにおいて尤度の極大値を示す座標のうち、前記第2のサイズを持つ物体の総数と同数の座標を、前記尤度の極大値が大きい順に抽出し、
      抽出した前記尤度の極大値を示す座標に基づいて、前記対象画像において前記第2のサイズを持つ物体の位置を特定する
     ことを特徴とする請求項5に記載の物体位置推定装置。
  7.  前記第1位置尤度推定手段および前記第2位置尤度推定手段から出力される前記第1尤度マップおよび前記第2尤度マップにおいて、予め得られた正解値に対する誤差が小さくなるように、前記物体位置推定装置の各部に学習させる学習手段をさらに備えた
     ことを特徴とする請求項1から6のいずれか1項に記載の物体位置推定装置。
  8.  学習画像および物体情報に基づいて、前記学習手段による学習に用いられる学習データを生成する学習データ生成手段をさらに備え、
     前記学習データは、前記学習画像、物体情報、及び正解値を含み、
     前記正解値は、第1正解尤度マップおよび第2正解尤度マップを含み、
     前記第1正解尤度マップは、前記学習画像において、第1のサイズを有する物体についての位置および物体領域の広がりを示し、前記第2正解尤度マップは、前記学習画像において、第2のサイズを有する物体についての位置および物体領域の広がりを示す
     ことを特徴とする請求項7に記載の物体位置推定装置。
  9.  前記学習手段は、前記学習データに含まれる前記第1正解尤度マップおよび前記第2正解尤度マップを前記正解値として用いて、前記正解値に対する、前記第1尤度マップおよび前記第2尤度マップの誤差を示す第1の損失を算出する
     ことを特徴とする請求項8に記載の物体位置推定装置。
  10.  前記第1のサイズは、第1最小サイズから第1最大サイズまでの第1所定範囲内における任意のサイズであり、
     前記第2のサイズは、第2最小サイズから第2最大サイズまでの第2所定範囲内における任意のサイズであり、前記第1所定範囲と前記第2所定範囲とは重複せず、前記第2のサイズは前記第1のサイズよりも大きい
     ことを特徴とする請求項1から9のいずれか1項に記載の物体位置推定装置。
  11.  前記第1のサイズおよび第2のサイズは、第1特徴マップおよび第2特徴マップのデータサイズの逆数に比例する
     ことを特徴とする請求項1から10のいずれか1項に記載の物体位置推定装置。
  12.  対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成するともに、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成し、
     前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定するとともに、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定する
     ことを含む物体位置推定方法。
  13.  対象画像に対して、畳み込み演算処理を行うことにより、第1特徴マップを生成することと、前記第1特徴マップに対して、畳み込み演算処理をさらに行うことにより、第2特徴マップを生成することと、
     前記第1特徴マップを用いて、前記対象画像の各位置において、第1のサイズを持つ物体が存在する確率を示す第1尤度マップを推定することと、前記第2特徴マップを用いて、前記対象画像の各位置において、前記第1のサイズよりも大きい第2のサイズを持つ物体が存在する確率を示す第2尤度マップを推定することと
     をコンピュータに実行させるための、一時的でない記録媒体。
PCT/JP2020/024494 2020-06-23 2020-06-23 物体位置推定装置、物体位置推定方法、および記録媒体 WO2021260780A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080102293.8A CN115720664A (zh) 2020-06-23 2020-06-23 物体位置估计设备、物体位置估计方法和记录介质
PCT/JP2020/024494 WO2021260780A1 (ja) 2020-06-23 2020-06-23 物体位置推定装置、物体位置推定方法、および記録媒体
US18/010,000 US20230230277A1 (en) 2020-06-23 2020-06-23 Object position estimation device, object position estimation method, and recording medium
JP2022531267A JP7448006B2 (ja) 2020-06-23 2020-06-23 物体位置推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024494 WO2021260780A1 (ja) 2020-06-23 2020-06-23 物体位置推定装置、物体位置推定方法、および記録媒体

Publications (1)

Publication Number Publication Date
WO2021260780A1 true WO2021260780A1 (ja) 2021-12-30

Family

ID=79282715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/024494 WO2021260780A1 (ja) 2020-06-23 2020-06-23 物体位置推定装置、物体位置推定方法、および記録媒体

Country Status (4)

Country Link
US (1) US20230230277A1 (ja)
JP (1) JP7448006B2 (ja)
CN (1) CN115720664A (ja)
WO (1) WO2021260780A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210192772A1 (en) * 2019-12-24 2021-06-24 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032773A (ja) * 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019139618A (ja) * 2018-02-14 2019-08-22 キヤノン株式会社 情報処理装置、被写体の判別方法及びコンピュータプログラム
JP2020016928A (ja) * 2018-07-23 2020-01-30 株式会社東芝 画像処理装置、画像処理システム、画像処理方法及びプログラム
JP2020027405A (ja) * 2018-08-10 2020-02-20 コニカミノルタ株式会社 物体検出プログラム、および物体検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032773A (ja) * 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019139618A (ja) * 2018-02-14 2019-08-22 キヤノン株式会社 情報処理装置、被写体の判別方法及びコンピュータプログラム
JP2020016928A (ja) * 2018-07-23 2020-01-30 株式会社東芝 画像処理装置、画像処理システム、画像処理方法及びプログラム
JP2020027405A (ja) * 2018-08-10 2020-02-20 コニカミノルタ株式会社 物体検出プログラム、および物体検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210192772A1 (en) * 2019-12-24 2021-06-24 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
US11842509B2 (en) * 2019-12-24 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Also Published As

Publication number Publication date
US20230230277A1 (en) 2023-07-20
JPWO2021260780A1 (ja) 2021-12-30
JP7448006B2 (ja) 2024-03-12
CN115720664A (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
Yang et al. An emotion recognition model based on facial recognition in virtual learning environment
US9400919B2 (en) Learning deep face representation
KR100647322B1 (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
US10565713B2 (en) Image processing apparatus and method
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
JP2004199669A (ja) 顔検出
KR20210025020A (ko) 의사 이미지들을 이용한 얼굴 이미지 인식
Kumbhar et al. Facial expression recognition based on image feature
Bruni et al. An improvement of kernel-based object tracking based on human perception
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
GB2547760A (en) Method of image processing
KR20190128933A (ko) 시공간 주의 기반 감정 인식 장치 및 방법
CN110175578B (zh) 应用于刑侦的基于深度森林的微表情识别方法
Nugraha et al. Video recognition of American sign language using two-stream convolution neural networks
WO2021260780A1 (ja) 物体位置推定装置、物体位置推定方法、および記録媒体
Fu et al. Personality trait detection based on ASM localization and deep learning
Ye et al. Facial expression features extraction based on gabor wavelet transformation
Monwar et al. Eigenimage based pain expression recognition
CN114973362A (zh) 一种应用于社交机器人的动态延长编码微表情识别方法
Nawaz et al. Faceswap based deepfakes detection.
Sun Neural Networks for Emotion Classification
Rismayana Face expression recognition using artificial neural network (ANN) model back propagation
Tamilarasi et al. Child autism detection based on facial feature classification
Hahmann et al. Combination of facial landmarks for robust eye localization using the Discriminative Generalized Hough Transform
Sharath et al. Crowd counting in high dense images using deep convolutional neural network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941707

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022531267

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941707

Country of ref document: EP

Kind code of ref document: A1