WO2019167784A1 - 位置特定装置、位置特定方法及びコンピュータプログラム - Google Patents
位置特定装置、位置特定方法及びコンピュータプログラム Download PDFInfo
- Publication number
- WO2019167784A1 WO2019167784A1 PCT/JP2019/006512 JP2019006512W WO2019167784A1 WO 2019167784 A1 WO2019167784 A1 WO 2019167784A1 JP 2019006512 W JP2019006512 W JP 2019006512W WO 2019167784 A1 WO2019167784 A1 WO 2019167784A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- feature
- subject
- unit
- feature map
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Definitions
- the present invention relates to a position specifying device, a position specifying method, and a computer program.
- the position identification technology is expected to be applied to various industries such as automatic driving of automobiles.
- Two methods called object detection and area division are known as methods for the position specifying device to specify the position of an object from an image.
- Object detection is a technique for presenting a rectangular area that includes a subject of interest.
- Region division is a method of presenting information as to which object in the image the subject belongs to for each pixel.
- weakly supervised area division a method that gives only correct data indicating the types of objects existing in an image is called weakly supervised area division.
- Data to which correct data is given is called weakly supervised data.
- weakly supervised data can easily collect large amounts of data. Since weakly supervised data is highly compatible with big data, many methods have been proposed.
- FIG. 9 is a diagram illustrating an example of an image from which the background of an object in the image is removed.
- DRN Deep Learning method
- the region segmentation method using deep learning such as DRN shows high accuracy.
- DRN deep learning
- a drone with a camera installed in the downward direction captures an image group including the ground when capturing images outdoors.
- the captured image group includes an object other than the ground and the ground as a set in the image. Therefore, in weakly supervised region division, it is difficult to divide the above-described image or the like by simply inputting and propagating to the DRN and using the output layer.
- a method using the output value of the intermediate layer as a mask image instead of the mask image of the output layer can be considered.
- the output value of the intermediate layer does not explicitly give a point as to what feature of the input image the mask image is generated. Therefore, the position specifying device needs to estimate what mask image is generated with respect to the output value of the intermediate layer.
- a mask image may not be generated for a desired subject. For example, in the input image, when a desired subject exists on the left side and the right side in the input image without being continuous, when two mask images are generated based on the output value of the intermediate layer, In some cases, a mask image that reacts to the left object in the image and an image that reacts to the right object in the image are obtained. When such a mask image is obtained, the position specifying device must generate a new mask image by combining a plurality of mask images and specify the position of the subject.
- an object of the present invention is to provide a technique for specifying the position of a subject in an image with higher accuracy.
- One aspect of the present invention is a position specifying device that specifies a position of a desired first subject from a first image that is an image including at least a desired first subject, and the predetermined image of the first image is determined.
- a feature amount acquisition unit that acquires a first feature amount that represents a feature of the second feature amount, a second feature amount that represents the predetermined feature obtained from a second image including a second subject, and the second image
- An estimation unit that is associated with a selection feature map that is a feature map corresponding to the second subject among a plurality of feature maps that are sets of feature maps that are maps representing features of the A position comprising: an estimated first feature map estimated to be associated with the first feature amount; and a position specifying unit that specifies the position of the desired first subject using the estimated first feature map. It is a specific device.
- the position of the subject in the image can be specified with higher accuracy.
- 5 is a flowchart showing a flow of processing for generating a feature quantity / index database in the first embodiment.
- 6 is a flowchart showing a flow of processing for specifying the position of a subject in the first embodiment.
- FIG. 1 is a functional block diagram illustrating an example of a functional configuration of a position specifying device in the first embodiment.
- the position specifying device 100 detects a region of the subject included in the image in the image in which the subject and the background are shown together.
- the position specifying device 100 specifies a region of a subject included in an image taken aerial by a flying object such as a drone, for example.
- the position specifying device 100 includes a processor such as a CPU (Central Processing Unit) connected by a bus, a memory, an auxiliary storage device, and the like.
- a processor such as a CPU (Central Processing Unit) connected by a bus, a memory, an auxiliary storage device, and the like.
- a processor such as a CPU (Central Processing Unit) connected by a bus, a memory, an auxiliary storage device, and the like.
- the position specifying device 100 may be realized using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). .
- the position specifying program may be recorded on a computer-readable recording medium.
- the computer-readable recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in the computer system.
- the location specifying program may be transmitted via a telecommunication line.
- the first image input unit 101 is configured using an input device such as a touch panel, a mouse, and a keyboard.
- the first image input unit 101 may be an interface for connecting the input device to the position specifying device 100.
- the first image input unit 101 generates input data (for example, instruction information indicating an instruction for the position specifying device 100) from an input signal input by the input device, and inputs the input data to the position specifying device 100.
- the second image input unit 108 is similarly configured.
- the first image input unit 101 receives an image including a subject and a background.
- the image received by the first image input unit 101 is used for generating a database to be described later.
- the first image input unit 101 outputs the received image to the subject / background separation unit 103.
- the control unit 102 controls the operation of each unit of the position specifying device 100.
- the control unit 102 is executed by a device including a processor such as a CPU and a RAM (Random Access Memory), for example.
- the control unit 102 executes the position specifying program to thereby execute a subject / background separation unit 103, a feature map acquisition unit 104, a first image feature amount acquisition unit 105, a database generation unit 106, a database storage unit 107, and a second image input.
- the subject / background separation unit 103 generates an image in which the subject and the background are separated from the received image including the subject and the background.
- the subject / background separation unit 103 generates an image in which at least two or more subjects and the background are separated.
- the subject / background separation unit 103 generates an image of only the subject by painting the image indicating the background of the separated image in black.
- the subject / background separation unit 103 may generate an image in which the subject and the background are separated by an arbitrary method. In the separated image, a part of the background may remain, or noise such as lack of a subject may be included. In short, it is only necessary that the subject only occupies most of the image area of the subject-only image.
- the subject / background separation unit 103 outputs the generated image of only the subject to the feature map acquisition unit 104 and the first image feature amount acquisition unit 105.
- the feature map acquisition unit 104 propagates the image of only the subject to the learned DRN described later.
- DRN is one method of CNN.
- CNN Convolution Neural Network
- CNN is a technique for deep learning.
- CNN is a method for obtaining an output value by repeating convolution processing on an input image.
- An input image of only the subject is called a subject image.
- the output value of the convolution process is called a feature map. That is, when the subject image is input / propagated to the DRN, the feature map acquisition unit 104 has the same number of feature maps as the number of convolution processes.
- the feature map acquisition unit 104 acquires an output value of an intermediate layer of the DRN obtained as a result of inputting and propagating the subject image to the DRN, that is, a feature map.
- the feature map acquisition unit 104 outputs a feature map.
- the feature map is, for example, an output value of a predetermined intermediate layer of a feature model (for example, the learned DRN). That is, the feature map is an output value obtained by performing a calculation related to a predetermined intermediate layer on an output value obtained by propagating the subject image or the subject image through at least one intermediate layer different from the predetermined intermediate layer.
- the feature map may be referred to as an output value of a filter that performs a calculation related to a predetermined intermediate layer.
- the feature map acquisition unit 104 inputs and propagates the subject image to the DRN to obtain one or more feature maps.
- the feature map is generated based on the result of further convolution processing on the obtained feature map as a result of performing convolution processing on the image input to the DRN such as the target image or the image input to the DRN such as the target image. Is done.
- the DRN is described as an example of the feature model.
- the feature model is not limited to the DRN as long as it is a neural network that performs processing for extracting features for each predetermined region of an image or an image by convolution of input data.
- the DRN used in the feature map acquisition unit 104 has been learned in advance with a natural image data set.
- the natural image data set is an image including nature such as the sea, a mountain, a river, a forest, or the sky, but may be an image group obtained by photographing any object.
- the group of images obtained by photographing any object may be, for example, an image in which a camera is installed in a place where a desired subject that is a target to be extracted can exist and is photographed for a predetermined period.
- the natural image data sets need only have a number that can be clustered.
- the natural image data set may be a single image when the accuracy related to the probability that the image is classified into which category is not considered.
- FIG. 2 is a diagram illustrating an example of a CNN identification result in handwritten numeral recognition.
- the CNN the probability of which image is classified into the input image is calculated.
- a category having the highest probability in the output layer is output, a CNN identification result is obtained.
- DRN is a vector (vector having 10 elements in the example of FIG. 2) obtained in the output layer and a correct vector (in the example of FIG. 2, 1 for an element indicating the probability of 0 class, 0 for other elements) Learning to minimize the difference with the vector).
- learning is performed by minimizing an objective function called SoftMax loss.
- the objective function is minimized by the stochastic gradient descent method (SGD method) based on the gradient information calculated by the error back propagation method (BP method).
- CNN is not limited to DRN as long as it is a model learned from natural image data or the like.
- the feature map acquisition unit 104 acquires a feature map suitable for a desired subject from a plurality of feature maps obtained as a result of inputting and propagating the subject image to the DRN as described in paragraph 0017. To do.
- suitable means that it responds strongly to a region corresponding to a desired subject, that is, it is effective for use in generating a mask for extracting a desired subject.
- the feature map acquisition unit 104 may acquire a feature map in which a neuron showing the maximum value exists, or may be acquired by a user visually confirming whether the feature map is a response to a subject.
- Index is information indicating the position of the intermediate layer from which the feature map can be acquired.
- the feature map acquisition unit 104 acquires an Index corresponding to the acquired feature map.
- the feature map acquisition unit 104 outputs the acquired index to the database generation unit 106.
- the feature map is expected to respond to any of several arbitrary feature representations included in the image.
- the feature map suitable for the desired subject to be acquired is used on the premise that even a desired subject different from the desired subject will react.
- the solar panel was photographed so as to have characteristics similar to the image obtained from the feature map if a feature map that responds to the solar panel could be obtained. Even in different images, the resulting feature map is based on the assumption that it responds to the solar panel.
- the property similar to the image means a feature that reflects a feature amount to be selected. For example, the luminance value is reflected when the luminance value is selected, and the pattern of the subject is reflected when the code amount is selected.
- FIG. 3 is a diagram illustrating an example of a feature map in which neurons are visualized.
- the feature map acquisition unit 104 acquires a plurality of feature maps as output values of the DRN intermediate layer. Each feature map has neurons of height (H) and width (W) like images.
- the neuron outputs a numerical value for the input image.
- H ⁇ W ⁇ number of feature maps
- the feature map acquisition unit 104 generates an array of H ⁇ W ⁇ (number of feature maps) by inputting an image of only the subject. The array holds the values output by the neurons.
- the feature map acquisition unit 104 executes processing for specifying the position of the maximum value for the generated array.
- the maximum value is the maximum value among the elements of the array.
- the position of the maximum value is information that identifies an element of the array that holds the maximum value.
- a known method such as brute force may be used.
- the feature map acquisition unit 104 can acquire a feature map in which a neuron indicating the maximum value exists.
- the feature map acquisition unit 104 may calculate an average value of the values output to the neurons for each feature map and acquire a feature map that maximizes the average value.
- the feature map acquisition unit 104 may acquire the feature map by any method such as determining by the overlap ratio between the region showing a response to the subject and the region masked by the input.
- the first image feature amount acquisition unit 105 acquires the luminance feature amount of the image from the subject image.
- the luminance feature amount in this embodiment is a luminance value.
- the first image feature value acquisition unit 105 may acquire an image feature value calculated based on gradient information or a feature value acquired from an intermediate layer of the CNN instead of the luminance feature value.
- the luminance feature amount acquired by the first image feature amount acquisition unit 105 may be another feature amount as long as it has a property that can characterize a desired subject. Further, it may be a feature quantity that has a correlation with a feature quantity that can be specified as being used in DRN or CNN.
- the first image feature amount acquisition unit 105 outputs the acquired luminance feature amount of the image to the database generation unit 106.
- the database generation unit 106 generates a feature quantity / index database by associating the acquired luminance feature quantity with the index one to one.
- the database generation unit 106 records the generated feature amount / index database in the database storage unit 107.
- the luminance feature amount acquired by the first image feature amount acquisition unit 105 may be associated with the feature map determined by the feature map acquisition unit 104 to be suitable for a desired subject.
- the database storage unit 107 is configured using a storage device such as a magnetic hard disk device or a semiconductor storage device.
- the database storage unit 107 stores a feature quantity / index database.
- the second image input unit 108 receives a target image that is an image for which the position of the subject is to be acquired.
- the target image received by the second image input unit 108 is output to the mask image generation unit 109 and the second image feature amount acquisition unit 110.
- the mask image generation unit 109 inputs and propagates the target image to the DRN, and acquires a plurality of feature maps. Since this process is the same as that of the feature map acquisition unit 104, description thereof is omitted.
- the mask image generation unit 109 uses the same learned DRN as the feature map acquisition unit 104.
- the mask image generation unit 109 may use different DRNs. In this case, the mask image generation unit 109 corresponds to the index corresponding to the DRN feature map used in the feature map acquisition unit 104 and the DRN feature map used in the mask image generation unit 109. It is necessary to associate an index between DRNs such as an index by some method.
- the mask image generation unit 109 acquires the output value of the intermediate layer of the DRN, that is, the feature map, by inputting and propagating the target image to the DRN.
- the mask image generation unit 109 outputs the acquired output value of the intermediate layer to the mask synthesis unit 112.
- the second image feature quantity acquisition unit 110 acquires a brightness feature quantity from the target image.
- the luminance feature amount acquired here may be acquired by the same means as the first image feature amount acquisition unit 105. In the present embodiment, the description continues with the luminance feature amount as a luminance value.
- the corresponding mask search unit 111 acquires an index from the feature amount / index database based on the luminance feature amount acquired by the second image feature amount acquisition unit 110. For example, the correspondence mask search unit 111 identifies the luminance feature value acquired by the second image feature value acquisition unit 110 and the luminance feature value closest to the luminance feature value recorded in the feature / index database. The corresponding mask search unit 111 acquires an Index that is associated with the specified luminance feature amount in a one-to-one relationship. Further, the correspondence mask search unit 111 may set a representative index in advance using a clustering algorithm, and use the cluster center closest to the distance.
- the corresponding mask search unit 111 acquires a feature map suitable for generating a mask image from the output value of the intermediate layer of the DRN based on the acquired index.
- the Index may use the Index corresponding to the brightness feature quantity stored in the feature quantity / index database closest to the brightness feature quantity acquired by the second image feature quantity acquisition unit 110 as described above, or the second image.
- the difference between the luminance feature amount acquired by the feature amount acquisition unit 110 and the luminance feature amount stored in the feature amount / index database is equal to or less than a predetermined threshold.
- the luminance feature amount stored in the index database Corresponding indexes, that is, a plurality of indexes may be used.
- the processing of the corresponding mask search unit 111 is based on the feature map obtained by inputting and propagating the target image to the DRN based on the relationship between the luminance feature amount and the feature map described in the database generation unit 106. In other words, it is possible to estimate a feature map that is estimated to react to a desired subject.
- the mask search unit 111 When the mask search unit 111 generates a mask image from a plurality of feature maps, the corresponding mask search unit 111 calculates the weight of the weighted sum using the feature amount / index database.
- the corresponding mask search unit 111 generates a mask image based on the calculated weight.
- the correspondence mask search unit 111 may calculate the weight by using the distance or the like in order of decreasing brightness feature value.
- the corresponding mask search unit 111 may calculate the weight using other known methods.
- the corresponding mask search unit 111 may be configured to generate a mask image by acquiring, modeling, and associating the probability distribution recorded in the feature quantity / index database.
- the mask composition unit 112 generates a feature map corresponding to the acquired index among the feature maps obtained by the mask image generation unit 109 as a mask image.
- the mask composition unit 112 may generate a mask image based on the weights for the indexes. For weighting, weighting sum, logical operation, weighting by machine learning as described later, and the like are used.
- the mask composition unit 112 generates a composite mask image indicating the position of the subject to be applied to the target image.
- the subject position specifying unit 113 generates position information for specifying the position of the subject based on the generated composite mask image.
- the subject position specifying unit 113 outputs position information as a subject position specifying result.
- the subject position specifying unit 113 is an aspect of the position specifying unit.
- the position specifying unit specifies the position of the subject based on the generated mask image.
- FIG. 4 is a flowchart showing a flow of processing for generating a feature quantity / index database in the first embodiment.
- the first image input unit 101 receives an image including a subject and a background (step S101).
- the subject / background separation unit 103 generates a subject image that is an image of only the subject from which the subject and the background are separated from the received image including the subject and the background (step S102).
- the subject / background separation unit 103 outputs the generated subject image to the feature map acquisition unit 104 and the first image feature amount acquisition unit 105 (step S103).
- the feature map acquisition unit 104 inputs and propagates the subject image to the learned DRN (step S104).
- the feature map acquisition unit 104 acquires a feature map suitable for the mask (step S105).
- the feature map acquisition unit 104 acquires an Index corresponding to the acquired feature map (step S106).
- For the acquisition of the feature map suitable for the mask and the acquisition of the Index corresponding to the feature map refer to the description relating to the feature map acquisition unit 104 described above.
- the first image feature amount acquisition unit 105 acquires a luminance feature amount from the subject image (step S107).
- the database generation unit 106 generates a feature quantity / index database by associating the acquired luminance feature quantity with the index one to one (step S108).
- FIG. 5 is a flowchart showing a flow of processing for specifying the position of the subject in the first embodiment.
- the second image input unit 108 receives a target image that is an image for which the position of the subject is desired to be acquired (step S201).
- the mask image generation unit 109 inputs and propagates the target image to the learned DRN, and acquires a feature map (step S202).
- the second image feature quantity acquisition unit 110 acquires the brightness feature quantity of the image based on the target image (step S203).
- Corresponding mask search unit 111 acquires an index from the feature / index database based on the acquired luminance feature (step S204). When using a plurality of indexes, the corresponding mask search unit 111 acquires the weight of the feature map corresponding to each index (step S205). The mask composition unit 112 generates a composite mask image based on the acquired feature map corresponding to the index of the intermediate layer and the obtained weight (step S206). The subject position specifying unit 113 generates position information specifying the position of the subject based on the generated composite mask image (step S207).
- the position specifying device 100 configured as described above has a feature amount obtained by associating the index of the feature map suitable for the desired subject obtained from the subject image and the learned DRN with the luminance feature amount of the subject image.
- the position of a desired subject is specified from the target image by using the Index database. That is, a desired subject can be taken out.
- 1. Input and propagate a subject image to a learned DRN to obtain a plurality of feature maps that are outputs of the intermediate layer 2. Of the obtained feature maps, obtain a feature map suitable for a desired subject. 3. Extract a predetermined feature amount from the subject image. 4. Associate the extracted feature quantity with an index corresponding to a feature map suitable for a desired subject.
- the target image is 1.
- the position specifying device 100 according to the first embodiment generates a composite mask image from a plurality of feature maps using a predetermined feature amount such as a luminance feature amount.
- the first embodiment is a method that is particularly effective when the difference value of the luminance value is remarkable between the subject whose position is to be specified and the subject other than the subject whose position is to be specified (hereinafter referred to as “background etc.”).
- background etc. the subject other than the subject whose position is to be specified
- the position specifying device 100a according to the second embodiment determines the weight by machine learning when the difference value between the luminance values of the subject and the background is not sufficiently large.
- this embodiment provides a method that is particularly effective when the region where the distribution of the feature amount of the subject and the distribution of the feature amount such as the background overlap is large.
- the point of this embodiment is that, among the feature maps obtained when the learning image is input and propagated to the DRN, a large weight is applied to a feature map that reacts strongly to the subject, and a small weight is applied to a feature map that responds strongly to other subjects.
- the point of learning is that weights are set. Reacting strongly is the same as the feature map acquisition unit 104.
- FIG. 6 is a functional block diagram showing the functional configuration of the position specifying device in the second embodiment.
- the position specifying device 100a according to the second embodiment includes a control unit 102a instead of the control unit 102 and a mask synthesis unit 112a instead of the mask synthesis unit 112, a machine learning unit 114, a conversion database storage unit 115, and features. Although it differs from 1st Embodiment by the point further provided with the quantity candidate determination part 116, the structure other than that is the same. Hereinafter, differences from the first embodiment will be described.
- the control unit 102a controls the operation of each unit of the position specifying device 100a.
- the control unit 102a is executed by a device including a processor such as a CPU and a RAM, for example.
- the control unit 102a executes the position specifying program to thereby execute the subject / background separation unit 103, the feature map acquisition unit 104, the first image feature amount acquisition unit 105, the database generation unit 106, the database storage unit 107, and the second image input.
- the machine learning unit 114 receives a subject image from the subject / background separation unit 103.
- the machine learning unit 114 receives a feature map from the feature map acquisition unit 104. Based on the subject image and the feature map, the machine learning unit 114 determines conversion data of the feature map into a highly accurate mask image by learning.
- the conversion data is data for converting a mask image determined based on the position of the subject in the image and the output value of the intermediate layer of the image. For example, the machine learning unit 114 uses correct data indicating the position of the subject as position information of the subject.
- the machine learning unit 114 may learn, for example, that the feature map matches the position information of the subject, or may learn, for example, to match the position information of the subject with respect to an arbitrary feature map.
- the weight may be learned for each feature map, and the linear sum may be learned so as to match the position information.
- the machine learning unit 114 may use non-linear conversion for the output value of the intermediate layer instead of linear processing such as calculating a simple weighted sum. Even a non-linear conversion has the same effect.
- the machine learning unit 114 records the conversion data generated by learning in the conversion database storage unit 115 as a conversion database.
- the image of only the subject is an aspect of the learning image.
- the learning image is an image that is different from the target image obtained by capturing a desired subject and includes the subject.
- the conversion database storage unit 115 is configured using a storage device such as a magnetic hard disk device or a semiconductor storage device.
- the conversion database storage unit 115 stores a conversion database.
- the feature amount candidate determination unit 116 receives an image for which the position of the subject is to be acquired.
- the feature amount candidate determination unit 116 determines whether to generate a composite mask image based on the received image, using either the luminance feature amount or the converted data. Specifically, the feature amount candidate determination unit 116 acquires a difference value between luminance values in the image.
- the feature amount candidate determination unit 116 determines to use the value of the luminance feature amount as in the first embodiment when the difference value of the luminance value is equal to or greater than the threshold value.
- the feature quantity candidate determination unit 116 determines to use the conversion data when the difference value of the luminance value is less than the threshold value.
- the threshold value the user selects one or more images with little change in luminance value by visual observation.
- the feature amount candidate determination unit 116 may use a change in luminance value in the subject of the selected image as a threshold value. In addition, the feature amount candidate determination unit 116 may determine the threshold value using another method, such as determining whether or not the distribution is unimodal using a histogram of luminance values.
- the mask composition unit 112a synthesizes the mask image according to the determination result of the feature amount candidate determination unit 116.
- the mask composition unit 112a will not be described because the process is the same as that of the first embodiment when the feature amount candidate determination unit 116 determines to use the value of the luminance feature amount.
- the mask composition unit 112a acquires a conversion database generated in advance from learning from the conversion database storage unit 115.
- the mask compositing unit 112a generates a composite mask image by converting the mask image received from the mask image generating unit 109 based on the conversion data.
- the mask composition unit 112a is an aspect of the mask conversion unit.
- the mask conversion unit associates the position of the subject in the learning image with conversion data for converting the mask image determined based on the output value of the intermediate layer of the learning image.
- the mask conversion unit converts the mask image into a composite mask image representing the position of the subject by associating with the conversion data.
- FIG. 7 is a flowchart showing a flow of processing for generating a database in the second embodiment.
- a process for generating a conversion database is added in addition to the feature quantity / index database. Note that steps S101 to S108 are the same as those in the first embodiment, and a description thereof will be omitted.
- the machine learning unit 114 learns so that the output value of the intermediate layer of the DRN matches the position information of the subject (step S301).
- the machine learning unit 114 records the conversion data generated by learning as a conversion database. (Step S302).
- FIG. 8 is a flowchart showing a flow of processing for specifying the position of the subject in the second embodiment. Steps S201 to S205 are the same as those in the first embodiment, and a description thereof will be omitted.
- the feature amount candidate determination unit 116 determines whether or not the difference value of the luminance value is equal to or greater than a threshold value (step S401). If the difference value of the luminance values is equal to or greater than the threshold value (step S401: YES), the process transitions to step S203. When the difference value of luminance values is less than the threshold value (step S401: NO), the process transitions to step S402.
- the mask composition unit 112a synthesizes the mask image according to the determination result of the feature amount candidate determination unit 116 (step S402).
- the mask composition unit 112a When the difference value between the luminance values is equal to or greater than the threshold value, the mask composition unit 112a generates a composite mask image by compositing the mask image based on the acquired weights for the Index and Index of the intermediate layer.
- the mask composition unit 112a When the difference value of the luminance value is less than the threshold value, the mask composition unit 112a generates a composite mask image by converting the mask image based on the conversion data.
- the subject position specifying unit 113 generates position information indicating the position of the subject based on the generated composite mask image (step S403).
- the position specifying device 100a configured as described above generates a conversion database by the machine learning unit 114 learning so that the output value of the intermediate layer of the DRN matches the position information of the subject.
- the feature amount candidate determination unit 116 of the position specifying device 100a determines whether to generate a mask image using the luminance feature amount or the converted data, based on the difference value of the luminance value.
- the mask combination unit 112a Based on the determination by the feature amount candidate determination unit 116, the mask combination unit 112a generates a combined mask image.
- the subject position specifying unit 113 can specify the position of the subject in the image by specifying the position of the generated composite mask image.
- the position specifying device 100a configured in this way uses the luminance feature value to specify the index and weight the mask, even for an image for which sufficient accuracy cannot be obtained. A mask image indicating the position can be generated.
- the position specifying device 100 in the above-described embodiment may be realized by a computer.
- a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed.
- the “computer system” includes an OS and hardware such as peripheral devices.
- the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
- the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
- a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
- the program may be a program for realizing a part of the above-described functions, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system. It may be realized using a programmable logic device such as an FPGA (Field Programmable Gate Array).
- FPGA Field Programmable Gate Array
- the present invention can be applied to an apparatus for detecting the position of a subject included in a captured image.
- DESCRIPTION OF SYMBOLS 100 Position specification apparatus, 101 ... 1st image input part, 102 ... Control part, 103 ... Subject and background separation part, 104 ... Feature map acquisition part, 105 ... 1st image feature-value acquisition part, 106 ... Database production
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
少なくとも所望の第一の被写体を含む画像である第一の画像から所望の第一の被写体の位置を特定する位置特定装置であって、第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得部と、第二の被写体を含む第二の画像から得られた所定の特徴を表す第二の特徴量と、第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部と、推定部により第一の特徴量に対応付けられると推定された推定第一特徴マップと、推定第一特徴マップを用いて所望の第一の被写体の位置を特定する位置特定部と、を備える、位置特定装置である。
Description
本発明は、位置特定装置、位置特定方法及びコンピュータプログラムに関する。
近年、統計的機械学習を用いて画像内の被写体の位置を特定する技術が多く提案されている。位置特定技術は、自動車の自動運転等のように様々な産業への応用が期待されている。位置特定装置が、画像から物体の位置を特定するための手法として、物体検出及び領域分割と呼ばれる2つの手法が知られている。物体検出は対象の被写体を包含する矩形領域を提示する手法である。領域分割は、ピクセル毎に被写体が画像内のどの物体に属しているかという情報を提示する手法である。
領域分割のうち、画像内に存在する物体の種類を示す正解データのみを与える手法は、弱教師付き領域分割と呼ばれる。正解データが与えられたデータを弱教師付きデータと呼ぶ。弱教師付きデータは、容易に大量のデータを収集できる。弱教師付きデータは、ビッグデータと親和性が高いため、多くの手法が提案されている。
弱教師付き領域分割では、非特許文献1のように画像内の物体の大まかな位置を示すマスク画像を用いて画像の背景部分を除去する手法が知られている。図9は、画像内の物体の背景が除去された画像の一例を示す図である。弱教師付き領域分割では、非特許文献2のようにDRN(Dilated Residual Network)と呼ばれる深層学習手法の一種を用いることで、対象画像に対する高精度なマスク画像が生成される事が知られている。
W. Shimoda, K. Yanai,"Distinct Class-specific Saliency Maps for Weakly Supervised Semantic Segmentation", 2016.
F. Yu, V. Koltun, T. Funkuhouser, "Dilated Residual Networks", 2017.
DRN等の深層学習を用いた領域分割手法は、高い精度を示す。しかし、位置を特定したい被写体と背景とが同時に写された学習データの場合、高精度なマスク画像を生成する事が難しい。例えば、下方向にカメラを設置されたドローンは、屋外で撮像する場合、地面が含まれる画像群を撮像する。撮像された画像群は、地面以外の物体と地面とをセットで画像内に含む。したがって、弱教師付き領域分割において、単純にDRNに入力・伝搬させて出力層を用いるだけでは上述の画像等に対する領域分割は困難である。これに対して出力層のマスク画像の代わりに中間層の出力値をマスク画像として用いる手法が考えられる。
しかしながら、中間層の出力値には、入力された画像のどのような特徴に対してマスク画像が生成されるのかという点が明示的に与えられていない。したがって、位置特定装置は、中間層の出力値に対して、どのようなマスク画像が生成されるか推定する必要がある。また、所望の被写体にマスク画像が生成されない場合がある。例えば、入力された画像内において、所望の被写体が連続せずに入力された画像内の左側と右側に存在する場合、中間層の出力値に基づいて、2つのマスク画像が生成される場合、かつ画像内左側の物体に反応したマスク画像と画像内右側の物体に反応した画像とが得られる場合がある。このようなマスク画像が得られた場合、位置特定装置は、複数のマスク画像を合成することで、新たなマスク画像を生成し、被写体の位置を特定しなければならない。
上記事情に鑑み、本発明は、より高い精度で画像内の被写体の位置を特定する技術を提供することを目的としている。
本発明の一態様は、少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定装置であって、前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得部と、第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部と、前記推定部により前記第一の特徴量に対応付けられると推定された推定第一特徴マップと、前記推定第一特徴マップを用いて前記所望の第一の被写体の位置を特定する位置特定部と、を備える、位置特定装置である。
本発明により、より高い精度で画像内の被写体の位置を特定することが可能となる。
(第1の実施形態)
図1は、第1の実施形態における、位置特定装置の機能構成の例を示す機能ブロック図である。位置特定装置100は、被写体と背景とが一緒に写っている画像において、画像に含まれる被写体の領域を検出する。位置特定装置100は、例えば、ドローン等の飛翔体によって空撮された画像に含まれる被写体の領域を特定する。
図1は、第1の実施形態における、位置特定装置の機能構成の例を示す機能ブロック図である。位置特定装置100は、被写体と背景とが一緒に写っている画像において、画像に含まれる被写体の領域を検出する。位置特定装置100は、例えば、ドローン等の飛翔体によって空撮された画像に含まれる被写体の領域を特定する。
位置特定装置100は、バスで接続されたCPU(Central Processing Unit)等のプロセッサやメモリや補助記憶装置などを備え、位置特定プログラムを実行することによって第1画像入力部101、制御部102、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112及び被写体位置特定部113を備える装置として機能する。なお、位置特定装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。位置特定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。位置特定プログラムは、電気通信回線を介して送信されてもよい。
第1画像入力部101は、タッチパネル、マウス及びキーボード等の入力装置を用いて構成される。第1画像入力部101は、入力装置を位置特定装置100に接続するためのインタフェースであってもよい。この場合、第1画像入力部101は、入力装置において入力された入力信号から入力データ(例えば、位置特定装置100に対する指示を示す指示情報)を生成し、位置特定装置100に入力する。なお、第2画像入力部108に関しても同様に構成される。
第1画像入力部101は、被写体と背景とを含む画像を受け付ける。第1画像入力部101が受け付けた画像は、後述のデータベースの生成に用いられる。第1画像入力部101は、受け付けた画像を被写体・背景分離部103に出力する。
制御部102は、位置特定装置100の各部の動作を制御する。制御部102は、例えばCPU等のプロセッサ及びRAM(Random Access Memory)を備えた装置により実行される。制御部102は、位置特定プログラムを実行することによって、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112及び被写体位置特定部113として機能する。
被写体・背景分離部103は、受け付けた被写体と背景とを含む画像から被写体と背景とが分離された画像を生成する。被写体・背景分離部103は、少なくとも2枚以上の被写体と背景とが分離された画像を生成する。被写体・背景分離部103は、分離された画像の背景を示す画像を黒色で塗りつぶすことで、被写体のみの画像を生成する。被写体・背景分離部103は、任意の方法で被写体と背景とを分離した画像を生成してもよい。分離された画像には、背景の一部が残っていてもよいし、被写体が欠ける等のノイズが含まれてもよい。要は、被写体のみの画像は画像領域の大半を被写体が占めていればよい。大半とは被写体と背景の性質により変動するが、好ましくは7割以上である。精度を考慮しなければ、1ピクセルでも前景が含まれていれば良い。被写体・背景分離部103は、生成された被写体のみの画像を特徴マップ取得部104及び第1画像特徴量取得部105に出力する。
特徴マップ取得部104は、被写体のみの画像を後述する学習済みのDRNに伝搬させる。DRNは、CNNの一手法である。CNN(Convolution Neural Network)は、深層学習の一手法である。CNNは、入力された画像に対して畳み込み処理を繰り返すことで出力値を得る手法である。入力される被写体のみの画像を被写体画像と言う。畳み込み処理の出力値は特徴マップと呼ばれる。つまり、特徴マップ取得部104は、被写体画像をDRNに入力・伝播させた場合、畳み込み処理の数と同数の特徴マップが存在する。特徴マップ取得部104は、被写体画像をDRNに入力・伝搬させた結果得られるDRNの中間層の出力値、すなわち特徴マップを取得する。特徴マップ取得部104は、特徴マップを出力する。ここで改めて特徴マップについて説明する。特徴マップは、例えば、特徴モデル(例えば前記学習済みのDRN)の所定の中間層の出力値である。すなわち、特徴マップは、被写体画像若しくは被写体画像を少なくとも1つの前記所定の中間層とは異なる中間層を伝搬させた出力値に対して、所定の中間層に係る演算を行った出力値である。特徴マップは、所定の中間層に係る演算を行うフィルタの出力値といいかえてもよい。特徴マップ取得部104は、被写体画像をDRNに入力・伝搬させ、1つ以上の特徴マップを得る。特徴マップは、対象画像などのDRNに入力された画像若しくは対象画像などのDRNに入力された画像に対して畳み込み処理を行った結果、得られた特徴マップにさらに畳み込み処理を行った結果によって生成される。
本実施例では特徴モデルについてDRNを例として説明するが、入力データの畳み込みにより画像若しくは画像の所定の領域毎の特徴を抽出する処理を中間層で行うニューラルネットワークであればDRNに限定されない。
本実施例では特徴モデルについてDRNを例として説明するが、入力データの畳み込みにより画像若しくは画像の所定の領域毎の特徴を抽出する処理を中間層で行うニューラルネットワークであればDRNに限定されない。
なお、特徴マップ取得部104で用いられるDRNは、予め自然画像データセットで学習済みである。自然画像データセットは、例えば海、山、川、森又は空等の自然を含む画像であるが、あらゆる物体を撮影した画像群であってもよい。あらゆる物体を撮影した画像群は、例えば、抽出したい対象である所望の被写体が存在しうる場所にカメラを設置し、所定の期間撮影し続けた画像であってもよい。自然画像データセットは、クラスタリングできるだけの数があればよい。例えば、画像がどのカテゴリに分類されるかの確率に関する精度を考慮しない場合、自然画像データセットは1枚の画像であってもよい。
図2は、手書き数字認識におけるCNNの識別結果の一例を示す図である。CNNでは、入力された画像に対して、画像がどのカテゴリに分類されるかの確率が算出される。CNNでは、出力層の中で最も確率が高いカテゴリを出力すればCNNの識別結果となる。
DRNは、出力層で得られるベクトル(図2の例では、10個の要素を持つベクトル)と正解ベクトル(図2の例では、0クラスの確率を示す要素に1、それ以外の要素に0が存在するベクトル)との差分を最小化するように学習する。具体的には、SoftMaxロスと呼ばれる目的関数の最小化を行う事で学習される。学習において、誤差逆伝搬法(BP法)で算出された勾配情報に基づいて、確率的勾配降下法(SGD法)によって目的関数の最小化が行われる。なお、CNNは自然画像データ等で学習されたモデルであればよくDRNに限定されない。
DRNは、出力層で得られるベクトル(図2の例では、10個の要素を持つベクトル)と正解ベクトル(図2の例では、0クラスの確率を示す要素に1、それ以外の要素に0が存在するベクトル)との差分を最小化するように学習する。具体的には、SoftMaxロスと呼ばれる目的関数の最小化を行う事で学習される。学習において、誤差逆伝搬法(BP法)で算出された勾配情報に基づいて、確率的勾配降下法(SGD法)によって目的関数の最小化が行われる。なお、CNNは自然画像データ等で学習されたモデルであればよくDRNに限定されない。
図1に戻り、位置特定装置100の説明を続ける。特徴マップ取得部104は、中間層の出力値、すなわち段落0017に記載されたように被写体画像をDRNに入力・伝播させた結果得られた複数の特徴マップから所望の被写体に適する特徴マップを取得する。適するとは、所望の被写体に対応する領域に対して強く反応を示す、言い換えると所望の被写体を抽出するマスク生成に用いるために有効であること、である。特徴マップ取得部104は、最大値を示すニューロンが存在する特徴マップを取得してもよいし、被写体に反応した特徴マップであるかをユーザが目視確認することで取得してもよい。取得された特徴マップがDRNにおける何番目の特徴マップであるかを示す情報を「Index」という。すなわち、Indexは特徴マップを取得可能な中間層の位置を示す情報である。特徴マップ取得部104は、取得された特徴マップに対応するIndexを取得する。特徴マップ取得部104は、取得されたIndexを、データベース生成部106に出力する。特徴マップは、画像内に含まれるいくつかの任意の特徴表現のいずれかに反応を示すことが期待される。なお、本実施例では、取得される所望の被写体に適する特徴マップは、所望の被写体とは異なる所望の被写体であっても反応するという前提のもと利用している。いいかえると、所望の被写体が太陽光パネルであった場合、太陽光パネルに反応する特徴マップを得ることができれば、特徴マップを得た画像と類似する性質をもつように太陽光パネルが撮影された異なる画像においても、得られた特徴マップは太陽光パネルに反応するという仮定に基づいている。画像と類似する性質とは、選択する特徴量が反映される特徴を意図する。例えば、輝度値を選択した場合は輝度値が反映される性質であり、符号量を選択した場合は被写体の模様が反映される性質である。
ここで、最大値を示すニューロンが存在する特徴マップの取得方法について説明する。
図3は、ニューロンを可視化した特徴マップの一例を示す図である。特徴マップ取得部104は、DRNの中間層の出力値として複数の特徴マップを取得する。各特徴マップは、それぞれ画像のように高さ(H)及び幅(W)分のニューロンを有する。ニューロンは、入力された画像に対して数値を出力する。特定の中間層(図3では、出力層の1層前)では、全体でH×W×(特徴マップの数)個のニューロンが存在する。特徴マップ取得部104は、被写体のみの画像を入力することで、H×W×(特徴マップの数)の配列を生成する。配列にはニューロンによって出力された値が保持される。
図3は、ニューロンを可視化した特徴マップの一例を示す図である。特徴マップ取得部104は、DRNの中間層の出力値として複数の特徴マップを取得する。各特徴マップは、それぞれ画像のように高さ(H)及び幅(W)分のニューロンを有する。ニューロンは、入力された画像に対して数値を出力する。特定の中間層(図3では、出力層の1層前)では、全体でH×W×(特徴マップの数)個のニューロンが存在する。特徴マップ取得部104は、被写体のみの画像を入力することで、H×W×(特徴マップの数)の配列を生成する。配列にはニューロンによって出力された値が保持される。
特徴マップ取得部104は、生成された配列に対して、最大値の位置を特定する処理を実行する。最大値は、配列の要素の中で、最大となる値である。最大値の位置とは、最大値を保持する配列の要素を特定する情報である。最大値の位置を特定する処理は、総当たり等の公知の手法が用いられてもよい。このような処理によって、特徴マップ取得部104は、最大値を示すニューロンが存在する特徴マップを取得することができる。なお、特徴マップ取得部104は、特徴マップ毎にニューロンに出力された値の平均値を算出し、平均値が最大になる特徴マップを取得してもよい。また、特徴マップ取得部104は、被写体に反応を示している領域と入力でマスクされている領域とのオーバーラップの割合で決定する等どのような方法で特徴マップを取得してもよい。
図1に戻り、位置特定装置100の説明を続ける。第1画像特徴量取得部105は、被写体画像から、画像の輝度特徴量を取得する。本実施例における輝度特徴量は輝度値である。なお、第1画像特徴量取得部105は、輝度特徴量の代わりに勾配情報に基づいて算出された画像特徴量又はCNNの中間層から取得された特徴量を取得してもよい。第1画像特徴量取得部105で取得する輝度特徴量は、所望の被写体の被写体を特徴づけられる性質を有する物であれば他の特徴量であってもよい。また、DRN又はCNNで利用していると特定しうる特徴量と相関を有する特徴量であってもよい。第1画像特徴量取得部105は、取得された画像の輝度特徴量を、データベース生成部106に出力する。
データベース生成部106は、取得された輝度特徴量とIndexとを、1対1対応させることで特徴量・Indexデータベースを生成する。データベース生成部106は、生成された特徴量・Indexデータベースをデータベース記憶部107に記録する。
還元すると、第1画像特徴量取得部105で取得された輝度特徴量と、特徴マップ取得部104で所望の被写体に適すると判定された特徴マップとを関連付けるといってもよい。
還元すると、第1画像特徴量取得部105で取得された輝度特徴量と、特徴マップ取得部104で所望の被写体に適すると判定された特徴マップとを関連付けるといってもよい。
データベース記憶部107は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。データベース記憶部107は、特徴量・Indexデータベースを記憶する。
第2画像入力部108は、被写体の位置を取得したい画像である対象画像を受け付ける。第2画像入力部108が受け付けた対象画像は、受け付けた対象画像をマスク画像生成部109及び第2画像特徴量取得部110に出力する。
マスク画像生成部109は、対象画像をDRNに入力・伝播させ、複数の特徴マップを取得する。この処理は特徴マップ取得部104と同様であるため説明を省略する。マスク画像生成部109は、特徴マップ取得部104と同じ学習済みのDRNを用いる。マスク画像生成部109は、異なるDRNを用いてもよいが、その場合、特徴マップ取得部104で用いるDRNの特徴マップに対応するIndexと、マスク画像生成部109で用いるDRNの特徴マップに対応するIndexなど、DRN間のIndexを何らかの手法で対応付ける必要がある。マスク画像生成部109は、対象画像をDRNに入力・伝搬させることで、DRNの中間層の出力値、すなわち特徴マップを取得する。マスク画像生成部109は、取得した中間層の出力値をマスク合成部112に出力する。
第2画像特徴量取得部110は、対象画像から輝度特徴量を取得する。ここで取得する輝度特徴量は、第1画像特徴量取得部105と同じ手段で取得されていればよい。本実施例では、輝度特徴量は輝度値として説明を続ける。
対応マスク検索部111は、第2画像特徴量取得部110で取得した輝度特徴量に基づき、特徴量・Indexデータベースから、Indexを取得する。例えば、対応マスク検索部111は、第2画像特徴量取得部110で取得した輝度特徴量と特徴量・Indexデータベースに記録された輝度特徴量の値と最も近い輝度特徴量の値を特定する。対応マスク検索部111は、特定された輝度特徴量と1対1に対応付けられたIndexを取得する。また、対応マスク検索部111は、クラスタリングアルゴリズムを用いて代表的なIndexを予め設定し、最も距離の近いクラスタ中心を用いてもよい。対応マスク検索部111は、取得されたIndexに基づいて、マスク画像の生成に適切な特徴マップをDRNの中間層の出力値から取得する。
Indexは、上述した通り第2画像特徴量取得部110で取得した輝度特徴量と最も近い特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndexを用いてもよいし、第2画像特徴量取得部110で取得した輝度特徴量と、特徴量・Indexデータベースに格納されている輝度特徴量との差が所定の閾値以下である特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndex、すなわち複数のIndexを用いてもよい。
対応マスク検索部111の処理は、データベース生成部106で説明した、輝度特徴量と特徴マップとの関連に基づいて、対象画像をDRNに入力・伝搬することで得られた特徴マップの中から、所望の被写体に反応すると推定される特徴マップの推定を行うと言い換えてもよい。
対応マスク検索部111は、複数枚の特徴マップからマスク画像を生成する場合、特徴量・Indexデータベースを用いて、重み付き和の重みを算出する。対応マスク検索部111は、算出された重みに基づいて、マスク画像を生成する。対応マスク検索部111は、例えば、輝度特徴量の値が近い順に距離等を用いることで重みを算出してもよい。対応マスク検索部111は、その他の公知の手法を用いて重みを算出してもよい。なお、対応マスク検索部111は、特徴量・Indexデータベースに記録された確率分布を取得して、モデル化し、関連付けることでマスク画像を生成するように構成されてもよい。
Indexは、上述した通り第2画像特徴量取得部110で取得した輝度特徴量と最も近い特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndexを用いてもよいし、第2画像特徴量取得部110で取得した輝度特徴量と、特徴量・Indexデータベースに格納されている輝度特徴量との差が所定の閾値以下である特徴量・Indexデータベースに格納されている輝度特徴量に対応するIndex、すなわち複数のIndexを用いてもよい。
対応マスク検索部111の処理は、データベース生成部106で説明した、輝度特徴量と特徴マップとの関連に基づいて、対象画像をDRNに入力・伝搬することで得られた特徴マップの中から、所望の被写体に反応すると推定される特徴マップの推定を行うと言い換えてもよい。
対応マスク検索部111は、複数枚の特徴マップからマスク画像を生成する場合、特徴量・Indexデータベースを用いて、重み付き和の重みを算出する。対応マスク検索部111は、算出された重みに基づいて、マスク画像を生成する。対応マスク検索部111は、例えば、輝度特徴量の値が近い順に距離等を用いることで重みを算出してもよい。対応マスク検索部111は、その他の公知の手法を用いて重みを算出してもよい。なお、対応マスク検索部111は、特徴量・Indexデータベースに記録された確率分布を取得して、モデル化し、関連付けることでマスク画像を生成するように構成されてもよい。
マスク合成部112は、マスク画像生成部109で得られた特徴マップのうち取得されたIndexに対応する特徴マップをマスク画像として生成する。マスク合成部112は、複数のIndexを使用する場合、Indexに対する重みに基づいてマスク画像を生成してもよい。重みづけには、重みづけ和や論理演算、後述するような機械学習による重みづけ等が用いられる。マスク合成部112は、対象画像に対して適用するための被写体の位置を示す合成マスク画像を生成する。
被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置が特定された位置情報を生成する。被写体位置特定部113は、位置情報を被写体位置特定結果として出力する。被写体位置特定部113は、位置特定部の一態様である。位置特定部は、生成されたマスク画像に基づいて、被写体の位置を特定する。
図4は、第1の実施形態における、特徴量・Indexデータベースを生成する処理の流れを示すフローチャートである。第1画像入力部101は、被写体と背景とを含む画像を受け付ける(ステップS101)。被写体・背景分離部103は、受け付けた被写体と背景とを含む画像から被写体と背景とが分離された被写体のみの画像である被写体画像を生成する(ステップS102)。被写体・背景分離部103は、生成された被写体画像を特徴マップ取得部104及び第1画像特徴量取得部105に出力する(ステップS103)。
特徴マップ取得部104は、被写体画像を学習済みのDRNに入力・伝播させる(ステップS104)。特徴マップ取得部104は、マスクに適する特徴マップを取得する(ステップS105)。特徴マップ取得部104は、取得した特徴マップに対応するIndexを取得する(ステップS106)。マスクに適する特徴マップの取得と、該特徴マップに対応するIndexの取得については前述した特徴マップ取得部104に係る記載を参照されたい。
第1画像特徴量取得部105は、被写体画像から輝度特徴量を取得する(ステップS107)。データベース生成部106は、取得された輝度特徴量とIndexとを、1対1対応させることで、特徴量・Indexデータベースを生成する(ステップS108)。
図5は、第1の実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。第2画像入力部108は、被写体の位置を取得したい画像である対象画像を受け付ける(ステップS201)。マスク画像生成部109は、対象画像を学習済みのDRNに入力・伝播させ、特徴マップを取得する(ステップS202)。第2画像特徴量取得部110は、対象画像に基づいて、画像の輝度特徴量を取得する(ステップS203)。
対応マスク検索部111は、取得された輝度特徴量に基づいて、特徴量・IndexデータベースからIndexを取得する(ステップS204)。対応マスク検索部111は、複数のIndexを用いる場合、各Indexに対応する特徴マップの重みを取得する(ステップS205)。マスク合成部112は、取得された中間層のIndexに対応する特徴マップと得られた重みとに基づいて、合成マスク画像を生成する(ステップS206)。被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置を特定した位置情報を生成する(ステップS207)。
このように構成された位置特定装置100は、被写体画像と学習済みのDRNから得られた所望の被写体に適する特徴マップのIndexと、被写体画像の輝度特徴量とを関連付けることで得られた特徴量・Indexデータベースを利用することで、対象画像から所望の被写体の位置を特定する。すなわち所望の被写体を取り出すことを可能にする。
この実施形態のポイントを記載すると、
1.被写体画像を学習済みのDRNに入力・伝搬させ、中間層の出力である特徴マップを複数得る
2.得られた特徴マップのうち、所望の被写体に適する特徴マップを取得する3.被写体画像からあらかじめ定められた特徴量を抽出する4.抽出された特徴量と、所望の被写体に適する特徴マップに対応するIndexを関連付ける
5.対象画像を、1.と同じ学習済みのDRNに入力・伝搬させ、特徴マップを複数取得する
6.3.と同じ手法により対象画像から特徴量を抽出する7.6.で抽出された特徴量と近い、4.で関連付けられた特徴量に対応するIndexを取得する
8.5.で得られた特徴マップのうち、7.で得られたIndexに対応する特徴マップを取得する
9.8.で得られた特徴マップをマスクとして対象画像に適用することで所望の被写体の位置を取得する得る
となる。これは、本来であればブラックボックスである学習済みのニューラルネットワークの中間層の出力である特徴マップをマスクとして利用するため、3.6.に記載したような、特徴量をキーとして関連付けるための構成である。
この実施形態のポイントを記載すると、
1.被写体画像を学習済みのDRNに入力・伝搬させ、中間層の出力である特徴マップを複数得る
2.得られた特徴マップのうち、所望の被写体に適する特徴マップを取得する3.被写体画像からあらかじめ定められた特徴量を抽出する4.抽出された特徴量と、所望の被写体に適する特徴マップに対応するIndexを関連付ける
5.対象画像を、1.と同じ学習済みのDRNに入力・伝搬させ、特徴マップを複数取得する
6.3.と同じ手法により対象画像から特徴量を抽出する7.6.で抽出された特徴量と近い、4.で関連付けられた特徴量に対応するIndexを取得する
8.5.で得られた特徴マップのうち、7.で得られたIndexに対応する特徴マップを取得する
9.8.で得られた特徴マップをマスクとして対象画像に適用することで所望の被写体の位置を取得する得る
となる。これは、本来であればブラックボックスである学習済みのニューラルネットワークの中間層の出力である特徴マップをマスクとして利用するため、3.6.に記載したような、特徴量をキーとして関連付けるための構成である。
(第2の実施形態)
次に、第2の実施形態における位置特定装置100aについて説明する。第1の実施形態の位置特定装置100は、輝度特徴量などの予め決定された特徴量を用いて、複数枚の特徴マップから合成マスク画像を生成した。第1の実施形態は、位置を特定したい被写体内と背景等の位置を特定したい被写体以外(以下「背景等」という。)の間で輝度値の差分値が顕著な場合に特に有効な手法であったが、それ以外の場合には、精度が十分に得られない可能性があった。そこで、第2の実施形態の位置特定装置100aは、被写体と背景等との輝度値の差分値が十分に大きくない場合に、機械学習によって重みを決定する。
言い換えると、被写体の特徴量の分布と背景等の特徴量の分布が重複する領域が大きい場合に特に有効な手法を本実施例では提供する。本実施例のポイントは、学習用の画像をDRNに入力・伝搬させた際に得られる特徴マップのうち、被写体に強く反応する特徴マップについて大きい重みが、被写体以外に強く反応する特徴マップについて小さな重みが設定されるように学習を行う点である。強く反応する、とは特徴マップ取得部104と同様である。
次に、第2の実施形態における位置特定装置100aについて説明する。第1の実施形態の位置特定装置100は、輝度特徴量などの予め決定された特徴量を用いて、複数枚の特徴マップから合成マスク画像を生成した。第1の実施形態は、位置を特定したい被写体内と背景等の位置を特定したい被写体以外(以下「背景等」という。)の間で輝度値の差分値が顕著な場合に特に有効な手法であったが、それ以外の場合には、精度が十分に得られない可能性があった。そこで、第2の実施形態の位置特定装置100aは、被写体と背景等との輝度値の差分値が十分に大きくない場合に、機械学習によって重みを決定する。
言い換えると、被写体の特徴量の分布と背景等の特徴量の分布が重複する領域が大きい場合に特に有効な手法を本実施例では提供する。本実施例のポイントは、学習用の画像をDRNに入力・伝搬させた際に得られる特徴マップのうち、被写体に強く反応する特徴マップについて大きい重みが、被写体以外に強く反応する特徴マップについて小さな重みが設定されるように学習を行う点である。強く反応する、とは特徴マップ取得部104と同様である。
図6は、第2の実施形態における、位置特定装置の機能構成を表す機能ブロック図である。第2の実施形態における位置特定装置100aは、制御部102の代わりに制御部102aとマスク合成部112の代わりにマスク合成部112aとを備える点、機械学習部114、変換データベース記憶部115及び特徴量候補決定部116をさらに備える点で第1の実施形態とは異なるが、それ以外の構成は同じである。以下、第1の実施形態と異なる点について説明する。
制御部102aは、位置特定装置100aの各部の動作を制御する。制御部102aは、例えばCPU等のプロセッサ及びRAMを備えた装置により実行される。制御部102aは、位置特定プログラムを実行することによって、被写体・背景分離部103、特徴マップ取得部104、第1画像特徴量取得部105、データベース生成部106、データベース記憶部107、第2画像入力部108、マスク画像生成部109、第2画像特徴量取得部110、対応マスク検索部111、マスク合成部112a、被写体位置特定部113及び機械学習部114として機能する。
機械学習部114は、被写体・背景分離部103から被写体画像を受け付ける。機械学習部114は、特徴マップ取得部104から、特徴マップを受け付ける。機械学習部114は、被写体画像と特徴マップとに基づいて、高精度なマスク画像への特徴マップの変換データを学習によって決定する。変換データは、画像内の被写体の位置と、画像の中間層の出力値に基づいて決定されるマスク画像を変換するデータである。機械学習部114は、例えば、被写体の位置を示す正解データを被写体の位置情報とする。機械学習部114は、例えば、特徴マップが被写体の位置情報に合致するように学習してもよいし、例えば、任意の特徴マップに対して被写体の位置情報に合致するように学習してもよいし、特徴マップごとに重みを学習させ、その線形和が位置情報に合致するように学習させてもよい。また、機械学習部114は、単純な重み付き和を算出する等の線形の処理の代わりに中間層の出力値に対する非線形な変換を用いてもよい。非線形な変換であっても、同様の効果を奏する。機械学習部114は、学習によって生成された変換データを変換データベースとして変換データベース記憶部115に記録する。被写体のみの画像は学習画像の一態様である。学習画像は、所望の被写体が撮像された対象画像とは異なる画像であって、被写体を含む画像である。
変換データベース記憶部115は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。変換データベース記憶部115は、変換データベースを記憶する。
特徴量候補決定部116は、被写体の位置を取得したい画像を受け付ける。特徴量候補決定部116は、輝度特徴量又は変換データのどちらを用いて、受け付けた画像に基づく合成マスク画像を生成するか決定する。具体的には、特徴量候補決定部116は、画像内の輝度値の差分値を取得する。特徴量候補決定部116は、輝度値の差分値が閾値以上の場合、第1の実施形態と同様に、輝度特徴量の値を用いることに決定する。これに対して、特徴量候補決定部116は、輝度値の差分値が閾値未満の場合、変換データを用いることに決定する。なお、閾値は、ユーザが目視によって輝度値の変化の少ない画像を1枚以上選択する。特徴量候補決定部116は、選択された画像の被写体内の輝度値の変化を閾値としてもよい。また、特徴量候補決定部116は、輝度値のヒストグラムを用いて、単峰性の分布であるか否かを判定する等のように、他の手法を用いて閾値を決定してもよい。
マスク合成部112aは、特徴量候補決定部116の決定結果に応じて、マスク画像を合成する。マスク合成部112aは、特徴量候補決定部116が、輝度特徴量の値を用いることに決定した場合は実施例1と同様の処理であるため説明を省略する。
マスク合成部112aは、特徴量候補決定部116が、変換データを用いることに決定した場合、変換データベース記憶部115から学習によって事前に生成された変換データベースを取得する。マスク合成部112aは、マスク画像生成部109から受け付けたマスク画像を、変換データに基づいて変換する事で合成マスク画像を生成する。マスク合成部112aは、マスク変換部の一態様である。マスク変換部は、学習画像内の被写体の位置と、学習画像の中間層の出力値に基づいて決定されるマスク画像を変換する変換データとを対応付ける。マスク変換部は、変換データと対応付けることで、マスク画像を被写体の位置を表す合成マスク画像に変換する。
図7は、第2の実施形態における、データベースを生成する処理の流れを示すフローチャートである。第2の実施形態では、特徴量・Indexデータベース以外に、変換データベースが生成される処理が追加される。なお、ステップS101からステップS108は、第1の実施形態と同様であるため、説明を省略する。
機械学習部114は、DRNの中間層の出力値が、被写体の位置情報に合致するように学習する(ステップS301)。機械学習部114は、学習によって生成された変換データを変換データベースとして記録する。(ステップS302)。
図8は、第2実施形態における、被写体の位置を特定する処理の流れを示すフローチャートである。なおステップS201からステップS205は、第1の実施形態と同様であるため、説明を省略する。
特徴量候補決定部116は、輝度値の差分値が閾値以上であるか否かを判定する(ステップS401)。輝度値の差分値が閾値以上の場合(ステップS401:YES)、処理は、ステップS203に遷移する。輝度値の差分値が閾値未満の場合(ステップS401:NO)、処理は、ステップS402に遷移する。
マスク合成部112aは、特徴量候補決定部116の決定結果に応じて、マスク画像を合成する(ステップS402)。マスク合成部112aは、輝度値の差分値が閾値以上だった場合、取得された中間層のIndexとIndexに対する重みに基づいて、マスク画像を合成することで、合成マスク画像を生成する。マスク合成部112aは、輝度値の差分値が閾値未満だった場合、マスク画像を、変換データに基づいて変換する事で合成マスク画像を生成する。被写体位置特定部113は、生成された合成マスク画像に基づいて、被写体の位置を示す位置情報を生成する(ステップS403)。
このように構成された位置特定装置100aは、機械学習部114が、DRNの中間層の出力値が被写体の位置情報に合致するように学習することで、変換データベースを生成する。次に、位置特定装置100aの特徴量候補決定部116は、輝度値の差分値に基づいて、輝度特徴量又は変換データのどちらを用いてマスク画像を生成するか決定する。マスク合成部112aは、特徴量候補決定部116の決定に基づいて、合成マスク画像を生成する。被写体位置特定部113は、生成された合成マスク画像に対して、位置特定を行うことで、画像内の被写体の位置を特定することができる。このように構成された位置特定装置100aは、輝度特徴量の値を用いて、Indexの特定及びマスクの重みづけを行う場合、精度が十分に得られないような画像に対しても、被写体の位置を示すマスク画像を生成することができる。
上述した実施形態における位置特定装置100をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、撮像された画像に含まれる被写体の位置検出する装置に適用可能である。
100…位置特定装置, 101…第1画像入力部, 102…制御部, 103…被写体・背景分離部, 104…特徴マップ取得部, 105…第1画像特徴量取得部, 106…データベース生成部, 107…データベース記憶部, 108…第2画像入力部, 109…マスク画像生成部, 110…第2画像特徴量取得部, 111…対応マスク検索部, 112…マスク合成部, 113…被写体位置特定部, 100a…位置特定装置, 114…機械学習部, 115…変換データベース記憶部, 116…特徴量候補決定部, 102a…制御部, 112a…マスク合成部
Claims (6)
- 少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定装置であって、
前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得部と、
第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップである特徴マップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定部と、
前記推定部により前記第一の特徴量に対応付けられると推定された推定第一特徴マップと、
前記推定第一特徴マップを用いて前記所望の第一の被写体の位置を特定する位置特定部と、
を備える、位置特定装置。 - 前記第二の画像の特徴を表す特徴マップ複数に含まれる特徴マップは、前記第二の画像に対して第一の畳み込み処理を行った出力、もしくは畳み込み処理を行った出力に対してさらに第二の畳み込み処理を行った出力、である
請求項1記載の位置特定装置。 - 前記第一の畳み込み処理と前記第二の畳み込み処理は、学習済みのニューラルネットワークの中間層であり、
前記特徴マップ複数に含まれる特徴マップは、前記中間層の出力値である
請求項2記載の位置特定装置。 - 前記選択特徴マップは、前記第二の画像のうち、前記第二の被写体以外の領域よりも前記第二の被写体を含む領域に強く反応する特徴マップである請求項3記載の位置特定装置。
- 少なくとも所望の第一の被写体を含む画像である第一の画像から前記所望の第一の被写体の位置を特定する位置特定方法であって、
前記第一の画像の所定の特徴を表す第一の特徴量を取得する特徴量取得ステップと、
第二の被写体を含む第二の画像から得られた前記所定の特徴を表す第二の特徴量と、前記第二の画像の特徴を表すマップの集合である特徴マップ複数のうち前記第二の被写体に対応する特徴マップである選択特徴マップと、が対応付けられている推定ステップと、
前記推定ステップにより前記第一の特徴量に対応付けられると推定された推定第一特徴マップを用いて前記第一の画像から前記所望の第一の被写体の位置を特定する位置特定ステップと、
を備える、位置特定方法。 - 請求項1から4のいずれか一項に記載の位置特定装置としてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/976,487 US11410327B2 (en) | 2018-03-02 | 2019-02-21 | Location determination apparatus, location determination method and computer program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018038042A JP6892606B2 (ja) | 2018-03-02 | 2018-03-02 | 位置特定装置、位置特定方法及びコンピュータプログラム |
JP2018-038042 | 2018-03-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019167784A1 true WO2019167784A1 (ja) | 2019-09-06 |
Family
ID=67806096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/006512 WO2019167784A1 (ja) | 2018-03-02 | 2019-02-21 | 位置特定装置、位置特定方法及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11410327B2 (ja) |
JP (1) | JP6892606B2 (ja) |
WO (1) | WO2019167784A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7486349B2 (ja) | 2020-05-28 | 2024-05-17 | キヤノン株式会社 | ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6892606B2 (ja) * | 2018-03-02 | 2021-06-23 | 日本電信電話株式会社 | 位置特定装置、位置特定方法及びコンピュータプログラム |
WO2020137151A1 (ja) * | 2018-12-25 | 2020-07-02 | Jfeスチール株式会社 | 学習済みモデルの生成方法、学習済みモデル、表面欠陥検出方法、鋼材の製造方法、合否判定方法、等級判定方法、表面欠陥判定プログラム、合否判定プログラム、判定システム、及び鋼材の製造設備 |
JP7139369B2 (ja) * | 2020-03-10 | 2022-09-20 | 三菱電機インフォメーションシステムズ株式会社 | 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム |
CN112508027B (zh) * | 2020-11-30 | 2024-03-26 | 北京百度网讯科技有限公司 | 用于实例分割的头部模型、实例分割模型、图像分割方法及装置 |
WO2022113883A1 (ja) * | 2020-11-30 | 2022-06-02 | ソニーセミコンダクタソリューションズ株式会社 | 学習装置、学習方法、撮像装置、信号処理装置、信号処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016115248A (ja) * | 2014-12-17 | 2016-06-23 | 株式会社デンソー | 演算処理装置 |
JP2017059207A (ja) * | 2015-09-18 | 2017-03-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 画像認識方法 |
US20180060701A1 (en) * | 2016-08-31 | 2018-03-01 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008130906A1 (en) * | 2007-04-17 | 2008-10-30 | Mikos, Ltd. | System and method for using three dimensional infrared imaging to provide psychological profiles of individuals |
JP5706647B2 (ja) * | 2010-09-03 | 2015-04-22 | キヤノン株式会社 | 情報処理装置、およびその処理方法 |
US10417525B2 (en) * | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
WO2017015947A1 (en) * | 2015-07-30 | 2017-02-02 | Xiaogang Wang | A system and a method for object tracking |
US20170293837A1 (en) * | 2016-04-06 | 2017-10-12 | Nec Laboratories America, Inc. | Multi-Modal Driving Danger Prediction System for Automobiles |
US10169647B2 (en) * | 2016-07-27 | 2019-01-01 | International Business Machines Corporation | Inferring body position in a scan |
US10769411B2 (en) * | 2017-11-15 | 2020-09-08 | Qualcomm Technologies, Inc. | Pose estimation and model retrieval for objects in images |
JP2019096072A (ja) * | 2017-11-22 | 2019-06-20 | 株式会社東芝 | 物体検出装置、物体検出方法およびプログラム |
JP6892606B2 (ja) * | 2018-03-02 | 2021-06-23 | 日本電信電話株式会社 | 位置特定装置、位置特定方法及びコンピュータプログラム |
-
2018
- 2018-03-02 JP JP2018038042A patent/JP6892606B2/ja active Active
-
2019
- 2019-02-21 US US16/976,487 patent/US11410327B2/en active Active
- 2019-02-21 WO PCT/JP2019/006512 patent/WO2019167784A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016115248A (ja) * | 2014-12-17 | 2016-06-23 | 株式会社デンソー | 演算処理装置 |
JP2017059207A (ja) * | 2015-09-18 | 2017-03-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 画像認識方法 |
US20180060701A1 (en) * | 2016-08-31 | 2018-03-01 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7486349B2 (ja) | 2020-05-28 | 2024-05-17 | キヤノン株式会社 | ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2019153092A (ja) | 2019-09-12 |
US20200410709A1 (en) | 2020-12-31 |
JP6892606B2 (ja) | 2021-06-23 |
US11410327B2 (en) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN110598019B (zh) | 重复图像识别方法及装置 | |
CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
JPWO2010004958A1 (ja) | 個人認証システム、個人認証方法 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN114140831B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN111368911B (zh) | 一种图像分类方法、装置和计算机可读存储介质 | |
JP2019211913A (ja) | 特徴量抽出装置、方法、及びプログラム | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
US20230196841A1 (en) | Behavior recognition artificial intelligence network system and method for efficient recognition of hand signals and gestures | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN115131580B (zh) | 基于注意力机制的空间目标小样本识别方法 | |
CN109033321B (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
CN113033587A (zh) | 图像识别结果评估方法、装置、电子设备及存储介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN112613341B (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
CN117475253A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN112183336A (zh) | 表情识别模型训练方法、装置、终端设备及存储介质 | |
CN112949672A (zh) | 商品识别方法、装置、设备以及计算机可读存储介质 | |
CN108596068B (zh) | 一种动作识别的方法和装置 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN116051917B (zh) | 一种训练图像量化模型的方法、检索图像的方法及装置 | |
CN113449751B (zh) | 基于对称性和群论的物体-属性组合图像识别方法 | |
CN116958720A (zh) | 目标检测模型的训练方法、目标检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19760332 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19760332 Country of ref document: EP Kind code of ref document: A1 |