WO2021130856A1 - 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体 - Google Patents

物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021130856A1
WO2021130856A1 PCT/JP2019/050615 JP2019050615W WO2021130856A1 WO 2021130856 A1 WO2021130856 A1 WO 2021130856A1 JP 2019050615 W JP2019050615 W JP 2019050615W WO 2021130856 A1 WO2021130856 A1 WO 2021130856A1
Authority
WO
WIPO (PCT)
Prior art keywords
foreground
state
model
unit
extraction
Prior art date
Application number
PCT/JP2019/050615
Other languages
English (en)
French (fr)
Inventor
佐藤 秀昭
菊池 克
恭太 比嘉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021566431A priority Critical patent/JP7331947B2/ja
Priority to PCT/JP2019/050615 priority patent/WO2021130856A1/ja
Priority to US17/783,429 priority patent/US20220392212A1/en
Publication of WO2021130856A1 publication Critical patent/WO2021130856A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Definitions

  • the present invention relates to a technique for identifying an object included in an image.
  • drones have been used for various purposes.
  • air traffic control of drones will be required.
  • drone air traffic control operations detect small moving objects based on captured images, identify uncontrollable objects such as birds and unmanaged drones, and instantly control managed drones. It is necessary to automatically avoid collisions. Therefore, it is necessary to identify the type of flying object in the vicinity of the drone to be managed.
  • Patent Document 1 describes a method of extracting a target object from an aerial image, and describes a method of selecting an optimum extraction means for extracting the target object according to the type of the target object.
  • Patent Document 1 uses the optimum extraction method for each type of target, but it is conceivable that the extraction accuracy will decrease even if the target has the same type but different flight conditions.
  • One object of the present invention is to accurately identify a moving object included in an image.
  • the object identification device is Foreground extraction unit that extracts the foreground from the input image and generates the foreground extraction result, A state extraction unit that extracts the state of the foreground based on the foreground extraction result, A discriminative model selection unit that selects one or more discriminative models based on the extracted state using the discriminative model. It includes an identification unit that identifies a moving object included in the input image using the selected identification model.
  • the object identification method Foreground extraction is performed from the input image and the foreground extraction result is generated. Based on the foreground extraction result, the state of the foreground is extracted. Using the selection model, one or more discriminative models are selected based on the extracted state. The selected identification model is used to identify moving objects contained in the input image.
  • the recording medium is Foreground extraction is performed from the input image and the foreground extraction result is generated. Based on the foreground extraction result, the state of the foreground is extracted. Using the selection model, one or more discriminative models are selected based on the extracted state. Using the selected identification model, a program that causes a computer to execute a process of identifying a moving object included in the input image is recorded.
  • the learning device Foreground extraction unit that extracts the foreground from the input image and generates the foreground extraction result, A state extraction unit that extracts the state of the foreground using the foreground extraction result, It includes a learning unit that learns a selection model that selects an object identification model based on the state of the foreground and correct answer data prepared in advance.
  • the learning method Foreground extraction is performed from the input image and the foreground extraction result is generated. Using the foreground extraction result, the state of the foreground is extracted. Based on the state of the foreground and the correct answer data prepared in advance, the selection model for selecting the discriminative model of the object is learned.
  • the recording medium is Foreground extraction is performed from the input image and the foreground extraction result is generated. Using the foreground extraction result, the state of the foreground is extracted.
  • a program for causing a computer to execute a process of learning a selection model for selecting an object identification model based on the state of the foreground and the correct answer data prepared in advance is recorded.
  • moving objects included in an image can be accurately identified.
  • the hardware configuration of the foreground extraction device according to the embodiment is shown.
  • the functional configuration of the object identification device according to the first embodiment is shown. It is a figure explaining an example of the foreground extraction method. It is a figure explaining the method of extracting the movement locus feature and the area variation feature from the foreground. It is a figure explaining the method of extracting the visible feature from the foreground.
  • An example of the configuration of the discriminative model selection unit is shown. It is a flowchart of an object identification process.
  • the configuration of the selection model learning device is shown. It is a flowchart of the learning process of a selection model.
  • the configuration of the object identification device and the learning device according to the second embodiment is shown.
  • FIG. 1 is a block diagram showing a hardware configuration of the object identification device according to the first embodiment.
  • the object identification device 100 includes an input IF (InterFace) 12, a processor 13, a memory 14, a recording medium 15, and a database (DB) 16.
  • IF InterFace
  • DB database
  • the input IF 12 acquires an input image to be processed by the object identification device 100. For example, an image of a moving object flying in the sky is input through an input IF 12 by a camera installed on the ground.
  • the processor 13 is a computer such as a CPU (Central Processing Unit), and controls the entire object identification device 100 by executing a program prepared in advance. Specifically, the processor 13 executes the learning process and the object identification process described later.
  • the memory 14 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 14 stores various programs executed by the processor 13.
  • the memory 14 is also used as a working memory during execution of various processes by the processor 13.
  • the recording medium 15 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the object identification device 100.
  • the recording medium 15 records various programs executed by the processor 13. When the object identification device 100 executes various processes, the program recorded on the recording medium 15 is loaded into the memory 14 and executed by the processor 13.
  • Database 16 stores data input from an external device. Specifically, the input image to be processed by the object identification device 100 is stored.
  • the object identification device 100 may include input devices such as a keyboard and a mouse for the user to give instructions and inputs, and a display unit.
  • FIG. 2 is a block diagram showing a functional configuration of the object identification device 100 according to the first embodiment.
  • the object identification device 100 includes a foreground extraction unit 21, a state extraction unit 22, an identification model selection unit 23, an identification unit 24, a foreground extraction model storage unit 25, and a selection model storage unit 26. It includes an identification model storage unit 27.
  • the foreground extraction unit 21 extracts the foreground from the input image.
  • the foreground is a part other than the background in the input image, and is a region corresponding to a moving object to be identified.
  • the foreground extraction model storage unit 25 stores a plurality of foreground extraction models for extracting the foreground from the input image.
  • the foreground extraction unit 21 acquires the foreground extraction model from the foreground extraction model storage unit 25 and extracts the foreground from the input image.
  • FIG. 3 is a diagram illustrating an example of a foreground extraction method.
  • the foreground extraction unit 21 applies a plurality of foreground extraction models to the input image to obtain a foreground extraction result.
  • the foreground extraction unit 21 applies the foreground extraction models M1 to M3 to the input image, votes for the obtained foreground extraction results 31 to 33, and outputs the foreground extraction result.
  • Voting here is by a majority. That is, the foreground extraction unit 21 includes the foreground included in the majority of the foreground extraction results 31 to 33 in the foreground extraction result.
  • FIG. 3 is a diagram illustrating an example of a foreground extraction method.
  • the foreground extraction unit 21 applies a plurality of foreground extraction models to the input image to obtain a foreground extraction result.
  • the foreground extraction unit 21 applies the foreground extraction models M1 to M3 to the input image, votes for the obtained foreground extraction results 31 to 33, and outputs the foreground extraction
  • the state extraction unit 22 extracts the state of each foreground based on the foreground extraction result.
  • the "state” includes a movement locus feature of the foreground, an area variation feature, and a visible feature.
  • the state extraction unit 22 first tracks the foreground using the foreground extraction results for a plurality of (N) adjacent frames of the input image.
  • FIG. 4A is a diagram illustrating tracking of the foreground. In this example, 3 frames are used.
  • the state extraction unit 22 tracks the same foreground in the foreground extraction results 41 to 43 obtained for the first to third frames.
  • the state extraction unit 22 tracks the triangular foreground FG1 in each foreground extraction result 41 to 43, and generates the correspondence of the foreground FG1 in each frame.
  • the state extraction unit 22 also tracks the circular foreground FG2.
  • the state extraction unit 22 extracts the area fluctuation feature.
  • the area variation feature indicates the rate of variation of the foreground area between adjacent frames.
  • FIG. 4B is a diagram illustrating a method for extracting the area variation feature.
  • the state extraction unit 22 calculates the area of the foreground in the foreground extraction results 41 to 43 of the first frame to the third frame, and obtains the area fluctuation feature as follows.
  • “R” indicates the area variation of the foreground
  • “R12” indicates the ratio of the area of a certain foreground in the first frame to the area in the second frame.
  • the state extraction unit 22 extracts the area variation feature Area for all the foregrounds included in the foreground extraction result.
  • the state extraction unit 22 extracts the appearance feature.
  • the visual feature is a feature of how the foreground looks in the input image.
  • FIG. 5 is a diagram illustrating a method of extracting visual features.
  • the state extraction unit 22 extracts visible features using a feature extractor 51 using a neural network.
  • the feature extractor 51 may be any feature extractor used in general object recognition, and for example, VGG16, ResNet, or the like can be used.
  • the feature extractor 51 has already been learned.
  • the state extraction unit 22 cuts out a foreground region from the input image based on the foreground extraction result of each frame generated by the foreground extraction unit 21.
  • the state extraction unit 22 cuts out the region of the foreground FG1 from the images of the first to third frames and inputs it to the feature extractor 51. That is, a temporal change image of the foreground region associated with the above tracking is input to the feature extractor 51.
  • the feature extractor 51 extracts the features of the foreground from the input image of the foreground region and outputs the feature vector.
  • the state extraction unit 22 uses the output feature vector as the visible feature A.
  • the state extraction unit 22 outputs the visible feature A for all the foregrounds included in the foreground extraction result.
  • the state extraction unit 22 extracts a state including the movement locus feature, the area variation feature, and the appearance feature for each foreground based on the foreground extraction result for N frames generated by the foreground extraction unit 21.
  • the identification model selection unit 23 selects an identification model for identifying an object based on the state extracted by the state extraction unit 22.
  • the identification model storage unit 27 stores a plurality of identification models for identifying an object.
  • the discriminative model to be used differs depending on the situation of the foreground in the input image. Therefore, in the present embodiment, the discriminative model selection unit 23 selects an appropriate discriminative model or a plurality of discriminative models from a plurality of discriminative models prepared in advance.
  • the selection model storage unit 26 stores a selection model that is a model for selecting an appropriate identification model according to the state at that time from a plurality of identification models.
  • the discriminative model selection unit 23 acquires a selection model from the selection model storage unit 26, and uses the selection model to select an identification model suitable for the state of the foreground.
  • the selection model storage unit 26 stores a selection model that has been learned in advance.
  • FIG. 6 shows an example of the configuration of the identification model selection unit 23.
  • the likelihood estimator 61 is used as the selection model.
  • the state extracted by the state extraction unit 22 is input to the likelihood estimator 61.
  • the state includes a visible feature A, a movement locus feature T, and an area variation feature Area.
  • the likelihood estimator 61 is configured by a neural network, and for example, a CNN (Convolutional Neural Network), an RNN (Recurrent Neural Network), or the like can be used.
  • the likelihood estimator 61 learns the likelihood of selecting a plurality of discriminative models based on the input state.
  • the likelihood estimator 61 generates likelihoods y1 to yn for selecting the models for each of the identification models 1 to N, and outputs the selection results to the identification unit 24.
  • the identification unit 24 acquires an identification model to be used from the identification model storage unit 27 based on the selection result input from the identification model selection unit 23. Further, the identification unit 24 acquires the extracted state, that is, the movement locus feature T, the area fluctuation feature Area, and the appearance feature A from the state extraction unit 22. Then, the identification unit 24 identifies the object from the state by using the acquired identification model.
  • the discriminative unit 24 identifies an object using one discriminative model having the highest likelihood output by the discriminative model selection unit 23.
  • the discriminative unit 24 may discriminate an object using a predetermined number of discriminative models having a higher likelihood output by the discriminative model selection unit 23.
  • the discriminative unit 24 uses the likelihood output by the discriminative model selection unit 23 as a weight for selecting each discriminative model, weights the discriminative result by each discriminative model, and obtains the final discriminative result. You may try to get it. For example, the likelihood y1 output by the likelihood estimator 61 is "0.5", the likelihood y2 is "0.3”, the likelihood y3 is "0.2”, and the likelihoods y4 to yn are all "0".
  • the identification unit 24 sets the weight for the identification result of the identification model 1 to "0.5", the weight for the identification result of the identification model 2 to "0.3", and the weight to the identification result of the identification model 3 to "0.
  • the final identification result may be calculated by weighting and adding each identification result as "2".
  • the discriminative model storage unit 27 is prepared with a plurality of discriminative models for identifying an object, and the three features (that is, the movement locus feature T, the area variation feature Area, and the area variation feature Area) in which all the discriminative models are included in the state
  • the appearance feature A is not always used to identify the object. That is, one discriminative model is a model that uses only the visible feature A, and another discriminative model is a model that uses the movement locus feature T and the area variation k same feature Area.
  • the discriminative unit 24 identifies the feature to be used as an input by the discriminative model, and then identifies the object.
  • the discriminative unit 24 prepares in advance a function indicating which feature each of the prepared discriminative models uses as an input, and uses this function for each discriminative model.
  • F (m) a function that inputs the ID "m" of the discriminative model and outputs the feature used by the discriminative model among the three states, as shown below. May be good.
  • F (m) ⁇ A, T, Area ⁇
  • F (1) ⁇ 1,1,0 ⁇
  • the discriminative model 1 indicates that the visible feature A and the movement locus feature T are used as inputs.
  • the state extraction unit 22 extracts the state for each foreground, and the identification model selection unit 23 selects the identification model for each foreground. Therefore, the identification unit 24 can identify the object by using the optimum identification model for each foreground.
  • FIG. 7 is a flowchart of the object identification process by the object identification device 100. This process is realized by the processor 13 shown in FIG. 1 executing a program prepared in advance and operating as each element shown in FIG.
  • the foreground extraction unit 21 extracts the foreground from a plurality of frames of the input image (step S11). Specifically, the foreground extraction unit 21 acquires the foreground extraction model from the foreground extraction model storage unit 25 and extracts the foreground. The foreground extraction result is input to the state extraction unit 22.
  • the state extraction unit 22 tracks the foreground included in the foreground extraction result of the N frame (step S12), and obtains the state of each foreground using the tracking result (step S13). Specifically, the state extraction unit 22 extracts a state including the movement locus feature T, the area fluctuation feature Area, and the appearance feature A for each foreground. The extracted state is input to the identification model selection unit 23 and the identification unit 24.
  • the discriminative model selection unit 23 acquires a selection model from the selection model storage unit 26, and uses the selection model to select an identification model based on the state input from the state extraction unit 22 (step S14). ..
  • the discriminative unit 24 identifies the features to be used as the sylvia for one or more discriminative models selected using the selection model (step S15). This selection is made, for example, using the function F (m) described above.
  • the identification unit 14 identifies the foreground, that is, the moving object from the features selected in step S15 by using the identification model selected in step S14 (step S17).
  • the object identification device 100 determines whether or not there are remaining frames in the input image (step S17). If there are remaining frames (step S17: Yes), the process returns to step S11, and the processes of steps S11 to S16 are performed for the next frame set. For example, when object identification is performed using three adjacent frames as described above, the object identification device 100 first performs the processes of steps S11 to S16 with the first to third frames 2 as one frame set, and then performs the processing of steps S11 to S16. The process of steps S11 to S16 is performed by shifting one frame and using the second to fourth frames as one frame set. On the other hand, when there are no remaining frames (step S17: No), the process ends.
  • FIG. 8A is a block diagram showing the configuration of the selection model learning device 200.
  • the selection model learning device 200 includes a foreground extraction unit 71, a state extraction unit 72, a selection model learning unit 73, a foreground extraction model storage unit 74, and a selection model storage unit 75.
  • the foreground extraction unit 71, the state extraction unit 72, and the foreground extraction model storage unit 74 are basically the same as the foreground extraction unit 21, the state extraction unit 22, and the foreground extraction model storage unit 25 of the object identification device 100 shown in FIG. Is.
  • An input image for learning is input to the foreground extraction unit 71.
  • the foreground extraction unit 71 extracts the foreground from the input image for learning and outputs it to the state extraction unit 72.
  • the state extraction unit 72 extracts a state from the extracted foreground and outputs it to the selection model learning unit 73.
  • the selection model learning unit 73 learns the selection model based on the state extracted by the state extraction unit 72.
  • FIG. 8B is a block diagram showing the configuration of the selection model learning unit 73.
  • the selection model learning unit 73 includes a likelihood estimator 61 using the selection model and a learning unit 76.
  • the state extracted from the input image for learning is input to the likelihood estimator 61.
  • the likelihood estimator 61 outputs the likelihoods y1 to yn of each discriminative model 1 to N based on the input state.
  • the correct answer data Y is prepared for the input image for learning.
  • the training data is a value indicating a discriminative model suitable for discriminating the foreground for each foreground included in the input image for learning.
  • the discriminative model 1 suitable for discriminating a certain foreground for example, a bird
  • the value of the discriminative model 1 is "1" and the value of the other discriminative model is "0" in the correct answer data Y. ".
  • the correct answer data Y has a value of the discriminative model 1 of "0.5” and the discriminative model 2 has a value of "0.5”, and the values of other discriminative models are "0".
  • the learning unit 76 uses the sum of the differences between the correct answer data Y and the likelihood y1 to yn output by the likelihood estimator 61 as a loss, and optimizes the likelihood estimator 61 so that the loss becomes small. Then, the selection model learning unit 73 stores the parameters of the likelihood estimator 61 at the time when the predetermined end condition is satisfied in the selection model storage unit 26 as a learned selection model.
  • FIG. 9 is a flowchart of the learning process of the selected model. This process is realized by the processor 13 shown in FIG. 1 executing a program prepared in advance.
  • the foreground extraction unit 71 extracts the foreground from a plurality of frames of the input image (step S21).
  • the foreground extraction result is input to the state extraction unit 72.
  • the state extraction unit 72 tracks the foreground included in the foreground extraction result of the N frame (step S22), and obtains the state of each foreground using the tracking result (step S23).
  • the state extraction unit 22 extracts a state including the movement locus feature T, the area fluctuation feature Area, and the appearance feature A for each foreground.
  • the selection model learning unit 73 acquires a selection model from the selection model storage unit 75, and uses the selection model to select an identification model based on the state input from the state extraction unit 72 (step S24). .. Next, the selection model learning unit 73 calculates the loss between the correct answer data Y and the likelihood y which is the selection result by the selection model (step S25), and optimizes the selection model so that the loss becomes small (step). S26).
  • the selection model learning device 200 determines whether the learning is completed, that is, whether or not the predetermined end condition is satisfied (step S27). Steps S21 to S26 are repeated using the input image for learning until the end condition is satisfied, and when the end condition is satisfied, the learning process ends.
  • FIG. 10A is a block diagram showing the configuration of the object identification device according to the second embodiment.
  • the object identification device 80 includes a foreground extraction unit 81, a state extraction unit 82, an identification model selection unit 83, and an identification unit 84.
  • the foreground extraction unit 81 extracts the foreground from the input image and generates the foreground extraction result.
  • the state extraction unit 82 extracts the state of the foreground based on the foreground extraction result.
  • the discriminative model selection unit 83 selects one or a plurality of discriminative models based on the extracted state by using the discriminative model.
  • the identification unit 84 identifies a moving object included in the input image by using the selected identification model.
  • FIG. 10B is a block diagram showing the configuration of the learning device according to the second embodiment.
  • the learning device 90 includes a foreground extraction unit 91, a state extraction unit 92, and a learning unit 93.
  • the foreground extraction unit 91 extracts the foreground from the input image and generates the foreground extraction result.
  • the state extraction unit 92 extracts the state of the foreground using the foreground extraction result.
  • the learning unit 93 learns a selection model that selects an object identification model based on the state of the foreground and the correct answer data prepared in advance.
  • Foreground extraction unit that extracts the foreground from the input image and generates the foreground extraction result
  • a state extraction unit that extracts the state of the foreground based on the foreground extraction result
  • a discriminative model selection unit that selects one or more discriminative models based on the extracted state using the discriminative model. Using the selected identification model, an identification unit that identifies moving objects included in the input image, and an identification unit.
  • An object identification device comprising.
  • the foreground extraction unit generates the foreground extraction result for a predetermined number of frames of the input image, and generates the foreground extraction result.
  • the object identification device according to Appendix 1, wherein the state extraction unit extracts the state of the foreground using the foreground extraction results in the predetermined number of frames.
  • Appendix 3 The object identification device according to Appendix 2, wherein the state extraction unit extracts the appearance features of the foreground included in the predetermined number of frames and outputs them as the state of the foreground.
  • Appendix 4 The object according to Appendix 3, wherein the state extraction unit extracts a foreground region corresponding to the same foreground from each of the predetermined number of frames, and outputs a feature vector extracted from the predetermined number of foreground regions as the appearance feature. Identification device.
  • Appendix 6 The object identification device according to Appendix 5, wherein the state extraction unit extracts movement locus features including the same foreground coordinates and movement amount in the predetermined number of frames and outputs them as the foreground state.
  • the identification unit identifies one or a plurality of features used by the selected identification model among the features included in the foreground state, and identifies the moving object based on the features.
  • the object identification device according to any one of the above items.
  • Foreground extraction is performed from the input image and the foreground extraction result is generated. Based on the foreground extraction result, the state of the foreground is extracted. Using the selection model, one or more discriminative models are selected based on the extracted state. An object identification method for identifying a moving object included in the input image using the selected identification model.
  • Foreground extraction is performed from the input image and the foreground extraction result is generated. Based on the foreground extraction result, the state of the foreground is extracted. Using the selection model, one or more discriminative models are selected based on the extracted state.
  • a recording medium recording a program that causes a computer to execute a process of identifying a moving object included in the input image using the selected identification model.
  • Foreground extraction unit that extracts the foreground from the input image and generates the foreground extraction result
  • a state extraction unit that extracts the state of the foreground using the foreground extraction result
  • a learning unit that learns a selection model that selects an object identification model based on the state of the foreground and the correct answer data prepared in advance.
  • a learning device equipped with
  • Foreground extraction is performed from the input image and the foreground extraction result is generated. Using the foreground extraction result, the state of the foreground is extracted.
  • a learning method for learning a selection model that selects an object identification model based on the state of the foreground and the correct answer data prepared in advance.
  • Foreground extraction is performed from the input image and the foreground extraction result is generated. Using the foreground extraction result, the state of the foreground is extracted.
  • a recording medium that records a program that causes a computer to execute a process of learning a selection model that selects an object identification model based on the state of the foreground and correct answer data prepared in advance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

物体識別装置において、前景抽出部は、入力画像から前景抽出を行い前景抽出結果を生成する。状態抽出部は、前景抽出結果に基づいて、前景の状態を抽出する。識別モデル選択部は、選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択する。識別部は、選択された識別モデルを用いて、入力画像に含まれる移動物体を識別する。

Description

物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体
 本発明は、画像に含まれる物体を識別する技術に関する。
 近年、様々な用途にドローンが利用されている。ドローンの利用が普及すると、ドローンの航空管制が必要になると考えられる。例えば、地上に設置したカメラにより撮影した映像を用いて、管理対象となるドローンの周辺を監視することが必要となる。具体的に、ドローンの航空管制業務では、撮影画像に基づいて小さな移動物体を検出し、鳥や管理対象以外のドローンなどの制御不可能な物体を識別し、管理対象のドローンを即座に制御して自動的に衝突回避を行う必要がある。このため、管理対象のドローンの付近における飛行物体の種類を識別する必要がある。
 特許文献1は、空中画像から目標物を抽出する手法であって、目標物の種別に応じて目標物の抽出に最適な抽出手段を選択する手法を記載している。
特開2013-307106号公報
 上記の特許文献1は、目標物の種別毎に最適な抽出手法を用いているが、同じ種別の目標物であっても飛行状態などが異なる場合には抽出精度が低下することが考えられる。
 本発明の1つの目的は、画像に含まれる移動物体を正確に識別することにある。
 本発明の一つの観点では、物体識別装置は、
 入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
 前記前景抽出結果に基づいて、前景の状態を抽出する状態抽出部と、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択する識別モデル選択部と、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する識別部と、を備える。
 本発明の他の観点では、物体識別方法は、
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果に基づいて、前景の状態を抽出し、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する。
 本発明の他の観点では、記録媒体は、
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果に基づいて、前景の状態を抽出し、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する処理をコンピュータに実行させるプログラムを記録する。
 本発明の他の観点では、学習装置は、
 入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
 前記前景抽出結果を用いて、前景の状態を抽出する状態抽出部と、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する学習部と、を備える。
 本発明の他の観点では、学習方法は、
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果を用いて、前景の状態を抽出し、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する。
 本発明の他の観点では、記録媒体は、
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果を用いて、前景の状態を抽出し、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、画像に含まれる移動物体を正確に識別することができる。
実施形態に係る前景抽出装置のハードウェア構成を示す。 第1実施形態に係る物体識別装置の機能構成を示す。 前景抽出方法の一例を説明する図である。 前景から移動軌跡特徴及び面積変動特徴を抽出する方法を説明する図である。 前景から見え特徴を抽出する方法を説明する図である。 識別モデル選択部の構成の一例を示す。 物体識別処理のフローチャートである。 選択モデル学習装置の構成を示す。 選択モデルの学習処理のフローチャートである。 第2実施形態に係る物体識別装置及び学習装置の構成を示す。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 <基本概念>
 まず、実施形態に係る物体識別手法の基本概念について説明する。いま、空を撮影した画像から、飛行中の移動物体を識別することを考える。移動物体のサイズが小さい場合、撮影画像における移動物体の見え方はほとんど変わらないため、移動物体の見え方に注目して識別を行うと精度が低下してしまう。よって、この場合、移動物体の挙動や移動軌跡などに注目して識別を行うことが好ましい。一方、移動物体のサイズが大きい場合、移動物体の見え方に注目すればある程度の精度で識別が可能となる。よって、撮影画像における移動物体の状態に応じて識別方法、即ち、使用する識別モデルを選択する必要がある。以下の実施形態では、移動物体の状態に応じて、識別モデルを適切に選択する手法を提供する。
 [第1実施形態]
 (ハードウェア構成)
 図1は、第1実施形態に係る物体識別装置のハードウェア構成を示すブロック図である。図示のように、物体識別装置100は、入力IF(InterFace)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
 入力IF12は、物体識別装置100が処理の対象とする入力画像を取得する。例えば、地上に設置されたカメラにより、空を飛行する移動物体を撮影した画像が入力IF12を通じて入力される。プロセッサ13は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体識別装置100の全体を制御する。具体的に、プロセッサ13は、後述する学習処理及び物体識別処理を実行する。
 メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13により実行される各種のプログラムを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体識別装置100に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。物体識別装置100が各種の処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
 データベース16は、外部装置から入力されるデータを記憶する。具体的には、物体識別装置100が処理の対象とする入力画像が記憶される。なお、上記に加えて、物体識別装置100は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器や、表示部を備えていても良い。
 (機能構成)
 図2は、第1実施形態に係る物体識別装置100の機能構成を示すブロック図である。図示のように、物体識別装置100は、前景抽出部21と、状態抽出部22と、識別モデル選択部23と、識別部24と、前景抽出モデル記憶部25と、選択モデル記憶部26と、識別モデル記憶部27と、を備える。
 前景抽出部21は、入力画像から前景を抽出する。前景は、入力画像における背景以外の箇所であり、識別の対象となる移動物体に対応する領域である。前景抽出モデル記憶部25は、入力画像から前景を抽出するための複数の前景抽出モデルを記憶している。前景抽出部21は、前景抽出モデル記憶部25から前景抽出モデルを取得し、入力画像から前景を抽出する。
 図3は、前景抽出方法の一例を説明する図である。前景抽出部21は、入力画像に対して複数の前景抽出モデルを適用して前景抽出結果を得る。図3の例では、前景抽出部21は入力画像に対して前景抽出モデルM1~M3を適用し、得られた前景抽出結果31~33をに対して投票を行って前景抽出結果を出力する。ここでの投票は過半数による。即ち、前景抽出部21は、前景抽出結果31~33の過半数に含まれる前景を前景抽出結果に含める。図3の例では、前景抽出結果31~33の全てに含まれる三角形の前景FG1と、前景抽出結果31及び32に含まれる円形(円及び楕円)の前景FG2とが抽出され、状態抽出部22に出力される。
 状態抽出部22は、前景抽出結果に基づいて、各前景の状態を抽出する。ここで、「状態」は、前景の移動軌跡特徴と、面積変動特徴と、見え特徴とを含む。具体的に、状態抽出部22は、まず入力画像の隣接する複数(N個)のフレームに対する前景抽出結果を用いて、前景を追跡する。図4(A)は、前景の追跡を説明する図である。この例では、3フレームを用いている。状態抽出部22は、第1~第3フレームについて得られた前景抽出結果41~43において、同一の前景を追跡する。図4(A)の例では、状態抽出部22は、各前景抽出結果41~43において三角形の前景FG1を追跡し、各フレームにおける前景FG1の対応関係を生成する。なお、状態抽出部22は、同様に円形の前景FG2も追跡する。
 次に、状態抽出部22は、前景の追跡結果に基づいて、移動軌跡特徴を抽出する。具体的には、状態抽出部22は、各フレームにおける前景の座標、及び、隣接フレーム間の前景の移動量を取得する。図4(A)の例では、状態抽出部22は、各フレームにおける前景FG1の座標X11、X21、X31と、第1フレームと第2フレームとの間の前景FG1の移動量d12と、第2フレームと第3フレームとの間の前景FG1の移動量d23とを取得する。そして、状態抽出部22は、以下の移動軌跡特徴を生成する。
  移動軌跡特徴:T1={X11,X21,X31,d12,d23}
なお、状態抽出部22は、同様に前景FG2の移動軌跡特徴T2も生成する。
 次に、状態抽出部22は、面積変動特徴を抽出する。面積変動特徴は、隣接するフレーム間における前景の面積の変動割合を示す。図4(B)は、面積変動特徴の抽出方法を説明する図である。状態抽出部22は、第1フレーム~第3フレームの前景抽出結果41~43における前景の面積を算出し、面積変動特徴を以下のように求める。
  面積変動特徴:Area={R12,R23}
 ここで、「R」は前景の面積変動を示し、「R12」はある前景の第1フレームでの面積と第2フレームでの面積の比を示す。例えば、前景FG1の第1フレームでの面積をS1、第2フレームでの面積をS2とすると、R=S1/S2となる。こうして、状態抽出部22は、前景抽出結果に含まれる全ての前景について面積変動特徴Areaを抽出する。
 さらに、状態抽出部22は、見え特徴を抽出する。見え特徴とは、入力画像における前景の見え方の特徴である。図5は、見え特徴の抽出方法を説明する図である。状態抽出部22は、ニューラルネットワークによる特徴抽出器51を用いて見え特徴を抽出する。ここで、特徴抽出器51は、一般物体認識で利用される特徴抽出器であれば何でもよく、例えばVGG16、ResNetなどを用いることができる。なお、特徴抽出器51は、既に学習済みのものである。
 具体的に、状態抽出部22は、前景抽出部21により生成された各フレームの前景抽出結果に基づいて、入力画像から前景領域を切り出す。図4の例では、状態抽出部22は、第1~第3フレームの画像から、前景FG1の領域を切り出し、特徴抽出器51に入力する。即ち、特徴抽出器51には、上記の追跡により対応付けられた前景領域の時間的変化画像が入力される。特徴抽出器51は、入力された前景領域の画像から、前景の特徴を抽出し、特徴ベクトルを出力する。状態抽出部22は、出力された特徴ベクトルを見え特徴Aとして使用する。状態抽出部22は、前景抽出結果に含まれる全ての前景について見え特徴Aを出力する。
 こうして、状態抽出部22は、前景抽出部21により生成されたNフレーム分の前景抽出結果に基づいて、移動軌跡特徴、面積変動特徴及び見え特徴を含む状態を各前景について抽出する。
 識別モデル選択部23は、状態抽出部22が抽出した状態に基づいて、物体を識別するための識別モデルを選択する。識別モデル記憶部27には、物体を識別するための複数の識別モデルが記憶されている。但し、前述のように、入力画像における前景の状況によって、使用すべき識別モデルは異なる。そこで、本実施形態では、識別モデル選択部23は、予め用意された複数の識別モデルから、適切な1又は複数の識別モデルを選択する。
 具体的に、選択モデル記憶部26は、複数の識別モデルから、その時の状態に応じて適切な識別モデルを選択するためのモデルである選択モデルを記憶している。識別モデル選択部23は、選択モデル記憶部26から選択モデルを取得し、その選択モデルを用いて、前景の状態に適した識別モデルを選択する。なお、選択モデル記憶部26には、予め学習済みの選択モデルが記憶されている。
 図6は、識別モデル選択部23の構成の一例を示す。本例では、選択モデルとして尤度推定器61を用いる。図6に示すように、識別モデル選択部23による識別モデルの選択時には、状態抽出部22が抽出した状態が、尤度推定器61に入力される。前述のように、状態は、見え特徴Aと、移動軌跡特徴Tと、面積変動特徴Areaとを含む。尤度推定器61はニューラルネットワークにより構成され、例えば、CNN(Convolutional Neural Network)、RNN(Recurrent Nueral Network)などを用いることができる。尤度推定器61は、入力された状態に基づいて、複数の識別モデルを選択する尤度を学習する。図6の例では、尤度推定器61は、識別モデル1~Nのそれぞれについて、そのモデルを選択する尤度y1~ynを生成し、選択結果として識別部24に出力する。
 識別部24は、識別モデル選択部23から入力された選択結果に基づいて、使用すべき識別モデルを識別モデル記憶部27から取得する。また、識別部24は、状態抽出部22から、抽出された状態、即ち、移動軌跡特徴T、面積変動特徴Area及び見え特徴Aを取得する。そして、識別部24は、取得した識別モデルを用いて、状態から物体を識別する。
 1つの例としては、識別部24は、識別モデル選択部23が出力した尤度が最も高い1つの識別モデルを用いて物体を識別する。他の例では、識別部24は、識別モデル選択部23が出力した尤度が上位である所定数の識別モデルを用いて物体を識別してもよい。さらに他の例では、識別部24は、識別モデル選択部23が出力した尤度を、各識別モデルを選択する重みとして使用し、各識別モデルによる識別結果を重み付けして最終的な識別結果を得るようしてもよい。例えば、尤度推定器61が出力した尤度y1が「0.5」、尤度y2が「0.3」、尤度y3が「0.2」、尤度y4~ynが全て「0」であるとする。この場合、識別部24は、識別モデル1の識別結果に対する重みを「0.5」、識別モデル2の識別結果に対する重みを「0.3」、識別モデル3の識別結果に対する重みを「0.2」として各識別結果を重み付け加算して最終的な識別結果を算出すればよい。
 なお、識別モデル記憶部27には、物体を識別する複数の識別モデルが用意されているが、全ての識別モデルが状態に含まれる3つの特徴(即ち、移動軌跡特徴T、面積変動特徴Area及び見え特徴A)を用いて物体を識別するとは限らない。即ち、ある識別モデルは見え特徴Aのみを用いるモデルであり、別の識別モデルは移動軌跡特徴Tと面積変k同特徴Areaを用いるモデルある、ということがある。この場合、識別部24は、識別モデル選択部23により選択された識別モデルを使用する際、その識別モデルが入力として使用する特徴を特定してから物体を識別を行う。このための一つの方法として、識別部24は、用意された複数の識別モデルの各々が入力としていずれの特徴を使用するかを示す関数を予め用意し、これを用いて各識別モデルが使用する特徴を特定してもよい。具体的には、識別部24は、以下のように、識別モデルのID「m」を入力とし、3つの状態のうちその識別モデルが使用する特徴を出力する関数をF(m)を用いてもよい。
  F(m)={A,T,Area}
例えば、F(1)={1,1,0}である場合、識別モデル1は、入力として見え特徴Aと、移動軌跡特徴Tを使用すること示す。
 なお、入力画像に複数の前景が含まれる場合、状態抽出部22は前景毎に状態を抽出し、識別モデル選択部23は前景毎に識別モデルを選択する。よって、識別部24は、前景毎に最適な識別モデルを用いて物体を識別することができる。
 (物体識別処理)
 図7は、物体識別装置100による物体識別処理のフローチャートである。この処理は、図1に示すプロセッサ13が予め用意されたプログラムを実行し、図2に示す各要素として動作することにより実現される。
 まず、前景抽出部21は、入力画像の複数のフレームから前景を抽出する(ステップS11)。具体的に、前景抽出部21は、前景抽出モデル記憶部25から前景抽出モデルを取得し、前景を抽出する。前景抽出結果は状態抽出部22に入力される。
 次に、状態抽出部22は、Nフレームの前景抽出結果に含まれる前景を追跡し(ステップS12)、追跡結果を用いて各前景の状態を求める(ステップS13)。具体的には、状態抽出部22は、各前景について、移動軌跡特徴T、面積変動特徴Area及び見え特徴Aを含む状態を抽出する。抽出された状態は識別モデル選択部23及び識別部24にに入力される。
 次に、識別モデル選択部23は、選択モデル記憶部26から選択モデルを取得し、その選択モデルを用いて、状態抽出部22から入力された状態に基づいて識別モデルを選択する(ステップS14)。次に、識別部24は、選択モデルを用いて選択した1又は複数の識別モデルについて、にゅりょくとして使用する特徴を特定する(ステップS15)。この選択は、例えば上述の関数F(m)を用いて行われる。そして、識別部14は、ステップS14で選択された識別モデルを用いて、ステップS15で選択された特徴から前景、即ち移動物体を識別する(ステップS17)。
 次に、物体識別装置100は、入力画像に残りのフレームがあるか否かを判定する(ステップS17)。残りのフレームがある場合(ステップS17:Yes)、処理はステップS11へ戻り、次のフレームセットについてステップS11~S16の処理を行う。例えば、前述のように隣接する3フレームを用いて物体識別を行う場合、物体識別装置100は、最初に第1~第3フレーム2を1つのフレームセットとしてステップS11~S16の処理を行い、次にはフレームを1つシフトして第2~第4フレームを1つのフレームセットとしてステップS11~S16の処理を行う。一方、残りのフレームがない場合(ステップS17:No)、処理は終了する。
 (選択モデルの学習)
 次に、選択モデルの学習について説明する。前述の物体識別装置100においては、既に学習済みの選択モデルが選択モデル記憶部26に記憶されており、識別モデル選択部23は、その選択モデルを用いて識別モデルを選択している。以下、選択モデルの学習について説明する。
 図8(A)は、選択モデル学習装置200の構成を示すブロック図である。選択モデル学習装置200は、前景抽出部71と、状態抽出部72と、選択モデル学習部73と、前景抽出モデル記憶部74と、選択モデル記憶部75と、を備える。なお、前景抽出部71、状態抽出部72、前景抽出モデル記憶部74は、図2に示す物体識別装置100の前景抽出部21、状態抽出部22及び前景抽出モデル記憶部25と基本的に同一である。なお、前景抽出部71には、学習用の入力画像が入力される。
 前景抽出部71は、学習用の入力画像から前景を抽出し、状態抽出部72に出力する。状態抽出部72は、抽出された前景から状態を抽出し、選択モデル学習部73に出力する。選択モデル学習部73は、状態抽出部72が抽出した状態に基づいて、選択モデルを学習する。
 図8(B)は、選択モデル学習部73の構成を示すブロック図である。選択モデル学習部73は、選択モデルを用いる尤度推定器61と、学習部76とを備える。尤度推定器61には、学習用の入力画像から抽出された状態が入力される。尤度推定器61は、入力された状態に基づいて各識別モデル1~Nの尤度y1~ynを出力する。一方、学習用の入力画像については、正解データYが用意されている。学習データは、学習用の入力画像に含まれる前景毎に、その前景を識別するのに適した識別モデルを示す値である。例えば、ある前景(例えば鳥)を識別するのに適した識別モデルが識別モデル1である場合、正解データYは、識別モデル1の値が「1」、それ以外の識別モデルの値が「0」となっている。また、ある前景を識別するのに、識別モデル1と識別モデル2を1:1の割合で使用するのが好ましいという場合、正解データYは識別モデル1の値が「0.5」、識別モデル2が値を「0.5」、その他の識別モデルの値が「0」となっている。
 学習部76は、正解データYと、尤度推定器61が出力した尤度y1~ynとの差の総和を損失とし、損失が小さくなるように尤度推定器61を最適化する。そして、選択モデル学習部73は、所定の終了条件が具備された時点の尤度推定器61のパラメータなどを学習済みの選択モデルとして選択モデル記憶部26に記憶する。
 図9は、選択モデルの学習処理のフローチャートである。この処理は、図1に示すプロセッサ13が、予め用意されたプログラムを実行することにより実現される。まず、前景抽出部71は、入力画像の複数のフレームから前景を抽出する(ステップS21)。前景抽出結果は状態抽出部72に入力される。次に、状態抽出部72は、Nフレームの前景抽出結果に含まれる前景を追跡し(ステップS22)、追跡結果を用いて各前景の状態を求める(ステップS23)。具体的には、状態抽出部22は、各前景について、移動軌跡特徴T、面積変動特徴Area及び見え特徴Aを含む状態を抽出する。
 次に、選択モデル学習部73は、選択モデル記憶部75から選択モデルを取得し、その選択モデルを用いて、状態抽出部72から入力された状態に基づいて識別モデルを選択する(ステップS24)。次に、選択モデル学習部73は、正解データYと、選択モデルによる選択結果である尤度yとの損失を算出し(ステップS25)、損失が小さくなるように選択モデルを最適化する(ステップS26)。
 次に、選択モデル学習装置200は、学習が終了したか、即ち、所定の終了条件が具備されたか否かを判定する(ステップS27)。終了条件が具備されるまで、学習用の入力画像を用いてステップS21~S26が繰り返され、終了条件が具備されると、学習処理は終了する。
 [第2実施形態]
 図10(A)は、第2実施形態に係る物体識別装置の構成を示すブロック図である。物体識別装置80は、前景抽出部81と、状態抽出部82と、識別モデル選択部83と、識別部84と、を備える。前景抽出部81は、入力画像から前景抽出を行い前景抽出結果を生成する。状態抽出部82は、前景抽出結果に基づいて、前景の状態を抽出する。識別モデル選択部83は、選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択する。識別部84は、選択された識別モデルを用いて、入力画像に含まれる移動物体を識別する。
 図10(B)は、第2実施形態に係る学習装置の構成を示すブロック図である。学習装置90は、前景抽出部91と、状態抽出部92と、学習部93と、を備える。前景抽出部91は、入力画像から前景抽出を行い前景抽出結果を生成する。状態抽出部92は、前景抽出結果を用いて、前景の状態を抽出する。学習部93は、前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
 前記前景抽出結果に基づいて、前景の状態を抽出する状態抽出部と、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択する識別モデル選択部と、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する識別部と、
 を備える物体識別装置。
 (付記2)
 前記前景抽出部は、前記入力画像の所定数のフレームについて前記前景抽出結果を生成し、
 前記状態抽出部は、前記所定数のフレームにおける前記前景抽出結果を用いて前記前景の状態を抽出する付記1に記載の物体識別装置。
 (付記3)
 前記状態抽出部は、前記所定数のフレームに含まれる前景の見え特徴を抽出し、前記前景の状態として出力する付記2に記載の物体識別装置。
 (付記4)
 前記状態抽出部は、前記所定数のフレームの各々から同一の前景に対応する前景領域を抽出し、前記所定数の前景領域から抽出した特徴ベクトルを前記見え特徴として出力する付記3に記載の物体識別装置。
 (付記5)
 前記状態抽出部は、前記所定数のフレームにおける同一の前景の移動軌跡特徴を抽出し、前記前景の状態として出力する付記2乃至4のいずれか一項に記載の物体識別装置。
 (付記6)
 前記状態抽出部は、前記所定数のフレームにおける同一の前景の座標及び移動量を含む移動軌跡特徴を抽出し、前記前景の状態として出力する付記5に記載の物体識別装置。
 (付記7)
 前記状態抽出部は、前記所定数のフレームの各々から同一の前景の面積変動を抽出し、前記前景の状態として出力する付記2乃至6のいずれか一項に記載の物体識別装置。
 (付記8)
 前記選択モデルは、前記前景の状態を入力とし、前記複数の識別モデルを選択する尤度を出力するように学習されたモデルである付記1乃至7のいずれか一項に記載の物体識別装置。
 (付記9)
 前記識別部は、前記前景の状態に含まれる特徴のうち、前記選択された識別モデルが使用する1又は複数の特徴を特定し、当該特徴に基づいて前記移動物体の識別を行う付記1乃至8のいずれか一項に記載の物体識別装置。
 (付記10)
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果に基づいて、前景の状態を抽出し、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する物体識別方法。
 (付記11)
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果に基づいて、前景の状態を抽出し、
 選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
 選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 (付記12)
 入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
 前記前景抽出結果を用いて、前景の状態を抽出する状態抽出部と、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する学習部と、
 を備える学習装置。
 (付記13)
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果を用いて、前景の状態を抽出し、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する学習方法。
 (付記14)
 入力画像から前景抽出を行い前景抽出結果を生成し、
 前記前景抽出結果を用いて、前景の状態を抽出し、
 前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 21、71 前景抽出部
 22、72 状態抽出部
 23 識別モデル選択部
 24 識別部
 25、74 前景抽出モデル記憶部
 26、75 選択モデル記憶部
 27 識別モデル記憶部
 51 特徴抽出器
 61 尤度推定器
 73 選択モデル学習部
 76 学習部

Claims (14)

  1.  入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
     前記前景抽出結果に基づいて、前景の状態を抽出する状態抽出部と、
     選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択する識別モデル選択部と、
     選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する識別部と、
     を備える物体識別装置。
  2.  前記前景抽出部は、前記入力画像の所定数のフレームについて前記前景抽出結果を生成し、
     前記状態抽出部は、前記所定数のフレームにおける前記前景抽出結果を用いて前記前景の状態を抽出する請求項1に記載の物体識別装置。
  3.  前記状態抽出部は、前記所定数のフレームに含まれる前景の見え特徴を抽出し、前記前景の状態として出力する請求項2に記載の物体識別装置。
  4.  前記状態抽出部は、前記所定数のフレームの各々から同一の前景に対応する前景領域を抽出し、前記所定数の前景領域から抽出した特徴ベクトルを前記見え特徴として出力する請求項3に記載の物体識別装置。
  5.  前記状態抽出部は、前記所定数のフレームにおける同一の前景の移動軌跡特徴を抽出し、前記前景の状態として出力する請求項2乃至4のいずれか一項に記載の物体識別装置。
  6.  前記状態抽出部は、前記所定数のフレームにおける同一の前景の座標及び移動量を含む移動軌跡特徴を抽出し、前記前景の状態として出力する請求項5に記載の物体識別装置。
  7.  前記状態抽出部は、前記所定数のフレームの各々から同一の前景の面積変動を抽出し、前記前景の状態として出力する請求項2乃至6のいずれか一項に記載の物体識別装置。
  8.  前記選択モデルは、前記前景の状態を入力とし、前記複数の識別モデルを選択する尤度を出力するように学習されたモデルである請求項1乃至7のいずれか一項に記載の物体識別装置。
  9.  前記識別部は、前記前景の状態に含まれる特徴のうち、前記選択された識別モデルが使用する1又は複数の特徴を特定し、当該特徴に基づいて前記移動物体の識別を行う請求項1乃至8のいずれか一項に記載の物体識別装置。
  10.  入力画像から前景抽出を行い前景抽出結果を生成し、
     前記前景抽出結果に基づいて、前景の状態を抽出し、
     選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
     選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する物体識別方法。
  11.  入力画像から前景抽出を行い前景抽出結果を生成し、
     前記前景抽出結果に基づいて、前景の状態を抽出し、
     選択モデルを用いて、抽出された状態に基づいて1又は複数の識別モデルを選択し、
     選択された識別モデルを用いて、前記入力画像に含まれる移動物体を識別する処理をコンピュータに実行させるプログラムを記録した記録媒体。
  12.  入力画像から前景抽出を行い前景抽出結果を生成する前景抽出部と、
     前記前景抽出結果を用いて、前景の状態を抽出する状態抽出部と、
     前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する学習部と、
     を備える学習装置。
  13.  入力画像から前景抽出を行い前景抽出結果を生成し、
     前記前景抽出結果を用いて、前景の状態を抽出し、
     前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する学習方法。
  14.  入力画像から前景抽出を行い前景抽出結果を生成し、
     前記前景抽出結果を用いて、前景の状態を抽出し、
     前記前景の状態と、予め用意された正解データとに基づいて、物体の識別モデルを選択する選択モデルを学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2019/050615 2019-12-24 2019-12-24 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体 WO2021130856A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021566431A JP7331947B2 (ja) 2019-12-24 2019-12-24 物体識別装置、物体識別方法、学習装置、学習方法、及び、プログラム
PCT/JP2019/050615 WO2021130856A1 (ja) 2019-12-24 2019-12-24 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体
US17/783,429 US20220392212A1 (en) 2019-12-24 2019-12-24 Object identification apparatus, object identification method, learning apparatus,learning method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050615 WO2021130856A1 (ja) 2019-12-24 2019-12-24 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021130856A1 true WO2021130856A1 (ja) 2021-07-01

Family

ID=76575776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050615 WO2021130856A1 (ja) 2019-12-24 2019-12-24 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US20220392212A1 (ja)
JP (1) JP7331947B2 (ja)
WO (1) WO2021130856A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023053364A1 (ja) * 2021-09-30 2023-04-06 楽天グループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013065118A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 顔認識装置、及び顔認識方法
JP2014178736A (ja) * 2013-03-13 2014-09-25 Denso Corp 物体検出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013065118A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 顔認識装置、及び顔認識方法
JP2014178736A (ja) * 2013-03-13 2014-09-25 Denso Corp 物体検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023053364A1 (ja) * 2021-09-30 2023-04-06 楽天グループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JPWO2021130856A1 (ja) 2021-07-01
US20220392212A1 (en) 2022-12-08
JP7331947B2 (ja) 2023-08-23

Similar Documents

Publication Publication Date Title
CN107403426B (zh) 一种目标物体检测方法及设备
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US20180319015A1 (en) Apparatus and methods for hierarchical training of robots
US20230237792A1 (en) Object detection apparatus using an image preprocessing artificial neural network model
KR102532748B1 (ko) 뉴럴 네트워크 학습 방법 및 장치
CN113780466B (zh) 模型迭代优化方法、装置、电子设备和可读存储介质
US11825278B2 (en) Device and method for auto audio and video focusing
JP2021184299A (ja) 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
WO2021221801A1 (en) Training reinforcement machine learning systems with a sub-goal based shaped reward function
JP7446060B2 (ja) 情報処理装置、プログラム及び情報処理方法
US11468296B2 (en) Relative position encoding based networks for action recognition
CN114077899A (zh) 用于在被修改的任务之间进行迁移学习的方法和设备
CN113164056A (zh) 睡眠预测方法、装置、存储介质及电子设备
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
WO2021130856A1 (ja) 物体識別装置、物体識別方法、学習装置、学習方法、及び、記録媒体
US20230206601A1 (en) Device and method for classifying images and accessing the robustness of the classification
CN111242176A (zh) 计算机视觉任务的处理方法、装置及电子系统
CN112997148A (zh) 睡眠预测方法、装置、存储介质及电子设备
US10917721B1 (en) Device and method of performing automatic audio focusing on multiple objects
Nikpour et al. Deep reinforcement learning in human activity recognition: A survey
US20230386185A1 (en) Statistical model-based false detection removal algorithm from images
CN113688810B (zh) 一种边缘设备的目标捕获方法、系统及相关设备
JP7347539B2 (ja) 前景抽出装置、前景抽出方法、及び、プログラム
US11218803B2 (en) Device and method of performing automatic audio focusing on multiple objects
CN113947208A (zh) 用于创建机器学习系统的方法和设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957425

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566431

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957425

Country of ref document: EP

Kind code of ref document: A1