WO2022003973A1 - 訓練データ選別装置、訓練データ選別方法及びプログラム - Google Patents

訓練データ選別装置、訓練データ選別方法及びプログラム Download PDF

Info

Publication number
WO2022003973A1
WO2022003973A1 PCT/JP2020/026262 JP2020026262W WO2022003973A1 WO 2022003973 A1 WO2022003973 A1 WO 2022003973A1 JP 2020026262 W JP2020026262 W JP 2020026262W WO 2022003973 A1 WO2022003973 A1 WO 2022003973A1
Authority
WO
WIPO (PCT)
Prior art keywords
training data
feature amount
data
sample image
storage unit
Prior art date
Application number
PCT/JP2020/026262
Other languages
English (en)
French (fr)
Inventor
祥悟 佐藤
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to PCT/JP2020/026262 priority Critical patent/WO2022003973A1/ja
Priority to US18/001,776 priority patent/US20230230342A1/en
Priority to JP2022533011A priority patent/JP7449385B2/ja
Publication of WO2022003973A1 publication Critical patent/WO2022003973A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features

Definitions

  • the present invention relates to a training data sorting device, a training data sorting method and a program.
  • the above-mentioned training showing the feature quantity corresponding to the sample image based on the image of the sample taken or the image of the region extracted from the image of the sample using a technique such as RPN (Region Proposal Network). It is conceivable to generate data.
  • RPN Registered Proposal Network
  • the present invention has been made in view of the above circumstances, and one of the objects thereof is to provide a training data sorting device, a training data sorting method, and a program capable of sorting training data to be learned by a discriminator.
  • the training data sorting apparatus includes a training data storage unit that stores training data indicating a feature amount corresponding to a sample image obtained by photographing a sample, and a new image of the sample.
  • a sample image acquisition unit that acquires various sample images
  • a feature amount data generation unit that generates feature amount data indicating the feature amount corresponding to the new sample image based on the new sample image
  • the training data storage unit Based on the difference between the feature amount indicated by the training data stored in the unit and the feature amount indicated by the feature amount data, the feature amount data is stored in the training data storage unit as the training data. It includes a storage control unit that controls whether to discard the feature amount data.
  • the storage control unit is the one closest to the feature amount indicated by the feature amount data among the feature amounts indicated by each of the plurality of training data stored in the training data storage unit. Based on the difference from the feature amount indicated by the feature amount data, it is controlled whether the feature amount data is stored in the training data storage unit as the training data or the feature amount data is discarded.
  • the storage control unit controls so that the feature amount data is discarded when the difference is larger than a given difference.
  • the storage control unit controls so that the feature amount data is discarded when the difference is smaller than a given difference.
  • the storage control unit further includes a reference image selection unit for selecting a reference image from the above, and the storage control unit stores the feature amount data indicating the feature amount corresponding to the reference image in the training data storage unit as the first training data. Let me.
  • the reference image selection unit selects a reference image from the plurality of candidate images based on the small sum of the differences in the feature amounts from each of the other predetermined number of candidate images. You may.
  • a step of storing training data indicating a feature amount corresponding to a sample image obtained by taking a sample in a training data storage unit and a new sample image obtained by newly taking the sample are used.
  • the step to acquire, the step to generate the feature amount data indicating the feature amount corresponding to the new sample image based on the new sample image, and the training data stored in the training data storage unit indicate.
  • Based on the difference between the feature amount and the feature amount indicated by the feature amount data it is controlled whether to store the feature amount data as the training data in the training data storage unit or to discard the feature amount data. Including steps to do.
  • the program according to the present invention includes a procedure for storing training data indicating a feature amount corresponding to a sample image in which a sample is taken in a training data storage unit, a procedure for acquiring a new sample image in which the sample is newly taken, and a procedure for acquiring a new sample image in which the sample is newly taken.
  • the computer is instructed to control whether the feature amount data is stored in the training data storage unit as the training data or the feature amount data is discarded. Let it run.
  • FIG. 1 is a diagram showing an example of the configuration of the information processing apparatus 10 according to the embodiment of the present invention.
  • the information processing device 10 according to the present embodiment is, for example, a computer such as a game console or a personal computer.
  • the information processing apparatus 10 according to the present embodiment includes, for example, a processor 12, a storage unit 14, an operation unit 16, a display unit 18, and a photographing unit 20.
  • the processor 12 is a program control device such as a CPU that operates according to a program installed in the information processing device 10, for example.
  • the storage unit 14 is a storage element such as a ROM or RAM, a solid state drive, or the like.
  • the storage unit 14 stores a program or the like executed by the processor 12.
  • the operation unit 16 is a user interface such as a keyboard, a mouse, and a controller of a game console, receives an operation input of a user, and outputs a signal indicating the contents to the processor 12.
  • the display unit 18 is a display device such as a liquid crystal display, and displays various images according to the instructions of the processor 12.
  • the shooting unit 20 is a shooting device such as a digital camera. It is assumed that the photographing unit 20 according to the present embodiment is a video camera capable of photographing a moving image.
  • the information processing device 10 may include an audio input / output device such as a microphone or a speaker. Further, the information processing device 10 may include a communication interface such as a network board, an optical disk drive for reading an optical disk such as a DVD-ROM or a Blu-ray (registered trademark) disk, a USB (Universal Serial Bus) port, and the like.
  • a communication interface such as a network board, an optical disk drive for reading an optical disk such as a DVD-ROM or a Blu-ray (registered trademark) disk, a USB (Universal Serial Bus) port, and the like.
  • a classifier 30 (learned) such as an SVM (Support Vector Machine) trained with a plurality of positive training data as a positive example and a plurality of negative training data as a negative example.
  • the classifier 30 is generated.
  • Each of the plurality of regular training data is generated based on, for example, a sample image (hereinafter, referred to as a regular sample image) showing an object belonging to the positive class in the classifier 30.
  • each of the plurality of negative example training data is generated based on, for example, a sample image (hereinafter, referred to as a negative example sample image) in which an object belonging to the negative class in the classifier 30 is shown.
  • the object reflected in the input image becomes a positive class in the classifier 30 in response to the input of the input feature amount data indicating the feature amount corresponding to the input image.
  • the information processing device 10 stores, for example, an RPN (Regional Proposal Network) that has been learned in advance. Then, in the present embodiment, the region in which some object is presumed to be captured is extracted from the sample image by using the RPN. By this processing, waste of calculation can be reduced, and a certain degree of robustness can be ensured for the environment.
  • RPN Registered Proposal Network
  • normalization processing such as background removal processing (mask processing) is executed for the image in the extracted area.
  • normalization processing such as background removal processing (mask processing) is executed for the image in the extracted area.
  • the information processing apparatus 10 stores a CNN (Convolutional Neural Network) in which metric learning has been executed in advance.
  • This CNN outputs feature amount data indicating the feature amount corresponding to the image in response to the input of the image.
  • This CNN is tuned to output feature data showing features close to each other for images showing objects belonging to the positive class by prior metric learning.
  • the feature amount indicated by the feature amount data according to the present embodiment is, for example, a vector amount normalized so that the norm is 1.
  • this CNN is used to generate feature amount data indicating the feature amount corresponding to the image on which the normalization process is executed.
  • the feature quantities of the samples belonging to one class are aggregated in a compact area regardless of the conditions.
  • the information processing apparatus 10 according to the present embodiment can determine an appropriate discrimination boundary in the classifier 30 even from a small number of samples.
  • an image obtained by performing normalization processing on an image of a region extracted by RPN from a regular sample image is input to a CNN in which metric learning has been executed, thereby forming the regular sample image.
  • Feature data indicating the corresponding feature is generated.
  • the feature amount data generated from the regular sample image in this way corresponds to the regular training data shown in FIG.
  • the negative example sample is obtained by inputting an image obtained by performing normalization processing on the image of the region extracted by RPN from the negative example sample image into the CNN in which the metric learning has been executed.
  • Feature data indicating the features corresponding to the image is generated.
  • the feature amount data generated from the negative example sample image in this way corresponds to the negative example training data shown in FIG.
  • the input image to be the estimation target of the captured object is also the feature amount data using the CNN in which the above-mentioned region extraction, normalization processing, and metric learning have been executed in the same manner.
  • the input feature amount data corresponding to the input image is generated.
  • the trained classifier 30 determines the probability that the object reflected in the input image belongs to the positive class. The indicated identification score is output.
  • the above-mentioned training data showing the feature amount corresponding to the sample image is generated based on the image of the sample taken or the image of the region extracted from the image of the sample taken by using a technique such as RPN. It is conceivable to do.
  • the training data to be learned by the classifier 30 can be selected as follows.
  • FIGS. 5A and 5B are functional block diagrams showing an example of the functions implemented in the information processing apparatus 10 according to the present embodiment. It is not necessary that all the functions shown in FIGS. 5A and 5B are implemented in the information processing apparatus 10 according to the present embodiment, and functions other than the functions shown in FIGS. 5A and 5B are implemented. It doesn't matter if it is done.
  • the information processing apparatus 10 functionally includes, for example, a classifier 30, a data storage unit 32, a positive training data generation unit 34, and a negative training data generation unit 36.
  • a learning unit 38, an input image acquisition unit 40, an input feature amount data generation unit 42, and an estimation unit 44 are included.
  • the data storage unit 32 includes a normal training data storage unit 50 and a negative training data storage unit 52.
  • FIG. 5B shows the details of the functions implemented by the regular training data generation unit 34 shown in FIG. 5A.
  • the regular training data generation unit 34 functionally includes, for example, a sample image acquisition unit 60, a feature amount extraction unit 62, a storage control unit 64, and a reference image selection unit 66.
  • the normal training data storage unit 50 and the negative training data storage unit 52 are mainly implemented with the storage unit 14.
  • the classifier 30 mainly mounts the processor 12 and the storage unit 14.
  • the input image acquisition unit 40 and the sample image acquisition unit 60 mainly mount the processor 12 and the photographing unit 20.
  • Negative example The training data generation unit 36, the learning unit 38, the input feature amount data generation unit 42, the estimation unit 44, the feature amount extraction unit 62, the storage control unit 64, and the reference image selection unit 66 are mainly mounted with the processor 12.
  • the classifier 30 is machine learning such as SVM that discriminates whether or not the object reflected in the input image belongs to the positive class, as described with reference to FIGS. 2 and 3, for example. It is a model.
  • the regular training data generation unit 34 generates, for example, the above-mentioned regular training data to be trained by the classifier 30 as a regular example.
  • the regular training data generation unit 34 stores the generated regular training data in the regular training data storage unit 50.
  • the regular example training data generation unit 34 is, for example, the regular example feature amount data which is the feature amount data indicating the feature amount corresponding to the regular example sample image for each of the plurality of regular example sample images captured by the photographing unit 20. To generate. Each of these positive sample images shows an object belonging to the positive class in the classifier 30.
  • the regular feature data corresponding to the regular sample image is executed. May be generated.
  • the negative case training data generation unit 36 generates, for example, the above-mentioned negative case training data to be trained by the classifier 30 as a negative example.
  • the negative case training data generation unit 36 stores the generated negative case training data in the negative case training data storage unit 52.
  • a negative example sample image which is an image taken by the photographing unit 20 or an image collected from the Web, is stored in the information processing apparatus 10 in advance.
  • Each of these negative example sample images shows an object belonging to the negative class in the classifier 30.
  • the negative example training data generation unit 36 generates negative example feature amount data, which is feature amount data indicating the feature amount corresponding to the negative example sample image, for each of these negative example sample images.
  • the negative feature data corresponding to the negative sample image is executed. May be generated.
  • the learning unit 38 uses, for example, the positive training data stored in the positive training data storage unit 50 as a positive example, and negatively negative the negative training data stored in the negative training data storage unit 52.
  • a trained classifier 30 (learned classifier 30) is generated.
  • the input image acquisition unit 40 acquires, for example, an input image taken by the photographing unit 20 to be an estimation target of the captured object.
  • the input feature amount data generation unit 42 generates input feature amount data indicating the feature amount corresponding to the input image, for example, as described above.
  • the estimation unit 44 inputs the input feature amount data to the classifier 30 to estimate whether or not the object reflected in the input image belongs to the positive class in the classifier 30.
  • the estimation unit 44 may specify, for example, the value of the identification score output from the classifier 30 in response to the input of the input feature amount data.
  • the present embodiment for example, shooting and acquisition of an input image, generation of input feature amount data, and estimation of whether or not an object reflected in the input image belongs to a positive class are repeatedly executed at a predetermined frame rate. To. In this way, in the present embodiment, it is estimated for each frame whether or not the object reflected in the input image captured in the frame belongs to the positive class. Therefore, according to the present embodiment, high-speed object detection can be realized. Further, according to the present embodiment, it is possible to learn the classifier 30 with a small amount of data prepared by the user, and a large amount of labeled data is prepared for learning the classifier 30 as in the prior art. No need.
  • the regular training data generation unit 34 functionally includes, for example, a sample image acquisition unit 60, a feature amount extraction unit 62, a storage control unit 64, and a reference image selection unit 66.
  • the sample image acquisition unit 60 repeatedly acquires, for example, a sample image which is an image obtained by taking a sample.
  • the sample image acquisition unit 60 repeatedly acquires, for example, a regular sample image in which an object belonging to the regular class is captured.
  • the user shoots a moving image of a sample taken from various angles while moving the shooting unit 20.
  • the sample image acquisition unit 60 acquires a frame image included in the moving image captured in this way.
  • the feature amount extraction unit 62 generates feature amount data indicating the feature amount corresponding to the sample image, for example, based on the sample image.
  • the feature amount corresponding to the sample image is executed by performing the above-mentioned region extraction, normalization processing, and generation of feature amount data using CNN for which metric learning has been executed on the sample image. Data may be generated.
  • the feature amount extraction unit 62 when the regular example sample image is acquired, the feature amount extraction unit 62 generates, for example, the regular example feature amount data indicating the feature amount corresponding to the regular example sample image.
  • the storage control unit 64 uses, for example, new regular feature quantity data corresponding to the regular sample image, which is generated based on the new regular sample image, as regular training data. It controls whether to store in the storage unit 50 or to discard the regular feature amount data.
  • the storage control unit 64 uses, for example, the feature amount indicated by the regular training data stored in the regular training data storage unit 50 and the sample image generated based on a new sample image. Identify the difference between the corresponding new positive feature data.
  • the storage control unit 64 stores the regular example feature amount data in the regular example training data storage unit 50 as the regular example training data or discards the regular example feature amount data based on the specified difference. To control.
  • the reference image selection unit 66 selects a reference image from the plurality of candidate images based on the feature quantities corresponding to each of the plurality of candidate images in which the sample is taken.
  • a predetermined number (for example, 50) of candidate images are acquired by the sample image acquisition unit 60.
  • a candidate image showing an object belonging to the positive class in the classifier 30 is acquired.
  • the feature amount extraction unit 62 generates regular feature amount data corresponding to the candidate image for each of these candidate images.
  • the feature amount indicated by the quantity data is expressed as C (n).
  • the feature amount extraction unit 62 identifies a predetermined number (for example, N) of other candidate images in order from the one with the closest feature amount indicated by the corresponding regular feature amount data for each of these candidate images. Then, the feature amount extraction unit 62 specifies the total difference between the feature amount corresponding to the specified other candidate image and the feature amount of the candidate image (hereinafter, referred to as the neighborhood feature amount difference total).
  • N images are selected in order from the one having the smallest difference from C (1).
  • These features are expressed as D (1) to D (N).
  • (distance between C (1) and D (1)) + (distance between C (1) and D (2)) + ... + (C (1) and D ( The distance from N)) is specified as the total difference in neighborhood features for the candidate image P (1).
  • the candidate images P (2) to P (50) the total difference in neighborhood features is specified.
  • the reference image selection unit 66 selects the candidate image having the smallest total difference in the corresponding neighborhood features as the reference image.
  • the reference image selection unit 66 may select a reference image from a plurality of candidate images based on the small sum of the differences in the feature amounts from each of the other predetermined number of candidate images. ..
  • the storage control unit 64 stores the regular feature amount data indicating the feature amount corresponding to the reference image in the regular training data storage unit 50 as the first regular training data.
  • the user shoots a moving image of a sample taken from various angles while moving the shooting unit 20. Then, the photographing unit 20 generates a frame image in which the sample is photographed at a predetermined frame rate. Further, it is assumed that no regular training data is stored in the regular training data storage unit 50.
  • the sample image acquisition unit 60 acquires a candidate image which is the latest image in which a sample of an object belonging to the positive class is photographed by the photographing unit 20 (S101).
  • the feature amount extraction unit 62 generates regular feature amount data indicating the feature amount corresponding to the candidate image based on the candidate image acquired by the process shown in S101 (S102).
  • the feature amount extraction unit 62 confirms whether or not the number of regular feature amount data generated by the process shown in S102 has reached a predetermined number (for example, 50) (S103).
  • the feature amount extraction unit 62 is acquired by the process shown in S101 according to a predetermined standard as described above.
  • One of a predetermined number of candidate images is selected as a reference image (S104).
  • the storage control unit 64 stores the regular feature amount data generated in the process shown in S102 based on the reference image selected in the process shown in S104 in the regular training data storage unit 50 as the regular training data. (S105).
  • the photographing unit 20 takes a picture in a relatively narrow range in front of the sample. Further, it is desirable that the user is notified at the timing when the process shown in S105 is completed by displaying on the display unit 18 or outputting voice.
  • the sample image acquisition unit 60 acquires a sample image which is the latest image in which the sample was taken (S106).
  • the feature amount extraction unit 62 generates regular feature amount data indicating the feature amount corresponding to the sample image based on the sample image acquired by the process shown in S106 (S107).
  • the storage control unit 64 determines whether or not the feature amount data generated by the process shown in S107 satisfies a predetermined condition (S108).
  • the feature shown is the feature indicated by the regular feature data generated in the process shown in S107.
  • the one closest to the quantity is selected.
  • the value D_min indicating the cosine distance between the feature amount indicated by the selected regular example training data and the feature amount indicated by the regular example feature amount data generated by the process shown in S107 is specified.
  • the value D_min indicating the cosine distance is larger than the predetermined first threshold value Th_b and smaller than the predetermined second threshold value Th_u, it is determined that the feature amount data generated by the process shown in S107 satisfies the predetermined condition. Will be done. If this is not the case, it is determined that the feature amount data generated by the process shown in S107 does not satisfy the predetermined conditions.
  • the storage control unit 64 receives the regular feature amount data generated by the process shown in S107. Is stored in the regular training data storage unit 50 as regular training data (S109).
  • the storage control unit 64 When it is determined that the regular feature amount data generated by the process shown in S107 does not satisfy a predetermined condition (S108: N), the storage control unit 64 has the regular feature amount generated by the process shown in S107. Discard the data (S110).
  • the storage control unit 64 confirms whether or not it satisfies a predetermined end condition (for example, the number of regular training data stored in the regular training data storage unit 50 is equal to or greater than a predetermined number). (S111).
  • a predetermined end condition for example, the number of regular training data stored in the regular training data storage unit 50 is equal to or greater than a predetermined number.
  • the learning unit 38 uses the positive training data finally stored in the positive training data storage unit 50 and the negative training data stored in the negative training data storage unit 52 by the processes shown in FIGS. 6A and 6B. Will be trained by the classifier 30.
  • the value of the threshold value TH_b and the value of the threshold value TH_u are dynamically determined according to the difference between the feature amount of the candidate image and the feature amount of another candidate image at the time of selecting the reference image.
  • Value may be.
  • the feature amount extraction unit 62 identifies a predetermined number (for example, M (M ⁇ N)) of other candidate images for each candidate image in order from the one with the closest feature amount indicated by the corresponding regular feature amount data. You may. Then, the feature amount extraction unit 62 may specify the difference between the feature amount corresponding to the specified M other candidate images and the feature amount of the candidate image for each candidate image. Then, the feature amount extraction unit 62 may determine a value that is half of the average value of the specified differences as the value of the threshold value TH_b.
  • the regular feature amount data corresponding to the sample image determined to have no spatial continuity with the immediately preceding shooting by performing tracking may be discarded.
  • the new feature amount data is used as the regular training data for regular training. Whether to store or discard the data in the data storage unit 50 is controlled. In this way, according to the present embodiment, the training data to be learned by the classifier 30 can be selected.
  • the storage control unit 64 determines the difference between the feature amount indicated by the regular training data stored in the regular training data storage unit 50 and the feature amount indicated by the new feature amount data. If it is smaller than the difference between, new feature amount data may be controlled to be discarded. For example, as described above, the storage control unit 64 may control the new feature amount data to be discarded when the above-mentioned value D_min is smaller than the above-mentioned first threshold value Th_b. By doing so, for example, it is possible to prevent duplicate regular training data showing similar feature quantities from being stored in the regular training data storage unit 50.
  • the storage control unit 64 determines the difference between the feature amount indicated by the regular training data stored in the regular training data storage unit 50 and the feature amount indicated by the new feature amount data. If it is larger than the difference between, new feature amount data may be controlled to be discarded. For example, as described above, the storage control unit 64 may control the new feature amount data to be discarded when the above-mentioned value D_min is larger than the above-mentioned second threshold value Th_u. By doing so, for example, it is possible to control that the feature amount data based on the sample image taken when blurring, blurring, reflection of an object other than the sample, etc. occurs is discarded.
  • the present invention is not limited to the above-described embodiment.
  • the distance used for the determination in the process shown in S108 does not have to be the cosine distance as described above.
  • a value indicating the Euclidean distance between the feature amount indicated by the selected regular training data and the feature amount indicated by the feature amount data generated by the process shown in S107 may be specified as the value D_min.
  • the value D_min indicating the Euclidean distance is larger than the predetermined first threshold value Th_b and smaller than the predetermined second threshold value Th_u. It is determined that the feature amount data generated by the process shown in S107 satisfies the predetermined condition. May be done. If this is not the case, it may be determined that the feature amount data generated by the process shown in S107 does not satisfy the predetermined conditions.
  • the classifier 30 may be an SVM of any kernel. Further, the classifier 30 may be a classifier using a method such as a K-nearest neighbor method, logistic regression, or a boosting method such as AdaBoost. Further, the classifier 30 may be implemented by a neural network, a naive Bayes classifier, a random forest, a decision tree, or the like. Further, the classification class of the classifier 30 does not have to be two classes, and may be one in which three or more classes can be classified (that is, a plurality of positive classes different from each other exist).
  • the classifier 30 may output a binary discrimination score indicating whether or not the object shown in the input image belongs to the positive class.
  • a plurality of regions may be extracted from the input image, and for each region, the estimation unit 44 may estimate whether or not the object reflected in the image of the region belongs to the positive class.
  • the above-mentioned method generates negative case training data based on a negative case sample image obtained by photographing a negative case sample, and stores the generated negative case training data in the negative case training data storage unit 52. It can also be applied to situations where you want to make it. In this case, it is controlled whether the negative case feature amount data generated based on the negative case sample image is stored in the negative case training data storage unit 52 as the negative case training data or the negative case feature amount data is discarded.
  • the Rukoto is controlled whether the negative case feature amount data generated based on the negative case sample image is stored in the negative case training data storage unit 52 as the negative case training data or the negative case feature amount data is discarded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

識別器に学習させる訓練データを選別できる訓練データ選別装置、訓練データ選別方法及びプログラムを提供する。正例訓練データ記憶部(50)は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する。サンプル画像取得部(60)は、サンプルを新たに撮影した新たなサンプル画像を取得する。特徴量抽出部(62)は、新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する。記憶制御部(64)は,正例訓練データ記憶部(50)に記憶されている訓練データが示す特徴量と、特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを訓練データとして正例訓練データ記憶部(50)に記憶させるか、当該特徴量データを破棄するか、を制御する。

Description

訓練データ選別装置、訓練データ選別方法及びプログラム
 本発明は、訓練データ選別装置、訓練データ選別方法及びプログラムに関する。
 識別精度の高い識別器を生成するには、正例や負例として用いられる充分な数の訓練データを収集して、これらの訓練データを識別器に学習させる必要がある。
 例えば、サンプルを撮影した画像、あるいは、サンプルを撮影した画像からRPN(Region Proposal Network)などの技術を用いて抽出される領域の画像に基づいて、サンプル画像に対応する特徴量を示す上述の訓練データを生成することが考えられる。
 ここでサンプルを撮影した画像に、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していると、このような画像に基づく訓練データを識別器に学習させることは適切ではない。また、サンプルを撮影した画像からの領域の抽出がうまくいかない場合も、当該領域の画像に基づく訓練データを識別器に学習させることは適切ではない。
 しかし従来技術では、以上で説明したような、識別器に学習させることが適切でない訓練データを識別器への学習対象から除外することができなかった。
 本発明は上記実情に鑑みてなされたものであって、その目的の一つは、識別器に学習させる訓練データを選別できる訓練データ選別装置、訓練データ選別方法及びプログラムを提供することにある。
 上記課題を解決するために、本発明に係る訓練データ選別装置は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する訓練データ記憶部と、前記サンプルを新たに撮影した新たなサンプル画像を取得するサンプル画像取得部と、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する特徴量データ生成部と、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する記憶制御部と、を含む。
 本発明の一態様では、前記記憶制御部は、前記訓練データ記憶部に記憶されている複数の前記訓練データのそれぞれが示す特徴量のうち前記特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する。
 また、本発明の一態様では、前記記憶制御部は、前記差が所与の差よりも大きい場合に、当該特徴量データが破棄されるよう制御する。
 また、本発明の一態様では、前記記憶制御部は、前記差が所与の差よりも小さい場合に、当該特徴量データが破棄されるよう制御する。
 また、本発明の一態様では、前記サンプルを撮影した複数の候補画像を取得する候補画像取得部と、前記複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する基準画像選択部と、をさらに含み、前記記憶制御部は、前記基準画像に対応する特徴量を示す前記特徴量データを最初の前記訓練データとして前記訓練データ記憶部に記憶させる。
 この態様では、前記基準画像選択部は、他の所定数の前記候補画像のそれぞれとの前記特徴量の差の合計の小ささに基づいて、前記複数の候補画像のうちから基準画像を選択してもよい。
 また、本発明に係る訓練データ選別方法は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させるステップと、前記サンプルを新たに撮影した新たなサンプル画像を取得するステップと、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成するステップと、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御するステップと、を含む。
 また、本発明に係るプログラムは、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させる手順、前記サンプルを新たに撮影した新たなサンプル画像を取得する手順、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する手順、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する手順、をコンピュータに実行させる。
本発明の一実施形態に係る情報処理装置の構成の一例を示す図である。 本発明の一実施形態における識別器の学習の一例を示す図である。 本発明の一実施形態における学習済の識別器を用いた識別の一例を示す図である。 画像の一例を示す図である。 画像の一例を示す図である。 本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る情報処理装置において行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る情報処理装置において行われる処理の流れの一例を示すフロー図である。
 以下、本発明の一実施形態について図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係る情報処理装置10の構成の一例を示す図である。本実施形態に係る情報処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る情報処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18、撮影部20を含んでいる。
 プロセッサ12は、例えば情報処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
 記憶部14は、ROMやRAM等の記憶素子やソリッドステートドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
 操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
 表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
 撮影部20は、デジタルカメラ等の撮影デバイスである。本実施形態に係る撮影部20は、動画像の撮影が可能なビデオカメラであることとする。
 なお、情報処理装置10は、マイクやスピーカなどといった音声入出力デバイスを含んでいてもよい。また、情報処理装置10は、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
 本実施形態では、図2に示すように、複数の正例訓練データを正例とし複数の負例訓練データを負例として学習させた、SVM(Support Vector Machine)などの識別器30(学習済の識別器30)が生成される。複数の正例訓練データのそれぞれは、例えば、識別器30における正クラスに属するオブジェクトが写るサンプル画像(以下、正例サンプル画像と呼ぶ。)に基づいて生成される。また、複数の負例訓練データのそれぞれは、例えば、識別器30における負クラスに属するオブジェクトが写るサンプル画像(以下、負例サンプル画像と呼ぶ。)に基づいて生成される。
 そして、図3に示すように、学習済の識別器30は、入力画像に対応する特徴量を示す入力特徴量データの入力に応じて、当該入力画像に写るオブジェクトが識別器30における正クラスに属するものである確率を示す識別スコアを出力する。
 本実施形態に係る情報処理装置10には、例えば、予め学習済であるRPN(Regional Proposal Network)が記憶されている。そして本実施形態では、当該RPNを用いて、サンプル画像から、何らかの物体が写っていると推定される領域が抽出される。この処理によって、計算の無駄を低減でき、環境に対してもある程度のロバストネスが確保できる。
 そして、抽出された領域の画像に対して、例えば、背景の除去処理(マスク処理)などといった正規化処理が実行される。この処理によって、背景や照明条件によるドメインギャップを縮小させることができ、その結果、限られた環境下で収集されたデータだけからでも識別器30の学習を完了させることが可能になる。
 また、本実施形態に係る情報処理装置10には、予めメトリック学習が実行済であるCNN(Convolutional Neural Network)が記憶されている。このCNNは、画像の入力に応じて、当該画像に対応する特徴量を示す特徴量データを出力する。このCNNは、事前のメトリック学習によって、正クラスに属するオブジェクトが写る画像については互いに近い特徴量を示す特徴量データを出力するようチューニングされている。本実施形態に係る特徴量データが示す特徴量は、例えば、ノルムが1となるよう正規化されたベクトル量である。
 本実施形態では、このCNNを用いて、正規化処理が実行された画像に対応する特徴量を示す特徴量データの生成が行われる。予めメトリック学習が実行済であるCNNを用いることで、1つのクラスに属するサンプルの特徴量が、条件に依らずコンパクトな領域に集約されることとなる。その結果、本実施形態に係る情報処理装置10は、識別器30における妥当な識別境界を少数のサンプルからでも決定できるようになっている。
 本実施形態では、正例サンプル画像からRPNによって抽出された領域の画像に対して正規化処理を実行した画像を、メトリック学習が実行済であるCNNに入力することで、当該正例サンプル画像に対応する特徴量を示す特徴量データが生成される。このようにして正例サンプル画像から生成される特徴量データが、図2に示す正例訓練データに相当する。
 また、本実施形態では、負例サンプル画像からRPNによって抽出された領域の画像に対して正規化処理を実行した画像を、メトリック学習が実行済であるCNNに入力することで、当該負例サンプル画像に対応する特徴量を示す特徴量データが生成される。このようにして負例サンプル画像から生成される特徴量データが、図2に示す負例訓練データに相当する。
 本実施形態では、写っているオブジェクトの推定対象となる入力画像についても、同様にして、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるCNNを用いた特徴量データの生成によって、入力画像に対応する入力特徴量データが生成される。そして、このようにして生成された入力特徴量データを学習済の識別器30に入力することで、学習済の識別器30は、当該入力画像に写るオブジェクトが正クラスに属するものである確率を示す識別スコアを出力する。
 識別精度の高い識別器30を生成するには、正例や負例として用いられる充分な数の訓練データを収集して、これらの訓練データを識別器30に学習させる必要がある。
 ここで例えば、サンプルを撮影した画像、あるいは、サンプルを撮影した画像からRPNなどの技術を用いて抽出される領域の画像に基づいて、サンプル画像に対応する特徴量を示す上述の訓練データを生成することが考えられる。
 ここでサンプルを撮影した画像に、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していると、このような画像に基づく訓練データを識別器30に学習させることは適切ではない。また、図4Aに示す画像のように、サンプルを撮影した画像からのRPNを用いた領域の抽出がうまくいかないことがある。また、図4Bに示す画像のように、背景の除去処理がうまくいかないことがある。これらの場合も、このような画像に基づく訓練データを識別器30に学習させることは適切ではない。
 以上の点を踏まえ、本実施形態では以下のようにして、識別器30に学習させる訓練データを選別できるようにした。
 以下、本実施形態に係る情報処理装置10で実装されている機能、及び、本実施形態に係る情報処理装置10で実行される処理について、説明する。
 図5A、及び、図5Bは、本実施形態に係る情報処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置10で、図5A、及び、図5Bに示す機能のすべてが実装される必要はなく、また、図5A、及び、図5Bに示す機能以外の機能が実装されていても構わない。
 図5Aに示すように、本実施形態に係る情報処理装置10には、機能的には例えば、識別器30、データ記憶部32、正例訓練データ生成部34、負例訓練データ生成部36、学習部38、入力画像取得部40、入力特徴量データ生成部42、推定部44、が含まれる。
 そして、データ記憶部32には、正例訓練データ記憶部50、負例訓練データ記憶部52が、含まれる。
 図5Bには、図5Aに示す正例訓練データ生成部34で実装されている機能の詳細が示されている。図5Bに示すように、正例訓練データ生成部34には、機能的には例えば、サンプル画像取得部60、特徴量抽出部62、記憶制御部64、基準画像選択部66が含まれる。
 正例訓練データ記憶部50、負例訓練データ記憶部52は、記憶部14を主として実装される。識別器30は、プロセッサ12、及び、記憶部14を主として実装される。入力画像取得部40、サンプル画像取得部60は、プロセッサ12、及び、撮影部20を主として実装される。負例訓練データ生成部36、学習部38、入力特徴量データ生成部42、推定部44、特徴量抽出部62、記憶制御部64、基準画像選択部66は、プロセッサ12を主として実装される。
 識別器30は、本実施形態では、例えば、図2及び図3を参照して説明したような、入力画像に写るオブジェクトが正クラスに属するものであるか否かを識別するSVMなどの機械学習モデルである。
 正例訓練データ生成部34は、本実施形態では例えば、識別器30に正例として学習させる上述の正例訓練データを生成する。正例訓練データ生成部34は、生成される正例訓練データを正例訓練データ記憶部50に記憶させる。
 正例訓練データ生成部34は、例えば、撮影部20によって撮影される複数の正例サンプル画像のそれぞれについて、当該正例サンプル画像に対応する特徴量を示す特徴量データである正例特徴量データを生成する。これらの正例サンプル画像のそれぞれには、識別器30における正クラスに属するオブジェクトが写っている。ここで、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるCNNを用いた特徴量データの生成が実行されることで、正例サンプル画像に対応する正例特徴量データが生成されてもよい。
 負例訓練データ生成部36は、本実施形態では例えば、識別器30に負例として学習させる上述の負例訓練データを生成する。負例訓練データ生成部36は、生成される負例訓練データを負例訓練データ記憶部52に記憶させる。
 本実施形態では例えば、撮影部20によって撮影された画像やWebから収集された画像である、負例サンプル画像が予め情報処理装置10に蓄積されている。これらの負例サンプル画像のそれぞれには、識別器30における負クラスに属するオブジェクトが写っている。そして、負例訓練データ生成部36は、これらの負例サンプル画像のそれぞれについて、当該負例サンプル画像に対応する特徴量を示す特徴量データである負例特徴量データを生成する。ここで、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるCNNを用いた特徴量データの生成が実行されることで、負例サンプル画像に対応する負例特徴量データが生成されてもよい。
 学習部38は、本実施形態では例えば、正例訓練データ記憶部50に記憶されている正例訓練データを正例とし、負例訓練データ記憶部52に記憶されている負例訓練データを負例として学習させた識別器30(学習済の識別器30)を生成する。
 入力画像取得部40は、本実施形態では例えば、撮影部20によって撮影された、写っているオブジェクトの推定対象となる入力画像を取得する。
 入力特徴量データ生成部42は、本実施形態では例えば、上述のようにして、入力画像に対応する特徴量を示す入力特徴量データを生成する。
 推定部44は、本実施形態では例えば、入力特徴量データを識別器30に入力することで、入力画像に写るオブジェクトが識別器30における正クラスに属するものであるか否かを推定する。ここで推定部44は、例えば、入力特徴量データの入力に応じて識別器30から出力される識別スコアの値を特定してもよい。
 本実施形態では例えば、入力画像の撮影及び取得、入力特徴量データの生成、及び、入力画像に写るオブジェクトが正クラスに属するものであるか否かの推定が、所定のフレームレートで繰り返し実行される。このようにして、本実施形態では、フレームごとに、当該フレームで撮影された入力画像に写るオブジェクトが正クラスに属するものであるか否かが推定される。そのため、本実施形態によれば、高速な物体検出が実現可能となっている。また、本実施形態によれば、ユーザが用意した少量のデータによる識別器30の学習が可能となっており、従来技術のように識別器30の学習のために大量のラベル付きデータを用意する必要はない。
 以下、正例訓練データ生成部34の機能についてさらに説明する。上述のように、正例訓練データ生成部34には、機能的には例えば、サンプル画像取得部60、特徴量抽出部62、記憶制御部64、基準画像選択部66、が含まれる。
 サンプル画像取得部60は、本実施形態では例えば、サンプルを撮影した画像であるサンプル画像を繰り返し取得する。サンプル画像取得部60は、例えば、正クラスに属するオブジェクトが写る正例サンプル画像を繰り返し取得する。例えば、ユーザは撮影部20を動かしながら様々な角度からサンプルを撮影した動画像を撮影する。サンプル画像取得部60は、このようにして撮影された動画像に含まれるフレーム画像を取得する。
 特徴量抽出部62は、本実施形態では例えば、サンプル画像に基づいて、当該サンプル画像に対応する特徴量を示す特徴量データを生成する。ここでサンプル画像に対して、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるCNNを用いた特徴量データの生成が実行されることで、サンプル画像に対応する特徴量データが生成されてもよい。
 上述のように、正例サンプル画像の取得が行われる場合には、特徴量抽出部62は、例えば、当該正例サンプル画像に対応する特徴量を示す正例特徴量データを生成する。
 記憶制御部64は、本実施形態では例えば、新たな正例サンプル画像に基づいて生成される、当該正例サンプル画像に対応する新たな正例特徴量データを正例訓練データとして正例訓練データ記憶部50に記憶させるか、当該正例特徴量データを破棄するかを制御する。本実施形態では、記憶制御部64は、例えば、正例訓練データ記憶部50に記憶されている正例訓練データが示す特徴量と、新たなサンプル画像に基づいて生成される、当該サンプル画像に対応する新たな正例特徴量データと、の差を特定する。ここで、正例訓練データ記憶部50に記憶されている複数の訓練データのそれぞれが示す特徴量のうち新たなサンプル画像に対応する特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差が特定されてもよい。そして、記憶制御部64は、特定される差に基づいて、当該正例特徴量データを正例訓練データとして正例訓練データ記憶部50に記憶させるか、当該正例特徴量データを破棄するかを制御する。
 基準画像選択部66は、本実施形態では例えば、サンプルを撮影した複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する。
 本実施形態では例えば、所定数(例えば50)の候補画像がサンプル画像取得部60によって取得される。ここでは例えば、識別器30における正クラスに属するオブジェクトが写る候補画像が取得される。そして、特徴量抽出部62は、これらの候補画像のそれぞれについて、当該候補画像に対応する正例特徴量データを生成する。
 以下、例えば、これら50個の候補画像のそれぞれを候補画像P(1)~P(50)と表現し、候補画像P(n)(n=1~50)に基づいて生成される正例特徴量データが示す特徴量をC(n)と表現することとする。
 そして、特徴量抽出部62は、これらの候補画像のそれぞれについて、対応する正例特徴量データが示す特徴量が近いものから順に所定数(例えばN個)の他の候補画像を特定する。そして、特徴量抽出部62は、特定された他の候補画像に対応する特徴量と当該候補画像の特徴量との差の合計(以下、近傍特徴量差合計と呼ぶ。)を特定する。
 例えば候補画像P(1)について、特徴量C(2)~C(50)のうちから、C(1)との差が小さなものから順にN個を選択する。これらの特徴量をD(1)~D(N)と表現する。この場合、例えば、(C(1)とD(1)との間の距離)+(C(1)とD(2)の間の距離)+・・・+(C(1)とD(N)との間の距離)が候補画像P(1)についての近傍特徴量差合計として特定される。同様にして、候補画像P(2)~P(50)についても近傍特徴量差合計が特定される。そして、基準画像選択部66は、対応する近傍特徴量差合計が最も小さな候補画像を基準画像に選択する。
 このように、基準画像選択部66が、他の所定数の候補画像のそれぞれとの特徴量の差の合計の小ささに基づいて、複数の候補画像のうちから基準画像を選択してもよい。
 そして、記憶制御部64は、基準画像に対応する特徴量を示す正例特徴量データを最初の正例訓練データとして正例訓練データ記憶部50に記憶させる。
 ここで、本実施形態に係る情報処理装置10において実行される、特徴量データの選別処理の流れの一例を、図6A、及び、図6Bに例示するフロー図を参照しながら説明する。なお、以下に示す処理例では、ユーザは撮影部20を動かしながら様々な角度からサンプルを撮影した動画像を撮影することとする。そして、撮影部20は、サンプルを撮影したフレーム画像を所定のフレームレートで生成することとする。また、正例訓練データ記憶部50には、正例訓練データが1つも記憶されていないこととする。
 まず、サンプル画像取得部60が、撮影部20によって正クラスに属するオブジェクトのサンプルが撮影された最新の画像である候補画像を取得する(S101)。
 そして、特徴量抽出部62が、S101に示す処理で取得された候補画像に基づいて、当該候補画像に対応する特徴量を示す正例特徴量データを生成する(S102)。
 そして、特徴量抽出部62が、S102に示す処理で生成された正例特徴量データの数が所定数(例えば50)に達したか否かを確認する(S103)。
 生成された特徴量データの数が所定数に達していない場合は(S103:N)、S101に示す処理に戻る。
 生成された正例特徴量データの数が所定数に達した場合は(S103:Y)、特徴量抽出部62が、上述のようにして、所定の基準に従って、S101に示す処理で取得された所定数の候補画像のうちの1つを基準画像として選択する(S104)。
 そして、記憶制御部64が、S104に示す処理で選択された基準画像に基づいてS102に示す処理で生成された正例特徴量データを正例訓練データとして正例訓練データ記憶部50に記憶させる(S105)。
 S101~S105に示す処理が実行されている間は、サンプルの正面の比較的狭い範囲において撮影部20による撮影が行われることが望ましい。また、S105に示す処理が終了したタイミングで、その旨が、表示部18への表示や音声出力などによって、ユーザに通知されることが望ましい。
 S105に示す処理が終了すると、サンプル画像取得部60が、当該サンプルが撮影された最新の画像であるサンプル画像を取得する(S106)。
 そして、特徴量抽出部62が、S106に示す処理で取得されたサンプル画像に基づいて、当該サンプル画像に対応する特徴量を示す正例特徴量データを生成する(S107)。
 そして、記憶制御部64が、S107に示す処理で生成された特徴量データが所定の条件を満足するか否かを判定する(S108)。
 S108に示す処理では例えば、正例訓練データ記憶部50に記憶されている正例訓練データのうちから、示されている特徴量がS107に示す処理で生成された正例特徴量データが示す特徴量に最も近いものが選択される。そして、選択された正例訓練データが示す特徴量とS107に示す処理で生成された正例特徴量データが示す特徴量との間のコサイン距離を示す値D_minが特定される。
 そして、このコサイン距離を示す値D_minが所定の第1の閾値Th_bより大きく所定の第2の閾値Th_uより小さい場合は、S107に示す処理で生成された特徴量データが所定の条件を満足すると判定される。そうでない場合は、S107に示す処理で生成された特徴量データが所定の条件を満足しないと判定される。
 S107に示す処理で生成された正例特徴量データが所定の条件を満足すると判定された場合は(S108:Y)、記憶制御部64は、S107に示す処理で生成された正例特徴量データを正例訓練データとして正例訓練データ記憶部50に記憶させる(S109)。
 S107に示す処理で生成された正例特徴量データが所定の条件を満足しないと判定された場合は(S108:N)、記憶制御部64は、S107に示す処理で生成された正例特徴量データを破棄する(S110)。
 そして、記憶制御部64は、所定の終了条件(例えば、正例訓練データ記憶部50に記憶された正例訓練データの数が所定数以上となった、など)を満足するか否かを確認する(S111)。
 所定の終了条件を満足しない場合は(S111:N)、S106に示す処理に戻る。
 所定の終了条件を満足する場合は(S111:Y)、本処理例に示す処理は終了される。
 図6A、及び、図6Bに示す処理によって最終的に正例訓練データ記憶部50に記憶された正例訓練データと負例訓練データ記憶部52に記憶された負例訓練データを、学習部38は、識別器30に学習させることとなる。
 本処理例に示す処理において、閾値TH_bの値や閾値TH_uの値は、基準画像の選択時における当該候補画像の特徴量と他の候補画像の特徴量との差に応じて決定される動的な値であってもよい。例えば、特徴量抽出部62が、各候補画像について、対応する正例特徴量データが示す特徴量が近いものから順に所定数(例えばM個(M<N))の他の候補画像を特定してもよい。そして、特徴量抽出部62が、各候補画像について、特定されたM個の他の候補画像に対応する特徴量と当該候補画像の特徴量との差を特定してもよい。そして、特徴量抽出部62が、特定された差の平均値の半分の値を閾値TH_bの値として決定してもよい。
 また、トラッキングを行うことにより直前の撮影との空間的な連続性がないと判定されるサンプル画像に対応する正例特徴量データは破棄されるようにしてもよい。
 本実施形態では、以上のようにして、正例訓練データ記憶部50に記憶されている正例訓練データが示す特徴量を基準にして、新たな特徴量データを正例訓練データとして正例訓練データ記憶部50に記憶させるか破棄するかが制御される。このようにして本実施形態によれば、識別器30に学習させる訓練データを選別できることとなる。
 また、本実施形態において、記憶制御部64が、正例訓練データ記憶部50に記憶されている正例訓練データが示す特徴量と、新たな特徴量データが示す特徴量と、の差が所定の差よりも小さい場合に、新たな特徴量データが破棄されるよう制御してもよい。例えば、上述のように、記憶制御部64が、上述の値D_minが上述の第1の閾値Th_bよりも小さい場合に、新たな特徴量データが破棄されるよう制御してもよい。このようにすることで、例えば、似たような特徴量を示す正例訓練データが重複して正例訓練データ記憶部50に記憶されることを防ぐことができる。
 また、本実施形態において、記憶制御部64が、正例訓練データ記憶部50に記憶されている正例訓練データが示す特徴量と、新たな特徴量データが示す特徴量と、の差が所定の差よりも大きい場合に、新たな特徴量データが破棄されるよう制御してもよい。例えば、上述のように、記憶制御部64が、上述の値D_minが上述の第2の閾値Th_uよりも大きい場合に、新たな特徴量データが破棄されるよう制御してもよい。このようにすることで、例えば、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していた際に撮影されたサンプル画像に基づく特徴量データが破棄されるよう制御できる。
 なお、本発明は上述の実施形態に限定されるものではない。
 例えば、S108に示す処理での判定に用いられる距離は、上述のようなコサイン距離である必要はない。例えば、選択された正例訓練データが示す特徴量とS107に示す処理で生成された特徴量データが示す特徴量との間のユークリッド距離を示す値が値D_minとして特定されてもよい。そして、このユークリッド距離を示す値D_minが所定の第1の閾値Th_bより大きく所定の第2の閾値Th_uより小さい場合は、S107に示す処理で生成された特徴量データが所定の条件を満足すると判定されてもよい。そして、そうでない場合は、S107に示す処理で生成された特徴量データが所定の条件を満足しないと判定されてもよい。
 また、例えば、識別器30は、任意のカーネルのSVMであってもよい。また、識別器30は、K近傍法、ロジスティック回帰、アダブースト等のブースティング手法などの手法を用いた識別器であってもよい。また、識別器30が、ニューラルネットワーク、ナイーブベイズ分類器、ランダムフォレスト、決定木などによって実装されてもよい。また、識別器30の分類クラスは2クラスである必要はなく、3クラス以上の分類が可能であるもの(すなわち、互いに異なる正クラスが複数存在するもの)であってもよい。
 また、識別器30が、入力画像に写るオブジェクトが正クラスに属するものであることを示すか否かを示す二値の識別スコアを出力するものであってもよい。
 また、入力画像から複数の領域が抽出されて、それぞれの領域について、推定部44にって、当該領域の画像に写るオブジェクトが正クラスに属するものであるか否かが推定されてもよい。
 また、上述した手法は、負例のサンプルを撮影した負例サンプル画像に基づいて、負例訓練データを生成して、生成された複数の負例訓練データを負例訓練データ記憶部52に蓄積させる場面にも適用可能である。この場合、負例サンプル画像に基づいて生成される負例特徴量データを負例訓練データとして負例訓練データ記憶部52に記憶させるか、当該負例特徴量データを破棄するか、が制御されることとなる。
 また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (8)

  1.  サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する訓練データ記憶部と、
     前記サンプルを新たに撮影した新たなサンプル画像を取得するサンプル画像取得部と、
     前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する特徴量データ生成部と、
     前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する記憶制御部と、
     を含むことを特徴とする訓練データ選別装置。
  2.  前記記憶制御部は、前記訓練データ記憶部に記憶されている複数の前記訓練データのそれぞれが示す特徴量のうち前記特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する、
     ことを特徴とする請求項1に記載の訓練データ選別装置。
  3.  前記記憶制御部は、前記差が所与の差よりも大きい場合に、当該特徴量データが破棄されるよう制御する、
     ことを特徴とする請求項1又は2に記載の訓練データ選別装置。
  4.  前記記憶制御部は、前記差が所与の差よりも小さい場合に、当該特徴量データが破棄されるよう制御する、
     ことを特徴とする請求項1から3のいずれか一項に記載の訓練データ選別装置。
  5.  前記サンプルを撮影した複数の候補画像を取得する候補画像取得部と、
     前記複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する基準画像選択部と、をさらに含み、
     前記記憶制御部は、前記基準画像に対応する特徴量を示す前記特徴量データを最初の前記訓練データとして前記訓練データ記憶部に記憶させる、
     ことを特徴とする請求項1から4のいずれか一項に記載の訓練データ選別装置。
  6.  前記基準画像選択部は、他の所定数の前記候補画像のそれぞれとの前記特徴量の差の合計の小ささに基づいて、前記複数の候補画像のうちから基準画像を選択する、
     ことを特徴とする請求項5に記載の訓練データ選別装置。
  7.  サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させるステップと、
     前記サンプルを新たに撮影した新たなサンプル画像を取得するステップと、
     前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成するステップと、
     前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御するステップと、
     を含むことを特徴とする訓練データ選別方法。
  8.  サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させる手順、
     前記サンプルを新たに撮影した新たなサンプル画像を取得する手順、
     前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する手順、
     前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する手順、
     をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2020/026262 2020-07-03 2020-07-03 訓練データ選別装置、訓練データ選別方法及びプログラム WO2022003973A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/026262 WO2022003973A1 (ja) 2020-07-03 2020-07-03 訓練データ選別装置、訓練データ選別方法及びプログラム
US18/001,776 US20230230342A1 (en) 2020-07-03 2020-07-03 Training data selection device, training data selection method, and program
JP2022533011A JP7449385B2 (ja) 2020-07-03 2020-07-03 訓練データ選別装置、訓練データ選別方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/026262 WO2022003973A1 (ja) 2020-07-03 2020-07-03 訓練データ選別装置、訓練データ選別方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022003973A1 true WO2022003973A1 (ja) 2022-01-06

Family

ID=79315838

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/026262 WO2022003973A1 (ja) 2020-07-03 2020-07-03 訓練データ選別装置、訓練データ選別方法及びプログラム

Country Status (3)

Country Link
US (1) US20230230342A1 (ja)
JP (1) JP7449385B2 (ja)
WO (1) WO2022003973A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198970A (ja) * 2004-01-19 2005-07-28 Konica Minolta Medical & Graphic Inc 医用画像処理装置
JP2014048989A (ja) * 2012-09-03 2014-03-17 Yahoo Japan Corp BoF表現生成装置及びBoF表現生成方法
JP2018045390A (ja) * 2016-09-13 2018-03-22 東芝テック株式会社 物品読取装置およびプログラム
WO2020008710A1 (ja) * 2018-07-02 2020-01-09 パナソニックIpマネジメント株式会社 学習データ収集装置、学習データ収集システム、及び学習データ収集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198970A (ja) * 2004-01-19 2005-07-28 Konica Minolta Medical & Graphic Inc 医用画像処理装置
JP2014048989A (ja) * 2012-09-03 2014-03-17 Yahoo Japan Corp BoF表現生成装置及びBoF表現生成方法
JP2018045390A (ja) * 2016-09-13 2018-03-22 東芝テック株式会社 物品読取装置およびプログラム
WO2020008710A1 (ja) * 2018-07-02 2020-01-09 パナソニックIpマネジメント株式会社 学習データ収集装置、学習データ収集システム、及び学習データ収集方法

Also Published As

Publication number Publication date
JP7449385B2 (ja) 2024-03-13
US20230230342A1 (en) 2023-07-20
JPWO2022003973A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US8948500B2 (en) Method of automatically training a classifier hierarchy by dynamic grouping the training samples
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN112329619B (zh) 一种人脸识别方法、装置、电子设备及可读存储介质
AU2021201933B2 (en) Hierarchical multiclass exposure defects classification in images
EP2336949B1 (en) Apparatus and method for registering plurality of facial images for face recognition
JP2010160793A (ja) 赤目を検出する方法、赤目検出システム、赤目検出装置、コンピューター読み取り可能な媒体および画像処理装置
JP2007213182A (ja) 対象物状態認識方法および装置並びにプログラム
WO2014074959A1 (en) Real-time face detection using pixel pairs
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
JP2010165046A (ja) 情報処理装置及び情報処理方法
JP5640621B2 (ja) 赤目オブジェクト候補を分類する方法、コンピューター読み取り可能な媒体および画像処理装置
JP4757598B2 (ja) 顔検出方法および装置並びにプログラム
JP5214679B2 (ja) 学習装置、方法及びプログラム
JPWO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および識別辞書学習プログラム
WO2022003973A1 (ja) 訓練データ選別装置、訓練データ選別方法及びプログラム
JP2006018707A (ja) 被写体識別装置、その識別方法とその識別プログラム、および被写体識別器設定装置、その設定方法とその設定プログラム
WO2009096208A1 (ja) 物体認識システム,物体認識方法および物体認識用プログラム
CN109063761B (zh) 扩散器脱落检测方法、装置及电子设备
JP7457808B2 (ja) 負例利用可否決定装置、負例利用可否決定方法及びプログラム
CN113807407A (zh) 目标检测模型训练方法、模型性能检测方法及装置
JP7457809B2 (ja) 追加撮影要否通知装置、追加撮影要否通知方法及びプログラム
JP5283267B2 (ja) コンテンツ識別方法及び装置
CN112418244A (zh) 目标检测方法、装置和电子系统
WO2023195098A1 (ja) 情報処理システム、情報処理方法及びプログラム
CN117671473B (zh) 基于注意力和多尺度特征融合的水下目标检测模型及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20942566

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022533011

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20942566

Country of ref document: EP

Kind code of ref document: A1