WO2020183656A1 - データ生成方法、データ生成装置及びプログラム - Google Patents

データ生成方法、データ生成装置及びプログラム Download PDF

Info

Publication number
WO2020183656A1
WO2020183656A1 PCT/JP2019/010323 JP2019010323W WO2020183656A1 WO 2020183656 A1 WO2020183656 A1 WO 2020183656A1 JP 2019010323 W JP2019010323 W JP 2019010323W WO 2020183656 A1 WO2020183656 A1 WO 2020183656A1
Authority
WO
WIPO (PCT)
Prior art keywords
correct answer
answer data
data generation
target image
indicating
Prior art date
Application number
PCT/JP2019/010323
Other languages
English (en)
French (fr)
Inventor
君 朴
壮馬 白石
康敬 馬場崎
佐藤 秀昭
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/010323 priority Critical patent/WO2020183656A1/ja
Priority to JP2021504714A priority patent/JP7164008B2/ja
Priority to US17/436,695 priority patent/US20220130135A1/en
Publication of WO2020183656A1 publication Critical patent/WO2020183656A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to a data generation method for generating correct answer data necessary for machine learning, a data generation device, and a technical field of a program.
  • Patent Document 1 discloses an example of a method of presenting information regarding correction of correct answer data indicating a correct answer for use in learning.
  • the image feature teacher data associated with the target section and the image feature teacher data associated with the section located around the image feature teacher data are associated with the section based on the comparison result. It is disclosed that a screen for instructing deletion or modification of the label of the teacher data of the conversion source of the image feature teacher data is displayed.
  • Patent Document 1 describes the point of generating a new teacher image belonging to the insufficient pattern, it does not disclose any point regarding the reduction of the burden of the correct answering work.
  • An object of the present invention is to provide a data generation method, a data generation device, and a program capable of efficiently generating correct answer data in view of the above-mentioned problems.
  • One aspect of the data generation method is a data generation method, in which a target image to be correctly answered is acquired, and the target object displayed on the target image is at a position including the target object or the target object.
  • the position showing a part of the object, or the position showing the candidate position of the object, the position including the object, the position showing a part of the object, or the object Based on the estimator learned to output the estimated position of the object from the candidate position, the second correct answer data indicating the estimated position of the object is generated from the first correct answer data.
  • One aspect of the data generation device is a data generation device, which is a target image acquisition unit that acquires a target image to be correctly answered, and the target object displayed on the target image.
  • the first correct answer data acquisition unit that acquires the first correct answer data indicating the position including the object or a part of the object, or the candidate position of the object, and the position including the object or the object.
  • the estimated position of the object is indicated from the first correct answer data based on the estimator learned to output the estimated position of the object from the position indicating a part or the candidate position of the object. It also has a second correct answer data generation unit that generates the second correct answer data.
  • One aspect of the program is a program executed by a computer, which is a target image acquisition unit that acquires a target image to be correctly answered, and the target object displayed on the target image.
  • the first correct answer data acquisition unit that acquires the first correct answer data indicating the position including the object or a part of the object, or the candidate position of the object, and the position including the object or the object.
  • the estimated position of the object is indicated from the first correct answer data based on the estimator learned to output the estimated position of the object from the position indicating a part or the candidate position of the object.
  • the computer functions as a second correct answer data generation unit that generates the second correct answer data.
  • the present invention it is possible to suitably generate the second correct answer data showing the estimated position of the object from the first correct answer data showing the rough position of the object. As a result, the burden of generating the first correct answer data is preferably reduced.
  • the outline configuration of the learning data generation system is shown. It is a functional block diagram related to the correct answer data generation processing. It is a functional block diagram related to a learning process.
  • A It is a figure which clearly shows the object position shown by the 1st correct answer data on the object image when the object is a person's head.
  • B It is a figure which clearly shows the object position indicated by the 2nd correct answer data on the object image.
  • C Another example of the object position indicated by the first correct answer data or the fourth correct answer data is shown.
  • A) It is a figure which clearly shows the object position shown by the 1st correct answer data on the object image when the object is a plurality of feature points of a face.
  • (B) It is a figure which clearly shows the object position indicated by the 2nd correct answer data on the object image.
  • A A display example of the target image is shown.
  • B It is a binary image included in the first correct answer data.
  • C It is a binary image included in the second correct answer data.
  • It is a flowchart which shows the processing procedure about the correct answer data generation processing. It is a flowchart which shows the processing procedure about a learning process. It is a functional block diagram of the data generation apparatus which concerns on modification 3.
  • the "position" of an object in an image is not limited to the case of indicating pixels or sub-pixels corresponding to typical points (coordinates) of the object, but may also refer to a group of pixels corresponding to the entire area of the object. It shall include.
  • FIG. 1 shows a schematic configuration of the learning data generation system 100 in the embodiment.
  • the learning data generation system 100 generates correct answer data with higher accuracy or accuracy from the correct answer data that has been correctly answered by the rough correct answering work.
  • the learning data generation system 100 includes a data generation device 10 and a storage device 20.
  • the data generation device 10 performs a process of generating the second correct answer data stored in the second correct answer data storage unit 23 from the first correct answer data stored in the first correct answer data storage unit 22 described later. Details of the first correct answer data and the second correct answer data will be described later.
  • the storage device 20 includes a target image storage unit 21, a first correct answer data storage unit 22, a second correct answer data storage unit 23, an estimator information storage unit 24, and a teacher data storage unit 25.
  • the storage device 20 may be an external storage device such as a hard disk connected to or built in the data generation device 10, or a storage medium such as a flash memory, and performs data communication with the data generation device 10. It may be a server device or the like. Further, the storage device 20 may be composed of a plurality of storage devices capable of data communication with the data generation device 10.
  • the target image storage unit 21 stores an image (also simply referred to as a “target image”) to be correctly answered.
  • Each object image includes an object (also referred to as an "object") to be correctly answered.
  • An object is a specific object or a specific part within the object, for example, an animal such as a person or a fish, a plant, a moving body, a feature, an instrument, or a part thereof.
  • the target image, together with the second correct answer data stored in the second correct answer data storage unit 23, is suitably used for learning an estimator for estimating the position of the object from the image.
  • the first correct answer data storage unit 22 stores the first correct answer data corresponding to the target image stored in the target image storage unit 21.
  • the first correct answer data includes identification information of the corresponding target image, classification information indicating the classification (type) of the target object displayed in the corresponding target image, and a position related to the target object (also referred to as "object position"). ) Is included.
  • the position of the object may indicate coordinates (that is, points) in the image, or may indicate a region.
  • the object position indicated by the first correct answer data is the object position specified by the rough correct answering work, and specifically, the worker to the terminal device used by the worker performing the correct answering work. Indicates the position specified in the target image by inputting with.
  • the object position indicated by the first correct answer data is less accurate or accurate than the object position indicated by the second correct answer data described later.
  • the object position indicated by the first correct answer data is either a position including the object, a position indicating a part of the object, or a candidate position of the object (that is, a candidate for the position of the object). It is the position specified in the correct answering work so as to indicate the position of. Specific examples of the target positions indicated by the first correct answer data will be described later with reference to FIGS. 4 to 6.
  • the first correct answer data may include information on a plurality of coordinates specified in the correct answering operation in order to specify the area. For example, when the object position of the first correct answer data is a rectangular area, at least the information of the coordinates indicating the diagonal vertex positions of the rectangular area designated in the correct answering operation is included in the first correct answer data.
  • the first correct answer data may include a binary image (so-called mask image) indicating the position of the object instead of the coordinate information.
  • the second to fourth correct answer data described later may also include coordinate information for indicating the position of the object or a binary image.
  • the second correct answer data storage unit 23 stores the second correct answer data corresponding to the target image stored in the target image storage unit 21. Similar to the first correct answer data, the second correct answer data is based on the identification information of the corresponding target image, the classification information indicating the classification (type) of the target object displayed in the corresponding target image, and the position of the target object. It contains information indicating the position of an object.
  • the object position indicated by the second correct answer data is an estimated position of the object estimated by inputting the first correct answer data indicating the object position of the same object into the estimator described later, and the first It indicates the position of the object that is more accurate or more accurate than the position of the object indicated by the correct answer data.
  • the first correct answer data and the second correct answer data do not have to include the classification information.
  • the estimator information storage unit 24 stores various information necessary for the estimator to function.
  • the estimator is a learning model trained to output an estimation result regarding the object position in the image when the image in which the object is displayed and the object position in the image are input. is there.
  • the estimator is learned to output an object position that is more accurate or accurate than the object position input to the estimator.
  • the estimator outputs an accurate and highly accurate position of the object when a position including the object, a position indicating a part of the object, or a candidate position of the object is input. Learned to do.
  • the learning model used for learning the estimator may be a learning model based on a neural network, or may be another type of learning model such as a support vector machine.
  • the estimator information storage unit 24 has, for example, a layer structure, a neuron structure of each layer, a number of filters and a filter size in each layer, and each element of each filter. It contains various information necessary to construct an estimator such as weights.
  • the teacher data storage unit 25 stores teacher data used for learning to generate an estimator indicated by the estimator information stored in the estimator information storage unit 24.
  • the teacher data stored by the teacher data storage unit 25 includes an image group displaying an object and correct answer data (also referred to as “third correct answer data”) corresponding to the image group.
  • the third correct answer data is data including the position of the correct answer of the object displayed in each image of the above-mentioned image group, the classification of the object, and the identification information of the corresponding image.
  • the third correct answer data is used as the teacher data of the above-mentioned estimator, and is also correct answer data indicating an object position having a lower accuracy or accuracy than the object position indicated by the third correct answer data (“No. 3”. 4 It is also called "correct answer data").
  • the data generation device 10 includes a processor 11, a memory 12, an interface 13, a display unit 14, and an input unit 15 as hardware.
  • the processor 11, the memory 12, the interface 13, the display unit 14, and the input unit 15 are connected via the data bus 19.
  • the processor 11 executes a predetermined process by executing the program stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the memory 12 is composed of various memories such as a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory. Further, the memory 12 stores a program for executing a process related to learning executed by the data generation device 10. Further, the memory 12 is used as a working memory and temporarily stores information and the like acquired from the storage device 20.
  • the memory 12 may function as a storage device 20. In this case, the memory 12 stores the target image storage unit 21, the first correct answer data storage unit 22, the second correct answer data storage unit 23, the estimator information storage unit 24, and the teacher data storage unit 25. Similarly, the storage device 20 may function as the memory 12 of the data generation device 10.
  • the interface 13 is a communication interface for transmitting and receiving data to and from the storage device 20 by wire or wirelessly based on the control of the processor 11, and corresponds to a network adapter or the like.
  • the data generation device 10 and the storage device 20 may be connected by a cable or the like.
  • the interface 13 is an interface compliant with USB, SATA (Serial AT Attitude), etc. for exchanging data with the storage device 20, in addition to a communication interface for data communication with the storage device 20.
  • the display unit 14 is a display or the like, and displays based on the control of the processor 11.
  • the input unit 15 is a mouse, keyboard, touch panel, voice input device, etc., and supplies input data indicating the detected input to the processor 11.
  • the hardware configuration of the data generation device 10 is not limited to the configuration shown in FIG.
  • the data generation device 10 may further include a sound output unit such as a speaker.
  • the data generation device 10 does not have to include at least one of the display unit 14 and the input unit 15.
  • the data generation device 10 may be composed of a plurality of devices. In this case, each of these devices exchanges information necessary for each device to execute a predeterminedly assigned process with another device.
  • the correct answer data generation process is a process of generating the second correct answer data from the first correct answer data when the estimator information is already stored in the estimator information storage unit 24. Further, the learning process is a process of generating estimator information stored in the estimator information storage unit 24 by learning.
  • FIG. 2 is a functional block diagram of the data generation device 10 related to the correct answer data generation process.
  • the processor 11 of the data generation device 10 determines the eligibility of the target image acquisition unit 31, the first correct answer data acquisition unit 32, the second correct answer data generation unit 33, and the correct answer data generation process. It has a unit 34 and an output unit 35.
  • the target image acquisition unit 31 acquires a target image to be correctly answered from the target image storage unit 21.
  • the target image acquisition unit 31 may collectively acquire a plurality of target images from the target image storage unit 21, or may acquire one target image from the target image storage unit 21.
  • the data generation device 10 executes the subsequent processing in parallel for the plurality of acquired target images, or sequentially executes the subsequent processing for each acquired target image. Then, the target image acquisition unit 31 supplies the acquired target image to the second correct answer data generation unit 33.
  • the first correct answer data acquisition unit 32 acquires the first correct answer data corresponding to the target image acquired by the target image acquisition unit 31 from the first correct answer data storage unit 22. Then, the first correct answer data acquisition unit 32 supplies the acquired first correct answer data to the second correct answer data generation unit 33.
  • the second correct answer data generation unit 33 acquires the target image acquired by the target image acquisition unit 31 and the first correct answer data acquisition unit 32 in the estimator configured based on the estimator information stored in the estimator information storage unit 24.
  • the second correct answer data is generated by inputting the first correct answer data.
  • the estimator is an arithmetic model (learning model) trained to output an object position with higher accuracy or accuracy than the object position input to the estimator.
  • the estimator outputs an estimation result indicating the correct position of the object when either the position including the object, the position indicating a part of the object, or the candidate position of the object is input. It is an arithmetic model learned to do.
  • the second correct answer data generation unit 33 preferably obtains the second correct answer data indicating the object position having higher accuracy or accuracy than the object position indicated by the first correct answer data. Can be generated. Then, the second correct answer data generation unit 33 supplies the generated second correct answer data and the target image to the eligibility determination unit 34.
  • the eligibility determination unit 34 determines whether or not the second correct answer data generated by the second correct answer data generation unit 33 is eligibility as data indicating the correct answer position of the object. Then, the eligibility determination unit 34 excludes the second correct answer data determined not to be eligible as the data indicating the correct answer position of the object from the target to be stored in the second correct answer data storage unit 23. Specific examples of eligibility determination will be described later.
  • the eligibility determination unit 34 supplies the second correct answer data determined to have the above-mentioned eligibility to the output unit 35.
  • the output unit 35 outputs the second correct answer data supplied from the eligibility determination unit 34.
  • the output unit 35 stores the second correct answer data supplied from the eligibility determination unit 34 in the second correct answer data storage unit 23.
  • the eligibility determination unit 34 determines that the second correct answer data is not eligible when the area indicated by the second correct answer data is larger than the area indicated by the first correct answer data. To do.
  • the “when the area becomes large” may be a case where the area becomes large, or a case where at least one of the vertical width and the horizontal width becomes large.
  • the eligibility determination unit 34 indicates that the overlapping ratio of the area indicated by the first correct answer data and the area indicated by the second correct answer data is equal to or less than a predetermined ratio. , It is determined that the second correct answer data is not eligible.
  • the eligibility determination unit 34 calculates, for example, IoU (Intersection over Union) as the above-mentioned overlap ratio.
  • the above-mentioned predetermined ratio may be 0 (that is, there is no overlap at all), or may be a predetermined value larger than 0.
  • the eligibility determination unit 34 displays the target image clearly indicating the region indicated by the first correct answer data and the region indicated by the second correct answer data as a third example when the object position indicates an area. Is displayed on the screen, and the input unit 15 receives an input for designating the eligibility of the area indicated by the second correct answer data. In this case, when the input unit 15 detects the input that the area indicated by the second correct answer data does not have eligibility, the eligibility determination unit 34 determines that the second correct answer data is not eligible.
  • the eligibility determination unit 34 determines that the second correct answer data is qualified when the error between the coordinates indicated by the first correct answer data and the coordinates indicated by the second correct answer data is equal to or greater than a predetermined degree. Judge that there is no.
  • the error in this case may be a square error, an absolute error, a maximum error, or an error based on OKS (Object Keypoint Similarity).
  • the eligibility determination unit 34 displays a target image clearly indicating the coordinates indicated by the first correct answer data and the coordinates indicated by the second correct answer data on the display unit 14, and the coordinates indicated by the second correct answer data.
  • the input unit 15 receives an input for specifying whether or not the user is eligible. In this case, when the input unit 15 detects the input that the coordinates indicated by the second correct answer data do not have eligibility, the eligibility determination unit 34 determines that the second correct answer data is not eligible.
  • FIG. 3 is a functional block diagram of the data generation device 10 related to the learning process for generating the estimator.
  • the processor 11 of the data generation device 10 includes an image acquisition unit 36, a third correct answer data acquisition unit 37, a fourth correct answer data generation unit 38, and a learning unit 39 regarding learning processing. Have.
  • the image acquisition unit 36 acquires an image group of teacher data used for learning the estimator from the teacher data storage unit 25. Then, the image acquisition unit 36 supplies the acquired image group to the learning unit 39.
  • the third correct answer data acquisition unit 37 acquires the third correct answer data indicating the object position of the object displayed in the image group acquired by the image acquisition unit 36 from the teacher data storage unit 25. Then, the third correct answer data acquisition unit 37 supplies the acquired third correct answer data to the fourth correct answer data generation unit 38 and the learning unit 39.
  • the 4th correct answer data generation unit 38 generates the 4th correct answer data from the 3rd correct answer data supplied from the 3rd correct answer data acquisition unit 37.
  • the fourth correct answer data generation unit 38 determines and determines an object position having a lower accuracy or accuracy than the object position indicated by the third correct answer data, based on the object position indicated by the third correct answer data. Generate the fourth correct answer data indicating the position of the object.
  • the fourth correct answer data generation unit 38 is either a position including the object, a position indicating a part of the object, or a candidate position of the object from the object position indicated by the third correct answer data. Select the position corresponding to, and generate the 4th correct answer data showing the selected position as the object position. More specifically, the fourth correct answer data generation unit 38 randomly selects a position including the object from the object positions indicated by the third correct answer data, and randomly selects a position indicating a part of the object. Select a position that corresponds to either the position selected in 1 or the position randomly selected as a candidate position for the object.
  • the third correct answer data indicates the object position obtained by enlarging or moving the object position. 4 Generate correct answer data. In this case, the enlargement ratio, the moving direction, and the moving distance are randomly determined. Then, the fourth correct answer data generation unit 38 supplies the generated fourth correct answer data to the learning unit 39.
  • the learning unit 39 includes an image group supplied from the image acquisition unit 36, a third correct answer data supplied from the third correct answer data acquisition unit 37, and a fourth correct answer data supplied by the fourth correct answer data generation unit 38. Based on this, the estimator is generated by training the learning model. Specifically, the estimator learns to output the object position indicated by the third correct answer data when each image of the above image group and the object position indicated by the fourth correct answer data are input. It is a learning model that has been done. Therefore, the learning unit 39 uses a set of the image group supplied from the image acquisition unit 36 and the object position indicated by the corresponding fourth correct answer data as an input sample, and sets the object position indicated by the third correct answer data as an input sample. As a sample of correct answer data, the above-mentioned learning model is trained. Then, the learning unit 39 stores the estimator information about the estimator corresponding to the learned learning model in the estimator information storage unit 24.
  • the object positions indicated by the first correct answer data and the fourth correct answer data are determined to be positions including the object, positions indicating a part of the object, or candidate positions of the object. Will be done. Further, the object position indicated by the second correct answer data and the third correct answer data is determined so as to indicate the position of the correct answer of the object.
  • FIG. 4A is a diagram in which the object position 51 and the object position 52 indicated by the first correct answer data are clearly shown on the target image 91 when the object is the human head.
  • FIG. 4B is a diagram in which the object position 61 and the object position 62 indicated by the second correct answer data are clearly shown on the target image 91.
  • the object positions 51 and 52 indicated by the first correct answer data are roughly (that is, with low accuracy) designated areas so as to include at least the entire display area of the object, respectively. It has become.
  • the object positions 61 and 62 indicated by the second correct answer data are heads of the head which are objects with higher accuracy than the object positions 51 and 52 indicated by the first correct answer data. Indicates the area.
  • the second correct answer data generation unit 33 generates the second correct answer data indicating the object position with higher accuracy than the first correct answer data.
  • the object positions 61 and 62 shown in FIG. 4B are regarded as examples of the object positions shown by the third correct answer data
  • the object positions 51 and 52 shown in FIG. 4A are shown by the fourth correct answer data. It can also be regarded as an example of the object position.
  • the fourth correct answer data generation unit 38 indicates the object positions 51 and 52 in which the object positions 61 and 62 indicated by the third correct answer data are enlarged by a predetermined magnification and moved in a predetermined direction by a predetermined distance. Generate the fourth correct answer data.
  • the above-mentioned predetermined magnification and predetermined distance are randomly determined from, for example, a predetermined range, and the predetermined direction is randomly determined from all directions.
  • FIG. 4C shows an example of the object position indicated by the first correct answer data or the fourth correct answer data.
  • the object positions 71 and 72 shown in FIG. 4C show a part of the area or coordinates in the display area of the object (human head) displayed on the target image.
  • the second correct answer data generation unit 33 starts with the object positions 71 and 72 representing a part of the head.
  • the second correct answer data indicating the object positions 61 and 62 indicating the position of the entire head is generated.
  • the third correct answer data indicates the object positions 61 and 62 in FIG.
  • the fourth correct answer data generation unit 38 selects one of the display areas of the entire head indicated by the object positions 61 and 62. Object positions 71 and 72 corresponding to the parts are randomly selected. Then, the fourth correct answer data generation unit 38 generates the fourth correct answer data indicating the selected object positions 71 and 72.
  • FIG. 5A clearly shows the object positions 53 to 59 indicated by the first correct answer data on the object image 92 when the object is a plurality of feature points of the face (both ends of both eyes, nose, and both ends of the mouth). It is a figure.
  • FIG. 5B is a diagram in which the object positions 63 to 69 indicated by the second correct answer data are clearly shown on the object image 92.
  • the object positions 53 to 59 indicated by the first correct answer data are roughly specified (with low accuracy) so as to be candidate positions for the feature points to be the objects. ..
  • the object positions 53 to 59 indicate areas or coordinates that are close to the display area of the object (here, facial feature points) displayed on the target image 92.
  • the object positions 63 to 69 indicated by the second correct answer data indicate the positions of the feature points with higher accuracy than the object positions 53 to 59 indicated by the first correct answer data, as shown in FIG. 5 (B). Shown.
  • the second correct answer data generation unit 33 generates the second correct answer data indicating the object position with higher accuracy than the first correct answer data.
  • the object positions 63 to 69 shown in FIG. 5 (B) are regarded as examples of the object positions shown by the third correct answer data
  • the object positions 53 to 59 shown in FIG. 5 (A) are shown by the fourth correct answer data. It can also be regarded as an example of the object position.
  • the fourth correct answer data generation unit 38 generates the fourth correct answer data indicating the object positions 53 to 59 in which the object positions 63 to 69 indicated by the third correct answer data are moved in a predetermined direction by a predetermined distance, respectively.
  • the predetermined distance described above is, for example, randomly determined from a predetermined range, and the predetermined direction is randomly determined from all directions.
  • FIG. 6A shows a display example of the target image 93.
  • FIG. 6B is a binary image 94 included in the first correct answer data.
  • FIG. 6C is a binary image 95 included in the second correct answer data.
  • the binary images 94 and 95 are mask images indicating the positions of the luggage that is the object, respectively.
  • the pixels indicating the positions of the objects are displayed in black.
  • the binary image 94 of the first correct answer data roughly (that is, with low accuracy) points to an area including at least the entire display area of the object baggage.
  • the binary image 95 of the second correct answer data is the area of the luggage which is the object with higher accuracy than the object position shown by the binary image 94 of the first correct answer data. Is pointing to.
  • the second correct answer data generation unit 33 generates the second correct answer data including the binary image 95 showing the object position with higher accuracy than the binary image 94 of the first correct answer data.
  • the binary image 95 shown in FIG. 6 (C) is regarded as an example of the object position information included in the third correct answer data
  • the binary image 94 shown in FIG. 6 (B) is included in the fourth correct answer data. It can also be regarded as an example of information on the position of an object.
  • the fourth correct answer data generation unit 38 enlarges (and moves) the smallest rectangular area including the object position indicated by the binary image 95 included in the third correct answer data, and after the enlargement (and movement).
  • the fourth correct answer data including the binary image 94 showing the rectangular area of is generated. In this case, the enlargement ratio, the moving direction, and the moving distance are randomly selected.
  • FIG. 7 is a flowchart showing a processing procedure related to the correct answer data generation processing.
  • the data generation device 10 repeatedly executes the processing of the flowchart shown in FIG. 7 for each target image stored in the target image storage unit 21, for example.
  • the target image acquisition unit 31 acquires the target image to be correctly answered from the target image storage unit 21 (step S10). Then, the first correct answer data acquisition unit 32 acquires the first correct answer data indicating the position of the object with respect to the target image acquired in step S10 (step S11).
  • the second correct answer data generation unit 33 inputs the target image and the first correct answer data into the estimator composed of the estimator information included in the estimator information storage unit 24, and is more accurate or accurate than the first correct answer data.
  • the second correct answer data indicating the position of the object is generated (step S12).
  • the eligibility determination unit 34 determines whether or not the second correct answer data generated in step S12 has eligibility as data indicating the correct answer position of the object (step S13). Then, when the target second correct answer data has the above-mentioned qualification (step S13; Yes), the output unit 35 outputs the target second correct answer data (step S14). Specifically, the output unit 35 stores the target second correct answer data in the second correct answer data storage unit 23. As a result, the data generation device 10 can suitably generate the second correct answer data indicating the object position having higher accuracy or accuracy than the first correct answer data. This second correct answer data is suitably used for learning the learning model together with the corresponding target image.
  • the output unit 35 ends the processing of the flowchart without outputting the target second correct answer data.
  • the data generation device 10 can suitably exclude the second correct answer data, which is likely to be incorrect correct answer data, from the target to be stored in the second correct answer data storage unit 23. As a result, it is possible to preferably suppress the use of incorrect correct answer data as learning data.
  • FIG. 8 is a flowchart showing the procedure of the learning process related to the estimator.
  • the image acquisition unit 36 acquires an image group from the teacher data storage unit 25 (step S20). Further, the third correct answer data acquisition unit 37 acquires the third correct answer data from the teacher data storage unit 25, which accurately and highly accurately indicates the position of the object displayed in each image of the image group acquired in step S20. (Step S21).
  • the fourth correct answer data generation unit 38 generates the fourth correct answer data indicating the position of the object whose accuracy or accuracy has been lowered from the third correct answer data acquired in step S21 (step S22).
  • the fourth correct answer data generation unit 38 is either a position including the object, a position indicating a part of the object, or a candidate position of the object from the object position indicated by the third correct answer data. Select the position corresponding to, and generate the 4th correct answer data showing the selected position as the object position.
  • the learning unit 39 learns using the image group acquired in step S20, the third correct answer data acquired in step S21, and the fourth correct answer data acquired in step S22, and the step of FIG. 7 Generate an estimator for use in S12 (step S23). Specifically, the learning unit 39 uses the set of the image group and the object position indicated by the corresponding fourth correct answer data as an input sample, and the object position indicated by the third correct answer data as a sample of the correct answer data. , Learn the learning model. Then, the learning unit 39 stores the generated estimator information of the estimator in the estimator information storage unit 24 (step S24).
  • the correct answering work when the worker is required to perform the correct answering accurately, the time and labor required for the correct answering work are required. For example, when the object is small, it is necessary to perform an image enlargement operation or the like, which makes it difficult to obtain an efficient correct answer.
  • the criteria for correct answering differ from person to person, when the correct answer is given by multiple workers, the correct answer data obtained can be obtained even if each worker takes time to give the correct answer. The quality is not uniform.
  • the data generation device 10 in the present embodiment preferably generates the second correct answer data having uniform quality from the first correct answer data based on the correct answer roughly performed in the correct answering work.
  • the time and labor of the correct answering work can be suitably reduced, and even when the correct answering is performed by a plurality of workers, the second correct answer data of uniform quality can be suitably generated. ..
  • the data generation device 10 may perform only the second correct answer data generation process among the second correct answer data generation process and the learning process described above.
  • the estimator information storage unit 24 stores the estimator information generated in advance by a device other than the data generation device 10, and the data generation device 10 refers to the estimator information storage unit 24 and is second. Execute the correct answer data generation process. This also makes it possible to preferably generate the second correct answer data having uniform quality from the first correct answer data based on the correct answer roughly performed in the correct answering work.
  • the data generation device 10 may receive the target image and the first correct answer data from the terminal device that performs the correct answering work instead of acquiring the target image and the first correct answer data from the storage device 20.
  • the data generation device 10 performs data communication via a network or the like with one or a plurality of terminal devices that receive user input from the correct answering work and generate the first correct answer data. Then, when the data generation device 10 receives the combination of the target image and the first correct answer data from the terminal device described above, the data generation device 10 executes the correct answer data generation process step S12 shown in FIG. 7 and the subsequent processes. This also makes it possible to preferably generate the second correct answer data having uniform quality from the first correct answer data based on the correct answer roughly performed in the correct answering work.
  • the data generation device 10 does not have to have a function corresponding to the qualification determination unit 34 and the output unit 35 shown in FIG.
  • FIG. 9 is a functional block diagram of the data generation device 10A according to the third modification.
  • the processor 11 of the data generation device 10A includes a target image acquisition unit 31A, a first correct answer data acquisition unit 32A, and a second correct answer data generation unit 33A.
  • the target image acquisition unit 31A acquires the target image for which the correct answer is given.
  • the first correct answer data acquisition unit 32A indicates the position including the object, the position indicating a part of the object, or the candidate position of the object with respect to the object displayed in the target image. Get the correct answer data.
  • the second correct answer data generation unit 33A generates the second correct answer data indicating the estimated position of the object from the first correct answer data based on the estimator.
  • the estimator is learned to output the estimated position of the object from the position including the object, the position indicating a part of the object, or the candidate position of the object.
  • the data generation device 10A can suitably generate the second correct answer data having uniform quality from the first correct answer data based on the correct answer roughly performed in the correct answering operation.
  • [Appendix 1] Acquire the target image for which the correct answer is given, For the object displayed in the target image A position that includes the object or a position that indicates a part of the object, or Acquire the first correct answer data showing the candidate position of the object, and The first correct answer data based on an estimator learned to output the estimated position of the object from the position including the object, the position indicating a part of the object, or the candidate position of the object. Generates the second correct answer data indicating the estimated position of the object. Data generation method.
  • Appendix 2 The data generation method according to Appendix 1, wherein the first correct answer data indicates a designated position in the target image.
  • Appendix 3 The data generation method according to Appendix 1 or 2, wherein the position including the object is an area designated to include at least the entire display area of the object displayed on the target image.
  • Appendix 4 The position indicating a part of the object is described in any one of Appendix 1 to 3, which indicates a part of the area or coordinates designated in the display area of the object displayed on the target image. Data generation method.
  • Appendix 6 The data generation method according to any one of Appendix 1 to 5, wherein it is determined whether or not the estimated position indicated by the second correct answer data is qualified as the correct answer position of the object.
  • Appendix 7 The data generation method according to Appendix 6, wherein the second correct answer data determined to have the eligibility is stored in a storage unit as learning data used for learning.
  • Appendix 8 Get the image group, Acquire the third correct answer data indicating the position of the object displayed in each image of the image group, and obtain the third correct answer data. From the third correct answer data, the fourth correct answer data indicating the position including the object, the position indicating a part of the object, or the candidate position of the object is generated.
  • the data generation method according to any one of Appendix 1 to 7, wherein the estimator is learned based on the image group, the third correct answer data, and the fourth correct answer data.
  • Appendix 9 Either a position randomly selected as a position including the object, a position randomly selected as a position indicating a part of the object, or a position randomly selected as a candidate position of the object.
  • the target image acquisition unit that acquires the target image for which the correct answer is given, and For the object displayed in the target image A position that includes the object or a position that indicates a part of the object, or The first correct answer data acquisition unit that acquires the first correct answer data indicating the candidate position of the object, and The first correct answer data based on an estimator learned to output the estimated position of the object from the position including the object, the position indicating a part of the object, or the candidate position of the object.
  • a data generation device including a second correct answer data generation unit that generates a second correct answer data indicating an estimated position of the object.
  • a program executed by a computer The target image acquisition unit that acquires the target image for which the correct answer is given, and For the object displayed in the target image A position that includes the object or a position that indicates a part of the object, or The first correct answer data acquisition unit that acquires the first correct answer data indicating the candidate position of the object, and The first correct answer data based on an estimator learned to output the estimated position of the object from the position including the object, the position indicating a part of the object, or the candidate position of the object.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

対象画像取得部31Aは、正解付けがなされる対象となる対象画像を取得する。第1正解データ取得部32Aは、対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する。第2正解データ生成部33Aは、推定器に基づき、第1正解データから、対象物の推定位置を示した第2正解データを生成する。ここで、推定器は、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習されている。

Description

データ生成方法、データ生成装置及びプログラム
 本発明は、機械学習に必要な正解データの生成に関するデータ生成方法、データ生成装置及びプログラムの技術分野に関する。
 学習に用いるための正解を示す正解データの修正に関する情報の提示方法の一例が特許文献1に開示されている。特許文献1には、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとの対比結果に基づいて、この区画に紐付けられている画像特徴教師データの変換元の教師データに対する、削除又はラベルの修正を指示する画面を表示する点が開示されている。
特開2015-185149号公報
 正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。特許文献1には、不足パターンに属する新たな教師画像を生成する点については記載されているものの、正解付け作業の負担低減に関する点については、何ら開示されていない。
 本発明の目的は、上述した課題を鑑み、正解データを効率よく生成することが可能なデータ生成方法、データ生成装置及びプログラムを提供することを主な課題とする。
 データ生成方法の一の態様は、データ生成方法であって、正解付けがなされる対象となる対象画像を取得し、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得し、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する。
 データ生成装置の一の態様は、データ生成装置であって、正解付けがなされる対象となる対象画像を取得する対象画像取得部と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する第1正解データ取得部と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部と、を有する。
 プログラムの一の態様は、コンピュータが実行するプログラムであって、正解付けがなされる対象となる対象画像を取得する対象画像取得部と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する第1正解データ取得部と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部として前記コンピュータを機能させる。
 本発明によれば、大まかな対象物の位置を示す第1正解データから、対象物の推定位置を示した第2正解データを好適に生成することが可能となる。これにより、第1正解データの生成に関する負担が好適に低減される。
学習データ生成システムの概略構成を示す。 正解データ生成処理に関連する機能ブロック図である。 学習処理に関連する機能ブロック図である。 (A)対象物が人の頭部である場合に第1正解データが示す対象物位置を対象画像上に明示した図である。(B)第2正解データが示す対象物位置を対象画像上に明示した図である。(C)第1正解データ又は第4正解データが示す対象物位置の他の例を示す。 (A)対象物が顔の複数の特徴点である場合に第1正解データが示す対象物位置を対象画像上に明示した図である。(B)第2正解データが示す対象物位置を対象画像上に明示した図である。 (A)対象画像の表示例を示す。(B)第1正解データに含まれる2値画像である。(C)第2正解データに含まれる2値画像である。 正解データ生成処理に関する処理手順を示すフローチャートである。 学習処理に関する処理手順を示すフローチャートである。 変形例3に係るデータ生成装置の機能ブロック図である。
 以下、図面を参照しながら、データ生成方法、データ生成装置、及びプログラムの実施形態について説明する。以後において、画像中における物体の「位置」とは、物体の代表的な点(座標)に相当する画素又はサブピクセルを示す場合に限らず、物体の全体領域に相当する画素群を指す場合も含むものとする。
 [全体構成]
 図1は、実施形態における学習データ生成システム100の概略構成を示す。学習データ生成システム100は、大まかな正解付け作業により正解付けがなされた正解データから、より正確度又は精度が高い正解データを生成する。学習データ生成システム100は、データ生成装置10と、記憶装置20とを有する。
 データ生成装置10は、後述する第1正解データ記憶部22に記憶された第1正解データから第2正解データ記憶部23に記憶する第2正解データを生成する処理を行う。第1正解データ及び第2正解データの詳細は後述する。
 記憶装置20は、対象画像記憶部21と、第1正解データ記憶部22と、第2正解データ記憶部23と、推定器情報記憶部24と、教師データ記憶部25とを有する。なお、記憶装置20は、データ生成装置10に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、データ生成装置10とデータ通信を行うサーバ装置などであってもよい。また、記憶装置20は、データ生成装置10とデータ通信可能な複数の記憶装置から構成されてもよい。
 対象画像記憶部21は、正解付けの対象となる画像(単に「対象画像」とも呼ぶ。)を記憶する。各対象画像は、正解付けする対象(「対象物」とも呼ぶ。)を含んでいる。対象物は、特定の物体又は当該物体内の特定の部位であり、例えば、人や魚などの動物、植物、移動体、地物、器具、又はその一部である。対象画像は、第2正解データ記憶部23に記憶される第2正解データと共に、画像から対象物の位置を推定する推定器の学習等に好適に用いられる。
 第1正解データ記憶部22は、対象画像記憶部21に記憶される対象画像に対応する第1正解データを記憶する。第1正解データは、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類(種別)を示す分類情報と、当該対象物に関する位置(「対象物位置」とも呼ぶ。)を示す情報と、を含んでいる。なお、対象物位置は、画像内の座標(即ち点)を示すものであってもよく、領域を示すものであってもよい。ここで、第1正解データが示す対象物位置は、大まかな正解付け作業により指定された対象物位置であり、具体的には、正解付け作業を行う作業員が使用する端末装置への作業員による入力により対象画像内において指定された位置を示す。
 ここで、第1正解データが示す対象物位置は、後述の第2正解データが示す対象物位置よりも正確度又は精度が低い。具体的には、第1正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置(即ち対象物の位置の候補)のいずれかの位置を示すように、正解付け作業において指定された位置である。第1正解データが示す対象位置の具体例については、図4~図6を参照して後述する。
 なお、第1正解データが示す対象物位置が領域である場合、第1正解データには、当該領域を特定するために正解付け作業において指定された複数の座標の情報が含まれてもよい。例えば、第1正解データの対象物位置が矩形領域である場合には、正解付け作業において指定された矩形領域の対角の頂点位置を示す座標の情報が少なくとも第1正解データに含まれる。他の例では、第1正解データには、座標の情報に代えて、対象物位置を指し示す2値画像(所謂マスク画像)が含まれてもよい。後述する第2~第4正解データも同様に、対象物位置を示すための座標の情報又は2値画像が含まれてもよい。
 第2正解データ記憶部23は、対象画像記憶部21に記憶される対象画像に対応する第2正解データを記憶する。第2正解データは、第1正解データと同様、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類(種別)を示す分類情報と、当該対象物の位置である対象物位置を示す情報と、を含んでいる。ここで、第2正解データが示す対象物位置は、同一対象物の対象物位置を示す第1正解データを後述の推定器に入力することで推定された対象物の推定位置であり、第1正解データが示す対象物位置よりも正確又は高精度な対象物の位置を示している。なお、対象物が1種類しか存在しない場合等には、第1正解データ及び第2正解データには、分類情報は含まれていなくともよい。
 推定器情報記憶部24は、推定器を機能させるために必要な種々の情報を記憶する。ここで、推定器は、対象物が表示された画像及び当該画像内における対象物位置が入力された場合に、当該画像内における対象物位置に関する推定結果を出力するように学習された学習モデルである。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習される。具体的には、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置が入力された場合に、当該対象物の正確かつ高精度な位置を出力するように学習される。この場合、推定器の学習に用いられる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよい。例えば、学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、推定器情報記憶部24には、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの推定器を構成するのに必要な種々の情報が含まれる。
 教師データ記憶部25は、推定器情報記憶部24に記憶した推定器情報が示す推定器を生成する学習に用いられる教師データを記憶する。ここで、教師データ記憶部25が記憶する教師データは、対象物を表示した画像群と、当該画像群に対応する正解データ(「第3正解データ」とも呼ぶ。)と、を含む。第3正解データは、上述の画像群の各画像に表示された対象物の正解となる位置と、対象物の分類と、対応する画像の識別情報とを含むデータである。後述するように、第3正解データは、上述の推定器の教師データとして用いられる他、第3正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を示す正解データ(「第4正解データ」とも呼ぶ。)の生成に用いられる。
 次に、引き続き図1を参照してデータ生成装置10のハードウェア構成について説明する。データ生成装置10は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13と、表示部14と、入力部15とを含む。プロセッサ11、メモリ12、インターフェース13、表示部14及び入力部15は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサである。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ12には、データ生成装置10が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置20として機能してもよい。この場合、メモリ12は、対象画像記憶部21と、第1正解データ記憶部22と、第2正解データ記憶部23と、推定器情報記憶部24と、教師データ記憶部25とを記憶する。同様に、記憶装置20は、データ生成装置10のメモリ12として機能してもよい。
 インターフェース13は、プロセッサ11の制御に基づき記憶装置20とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、データ生成装置10と記憶装置20とはケーブル等により接続されてもよい。この場合、インターフェース13は、記憶装置20とデータ通信を行う通信インターフェースの他、記憶装置20とデータの授受を行うためのUSB、SATA(Serial AT Attachment)などに準拠したインターフェースである。
 表示部14は、ディスプレイ等であり、プロセッサ11の制御に基づく表示を行う。入力部15は、マウス、キーボード、タッチパネル、音声入力装置等であり、検知した入力を示す入力データをプロセッサ11に供給する。
 なお、データ生成装置10のハードウェア構成は、図1に示す構成に限定されない。例えば、データ生成装置10は、スピーカなどの音出力部などをさらに備えてもよい。また、データ生成装置10は、表示部14又は入力部15の少なくとも一方を備えなくともよい。
 また、データ生成装置10は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を他の装置と行う。
 [機能ブロック]
 次に、データ生成装置10の機能ブロックについて説明する。以後では、正解データ生成処理について説明した後、学習処理について説明する。ここで、正解データ生成処理は、推定器情報が既に推定器情報記憶部24に記憶されている場合に第1正解データから第2正解データを生成する処理である。また、学習処理は、推定器情報記憶部24に記憶する推定器情報を学習により生成する処理である。
 図2は、正解データ生成処理に関連するデータ生成装置10の機能ブロック図である。図2に示すように、データ生成装置10のプロセッサ11は、正解データ生成処理に関し、対象画像取得部31と、第1正解データ取得部32と、第2正解データ生成部33と、適格性判定部34と、出力部35と、を有する。
 対象画像取得部31は、対象画像記憶部21から、正解付けの対象となる対象画像を取得する。なお、対象画像取得部31は、対象画像記憶部21から複数の対象画像をまとめて取得してもよく、対象画像記憶部21から1つの対象画像を取得してもよい。前者の場合、データ生成装置10は、取得した複数の対象画像に対して以後の処理を並行して、又は取得したそれぞれの対象画像について以後の処理を順に実行する。そして、対象画像取得部31は、取得した対象画像を第2正解データ生成部33へ供給する。
 第1正解データ取得部32は、対象画像取得部31が取得した対象画像に対応する第1正解データを第1正解データ記憶部22から取得する。そして、第1正解データ取得部32は、取得した第1正解データを第2正解データ生成部33へ供給する。
 第2正解データ生成部33は、推定器情報記憶部24に記憶された推定器情報に基づき構成した推定器に、対象画像取得部31が取得した対象画像と第1正解データ取得部32が取得した第1正解データとを入力することで、第2正解データを生成する。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習された演算モデル(学習モデル)となっている。言い換えると、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかが入力された場合に、対象物の正解位置を示す推定結果を出力するように学習された演算モデルとなっている。よって、第2正解データ生成部33は、このような推定器を用いることで、第1正解データが示す対象物位置よりも正確度又は精度が高い対象物位置を示す第2正解データを好適に生成することができる。そして、第2正解データ生成部33は、生成した第2正解データ及び対象画像を適格性判定部34へ供給する。
 適格性判定部34は、第2正解データ生成部33が生成した第2正解データについて、対象物の正解位置を示すデータとしての適格性の有無を判定する。そして、適格性判定部34は、対象物の正解位置を示すデータとして適格性がないと判定した第2正解データを第2正解データ記憶部23に保存する対象から除外する。適格性判定の具体例については後述する。適格性判定部34は、上述の適格性があると判定した第2正解データを出力部35へ供給する。
 出力部35は、適格性判定部34から供給された第2正解データを出力する。本実施形態では、出力部35は、一例として、適格性判定部34から供給された第2正解データを、第2正解データ記憶部23に記憶する。
 ここで、適格性判定部34による適格性判定の具体例について説明する。
 まず、対象物位置が矩形領域などの領域を示す場合について検討する。この場合、適格性判定部34は、第1の例として、第1正解データが示す領域よりも第2正解データが示す領域が大きくなった場合、当該第2正解データは適格性がないと判定する。「領域が大きくなった場合」とは、面積が大きくなった場合であってもよく、縦幅又は横幅の少なくとも一方が大きくなった場合であってもよい。また、対象物位置が領域を示す場合の第2の例として、適格性判定部34は、第1正解データが示す領域と第2正解データが示す領域との重なり割合が所定割合以下である場合、当該第2正解データは適格性がないと判定する。この場合、適格性判定部34は、上述の重なり割合として、例えば、IoU(Intersection over Union)を算出する。上述の所定割合は、0(即ち全く重なりがない)であってもよく、0より大きい所定値であってもよい。また、適格性判定部34は、対象物位置が領域を示す場合の第3の例として、第1正解データが示す領域と、第2正解データが示す領域とを明示した対象画像を表示部14に表示し、第2正解データが示す領域の適格性の有無を指定する入力を入力部15により受け付ける。この場合、適格性判定部34は、第2正解データが示す領域は適格性を有しない旨の入力を入力部15により検知した場合、当該第2正解データは適格性がないと判定する。
 次に、対象物位置が座標(点)を示す場合について検討する。この場合、適格性判定部34は、第1の例として、第1正解データが示す座標と第2正解データが示す座標との誤差が所定度合以上である場合、当該第2正解データは適格性がないと判定する。この場合の誤差は、2乗誤差であってもよく、絶対誤差であってもよく、最大誤差であってもよく、OKS(Object Keypoint Similarity)に基づく誤差であってもよい。適格性判定部34は、第2の例として、第1正解データが示す座標と、第2正解データが示す座標とを明示した対象画像を表示部14に表示し、第2正解データが示す座標の適格性の有無を指定する入力を入力部15により受け付ける。この場合、適格性判定部34は、第2正解データが示す座標は適格性を有しない旨の入力を入力部15により検知した場合、当該第2正解データは適格性がないと判定する。
 図3は、推定器の生成を行う学習処理に関連するデータ生成装置10の機能ブロック図である。
 図3に示すように、データ生成装置10のプロセッサ11は、学習処理に関し、画像取得部36と、第3正解データ取得部37と、第4正解データ生成部38と、学習部39と、を有する。
 画像取得部36は、推定器の学習に用いる教師データの画像群を教師データ記憶部25から取得する。そして、画像取得部36は、取得した画像群を学習部39へ供給する。
 第3正解データ取得部37は、画像取得部36が取得した画像群に表示された対象物の対象物位置を示す第3正解データを教師データ記憶部25から取得する。そして、第3正解データ取得部37は、取得した第3正解データを、第4正解データ生成部38と学習部39に供給する。
 第4正解データ生成部38は、第3正解データ取得部37から供給された第3正解データから第4正解データを生成する。ここで、第4正解データ生成部38は、第3正解データが示す対象物位置に基づき、第3正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を決定し、決定した対象物位置を示す第4正解データを生成する。
 具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第4正解データを生成する。より具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置として無作為に選定した位置、対象物の一部を示す位置として無作為に選定した位置、又は、対象物の候補位置として無作為に選定した位置のいずれかに該当する位置を選定する。例えば、第3正解データが示す対象物位置から、対象物を含む位置を示す第4正解データを生成する場合、第3正解データが示す対象物位置を拡大又は移動させた対象物位置を示す第4正解データを生成する。この場合の拡大率、移動方向、移動距離は無作為に決定される。そして、第4正解データ生成部38は、生成した第4正解データを学習部39へ供給する。
 学習部39は、画像取得部36から供給された画像群と、第3正解データ取得部37から供給される第3正解データと、第4正解データ生成部38が供給する第4正解データとに基づき、学習モデルの学習を行うことで、推定器を生成する。具体的には、推定器は、上述の画像群の各画像と、第4正解データが示す対象物位置とを入力とした場合に、第3正解データが示す対象物位置を出力するように学習された学習モデルである。よって、学習部39は、画像取得部36から供給された画像群とこれに対応する第4正解データが示す対象物位置との組を入力のサンプルとし、第3正解データが示す対象物位置を正解データのサンプルとして、上述の学習モデルの学習を行う。そして、学習部39は、学習された学習モデルに相当する推定器に関する推定器情報を推定器情報記憶部24に記憶する。
 [正解データの具体例]
 次に、第1~第4正解データが示す対象物位置の具体例について説明する。以下に説明するように、第1正解データ及び第4正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置となるように決定される。また、第2正解データ及び第3正解データが示す対象物位置は、対象物の正解の位置を示すように決定される。
 まず、第1正解データ及び第4正解データが対象物を含む位置を示す場合について、図4(A)及び図4(B)を参照して説明する。
 図4(A)は、対象物が人の頭部である場合に第1正解データが示す対象物位置51と対象物位置52を対象画像91上に明示した図である。図4(B)は、第2正解データが示す対象物位置61と対象物位置62とを対象画像91上に明示した図である。
 図4(A)の例では、第1正解データが示す対象物位置51、52は、それぞれ、対象物の表示領域の全体を少なくとも含むように、大まかに(即ち低精度により)指定された領域となっている。一方、第2正解データが示す対象物位置61、62は、図4(B)に示すように、第1正解データが示す対象物位置51、52よりも高い精度により対象物である頭部の領域を示している。このように、第2正解データ生成部33は、第1正解データよりも高精度な対象物位置を示す第2正解データを生成する。
 また、図4(B)に示す対象物位置61、62を第3正解データが示す対象物位置の例とみなし、図4(A)に示す対象物位置51、52を第4正解データが示す対象物位置の例とみなすこともできる。この場合、第4正解データ生成部38は、第3正解データが示す対象物位置61、62を所定倍率だけ拡大させ、かつ、所定距離だけ所定方向に移動させた対象物位置51、52を示す第4正解データを生成する。上述の所定倍率及び所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。
 次に、第1正解データ及び第4正解データが示す対象物位置が、対象物の一部を示す位置である場合について、図4(B)及び図4(C)を参照して説明する。
 図4(C)は、第1正解データ又は第4正解データが示す対象物位置の例を示す。図4(C)に示す対象物位置71、72は、対象画像に表示された対象物(人の頭部)の表示領域内における一部の領域又は座標を示している。この場合、例えば、第2正解データ生成部33は、第1正解データが図4(C)の対象物位置71、72を示す場合、頭部の一部を表す対象物位置71、72から、頭部全体の位置を示す対象物位置61、62を示す第2正解データを生成する。また、第4正解データ生成部38は、第3正解データが図4(B)の対象物位置61、62を示す場合、対象物位置61、62が示す頭部全体の表示領域から、その一部に相当する対象物位置71、72を無作為に選定する。そして、第4正解データ生成部38は、選定した対象物位置71、72を示す第4正解データを生成する。
 次に、第1正解データ又は第4正解データが示す対象物位置が対象物の候補位置を示す場合について、図5(A)及び図5(B)を参照して説明する。
 図5(A)は、対象物が顔の複数の特徴点(両目の両端、鼻、口の両端)である場合に第1正解データが示す対象物位置53~59を対象画像92上に明示した図である。図5(B)は、第2正解データが示す対象物位置63~69を対象画像92上に明示した図である。
 図5(A)の例では、第1正解データが示す対象物位置53~59は、それぞれ、対象物となる特徴点の候補位置となるように大まかに(低い正確度により)指定されている。そして、対象物位置53~59は、対象画像92に表示された対象物(ここでは顔の特徴点)の表示領域の近傍となる領域又は座標を示している。
 一方、第2正解データが示す対象物位置63~69は、図5(B)に示すように、第1正解データが示す対象物位置53~59よりも高い正確度により各特徴点の位置を示している。このように、第2正解データ生成部33は、第1正解データよりも高い正確度の対象物位置を示す第2正解データを生成する。
 また、図5(B)に示す対象物位置63~69を第3正解データが示す対象物位置の例とみなし、図5(A)に示す対象物位置53~59を第4正解データが示す対象物位置の例とみなすこともできる。この場合、第4正解データ生成部38は、第3正解データが示す対象物位置63~69を、所定方向に所定距離だけそれぞれ移動させた対象物位置53~59を示す第4正解データを生成する。上述の所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。
 次に、第1~第4正解データが対象物位置を示す2値画像を有する場合について図6(A)~(C)を参照して説明する。
 図6(A)は、対象画像93の表示例を示す。図6(B)は、第1正解データに含まれる2値画像94である。図6(C)は、第2正解データに含まれる2値画像95である。2値画像94、95は、それぞれ対象物である荷物の位置を指し示すマスク画像となっている。ここでは、一例として、2値画像94、95は、対象物の位置を示す画素を黒色により表示している。
 この場合、第1正解データの2値画像94は、対象物である荷物の表示領域全体を少なくとも含む領域を、大まかに(即ち低精度により)指し示している。一方、第2正解データの2値画像95は、図6(C)に示すように、第1正解データの2値画像94が示す対象物位置よりも高い精度により、対象物である荷物の領域を指し示している。このように、第2正解データ生成部33は、第1正解データの2値画像94よりも高精度な対象物位置を示した2値画像95を含む第2正解データを生成する。
 また、図6(C)に示す2値画像95を第3正解データに含まれる対象物位置の情報の例とみなし、図6(B)に示す2値画像94を第4正解データに含まれる対象物位置の情報の例とみなすこともできる。この場合、第4正解データ生成部38は、例えば、第3正解データに含まれる2値画像95が示す対象物位置を含む最小の矩形領域を拡大(及び移動)させ、拡大(及び移動)後の矩形領域を示す2値画像94を含む第4正解データを生成する。この場合の拡大率、移動方向、移動距離については無作為に選定される。
 [処理フロー]
 次に、正解データ生成処理及び学習処理の各処理フローについて説明する。
 図7は、正解データ生成処理に関する処理手順を示すフローチャートである。データ生成装置10は、図7に示すフローチャートの処理を、例えば、対象画像記憶部21に記憶された対象画像毎に繰り返し実行する。
 まず、対象画像取得部31は、正解付けの対象となる対象画像を対象画像記憶部21から取得する(ステップS10)。そして、第1正解データ取得部32は、ステップS10で取得された対象画像に対する対象物位置を示す第1正解データを取得する(ステップS11)。
 そして、第2正解データ生成部33は、推定器情報記憶部24に含まれる推定器情報から構成した推定器に対象画像及び第1正解データを入力し、第1正解データより正確又は精度が高い対象物位置を示す第2正解データを生成する(ステップS12)。
 次に、適格性判定部34は、ステップS12で生成された第2正解データが対象物の正解位置を示すデータとして適格性を有しているか否か判定する(ステップS13)。そして、対象の第2正解データが上述の適格性を有している場合(ステップS13;Yes)、出力部35は、対象の第2正解データを出力する(ステップS14)。具体的には、出力部35は、対象の第2正解データを第2正解データ記憶部23に記憶する。これにより、データ生成装置10は、第1正解データよりも精度又は正確度が高い対象物位置を示す第2正解データを好適に生成することができる。この第2正解データは、対応する対象画像と共に、学習モデルの学習に好適に用いられる。
 一方、対象の第2正解データが適格性を有していない場合(ステップS13;No)、出力部35は、対象の第2正解データを出力することなく、フローチャートの処理を終了する。これにより、データ生成装置10は、不正な正解データである可能性が高い第2正解データを、第2正解データ記憶部23に保存する対象から好適に除外することができる。これにより、不正な正解データを学習データとして利用することを好適に抑制することができる。
 図8は、推定器に関する学習処理の手順を示すフローチャートである。
 まず、画像取得部36は教師データ記憶部25から画像群を取得する(ステップS20)。また、第3正解データ取得部37は、ステップS20で取得された画像群の各画像に表示された対象物の位置を正確かつ高精度に示した第3正解データを教師データ記憶部25から取得する(ステップS21)。
 次に、第4正解データ生成部38は、ステップS21で取得された第3正解データから、精度又は正確度を下げた対象物位置を示す第4正解データを生成する(ステップS22)。具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第4正解データを生成する。
 そして、学習部39は、ステップS20で取得された画像群と、ステップS21で取得された第3正解データと、ステップS22で取得された第4正解データとを用いた学習により、図7のステップS12で用いるための推定器を生成する(ステップS23)。具体的には、学習部39は、画像群とこれに対応する第4正解データが示す対象物位置との組を入力のサンプルとし、第3正解データが示す対象物位置を正解データのサンプルとして、学習モデルの学習を行う。そして、学習部39は、生成した推定器の推定器情報を、推定器情報記憶部24に記憶する(ステップS24)。
 ここで、本実施形態による効果について補足説明する。
 一般に、正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。また、人によって正解付けの基準が異なるため、複数作業者により正解付けが行われた場合には、各作業者が時間をかけて正解付けを行った場合であっても、得られる正解データの質が均一にならない。
 以上を勘案し、本実施形態におけるデータ生成装置10は、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成する。これにより、正解付け作業の時間と労力を好適に削減し、かつ、複数作業者により正解付けが行われた場合であっても、均一な質の第2正解データを好適に生成することができる。
 [変形例]
 次に、上述の実施形態に好適な変形例について説明する。以下に説明する変形例は、任意に組み合わせて上述の実施形態に適用してもよい。
 (変形例1)
 データ生成装置10は、上述した第2正解データ生成処理及び学習処理のうち第2正解データ生成処理のみを行ってもよい。
 この場合、推定器情報記憶部24には、データ生成装置10以外の装置等が予め生成した推定器情報が記憶され、データ生成装置10は、当該推定器情報記憶部24を参照して第2正解データ生成処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
 (変形例2)
 データ生成装置10は、対象画像及び第1正解データを記憶装置20から取得する代わりに、正解付け作業を行う端末装置から受信してもよい。
 この場合、データ生成装置10は、正解付け作業によるユーザ入力を受け付けて第1正解データを生成する1又は複数の端末装置と、ネットワーク等を介してデータ通信を行う。そして、データ生成装置10は、上述の端末装置から対象画像及び第1正解データの組み合わせを受信した場合に、図7に示す正解データ生成処理のステップS12及びそれ以降の処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
 (変形例3)
 データ生成装置10は、図2に示す適格性判定部34及び出力部35に相当する機能を有しなくともよい。
 図9は、変形例3に係るデータ生成装置10Aの機能ブロック図である。図9に示すように、データ生成装置10Aのプロセッサ11は、対象画像取得部31Aと、第1正解データ取得部32Aと、第2正解データ生成部33Aとを有する。
 この場合、対象画像取得部31Aは、正解付けがなされる対象となる対象画像を取得する。第1正解データ取得部32Aは、対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する。第2正解データ生成部33Aは、推定器に基づき、第1正解データから、対象物の推定位置を示した第2正解データを生成する。ここで、推定器は、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習されている。これにより、データ生成装置10Aは、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
 その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
 正解付けがなされる対象となる対象画像を取得し、
 前記対象画像に表示された対象物に対し、
       当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
       当該対象物の候補位置
を示した第1正解データを取得し、
 対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する、
データ生成方法。
[付記2]
 前記第1正解データは、前記対象画像内において指定された位置を示す、付記1に記載のデータ生成方法。
[付記3]
 前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、付記1または2に記載のデータ生成方法。
[付記4]
 前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、付記1~3のいずれか一項に記載のデータ生成方法。
[付記5]
 前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、付記1~4のいずれか一項に記載のデータ生成方法。
[付記6]
 前記第2正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、付記1~5のいずれか一項に記載のデータ生成方法。
[付記7]
 前記適格性を有すると判定された前記第2正解データを、学習に用いる学習データとして記憶部に記憶する、付記6に記載のデータ生成方法。
[付記8]
 画像群を取得し、
 当該画像群の各々の画像に表示された対象物の位置を示す第3正解データを取得し、
 前記第3正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第4正解データを生成し、
 前記画像群と、前記第3正解データと、前記第4正解データとに基づき、前記推定器の学習を行う、付記1~7のいずれか一項に記載のデータ生成方法。
[付記9]
 前記対象物を含む位置として無作為に選定した位置、当該対象物の一部を示す位置として無作為に選定した位置、又は、当該対象物の候補位置として無作為に選定した位置のいずれかの位置を示す前記第4正解データを生成する、付記8に記載のデータ生成方法。
[付記10]
 正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
 前記対象画像に表示された対象物に対し、
       当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
       当該対象物の候補位置
を示した第1正解データを取得する第1正解データ取得部と、
 対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部と、を有するデータ生成装置。
[付記11]
 コンピュータが実行するプログラムであって、
 正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
 前記対象画像に表示された対象物に対し、
       当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
       当該対象物の候補位置
を示した第1正解データを取得する第1正解データ取得部と、
 対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部
として前記コンピュータを機能させる、プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 10、10A データ生成装置
 11 プロセッサ
 12 メモリ
 13 インターフェース
 14 表示部
 15 入力部
 20 記憶装置
 21 対象画像記憶部
 22 第1正解データ記憶部
 23 第2正解データ記憶部
 24 推定器情報記憶部
 25 教師データ記憶部
 100 学習データ生成システム

Claims (11)

  1.  正解付けがなされる対象となる対象画像を取得し、
     前記対象画像に表示された対象物に対し、
           当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
           当該対象物の候補位置
    を示した第1正解データを取得し、
     対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する、
    データ生成方法。
  2.  前記第1正解データは、前記対象画像内において指定された位置を示す、請求項1に記載のデータ生成方法。
  3.  前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、請求項1または2に記載のデータ生成方法。
  4.  前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、請求項1~3のいずれか一項に記載のデータ生成方法。
  5.  前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、請求項1~4のいずれか一項に記載のデータ生成方法。
  6.  前記第2正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、請求項1~5のいずれか一項に記載のデータ生成方法。
  7.  前記適格性を有すると判定された前記第2正解データを、学習に用いる学習データとして記憶部に記憶する、請求項6に記載のデータ生成方法。
  8.  画像群を取得し、
     当該画像群の各々の画像に表示された対象物の位置を示す第3正解データを取得し、
     前記第3正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第4正解データを生成し、
     前記画像群と、前記第3正解データと、前記第4正解データとに基づき、前記推定器の学習を行う、請求項1~7のいずれか一項に記載のデータ生成方法。
  9.  前記対象物を含む位置として無作為に選定した位置、当該対象物の一部を示す位置として無作為に選定した位置、又は、当該対象物の候補位置として無作為に選定した位置のいずれかの位置を示す前記第4正解データを生成する、請求項8に記載のデータ生成方法。
  10.  正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
     前記対象画像に表示された対象物に対し、
           当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
           当該対象物の候補位置
    を示した第1正解データを取得する第1正解データ取得部と、
     対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部と、を有するデータ生成装置。
  11.  コンピュータが実行するプログラムであって、
     正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
     前記対象画像に表示された対象物に対し、
           当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
           当該対象物の候補位置
    を示した第1正解データを取得する第1正解データ取得部と、
     対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部
    として前記コンピュータを機能させる、プログラム。
PCT/JP2019/010323 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム WO2020183656A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/010323 WO2020183656A1 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム
JP2021504714A JP7164008B2 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム
US17/436,695 US20220130135A1 (en) 2019-03-13 2019-03-13 Data generation method, data generation device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/010323 WO2020183656A1 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2020183656A1 true WO2020183656A1 (ja) 2020-09-17

Family

ID=72427239

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/010323 WO2020183656A1 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム

Country Status (3)

Country Link
US (1) US20220130135A1 (ja)
JP (1) JP7164008B2 (ja)
WO (1) WO2020183656A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020183705A1 (ja) * 2019-03-14 2020-09-17 日本電気株式会社 生成方法、学習データ生成装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180081353A (ko) * 2017-01-06 2018-07-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US20180276815A1 (en) * 2017-03-27 2018-09-27 Siemens Healthcare Gmbh Highly Integrated Annotation and Segmentation System for Medical Imaging
US20190065995A1 (en) * 2017-08-31 2019-02-28 Canon Kabushiki Kaisha Information processing apparatus and method of controlling information processing apparatus

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4517633B2 (ja) * 2003-11-25 2010-08-04 ソニー株式会社 対象物検出装置及び方法
JP6624877B2 (ja) * 2015-10-15 2019-12-25 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP6897042B2 (ja) * 2016-09-27 2021-06-30 日本電気株式会社 画像検査装置、画像検査方法および画像検査プログラム
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN109214245B (zh) * 2017-07-03 2022-02-18 株式会社理光 一种目标跟踪方法、装置、设备及计算机可读存储介质
CN107689052B (zh) * 2017-07-11 2021-06-29 西安电子科技大学 基于多模型融合和结构化深度特征的视觉目标跟踪方法
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
KR102040309B1 (ko) * 2017-09-18 2019-11-04 한국전자통신연구원 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법
JP6919990B2 (ja) * 2017-10-17 2021-08-18 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP2019096072A (ja) * 2017-11-22 2019-06-20 株式会社東芝 物体検出装置、物体検出方法およびプログラム
JP6901007B2 (ja) * 2017-12-06 2021-07-14 日本電気株式会社 学習装置、検査システム、学習方法、検査方法およびプログラム
JP6943338B2 (ja) * 2018-05-18 2021-09-29 日本電気株式会社 画像処理装置、システム、方法及びプログラム
US10755128B2 (en) * 2018-12-18 2020-08-25 Slyce Acquisition Inc. Scene and user-input context aided visual search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180081353A (ko) * 2017-01-06 2018-07-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US20180276815A1 (en) * 2017-03-27 2018-09-27 Siemens Healthcare Gmbh Highly Integrated Annotation and Segmentation System for Medical Imaging
US20190065995A1 (en) * 2017-08-31 2019-02-28 Canon Kabushiki Kaisha Information processing apparatus and method of controlling information processing apparatus

Also Published As

Publication number Publication date
US20220130135A1 (en) 2022-04-28
JP7164008B2 (ja) 2022-11-01
JPWO2020183656A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US9639914B2 (en) Portrait deformation method and apparatus
JP7071054B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2021503662A (ja) ニューラルネットワークのモデルの訓練
US10964057B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
US9508177B2 (en) Method of controlling skeleton model, and recording medium therewith
EP3598288A1 (en) System and method for generating photorealistic synthetic images based on semantic information
US20150220769A1 (en) Striped pattern image examination support device, striped pattern image examination support method and program
JP2013242757A (ja) 画像処理装置及び画像処理方法、並びにコンピューター・プログラム
JP2010191592A (ja) 顔の特徴部位の座標位置を検出する画像処理装置
JP2010186216A (ja) 顔画像における特徴部位の位置の特定
US20190244133A1 (en) Learning apparatus and learning method
JP2007052575A (ja) メタデータ付与装置およびメタデータ付与方法
WO2020183656A1 (ja) データ生成方法、データ生成装置及びプログラム
JP2010170184A (ja) 顔画像における特徴部位の位置の特定
CN107209862B (zh) 识别装置和信息存储介质
JP2010244251A (ja) 顔の特徴部位の座標位置を検出する画像処理装置
JP2010102396A (ja) 人物検出装置、人物検出方法及びプログラム
JP2006318232A (ja) 解析用メッシュ修正装置
CN114821754A (zh) 半闭眼图像生成方法、装置、可读存储介质及电子设备
WO2020195810A1 (ja) 重みマスク生成装置、重みマスク生成方法及びプログラム
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
JP7103506B2 (ja) 情報提示方法、情報提示装置及びプログラム
JP2019192192A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
CN111199204A (zh) 一种基于OpenGL人脸图像处理方法及装置
JP2020134557A (ja) 文字データ生成装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19919128

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021504714

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19919128

Country of ref document: EP

Kind code of ref document: A1