WO2020178957A1 - 画像処理装置、画像処理方法及びプログラム記録媒体 - Google Patents
画像処理装置、画像処理方法及びプログラム記録媒体 Download PDFInfo
- Publication number
- WO2020178957A1 WO2020178957A1 PCT/JP2019/008441 JP2019008441W WO2020178957A1 WO 2020178957 A1 WO2020178957 A1 WO 2020178957A1 JP 2019008441 W JP2019008441 W JP 2019008441W WO 2020178957 A1 WO2020178957 A1 WO 2020178957A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- person
- dimensional feature
- dimensional
- image processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Definitions
- the present invention relates to an apparatus, a method and a program recording medium for generating learning data necessary for a system for learning and detecting human behavior.
- Patent Document 1 it is assumed that, of the motion capture data relating to the posture of the subject, the posture of the motion capture data that has the highest similarity to the posture of the subject in the captured image is estimated to be the posture of the subject in the captured image. Is disclosed.
- the accuracy of the detection technology as described above has been improved by machine learning such as Deep learning.
- Patent Documents 2-4 disclose techniques related to learning data generation.
- Patent Document 2 in addition to a positive evaluation indicating that the content of the input data matches the label and a negative evaluation indicating that the content of the input data does not match the label when the learning data is generated, the learning target It is disclosed that the generation of incomplete learning data is prevented by using the neglected evaluation indicating that the learning data is excluded from.
- Patent Document 3 discloses that learning data is generated by utilizing a CG (Computer Graphics) image generated by using skeletal shape information of a human body obtained by using a motion capture system.
- CG Computer Graphics
- Patent Document 4 it is determined whether to artificially generate learning data according to the amount of data for each action in the learning data set, and the learning data set is created uniformly for various actions. It is disclosed to do.
- the conventional technology has a problem that the cost for creating the learning data is high because special equipment and devices such as a motion capture system are used when creating the learning data.
- the present invention has been made in view of the above problems, and an object of the present invention is to generate learning data at low cost.
- an extracting unit that extracts a two-dimensional feature relating to a part of a person in an image, a converting unit that converts the two-dimensional feature into a three-dimensional feature relating to a human body structure, and the three-dimensional feature.
- An image processing apparatus including: a learning data generating unit that generates learning data by using the label indicating the physical state of the person.
- a two-dimensional feature relating to a part of a person in an image is extracted, the two-dimensional feature is converted into a three-dimensional feature relating to a human body structure, and the three-dimensional feature and the person
- An image processing method for generating learning data by using a label indicating a physical state is provided.
- a recording medium for recording a program for executing processing for generating learning data using a three-dimensional characteristic and a label indicating a physical state of the person is provided.
- learning data that reproduces a person's behavior by using a human feature obtained from an image or a moving image captured by a normal visible light camera without using a special facility or device such as a motion capture device.
- 6 is a flowchart showing a processing operation of acquiring and storing a background image of the image processing apparatus in the first embodiment.
- 6 is a flowchart showing a processing operation of the image processing apparatus in the first embodiment.
- It is a figure which shows the structure of the image processing apparatus in 2nd Embodiment.
- 9 is a flowchart showing a processing operation of the image processing apparatus according to the second embodiment.
- It is a figure which shows the structure of the image processing apparatus in 3rd Embodiment.
- It is a flow chart which shows processing operation of an image processing device in a 3rd embodiment.
- It is a block diagram which shows the example of the hardware which comprises each part of each embodiment of this invention.
- FIG. 1 is a diagram showing a configuration of an image processing device 1 according to the present embodiment.
- the image processing apparatus 1 shown in FIG. 1 includes an input reception unit 11, an acquisition unit 12, a storage unit 13, a selection unit 14, an extraction unit 15, a conversion unit 16, a learning data generation unit 17, and an output unit. 18 is provided.
- the input receiving unit 11 receives an input of an image captured by one or more image capturing devices such as cameras (not shown) and a label indicating a physical state of a person in the image.
- the input receiving unit 11 may receive the input of the label from the user, or may receive the automatically generated label.
- the input receiving unit 11 may sequentially receive inputs of continuous images in time series.
- the input receiving unit 11 may receive an input of a moving image instead of an image.
- the input reception unit 11 outputs at least an image of the input information to the acquisition unit 12 and the extraction unit 15, and outputs at least a label to the selection unit 14.
- the acquisition unit 12 acquires a background image from the input image.
- the acquisition unit 12 outputs the acquired background image to the storage unit 13.
- the storage unit 13 stores the background image input by the acquisition unit 12.
- FIG. 2 is a diagram showing an example of the background image stored in the storage unit 13.
- the storage unit 13 stores a plurality of background images that can be used to generate learning data.
- the storage unit 13 may store the background image in advance.
- the selection unit 14 selects a background image used for generating learning data from a plurality of background images stored in the storage unit 13.
- the selection unit 14 may select an appropriate background image according to the input label. For example, when the label is a swing of a golf club, the selection unit 14 preferably has a background such as a green grass field, and when the label is staggered, a background such as a station or a road is preferable. This selection may be done manually or automatically according to a preset algorithm. The selection unit 14 may select a background image of an image captured under imaging conditions similar to the imaging conditions of the imaging device for the input image.
- the extraction unit 15 extracts the two-dimensional features of the person in the input image.
- the two-dimensional feature is information about a body part of a person in an image or a moving image.
- FIG. 3 is a diagram showing an example of two-dimensional features.
- the two-dimensional feature shown in FIG. 3 is information representing the skeleton structure of a person on the image.
- the two-dimensional feature is not limited to the information indicating the skeleton structure of the person on the image, and may be, for example, the position coordinates of each joint of the person on the image or the body part such as the head, hands, and feet. ..
- the two-dimensional feature may be vector information connecting the joints of the person in the image, or the two-dimensional feature may be silhouette information indicating a region where the person exists in the image. Good.
- FIG. 4 is a diagram showing an example of the extraction unit 15 extracting two-dimensional features from an image.
- the extraction unit 15 extracts a two-dimensional feature from an image by a computer that has performed machine learning. Specifically, the extraction unit 15 uses the model generated by machine learning to extract the position coordinates of the joints of the person in the input image.
- the model is generated by machine learning using a plurality of data consisting of an image and the position coordinates of the joint of the person in the image.
- the extraction unit 15 uses, for example, a model generated by Deep learning.
- the extraction unit 15 may use a model generated by machine learning using a neural network other than Deep learning.
- the extraction unit 15 may use a model generated by machine learning other than a neural network, for example, a model generated by SVM (Support Vector Machine).
- the extraction unit 15 may be configured to accept manual extraction of two-dimensional features.
- the extraction unit 15 extracts another two-dimensional feature for supplementing the two-dimensional feature from an image different from the image by an arbitrary method. You may.
- the extraction unit 15 may accept other two-dimensional features for compensating for the two-dimensional feature by manual input, or extract from the preceding and following images in time series, It may be supplemented by using the other two-dimensional features.
- the extraction unit 15 outputs the extracted two-dimensional feature to the conversion unit 16.
- the conversion unit 16 converts the two-dimensional feature input from the extraction unit 15 into a three-dimensional feature.
- the three-dimensional feature is information about the human body structure in the three-dimensional space of the person in the image.
- FIG. 5 is a diagram showing an example of three-dimensional features.
- the three-dimensional feature shown in FIG. 5 is information representing the skeleton structure of a person in the three-dimensional space.
- the three-dimensional feature is not limited to information representing the skeleton structure of the person in the three-dimensional space. May be Alternatively, for example, the three-dimensional feature may be vector information connecting each joint of the person in the three-dimensional space, or may be silhouette information indicating a region where the person exists in the three-dimensional space.
- FIG. 6 is a diagram showing an example in which the conversion unit 16 converts a two-dimensional feature into a three-dimensional feature.
- the conversion unit 16 converts a two-dimensional feature into a three-dimensional feature by using a machine-learned computer.
- the conversion unit 16 uses a model generated by machine learning to convert the position coordinates of the joint extracted from the input image into the position coordinates in the three-dimensional space.
- the model is obtained by machine learning using a plurality of data including the position coordinates of the joints of the person in the image and the position coordinates of the joints of the person in the three-dimensional space.
- the conversion unit 16 uses, for example, a model generated by Deep learning. Alternatively, the conversion unit 16 may use a model generated by machine learning using a neural network other than Deep learning. Alternatively, the conversion unit 16 may use a model generated by machine learning other than a neural network, for example, a model generated by SVM (Support Vector Machine).
- SVM Small Vector Machine
- the conversion unit 16 outputs the three-dimensional feature to the learning data generation unit 17.
- the learning data generation unit 17 includes a person image generation unit 171 and a synthesis unit 172.
- the person image generation unit 171 generates a person image based on the three-dimensional feature and the person model input from the conversion unit 16.
- the person image generation unit 171 may store a person model in advance, or may receive an input from the outside.
- FIG. 7 is a diagram showing an example of a person model used when the person image generation unit 171 generates a person image.
- the person model is, for example, a computer generated CG model of the person.
- a variation model may be prepared.
- FIG. 8 is a diagram showing an example of a person image generated by the person image generation unit 171.
- FIG. 8 is a person image of a person who takes the action of “running”.
- the person image generation unit 171 applies the three-dimensional feature to the person model generated by CG and renders it as an image captured from an arbitrary direction and distance. As a result, the person image generation unit 171 generates a person image having the same action as the action indicated by the input label. At this time, for example, the person image generation unit 171 extracts the camera parameters, the position and direction of the person with respect to the camera from the input image, and uses the same to generate the person image, so that the same posture as the person in the input image is obtained. It is possible to generate a human image replaced with the human model of.
- FIG. 9 is a diagram showing an example in which the person image generation unit 171 generates a person image.
- the person image generation unit 171 applies a three-dimensional feature to a person model to generate a person image of a person who takes the action of “running”.
- the person image generation unit 171 may generate the person image based on the image capturing conditions of the image capturing apparatus that captured the input image and the positional relationship between the person in the image and the image capturing apparatus.
- the person image generation unit 171 may generate a person image using a person model selected based on the input label. For example, when the person image generation unit 171 generates a person image based on the label "run", the person image generation unit 171 may take the action "run” instead of the elderly person who is less likely to take the action "run”.
- a person image is generated using a high youth person model.
- the person image generation unit 171 generates a person image using the person model of the elderly person generated by CG in the case of an action such as “walking with a cane”.
- the person image generation unit 171 may select a person model according to a computer usage scene learned using the generated learning data. For example, the person image generation unit 171 follows a fixed rule set so as to increase the probability of selecting a person model in a suit when used for a video image of a place where many office workers come and go. You may make a selection. In addition, for example, when the person image generation unit 171 is used for a video imaged in a nursing home, the person image generation unit 171 selects a person model of an elderly person according to a fixed rule set to increase the probability of selecting the person model. You may go. In addition, for example, the person image generation unit 171 may observe the attribute of the person who appears in advance as statistical information and determine the variation of the person model based on that.
- the person image generation unit 171 separately recognizes ornaments (mask, hat, etc.) worn by the person in the image, belongings (bag, umbrella, rucksack, etc.), and other tools, and CG of those tools is recognized.
- a person image may be generated using a person model to which is added.
- the person image generation unit 171 outputs the generated person image to the synthesis unit 172.
- the combining unit 172 generates learning data by combining the background image input from the selection unit 14 and the person image input from the person image generation unit 171.
- the learning data is data used when learning a neural network by machine learning.
- the learning data includes an image and a label indicating an action taken by a person in the image.
- FIG. 10 is an example of learning data generated by the combining unit 172.
- the learning data shown in FIG. 10 is learning data for learning the behavior of “running”.
- FIG. 11 is a diagram showing an example of the synthesis unit 172 generating learning data. As illustrated in FIG. 11, the combining unit 172 generates learning data by combining the background image and the person image.
- the output unit 18 outputs the learning data generated by the synthesizing unit 172.
- FIG. 12 is a flowchart until the image processing apparatus 1 acquires a background image from an input image and describes a processing operation of storing the background image.
- the flow of processing of the image processing apparatus 1 will be described with reference to FIG.
- the acquisition unit 12 acquires a background image from the input image (S121).
- the storage unit 13 stores the background image (S122).
- FIG. 13 is a flowchart for explaining the processing operation from when the image processing apparatus 1 receives the input of the image and the label to when the learning data is generated. The process flow of the image processing apparatus 1 will be described below with reference to FIG.
- the input receiving unit 11 receives input of images and labels (S131).
- the extraction unit 15 extracts a two-dimensional feature from the input image (S132).
- the conversion unit 16 converts the extracted two-dimensional feature into a three-dimensional feature (S133).
- the person image generation unit 171 generates a person image based on the three-dimensional feature and the person model (S134).
- the selection unit 14 selects a background image used for generating learning data from the storage unit 13 (S135).
- the synthesizing unit 172 synthesizes the background image and the person image to generate learning data (S136).
- the selecting unit 14 may perform the process of selecting the background image at any time before the learning data generating process in the synthesizing unit 172, and in the extracting unit 15, the converting unit 16, or the person image generating unit 171. It may be performed in parallel with the processing. Further, the process described with reference to FIG. 12 may be performed in parallel with the process described with reference to FIG.
- the image processing apparatus converts the two-dimensional features of the person extracted from the image into the three-dimensional features to generate learning data.
- learning data can be generated at low cost without using special equipment such as a motion capture system.
- the image processing apparatus 10 according to the present embodiment and the image processing apparatus 1 according to the first embodiment are different in that the image processing apparatus 10 according to the present embodiment includes a three-dimensional feature generation unit 19.
- FIG. 14 is a diagram showing the configuration of the image processing apparatus 10 according to the second embodiment.
- the three-dimensional feature generation unit 19 uses the three-dimensional feature obtained by the conversion unit 16 to generate another three-dimensional feature different from the three-dimensional feature.
- the three-dimensional feature generation unit 19 changes the three-dimensional feature received from the conversion unit 16 based on the human model to generate another three-dimensional feature in the physical state indicated by the label.
- the three-dimensional feature is the three-dimensional skeleton information of the human body
- the three-dimensional feature generation unit 19 changes the angle of each joint based on the knowledge of the range of motion of each joint, Generate other three-dimensional features. It is preferable that the other three-dimensional features to be generated fall within the range of the label attached to the image. For example, when changing a three-dimensional feature obtained from an image labeled as “fluttering”, it is preferable to determine the change condition so that the changed three-dimensional feature also represents a “fluttering” posture.
- the three-dimensional feature generation unit 19 uses the plurality of three-dimensional features obtained from each of the plurality of time-series images with the same label, and uses the other three-dimensional features in the physical state indicated by the label. To generate. Specifically, for example, when the three-dimensional feature generation unit 19 receives an input of two time-series images labeled as “fluttering”, the time corresponding to the capturing time of the two time-series images. Generate three-dimensional skeleton information of the person.
- the three-dimensional feature generation unit 19 calculates the average of the position information of the joints of the body of the person in the two time-series images, so that the three-dimensional feature generation unit 19 can obtain the corresponding values between the imaging times of the two time-series images.
- a three-dimensional feature relating to the position of each joint at the time is generated.
- the 3D feature generator 19 can generate 3D features at any time between images.
- the three-dimensional feature generation unit 19 can use the three-dimensional features obtained from the two time-series images to generate the three-dimensional features at a time outside the imaging time of the two time-series images.
- the time interval between the two time-series images may be set so that the generated three-dimensional feature falls within the range of the label attached to the original image.
- the three-dimensional feature generation unit 19 outputs the generated three-dimensional feature to the person image generation unit 171.
- the person image generation unit 171 generates a person image based on the three-dimensional feature and the person model input by the three-dimensional feature generation unit 19.
- FIG. 15 is a flowchart showing the flow of processing from the image processing apparatus 10 extracting two-dimensional features to generating learning data by using other three-dimensional features generated using the three-dimensional features. Is. Hereinafter, the flow of the processing operation of the image processing apparatus 10 will be described with reference to FIG. The same processing as that of the first embodiment is designated by the same reference numerals as those in FIG. 13, and the description thereof will be omitted.
- the three-dimensional feature generation unit 19 uses the three-dimensional feature obtained by the conversion unit 16 to generate another three-dimensional feature different from the three-dimensional feature (S151).
- the person image generation unit 171 generates a person image based on the other three-dimensional feature and the person model (S152).
- the image processing device generates learning data by using another three-dimensional feature generated by using the three-dimensional feature obtained from the image image. As a result, it is possible to easily increase the variation of the learning data regarding each action.
- FIG. 16 is a diagram showing a configuration of an image processing device 100 according to the present embodiment.
- an outline of the image processing apparatus 100 will be described with reference to FIG.
- the image processing device 100 of this embodiment includes an extraction unit 101, a conversion unit 102, and a learning data generation unit 103.
- the extraction unit 101 extracts a two-dimensional feature related to a part of a person in the image.
- the extraction unit 101 outputs the extracted two-dimensional feature to the conversion unit 102.
- the conversion unit 102 converts a two-dimensional feature into a three-dimensional feature regarding a human body structure.
- the conversion unit 102 outputs the obtained three-dimensional feature to the learning data generation unit 103.
- the learning data generation unit 103 generates learning data using the three-dimensional feature and the label indicating the physical state of the person.
- FIG. 17 is a flowchart showing a processing flow from the image processing device 100 extracting the two-dimensional feature from the image to generating the learning data. The process flow of the image processing apparatus 100 will be described below with reference to FIG.
- the extraction unit 101 extracts the two-dimensional features related to the part of the person in the image (S171).
- the conversion unit 102 converts the extracted two-dimensional feature into a three-dimensional feature (S172).
- the learning data generation unit 103 generates learning data using the three-dimensional feature and correct answer label (S173).
- the image processing apparatus converts the two-dimensional features of the person extracted from the image into the three-dimensional features to generate learning data.
- learning data can be generated at low cost without using special equipment such as a motion capture system.
- the process of each component may be realized by, for example, a computer system reading and executing a program stored in a computer-readable storage medium that causes the computer system to execute the process.
- Computer-readable storage medium means, for example, a portable medium such as an optical disc, a magnetic disc, a magneto-optical disc, and a non-volatile semiconductor memory, as well as a ROM (Read Only Memory) and a hard disc built in a computer system. It is a storage device.
- the "computer-readable storage medium” includes one that can temporarily hold a program, such as a volatile memory inside a computer system, and one that transmits a program, such as a communication line such as a network or a telephone line. Including. Further, the above-mentioned program may be for realizing a part of the above-mentioned functions, and may further realize the above-mentioned functions in combination with a program already stored in the computer system. ..
- the "computer system” is, for example, a system including a computer 900 as shown in FIG.
- the computer 900 includes the following configurations. -One or more CPUs (Central Processing Units) 901 -ROM902 RAM (Random Access Memory) 903 -Program 904A and storage information 904B loaded into RAM 903 -A storage device 905 that stores the program 904A and the storage information 904B -Drive device 907 for reading and writing the storage medium 906 -Communication interface 908 that connects to the communication network 909 -I / O interface 910 for inputting / outputting data .Bus 911 that connects each component For example, each component of each device in each embodiment is realized by the CPU 901 loading the program 904A for realizing the function of the component into the RAM 903 and executing the program 904A.
- the program 904A that realizes the function of each component of each device is stored in the storage device 905 or the ROM 902 in advance, for example. Then, the CPU 901 reads the program 904A as necessary.
- the storage device 905 is, for example, a hard disk.
- the program 904A may be supplied to the CPU 901 via the communication network 909, or may be stored in the storage medium 906 in advance, read by the drive device 907, and supplied to the CPU 901.
- the storage medium 906 is a portable medium such as an optical disc, a magnetic disc, a magneto-optical disc, and a nonvolatile semiconductor memory.
- each device may be realized by a possible combination of a computer 900 and a program that are different for each component.
- a plurality of constituent elements included in each device may be realized by a possible combination of one computer 900 and a program.
- each component of each device may be realized by other general-purpose or dedicated circuits, a computer, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus.
- each device When some or all of the constituent elements of each device are realized by a plurality of computers, circuits, etc., the plurality of computers, circuits, etc. may be arranged centrally or distributed.
- a computer, a circuit, or the like may be realized as a form in which each is connected via a communication network, such as a client-and-server system or a cloud computing system.
- Extraction means for extracting a two-dimensional feature relating to the part of the person in the image
- a conversion means for converting the two-dimensional feature into a three-dimensional feature relating to the human body structure
- Learning data generation means for generating learning data using the three-dimensional feature and a label indicating the physical state of the person
- An image processing apparatus including.
- Appendix 2 The image processing device according to appendix 1, wherein the conversion unit converts the two-dimensional feature into the three-dimensional feature using a model learned in advance by machine learning.
- Appendix 3 The image processing apparatus according to appendix 1 or 2, further comprising: a three-dimensional feature generation unit that generates another three-dimensional feature in a physical state indicated by the label using the three-dimensional feature.
- Appendix 4 The image processing apparatus according to appendix 3, wherein the three-dimensional feature generation means changes the three-dimensional feature based on a human body structure to generate the other three-dimensional feature.
- the extraction means extracts a two-dimensional feature relating to the part of the person in each of a plurality of time-series images including the person,
- the conversion means respectively converts the two-dimensional features into three-dimensional features related to a human body structure,
- the image processing device according to appendix 3, wherein the three-dimensional feature generation means generates the other three-dimensional feature at a time different from the imaging time of each of the plurality of time-series images based on the plurality of three-dimensional features. .. (Appendix 6)
- the extracting means extracts another two-dimensional feature for supplementing the two-dimensional feature from images before and after the image in time series.
- the image processing device according to any one of appendices 1 to 5.
- (Appendix 7) Acquisition means for extracting a background image of the image, Storage means for storing the background image, Of the background images stored by the storage means, a selection means for selecting a background image used for generating the learning data, Further equipped with, The learning data generation means, A person image generating means for generating a person image in the physical state based on the three-dimensional characteristics; Synthesizing means for synthesizing the person image and the selected background image, including, 7.
- the image processing device according to any one of appendices 1 to 6.
- the person image generating means generates the person image based on an image capturing condition of an image capturing apparatus that captured the image and a positional relationship between the person and the image capturing apparatus,
- the selecting means selects a background image of an image captured under an imaging condition similar to the imaging condition,
- the image processing device according to attachment 7. (Appendix 9)
- the person image generating means Select a person model based on the label, Generating the person image using the person model,
- the selecting means selects a background image used for generating the learning data from the storing means based on the label, The image processing device according to any one of appendices 7 to 9.
- (Appendix 11) Extract two-dimensional features related to the part of the person in the image, Converting the two-dimensional features into three-dimensional features related to human body structure, Generating learning data using the three-dimensional feature and a label indicating the physical state of the person, Image processing method.
- (Appendix 12) To the computer A process of extracting a two-dimensional feature relating to a part of a person in an image, A process of converting the two-dimensional feature into a three-dimensional feature relating to a human body structure; A process of generating learning data by using the three-dimensional feature and a label indicating the physical state of the person, A program recording medium recording a program for executing the program.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
人の行動に関する学習データを低コストで生成するため、本発明の画像処理装置は、画像中の人物の部位に関する二次元特徴を抽出する抽出手段と、当該二次元特徴を人体構造に関する三次元特徴に変換する変換手段と、当該三次元特徴及び該人物の物理的な状態を示すラベルを用いて、学習データを生成する学習データ生成手段と、を備える。
Description
本発明は、人の行動を学習して検知するシステムに必要な学習データを生成する装置、方法及びプログラム記録媒体に関する。
監視カメラ等の映像から、人の行動を検知するニーズが高まっている。たとえば、駅のホームで泥酔する等によりふらふらと歩いている人を検知して、転落を予測して保護することで人身事故を防ぐことができる。また、小売店等で顧客がどの商品を手に取ったか等の情報を分析することで、商品開発に活用することができる。
特許文献1には、被写体の姿勢に関するモーションキャプチャーデータのうち、撮像画像の被写体の姿勢との類似度が最も高いモーションキャプチャーデータの姿勢が、該撮像画像における該被写体の姿勢であると推定することが開示されている。
上述のような検知技術の精度は、Deep learning等の機械学習により、向上している。
しかしながら、Deep learning等の機械学習によって検知技術の精度を向上させるためには、人の姿勢や行動等の人の物理的な状態に関する画像や動画と、人の行動の種類を示す正解ラベルと、を含む学習データが大量に必要になる。
特許文献2-4には、学習データの生成に関する技術がそれぞれ開示されている。
特許文献2には、学習データを生成する際に、入力データの内容がラベルと合致することを示す正評価と、入力データの内容がラベルと合致しないことを示す負評価に加えて、学習対象から除外することを示す無視評価を用いることにより、不完全な学習データの生成を防止することが開示されている。
特許文献3には、モーションキャプチャーシステムを利用して得られた人体の骨格形状情報を用いて生成されるCG(Computer Graphics)画像を活用して、学習データを生成することが開示されている。
特許文献4には、学習データセット内の行動ごとのデータ量に応じて、学習データを人工生成するか否かの要否を判定し、様々な行動に対して万遍なく学習データセットを作成することが開示されている。
従来技術では、学習データを作成する際に、モーションキャプチャーシステム等の特別な設備や装置を利用するため、学習データを作成する際のコストが高くなる、という課題がある。
本発明は、上記課題に鑑みてなされたものであり、その目的は、学習のデータを低コストで生成することである。
本発明の第1の視点によれば、画像中の人物の部位に関する二次元特徴を抽出する抽出手段と、該二次元特徴を人体構造に関する三次元特徴に変換する変換手段と、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、を備える画像処理装置が提供される。
本発明の第2の視点によれば、画像中の人物の部位に関する二次元特徴を抽出し、該二次元特徴を、人体構造に関する三次元特徴に変換し、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する画像処理方法が提供される。
本発明の第3の視点によれば、コンピュータに対して、画像中の人物の部位に関する二次元特徴を抽出する処理と、該二次元特徴を人体構造に関する三次元特徴に変換する処理と、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、を実行させるためのプログラムを記録する記録媒体が提供される。
本発明によれば、モーションキャプチャー等の特別な設備や装置を利用することなく、通常の可視光カメラで撮影した画像や動画から得られた人物特徴を用いて、人の行動を再現した学習データを作成する。
これにより、低コストで、人の行動に関する学習データを作成することができる。
以下、実施の形態について、図面を参照しながら具体的に説明する。
<第1の実施形態>
図1は、本実施形態における画像処理装置1の構成を示す図である。
図1は、本実施形態における画像処理装置1の構成を示す図である。
図1に示す画像処理装置1は、入力受付部11と、取得部12と、格納部13と、選択部14と、抽出部15と、変換部16と、学習データ生成部17と、出力部18と、を備える。
入力受付部11は、1つ以上の図示しないカメラ等の撮影装置が撮像した画像と、該画像中の人物の物理的な状態を示すラベルと、の入力を受け付ける。入力受付部11は、ラベルの入力を、ユーザから受け付けてもよいし、自動生成されたものを受け付けてもよい。入力受付部11は、時系列に沿った連続する画像の入力を順次受け付けてもよい。入力受付部11は、画像ではなく動画の入力を受け付けてもよい。
入力受付部11は、入力された情報のうち、少なくとも画像を取得部12及び抽出部15に出力し、少なくともラベルを選択部14に出力する。
取得部12は、入力された画像から背景画像を取得する。取得部12は、取得した背景画像を格納部13に出力する。
格納部13は、取得部12により入力された背景画像を格納する。
図2は、格納部13に格納されている背景画像の一例を示す図である。格納部13には、学習データの生成に使用可能な複数の背景画像が格納されている。格納部13は、あらかじめ背景画像を格納しておいてもよい。
選択部14は、格納部13に格納されている複数の背景画像から、学習データの生成に用いる背景画像を選択する。
選択部14は、入力されたラベルに応じて適切な背景画像を選択してもよい。例えば、選択部14は、ラベルがゴルフクラブのスイングならば、緑の草原のような背景が好ましく、ラベルがふらつきならば、駅や道路のような背景が好ましい。この選択は人手で行ってもよいし、あらかじめ設定したアルゴリズムに応じて自動で行ってもよい。選択部14は、入力された画像の撮像装置の撮像条件に類似した撮像条件で撮像された画像の背景画像を選択してもよい。
抽出部15は、入力された画像中の人物の二次元特徴を抽出する。二次元特徴は、画像や動画中の人物の身体部位に関する情報である。
図3は、二次元特徴の一例を示す図である。図3に示す二次元特徴は、画像上での人物の骨格構造を表す情報である。
二次元特徴は、画像上での人物の骨格構造を表す情報に限定されず、例えば、画像上での人物の各関節や、頭、手、足等の身体部位の位置座標であってもよい。又は、例えば、二次元特徴は、画像中の人物の各関節間をつないだベクトル情報であってもよいし、二次元特徴は、画像上での人物の存在領域を示すシルエット情報であってもよい。
図4は、抽出部15が画像から二次元特徴を抽出する一例を示す図である。
例えば、抽出部15は、機械学習を行ったコンピュータによって、画像から二次元特徴を抽出する。具体的には、抽出部15は、機械学習により生成されるモデルを用いて、入力された画像中の人物の関節の位置座標を抽出する。当該モデルは、画像と、該画像中の人物の関節の位置座標と、から成る複数のデータを用いた機械学習により生成される。
抽出部15は、例えば、Deep learningにより生成されるモデルを用いる。又は、抽出部15は、Deep learning以外のニューラルネットワークを用いた機械学習により生成されたモデルを用いてもよい。又は、抽出部15は、ニューラルネットワーク以外の機械学習により生成されたモデルを用いてもよく、例えば、SVM(サポートベクターマシン)により生成されたモデルを用いてもよい。
または、抽出部15は、二次元特徴について、人手による抽出を受け付けるように構成されていてもよい。
画像中の重なりや隠れ等によって二次元特徴の一部が抽出されない場合、抽出部15は、任意の方法で該画像とは異なる画像から該二次元特徴を補うための他の二次元特徴を抽出してもよい。
二次元特徴を補う方法として、例えば、抽出部15は、二次元特徴を補うための他の二次元特徴を、人手による入力により受け付けてもよいし、時系列的に前後の画像から抽出し、該他の二次元特徴を用いて補ってもよい。
抽出部15は、抽出した二次元特徴を変換部16に出力する。
変換部16は、抽出部15から入力された二次元特徴を三次元特徴に変換する。三次元特徴は、画像中の人物の三次元空間における人体構造に関する情報である。
図5は、三次元特徴の一例を示す図である。図5に示す三次元特徴は、三次元空間における人物の骨格構造を表す情報である。
三次元特徴は、三次元空間における人物の骨格構造を表す情報に限定されず、例えば、三次元空間における、画像上での人物の各関節や、頭、手、足等の身体部位の位置座標であってもよい。又は、例えば、三次元特徴は、三次元空間における、人物の各関節間をつないだベクトル情報であってもよいし、三次元空間における人物の存在領域を示すシルエット情報であってもよい。
図6は、変換部16が二次元特徴を三次元特徴に変換する一例を示す図である。
具体的には、変換部16は、機械学習を行ったコンピュータによって、二次元特徴を三次元特徴に変換する。
例えば、変換部16は、機械学習により生成されるモデルを用いて、入力された画像から抽出された関節の位置座標を三次元空間での位置座標に変換する。当該モデルは、画像中の人物の関節の位置座標と、該人物の関節の三次元空間での位置座標と、から成る複数のデータを用いた機械学習により得られる。
変換部16は、例えば、Deep learningにより生成されるモデルを用いる。又は、変換部16は、Deep learning以外のニューラルネットワークを用いた機械学習により生成されたモデルを用いてもよい。又は、変換部16は、ニューラルネットワーク以外の機械学習により生成されたモデルを用いてもよく、例えば、SVM(サポートベクターマシン)により生成されたモデルを用いてもよい。
変換部16は、三次元特徴を学習データ生成部17に出力する。
学習データ生成部17は、人物画像生成部171と、合成部172と、を備える。
人物画像生成部171は、変換部16から入力された三次元特徴及び人物モデルに基づいて、人物画像を生成する。人物画像生成部171は、人物モデルを予め保持していてもよいし、外部からの入力を受け付けてもよい。
図7は、人物画像生成部171が人物画像を生成する際に用いる人物モデルの一例を示す図である。人物モデルは、例えば、コンピュータ上で生成された人物のCGモデルである。
人物モデルとして、年齢、性別、体型、上半身の服装(スーツ、シャツ等)、上半身の服色(赤、青、黄、黒、白等)、肌色、髪型、髪色、下半身の服装(ジーンズ、スカート等)、下半身の服色(赤、青、黄、黒、白等)、履物(革靴、スニーカー等)、履物色(赤、青、黄、黒、白等)等の属性についての様々なバリエーションのモデルが用意されていてもよい。
図8は、人物画像生成部171が生成する人物画像の一例を示す図である。図8は、「走る」という行動をとる人物の人物画像である。
具体的には、例えば、人物画像生成部171は、三次元特徴を、CGで生成された人物モデルに当てはめて、任意の方向及び距離から撮影した画像としてレンダリングする。これにより、人物画像生成部171は、入力されたラベルが示す行動と同じ行動をとる人物画像を生成する。この時、例えば、人物画像生成部171は、入力された画像からカメラパラメータと人物のカメラに対する位置、方向等を抽出して人物画像の生成に用いることで、入力された画像の人物と同じ姿勢の人物モデルに置き換えた人物画像を生成することができる。
図9は、人物画像生成部171が人物画像を生成する一例を示す図である。例えば、人物画像生成部171は、図9に示すように、三次元特徴を人物モデルに当てはめることにより、「走る」という行動をとる人物の人物画像を生成する。
人物画像生成部171は、入力された画像を撮像した撮像装置の撮像条件と、該画像中の人物及び該撮像装置の位置関係と、に基づいて、人物画像を生成してもよい。
人物画像生成部171は、入力されたラベルに基づいて選択された人物モデルを用いて、人物画像を生成してもよい。例えば、人物画像生成部171は、「走る」というラベルに基づいて人物画像を生成する場合、「走る」という行動をとる可能性の低い高齢者ではなく、「走る」という行動をとる可能性の高い若者の人物モデルを用いて、人物画像を生成する。また、人物画像生成部171は、「杖をついて歩く」等の行動であれば、CGで生成された高齢者の人物モデルを用いて、人物画像を生成する。人物画像生成部171がラベルに基づいて選択した人物モデルを用いることにより、機械学習を利用した行動分析に対する高精度な学習データを生成することができる。
人物画像生成部171は、入力されたラベルに基づいて選択された人物モデルを用いて、人物画像を生成してもよい。例えば、人物画像生成部171は、「走る」というラベルに基づいて人物画像を生成する場合、「走る」という行動をとる可能性の低い高齢者ではなく、「走る」という行動をとる可能性の高い若者の人物モデルを用いて、人物画像を生成する。また、人物画像生成部171は、「杖をついて歩く」等の行動であれば、CGで生成された高齢者の人物モデルを用いて、人物画像を生成する。人物画像生成部171がラベルに基づいて選択した人物モデルを用いることにより、機械学習を利用した行動分析に対する高精度な学習データを生成することができる。
人物画像生成部171は、生成された学習データを用いて学習したコンピュータの利用シーンに応じて、人物モデルを選択してもよい。例えば、人物画像生成部171は、サラリーマンが多く行きかう場所を撮影している映像に対して利用する場合は、スーツ姿の人物モデルを選定する確率を高くするように設定した固定のルールに応じて選定を行ってもよい。また、例えば、人物画像生成部171は、老人ホームで撮影している映像に対して利用する場合は、高齢者の人物モデルを選定する確率を高くするように設定した固定のルールに応じて選定を行ってもよい。また、例えば、人物画像生成部171は、事前に映る人の属性を統計情報として観測しておいて、それに基づいて人物モデルのバリエーションを決めてもよい。
人物画像生成部171は、画像中の人が身に着けている装飾品(マスク、帽子等)、持ち物(鞄、傘、リュックサック等)、その他の道具を別途認識し、それらの道具のCGを付加した人物モデルを用いて、人物画像を生成してもよい。
人物画像生成部171は、生成した人物画像を合成部172に出力する。
合成部172は、選択部14から入力された背景画像と、人物画像生成部171から入力された人物画像を合成することで、学習データを生成する。学習データは、機械学習によりニューラルネットワークを学習させる際に用いるデータである。学習データは、画像と、該画像中の人物がとる行動を示すラベルと、を含む。
図10は、合成部172により生成される学習データの一例である。図10に示す学習データは、「走る」という行動を学習するための学習データである。
図11は、合成部172が学習データを生成する一例を示す図である。図11に示すように、合成部172は、背景画像と人物画像を合成することで、学習データを生成する。
出力部18は、合成部172が生成した学習データを出力する。
図12は、画像処理装置1が入力された画像から背景画像を取得し、格納する処理動作を説明するまでのフローチャートである。以下、画像処理装置1の処理の流れを、図12を参照しながら説明する。
取得部12は、入力された画像から背景画像を取得する(S121)。格納部13は、背景画像を格納する(S122)。
図13は、画像処理装置1が画像およびラベルの入力を受け付けてから学習データを生成するまでの処理動作を説明するためのフローチャートである。以下、画像処理装置1の処理の流れを、図13を参照しながら説明する。
入力受付部11は、画像及びラベルの入力を受け付ける(S131)。抽出部15は、入力された画像から二次元特徴を抽出する(S132)。変換部16は、抽出された二次元特徴を三次元特徴に変換する(S133)。人物画像生成部171は、三次元特徴と人物モデルに基づいて、人物画像を生成する(S134)。選択部14は、格納部13から学習データの生成に使用する背景画像を選択する(S135)。合成部172は、背景画像及び人物画像を合成して、学習データを生成する(S136)。
尚、選択部14は、背景画像を選択する処理を、合成部172における学習データ生成処理よりも前であればいつ行ってもよいし、抽出部15、変換部16又は人物画像生成部171における処理と並行して行ってもよい。また、図12を用いて説明した処理は、図13を用いて説明した処理と並行して行ってもよい。
以上説明したように、本実施形態に係る画像処理装置は、画像から抽出した人物の二次元特徴を三次元特徴に変換し、学習データを生成する。これにより、モーションキャプチャーシステム等の特別な設備を利用することなく、低コストで、学習データを生成することができる。
<第2の実施形態>
本発明の第2の実施形態について、図面を用いて詳細に説明する。
本発明の第2の実施形態について、図面を用いて詳細に説明する。
本実施形態における画像処理装置10と、第1の実施形態における画像処理装置1とは、本実施形態における画像処理装置10が三次元特徴生成部19を備えている点で相違する。
図14は、第2の実施形態における画像処理装置10の構成を示す図である。
尚、画像処理装置10の構成のうち、第1の実施形態の画像処理装置1の構成と同じ処理動作を行う構成については、図1と同じ符号を付し、詳細な説明を省略する。
三次元特徴生成部19は、変換部16により得られた三次元特徴を用いて、該三次元特徴とは異なる他の三次元特徴を生成する。
例えば、三次元特徴生成部19は、変換部16から受け付けた三次元特徴を人物モデルに基づいて変化させて、ラベルが示す物理的な状態における他の三次元特徴を生成する。具体的には、例えば、三次元特徴生成部19は、三次元特徴が人体の三次元骨格情報である場合、各関節の可動域等の知識に基づいて各関節の角度を変化させることで、他の三次元特徴を生成する。生成される他の三次元特徴は、画像に付与されているラベルの範囲内に収まるようにすることが好ましい。例えば、「ふらつき」というラベルがついた画像から得られた三次元特徴を変化させる場合、変化後の三次元特徴も「ふらついて」いる姿勢を表すように変化条件を決めることが好ましい。
また、例えば、三次元特徴生成部19は、同一のラベルの付いた複数の時系列画像それぞれから得られた複数の三次元特徴を用いて、ラベルが示す物理的な状態における他の三次元特徴を生成する。具体的には、例えば、三次元特徴生成部19は、「ふらつき」というラベルがついた二つの時系列画像の入力を受け付けた場合、該二つの時系列画像の撮像時刻の間に相当する時刻における、人物の三次元骨格情報を生成する。具体的には、三次元特徴生成部19は、当該二つの時系列画像における人物の体の各関節等の位置情報の平均を取ることで、該二つの時系列画像の撮像時刻の間に相当する時刻における各関節の位置に関する三次元特徴を生成する。
三次元特徴生成部19は、同じ原理を用いて、画像間の任意の時刻における三次元特徴を生成することができる。
同様に、三次元特徴生成部19は、二つの時系列画像から得られる三次元特徴を用いて、該二つの時系列画像の撮像時刻外の時刻における三次元特徴を生成することができる。このとき、生成された三次元特徴が元画像に付与されているラベルの範囲内に収まるよう、二つの時系列画像間の時間間隔を設定してもよい。
三次元特徴生成部19は、生成した三次元特徴を、人物画像生成部171に出力する。
人物画像生成部171は、三次元特徴生成部19により入力された三次元特徴及び人物モデルに基づいて、人物画像を生成する。
図15は、画像処理装置10が、二次元特徴を抽出してから、三次元特徴を用いて生成される他の三次元特徴を用いて、学習データを生成するまでの処理の流れを示すフローチャートである。以下、画像処理装置10の処理動作の流れを、図15を参照しながら説明する。尚、第1の実施形態と同じ処理については、図13と同様の符号を付し、説明は省略する。
三次元特徴生成部19は、変換部16により得られた三次元特徴を用いて、該三次元特徴とは異なる他の三次元特徴を生成する(S151)。人物画像生成部171は、当該他の三次元特徴及び人物モデルに基づいて、人物画像を生成する(S152)。
以上説明したように、本実施形態の画像処理装置は、画像像から得られた三次元特徴を用いて生成された他の三次元特徴を用いて、学習データを生成する。これにより、各行動に関する学習データのバリエーションを容易に増やすことができる。
<第3の実施形態>
図16は、本実施形態における画像処理装置100の構成を示す図である。以下、図16を参照しながら、画像処理装置100の概要を説明する。
図16は、本実施形態における画像処理装置100の構成を示す図である。以下、図16を参照しながら、画像処理装置100の概要を説明する。
本実施形態の画像処理装置100は、抽出部101と、変換部102と、学習データ生成部103と、を備える。
抽出部101は、画像中の人物の部位に関する二次元特徴を抽出する。抽出部101は、抽出した二次元特徴を変換部102に出力する。
変換部102は、二次元特徴を、人体構造に関する三次元特徴に変換する。変換部102は、得られた三次元特徴を学習データ生成部103に出力する。
学習データ生成部103は、三次元特徴と、人物の物理的な状態を示すラベルと、を用いて、学習データを生成する。
図17は、画像処理装置100が、画像から二次元特徴を抽出してから、学習データを生成するまでの処理の流れを示すフローチャートである。以下、画像処理装置100の処理の流れを、図17を参照しながら説明する。
抽出部101は、画像中の人物の部位に関する二次元特徴を抽出する(S171)。変換部102は、抽出した二次元特徴を三次元特徴に変換する(S172)。学習データ生成部103は、当該三次元特徴及び正解ラベルを用いて、学習データを生成する(S173)。
以上説明したように、本実施形態に係る画像処理装置は、画像から抽出した人物の二次元特徴を三次元特徴に変換し、学習データを生成する。これにより、モーションキャプチャーシステム等の特別な設備を利用することなく、低コストで、学習データを生成することができる。
<実施形態の各部を実現するハードウェアの構成>
以上で説明された本発明の各実施形態において、各装置の各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のモジュールにより構成されることを必ずしも意味していない。
以上で説明された本発明の各実施形態において、各装置の各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のモジュールにより構成されることを必ずしも意味していない。
各構成要素の処理は、たとえば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、及び不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるROM(Read Only Memory)及びハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、及び、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。
「コンピュータシステム」とは、一例として、図18に示されるようなコンピュータ900を含むシステムである。コンピュータ900は、以下のような構成を含む。
・1つ又は複数のCPU(Central Processing Unit)901
・ROM902
・RAM(Random Access Memory)903
・RAM903へロードされるプログラム904A及び記憶情報904B
・プログラム904A及び記憶情報904Bを格納する記憶装置905
・記憶媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
たとえば、各実施形態における各装置の各構成要素は、その構成要素の機能を実現するプログラム904AをCPU901がRAM903にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム904Aは、例えば、予め、記憶装置905やROM902に格納される。そして、必要に応じてCPU901がプログラム904Aを読み出す。記憶装置905は、たとえば、ハードディスクである。プログラム904Aは、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記憶媒体906に格納されており、ドライブ装置907に読み出され、CPU901に供給されてもよい。なお、記憶媒体906は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、及び不揮発性半導体メモリ等の、可搬媒体である。
・1つ又は複数のCPU(Central Processing Unit)901
・ROM902
・RAM(Random Access Memory)903
・RAM903へロードされるプログラム904A及び記憶情報904B
・プログラム904A及び記憶情報904Bを格納する記憶装置905
・記憶媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
たとえば、各実施形態における各装置の各構成要素は、その構成要素の機能を実現するプログラム904AをCPU901がRAM903にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム904Aは、例えば、予め、記憶装置905やROM902に格納される。そして、必要に応じてCPU901がプログラム904Aを読み出す。記憶装置905は、たとえば、ハードディスクである。プログラム904Aは、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記憶媒体906に格納されており、ドライブ装置907に読み出され、CPU901に供給されてもよい。なお、記憶媒体906は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、及び不揮発性半導体メモリ等の、可搬媒体である。
各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。
また、各装置の各構成要素の一部又は全部は、その他の汎用又は専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
各装置の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
(付記事項)
なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
画像における人物の部位に関する二次元特徴を抽出する抽出手段と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する変換手段と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、
を備える画像処理装置。
(付記2)
前記変換手段は、機械学習により予め学習されたモデルを用いて、前記二次元特徴を前記三次元特徴に変換する
付記1に記載の画像処理装置。
(付記3)
前記三次元特徴を用いて、前記ラベルが示す物理的な状態における他の三次元特徴を生成する三次元特徴生成手段を備える
付記1又は2に記載の画像処理装置。
(付記4)
前記三次元特徴生成手段は、人体構造に基づいて、前記三次元特徴を変化させて、前記他の三次元特徴を生成する
付記3に記載の画像処理装置。
(付記5)
前記抽出手段は、前記人物を含む複数の時系列画像それぞれにおける前記人物の部位に関する二次元特徴を抽出し、
前記変換手段は、前記二次元特徴を、人体構造に関する三次元特徴にそれぞれ変換し、
前記三次元特徴生成手段は、複数の前記三次元特徴に基づいて、前記複数の時系列画像それぞれの撮像時刻とは異なる時刻における前記他の三次元特徴を生成する
付記3に記載の画像処理装置。
(付記6)
前記抽出手段は、前記画像において前記人物の人体の一部が隠れている場合に、前記画像よりも時系列的に前後の画像から、前記二次元特徴を補うための他の二次元特徴を抽出する
付記1から5のいずれか一項に記載の画像処理装置。
(付記7)
前記画像の背景画像を抽出する取得手段と、
前記背景画像を格納する格納手段と、
前記格納手段が記憶する背景画像のうち、前記学習データの生成に用いる背景画像を選択する選択手段と、
をさらに備え、
前記学習データ生成手段は、
前記三次元特徴に基づいて、前記物理的な状態における人物画像を生成する人物画像生成手段と、
前記人物画像と、選択された前記背景画像と、を合成する合成手段と、
を含む、
付記1から6のいずれか一項に記載の画像処理装置。
(付記8)
前記人物画像生成手段は、前記画像を撮像した撮像装置の撮像条件と、前記人物及び前記撮像装置の位置関係と、に基づいて、前記人物画像を生成し、
前記選択手段は、前記撮像条件に類似の撮像条件で撮像された画像の背景画像を選択する、
付記7に記載の画像処理装置。
(付記9)
前記人物画像生成手段は、
前記ラベルに基づいて、人物モデルを選択し、
前記人物モデルを用いて、前記人物画像を生成する、
付記7又は8に記載の画像処理装置。
(付記10)
前記選択手段は、前記ラベルに基づいて、前記格納手段から、前記学習データの生成に用いる背景画像を選択する、
付記7から9のいずれか一項に記載の画像処理装置。
(付記11)
画像中の人物の部位に関する二次元特徴を抽出し、
前記二次元特徴を、人体構造に関する三次元特徴に変換し、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する、
画像処理方法。
(付記12)
コンピュータに対して、
画像中の人物の部位に関する二次元特徴を抽出する処理と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する処理と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、
を実行させるためのプログラムを記録したプログラム記録媒体。
(付記1)
画像における人物の部位に関する二次元特徴を抽出する抽出手段と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する変換手段と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、
を備える画像処理装置。
(付記2)
前記変換手段は、機械学習により予め学習されたモデルを用いて、前記二次元特徴を前記三次元特徴に変換する
付記1に記載の画像処理装置。
(付記3)
前記三次元特徴を用いて、前記ラベルが示す物理的な状態における他の三次元特徴を生成する三次元特徴生成手段を備える
付記1又は2に記載の画像処理装置。
(付記4)
前記三次元特徴生成手段は、人体構造に基づいて、前記三次元特徴を変化させて、前記他の三次元特徴を生成する
付記3に記載の画像処理装置。
(付記5)
前記抽出手段は、前記人物を含む複数の時系列画像それぞれにおける前記人物の部位に関する二次元特徴を抽出し、
前記変換手段は、前記二次元特徴を、人体構造に関する三次元特徴にそれぞれ変換し、
前記三次元特徴生成手段は、複数の前記三次元特徴に基づいて、前記複数の時系列画像それぞれの撮像時刻とは異なる時刻における前記他の三次元特徴を生成する
付記3に記載の画像処理装置。
(付記6)
前記抽出手段は、前記画像において前記人物の人体の一部が隠れている場合に、前記画像よりも時系列的に前後の画像から、前記二次元特徴を補うための他の二次元特徴を抽出する
付記1から5のいずれか一項に記載の画像処理装置。
(付記7)
前記画像の背景画像を抽出する取得手段と、
前記背景画像を格納する格納手段と、
前記格納手段が記憶する背景画像のうち、前記学習データの生成に用いる背景画像を選択する選択手段と、
をさらに備え、
前記学習データ生成手段は、
前記三次元特徴に基づいて、前記物理的な状態における人物画像を生成する人物画像生成手段と、
前記人物画像と、選択された前記背景画像と、を合成する合成手段と、
を含む、
付記1から6のいずれか一項に記載の画像処理装置。
(付記8)
前記人物画像生成手段は、前記画像を撮像した撮像装置の撮像条件と、前記人物及び前記撮像装置の位置関係と、に基づいて、前記人物画像を生成し、
前記選択手段は、前記撮像条件に類似の撮像条件で撮像された画像の背景画像を選択する、
付記7に記載の画像処理装置。
(付記9)
前記人物画像生成手段は、
前記ラベルに基づいて、人物モデルを選択し、
前記人物モデルを用いて、前記人物画像を生成する、
付記7又は8に記載の画像処理装置。
(付記10)
前記選択手段は、前記ラベルに基づいて、前記格納手段から、前記学習データの生成に用いる背景画像を選択する、
付記7から9のいずれか一項に記載の画像処理装置。
(付記11)
画像中の人物の部位に関する二次元特徴を抽出し、
前記二次元特徴を、人体構造に関する三次元特徴に変換し、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する、
画像処理方法。
(付記12)
コンピュータに対して、
画像中の人物の部位に関する二次元特徴を抽出する処理と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する処理と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、
を実行させるためのプログラムを記録したプログラム記録媒体。
1 画像処理装置
10 画像処理装置
11 入力受付部
12 取得部
13 格納部
14 選択部
15 抽出部
16 変換部
17 学習データ生成部
18 出力部
19 三次元特徴生成部
100 画像処理装置
101 抽出部
102 変換部
103 学習データ生成部
171 人物画像生成部
172 合成部
900 コンピュータ
901 CPU
902 ROM
903 RAM
904A プログラム
904B 記憶情報
905 記憶装置
906 記憶媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク
910 入出力インタフェース
911 バス
10 画像処理装置
11 入力受付部
12 取得部
13 格納部
14 選択部
15 抽出部
16 変換部
17 学習データ生成部
18 出力部
19 三次元特徴生成部
100 画像処理装置
101 抽出部
102 変換部
103 学習データ生成部
171 人物画像生成部
172 合成部
900 コンピュータ
901 CPU
902 ROM
903 RAM
904A プログラム
904B 記憶情報
905 記憶装置
906 記憶媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク
910 入出力インタフェース
911 バス
Claims (12)
- 画像における人物の部位に関する二次元特徴を抽出する抽出手段と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する変換手段と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、
を備える画像処理装置。 - 前記変換手段は、機械学習により予め学習されたモデルを用いて、前記二次元特徴を前記三次元特徴に変換する
請求項1に記載の画像処理装置。 - 前記三次元特徴を用いて、前記ラベルが示す物理的な状態における他の三次元特徴を生成する三次元特徴生成手段を備える
請求項1又は2に記載の画像処理装置。 - 前記三次元特徴生成手段は、人体構造に基づいて、前記三次元特徴を変化させて、前記他の三次元特徴を生成する
請求項3に記載の画像処理装置。 - 前記抽出手段は、前記人物を含む複数の時系列画像それぞれにおける前記人物の部位に関する二次元特徴を抽出し、
前記変換手段は、前記二次元特徴を、人体構造に関する三次元特徴にそれぞれ変換し、
前記三次元特徴生成手段は、複数の前記三次元特徴に基づいて、前記複数の時系列画像それぞれの撮像時刻とは異なる時刻における前記他の三次元特徴を生成する
請求項3に記載の画像処理装置。 - 前記抽出手段は、前記画像において前記人物の人体の一部が隠れている場合に、前記画像よりも時系列的に前後の画像から、前記二次元特徴を補うための他の二次元特徴を抽出する
請求項1から5のいずれか一項に記載の画像処理装置。 - 前記画像の背景画像を抽出する取得手段と、
前記背景画像を格納する格納手段と、
前記格納手段が記憶する背景画像のうち、前記学習データの生成に用いる背景画像を選択する選択手段と、
をさらに備え、
前記学習データ生成手段は、
前記三次元特徴に基づいて、前記物理的な状態における人物画像を生成する人物画像生成手段と、
前記人物画像と、選択された前記背景画像と、を合成する合成手段と、
を含む、
請求項1から6のいずれか一項に記載の画像処理装置。 - 前記人物画像生成手段は、前記画像を撮像した撮像装置の撮像条件と、前記人物及び前記撮像装置の位置関係と、に基づいて、前記人物画像を生成し、
前記選択手段は、前記撮像条件に類似の撮像条件で撮像された画像の背景画像を選択する、
請求項7に記載の画像処理装置。 - 前記人物画像生成手段は、
前記ラベルに基づいて、人物モデルを選択し、
前記人物モデルを用いて、前記人物画像を生成する、
請求項7又は8に記載の画像処理装置。 - 前記選択手段は、前記ラベルに基づいて、前記格納手段から、前記学習データの生成に用いる背景画像を選択する、
請求項7から9のいずれか一項に記載の画像処理装置。 - 画像中の人物の部位に関する二次元特徴を抽出し、
前記二次元特徴を、人体構造に関する三次元特徴に変換し、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する、
画像処理方法。 - コンピュータに対して、
画像中の人物の部位に関する二次元特徴を抽出する処理と、
前記二次元特徴を、人体構造に関する三次元特徴に変換する処理と、
前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、
を実行させるためのプログラムを記録したプログラム記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/008441 WO2020178957A1 (ja) | 2019-03-04 | 2019-03-04 | 画像処理装置、画像処理方法及びプログラム記録媒体 |
JP2021503293A JP7294402B2 (ja) | 2019-03-04 | 2019-03-04 | 画像処理装置、画像処理方法及びプログラム |
US17/414,025 US11803615B2 (en) | 2019-03-04 | 2019-03-04 | Generating 3D training data from 2D images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/008441 WO2020178957A1 (ja) | 2019-03-04 | 2019-03-04 | 画像処理装置、画像処理方法及びプログラム記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020178957A1 true WO2020178957A1 (ja) | 2020-09-10 |
Family
ID=72337046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/008441 WO2020178957A1 (ja) | 2019-03-04 | 2019-03-04 | 画像処理装置、画像処理方法及びプログラム記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11803615B2 (ja) |
JP (1) | JP7294402B2 (ja) |
WO (1) | WO2020178957A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024161613A1 (ja) * | 2023-02-02 | 2024-08-08 | 富士通株式会社 | データ拡張方法、データ拡張プログラムおよび情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009514111A (ja) * | 2005-10-28 | 2009-04-02 | 本田技研工業株式会社 | 座標化された混合因子分析法を用いた3次元ヒューマンモーションの単眼追跡 |
JP2010063066A (ja) * | 2008-09-08 | 2010-03-18 | Nikon Corp | 動画像再生装置 |
JP2018129007A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム |
WO2018207351A1 (ja) * | 2017-05-12 | 2018-11-15 | 富士通株式会社 | 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5609112B2 (ja) * | 2006-09-25 | 2014-10-22 | メイザー ロボティックス リミテッド | 三次元画像データの作成方法 |
JP2010211732A (ja) | 2009-03-12 | 2010-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 物体認識装置および方法 |
JP5795250B2 (ja) | 2011-12-08 | 2015-10-14 | Kddi株式会社 | 被写体姿勢推定装置および映像描画装置 |
US9240958B2 (en) | 2012-04-16 | 2016-01-19 | Evertz Microsystems Ltd. | Radio frequency signal router |
US9552513B2 (en) * | 2014-06-02 | 2017-01-24 | Amrita Vishwa Vidyapeetham | Systems and methods for yaw estimation |
WO2017073373A1 (ja) | 2015-10-30 | 2017-05-04 | 株式会社モルフォ | 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置 |
WO2017141344A1 (ja) | 2016-02-16 | 2017-08-24 | 楽天株式会社 | 3次元モデル生成システム、3次元モデル生成方法、及びプログラム |
JP2018055619A (ja) | 2016-09-30 | 2018-04-05 | 株式会社ブイシンク | 画像表示装置 |
JP2018067294A (ja) | 2016-10-14 | 2018-04-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 学習データ作成支援方法、学習データ作成支援装置、およびプログラム |
ES2967691T3 (es) | 2017-08-08 | 2024-05-03 | Reald Spark Llc | Ajuste de una representación digital de una región de cabeza |
US10796482B2 (en) * | 2018-12-05 | 2020-10-06 | Snap Inc. | 3D hand shape and pose estimation |
-
2019
- 2019-03-04 JP JP2021503293A patent/JP7294402B2/ja active Active
- 2019-03-04 US US17/414,025 patent/US11803615B2/en active Active
- 2019-03-04 WO PCT/JP2019/008441 patent/WO2020178957A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009514111A (ja) * | 2005-10-28 | 2009-04-02 | 本田技研工業株式会社 | 座標化された混合因子分析法を用いた3次元ヒューマンモーションの単眼追跡 |
JP2010063066A (ja) * | 2008-09-08 | 2010-03-18 | Nikon Corp | 動画像再生装置 |
JP2018129007A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 学習データ生成装置、学習装置、推定装置、学習データ生成方法及びコンピュータプログラム |
WO2018207351A1 (ja) * | 2017-05-12 | 2018-11-15 | 富士通株式会社 | 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム |
Non-Patent Citations (2)
Title |
---|
CHUNYU WANG ET AL.: "Robust Estimation of 3D Human Poses from a Single Image", 10 June 2014 (2014-06-10), XP032649545, Retrieved from the Internet <URL:https://arxiv.org/pdf/1406.2282.pdf> * |
ZHANG,YUCHEN, KATAOKA, HIROKATSU, SATOH, YUTAKA.: "Automatic Generation of Moving Image Data for Large-Scale Human Behavior DB Construction.", THE24TH SYMPOSIUM ON SENSING VIA IMAGE INFORMATION (SSII2018), June 2018 (2018-06-01) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024161613A1 (ja) * | 2023-02-02 | 2024-08-08 | 富士通株式会社 | データ拡張方法、データ拡張プログラムおよび情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220051054A1 (en) | 2022-02-17 |
US11803615B2 (en) | 2023-10-31 |
JPWO2020178957A1 (ja) | 2021-10-21 |
JP7294402B2 (ja) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11344102B2 (en) | Systems and methods for virtual facial makeup removal and simulation, fast facial detection and landmark tracking, reduction in input video lag and shaking, and a method for recommending makeup | |
Tekin et al. | Learning to fuse 2d and 3d image cues for monocular body pose estimation | |
Chen et al. | Describing clothing by semantic attributes | |
Schuldt et al. | Recognizing human actions: a local SVM approach | |
US20180129870A1 (en) | Identifying facial expressions in acquired digital images | |
US20190188456A1 (en) | Image processing device, image processing method, and computer program product | |
Taha et al. | Human activity recognition for surveillance applications | |
US20090262989A1 (en) | Image processing apparatus and method | |
JP4668680B2 (ja) | 属性識別システムおよび属性識別辞書生成装置 | |
JP2017033469A (ja) | 画像識別方法、画像識別装置及びプログラム | |
Papadopoulos et al. | Human action recognition using 3d reconstruction data | |
Nguyen et al. | Seeing human weight from a single rgb-d image | |
US20220148335A1 (en) | Disentangled Representations For Gait Recognition | |
US10460158B2 (en) | Methods and systems for generating a three dimensional representation of a human body shape | |
JP2014149677A (ja) | 美容支援装置、美容支援システム、美容支援方法、並びに美容支援プログラム | |
JP3836814B2 (ja) | 画像処理方法、画像処理装置、画像処理プログラム | |
Nieto-Hidalgo et al. | Classification of pathologies using a vision based feature extraction | |
Wang | Analysis and evaluation of Kinect-based action recognition algorithms | |
Krzeszowski et al. | Gait recognition based on marker-less 3D motion capture | |
Shadrach et al. | Smart virtual trial room for apparel industry | |
WO2020178957A1 (ja) | 画像処理装置、画像処理方法及びプログラム記録媒体 | |
JP7497059B2 (ja) | 画像処理装置、学習済みモデル、画像収集装置、画像処理方法、および、画像処理プログラム | |
Zhang et al. | Human action recognition bases on local action attributes | |
Fihl et al. | Invariant gait continuum based on the duty-factor | |
Atrevi et al. | 3d human poses estimation from a single 2d silhouette |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19918352 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021503293 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19918352 Country of ref document: EP Kind code of ref document: A1 |