WO2019186833A1 - 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体 - Google Patents

画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2019186833A1
WO2019186833A1 PCT/JP2018/012989 JP2018012989W WO2019186833A1 WO 2019186833 A1 WO2019186833 A1 WO 2019186833A1 JP 2018012989 W JP2018012989 W JP 2018012989W WO 2019186833 A1 WO2019186833 A1 WO 2019186833A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
loss
person
human body
generation model
Prior art date
Application number
PCT/JP2018/012989
Other languages
English (en)
French (fr)
Inventor
利憲 細井
ロンヒン チョン
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/012989 priority Critical patent/WO2019186833A1/ja
Priority to US17/041,804 priority patent/US11393069B2/en
Priority to JP2020508665A priority patent/JP6962450B2/ja
Publication of WO2019186833A1 publication Critical patent/WO2019186833A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to an image processing apparatus and an image processing method for interpolating a defective portion on an image, and further relates to a computer-readable recording medium on which a program for realizing these is recorded.
  • the objects to be shielded include transmissive objects such as fog and glass. In this case, a part or all of the person is not obstructed, but becomes unclear in the video, and in this case, part or all of the person is lost.
  • the part where the light of the person hits on the image becomes pure white, and this part is missing It becomes.
  • the part other than the person to be detected may be bright and the exposure of a part of the person may become excessively low. In this case, a portion of the video where the exposure is excessively low becomes black and is in a missing state.
  • Non-Patent Documents 1 and 2 a technique for interpolating a missing portion of an image has been proposed (for example, see Non-Patent Documents 1 and 2).
  • Non-Patent Document 1 discloses a technique for interpolating an image so that the texture of the non-deleted part is incorporated in the missing part of the image and the texture of the boundary region between both parts is not discontinuous. is doing.
  • the continuity of texture is expressed as an energy function, and appropriate interpolation is realized by performing optimization so that this energy function is maximized.
  • Non-Patent Document 2 discloses a technique for interpolating a missing portion of an image using machine learning.
  • a large number of pair images of an input image with a loss and a target image without a loss are prepared in advance, and the target image is output when the input image is applied to a learning model.
  • machine learning is performed to build a learning model.
  • Non-Patent Document 1 merely performs interpolation so that local regions are continuous, and it is difficult to accurately interpolate the missing portion as the region of the missing portion becomes larger. It becomes.
  • An example of an object of the present invention is to solve the above-described problem and to construct an image processing apparatus and image processing capable of constructing a model for performing interpolation of a partially missing person image in consideration of the posture of the person It is to provide a method and a computer-readable recording medium.
  • an image processing apparatus provides: An image generation model construction unit is provided for constructing an image generation model for generating an image in which a part of a person missing is interpolated using image data in which a part of the person is missing as an input image.
  • the image generation model construction unit includes a first sample image including an image of a person, a second sample image in which a part of the person in the first sample image is missing, and the first sample image Constructing the image generation model by machine learning using human body information that identifies the posture of the person inside, It is characterized by that.
  • an image processing method includes: (A) constructing an image generation model for generating an image in which a part of the person missing is interpolated using image data in which part of the person is missing as an input image; , In the step (a), a first sample image including an image of a person, a second sample image in which a part of the person in the first sample image is missing, and the first sample image Constructing the image generation model by machine learning using human body information that identifies the posture of the person inside, It is characterized by that.
  • a computer-readable recording medium On the computer, (A) Using the image data in which a part of the person is missing as an input image, constructing an image generation model for generating an image in which the part of the person missing is interpolated. Record the program, including instructions, In the step (a), a first sample image including an image of a person, a second sample image in which a part of the person in the first sample image is missing, and the first sample image Constructing the image generation model by machine learning using human body information that identifies the posture of the person inside, It is characterized by that.
  • FIG. 1 is a block diagram showing a schematic configuration of an image processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing more specifically the configuration of the image processing apparatus according to Embodiment 1 of the present invention.
  • 3A and 3B are diagrams showing the concept of human body information.
  • FIG. 4 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 (a) shows an example in which an image of a partially missing person is interpolated by a conventional method
  • FIG. 5 (b) is partially shown by the image processing apparatus according to the first embodiment of the present invention. An example in which an image of a missing person is interpolated is shown.
  • FIG. 5 (a) shows an example in which an image of a partially missing person is interpolated by a conventional method
  • FIG. 5 (b) is partially shown by the image processing apparatus according to the first embodiment of the present invention. An example
  • FIG. 6 is a block diagram showing the configuration of the image processing apparatus according to Embodiment 2 of the present invention.
  • FIG. 7 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a block diagram showing the configuration of the image processing apparatus according to Embodiment 3 of the present invention.
  • FIG. 9 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 3 of the present invention.
  • FIG. 10 is a block diagram illustrating an example of a computer that implements the image processing apparatus according to the first to third embodiments of the present invention.
  • Embodiment 1 an image processing apparatus, an image processing method, and a program according to Embodiment 1 of the present invention will be described with reference to FIGS.
  • FIG. 1 is a block diagram showing a schematic configuration of an image processing apparatus according to Embodiment 1 of the present invention.
  • the image processing apparatus 10 is a model for interpolating a missing part by image processing when a part of a person shown in the image is missing. It is a device that builds. As shown in FIG. 1, the image processing apparatus 10 includes an image generation model construction unit 11.
  • the image generation model construction unit 11 includes a first sample image including a person image, a second sample image in which a part of the person in the first sample image is missing, and a first sample image Machine learning is executed using human body information that identifies the posture of a person.
  • the image generation model construction unit 11 creates and updates the image generation model 12 by this machine learning.
  • the first embodiment in addition to an image in which a part of a person is not missing and an image in which a part of a person is missing, using the human body information of the person in the image, Learning is performed and an image generation model is constructed. That is, according to the first embodiment, a model is constructed for performing interpolation on a partially missing person image in consideration of the posture of the person. As a result, when the image generation model constructed in the first embodiment is used, when an image in which a part of a person is missing is interpolated, interpolation is performed in consideration of the posture of the person. This eliminates the unnatural posture of the person.
  • FIG. 2 is a block diagram showing more specifically the configuration of the image processing apparatus according to Embodiment 1 of the present invention.
  • the image processing apparatus 10 includes an image generation unit 13 in addition to the image generation model construction unit 11 described above.
  • the image generation unit 13 applies the second sample image to the image generation model 12 and generates an image in which a part of a person missing is interpolated.
  • the image generation model 12 in the first embodiment, for example, CNN (Convolutional Neural Network) is used.
  • CNN Convolutional Neural Network
  • the image generation model 12 includes a large number of parameter groups set by machine learning. These parameters determine the weight and network structure in the CNN.
  • CNN is a kind of neural network and is obtained by combining layers in which units called neurons are combined into a plurality of layers.
  • a weight parameter expressing the degree of coupling between units.
  • the CNN is characterized in that an intermediate layer that performs a convolution operation is included in an intermediate layer of a plurality of networks.
  • the input layer and the output layer are wide (the number of units of the neural network is large), the intermediate layer is narrow (the number of units is small), It has the characteristic. For this reason, in this Embodiment 1, an hourglass type is used as CNN.
  • a neural network other than the above-described CNN may be used, or a machine learning model constructed by another machine learning may be used.
  • the image generation model construction unit 11 includes a human body information estimation unit 14, a loss calculation unit 15, and a parameter update unit 16 in the first embodiment.
  • the human body information estimation unit 14 uses the second sample image as an input image, and from the image generated by the image generation unit 13 (hereinafter also referred to as “interpolated image”), human body information for specifying the posture of the person in this image Is estimated.
  • the human body information estimation unit 14 can also estimate human body information that specifies the posture of a person in the first sample image.
  • human body information is information for specifying the posture of a person in an image, specifically, the skeleton information of the person's body.
  • the human body information includes information composed of the coordinates of each joint constituting the human body. Indirects used as human body information include the neck, shoulder joints, elbows, wrists, waist (base of legs), knees, ankles, etc. In this embodiment, at least three or more indirects are used. .
  • the human body information estimation unit 14 detects each indirect person from the image.
  • the indirects extracted in FIGS. 3 (a) and 3 (b) are shown as circles.
  • the human body information estimation unit 14 calculates the extracted indirect position as coordinates in the coordinate system set on the image plane, and creates human body information using the calculated values of each indirect coordinate.
  • 3A and 3B are diagrams showing the concept of human body information.
  • the human body information estimation unit 14 can set a vector connecting coordinates between adjacent indirects, and can also create human body information by each set vector. Further, when each indirect depth (depth) can be detected, the human body information estimation unit 14 calculates the coordinates in each indirect three-dimensional space, and uses the calculated coordinates in each indirect three-dimensional space. The human body information can also be created.
  • the human body information estimation unit 14 can extract each indirect angle from the image and create human body information using the extracted angle.
  • the human body information estimation unit 14 can also extract a silhouette image of a human body and use this silhouette image as human body information.
  • the loss calculating unit 15 calculates the loss in the second human body information as the human body loss with respect to the human body information specifying the posture of the person in the first sample image.
  • the loss calculation unit 15 can also calculate, as an image loss, a loss in the image generated by the image generation unit 13 using the second sample image as an input image with respect to the first sample image. In this case, the loss calculation unit 15 calculates the integrated loss by adding the image loss to the human body loss.
  • the loss calculation unit 15 decreases the value as the human body information h ′ estimated from the second sample image and the human body information h obtained from the first sample image are similar, and the two are different.
  • the human body loss L_body is calculated so as to increase as the value increases.
  • the loss calculation unit 15 can calculate the human body loss L_body by using a model obtained by performing machine learning using a lot of human body information as learning data.
  • the loss calculation part 15 can also calculate a loss for every part of a human body, and can also make the total of each obtained loss the human body loss L_body.
  • the loss calculation unit 15 has a smaller value as the image x ′ generated by the image generation unit 13 when the second sample image is used as the input image and the first sample image y are similar to each other.
  • the image loss L_diff is calculated in such a manner that the value becomes larger as the distances deviate from each other.
  • the loss calculation unit 15 can calculate the image loss L_diff by using a model obtained by performing machine learning using a large number of images as learning data. Further, the loss calculation unit 15 can calculate the image loss for each of a plurality of sets of the image x ′ and the image y, and the total sum of the obtained image losses can be L_diff.
  • the loss calculation unit 15 adds the human body loss L_body and the image loss L_diff to calculate the integrated loss Lg. Specifically, assuming that the coefficients are ⁇ _diff and ⁇ _body, the loss calculation unit 15 can calculate the integrated loss Lg using the following Equation 1. Further, “ ⁇ _reg ⁇ L_reg” may be given to the following equation 1 as a regularization term for stabilizing learning.
  • the parameter update unit 16 updates the image generation model 12 based on the loss calculated by the loss calculation unit 15. Further, when the loss calculating unit 15 calculates the integrated loss, the parameter updating unit 16 updates the image generation model 12 based on the integrated loss. Specifically, the CNN parameter group constituting the image generation model 12 is updated so that the integration loss is gradually reduced by repeated processing described later.
  • the parameter update unit 16 can update various parameters constituting the neural network by using, for example, an error back propagation method.
  • the image generation unit 13 generates an image using the second sample image as an input image
  • the human body information estimation unit 14 estimates the human body information
  • the loss calculation unit 15 calculates the loss
  • the parameter update by the parameter update unit 16 is repeatedly executed. By performing such repeated processing, the loss value is reduced, and the parameter value becomes an appropriate value.
  • FIGS. 1 to 3 will be referred to as appropriate.
  • the image processing method is performed by operating the image processing apparatus 10. Therefore, the description of the image processing method according to the first embodiment is replaced with the following description of the operation of the image processing apparatus 10.
  • FIG. 4 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 1 of the present invention.
  • the image generation model construction unit 11 sets initial values in the CNN parameter group to be the image generation model 12 and generates the image generation model 12 in the initial state (step A1). .
  • the image generation model construction unit 11 uses, as learning data, a first sample image including a person image and a second sample image in which a part of the person in the first sample image is missing. Obtain (step A2).
  • the image generation model construction unit 11 sends the second sample image acquired in step A2 to the image generation unit 13, and causes the image generation unit 13 to interpolate the missing part of the second sample image. Instruct. As a result, the image generation unit 13 performs interpolation on the second sample image using the image generation model 12 to generate a new image (step A3). Further, the image generation unit 13 sends the generated new image to the image generation model construction unit 11.
  • the human body information estimation unit 14 estimates the human body information for specifying the posture of the person in the image, targeting the new image generated in step A3 (step A4). ).
  • the human body information estimation unit 14 also estimates human body information that identifies the posture of the person in the first sample image when the human body information has not been estimated in advance for the first sample image acquired in step A2. .
  • the loss calculation unit 15 calculates an image loss using the first sample image and the second sample image acquired in step A2, and further, in each of the first sample image and the second sample image. Human body loss is also calculated using human body information (step A5).
  • the loss calculation unit 15 calculates the integrated loss by applying the image loss and the human body loss calculated in step A5 to the above equation 1 (step A6).
  • the parameter update unit 16 updates the image generation model 12 based on the integration loss calculated in Step A6 (Step A7). Specifically, the parameter updating unit 16 updates the parameter group of the CNN constituting the image generation model 12 so that the integration loss is gradually reduced by repeating A2 to A7 described later.
  • step A8 the image generation model construction unit 11 determines whether or not the end condition is satisfied (step A8). As a result of the determination in step A8, if the end condition is not satisfied, the image generation model construction unit 11 executes step A2 again. On the other hand, if the end condition is satisfied as a result of the determination in step A8, the image generation model construction unit 11 ends the process.
  • the termination condition in step A8 includes that the number of repetitions of steps A2 to A8 has reached a preset number, and that the reduction amount of the integrated loss calculated in step A6 has become smaller than a threshold value. .
  • step A6 the above equation 1 is used, but the values of the coefficients ⁇ _diff and ⁇ _body in the above equation 1 should start from 0 and be set larger as the number of repetitions increases. This is because the interpolation accuracy of the image generated in step A3 is low in the initial iteration.
  • the coefficients ⁇ _diff and ⁇ _body can be expressed using a monotonically increasing function such as a sigmoid function.
  • the first sample image and the second sample image acquired in step A2 may be singular or plural. In the latter case, each step is performed for each of a plurality of sheets.
  • the loss calculation unit 15 obtains the sum of the image loss calculated for each set of corresponding sample images, and sets the obtained value as the image loss.
  • the loss calculation unit 15 similarly obtains the sum of the human body loss, and uses the obtained value as the human body loss.
  • FIG. 5 (a) shows an example in which an image of a partially missing person is interpolated by a conventional method
  • FIG. 5 (b) is partially shown by the image processing apparatus according to the first embodiment of the present invention.
  • An example in which an image of a missing person is interpolated is shown.
  • 100 indicates an image of a person to be processed. A part of the body of the person 100 is shielded and missing by another person.
  • the human body information is not used in the construction of the image generation model in the conventional method, the posture of the person 101 after the interpolation becomes unnatural as shown in FIG.
  • the human body information is used in the construction of the image generation model 12, so that the posture of the person 102 after the interpolation as shown in FIG. Will be natural.
  • the image generation model 12 when an image of a partially missing person is interpolated, the image generation model 12 is constructed in consideration of the posture of the person. In addition, since the image generation model 12 is updated by machine learning using a learning image, the interpolation accuracy can be improved. As a result, if the image generation model constructed according to the first embodiment is used, the problem that the posture of the person after the interpolation becomes unnatural is solved, so that the performance of the monitoring system or the like is improved. .
  • the program in the first embodiment may be a program that causes a computer to execute steps A1 to A8 shown in FIG.
  • the image processing apparatus 10 and the image processing method according to the first embodiment can be realized.
  • the processor of the computer functions as the image generation model construction unit 11 and the image generation unit 13 and performs processing.
  • each computer may function as either the image generation model construction unit 11 or the image generation unit 13.
  • Embodiment 2 Next, an image processing apparatus, an image processing method, and a program according to Embodiment 2 of the present invention will be described with reference to FIGS.
  • FIG. 6 is a block diagram showing the configuration of the image processing apparatus according to Embodiment 2 of the present invention.
  • the image processing apparatus 20 includes a sample image creating unit 21 in addition to the configuration of the image processing apparatus 10 according to the first embodiment shown in FIG. Other than this, the image processing apparatus 20 is configured in the same manner as the image processing apparatus 10 in the first embodiment. Hereinafter, the difference from the first embodiment will be mainly described.
  • the sample image creation unit 21 has a function of creating a second sample image from the first sample image. Further, the sample image creation unit 21 sets the degree of human loss in the second sample image to be created based on the calculation result by the loss calculation unit 15.
  • the sample image creating unit 21 detects a part of the human body from the first sample image in which a part of the human body is not lost, and a part of the detected human body part is shielded. An image of the shielding object is added to the first sample image. Then, the image created by the sample image creation unit 21 is handled as the second sample image in creating and updating the image creation model.
  • FIG. 7 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 2 of the present invention. Also in the second embodiment, the image processing method is performed by operating the image processing apparatus 20. Therefore, the description of the image processing method in the second embodiment is replaced with the following description of the operation of the image processing apparatus 20.
  • the image generation model construction unit 11 sets an initial value in a CNN parameter group that becomes the image generation model 12 to generate the image generation model 12 (step A11).
  • Step A11 is the same as step A1 shown in FIG.
  • the sample image creation unit 21 acquires a first sample image including a person image as learning data (step A12).
  • the sample image creation unit 21 passes the acquired first sample image to the image generation model construction unit 11.
  • the sample image creating unit 21 creates a second sample image in which a part of the person in the first sample image is missing from the first sample image acquired in Step A12 (Step A13). .
  • step A13 if step A17 has already been executed, the sample image creation unit 21 sets the degree of human loss in the second sample image to be created based on the calculation result in step S17. . For example, the sample image creation unit 21 reduces the degree of loss as the loss increases.
  • Step A14 is the same as step A3 shown in FIG.
  • the human body information estimation unit 14 estimates the human body information for specifying the posture of the person in the image, targeting the new image generated in step A14 (step A15).
  • Step A15 is the same as step A4 shown in FIG.
  • the loss calculation unit 15 calculates an image loss using the first sample image acquired in Step A12 and the second sample image created in Step A13, and further, the first sample image and the first sample image Human body loss is also calculated using the human body information in each of the two sample images (step A16).
  • Step A16 is the same as step A5 shown in FIG.
  • Step A17 is the same as step A6 shown in FIG.
  • Step A18 is the same as step A7 shown in FIG.
  • Step A19 the image generation model construction unit 11 determines whether or not the end condition is satisfied. As a result of the determination in step A19, if the end condition is not satisfied, the image generation model construction unit 11 executes step A12 again. On the other hand, if the end condition is satisfied as a result of the determination in step A19, the image generation model construction unit 11 ends the process. Step A19 is the same as step A8 shown in FIG.
  • the program in the second embodiment may be a program that causes a computer to execute steps A11 to A19 shown in FIG.
  • the processor of the computer functions as the image generation model construction unit 11, the image generation unit 13, and the sample image creation unit 21, and performs processing.
  • each computer may function as any one of the image generation model construction unit 11, the image generation unit 13, and the sample image creation unit 21, respectively.
  • Embodiment 3 Next, an image processing apparatus, an image processing method, and a program according to Embodiment 3 of the present invention will be described with reference to FIGS.
  • FIG. 8 is a block diagram showing the configuration of the image processing apparatus according to Embodiment 3 of the present invention.
  • the image processing apparatus 30 according to the third embodiment includes a true / false determination unit 31 in addition to the configuration of the image processing apparatus 10 according to the first embodiment shown in FIG. For this reason, the function of the loss calculation unit 15 is also different from that of the first embodiment. Other than this, the image processing apparatus 30 is configured similarly to the image processing apparatus 10 in the first embodiment. Hereinafter, the difference from the first embodiment will be mainly described.
  • the authenticity determination unit 31 determines the degree of difference between the first sample image and the image (interpolated image) generated by the image generation unit 13 using the second sample image as an input image. Specifically, when the interpolated image x ′ and the first sample image y are input, the authenticity determination unit 31 uses the authenticity determination model constructed by machine learning to determine the degree of difference, specifically , True / false loss L_adv is calculated. When there are a plurality of sets of the first sample image and the interpolation image, the true / false determination unit 31 sets the total loss calculated for each set as the true / false loss L_adv.
  • the authenticity determination unit 31 includes a result of determining authenticity of the image A serving as learning data, and authenticity information indicating whether the image A is an interpolated image created by the image generation unit 13. Use it to build a true / false discrimination model.
  • the authenticity determination unit 31 can update the parameter group of the authenticity determination model based on the determination result of the first sample image and the interpolated image and the correct answer information for the determination. Specifically, the true / false determination unit 31 updates the parameter group so that the true / false loss L_adv becomes small.
  • the correct answer information is prepared in advance by an administrator or the like.
  • the true / false discrimination unit 31 can update various parameters constituting the neural network by using, for example, an error back propagation method.
  • the loss calculation unit 15 further causes the loss in the interpolated image obtained from the second sample image to the first sample image based on the determination result by the authenticity determination unit 31. Is calculated as a true / false loss. Further, in the third embodiment, the loss calculation unit 15 calculates the integrated loss by adding the true / false loss to the human body loss.
  • the loss calculation unit 15 can calculate the integrated loss Lg by adding the authenticity loss L_adv calculated by the authenticity determination unit 31 and the image loss L_diff. . Specifically, assuming that the coefficients are ⁇ _diff and ⁇ _adv, the loss calculation unit 15 can calculate the integrated loss Lg using the following Equation 2. Further, in order to stabilize learning, “ ⁇ _reg ⁇ L_reg” is given to the following formula 2 as a regularization term.
  • the parameter update unit 16 updates the parameters of the image generation model 12 based on the integration loss calculated by the above formula 2.
  • FIG. 9 is a flowchart showing an operation during the generation and update processing of the image generation model of the image processing apparatus according to Embodiment 3 of the present invention. Also in the third embodiment, the image processing method is performed by operating the image processing apparatus 30. Therefore, the description of the image processing method in the third embodiment is replaced with the following description of the operation of the image processing apparatus 30.
  • the image generation model construction unit 11 sets an initial value in a CNN parameter group that becomes the image generation model 12 and generates the image generation model 12 (step A21).
  • Step A21 is the same as step A1 shown in FIG.
  • the true / false discriminating unit 31 sets an initial value in the parameter group of the CNN that becomes the true / false discriminating model and generates a true / false discriminating model (step A22).
  • Step A23 is the same as step A2 shown in FIG.
  • the image generation model construction unit 11 sends the second sample image acquired in step A22 to the image generation unit 13, and causes the image generation unit 13 to interpolate the missing portion of the second sample image. Instruct. Thereby, the image generation unit 13 performs interpolation on the second sample image to generate a new image (step A24). Further, the image generation unit 13 sends the generated new image to the image generation model construction unit 11. Step A24 is the same as step A3 shown in FIG.
  • the human body information estimation unit 14 estimates the human body information for specifying the posture of the person in the image, targeting the new image generated in step A14 (step A25).
  • Step A25 is the same as step A4 shown in FIG.
  • the loss calculation unit 15 calculates human body loss using the human body information in each of the first sample image and the second sample image acquired in step A23 (step A26).
  • Step A26 is the same as step A5 shown in FIG.
  • the true / false determination unit 31 determines the degree of difference between the first sample image acquired in Step A23 and the interpolated image generated in Step A24, and calculates the true / false loss L_adv (Step S23). A27).
  • the loss calculation unit 15 calculates the integrated loss by applying the human body loss calculated in step A26 and the true / false loss calculated in step A27 to the above equation 2 (step A28).
  • Step A29 is the same as step A7 shown in FIG.
  • the authenticity determination unit 31 updates the parameter group of the authenticity determination model by using the correct answer information prepared in advance for the determination made in step A27 and the authenticity loss calculated in step A27. (Step A30).
  • step A31 determines whether or not the end condition is satisfied (step A31). As a result of the determination in step A31, if the end condition is not satisfied, the image generation model construction unit 11 executes step A23 again. On the other hand, if the end condition is satisfied as a result of the determination in step A31, the image generation model construction unit 11 ends the process.
  • Step A31 is the same as step A8 shown in FIG.
  • the parameters of the image generation model are updated based on the determination result of whether or not the interpolated image has been interpolated. For this reason, also in the third embodiment, the effect described in the first embodiment can be obtained.
  • the program in the third embodiment may be a program that causes a computer to execute steps A21 to A31 shown in FIG.
  • the processor of the computer functions as the image generation model construction unit 11, the image generation unit 13, and the authenticity determination unit 31, and performs processing.
  • each computer may function as any one of the image generation model construction unit 11, the image generation unit 13, and the authenticity determination unit 31.
  • FIG. 10 is a block diagram illustrating an example of a computer that implements the image processing apparatus according to the first to third embodiments of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the computer 110 may include a GPU (GraphicsGraphProcessing Unit) or an FPGA (Field-Programmable Gate Array) in addition to or instead of the CPU 111.
  • the CPU 111 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 includes a hard disk drive and a semiconductor storage device such as a flash memory.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic recording media such as a flexible disk, or CD- An optical recording medium such as ROM (Compact Disk Read Only Memory) may be used.
  • CF Compact Flash
  • SD Secure Digital
  • magnetic recording media such as a flexible disk
  • CD- An optical recording medium such as ROM (Compact Disk Read Only Memory) may be used.
  • the image processing apparatuses according to the first to third embodiments can be realized by using hardware corresponding to each unit, instead of a computer in which a program is installed. Further, part of the image processing apparatuses according to the first to third embodiments may be realized by a program, and the remaining part may be realized by hardware.
  • An image generation model construction unit for constructing an image generation model for generating an image in which a part of a person missing is interpolated using image data in which a part of the person is missing as an input image.
  • the image generation model construction unit includes a first sample image including an image of a person, a second sample image in which a part of the person in the first sample image is missing, and the first sample image Constructing the image generation model by machine learning using human body information that identifies the posture of the person inside, An image processing apparatus.
  • Appendix 2 An image processing apparatus according to appendix 1, wherein An image generation unit that applies the second sample image to the image generation model to generate an image in which a part of the person missing is interpolated;
  • the image generation model construction unit A human body information estimation unit that estimates second human body information that identifies the posture of a person in the image from the image generated by the image generation unit;
  • a loss calculation unit for calculating a loss in the second human body information as the human body loss with respect to the human body information specifying the posture of the person in the first sample image;
  • a parameter updating unit that updates the image generation model based on the calculated loss;
  • An image processing apparatus comprising:
  • Appendix 3 An image processing apparatus according to appendix 2, wherein The loss calculation unit Further, a loss in the image generated by the image generation unit with respect to the first sample image is calculated as an image loss, and Add the image loss to the human body loss to calculate the integrated loss, The parameter update unit updates the parameters of the image generation model based on the calculated integration loss; An image processing apparatus.
  • Appendix 4 An image processing apparatus according to appendix 2, wherein A true / false determination unit that determines the degree of difference between the first sample image and the image generated by the image generation unit; The loss calculation unit further calculates a loss in the image generated by the image generation unit with respect to the first sample image as a true / false loss based on the determination result by the authenticity determination unit, and Add the true / false loss to the human body loss to calculate the integrated loss, The parameter update unit updates the parameters of the image generation model based on the calculated integration loss; An image processing apparatus.
  • Appendix 5 An image processing apparatus according to any one of appendices 2 to 4, A sample image creating unit for creating the second sample image from the first sample image; The sample image creation unit sets a degree of human loss in the second sample image to be created based on a calculation result by the loss calculation unit. An image processing apparatus.
  • (Appendix 6) (A) constructing an image generation model for generating an image in which a part of the person missing is interpolated using image data in which part of the person is missing as an input image; , In the step (a), a first sample image including an image of a person, a second sample image in which a part of the person in the first sample image is missing, and the first sample image Constructing the image generation model by machine learning using human body information that identifies the posture of the person inside, An image processing method.
  • (Appendix 7) The image processing method according to appendix 6, wherein (B) applying the second sample image to the image generation model to generate an image in which a missing part of the person is interpolated;
  • the step (a) further comprises: (A1) Estimating second human body information that identifies the posture of a person in the image from the image generated by the step of (b), and (A2) calculating a loss in the second human body information as the human body loss with respect to the human body information specifying the posture of the person in the first sample image; (A3) updating the image generation model based on the calculated loss;
  • An image processing method characterized by comprising:
  • the image processing method according to appendix 7, further comprises: (A4) calculating a loss in the image generated by the step (b) for the first sample image as an image loss; and Adding the image loss to the human body loss to calculate an integrated loss, Updating the parameters of the image generation model based on the calculated integration loss in the step (a3); An image processing method.
  • the step (a) further comprises: (A4) Based on the result of the determination in the step (c), the loss in the image generated by the step (b) with respect to the first sample image is calculated as a true / false loss; and A step of calculating an integrated loss by adding the true / false loss to the human body loss, and updating a parameter of the image generation model based on the calculated integrated loss in the step of (a3).
  • Appendix 10 An image processing method according to any one of appendices 7 to 9, comprising: (D) creating the second sample image from the first sample image, and at this time, based on the calculation result in the step (a), Further comprising the step of setting the degree, An image processing method.
  • (Appendix 12) A computer-readable recording medium according to appendix 11, The program is stored in the computer. (B) applying the second sample image to the image generation model to generate an image in which a missing part of the person is interpolated; In the step (a), (A1) Estimating second human body information that identifies the posture of a person in the image from the image generated by the step of (b), and (A2) calculating a loss in the second human body information as the human body loss with respect to the human body information specifying the posture of the person in the first sample image; (A3) updating the image generation model based on the calculated loss;
  • the computer-readable recording medium characterized by including the instruction to perform.
  • step (A4) calculating a loss in the image generated by the step (b) for the first sample image as an image loss; and Adding the image loss to the human body loss to calculate an integrated loss, Updating the parameters of the image generation model based on the calculated integration loss in the step (a3); A computer-readable recording medium.
  • (Appendix 14) A computer-readable recording medium according to appendix 12, The program is stored in the computer.
  • (C) a command for further executing a step of determining a degree of difference between the first sample image and the image generated by the step of (b);
  • (A4) Based on the result of the determination in the step (c), the loss in the image generated by the step (b) with respect to the first sample image is calculated as a true / false loss; and An instruction for executing a step of calculating an integrated loss by adding the true / false loss to the human body loss, and Updating the parameters of the image generation model based on the calculated integration loss in the step (a3);
  • a computer-readable recording medium A computer-readable recording medium.
  • (Appendix 15) A computer-readable recording medium according to any one of appendices 12 to 14, The program is stored in the computer. (D) creating the second sample image from the first sample image, and at this time, based on the calculation result in the step (a), Including instructions to set the degree, further execute the step, A computer-readable recording medium.
  • the present invention it is possible to construct a model for performing interpolation on an image of a partially missing person in consideration of the posture of the person.
  • the present invention is useful for various systems that require removal of concealment of persons in video, for example, surveillance systems.
  • Image processing apparatus (Embodiment 1) DESCRIPTION OF SYMBOLS 11 Image generation model construction part 12 Image generation model 13 Image generation part 14 Human body information estimation part 15 Loss calculation part 16 Parameter update part 20 Image processing apparatus (Embodiment 2) 21 Sample Image Creation Unit 30 Image Processing Device (Embodiment 3) 31 Authenticity discrimination unit 110 Computer 111 CPU 112 Main Memory 113 Storage Device 114 Input Interface 115 Display Controller 116 Data Reader / Writer 117 Communication Interface 118 Input Device 119 Display Device 120 Recording Medium 121 Bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置10は、人物の一部が欠損している画像データを入力画像として、人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、画像生成モデル構築部11を備えている。画像生成モデル構築部11は、人物の画像を含む第1のサンプル画像と、第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、画像生成モデルを構築する。

Description

画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
 本発明は、画像上の欠損部分の補間を行うための、画像処理装置、及び画像処理方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 近年、カメラ及び計算機の性能の向上により、カメラで撮影された映像から特定の人物を検出し、検出した人物に対して、個人の特定、及び行動の分析等を行う技術が開発されている。また、このような技術は、例えば、監視システムにおける不審者の検出に用いられている。
 ところで、検出対象となる人物とカメラとの間に物体があると、この物体により、検出対象となる人物が遮蔽されてしまい、映像上、人物の一部又は全部が欠損した状態となる。また、遮蔽する物体としては、霧、ガラスといった透過性の物体も含まれる。この場合、人物の一部又は全部は、遮蔽されるわけではないが、映像において不明瞭となるので、この場合も人物の一部又は全部が欠損した状態となる。
 また、物体によって遮蔽された場合だけでなく、検出対象となる人物に、日光等の強い光があたった場合も、映像上、人物の光が当たった部分が真白となり、この部分が欠損した状態となる。一方、逆に、検出対象となる人物以外の部分が明るく、人物の一部の露出が過剰に低くなることがある。この場合、映像上、露出が過剰に低くなった部分は真黒くになり、欠損した状態となる。
 そして、人物の一部が欠損した状態では、上述した個人の特定、及び行動の分析等において、精度が大きく低下してしまう。このため、画像の欠損部分を補間する技術が提案されている(例えば、非特許文献1及び2参照)。
 具体的には、非特許文献1は、画像の欠損部分に、欠損していない部分のテクスチャを組み込むと共に、両部分の境界領域のテクスチャが不連続にならないように、画像を補間する技術を開示している。また、非特許文献1に開示された技術では、テクスチャの連続性がエネルギー関数として表現され、このエネルギー関数が最大化するように最適化を行うことによって、適切な補間が実現されている。
 また、非特許文献2は、機械学習を利用して、画像の欠損部分を補間する技術を開示している。非特許文献2に開示された技術では、予め、損失が存在する入力画像と、損失がない目標画像とのペア画像が多数用意され、学習モデルに入力画像を適用した場合に、目標画像が出力されるように、機械学習が行われて、学習モデルが構築される。
C.Guillemot, et.al, "Image Inpainting  Overview and Recent Advances", IEEEJournals and Magazine, 2014 P. Isola, et.al.,"Image-to-Image Translationith Conditional Adversarial Networks", 2017 IEEE ConferenceVision and Pattern Recognition, 2017
 しかしながら、上記非特許文献1に開示された技術では、局所領域が連続するように補間が行われるに過ぎず、欠損している部分の領域が大きくなるほど、欠損部分を正確に補間することが困難となる。
 これに対して、上記非特許文献2に開示された技術では、欠損部分について学習が行われるので、欠損部分の領域が大きくなっても、欠損部分を補間することができる。しかしながら、上記非特許文献2に開示された技術では、入力画像が目標画像となるように機械学習が行われているに過ぎず、補間対象となる人物の姿勢について何ら考慮はされていない。このため、上記非特許文献2に開示された技術においては、欠損部分の補間後において、人物の姿勢が不自然なものとなる場合がある。この場合、人物の行動の分析において、精度が大きく低下する可能性がある。
 本発明の目的の一例は、上記問題を解消し、一部が欠損している人物の画像をその人物の姿勢を考慮して補間を行うためのモデルを構築し得る、画像処理装置、画像処理方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面における画像処理装置は、
 人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、画像生成モデル構築部を備え、
 前記画像生成モデル構築部は、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とする。
 また、上記目的を達成するため、本発明の一側面における画像処理方法は、
(a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを有し、
 前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
(a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを実行させる命令を含む、プログラムを記録し、
 前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とする。
 以上のように、本発明によれば、一部が欠損している人物の画像をその人物の姿勢を考慮して補間を行うためのモデルを構築することができる。
図1は、本発明の実施の形態1における画像処理装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1における画像処理装置の構成をより具体的に示すブロック図である。 図3(a)及び(b)は、それぞれ、人体情報の概念を示す図である。 図4は、本発明の実施の形態1における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。 図5(a)は、従来の手法によって一部が欠損している人物の画像を補間した例を示し、図5(b)は、本発明の実施の形態1における画像処理装置によって一部が欠損している人物の画像を補間した例を示している。 図6は、本発明の実施の形態2における画像処理装置の構成を示すブロック図である。 図7は、本発明の実施の形態2における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。 図8は、本発明の実施の形態3における画像処理装置の構成を示すブロック図である。 図9は、本発明の実施の形態3における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。 図10は、本発明の実施の形態1~3における画像処理装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
 以下、本発明の実施の形態1における、画像処理装置、画像処理方法、及びプログラムについて、図1~図5を参照しながら説明する。
[装置構成]
 最初に、図1を用いて、本実施の形態1における画像処理装置の概略構成について説明する。図1は、本発明の実施の形態1における画像処理装置の概略構成を示すブロック図である。
 図1に示す、本実施の形態1における画像処理装置10は、画像に写っている人物の一部が欠損している場合に、画像処理によって、欠損している部分を補間するための、モデルを構築する装置である。図1に示すように、画像処理装置10は、画像生成モデル構築部11を備えている。
 画像生成モデル構築部11は、人物の画像を含む第1のサンプル画像と、第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いて機械学習を実行する。画像生成モデル構築部11は、この機械学習によって、画像生成モデル12の作成及び更新を行う。
 このように、本実施の形態1では、人物の一部が欠損していない画像と、人物の一部が欠損している画像とに加えて、画像中の人物の人体情報を用いて、機械学習が行われて、画像生成モデルが構築されている。つまり、本実施の形態1によれば、一部が欠損している人物の画像をその人物の姿勢を考慮して補間を行うためのモデルが構築される。そして、この結果、本実施の形態1で構築された画像生成モデルを用いれば、人物の一部が欠損している画像を補間した際に、人物の姿勢を考慮した補間が行われ、補間後の人物の姿勢が不自然なることが解消される。
 続いて、図2~図3を用いて、本実施の形態1における画像処理装置10の構成についてより具体的に説明する。図2は、本発明の実施の形態1における画像処理装置の構成をより具体的に示すブロック図である。
 図2に示すように、本実施の形態1では、画像処理装置10は、上述した画像生成モデル構築部11に加えて、画像生成部13を備えている。画像生成部13は、第2のサンプル画像を画像生成モデル12に適用して、人物の欠損している一部が補間された画像を生成する。
 画像生成モデル12としては、本実施形態1では、例えば、CNN(Convolutional Neural Network)が挙げられる。この場合、画像生成モデル12は、機械学習によって設定された多数のパラメータ群で構成される。これらのパラメータは、CNNにおける重み及びネットワーク構造を決定する。
 また、CNNは、ニューラルネットワークの一種であり、ニューロンとも呼ばれるユニットが集まった層を、複数の層状に組み合わせることによって得られている。パラメータとしては、ユニット同士の結合度合いを表現する重みパラメータがある。更に、CNNは、複数あるネットワークの中間層に、Convolution(畳み込み)演算を行う中間層が含まれている点を特徴としている。
 また、このように画像を入力とし、画像を出力とする場合のネットワーク構造は、入力層と出力層とが広く(ニューラルネットワークのユニット数が多い)、中間層が狭い(ユニット数が少ない)、という特性を有している。このため、本実施の形態1では、CNNとしては、砂時計型が利用される。
 なお、本実施の形態1においては、画像生成モデルとしては、上述したCNN以外のニューラルネットワークが用いられても良いし、別の機械学習によって構築された機械学習モデルが用いられても良い。
 また、画像生成モデル構築部11は、図2に示すように、本実施の形態1では、人体情報推定部14と、損失算出部15と、パラメータ更新部16とを備えている。
 人体情報推定部14は、第2のサンプル画像を入力画像として、画像生成部13によって生成された画像(以下「補間画像」とも表記する)から、この画像中の人物の姿勢を特定する人体情報を推定する。また、人体情報推定部14は、第1のサンプル画像中の人物の姿勢を特定する人体情報を推定することもできる。
 本実施の形態1において、「人体情報」は、画像中の人物の姿勢を特定する情報、具体的には、その人物の体のスケルトン(骨格)情報である。具体的には、人体情報としては、人体を構成する各関節の座標で構成された情報が挙げられる。また、人体情報として用いられる間接としては、首、肩関節、肘、手首、腰(脚の付け根)、膝、足首等が挙げられる、本実施の形態では、少なくとも3つの以上の間接が用いられる。
 具体的には、図3(a)及び(b)に示すように、人体情報推定部14は、画像から、人物の各間接を検出する。図3(a)及び(b)において抽出された間接は円形で示されている。そして、人体情報推定部14は、抽出した間接の位置を、画像平面に設定された座標系の座標として算出し、算出した各間接の座標の値を用いて、人体情報を作成する。図3(a)及び(b)は、それぞれ、人体情報の概念を示す図である。
 また、人体情報推定部14は、本実施の形態1では、隣接する間接間の座標を結ぶベクトルを設定し、設定した各ベクトルによって人体情報を作成することもできる。更に、各間接の奥行(深度)を検出できる場合は、人体情報推定部14は、各間接の3次元空間での座標を算出し、算出した各間接の3次元空間での座標の値を用いて、人体情報を作成することもできる。
 更に、人体情報推定部14は、画像から、各間接の角度を抽出し、抽出した角度を用いて、人体情報を作成することもできる。また、人体情報推定部14は、人体のシルエット画像を抽出し、このシルエット画像を人体情報とすることもできる。
 損失算出部15は、第1のサンプル画像中の人物の姿勢を特定する人体情報に対する、第2の人体情報における損失を、人体損失として算出する。また、損失算出部15は、第1のサンプル画像に対する、第2のサンプル画像を入力画像として画像生成部13によって生成された画像における損失を、画像損失として算出することもできる。この場合、損失算出部15は、人体損失に、画像損失を加算して、統合損失を算出する。
 例えば、損失算出部15は、第2のサンプル画像から推定された人体情報h’と、第1のサンプル画像から得られた人体情報hとが、類似する程、値が小さくなり、両者が乖離する程、値が大きくなるようにして、人体損失L_bodyを算出する。具体的には、多数の人体情報を学習データとして機械学習を行うことによって得られたモデルを使うことで、損失算出部15は、人体損失L_bodyを算出することができる。また、損失算出部15は、人体の部分毎に損失を算出し、得られた各損失の総和を、人体損失L_bodyとすることもできる。
 また、損失算出部15は、第2のサンプル画像を入力画像としたときに画像生成部13が生成した画像x’と、第1のサンプル画像yとが、類似する程、値が小さく、両者が乖離する程、値が大きくなるようにして、画像損失L_diffを算出する。具体的には、多数の画像を学習データとして機械学習を行うことによって得られたモデルを使うことで、損失算出部15は、画像損失L_diffを算出することができる。また、損失算出部15は、画像x’と画像yとの複数の組それぞれについて、画像損失を算出し、得られた画像損失の総和を、L_diffとすることもできる。
 更に、損失算出部15は、人体損失L_bodyと、画像損失L_diffとを加算して、統合損失Lgを算出する。具体的には、係数をλ_diff及びλ_bodyとすると、損失算出部15は、下記の数1を用いて、統合損失Lgを算出することができる。また、学習を安定させるための正則化項として、下記数1に対して、「λ_reg×L_reg」が付与されていても良い。
(数1)
 統合損失L_g=λ_diff×L_diff+λ_body×L_body
 パラメータ更新部16は、損失算出部15が算出した損失に基づいて、画像生成モデル12を更新する。また、パラメータ更新部16は、損失算出部15が統合損失を算出している場合は、統合損失に基づいて、画像生成モデル12を更新する。具体的には、後述する繰り返しの処理によって、統合損失が段々と小さくなるように、画像生成モデル12を構成するCNNのパラメータ群を更新する。
 具体的には、画像生成モデル12がニューラルネットワークである場合は、パラメータ更新部16は、例えば、誤差逆伝播法を利用することによって、ニューラルネットワークを構成する各種パラメータを更新することができる。
 また、本実施の形態1においては、画像生成部13による、第2のサンプル画像を入力画像とした画像の生成、人体情報推定部14による人体情報の推定、損失算出部15による損失の算出、パラメータ更新部16によるパラメータの更新は、繰り返し実行される。このような繰り返しの処理が行われることにより、損失の値が低減され、パラメータの値が適切な値となる。
[装置動作]
 次に、本実施の形態1における画像処理装置10の動作について図4~図6を用いて説明する。以下の説明においては、適宜図1~図3を参照する。また、本実施の形態1では、画像処理装置10を動作させることによって、画像処理方法が実施される。よって、本実施の形態1における画像処理方法の説明は、以下の画像処理装置10の動作説明に代える。
 まず、画像生成モデルの生成及び更新処理について説明する。図4は、本発明の実施の形態1における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。
 図4に示すように、最初に、画像生成モデル構築部11は、画像生成モデル12となるCNNのパラメータ群に初期値を設定して、初期状態の画像生成モデル12を生成する(ステップA1)。
 次に、画像生成モデル構築部11は、学習データとして、人物の画像を含む第1のサンプル画像と、第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像とを取得する(ステップA2)。
 次に、画像生成モデル構築部11は、ステップA2で取得した第2のサンプル画像を、画像生成部13に送り、画像生成部13に、第2のサンプル画像の欠損している部分の補間を指示する。これにより、画像生成部13は、画像生成モデル12を用いて、第2のサンプル画像に補間を行い、新たな画像を生成する(ステップA3)。また、画像生成部13は、生成した新たな画像を画像生成モデル構築部11に送る。
 次に、画像生成モデル構築部11において、人体情報推定部14は、ステップA3で生成された新たな画像を対象にして、この画像中の人物の姿勢を特定する人体情報を推定する(ステップA4)。また、人体情報推定部14は、ステップA2で取得された第1のサンプル画像について予め人体情報が推定されていない場合は、第1のサンプル画像中の人物の姿勢を特定する人体情報も推定する。
 次に、損失算出部15は、ステップA2で取得した第1のサンプル画像及び第2のサンプル画像を用いて、画像損失を算出し、更に、第1のサンプル画像及び第2のサンプル画像それぞれにおける人体情報を用いて、人体損失も算出する(ステップA5)。
 次に、損失算出部15は、ステップA5で算出した画像損失と人体損失とを、上記数1に適用して、統合損失を算出する(ステップA6)。
 次に、パラメータ更新部16は、ステップA6で算出された統合損失に基づいて、画像生成モデル12を更新する(ステップA7)。具体的には、パラメータ更新部16は、後述するA2~A7の繰り返しによって、統合損失が段々と小さくなるように、画像生成モデル12を構成するCNNのパラメータ群を更新する。
 次に、画像生成モデル構築部11は、ステップA7が実行されると、終了条件が満たされているかどうかを判定する(ステップA8)。ステップA8の判定の結果、終了条件が満たされていない場合は、画像生成モデル構築部11は、再度ステップA2を実行する。一方、ステップA8の判定の結果、終了条件が満たされている場合は、画像生成モデル構築部11は、処理を終了する。
 ステップA8における終了条件としては、ステップA2~A8の繰り返し回数が、予め設定された回数に到達したこと、ステップA6で算出される統合損失の減少幅が閾値より小さくなったこと、等が挙げられる。
 また、上述したように、ステップA6では、上記数1が用いられるが、上記数1における係数λ_diff及びλ_bodyの値は、0から開始し、繰り返し回数が増加するにつれて大きく設定されるのが良い。これは、繰り返しが初期の段階では、ステップA3で生成される画像の補間精度が低いためである。また、係数λ_diff及びλ_bodyは、sigmoid関数等の単調増加関数を使って表すことができる。
 また、ステップA2において取得される第1のサンプル画像及び第2のサンプル画像は、それぞれ単数であっても良いし、複数枚であっても良い。後者の場合は、各ステップは、複数枚毎に行われる。この場合、ステップA5では、損失算出部15は、対応するサンプル画像の組毎に算出した画像損失の総和を求め、得られた値を画像損失とする。損失算出部15は、人体損失についても同様に総和を求め、得られた値を人体損失とする。
[実施の形態1による効果]
 ここで、図5を用いて、本実施の形態1における効果について説明する。図5(a)は、従来の手法によって一部が欠損している人物の画像を補間した例を示し、図5(b)は、本発明の実施の形態1における画像処理装置によって一部が欠損している人物の画像を補間した例を示している。
 図5(a)及び(b)において、100は、処理対象となる人物の画像を示している。人物100の体の一部は別の人物によって遮蔽され、欠損している。この場合において、従来の手法では、画像生成モデルの構築において人体情報は用いられないので、図5(a)に示すように、補間後の人物101の姿勢は不自然なものとなる。これに対して、本実施の形態1における画像処理装置10によれば、画像生成モデル12の構築において人体情報が用いられるので、図5(b)に示すように、補間後の人物102の姿勢は自然なものとなる。
 以上のように本実施の形態1では、一部が欠損している人物の画像を補間するに際して、人物の姿勢を考慮して画像生成モデル12が構築される。また、画像生成モデル12は、学習用の画像による機械学習によって更新されるので、補間精度の向上が図られる。この結果、本実施の形態1によって構築された画像生成モデルを用いれば、補間後の人物の姿勢が不自然になるという問題が解消されるので、監視システム等の性能向上が図られることになる。
[プログラム]
 本実施の形態1におけるプログラムは、コンピュータに、図4に示すステップA1~A8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1における画像処理装置10と画像処理方法とを実現することができる。この場合、コンピュータのプロセッサは、画像生成モデル構築部11、及び画像生成部13として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、画像生成モデル構築部11、及び画像生成部13のいずれかとして機能しても良い。
(実施の形態2)
 次に、本発明の実施の形態2における、画像処理装置、画像処理方法、及びプログラムについて、図6及び図7を参照しながら説明する。
[装置構成]
 最初に、図6を用いて、本実施の形態2における画像処理装置の構成について説明する。図6は、本発明の実施の形態2における画像処理装置の構成を示すブロック図である。
 図6に示すように、本実施の形態2における画像処理装置20は、図2に示した実施の形態1における画像処理装置10の構成に加えて、サンプル画像作成部21を備えている。これ以外については、画像処理装置20は、実施の形態1における画像処理装置10と同様に構成されている。以下、実施の形態1との相違点を中心に説明する。
 まず、サンプル画像作成部21は、第1のサンプル画像から、第2のサンプル画像を作成する機能を備えている。また、サンプル画像作成部21は、損失算出部15による算出結果に基づいて、作成する第2のサンプル画像における人物の欠損の程度を設定する。
 具体的には、サンプル画像作成部21は、人体の一部が欠損していない第1のサンプル画像から、人体の部分を検出し、検出した人体の部分の一部が遮蔽されるように、第1のサンプル画像に遮蔽物の画像を付加する。そして、サンプル画像作成部21によって作成された画像は、画像作成モデルの作成及び更新において、第2のサンプル画像として扱われる。
[装置動作]
 次に、本実施の形態2における画像処理装置20の動作について図7を用いて説明する。以下の説明においては、適宜図6を参照する。図7は、本発明の実施の形態2における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。また、本実施の形態2でも、画像処理装置20を動作させることによって、画像処理方法が実施される。よって、本実施の形態2における画像処理方法の説明は、以下の画像処理装置20の動作説明に代える。
 図7に示すように、最初に、画像生成モデル構築部11は、画像生成モデル12となるCNNのパラメータ群に初期値を設定して、画像生成モデル12を生成する(ステップA11)。ステップA11は、図4に示したステップA1と同様のステップである。
 次に、サンプル画像作成部21は、学習データとして、人物の画像を含む第1のサンプル画像を取得する(ステップA12)。また、サンプル画像作成部21は、取得した第1のサンプル画像を画像生成モデル構築部11に渡す。
 次に、サンプル画像作成部21は、ステップA12で取得した第1のサンプル画像から、第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像を作成する(ステップA13)。
 また、ステップA13では、ステップA17が既に実行されている場合は、サンプル画像作成部21は、ステップS17での算出結果に基づいて、作成する第2のサンプル画像における人物の欠損の程度を設定する。例えば、サンプル画像作成部21は、損失が大きい程、欠損の程度を小さくする。
 次に、画像生成モデル構築部11は、ステップA13で作成した第2のサンプル画像を、画像生成部13に送り、画像生成部13に、第2のサンプル画像の欠損している部分の補間を指示する。これにより、画像生成部13は、第2のサンプル画像に補間を行い、新たな画像を生成する(ステップA14)。ステップA14は、図4に示したステップA3と同様のステップである。
 次に、画像生成モデル構築部11において、人体情報推定部14は、ステップA14で生成された新たな画像を対象にして、この画像中の人物の姿勢を特定する人体情報を推定する(ステップA15)。ステップA15は、図4に示したステップA4と同様のステップである。
 次に、損失算出部15は、ステップA12で取得した第1のサンプル画像、及びステップA13で作成した第2のサンプル画像を用いて、画像損失を算出し、更に、第1のサンプル画像及び第2のサンプル画像それぞれにおける人体情報を用いて、人体損失も算出する(ステップA16)。ステップA16は、図4に示したステップA5と同様のステップである。
 次に、損失算出部15は、ステップA16で算出した画像損失と人体損失とを、上記数1に適用して、統合損失を算出する(ステップA17)。ステップA17は、図4に示したステップA6と同様のステップである。
 次に、パラメータ更新部16は、ステップA17で算出された統合損失に基づいて、画像生成モデル12を更新する(ステップA18)。ステップA18は、図4に示したステップA7と同様のステップである。
 次に、画像生成モデル構築部11は、ステップA18が実行されると、終了条件が満たされているかどうかを判定する(ステップA19)。ステップA19の判定の結果、終了条件が満たされていない場合は、画像生成モデル構築部11は、再度ステップA12を実行する。一方、ステップA19の判定の結果、終了条件が満たされている場合は、画像生成モデル構築部11は、処理を終了する。ステップA19は、図4に示したステップA8と同様のステップである。
[実施の形態2による効果]
 このように、本実施の形態2によれば、画像中の人物の一部が欠損している画像を、サンプル画像として用意する必要がないため、実施の形態1に比べて、画像生成モデル12の構築が容易となり、これらにかかるコストを低減できる。また、本実施の形態2においても、実施の形態1で述べた効果を得ることができる。
[プログラム]
 本実施の形態2におけるプログラムは、コンピュータに、図7に示すステップA11~A19を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における画像処理装置20と画像処理方法とを実現することができる。この場合、コンピュータのプロセッサは、画像生成モデル構築部11、画像生成部13、及びサンプル画像作成部21として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、画像生成モデル構築部11、画像生成部13、及びサンプル画像作成部21のいずれかとして機能しても良い。
(実施の形態3)
 次に、本発明の実施の形3における、画像処理装置、画像処理方法、及びプログラムについて、図8及び図9を参照しながら説明する。
[装置構成]
 最初に、図8を用いて、本実施の形態3における画像処理装置の構成について説明する。図8は、本発明の実施の形態3における画像処理装置の構成を示すブロック図である。
 図8に示すように、本実施の形態3における画像処理装置30は、図2に示した実施の形態1における画像処理装置10の構成に加えて、真偽判別部31を備えている。また、このため、損失算出部15における機能も、実施の形態1と異なっている。これ以外については、画像処理装置30は、実施の形態1における画像処理装置10と同様に構成されている。以下、実施の形態1との相違点を中心に説明する。
 真偽判別部31は、第1のサンプル画像と、第2のサンプル画像を入力画像として画像生成部13によって生成された画像(補間画像)との、相違の程度を判別する。具体的には、真偽判別部31は、補間画像x’と第1のサンプル画像yとが入力されると、機械学習によって構築された真偽判別モデルを用いて、相違の程度、具体的には、真偽損失L_advを算出する。また、第1のサンプル画像と補間画像との組が複数ある場合は、真偽判別部31は、組毎に算出した損失の総和を、真偽損失L_advとする。
 真偽判別モデルとしては、例えば、画像生成モデル12と同様に、CNNが挙げられる。具体的には、真偽判別部31は、学習データとなる画像Aを真偽判別した結果と、画像Aが画像生成部13によって作成された補間画像であるかどうかを示す真偽情報とを用いて、真偽判別モデルを構築する。
 また、真偽判別部31は、第1のサンプル画像と補間画像との判別の結果と、判別に対する正解情報に基づいて、真偽判別モデルのパラメータ群を更新することができる。具体的には、真偽判別部31は、真偽損失L_advが小さくなるように、パラメータ群を更新する。また、正解情報は、予め管理者等によって用意される。
 また、真偽判別モデルがニューラルネットワークである場合は、真偽判別部31は、例えば、誤差逆伝播法を利用することによって、ニューラルネットワークを構成する各種パラメータを更新することもできる。
 また、本実施の形態3では、損失算出部15は、更に、真偽判別部31による判別の結果に基づいて、第1のサンプル画像に対する、第2のサンプル画像から得られた補間画像における損失を真偽損失として算出する。また、損失算出部15は、本実施の形態3では、人体損失に、真偽損失を加算して、統合損失を算出する。
 具体的には、本実施の形態では、損失算出部15は、真偽判別部31によって算出された真偽損失L_advと、画像損失L_diffとを加算して、統合損失Lgを算出することができる。具体的には、係数をλ_diff及びλ_advとすると、損失算出部15は、下記の数2を用いて、統合損失Lgを算出することができる。また、学習を安定させるため下記数2には、正則化項として、「λ_reg×L_reg」が付与されている。
(数2)
 統合損失L_g=λ_diff×L_diff-λ_adv×L_adv
        +λ_body×L_body+λ_reg×L_reg
 パラメータ更新部16は、本実施の形態3では、上記数2によって算出された統合損失に基づいて、画像生成モデル12のパラメータを更新する。
[装置動作]
 次に、本実施の形態3における画像処理装置30の動作について図9を用いて説明する。以下の説明においては、適宜図8を参照する。図9は、本発明の実施の形態3における画像処理装置の画像生成モデルの生成及び更新処理時の動作を示すフロー図である。また、本実施の形態3でも、画像処理装置30を動作させることによって、画像処理方法が実施される。よって、本実施の形態3における画像処理方法の説明は、以下の画像処理装置30の動作説明に代える。
 図10に示すように、最初に、画像生成モデル構築部11は、画像生成モデル12となるCNNのパラメータ群に初期値を設定して、画像生成モデル12を生成する(ステップA21)。ステップA21は、図4に示したステップA1と同様のステップである。
 次に、真偽判別部31は、真偽判別モデルとなるCNNのパラメータ群に初期値を設定して、真偽判別モデルを生成する(ステップA22)。
 次に、画像生成モデル構築部11は、人物の画像を含む第1のサンプル画像と、第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像とを取得する(ステップA23)。ステップA23は、図4に示したステップA2と同様のステップである。
 次に、画像生成モデル構築部11は、ステップA22で取得した第2のサンプル画像を、画像生成部13に送り、画像生成部13に、第2のサンプル画像の欠損している部分の補間を指示する。これにより、画像生成部13は、第2のサンプル画像に補間を行い、新たな画像を生成する(ステップA24)。また、画像生成部13は、生成した新たな画像を画像生成モデル構築部11に送る。ステップA24は、図4に示したステップA3と同様のステップである。
 次に、画像生成モデル構築部11において、人体情報推定部14は、ステップA14で生成された新たな画像を対象にして、この画像中の人物の姿勢を特定する人体情報を推定する(ステップA25)。ステップA25は、図4に示したステップA4と同様のステップである。
 次に、損失算出部15は、ステップA23で取得した第1のサンプル画像及び第2のサンプル画像それぞれにおける人体情報を用いて、人体損失を算出する(ステップA26)。ステップA26は、図4に示したステップA5と同様のステップである。
 次に、真偽判別部31は、ステップA23で取得した第1のサンプル画像と、ステップA24で生成された補間画像との、相違の程度を判別して、真偽損失L_advを算出する(ステップA27)。
 次に、損失算出部15は、ステップA26で算出された人体損失と、ステップA27で算出された真偽損失とを、上記数2に適用して、統合損失を算出する(ステップA28)。
 次に、パラメータ更新部16は、ステップA28で算出された統合損失に基づいて、画像生成モデル12を更新する(ステップA29)。ステップA29は、図4に示したステップA7と同様のステップである。
 次に、真偽判別部31は、ステップA27で行った判別に対して予め用意されている正解情報と、ステップA27で算出した真偽損失とを用いて、真偽判別モデルのパラメータ群を更新する(ステップA30)。
 次に、画像生成モデル構築部11は、ステップA30が実行されると、終了条件が満たされているかどうかを判定する(ステップA31)。ステップA31の判定の結果、終了条件が満たされていない場合は、画像生成モデル構築部11は、再度ステップA23を実行する。一方、ステップA31の判定の結果、終了条件が満たされている場合は、画像生成モデル構築部11は、処理を終了する。ステップA31は、図4に示したステップA8と同様のステップである。
[実施の形態3による効果]
 このように、本実施の形態3によれば、補間画像が補間されたものかどうかの判定結果に基づいて、画像生成モデルのパラメータが更新される。このため、本実施の形態3においても、実施の形態1で述べた効果を得ることができる。
[プログラム]
 本実施の形態3におけるプログラムは、コンピュータに、図9に示すステップA21~A31を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3における画像処理装置30と画像処理方法とを実現することができる。この場合、コンピュータのプロセッサは、画像生成モデル構築部11、画像生成部13、及び真偽判別部31として機能し、処理を行なう。
 また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、画像生成モデル構築部11、画像生成部13、及び真偽判別部31のいずれかとして機能しても良い。
(物理構成)
 ここで、実施の形態1~3におけるプログラムを実行することによって、画像処理装置を実現するコンピュータについて図10を用いて説明する。図10は、本発明の実施の形態1~3における画像処理装置を実現するコンピュータの一例を示すブロック図である。
 図10に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact DiskRead Only Memory)などの光学記録媒体が挙げられる。
 なお、実施の形態1~3における画像処理装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、実施の形態1~3における画像処理装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、画像生成モデル構築部を備え、
 前記画像生成モデル構築部は、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とする画像処理装置。
(付記2)
付記1に記載の画像処理装置であって、
 前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、画像生成部を更に備え、
 前記画像生成モデル構築部が、
 前記画像生成部によって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、人体情報推定部と、
 前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、損失算出部と、
 算出された前記損失に基づいて、前記画像生成モデルを更新する、パラメータ更新部と、
を備えている、ことを特徴とする画像処理装置。
(付記3)
付記2に記載の画像処理装置であって、
 前記損失算出部が、
更に、前記第1のサンプル画像に対する、前記画像生成部によって生成された画像における損失を、画像損失として算出し、そして、
前記人体損失に、前記画像損失を加算して、統合損失を算出し、
 前記パラメータ更新部が、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とする画像処理装置。
(付記4)
付記2に記載の画像処理装置であって、
 前記第1のサンプル画像と、前記画像生成部によって生成された画像との、相違の程度を判別する、真偽判別部を更に備え、
 前記損失算出部は、更に、前記真偽判別部による判別の結果に基づいて、前記第1のサンプル画像に対する、前記画像生成部によって生成された画像における損失を真偽損失として算出し、そして、
前記人体損失に、前記真偽損失を加算して、統合損失を算出し、
 前記パラメータ更新部が、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とする画像処理装置。
(付記5)
付記2~4のいずれかに記載の画像処理装置であって、
 前記第1のサンプル画像から、前記第2のサンプル画像を作成する、サンプル画像作成部を更に備え、
 前記サンプル画像作成部は、前記損失算出部による算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、
ことを特徴とする画像処理装置。
(付記6)
(a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを有し、
 前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とする画像処理方法。
(付記7)
付記6に記載の画像処理方法であって、
(b)前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、ステップを更に有し、
 前記(a)のステップが、更に、
(a1)前記(b)のステップによって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、ステップと、
(a2)前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、ステップと、
(a3)算出された前記損失に基づいて、前記画像生成モデルを更新する、ステップと、
を有する、ことを特徴とする画像処理方法。
(付記8)
付記7に記載の画像処理方法であって、
 前記(a)のステップが、更に、
(a4)前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を、画像損失として算出し、そして、
前記人体損失に、前記画像損失を加算して、統合損失を算出する、ステップを有し、
 前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とする画像処理方法。
(付記9)
付記7に記載の画像処理方法であって、
(c)前記第1のサンプル画像と、前記(b)のステップによって生成された画像との、相違の程度を判別する、ステップを更に有し、
 前記(a)のステップが、更に、
(a4)前記(c)のステップによる判別の結果に基づいて、前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を真偽損失として算出し、そして、
前記人体損失に、前記真偽損失を加算して、統合損失を算出する、ステップを有し
 前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とする画像処理方法。
(付記10)
付記7~9のいずれかに記載の画像処理方法であって、
(d)前記第1のサンプル画像から、前記第2のサンプル画像を作成し、その際、前記(a)のステップによる算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、ステップを更に有している、
ことを特徴とする画像処理方法。
(付記11)
コンピュータに、
(a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを実行させる命令を含む、プログラムを記録し、
 前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記12)
付記11に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(b)前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、ステップを更に実行させ、
 前記(a)のステップにおいて、更に、
(a1)前記(b)のステップによって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、ステップと、
(a2)前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、ステップと、
(a3)算出された前記損失に基づいて、前記画像生成モデルを更新する、ステップと、
を実行させる命令を含む、ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記13)
付記12に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
 前記(a)のステップにおいて、更に、
(a4)前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を、画像損失として算出し、そして、
前記人体損失に、前記画像損失を加算して、統合損失を算出する、ステップを実行させる命令を含み、
 前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記14)
付記12に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(c)前記第1のサンプル画像と、前記(b)のステップによって生成された画像との、相違の程度を判別する、ステップを更に実行させる命令と、
前記(a)のステップにおいて、更に、
(a4)前記(c)のステップによる判別の結果に基づいて、前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を真偽損失として算出し、そして、
前記人体損失に、前記真偽損失を加算して、統合損失を算出する、ステップを実行させる命令と、を含み、
 前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記15)
付記12~14のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(d)前記第1のサンプル画像から、前記第2のサンプル画像を作成し、その際、前記(a)のステップによる算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、ステップを更に実行させる命令を含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように、本発明によれば、一部が欠損している人物の画像をその人物の姿勢を考慮して補間を行うためのモデルを構築することができる。本発明は、映像中の人物の隠蔽の除去が必要となる種々のシステム、例えば、監視システムに有用である。
 10 画像処理装置(実施の形態1)
 11 画像生成モデル構築部
 12 画像生成モデル
 13 画像生成部
 14 人体情報推定部
 15 損失算出部
 16 パラメータ更新部
 20 画像処理装置(実施の形態2)
 21 サンプル画像作成部
 30 画像処理装置(実施の形態3)
 31 真偽判別部
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス

Claims (15)

  1.  人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、画像生成モデル構築部を備え、
     前記画像生成モデル構築部は、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
    ことを特徴とする画像処理装置。
  2. 請求項1に記載の画像処理装置であって、
     前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、画像生成部を更に備え、
     前記画像生成モデル構築部が、
     前記画像生成部によって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、人体情報推定部と、
     前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、損失算出部と、
     算出された前記損失に基づいて、前記画像生成モデルを更新する、パラメータ更新部と、
    を備えている、ことを特徴とする画像処理装置。
  3. 請求項2に記載の画像処理装置であって、
     前記損失算出部が、
    更に、前記第1のサンプル画像に対する、前記画像生成部によって生成された画像における損失を、画像損失として算出し、そして、
    前記人体損失に、前記画像損失を加算して、統合損失を算出し、
     前記パラメータ更新部が、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とする画像処理装置。
  4. 請求項2に記載の画像処理装置であって、
     前記第1のサンプル画像と、前記画像生成部によって生成された画像との、相違の程度を判別する、真偽判別部を更に備え、
     前記損失算出部は、更に、前記真偽判別部による判別の結果に基づいて、前記第1のサンプル画像に対する、前記画像生成部によって生成された画像における損失を真偽損失として算出し、そして、
    前記人体損失に、前記真偽損失を加算して、統合損失を算出し、
     前記パラメータ更新部が、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とする画像処理装置。
  5. 請求項2~4のいずれかに記載の画像処理装置であって、
     前記第1のサンプル画像から、前記第2のサンプル画像を作成する、サンプル画像作成部を更に備え、
     前記サンプル画像作成部は、前記損失算出部による算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、
    ことを特徴とする画像処理装置。
  6. (a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを有し、
     前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
    ことを特徴とする画像処理方法。
  7. 請求項6に記載の画像処理方法であって、
    (b)前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、ステップを更に有し、
     前記(a)のステップが、更に、
    (a1)前記(b)のステップによって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、ステップと、
    (a2)前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、ステップと、
    (a3)算出された前記損失に基づいて、前記画像生成モデルを更新する、ステップと、
    を有する、ことを特徴とする画像処理方法。
  8. 請求項7に記載の画像処理方法であって、
     前記(a)のステップが、更に、
    (a4)前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を、画像損失として算出し、そして、
    前記人体損失に、前記画像損失を加算して、統合損失を算出する、ステップを有し、
     前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とする画像処理方法。
  9. 請求項7に記載の画像処理方法であって、
    (c)前記第1のサンプル画像と、前記(b)のステップによって生成された画像との、相違の程度を判別する、ステップを更に有し、
     前記(a)のステップが、更に、
    (a4)前記(c)のステップによる判別の結果に基づいて、前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を真偽損失として算出し、そして、
    前記人体損失に、前記真偽損失を加算して、統合損失を算出する、ステップを有し
     前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とする画像処理方法。
  10. 請求項7~9のいずれかに記載の画像処理方法であって、
    (d)前記第1のサンプル画像から、前記第2のサンプル画像を作成し、その際、前記(a)のステップによる算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、ステップを更に有している、
    ことを特徴とする画像処理方法。
  11. コンピュータに、
    (a)人物の一部が欠損している画像データを入力画像として、前記人物の欠損している一部が補間された画像を生成するための、画像生成モデルを構築する、ステップを実行させる命令を含む、プログラムを記録し、
     前記(a)のステップにおいて、人物の画像を含む第1のサンプル画像と、前記第1のサンプル画像中の人物の一部が欠損している第2のサンプル画像と、前記第1のサンプル画像中の人物の姿勢を特定する人体情報と、を用いた機械学習によって、前記画像生成モデルを構築する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  12. 請求項11に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
    (b)前記第2のサンプル画像を、前記画像生成モデルに適用して、前記人物の欠損している一部が補間された画像を生成する、ステップを更に実行させ、
     前記(a)のステップにおいて、更に、
    (a1)前記(b)のステップによって生成された画像から、当該画像中の人物の姿勢を特定する第2の人体情報を推定する、ステップと、
    (a2)前記第1のサンプル画像中の人物の姿勢を特定する前記人体情報に対する、前記第2の人体情報における損失を、人体損失として算出する、ステップと、
    (a3)算出された前記損失に基づいて、前記画像生成モデルを更新する、ステップと、
    を実行させる命令を含む、ことを特徴とするコンピュータ読み取り可能な記録媒体。
  13. 請求項12に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
     前記(a)のステップにおいて、更に、
    (a4)前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を、画像損失として算出し、そして、
    前記人体損失に、前記画像損失を加算して、統合損失を算出する、ステップを実行させる命令を含み、
     前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  14. 請求項12に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
    (c)前記第1のサンプル画像と、前記(b)のステップによって生成された画像との、相違の程度を判別する、ステップを更に実行させる命令と、
    前記(a)のステップにおいて、更に、
    (a4)前記(c)のステップによる判別の結果に基づいて、前記第1のサンプル画像に対する、前記(b)のステップによって生成された画像における損失を真偽損失として算出し、そして、
    前記人体損失に、前記真偽損失を加算して、統合損失を算出する、ステップを実行させる命令と、を含み、
     前記(a3)のステップにおいて、算出された前記統合損失に基づいて、前記画像生成モデルのパラメータを更新する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  15. 請求項12~14のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
    (d)前記第1のサンプル画像から、前記第2のサンプル画像を作成し、その際、前記(a)のステップによる算出結果に基づいて、作成する前記第2のサンプル画像における人物の欠損の程度を設定する、ステップを更に実行させる命令を含む、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2018/012989 2018-03-28 2018-03-28 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体 WO2019186833A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/012989 WO2019186833A1 (ja) 2018-03-28 2018-03-28 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
US17/041,804 US11393069B2 (en) 2018-03-28 2018-03-28 Image processing apparatus, image processing method, and computer readable recording medium
JP2020508665A JP6962450B2 (ja) 2018-03-28 2018-03-28 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/012989 WO2019186833A1 (ja) 2018-03-28 2018-03-28 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2019186833A1 true WO2019186833A1 (ja) 2019-10-03

Family

ID=68061054

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/012989 WO2019186833A1 (ja) 2018-03-28 2018-03-28 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US11393069B2 (ja)
JP (1) JP6962450B2 (ja)
WO (1) WO2019186833A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195305A1 (ja) * 2022-04-08 2023-10-12 コニカミノルタ株式会社 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146413A (ja) * 2004-11-17 2006-06-08 Mitsubishi Electric Corp 対象追従装置
JP2016099781A (ja) * 2014-11-20 2016-05-30 日本電信電話株式会社 画像生成方法、画像生成装置及びコンピュータプログラム
JP2017058930A (ja) * 2015-09-16 2017-03-23 日本電信電話株式会社 学習データ生成装置、学習装置、画像評価装置、学習データ生成方法、学習方法、画像評価方法及び画像処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2808760B1 (en) * 2013-05-29 2023-08-16 Dassault Systèmes Body posture tracking
CN108369643B (zh) * 2016-07-20 2022-05-13 杭州凌感科技有限公司 用于3d手部骨架跟踪的方法和系统
US10438393B2 (en) * 2017-03-16 2019-10-08 Linden Research, Inc. Virtual reality presentation of body postures of avatars

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146413A (ja) * 2004-11-17 2006-06-08 Mitsubishi Electric Corp 対象追従装置
JP2016099781A (ja) * 2014-11-20 2016-05-30 日本電信電話株式会社 画像生成方法、画像生成装置及びコンピュータプログラム
JP2017058930A (ja) * 2015-09-16 2017-03-23 日本電信電話株式会社 学習データ生成装置、学習装置、画像評価装置、学習データ生成方法、学習方法、画像評価方法及び画像処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAWAI, NORIHIKO: "Image inpainting and its application to diminished reality", SYSTEMS, CONTROL AND INFORMATION, vol. 58, no. 10, 15 October 2014 (2014-10-15), pages 426 - 431, ISSN: 0916-1600 *
MATSUDA, YUYA ET AL.: "The 31st Picture Coding Symposium of Japan The 21st Image Media Processing Symposium", BASIC STUDY OF CONDITIONAL GENERATION NN FOR IMAGE INPAINTING, 16 November 2016 (2016-11-16), pages 26, 27 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195305A1 (ja) * 2022-04-08 2023-10-12 コニカミノルタ株式会社 情報処理装置、情報処理プログラム、機械学習装置、および機械学習プログラム

Also Published As

Publication number Publication date
JP6962450B2 (ja) 2021-11-05
JPWO2019186833A1 (ja) 2021-03-11
US20210027421A1 (en) 2021-01-28
US11393069B2 (en) 2022-07-19

Similar Documents

Publication Publication Date Title
US10803546B2 (en) Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
US11244506B2 (en) Tracking rigged polygon-mesh models of articulated objects
CN111696196B (zh) 一种三维人脸模型重建方法及装置
JP2014527210A (ja) オプティカルフローを決定するためのコンテンツ適応型システム、方法、及び装置
CN111868786B (zh) 跨设备监控计算机视觉系统
WO2013031424A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US10791321B2 (en) Constructing a user's face model using particle filters
JP2017130042A (ja) 映像処理装置、映像処理方法、及びプログラム
CN113592706B (zh) 调整单应性矩阵参数的方法和装置
KR20220074715A (ko) 이미지 처리 방법 및 장치
WO2019186833A1 (ja) 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
JP6996455B2 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
CN107977628B (zh) 神经网络训练方法、人脸检测方法及人脸检测装置
US20230196593A1 (en) High Density Markerless Tracking
JP2020098575A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
US20210374543A1 (en) System, training device, training method, and predicting device
CN113761965B (zh) 动作捕捉方法、装置、电子设备和存储介质
WO2022181252A1 (ja) 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
CN111986230A (zh) 一种视频中目标物的姿态跟踪方法及装置
WO2022181253A1 (ja) 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
JP7035912B2 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
CN116246026B (zh) 三维重建模型的训练方法、三维场景渲染方法及装置
WO2022181251A1 (ja) 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18912203

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020508665

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18912203

Country of ref document: EP

Kind code of ref document: A1