WO2020184006A1 - 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体 - Google Patents

画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2020184006A1
WO2020184006A1 PCT/JP2020/004495 JP2020004495W WO2020184006A1 WO 2020184006 A1 WO2020184006 A1 WO 2020184006A1 JP 2020004495 W JP2020004495 W JP 2020004495W WO 2020184006 A1 WO2020184006 A1 WO 2020184006A1
Authority
WO
WIPO (PCT)
Prior art keywords
region
person
image
area
image processing
Prior art date
Application number
PCT/JP2020/004495
Other languages
English (en)
French (fr)
Inventor
永記 石寺
Original Assignee
Necソリューションイノベータ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necソリューションイノベータ株式会社 filed Critical Necソリューションイノベータ株式会社
Priority to JP2021505596A priority Critical patent/JP7248345B2/ja
Publication of WO2020184006A1 publication Critical patent/WO2020184006A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an image processing device, an image processing method, and a program.
  • a device that performs image processing for detecting and tracking a moving object such as a person from an image (including a moving image) captured by a camera is known (for example, a patent).
  • Document 1 a device that performs image processing for detecting and tracking a moving object such as a person from an image (including a moving image) captured by a camera is known (for example, a patent).
  • Document 1 a device that performs image processing for detecting and tracking a moving object such as a person from an image (including a moving image) captured by a camera.
  • Patent Document 1 discloses that, based on the position of a person detected from a past image, an overlapping area of a plurality of people is detected in an image to be processed at present, and the foremost person is determined.
  • Patent Document 1 discloses that a process of estimating the position of a person is performed, but does not disclose specifying a person area of an overlapping person.
  • An object of the present disclosure is to solve such a problem, and to provide an image processing apparatus, an image processing method, and a program capable of accurately identifying a person area of a person included in an image. That is.
  • the image processing apparatus is An input unit for inputting the first image captured by the image pickup device, and Based on the learned learning model, the first region estimated to have the same distance from the image pickup apparatus is extracted from the estimated region estimated to include a person in the first image, and the first region is extracted. It is an image processing apparatus including a generation unit for generating a second image including.
  • the image processing method is Inputting the first image captured by the image pickup device and Based on the learned learning model, the first region estimated to have the same distance from the image pickup apparatus is extracted from the estimated region estimated to include a person in the first image, and the first region is extracted. It is an image processing method including the generation of a second image including.
  • the program related to this disclosure is Inputting the first image captured by the image pickup device and Based on the learned learning model, the first region estimated to have the same distance from the image pickup apparatus is extracted from the estimated region estimated to include a person in the first image, and the first region is extracted. It is a program that causes a computer to generate a second image including.
  • an image processing device an image processing method, and a program capable of accurately identifying a person area of a person included in an image.
  • FIG. It is a figure which shows the structural example of the image processing apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows the structural example of the image processing apparatus which concerns on Embodiment 2.
  • It is a figure for demonstrating the generation process. It is a figure for demonstrating the generation process.
  • It is a figure for demonstrating the generation process It is a figure for demonstrating the generation process.
  • It is a figure for demonstrating the generation process. It is a figure for demonstrating the generation process.
  • It is a figure for demonstrating the generation process. It is a figure for demonstrating the generation process.
  • FIG. It is a figure for demonstrating the generation process. It is a figure for demonstrating the generation process. It is a figure for demonstrating the determination process. It is a figure for demonstrating the determination process. It is a figure which shows the configuration example of the learning apparatus which concerns on Embodiment 2.
  • FIG. It is a figure explaining the operation example of the image processing apparatus which concerns on Embodiment 2.
  • FIG. It is a figure which shows the operation example of the learning apparatus which concerns on Embodiment 2.
  • FIG. It is a block diagram which illustrates the hardware composition of the computer (information processing apparatus) which can realize the image processing apparatus and the like which concerns on each embodiment of this disclosure.
  • FIG. 1 is a diagram showing a configuration example of the image processing apparatus according to the first embodiment.
  • the image processing device 1 may be, for example, a server device, a personal computer device, or the like.
  • the image processing device 1 includes an input unit 2 and a generation unit 3.
  • the input unit 2 inputs the first image captured by the imaging device.
  • the image pickup apparatus may be, for example, a surveillance camera, a fixed point camera, a digital camera, or the like.
  • the generation unit 3 Based on the trained learning model, the generation unit 3 extracts the first region of the first image, which is estimated to include a person, from the estimation region, which is estimated to have the same distance from the imaging device. A second image including the first region is generated.
  • the generation unit 3 extracts the first region having the same distance from the image pickup apparatus from the estimated region estimated to include a person, and the extracted first region is included in the first image of the person of each person. It is possible to identify it as an area. Therefore, according to the image processing device 1, it is possible to accurately identify the person area of the person included in the image.
  • the second embodiment is an embodiment in which the first embodiment is detailed.
  • FIG. 2 is a diagram showing a configuration example of the image processing apparatus according to the second embodiment.
  • the image processing device 10 includes an input unit 11, a data storage unit 12, a generation unit 13, a model storage unit 14, and a determination unit 15.
  • the input unit 11 inputs an image captured by the imaging device, and stores the input image in the data storage unit 12.
  • the input unit 11 may input an image stored in the recording medium.
  • the input unit 11 may input an image captured by the image pickup device from an external personal computer device, a server device, or the like connected to the image processing device 10.
  • the image input to the input unit 11 may be, for example, an image captured by an imaging device such as a surveillance camera, a fixed point camera, or a digital camera.
  • the input unit 11 will be described as inputting an image captured by the surveillance camera from a server device connected to the surveillance camera. Further, in the following description, the image input to the input unit 11 will be referred to as an input image.
  • FIG. 3 is a diagram showing an example of an input image.
  • the image (input image) input to the input unit 11 is an image captured by the surveillance camera.
  • the input image includes a plurality of people, and includes a region in which the people are imaged in an overlapping manner.
  • the data storage unit 12 stores the input image. Further, the data storage unit 12 stores the background image of the image input to the input unit 11. The background image may also be input to the input unit 11, and the input unit 11 may store the background image in the data storage unit 12. The data storage unit 12 also stores the image generated by the generation unit 13.
  • the generation unit 13 estimates that the distance from the surveillance camera is equal from the estimation area in the input image that is estimated to include a person. An equidistant region indicating the region to be used is extracted. The generation unit 13 generates an image including an equidistant region, and stores the generated image in the data storage unit 12.
  • the generation unit 13 acquires the background image and the input image from the data storage unit 12. Using the background image and the input image, the generation unit 13 estimates, for example, a background subtraction method (background subtraction processing) to estimate an estimated region indicating an region of the input image that is presumed to include a person.
  • a background subtraction method background subtraction processing
  • the generation unit 13 acquires the learned learning model stored in the model storage unit 14. Based on the acquired learning model, the generation unit 13 extracts an equidistant region indicating an region estimated to have the same distance from the surveillance camera from the estimation region. The generation unit 13 inputs the input image to the learning model and extracts the equidistant region. The generation unit 13 generates an image including the extracted equidistant region and stores it in the data storage unit 12.
  • FIG. 4 is a diagram showing an example of an image including an equidistant region.
  • the white region is an equidistant region extracted by the generation unit 13.
  • the area U1 is a part of the image including the equidistant area, and the right half of the area U1 is an area where people overlap in the input image.
  • Area U1 contains 11 people.
  • a black line black region
  • the image processing device 10 extracts only a connecting region (equidistant region) having an area equal to or larger than a predetermined threshold value from the white equidistant region, so that 11 people can be found in the region U1. It can be identified that it is included. Since the same applies to the areas other than the area U1, the image processing device 10 can accurately identify the person area of the person included in the image.
  • the generation unit 13 Based on the acquired learning model, the generation unit 13 indicates a front region indicating an region in which the distance from the image pickup apparatus is shorter than the boundary line in which the distance to the surveillance camera is different from the estimation region estimated to include a person, and The back area indicating the area where the distance from the image pickup device is longer than the boundary line is extracted.
  • the generation unit 13 inputs the input image to the learning model and extracts the front region and the back region from the estimation region.
  • the generation unit 13 also extracts a boundary line having a different distance from the surveillance camera from the estimation area where it is estimated that a person is included. The generation unit 13 does not have to extract the boundary line having a different distance from the surveillance camera.
  • the generation unit 13 extracts the boundary line, the front region, and the back region from the peripheral region of the equidistant region of the input image based on the learning model.
  • the peripheral region of the equidistant region is a black line (black region) that separates the equidistant regions from each other in the region U1 of FIG. It can be said that the peripheral region is a black line (black region) included between the adjacent equidistant regions in the region U1 of FIG.
  • the generation unit 13 When the boundary line, the front area and the back area are extracted, the generation unit 13 synthesizes the image including the equidistant area stored in the data storage unit 12 and the boundary line, the front area and the back area. Generate the image.
  • the generation unit 13 stores the generated image in the data storage unit 12.
  • the learning model and the generation process in which the generation unit 13 extracts each region and generates an image including each extracted region will be described later. Further, in the following description, in order to distinguish the image including the equidistant region from the image in which the equidistant region, the boundary line, the front region and the back region are combined, the image including the equidistant region is defined as an equidistant image.
  • the synthesized image is referred to as a composite image and described.
  • FIG. 5 is a diagram showing an example of a composite image.
  • FIG. 5 will be described with reference to region U2.
  • the area U2 is a part of the area U1 of FIG. 4, and is an area where two people overlap.
  • the alternate long and short dash line L1, the dotted line L2, and the solid line L3 are described in the region U2.
  • the alternate long and short dash line L1 is a line representing the boundary of the equidistant region generated by the generation unit 13.
  • the region inside the alternate long and short dash line L1 (the region opposite to the direction of the alternate long and short dash line L2) is an equidistant region.
  • the dotted line L2 is a line representing the boundary line extracted by the generation unit 13.
  • the region between the alternate long and short dash line L1 is the front region extracted by the generation unit 13.
  • the solid line L3 is a line representing the boundary of the back region, and the region between the dotted line L2 and the solid line L3 is the back region.
  • the region U2 is shown so that each region can be seen by the shade of color, and the white region (the region between the dotted line L2 and the solid line L3) is the back region and the black region. (The region between the alternate long and short dash line L1 and the dotted line L2) is the front region. Further, the gray region between white and black (the region opposite to the direction of the alternate long and short dash line L1 to the dotted line L2) is an equidistant region. In this way, the generation unit 13 extracts the boundary line, the front region, and the back region from the peripheral region of the equidistant region, synthesizes the extracted boundary line, the front region, and the back region, and synthesizes the equidistant image. Generate an image.
  • the model storage unit 14 stores the learned learning model used by the generation unit 13.
  • the learning model stored in the model storage unit 14 is a learning model learned by the learning device 20 described later.
  • the learning model is a learning model that outputs a matching region pattern among a plurality of region patterns for each predetermined pixel block included in the estimation region.
  • the predetermined pixel block is, for example, a pixel block (pixel group) cut out as a 15 ⁇ 15 patch image.
  • the above pixel block is an example, and can be arbitrarily selected from 3 ⁇ 3 to 150 ⁇ 150 pixel blocks.
  • the learning model is, for example, a convolutional neural network (CNN), which includes an input layer, a multi-layered hidden layer, and an output layer.
  • CNN convolutional neural network
  • the input layer can be a value obtained by multiplying the size of the patch image for each of the R, G, and B channels.
  • the learning model may be composed of three hidden layers and may be configured by using the ReLU function as the activation function.
  • the learning model is learned by deep learning in the learning device 20, and parameters including weights and thresholds applied to each layer are learned.
  • the learning model may be a learning model using another algorithm.
  • learning models configured differently may be used.
  • the determination unit 15 determines the context of the person included in the input image based on at least one of the equidistant region, the front region, and the back region in the composite image.
  • the determination unit 15 may determine the context of the person included in the input image based on the equidistant region in the composite image. Alternatively, the determination unit 15 identifies the equidistant region in the composite image as the human region of the person included in the input image, and sets each of the identified human regions in at least one of the front region and the back region. Based on this, the context with the adjacent person area is determined. Then, the determination unit 15 may determine the context of the person included in the input image based on the determined context of each person area and the person area adjacent to the person area. Alternatively, the determination unit 15 may determine the context of the person included in the input region by combining two or more of the equidistant region, the front region, and the back region in the composite image.
  • the determination unit 15 determines the context of the person included in the input image by using the equidistant region, the front region, and the back region included in the composite image. The process of determining the context of the person performed by the determination unit 15 will be described later.
  • the learning model is a learning model that outputs a matching region pattern among a plurality of predefined region patterns for each predetermined pixel block included in the estimation region.
  • FIG. 6 is a diagram for explaining a region pattern.
  • the numbers shown in FIG. 6 indicate the numbers of the area patterns, and the figures below the numbers show conceptual diagrams of each area pattern.
  • the solid line included in the conceptual diagram of each area pattern indicates the boundary line where the distance from the imaging device is different.
  • F the area hatched by diagonal lines
  • B the area hatched by vertical lines
  • the area patterns with the area pattern numbers 1 to 8 are area patterns in which the arrangement relationship between the boundary line, the front area, and the depth area is different from each other, and the depth gradient direction indicating the gradient of the distance (depth) from the imaging device.
  • the region patterns having the region pattern numbers 1 to 8 are region patterns having different gradient directions from the front region to the back region. Further, it can be said that the region patterns having the region pattern numbers 1 to 8 are region patterns in which the front region, the back region, and the boundary line are arranged differently.
  • the area patterns having the area pattern numbers 1 to 8 correspond to eight directions having different depth gradient directions.
  • the area pattern numbers 1 to 8 are area patterns corresponding to eight directions in which the depth gradient directions are different from each other. However, the area patterns corresponding to 16 directions including the directions in which the depth gradient directions are between the eight directions are defined. It may be provided.
  • the area pattern number 9 is an area pattern indicating an area equidistant from the imaging device, and is an area pattern for extracting an equidistant area.
  • a plurality of area patterns (patterns 1 to 9) are defined. Then, the learning model outputs a matching region pattern among a plurality of region patterns for each predetermined pixel block included in the estimation region where a person is presumed to exist.
  • the generation unit 13 may use a plurality of input images while changing the processing target pixels for each predetermined pixel block included in the estimation area where a person is presumed to exist. Outputs the matching area pattern among the area patterns of.
  • the generation unit 13 applies the output region pattern to a predetermined pixel block included in the estimation region to extract an equidistant region, or a boundary line, a front region, and a back region.
  • the generation unit 13 applies the region pattern to the pixel block from which the region pattern number 9 is output from the learning model to extract the equidistant region, and generates the image shown in FIG.
  • the generation unit 13 applies the area pattern to the pixel block from which the area pattern number 1 is output from the learning model to extract the boundary line, the front area, and the back area, and is shown in FIG. Generate an image.
  • the boundary line is in the left-right direction of the composite image
  • the front region is located below the composite image with respect to the boundary line
  • the back region is located above the composite image with respect to the boundary line. .. That is, the generation unit 13 generates an image obtained by extracting the regions whose region pattern numbers match 1.
  • the generation unit 13 applies the area pattern to the pixel block from which the area pattern number 2 is output from the learning model to extract the boundary line, the front area, and the back area, and is shown in FIG. Generate an image.
  • the boundary line is in an oblique direction from the lower left to the upper right of the composite image
  • the front region of the composite image is on the lower right side of the composite image
  • the back region of the composite image is the upper left of the composite image. It is an area that exists on the side. That is, the generation unit 13 generates an image obtained by extracting the regions whose region pattern numbers match 2.
  • the generation unit 13 applies the area pattern to the pixel block from which the area pattern numbers 3 to 8 are output from the learning model, and extracts the boundary line, the front area, and the back area.
  • the images shown in FIGS. 9 to 14 are generated. 9 to 14 are diagrams in which the area patterns correspond to 3 to 8, respectively.
  • the generation unit 13 synthesizes the images generated from each region pattern to generate the composite image shown in FIG. In this way, the generation unit 13 extracts the equidistant region, the boundary line, the front region, and the back region from the pixel block of the region pattern output by the learning model, and synthesizes the extracted regions to generate a composite image. To do.
  • the determination unit 15 identifies the person area based on the equidistant area included in the composite image.
  • the determination unit 15 determines the context of the person included in the input image based on the lower end lines of each of the specified person areas.
  • the determination unit 15 determines the context of each person area and the adjacent person area based on the front area and the back area included between the specified person areas and the adjacent person areas. For each identified person area, the determination unit 15 uses the distance between the front area and the back area included between the specified person areas and the person in one person area close to the front area to the person in the other person area. Decide to be in front of the person. The determination unit 15 determines that the person in one person area close to the back area is located behind the person in the other person area.
  • the determination unit 15 uses the result of the context determination process of the person area determined using the lower end line of each person area and the result of the context determination process of each person area with the adjacent person area. To determine the context of the person included in the input image.
  • FIG. 15 is a schematic view of the composite image of FIG. 5, and shows a region corresponding to the region U1 of FIG.
  • the area surrounded by the solid line indicates an equidistant area.
  • the dotted line indicates the boundary line
  • the area hatched by the diagonal line indicates the front area
  • the area hatched by the vertical line indicates the back area. Note that FIG. 15 shows the boundary line, the front region, and the back region of only the portions where the equidistant regions are adjacent to each other among the boundary line, the front region, and the back region extracted by the generation unit 13.
  • the determination unit 15 sets the coordinates in the composite image. For example, the determination unit 15 sets the lower left end point of the composite image as the origin coordinates, sets the right direction of the composite image as the X-axis positive direction, and sets the upper direction of the composite image as the Y-axis positive direction.
  • the determination unit 15 specifies an area surrounded by equidistant areas as a person area. As shown in FIG. 15, the determination unit 15 identifies the person areas P1 to P11.
  • the determination unit 15 determines the lower end line for each of the person areas P1 to P11. When the Y coordinate of the lower end line of each person area is small, it is considered that the person exists at a position close to the image pickup apparatus. Therefore, the determination unit 15 determines as a person area of a person who exists at a position closer to the image pickup apparatus in order from the smallest Y coordinate of the lower end line. The determination unit 15 determines the context of the person included in the input image based on the determined result.
  • the Y coordinate of the lower end line of the person area P1 is Y1
  • the Y coordinate of the lower end line of the person area P2 is Y2
  • the Y coordinate of the lower end line of the person area P3 is Y3
  • the Y coordinate of the lower end line of the person area P4 is Y4.
  • the Y coordinate of the lower end line of the person area P5 is Y5.
  • the determination unit 15 determines the person area P1, P2, P3, P4, and P5 as the person area of the person who exists closer to the image pickup apparatus in this order.
  • the determination unit 15 performs the same determination process on the person areas P6 to P11.
  • the determination unit 15 temporarily determines the context based on the lower end line of the person area. Then, the determination unit 15 applies the result of the determination process described later to the person area in which the lower end line of the person area overlaps with another person area, and determines the context of the person included in the input image.
  • the determination unit 15 determines the person area of a person who exists near the image pickup device based on the number of pixels included in each person area, and based on the determined result, before and after the person included in the input image. The relationship may be determined.
  • the determination unit 15 may calculate the number of pixels included in each person area and determine the number of pixels of the person who exists closer to the image pickup apparatus in descending order of the calculated number of pixels.
  • the determination unit 15 may weight the Y coordinate of the lower end line of each person area and the number of pixels included in each person area. Then, the determination unit 15 may determine the person area of the person who exists near the image pickup device based on the Y coordinate of the lower end line of each person area and the number of pixels included in each person area, which are weighted. Good.
  • the determination unit 15 determines the person area of the person whose lower end line is close to the image pickup apparatus based on the upper end line of the person area with respect to the person area adjacent to the other person area. You may.
  • the determination unit 15 sets the lower end line of the person area as the person area of the person who exists at a position farther from the image pickup apparatus in order from the one with the larger Y coordinate of the upper end line with respect to the person area adjacent to the other person area. You may decide.
  • FIG. 16 is a view similar to that of FIG. 15, which is a schematic view of the composite image of FIG. 5, and shows a region corresponding to the region U1 of FIG.
  • the area surrounded by the solid line indicates an equidistant area.
  • the dotted line indicates the boundary line
  • the area hatched by the diagonal line indicates the front area
  • the area hatched by the vertical line indicates the back area.
  • FIG. 15 shows the boundary line, the front region, and the back region of only the portions where the equidistant regions are adjacent to each other among the boundary line, the front region, and the back region extracted by the generation unit 13.
  • the determination unit 15 determines a person area less than a predetermined distance as an adjacent person area with respect to a certain person area and an adjacent person area.
  • the determination unit 15 specifies the person areas P3 to P11 as a person area adjacent to another person area.
  • the determination unit 15 determines the context of each of the person areas P3 to P11 adjacent to the other person areas with respect to the adjacent person areas based on the front area and the back area.
  • the determination unit 15 determines the context of the person included in the input image based on the context of each person region with the adjacent person region.
  • the person area P3 and the person area P5 are adjacent person areas.
  • attention is paid to the area U3 between the person area P3 and the person area P5.
  • Area U3 includes a front area and a back area.
  • the foreground region included in the region U3 is adjacent to the person region P3. That is, the person area P3 is closer to the front area included in the area U3 than the person area P5.
  • the determination unit 15 determines that the person in the person area P3 that is adjacent to the front area and is close to the person is located in front of the person in the person area P5. Further, the determination unit 15 determines that the person in the person area P5 adjacent to the back area and having a short distance is located behind the person in the person area P3.
  • the determination unit 15 determines that the person in the person area P3 is located in front of the person in the person area P8 and the person in the object area P5 is located behind the person in the person area P3. Similarly for the other person areas, the determination unit 15 determines the context of each person area with the adjacent person area.
  • the determination unit 15 uses the result of the context determination process determined from the lower end lines of the person areas P1 to P11 and the result of the context determination process of the adjacent person areas for each person area to use the person area.
  • the context is determined for P1 to P11.
  • the determination unit 15 determines the context of the person areas P1 to P11, the label indicating the order of the distances from the image pickup device in order from the person area existing below the composite image (the person area of the person close to the image pickup device). Set the number. The determination unit 15 determines the context of the person included in the input image based on the set label number.
  • the determination unit 15 may set a flag indicating that the context could not be correctly determined for the person area that could not be determined. ..
  • the determination unit 15 sets the same label number for the person area that could not be determined, and the context cannot be determined correctly. May be indicated.
  • FIG. 17 is a diagram showing a configuration example of the learning device according to the second embodiment.
  • the learning device 20 learns an unlearned learning model and generates a learned learning model.
  • the learning device 20 includes an input unit 21, a data storage unit 22, a model storage unit 23, and a learning unit 24.
  • the input unit 21 inputs a pair of a learning image and teacher data as learning data.
  • the input unit 21 stores the input image in the data storage unit 22.
  • the data storage unit 22 stores the learning data input to the input unit 21.
  • the model storage unit 23 stores at least one of an unlearned learning model (including a learning model being learned) and a learned learning model.
  • the learning unit 24 learns an unlearned learning model using the learning data input to the data storage unit 22.
  • the learning unit 24 learns by deep learning, and learns and updates parameters including weights and thresholds applied to each layer.
  • the learning unit 24 When the learning is completed, the learning unit 24 generates a learned learning model and stores it in the model storage unit 23.
  • the learning unit 24 may update the unlearned learning model with the learned learning model.
  • the learned learning model generated by the learning unit 24 is stored in the model storage unit 14 of the image processing device 10 by the manager, operator, or the like of the image processing device 10.
  • FIG. 18 is a diagram illustrating an operation example of the image processing apparatus according to the second embodiment.
  • the input unit 11 inputs an image (input image) to be processed (step S1).
  • the input unit 11 inputs the image captured by the surveillance camera from the server device connected to the surveillance camera and stores it in the data storage unit 12.
  • the generation unit 13 estimates an estimation area in which a person is estimated to be included in the input image (step S2).
  • the generation unit 13 acquires an input image and a background image from the data storage unit 12. Using the background image and the input image, the generation unit 13 estimates, for example, a background subtraction method (background subtraction processing) to estimate an estimated region indicating an region of the input image that is presumed to include a person.
  • a background subtraction method background subtraction processing
  • the generation unit 13 extracts an equidistant region from the estimated region based on the trained learning model (step S3).
  • the generation unit 13 acquires a learned learning model stored in the model storage unit 14. Based on the acquired learning model, the generation unit 13 extracts an equidistant region indicating an region estimated to have the same distance from the surveillance camera from the estimation region.
  • the generation unit 13 generates the extracted equidistant image.
  • the generation unit 13 extracts the boundary line, the front region, and the back region from the estimation region based on the trained learning model (step S4). Based on the learning model, the generation unit 13 extracts a boundary line, a front region, and a back region from the peripheral region of the equidistant region of the input image. When the generation unit 13 extracts the boundary line, the front area, and the back area, the equidistant image stored in the data storage unit 12 is combined with the boundary line, the front area, and the back area to generate a composite image. To do. The generation unit 13 stores the generated composite image in the data storage unit 12.
  • steps S3 and S4 may be executed at the same time.
  • the learning model stored in the model storage unit 14 is a learning model that outputs a matching pattern among a plurality of region patterns for each predetermined pixel block included in the estimation region. Therefore, the generation unit 13 can extract the equidistant region, the boundary line, the front region, and the back region at once by using the learning model. Therefore, the generation unit 13 may extract the equidistant region, the boundary line, the front region, and the back region at once to generate a composite image without generating the equidistant image.
  • the determination unit 15 identifies the equidistant region in the composite image as the person region (step S5), and determines the context of each person region from the lower end line of each person region (step S6).
  • the determination unit 15 sets the XY coordinate system in the composite image.
  • the determination unit 15 calculates the lower end line of each person area, and determines the context of each person area based on the Y coordinate of the lower end line.
  • the determination unit 15 determines the context of each person area with the adjacent person area (step S7).
  • the determination unit 15 determines a person area adjacent to each person area in the composite image.
  • the determination unit 15 determines the context of each person area with the adjacent person area based on the front area and the back area included with the adjacent person area. For each person area, the determination unit 15 determines that the person in the foreground area and the adjacent person area included between the adjacent person areas to be compared is located before the person in the other person area. For each person area, the determination unit 15 determines that the person in the back area and the adjacent person area included between the adjacent person areas to be compared is located behind the person in the other person area.
  • the determination unit 15 determines the context of the person included in the input image (step S8).
  • the determination unit 15 determines the context of each person area based on the results determined in steps S6 and S7.
  • the determination unit 15 assigns label numbers indicating the order of distances from the image pickup device in order from the person area existing below the composite image (the person area of the person closest to the image pickup device). Set.
  • the determination unit 15 determines the context of the person included in the input image based on the set label number.
  • FIG. 19 is a diagram showing an operation example of the learning device according to the second embodiment.
  • the input unit 21 inputs learning data (step S11).
  • the input unit 21 inputs a pair of a learning image and teacher data as learning data.
  • the input unit 21 stores the input image in the data storage unit 22.
  • the learning unit 24 generates a learned learning model (step S12).
  • the learning unit 24 learns an unlearned learning model using the learning data input to the data storage unit 22.
  • the learning unit 24 learns by deep learning, and learns and updates parameters including weights and thresholds applied to each layer.
  • the learning unit 24 When the learning is completed, the learning unit 24 generates a learned learning model and stores it in the model storage unit 23.
  • the generation unit 13 extracts an equidistant region estimated to have the same distance from the imaging device from the estimated region estimated to include a person in the input image.
  • the input image includes an area where a plurality of people overlap, it is estimated that the person areas of the overlapping persons have different distances from the imaging device. Therefore, when the generation unit 13 extracts the equidistant area, the equidistant area can be specified as the person area of each person included in the input image. Therefore, according to the image processing device 10, it is possible to accurately identify the person area of the person included in the image.
  • the person area of the person included in the input image can be specified by extracting the equidistant area, the number of people and the person included in the input image exist by using the image processing device 10. It is possible to specify the position and the like.
  • the generation unit 13 extracts the front region and the back region from the estimation region in addition to the equidistant region.
  • the determination unit 15 identifies a person region included in the composite image based on the equidistant region.
  • the determination unit 15 determines the context of each person region included in the composite image based on the equidistant region, the front region, and the back region. Then, the determination unit 15 determines the context of the person included in the input image based on the context of each person area. Therefore, according to the image processing device 10, it is possible to specify the context of each person included in the input image.
  • the image processing device 10 By using the image processing device 10, the context of each person included in the input image can be specified. Therefore, for example, an image captured at each time is input and a specific person included in the input image is input. The position of can be specified. Therefore, by using the image processing device 10, for example, it is possible to track a specific person.
  • the generation unit 13 has been described by extracting the front region and the back region, but one of the front region and the back region may be extracted.
  • the determination unit 15 uses the extracted front region or back region in the determination process for determining the context of each person region with the adjacent person region.
  • the area extracted by the generation unit 13 is the front area
  • the person in the person area close to the front area included between each person area and the adjacent person area to be compared is the other person area. Decide to be in front of the person.
  • the area extracted by the generation unit 13 is the back area
  • the person in the person area close to the back area included between each person area and the adjacent person area to be compared is the other person area. Determined to be behind the person. Even in this way, it is possible to obtain the same effect as that of the second embodiment.
  • FIG. 20 is a block diagram illustrating a hardware configuration of a computer (information processing device) capable of realizing an image processing device or the like according to each embodiment of the present disclosure.
  • the image processing device 1 and the like include the processor 1201 and the memory 1202.
  • the processor 1201 reads the software (computer program) from the memory 1202 and executes it to perform the processing of the image processing device 1 and the like described by using the flowchart in the above-described embodiment.
  • the processor 1201 may be, for example, a microprocessor, an MPU (Micro Processing Unit), or a CPU (Central Processing Unit).
  • Processor 1201 may include a plurality of processors.
  • the memory 1202 is composed of a combination of a volatile memory and a non-volatile memory.
  • Memory 1202 may include storage located away from processor 1201. In this case, processor 1201 may access memory 1202 via an I / O interface (not shown).
  • the memory 1202 is used to store the software module group. By reading these software modules from the memory 1202 and executing the processor 1201, the processor 1201 can perform the processing of the image processing device 1 and the like described in the above-described embodiment.
  • each of the processors included in the image processing device 1 and the like executes one or more programs including a group of instructions for causing the computer to perform the algorithm described with reference to the drawings.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-transitory computer readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks).
  • Examples of non-temporary computer-readable media include CD-ROM (Read Only Memory), CD-R, and CD-R / W.
  • examples of non-transitory computer readable media include semiconductor memory.
  • the semiconductor memory includes, for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable PROM), a flash ROM, and a RAM (Random Access Memory).
  • the program may also be supplied to the computer by various types of temporary computer readable media. Examples of temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • Appendix 1 An input unit for inputting the first image captured by the image pickup device, and Based on the learned learning model, the first region estimated to have the same distance from the image pickup apparatus is extracted from the estimated region estimated to include a person in the first image, and the first region is extracted.
  • An image processing device including a generation unit that generates a second image including the above.
  • Appendix 2 Based on the learning model, the generation unit has a second region in which the distance from the image pickup device is shorter than the boundary line in which the distance from the estimation region is different from the image pickup device, and the image pickup device is closer to the boundary line.
  • At least one region of the third region having a long distance from is extracted, and the second image including the second region and at least one region of the third region is generated.
  • Processing equipment. (Appendix 3)
  • the determination unit identifies a person area based on the first area, and at least the number of pixels included in each of the lower end line, the upper end line, and each of the specified person areas of the specified person area.
  • the image processing apparatus according to Appendix 2 which determines the context of a person included in the first image based on one.
  • the determination unit identifies a person area based on the first area, and for each of the specified person areas, an adjacent person based on at least one of the second area and the third area.
  • Processing equipment. (Appendix 5)
  • the determination unit is based on the distance between each of the identified person areas and at least one of the second and third areas included between the adjacent person areas.
  • the image processing apparatus according to Appendix 4, which determines the context of a person in each specified person area and a person in the adjacent person area.
  • the determination unit When the generation unit extracts the second region, the determination unit includes the specified person region and the adjacent person region among the specified person region and the adjacent person region.
  • the image processing apparatus according to Appendix 5 wherein a person in one person area having a short distance from the second area included in the space is determined to be located in front of a person in the other person area.
  • the determination unit When the generation unit extracts the third region, the determination unit includes the specified person region and the adjacent person region among the specified person region and the adjacent person region.
  • the learning model is a learning model that outputs a matching region pattern among a plurality of region patterns for each predetermined pixel block included in the estimation region.
  • the generation unit extracts the first region and at least one region of the second region and the third region from the estimated region based on the output region pattern.
  • the image processing apparatus according to any one of 7 to 7.
  • the plurality of region patterns include a first pattern for extracting the first region and a plurality of second patterns for extracting at least one region of the second region and the third region. , The image processing apparatus according to Appendix 8.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供する。画像処理装置(1)は、撮像装置により撮像された第1画像を入力する入力部(2)と、学習済みの学習モデルに基づいて、第1画像のうち人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される第1領域を抽出し、第1領域を含む第2画像を生成する生成部(3)と、を備える。

Description

画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体
 本開示は、画像処理装置、画像処理方法及びプログラムに関する。
 所定の領域を監視する監視装置の一つとして、カメラで撮像した画像(動画像を含む)から人物等の移動物体を検出して追跡する画像処理を行う装置が知られている(例えば、特許文献1)。
 特許文献1には、過去の画像から検出された人物の位置に基づいて、現在の処理対象の画像において複数の人物の重なり領域を検出し、最前の人物を判断することが開示されている。
特開2017-027197号公報
 画像において、複数の人物の重なり領域が存在する場合、重なっている人物の人物領域を正確に特定する必要がある。特許文献1では、人物の位置を推定する処理を行うことが開示されているが、重なっている人物の人物領域を特定することが開示されていない。
 本開示の目的は、このような課題を解決するためになされたものであり、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することである。
 本開示にかかる画像処理装置は、
 撮像装置により撮像された第1画像を入力する入力部と、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成する生成部と、を備える画像処理装置である。
 本開示にかかる画像処理方法は、
 撮像装置により撮像された第1画像を入力することと、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、を含む画像処理方法である。
 本開示にかかるプログラムは、
 撮像装置により撮像された第1画像を入力することと、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、をコンピュータに実行させるプログラムである。
 本開示によれば、画像に含まれる人物の人物領域を精度良く特定することが可能な画像処理装置、画像処理方法及びプログラムを提供することができる。
実施の形態1にかかる画像処理装置の構成例を示す図である。 実施の形態2にかかる画像処理装置の構成例を示す図である。 入力画像の一例を示す図である。 等距離領域を含む画像の一例を示す図である。 合成画像の一例を示す図である。 領域パターンを説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 生成処理を説明するための図である。 決定処理を説明するための図である。 決定処理を説明するための図である。 実施の形態2にかかる学習装置の構成例を示す図である。 実施の形態2にかかる画像処理装置の動作例を説明する図である。 実施の形態2にかかる学習装置の動作例を示す図である。 本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
 (実施の形態1)
 以下、図面を参照して本発明の実施の形態について説明する。図1は、実施の形態1にかかる画像処理装置の構成例を示す図である。画像処理装置1は、例えば、サーバ装置、パーソナルコンピュータ装置等であってもよい。
 画像処理装置1は、入力部2と、生成部3とを備える。
 入力部2は、撮像装置により撮像された第1画像を入力する。撮像装置は、例えば、監視カメラ、定点カメラ、デジタルカメラ等であってもよい。
 生成部3は、学習済みの学習モデルに基づいて、第1画像のうち、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される第1領域を抽出し、第1領域を含む第2画像を生成する。
 第1画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。生成部3は、人物が含まれると推定される推定領域から、撮像装置からの距離が等しい第1領域を抽出することにより、抽出された第1領域を第1画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置1によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。
 (実施の形態2)
 続いて、実施の形態2について説明する。実施の形態2は、実施の形態1を詳細にした実施の形態である。
 <画像処理装置の構成例>
 図2を用いて、実施の形態2にかかる画像処理装置10について説明する。図2は、実施の形態2にかかる画像処理装置の構成例を示す図である。画像処理装置10は、入力部11と、データ記憶部12と、生成部13と、モデル記憶部14と、決定部15とを備える。
 入力部11は、撮像装置により撮像された画像を入力し、入力された画像をデータ記憶部12に記憶する。入力部11は、記録媒体に記憶された画像を入力してもよい。もしくは、入力部11は、画像処理装置10に接続された外部のパーソナルコンピュータ装置又はサーバ装置等から、撮像装置により撮像された画像を入力してもよい。
 入力部11に入力される画像は、例えば、監視カメラ、定点カメラ、デジタルカメラ等の撮像装置により撮像された画像であってもよい。なお、以降の説明では、入力部11は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力することとして説明する。また、以降の説明では、入力部11に入力される画像を入力画像と称して記載する。
 ここで、図3を用いて、入力画像の一例について説明する。図3は、入力画像の一例を示す図である。入力部11に入力される画像(入力画像)は、監視カメラにより撮像された画像である。図3に示すように、入力画像には複数の人物が含まれており、人物が重なって撮像された領域が含まれる。
 図2に戻り、データ記憶部12について説明する。
 データ記憶部12は、入力画像を記憶する。また、データ記憶部12は、入力部11に入力された画像の背景画像を記憶する。なお、背景画像も、入力部11に入力され、入力部11が背景画像をデータ記憶部12に記憶するようにしてもよい。データ記憶部12は、生成部13が生成する画像も記憶する。
 生成部13は、後述するモデル記憶部14に記憶された学習済みの学習モデルに基づいて、入力画像のうち、人物が含まれると推定される推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、等距離領域を含む画像を生成し、生成した画像をデータ記憶部12に記憶する。
 生成部13は、背景画像と、入力画像とをデータ記憶部12から取得する。生成部13は、背景画像と入力画像とを用いて、例えば、背景差分法(背景差分処理)により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。
 生成部13は、モデル記憶部14に記憶された学習済みの学習モデルを取得する。生成部13は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、入力画像を学習モデルに入力し、等距離領域を抽出する。生成部13は、抽出された等距離領域を含む画像を生成して、データ記憶部12に記憶する。
 ここで、図4を用いて、生成部13が生成する等距離領域を含む画像の一例について説明する。図4は、等距離領域を含む画像の一例を示す図である。図4において、白色の領域は、生成部13が抽出した等距離領域である。領域U1は、等距離領域を含む画像の一部の領域であり、領域U1のうち右半分の領域は、入力画像において人物が重なっている領域である。
 領域U1には、11人の人物が含まれている。領域U1において、隣り合う等距離領域の間には黒線(黒の領域)が含まれており、当該黒線(黒の領域)により、等距離領域同士が区切られている。そのため、画像処理装置10は、白色の等距離領域から、予め定められた所定の閾値以上の面積を持つ連結領域(等距離領域)のみを取り出すことで、領域U1には、11人の人物が含まれていることを特定することができる。なお、領域U1以外の他の領域についても、同様であるため、画像処理装置10は、画像に含まれる人物の人物領域を精度良く特定することができる。
 図2に戻り、生成部13の説明を続ける。
 生成部13は、取得した学習モデルに基づいて、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線よりも撮像装置からの距離が短い領域を示す手前領域、及び境界線よりも撮像装置からの距離が長い領域を示す奥領域を抽出する。生成部13は、入力画像を学習モデルに入力し、推定領域から、手前領域及び奥領域を抽出する。
 また、生成部13は、人物が含まれると推定される推定領域から、監視カメラとの距離が異なる境界線も抽出する。なお、生成部13は、監視カメラとの距離が異なる境界線を抽出しなくてもよい。
 具体的には、生成部13は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。等距離領域の周辺領域は、図4の領域U1のうち、等距離領域同士を区切っている黒線(黒の領域)である。周辺領域は、図4の領域U1のうち、隣り合う等距離領域との間に含まれる黒線(黒の領域)であるとも言える。
 生成部13は、境界線、手前領域及び奥領域を抽出すると、データ記憶部12に記憶されている、等距離領域を含む画像と、境界線、手前領域及び奥領域とを合成して、合成された画像を生成する。生成部13は、生成した画像をデータ記憶部12に記憶する。なお、学習モデル、及び生成部13が各領域を抽出し、抽出された各領域を含む画像を生成する生成処理について後述する。また、以降の説明では、等距離領域を含む画像と、等距離領域、境界線、手前領域及び奥領域が合成された画像とを区別するために、等距離領域を含む画像を等距離画像とし、合成された画像を合成画像と称して記載する。
 ここで、図5を用いて、生成部13が生成する合成画像の一例について説明する。図5は、合成画像の一例を示す図である。図5について、領域U2を用いて説明する。領域U2は、図4の領域U1の一部の領域であり、2人の人物が重なる領域である。
 領域U2には、一点鎖線L1、点線L2及び実線L3が記載されている。一点鎖線L1は、生成部13が生成した等距離領域の境界を表す線である。一点鎖線L1の内側の領域(点線L2の方向と逆側の領域)は、等距離領域である。点線L2は、生成部13が抽出した境界線を表す線である。一点鎖線L1と点線L2との間の領域は、生成部13が抽出した手前領域である。実線L3は、奥領域の境界を表す線であり、点線L2と実線L3との間の領域は、奥領域である。
 別の観点で説明をすると、領域U2は、色の濃淡により、各領域が分かるように示されており、白い領域(点線L2と実線L3との間の領域)は奥領域であり、黒い領域(一点鎖線L1と点線L2との間の領域)は手前領域である。また、白と黒の間のグレーの領域(一点鎖線L1から点線L2の方向と逆側の領域)は等距離領域である。このように、生成部13は、等距離領域の周辺領域から境界線、手前領域及び奥領域を抽出して、抽出した境界線、手前領域及び奥領域と、等距離画像とを合成して合成画像を生成する。
 図2に戻り、モデル記憶部14について説明する。
 モデル記憶部14は、生成部13が用いる学習済みの学習モデルを記憶する。モデル記憶部14に記憶される学習モデルは、後述する学習装置20により学習された学習モデルである。学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。所定の画素ブロックは、例えば、15×15のパッチ画像として切り出された画素ブロック(画素群)である。なお、上記の画素ブロックは一例であり、3×3~150×150の画素ブロックの中から任意に選択することができる。
 学習モデルは、例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)であり、入力層と、多層の隠れ層と、出力層とを含む。入力層は、例えば、入力画像がRGB(Red Green Blue)画像である場合、R、G、Bのチャネル別にパッチ画像のサイズを乗じた値とすることができる。また、学習モデルは、3層の隠れ層で構成し、活性化関数としてReLU関数を用いて構成してもよい。学習モデルは、学習装置20において深層学習(Deep learning)により学習され、各層に適用される重み及び閾値を含むパラメータが学習される。なお、学習モデルは、他のアルゴリズムを用いた学習モデルであってもよい。また、上記した入力層、隠れ層、活性化関数は一例であるので、異なるように構成された学習モデルであってもよい。
 決定部15は、合成画像における等距離領域、手前領域及び奥領域の少なくとも1つの領域に基づいて、入力画像に含まれる人物の前後関係を決定する。
 決定部15は、合成画像における等距離領域に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部15は、合成画像における等距離領域を、入力画像に含まれる人物の人物領域と特定し、特定された人物領域の各々について、手前領域及び奥領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定する。そして、決定部15は、決定された、各人物領域と、当該人物領域に隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。もしくは、決定部15は、合成画像における等距離領域、手前領域及び奥領域のうちの2つ以上を組み合わせて入力領域に含まれる人物の前後関係を決定してもよい。
 本実施の形態では、決定部15は、合成画像に含まれる等距離領域、手前領域及び奥領域を用いて入力画像に含まれる人物の前後関係を決定する。なお、決定部15が行う人物の前後関係の決定処理については後述する。
 <学習モデル>
 次に、モデル記憶部14に記憶された学習モデルについて説明する。上述したように、学習モデルは、推定領域に含まれる所定の画素ブロック毎に、予め定義された複数の領域パターンのうち一致する領域パターンを出力する学習モデルである。
 ここで、図6を用いて、複数の領域パターンについて説明する。図6は、領域パターンを説明するための図である。図6に記載されている数字は、領域パターンの番号を示しており、数字の下に記載された図は、各領域パターンの概念図を示している。
 各領域パターンの概念図の中に含まれる実線は、撮像装置からの距離が異なる境界線を示している。F(斜線でハッチングされた領域)は手前領域を表しており、B(縦線でハッチングされた領域)は奥領域を表している。領域パターンの番号が1~8の領域パターンは、境界線と、手前領域と、奥領域との配置関係がそれぞれ異なる領域パターンであり、撮像装置からの距離(深度)の勾配を示す奥行勾配方向がそれぞれ異なる領域パターンである。換言すると、領域パターンの番号が1~8の領域パターンは、手前領域から奥領域に向けた勾配方向がそれぞれ異なる領域パターンである。また、領域パターンの番号が1~8の領域パターンは、手前領域と、奥領域と、境界線との配置パターンがそれぞれ異なる領域パターンであるとも言える。
 図6に示すように、領域パターンの番号が1~8の領域パターンは、奥行勾配方向がそれぞれ異なる8方向に対応する。なお、領域パターンの番号が1~8は、奥行勾配方向がそれぞれ異なる8方向に対応する領域パターンであるが、奥行勾配方向が8方向の間の方向を含めた16方向に対応する領域パターンを設けるようにしてもよい。
 領域パターンの番号が9の領域パターンは、撮像装置からの距離が等距離の領域を示す領域パターンであり、等距離領域を抽出する領域パターンである。
 以上のように、複数の領域パターン(パターン1~9)を定義する。そして、学習モデルは、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する。
 <生成処理>
 次に、図4、図5及び図7~図14を用いて、生成部13が行う各領域の抽出及び画像の生成処理について説明する。図7~図14は、生成処理を説明するための図である。
 生成部13は、モデル記憶部14に記憶された学習モデルを用いて入力画像のうち、人物が存在すると推定される推定領域に含まれる所定の画素ブロック毎に、処理対象画素を変更させながら複数の領域パターンのうち一致する領域パターンを出力する。生成部13は、推定領域に含まれる所定の画素ブロックに対して、出力された領域パターンを適用して等距離領域、又は境界線、手前領域及び奥領域を抽出する。
 生成部13は、学習モデルから領域パターンの番号が9の領域パターンが出力された画素ブロックに対して当該領域パターンを適用して等距離領域を抽出し、図4に示す画像を生成する。
 生成部13は、学習モデルから領域パターンの番号が1の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図7に示す画像を生成する。図7は、境界線が合成画像の左右方向であり、境界線に対して手前領域が合成画像の下側に存在し、境界線に対して奥領域が合成画像の上側に存在する領域である。つまり、生成部13は、領域パターンの番号が1に一致する領域を抽出した画像を生成する。
 生成部13は、学習モデルから領域パターンの番号が2の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図8に示す画像を生成する。図8は、境界線が合成画像の左下から右上に向かう斜め方向であり、境界線に対して手前領域が合成画像の右下側に存在し、境界線に対して奥領域が合成画像の左上側に存在する領域である。つまり、生成部13は、領域パターンの番号が2に一致する領域を抽出した画像を生成する。
 生成部13は、同様に、学習モデルから領域パターンの番号が3~8の領域パターンが出力された画素ブロックに当該領域パターンを適用して境界線と、手前領域と、奥領域とを抽出し、図9~14に示す画像を生成する。なお、図9~図14は、それぞれ、領域パターンが3~8に対応する図である。
 生成部13は、各領域パターンから生成された画像を合成して、図5に示す合成画像を生成する。このように、生成部13は、学習モデルにより出力された領域パターンの画素ブロックから等距離領域、境界線、手前領域及び奥領域を抽出して、抽出した各領域を合成して合成画像を生成する。
 <決定処理>
 次に、図15及び図16を用いて、決定部15が行う人物の前後関係を決定する決定処理について説明する。図15及び図16は、決定処理を説明するための図である。
 まず、決定処理の概要について説明する。
 決定部15は、合成画像に含まれる等距離領域に基づき人物領域を特定する。決定部15は、特定された人物領域の各々の下端線に基づいて入力画像に含まれる人物の前後関係を決定する。
 決定部15は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、各人物領域と、隣接する人物領域との前後関係を決定する。決定部15は、特定された各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域の距離を用いて、手前領域が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する。決定部15は、奥領域が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する。
 決定部15は、各人物領域の下端線を用いて決定された人物領域の前後関係の決定処理の結果と、各人物領域について、隣接する人物領域との前後関係の決定処理の結果とを用いて、入力画像に含まれる人物の前後関係を決定する。
 次に、図15を用いて、各人物領域の下端線及び各人物領域の画素数を用いた決定処理について説明する。図15は、図5の合成画像を模式化した図であり、図4の領域U1に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、図15には、生成部13が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。
 決定部15は、合成画像に座標を設定する。決定部15は、例えば、合成画像の左下の端点を原点座標に設定し、合成画像の右方向をX軸正方向とし、合成画像の上方向をY軸正方向として設定する。決定部15は、等距離領域で囲まれた領域を人物領域として特定する。図15に示すように、決定部15は、人物領域P1~P11と特定する。
 決定部15は、人物領域P1~P11のそれぞれに対して下端線を決定する。各人物領域の下端線のY座標が小さい場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部15は、下端線のY座標が小さい方から順に、撮像装置から近い位置に存在する人物の人物領域として決定する。決定部15は、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定する。
 例えば、人物領域P1の下端線のY座標がY1、人物領域P2の下端線のY座標がY2、人物領域P3の下端線のY座標がY3、人物領域P4の下端線のY座標がY4、人物領域P5の下端線のY座標がY5であるとする。また、Y1<Y2<Y3<Y4<Y5であるとする。この場合、決定部15は、人物領域P1、P2、P3、P4及びP5の順に撮像装置から近い位置に存在する人物の人物領域として決定する。決定部15は、人物領域P6~P11に対しても同様の決定処理を行う。
 人物領域P6~P11については、下端線が他の人物領域に隣接しており、他の人物領域と重なっている人物領域と判断することができる。そのため、人物領域P6~P11については、正確な前後関係を決定することができない可能性があるため、決定部15は、人物領域の下端線に基づいて、一時的に前後関係を決定する。そして、決定部15は、人物領域の下端線が、他の人物領域と重なっている人物領域について、後述する決定処理の結果を適用して、入力画像に含まれる人物の前後関係を決定する。
 なお、決定部15は、各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域を決定し、決定した結果に基づいて、入力画像に含まれる人物の前後関係を決定してもよい。
 各人物領域に含まれる画素数が多い場合、撮像装置に近い位置に存在する人物であると考えられる。そのため、決定部15は、各人物領域に含まれる画素数を算出して、算出された画素数が多い順に、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
 また、決定部15は、各人物領域の下端線のY座標と、各人物領域に含まれる画素数とに対して重み付けを行ってもよい。そして、決定部15は、重み付けされた、各人物領域の下端線のY座標及び各人物領域に含まれる画素数に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
 また、決定部15は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、人物領域の上端線に基づいて、撮像装置から近い位置に存在する人物の人物領域として決定してもよい。
 各人物領域の下端線のY座標が大きい場合、撮像装置から遠い位置に存在する人物であると考えられる。そのため、決定部15は、人物領域の下端線が他の人物領域と隣接する人物領域に対して、上端線のY座標が大きい方から順に、撮像装置から遠い位置に存在する人物の人物領域として決定してもよい。
 次に、図16について説明する。図16は、図15と同様の図であり、図5の合成画像を模式化した図であり、図4の領域U1に対応する領域を示している。実線で囲まれた領域は、等距離領域を示している。点線は、境界線を示しており、斜線でハッチングされた領域は、手前領域を示し、縦線でハッチングされた領域は、奥領域を示している。なお、図15には、生成部13が抽出した境界線、手前領域及び奥領域のうち、等距離領域同士が隣り合う部分のみの境界線、手前領域及び奥領域を示している。
 決定部15は、例えば、合成画像において、ある人物領域と隣接する人物領域とについて、所定の距離未満の人物領域を隣接する人物領域として決定する。決定部15は、人物領域P3~P11を、他の人物領域と隣接している人物領域として特定する。決定部15は、他の人物領域と隣接している人物領域P3~P11の各々について、手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部15は、各人物領域についての隣接する人物領域との前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。
 例えば、人物領域P3と、人物領域P5とは隣接する人物領域である。人物領域P3を基準として、人物領域P5との前後関係を決定する場合、人物領域P3と人物領域P5との間の領域U3に注目する。
 領域U3には、手前領域と奥領域とが含まれている。領域U3に含まれる手前領域は、人物領域P3と隣接している。つまり、人物領域P3は、人物領域P5よりも領域U3に含まれる手前領域に距離が近い。
 一方、領域U3に含まれる奥領域は、人物領域P5と隣接している。つまり、人物領域P5は、人物領域P3よりも領域U3に含まれる奥領域に距離が近い。そのため、決定部15は、手前領域と隣接し、距離が近い人物領域P3の人物を人物領域P5の人物よりも前に位置すると決定する。また、決定部15は、奥領域と隣接し、距離が近い人物領域P5の人物を人物領域P3の人物よりも後ろに位置すると決定する。
 例えば、人物領域P3を基準として、人物領域P8との前後関係を決定する場合、人物領域P3と人物領域P8との間の手前領域は、人物領域P3と隣接し、距離が近い。人物領域P3と人物領域P8との間の奥領域は、人物領域P8と隣接し、距離が近い。そのため、決定部15は、人物領域P3の人物を人物領域P8の人物よりも前に位置し、物領域P5の人物を人物領域P3の人物よりも後ろに位置すると決定する。その他の人物領域についても同様に、決定部15は、各人物領域についての隣接する人物領域との前後関係を決定する。
 決定部15は、人物領域P1~P11の下端線から決定した前後関係の決定処理の結果と、各人物領域についての隣接する人物領域との前後関係の決定処理の結果とを用いて、人物領域P1~P11について前後関係を決定する。
 決定部15は、人物領域P1~P11について前後関係を決定すると、合成画像の下側に存在する人物領域(撮像装置から近い人物の人物領域)から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部15は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。
 なお、決定部15は、人物領域P1~P11について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して前後関係が正しく判定出来なかったことを示すフラグを設定してもよい。もしくは、決定部15は、人物領域P1~P11について、前後関係が正確に判定できない場合、判定出来なかった人物領域に対して、同一のラベル番号を設定し、前後関係が正しく判定出来なかったことを示してもよい。
 <学習装置の構成例>
 次に、図17を用いて、学習装置20の構成例について説明する。図17は、実施の形態2にかかる学習装置の構成例を示す図である。学習装置20は、未学習の学習モデルを学習して、学習済みの学習モデルを生成する。学習装置20は、入力部21と、データ記憶部22と、モデル記憶部23と、学習部24とを備える。
 入力部21は、学習用画像及び教師データのペアを学習データとして入力する。入力部21は、入力された画像をデータ記憶部22に記憶する。
 データ記憶部22は、入力部21に入力された学習データを記憶する。
 モデル記憶部23は、未学習の学習モデル(学習中の学習モデルも含む)及び学習済みの学習モデルの少なくとも一方を記憶する。
 学習部24は、データ記憶部22に入力された学習データを用いて、未学習の学習モデルを学習する。学習部24は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部24は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部23に記憶する。なお、学習部24は、未学習の学習モデルを学習済みの学習モデルにより更新してもよい。なお、学習部24により生成された学習済みの学習モデルは、画像処理装置10の管理者、運用者等により、画像処理装置10のモデル記憶部14に格納される。
 <画像処理装置の動作例>
 次に、図18を用いて、画像処理装置10の動作例について説明する。図18は、実施の形態2にかかる画像処理装置の動作例を説明する図である。
 まず、入力部11は、処理対象の画像(入力画像)を入力する(ステップS1)。入力部11は、監視カメラにより撮像された画像を、監視カメラに接続されたサーバ装置から入力し、データ記憶部12に記憶する。
 生成部13は、入力画像において、人物が含まれると推定される推定領域を推定する(ステップS2)。生成部13は、データ記憶部12から入力画像と、背景画像とを取得する。生成部13は、背景画像と入力画像とを用いて、例えば、背景差分法(背景差分処理)により、入力画像のうち、人物が含まれると推定される領域を示す推定領域を推定する。
 生成部13は、学習済みの学習モデルに基づいて、推定領域から等距離領域を抽出する(ステップS3)。生成部13は、モデル記憶部14に記憶された学習済みの学習モデルを取得する。生成部13は、取得した学習モデルに基づいて、推定領域から、監視カメラからの距離が等しいと推定される領域を示す等距離領域を抽出する。生成部13は、抽出された等距離画像を生成する。
 生成部13は、学習済みの学習モデルに基づいて、推定領域から境界線、手前領域及び奥領域を抽出する(ステップS4)。生成部13は、学習モデルに基づいて、入力画像のうち、等距離領域の周辺領域から、境界線と、手前領域と、奥領域とを抽出する。生成部13は、境界線、手前領域及び奥領域を抽出すると、データ記憶部12に記憶されている、等距離画像と、境界線、手前領域及び奥領域とを合成して、合成画像を生成する。生成部13は、生成した合成画像をデータ記憶部12に記憶する。
 なお、ステップS3及びステップS4は、同時に実行されてもよい。モデル記憶部14に記憶された学習モデルは、推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致するパターンを出力する学習モデルである。そのため、生成部13は、学習モデルを用いることにより、等距離領域、境界線、手前領域及び奥領域を一度に抽出することができる。したがって、生成部13は、等距離領域、境界線、手前領域及び奥領域を一度に抽出して、等距離画像を生成せずに、合成画像を生成するようにしてもよい。
 決定部15は、合成画像における等距離領域を人物領域と特定し(ステップS5)、各人物領域の下端線から各人物領域の前後関係を決定する(ステップS6)。決定部15は、合成画像にXY座標系を設定する。決定部15は、各人物領域の下端線を算出し、下端線のY座標に基づいて、各人物領域の前後関係を決定する。
 決定部15は、各人物領域について、隣接する人物領域との前後関係を決定する(ステップS7)。決定部15は、合成画像において、各人物領域に対して、隣接する人物領域を決定する。決定部15は、各人物領域について、隣接する人物領域との間に含まれる手前領域及び奥領域に基づいて、隣接する人物領域との前後関係を決定する。決定部15は、各人物領域について、比較対象の隣接する人物領域との間に含まれる手前領域と隣接する人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。決定部15は、各人物領域について、比較対象の隣接する人物領域との間に含まれる奥領域と隣接する人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。
 決定部15は、入力画像に含まれる人物の前後関係を決定する(ステップS8)。決定部15は、ステップS6及びS7において決定した結果に基づいて、各人物領域の前後関係を決定する。決定部15は、各人物領域の前後関係を決定すると、合成画像の下側に存在する人物領域(撮像装置から近い人物の人物領域)から順に、撮像装置からの距離の順序を示すラベル番号を設定する。決定部15は、設定したラベル番号に基づいて、入力画像に含まれる人物の前後関係を決定する。
 <学習装置の動作例>
 次に、図19を用いて、学習装置20の動作例について説明する。図19は、実施の形態2にかかる学習装置の動作例を示す図である。
 入力部21は、学習データを入力する(ステップS11)。入力部21は、学習用画像及び教師データのペアを学習データとして入力する。入力部21は、入力された画像をデータ記憶部22に記憶する。
 学習部24は、学習済みの学習モデルを生成する(ステップS12)。学習部24は、データ記憶部22に入力された学習データを用いて、未学習の学習モデルを学習する。学習部24は、深層学習により学習し、各層に適用される重み及び閾値を含むパラメータを学習し、更新する。学習部24は、学習が終了すると、学習済みの学習モデルを生成してモデル記憶部23に記憶する。
 以上説明したように、生成部13は、入力画像において、人物が含まれると推定される推定領域から、撮像装置からの距離が等しいと推定される等距離領域を抽出する。入力画像において、複数の人物が重なる領域が含まれている場合、重なっている人物の人物領域は、撮像装置からの距離が異なると推定される。そのため、生成部13が等距離領域を抽出することにより、等距離領域を入力画像に含まれる各人物の人物領域と特定することが可能となる。したがって、画像処理装置10によれば、画像に含まれる人物の人物領域を精度良く特定することが可能となる。
 また、等距離領域を抽出することにより、入力画像に含まれる人物の人物領域を特定することができるので、画像処理装置10を用いることにより、入力画像に含まれる人物の人数、人物が存在する位置等を特定することが可能となる。
 生成部13は、等距離領域に加えて、推定領域から手前領域及び奥領域を抽出する。決定部15は、等距離領域に基づいて、合成画像に含まれる人物領域を特定する。決定部15は、等距離領域、手前領域及び奥領域に基づいて、合成画像に含まれる各人物領域の前後関係を決定する。そして、決定部15は、各人物領域の前後関係に基づいて、入力画像に含まれる人物の前後関係を決定する。したがって、画像処理装置10によれば、入力画像に含まれる各人物の前後関係を特定することが可能となる。
 画像処理装置10を用いることにより、入力画像に含まれる各人物の前後関係を特定することができるので、例えば、各時刻において撮像された画像を入力して、入力された画像に含まれる特定人物の位置を特定することができる。したがって、画像処理装置10を用いることにより、例えば、特定人物の追跡を行うことが可能となる。
 (変形例)
 実施の形態2では、生成部13は、手前領域及び奥領域を抽出することで説明を行ったが、手前領域及び奥領域のうちのいずれか一方を抽出するようにしてもよい。この場合、決定部15は、各人物領域について、隣接する人物領域との前後関係を決定する決定処理において、抽出された手前領域又は奥領域を用いる。
 生成部13が抽出した領域が手前領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる手前領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも前に位置すると決定する。
 生成部13が抽出した領域が奥領域であれば、各人物領域と、比較対象の隣接する人物領域の間に含まれる奥領域と隣接する距離が近い人物領域の人物が、他方の人物領域の人物よりも後ろに位置すると決定する。このようにしても、実施の形態2と同様の効果を得ることが可能となる。
 (他の実施の形態)
 上述した実施の形態において説明した画像処理装置1、10及び学習装置20(以下、画像処理装置1等と称する)は、次のようなハードウェア構成を有していてもよい。図20は、本開示の各実施の形態にかかる画像処理装置等を実現可能な、コンピュータ(情報処理装置)のハードウェア構成を例示するブロック図である。
 図20を参照すると、画像処理装置1等は、プロセッサ1201及びメモリ1202を含む。プロセッサ1201は、メモリ1202からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された画像処理装置1等の処理を行う。プロセッサ1201は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ1201は、複数のプロセッサを含んでもよい。
 メモリ1202は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1202は、プロセッサ1201から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1201は、図示されていないI/Oインターフェースを介してメモリ1202にアクセスしてもよい。
 図20の例では、メモリ1202は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1201は、これらのソフトウェアモジュール群をメモリ1202から読み出して実行することで、上述の実施形態において説明された画像処理装置1等の処理を行うことができる。
 図20を用いて説明したように、画像処理装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
 上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 撮像装置により撮像された第1画像を入力する入力部と、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成する生成部と、を備える画像処理装置。
 (付記2)
 前記生成部は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
 前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定する決定部を備える、付記1に記載の画像処理装置。
 (付記3)
 前記決定部は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも1つに基づいて、前記第1画像に含まれる人物の前後関係を決定する、付記2に記載の画像処理装置。
 (付記4)
 前記決定部は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第2領域及び前記第3領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第1画像に含まれる人物の前後関係を決定する、付記2又は3に記載の画像処理装置。
 (付記5)
 前記決定部は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第2領域及び前記第3領域のうちの少なくとも1つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、付記4に記載の画像処理装置。
 (付記6)
 前記決定部は、前記生成部が前記第2領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第2領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する、付記5に記載の画像処理装置。
 (付記7)
 前記決定部は、前記生成部が前記第3領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第3領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する、付記5又は6に記載の画像処理装置。
 (付記8)
 前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
 前記生成部は、前記出力された領域パターンに基づいて、前記推定領域から、前記第1領域と、前記第2領域及び前記第3領域のうちの少なくとも1つの領域と、を抽出する、付記2~7のいずれか1項に記載の画像処理装置。
 (付記9)
 前記複数の領域パターンは、前記第1領域を抽出するための第1パターンと、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を抽出するための複数の第2パターンとを含む、付記8に記載の画像処理装置。
 (付記10)
 前記複数の第2パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、付記9に記載の画像処理装置。
 (付記11)
 前記複数の第2パターンは、前記奥行勾配方向が8方向又は16方向のそれぞれに対応するパターンである、付記10に記載の画像処理装置。
 (付記12)
 撮像装置により撮像された第1画像を入力することと、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、を含む画像処理方法。
 (付記13)
 撮像装置により撮像された第1画像を入力することと、
 学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、をコンピュータに実行させるプログラム。
 この出願は、2019年3月11日に出願された日本出願特願2019-044273を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1、10 画像処理装置
 2、11、21 入力部
 3、13 生成部
 12、22 データ記憶部
 14、23 モデル記憶部
 15 決定部
 20 学習装置
 24 学習部

Claims (13)

  1.  撮像装置により撮像された第1画像を入力する入力手段と、
     学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成する生成手段と、を備える画像処理装置。
  2.  前記生成手段は、前記学習モデルに基づいて、前記推定領域から、前記撮像装置との距離が異なる境界線よりも前記撮像装置からの距離が短い第2領域、及び前記境界線よりも前記撮像装置からの距離が長い第3領域のうちの少なくとも1つの領域を抽出し、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を含む前記第2画像を生成し、
     前記第1領域と、前記第2領域及び前記第3領域の少なくとも1つの領域とに基づいて、前記第1画像に含まれる人物の前後関係を決定する決定手段を備える、請求項1に記載の画像処理装置。
  3.  前記決定手段は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々の下端線、上端線、及び前記特定された人物領域の各々に含まれる画素数のうちの少なくとも1つに基づいて、前記第1画像に含まれる人物の前後関係を決定する、請求項2に記載の画像処理装置。
  4.  前記決定手段は、前記第1領域に基づき人物領域を特定し、前記特定された人物領域の各々について、前記第2領域及び前記第3領域のうちの少なくとも1つの領域に基づいて、隣接する人物領域との前後関係を決定し、各人物領域についての前記隣接する人物領域との前後関係に基づいて、前記第1画像に含まれる人物の前後関係を決定する、請求項2又は3に記載の画像処理装置。
  5.  前記決定手段は、前記特定された人物領域の各々と、前記隣接する人物領域との間に含まれる前記第2領域及び前記第3領域のうちの少なくとも1つの領域との距離に基づいて、前記特定された各人物領域の人物と、前記隣接する人物領域の人物との前後関係を決定する、請求項4に記載の画像処理装置。
  6.  前記決定手段は、前記生成手段が前記第2領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第2領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも前に位置すると決定する、請求項5に記載の画像処理装置。
  7.  前記決定手段は、前記生成手段が前記第3領域を抽出する場合、前記特定された各人物領域及び前記隣接する人物領域のうち、前記特定された各人物領域と、前記隣接する人物領域との間に含まれる前記第3領域との距離が近い一方の人物領域の人物を他方の人物領域の人物よりも後ろに位置すると決定する、請求項5又は6に記載の画像処理装置。
  8.  前記学習モデルは、前記推定領域に含まれる所定の画素ブロック毎に、複数の領域パターンのうち一致する領域パターンを出力する学習モデルであり、
     前記生成手段は、前記出力された領域パターンに基づいて、前記推定領域から、前記第1領域と、前記第2領域及び前記第3領域のうちの少なくとも1つの領域と、を抽出する、請求項2~7のいずれか1項に記載の画像処理装置。
  9.  前記複数の領域パターンは、前記第1領域を抽出するための第1パターンと、前記第2領域及び前記第3領域のうちの少なくとも1つの領域を抽出するための複数の第2パターンとを含む、請求項8に記載の画像処理装置。
  10.  前記複数の第2パターンは、前記撮像装置との距離の勾配方向を示す奥行勾配方向がそれぞれ異なるパターンである、請求項9に記載の画像処理装置。
  11.  前記複数の第2パターンは、前記奥行勾配方向が8方向又は16方向のそれぞれに対応するパターンである、請求項10に記載の画像処理装置。
  12.  撮像装置により撮像された第1画像を入力することと、
     学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、を含む画像処理方法。
  13.  撮像装置により撮像された第1画像を入力することと、
     学習済みの学習モデルに基づいて、前記第1画像のうち人物が含まれると推定される推定領域から、前記撮像装置からの距離が等しいと推定される第1領域を抽出し、前記第1領域を含む第2画像を生成することと、をコンピュータに実行させるプログラムを格納した非一時的なコンピュータ可読媒体。
PCT/JP2020/004495 2019-03-11 2020-02-06 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体 WO2020184006A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021505596A JP7248345B2 (ja) 2019-03-11 2020-02-06 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019044273 2019-03-11
JP2019-044273 2019-03-11

Publications (1)

Publication Number Publication Date
WO2020184006A1 true WO2020184006A1 (ja) 2020-09-17

Family

ID=72427907

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004495 WO2020184006A1 (ja) 2019-03-11 2020-02-06 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体

Country Status (2)

Country Link
JP (1) JP7248345B2 (ja)
WO (1) WO2020184006A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881025B1 (en) * 2022-07-11 2024-01-23 Hewlett-Packard Development Company, L.P. Compound images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293687A (ja) * 1999-02-02 2000-10-20 Minolta Co Ltd 3次元形状データ処理装置および3次元形状データ処理方法
JP2015082245A (ja) * 2013-10-23 2015-04-27 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2017027197A (ja) * 2015-07-17 2017-02-02 富士通株式会社 監視プログラム、監視装置、及び監視方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293687A (ja) * 1999-02-02 2000-10-20 Minolta Co Ltd 3次元形状データ処理装置および3次元形状データ処理方法
JP2015082245A (ja) * 2013-10-23 2015-04-27 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2017027197A (ja) * 2015-07-17 2017-02-02 富士通株式会社 監視プログラム、監視装置、及び監視方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881025B1 (en) * 2022-07-11 2024-01-23 Hewlett-Packard Development Company, L.P. Compound images

Also Published As

Publication number Publication date
JPWO2020184006A1 (ja) 2021-12-09
JP7248345B2 (ja) 2023-03-29

Similar Documents

Publication Publication Date Title
US20190098277A1 (en) Image processing apparatus, image processing method, image processing system, and storage medium
JP6351238B2 (ja) 画像処理装置、撮像装置および距離補正方法
JP6866889B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20150228081A1 (en) Method and apparatus for reconstructing 3d face with stereo camera
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
KR20190028349A (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
JP5015126B2 (ja) 画像生成方法、画像認証方法、画像生成装置、画像認証装置、プログラム、および記録媒体
CN110956114A (zh) 人脸活体检测方法、装置、检测系统及存储介质
KR20170091496A (ko) 양안 시차 영상의 처리 방법 및 장치
JP6007523B2 (ja) 生成装置、生成プログラムおよび生成方法
JPWO2018207365A1 (ja) 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
CN113221767B (zh) 训练活体人脸识别模型、识别活体人脸的方法及相关装置
JP2010121945A (ja) 3次元形状生成装置
CN104184936B (zh) 基于光场相机的影像对焦处理方法及其系统
WO2020184006A1 (ja) 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体
JP6583923B2 (ja) カメラのキャリブレーション装置、方法及びプログラム
CN110062132B (zh) 剧场表演重建方法及装置
EP3699865B1 (en) Three-dimensional face shape derivation device, three-dimensional face shape deriving method, and non-transitory computer readable medium
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP2009301242A (ja) 頭部候補抽出方法、頭部候補抽出装置、頭部候補抽出プログラムおよびそのプログラムを記録した記録媒体
JP2009009206A (ja) 画像中の輪郭抽出方法及びその画像処理装置
US20230419605A1 (en) Map generation apparatus, map generation method, and non-transitory computer-readable medium storing program
JP2019139517A (ja) 学習装置、推定装置、学習方法、推定方法及びコンピュータプログラム
JP6350331B2 (ja) 追尾装置、追尾方法及び追尾プログラム
JP2015033047A (ja) 複数カメラを用いた奥行き推定装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20770910

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021505596

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20770910

Country of ref document: EP

Kind code of ref document: A1