WO2013145615A1 - 部位推定装置、部位推定方法、および部位推定プログラム - Google Patents
部位推定装置、部位推定方法、および部位推定プログラム Download PDFInfo
- Publication number
- WO2013145615A1 WO2013145615A1 PCT/JP2013/001777 JP2013001777W WO2013145615A1 WO 2013145615 A1 WO2013145615 A1 WO 2013145615A1 JP 2013001777 W JP2013001777 W JP 2013001777W WO 2013145615 A1 WO2013145615 A1 WO 2013145615A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- likelihood
- likelihood map
- continuity
- edge pair
- region
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Definitions
- the present invention relates to a part estimation device, a part estimation method, and a part estimation program for estimating a part of an articulated object such as a person, an animal, or a robot.
- the posture estimation apparatus can determine a human behavior from a moving image by computer analysis, and can perform a behavior analysis without depending on human hands.
- the behavior analysis includes, for example, abnormal behavior detection in the street, purchase behavior analysis in a store, work efficiency improvement support in a factory, and form guidance in sports.
- Patent Document 1 describes a technique for estimating the posture of a person based on an image obtained by photographing the person with a monocular camera.
- Patent Document 1 The technique described in Patent Document 1 (hereinafter referred to as “conventional technique”) first extracts part candidates based on an elliptical shape or parallel lines included in an image of a person photographed. Next, the conventional technique calculates a part likelihood and a part relation likelihood using a likelihood function statistically obtained from a plurality of sample images. Then, the conventional technique calculates an optimal combination of site candidates based on the calculated likelihood. Therefore, the prior art can specify which region is located in which region, and can estimate the posture of a person regardless of the position or orientation of the person.
- the conventional technique has a problem that the part cannot be estimated with high accuracy depending on the imaging conditions. This is because the conventional technique is based on the premise that the contour of a part is extracted from a captured image with parallel lines. However, in practice, it is difficult to extract only the outline of the part as a parallel line due to the wrinkles or shadows of the clothes of the part and the shape or shadow of the object in the background of the part.
- An object of the present invention is to estimate the position of an articulated object with high accuracy.
- the part estimation apparatus provides, for each pixel in an image, an edge pair likelihood indicating a likelihood that a pair of pixels existing in the vicinity of the pixel is an edge of a part to be estimated.
- An edge pair likelihood map generating unit that calculates and generates an edge pair likelihood map indicating the edge pair likelihood for each pixel, and the edge pair likelihood map is included in a region that assumes the part to be estimated
- a continuity likelihood map generating unit that evaluates continuity for the edge pair likelihood of a pixel, and generates a continuity likelihood map that indicates the continuity edge pair likelihood as a candidate region indicating the part that is the estimation target;
- An integrated likelihood map generating unit that generates an integrated likelihood map that narrows down the candidate areas indicated by the continuity likelihood map based on a predetermined condition;
- an edge pair likelihood indicating the likelihood that a pair of pixels existing in the vicinity of the pixel is an edge of a part to be estimated is calculated.
- a region estimation program is directed to a computer of an apparatus that inputs or generates an image, for each pixel in the image, a pair of pixels existing in the vicinity of the pixel is an edge of a region to be estimated
- Calculating an edge pair likelihood indicating the likelihood of being generating an edge pair likelihood map indicating the edge pair likelihood for each of the pixels, and, for the edge pair likelihood map, a portion that is the estimation target
- the part of an articulated object can be estimated with high accuracy.
- the system block diagram which shows an example of a structure of the site
- the block diagram which shows an example of a structure of the site
- the flowchart which shows an example of operation
- the figure for demonstrating the edge pair likelihood map generation process in Embodiment 2 of this invention The figure which shows an example of the edge pair likelihood map in Embodiment 2 of this invention.
- the block diagram which shows an example of a structure of the site
- Embodiment 1 of the present invention is an example of a basic aspect of the present invention.
- FIG. 1 is a block diagram showing an example of the configuration of the part estimation apparatus according to the present embodiment.
- the part estimation apparatus 100 includes an edge pair likelihood map generation unit 120, a continuity likelihood map generation unit 130, and an integrated likelihood map generation unit 140.
- the edge pair likelihood map generation unit 120 calculates the edge pair likelihood for each pixel in the image.
- the edge pair likelihood for each pixel is a numerical representation of the likelihood that a pixel existing in the vicinity of the pixel is the edge of a part to be estimated (hereinafter referred to as “target part”). .
- the edge pair likelihood map generation unit 120 calculates an edge pair likelihood based on an edge pair that exists in the vicinity of a pixel and is parallel to a predetermined gradient direction. Then, the edge pair likelihood map generation unit 120 generates an edge pair likelihood map indicating the calculated edge pair likelihood for each pixel.
- the “part” refers to a part of a human articulated object.
- the term “human” here is a concept including all articulated objects including articulated objects such as human bodies, animals, and robots.
- the continuity likelihood map generation unit 130 evaluates the continuity of the edge pair likelihood of the pixels included in the region assuming the size or shape of the target part with respect to the edge pair likelihood map. Then, the continuity likelihood map generation unit 130 generates a continuity likelihood map indicating the edge pair likelihood having continuity as a candidate for the region.
- the “part region” here means “region occupied by the target part” in the image, in other words, “region indicating the target part”.
- the integrated likelihood map generation unit 140 narrows down the candidate region regions indicated by the continuity likelihood map based on a predetermined condition, and generates an integrated likelihood map indicating the narrowed region region candidates.
- the part estimation apparatus 100 includes, for example, a CPU (Central Processing Unit), a storage medium such as a ROM (Read Only Memory) storing a control program, and a working memory such as a RAM (Random Access Memory).
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- Such a part estimation apparatus 100 can accurately estimate a part even in a complex image by the following operation.
- the “complex image” is, for example, an image in which an arm is overlapped with a torso, an image in which there are many wrinkles on clothes or edges of parallel lines due to artifacts.
- the edge pair likelihood map generation unit 120 calculates the edge pair likelihood for each pixel in the image based on an edge pair that exists in the vicinity of the pixel and is parallel to a predetermined gradient direction. Then, the edge pair likelihood map generation unit 120 generates an edge pair likelihood map indicating the calculated edge pair likelihood for each pixel.
- the width of the parallel lines is the thickness of the target part. Thereby, the edge pair likelihood map production
- the continuity likelihood map generation unit 130 evaluates the edge pair likelihood map as a target part.
- the edge pair likelihood for each pixel indicates the likelihood that the pixel existing in the vicinity of the pixel is the edge of the target part. Therefore, in the region where the target part exists in the image, the sum of the edge pair likelihoods of the pixels included in the assumed region becomes large.
- the “assumed region” is a region in which the size or shape of the target part is assumed in advance.
- the continuity likelihood map generation unit 130 leaves the edge pair likelihood in the assumed region if the sum of the edge pair likelihoods in the assumed region is larger than a predetermined threshold with respect to the edge pair likelihood map. Alternatively, if the sum of the edge pair likelihoods in the assumed region is smaller than a predetermined threshold, the continuity likelihood map generation unit 130 indicates a value (for example, zero) indicating that there is no edge pair likelihood in the assumed region. May be set.
- the part estimation apparatus 100 does not filter the edge pair likelihood for each pixel with the threshold value, but leaves the edge pair likelihood of the pixels included in the region that is highly likely to be the part region. Thereby, part estimation apparatus 100 can leave pixels included in a region that is highly likely to be a part region even when the edge pair likelihood is low. Further, the part estimation apparatus 100 deletes the edge pair likelihood of pixels included in an area that has a low possibility of being a part area even if the edge pair likelihood is high. Thereby, the part estimation apparatus 100 can remove pixels included in a region that is not a part region, such as a shadow or a wrinkle.
- the part estimation apparatus 100 can accurately estimate the target part from an image in which it is difficult to extract only the outline of the target part as a parallel line as compared with the conventional technique.
- the second embodiment of the present invention is an example of a specific mode when the present invention is applied to an apparatus for estimating a human part included in an image.
- FIG. 2 is a system configuration diagram showing an example of the configuration of the part estimation system in the present embodiment.
- the part estimation system 200 includes a monitoring camera 320 that captures an image of a monitoring area 310 and a part estimation apparatus 100 that is communicably connected to the monitoring camera 320.
- the surveillance camera 320 is a digital video camera, for example, and photographs the surveillance area 310 from diagonally above. That is, the image photographed by the monitoring camera 320 is an image obtained by photographing a real space including the person 340 and the horizontal floor surface 330. Then, the monitoring camera 320 transmits the captured image to the part estimation device 100.
- a person 340 who is an object of site estimation is walking on the floor 330 of the monitoring area 310.
- the part estimation apparatus 100 is, for example, a personal computer, and estimates the part of the person 340 based on the image received from the monitoring camera 320.
- FIG. 3 is a diagram showing an example of a body constitutive model (hereinafter referred to as “body model”) 410 of the person 340.
- the body model 410 schematically shows the positional relationship of each part of the body used for estimating the part.
- the body model 410 includes, for example, the torso 411, the left thigh 412, the left lower leg 413, the left leg 414, the right thigh 415, the right lower leg 416, the right leg 417, the head 418, the upper right arm 419, the right forearm 420, the left upper arm 422, and the left forearm 423. including.
- region estimation apparatus 100 estimates the region of each region in body model 410 (the “region region”) from the image using the connection relationship between the regions. Note that the body model used by the part estimation apparatus 100 is not limited to the example shown in FIG.
- FIG. 4 is a block diagram showing an example of the configuration of the part estimation apparatus 100.
- region estimation apparatus 100 includes image input unit 110, edge pair likelihood map generation unit 120, continuity likelihood map generation unit 130, integrated likelihood map generation unit 140, and result output unit 150.
- the image input unit 110 inputs an image.
- the image input unit 110 receives an image captured by the monitoring camera 320. Then, the image input unit 110 sequentially outputs the received images to the edge pair likelihood map generation unit 120.
- the edge pair likelihood map generation unit 120 detects the edge of the image from the image input unit 110, and for each pixel included in the image (hereinafter referred to as “target pixel”), two pixels ( Hereinafter, “edge pair”) is detected. At this time, the edge pair likelihood map generation unit 120 detects two pixels that are on the straight line that is perpendicular to the gradient direction and includes the target pixel and that are equidistant from the target pixel as edge pairs. Then, the edge pair likelihood map generation unit 120 identifies a region in a predetermined range centered on each of the detected two pixels, and based on the sum of the luminances of the pixels in the identified two regions, the edge pair of the target pixel Calculate the likelihood.
- the edge pair likelihood map generation unit 120 generates an edge pair likelihood map indicating the calculated edge pair likelihood for each pixel.
- the edge pair likelihood for each pixel indicates the likelihood that a pixel existing in the vicinity of the pixel is the edge of the target part in numerical form.
- the edge pair likelihood map generation unit 120 generates an edge pair likelihood map for each of a plurality of predefined gradient directions.
- edge pairs will be described.
- the two pixels constituting the edge pair are on a straight line that is perpendicular to the previously defined gradient direction and includes the target pixel, and are located at the same distance from the target pixel.
- the distance between the two pixels is the thickness of the target part.
- Such two pixels are referred to as “gradient direction pair pixels”.
- the two small regions centered on each gradient direction pair pixel are referred to as “gradient direction pair neighboring regions”.
- both of the gradient direction pair neighboring regions include pixels that are edges (hereinafter simply referred to as “edges”), they are referred to as “edge pairs exist” for the pixel of interest.
- edge pairs a set of pixels including edges included in the gradient direction pair neighboring region is referred to as “edge pair of target pixel”.
- the edge pair likelihood of the target pixel is calculated based on the edge pair of the target pixel. For example, when one edge in the vicinity of the gradient direction pair includes many edges, while the number of edges included in the other area in the vicinity of the gradient direction pair is small, the edge pair likelihood is low. A specific method for calculating the edge pair likelihood will be described later.
- edge pair likelihood map mapping of the calculated edge pair likelihood to all the pixels of the image.
- edge pair likelihoods included in the edge pair likelihood map are identified by specifying the x coordinate x, y coordinate y, and gradient direction k indicating the position of the pixel of interest.
- a region including all gradient direction pair regions defined in advance for the target pixel is referred to as a “local region”.
- the edge pair likelihood map generation unit 120 generates an edge pair likelihood map for each of a plurality of predefined gradient directions. After that, the edge pair likelihood map generation unit 120 outputs the generated edge pair likelihood map to the continuity likelihood map generation unit 130.
- the continuity likelihood map generation unit 130 evaluates the continuity of the edge pair likelihood of the pixels included in the assumed region with respect to the edge pair likelihood in the same gradient direction of the generated edge pair likelihood map, and the continuity likelihood Generate a map.
- the edge pair likelihood for each pixel is the likelihood that the pixel existing in the vicinity of the pixel is the edge of the target part. Accordingly, in the region where the target part exists in the image, the sum of the edge pair likelihoods of the pixels included in the assumed region becomes large.
- the continuity likelihood map generation unit 130 leaves the edge pair likelihood in the assumed region if the sum of the edge pair likelihoods in the assumed region is large for each of the edge pair likelihood maps for each gradient direction.
- the continuity likelihood map generation unit 130 may set a value (for example, zero) indicating that there is no edge pair likelihood in the assumed region if the sum of the edge pair likelihoods in the assumed region is small. Good.
- the integrated likelihood map generation unit 140 extracts a region that satisfies a predetermined target region condition from among region region candidates extracted from the continuity likelihood map for each gradient direction, and integrates the extracted region. Generate a likelihood map.
- the result output unit 150 outputs the result of the part estimation by the combined likelihood map generation unit 140.
- the result output unit 150 includes a display device such as a liquid crystal display.
- the result output unit 150 notifies the user of information indicating the part when the part is estimated, and information indicating that when the part is not estimated. Examples of the notification method include display using at least one of characters and images.
- the part estimation apparatus 100 includes, for example, a CPU, a storage medium such as a ROM storing a control program, and a working memory such as a RAM. In this case, the function of each component described above is realized by the CPU executing the control program.
- the image input unit 110 extracts an image obtained by extracting an area estimated as a person 340 (hereinafter referred to as “person candidate area”) from an image input from the monitoring camera 320 or the like. Assume that the data is output to the generation unit 120.
- image from which the human candidate area has been extracted refers to an image in which values indicating the background are stored in pixels other than the human candidate area, and pixel values are stored only for the pixels in the human candidate area.
- the background difference image between the image input from the monitoring camera 320 or the like and the background image may be used for extracting the human candidate area.
- the background difference image is, for example, an image indicating a difference between a background image captured without a person 340 and an input image.
- the part estimation apparatus 100 can handle pixels different from the background as human candidate regions in an image input from a monitoring camera or the like.
- the part estimation apparatus 100 may generate a background difference image by, for example, holding a background image in advance and calculating a difference between the background image and the input image. Or the part estimation apparatus 100 may produce
- the image input unit 110 outputs a grayscale image to the edge pair likelihood map generation unit 120.
- the image input unit 110 extracts a gray scale (monochrome gradation) obtained by extracting only the luminance Y (pixel brightness) from the RGB value of each pixel. ()) Convert to image and output.
- the luminance Y is calculated by the following formula, for example.
- Y (R, G, B) R x 0.29891 + G x 0.58661 + B x 0.11448
- the target region is an arm (upper right arm 419, right forearm 420, left upper arm 422, left forearm 423).
- the part estimation device 100 may estimate the part by distinguishing the forearm and the upper arm.
- the upper region in the image is extracted as an arm candidate region from the human candidate regions, and all pixels included in the arm candidate regions are processed.
- the upper region is determined in advance as, for example, a region including a part of a predetermined ratio (for example, 10% to 50% from the top) of the human candidate regions.
- FIG. 5 is a flowchart illustrating an example of the operation of the part estimation apparatus 100.
- step S1000 the image input unit 110 inputs image data for one frame.
- step S2000 the edge pair likelihood map generation unit 120 performs an edge pair likelihood map generation process based on the input image.
- the edge pair likelihood map generation process is a process of generating the above-described edge pair likelihood map. Details thereof will be described later with reference to FIGS.
- step S3000 the continuity likelihood map generation unit 130 performs continuity likelihood map generation processing based on the edge pair likelihood map.
- the continuity likelihood map generation process is a process for generating the above-described continuity likelihood map. Details thereof will be described later with reference to FIGS. 8 and 9.
- step S4000 the integrated likelihood map generation unit 140 performs an integrated likelihood map generation process based on the continuity likelihood map.
- the integrated likelihood map generation process is a process for generating the above-described integrated likelihood map. Details thereof will be described later with reference to FIG.
- step S5000 the result output unit 150 performs a result output process based on the integrated likelihood map.
- the result output process is a process for outputting information on the target part estimated in step S4000.
- the result output unit 150 superimposes the estimated candidate region for each image and displays it on the liquid crystal display.
- the result output unit 150 may display the information indicating the gradient direction of the candidate region of the part so that it can be distinguished by color or the like when superimposing.
- step S6000 the result output unit 150 determines whether or not a predetermined processing end condition set in advance is satisfied.
- the “predetermined process end condition” is an instruction to end the part estimation process by a user operation, for example.
- the result output unit 150 returns to step S1000 and repeats the process when the predetermined process end condition is not satisfied (S6000: NO). On the other hand, the result output unit 150 ends a series of processes when a predetermined process end condition is satisfied (S6000: YES).
- the part estimation device 100 extracts the most appropriate candidate area from the candidate areas of the target part extracted based on the edge pair likelihood for each pixel and the continuity likelihood for each assumed area.
- An integrated likelihood map can be generated. Thereby, the part estimation apparatus 100 can estimate the target part of the person 340 even if it is difficult to extract the outline of the part with a straight line.
- FIG. 6 is a flowchart showing an example of the operation of the edge pair likelihood map generation process (step S2000 in FIG. 5).
- FIG. 7 is a diagram for explaining edge pair likelihood map generation processing in which the gradient direction is the horizontal direction.
- the horizontal direction is 0 degree and an edge pair likelihood map in the horizontal direction is generated will be described.
- step S2001 the edge pair likelihood map generation unit 120 selects a step size in the gradient direction of the edge pair likelihood map to be generated.
- the step size is set to 30 degrees in advance. In this way, when the gradient direction is set in increments of 30 degrees, six edge pair likelihood maps of 0 degree, 30 degrees, 60 degrees, 90 degrees, 120 degrees, and 150 degrees are generated. Therefore, in that case, the edge pair likelihood map generation unit 120 repeats the processing from steps S2002 to S2007 six times.
- the step size in the gradient direction affects the estimation accuracy of the target part.
- the user may set the step size finely. For example, in the comparison between the case where the step size is set to 45 degrees and the case where the step size is set to 30 degrees, the estimation accuracy of the target part is higher when it is set to 30 degrees.
- the edge pair likelihood map generation unit 120 selects a target pixel from the arm candidate area 710.
- the arm candidate area 710 is an example of an image input from the image input unit 110.
- the edge pair likelihood map generation unit 120 increments the X coordinate and the Y coordinate by 1 each starting from the pixel in the upper left corner (the pixel indicated by *), thereby obtaining all the pixels illustrated in FIG. 7. Select as the pixel of interest.
- the selection method is not limited to this. In FIG. 7, a case where the target pixel 702 is selected from the arm candidate area 710 will be described as an example.
- step S2003 the edge pair likelihood map generation unit 120 selects a gradient direction pair pixel.
- 704 and 705 are selected as the gradient direction pair pixels.
- the edge pair likelihood map generation unit 120 selects two pixels 704 and 705 as gradient direction pair pixels as pixels satisfying the two conditions.
- the two conditions are that the target pixel 702 is on a straight line that is perpendicular to the horizontal line, and that the distance from the target pixel 702 is a length 703 that is half the thickness 701 of the target part. is there. That is, when generating the edge pair likelihood map of the angle ⁇ , the edge pair likelihood map generation unit 120 selects two gradient direction pair pixels.
- the gradient direction pair pixel is a pixel whose distance is a length 703 that is half the thickness 701 of the target part on a straight line ( ⁇ + 90 degrees) perpendicular to the angle ⁇ through the pixel of interest.
- the thickness 701 of the target part is a predetermined value that represents the average thickness of the target part.
- step S2004 the edge pair likelihood map generation unit 120 selects a group of pixels within a preset distance from each of the gradient direction pair pixels as the gradient direction pair neighboring region.
- pixel groups within the distance of the neighborhood length 708 from each of the gradient direction pair pixels 704 and 705 are selected as gradient direction pair neighborhood regions 706 and 707, respectively.
- the neighborhood length 708 is a predetermined value representing the length of the appearance error of the part.
- the length of the appearance error of the part is a difference in the thickness of the target part on the image.
- the target part may have different thicknesses at the end and the center of the part.
- the target part may be photographed with a different thickness on the image depending on the angle of photographing, or may be photographed with a different thickness at both ends of the part.
- the thickness of the target region may not be captured uniformly due to wrinkles on clothes. Therefore, in the present embodiment, robust estimation is possible by setting in advance the difference in the thickness of the part on the predetermined image as the length of the appearance error of the part with respect to the average thickness of the part. It becomes possible.
- the edge pair likelihood map generation unit 120 calculates the edge pair likelihood of the pixel of interest 702. Specifically, the edge pair likelihood map generation unit 120 calculates the product of the sum of the luminances of the pixels in the gradient direction pair neighboring region 706 and the sum of the luminances of the pixels in the gradient direction pair neighboring region 707 as the edge pair likelihood. Calculate as
- the edge pair likelihood map generation unit 120 calculates the number of pixels having a luminance Y greater than or equal to a predetermined value in the gradient direction pair neighboring region 706 and the pixels having the luminance Y greater than or equal to the predetermined value in the gradient direction pair neighboring region 707.
- the product of the numbers may be calculated as the edge pair likelihood.
- the edge pair likelihood map generation part 120 can normalize edge pair likelihood with the magnitude
- step S2006 the edge pair likelihood map generation unit 120 determines whether or not the calculation of the edge pair likelihood has been completed for all the pixels in the arm candidate region 710. If the calculation has been completed for all the pixels (S2006: YES), the edge pair likelihood map generation unit 120 determines that the generation of the edge pair likelihood map of the step size selected in step S2001 has been completed, and proceeds to step S2007. . On the other hand, if the calculation has not been completed for all the pixels (S2006: NO), the edge pair likelihood map generation unit 120 determines that the generation of the edge pair likelihood map of the step size selected in step S2001 has not been completed, The process proceeds to step S2002.
- step S2007 the edge pair likelihood map generation unit 120 determines whether or not the calculation of the edge pair likelihood is completed for all gradient directions. If the calculation has been completed for all gradient directions (S2007: YES), the edge pair likelihood map generation unit 120 determines that the generation of edge pair likelihood maps for all predetermined gradient directions has been completed, Terminate the process. On the other hand, if not finished for all gradient directions (S2007: NO), the edge pair likelihood map generation unit 120 determines that the generation of edge pair likelihood maps for all predetermined gradient directions has not been completed. . Therefore, the edge pair likelihood map generation unit 120 proceeds to step S2001 in order to generate an edge pair likelihood map in the gradient direction that has not been generated.
- the edge pair likelihood map generation unit 120 may adjust the value to an appropriate value by dynamically changing the value in proportion to the size of the person candidate region or the arm candidate region. Thereby, the edge pair likelihood map generation unit 120 can change the thickness 701 of the target part and the length 708 in the vicinity thereof to appropriate values according to the size of the person 340 on the image. As a result, the edge pair likelihood map generation unit 120 can generate a more accurate edge pair likelihood map for each gradient direction.
- the pixels in the region where the target part exists are more likely to have an edge in the region near each gradient direction pair than the pixels in the region where the target part does not exist. The degree becomes higher. Therefore, if the edge pair likelihood of only a specific pixel in the candidate region of the target region is high and the edge pair likelihood of the pixels around the specific pixel is low, the continuity likelihood map generation unit 130 Use what can be determined not to be an area.
- FIG. 8 is a diagram illustrating an example of an edge pair likelihood map that is a basis of a continuity likelihood map.
- FIG. 8 shows the edge pair likelihood of each pixel in the horizontal direction in a partial region 810 of the edge pair likelihood map.
- the continuity likelihood map generation unit 130 uses a part rectangle 801 that is an area assuming the size or shape of the target part in generating the continuity likelihood map.
- the part rectangle 801 is an example of an assumed region. In FIG. 8, the part rectangle 801 exemplifies a rectangle assuming the upper arm or the forearm.
- the continuity likelihood map generation unit 130 can set a part rectangle corresponding to the size or shape of the target part.
- the part rectangle 801 has illustrated the rectangle, you may use the ellipse according to the magnitude
- connection source and tip of the part tend to have a lower edge pair likelihood than the center of the part due to the influence of the shape of the connection part, the influence of the connection source and tip of the part can be reduced by making the part rectangle an ellipse.
- the candidate area can be extracted with higher accuracy.
- the short side assumes the average thickness of the target part
- the long side assumes the average length of the target part
- the continuity likelihood map generation unit 130 matches the direction of the long side of the part rectangle 801 with the gradient direction of the edge pair likelihood map. Then, the continuity likelihood map generation unit 130 evaluates the sum of the edge pair likelihoods of the pixels included in the part rectangle 801.
- the continuity likelihood map generation unit 130 sets the direction of the long side of the part rectangle 801 to be horizontal. For example, the continuity likelihood map generation unit 130 sets the initial position of the part rectangle 801 in the upper left corner of the continuity likelihood map. Then, the continuity likelihood map generation unit 130 repeats scanning one pixel at a time in the X-axis direction and one line movement in the Y-axis direction. Thereby, the continuity likelihood map generation unit 130 evaluates the sum of the edge pair likelihoods of the pixels included in the part rectangle 801 in the entire region of the continuity likelihood map.
- the edge pair likelihood P of the edge pair likelihood map is set to P (x, y, k) using the x coordinate x, y coordinate y, and the gradient direction k indicating the position of the pixel of interest.
- the position of the pixel at the upper left corner of the part rectangle 801 is (i, j), the length of the long side of the part rectangle is r, the length of the short side is s, and the gradient direction is k.
- the continuity likelihood map generation unit 130 obtains the sum T of the edge pair likelihoods of the pixels surrounded by the part rectangle 801 by the following expression.
- the continuity likelihood map generation unit 130 adds the coordinate information on the edge pair likelihood map of the pixels included in the part rectangle 801 to the list information of the sum evaluation result when the sum of the edge pair likelihoods is equal to or greater than a predetermined threshold. And keep it.
- the continuity likelihood map generation unit 130 performs the following operation after the evaluation of the sum of the edge pair likelihoods of the pixels included in the part rectangle 801 is completed for the entire arm candidate region 710. That is, the continuity likelihood map generation unit 130 holds only the edge pair likelihood of the pixel for which the coordinate information is held in the list information.
- the continuity likelihood map generation unit 130 may set the edge pair likelihood of the remaining pixels to a value (for example, zero) indicating that there is no edge pair likelihood.
- continuity likelihood after the edge pair likelihood is evaluated in this way is referred to as “continuity likelihood”.
- FIG. 9 is a diagram showing an example of a continuity likelihood map generated based on the edge pair likelihood map shown in FIG.
- the continuity likelihood map generation unit 130 sets the edge pair likelihood of pixels other than the region surrounded by the part rectangle 801 to a value (for example, zero) indicating that there is no edge pair likelihood, and the continuity likelihood map Is generated. As a result, as shown in FIG. 9, a continuity likelihood map 820 is generated.
- the predetermined threshold value may be different depending on the part rectangle 801 of the target part.
- the predetermined threshold value may be changed in proportion to the size of the part rectangle 801 of the target part.
- the predetermined threshold value may be changed depending on the position of the target part in the body model. For example, when the target part is at the tip of the body model, the target part does not overlap with other parts and is likely to be detected, so the threshold value is set high. In addition, when the target part is in the center of the body model, the threshold is set to be low because the possibility of overlapping with another part is high and the possibility of detection is low.
- the continuity likelihood map generation unit 130 may generate a robust continuity likelihood map by setting the threshold value in this way. Further, the continuity likelihood map generation unit 130 may learn the sum of the edge pair likelihoods of the pixels included in the region rectangle 801 of the target region using the edge pair likelihood of the image prepared in advance. .
- the continuity likelihood map generation unit 130 repeats the above processing for all edge pair likelihood maps for each gradient direction. Accordingly, the continuity likelihood map generation unit 130 can generate a continuity likelihood map for each gradient direction.
- the continuity likelihood map generation unit 130 does not filter the edge pair likelihood of each pixel with a threshold value, but sets a threshold value in units of regions assuming the size or shape of the target part, and the edge pair likelihood. Filter. For example, the continuity likelihood map generation unit 130 sets a threshold value for each region rectangle 801 in a region that assumes the size or shape of the target region. As a result, the continuity likelihood map generation unit 130 can leave a pixel that is likely to be included in the region even if the pixel alone has a low edge pair likelihood. Further, the continuity likelihood map generation unit 130 can remove the edge pair likelihood of pixels that do not satisfy the condition of the region of the target part as noise.
- the case where the condition of the region of the target part is not satisfied is, for example, a case where the sum of the edge pair likelihoods of the region assuming the size or shape of the target part is smaller than the threshold even if the edge pair likelihood is high for a single pixel. .
- FIG. 10 is a flowchart showing an example of the operation of the integrated likelihood map generation process (step S4000 in FIG. 5).
- the integrated likelihood map is created using all of the continuity likelihood maps generated for each gradient direction, and is a map showing a region having the highest possibility of the target part.
- the integrated likelihood map generation unit 140 counts the number of candidate regions of the target part for each same gradient direction of the continuity likelihood map. That is, when there are six gradient directions, the integrated likelihood map generation unit 140 counts the number of candidate regions for each of the six gradient directions.
- the “target region candidate region” herein is a region in which continuity likelihood is given to pixels that are continuous in the same gradient direction in the continuity likelihood map. For example, in the example of FIG. 9, the number of target region candidate regions is one. In this embodiment, when the number of candidate areas is counted for each of six gradient directions, five candidate areas are extracted.
- step S9002 the integrated likelihood map generation unit 140 compares the total number of target region candidate regions counted for each gradient direction with the number of target regions.
- the “number of target parts” here is a predetermined value.
- the integrated likelihood map generation unit 140 sets the continuity likelihood map as an integrated likelihood map and performs a series of processes. finish.
- the integrated likelihood map generation unit 140 proceeds to step S9003.
- the integrated likelihood map generation unit 140 ends the series of processes if the total number of candidate areas is 4 or less, and proceeds to step S9003 if the total is greater than 4.
- step S9003 the integrated likelihood map generation unit 140 calculates the sum of the continuity likelihoods of the pixels included in the candidate region for each target region candidate region counted for each gradient direction. Then, the integrated likelihood map generation unit 140 extracts candidate regions corresponding to the number of target parts in order from the region with the highest calculated sum.
- the integrated likelihood map generation unit 140 calculates the sum of the continuity likelihoods of the pixels included in the candidate areas for all five candidate areas. Then, the integrated likelihood map generation unit 140 extracts four candidate regions in order from the region with the highest calculated sum value.
- step S9004 the integrated likelihood map generation unit 140 determines whether or not the extracted candidate region satisfies the physical constraints of the target part.
- the target part is the upper arm or the forearm
- the body restriction that the upper arm and the forearm are connected at least by a joint is used.
- a criterion that the tip of another candidate region exists near the tip of at least one of the candidate regions is used.
- a straight line group in the horizontal direction (X-axis direction) passing through the candidate region is considered.
- a straight line having the longest overlap between the straight line and the candidate area is considered.
- the pixel at the boundary between this straight line and the candidate area is the pixel at the tip of the candidate area.
- the pixel at the tip of the candidate area is expressed by the values (x, y) of the X axis and the Y axis, (4, 3) and (8, 3) or (4, 4) and (8 , 4).
- the average value of the coordinates is set to the tip coordinates, so that (4, 3.5) and (8, 3.5) are set.
- the integrated likelihood map generation unit 140 obtains the tip coordinates of the other three candidate areas. Then, the integrated likelihood map generation unit 140 determines, for each candidate region, whether the tip of another candidate region exists within a predetermined distance from the tip of either one of the region regions. Then, for all candidate regions, the integrated likelihood map generation unit 140 determines that the physical constraints are satisfied when the tip of another candidate region exists within a predetermined distance from the tip of either one of the region regions.
- the “predetermined distance” depends on the size of the part region and is shorter than the short side of the part region.
- the integrated likelihood map generation unit 140 holds the continuity likelihood of the extracted candidate region, and sets other values as values indicating no continuity likelihood (for example, zero). ) To generate an integrated likelihood map, and the series of processing ends. On the other hand, if the body likelihood map generation unit 140 does not satisfy the physical constraints (S9004: NO), the integrated likelihood map generation unit 140 returns to step S9003 and continues extracting candidate regions.
- the integrated likelihood map generation unit 140 extracts a combination of candidate regions that are closest to the physical constraints as candidate regions when all combinations of candidate regions do not satisfy the physical constraints. Then, the integrated likelihood map generation unit 140 holds the continuity likelihood of the extracted candidate regions, sets other values to values indicating that there is no continuity likelihood (for example, zero), and the integrated likelihood map Is generated, and the series of processing ends.
- the integrated likelihood map generation unit 140 determines whether or not a predetermined candidate region is closest to the physical constraint.
- the integrated likelihood map generation unit 140 selects another candidate from one tip of the part region for a part candidate in which the tip of the other candidate region does not exist within a predetermined distance from one tip of the part region. Calculate the shortest distance to the tip of the region. Then, the integrated likelihood map generation unit 140 calculates the sum of the difference between the shortest distance and a predetermined distance for each combination of candidate regions. The integrated likelihood map generation unit 140 determines that this value is close to the physical constraint.
- the part estimation apparatus 100 extracts only a region having the highest possibility of being a part by taking into consideration body constraints by using the continuity likelihood map generated for each gradient direction. Thereby, the part estimation apparatus 100 can estimate a part more accurately.
- the integrated likelihood map generation unit 140 uses the physical constraint that “the forearm and the upper arm are connected by a joint”, but separately performs the process of estimating the position of the head or shoulder, A body constraint that “the tip of the upper arm candidate region exists” may be used. Thereby, the part estimation apparatus 100 can estimate a part more accurately.
- step S9004 itself may be omitted.
- the present embodiment can obtain the following operations and effects. That is, the part estimation apparatus 100 first generates, for each gradient direction, an edge pair likelihood map in which the likelihood of the target part in the local region is quantified for each pixel of the input image. Thereby, the part estimation apparatus 100 can extract the target part-likeness in the local region without fail. Further, the part estimation apparatus 100 generates a continuity likelihood map indicating the likelihood of the target part determined based on the region corresponding to the target part on the edge pair likelihood map for each gradient direction. Thereby, the part estimation apparatus 100 can determine that a region that does not satisfy the part-likeness as the area is not a part even if the locality satisfies the part-likeness.
- the part estimation apparatus 100 generates an integrated likelihood map that narrows down and shows the area that satisfies the body constraints that are most likely to be the target part from candidate areas extracted from the continuity likelihood map for each gradient direction. Thereby, the part estimation apparatus 100 can estimate the target part of the person 340.
- the part estimation device 100 can estimate the part of the person 340 with high accuracy even if it is difficult to extract the outline of the part with a straight line as described above.
- the third embodiment of the present invention is an example of a specific mode when the present invention is applied to an apparatus for estimating a human part included in a captured image.
- This embodiment is obtained by adding functions to the second embodiment, and the same parts as those of the second embodiment are denoted by the same reference numerals and description thereof will be omitted.
- the part estimation device can estimate a part with higher accuracy by distinguishing the target part from the artificial object when an artifact having a shape similar to the target part exists in the image. .
- the outline of the part estimation system including the part estimation apparatus according to the present embodiment is the same as that of the second embodiment.
- FIG. 11 is a block diagram showing an example of the configuration of the part estimation apparatus 100b.
- the part estimation apparatus 100b includes an image input unit 110, an edge pair likelihood map generation unit 120, a continuity likelihood map generation unit 130, a variance likelihood map generation unit 160, an integrated likelihood map generation unit 140b, and a result output.
- Part 150 Part 150.
- FIG. 11 there are two parts different from FIG. One is that a variance likelihood map generation unit 160 is added. The other is that the integrated likelihood map generation unit 140b generates an integrated likelihood map using the distributed likelihood map generated by the distributed likelihood map generation unit 160.
- the variance likelihood map generation unit 160 includes a continuity likelihood included in a pre-defined region (for example, a part rectangle) in each of the continuity likelihood maps generated by the continuity likelihood map generation unit 130 for each gradient direction. Assess degree dispersion. Then, the variance likelihood map generation unit 160 generates a variance likelihood map by repeating the evaluation of variance of the continuity likelihood until the entire continuity likelihood map is covered.
- the “predetermined assumed region” is, for example, a candidate region for a target part.
- the “target region candidate region” herein is a region in which continuity likelihood is given to pixels that are continuous in the same gradient direction in the continuity likelihood map.
- the variance likelihood map generation unit 160 deletes the continuity likelihood determined that the continuity likelihood variance of the continuity likelihood map is different from the variance of the target part.
- the variance likelihood map generation unit 160 may hold only the continuity likelihood determined to be similar to the variance of the target part. In this way, the variance likelihood map generation unit 160 generates a variance likelihood map.
- This distribution likelihood map generation process utilizes the fact that the variance of continuity likelihood differs between an artifact and a human part.
- the edge of an artifact such as an industrial product tends to be extracted with a single gradient and the value of variance tends to be smaller than the gradient of the edge of a human part. Therefore, in the present embodiment, it is possible to discriminate an artificial object from a human part by evaluating the dispersion.
- Such part estimation apparatus 100b first performs edge pair likelihood map generation processing and continuity likelihood map generation processing, as in the first and second embodiments. After that, the part estimation apparatus 100 performs a variance likelihood map generation process for evaluating the variance of the continuity likelihood and generating a variance likelihood map satisfying the variance of the target part for each gradient direction. And the part estimation apparatus 100b produces
- FIG. 12 is a flowchart showing an example of the operation of the part estimation apparatus 100b.
- FIG. 12 differs from FIG. 5 in that a distributed likelihood map generation process (S7000) is added between the continuity likelihood map generation process (S3000) and the integrated likelihood map generation process (S4000). .
- S7000 distributed likelihood map generation process
- step S7000 the variance likelihood map generation unit 160 performs a variance likelihood map generation process.
- the variance likelihood map generation process is a process for generating the above-described variance likelihood map.
- the variance likelihood map generation unit 160 obtains a variance value using the following equation.
- the artifact can be distinguished from the part of the person 340 by using the fact that the variance value of the continuity likelihood map is smaller than that of the part of the person 340.
- the variance likelihood map generation unit 160 obtains the variance of the candidate areas of the parts of the continuity likelihood map for each same gradient direction. If the obtained variance value is smaller than a predetermined threshold, the variance likelihood map generation unit 160 determines that the candidate region is an artifact. Then, the variance likelihood map generation unit 160 sets the continuity likelihood of pixels whose variance value is smaller than a predetermined threshold to a value (for example, zero) indicating that there is no continuity likelihood.
- the variance likelihood map generation unit 160 determines that the candidate region is likely to be a part if the obtained variance value is larger than a predetermined threshold. Then, the variance likelihood map generation unit 160 holds the continuity likelihood of pixels whose variance value is larger than a predetermined threshold. For example, when the variance of the candidate area in the gradient direction k is smaller than a predetermined threshold, the variance likelihood map generation unit 160 has no likelihood of the continuity likelihood in the gradient direction k of the pixels included in the candidate area. Is set to a value indicating that (for example, zero).
- the variance likelihood map generation unit 160 may use a value learned in advance as the “predetermined threshold value”, or based on the average value of the variance of the region of the region estimated as the previous region estimation. May be calculated.
- the variance likelihood map generation unit 160 may classify the variances of the candidate regions extracted this time into the parts of the artifact and the person 340 using a discriminant analysis method.
- the discriminant analysis method is a known method for obtaining a threshold value that maximizes the degree of separation and automatically performing binarization.
- the degree of separation is determined by the ratio between the inter-class variance and the intra-class variance when classifying into two classes of the artifact and the person 340.
- variance likelihood map generation unit 160 calculates the variance of candidate regions of parts of the continuity likelihood map.
- the variance likelihood map generation unit 160 calculates the centroid C of the candidate region of the part of the continuity likelihood map using the following formula.
- a straight line passing through the center of gravity C and perpendicular to the gradient direction of the continuity likelihood map including the candidate region of the part is considered.
- the gradient direction of the continuity likelihood map including the candidate region of the part is ⁇
- a straight line passing through the center of gravity C and having an angle of ⁇ + 90 degrees is considered.
- the variance likelihood map generation unit 160 obtains the variance using the value x i of the above-described equation for obtaining the variance ⁇ 2 as the value of the pixel on the straight line in the candidate region of the part.
- the variance likelihood map generation unit 160 compares the variance of the candidate region calculated in this way with a predetermined threshold value set in advance. If the variance value is smaller than the predetermined threshold as a result of the comparison, the variance likelihood map generation unit 160 determines that the region is unlikely to be a part, and determines the continuity likelihood in the gradient direction as the continuity likelihood. A value (for example, zero) indicating that there is no degree value is set. Alternatively, as a result of the comparison, if the variance value is equal to or greater than a predetermined threshold, the variance likelihood map generation unit 160 determines that the region is likely to be a part, and the continuity likelihood in the gradient direction May be held only.
- the variance likelihood map generation unit 160 evaluates the variance of only one point of the center of gravity C of the candidate region of the part, but may calculate a plurality of variances and use the average value to make a determination. Thereby, robustness improves. For example, the variance likelihood map generation unit 160 performs the process performed on the centroid C for pixels other than the centroid C on the straight line in the gradient direction of the continuity likelihood map including the candidate region of the region through the centroid C. The same processing may be performed to obtain a plurality of variances.
- the continuity likelihood map generation unit 130 may leave the edge pair likelihood of pixels in the vicinity of the part rectangle 801 when generating the continuity likelihood map using the part rectangle 801.
- the variance is a value indicating data variation, and the magnitude varies depending on the amount of the value that is far from the expected value. Therefore, if the continuity likelihood map generation unit 130 leaves the edge pair likelihood far from the expected value, the difference in dispersion between the artificial object and the part of the person 340 becomes large, and the determination becomes easy. This will be described with reference to FIG.
- FIG. 13 shows an example of a continuity likelihood map that is the basis of the variance likelihood map.
- the continuity likelihood map generation unit 130 stores not only the edge pair likelihood of the pixels included in the part rectangle 801 but also the edge pair likelihoods of the pixels included in the neighboring region 802 of the part rectangle 801. Is generated.
- the variance likelihood map generation unit 160 can accurately distinguish the artifact and the part of the person 340.
- the variance likelihood map generation unit 160 obtains the variance including not only the part rectangle but also the neighboring region 802, so that the accuracy of discriminating the part of the artifact and the person 340 can be improved.
- the vicinity region 802 in which each side of the part rectangle is enlarged by one pixel is shown as an example, but the present invention is not limited to this.
- the neighborhood region 802 may vary depending on the size of the part rectangle 801 or the type of the target part.
- the variance likelihood map generation unit 160 evaluates the variance in the candidate area.
- the evaluation may be performed using the average value of the continuity likelihood instead of the variance. This uses the characteristic that the continuity likelihood of the artifact has a tendency that the average value of the continuity likelihood tends to be high because the variance value is small. In this case, the variance likelihood map generation unit 160 obtains an average value of pixels having continuity likelihood in the candidate region.
- the continuity likelihood P of the continuity likelihood map is set to P (x, y, k) using the x coordinate x, y coordinate y, and gradient direction k indicating the pixel position.
- the position of the pixel at the upper left corner of the part rectangle 801 is (i, j)
- the length of the long side of the part rectangle is r
- the length of the short side is s
- the gradient direction k the continuity likelihood in the part rectangle.
- u be the number of pixels with degrees 0.
- the average value A of the continuity likelihood of the pixels included in the part rectangle 801 is obtained by the following equation.
- the distributed likelihood map generation unit 160 compares the average continuity likelihood value in the candidate region of the part calculated by the above formula with a predetermined threshold value set in advance. As a result of the comparison, if the average value is larger than the predetermined threshold value, the variance likelihood map generation unit 160 determines that the possibility that the region is a part of the person 340 is low. Then, the variance likelihood map generation unit 160 sets the continuity likelihood in the gradient direction to a value (for example, zero) indicating that there is no continuity likelihood value.
- the variance likelihood map generation unit 160 determines that the region is likely to be a part of the person 340, and Holds the continuity likelihood in the gradient direction.
- the variance likelihood map generation unit 160 generates the variance likelihood map using the continuity likelihood map, but similarly generates the variance likelihood map using the edge pair likelihood map. May be. In this case, since there is no candidate region for the part in the edge pair likelihood map, the variance likelihood map generation unit 160 calculates the variance for all the pixels within the predetermined distance of the pixel, Processing to determine is performed.
- the part can be estimated by removing the edge pair likelihood of the region where the possibility of the artifact is high from the edge pair likelihood map.
- Such part estimation apparatus 100b first performs edge pair likelihood map generation processing and continuity likelihood map generation processing, as in the first and second embodiments. After that, the part estimation apparatus 100b evaluates the variance of the continuity likelihood based on the continuity likelihood map, and generates a variance likelihood map for each gradient direction, which generates a variance likelihood map that satisfies the condition of dispersion of the target part. Process. And the part estimation apparatus 100b produces
- Embodiment 4 when the target part is an arm (upper right arm 419, right forearm 420, left upper arm 422, left forearm 423), the target part such as the torso or head (hereinafter referred to as “non-estimated target part”). ”) Is used.
- the part estimation apparatus first extracts the contour of the non-estimation target part from the image. Thereafter, the part estimation device lowers the edge pair likelihood or continuity likelihood of the region near the contour of the extracted non-estimation target part in the continuity likelihood map or the variance likelihood map, and then performs the target part estimation process. To proceed. This is because it is possible that the edge pair likelihood or continuity likelihood of the pixels in the neighboring region where the non-estimated target part exists is increased by overlapping the target part and the non-estimated target part on the image. Is. By doing in this way, the site
- FIG. 14 is a block diagram showing an example of the configuration of the part estimation apparatus according to the present embodiment, and corresponds to FIG. 4 of the second embodiment. 14, the same parts as those in FIG. 4 are denoted by the same reference numerals, and description thereof will be omitted.
- the part estimation apparatus 100c has a contour region estimation unit 170 in addition to the configuration of FIG.
- the target part is described as an arm (upper right arm 419, right forearm 420, left upper arm 422, left forearm 423), and the non-estimated target part is described as a head 418 and a torso 411.
- the contour region estimation unit 170 extracts the contour of the non-estimated portion of the person 340 from the image, and extracts a region near the contour as a contour region.
- the contour region estimation unit 170 generates a background difference image from the input image and extracts a human candidate region of the person 340.
- the background difference image is, for example, an image indicating a difference between a background image captured without a person 340 and an input image.
- the contour region estimation unit 170 can treat pixels different from the background as the human candidate region.
- the contour region estimation unit 170 holds a background image in advance and generates a background difference image by calculating a difference between the background image and the input image, for example.
- the contour region estimation unit 170 may generate a background difference image by extracting a moving object region.
- the contour region estimation unit 170 extracts a moving object region by extracting pixels with different luminances from the previously input image and the current input image, for example, and the moving object region is a human candidate. It may be an area.
- the contour region estimation unit 170 extracts the upper region of the human candidate regions as a head candidate region.
- the upper region is predetermined as, for example, a region including a portion of a predetermined ratio (for example, 30%) from the upper end to the lower portion of the human candidate region.
- the contour region estimation unit 170 extracts pixels that are contours in the head candidate region as pixels of the head contour.
- the contour region estimation unit 170 may extract a head region from the extracted head candidate region using Hough transform or the like.
- the Hough transform is a known technique, and three parameters representing the center (X coordinate, Y coordinate) and radius of a circle can be obtained from edge information.
- the contour region estimation unit 170 may extract pixels on the circle as pixels of the head contour.
- the contour region estimation unit 170 may add a pixel on a circle obtained by Hough transformation or the like to the pixel of the head contour extracted from the head candidate region to obtain the head contour. In this way, the contour region estimation unit 170 can extract the head contour pixels more robustly even when the human candidate region has a defect.
- the contour region estimation unit 170 may extract a common pixel of the head contour pixel extracted from the head candidate region and the circular pixel extracted from the head candidate region as the head contour. By doing in this way, the outline area estimation part 170 can extract the pixel of the head outline more reliably.
- the contour region estimation unit 170 extracts a middle region from the human candidate regions as a trunk candidate region.
- the middle region is predetermined as, for example, a region including a predetermined ratio (for example, 20% to 60% from the top) of the candidate human regions.
- the contour region estimation unit 170 extracts a pixel that is a contour in the trunk candidate region as a trunk contour.
- the contour region estimation unit 170 may extract an elliptical trunk candidate region from the extracted trunk candidate region using Hough transform or the like, similar to the extraction of the head contour pixel.
- the contour region estimation unit 170 may add a pixel on an ellipse obtained by using Hough transform or the like to a pixel of the trunk contour extracted from the trunk candidate region and extract it as a pixel of the trunk contour. By doing so, the contour region estimation unit 170 can extract the pixels of the trunk contour more robustly even when there is a defect in the trunk candidate region.
- the contour region estimation unit 170 may extract a pixel common to a pixel extracted from the trunk candidate region and a pixel on an ellipse extracted from the trunk candidate region as a pixel of the trunk contour. By doing in this way, the outline area estimation part 170 can extract the pixel of the outline of a trunk more reliably.
- the contour region estimation unit 170 sets the contour pixels of the head 418 and the trunk 411 and the region in the vicinity thereof as the contour region. Specifically, the contour region estimation unit 170 sets a pixel within a predetermined distance with the contour of the head and torso as the center as the contour region.
- the predetermined distance may be determined based on, for example, the magnitude of an appearance error on the image of the target part.
- the contour region estimation unit 170 outputs the estimated contour region to the integrated likelihood map generation unit 140c.
- the integrated likelihood map generation unit 140c generates an integrated likelihood map using the contour region estimated by the contour region estimation unit 170 and the continuity likelihood map generated by the continuity likelihood map generation unit.
- the priority of the candidate region where the contour region estimated by the contour region estimation unit 170 overlaps the coordinate position is set. Lower and extract.
- the “priority” is a priority extracted (selected).
- the integrated likelihood map generation unit 140c changes, for example, to a value obtained by subtracting a predetermined value from the sum of the edge pair likelihoods for the region where the coordinate positions overlap. By doing so, the integrated likelihood map generation unit 140c preferentially selects an area where the coordinate positions do not overlap as a candidate area. Therefore, the part estimation apparatus 100c can accurately estimate the target part even when the contour of the non-estimated target part satisfies the continuity of the edge pair likelihood that is a condition at the time of continuity likelihood map generation. .
- the “predetermined value” refers to, for example, the ratio of pixels that overlap the candidate region and the contour region in the corresponding candidate region (the number of pixels that overlap the contour region in the candidate region is divided by the number of pixels in the candidate region. And the sum of the corresponding candidate areas.
- the integrated likelihood map generation unit 140c may make the priority of the candidate region in which the contour region overlaps the coordinate position lower than the number of target parts. Specifically, for example, a case is considered in which the number of target parts is four, six candidate areas are extracted, and the coordinate positions of the third candidate area overlap when arranged in descending order of the sum of the edge pair likelihoods. In this case, the integrated likelihood map generation unit 140 reduces the priority of the total sum of the candidate areas from No. 3 to No. 5, and does not enter the combination used in the first processing of S9004 in FIG. May be.
- the part estimation device 100c lowers the priority when not only the position of the coordinate and the contour region estimated by the contour region estimation unit 170 overlap, but also the direction of the contour region matches the direction of the candidate region. Also good.
- the direction of the contour region is, for example, an angle when the contour of the long side on the left and right sides of the body is approximated by a straight line when the target part is the body 411 of the body model 410.
- a method of obtaining a regression line by a least square method which is a known technique may be used. By doing so, the part estimation device 100c can accurately estimate the part even when the candidate region has a high edge pair likelihood due to the contour and noise.
- the integrated likelihood map generation unit 140c may change the priority according to the similarity between the candidate region and the part rectangle.
- the similarity between the candidate area and the part rectangle is, for example, the number of pixels that do not match the candidate area and the part rectangle when the candidate area and the part rectangle are overlapped at the center of gravity. It may be determined that the degree is low and the priority may be lowered. By doing so, the part estimation device 100c accurately estimates the part even when the priority of the candidate area having a low similarity to the part rectangle is lowered and the edge pair likelihood is high due to noise such as clothes pattern. can do.
- the integrated likelihood map generation unit 140 c uses the contour region estimated by the contour region estimation unit 170 and the variance likelihood map generated by the variance likelihood map generation unit 160 to use the integrated likelihood.
- a degree map may be generated.
- the part estimation apparatus 100c can exclude, from the part region candidates, a region that may have a high edge pair likelihood due to the presence of a non-estimation target part, thereby improving the precision of part estimation. Can do.
- the part estimation apparatus may use an image obtained by removing noise from the background difference image using a known median filter.
- the part estimation apparatus 100 may use an image obtained by superimposing a background difference image and an edge image.
- the part estimation device calculates, for each pixel in the image, the edge pair likelihood indicating the likelihood that the pair of pixels existing in the vicinity of the pixel is the edge of the part to be estimated.
- An edge pair likelihood map generating unit that generates an edge pair likelihood map indicating the edge pair likelihood for each pixel, and for the edge pair likelihood map, a pixel included in a region that is assumed to be a part to be estimated
- a continuity likelihood map generation unit that evaluates continuity for edge pair likelihood, and generates a continuity likelihood map indicating the continuity edge pair likelihood as a candidate region indicating the part to be estimated
- An integrated likelihood map generating unit that generates an integrated likelihood map that narrows down the candidate areas indicated by the likelihood likelihood map based on a predetermined condition;
- the part estimation device evaluates variance of the edge pair likelihood with the continuity indicated in the continuity likelihood map, and generates a variance likelihood map satisfying the variance of the part to be estimated.
- a distributed likelihood map generation unit is further included, and the integrated likelihood map generation unit generates the integrated likelihood map based on the distributed likelihood map.
- the continuity likelihood map generation unit includes pixels of pixels included in a vicinity region of a region that assumes the part to be estimated in addition to the edge pair likelihood having continuity.
- the continuity likelihood map is generated in consideration of the edge pair likelihood, and the variance likelihood map generation unit generates the variance likelihood map based on the continuity likelihood map.
- the part estimation device of the present disclosure further includes a contour area estimation unit that estimates a contour area of a non-estimation target part that is a part other than the part that is the estimation target, and the integrated likelihood map generation unit includes the When narrowing down candidate areas, a candidate area whose coordinates do not overlap with the outline area estimated by the outline area estimation unit is preferentially selected.
- the edge pair likelihood map generation unit dynamically adjusts the value used for the edge pair likelihood map generation according to the size of the image.
- the part estimation method of the present disclosure calculates, for each pixel in the image, an edge pair likelihood indicating the likelihood that a pair of pixels existing in the vicinity of the pixel is an edge of a part to be estimated.
- a step of generating an edge pair likelihood map indicating the edge pair likelihood for each of the pixels, and the edge pair likelihood map of pixels included in a region assuming the region to be estimated is continuous with respect to the edge pair likelihood map.
- the part estimation program allows a computer of an apparatus that inputs or generates an image, for each pixel in the image, a pair of pixels existing in the vicinity of the pixel to be an edge of a part to be estimated An edge pair likelihood indicating the likelihood of this is calculated, an edge pair likelihood map indicating the edge pair likelihood for each pixel is generated, and a part that is the estimation target is assumed for the edge pair likelihood map A process of evaluating continuity for edge pair likelihood of pixels included in a region, and generating a continuity likelihood map indicating a continuous edge pair likelihood as a candidate region indicating a part to be estimated; and And a process of generating an integrated likelihood map indicating the candidate areas indicated by the continuity likelihood map by narrowing down based on a predetermined condition.
- the present invention is useful as a part estimation device, a part estimation method, and a part estimation program for estimating a part of a multi-joint object such as a person, an animal, or a robot.
- Site estimation device 110 Image input unit 120 Edge pair likelihood map generation unit 130 Continuity likelihood map generation unit 140, 140b, 140c Integrated likelihood map generation unit 150 Result output unit 160 Distributed likelihood map generation unit 170 Outline area extraction unit 200 Site estimation system 310 Monitoring area 320 Monitoring camera 330 Floor surface 340
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
多関節物体の部位を高精度に推定できる部位推定装置。この装置では、エッジペア尤度マップ生成部(120)は、ペアの画素が、推定対象部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、そのエッジペア尤度を画素ごとに示すエッジペア尤度マップを生成する。連続性尤度マップ生成部(130)は、エッジペア尤度マップに対し、推定対象部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、推定対象部位の候補領域として示す連続性尤度マップを生成する。統合尤度マップ生成部(140)は、連続性尤度マップが示す候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する。
Description
本発明は、人、動物またはロボットなどの多関節物体の部位を推定する、部位推定装置、部位推定方法、および部位推定プログラムに関する。
近年、撮影された動画像に基づく人の姿勢推定に関する研究が、盛んに行われている。姿勢推定装置は、動画像から人の行動をコンピュータ解析により判定することができ、人手に頼らずに行動解析を行うことができる。行動解析としては、例えば、街頭での異常行動検知、店舗での購買行動分析、工場における作業効率化支援、およびスポーツにおけるフォーム指導がある。
そこで、単眼カメラにより人を撮影した画像に基づいて、当該人の姿勢を推定する技術が、例えば、特許文献1に記載されている。
特許文献1に記載の技術(以下、「従来技術」という)は、まず、人を撮影した画像に含まれる楕円形状または平行線に基づいて、部位候補を抽出する。次に、従来技術は、複数のサンプル画像から統計的に求めた尤度関数を用いて、部位尤度および部位関係尤度を算出する。そして、従来技術は、算出した尤度に基づいて、最適な部位候補の組み合わせを算出する。よって、従来技術は、どの部位がどの領域に位置するかを特定することができ、人の位置あるいは向きによらずに人の姿勢を推定することができる。
しかしながら、従来技術は、撮影条件によって、部位を高精度に推定することができないという課題を有する。なぜなら、従来技術は、撮影した画像から部位の輪郭が平行線で抽出することが前提である。しかし、実際には、部位の服のしわあるいは陰影および部位の背景にある物体の形状あるいは陰影により、部位の輪郭のみを平行線として抽出することは困難だからである。
本発明の目的は、多関節物体の部位を高精度に推定することである。
本発明の一態様に係る部位推定装置は、画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するエッジペア尤度マップ生成部と、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する連続性尤度マップ生成部と、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する統合尤度マップ生成部と、を有する。
本発明の一態様に係る部位推定方法は、画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するステップと、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成するステップと、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成するステップと、を有する。
本発明の一態様に係る部位推定プログラムは、画像を入力あるいは生成する装置のコンピュータに、前記画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成する処理と、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する処理と、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する処理と、を実行させる。
本発明によれば、多関節物体の部位を高精度に推定することができる。
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本発明の実施の形態1は、本発明の基本的態様の一例である。
本発明の実施の形態1は、本発明の基本的態様の一例である。
<部位推定装置の構成>
図1は、本実施の形態に係る部位推定装置の構成の一例を示すブロック図である。
図1は、本実施の形態に係る部位推定装置の構成の一例を示すブロック図である。
図1において、部位推定装置100は、エッジペア尤度マップ生成部120、連続性尤度マップ生成部130、および統合尤度マップ生成部140を有する。
エッジペア尤度マップ生成部120は、画像中の画素ごとに、エッジペア尤度を算出する。画素ごとのエッジペア尤度とは、当該画素の近傍に存在する画素が、推定対象である部位(以下、「対象部位」という)のエッジであることの尤もらしさを数値化して示したものである。エッジペア尤度マップ生成部120は、画素の近傍に存在する、所定の勾配方向に平行なエッジペアに基づいて、エッジペア尤度を算出する。そして、エッジペア尤度マップ生成部120は、算出したエッジペア尤度を画素ごとに示すエッジペア尤度マップを生成する。
ここで、上記「部位」とは、人の多関節物体の一部分をいう。また、ここでいう「人」とは、人体あるいは動物あるいはロボットなどの多関節物体を含む、あらゆる多関節物体を含む概念とする。
連続性尤度マップ生成部130は、エッジペア尤度マップに対して、対象部位の大きさあるいは形状を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価する。そして、連続性尤度マップ生成部130は、連続性のあるエッジペア尤度を、部位領域の候補として示す連続性尤度マップを生成する。ここでいう「部位領域」とは、画像において「対象部位が占める領域」、換言すれば「対象部位を示す領域」を意味する。
統合尤度マップ生成部140は、連続性尤度マップが示す部位領域の候補を予め定められた条件を基に絞り込み、絞り込んだ部位領域の候補を示す統合尤度マップを生成する。
部位推定装置100は、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリを有する。この場合、上記した各構成部の機能は、CPUが制御プログラムを実行することにより実現される。
このような部位推定装置100は、以下の動作により、複雑な画像においても精度よく部位を推定することができる。なお、「複雑な画像」とは、例えば、胴に腕が重なっている画像、服のしわあるいは人工物による平行線のエッジが多数存在する画像、などである。
まず、エッジペア尤度マップ生成部120は、画像中の画素ごとに、当該画素の近傍に存在する、所定の勾配方向に平行なエッジペアに基づいて、エッジペア尤度を算出する。そして、エッジペア尤度マップ生成部120は、算出したエッジペア尤度を画素ごとに示すエッジペア尤度マップを生成する。ここで、平行線の幅は、対象部位の太さとする。これにより、エッジペア尤度マップ生成部120は、対象部位に対応したエッジペア尤度マップを生成できる。
次に、連続性尤度マップ生成部130は、エッジペア尤度マップを、対象部位として評価する。画素ごとのエッジペア尤度は、当該画素の近傍に存在する画素が、対象部位のエッジであることの尤もらしさを示す。したがって、画像中、対象部位が存在する領域では、想定領域内に含まれる画素のエッジペア尤度の総和が大きくなる。「想定領域」とは、対象部位の大きさあるいは形状を予め想定した領域である。
連続性尤度マップ生成部130は、エッジペア尤度マップに対して、想定領域内のエッジペア尤度の総和が、予め定められた閾値より大きければ、想定領域内のエッジペア尤度を残す。もしくは、想定領域内のエッジペア尤度の総和が、予め定められた閾値より小さければ、連続性尤度マップ生成部130は、想定領域内に、エッジペア尤度がないことを示す値(例えばゼロ)を設定するようにしてもよい。
このように、部位推定装置100は、画素ごとのエッジペア尤度を閾値でフィルタリングするのではなく、部位領域である可能性が高い領域に含まれる画素のエッジペア尤度を残すようにする。これにより、部位推定装置100は、エッジペア尤度が低くても部位領域である可能性が高い領域に含まれる画素を、残すことができる。また、部位推定装置100は、エッジペア尤度が高くても部位領域である可能性が低い領域に含まれる画素のエッジペア尤度を、削除する。これにより、部位推定装置100は、陰影あるいはしわなど、部位領域ではない領域に含まれる画素を除去することができる。
したがって、部位推定装置100は、従来技術に比べて、対象部位の輪郭のみを平行線として抽出することが困難な画像からも、対象部位を精度よく推定することができる。
(実施の形態2)
本発明の実施の形態2は、本発明を、画像に含まれる人の部位を推定する装置に適用した場合の、具体的態様の一例である。
本発明の実施の形態2は、本発明を、画像に含まれる人の部位を推定する装置に適用した場合の、具体的態様の一例である。
<部位推定システムの概要>
まず、本実施の形態に係る部位推定装置を含む部位推定システムの概要について説明する。
まず、本実施の形態に係る部位推定装置を含む部位推定システムの概要について説明する。
図2は、本実施の形態における部位推定システムの構成の一例を示すシステム構成図である。図2において、部位推定システム200は、監視エリア310を撮影する監視カメラ320と、監視カメラ320と通信可能に接続された部位推定装置100と、を有する。
監視カメラ320は、例えば、デジタルビデオカメラであり、監視エリア310を斜め上方から撮影する。すなわち、監視カメラ320が撮影する画像は、人340および水平な床面330を含む実空間を撮影して得られた画像である。そして、監視カメラ320は、撮影した画像を、部位推定装置100へ送信する。ここでは、監視エリア310の床面330を、部位推定の対象となる人340が歩行しているものとする。
部位推定装置100は、例えば、パーソナルコンピュータであり、監視カメラ320から受信した画像に基づいて、人340の部位を推定する。
以上で、部位推定システム200の概要についての説明を終える。
<人の部位についての説明>
次に、本実施の形態において推定の対象となる人340の部位について説明する。
次に、本実施の形態において推定の対象となる人340の部位について説明する。
図3は、人340の身体の構成モデル(以下、「身体モデル」という)410の一例を示す図である。身体モデル410は、部位の推定に用いられる身体の各部位の位置関係を、模式的に示したものである。身体モデル410は、例えば、胴411、左大腿412、左下腿413、左足414、右大腿415、右下腿416、右足417、頭418、右上腕419、右前腕420、左上腕422、左前腕423を含む。
これらの各部位は、関節で接続されている。このため、各部位の可動域は、他の部位により制約を受ける。例えば、左足414は、左下腿413との接続点を中心とする所定の角度範囲でのみ動くことができる。本実施の形態において、部位推定装置100は、各部位の接続関係を用いて、身体モデル410における各部位の領域(上記「部位領域」)を、画像から推定するものとする。なお、部位推定装置100が用いる身体モデルは、図3に示す例に限定されるものではない。
以上で、推定の対象となる人340の部位についての説明を終える。
<部位推定装置の構成>
次に、部位推定装置100の構成について説明する。
次に、部位推定装置100の構成について説明する。
図4は、部位推定装置100の構成の一例を示すブロック図である。図4において、部位推定装置100は、画像入力部110、エッジペア尤度マップ生成部120、連続性尤度マップ生成部130、統合尤度マップ生成部140、結果出力部150を有する。
画像入力部110は、画像を入力する。
具体的には、画像入力部110は、監視カメラ320が撮影した画像を受信する。そして、画像入力部110は、受信した画像を、順次、エッジペア尤度マップ生成部120へ出力する。
エッジペア尤度マップ生成部120は、画像入力部110からの画像のエッジを検出し、その画像に含まれる画素(以下、「注目画素」という)ごとに、注目画素を基準とした2つの画素(以下、「エッジペア」という)を検出する。このとき、エッジペア尤度マップ生成部120は、勾配方向に垂直かつ注目画素を含む直線上にあり、注目画素から等距離にある2つの画素を、エッジペアとして検出する。そして、エッジペア尤度マップ生成部120は、検出した2つの画素のそれぞれを中心とした所定範囲の領域を特定し、特定した2つの領域内の画素の輝度の総和に基づいて、注目画素のエッジペア尤度を算出する。そして、エッジペア尤度マップ生成部120は、算出したエッジペア尤度を画素ごとに示すエッジペア尤度マップを生成する。画素ごとのエッジペア尤度とは、当該画素の近傍に存在する画素が、対象部位のエッジであることの尤もらしさを数値化して示すものである。エッジペア尤度マップ生成部120は、予め定義された複数の勾配方向について、それぞれエッジペア尤度マップを生成する。
ここで、エッジペアについて説明する。上述した通り、エッジペアを構成する2つの画素は、予め定義された勾配方向に垂直かつ注目画素を含む直線上にあり、注目画素から等距離に位置している。また、2つの画素の間の距離は、対象部位の太さである。このような2つの画素は、「勾配方向ペア画素」と呼ぶ。また、勾配方向ペア画素のそれぞれを中心とした2つの小領域は、「勾配方向ペア近傍領域」と呼ぶ。
そして、勾配方向ペア近傍領域のどちらにもエッジである画素(以下、単に「エッジ」という)が含まれる場合には、注目画素に対して「エッジペアが存在する」と称する。そして、このとき、勾配方向ペア近傍領域に含まれるエッジからなる画素の集合は、「注目画素のエッジペア」と呼ぶ。
また、注目画素のエッジペア尤度は、注目画素のエッジペアに基づいて算出される。例えば、片方の勾配方向ペア近傍領域にエッジが多く含まれている、一方、もう片方の勾配方向ペア近傍領域に含まれるエッジが少ない場合には、エッジペア尤度は低くなる。なお、エッジペア尤度の具体的な算出方法については、後述する。
また、画像の全ての画素に対して、算出したエッジペア尤度をマッピングしたものは、「エッジペア尤度マップ」と呼ぶ。
また、エッジペア尤度マップに含まれる全てのエッジペア尤度は、注目画素の位置を示すx座標x、y座標y、勾配方向kを特定して識別される。
なお、本実施の形態では、注目画素に対し、予め定義された全ての勾配方向の勾配方向ペア領域を含む領域を「局所領域」と呼ぶ。
そして、エッジペア尤度マップ生成部120は、予め定義された複数の勾配方向について、それぞれエッジペア尤度マップを生成する。その後、エッジペア尤度マップ生成部120は、生成したエッジペア尤度マップを連続性尤度マップ生成部130に出力する。
なお、エッジペア尤度マップの生成手法の詳細については、後述する。
連続性尤度マップ生成部130は、生成されたエッジペア尤度マップの、同一勾配方向のエッジペア尤度について、想定領域内に含まれる画素のエッジペア尤度の連続性を評価し、連続性尤度マップを生成する。
画素ごとのエッジペア尤度は、当該画素の近傍に存在する画素が、対象部位のエッジであることの尤もらしさである。したがって、画像中、対象部位が存在する領域においては、想定領域内に含まれる画素のエッジペア尤度の総和は大きくなる。
連続性尤度マップ生成部130は、勾配方向別のエッジペア尤度マップのそれぞれに対して、想定領域内のエッジペア尤度の総和が大きければ、想定領域内のエッジペア尤度を残す。もしくは、連続性尤度マップ生成部130は、想定領域内のエッジペア尤度の総和が小さければ、想定領域内に、エッジペア尤度がないことを示す値(例えばゼロ)を設定するようにしてもよい。
なお、連続性尤度マップの生成手法の詳細については、後述する。
統合尤度マップ生成部140は、連続性尤度マップから勾配方向別に抽出された部位領域の候補の中から、予め定められた対象部位の条件に当てはまる領域を抽出し、抽出した領域を示す統合尤度マップを生成する。
なお、対象部位の条件に当てはまる領域の抽出手法の詳細については、後述する。
結果出力部150は、結合尤度マップ生成部140による部位の推定の結果を出力する。
具体的には、結果出力部150は、例えば液晶ディスプレイなどの表示装置を含む。結果出力部150は、部位が推定された場合にはその部位を示す情報を、一方、部位が推定されなかった場合にはその旨を示す情報を、ユーザに通知する。この通知の方法は、文字および画像の少なくとも一方を用いた表示が挙げられる。
部位推定装置100は、例えば、CPU、制御プログラムを格納したROMなどの記憶媒体、およびRAMなどの作業用メモリを有する。この場合、上記した各構成部の機能は、CPUが制御プログラムを実行することにより実現される。
以上で、部位推定装置100の構成についての説明を終える。
<部位推定装置の動作説明>
次に、部位推定装置100の動作について説明する。
次に、部位推定装置100の動作について説明する。
本実施の形態では、画像入力部110は、監視カメラ320等から入力された画像から、人340と推定される領域(以下、「人候補領域」という)が抽出された画像をエッジペア尤度マップ生成部120に出力するものとする。
上記「人候補領域が抽出された画像」とは、人候補領域以外の画素に背景を示す値が格納されており、人候補領域の画素についてのみ画素値が格納されている画像のことである。
人候補領域の抽出には、監視カメラ320等から入力された画像と背景画像の背景差分画像が用いられてもよい。ここで、背景差分画像とは、例えば、人340がいない状態で撮影された背景画像と、入力された画像との差分を示す画像である。これにより、部位推定装置100は、監視カメラ等から入力された画像において背景と異なる画素を人候補領域として扱うことができる。
なお、部位推定装置100は、例えば、背景画像を予め保持し、背景画像と入力画像との差分を演算することにより背景差分画像を生成してもよい。あるいは、部位推定装置100は、入力された画像から移動物体の領域を抽出することにより、背景差分画像を生成してもよい。移動物体の領域の抽出は、例えば、前回入力された画像と今回入力された画像との差分に基づいて、静止物体と移動物体との識別をすることにより行われる。これにより、部位推定装置100は、移動体の一部であると識別された画素を人候補領域とすることができる。
なお、本実施の形態において、画像入力部110は、グレースケールの画像をエッジペア尤度マップ生成部120に出力するものとする。
監視カメラ320等から入力された画像がRGB(Red Green Blue)値の場合、画像入力部110は、各画素のRGB値から輝度Y(画素の明るさ)のみを抽出したグレースケール(白黒階調の)画像へ変換して出力する。輝度Yは、例えば、以下の式で算出される。
Y(R,G,B)=R×0.29891+G×0.58661+B×0.11448
Y(R,G,B)=R×0.29891+G×0.58661+B×0.11448
また、本実施の形態では、対象部位を腕(右上腕419、右前腕420、左上腕422、左前腕423)とする。なお、部位推定装置100は、前腕と上腕を区別して部位を推定してもよい。
また、本実施の形態では、人候補領域のうち、画像における上部の領域を、腕候補領域として抽出し、腕候補領域に含まれる全画素を処理対象とする。上部の領域は、例えば、人候補領域の所定の比率(例えば、上から10%から50%)の部分を含む領域として、予め定められている。
<部位推定装置のフローチャートによる動作説明>
図5は、部位推定装置100の動作の一例を示すフローチャートである。
図5は、部位推定装置100の動作の一例を示すフローチャートである。
ステップS1000において、画像入力部110は、1フレーム分の画像データを入力する。
ステップS2000において、エッジペア尤度マップ生成部120は、入力した画像を基に、エッジペア尤度マップ生成処理を行う。エッジペア尤度マップ生成処理は、上述のエッジペア尤度マップを生成する処理である。その詳細は、図6および図7を用いて後述する。
ステップS3000において、連続性尤度マップ生成部130は、エッジペア尤度マップを基に、連続性尤度マップ生成処理を行う。連続性尤度マップ生成処理は、上述の連続性尤度マップを生成する処理である。その詳細は、図8および図9を用いて後述する。
ステップS4000において、統合尤度マップ生成部140は、連続性尤度マップを基に、統合尤度マップ生成処理を行う。統合尤度マップ生成処理は、上述の統合尤度マップを生成する処理である。その詳細は、図10を用いて後述する。
ステップS5000において、結果出力部150は、統合尤度マップを基に、結果出力処理を行う。結果出力処理は、ステップS4000で推定された対象部位の情報を出力する処理である。
例えば、結果出力部150は、画像ごとに、推定した部位の候補領域を重畳し、液晶ディスプレイに表示する。なお、結果出力部150は、重畳する際、部位の候補領域の勾配方向を示す情報を、色などで区別できるように表示するようにしてもよい。
ステップS6000において、結果出力部150は、予め設定された所定の処理終了条件が満たされているか否かを判断する。ここでいう「所定の処理終了条件」とは、例えば、ユーザの操作により部位推定処理の終了を指示されることである。
結果出力部150は、所定の処理終了条件が満たされていない場合(S6000:NO)、ステップS1000へ戻って処理を繰り返す。一方で、結果出力部150は、所定の処理終了条件が満たされている場合(S6000:YES)、一連の処理を終了する。
このような動作により、部位推定装置100は、画素ごとのエッジペア尤度および想定領域ごとの連続性尤度を基に抽出した対象部位の候補領域の中から、最も適切な候補領域を抽出して示す統合尤度マップを生成することができる。これにより、部位推定装置100は、部位の輪郭を直線で抽出することが難しい画像であっても、人340の対象部位を推定することができる。
以上で、部位推定装置100の動作についての説明を終える。
<エッジペア尤度マップ生成処理の説明>
次に、図6および図7を用いて、エッジペア尤度マップ生成処理(図5のステップS2000)の一例について説明する。
次に、図6および図7を用いて、エッジペア尤度マップ生成処理(図5のステップS2000)の一例について説明する。
図6は、エッジペア尤度マップ生成処理(図5のステップS2000)の動作の一例を示すフローチャートである。図7は、勾配方向が水平方向であるエッジペア尤度マップの生成処理を説明するための図である。ここでは、水平方向を0度として、水平方向のエッジペア尤度マップを生成する例を説明する。
ステップS2001において、エッジペア尤度マップ生成部120は、生成するエッジペア尤度マップの勾配方向の刻み幅を選択する。ここでは、例として、刻み幅が、予め30度に設定されているとする。このように勾配方向を30度刻みとする場合には、0度、30度、60度、90度、120度、150度の6つのエッジペア尤度マップが生成されることになる。よって、その場合、エッジペア尤度マップ生成部120は、ステップS2002からS2007の処理を6回繰り返すことになる。
勾配方向の刻み幅は、対象部位の推定精度に影響する。高い推定精度が求められる場合、ユーザは、刻み幅を細かく設定すればよい。例えば、刻み幅を45度に設定した場合と30度に設定した場合との比較では、30度に設定した場合の方が、対象部位の推定精度が高くなる。
ステップS2002において、エッジペア尤度マップ生成部120は、腕候補領域710から、注目画素を選択する。腕候補領域710は、画像入力部110から入力した画像の一例である。例えば、図7において、エッジペア尤度マップ生成部120は、左上隅の画素(※で示す画素)を起点としてX座標とY座標をそれぞれ1ずつインクリメントすることで、図7に示す全ての画素を注目画素として選択する。ただし、選択の方法は、これに限定されない。図7では、腕候補領域710から注目画素702が選択された場合を例に説明する。
ステップS2003において、エッジペア尤度マップ生成部120は、勾配方向ペア画素を選択する。図7では、勾配方向ペア画素として704と705が選択される。
上述した通り、ここでは、水平方向のエッジペア尤度マップを生成する例としている。よって、エッジペア尤度マップ生成部120は、2つの条件を満たす画素として、704および705の2つを勾配方向ペア画素として選択する。2つの条件とは、注目画素702を通り水平な直線と垂直となる直線上にあること、および、注目画素702からの距離が対象部位の太さ701の半分の長さ703であること、である。すなわち、角度θのエッジペア尤度マップを生成する場合、エッジペア尤度マップ生成部120は、勾配方向ペア画素を2つ選択する。勾配方向ペア画素は、注目画素を通り、角度θと垂直(θ+90度)の直線上で、距離が対象部位の太さ701の半分の長さ703となる画素である。なお、対象部位の太さ701は、対象部位の太さの平均を表す、予め定められた値である。
ステップS2004において、エッジペア尤度マップ生成部120は、勾配方向ペア画素のそれぞれから予め設定された距離以内にある画素群を、勾配方向ペア近傍領域としてそれぞれ選択する。図7では、勾配方向ペア画素704および705のそれぞれから、近傍の長さ708の距離以内にある画素群が、勾配方向ペア近傍領域706および707としてそれぞれ選択されている。近傍の長さ708は、部位の見えの誤差の長さを表す、予め定められた値である。
ここで、上記「部位の見えの誤差の長さ」とは、画像上における、対象部位の太さの差のことである。対象部位は、その部位の端と中央とで太さが異なる場合がある。また、対象部位は、撮影される角度により、画像上での太さが異なって撮影されたり、部位の両端で太さが異なって撮影されたりすることがある。さらには、対象部位は、服のしわ等で太さが均一に撮影されないこともある。そのため、本実施の形態では、部位の平均の太さに対する、所定の画像上の部位の太さの差を、部位の見えの誤差の長さとして予め設定しておくことで、ロバストな推定が可能となる。
ステップS2005において、エッジペア尤度マップ生成部120は、注目画素702のエッジペア尤度を計算する。具体的には、エッジペア尤度マップ生成部120は、勾配方向ペア近傍領域706内の画素の輝度の総和と、勾配方向ペア近傍領域707内の画素の輝度の総和との積を、エッジペア尤度として算出する。
なお、エッジペア尤度マップ生成部120は、勾配方向ペア近傍領域706内で所定値以上の輝度Yを持つ画素の数と、勾配方向ペア近傍領域707内で所定値以上の輝度Yを持つ画素の数の積を、エッジペア尤度として算出してもよい。これにより、エッジペア尤度マップ生成部120は、各勾配方向ペア近傍領域706、707の大きさでエッジペア尤度を正規化することができる。
ステップS2006において、エッジペア尤度マップ生成部120は、腕候補領域710の全画素についてエッジペア尤度の算出が終了したか否かを判断する。全画素について計算が終了していれば(S2006:YES)、エッジペア尤度マップ生成部120は、ステップS2001で選択した刻み幅のエッジペア尤度マップの生成が終了したと判断し、ステップS2007に進む。一方、全画素について計算が終了していなければ(S2006:NO)、エッジペア尤度マップ生成部120は、ステップS2001で選択した刻み幅のエッジペア尤度マップの生成が終了していないと判断し、ステップS2002に進む。
ステップS2007において、エッジペア尤度マップ生成部120は、全ての勾配方向についてエッジペア尤度の算出が終了したか否かを判断する。全ての勾配方向について計算が終了していれば(S2007:YES)、エッジペア尤度マップ生成部120は、予め定められた全ての勾配方向のエッジペア尤度マップの生成が終了したと判断し、一連の処理を終了する。一方、全ての勾配方向について終了していなければ(S2007:NO)、エッジペア尤度マップ生成部120は、予め定められた全ての勾配方向のエッジペア尤度マップの生成が終了していないと判断する。よって、エッジペア尤度マップ生成部120は、未生成である勾配方向のエッジペア尤度マップを生成するために、ステップS2001に進む。
なお、上記図7の説明では、部位の太さ701と近傍の長さ708に関して、予め値を設定しておく例について説明したが、これに限定されない。すなわち、エッジペア尤度マップ生成部120は、人物候補領域または腕候補領域の大きさに比例して、値を動的に変化させ、適切な値に調節するようにしてもよい。これにより、エッジペア尤度マップ生成部120は、人340の画像上の大きさに応じて対象部位の太さ701と近傍の長さ708を、適切な値に変化させることができる。その結果、エッジペア尤度マップ生成部120は、より精度の高いエッジペア尤度マップを勾配方向別に生成できる。
<連続性尤度マップ生成処理の説明>
次に、図8および図9を用いて、連続性尤度マップ生成処理(図5のステップS3000)の一例について説明する。
次に、図8および図9を用いて、連続性尤度マップ生成処理(図5のステップS3000)の一例について説明する。
エッジペア尤度マップにおいて、対象部位が存在する領域内の画素は、対象部位が存在しない領域内の画素よりも、各画素の各勾配方向ペア近傍領域にエッジが存在する確率が高いため、エッジペア尤度が高くなる。したがって、連続性尤度マップ生成部130は、対象部位の候補領域内の特定の画素のみのエッジペア尤度が高く、特定の画素の周囲の画素のエッジペア尤度が低い場合、その候補領域は部位領域ではないと判断できることを利用する。
図8は、連続性尤度マップの基となるエッジペア尤度マップの一例を示す図である。図8では、エッジペア尤度マップの一部の領域810において、各画素の水平方向のエッジペア尤度を示している。
連続性尤度マップ生成部130は、連続性尤度マップの生成にあたり、対象部位の大きさあるいは形状を想定した領域である部位矩形801を用いる。部位矩形801は、想定領域の一例である。図8では、部位矩形801は、上腕または前腕を想定した長方形を例示している。ただし、連続性尤度マップ生成部130は、対象部位の大きさあるいは形状に応じた部位矩形を設定できる。また、部位矩形801は、長方形を例示しているが、対象部位の大きさあるいは形状に応じた楕円を用いてもよい。部位の接続元および先端は、接続部位の形状が影響して部位の中央よりもエッジペア尤度が低い傾向があるため、部位矩形を楕円とすることで、部位の接続元および先端の影響度を低減し、より精度よく候補領域を抽出することができる。
図8に示す部位矩形801は、短辺が対象部位の平均の太さ、長辺は対象部位の平均の長さを想定している。
連続性尤度マップ生成部130は、部位矩形801の長辺の方向をエッジペア尤度マップの勾配方向と一致させる。そして、連続性尤度マップ生成部130は、部位矩形801に含まれる画素のエッジペア尤度の総和を評価する。
図8において、勾配方向が水平方向のエッジペア尤度を示すため、連続性尤度マップ生成部130は、部位矩形801の長辺の方向を水平に設定する。また、連続性尤度マップ生成部130は、例えば、部位矩形801の初期位置を連続性尤度マップの左上隅に設定する。そして、連続性尤度マップ生成部130は、X軸方向での1画素ずつの走査と、Y軸方向での1行移動とを繰り返す。これにより、連続性尤度マップ生成部130は、連続性尤度マップの全領域において、部位矩形801に含まれる画素のエッジペア尤度の総和を評価する。
例えば、図8において、エッジペア尤度マップのエッジペア尤度Pは、注目画素の位置を示すx座標x、y座標y、勾配方向kを用いて、P(x、y、k)とする。また、部位矩形801の左上隅の画素の位置は、(i,j)とし、部位矩形の長辺の長さをr、短辺の長さをs、勾配方向kとする。このとき、連続性尤度マップ生成部130は、部位矩形801で囲まれた画素のエッジペア尤度の総和Tを、以下の式で求める。
図8の例では、(i,j)=(4,3)、r=5、s=2である。よって、上記式での算出の結果、部位矩形801内の画素のエッジペア尤度の総和Tは、41となる。
連続性尤度マップ生成部130は、エッジペア尤度の総和が所定の閾値以上の場合、部位矩形801に含まれる画素のエッジペア尤度マップ上の座標情報を、総和の評価結果のリスト情報に追加して保持しておく。連続性尤度マップ生成部130は、腕候補領域710の全領域について、部位矩形801に含まれる画素のエッジペア尤度の総和の評価が終了した後、以下の動作を行う。すなわち、連続性尤度マップ生成部130は、上記リスト情報において座標情報が保持されている画素のエッジペア尤度のみを保持する。もしくは、連続性尤度マップ生成部130は、残りの画素のエッジペア尤度を、エッジペア尤度がないことを示す値(例えばゼロ)に設定するようにしてもよい。このようにして、エッジペア尤度を評価した後の尤度は、「連続性尤度」と呼ぶことにする。
図9は、図8に示すエッジペア尤度マップを基に生成された連続性尤度マップの一例を示す図である。
図8において、所定の閾値が40の場合、腕候補領域の一部810の全領域について、部位矩形801に含まれる画素のエッジペア尤度の総和の評価が終了したとする。このとき、エッジペア尤度の総和の評価結果のリスト情報に保持されている画素は、図8の部位矩形801で囲まれた領域の画素のみとなる。連続性尤度マップ生成部130は、部位矩形801で囲まれた領域以外の画素のエッジペア尤度を、エッジペア尤度がないことを示す値(例えばゼロ)に設定して、連続性尤度マップを生成する。この結果、図9に示すように、連続性尤度マップ820は、生成される。
ここで、所定の閾値は、対象部位の部位矩形801によって異なるものであってもよい。所定の閾値は、例えば、対象部位の部位矩形801の大きさに比例して閾値を変えてもよい。また、所定の閾値は、身体モデルにおける対象部位の位置によって、閾値を変えてもよい。例えば、対象部位が身体モデルの先端にある場合には、対象部位が他の部位と重ならず、検出される可能性が高いため閾値を高く設定する。また、対象部位が身体モデルの中央にある場合には、他の部位と重なる可能性が高く、検出される可能性が低いため閾値を低く設定する。連続性尤度マップ生成部130は、このように閾値を設定することで、ロバストな連続性尤度マップを生成するようにしてもよい。また、連続性尤度マップ生成部130は事前に準備した画像のエッジペア尤度を用いて、対象部位の部位矩形801に含まれる画素のエッジペア尤度の総和を学習しておくようにしてもよい。
連続性尤度マップ生成部130は、上記処理を、勾配方向別のエッジペア尤度マップ全てに対して繰り返す。これにより、連続性尤度マップ生成部130は、勾配方向別に連続性尤度マップを生成することができる。
このように、連続性尤度マップ生成部130は、各画素のエッジペア尤度を閾値でフィルタリングするのではなく、対象部位の大きさあるいは形状を想定した領域単位で閾値を設定し、エッジペア尤度をフィルタリングする。連続性尤度マップ生成部130は、例えば、対象部位の大きさあるいは形状を想定した領域を、部位矩形801単位で閾値を設定する。これにより、連続性尤度マップ生成部130は、画素単体ではエッジペア尤度が低い画素であっても、部位領域に含まれる可能性が高い画素を残すことができる。また、連続性尤度マップ生成部130は、対象部位の領域の条件を満たさない画素のエッジペア尤度をノイズとして除去することができる。対象部位の領域の条件を満たさない場合とは、例えば、画素単体でエッジペア尤度が高くても、対象部位の大きさあるいは形状を想定した領域のエッジペア尤度の総和が閾値より小さい場合である。
<統合尤度マップ生成処理の説明>
次に、図10を用いて、統合尤度マップ生成処理(図5のステップS4000)の一例について説明する。
次に、図10を用いて、統合尤度マップ生成処理(図5のステップS4000)の一例について説明する。
図10は、統合尤度マップ生成処理(図5のステップS4000)の動作の一例を示すフローチャートである。
統合尤度マップは、勾配方向別に生成した連続性尤度マップの全てを用いて作成され、最も対象部位の可能性が高い領域を示すマップである。
ステップS9001において、統合尤度マップ生成部140は、連続性尤度マップの同一勾配方向ごとに、対象部位の候補領域の数をカウントする。すなわち、勾配方向が6つある場合、統合尤度マップ生成部140は、6つの勾配方向ごとに候補領域の数をカウントする。ここでいう「対象部位の候補領域」とは、連続性尤度マップにおいて、同一勾配方向に連続した画素に、連続性尤度が付与された領域のことである。例えば、図9の例では、対象部位の候補領域の数は1である。本実施の形態では、6つの勾配方向ごとに候補領域の数をカウントしたところ、5つの候補領域が抽出されたとする。
ステップS9002において、統合尤度マップ生成部140は、勾配方向別にカウントした対象部位の候補領域の数の総和と、対象部位の数とを比較する。ここでいう「対象部位の数」は、予め定められた値である。比較の結果、候補領域の数の総和が対象部位の数以下だった場合(S9002:YES)、統合尤度マップ生成部140は、連続性尤度マップを統合尤度マップとし、一連の処理を終了する。一方、候補領域の数の総和が対象部位数より大きい場合(S9002:NO)、統合尤度マップ生成部140は、ステップS9003に進む。
本実施の形態では、対象部位の数を4(右前腕420、右上腕419、左上腕422、左前腕423)としている。そのため、統合尤度マップ生成部140は、候補領域の数の総和が4以下ならば、一連の処理を終了し、4より多ければステップS9003に進む。
ステップS9003において、統合尤度マップ生成部140は、勾配方向別にカウントした対象部位の候補領域ごとに、候補領域に含まれる画素の連続性尤度の総和を算出する。そして、統合尤度マップ生成部140は、算出した総和が高い領域から順に、対象部位の数の候補領域を抽出する。
本実施の形態では、対象部位の数を4としているため、統合尤度マップ生成部140は、5つ全ての候補領域について、候補領域に含まれる画素の連続性尤度の総和を算出する。そして、統合尤度マップ生成部140は、算出した総和の値が高い領域から順に、4つの候補領域を抽出する。
ステップS9004において、統合尤度マップ生成部140は、抽出した候補領域が対象部位の身体制約を満たすか否かを判定する。
例えば、本実施の形態では、対象部位は上腕または前腕であり、上腕と前腕は少なくとも関節で接続している、という身体制約を用いるとする。具体的には、各候補領域の少なくとも一方の先端付近には、他の候補領域の先端が存在しているという判定基準を用いる。
ここで、候補領域の先端の位置を表す先端座標を特定する方法の一例を説明する。
例えば、図9に示す、勾配方向が水平方向である連続性尤度マップにおいては、候補領域を通り水平方向(X軸方向)の直線群を考える。この直線群のうち、直線と候補領域の重なる長さが最も長くなる直線を考える。この直線と候補領域の境界の画素は、候補領域の先端の画素とする。例えば、図9では、候補領域の先端の画素をX軸とY軸の値(x、y)で表現すると、(4,3)と(8,3)、または(4,4)と(8,4)となる。ここで、候補領域の先端の画素が複数あった場合には、各座標の値の平均値を先端座標とするため、(4,3.5)と(8,3.5)とする。
本実施の形態では、同様にして、統合尤度マップ生成部140は、他の3つの候補領域の先端座標を求める。そして、統合尤度マップ生成部140は、候補領域ごとに、部位領域のどちらか一方の先端から所定の距離内に他の候補領域の先端が存在するかを判定する。そして、統合尤度マップ生成部140は、全ての候補領域について、部位領域のどちらか一方の先端から所定の距離内に他の候補領域の先端が存在する場合、身体制約を満たすと判断する。ここで、上記「所定の距離」とは、部位領域の大きさに依存し、部位領域の短辺より短い長さである。
統合尤度マップ生成部140は、身体制約を満たせば(S9004:YES)、抽出した候補領域の連続性尤度を保持し、他の値を連続性尤度がないことを示す値(例えばゼロ)に設定して統合尤度マップを生成し、一連の処理を終了する。一方、統合尤度マップ生成部140は、身体制約を満たさなければ(S9004:NO)、ステップS9003に戻り、候補領域の抽出を継続する。
なお、統合尤度マップ生成部140は、全ての候補領域の組み合わせが身体制約を満たさなかった場合、最も身体制約に近い候補領域の組み合わせを、候補領域とみなして抽出する。そして、統合尤度マップ生成部140は、抽出した候補領域の連続性尤度を保持し、他の値を連続性尤度がないことを示す値(例えばゼロ)に設定して統合尤度マップを生成し、一連の処理を終了する。
統合尤度マップ生成部140が、所定の候補領域について、最も身体制約に近いか否かを判断する方法の一例について説明する。まず、統合尤度マップ生成部140は、部位領域のどちらか一方の先端から所定の距離内に他の候補領域の先端が存在しない部位候補について、部位領域のどちらか一方の先端から他の候補領域の先端までの最短距離を算出する。そして、統合尤度マップ生成部140は、候補領域の組み合わせごとに、最短距離と所定の距離の差の和を計算する。統合尤度マップ生成部140は、この値が小さいものを身体制約に近いと判断する。
このように、部位推定装置100は、勾配方向別に生成した連続性尤度マップを活用して、身体制約も考慮して、最も部位である可能性が高い領域のみを抽出する。これにより、部位推定装置100は、さらに精度よく部位を推定することができる。
なお、統合尤度マップ生成部140は、「前腕と上腕は関節で接続されている」という身体制約を用いたが、別途、頭あるいは肩の位置を推定する処理を行い、「肩の近傍に上腕の候補領域の先端が存在する」という身体制約を用いてもよい。これにより、部位推定装置100は、さらに精度よく部位を推定することができる。
また、本実施の形態では、図9に示すフローにおいて、身体制約を満たすか否かの判定(ステップS9004)自体を省略してもよい。
以上説明したように本実施の形態は、以下の作用および効果を得ることができる。すなわち、部位推定装置100は、まず、入力した画像の画素ごとに、局所領域での対象部位らしさを数値化したエッジペア尤度マップを、勾配方向別に生成する。これにより、部位推定装置100は、局所領域における対象部位らしさをもれなく抽出することができる。 また、部位推定装置100は、エッジペア尤度マップ上において対象部位に相当する領域を基に判別した対象部位らしさを示す連続性尤度マップを、勾配方向別に生成する。これにより、部位推定装置100は、局所領域では部位らしさを満たしていても、領域としての部位らしさを満たさない領域を、部位でないと判断することができる。
さらに、部位推定装置100は、連続性尤度マップから勾配方向別に抽出した候補領域の中から、最も対象部位らしい身体制約を満たす領域を絞り込んで示す統合尤度マップを生成する。これにより、部位推定装置100は、人340の対象部位を推定することができる。
以上の一連の動作により、部位推定装置100は、上述の通り、部位の輪郭を直線で抽出することが難しい画像であっても、人340の部位を高精度に推定することができる。
さらに、部位推定装置100は、連続性尤度マップから勾配方向別に抽出した候補領域の中から、最も対象部位らしい身体制約を満たす領域を絞り込んで示す統合尤度マップを生成する。これにより、部位推定装置100は、人340の対象部位を推定することができる。
以上の一連の動作により、部位推定装置100は、上述の通り、部位の輪郭を直線で抽出することが難しい画像であっても、人340の部位を高精度に推定することができる。
(実施の形態3)
本発明の実施の形態3は、本発明を、撮影された画像に含まれる人の部位を推定する装置に適用した場合の、具体的態様の一例である。
本発明の実施の形態3は、本発明を、撮影された画像に含まれる人の部位を推定する装置に適用した場合の、具体的態様の一例である。
本実施の形態は、実施の形態2に機能を追加したものであり、実施の形態2と同一部分には同一符号を付し、それらについての説明を省略する。
本実施の形態において、部位推定装置は、画像中に、対象部位と類似する形状の人工物が存在する場合、対象部位と人工物を区別することによって、より精度よく部位を推定することができる。
まず、本実施の形態に係る部位推定装置を含む部位推定システムの概要は、実施の形態2と同様である。
<部位推定装置の構成>
次に、部位推定装置100bの構成について説明する。
次に、部位推定装置100bの構成について説明する。
図11は、部位推定装置100bの構成の一例を示すブロック図である。図11において、部位推定装置100bは、画像入力部110、エッジペア尤度マップ生成部120、連続性尤度マップ生成部130、分散尤度マップ生成部160、統合尤度マップ生成部140b、結果出力部150を有する。
図11において、図4と異なる部分は、2つある。1つは、分散尤度マップ生成部160が追加されていることである。もう1つは、統合尤度マップ生成部140bが、分散尤度マップ生成部160が生成した分散尤度マップを用いて、統合尤度マップを生成することである。
分散尤度マップ生成部160は、連続性尤度マップ生成部130が勾配方向別に生成した連続性尤度マップのそれぞれにおいて、予め定義された想定領域(例えば部位矩形)内に含まれる連続性尤度の分散を評価する。そして、分散尤度マップ生成部160は、連続性尤度の分散の評価を、連続性尤度マップ全体を網羅するまで繰り返すことで、分散尤度マップを生成する。上記「予め定義された想定領域」とは、例えば、対象部位の候補領域である。ここでいう「対象部位の候補領域」とは、連続性尤度マップにおいて、同一勾配方向に連続した画素に対して、連続性尤度が付与された領域のことである。
具体的には、分散尤度マップ生成部160は、連続性尤度マップの連続性尤度の分散が、対象部位の分散と異なる、と判断された連続性尤度を削除する。もしくは、分散尤度マップ生成部160は、対象部位の分散と類似していると判断された連続性尤度のみを保持するようにしてもよい。このようにして、分散尤度マップ生成部160は、分散尤度マップを生成する。
この分散尤度マップの生成処理は、人工物と人の部位とで、連続性尤度の分散が異なることを利用したものである。工業製品などの人工物のエッジは、人の部位のエッジの勾配と比較すると、単一の勾配で抽出されやすく、分散の値が小さくなる傾向にある。したがって、本実施の形態では、分散を評価することで、人工物と人の部位を判別することが可能となる。
なお、分散尤度マップの生成手法の詳細については、後述する。
このような部位推定装置100bは、まず、上記実施の形態1、2と同じく、エッジペア尤度マップ生成処理および連続性尤度マップ生成処理を行う。その後、部位推定装置100は、連続性尤度の分散を評価して対象部位の分散を満たす分散尤度マップを勾配方向別に生成する分散尤度マップ生成処理を行う。そして、部位推定装置100bは、勾配方向別の分散尤度マップを基に、対象部位の身体制約を満たす統合尤度マップを生成する。以上のようにして、部位推定装置100bは、部位の輪郭を直線で抽出することが難しい画像、あるいは、人工物が混在する画像であっても、人340の部位を高精度に推定することができる。
以上で、部位推定装置100bの構成についての説明を終える。
<部位推定装置の動作説明>
次に、部位推定装置100bの動作について説明する。
次に、部位推定装置100bの動作について説明する。
図12は、部位推定装置100bの動作の一例を示すフローチャートである。
図12が図5と異なるのは、連続性尤度マップ生成処理(S3000)と統合尤度マップ生成処理(S4000)の間に、分散尤度マップ生成処理(S7000)が追加されたことである。
ステップS7000において、分散尤度マップ生成部160は、分散尤度マップ生成処理を行う。分散尤度マップ生成処理は、上述の分散尤度マップを生成する処理である。
<分散尤度マップ生成処理の説明>
ここで、分散尤度マップ生成処理(S7000)の一例について説明する。
ここで、分散尤度マップ生成処理(S7000)の一例について説明する。
画像においては、工業製品等の人工物のエッジは直線で構成されていることが多い。よって、本実施の形態では、人工物は人340の部位よりも連続性尤度マップの分散の値が小さくなることを利用することにより、人工物と人340の部位の区別が可能となる。具体的には、分散尤度マップ生成部160は、連続性尤度マップの部位の候補領域の分散を、同一勾配方向別に求める。求めた分散の値が所定の閾値よりも小さければ、分散尤度マップ生成部160は、候補領域は人工物であると判断する。そして、分散尤度マップ生成部160は、分散の値が所定の閾値よりも小さい画素の連続性尤度を、連続性尤度がないことを示す値(例えばゼロ)に設定する。一方、分散尤度マップ生成部160は、求めた分散の値が所定の閾値よりも大きければ、候補領域は部位の可能性が高いと判断する。そして、分散尤度マップ生成部160は、分散の値が所定の閾値よりも大きい画素の連続性尤度を保持する。例えば、分散尤度マップ生成部160は、勾配方向kの候補領域の分散が所定の閾値よりも小さい場合、その候補領域に含まれる画素の勾配方向kの連続性尤度を、尤度がないことを示す値(例えばゼロ)に設定する。
ここで、分散尤度マップ生成部160は、上記「所定の閾値」として、予め学習しておいた値を用いてもよいし、前回部位推定した結果の部位領域の分散の平均の値を基に算出してもよい。または、分散尤度マップ生成部160は、今回抽出した候補領域の分散を、判別分析法を用いて人工物と人340の部位に分類してもよい。判別分析法は、分離度が最大となる閾値を求め、自動的に二値化を行う公知の手法である。分離度は、人工物と人340の部位の2つのクラスに分類するとき、クラス間分散とクラス内分散との比で求められる。
次に、分散尤度マップ生成部160が、連続性尤度マップの部位の候補領域の分散を算出する手法の一例を説明する。
まず、分散尤度マップ生成部160は、連続性尤度マップの部位の候補領域の重心Cを、以下の式を用いて算出する。
ここでは、重心Cを通り、部位の候補領域を含む連続性尤度マップの勾配方向と垂直の直線を考える。具体的には、例えば、部位の候補領域を含む連続性尤度マップの勾配方向がθの場合、重心Cを通り、角度がθ+90度の直線を考える。そして、分散尤度マップ生成部160は、部位の候補領域で、かつ、この直線上の画素の値を、上述した分散σ2を求める式の値xiとして分散を求める。
分散尤度マップ生成部160は、このように算出した部位の候補領域の分散と、予め設定した所定の閾値とを比較する。比較の結果、分散の値が所定の閾値より小さければ、分散尤度マップ生成部160は、その領域は部位の可能性が低いと判断して、その勾配方向の連続性尤度を連続性尤度の値がないことを示す値(例えばゼロ)に設定する。もしくは、比較の結果、分散の値が所定の閾値以上であれば、分散尤度マップ生成部160は、その領域は部位である可能性が高いと判断して、その勾配方向の連続性尤度のみを保持するようにしてもよい。
なお、ここでは、分散尤度マップ生成部160は、部位の候補領域の重心Cの一点のみの分散を評価したが、複数の分散を算出してその平均値を用いて判断してもよい。これにより、ロバスト性が向上する。例えば、分散尤度マップ生成部160は、重心Cを通り、部位の候補領域を含む連続性尤度マップの勾配方向の直線上の、重心C以外の画素についても、上記重心Cについて行った処理と同じ処理を行って、複数の分散を求めてもよい。
なお、連続性尤度マップ生成部130は、部位矩形801を用いて連続性尤度マップを生成する際、部位矩形801近傍の画素のエッジペア尤度を残すようにしてもよい。分散は、データのばらつきを示す値であり、期待値から離れている値の量によって大きさが変わる。したがって、連続性尤度マップ生成部130は、期待値から離れているエッジペア尤度を残すと、人工物と人340の部位の分散の違いが大きくなり、判別しやすくなる。これについて、図13を用いて説明する。
<連続性尤度マップの一例>
図13は、分散尤度マップの基となる連続性尤度マップの一例を示す。連続性尤度マップ820は、連続性尤度マップ生成部130が、部位矩形801に含まれる画素のエッジペア尤度だけでなく、部位矩形801の近傍領域802に含まれる画素のエッジペア尤度も保持して生成したものである。
図13は、分散尤度マップの基となる連続性尤度マップの一例を示す。連続性尤度マップ820は、連続性尤度マップ生成部130が、部位矩形801に含まれる画素のエッジペア尤度だけでなく、部位矩形801の近傍領域802に含まれる画素のエッジペア尤度も保持して生成したものである。
図13の連続性尤度マップ820においては、部位矩形801には含まれないが、部位矩形801の近傍領域802に含まれる画素にも比較的高いエッジペア尤度(連続性尤度)が存在している。そのため、図13の連続性尤度マップ820を用いて算出された分散は、図9の連続性尤度マップ820から算出された分散よりも、大きくなる。これにより、分散尤度マップ生成部160は、人工物と人340の部位を精度よく区別することができる。このように、分散尤度マップ生成部160が部位矩形だけでなく近傍領域802を含めて分散を求めることで、人工物と人340の部位を判別する精度を向上させることができる。
なお、図13では、部位矩形の各辺を1画素ずつ大きくした近傍領域802を例として示したが、これに限定されない。近傍領域802は、部位矩形801の大きさあるいは対象部位の種類などに応じて、変動するようにしてもよい。
なお、ここでは、分散尤度マップ生成部160が候補領域内の分散を評価する例について説明したが、分散ではなく連続性尤度の平均値も用いて評価してもよい。これは、人工物の連続性尤度は、分散の値が小さいため、連続性尤度の平均値が高くなる傾向がある特性を利用する。この場合、分散尤度マップ生成部160は、候補領域内の連続性尤度を持つ画素の平均値を求める。
例えば、図9において、連続性尤度マップの連続性尤度Pは、画素の位置を示すx座標x、y座標y、勾配方向kを用いて、P(x,y,k)とする。また、部位矩形801の左上隅の画素の位置を(i,j)とし、部位矩形の長辺の長さをr、短辺の長さをs、勾配方向k、部位矩形内で連続性尤度が0の画素の数をu、とする。このとき、部位矩形801に含まれる画素の連続性尤度の平均値Aは、以下の式で求められる。
分散尤度マップ生成部160は、上記式により算出した部位の候補領域内の連続性尤度の平均値と、予め設定した所定の閾値とを比較する。比較の結果、平均の値が所定の閾値より大きければ、分散尤度マップ生成部160は、その領域が人340の部位である可能性が低いと判断する。そして、分散尤度マップ生成部160は、その勾配方向の連続性尤度を、連続性尤度の値がないことを示す値(例えばゼロ)に設定する。一方、比較の結果、連続性尤度の平均の値が所定の閾値以下であれば、分散尤度マップ生成部160は、その領域が人340の部位である可能性が高いと判断し、その勾配方向の連続性尤度を保持する。
なお、本実施の形態において、分散尤度マップ生成部160は、連続性尤度マップを用いて分散尤度マップを生成したが、エッジペア尤度マップを用いて同様に分散尤度マップを生成してもよい。その場合、エッジペア尤度マップには部位の候補領域がないため、分散尤度マップ生成部160は、全ての画素について、その画素の所定の距離内の領域について分散を計算して、人工物を判別する処理を行う。
このようにすることで、本実施の形態では、エッジペア尤度マップから人工物の可能性が高い領域のエッジペア尤度を取り除いて、部位を推定することができる。
このような部位推定装置100bは、まず、上記実施の形態1、2と同じく、エッジペア尤度マップ生成処理および連続性尤度マップ生成処理を行う。その後、部位推定装置100bは、連続性尤度マップを基に連続性尤度の分散を評価して、対象部位の分散の条件を満たす分散尤度マップを勾配方向別に生成する分散尤度マップ生成処理を行う。そして、部位推定装置100bは、勾配方向別の分散尤度マップを基に、対象部位の身体制約を満たす統合尤度マップを生成する。以上のようにして、部位推定装置100bは、部位の輪郭を直線で抽出することが難しい画像であっても、人工物が混在する画像であっても、人340の部位を高精度に推定することができる。
(実施の形態4)
本発明の実施の形態4は、対象部位を腕(右上腕419、右前腕420、左上腕422、左前腕423)としたときに、胴あるいは頭など対象部位以外(以下、「非推定対象部位」という)の情報を用いる場合の例である。
本発明の実施の形態4は、対象部位を腕(右上腕419、右前腕420、左上腕422、左前腕423)としたときに、胴あるいは頭など対象部位以外(以下、「非推定対象部位」という)の情報を用いる場合の例である。
本実施の形態に係る部位推定装置は、まず、画像から非推定対象部位の輪郭を抽出する。その後、部位推定装置は、連続性尤度マップまたは分散尤度マップにおいて、抽出した非推定対象部位の輪郭の近傍領域のエッジペア尤度または連続性尤度を下げて、その後の対象部位の推定処理を進める。これは、対象部位と非推定対象部位が画像上で重なることによって、非推定対象部位が存在する近傍の領域の画素のエッジペア尤度または連続性尤度が高くなる可能性があることを鑑みたものである。このようにすることで、部位推定装置は、非推定対象部位の影響を取り除いて、より精度よく部位を推定することができる。
図14は、本実施の形態に係る部位推定装置の構成の一例を示すブロック図であり、実施の形態2の図4に対応するものである。図14において、図4と同一部分には、同一符号を付し、それらについての説明は省略する。
図14において、部位推定装置100cは、図4の構成に加えて輪郭領域推定部170を有する。
本実施の形態では、対象部位を腕(右上腕419、右前腕420、左上腕422、左前腕423)として説明し、非推定対象部位を頭418と胴411として説明する。
輪郭領域推定部170は、画像から人340の非推定対象部位の輪郭を抽出し、その近傍の領域を輪郭領域として抽出する。
<輪郭領域推定の説明>
輪郭領域推定の一例を説明する。
輪郭領域推定の一例を説明する。
まず、輪郭領域推定部170は、入力された画像から、背景差分画像を生成して、人340の人候補領域を抽出する。ここで、背景差分画像とは、例えば、人340がいない状態で撮影された背景画像と、入力された画像との差分を示す画像である。
これにより、輪郭領域推定部170は、背景と異なる画素を人候補領域として扱うことができる。
なお、輪郭領域推定部170は、例えば、背景画像を予め保持し、背景画像と入力画像との差分を演算することにより背景差分画像を生成する。あるいは、輪郭領域推定部170は、移動物体の領域を抽出することにより、背景差分画像を生成してもよい。また、輪郭領域推定部170は、例えば、前回入力された画像と今回入力された画像とで、輝度の異なる画素を抽出することにより移動物体の領域を抽出し、移動体物体の領域を人候補領域としてもよい。
本実施の形態では、まず、輪郭領域推定部170は、人候補領域のうち、上部の領域を、頭候補領域として抽出する。上部の領域は、例えば、人候補領域のうち上端から下方に向かって所定の比率(例えば、30%)の部分を含む領域として、予め定められている。輪郭領域推定部170は、この頭候補領域において輪郭となる画素を、頭の輪郭の画素として抽出する。
さらに、輪郭領域推定部170は、抽出した頭候補領域から、ハフ変換などを用いて頭領域を抽出してもよい。ハフ変換は、公知の技術であり、エッジ情報から円の中心(X座標、Y座標)と半径を表す三つのパラメータを求めることができる。輪郭領域推定部170は、この円上の画素を頭の輪郭の画素として抽出してもよい。
輪郭領域推定部170は、頭候補領域から抽出した頭の輪郭の画素に、ハフ変換などによって求められた円上の画素を加えて頭の輪郭としてもよい。このようにすることで、輪郭領域推定部170は、人候補領域に欠損があった場合にも、よりロバストに頭の輪郭の画素を抽出できる。
また、輪郭領域推定部170は、頭候補領域から抽出した頭の輪郭の画素と頭候補領域から抽出した円状の画素の共通の画素を頭の輪郭として抽出してもよい。このようにすることで、輪郭領域推定部170は、より確実に頭の輪郭の画素を抽出できる。
次に、輪郭領域推定部170は、人候補領域のうち、中部の領域を、胴候補領域として抽出する。中部の領域は、例えば、人候補領域のうち、所定の比率(例えば上から20%から60%)の部分を含む領域として、予め定められている。輪郭領域推定部170は、この胴候補領域において輪郭となる画素を、胴の輪郭として抽出する。
さらに、輪郭領域推定部170は、頭の輪郭の画素の抽出と同様に、抽出した胴候補領域から、ハフ変換などを用いて楕円形状の胴候補領域を抽出してもよい。
輪郭領域推定部170は、胴候補領域から抽出した胴の輪郭の画素に、ハフ変換などを用いて求められた楕円上の画素を加えて胴の輪郭の画素として抽出してもよい。このようにすることで、輪郭領域推定部170は、胴候補領域に欠損があった場合にも、よりロバストに胴の輪郭の画素を抽出できる。
また、輪郭領域推定部170は、胴候補領域で抽出した画素と胴候補領域から抽出した楕円上の画素の共通の画素を、胴の輪郭の画素として抽出してもよい。このようにすることで、輪郭領域推定部170は、より確実に胴の輪郭の画素を抽出できる。
輪郭領域推定部170は、このように抽出した、頭418と胴411の輪郭の画素とその近傍の領域を、輪郭領域とする。具体的には、輪郭領域推定部170は、頭と胴の輪郭を中心として所定の距離内にある画素を輪郭領域とする。ここで、所定の距離とは、例えば、対象部位の画像上での見えの誤差の大きさに基づいて決めてもよい。
輪郭領域推定部170は、推定した輪郭領域を、統合尤度マップ生成部140cに出力する。
統合尤度マップ生成部140cは、輪郭領域推定部170が推定した輪郭領域と、連続性尤度マップ生成部が生成した連続性尤度マップを用いて、統合尤度マップを生成する。
統合尤度マップ生成部140cは、図10のS9003において、エッジペア尤度の総和が高い領域を抽出する際、輪郭領域推定部170が推定した輪郭領域と座標の位置が重なる候補領域の優先度を下げて、抽出する。「優先度」は、換言すれば、抽出(選択)される優先度である。具体的には、統合尤度マップ生成部140cは、例えば、座標の位置が重なる領域について、エッジペア尤度の総和から所定の値を減算した値に変更する。このようにすることで、統合尤度マップ生成部140cは、座標の位置が重ならない領域を、候補領域として優先的に選択することになる。よって、部位推定装置100cは、非推定対象部位の輪郭が、連続性尤度マップ生成時の条件であるエッジペア尤度の連続性を満たしている場合でも、精度よく対象部位を推定することができる。
ここで、上記「所定の値」とは、例えば、該当する候補領域のうち、候補領域と輪郭領域が重なる画素の割合(候補領域のうち輪郭領域と重なる画素数を候補領域の画素数で除したもの)と、該当する候補領域の総和との積、としてもよい。
また、統合尤度マップ生成部140cは、輪郭領域と、座標の位置が重なる候補領域を、対象部位数より優先度が下になるようにしてもよい。具体的には、例えば、対象部位数が4で、候補領域が6つ抽出されており、エッジペア尤度の総和の多い順に並べると3番の候補領域が座標の位置が重なる場合を考える。この場合、統合尤度マップ生成部140は、この候補領域の総和の順を3番から5番以降に優先度を下げ、図10において一回目のS9004の処理で用いる組み合わせには入らないようにしてもよい。
なお、部位推定装置100cは、輪郭領域推定部170が推定した輪郭領域と座標の位置が重なるだけでなく、輪郭領域の向きが候補領域の方向と一致した場合に、優先度を下げるようにしてもよい。輪郭領域の向きとは、例えば、対象部位が身体モデル410の胴411であった場合、胴の左右の長辺の輪郭を直線で近似した場合の角度である。直線の近似は、公知の技術である最小二乗法により回帰直線を求める方法を用いてもよい。こうすることで、部位推定装置100cは、候補領域が、輪郭とノイズによってエッジペア尤度が高くなっている場合にも、精度よく部位を推定することができる。
なお、統合尤度マップ生成部140cは、候補領域と部位矩形の類似度に応じて、優先度を変えるようにしてもよい。候補領域と部位矩形の類似度は、例えば、候補領域と部位矩形を重心で重ねたときに、候補領域と部位矩形が一致しない画素の数をカウントし、一致しない画素の数が多いほど、類似度が低いと判断し、優先度を下げるようにしてもよい。こうすることで、部位推定装置100cは、部位矩形と類似度の低い候補領域の優先度が下がり、服の柄などのノイズによってエッジペア尤度が高くなっている場合にも、精度よく部位を推定することができる。
なお、図15に示すように、統合尤度マップ生成部140cは、輪郭領域推定部170が推定した輪郭領域と、分散尤度マップ生成部160が生成した分散尤度マップを用いて、統合尤度マップを生成するようにしてもよい。このようにすることで、部位推定装置100cは、画像に人工物が含まれる場合にも、精度よく部位推定が行える。
これにより、部位推定装置100cは、非推定対象部位の存在によりエッジペア尤度が高くなっている可能性のある領域を部位領域の候補から除外することができるため、部位推定の精度を向上させることができる。
なお、以上説明した、本発明の実施の形態2、実施の形態3、実施の形態4では、背景差分画像から対象部位を推定する処理について説明したが、これに限定されない。例えば、部位推定装置は、公知技術であるメディアンフィルタを用いて、背景差分画像からノイズを除去した画像を用いてもよい。また、部位推定装置100は、背景差分画像とエッジ画像とを重畳して得られる画像を用いてもよい。
また、上記実施の形態1~4では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連係においてソフトウェアでも実現することも可能である。
以上、本開示の部位推定装置は、画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するエッジペア尤度マップ生成部と、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する連続性尤度マップ生成部と、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する統合尤度マップ生成部と、を有する。
また、本開示の部位推定装置は、前記連続性尤度マップに示される前記連続性のあるエッジペア尤度の分散を評価し、前記推定対象である部位の分散を満たす分散尤度マップを生成する分散尤度マップ生成部をさらに有し、前記統合尤度マップ生成部が、前記分散尤度マップに基づいて、前記統合尤度マップを生成する。
また、本開示の部位推定装置は、前記連続性尤度マップ生成部が、前記連続性のあるエッジペア尤度に加えて、前記推定対象である部位を想定した領域の近傍領域に含まれる画素のエッジペア尤度も考慮して、前記連続性尤度マップを生成し、前記分散尤度マップ生成部が、前記連続性尤度マップに基づいて、前記分散尤度マップを生成する。
また、本開示の部位推定装置は、前記推定対象である部位以外の部位である非推定対象部位の輪郭領域を推定する輪郭領域推定部をさらに有し、前記統合尤度マップ生成部が、前記候補領域を絞り込む際、前記輪郭領域推定部により推定された前記輪郭領域と座標が重ならない候補領域を、優先して選択する。
また、本開示の部位推定装置は、前記エッジペア尤度マップ生成部が、前記画像の大きさに応じて、前記エッジペア尤度マップ生成に用いる値を動的に調節する。
また、本開示の部位推定方法は、画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するステップと、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成するステップと、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成するステップと、を有する。
また、本開示の部位推定プログラムは、画像を入力あるいは生成する装置のコンピュータに、前記画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成する処理と、前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する処理と、前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する処理と、を実行させる。
2012年3月29日出願の特願2012-076072の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、人、動物またはロボットなどの多関節物体の部位を推定する、部位推定装置、部位推定方法、および部位推定プログラムとして有用である。
100、100b、100c 部位推定装置
110 画像入力部
120 エッジペア尤度マップ生成部
130 連続性尤度マップ生成部
140、140b、140c 統合尤度マップ生成部
150 結果出力部
160 分散尤度マップ生成部
170 輪郭領域抽出部
200 部位推定システム
310 監視エリア
320 監視カメラ
330 床面
340 人
110 画像入力部
120 エッジペア尤度マップ生成部
130 連続性尤度マップ生成部
140、140b、140c 統合尤度マップ生成部
150 結果出力部
160 分散尤度マップ生成部
170 輪郭領域抽出部
200 部位推定システム
310 監視エリア
320 監視カメラ
330 床面
340 人
Claims (7)
- 画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するエッジペア尤度マップ生成部と、
前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する連続性尤度マップ生成部と、
前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する統合尤度マップ生成部と、を有する、
部位推定装置。 - 前記連続性尤度マップに示される前記連続性のあるエッジペア尤度の分散を評価し、前記推定対象である部位の分散を満たす分散尤度マップを生成する分散尤度マップ生成部をさらに有し、
前記統合尤度マップ生成部は、
前記分散尤度マップに基づいて、前記統合尤度マップを生成する、
請求項1記載の部位推定装置。 - 前記連続性尤度マップ生成部は、
前記連続性のあるエッジペア尤度に加えて、前記推定対象である部位を想定した領域の近傍領域に含まれる画素のエッジペア尤度も考慮して、前記連続性尤度マップを生成し、
前記分散尤度マップ生成部は、
前記連続性尤度マップに基づいて、前記分散尤度マップを生成する、
請求項2記載の部位推定装置。 - 前記推定対象である部位以外の部位である非推定対象部位の輪郭領域を推定する輪郭領域推定部をさらに有し、
前記統合尤度マップ生成部は、
前記候補領域を絞り込む際、前記輪郭領域推定部により推定された前記輪郭領域と座標が重ならない候補領域を、優先して選択する、
請求項1記載の部位推定装置。 - 前記エッジペア尤度マップ生成部は、
前記画像の大きさに応じて、前記エッジペア尤度マップ生成に用いる値を動的に調節する、
請求項1記載の部位推定装置。 - 画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成するステップと、
前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成するステップと、
前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成するステップと、を有する、
部位推定方法。 - 画像を入力あるいは生成する装置のコンピュータに、
前記画像中の画素ごとに、当該画素の近傍に存在するペアの画素が、推定対象である部位のエッジであることの尤もらしさを示すエッジペア尤度を算出し、当該エッジペア尤度を前記画素ごとに示すエッジペア尤度マップを生成する処理と、
前記エッジペア尤度マップに対し、前記推定対象である部位を想定した領域内に含まれる画素のエッジペア尤度について連続性を評価し、連続性のあるエッジペア尤度を、前記推定対象である部位を示す候補領域として示す連続性尤度マップを生成する処理と、
前記連続性尤度マップが示す前記候補領域を、予め定められた条件を基に絞り込んで示す統合尤度マップを生成する処理と、を実行させる、
部位推定プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201380013587.3A CN104169968B (zh) | 2012-03-29 | 2013-03-15 | 部位估计装置和部位估计方法 |
US14/388,254 US9639950B2 (en) | 2012-03-29 | 2013-03-15 | Site estimation device, site estimation method, and site estimation program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-076072 | 2012-03-29 | ||
JP2012076072A JP5801237B2 (ja) | 2012-03-29 | 2012-03-29 | 部位推定装置、部位推定方法、および部位推定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013145615A1 true WO2013145615A1 (ja) | 2013-10-03 |
Family
ID=49258929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/001777 WO2013145615A1 (ja) | 2012-03-29 | 2013-03-15 | 部位推定装置、部位推定方法、および部位推定プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9639950B2 (ja) |
JP (1) | JP5801237B2 (ja) |
CN (1) | CN104169968B (ja) |
WO (1) | WO2013145615A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5898199B2 (ja) * | 2011-07-15 | 2016-04-06 | パナソニック株式会社 | 姿勢推定装置、姿勢推定方法、および姿勢推定プログラム |
US9934577B2 (en) * | 2014-01-17 | 2018-04-03 | Microsoft Technology Licensing, Llc | Digital image edge detection |
JP6381368B2 (ja) * | 2014-08-26 | 2018-08-29 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
US10043084B2 (en) * | 2016-05-27 | 2018-08-07 | Toyota Jidosha Kabushiki Kaisha | Hierarchical context-aware extremity detection |
CN106713964A (zh) * | 2016-12-05 | 2017-05-24 | 乐视控股(北京)有限公司 | 一种生成视频摘要视点图的方法及装置 |
JP6542824B2 (ja) | 2017-03-13 | 2019-07-10 | ファナック株式会社 | 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法 |
JP6977337B2 (ja) * | 2017-07-03 | 2021-12-08 | 富士通株式会社 | 部位認識方法、装置、プログラム、及び撮像制御システム |
US10672174B2 (en) | 2018-06-28 | 2020-06-02 | Adobe Inc. | Determining image handle locations |
US10621764B2 (en) | 2018-07-05 | 2020-04-14 | Adobe Inc. | Colorizing vector graphic objects |
CN109376649A (zh) * | 2018-10-20 | 2019-02-22 | 张彦龙 | 一种从眼部灰度图像缩小似然图计算识别上下眼皮的方法 |
US10937185B2 (en) * | 2018-12-03 | 2021-03-02 | Everseen Limited | System and method to detect articulate body pose |
WO2021005745A1 (ja) * | 2019-07-10 | 2021-01-14 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
JP7479925B2 (ja) * | 2020-05-14 | 2024-05-09 | キヤノン株式会社 | 画像処理システム、画像処理方法、及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143734A (ja) * | 1991-11-20 | 1993-06-11 | Yamatake Honeywell Co Ltd | 部品輪郭抽出方法 |
JPH09198505A (ja) * | 1996-01-16 | 1997-07-31 | Mitsubishi Heavy Ind Ltd | 線位置検出装置 |
JP2004206656A (ja) * | 2002-11-08 | 2004-07-22 | Minolta Co Ltd | 検出装置および検出方法 |
JP2011087144A (ja) * | 2009-10-16 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4419543B2 (ja) | 2003-12-05 | 2010-02-24 | コニカミノルタホールディングス株式会社 | 検出装置および検出方法 |
CN101855650B (zh) * | 2007-11-09 | 2012-12-12 | 富士通株式会社 | 生物体信息取得装置、生物体信息取得方法以及生物体认证装置 |
US9165199B2 (en) * | 2007-12-21 | 2015-10-20 | Honda Motor Co., Ltd. | Controlled human pose estimation from depth image streams |
CN100593792C (zh) * | 2008-03-10 | 2010-03-10 | 北京航空航天大学 | 一种视频中的文本跟踪和多帧增强方法 |
US8520946B2 (en) * | 2009-06-26 | 2013-08-27 | Intel Corporation | Human pose estimation in visual computing |
CN102028482B (zh) * | 2009-09-30 | 2012-11-14 | 同方威视技术股份有限公司 | 人体检查图像处理方法和人体检查设备 |
CN101882319B (zh) * | 2010-06-24 | 2011-11-30 | 西北工业大学 | 基于最小三维凸包的锥束ct快速重建方法 |
EP2463821A1 (en) * | 2010-12-08 | 2012-06-13 | Alcatel Lucent | Method and system for segmenting an image |
CN102096910A (zh) * | 2011-01-25 | 2011-06-15 | 南京大学 | 用于二维相位展开的加权梯度质量图获取方法 |
JP4784709B1 (ja) * | 2011-03-10 | 2011-10-05 | オムロン株式会社 | 対象物追跡装置、対象物追跡方法、および制御プログラム |
-
2012
- 2012-03-29 JP JP2012076072A patent/JP5801237B2/ja active Active
-
2013
- 2013-03-15 US US14/388,254 patent/US9639950B2/en active Active
- 2013-03-15 CN CN201380013587.3A patent/CN104169968B/zh active Active
- 2013-03-15 WO PCT/JP2013/001777 patent/WO2013145615A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143734A (ja) * | 1991-11-20 | 1993-06-11 | Yamatake Honeywell Co Ltd | 部品輪郭抽出方法 |
JPH09198505A (ja) * | 1996-01-16 | 1997-07-31 | Mitsubishi Heavy Ind Ltd | 線位置検出装置 |
JP2004206656A (ja) * | 2002-11-08 | 2004-07-22 | Minolta Co Ltd | 検出装置および検出方法 |
JP2011087144A (ja) * | 2009-10-16 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム |
Non-Patent Citations (1)
Title |
---|
KIYOSHI HASHIMOTO ET AL.: "Shisei Hendo ni Tomonau Shintaiteki Tokucho Henka no Tokeiteki Modeling ni yoru Shahei ni Ganken na Jinbutsu Tsuiseki", EIZO JOHO INDUSTRIAL, vol. 44, no. 3, 1 March 2012 (2012-03-01), pages 41 - 50 * |
Also Published As
Publication number | Publication date |
---|---|
CN104169968A (zh) | 2014-11-26 |
JP2013206259A (ja) | 2013-10-07 |
US9639950B2 (en) | 2017-05-02 |
JP5801237B2 (ja) | 2015-10-28 |
US20150055875A1 (en) | 2015-02-26 |
CN104169968B (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5801237B2 (ja) | 部位推定装置、部位推定方法、および部位推定プログラム | |
US11087169B2 (en) | Image processing apparatus that identifies object and method therefor | |
US10684681B2 (en) | Neural network image processing apparatus | |
US10600207B2 (en) | Posture state estimation apparatus and posture state estimation method | |
JP5873442B2 (ja) | 物体検出装置および物体検出方法 | |
CN108717531B (zh) | 基于Faster R-CNN的人体姿态估计方法 | |
US9480417B2 (en) | Posture estimation device, posture estimation system, and posture estimation method | |
CA2801593C (en) | Parameterized model of 2d articulated human shape | |
CN108475439B (zh) | 三维模型生成系统、三维模型生成方法和记录介质 | |
JP5877053B2 (ja) | 姿勢推定装置および姿勢推定方法 | |
JP5837508B2 (ja) | 姿勢状態推定装置および姿勢状態推定方法 | |
US20220383653A1 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program | |
JP4479194B2 (ja) | 動作識別装置、及び対象物の姿勢識別装置 | |
US9576191B2 (en) | Posture estimation device, posture estimation method, and posture estimation program | |
JP4445454B2 (ja) | 顔中心位置検出装置、顔中心位置検出方法、及び、プログラム | |
US9805443B2 (en) | Image processing method, image processing apparatus, program, storage medium, production apparatus, and method of producing assembly | |
CN110288661B (zh) | 手术灯的位置调整方法、装置、计算机设备和存储介质 | |
JP6020439B2 (ja) | 画像処理装置、撮像装置、および画像処理プログラム | |
JP4765075B2 (ja) | ステレオ画像を利用した物体の位置および姿勢認識システムならびに物体の位置および姿勢認識方法を実行するプログラム | |
JP2015219868A (ja) | 情報処理装置、情報処理方法、プログラム | |
JP2015111128A (ja) | 位置姿勢計測装置、位置姿勢計測方法、およびプログラム | |
WO2020261403A1 (ja) | 身長推定装置、身長推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
WO2023162223A1 (ja) | 学習プログラム、生成プログラム、学習方法および生成方法 | |
JP7405607B2 (ja) | 三次元データを補間する三次元データ生成装置及びロボットシステム | |
JP6814374B2 (ja) | 検出方法、検出プログラム及び検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13768649 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14388254 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13768649 Country of ref document: EP Kind code of ref document: A1 |