WO2021140844A1 - 人体検出装置および人体検出方法 - Google Patents

人体検出装置および人体検出方法 Download PDF

Info

Publication number
WO2021140844A1
WO2021140844A1 PCT/JP2020/046680 JP2020046680W WO2021140844A1 WO 2021140844 A1 WO2021140844 A1 WO 2021140844A1 JP 2020046680 W JP2020046680 W JP 2020046680W WO 2021140844 A1 WO2021140844 A1 WO 2021140844A1
Authority
WO
WIPO (PCT)
Prior art keywords
human body
candidate
body candidate
detection
image information
Prior art date
Application number
PCT/JP2020/046680
Other languages
English (en)
French (fr)
Inventor
一哲 北角
田中 清明
和哉 浦部
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Publication of WO2021140844A1 publication Critical patent/WO2021140844A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a human body detection device and a human body detection method.
  • Patent Document 1 proposes an image processing apparatus that efficiently detects a recognition target on an image having a wide imaging range by performing detection processing of the human body with priority given to a region in which a larger number of human bodies can be detected.
  • One aspect of the present invention is to provide a technique capable of accurately tracking and analyzing a human body in a human body detection process in an image.
  • the present invention adopts the following configuration in order to achieve the above object.
  • the first aspect of the present disclosure exists in a receiving unit that receives a captured image of a target region for detecting a human body, a detecting unit that detects a human body candidate from the captured image and acquires image information of the human body candidate, and a target region.
  • a holding unit that holds image information of an object other than the human body and an image information of an object at a position overlapping the human body candidate are acquired from the holding unit, and the human body candidate and the human body candidate are obtained based on the image information of the human body candidate and the acquired image information of the object.
  • a human body detection device including a determination unit that determines the degree of similarity with an object and determines whether or not the detection of a human body candidate is erroneous detection based on the degree of similarity.
  • the above-mentioned human body detection device can accurately determine whether or not the detection of the human body candidate is an erroneous detection by comparing the detected image information of the human body candidate with the image information of the object existing in the target area. it can. Therefore, in the human body detection process in the image, the human body can be tracked and the motion analysis can be performed with high accuracy.
  • the determination unit may determine whether or not the human body candidate for which at least one of the positions or sizes of the human body candidates has not changed for a predetermined time is erroneously detected. In this way, by setting a human body candidate whose position or size has not changed for a predetermined time as a judgment target (misjudgment candidate) for false detection, it is possible to narrow down the false judgment candidates. ..
  • the determination unit determines at least one of the positions or sizes of the human body candidates. It may be determined that the sword has not changed for a predetermined time.
  • the determination unit determines that the difference between the area of the rectangle including the human body candidate in the captured image and the area of the rectangle including the human body candidate in a predetermined number of past captured images is smaller than a predetermined threshold value, respectively. It may be determined that at least one of the positions or sizes has not changed for a predetermined time.
  • the determination unit determines that the difference between the aspect ratio of the rectangle including the human body candidate in the captured image and the aspect ratio of the rectangle including the human body candidate in a predetermined number of past captured images is smaller than a predetermined threshold value, respectively. It may be determined that at least one of the candidate positions or sizes has not changed for a predetermined time.
  • the judgment unit can appropriately extract erroneous judgment candidates by any of the above various conditions or a combination of these conditions. For example, by combining the above various conditions based on the number of objects existing in the target area, the frequency of passage by people, the area of the target area, etc., it is possible to extract appropriate misjudgment candidates according to the situation of the target area. It becomes.
  • the determination unit For a human body candidate whose position or size has not changed for a predetermined time, the determination unit erroneously corrects the image information corresponding to the human body candidate when the holding unit does not have image information of an object that overlaps with the human body candidate. It may be stored in the holding unit as image information of the detected object.
  • the determination unit determines that the object is erroneously determined even if it is detected as a human body again. can do.
  • the determination unit may delete from the holding unit the image information of the object held in the holding unit that has not been detected for a predetermined time from the captured image. By deleting the image information of the object that no longer exists in the target area from the holding unit, the determination unit can more accurately determine the false detection in accordance with the current state of the target area.
  • the image information may include an image of a rectangular region surrounding a human body candidate or an object, center coordinates, width and height.
  • the human body detection device can acquire the position and size of the detected human body candidate and the object registered in the holding unit based on the image information.
  • the determination unit is based on the sum of the differences of at least one of the luminance value, the RGB value, and the grayscale value in the region where the image of the human body candidate and the image of the object acquired from the holding unit overlap. It may be determined whether or not the detection of is a false detection.
  • the degree of similarity can be determined by comparing at least one of the luminance value, RGB value, and grayscale value of the image of the human body candidate and the image of the object and calculating the difference between these images.
  • the human body detection device further includes an output unit that displays the judgment result by the judgment unit, and the judgment result includes information indicating the position and size of the detected human body candidate, the judgment result of whether or not the human body candidate is a human body, and the human body candidate. May include at least one of the confidence that is a human body. Based on the output judgment result, it is possible to accurately track and analyze the movement of the human body.
  • the human body detection device may further include an imaging unit that captures an captured image and transmits it to a receiving unit. Since the human body detection device is integrally configured with the imaging unit, it is possible to accurately determine erroneous detection with a simple configuration.
  • the second aspect of the present invention exists in the target region, that is, a receiving step of receiving an captured image of a target region for detecting a human body, a detection step of detecting a human body candidate from the captured image and acquiring image information of the human body candidate.
  • Image information of an object located at a position overlapping the human body candidate is acquired from a holding unit that holds image information of an object other than the human body, and the human body candidate and the object are connected based on the image information of the human body candidate and the acquired image information of the object.
  • a human body detection method including a determination step of determining the similarity and determining whether or not the detection of a human body candidate is erroneous detection based on the similarity.
  • the present invention it is possible to accurately track and analyze the movement of the human body in the human body detection process in the captured image.
  • FIG. 1 is a diagram showing an application example of the human body detection device according to the present embodiment.
  • FIG. 2 is a diagram illustrating the functional configuration of the human body detection device.
  • FIG. 3 is a flowchart illustrating the false detection determination process.
  • FIG. 4 is a diagram for explaining the extraction conditions of the template to be compared with the false detection candidates.
  • FIG. 5 is a diagram illustrating an example of a method of comparing the false positive candidate and the template.
  • FIG. 1 is a diagram showing an application example of the human body detection device according to the present invention.
  • the monitoring system including the human body detection device 1 includes an image pickup device 2 that images a tracking target area (target area) in an office, a factory, or the like.
  • the surveillance system analyzes the captured image of the tracked area to detect, recognize, or track a human body existing in the tracked area or a passing human body.
  • the human body detection device 1 determines whether or not the candidate detected as a human body (hereinafter referred to as a human body candidate) is an object such as a robot or a monitor that is erroneously detected.
  • the human body detection device 1 can determine whether or not the human body candidate is an object by comparing the detected image of the human body candidate with the image of an object such as a robot existing in the tracking target area.
  • the image of the object to be compared with the human body candidate can be an image stored in advance in the auxiliary storage device of the human body detection device 1. Further, the image of the object may be an image of an object that is determined not to be a human body by the false detection determination process and is registered in the auxiliary storage device.
  • the area surrounded by the dotted line shows an example of an area in which the robot and the monitor are detected as human body candidates and are determined to be erroneous detections.
  • the human body detection device 1 can output the detected determination result of the human body candidate to the external device.
  • the determination result includes, for example, information indicating the position and size of the detected human body candidate, and the determination result of whether or not the human body candidate is a human body.
  • the human body detection device 1 can indicate the detected human body candidate by, for example, surrounding the area including the human body candidate with a bounding box such as a rectangle or a circle.
  • the human body detection device 1 may also indicate an erroneously detected object in a manner different from that of the human body candidate, for example, by enclosing it in a dotted bounding box.
  • the determination result of the human body detection device 1 may be displayed on a display device such as a display.
  • the determination result of the human body detection device 1 is transmitted to various devices such as lighting or air conditioning, and is used for controlling various devices according to the number of people in the tracking target area and the existence position, monitoring suspicious persons, and analyzing the flow line. be able to.
  • the image pickup device 2 is installed above the tracking target area (for example, the ceiling) for detecting, recognizing, or tracking the human body.
  • the imaging device 2 is preferably a fixed-point camera in order to acquire the position and size of the human body candidate by analyzing the captured image.
  • a plurality of image pickup devices 2 for capturing the tracking target area may be installed.
  • the captured image captured by the imaging device 2 includes a still image and a moving image.
  • the image pickup device 2 may be a wide-angle camera or a fisheye camera. Further, the image pickup device 2 may be a network camera capable of remote monitoring by transmitting the captured image to an external device and confirming the image with the external device.
  • the human body detection device 1 may be integrally configured with the image pickup device 2 (imaging unit). Further, a part of the processing of the human body detection device 1 such as the detection processing of the human body in the captured image may be executed by the imaging device 2. Further, the analysis result by the human body detection device 1 may be transmitted to an external device and presented to the user.
  • the above-mentioned human body detection device 1 compares the detected image of the human body candidate with the image of the object existing in the tracking target area, and when the object is erroneously detected as a human body, the human body candidate erroneously detected from the detection result.
  • Information on (object) can be removed.
  • a person who passes over an object can be detected separately from the object.
  • the human body detection device 1 can accurately track and analyze the movement of the human body in the human body detection process in the captured image.
  • the human body detection device 1 includes a processor 101, a main storage device 102, an auxiliary storage device 103, a communication interface 104, and an output device 105.
  • the processor 101 realizes the functions as each functional configuration described with reference to FIG. 2 by reading the program stored in the auxiliary storage device 103 into the main storage device 102 and executing the program.
  • the main storage device 102 is, for example, a semiconductor memory such as a RAM (Random Access Memory) or a ROM (Read Only Memory).
  • the auxiliary storage device 103 is, for example, a non-volatile memory such as a hard disk drive or a solid state drive.
  • the communication interface (I / F) 104 is an interface for performing wired or wireless communication.
  • the output device 105 is, for example, a device for outputting a display or the like.
  • the human body detection device 1 may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, or a smartphone, or an embedded computer such as an onboard computer. However, some of the functions of the human body detection device 1 may be realized by a dedicated hardware device such as an ASIC or FPGA.
  • the human body detection device 1 is connected to the image pickup device 2 by wire (USB cable, LAN cable, etc.) or wirelessly (WiFi, etc.), and receives image data captured by the image pickup device 2.
  • the image pickup device 2 is an image pickup device having an optical system including a lens and an image pickup device (an image sensor such as a CCD or CMOS).
  • FIG. 2 is a diagram illustrating the functional configuration of the human body detection device 1.
  • the human body detection device 1 includes a reception unit 10, a detection unit 11, a position acquisition unit 12, a size acquisition unit 13, a detection result holding unit 14, a false detection candidate acquisition unit 15, a comparison unit 16, a template holding unit 17, and an output unit 18. Including.
  • the receiving unit 10 has a function of receiving an captured image from the imaging device 2.
  • the receiving unit 10 may store the received captured image in the auxiliary storage device 103.
  • the detection unit 11 analyzes the captured image received by the reception unit 10 to detect a human body candidate.
  • the detection unit 11 has a function of analyzing the captured image of the image pickup device 2 and detecting the human body in the tracking target area (target area).
  • the detection unit 11 can detect the human body from the captured image by using the human body detection algorithm.
  • the human body detection algorithm for example, detection by HoG feature amount and SVM, detection using Haar-like feature amount based on the difference in brightness of the image, and detection by deep learning such as YOLO and SSD can be used.
  • the detection unit 11 stores the detected image of the human body candidate in the detection result holding unit 14.
  • the detected image of the human body candidate may be, for example, an image of a rectangular region including the human body candidate.
  • the position acquisition unit 12 acquires the coordinate value of the detection position of the human body candidate detected by the detection unit 11.
  • the coordinate value of the detection position is, for example, the coordinate value of the four corners or the center of the rectangular region including the human body candidate detected by the detection unit 11.
  • the position acquisition unit 12 may acquire, for example, the coordinate value in the coordinate system with the center point of the captured image as the origin.
  • the position acquisition unit 12 stores the acquired coordinate value information of the detection position in the detection result holding unit 14 in association with the image of the human body candidate detected by the detection unit 11.
  • the size acquisition unit 13 acquires the width and height of the rectangular area including the human body candidate detected by the detection unit 11.
  • the width and height of the rectangular region including the human body candidate can be calculated from, for example, the coordinates of the four corners of the rectangular region acquired by the position acquisition unit 12.
  • the size acquisition unit 13 stores the information on the width and height of the rectangular region including the acquired human body candidate in the detection result holding unit 14 in association with the image of the human body candidate detected by the detection unit 11.
  • the detection result holding unit 14 holds the image information of the human body candidate detected by the detection unit 11.
  • the image information includes, for example, an image of the human body candidate, coordinate values of the detection position of the human body candidate, and the width and height of a rectangular region including the human body candidate.
  • the image information of each human body candidate may include information on the imaging time or information indicating the imaging order (for example, a frame number). The information on the imaging time or the information indicating the imaging order is used to determine whether or not the position or size of the human body candidate has changed over time.
  • the erroneous detection candidate acquisition unit 15 acquires erroneous detection candidates to be determined as to whether or not it is erroneous detection from the human body candidates detected by the detection unit 11. False positive candidates are, for example, human body candidates whose size and position have not changed for a predetermined time or for a predetermined number of frames.
  • the false detection candidate acquisition unit 15 acquires the image information of the false detection candidate among the image information of the human body candidate held by the detection result holding unit 14.
  • the comparison unit 16 compares the false detection candidate with the object existing in the tracking target area.
  • the comparison unit 16 compares, for example, the image information of the erroneous detection candidate acquired by the erroneous detection candidate acquisition unit 15 with the image information of the object at a position overlapping the erroneous detection candidate.
  • the image information of the object is acquired from the template holding unit 17. Since the image information includes information on the position and size of the rectangle surrounding the object, the comparison unit 16 can acquire the image information of the object at the position overlapping with the erroneous detection candidate.
  • the comparison unit 16 determines whether or not the detection of the human body candidate by the detection unit 11 is an erroneous detection based on the degree of similarity between the erroneous detection candidate and the object compared.
  • the erroneous detection candidate acquisition unit 15 and the comparison unit 16 correspond to the “determination unit”.
  • the comparison unit 16 may store the image information of the false detection candidate determined to be an object in the template holding unit 17.
  • the template holding unit 17 holds the image information of the object for the comparison unit 16 to compare with the false detection candidate as a template.
  • the template holding unit 17 can hold image information of an object existing in the tracking target area as a template in advance. Further, the template holding unit 17 can hold the image information of the human body candidate (object) determined by the comparison unit 16 as an erroneous detection as an additional template.
  • the output unit 18 outputs the detection result of the human body candidate.
  • the output unit 18 can superimpose a rectangle (bounding box) surrounding the human body, which is not falsely detected, on the captured image and display it on a display or the like.
  • FIG. 3 is a flowchart illustrating the false detection determination process.
  • the erroneous detection determination process of FIG. 3 exemplifies a process that is repeated for each detected human body candidate in each frame of the captured image received from the image pickup device 2.
  • the detection unit 11 analyzes the captured image received from the imaging device 2 and detects a human body candidate.
  • the detection unit 11 can detect the human body by using a classifier that combines boosting with image features such as HoG and Haar-like. Further, the detection unit 11 may use, for example, human body recognition by deep learning such as R-CNN, Fast R-CNN, YOLO, SSD.
  • the detection unit 11 stores the detected image of the human body candidate in the detection result holding unit 14.
  • step S30 the detected positions and sizes of the human body candidates are acquired by the position acquisition unit 12 and the size acquisition unit 13, respectively.
  • the acquired position and size information of the human body candidate is stored in the detection result holding unit 14 as image information together with the image of the human body candidate.
  • step S31 the erroneous detection candidate acquisition unit 15 determines whether or not at least one of the positions or sizes of the human body candidates detected in step S30 has changed.
  • the erroneous detection candidate acquisition unit 15 first acquires image information of a human body candidate in the current frame (captured image) being analyzed from the detection result holding unit 14 in order to determine whether or not there is a change.
  • the erroneous detection candidate acquisition unit 15 acquires image information of a human body candidate at a position overlapping the human body candidate in a frame (captured image) older than the current frame.
  • the erroneous detection candidate acquisition unit 15 compares the position and size of the human body candidate in the current frame with the position and size of the corresponding human body candidate in a predetermined period or in a predetermined number of past frames.
  • the false detection candidate acquisition unit 15 is set to at least one of the positions or sizes of the human body candidates. It can be determined that there is no change.
  • step S34 If it is determined that at least one of the positions or sizes of the human body candidates has changed (S31: Yes), the process proceeds to step S34. If it is determined that the position and size of the human body candidate have not changed (S31: No), the process proceeds to step S32.
  • the false detection candidate acquisition unit 15 compares the current frame with the past frame, paying attention to, for example, the center position of the rectangle surrounding the human body candidate, the rectangle size, the aspect ratio of the rectangles, and the overlap of the rectangles.
  • 4 (A) to 4 (C) are diagrams for explaining predetermined conditions regarding the center position of the rectangle, the size of the rectangle, and the aspect ratio of the rectangle, respectively.
  • the erroneous detection candidate acquisition unit 15 first acquires the image information of the human body candidate in the current frame and the past frame from the detection result holding unit 14.
  • the image information includes an image of a rectangular area surrounding the human body candidate, center coordinates, width and height information.
  • the center coordinates of the rectangle in the current frame are (x0, y0), the width is w0, the height is h0, the center coordinates of the rectangle in the past frame are (x1, y1), the width is w1, and the height is h1. If so, the erroneous detection candidate acquisition unit 15 determines whether or not the following conditions 1 to 4 are satisfied.
  • Condition 1 The center position of the rectangle surrounding the human body candidate between the current frame and the past frame satisfies Equation 1. That is, as shown in FIG. 4A, the distance (Euclidean distance) between the center 411 of the rectangle 410 surrounding the human body candidate of the current frame and the center 421 of the rectangle 420 surrounding the human body candidate of the past frame is Condition 1 is satisfied when it is smaller than the predetermined threshold value pos_th.
  • Condition 2 The size of the rectangle surrounding the human body candidates of the current frame and the past frame satisfies Equation 2. That is, as shown in FIG. 4B, the difference between the size (area) of the rectangle 410 surrounding the human body candidate of the current frame and the size (area) of the rectangle 420 surrounding the human body candidate of the past frame is predetermined. Condition 2 is satisfied when it is smaller than the threshold value size_th.
  • Condition 3 The aspect ratio of the rectangle surrounding the human body candidate between the current frame and the past frame satisfies Equation 3. That is, as shown in FIG. 4C, the difference between the aspect ratio of the rectangle 410 surrounding the human body candidate of the current frame and the aspect ratio of the rectangle 420 surrounding the human body candidate of the past frame is larger than the predetermined threshold value aspect_th. If it is small, condition 3 is satisfied.
  • Condition 4 The IoT (Intersection over Union) between the rectangles surrounding the human body candidates of the current frame and the past frame satisfies the equation 4. That is, the condition 4 is satisfied when IoU (0 ⁇ IoU ⁇ 1, the ratio of the intersection of the regions to the union of the regions) is larger than the predetermined threshold value IoU_th.
  • the erroneous detection candidate acquisition unit 15 can determine that there is no change in position or size when the human body candidates of a predetermined number of frames in the past satisfy at least one of the above conditions. That is, the predetermined condition can be a condition in which the above conditions are arbitrarily combined.
  • step S32 the comparison unit 16 determines whether or not the template holding unit 17 has a template for an object that overlaps with the human body candidate for the human body candidate determined to be a false detection candidate without any change in position / size.
  • the corresponding template is image information (template) of an object at a position overlapping the human body candidate of the false detection candidate. If it is determined that there is a corresponding template (S32: Yes), the process proceeds to step S33. If it is determined that there is no corresponding template (S32: No), the process proceeds to step S35.
  • step S33 the comparison unit 16 compares the images of the erroneous detection candidate human body candidate and the template object, and determines the degree of similarity.
  • the comparison unit 16 can calculate the degree of similarity between the human body candidate of the false detection candidate and the object of the template by, for example, the method illustrated in FIG. Then, the comparison unit 16 determines whether or not the degree of similarity between the human body candidate of the erroneous detection candidate and the object of the template is lower than a predetermined threshold value.
  • the degree of similarity can be calculated based on, for example, the difference between the luminance value, the RGB value, and the grayscale value of the portion where the human body candidate of the false detection candidate and the object of the template overlap. Further, the similarity may be calculated by comparing image features such as SIFT features, SURF features, and HoG features. In the present embodiment, an example of calculating the similarity based on the difference between the overlapped portion of the false detection candidate human body candidate and the template object is shown, but the similarity is not limited to the overlapping portion and corresponds to the entire image of the template object. It may be calculated based on the difference between.
  • the difference for calculating the similarity is the difference in the luminance value.
  • the similarity between the human body candidate as a false positive candidate and the object of the template may be defined so that the larger the difference, the lower the similarity, and the smaller the difference, the higher the similarity. If it is determined that the similarity is smaller than a predetermined threshold value (S33: Yes), the process proceeds to step S34. When it is determined that the similarity is equal to or higher than a predetermined threshold value (S33: No), it is determined that the template object is erroneously detected, and the process ends.
  • the comparison unit 16 calculates the difference in brightness between the pixels of the overlapping region 511 (shaded portion in FIG. 5) where the rectangle 410 surrounding the human body candidate of the detection candidate and the rectangle 510 surrounding the template object overlap.
  • the comparison unit 16 can calculate the difference between the human body candidate of the false detection candidate and the object of the template by the following equation 5.
  • the overlap area of the formula 5 is the number of pixels of the overlapping area 511, and (i, j) indicates each pixel of the overlapping area 511.
  • Itemplate (i, j) indicates the luminance value at each pixel of the template, and Icandidate (i, j) indicates the luminance value at each pixel of the false positive candidate.
  • the difference is calculated based on the sum of the difference in brightness at each pixel in the overlapping region 511.
  • the comparison unit 16 can calculate the difference between the human body candidate of the false detection candidate and the object of the template by the following equation 6.
  • the overlap area of Equation 6 is the number of pixels in the overlapping area 511, and (i, j) indicates each pixel in the overlapping area 511.
  • Itemplate (i, j) indicates the luminance value at each pixel of the template, and Icandidate (i, j) indicates the luminance value at each pixel of the false positive candidate.
  • the difference is based on the sum of f (i, j), which is 1 when the difference in brightness between each pixel in the overlapping region 511 is larger than the predetermined threshold value and 0 when the difference is less than or equal to the predetermined threshold value. Calculated.
  • the comparison unit 16 is not limited to these examples, and may calculate the difference between the human body candidate of the false detection candidate and the object of the template based on the following comparison results.
  • ⁇ SSD Sum of squares of differences
  • SAD Sum of Absolute Difference
  • ⁇ NCC Normalized Cross-Correlation coefficient ⁇ SIFT, SURF, Feature point matching using HoG etc.
  • the output unit 18 outputs the determination result.
  • the determination result includes, for example, information indicating the position and size of the detected human body candidate, a determination result of whether or not the human body candidate is a human body, and information such as the number of people existing in the tracking target area.
  • the determination result may be displayed together with the captured image on a display or the like, or may be transmitted to an air conditioner or a lighting facility or the like and used for controlling each device.
  • step S35 when the position / size does not change and the object corresponding to the template holding unit 17 is not registered, the comparison unit 16 registers the human body candidate determined to be erroneous detection as an object template. Specifically, the comparison unit 16 stores information indicating an image, a position, and a size of a rectangular region including a human body candidate determined to be erroneous detection in the template holding unit 17 as template information.
  • the human body detection device 1 suppresses the detection of a stationary object as a human body again even if a new false detection is made. be able to.
  • the human body detection device 1 can accurately detect the human body that overlaps and passes through the object after the template is registered.
  • the human body detection device 1 compares the detected image of the human body candidate with the image of the template object, and when the difference (in the above embodiment, the sum of the differences in brightness) is equal to or greater than a predetermined threshold value. Judged as a human body. Conventionally, when an object is erroneously detected, the erroneous detection is suppressed by masking the area including the object, so that it is difficult to detect the human body passing so as to overlap the object. On the other hand, the human body detection device 1 according to the embodiment can accurately detect a human body that overlaps with an object.
  • the human body detection device 1 registers the erroneously detected human body candidate in the template holding unit 17 as an object template. Therefore, even if the object is erroneously detected as a human body candidate again, the human body detection device 1 can determine that the object is not a human body (it is a erroneous determination) because it matches the registered template. .. Further, after the template is registered, the human body detection device 1 can accurately detect the human body that overlaps and passes through the object.
  • the output unit 18 further outputs the reliability of being a human body for each human body candidate detected by the detection unit 11.
  • the reliability of being a human body can be appropriately defined by, for example, scoring whether or not it was extracted as a false detection candidate in step S31 of FIG. 3, the difference value calculated in step S33, and the like. ..
  • various devices such as air conditioners and lighting equipment can be flexibly controlled according to the reliability of being a human body.
  • the template holding unit 17 holds the image information of the object for the comparison unit 16 to compare with the false detection candidate as a template.
  • the template may be a pre-registered one. Further, the template may additionally store a human body candidate (object) determined to be erroneously detected by the erroneous detection determination process.
  • object human body candidate
  • the modification 2 not only the template is added, but also the object corresponding to the template stored in the template holding unit 17 is not detected for a predetermined time (in a predetermined number of frames). The object template is deleted.
  • Whether or not to delete the template can be determined as follows, for example. First, in step S30 of FIG. 3, the detection unit 10 detects an object together with the human body candidate, and registers information indicating that the corresponding object has been detected in the template holding unit 17.
  • the comparison unit 16 determines whether or not the object of the template to be compared is detected in a predetermined number of frames based on the detection result of the object in step S30. judge. When the object is not detected in a predetermined number of frames, the comparison unit 16 deletes the template of the object.
  • unnecessary templates are deleted from the template holding unit 17 even when the template object stored in the template holding unit 17 is moved or taken out of the tracking target area.
  • a new template is registered as an object existing at the moving destination.
  • unnecessary comparison processing by the comparison unit 16 is reduced.
  • the human body detection device 1 can determine erroneous detection more accurately.
  • the human body candidate is detected as a rectangular region, but the present invention is not limited to this.
  • the human body candidate may be detected as a round area or an area surrounded by the outline of the human body candidate.
  • the number of frames does not have to be consecutive frames. For example, it may be determined whether or not there is a change in the position or size by comparing with the past frames at regular intervals.
  • a receiving unit (10) that receives an captured image of a target area for detecting a human body
  • a detection unit (11) that detects a human body candidate from the captured image and acquires image information of the human body candidate.
  • a holding unit (17) for holding image information of an object other than the human body existing in the target area, and The image information of the object at the position overlapping with the human body candidate is acquired from the holding unit, and the similarity between the human body candidate and the object is determined based on the image information of the human body candidate and the image information of the acquired object.
  • a determination unit (15, 16) for determining whether or not the detection of the human body candidate is an erroneous detection based on the similarity. (1).
  • a reception step of receiving an captured image of a target area for detecting a human body and A detection step (S30) of detecting a human body candidate from the captured image and acquiring image information of the human body candidate. From the holding unit (17) that holds the image information of an object other than the human body existing in the target region, the image information of the object at the position overlapping the human body candidate is acquired, and the image information of the human body candidate and the acquired object are acquired. (S33), a determination step of determining the degree of similarity between the human body candidate and the object based on the image information of the above, and determining whether or not the detection of the human body candidate is erroneous detection based on the similarity.
  • a method for detecting a human body which comprises including.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

人体検出装置は、人体を検出する対象領域の撮像画像を受信する受信部と、前記撮像画像から人体候補を検出し、前記人体候補の画像情報を取得する検出部と、前記対象領域に存在する人体以外の物体の画像情報を保持する保持部と、前記人体候補と重なる位置にある物体の画像情報を前記保持部から取得し、前記人体候補の画像情報および前記取得した物体の画像情報に基づいて前記人体候補と前記物体との類似度を判定し、前記類似度に基づいて前記人体候補の検出が誤検出であるか否かを判定する判定部と、を備える。

Description

人体検出装置および人体検出方法
 本発明は、人体検出装置および人体検出方法に関する。
 ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適に制御する技術が用いられている。人の作業領域において広範囲の画像情報を取得するため、天井などの高所には、超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなど)が設置される。撮影された画像中から、人体を精度良く検出するための様々な技術が提案されている。特許文献1には、人体をより多く検出できる領域から優先して、人体の検出処理を行うことで、撮像範囲が広い画像上の認識対象を効率よく検出する画像処理装置が提案されている。
特開2016-039539号公報
 また、人体検出では、様々な機器、ロボット、什器等の物体を人体として誤って検出してしまうことがある。人体以外の物体が誤検出された場合、誤検出された物体を含む領域をマスク処理することにより、検出対象の領域から除外することが考えられる。しかしながら、マスク処理された領域を通過する人が検出されなくなるため、人体検出の精度が低下するおそれがある。
 本発明は、一側面では、画像中の人体検出処理において、精度よく人体の追跡および動作分析をすることができる技術を提供することを目的とする。
 本発明は、上記目的を達成するために、以下の構成を採用する。
 本開示の第一側面は、人体を検出する対象領域の撮像画像を受信する受信部と、撮像画像から人体候補を検出し、人体候補の画像情報を取得する検出部と、対象領域に存在する人体以外の物体の画像情報を保持する保持部と、人体候補と重なる位置にある物体の画像情報を保持部から取得し、人体候補の画像情報および取得した物体の画像情報に基づいて人体候補と物体との類似度を判定し、類似度に基づいて人体候補の検出が誤検出であるか否かを判定する判定部と、を備えることを特徴とする人体検出装置を提供する。
 上記の人体検出装置は、検出した人体候補の画像情報を、対象領域に存在する物体の画像情報と比較することで、人体候補の検出が誤検出であるか否かを精度良く判定することができる。したがって、画像中の人体検出処理において、精度よく人体の追跡および動作分析をすることができる。
 判定部は、人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定した人体候補について、誤検出であるか否かを判定してもよい。このように、位置またはサイズの少なくともいずれかが所定時間の間変化していない人体候補を誤検出か否かの判定対象(誤判定候補)とすることで、誤判定候補の絞り込みが可能となる。
 判定部は、撮像画像における人体候補の中心位置と、所定数の過去の撮像画像における人体候補の中心位置との距離が、それぞれ所定の閾値より小さい場合に、人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定してもよい。
 また、判定部は、撮像画像における人体候補を含む矩形の面積と、所定数の過去の撮像画像における人体候補を含む矩形の面積との差分が、それぞれ所定の閾値より小さい場合に、人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定してもよい。
 また、判定部は、撮像画像における人体候補を含む矩形のアスペクト比と、所定数の過去の撮像画像における人体候補を含む矩形のアスペクト比との差分が、それぞれ所定の閾値より小さい場合に、人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定してもよい。
 判定部は、上記の各種条件のいずれか、またはこれらの条件の組み合わせによって、適切に誤判定候補を抽出することができる。例えば、対象領域に存在する物体の数、人が通過する頻度、対象領域の面積等に基づいて上記の各種条件を組み合わせることで、対象領域の状況に応じた適切な誤判定候補の抽出が可能となる。
 判定部は、位置またはサイズの少なくともいずれかが所定時間の間変化していない人体候補に対して、保持部に人体候補と重なる物体の画像情報がない場合、人体候補に対応する画像情報を誤検出した物体の画像情報として保持部に格納してもよい。保持部に登録されていない物体が人体候補として誤検出された場合に、保持部に登録しておくことで、判定部は、当該物体が再び人体として検出されても、誤判定であると判定することができる。
 判定部は、保持部に保持された物体の画像情報うち、撮像画像から所定時間の間検出されていない物体の画像情報を、保持部から削除してもよい。保持部から対象領域に存在しなくなった物体の画像情報を削除することで、判定部は、対象領域の現状に即して、誤検出をより精度よく判定することができる。
 画像情報は、人体候補または物体を囲む矩形領域の画像、中心座標、幅および高さを含むものであってもよい。人体検出装置は、画像情報に基づいて、検出した人体候補および保持部に登録されている物体の位置およびサイズを取得することができる。
 判定部は、人体候補の画像と、保持部から取得した物体の画像とが重なる領域において、輝度値、RGB値、グレースケール値のうちの少なくともいずれか1つの差分の和に基づいて、人体候補の検出が誤検出であるか否かを判定してもよい。人体候補の画像と物体の画像との輝度値、RGB値、グレースケール値のうちの少なくともいずれかを比較し、これらの画像の差分を算出することで、類似度を判定することができる。
 人体検出装置は、判定部による判定結果を表示する出力部をさらに備え、判定結果は、検出した人体候補の位置およびサイズを示す情報、人体候補が人体であるか否かの判定結果、人体候補が人体であることの信頼度のうちの少なくともいずれかを含むものであってもよい。出力される判定結果に基づいて、精度よく人体の追跡および動作分析をすることが可能となる。
 人体検出装置は、撮像画像を撮像し、受信部に送信する撮像部を、さらに備えてもよい。人体検出装置は、撮像部と一体に構成されることにより、簡易な構成で誤検出を精度良く判定することができる。
 本発明の第二側面は、人体を検出する対象領域の撮像画像を受信する受信ステップと、撮像画像から人体候補を検出し、人体候補の画像情報を取得する検出ステップと、対象領域に存在する人体以外の物体の画像情報を保持する保持部から、人体候補と重なる位置にある物体の画像情報を取得し、人体候補の画像情報および取得した物体の画像情報に基づいて人体候補と物体との類似度を判定し、類似度に基づいて人体候補の検出が誤検出であるか否かを判定する判定ステップと、を含むことを特徴とする人体検出方法を提供する。
 本発明によれば、撮像画像中の人体検出処理において、精度よく人体の追跡および動作分析をすることができる。
図1は、本実施形態に係る人体検出装置の適用例を示す図である。 図2は、人体検出装置の機能構成を例示する図である。 図3は、誤検出判定処理を例示するフローチャートである。 図4は、誤検出候補と比較するテンプレートの抽出条件を説明する図である。 図5は、誤検出候補とテンプレートとの比較方法の例を説明する図である。
 以下、本発明の一側面に係る実施の形態を、図面に基づいて説明する。
 <適用例>
 図1を参照して、本発明に係る人体検出装置の適用例を説明する。図1は、本発明に係る人体検出装置の適用例を示す図である。人体検出装置1を備える監視システムは、オフィスまたは工場等における追跡対象エリア(対象領域)を撮像する撮像装置2を備える。監視システムは、追跡対象エリアの撮像画像を解析して、追跡対象エリア内に存在する人体または通行する人体を検出、認識、または追跡する。
 人体検出装置1は、人体として検出した候補(以下、人体候補と称する)が、誤って検出されたロボットまたはモニターといった物体であるか否かを判定する。人体検出装置1は、検出した人体候補の画像と、追跡対象エリアに存在するロボット等の物体の画像とを比較することにより、人体候補が物体であるか否かを判定することができる。
 人体候補と比較するための物体の画像は、予め人体検出装置1の補助記憶装置に格納された画像とすることができる。また、物体の画像は、誤検出判定処理で人体ではないと判定され、補助記憶装置に登録された物体の画像であってもよい。なお、図1において、点線で囲まれた領域は、ロボットおよびモニターが人体候補として検出され、誤検出であると判定された領域の例を示す。
 人体検出装置1は、検出した人体候補の判定結果を、外部装置に出力することができる。判定結果は、例えば、検出した人体候補の位置およびサイズを示す情報、人体候補が人体であるか否かの判定結果を含む。人体検出装置1は、例えば、人体候補を含む領域を矩形または円形等のバウンディングボックスで囲むことにより、検出した人体候補を示すことができる。人体検出装置1は、誤検出した物体も、人体候補とは異なる態様で、例えば、点線のバウンディングボックスで囲むことにより示してもよい。人体検出装置1の判定結果は、ディスプレイ等の表示装置に表示されてもよい。また、人体検出装置1の判定結果は、照明または空調など各種機器に送信され、追跡対象エリア内の人数、存在位置に応じた各種機器の制御、不審者の監視および動線分析などに利用することができる。
 撮像装置2は、人体を検出、認識、または追跡する追跡対象エリアの上方(例えば天井など)に設置される。撮像画像の解析によって人体候補の位置およびサイズを取得するため、撮像装置2は、好ましくは定点カメラである。追跡対象エリアを撮像する撮像装置2は、複数台設置されてもよい。撮像装置2が撮像する撮像画像は、静止画像および動画像を含む。撮像装置2は、広角カメラまたは魚眼カメラであってもよい。また、撮像装置2は、撮像した画像を外部装置に送信し、外部装置で画像を確認することで遠隔監視を可能とするネットワークカメラであってもよい。
 なお、人体検出装置1は、撮像装置2(撮像部)と一体に構成されてもよい。また、撮像画像における人体の検出処理等、人体検出装置1の処理の一部は、撮像装置2で実行されてもよい。さらに、人体検出装置1による分析結果は、外部の装置に送信されユーザに提示されるようにしてもよい。
 上述の人体検出装置1は、検出した人体候補の画像を、追跡対象エリア内に存在する物体の画像と比較することで、物体を人体として誤検出した場合に、検出結果から誤検出した人体候補(物体)の情報を除去することができる。また、物体に重なって通過する人を、物体と区別して検出することができる。このように、人体検出装置1は、撮像画像中の人体検出処理において、精度よく人体の追跡および動作分析をすることができる。
 <実施形態>
 (ハードウェア構成)
 図1を参照して、実施形態に係るハードウェア構成の一例について説明する。人体検出装置1は、プロセッサ101、主記憶装置102、補助記憶装置103、通信インタフェース104、出力装置105を備える。
 プロセッサ101は、補助記憶装置103に記憶されたプログラムを主記憶装置102に読み出して実行することにより、図2で説明する各機能構成としての機能を実現する。主記憶装置102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等の半導体メモリである。補助記憶装置103は、例えば、ハードディスクドライブ、ソリッドステートドライブ等の不揮発性のメモリである。通信インタフェース(I/F)104は、有線又は無線通信を行うためのインタフェースである。出力装置105は、例えば、ディスプレイ等の出力を行うための装置である。
 人体検出装置1は、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。ただし、人体検出装置1の各機能の一部は、ASICやFPGAなど専用のハードウェア装置によって実現されてもよい。
 人体検出装置1は、有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で撮像装置2に接続され、撮像装置2で撮影された画像データを受信する。撮像装置2は、レンズを含む光学系および撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。
 (機能構成)
 図2を参照して、人体検出装置1の機能構成の一例について説明する。図2は、人体検出装置1の機能構成を例示する図である。人体検出装置1は、受信部10、検出部11、位置取得部12、サイズ取得部13、検出結果保持部14、誤検出候補取得部15、比較部16、テンプレート保持部17、出力部18を含む。
 受信部10は、撮像装置2から撮像画像を受信する機能を有する。受信部10は、受信した撮像画像を補助記憶装置103に格納してもよい。検出部11は、受信部10が受信した撮像画像を解析して、人体候補を検出する。
 検出部11は、撮像装置2の撮像画像を解析し、追跡対象エリア(対象領域)の人体を検出する機能を有する。検出部11は、人体検出のアルゴリズムを用いて、撮像画像から人体を検出することができる。人体検出のアルゴリズムは、例えば、HoG特徴量およびSVMによる検出、画像の明暗差によるHaar-like特徴量を用いた検出、YOLOやSSDなどのディープラーニングによる検出を使用することができる。検出部11は、検出した人体候補の画像を検出結果保持部14に格納する。検出した人体候補の画像は、例えば、人体候補を含む矩形領域の画像としてもよい。
 位置取得部12は、検出部11が検出した人体候補の検出位置の座標値を取得する。検出位置の座標値は、例えば、検出部11が検出した人体候補を含む矩形領域の4隅または中心の座標値である。位置取得部12は、検出位置の座標値として、例えば、撮像画像の中心点を原点とした座標系での座標値を取得すればよい。位置取得部12は、取得した検出位置の座標値の情報を、検出部11が検出した人体候補の画像と対応づけて検出結果保持部14に格納する。
 サイズ取得部13は、検出部11が検出した人体候補を含む矩形領域の幅および高さを取得する。人体候補を含む矩形領域の幅および高さは、例えば、位置取得部12が取得した矩形領域の4隅の座標から算出することができる。サイズ取得部13は、取得した人体候補を含む矩形領域の幅および高さの情報を、検出部11が検出した人体候補の画像と対応づけて、検出結果保持部14に格納する。
 検出結果保持部14は、検出部11が検出した人体候補の画像情報を保持する。画像情報は、例えば、人体候補の画像、人体候補の検出位置の座標値、人体候補を含む矩形領域の幅および高さを含む。また、各人体候補の画像情報は、撮像時刻の情報または撮像順を示す情報(例えばフレーム番号)を含んでもよい。撮像時刻の情報または撮像順を示す情報は、人体候補の位置またはサイズが、時間の経過とともに変化したか否かを判定するために用いられる。
 誤検出候補取得部15は、検出部11が検出した人体候補から、誤検出か否かの判定対象となる誤検出候補を取得する。誤検出候補は、例えば、所定時間の間、または所定フレーム数の間、サイズおよび位置が変化していない人体候補である。誤検出候補取得部15は、検出結果保持部14が保持する人体候補の画像情報のうち、誤検出候補の画像情報を取得する。
 比較部16は、誤検出候補を追跡対象エリア内に存在する物体と比較する。比較部16は、例えば、誤検出候補取得部15が取得した誤検出候補の画像情報を、誤検出候補と重なる位置にある物体の画像情報と比較する。物体の画像情報は、テンプレート保持部17から取得される。画像情報は物体を囲む矩形の位置およびサイズの情報を含むため、比較部16は、誤検出候補と重なる位置にある物体の画像情報を取得することができる。比較部16は、誤検出候補と比較した物体との類似度に基づいて、検出部11による人体候補の検出が誤検出であるか否かを判定する。誤検出候補取得部15および比較部16は、「判定部」に相当する。
 比較部16は、誤検出候補と比較可能な物体が存在しない場合は、誤検出候補として取得された人体候補は、サイズおよび位置が変化していないことから、物体を誤検出したものであると判定する。比較部16は、物体であると判定された誤検出候補の画像情報を、テンプレート保持部17に格納してもよい。
 テンプレート保持部17は、比較部16が誤検出候補と比較するための物体の画像情報をテンプレートとして保持する。テンプレート保持部17は、追跡対象エリア内に存在する物体の画像情報を予めテンプレートとして保持しておくことができる。また、テンプレート保持部17は、比較部16が誤検出と判定した人体候補(物体)の画像情報を、追加のテンプレートとして保持することができる。
 出力部18は、人体候補の検出結果を出力する。出力部18は、例えば、誤検出とされなかった人体を囲む矩形(バウンディングボックス)を撮像画像に重畳させて、ディスプレイ等に表示することができる。
 (誤検出判定処理)
 図3に沿って誤検出判定処理の全体的な流れを説明する。図3は、誤検出判定処理を例示するフローチャートである。図3の誤検出判定処理は、撮像装置2から受信した撮像画像の各フレームにおいて、検出された人体候補ごとに繰り返される処理を例示する。
 ステップS30では、検出部11は、撮像装置2から受信した撮像画像を解析し、人体候補を検出する。検出部11は、例えば、HoGやHaar-likeなどの画像特徴とブースティングを組み合わせた識別器を用いて人体検出をすることができる。また、検出部11は、例えば、R-CNN、Fast R-CNN、YOLO、SSDなどのディープラーニングによる人体認識を用いてもよい。検出部11は、検出した人体候補の画像を検出結果保持部14に格納する。
 また、ステップS30では、検出された人体候補の位置およびサイズが、それぞれ位置取得部12およびサイズ取得部13によって取得される。取得された人体候補の位置およびサイズの情報は、人体候補の画像とともに画像情報として検出結果保持部14に格納される。
 ステップS31では、誤検出候補取得部15は、ステップS30で検出された人体候補の位置またはサイズの少なくともいずれかに変化があったか否かを判定する。誤検出候補取得部15は、変化の有無を判定するため、まず、検出結果保持部14から解析中の現フレーム(撮像画像)での人体候補の画像情報を取得する。また、誤検出候補取得部15は、現フレームよりも過去のフレーム(撮像画像)で、当該人体候補と重なる位置にある人体候補の画像情報を取得する。次に、誤検出候補取得部15は、現フレームの人体候補の位置およびサイズと、所定期間内または所定数の過去のフレームにおいて対応する人体候補の位置およびサイズとを対比する。現フレームにおける位置・サイズと、過去のフレームにおける位置・サイズとが、図4で説明する所定の条件を満たす場合に、誤検出候補取得部15は、人体候補の位置またはサイズの少なくともいずれかに変化がなかったと判定することができる。
 人体候補の位置またはサイズの少なくともいずれかに変化があったと判定された場合(S31:Yes)、処理はステップS34に進む。人体候補の位置およびサイズに変化がなかったと判定された場合(S31:No)、処理はステップS32に進む。
 ここで、図4を用いて、人体候補の位置またはサイズの少なくともいずれかに変化がなかったことを判定するための所定の条件について説明する。誤検出候補取得部15は、例えば、人体候補を囲む矩形の中心位置、矩形サイズ、矩形のアスペクト比、矩形同士の重なりに着目して、現フレームと過去のフレームとを対比する。図4(A)から図4(C)は、それぞれ矩形の中心位置、矩形サイズ、矩形のアスペクト比についての所定の条件を説明する図である。
 誤検出候補取得部15は、まず、検出結果保持部14から、現フレームおよび過去のフレームでの人体候補の画像情報を取得する。画像情報は、人体候補を囲む矩形領域の画像、中心座標、幅および高さの情報を含む。現フレームでの矩形の中心座標を(x0、y0)、幅をw0、高さをh0とし、過去のフレームでの矩形の中心座標を(x1、y1)、幅をw1、高さをh1とした場合に、誤検出候補取得部15は、以下の条件1~条件4を満たすか否かを判定する。
 条件1:現フレームと過去のフレームとの人体候補を囲む矩形の中心位置が式1を満たす。
Figure JPOXMLDOC01-appb-M000001

すなわち、図4(A)に示すように、現フレームの人体候補を囲む矩形410の中心411と、過去のフレームの人体候補を囲む矩形420の中心421との間の距離(ユークリッド距離)が、所定の閾値pos_thよりも小さい場合に、条件1が満たされる。
 条件2:現フレームと過去のフレームとの人体候補を囲む矩形のサイズが式2を満たす。
Figure JPOXMLDOC01-appb-M000002

すなわち、図4(B)に示すように、現フレームの人体候補を囲む矩形410のサイズ(面積)と、過去のフレームの人体候補を囲む矩形420のサイズ(面積)との差分が、所定の閾値size_thよりも小さい場合に、条件2が満たされる。
 条件3:現フレームと過去のフレームとの人体候補を囲む矩形のアスペクト比が式3を満たす。
Figure JPOXMLDOC01-appb-M000003

すなわち、図4(C)に示すように、現フレームの人体候補を囲む矩形410のアスペクト比と、過去のフレームの人体候補を囲む矩形420のアスペクト比との差分が、所定の閾値aspect_thよりも小さい場合に、条件3が満たされる。
 条件4:現フレームと過去のフレームとの人体候補を囲む矩形同士のIoU(Intersection over Union)が式4を満たす。
Figure JPOXMLDOC01-appb-M000004

すなわち、IoU(0≦IoU<1、領域の和集合に対する領域の共通部分の割合)が、所定の閾値IoU_thよりも大きい場合に、条件4が満たされる。
 誤検出候補取得部15は、過去の所定数のフレームの人体候補が、上記の各条件のうち少なくともいずれかを満たす場合に、位置またはサイズに変化がないと判定することができる。すなわち、所定の条件は、上記の条件を任意に組み合わせた条件とすることができる。
 図3に戻り、ステップS32では、比較部16は、位置・サイズに変化がなく誤検出候補と判定された人体候補に対し、テンプレート保持部17に人体候補と重なる物体のテンプレートがあるか否かを判定する。対応するテンプレートは、誤検出候補の人体候補と重なる位置にある物体の画像情報(テンプレート)である。対応するテンプレートがあると判定された場合(S32:Yes)、処理はステップS33に進む。対応するテンプレートがないと判定された場合(S32:No)、処理はステップS35に進む。
 ステップS33では、比較部16は、誤検出候補の人体候補とテンプレートの物体との画像を比較し、類似度を判定する。比較部16は、例えば、図5で例示する方法により、誤検出候補の人体候補とテンプレートの物体との類似度を算出することができる。そして、比較部16は、誤検出候補の人体候補とテンプレートの物体との類似度が所定の閾値より低いか否かを判定する。
 類似度は、例えば、誤検出候補の人体候補とテンプレートの物体とが重なる部分の輝度値、RGB値、グレースケール値の差分に基づいて算出することができる。また、類似度は、画像の特徴量、例えばSIFT特徴量、SURF特徴量、HoG特徴量の比較により算出されたものであってもよい。本実施形態では、誤検出候補の人体候補とテンプレートの物体とが重なる部分の差分に基づいて類似度を算出する例を示すが、重なる部分に限られず、テンプレートの物体の画像全体と対応する領域との差分に基づいて算出してもよい。
 以下の説明では、類似度を算出するための差分は、輝度値の差分であるものとする。誤検出候補の人体候補とテンプレートの物体との類似度は、差分が大きいほど低く、差分が小さいほど高くなるように定義されればよい。類似度が所定の閾値より小さいと判定された場合(S33:Yes)、処理はステップS34に進む。類似度が所定の閾値以上であると判定されたと場合(S33:No)、テンプレートの物体が誤検出されたものと判定され、処理は終了する。
 ここで、図5を用いて、誤検出候補の人体候補とテンプレートの物体との類似度を算出する方法の例を説明する。類似度は、誤検出候補の人体候補とテンプレートの物体との差分から算出される。比較部16は、まず、検出候補の人体候補を囲む矩形410と、テンプレートの物体を囲む矩形510とが重なる重複領域511(図5の斜線部分)の各画素での輝度の差分を算出する。
 第1の例では、比較部16は、以下の式5によって誤検出候補の人体候補とテンプレートの物体との差分を算出することができる。
Figure JPOXMLDOC01-appb-M000005

式5のoverlap areaは重複領域511の画素数であり、(i,j)は重複領域511の各画素を示す。Itemplate(i,j)は、テンプレートの各画素での輝度値、Icandidate(i,j)は、誤検出候補の各画素での輝度値を示す。第1の例では、重複領域511における各画素での輝度の差分の和に基づいて差分が算出される。
 第2の例では、比較部16は、以下の式6によって誤検出候補の人体候補とテンプレートの物体との差分を算出することができる。
Figure JPOXMLDOC01-appb-M000006

式6のoverlap areaは重複領域511の画素数であり、(i,j)は重複領域511の各画素を示す。Itemplate(i,j)は、テンプレートの各画素での輝度値、Icandidate(i,j)は、誤検出候補の各画素での輝度値を示す。第2の例では、重複領域511における各画素での輝度の差分が所定の閾値より大きい場合は1、所定の閾値以下の場合は0とするf(i,j)の和に基づいて差分が算出される。
 比較部16は、これらの例に限られず、以下の比較結果に基づいて誤検出候補の人体候補とテンプレートの物体との差分を算出してもよい。
・SSD(Sum of Squared Difference):差分の2乗の和
・SAD(Sum of Absolute Difference):差分の絶対値の和
・NCC(Normalized Cross-Correlation):正規化相互相関係数
・SIFT,SURF,HoGなどを使用した特徴点マッチング
 図3に戻り、ステップS34では、出力部18は判定結果を出力する。判定結果は、例えば、検出した人体候補の位置およびサイズを示す情報、人体候補が人体であるか否かの判定結果、追跡対象エリア内に存在する人の人数などの情報を含む。判定結果は、ディスプレイ等に撮像画像とともに表示されてもよく、空調または照明設備等に送信され、それぞれの機器の制御に用いられてもよい。
 ステップS35では、比較部16は、位置・サイズに変化がなく、テンプレート保持部17に対応する物体が登録されていない場合、誤検出と判定された当該人体候補を、物体のテンプレートとして登録する。具体的には、比較部16は、誤検出と判定された人体候補を含む矩形領域の画像、位置およびサイズを示す情報を、テンプレート情報としてテンプレート保持部17に格納する。誤検出判定処理中に、テンプレート情報を追加していくことで、人体検出装置1は、静止している物体を新たに誤検出した場合でも、当該物体を再び人体として検出されることを抑制することができる。また、人体検出装置1は、テンプレート登録後は、当該物体に重なって通過する人体を精度よく検出することができる。
 (作用効果)
 上記の実施形態において、人体検出装置1は、検出した人体候補の画像と、テンプレートの物体との画像を比較し、差分(上記実施形態では、輝度の差分の和)が所定の閾値以上の場合に人体と判定する。従来は、物体が誤検出されると、物体を含む領域をマスク処理することで誤検出が抑制されていたため、物体と重なるように通過する人体を検出することは困難であった。これに対し、実施形態に係る人体検出装置1は、物体と重なる人体を精度良く検出することができる。
 また、人体検出装置1は、誤検出判定処理において、新たに物体が人体として誤検出されると、誤検出された人体候補を物体のテンプレートとしてテンプレート保持部17に登録する。したがって、当該物体が再び人体候補として誤検出された場合でも、登録されたテンプレートと一致することから、人体検出装置1は、当該物体が人体ではない(誤判定である)と判定することができる。また、人体検出装置1は、テンプレート登録後は、当該物体に重なって通過する人体を精度よく検出することができるようになる。
 <実施形態の変形例>
 (変形例1)
 上記の実施形態では、誤検出の判定結果として、検出した人体候補の位置およびサイズを示す情報、人体候補が人体であるか否かの判定結果の情報が出力される。変形例1では、出力部18は、さらに検出部11によって検出された各人体候補について、人体であることの信頼度を出力する。人体であることの信頼度は、例えば、図3のステップS31において誤検出候補として抽出されたか否か、ステップS33において算出された差分の値等を点数化することにより、適宜定義することができる。差分の値が大きい、すなわち、物体との類似度が低いほど人体であることの信頼度は高くなる。また、差分の値が小さい、すなわち、物体との類似度が高いほど人体であることの信頼度は低くなる。変形例1では、人体であることの信頼度に応じて、空調、照明設備等の各種機器の柔軟な制御が可能となる。
 (変形例2)
 上記の実施形態では、テンプレート保持部17は、比較部16が誤検出候補と比較するための物体の画像情報をテンプレートとして保持する。テンプレートは、予め登録されたものであってもよい。また、テンプレートは、誤検出判定処理で誤検出と判定された人体候補(物体)が、追加で格納されたものであってもよい。これに対し、変形例2では、テンプレートを追加するだけでなく、テンプレート保持部17に格納されているテンプレートに対応する物体が、所定時間の間(所定数のフレームで)検出されなければ、当該物体のテンプレートは削除される。
 テンプレートを削除するか否かは、例えば、次のように判定することができる。まず、図3のステップS30において、検出部10は、人体候補とともに物体を検出し、テンプレート保持部17に対し、対応する物体が検出されたことを示す情報を登録する。
 そして、比較部16は、ステップS32において人体候補をテンプレートと比較する際、ステップS30での物体の検出結果に基づいて、比較対象のテンプレートの物体が所定数のフレームで検出されているか否かを判定する。比較部16は、物体が所定数のフレームで検出されていない場合、当該物体のテンプレートを削除する。
 変形例2では、テンプレート保持部17に格納されたテンプレートの物体が、移動されたり、追跡対象エリア外に持ち出されたりした場合でも、テンプレート保持部17から不要なテンプレートが削除される。また、追跡対象エリアないで移動した場合には、移動先に存在する物体として新たにテンプレートが登録される。不要なテンプレートの削除により、比較部16による不要な比較処理は軽減される。また、テンプレート保持部17に格納されるテンプレートが、より現状に即した状態に維持されるため、人体検出装置1は、誤検出をより精度よく判定することができる。
 <その他>
 上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
 例えば、上記の実施形態では、人体候補は矩形領域として検出されるがこれに限られない。人体候補は、丸型の領域、人体候補の輪郭で囲まれた領域として検出されてもよい。
 また、例えば、上記の実施形態では、誤検出候補を抽出する場合、現フレームと過去の所定数のフレームのそれぞれとの間で、位置またはサイズに変化がないかを判定するが、過去の所定数のフレームは連続したフレームでなくてもよい。例えば、一定時間ごとの過去のフレームとの対比により、位置またはサイズに変化がないかを判定してもよい。
 <付記1>
 (1)人体を検出する対象領域の撮像画像を受信する受信部(10)と、
 前記撮像画像から人体候補を検出し、前記人体候補の画像情報を取得する検出部(11)と、
 前記対象領域に存在する人体以外の物体の画像情報を保持する保持部(17)と、
 前記人体候補と重なる位置にある物体の画像情報を前記保持部から取得し、前記人体候補の画像情報および前記取得した物体の画像情報に基づいて前記人体候補と前記物体との類似度を判定し、前記類似度に基づいて前記人体候補の検出が誤検出であるか否かを判定する判定部(15、16)と、
を備えることを特徴とする人体検出装置(1)。
 (2)人体を検出する対象領域の撮像画像を受信する受信ステップと、
 前記撮像画像から人体候補を検出し、前記人体候補の画像情報を取得する検出ステップ(S30)と、
 前記対象領域に存在する人体以外の物体の画像情報を保持する保持部(17)から、前記人体候補と重なる位置にある物体の画像情報を取得し、前記人体候補の画像情報および前記取得した物体の画像情報に基づいて前記人体候補と前記物体との類似度を判定し、前記類似度に基づいて前記人体候補の検出が誤検出であるか否かを判定する判定ステップと(S33)、を含む
ことを特徴とする人体検出方法。
1:人体検出装置、2:撮像装置、10:受信部、11:検出部、12:位置取得部、13:サイズ取得部、14:検出結果保持部、15:誤検出候補取得部、16:比較部、17:テンプレート保持部、18:出力部

Claims (13)

  1.  人体を検出する対象領域の撮像画像を受信する受信部と、
     前記撮像画像から人体候補を検出し、前記人体候補の画像情報を取得する検出部と、
     前記対象領域に存在する人体以外の物体の画像情報を保持する保持部と、
     前記人体候補と重なる位置にある物体の画像情報を前記保持部から取得し、前記人体候補の画像情報および前記取得した物体の画像情報に基づいて前記人体候補と前記物体との類似度を判定し、前記類似度に基づいて前記人体候補の検出が誤検出であるか否かを判定する判定部と、
    を備えることを特徴とする人体検出装置。
  2.  前記判定部は、前記人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定した前記人体候補について、誤検出であるか否かを判定する
    ことを特徴とする請求項1に記載の人体検出装置。
  3.  前記判定部は、前記撮像画像における前記人体候補の中心位置と、所定数の過去の撮像画像における前記人体候補の中心位置との距離が、それぞれ所定の閾値より小さい場合に、前記人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定する
    ことを特徴とする請求項2に記載の人体検出装置。
  4.  前記判定部は、前記撮像画像における前記人体候補を含む矩形の面積と、所定数の過去の撮像画像における前記人体候補を含む矩形の面積との差分が、それぞれ所定の閾値より小さい場合に、前記人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定する
    ことを特徴とする請求項2または3に記載の人体検出装置。
  5.  前記判定部は、前記撮像画像における前記人体候補を含む矩形のアスペクト比と、所定数の過去の撮像画像における前記人体候補を含む矩形のアスペクト比との差分が、それぞれ所定の閾値より小さい場合に、前記人体候補の位置またはサイズの少なくともいずれかが所定時間の間変化していないと判定する
    ことを特徴とする請求項2から4のいずれか1項に記載の人体検出装置。
  6.  前記判定部は、位置またはサイズの少なくともいずれかが所定時間の間変化していない前記人体候補に対して、前記保持部に前記人体候補と重なる物体の画像情報がない場合、前記人体候補に対応する画像情報を誤検出した物体の画像情報として前記保持部に格納する
    ことを特徴とする請求項1から5のいずれか1項に記載の人体検出装置。
  7.  前記判定部は、前記保持部に保持された物体の画像情報うち、前記撮像画像から所定時間の間検出されていない物体の画像情報を、前記保持部から削除する
    ことを特徴とする請求項1から6のいずれか1項に記載の人体検出装置。
  8.  前記画像情報は、前記人体候補または物体を囲む矩形領域の画像、中心座標、幅および高さを含む
    ことを特徴とする請求項1から7のいずれか1項に記載の人体検出装置。
  9.  前記判定部は、前記人体候補の画像と、前記保持部から取得した物体の画像とが重なる領域において、輝度値、RGB値、グレースケール値のうちの少なくともいずれか1つの差分の和に基づいて、前記人体候補の検出が誤検出であるか否かを判定する
    ことを特徴とする請求項1から8のいずれか1項に記載の人体検出装置。
  10.  前記判定部による判定結果を表示する出力部をさらに備え、
     前記判定結果は、検出した前記人体候補の位置およびサイズを示す情報、前記人体候補が人体であるか否かの判定結果、前記人体候補が人体であることの信頼度のうちの少なくともいずれかを含む
    ことを特徴とする請求項1から9のいずれか1項に記載の人体検出装置。
  11.  前記撮像画像を撮像し、前記受信部に送信する撮像部を、さらに備える
    ことを特徴とする請求項1から10のいずれか1項に記載の人体検出装置。
  12.  人体を検出する対象領域の撮像画像を受信する受信ステップと、
     前記撮像画像から人体候補を検出し、前記人体候補の画像情報を取得する検出ステップと、
     前記対象領域に存在する人体以外の物体の画像情報を保持する保持部から、前記人体候補と重なる位置にある物体の画像情報を取得し、前記人体候補の画像情報および前記取得した物体の画像情報に基づいて前記人体候補と前記物体との類似度を判定し、前記類似度に基づいて前記人体候補の検出が誤検出であるか否かを判定する判定ステップと、を含むことを特徴とする人体検出方法。
  13.  請求項12に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2020/046680 2020-01-06 2020-12-15 人体検出装置および人体検出方法 WO2021140844A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020000298A JP2021110973A (ja) 2020-01-06 2020-01-06 人体検出装置および人体検出方法
JP2020-000298 2020-01-06

Publications (1)

Publication Number Publication Date
WO2021140844A1 true WO2021140844A1 (ja) 2021-07-15

Family

ID=76787483

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/046680 WO2021140844A1 (ja) 2020-01-06 2020-12-15 人体検出装置および人体検出方法

Country Status (2)

Country Link
JP (1) JP2021110973A (ja)
WO (1) WO2021140844A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023277201A1 (ja) 2022-08-02 2023-01-05 三菱電機株式会社 推論装置、推論方法及び推論プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122746A (ja) * 2008-11-17 2010-06-03 Secom Co Ltd 画像監視装置
JP2013143069A (ja) * 2012-01-12 2013-07-22 Secom Co Ltd 画像処理装置
JP2013254291A (ja) * 2012-06-06 2013-12-19 Mega Chips Corp 動体検出装置、動体検出方法およびプログラム
JP2016038686A (ja) * 2014-08-06 2016-03-22 株式会社豊田中央研究所 監視装置及びプログラム
JP2017117300A (ja) * 2015-12-25 2017-06-29 Kddi株式会社 動物体の検出装置、検出方法及びプログラム
JP2018097611A (ja) * 2016-12-13 2018-06-21 キヤノン株式会社 画像処理装置およびその制御方法
JP2019191720A (ja) * 2018-04-20 2019-10-31 株式会社Jvcケンウッド 認識装置、認識方法及び認識プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122746A (ja) * 2008-11-17 2010-06-03 Secom Co Ltd 画像監視装置
JP2013143069A (ja) * 2012-01-12 2013-07-22 Secom Co Ltd 画像処理装置
JP2013254291A (ja) * 2012-06-06 2013-12-19 Mega Chips Corp 動体検出装置、動体検出方法およびプログラム
JP2016038686A (ja) * 2014-08-06 2016-03-22 株式会社豊田中央研究所 監視装置及びプログラム
JP2017117300A (ja) * 2015-12-25 2017-06-29 Kddi株式会社 動物体の検出装置、検出方法及びプログラム
JP2018097611A (ja) * 2016-12-13 2018-06-21 キヤノン株式会社 画像処理装置およびその制御方法
JP2019191720A (ja) * 2018-04-20 2019-10-31 株式会社Jvcケンウッド 認識装置、認識方法及び認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NONAKA, YOSUKE ET AL: "Casebased background modeling for constructing highperformance and low-cost background models", "3.4Deleting the background model", , IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J96-D, no. 3, 1 March 2013 (2013-03-01), pages 399 - 410 *

Also Published As

Publication number Publication date
JP2021110973A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
US9898677B1 (en) Object-level grouping and identification for tracking objects in a video
US11869199B2 (en) Object tracking device and object tracking method
US9747523B2 (en) Information processing apparatus, information processing method, and recording medium
US20150193649A1 (en) Enhanced face detection using depth information
JP6555906B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11037013B2 (en) Camera and image processing method of camera
US11983951B2 (en) Human detection device and human detection method
CN113646803B (zh) 人检测装置以及人检测方法
US20190042869A1 (en) Image processing apparatus and control method therefor
US20180307896A1 (en) Facial detection device, facial detection system provided with same, and facial detection method
WO2022014252A1 (ja) 情報処理装置および情報処理方法
US11770504B2 (en) Person detection device and person detection method
CN112507767B (zh) 脸部辨识方法及其相关电脑系统
WO2021140844A1 (ja) 人体検出装置および人体検出方法
JP2008035301A (ja) 移動体追跡装置
JP6772059B2 (ja) 電子制御装置、電子制御システムおよび電子制御方法
TW202001783A (zh) 影像分析方法、電子系統以及非暫態電腦可讀取記錄媒體
JP2018063675A (ja) 画像処理装置および制御方法
KR101844328B1 (ko) 가려짐 및 회전에 강인한 공장 자동화 물체 인식 시스템 및 방법
KR101770586B1 (ko) 보행자 인식 시스템 및 그 제어 방법
KR20120108276A (ko) 측면의 랜드마크를 인식하는 지능형 이동로봇의 위치인식 방법
WO2020175085A1 (ja) 画像処理装置、及び画像処理方法
US20240071028A1 (en) Information processing device and information processing method
KR101761604B1 (ko) 다중 보행자 인식, 추적 시스템 및 그 제어 방법
KR20160106957A (ko) 얼굴 검색 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912154

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912154

Country of ref document: EP

Kind code of ref document: A1