WO2020137160A1 - 人検出装置および人検出方法 - Google Patents

人検出装置および人検出方法 Download PDF

Info

Publication number
WO2020137160A1
WO2020137160A1 PCT/JP2019/043051 JP2019043051W WO2020137160A1 WO 2020137160 A1 WO2020137160 A1 WO 2020137160A1 JP 2019043051 W JP2019043051 W JP 2019043051W WO 2020137160 A1 WO2020137160 A1 WO 2020137160A1
Authority
WO
WIPO (PCT)
Prior art keywords
human body
detection
area
bounding box
image
Prior art date
Application number
PCT/JP2019/043051
Other languages
English (en)
French (fr)
Inventor
郁奈 辻
田中 清明
純平 松永
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to DE112019006463.0T priority Critical patent/DE112019006463T5/de
Priority to US17/294,755 priority patent/US11770504B2/en
Priority to CN201980079231.7A priority patent/CN113168693B/zh
Publication of WO2020137160A1 publication Critical patent/WO2020137160A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Definitions

  • the present invention relates to a technique of detecting a person using an image of a fisheye camera.
  • an application that automatically measures the "number”, "position”, and "movement line” of a person with an image sensor to optimally control equipment such as lighting and air conditioning. Is needed.
  • an ultra-wide-angle camera fisheye camera, omnidirectional camera, omnidirectional camera, etc.
  • fisheye lens fisheye lens
  • fisheye image Images taken with a fisheye camera are greatly distorted. Therefore, when detecting a human body or face from a fisheye camera image (hereinafter referred to as "fisheye image"), the fisheye image is flattened in advance to correct it to an image with less distortion and then detected.
  • the method of applying the treatment is common (see Patent Document 1).
  • the conventional technology has the following problems.
  • First there is a problem that the overall processing cost is increased due to the pre-processing of expanding the fish-eye image on a plane. This makes real-time detection processing difficult and may cause delay in device control, which is not preferable.
  • the second problem is that the image of a person or object that exists at the boundary (image break) at the time of plane expansion, such as directly below the fisheye camera, is greatly deformed by the plane expansion process. May be separated and may not be detected correctly.
  • the present inventors are studying an approach in which a fish-eye image is subjected to detection processing as it is (meaning “without plane expansion”).
  • detection processing meaning “without plane expansion”.
  • variations in the appearance (human body inclination, distortion, size) of a person to be detected increase, and thus detection becomes difficult.
  • an application such as BA or FA
  • there are many objects in the image such as chairs, personal computers, trash cans, fans, and circulators, which are easily mistaken for the human body and head, and thus the detection accuracy is likely to deteriorate. ..
  • the present invention has been made in view of the above circumstances, and an object thereof is to provide a technique for detecting a person at high speed and with high accuracy from a fisheye image.
  • the present invention adopts the following configurations.
  • a first aspect of the present invention is a person detection device that analyzes a fisheye image obtained by a fisheye camera installed above a detection target area to detect a person present in the detection target area.
  • a human body detection unit that detects a human body candidate from a fisheye image and outputs a bounding box that represents the region of each detected human body candidate on the fisheye image, and a reference for the shape and/or size of the bounding box , For each position or area on the fisheye image, the reference storage unit that is stored in advance, and the shape and/or size of the bounding box of the human body candidate included in the detection result as the detected position of the human body candidate.
  • An erroneous detection determination unit that determines whether or not the human body candidate is erroneously detected by comparing with the corresponding reference is provided.
  • a fish-eye camera is a camera equipped with a fish-eye lens and is capable of shooting at a super wide angle compared to a normal camera. Omnidirectional cameras and spherical cameras are also a type of fisheye camera.
  • the fisheye camera may be installed so as to look down on the detection target area from above the detection target area. Typically, the fish-eye camera is installed so that its optical axis faces vertically downward, but the optical axis of the fish-eye camera may be tilted with respect to the vertical direction.
  • the “human body” may be the whole body of a person or the half body (for example, upper body, head and torso, etc.).
  • the “bounding box” is a closed figure or a frame line representing a human body candidate region, and for example, a polygon or an ellipse surrounding the human body candidate region may be used as the bounding box.
  • the present invention can realize highly accurate human detection by a simple process by performing erroneous detection determination by a simple method of verifying the validity of the shape and size of the detected bounding box of the human body candidate. .. Moreover, high-speed processing can be realized because pre-processing such as flattening the fish-eye image is unnecessary.
  • the standard for the shape of the bounding box may include the standard for the aspect ratio of the bounding box. This is because the depression angle and the azimuth angle when the human body is viewed from the fisheye camera changes according to the position on the fisheye image, so that the aspect ratio of the bounding box changes.
  • the reference of the aspect ratio is that the bounding box is substantially square in the central area of the fisheye image and the area at an angle of 45 degrees to the central area, and the bounding box is in the upper and lower areas of the central area. May be a vertically long rectangle, and in the left and right areas of the central area, the bounding boxes may be horizontally long rectangles.
  • the standard for the size of the bounding box may include the standard for the area of the bounding box. This is because the area of the bounding box changes because the distance from the fisheye camera to the human body changes according to the position on the fisheye image.
  • the area standard may be set such that the area becomes larger as the area is closer to the center of the fisheye image.
  • the erroneous detection determination unit may exclude a human body candidate determined to be erroneously detected from the detection result. Alternatively, if the detection result includes information on the reliability of each of the detected human body candidates, the erroneous detection determination unit may reduce the reliability of the human body candidates determined to be erroneous. ..
  • a second aspect of the present invention is a person detection method for detecting a person present in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a human body detection step of detecting a human body candidate from a fisheye image and outputting a bounding box representing an area on the fisheye image of each detected human body candidate as a detection result, and a reference for the shape and/or size of the bounding box , For each position or area on the fisheye image, by referring to the reference storage unit stored in advance, the shape and/or size of the bounding box of the human body candidate included in the detection result, An erroneous detection determination step of determining whether or not the human body candidate is erroneously detected by comparing with the reference corresponding to the detection position is provided.
  • the present invention may be regarded as a person detecting apparatus having at least a part of the above means, and may be a person recognizing apparatus for recognizing (identifying) a detected person, a person tracking apparatus for tracking the detected person, or an image processing apparatus, It may be considered as a monitoring system. Further, the present invention may be understood as a person detection method, a person recognition method, a person tracking method, an image processing method, and a monitoring method including at least a part of the above processing. Further, the present invention can be regarded as a program for implementing such a method and a recording medium in which the program is recorded non-temporarily. The above means and processing can be combined with each other as much as possible to configure the present invention.
  • a person can be detected at high speed and with high accuracy from a fisheye image.
  • FIG. 1 is a diagram showing an application example of the person detecting device according to the present invention.
  • FIG. 2 is a diagram showing an example of a fisheye image and a bounding box.
  • FIG. 3 is a diagram showing a configuration of a monitoring system including a human detection device.
  • FIG. 4 is a flowchart of the person detection process.
  • FIG. 5 is a diagram illustrating an example of the detection result of the human body detection unit.
  • FIG. 6 is a diagram showing an example of the reference aspect ratio.
  • FIG. 7 is a flowchart of erroneous detection determination based on the aspect ratio.
  • FIG. 8 is a diagram showing an example of the reference area.
  • FIG. 9 is a flowchart of erroneous detection determination based on area.
  • the person detection device 1 analyzes the fisheye image obtained by the fisheye camera 10 installed above the detection target area 11 (for example, the ceiling 12) to detect the person 13 existing in the detection target area 11. It is a device that does.
  • the person detecting device 1 detects, recognizes, or tracks a person 13 who passes through the detection target area 11 in an office or a factory, for example.
  • the regions of the four human bodies detected from the fisheye image are shown by the rectangular bounding box 14.
  • the detection result of the human detection device 1 is output to an external device and used, for example, for counting the number of people, controlling various devices such as lighting and air conditioning, and monitoring a suspicious person.
  • the fish-eye image has a characteristic that the shape and size of the bounding box 14 change according to the detected position on the image.
  • the human detection device 1 performs erroneous detection determination by a simple method of verifying the appropriateness of the shape and size of the detected human body candidate bounding box 14 in consideration of such characteristics of the fish-eye image. One of the features is that it determines whether or not it is a false detection. Further, the human detection device 1 is also characterized in that the fisheye image is used as it is for the human detection processing (that is, without performing preprocessing such as plane expansion and distortion correction).
  • FIG. 2 shows an example of a fisheye image captured from the fisheye camera 10.
  • the lower left corner of the fisheye image is the origin (0, 0)
  • the x axis is on the right side in the horizontal direction
  • the y axis is on the upper side in the vertical direction.
  • the fish-eye camera 10 When the fish-eye camera 10 is installed so that the optical axis is vertically downward, an image of a person who is directly under the fish-eye camera 10 observed from the top of the head appears in the center of the fish-eye image. Then, the depression angle becomes smaller toward the edge of the fisheye image, and an image of a person observed obliquely from above appears.
  • the human body in the fish-eye image is positioned so that its feet are located on the center side of the image and its head is on the edge side of the image, and is substantially parallel to a radial line (broken line in FIG. 2) passing through the center of the image. It is captured at various angles. Further, the distortion of the center of the fisheye image is relatively small, but the distortion of the image becomes larger toward the edge of the fisheye image.
  • Numerals 14a to 14f indicate bounding boxes arranged so as to surround the region of the human body in the fisheye image.
  • a rectangular bounding box having four sides parallel to the x axis or the y axis is used.
  • the bounding box (for example, 14a) existing in the central area of the fisheye image has a substantially square shape.
  • the bounding boxes (for example, 14b and 14c) existing in an area at an angle of 45 degrees with respect to the central area also have a substantially square shape.
  • Bounding boxes (for example, 14d) existing in the upper and lower areas of the central area are vertically long rectangles (rectangles having long sides parallel to the y-axis). The closer to the center of the image, the closer to the square, and the center of the image. The more you get away from, the taller it becomes.
  • Bounding boxes (for example, 14e and 14f) existing on the left side and the right side of the central area are horizontally long rectangles (rectangles having long sides parallel to the x-axis). The farther it is from the center, the longer it becomes.
  • the fish-eye image has the characteristic that the shape (eg, aspect ratio) of the bounding box changes depending on the direction and distance with respect to the image center.
  • the position of the bounding box for each position or area on the fisheye image is based on the optical characteristics of the fisheye camera 10, the positional relationship between the fisheye camera 10 and the detection target area 11, and the average size of the human body. It is possible to calculate (predict) geometrically.
  • the size of the human body is largest at the center of the fish-eye image and becomes smaller toward the edges. That is, the fish-eye image has a characteristic that the size (for example, area) of the bounding box changes (the size decreases as the distance increases) depending on the distance from the center of the image.
  • the position on the fisheye image or the area of the bounding box for each area based on the optical characteristics of the fisheye camera 10, the positional relationship between the fisheye camera 10 and the detection target area 11, and the average size of the human body, It is possible to calculate (predict) geometrically.
  • FIG. 3 is a block diagram showing a configuration of a monitoring system to which the person detecting device according to the embodiment of the present invention is applied.
  • the monitoring system 2 generally includes a fisheye camera 10 and a person detection device 1.
  • the fish-eye camera 10 is an imaging device having an optical system including a fish-eye lens and an imaging device (image sensor such as CCD or CMOS).
  • the fish-eye camera 10 is installed on a ceiling 12 or the like of a detection target area 11 with its optical axis oriented vertically downward, and displays an image in all directions (360 degrees) of the detection target area 11. You should take a picture.
  • the fisheye camera 10 is connected to the human detection device 1 by wire (USB cable, LAN cable, etc.) or wirelessly (WiFi, etc.), and the image data captured by the fisheye camera 10 is captured by the human detection device 1.
  • the image data may be a monochrome image or a color image, and the resolution, frame rate and format of the image data are arbitrary. In the present embodiment, it is assumed that a monochrome image captured at 10 fps (10 sheets per second) is used.
  • the human detection device 1 of this embodiment includes an image input unit 20, a human body detection unit 21, a storage unit 23, a reference storage unit 24, an erroneous detection determination unit 25, and an output unit 26.
  • the image input unit 20 has a function of capturing image data from the fisheye camera 10.
  • the captured image data is delivered to the human body detection unit 21.
  • This image data may be stored in the storage unit 23.
  • the human body detection unit 21 has a function of detecting a human body candidate from a fisheye image using an algorithm for detecting a human body.
  • the human body detection dictionary 22 is a dictionary in which image characteristics of a human body appearing in a fisheye image are registered in advance.
  • the storage unit 23 has a function of storing a fisheye image, a detection result, and the like.
  • the reference storage unit 24 has a function of storing a reference (also referred to as a predicted value or a standard value) regarding the shape and/or size of the bounding box. This standard is set in advance prior to the operation of the monitoring system 2 (for example, when the monitoring system 2 is shipped from the factory, installed, or maintained).
  • the false detection determination unit 25 has a function of verifying the detection result of the human body detection unit 21 and determining the presence or absence of false detection.
  • the output unit 26 has a function of outputting information such as a fisheye image and a detection result to an external device.
  • the output unit 26 may display information on a display as an external device, may transfer information to a computer as an external device, and may output information to a lighting device, an air conditioner, or an FA device as an external device. Information or control signals may be sent.
  • the human detection device 1 can be configured by, for example, a computer including a CPU (processor), a memory, a storage, and the like.
  • a computer including a CPU (processor), a memory, a storage, and the like.
  • the configuration shown in FIG. 3 is realized by loading the program stored in the storage into the memory and causing the CPU to execute the program.
  • a computer may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, a smartphone, or an embedded computer such as an onboard computer.
  • all or part of the configuration shown in FIG. 3 may be configured with an ASIC, FPGA, or the like.
  • all or part of the configuration shown in FIG. 3 may be realized by cloud computing or distributed computing.
  • FIG. 4 is a flowchart of the person detection processing by the monitoring system 2. The overall flow of person detection processing will be described with reference to FIG. Note that the flowchart of FIG. 4 shows processing for one frame of fisheye image. When the fish-eye image is input at 10 fps, the processing of FIG. 4 is executed 10 times per second.
  • the image input unit 20 inputs a one-frame fisheye image from the fisheye camera 10 (step S40).
  • image processing such as detection and recognition is performed after creating a flattened image in which the distortion of the fisheye image is corrected, but in the monitoring system 2 of the present embodiment. , Use the fisheye image as it is (with distortion) for detection and recognition processing.
  • the human body detection unit 21 detects a human body from the fisheye image (step S41).
  • a human body for example, an object such as a fan, a desk chair, or a coat hanging, whose shape or color is confusing with the human body
  • the detection result of the human body detection unit 21 may include an object that is not a human body, and is therefore called a “human body candidate” at this stage.
  • the detection result may include, for example, information on a bounding box indicating the detected human body candidate region and information on the reliability of detection (probability of being a human body).
  • the information of the bounding box may include, for example, the center coordinates (x, y) of the bounding box (corresponding to the detection position of the human body candidate), the height h, and the width w.
  • the detection result is stored in the storage unit 23.
  • FIG. 5 is an example of the detection result of the human body detection unit 21.
  • the non-human bodies 54 and 55 are also detected as human body candidates.
  • Reference numerals 50a to 55a indicate bounding boxes of the human body candidates.
  • any algorithm may be used for human body detection.
  • a classifier that combines image features and boosting such as HoG or Haar-like may be used, or human body recognition by deep learning (eg, R-CNN, Fast R-CNN, YOLO, SSD, etc.) is used. May be.
  • the whole body of a person is detected as the human body, but the present invention is not limited to this, and a part of the body such as the upper body may be the detection target.
  • the erroneous detection determination unit 25 compares each of the bounding boxes 50a to 55a included in the detection result of the human body detection unit 21 with the reference set in the reference storage unit 24 to determine the erroneous detection. Perform (step S42).
  • the human body candidates 54 and 55 are determined to be erroneous detections. Details of the erroneous detection determination will be described later.
  • the erroneous detection determination unit 25 corrects the detection result stored in the storage unit 23 (step S43). S44). Specifically, the erroneous detection determination unit 25 may exclude the information of the human body candidate determined to be erroneous detection from the detection result, or may reduce the reliability of the human body candidate determined to be erroneous detection. Good. Finally, the output unit 26 outputs the detection result to the external device (step S45). This completes the processing for the fisheye image of one frame.
  • the fisheye image is analyzed as it is, and the person is directly detected from the fisheye image. Therefore, preprocessing such as plane expansion of the fisheye image and distortion correction can be omitted, and high-speed person detection processing can be performed.
  • the method of using the fisheye image as it is for the detection process has a problem that the detection accuracy is lower than the method of performing the detection process after the plane expansion (distortion correction).
  • the shape and size of the bounding box are reduced. Since erroneous detection is eliminated by verifying the validity of, highly accurate detection can be realized.
  • the fisheye image has a characteristic that the aspect ratio of the bounding box changes depending on the azimuth and distance from the image center. This characteristic can be numerically calculated in advance.
  • FIG. 6 is an example in which the fisheye image is divided into 64 small areas of 8 ⁇ 8 and the aspect ratio h/w is calculated for each small area (where h is the height of the bounding box in the y direction, and w is the height). The width of the bounding box in the x direction.)
  • a table defining the reference value of the aspect ratio (hereinafter referred to as “reference aspect ratio”) for each small area thus obtained may be stored in the reference storage unit 24. As shown in FIG.
  • the reference aspect ratio shows a symmetrical change with respect to the A axis and the B axis.
  • the reference storage unit 24 may store only a quadrant table of the fisheye image (for example, a shaded portion in FIG. 6). This can reduce the memory capacity.
  • FIG. 7 is a flowchart of erroneous detection determination based on the aspect ratio.
  • the erroneous detection determination unit 25 reads the information of the human body candidate detected in step S41 of FIG. 4 from the storage unit 23.
  • the false detection determination unit 25 calculates the aspect ratio h/w of the bounding box of the human body candidate.
  • the erroneous detection determination unit 25 reads the reference aspect ratio of the small area corresponding to the detection position (center coordinates of the bounding box) of the human body candidate from the reference storage unit 24.
  • the erroneous detection determination unit 25 determines whether the human body candidate is a human body or an erroneous detection by comparing the aspect ratio of the human body candidate with the reference aspect ratio.
  • the relative error REa of the aspect ratio of the human body candidate with respect to the reference aspect ratio is less than or equal to the threshold value Trea, it is determined as “human body”, and when the relative error REa is greater than the threshold value Trea, it is determined as “erroneous detection”.
  • Relative error REa
  • /1.00 ⁇ 100 2.0[%] Is asked.
  • /0.71 ⁇ 100 32.4[%] Since REa>Trea, the human body candidate 55 is determined to be “erroneous detection”.
  • the fisheye image has a characteristic that the area of the bounding box changes depending on the distance from the center of the image. This characteristic can be numerically calculated in advance.
  • FIG. 8 is an example in which the fish-eye image is divided into 64 small areas of 8 ⁇ 8, and the area (the number of pixels) of each small area is calculated.
  • a table defining the reference value (hereinafter referred to as “reference area”) of the area for each small area thus obtained may be stored in the reference storage unit 24.
  • the reference area shows a symmetrical change with respect to the center of the image.
  • only the quadrant table of the fisheye image (for example, the shaded portion in FIG. 8) may be stored in the reference storage unit 24. This can reduce the memory capacity.
  • FIG. 9 is a flowchart of erroneous detection determination based on area.
  • the erroneous detection determination unit 25 reads the information of the human body candidate detected in step S41 of FIG. 4 from the storage unit 23.
  • the false detection determination unit 25 calculates the area of the bounding box of the human body candidate.
  • the erroneous detection determination unit 25 reads the reference area of the small area corresponding to the detection position (center coordinates of the bounding box) of the human body candidate from the reference storage unit 24.
  • the erroneous detection determination unit 25 determines whether the human body candidate is a human body or an erroneous detection by comparing the area of the human body candidate with the reference area.
  • Relative error REs
  • /144 ⁇ 100 9.7[%] Is asked.
  • /72 ⁇ 100 80.6[%] Since REs>Tres, the human body candidate 54 is determined to be “erroneous detection”.
  • the error of the aspect ratio and the error of the area are individually evaluated, and if both are positive, it is called “human body”, and if either one is negative, it is called “erroneous detection”.
  • the determination result may be output.
  • REa ⁇ Trea and REs ⁇ Tres ⁇ human body REa>Trea or REs>Tres ⁇ false detection may be performed.
  • the above embodiment is merely an example for explaining the configuration example of the present invention.
  • the present invention is not limited to the above specific forms, and various modifications can be made within the scope of the technical idea thereof.
  • the values in the tables shown in FIGS. 6 and 8 and the threshold values shown in the above embodiments are merely examples for description.
  • the rectangular bounding box is exemplified in the above embodiment, a bounding box other than the rectangular shape (polygon, ellipse, free figure, etc.) may be used.
  • the relative error of the aspect ratio or the area is evaluated, but the absolute error may be evaluated instead. In that case, it is advisable to normalize the value of the aspect ratio with its maximum value and the area value with the area of the fisheye image.
  • a person (13) existing in the detection target area (11) is detected by analyzing a fisheye image obtained by a fisheye camera (10) installed above the detection target area (11).
  • a human detection device (1) for A human body detection unit (21) that detects a human body candidate from the fisheye image and outputs a bounding box (14) that represents an area on the fisheye image of each of the detected human body candidates as a detection result;
  • a reference storage unit (24) that stores in advance a reference relating to the shape and/or size of the bounding box for each position or area on the fisheye image; By comparing the shape and/or size of the bounding box of the human body candidate included in the detection result with the reference corresponding to the detection position of the human body candidate, it is determined whether the human body candidate is a false detection.
  • An erroneous detection determination unit (25) A person detection device (1), characterized by having:
  • the reference regarding the shape and/or size of the bounding box is stored in advance for each position or area on the fisheye image, and the bounding of the human body candidate included in the detection result is performed by referring to the reference storage unit (24).
  • a method for detecting people comprising:
  • Human detection device 2 Monitoring system 10: Fisheye camera 11: Detection target area 12: Ceiling 13: Human

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Vascular Medicine (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置が、魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出部と、バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部と、前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定部と、を有する。

Description

人検出装置および人検出方法
 本発明は、魚眼カメラの画像を用いて人を検出する技術に関する。
 ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ(フィッシュアイレンズ)を搭載した超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる。)を利用することが多い。
 魚眼カメラで撮影された画像は大きく歪んでいる。それゆえ、魚眼カメラの画像(以後「魚眼画像」と呼ぶ。)から人体や顔などを検出する場合には、あらかじめ魚眼画像を平面展開することで歪みの少ない画像に補正した後に検出処理にかけるという方法が一般的である(特許文献1参照)。
特開2016-39539号公報
 しかしながら、従来技術では次のような問題がある。一つは、魚眼画像を平面展開するという前処理が発生することで、全体の処理コストが大きくなるという問題である。これは、リアルタイムの検出処理を困難にし、機器制御の遅延を招く可能性があり、好ましくない。二つ目の問題は、魚眼カメラの真下など、ちょうど平面展開時の境界(画像の切れ目)の位置に存在する人や物体の像が、平面展開の処理によって大きく変形してしまったり、像が分断されてしまったりして、正しく検出できない恐れがあることである。
 これらの問題を回避するため、本発明者らは、魚眼画像をそのまま(「平面展開せずに」という意味である。)検出処理にかけるというアプローチを研究している。しかし、通常のカメラ画像に比べ、魚眼画像の場合は、検出対象となる人の見え方(人体の傾き、歪み、大きさ)のバリエーションが増加するため、検出が困難となる。特に、BAやFAなどのアプリケーションを想定した場合、画像中に、イス、パーソナルコンピュータ、ごみ箱、扇風機、サーキュレーターなど、人体や頭部と誤り易い物体が多く存在するため、検出精度の低下を招きやすい。
 本発明は上記実情に鑑みなされたものであって、魚眼画像から高速に且つ高精度に人を検出する技術を提供することを目的とする。
 上記目的を達成するために本発明は、以下の構成を採用する。
 本発明の第一側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出部と、バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部と、前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定部と、を有することを特徴とする人検出装置を提供する。
 「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラや全天球カメラも魚眼カメラの一種である。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。「人体」は、人の全身でもよいし、半身(例えば、上半身、頭部と胴体など)でもよい。「バウンディングボックス」は、人体候補の領域を表す閉図形あるいは枠線であり、例えば、人体候補の領域を囲む多角形や楕円などをバウンディングボックスとして用いてよい。
 本発明は、検出された人体候補のバウンディングボックスの形状やサイズの妥当性を検証するというシンプルな方法で誤検出判定を行うことにより、高精度な人検出を簡易な処理で実現することができる。しかも、魚眼画像を平面展開するなどの前処理が不要なため、高速な処理が実現できる。
 バウンディングボックスの形状に関する基準は、バウンディングボックスのアスペクト比の基準を含んでもよい。魚眼画像上の位置に応じて、魚眼カメラから人体を視たときの俯角や方位角が変わるため、バウンディングボックスのアスペクト比が変化するからである。例えば、前記アスペクト比の基準は、魚眼画像の中央エリアおよび前記中央エリアに対し斜め45度にあるエリアでは、バウンディングボックスが略正方形となり、前記中央エリアの上側および下側のエリアでは、バウンディングボックスが縦長の長方形となり、前記中央エリアの左側および右側のエリアでは、バウンディングボックスが横長の長方形となる、ように設定されていてもよい。
 バウンディングボックスのサイズに関する基準は、バウンディングボックスの面積の基準を含んでもよい。魚眼画像上の位置に応じて、魚眼カメラから人体までの距離が変わるため、バウンディングボックスの面積が変化するからである。例えば、前記面積の基準は、魚眼画像の中心に近いエリアほど面積が大きくなるように設定されていてもよい。
 前記誤検出判定部は、誤検出と判定された人体候補を前記検出結果から除外してもよい。あるいは、前記検出結果が、検出された人体候補それぞれの信頼度の情報を含んでいる場合であれば、前記誤検出判定部は、誤検出と判定された人体候補の信頼度を下げてもよい。
 本発明の第二側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出ステップと、バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部を参照して、前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定ステップと、を有することを特徴とする人検出方法を提供する。
 本発明は、上記手段の少なくとも一部を有する人検出装置として捉えてもよいし、検出した人を認識(識別)する人認識装置、検出した人をトラッキングする人追跡装置、あるいは画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む人検出方法、人認識方法、人追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、魚眼画像から高速に且つ高精度に人を検出することができる。
図1は、本発明に係る人検出装置の適用例を示す図である。 図2は、魚眼画像とバウンディングボックスの例を示す図である。 図3は、人検出装置を備える監視システムの構成を示す図である。 図4は、人検出処理のフローチャートである。 図5は、人体検出部の検出結果の例を示す図である。 図6は、基準アスペクト比の例を示す図である。 図7は、アスペクト比に基づく誤検出判定のフローチャートである。 図8は、基準面積の例を示す図である。 図9は、面積に基づく誤検出判定のフローチャートである。
 <適用例>
 図1を参照して、本発明に係る人検出装置の適用例を説明する。人検出装置1は、検出対象エリア11の上方(例えば天井12など)に設置された魚眼カメラ10により得られた魚眼画像を解析して、検出対象エリア11内に存在する人13を検出する装置である。この人検出装置1は、例えば、オフィスや工場などにおいて、検出対象エリア11を通行する人13の検出、認識、追跡などを行う。図1の例では、魚眼画像から検出された4つの人体それぞれの領域が矩形のバウンディングボックス14で示されている。人検出装置1の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視などに利用される。
 魚眼カメラ10で検出対象エリア11を見下ろすように撮影した場合、魚眼カメラ10との位置関係に依存して人体の見え方(写り方)が大きく変わる。それゆえ、魚眼画像は、バウンディングボックス14の形状やサイズが画像上の検出位置に応じて変化するという特性をもつ。人検出装置1は、このような魚眼画像の特性を考慮し、検出された人体候補のバウンディングボックス14の形状やサイズの妥当性を検証するというシンプルな方法で誤検出判定を行うことによって、誤検出でないかどうかの判定を行う点に特徴の一つを有する。また、人検出装置1は、魚眼画像をそのまま(つまり、平面展開や歪み補正などの前処理を行わずに)人検出処理に用いる点にも特徴の一つを有する。
 <魚眼画像の特性>
 図2は、魚眼カメラ10から取り込まれた魚眼画像の例を示す。画像座標系は、魚眼画像の左下のコーナーを原点(0,0)とし、横方向右側にx軸、縦方向上側にy軸をとる。
 光軸が鉛直下向きになるように魚眼カメラ10を設置した場合、魚眼画像の中心には、魚眼カメラ10の真下に存在する人を頭頂部から観察した像が表れる。そして、魚眼画像の端にいくにしたがって俯角が小さくなり、人を斜め上方から観察した像が表れることとなる。また、魚眼画像中の人体は、足元が画像の中心側、頭部が画像の端側に位置し、かつ、画像の中心を通る放射状の線(図2の破線)に略平行となるような角度で写る。また、魚眼画像の中心は比較的歪みが小さいが、魚眼画像の端にいくにしたがって画像の歪みが大きくなる。
 符号14a~14fは、魚眼画像中の人体の領域を囲むように配置されたバウンディングボックスを示す。本実施形態では、画像処理の便宜から、x軸またはy軸と平行な四辺から構成される矩形のバウンディングボックスが用いられる。
 図2に示すように、魚眼画像の中央エリアに存在するバウンディングボックス(例えば、14a)は略正方形となる。また、中央エリアに対し斜め45度にあるエリアに存在するバウンディングボックス(例えば、14b、14c)も略正方形となる。中央エリアの上側および下側のエリアに存在するバウンディングボックス(例えば、14d)は縦長の長方形(y軸に平行な長辺をもつ長方形)となり、画像の中心に近いほど正方形に近づき、画像の中心から離れるほど縦長になる。中央エリアの左側および右側のエリアに存在するバウンディングボックス(例えば、14e、14f)は横長の長方形(x軸に平行な長辺をもつ長方形)となり、画像の中心に近いほど正方形に近づき、画像の中心から離れるほど横長になる。
 このように、魚眼画像は、画像中心を基準とした方位と距離に依存してバウンディングボックスの形状(例えば、アスペクト比)が変化する、という特性を有する。魚眼画像上の位置またはエリアごとのバウンディングボックスのアスペクト比は、魚眼カメラ10の光学特性、魚眼カメラ10と検出対象エリア11の位置関係、および、平均的な人体のサイズを基に、幾何学的に計算(予測)することが可能である。
 また、図2に示すように、人体の写る大きさは、魚眼画像の中心が最も大きく、端にいくほど小さくなる。すなわち、魚眼画像は、画像中心を基準とした距離に依存してバウンディングボックスのサイズ(例えば、面積)が変化する(距離が遠くなるほどサイズが小さくなる)、という特性を有する。魚眼画像上の位置またはエリアごとのバウンディングボックスの面積についても、魚眼カメラ10の光学特性、魚眼カメラ10と検出対象エリア11の位置関係、および、平均的な人体のサイズを基に、幾何学的に計算(予測)することが可能である。
 <監視システム>
 図3を参照して、本発明の実施形態を説明する。図3は、本発明の実施形態に係る人検出装置を適用した監視システムの構成を示すブロック図である。監視システム2は、概略、魚眼カメラ10と人検出装置1とを備えている。
 魚眼カメラ10は、魚眼レンズを含む光学系と撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。魚眼カメラ10は、例えば図1に示すように、検出対象エリア11の天井12などに、光軸を鉛直下向きにした状態で設置され、検出対象エリア11の全方位(360度)の画像を撮影するとよい。魚眼カメラ10は人検出装置1に対し有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で接続され、魚眼カメラ10で撮影された画像データは人検出装置1に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、10fps(1秒あたり10枚)で取り込まれるモノクロ画像を用いることを想定している。
 本実施形態の人検出装置1は、画像入力部20、人体検出部21、記憶部23、基準記憶部24、誤検出判定部25、出力部26を有している。画像入力部20は、魚眼カメラ10から画像データを取り込む機能を有する。取り込まれた画像データは人体検出部21に引き渡される。この画像データは記憶部23に格納されてもよい。人体検出部21は、人体を検出するアルゴリズムを用いて、魚眼画像から人体候補を検出する機能を有する。人体検出辞書22は、魚眼画像に表れる人体の画像特徴があらかじめ登録されている辞書である。記憶部23は、魚眼画像、検出結果などを記憶する機能を有する。基準記憶部24は、バウンディングボックスの形状および/またはサイズに関する基準(予測値または標準値とも呼ぶ)を記憶する機能を有する。この基準は、監視システム2の稼働に先立ち(例えば、監視システム2の工場出荷時、設置時、メンテナンス時などに)、あらかじめ設定される。誤検出判定部25は、人体検出部21の検出結果を検証し、誤検出の有無を判定する機能を有する。出力部26は、魚眼画像や検出結果などの情報を外部装置に出力する機能を有する。例えば、出力部26は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やFA装置に対し情報や制御信号を送信してもよい。
 人検出装置1は、例えば、CPU(プロセッサ)、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図3に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図3に示す構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、図3に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。
 <人検出処理>
 図4は、監視システム2による人検出処理のフローチャートである。図4に沿って人検出処理の全体的な流れを説明する。なお、図4のフローチャートは、1フレームの魚眼画像に対する処理を示している。10fpsで魚眼画像が入力される場合には、図4の処理が1秒間に10回実行されることとなる。
 まず、画像入力部20が魚眼カメラ10から1フレームの魚眼画像を入力する(ステップS40)。背景技術の欄で述べたように、従来は、魚眼画像の歪みを補正した平面展開画像を作成した後、検出や認識などの画像処理を行っていたが、本実施形態の監視システム2では、魚眼画像をそのまま(歪んだまま)検出や認識の処理に用いる。
 次に、人体検出部21が魚眼画像から人体を検出する(ステップS41)。魚眼画像内に複数の人が存在する場合には、複数の人体が検出される。また、多くの場合、人体ではない物体(例えば、扇風機、デスクチェア、コート掛けなど、形状や色が人体と紛らわしい物)が誤って検出される場合もある。このように人体検出部21の検出結果には人体ではない物体も含まれ得るため、この段階では「人体候補」と呼ぶ。検出結果には、例えば、検出された人体候補の領域を示すバウンディングボックスの情報と、検出の信頼度(人体であることの確からしさ)の情報とが含まれるとよい。バウンディングボックスの情報は、例えば、バウンディングボックスの中心座標(x,y)(人体候補の検出位置に相当)、高さh、幅wを含むとよい。検出結果は、記憶部23に格納される。
 図5は、人体検出部21の検出結果の例である。この例では、人体50、51、52、53の他、人体ではない物体54、55も人体候補として検出されてしまっている。符号50a~55aは、各人体候補のバウンディングボックスを示している。
 なお、人体検出にはどのようなアルゴリズムを用いてもよい。例えば、HoGやHaar-likeなどの画像特徴とブースティングを組み合わせた識別器を用いてもよいし、ディープラーニング(例えば、R-CNN、Fast R-CNN、YOLO、SSDなど)による人体認識を用いてもよい。本実施形態では、人体として人の全身を検出しているが、これに限らず、上半身など体の一部を検出対象としてもよい。
 次に、誤検出判定部25が、人体検出部21の検出結果に含まれるバウンディングボックス50a~55aのそれぞれについて、基準記憶部24に設定されている基準と比較することにより、誤検出の判定を行う(ステップS42)。図5の例では、バウンディングボックス54aと55aが条件を満たさないため、人体候補54と55が誤検出と判定される。誤検出判定の詳細は後述する。
 誤検出(つまり、人体でない)と判定された人体候補が発見された場合には(ステップS43のYES)、誤検出判定部25は、記憶部23に記憶されている検出結果を修正する(ステップS44)。具体的には、誤検出判定部25は、誤検出と判定された人体候補の情報を検出結果から除外してもよいし、あるいは、誤検出と判定された人体候補の信頼度を下げてもよい。最後に、出力部26が、検出結果を外部装置に出力する(ステップS45)。以上で1フレームの魚眼画像に対する処理が終了する。
 本実施形態の人検出処理によれば、魚眼画像をそのまま解析し、魚眼画像からダイレクトに人検出を行う。したがって、魚眼画像の平面展開や歪み補正といった前処理を省略でき、高速な人検出処理が可能である。魚眼画像をそのまま検出処理に用いる方法は、平面展開(歪み補正)した後に検出処理を行う方法に比べ、検出精度が低下するという課題があるが、本実施形態では、バウンディングボックスの形状やサイズの妥当性を検証することによって誤検出を排除するため、高精度な検出が実現できる。
 <誤検出判定>
 誤検出判定部25による誤検出判定の具体例を説明する。
 (1)アスペクト比に基づく判定
 前述のように、魚眼画像は、画像中心からの方位と距離に依存してバウンディングボックスのアスペクト比が変化する、という特性を有する。この特性は計算によりあらかじめ数値化できる。図6は、魚眼画像を8×8の64個の小エリアに分割し、小エリアごとのアスペクト比h/wを計算した例である(hはバウンディングボックスのy方向の高さ、wはバウンディングボックスのx方向の幅である。)。このように求めた小エリアごとのアスペクト比の基準値(以下「基準アスペクト比」と呼ぶ)を定義したテーブルを基準記憶部24に格納しておけばよい。図6に示すように、画像中心をとおりx軸およびy軸にそれぞれ平行なA軸およびB軸を考えたとき、基準アスペクト比はA軸およびB軸に関して対称な変化を示す。この対称性を利用し、基準記憶部24には、魚眼画像の1/4の象限のテーブル(例えば、図6の網掛け部分)のみを格納しておくだけでもよい。これによりメモリ容量を削減することができる。
 図7は、アスペクト比に基づく誤検出判定のフローチャートである。ステップS70にて、誤検出判定部25は、図4のステップS41で検出された人体候補の情報を記憶部23から読み込む。ステップS71にて、誤検出判定部25は、当該人体候補のバウンディングボックスのアスペクト比h/wを計算する。ステップS72にて、誤検出判定部25は、当該人体候補の検出位置(バウンディングボックスの中心座標)に対応する小エリアの基準アスペクト比を基準記憶部24から読み込む。ステップS73にて、誤検出判定部25は、人体候補のアスペクト比と基準アスペクト比を比較することによって、当該人体候補が人体であるか誤検出であるかを判定する。ここでは、例えば、人体候補のアスペクト比の基準アスペクト比に対する相対誤差REaが閾値Trea以下の場合に「人体」、相対誤差REaが閾値Treaより大きい場合に「誤検出」と判定する。
 例えば、図5の人体候補51のバウンディングボックス51aのアスペクト比が1.02、対応する基準アスペクト比が1.00である場合、
  相対誤差REa=|1.02-1.00|/1.00×100=2.0[%]
と求まる。例えば、閾値Trea=3%である場合、人体候補51は「人体」と判定される。一方、人体候補55のバウンディングボックス55aのアスペクト比が0.48、対応する基準アスペクト比が0.71である場合、
  相対誤差REa=|0.48-0.71|/0.71×100=32.4[%]
と求まり、REa>Treaであるため、人体候補55は「誤検出」と判定される。
 (2)面積に基づく判定
 前述のように、魚眼画像は、画像中心からの距離に依存してバウンディングボックスの面積が変化する、という特性を有する。この特性は計算によりあらかじめ数値化できる。図8は、魚眼画像を8×8の64個の小エリアに分割し、小エリアごとの面積(ピクセル数)を計算した例である。このように求めた小エリアごとの面積の基準値(以下「基準面積」と呼ぶ)を定義したテーブルを基準記憶部24に格納しておけばよい。図8に示すように、基準面積は画像中心に関して対称な変化を示す。この対称性を利用し、基準記憶部24には、魚眼画像の1/4の象限のテーブル(例えば、図8の網掛け部分)のみを格納しておくだけでもよい。これによりメモリ容量を削減することができる。
 図9は、面積に基づく誤検出判定のフローチャートである。ステップS90にて、誤検出判定部25は、図4のステップS41で検出された人体候補の情報を記憶部23から読み込む。ステップS91にて、誤検出判定部25は、当該人体候補のバウンディングボックスの面積を計算する。ステップS92にて、誤検出判定部25は、当該人体候補の検出位置(バウンディングボックスの中心座標)に対応する小エリアの基準面積を基準記憶部24から読み込む。ステップS93にて、誤検出判定部25は、人体候補の面積と基準面積を比較することによって、当該人体候補が人体であるか誤検出であるかを判定する。ここでは、例えば、人体候補の面積の基準面積に対する相対誤差REsが閾値Tres以下の場合に「人体」、相対誤差REsが閾値Tresより大きい場合に「誤検出」と判定する。
 例えば、図5の人体候補51のバウンディングボックス51aの面積が130、対応する基準面積が144である場合、
  相対誤差REs=|130-144|/144×100=9.7[%]
と求まる。例えば、閾値Tres=10%である場合、人体候補51は「人体」と判定される。一方、人体候補54のバウンディングボックス54aの面積が130、対応する基準面積が72である場合、
  相対誤差REs=|130-72|/72×100=80.6[%]
と求まり、REs>Tresであるため、人体候補54は「誤検出」と判定される。
 (3)アスペクト比と面積の両方に基づく判定
 上述した「(1)アスペクト比に基づく判定」と「(2)面積に基づく判定」を組み合わせることにより、誤検出判定の精度を向上してもよい。
 具体的な方法の一つとして、アスペクト比の誤差と面積の誤差を個別に評価し、両方とも肯定判定だった場合に「人体」、いずれか一方でも否定判定だった場合に「誤検出」という判定結果を出力してもよい。例えば、前述の相対誤差と閾値を用いて、
  REa≦Trea 且つ REs≦Tres ⇒ 人体
  REa>Trea 又は REs>Tres ⇒ 誤検出
のように判定してもよい。
 別の方法として、アスペクト比の誤差と面積誤差を統合した総合誤差を評価し、「人体」か「誤検出」かを判定してもよい。以下は、2つの相対誤差REa、REsを重み付け加算した総合誤差REを閾値Treと比較することで判定を行う例である。wa、wbは重みである。
  総合誤差RE=wa×REa+wb×REs
  RE≦Tre ⇒ 人体
  RE>Tre ⇒ 誤検出
 <その他>
 上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。例えば、図6や図8に示したテーブルの値、上記実施形態で示した閾値などはいずれも説明のための例示にすぎない。また、上記実施形態では、矩形のバウンディングボックスを例示したが、矩形以外の形態(多角形、楕円、自由図形など)のバウンディングボックスを用いてもよい。また、上記実施形態では、アスペクト比や面積の相対誤差を評価したが、代わりに絶対誤差を評価してもよい。その場合、アスペクト比の値をその最大値で正規化したり、面積の値を魚眼画像の面積で正規化しておくとよい。
 <付記1>
 (1)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13)を検出する人検出装置(1)であって、
 魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックス(14)を出力する人体検出部(21)と、
 バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部(24)と、
 前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定部(25)と、
を有することを特徴とする人検出装置(1)。
 (2)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人を検出する人検出方法であって、
 魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出ステップ(S41)と、
 バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部(24)を参照して、前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定ステップ(S42)と、
を有することを特徴とする人検出方法。
1:人検出装置
2:監視システム
10:魚眼カメラ
11:検出対象エリア
12:天井
13:人

Claims (9)

  1.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、
     魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出部と、
     バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部と、
     前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定部と、
    を有することを特徴とする人検出装置。
  2.  バウンディングボックスの形状に関する基準は、バウンディングボックスのアスペクト比の基準を含む
    ことを特徴とする請求項1に記載の人検出装置。
  3.  前記アスペクト比の基準は、
      魚眼画像の中央エリアおよび前記中央エリアに対し斜め45度にあるエリアでは、バウンディングボックスが略正方形となり、
      前記中央エリアの上側および下側のエリアでは、バウンディングボックスが縦長の長方形となり、
     前記中央エリアの左側および右側のエリアでは、バウンディングボックスが横長の長方形となる、ように設定されている
    ことを特徴とする請求項2に記載の人検出装置。
  4.  バウンディングボックスのサイズに関する基準は、バウンディングボックスの面積の基準を含む
    ことを特徴とする請求項1~3のいずれか1項に記載の人検出装置。
  5.  前記面積の基準は、魚眼画像の中心に近いエリアほど面積が大きくなるように設定されている
    ことを特徴とする請求項4に記載の人検出装置。
  6.  前記誤検出判定部は、誤検出と判定された人体候補を前記検出結果から除外する
    ことを特徴とする請求項1~5のいずれか1項に記載の人検出装置。
  7.  前記検出結果は、検出された人体候補それぞれの信頼度の情報を含んでおり、
     前記誤検出判定部は、誤検出と判定された人体候補の信頼度を下げる
    ことを特徴とする請求項1~5のいずれか1項に記載の人検出装置。
  8.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、
     魚眼画像から人体候補を検出し、検出結果として、検出された人体候補それぞれの魚眼画像上における領域を表すバウンディングボックスを出力する人体検出ステップと、
     バウンディングボックスの形状および/またはサイズに関する基準を、魚眼画像上の位置またはエリアごとに、あらかじめ記憶している基準記憶部を参照して、前記検出結果に含まれる前記人体候補のバウンディングボックスの形状および/またはサイズを、当該人体候補の検出位置に対応する前記基準と比較することによって、当該人体候補が誤検出であるか否かを判定する誤検出判定ステップと、
    を有することを特徴とする人検出方法。
  9.  請求項8に記載の人検出方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2019/043051 2018-12-27 2019-11-01 人検出装置および人検出方法 WO2020137160A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112019006463.0T DE112019006463T5 (de) 2018-12-27 2019-11-01 Personendetektionsvorrichtung und personendetektionsverfahren
US17/294,755 US11770504B2 (en) 2018-12-27 2019-11-01 Person detection device and person detection method
CN201980079231.7A CN113168693B (zh) 2018-12-27 2019-11-01 人检测装置以及人检测方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018245230A JP7188067B2 (ja) 2018-12-27 2018-12-27 人検出装置および人検出方法
JP2018-245230 2018-12-27

Publications (1)

Publication Number Publication Date
WO2020137160A1 true WO2020137160A1 (ja) 2020-07-02

Family

ID=71126503

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043051 WO2020137160A1 (ja) 2018-12-27 2019-11-01 人検出装置および人検出方法

Country Status (5)

Country Link
US (1) US11770504B2 (ja)
JP (1) JP7188067B2 (ja)
CN (1) CN113168693B (ja)
DE (1) DE112019006463T5 (ja)
WO (1) WO2020137160A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230413A1 (ja) * 2021-04-26 2022-11-03 オムロン株式会社 検出装置、検出装置の制御方法、学習済モデルを生成するモデル生成装置によるモデル生成方法、情報処理プログラム、および記録媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11869250B2 (en) * 2021-08-24 2024-01-09 GM Global Technology Operations LLC Systems and methods for detecting traffic objects
JP2024008196A (ja) * 2022-07-07 2024-01-19 オムロン株式会社 情報処理装置および情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210702A (ja) * 2014-04-28 2015-11-24 キヤノン株式会社 画像処理装置及び画像処理方法
WO2017182225A1 (en) * 2016-04-21 2017-10-26 Osram Gmbh Training method and detection method for object recognition

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855360B2 (en) * 2008-07-23 2014-10-07 Qualcomm Technologies, Inc. System and method for face tracking
CN102577347B (zh) * 2009-06-29 2015-09-23 博世安防系统有限公司 全方位智能自动巡视和态势感知的球形监视摄像机系统和方法
JP5810296B2 (ja) * 2011-06-07 2015-11-11 パナソニックIpマネジメント株式会社 画像表示装置及び画像表示方法
CN103854272B (zh) * 2012-11-28 2018-10-16 比亚迪股份有限公司 全景泊车系统自动找点匹配方法
JP2015104016A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体
KR101566784B1 (ko) * 2014-04-25 2015-11-13 주식회사 영신 산업용 및 건설용 중장비 접근감시 및 작동제어 시스템
EP2988248B1 (en) * 2014-07-22 2019-09-18 Canon Kabushiki Kaisha Image processing apparatus, image processing method, information processing apparatus, information processing method, and program
JP6381353B2 (ja) 2014-08-08 2018-08-29 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
CN104881866A (zh) * 2015-04-30 2015-09-02 长安通信科技有限责任公司 一种扩展小孔成像模型的鱼眼相机矫正与标定方法
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery
WO2020080037A1 (ja) * 2018-10-18 2020-04-23 パナソニックIpマネジメント株式会社 撮像装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210702A (ja) * 2014-04-28 2015-11-24 キヤノン株式会社 画像処理装置及び画像処理方法
WO2017182225A1 (en) * 2016-04-21 2017-10-26 Osram Gmbh Training method and detection method for object recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230413A1 (ja) * 2021-04-26 2022-11-03 オムロン株式会社 検出装置、検出装置の制御方法、学習済モデルを生成するモデル生成装置によるモデル生成方法、情報処理プログラム、および記録媒体

Also Published As

Publication number Publication date
CN113168693A (zh) 2021-07-23
JP2020107070A (ja) 2020-07-09
US20220019768A1 (en) 2022-01-20
US11770504B2 (en) 2023-09-26
JP7188067B2 (ja) 2022-12-13
CN113168693B (zh) 2024-04-30
DE112019006463T5 (de) 2021-09-16

Similar Documents

Publication Publication Date Title
WO2020184207A1 (ja) 物体追跡装置および物体追跡方法
US11113819B2 (en) Graphical fiducial marker identification suitable for augmented reality, virtual reality, and robotics
WO2020202865A1 (ja) 人検出装置および人検出方法
WO2020137160A1 (ja) 人検出装置および人検出方法
WO2020137193A1 (ja) 人検出装置および人検出方法
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
US11361587B2 (en) Age recognition method, storage medium and electronic device
US10496874B2 (en) Facial detection device, facial detection system provided with same, and facial detection method
JP2020149641A (ja) 物体追跡装置および物体追跡方法
WO2022091577A1 (ja) 情報処理装置および情報処理方法
TWI749370B (zh) 臉部辨識方法及其相關電腦系統
WO2020179638A1 (ja) 人検出装置および人検出方法
CN113646803B (zh) 人检测装置以及人检测方法
WO2021140844A1 (ja) 人体検出装置および人体検出方法
US20230386078A1 (en) Information processing apparatus, information processing method, and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19905445

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19905445

Country of ref document: EP

Kind code of ref document: A1