WO2020179638A1 - 人検出装置および人検出方法 - Google Patents

人検出装置および人検出方法 Download PDF

Info

Publication number
WO2020179638A1
WO2020179638A1 PCT/JP2020/008130 JP2020008130W WO2020179638A1 WO 2020179638 A1 WO2020179638 A1 WO 2020179638A1 JP 2020008130 W JP2020008130 W JP 2020008130W WO 2020179638 A1 WO2020179638 A1 WO 2020179638A1
Authority
WO
WIPO (PCT)
Prior art keywords
difference
person
image
fisheye
detection
Prior art date
Application number
PCT/JP2020/008130
Other languages
English (en)
French (fr)
Inventor
田中 清明
郁奈 辻
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Publication of WO2020179638A1 publication Critical patent/WO2020179638A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a technique for detecting a person using an image of a fisheye camera.
  • the image taken with the fisheye camera is greatly distorted. Therefore, when detecting a human body, face, etc. from an image of a fisheye camera (hereinafter referred to as a "fisheye image”), the fisheye image is expanded in a plane in advance to correct it to an image with less distortion, and then the detection is performed.
  • a method of subjecting to processing is common (see Patent Document 1).
  • the conventional technology has the following problems.
  • First there is a problem that the overall processing cost increases due to the pre-processing of expanding the fish-eye image on a plane. This makes real-time detection processing difficult and may cause a delay in device control, which is not preferable.
  • the second problem is that the image of a person or an object that exists at the boundary (image break) at the time of plane expansion, such as directly under the fisheye camera, is greatly deformed by the plane expansion process. Is divided, and there is a risk that it cannot be detected correctly.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for detecting a person from a fisheye image at high speed and with high accuracy.
  • the present invention adopts the following configuration.
  • the first aspect of the present invention is a person detection device that detects a person existing in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a person from a difference generator that generates a difference image representing a difference between consecutive frames from a moving image that is a fisheye image, and one or more pixel groups in the difference image in which the difference is larger than a threshold value. It has a first person detection unit for detecting a group of pixels to be used, and the difference generation unit uses three or more consecutive frames for a position or area in which a person appears relatively small in the fisheye image.
  • the difference image is generated so that a sum of a plurality of the differences obtained as a result is represented.
  • the second aspect of the present invention is a person detection device that detects a person existing in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a person from a difference generator that generates a difference image representing a difference between consecutive frames from a moving image that is a fisheye image, and one or more pixel groups in the difference image in which the difference is larger than a threshold value.
  • a first human detection unit that detects a pixel group that is configured to detect a group of pixels, and the difference generation unit displays a value obtained by amplifying the difference for a position or area in which a person appears relatively small in the fisheye image.
  • a third aspect of the present invention is a person detection device that detects a person existing in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a person detection device characterized by using a threshold.
  • the “fisheye camera” is a camera equipped with a fisheye lens, and is a camera capable of shooting at a super wide angle compared to a normal camera. Omnidirectional cameras and spherical cameras are also types of fisheye cameras.
  • the fisheye camera may be installed so as to look down on the detection target area from above the detection target area.
  • the optical axis of the fisheye camera is installed so as to face vertically downward, but the optical axis of the fisheye camera may be tilted with respect to the vertical direction.
  • the present invention provides a high accuracy by a simple method of making a difference represented by a difference image more easily exceed a threshold than a position or area where a person appears relatively small in a fisheye image, compared to other portions. It is possible to realize a simple process for detecting a person. Moreover, since preprocessing such as plane development of the fisheye image is not required, high-speed processing can be realized.
  • the difference generation unit may generate the difference image using more frames as the distance from the center of the fisheye image increases.
  • the difference generation unit may generate the difference image by amplifying the difference with a higher amplification rate as the distance from the center of the fisheye image increases.
  • the first human detection unit may use a smaller threshold value as the distance from the center of the fish-eye image increases.
  • the human detection device is detected by a second human detection unit that detects a pixel group corresponding to a person from the fisheye image and the first human detection unit by a method different from that of the first human detection unit. It may further have a narrowing unit for narrowing down a pixel group corresponding to a person from the pixel group based on the pixel group and the pixel group detected by the second person detection unit.
  • a fourth aspect of the present invention is a person detection method for detecting a person present in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a person detecting method wherein the difference image is generated so that a sum of a plurality of the differences is represented.
  • a fifth aspect of the present invention is a person detection method for detecting a person existing in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • Provide a method for detecting a person which comprises generating the difference image.
  • a sixth aspect of the present invention is a person detection method for detecting a person existing in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a method for detecting a person is provided.
  • the present invention may be regarded as a person detecting device having at least a part of the above means, and may be a person recognizing device for recognizing (identifying) a detected person, a person tracking device for tracking the detected person, or an image processing device, It may be regarded as a monitoring system. Further, the present invention may be understood as a person detecting method, a person recognizing method, a person tracking method, an image processing method, and a monitoring method including at least a part of the above processing. Further, the present invention can be regarded as a program for realizing such a method and a recording medium in which the program is recorded non-temporarily. The above means and processes can be combined with each other as much as possible to form the present invention.
  • a person can be detected at high speed and with high accuracy from a fisheye image.
  • FIG. 1 is a diagram showing an application example of the person detection device according to the present invention.
  • FIG. 2 is a diagram showing an example of a fisheye image.
  • FIG. 3 is a diagram showing an example of a difference image.
  • FIG. 4 is a diagram showing a configuration of a monitoring system including a person detection device.
  • FIG. 5 is a flowchart of the person detection process.
  • FIG. 6 is a diagram showing an example of frame number information.
  • FIG. 7 is a diagram showing a method of generating a difference image using the frame number information.
  • FIG. 8 is a diagram showing an example of amplification factor information.
  • FIG. 9 is a diagram showing a method of generating a difference image using amplification factor information.
  • FIG. 10 is a diagram showing an example of threshold information.
  • FIG. 11 is a diagram showing a method of detecting a human candidate pixel group using threshold information.
  • FIG. 12 is a diagram showing another configuration of the person detection device.
  • the person detection device 1 analyzes the fisheye image obtained by the fisheye camera 10 installed above the detection target area 11 (for example, the ceiling 12) to detect a person (person 13a) existing in the detection target area 11.
  • 13b) is a device for detecting.
  • the person detection device 1 detects, recognizes, and tracks a person passing through the detection target area 11, for example, in an office or factory.
  • the fisheye camera 10 obtains a moving image that is a fisheye image (the image of each frame of the moving image is a fisheye image).
  • the person detection device 1 generates a difference image representing a difference between consecutive frames from a moving image (fisheye image), and corresponds to a person from one or more pixel groups in the difference image having a difference larger than a threshold value.
  • the pixel group to be used is detected.
  • the detection result of the person detection device 1 is output to an external device, and is used for, for example, counting the number of people, controlling various devices such as lighting and air conditioning, and monitoring suspicious persons.
  • the fisheye image has a characteristic that the size of a person on the image changes according to the position on the image. Then, when the person moves with the same movement amount, the amount of change in the person's position on the fisheye image becomes smaller at the position or area where the person appears relatively smaller in the fisheye image than at other portions. Therefore, the difference image has a characteristic that the difference tends to be smaller than other parts at a position or area where a person appears relatively small in the fisheye image, and the difference is unlikely to exceed the threshold value.
  • the human detection device 1 takes into consideration the characteristics of such a difference image, and makes it easier for the difference to exceed the threshold value for a position or area where a person appears relatively small in the fisheye image than for other parts. It has one of the features in adopting the method. Further, the human detection device 1 is also characterized in that the fisheye image is used as it is (that is, without preprocessing such as plane expansion and distortion correction) for human detection processing.
  • FIG. 2 shows an example of a fisheye image captured from the fisheye camera 10.
  • the image coordinate system has the origin (0,0) at the lower left corner of the fisheye image, the x-axis on the right side in the horizontal direction, and the y-axis on the upper side in the vertical direction.
  • the size of a person is the largest at the center of the fisheye image, and decreases as the distance from the center increases.
  • the fisheye image has a characteristic that the size of a person's image changes depending on the distance with respect to the center of the image (the longer the distance, the smaller the size).
  • the position on the fish-eye image or the size of each area is determined by the optical characteristics of the fish-eye camera 10, the positional relationship between the fish-eye camera 10 and the detection target area 11, and the average size of the human body. Based on this, it is possible to calculate (predict) geometrically.
  • FIG. 3 shows an example of a difference image representing the difference between the current frame (current frame) and the previous frame (one frame before the current frame) of a moving image that is a fisheye image.
  • FIG. 3 also shows the distribution of differences in the value Y on the y-axis.
  • the farther from the center of the fisheye image when the human physique is the same), the smaller the size of the person on the fisheye image. Therefore, when a person moves with the same amount of movement, the amount of change in the position of the person on the fisheye image is the largest at the center of the fisheye image, and decreases as the distance from the center increases.
  • the difference between the pixels that make up a person is often small. Therefore, when the amount of change in the position of a person on the fisheye image is small, the difference between consecutive frames tends to be small. That is, the difference between consecutive frames is the largest at the center of the fisheye image and becomes smaller as the distance from the center increases.
  • the difference (difference between consecutive frames) changes depending on the distance with respect to the image center (the longer the distance, the smaller the difference; the longer the distance, the more difficult the difference exceeds the threshold). ), It has the characteristic of.
  • FIG. 4 is a block diagram showing the configuration of a monitoring system to which the person detecting device according to the embodiment of the present invention is applied.
  • the monitoring system 2 generally includes a fisheye camera 10 and a person detecting device 1.
  • the fish-eye camera 10 is an imaging device having an optical system including a fish-eye lens and an imaging device (image sensor such as CCD or CMOS). As shown in FIG. 1, for example, the fish-eye camera 10 is installed on the ceiling 12 or the like of the detection target area 11 with the optical axis oriented vertically downward, and displays an image in all directions (360 degrees) of the detection target area 11. You should take a picture.
  • the fisheye camera 10 is connected to the human detection device 1 by wire (USB cable, LAN cable, etc.) or wirelessly (WiFi, etc.), and the image data captured by the fisheye camera 10 is captured by the human detection device 1.
  • the image data may be either a monochrome image or a color image, and the resolution, frame rate, and format of the image data are arbitrary. In this embodiment, it is assumed that a monochrome image captured at 10 fps (10 images per second) is used.
  • the person detection device 1 of the present embodiment includes an image input unit 20, a difference generation unit 21, a person detection unit 22, a storage unit 23, and an output unit 24.
  • the image input unit 20 has a function of capturing image data (fisheye image of the current frame) from the fisheye camera 10.
  • the captured image data is passed to the difference generation unit 21.
  • This image data may be stored in the storage unit 23.
  • the difference generation unit 21 has a function of generating a difference image representing the difference between the current frame and the previous frame for each pixel.
  • the difference generation unit 21 may have a function of storing a plurality of frames up to the current frame, or the storage unit 23 stores a plurality of frames, and the difference generation unit 21 refers to the storage unit 23 to display a difference image. It may be generated.
  • the generated difference image is handed over to the person detection unit 22.
  • the person detection unit 22 has a function of detecting a pixel group corresponding to a person from one or more pixel groups having a difference larger than a threshold value in a difference image by using an algorithm for detecting a person.
  • the storage unit 23 has a function of storing a fisheye image, a detection result, and the like.
  • the output unit 24 has a function of outputting information such as a fisheye image and a detection result to an external device.
  • the output unit 24 may display information on a display as an external device, transfer information to a computer as an external device, or for a lighting device, an air conditioner, or an FA device as an external device. Information and control signals may be transmitted.
  • the human detection device 1 can be configured by, for example, a computer equipped with a CPU (processor), memory, storage, and the like.
  • a computer equipped with a CPU (processor), memory, storage, and the like.
  • the configuration shown in FIG. 4 is realized by loading the program stored in the storage into the memory and causing the CPU to execute the program.
  • a computer may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, a smartphone, or an embedded computer such as an onboard computer.
  • all or part of the configuration shown in FIG. 4 may be configured with an ASIC, FPGA, or the like.
  • all or part of the configuration shown in FIG. 4 may be realized by cloud computing or distributed computing.
  • FIG. 5 is a flowchart of a person detection process by the monitoring system 2. The overall flow of person detection processing will be described with reference to FIG. Note that the flowchart of FIG. 5 shows processing for one frame of fisheye image. When the fish-eye image is input at 10 fps, the processing of FIG. 5 is executed 10 times per second.
  • the image input unit 20 inputs a one-frame fisheye image from the fisheye camera 10 (step S50).
  • image processing such as detection and recognition is performed, but in the monitoring system 2 of the present embodiment, , The fisheye image is used as it is (distorted) for detection and recognition processing.
  • the difference generation unit 21 generates a difference image using a plurality of frames up to the current frame (frame input in step S50) (step S51). Then, the person detection unit 22 detects a pixel group consisting of one or more pixels whose difference is larger than the threshold value from the difference image generated in step S51 (step S52).
  • a pixel group whose difference is larger than the threshold value is referred to as a “human candidate pixel group”.
  • a plurality of people are present in the fisheye image, a plurality of person candidate pixel groups are detected.
  • steps S51 and S52 are performed so that the difference in the position or area far from the center of the fisheye image (the position or area in which a person appears relatively small in the fisheye image) exceeds the threshold more easily than other portions. (Details will be described later).
  • the person detection unit 22 detects a person pixel group (pixel group corresponding to a person) from one or more person candidate pixel groups detected in step S52 (step S53).
  • a plurality of person pixel groups are detected.
  • the method for detecting the human pixel group is not particularly limited, but for example, a human candidate pixel group whose difference from a predetermined size, a predetermined shape, or the like is equal to or less than a threshold value is detected as the human pixel group.
  • a human candidate pixel group whose difference from a predetermined size, a predetermined shape, or the like is equal to or less than a threshold value is detected as the human pixel group.
  • the appearance of a person changes according to the position on the image, so in the difference image, the size, shape, etc. of the human pixel group change according to the position on the image.
  • the detection result may include, for example, information on the detected region (human pixel group) and information on the reliability of detection (certainty of being a person).
  • the information of the area (human pixel group) may include, for example, the center coordinates (x, y) of the area, the height h, and the width w.
  • the detection result is stored in the storage unit 23.
  • the output unit 24 outputs the detection result to the external device (step S54). This completes the processing for the fisheye image of one frame.
  • the fisheye image is analyzed as it is, and the person is directly detected from the fisheye image. Therefore, preprocessing such as plane expansion and distortion correction of the fisheye image can be omitted, and high-speed human detection processing is possible.
  • the method of using the fisheye image as it is for the detection process has a problem that the detection accuracy is lower than the method of performing the detection process after the plane expansion (distortion correction). In the present embodiment, since the difference easily exceeds the threshold value at a position or area far from the center of the fisheye image, highly accurate detection can be realized (details will be described later).
  • the difference generation unit 21 obtains a plurality of differences (continuous frames) obtained by using three or more continuous frames with respect to a position or area far from the center of the fisheye image.
  • the difference image is generated so that the sum of (difference between) is represented.
  • the difference generation unit 21 or the storage unit 23 stores in advance the frame number information indicating the number of frames used for generating the difference image for each position or area of the fisheye image.
  • FIG. 6 shows an example of frame number information.
  • the fisheye image is divided into 35 small areas of 7 ⁇ 5, and the number of frames used for generating the difference image is determined for each small area.
  • the difference generation unit 21 generates a difference image from a plurality of frames up to the current frame according to the frame number information.
  • the number and size of small areas are not particularly limited. Further, as shown in FIG. 6, when the A axis and the B axis which are parallel to the x axis and the y axis passing through the center of the image are considered, the number of frames may be determined to change symmetrically with respect to the A axis and the B axis. it can. Utilizing this symmetry, the difference generation unit 21 or the storage unit 23 may only store a table having a quadrant of 1/4 of the fisheye image (for example, a shaded portion in FIG. 6). As a result, the memory capacity can be reduced.
  • the N frame is the current frame and the N-1 frame is the previous frame.
  • the N-2 frame is a frame two frames before the N frame
  • the N-3 frame is a frame three frames before the N frame.
  • the person 13a is shown in the center of the fisheye image
  • the person 13b is shown in the edge of the fisheye image.
  • the difference image I1 obtained from the N-1 frame and the N frame many (or all) of the pixels corresponding to the person 13a exceed the threshold value, and the pixel group corresponding to the person 13a can be detected as the human pixel group. However, all (or many) pixels corresponding to the person 13b may not exceed the threshold value, and the pixel group corresponding to the person 13b may not be detected as the human pixel group.
  • the difference image I2 obtained from the N-2 frame and the N-1 frame and the difference image I3 obtained from the N-3 frame and the N-2 frame are the difference image I3 obtained from the N-3 frame and the N-2 frame.
  • the difference generation unit 21 represents the total of a plurality of differences obtained by using the four frames N-3 frame to N frame in the small area in which the person 13b is captured according to the frame number information of FIG. As a result, the difference image Idiff is generated. That is, the difference generation unit 21 generates the difference image Idiff so that the difference of the added image Isum obtained by adding the difference images I1 to I3 is represented in the small area where the person 13b is shown. The addition of the difference images I1 to I3 increases the size of the pixel group corresponding to the person 13b and the difference of which exceeds the threshold value. As a result, the pixel group corresponding to the person 13b can be detected with high accuracy as a human pixel group.
  • the difference generation unit 21 generates the difference image Idiff so that the difference value of the difference image I1 is displayed instead of the difference value of the added image Isum in the small area where the person 13a is shown.
  • the difference generation unit 21 generates a difference image such that a value obtained by amplifying the difference is represented for a position or area far from the center of the fisheye image.
  • the difference generation unit 21 or the storage unit 23 stores in advance amplification factor information indicating the difference amplification factor (gain value) for each position or area of the fisheye image.
  • FIG. 8 shows an example of amplification factor information.
  • the fisheye image is divided into 35 7 ⁇ 5 small areas, and the amplification factor is set for each small area.
  • a higher amplification rate is set as the distance from the center of the fisheye image increases.
  • the difference generation unit 21 multiplies the difference between frames by the amplification factor indicated by the amplification factor information to generate a difference image.
  • the difference amplification method is not particularly limited. For example, instead of the amplification factor, an addition value (offset value) to be added to the difference may be used.
  • the person 13a is shown in the center of the fisheye image
  • the person 13b is shown in the edge of the fisheye image.
  • the difference image I1 in FIG. 7 when the difference is not amplified, in the difference image obtained from the current frame and the previous frame, all (or many) pixels corresponding to the person 13b exceed the threshold value.
  • the pixel group corresponding to the person 13b may not be detected as the human pixel group.
  • the difference generation unit 21 amplifies the difference in the small area in which the person 13b is shown 1.7 times according to the amplification rate information in FIG.
  • the amplification of the difference increases the size of the pixel group corresponding to the person 13b and the difference of which exceeds the threshold value.
  • the pixel group corresponding to the person 13b can be detected with high accuracy as a human pixel group.
  • the amplification factor decreases as it approaches the center of the fisheye image, it is possible to suppress the pixel group exceeding the threshold value from becoming larger than necessary, and it is possible to suppress the decrease in the accuracy of human detection.
  • the difference generation unit 21 since the amplification factor of the small area in which the person 13a is reflected is 1.0, the difference generation unit 21 amplifies the difference in the small area in which the person 13a is reflected. do not do. As a result, the pixel group corresponding to the person 13a can be detected as a human pixel group with high accuracy.
  • the human detection unit 22 detects a human candidate pixel group for a position or area far from the center of the fisheye image using a threshold smaller than that of other portions.
  • the human detection unit 22 or the storage unit 23 stores in advance threshold information indicating the threshold value for detecting the human candidate pixel group for each position or area of the fisheye image.
  • FIG. 10 shows an example of threshold information.
  • the fisheye image is divided into 35 small areas of 7 ⁇ 5, and a threshold value is set for each small area.
  • the threshold value of each small area is indicated by [%], where the threshold value of the central small area is 100%.
  • a smaller threshold value is set as the distance from the center of the fisheye image increases.
  • the person detecting unit 22 detects the person candidate pixel group from the difference image using the threshold value indicated by the threshold information.
  • the person 13a is shown in the center of the fisheye image
  • the person 13b is shown in the edge of the fisheye image.
  • the difference image I1 in FIG. 7 when one threshold value is used, all (or many) pixels corresponding to the person 13b exceed the threshold value in the difference image obtained from the current frame and the previous frame.
  • the pixel group corresponding to the person 13b may not be detected as the human pixel group.
  • the person detecting unit 22 uses a value smaller than the threshold of the small area where the person 13a is shown as the threshold of the small area where the person 13b is shown.
  • the size of the pixel group corresponding to the person 13b and the difference exceeds the threshold increases.
  • the pixel group corresponding to the person 13b can be detected with high accuracy as a human pixel group.
  • the threshold value increases as the center of the fisheye image is approached, it is possible to prevent the pixel group that exceeds the threshold value from becoming unnecessarily large, prevent the accuracy of human detection from decreasing, and reduce the pixel group corresponding to the person 13a. It will be possible to detect as a human pixel group with high accuracy.
  • the person detecting device 1 may further include a person detecting unit 25 and a narrowing unit 26.
  • the human detection unit 25 detects a pixel group corresponding to a person from the fisheye image by a method different from that of the human detection unit 22.
  • the narrowing-down unit 26 narrows down a pixel group corresponding to a person from those pixel groups based on the pixel group detected by the human detection unit 22 and the pixel group detected by the human detection unit 25.
  • the narrowing unit 26 in the fish-eye image, the overlapping region in which the region corresponding to the pixel group detected by the human detection unit 22 and the region corresponding to the pixel group detected by the human detection unit 25 overlap, Narrow down the judgment results of the human domain.
  • the narrowing unit 26 is an overlapping region that corresponds to a pixel group whose reliability (probability of being a person) is a threshold value or more among the pixel groups detected by the human detection unit 22 and the human detection unit 25. Whether or not it may be determined as a human domain.
  • Any algorithm may be used for the person detection by the person detection unit 25.
  • a classifier that combines image features such as HoG and Har-like with boosting may be used, or human recognition by deep learning (for example, R-CNN, Fast R-CNN, YOLO, SSD, etc.) may be used. You may.
  • the whole body of the person may be the detection target, or a part of the body such as the upper body may be the detection target.
  • a human detection device (1) for detecting A difference generation unit (21) that generates a difference image representing a difference between consecutive frames from a moving image that is a fisheye image;
  • a first person detection unit (22) that detects a pixel group corresponding to a person from one or more pixel groups in which the difference is larger than a threshold value in the difference image.
  • the difference generation unit (21) is characterized in that the difference image is generated so that a value obtained by amplifying the difference is displayed at a position or area where a person appears relatively small in the fisheye image.
  • a human detection device (1) for detecting A difference generation unit (21) that generates a difference image representing a difference between consecutive frames from a moving image that is a fisheye image;
  • a first person detection unit (22) that detects a pixel group corresponding to a person from one or more pixel groups in which the difference is larger than a threshold value in the difference image.
  • a person (13a, 13b) existing in the detection target area (11) by analyzing the fisheye image obtained by the fisheye camera (10) installed above the detection target area (11) It is a method of detecting people who detect A difference generation step (S51) of generating a difference image representing a difference between consecutive frames from a moving image that is a fisheye image; A person detecting step (S52, S53) of detecting a pixel group corresponding to a person from one or more pixel groups in which the difference is larger than a threshold value in the difference image; Have In the difference generation step (S51), a total of a plurality of the differences obtained by using three or more consecutive frames is displayed for a position or area where a person appears relatively small in the fisheye image.
  • a method for detecting a person, characterized in that the difference image is generated.
  • a person (13a, 13b) existing in the detection target area (11) by analyzing the fisheye image obtained by the fisheye camera (10) installed above the detection target area (11) It is a method of detecting people who detect A difference generation step (S51) of generating a difference image representing a difference between consecutive frames from a moving image that is a fisheye image; A person detecting step (S52, S53) of detecting a pixel group corresponding to a person from one or more pixel groups in which the difference is larger than a threshold value in the difference image; Have In the difference generating step (S51), the difference image is generated so that a value obtained by amplifying the difference is represented for a position or area where a person appears relatively small in the fisheye image. Person detection method.
  • a person (13a, 13b) existing in the detection target area (11) by analyzing the fisheye image obtained by the fisheye camera (10) installed above the detection target area (11) It is a method of detecting people who detect A difference generation step (S51) of generating a difference image representing a difference between consecutive frames from a moving image that is a fisheye image; A person detection step (S52, S53) for detecting a pixel group corresponding to a person from one or more pixel groups in which the difference is larger than a threshold value in the difference image.
  • a threshold value smaller than other portions is used for a position or area where a person appears relatively small in the fisheye image.
  • Human detection device 2 Monitoring system 10: Fish-eye camera 11: Detection target area 12: Ceilings 13a, 13b: People

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置が、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、を有し、前記差分生成部が、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成する。

Description

人検出装置および人検出方法
 本発明は、魚眼カメラの画像を用いて人を検出する技術に関する。
 ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ(フィッシュアイレンズ)を搭載した超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる。)を利用することが多い。
 魚眼カメラで撮影された画像は大きく歪んでいる。それゆえ、魚眼カメラの画像(以後「魚眼画像」と呼ぶ。)から人体や顔などを検出する場合には、あらかじめ魚眼画像を平面展開することで歪みの少ない画像に補正した後に検出処理にかけるという方法が一般的である(特許文献1参照)。
特開2016-39539号公報
 しかしながら、従来技術では次のような問題がある。一つは、魚眼画像を平面展開するという前処理が発生することで、全体の処理コストが大きくなるという問題である。これは、リアルタイムの検出処理を困難にし、機器制御の遅延を招く可能性があり、好ましくない。二つ目の問題は、魚眼カメラの真下など、ちょうど平面展開時の境界(画像の切れ目)の位置に存在する人や物体の像が、平面展開の処理によって大きく変形してしまったり、像が分断されてしまったりして、正しく検出できない恐れがあることである。
 これらの問題を回避するため、本発明者らは、魚眼画像をそのまま(「平面展開せずに」という意味である。)検出処理にかけるというアプローチを研究している。しかし、通常のカメラ画像に比べ、魚眼画像の場合は、検出対象となる人の見え方(人体の傾き、歪み、大きさ)のバリエーションが増加するため、検出が困難となる。特に、BAやFAなどのアプリケーションを想定した場合、画像中に、イス、パーソナルコンピュータ、ごみ箱、扇風機、サーキュレーターなど、人体や頭部と誤り易い物体が多く存在するため、検出精度の低下を招きやすい。
 本発明は上記実情に鑑みなされたものであって、魚眼画像から高速に且つ高精度に人を検出する技術を提供することを目的とする。
 上記目的を達成するために本発明は、以下の構成を採用する。
 本発明の第一側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、を有し、前記差分生成部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成することを特徴とする人検出装置を提供する。
 本発明の第二側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、を有し、前記差分生成部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成することを特徴とする人検出装置を提供する。
 本発明の第三側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、を有し、前記第1の人検出部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いることを特徴とする人検出装置を提供する。
 「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラや全天球カメラも魚眼カメラの一種である。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。
 本発明は、魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも、差分画像によって表された差分が閾値を超えやすくなるようにするというシンプルな方法により、高精度な人検出を簡易な処理で実現することができる。しかも、魚眼画像を平面展開するなどの前処理が不要なため、高速な処理が実現できる。
 前記差分生成部は、前記魚眼画像の中心から遠いほど多くのフレームを用いて前記差分画像を生成してもよい。前記差分生成部は、前記魚眼画像の中心から遠いほど高い増幅率で前記差分を増幅して、前記差分画像を生成してもよい。前記第1の人検出部は、前記魚眼画像の中心から遠いほど小さい閾値を用いてもよい。人検出装置は、前記第1の人検出部とは異なる方法で、前記魚眼画像から人に対応する画素群を検出する第2の人検出部と、前記第1の人検出部で検出された画素群と、前記第2の人検出部で検出された画素群とに基づいて、それらの画素群から人に対応する画素群を絞り込む絞り込み部と、をさらに有してもよい。
 本発明の第四側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、を有し、前記差分生成ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成することを特徴とする人検出方法を提供する。
 本発明の第五側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、を有し、前記差分生成ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成することを特徴とする人検出方法を提供する。
 本発明の第六側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、を有し、前記人検出ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いることを特徴とする人検出方法を提供する。
 本発明は、上記手段の少なくとも一部を有する人検出装置として捉えてもよいし、検出した人を認識(識別)する人認識装置、検出した人をトラッキングする人追跡装置、あるいは画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む人検出方法、人認識方法、人追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、魚眼画像から高速に且つ高精度に人を検出することができる。
図1は、本発明に係る人検出装置の適用例を示す図である。 図2は、魚眼画像の例を示す図である。 図3は、差分画像の例を示す図である。 図4は、人検出装置を備える監視システムの構成を示す図である。 図5は、人検出処理のフローチャートである。 図6は、フレーム数情報の例を示す図である。 図7は、フレーム数情報を用いた差分画像の生成方法を示す図である。 図8は、増幅率情報の例を示す図である。 図9は、増幅率情報を用いた差分画像の生成方法を示す図である。 図10は、閾値情報の例を示す図である。 図11は、閾値情報を用いた人候補画素群の検出方法を示す図である。 図12は、人検出装置の他の構成を示す図である。
 <適用例>
 図1を参照して、本発明に係る人検出装置の適用例を説明する。人検出装置1は、検出対象エリア11の上方(例えば天井12など)に設置された魚眼カメラ10により得られた魚眼画像を解析して、検出対象エリア11内に存在する人(人13a,13b)を検出する装置である。この人検出装置1は、例えば、オフィスや工場などにおいて、検出対象エリア11を通行する人の検出、認識、追跡などを行う。図1の例では、魚眼カメラ10により、魚眼画像である動画が得られる(動画の各フレームの画像が魚眼画像である)。そして、人検出装置1は、連続するフレーム間の差分を表す差分画像を動画(魚眼画像)から生成し、差分画像における、差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する。人検出装置1の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視などに利用される。
 魚眼カメラ10で検出対象エリア11を見下ろすように撮影した場合、魚眼カメラ10との位置関係に依存して人の見え方(写り方)が大きく変わる。それゆえ、魚眼画像は、画像上での人のサイズが画像上の位置に応じて変化するという特性をもつ。そして、人が同じ移動量で移動した場合、魚眼画像上での人の位置の変化量は、魚眼画像で人が相対的に小さく写る位置またはエリアで、他の部分よりも小さくなる。それゆえ、差分画像は、魚眼画像で人が相対的に小さく写る位置またはエリアにおいて、他の部分よりも、差分が小さくなりやすく、差分が閾値を超えにくいという特性をもつ。人検出装置1は、このような差分画像の特性を考慮し、魚眼画像で人が相対的に小さく写る位置またはエリアについて他の部分よりも差分が閾値を超えやすくなるようにするというシンプルな方法を採用する点に特徴の一つを有する。また、人検出装置1は、魚眼画像をそのまま(つまり、平面展開や歪み補正などの前処理を行わずに)人検出処理に用いる点にも特徴の一つを有する。
 <魚眼画像の特性>
 図2は、魚眼カメラ10から取り込まれた魚眼画像の例を示す。画像座標系は、魚眼画像の左下のコーナーを原点(0,0)とし、横方向右側にx軸、縦方向上側にy軸をとる。
 光軸が鉛直下向きになるように魚眼カメラ10を設置した場合、人の写る大きさは、魚眼画像の中心で最も大きく、中心から遠ざかるにつれ小さくなる。このように、魚眼画像は、画像中心を基準とした距離に依存して人の写る大きさが変化する(距離が長いほどサイズが小さい)、という特性を有する。魚眼画像上の位置またはエリアごとのサイズ(人の写る大きさ)は、魚眼カメラ10の光学特性、魚眼カメラ10と検出対象エリア11の位置関係、および、平均的な人体のサイズを基に、幾何学的に計算(予測)することが可能である。
 <差分画像の特性>
 図3は、魚眼画像である動画の現フレーム(現在のフレーム)と前フレーム(現フレームの1つ前のフレーム)との差分を表す差分画像の例を示す。図3には、y軸の値Yにおける差分の分布も示されている。
 上述したように、(人の体格が同じである場合、)魚眼画像の中心から遠いほど、魚眼画像上での人のサイズは小さい。このため、人が同じ移動量で移動した場合、魚眼画像上での人の位置の変化量は、魚眼画像の中心で最も大きく、中心から遠ざかるにつれ小さくなる。そして、魚眼画像では、人を構成する画素間の差分は小さいことが多い。このため、魚眼画像上での人の位置の変化量が小さい場合、連続するフレーム間の差分は小さくなりやすい。つまり、連続するフレーム間の差分は、魚眼画像の中心で最も大きく、中心から遠ざかるにつれ小さくなる。このように、差分画像は、画像中心を基準とした距離に依存して差分(連続するフレーム間の差分)が変化する(距離が長いほど差分が小さい;距離が長いほど差分が閾値を超えにくい)、という特性を有する。
 <監視システム>
 図4を参照して、本発明の実施形態を説明する。図4は、本発明の実施形態に係る人検出装置を適用した監視システムの構成を示すブロック図である。監視システム2は、概略、魚眼カメラ10と人検出装置1とを備えている。
 魚眼カメラ10は、魚眼レンズを含む光学系と撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。魚眼カメラ10は、例えば図1に示すように、検出対象エリア11の天井12などに、光軸を鉛直下向きにした状態で設置され、検出対象エリア11の全方位(360度)の画像を撮影するとよい。魚眼カメラ10は人検出装置1に対し有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で接続され、魚眼カメラ10で撮影された画像データは人検出装置1に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、10fps(1秒あたり10枚)で取り込まれるモノクロ画像を用いることを想定している。
 本実施形態の人検出装置1は、画像入力部20、差分生成部21、人検出部22、記憶部23、及び、出力部24を有する。画像入力部20は、魚眼カメラ10から画像データ(現フレームの魚眼画像)を取り込む機能を有する。取り込まれた画像データは差分生成部21に引き渡される。この画像データは記憶部23に格納されてもよい。差分生成部21は、画素ごとに現フレームと前フレームの間の差分を表す差分画像を生成する機能を有する。現フレームまでの複数のフレームを記憶する機能を差分生成部21が有してもよいし、複数のフレームを記憶部23が記憶し、差分生成部21が記憶部23を参照して差分画像を生成してもよい。生成された差分画像は、人検出部22に引き渡される。人検出部22は、人を検出するアルゴリズムを用いて、差分画像における、差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する機能を有する。記憶部23は、魚眼画像、検出結果などを記憶する機能を有する。出力部24は、魚眼画像や検出結果などの情報を外部装置に出力する機能を有する。例えば、出力部24は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やFA装置に対し情報や制御信号を送信してもよい。
 人検出装置1は、例えば、CPU(プロセッサ)、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図4に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図4に示す構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、図4に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。
 <人検出処理>
 図5は、監視システム2による人検出処理のフローチャートである。図5に沿って人検出処理の全体的な流れを説明する。なお、図5のフローチャートは、1フレームの魚眼画像に対する処理を示している。10fpsで魚眼画像が入力される場合には、図5の処理が1秒間に10回実行されることとなる。
 まず、画像入力部20が、魚眼カメラ10から1フレームの魚眼画像を入力する(ステップS50)。背景技術の欄で述べたように、従来は、魚眼画像の歪みを補正した平面展開画像を作成した後、検出や認識などの画像処理を行っていたが、本実施形態の監視システム2では、魚眼画像をそのまま(歪んだまま)検出や認識の処理に用いる。
 次に、差分生成部21が、現フレーム(ステップS50で入力されたフレーム)までの複数のフレームを用いて差分画像を生成する(ステップS51)。そして、人検出部22が、ステップS51で生成された差分画像から、差分が閾値よりも大きい1つ以上の画素からなる画素群を検出する(ステップS52)。以後、差分が閾値よりも大きい画素群を「人候補画素群」と記載する。魚眼画像内に複数の人が存在する場合などでは、複数の人候補画素群が検出される。ステップS51,S52の処理は、魚眼画像の中心から遠い位置またはエリア(魚眼画像で人が相対的に小さく写る位置またはエリア)について他の部分よりも差分が閾値を超えやすくなるように行われる(詳細は後述する)。
 次に、人検出部22が、ステップS52で検出された1つ以上の人候補画素群から人画素群(人に対応する画素群)を検出する(ステップS53)。魚眼画像内に複数の人が存在する場合などでは、複数の人画素群が検出される。人画素群の検出方法は特に限定されないが、例えば、所定のサイズ、所定の形状、等との差分が閾値以下の人候補画素群が、人画素群として検出される。魚眼画像では人の写り方が画像上の位置に応じて変化するため、差分画像では人画素群のサイズ、形状、等が画像上の位置に応じて変化する。このため、所定のサイズ、所定の形状、等は、差分画像の位置またはエリアごとに定められる。検出結果には、例えば、検出された領域(人画素群)の情報と、検出の信頼度(人であることの確からしさ)の情報とが含まれるとよい。領域(人画素群)の情報は、例えば、領域の中心座標(x,y)、高さh、幅wを含むとよい。検出結果は、記憶部23に格納される。
 最後に、出力部24が、検出結果を外部装置に出力する(ステップS54)。以上で1フレームの魚眼画像に対する処理が終了する。
 本実施形態の人検出処理によれば、魚眼画像をそのまま解析し、魚眼画像からダイレクトに人検出を行う。したがって、魚眼画像の平面展開や歪み補正といった前処理を省略でき、高速な人検出処理が可能である。魚眼画像をそのまま検出処理に用いる方法は、平面展開(歪み補正)した後に検出処理を行う方法に比べ、検出精度が低下するという課題がある。本実施形態では、魚眼画像の中心から遠い位置またはエリアで差分が閾値を超えやすくなるようにするため、高精度な検出が実現できる(詳細は後述する)。
 <差分が閾値を超えやすくなるようにする方法>
 魚眼画像の中心から遠い位置またはエリア(魚眼画像で人が相対的に小さく写る位置またはエリア)について他の部分よりも差分が閾値を超えやすくなるようにする方法の具体例を説明する。
 (1)第1の方法
 第1の方法では、差分生成部21は、魚眼画像の中心から遠い位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の差分(連続するフレーム間の差分)の合計が表されるように、差分画像を生成する。
 具体的には、差分生成部21または記憶部23は、差分画像の生成に用いるフレームの数を魚眼画像の位置またはエリアごとに示すフレーム数情報を予め記憶する。図6は、フレーム数情報の一例を示す。図6では、魚眼画像が7×5の35個の小エリアに分割されており、差分画像の生成に用いるフレームの数が各小エリアに対して定められている。上述したように、魚眼画像の中心から遠いほど、連続するフレーム間の差分が閾値を超えにくい。このため、図6では、魚眼画像の中心から遠いほど多いフレーム数が定められている。そして、差分生成部21は、フレーム数情報に従って、現フレームまでの複数のフレームから差分画像を生成する。
 なお、小エリアの数やサイズは特に限定されない。また、図6に示すように、画像中心をとおりx軸およびy軸にそれぞれ平行なA軸およびB軸を考えたとき、フレーム数はA軸およびB軸に関して対称に変化するように定めることができる。この対称性を利用し、差分生成部21または記憶部23には、魚眼画像の1/4の象限のテーブル(例えば、図6の網掛け部分)のみを格納しておくだけでもよい。これによりメモリ容量を削減することができる。
 図7を用いて、より詳細に説明する。図7において、Nフレームは現フレームであり、N-1フレームは前フレームである。そして、N-2フレームは、Nフレームの2つ前のフレームであり、N-3フレームは、Nフレームの3つ前のフレームである。N-2~Nフレームでは、魚眼画像の中心部に人13aが写っており、魚眼画像の縁部に人13bが写っている。
 N-1フレームとNフレームから得られる差分画像I1では、人13aに対応する画素の多く(または全て)が閾値を超え、人13aに対応する画素群を人画素群として検出できる。しかしながら、人13bに対応する全て(または多く)の画素が閾値を超えず、人13bに対応する画素群を人画素群として検出できないことがある。N-2フレームとN-1フレームから得られる差分画像I2、及び、N-3フレームとN-2フレームから得られる差分画像I3についても同様である。
 そこで、差分生成部21は、図6のフレーム数情報に従い、人13bが写っている小エリアで、N-3フレーム~Nフレームの4つのフレームを用いて得られる複数の差分の合計が表されるように、差分画像Idiffを生成する。すなわち、差分生成部21は、人13bが写っている小エリアで、差分画像I1~I3を足し合わせた加算画像Isumの差分が表されるように、差分画像Idiffを生成する。差分画像I1~I3の足し合わせにより、人13bに対応し且つ差分が閾値を超える画素群のサイズが増す。これにより、人13bに対応する画素群を人画素群として高精度に検出できるようになる。
 なお、加算画像Isumでは、人13aに対応し且つ差分が閾値を超える画素群が非常に大きい。そして、閾値を超える画素群が必要以上に大きいことは、人検出の精度を低下させる。このため、加算画像Isumからでは、人13aに対応する画素群を人画素群として検出できないことがある。そこで、差分生成部21は、人13aが写っている小エリアで、加算画像Isumの差分値ではなく、差分画像I1の差分値が表されるように、差分画像Idiffを生成する。そうすることで、閾値を超える画素群が必要以上に大きくなることを抑制でき、人検出の精度低下を抑制でき、人13aに対応する画素群を人画素群として高精度に検出できるようになる。
 (2)第2の方法
 第2の方法では、差分生成部21は、魚眼画像の中心から遠い位置またはエリアについて、差分を増幅した値が表されるように、差分画像を生成する。
 具体的には、差分生成部21または記憶部23は、差分の増幅率(ゲイン値)を魚眼画像の位置またはエリアごとに示す増幅率情報を予め記憶する。図8は、増幅率情報の一例を示す。図8では、魚眼画像が7×5の35個の小エリアに分割されており、各小エリアに対して増幅率が定められている。上述したように、魚眼画像の中心から遠いほど、連続するフレーム間の差分が閾値を超えにくい。このため、図8では、魚眼画像の中心から遠いほど高い増幅率が定められている。そして、差分生成部21は、増幅率情報によって示された増幅率をフレーム間の差分に乗算して、差分画像を生成する。なお、差分の増幅方法は特に限定されない。例えば、増幅率の代わりに、差分に加算する加算値(オフセット値)が使用されてもよい。
 図9を用いて、より詳細に説明する。前フレームと現フレームでは、魚眼画像の中心部に人13aが写っており、魚眼画像の縁部に人13bが写っている。図7の差分画像I1を用いて説明したように、差分の増幅を行わない場合、現フレームと前フレームから得られる差分画像では、人13bに対応する全て(または多く)の画素が閾値を超えず、人13bに対応する画素群を人画素群として検出できないことがある。
 そこで、差分生成部21は、図8の増幅率情報に従い、人13bが写っている小エリアの差分を1.7倍に増幅する。差分の増幅により、人13bに対応し且つ差分が閾値を超える画素群のサイズが増す。これにより、人13bに対応する画素群を人画素群として高精度に検出できるようになる。
 また、魚眼画像の中心に近づくにつれ増幅率が低下することにより、閾値を超える画素群が必要以上に大きくなることを抑制でき、人検出の精度低下を抑制できる。具体的には、図8の増幅率情報では、人13aが写っている小エリアの増幅率が1.0であるため、差分生成部21は、人13aが写っている小エリアの差分を増幅しない。これにより、人13aに対応する画素群を人画素群として高精度に検出できるようになる。
 (3)第3の方法
 第3の方法では、人検出部22は、魚眼画像の中心から遠い位置またはエリアについて、他の部分よりも小さい閾値を用いて、人候補画素群を検出する。
 具体的には、人検出部22または記憶部23は、人候補画素群の検出のための閾値を魚眼画像の位置またはエリアごとに示す閾値情報を予め記憶する。図10は、閾値情報の一例を示す。図10では、魚眼画像が7×5の35個の小エリアに分割されており、各小エリアに対して閾値が定められている。図10では、中心の小エリアの閾値を100%として、各小エリアの閾値が[%]で示されている。上述したように、魚眼画像の中心から遠いほど、連続するフレーム間の差分が閾値を超えにくい。このため、図10では、魚眼画像の中心から遠いほど小さい閾値が定められている。そして、人検出部22は、閾値情報によって示された閾値を用いて、差分画像から人候補画素群を検出する。
 図11を用いて、より詳細に説明する。前フレームと現フレームでは、魚眼画像の中心部に人13aが写っており、魚眼画像の縁部に人13bが写っている。図7の差分画像I1を用いて説明したように、1つの閾値を用いた場合、現フレームと前フレームから得られる差分画像では、人13bに対応する全て(または多く)の画素が閾値を超えず、人13bに対応する画素群を人画素群として検出できないことがある。
 そこで、人検出部22は、図10の閾値情報に従い、人13bが写っている小エリアの閾値として、人13aが写っている小エリアの閾値よりも小さい値を用いる。小さい閾値を用いることにより、人13bに対応し且つ差分が閾値を超える画素群のサイズが増す。これにより、人13bに対応する画素群を人画素群として高精度に検出できるようになる。
 また、魚眼画像の中心に近づくにつれ閾値が大きくなることにより、閾値を超える画素群が必要以上に大きくなることを抑制でき、人検出の精度低下を抑制でき、人13aに対応する画素群を人画素群として高精度に検出できるようになる。
 <その他>
 上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。例えば、図6,8,10に示したテーブルの値などはいずれも説明のための例示にすぎない。また、第1~第3の方法を適宜組み合わせてもよい。具体的には、差分画像の生成に用いるフレームの数を適宜変更する処理、差分を適宜増幅しする処理、及び、閾値を適宜変更する処理のうちの2つまたは3つが行われてもよい。
 また、図12に示すように、人検出装置1は、人検出部25と絞り込み部26をさらに有してもよい。人検出部25は、人検出部22とは異なる方法で魚眼画像から人に対応する画素群を検出する。そして、絞り込み部26は、人検出部22で検出された画素群と、人検出部25で検出された画素群とに基づいて、それらの画素群から人に対応する画素群を絞り込む。例えば、絞り込み部26は、魚眼画像のうち、人検出部22で検出された画素群に対応する領域と、人検出部25で検出された画素群に対応する領域とが重なり合う重畳領域に、人の領域の判断結果を絞り込む。絞り込み部26は、人検出部22や人検出部25で検出された画素群のうち、信頼度(人であることの確からしさ)が閾値以上の画素群に対応する領域を、重畳領域であるか否かにかかわらずに、人の領域として決定してもよい。
 なお、人検出部25による人検出にはどのようなアルゴリズムを用いてもよい。例えば、HoGやHaar-likeなどの画像特徴とブースティングを組み合わせた識別器を用いてもよいし、ディープラーニング(例えば、R-CNN、Fast R-CNN、YOLO、SSDなど)による人認識を用いてもよい。人の全身を検出対象としてもよいし、上半身など体の一部を検出対象としてもよい。
 <付記>
 (1)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出装置(1)であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部(21)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部(22)と、
を有し、
 前記差分生成部(21)は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成する
ことを特徴とする人検出装置(1)。
 (2)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出装置(1)であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部(21)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部(22)と、
を有し、
 前記差分生成部(21)は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成する
ことを特徴とする人検出装置(1)。
 (3)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出装置(1)であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部(21)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部(22)と、
を有し、
 前記第1の人検出部(22)は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いる
ことを特徴とする人検出装置(1)。
 (4)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出方法であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップ(S51)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップ(S52,S53)と、
を有し、
 前記差分生成ステップ(S51)では、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成する
ことを特徴とする人検出方法。
 (5)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出方法であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップ(S51)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップ(S52,S53)と、
を有し、
 前記差分生成ステップ(S51)では、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成する
ことを特徴とする人検出方法。
 (6)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13a,13b)を検出する人検出方法であって、
 魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップ(S51)と、
 前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップ(S52,S53)と、
を有し、
 前記人検出ステップ(S52)では、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いる
ことを特徴とする人検出方法。
1:人検出装置
2:監視システム
10:魚眼カメラ
11:検出対象エリア
12:天井
13a,13b:人

Claims (11)

  1.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、
    を有し、
     前記差分生成部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成する
    ことを特徴とする人検出装置。
  2.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、
    を有し、
     前記差分生成部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成する
    ことを特徴とする人検出装置。
  3.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成部と、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する第1の人検出部と、
    を有し、
     前記第1の人検出部は、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いる
    ことを特徴とする人検出装置。
  4.  前記差分生成部は、前記魚眼画像の中心から遠いほど多くのフレームを用いて前記差分画像を生成する
    ことを特徴とする請求項1に記載の人検出装置。
  5.  前記差分生成部は、前記魚眼画像の中心から遠いほど高い増幅率で前記差分を増幅して、前記差分画像を生成する
    ことを特徴とする請求項2に記載の人検出装置。
  6.  前記第1の人検出部は、前記魚眼画像の中心から遠いほど小さい閾値を用いる
    ことを特徴とする請求項3に記載の人検出装置。
  7.  前記第1の人検出部とは異なる方法で、前記魚眼画像から人に対応する画素群を検出する第2の人検出部と、
     前記第1の人検出部で検出された画素群と、前記第2の人検出部で検出された画素群とに基づいて、それらの画素群から人に対応する画素群を絞り込む絞り込み部と、
    をさらに有する
    ことを特徴とする請求項1~6のいずれか1項に記載の人検出装置。
  8.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、
    を有し、
     前記差分生成ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、連続する3つ以上のフレームを用いて得られる複数の前記差分の合計が表されるように、前記差分画像を生成する
    ことを特徴とする人検出方法。
  9.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、
    を有し、
     前記差分生成ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、前記差分を増幅した値が表されるように、前記差分画像を生成する
    ことを特徴とする人検出方法。
  10.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、
     魚眼画像である動画から、連続するフレーム間の差分を表す差分画像を生成する差分生成ステップと、
     前記差分画像における、前記差分が閾値よりも大きい1つ以上の画素群から、人に対応する画素群を検出する人検出ステップと、
    を有し、
     前記人検出ステップでは、前記魚眼画像で人が相対的に小さく写る位置またはエリアについて、他の部分よりも小さい閾値を用いる
    ことを特徴とする人検出方法。
  11.  請求項8~10のいずれか1項に記載の人検出方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2020/008130 2019-03-06 2020-02-27 人検出装置および人検出方法 WO2020179638A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019040867A JP7338174B2 (ja) 2019-03-06 2019-03-06 物体検出装置および物体検出方法
JP2019-040867 2019-03-06

Publications (1)

Publication Number Publication Date
WO2020179638A1 true WO2020179638A1 (ja) 2020-09-10

Family

ID=72338637

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/008130 WO2020179638A1 (ja) 2019-03-06 2020-02-27 人検出装置および人検出方法

Country Status (2)

Country Link
JP (1) JP7338174B2 (ja)
WO (1) WO2020179638A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469085A (zh) * 2021-07-08 2021-10-01 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261868A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 魚眼レンズカメラ装置及びその画像歪み補正方法及び画像抽出方法
JP2014002454A (ja) * 2012-06-15 2014-01-09 Panasonic Corp 人物検出装置及び人物検出方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5748472B2 (ja) * 2010-12-15 2015-07-15 富士フイルム株式会社 オブジェクト判別装置、方法、及びプログラム
US20170011529A1 (en) * 2014-02-14 2017-01-12 Nec Corporation Video analysis system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261868A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 魚眼レンズカメラ装置及びその画像歪み補正方法及び画像抽出方法
JP2014002454A (ja) * 2012-06-15 2014-01-09 Panasonic Corp 人物検出装置及び人物検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469085A (zh) * 2021-07-08 2021-10-01 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备及存储介质
CN113469085B (zh) * 2021-07-08 2023-08-04 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP7338174B2 (ja) 2023-09-05
JP2020144607A (ja) 2020-09-10

Similar Documents

Publication Publication Date Title
WO2020184207A1 (ja) 物体追跡装置および物体追跡方法
WO2020202865A1 (ja) 人検出装置および人検出方法
WO2020137193A1 (ja) 人検出装置および人検出方法
US8928778B2 (en) Camera device, image processing system, image processing method and image processing program
JP5484184B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP5274216B2 (ja) 監視システム及び監視方法
JP2004227160A (ja) 侵入物体検出装置
WO2020137160A1 (ja) 人検出装置および人検出方法
US20110069155A1 (en) Apparatus and method for detecting motion
WO2020179638A1 (ja) 人検出装置および人検出方法
JP2009182624A (ja) 目標追尾装置
JP2004228770A (ja) 画像処理システム
JP2018197945A (ja) 障害物検出装置および障害物検出方法
US11763596B2 (en) Image capturing support apparatus, image capturing support method, and computer-readable recording medium
JP2021056899A (ja) 画像処理装置、画像処理方法およびプログラム
WO2021261141A1 (ja) 物体検出装置および物体検出方法
JP2019192155A (ja) 画像処理装置、撮影装置、画像処理方法およびプログラム
WO2020259603A1 (zh) 图像处理装置及图像处理方法
WO2023175669A1 (ja) 姿勢推定装置、姿勢推定システム、姿勢推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2021261125A1 (ja) 動体検出装置および動体検出方法
US20240071028A1 (en) Information processing device and information processing method
TW202314587A (zh) 物體偵測系統
KR20170014907A (ko) 지역적 방향 패턴을 이용한 장면 검출 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20765979

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20765979

Country of ref document: EP

Kind code of ref document: A1