WO2020137193A1 - 人検出装置および人検出方法 - Google Patents

人検出装置および人検出方法 Download PDF

Info

Publication number
WO2020137193A1
WO2020137193A1 PCT/JP2019/043977 JP2019043977W WO2020137193A1 WO 2020137193 A1 WO2020137193 A1 WO 2020137193A1 JP 2019043977 W JP2019043977 W JP 2019043977W WO 2020137193 A1 WO2020137193 A1 WO 2020137193A1
Authority
WO
WIPO (PCT)
Prior art keywords
head
human body
candidate
detection
detecting
Prior art date
Application number
PCT/JP2019/043977
Other languages
English (en)
French (fr)
Inventor
田中 清明
郁奈 辻
純平 松永
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to DE112019006414.2T priority Critical patent/DE112019006414T5/de
Priority to CN201980079319.9A priority patent/CN113168694B/zh
Priority to US17/294,810 priority patent/US11983951B2/en
Publication of WO2020137193A1 publication Critical patent/WO2020137193A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a technique of detecting a person using an image of a fisheye camera.
  • an application that automatically measures the "number”, "position”, and "movement line” of a person with an image sensor to optimally control equipment such as lighting and air conditioning. Is needed.
  • an ultra-wide-angle camera fisheye camera, omnidirectional camera, omnidirectional camera, etc.
  • fisheye lens fisheye lens
  • fisheye image Images taken with a fisheye camera are greatly distorted. Therefore, when detecting a human body or face from a fisheye camera image (hereinafter referred to as "fisheye image"), the fisheye image is flattened in advance to correct it to an image with less distortion and then detected.
  • the method of applying the treatment is common (see Patent Document 1).
  • the conventional technology has the following problems.
  • First there is a problem that the overall processing cost is increased due to the pre-processing of expanding the fish-eye image on a plane. This makes real-time detection processing difficult and may cause delay in device control, which is not preferable.
  • the second problem is that the image of a person or object that exists at the boundary (image break) at the time of plane expansion, such as directly below the fisheye camera, is greatly deformed by the plane expansion process. May be separated and may not be detected correctly.
  • the present inventors are studying an approach in which a fish-eye image is subjected to detection processing as it is (meaning “without plane expansion”).
  • detection processing meaning “without plane expansion”.
  • variations in the appearance (human body inclination, distortion, size) of a person to be detected increase, and thus detection becomes difficult.
  • an application such as BA or FA
  • there are many objects in the image such as chairs, personal computers, trash cans, fans, and circulators, which are easily mistaken for the human body and head, and thus the detection accuracy is likely to deteriorate. ..
  • the present invention has been made in view of the above circumstances, and an object thereof is to provide a technique for detecting a person at high speed and with high accuracy from a fisheye image.
  • the present invention adopts the following configurations.
  • a first aspect of the present invention is a person detection device that analyzes a fisheye image obtained by a fisheye camera installed above a detection target area to detect a person present in the detection target area.
  • a head detecting unit that detects one or more head candidates from the fisheye image using an algorithm that detects a human head, and one from the fisheye image using an algorithm that detects a human body.
  • a fish-eye camera is a camera equipped with a fish-eye lens and is capable of shooting at a super wide angle compared to a normal camera. Omnidirectional cameras and spherical cameras are also a type of fisheye camera.
  • the fisheye camera may be installed so as to look down on the detection target area from above the detection target area.
  • the fish-eye camera is installed so that its optical axis faces vertically downward, but the optical axis of the fish-eye camera may be tilted with respect to the vertical direction.
  • the “algorithm for detecting a human head” and the “algorithm for detecting a human body” are different algorithms in that the former targets only the head and the latter targets the human body.
  • the “human body” may be the whole body of a person or the half body (for example, upper body, head and torso, etc.).
  • the fisheye image is not developed on a plane, high-speed detection processing is possible.
  • the head and the body are detected from the image and they satisfy a predetermined condition, the person is first determined to be a person, and therefore highly accurate detection can be realized.
  • the predetermined condition may include a condition regarding a relative position of the head candidate and the human body candidate.
  • a condition regarding a relative position of the head candidate and the human body candidate In a fisheye image obtained with a fisheye camera, there is a certain law in the positional relationship between the head region and the human body region, so the validity of the pair is based on the relative position between the head region and the human body region. (Probability of being a person) can be determined.
  • the predetermined condition may include a condition that the head candidate region and the human body candidate region have an overlap.
  • the predetermined condition may include a condition that the human body candidate exists at coordinates closer to the center of the fisheye image than the head candidate.
  • the predetermined condition may include a condition regarding the relative size of the head candidate and the human body candidate. Since the sizes of the head and human body in the fish-eye image obtained with a fixed camera can be assumed in advance, the validity (probability of being a person) of the pair should be determined based on the relative sizes of the head candidate and human body candidate. You can Specifically, the predetermined condition may include a condition that the size ratio between the head candidate and the human body candidate is within a predetermined range.
  • the determination unit may change the predetermined range according to the coordinates of the head candidate or the human body candidate on the fisheye image.
  • the head detection unit outputs the reliability of detection for each detected head candidate
  • the human body detection unit outputs the reliability of detection for each detected human body candidate
  • the predetermined condition is: A condition relating to the reliability of the head candidate and the human body candidate may be included. Thereby, the reliability of the final detection result, that is, the detection accuracy can be improved.
  • the determination unit may obtain the total reliability based on the reliability of the head candidate and the reliability of the human body candidate, and the predetermined condition may include a condition that the total reliability is larger than a threshold value. ..
  • the overall reliability may be any index as long as it is a function of the reliability of the head candidate and the reliability of the human body candidate. For example, it is possible to use the sum of the reliability of head candidates and the reliability of human body candidates, a simple average, a weighted average, or the like.
  • the determination unit depending on the coordinates of the head candidate or the human body candidate on the fisheye image, sets the weight of the reliability of the head candidate and the reliability of the human body candidate when obtaining the overall reliability. You can change it. For example, a person directly under the camera can see the head but only the shoulders of the human body, so it is more difficult to detect the human body than to detect the head. In this way, depending on the coordinates on the image, which of the reliability of the head candidate and the reliability of the human body candidate is likely to be higher is changed, so that characteristic is taken into consideration when obtaining the overall reliability. As a result, the final determination accuracy can be improved.
  • the determination unit may relax the condition for the reliability of the other. This is because if the reliability of either one is sufficiently high, it is considered that the probability of being a person is high (even if the reliability of the detection of the other is somewhat low).
  • a second aspect of the present invention is a person detection method for detecting a person present in the detection target area by analyzing a fisheye image obtained by a fisheye camera installed above the detection target area.
  • a head detecting step of detecting one or more head candidates from the fisheye image using an algorithm for detecting a human head, and one from the fisheye image using an algorithm of detecting a human body A human body detection step of detecting the human body candidates described above, a combination of the detection result of the head detection step and the detection result of the human body detection step, which is created from a pair of the head candidate and the human body candidate And a determination step of determining that a pair satisfying the condition of 1 is a person is provided.
  • the present invention may be regarded as a person detecting apparatus having at least a part of the above means, and may be a person recognizing apparatus for recognizing (identifying) a detected person, a person tracking apparatus for tracking the detected person, or an image processing apparatus, It may be considered as a monitoring system. Further, the present invention may be understood as a person detection method, a person recognition method, a person tracking method, an image processing method, and a monitoring method including at least a part of the above processing. Further, the present invention can be regarded as a program for implementing such a method and a recording medium in which the program is recorded non-temporarily. The above means and processing can be combined with each other as much as possible to configure the present invention.
  • a person can be detected at high speed and with high accuracy from a fisheye image.
  • FIG. 1 is a diagram showing an application example of the person detecting device according to the present invention.
  • FIG. 2 is a diagram showing a configuration of a monitoring system including a human detection device.
  • FIG. 3 is a diagram showing an example of a fisheye image.
  • FIG. 4 is a flowchart of the person detection process.
  • FIG. 5 is a diagram showing an example of the result of head detection.
  • FIG. 6 is a diagram showing an example in which the result of human body detection is superimposed on the result of head detection.
  • FIG. 7 is a diagram showing an example of the final determination result (human detection result).
  • FIG. 8 is a flowchart of the pairing process based on the relative position.
  • FIG. 9 is a flowchart of the pairing process based on the relative size.
  • FIG. 10 is a diagram showing an example in which the processing is changed according to the position on the image.
  • the person detection device 1 analyzes the fisheye image obtained by the fisheye camera 10 installed above the detection target area 11 (for example, the ceiling 12) to detect the person 13 existing in the detection target area 11. It is a device that does.
  • the person detecting device 1 detects, recognizes, or tracks a person 13 who passes through the detection target area 11 in an office or a factory, for example.
  • the detection result of the human detection device 1 is output to an external device and used, for example, for counting the number of people, controlling various devices such as lighting and air conditioning, and monitoring a suspicious person.
  • the human detection device 1 One of the features of the human detection device 1 is that the fisheye image is used as it is for human detection processing (that is, without performing preprocessing such as plane expansion and distortion correction). As a result, the speeding up of the detection processing (real time) is realized. Further, the human detection device 1 performs head detection and human body detection on a fisheye image, and makes a final determination (determination of whether a person is present) by combining the head detection result and the human body detection result. Has one of the features. At this time, high-precision detection can be realized by considering the characteristics of the fish-eye image and performing pairing of the head and the human body and evaluation of reliability.
  • FIG. 2 is a block diagram showing the configuration of a monitoring system to which the person detecting device according to the embodiment of the present invention is applied.
  • the monitoring system 2 generally includes a fisheye camera 10 and a person detection device 1.
  • the fish-eye camera 10 is an imaging device having an optical system including a fish-eye lens and an imaging device (image sensor such as CCD or CMOS).
  • the fish-eye camera 10 is installed on a ceiling 12 or the like of a detection target area 11 with its optical axis oriented vertically downward, and displays an image in all directions (360 degrees) of the detection target area 11. You should take a picture.
  • the fisheye camera 10 is connected to the human detection device 1 by wire (USB cable, LAN cable, etc.) or wirelessly (WiFi, etc.), and the image data captured by the fisheye camera 10 is captured by the human detection device 1.
  • the image data may be a monochrome image or a color image, and the resolution, frame rate and format of the image data are arbitrary. In the present embodiment, it is assumed that a monochrome image captured at 10 fps (10 sheets per second) is used.
  • FIG. 3 shows an example of a fisheye image captured from the fisheye camera 10.
  • the fish-eye camera 10 When the fish-eye camera 10 is installed so that the optical axis faces vertically downward, an image of a person who is directly below the fish-eye camera 10 observed from the top of the head appears at the center of the fish-eye image. Then, the depression angle decreases toward the edge of the fish-eye image, so that an image of a person observed obliquely from above appears. Further, the distortion of the center of the fisheye image is relatively small, but the distortion of the image becomes larger toward the edge of the fisheye image.
  • the human detection device 1 of the present embodiment includes an image input unit 20, a head detection unit 22, a human body detection unit 24, a determination unit 26, a storage unit 27, and an output unit 28.
  • the head detecting unit 22 and the human body detecting unit 24 are collectively referred to as “detecting unit 21”.
  • the image input unit 20 has a function of capturing image data from the fisheye camera 10.
  • the captured image data is stored in the storage unit 27.
  • the head detecting unit 22 has a function of detecting a head candidate from a fisheye image using an algorithm for detecting a human head.
  • the head detection dictionary 23 is a dictionary in which the image features of the head appearing in the fisheye image are registered in advance.
  • the human body detection unit 24 has a function of detecting a human body candidate from a fisheye image using an algorithm for detecting a human body.
  • the human body detection dictionary 25 is a dictionary in which image characteristics of a human body appearing in a fisheye image are registered in advance.
  • the determination unit 26 has a function of determining a “person” present in the fisheye image based on the detection results of the head detection unit 22 and the human body detection unit 24.
  • the storage unit 27 has a function of storing a fisheye image, a detection result, a determination result, and the like.
  • the output unit 28 has a function of outputting information such as a fisheye image, a detection result, and a determination result to an external device.
  • the output unit 28 may display information on a display as an external device, may transfer the information to a computer as an external device, and may output information to a lighting device, an air conditioner, or an FA device as an external device. Information or control signals may be sent.
  • the human detection device 1 can be configured by, for example, a computer including a CPU (processor), a memory, a storage, and the like.
  • a computer including a CPU (processor), a memory, a storage, and the like.
  • the configuration shown in FIG. 2 is realized by loading the program stored in the storage into the memory and causing the CPU to execute the program.
  • a computer may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, a smartphone, or an embedded computer such as an onboard computer.
  • all or part of the configuration shown in FIG. 2 may be configured with an ASIC or FPGA.
  • all or part of the configuration shown in FIG. 2 may be realized by cloud computing or distributed computing.
  • FIG. 4 is a flowchart of the person detection processing by the monitoring system 2. The overall flow of person detection processing will be described with reference to FIG. Note that the flowchart of FIG. 4 shows processing for one frame of fisheye image. When the fish-eye image is input at 10 fps, the processing of FIG. 4 is executed 10 times per second.
  • the image input unit 20 inputs a one-frame fisheye image from the fisheye camera 10 (step S40).
  • FIG. 3 is an example of the input fisheye image. Five people are shown in this image.
  • the head detecting unit 22 detects the human head from the fisheye image (step S41).
  • a plurality of people exist in the fisheye image a plurality of heads are detected.
  • an object other than the head for example, a ball, a PC, a circulator, a round chair, or the like whose shape or color is confusing with the human head
  • the detection result of the head detecting unit 22 may include an object other than the head, and is therefore referred to as a “head candidate” at this stage.
  • the detection result may include, for example, a circumscribed rectangle of the detected head candidate (also referred to as a “bounding box”) and the reliability of detection (probability of being a head).
  • Reference numeral 50 indicates a bounding box.
  • the non-head objects 56, 57 are also detected as head candidates.
  • Any algorithm may be used for head detection.
  • a discriminator that combines boosting with image features such as HoG or Haar-like may be used, or head recognition by deep learning (eg, R-CNN, Fast R-CNN, YOLO, SSD, etc.) You may use.
  • the human body detection unit 24 detects a human body from the fisheye image (step S42).
  • a human body For example, an object such as a fan, a desk chair, or a coat hanging, whose shape or color is confusing with the human body
  • the detection result of the human body detection unit 24 may include an object that is not a human body, and is therefore referred to as a “human body candidate” at this stage.
  • the detection result may include, for example, a circumscribed rectangle (also referred to as a “bounding box”) of the detected human body candidate and the reliability of detection (probability of being a human body).
  • Reference numeral 60 indicates the bounding box of the human body candidate.
  • the non-human bodies 66, 67 are also detected as human body candidates. Any algorithm may be used for human body detection. For example, a classifier that combines image features and boosting such as HoG or Haar-like may be used, or human body recognition by deep learning (eg, R-CNN, Fast R-CNN, YOLO, SSD, etc.) is used. May be. In the present embodiment, the whole body of a person is detected as the human body, but the present invention is not limited to this, and a part of the body such as the upper body may be the detection target.
  • head detection and human body detection are independent processes, human body detection and head detection may be performed in this order, or head detection and human body detection may be performed in parallel.
  • the determination unit 26 pairs the head candidate and the human candidate (step S43). For example, the determination unit 26 selects only a pair satisfying a predetermined pairing condition from the 49 head pairs 51 to 57 and the seven human body candidates 61 to 67 shown in FIG. Details of the pairing condition and the pairing process will be described later.
  • the determination unit 26 obtains the reliability of each pair obtained in step S43 (step S44).
  • the reliability of a pair is a scale indicating the probability (probability of being a person) that the pair (head candidate and human body candidate) actually shows the head and body of a human. Details of the reliability will be described later.
  • the determination unit 26 extracts only pairs that satisfy a predetermined reliability condition from the plurality of pairs obtained in step S43 (step S45). Then, the determination unit 26 finally determines that the pair (combination of head candidate and human body candidate) extracted here is “person”, and stores the determination result in the storage unit 27.
  • the determination result may include information such as the position and size of a circumscribing rectangle (bounding box) including the head candidate and the human body candidate, the reliability of the pair, and the like.
  • FIG. 7 is an example of the final determination result (human detection result).
  • the output unit 28 outputs the determination result obtained in step S45 to the external device (step S46). This completes the processing for the fisheye image of one frame.
  • the fisheye image is analyzed as it is, and the person is directly detected from the fisheye image. Therefore, preprocessing such as plane expansion of the fisheye image and distortion correction can be omitted, and high-speed person detection processing can be performed.
  • the method of using the fish-eye image as it is for the detection process has a problem that the detection accuracy is lower than the method of performing the detection process after the plane expansion (distortion correction). Since the logic of determining that the person is a "person" when both the body and the body are detected and the predetermined conditions are satisfied, extremely high-precision detection can be realized.
  • the pairing condition and the reliability condition are used as the predetermined condition, but if only one of them is sufficient in accuracy, only one condition may be used. Absent. Alternatively, a condition other than the pairing condition and the reliability condition may be used.
  • FIG. 8 is a flowchart of the pairing process based on the relative position.
  • the determination unit 26 generates a pair in which the head region and the human body region overlap each other from all combinations of the head candidate and the human body candidate (step S80). In the case of the example in FIG. 6, six pairs are generated. The reason why there are more than the actual number of people (5) is that a pair of the human body candidate 62 and the head candidate 56 due to erroneous detection is also generated.
  • the determination unit 26 determines which of the head region and the human body region is closer to the image center for each of the pairs obtained in step S80, and extracts only the pair of the human body region closer to the image center (step S81). This determination may be performed, for example, by comparing the distance between the center of the head region and the image center and the distance between the center of the human body region and the image center. By such processing, the pair of the human body candidate 62 and the head candidate 56 can be excluded. As a result, 5 of the head candidate 51 and the human candidate 61, the head candidate 52 and the human candidate 62, the head candidate 53 and the human candidate 63, the head candidate 54 and the human candidate 64, the head candidate 55 and the human candidate 65. Narrowed down to one pair.
  • FIG. 9 is a flowchart of the pairing process based on the relative size.
  • the determination unit 26 generates a pair in which the head region and the human body region overlap each other from all combinations of the head candidate and the human body candidate (step S90). This process is the same as step S80 in FIG.
  • the determination unit 26 calculates the size ratio of the head region and the human body region for each of the pairs obtained in step S90 (step S91). For example, the area ratio of the bounding box may be obtained as the size ratio, or the ratio of the lengths of the sides or the diagonal lines may be obtained as the size ratio.
  • the determination unit 26 extracts only pairs whose size ratio is within a predetermined range (step S92). By such processing, it is possible to exclude a falsely detected object whose size is obviously different from the actual head or human body from the pairing target.
  • the determination unit 26 may change the “predetermined range” used in step S102 in accordance with the coordinates of the head candidate or the human candidate on the image. For example, as shown in FIG. 10, the fisheye image is divided into 25 areas L1 to L25, and the correct range of the size ratio is set in each divided area. In the example of FIG.
  • the correct range is set such that the size ratio (head region/human body region) decreases as the distance from the image center increases.
  • the determination unit 26 referring to the table as shown in FIG. 10 in the determination process of step S92, appropriate determination can be realized according to the position in the fisheye image. Thereby, the reliability of pairing can be further improved.
  • the determination unit 26 may determine that the pair is a person when the reliability of each of the head candidate and the human body candidate forming the pair exceeds a predetermined threshold. That is, when the reliability of the head candidate is Ch, the reliability of the human body candidate is Cb, the threshold of the head candidate is Th, and the threshold of the human body candidate is Tb, Individual determination is a method of determining that Ch>Th and Cb>Tb ⁇ person Ch ⁇ Th or Cb ⁇ Tb ⁇ not person.
  • the overall reliability Cw may be calculated, for example, by the following formula.
  • Cw (w ⁇ Ch+(1-w) ⁇ Cb)/2
  • the weight w may be a fixed value or may be changed according to the coordinates of the head candidate or the human body candidate on the fisheye image. As shown in FIG. 6, in the central part of the image, the head is shown large, but the human body is hardly shown. Then, as the edge of the image is reached, the proportion of the human body in the image increases. Considering such characteristics of the fish-eye image, the weight w of the reliability Ch of the head candidate is relatively increased in the central portion of the image, and the weight of the reliability Cb of the human body candidate is increased toward the edge of the image. It is advisable to gradually increase (1-w).
  • the determination unit 26 does not consider the reliability Cb of the human body candidate (or sets the weight of the reliability Cb of the human body candidate to be extremely small). ), a final decision may be made as to whether or not the person is a person. Furthermore, when the reliability Ch of the head candidate is extremely high, it may be determined as “person” even if a human candidate for a pair is not found (the probability that the body is hidden behind the object is high). I reckon).
  • the threshold value used for determining whether the reliability Ch is extremely high may be set to a value larger than the above Th and Tw.
  • the determination unit 26 does not consider the reliability Ch of the head candidate (or sets the weight of the reliability Ch of the head candidate to be extremely small). ), a final decision may be made as to whether or not the person is a person. Furthermore, when the reliability Cb of the human body candidate is extremely high, it may be determined as “human” even if no head candidate to be paired with is found (the probability that the head is hidden behind the object is high. Regarded as).
  • the threshold used for determining whether the reliability Cb is extremely high may be set to a value larger than Tb and Tw described above.
  • a person (13) existing in the detection target area (11) is detected by analyzing a fisheye image obtained by a fisheye camera (10) installed above the detection target area (11).
  • a human detection device (1) for A head detecting unit (22) for detecting one or more head candidates from the fisheye image using an algorithm for detecting a human head;
  • a determination unit (26) for determining a person A person detection device (1), characterized by having: (2) A person (13) existing in the detection target area (11) is detected by analyzing a fisheye image obtained by a fisheye camera (10) installed above the detection target area (11).
  • a method for detecting people comprising:
  • Human detection device 2 Monitoring system 10: Fisheye camera 11: Detection target area 12: Ceiling 13: Human

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置が、人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出部と、人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出部と、前記頭部検出部の検出結果と前記人体検出部の検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定部と、を有する。

Description

人検出装置および人検出方法
 本発明は、魚眼カメラの画像を用いて人を検出する技術に関する。
 ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ(フィッシュアイレンズ)を搭載した超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる。)を利用することが多い。
 魚眼カメラで撮影された画像は大きく歪んでいる。それゆえ、魚眼カメラの画像(以後「魚眼画像」と呼ぶ。)から人体や顔などを検出する場合には、あらかじめ魚眼画像を平面展開することで歪みの少ない画像に補正した後に検出処理にかけるという方法が一般的である(特許文献1参照)。
特開2016-39539号公報
 しかしながら、従来技術では次のような問題がある。一つは、魚眼画像を平面展開するという前処理が発生することで、全体の処理コストが大きくなるという問題である。これは、リアルタイムの検出処理を困難にし、機器制御の遅延を招く可能性があり、好ましくない。二つ目の問題は、魚眼カメラの真下など、ちょうど平面展開時の境界(画像の切れ目)の位置に存在する人や物体の像が、平面展開の処理によって大きく変形してしまったり、像が分断されてしまったりして、正しく検出できない恐れがあることである。
 これらの問題を回避するため、本発明者らは、魚眼画像をそのまま(「平面展開せずに」という意味である。)検出処理にかけるというアプローチを研究している。しかし、通常のカメラ画像に比べ、魚眼画像の場合は、検出対象となる人の見え方(人体の傾き、歪み、大きさ)のバリエーションが増加するため、検出が困難となる。特に、BAやFAなどのアプリケーションを想定した場合、画像中に、イス、パーソナルコンピュータ、ごみ箱、扇風機、サーキュレーターなど、人体や頭部と誤り易い物体が多く存在するため、検出精度の低下を招きやすい。
 本発明は上記実情に鑑みなされたものであって、魚眼画像から高速に且つ高精度に人を検出する技術を提供することを目的とする。
 上記目的を達成するために本発明は、以下の構成を採用する。
 本発明の第一側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出部と、人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出部と、前記頭部検出部の検出結果と前記人体検出部の検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定部と、を有することを特徴とする人検出装置を提供する。
 「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラや全天球カメラも魚眼カメラの一種である。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。「人の頭部を検出するアルゴリズム」と「人体を検出するアルゴリズム」は、前者が頭部のみを検出対象とし、後者が人体を検出対象とする点で、異なるアルゴリズムである。ここで「人体」は、人の全身でもよいし、半身(例えば、上半身、頭部と胴体など)でもよい。
 本発明によれば、魚眼画像を平面展開しないため、高速な検出処理が可能である。また、画像から頭部と体がともに検出され、且つ、それらが所定の条件を満たす場合に、はじめて「人」と判定するので、高精度な検出が実現できる。
 前記所定の条件は、前記頭部候補と前記人体候補の相対位置に関する条件を含んでもよい。魚眼カメラで得られる魚眼画像では、頭部の領域と人体の領域の位置関係に一定の法則があるため、頭部の領域と人体の領域の相対位置に基づいて、当該ペアの妥当性(人である確からしさ)を判定することができる。具体的には、前記所定の条件は、前記頭部候補の領域と前記人体候補の領域とが重なりを有するという条件を含んでもよい。前記所定の条件は、前記人体候補が前記頭部候補よりも前記魚眼画像の中心に近い座標に存在するという条件を含んでもよい。
 前記所定の条件は、前記頭部候補と前記人体候補の相対サイズに関する条件を含んでもよい。固定カメラで得られる魚眼画像における頭部および人体のサイズはあらかじめ想定できるため、頭部候補と人体候補の相対サイズに基づいて、当該ペアの妥当性(人である確からしさ)を判定することができる。具体的には、前記所定の条件は、前記頭部候補と前記人体候補のサイズ比率が所定の範囲であるという条件を含んでもよい。ここで、前記判定部は、前記頭部候補または前記人体候補の前記魚眼画像上の座標に応じて、前記所定の範囲を変えてもよい。
 前記頭部検出部は、検出した頭部候補ごとに、検出の信頼度を出力し、前記人体検出部は、検出した人体候補ごとに、検出の信頼度を出力し、前記所定の条件は、前記頭部候補および前記人体候補の信頼度に関する条件を含んでもよい。これにより、最終的な検出結果の信頼性、すなわち検出精度の向上を図ることができる。
 例えば、前記判定部は、前記頭部候補の信頼度と前記人体候補の信頼度を基に総合信頼度を求め、前記所定の条件は、前記総合信頼度が閾値より大きいという条件を含んでもよい。総合信頼度は、頭部候補の信頼度と人体候補の信頼度の関数であればどのような指標でもよい。例えば、頭部候補の信頼度と人体候補の信頼度の合計、単純平均、加重平均などを用いることができる。
 前記判定部は、前記頭部候補または前記人体候補の前記魚眼画像上の座標に応じて、前記総合信頼度を求めるときの前記頭部候補の信頼度と前記人体候補の信頼度の重みを変えてもよい。例えば、カメラの真下にいる人は、頭部は写るが、人体は両肩くらいしか写らないため、頭部検出に比べて人体検出は困難となる。このように、画像上の座標に依存して、頭部候補の信頼度と人体候補の信頼度のどちらの値が高くなりやすいかが変わるため、総合信頼度を求めるときにその特性を考慮することで、最終的な判定精度の向上を図ることができる。
 前記頭部候補の信頼度と前記人体候補の信頼度のいずれか一方が十分に高い場合に、前記判定部は、他方の信頼度に対する条件を緩和してもよい。いずれか一方の信頼度が十分に高ければ、(他方の検出の信頼度が多少低かったとしても)人である確からしさが高いと考えられるからである。
 本発明の第二側面は、検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出ステップと、人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出ステップと、前記頭部検出ステップの検出結果と前記人体検出ステップの検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定ステップと、を有することを特徴とする人検出方法を提供する。
 本発明は、上記手段の少なくとも一部を有する人検出装置として捉えてもよいし、検出した人を認識(識別)する人認識装置、検出した人をトラッキングする人追跡装置、あるいは画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む人検出方法、人認識方法、人追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、魚眼画像から高速に且つ高精度に人を検出することができる。
図1は、本発明に係る人検出装置の適用例を示す図である。 図2は、人検出装置を備える監視システムの構成を示す図である。 図3は、魚眼画像の例を示す図である。 図4は、人検出処理のフローチャートである。 図5は、頭部検出の結果の例を示す図である。 図6は、頭部検出の結果に人体検出の結果を重ねた例を示す図である。 図7は、最終判定結果(人検出結果)の例を示す図である。 図8は、相対位置に基づくペアリング処理のフローチャートである。 図9は、相対サイズに基づくペアリング処理のフローチャートである。 図10は、画像上の位置に応じて処理を変える例を示す図である。
 <適用例>
 図1を参照して、本発明に係る人検出装置の適用例を説明する。人検出装置1は、検出対象エリア11の上方(例えば天井12など)に設置された魚眼カメラ10により得られた魚眼画像を解析して、検出対象エリア11内に存在する人13を検出する装置である。この人検出装置1は、例えば、オフィスや工場などにおいて、検出対象エリア11を通行する人13の検出、認識、追跡などを行う。人検出装置1の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視などに利用される。
 人検出装置1は、魚眼画像をそのまま(つまり、平面展開や歪み補正などの前処理を行わずに)人検出処理に用いる点に特徴の一つを有する。これにより、検出処理の高速化(リアルタイム性)を実現する。さらに人検出装置1は、魚眼画像に対し頭部検出と人体検出を行い、頭部検出の結果と人体検出の結果とを組み合わせて最終的な判定(人か否かの判定)を行う点に特徴の一つを有する。このとき、魚眼画像の特性を考慮して、頭部と人体のペアリングおよび信頼度の評価を行うことによって、高精度な検出が実現できる。
 <監視システム>
 図2を参照して、本発明の実施形態を説明する。図2は、本発明の実施形態に係る人検出装置を適用した監視システムの構成を示すブロック図である。監視システム2は、概略、魚眼カメラ10と人検出装置1とを備えている。
 魚眼カメラ10は、魚眼レンズを含む光学系と撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。魚眼カメラ10は、例えば図1に示すように、検出対象エリア11の天井12などに、光軸を鉛直下向きにした状態で設置され、検出対象エリア11の全方位(360度)の画像を撮影するとよい。魚眼カメラ10は人検出装置1に対し有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で接続され、魚眼カメラ10で撮影された画像データは人検出装置1に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、10fps(1秒あたり10枚)で取り込まれるモノクロ画像を用いることを想定している。
 図3は、魚眼カメラ10から取り込まれた魚眼画像の例を示す。光軸が鉛直下向きになるように魚眼カメラ10を設置した場合、魚眼画像の中心には、魚眼カメラ10の真下に存在する人を頭頂部から観察した像が表れる。そして、魚眼画像の端にいくにしたがって俯角が小さくなるため、人を斜め上方から観察した像が表れることとなる。また、魚眼画像の中心は比較的歪みが小さいが、魚眼画像の端にいくにしたがって画像の歪みが大きくなる。背景技術の欄で述べたように、従来は、魚眼画像の歪みを補正した平面展開画像を作成した後、検出や認識などの画像処理を行っていたが、本実施形態の監視システム2では、図3に示すような魚眼画像をそのまま(歪んだまま)検出や認識の処理に用いる。これにより、歪み補正などの前処理を省略し、リアルタイム監視を実現する。
 図2に戻り、人検出装置1の説明を行う。本実施形態の人検出装置1は、画像入力部20、頭部検出部22、人体検出部24、判定部26、記憶部27、出力部28を有している。頭部検出部22と人体検出部24をまとめて「検出部21」とも称す。画像入力部20は、魚眼カメラ10から画像データを取り込む機能を有する。取り込まれた画像データは記憶部27に格納される。頭部検出部22は、人の頭部を検出するアルゴリズムを用いて、魚眼画像から頭部候補を検出する機能を有する。頭部検出辞書23は、魚眼画像に表れる頭部の画像特徴があらかじめ登録されている辞書である。人体検出部24は、人体を検出するアルゴリズムを用いて、魚眼画像から人体候補を検出する機能を有する。人体検出辞書25は、魚眼画像に表れる人体の画像特徴があらかじめ登録されている辞書である。判定部26は、頭部検出部22と人体検出部24の検出結果に基づいて、魚眼画像内に存在する「人」を判定する機能を有する。記憶部27は、魚眼画像、検出結果、判定結果などを記憶する機能を有する。出力部28は、魚眼画像、検出結果、判定結果などの情報を外部装置に出力する機能を有する。例えば、出力部28は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やFA装置に対し情報や制御信号を送信してもよい。
 人検出装置1は、例えば、CPU(プロセッサ)、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図2に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図2に示す構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、図2に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。
 <人検出処理>
 図4は、監視システム2による人検出処理のフローチャートである。図4に沿って人検出処理の全体的な流れを説明する。なお、図4のフローチャートは、1フレームの魚眼画像に対する処理を示している。10fpsで魚眼画像が入力される場合には、図4の処理が1秒間に10回実行されることとなる。
 まず、画像入力部20が魚眼カメラ10から1フレームの魚眼画像を入力する(ステップS40)。図3は入力された魚眼画像の例である。この画像には5人の人が写っている。
 次に、頭部検出部22が魚眼画像から人の頭部を検出する(ステップS41)。魚眼画像内に複数の人が存在する場合には、複数の頭部が検出される。また、多くの場合、頭部ではない物体(例えば、ボール、PC、サーキュレーター、丸イスなど、形状や色が人頭と紛らわしい物)が誤って検出される場合もある。このように頭部検出部22の検出結果には頭部ではない物体も含まれ得るため、この段階では「頭部候補」と呼ぶ。検出結果には、例えば、検出された頭部候補の外接矩形(「バウンディングボックス」とも称す。)と、検出の信頼度(頭部であることの確からしさ)とが含まれるとよい。図5は、頭部検出の結果の例である。符号50がバウンディングボックスを示している。この例では、人の頭部51、52、53、54、55の他、頭部ではない物体56、57も頭部候補として検出されてしまっている。なお、頭部検出にはどのようなアルゴリズムを用いてもよい。例えば、HoGやHaar-likeなどの画像特徴とブースティングを組み合わせた識別器を用いてもよいし、ディープラーニング(例えば、R-CNN、Fast R-CNN、YOLO、SSDなど)による頭部認識を用いてもよい。
 次に、人体検出部24が魚眼画像から人体を検出する(ステップS42)。魚眼画像内に複数の人が存在する場合には、複数の人体が検出される。また、多くの場合、人体ではない物体(例えば、扇風機、デスクチェア、コート掛けなど、形状や色が人体と紛らわしい物)が誤って検出される場合もある。このように人体検出部24の検出結果には人体ではない物体も含まれ得るため、この段階では「人体候補」と呼ぶ。検出結果には、例えば、検出された人体候補の外接矩形(「バウンディングボックス」とも称す。)と、検出の信頼度(人体であることの確からしさ)とが含まれるとよい。図6は、頭部検出の結果に人体検出の結果を重ねた例である。符号60が人体候補のバウンディングボックスを示している。この例では、人体61、62、63、64、65の他、人体ではない物体66、67も人体候補として検出されてしまっている。なお、人体検出にはどのようなアルゴリズムを用いてもよい。例えば、HoGやHaar-likeなどの画像特徴とブースティングを組み合わせた識別器を用いてもよいし、ディープラーニング(例えば、R-CNN、Fast R-CNN、YOLO、SSDなど)による人体認識を用いてもよい。本実施形態では、人体として人の全身を検出しているが、これに限らず、上半身など体の一部を検出対象としてもよい。
 なお、頭部検出と人体検出は独立した処理であるため、人体検出→頭部検出の順に実行してもよいし、頭部検出と人体検出を並列処理してもよい。
 次に、判定部26が、頭部候補と人体候補のペアリングを行う(ステップS43)。判定部26は、例えば、図6に示す7つの頭部候補51~57と7つの人体候補61~67の49通りのペアの中から、所定のペアリング条件を満足するペアのみを選択する。ペアリング条件およびペアリング処理の詳細は後述する。
 次に、判定部26は、ステップS43で得られた各ペアの信頼度を求める(ステップS44)。ペアの信頼度とは、当該ペア(頭部候補と人体候補)が実際の人間の頭部と身体を示している可能性の高さ(人であることの確からしさ)を表す尺度である。信頼度の詳細は後述する。
 次に、判定部26は、ステップS43で得られた複数のペアの中から、所定の信頼度条件を満足するペアのみを抽出する(ステップS45)。そして、判定部26は、ここで抽出されたペア(頭部候補と人体候補の組み合わせ)を「人」と最終判定し、その判定結果を記憶部27に格納する。判定結果は、例えば、頭部候補および人体候補を包含する外接矩形(バウンディングボックス)の位置およびサイズ、当該ペアの信頼度、などの情報を含むとよい。図7は、最終判定結果(人検出結果)の例である。
 最後に、出力部28が、ステップS45で得られた判定結果を外部装置に出力する(ステップS46)。以上で1フレームの魚眼画像に対する処理が終了する。
 本実施形態の人検出処理によれば、魚眼画像をそのまま解析し、魚眼画像からダイレクトに人検出を行う。したがって、魚眼画像の平面展開や歪み補正といった前処理を省略でき、高速な人検出処理が可能である。魚眼画像をそのまま検出処理に用いる方法は、平面展開(歪み補正)した後に検出処理を行う方法に比べ、検出精度が低下するという課題があるが、本実施形態では、魚眼画像から頭部と身体がともに検出され、且つ、それらが所定の条件を満たす場合に「人」と判定するというロジックを採用したので、非常に高精度な検出が実現できる。
 なお、本実施形態では、所定の条件として、ペアリング条件と信頼度条件の2つを用いたが、いずれか一方だけでも十分な精度が得られるならば、一方の条件のみを用いても構わない。あるいは、ペアリング条件と信頼度条件以外の他の条件を用いてもよい。
 <ペアリング>
 判定部26によるペアリング処理およびペアリング条件の具体例を説明する。
 (1)相対位置に基づくペアリング
 魚眼画像は人を見下ろすような角度で撮影されるため、図6に示すように、頭部領域(バウンディングボックス)と人体領域(バウンディングボックス)とは重なりをもつ。また、カメラの真下に(つまり、光軸上に)存在する人の場合は、頭部領域と人体領域の中心がほぼ一致するが、それ以外の位置に存在する人の場合は、人体領域が頭部領域よりも画像の中心側に写る(言い換えると、画像の中心からみて、人体領域の中心、頭部領域の中心、という順に並ぶ。)。このような魚眼画像の特性を利用し、頭部領域と人体領域の相対位置を考慮することで、頭部候補と人体候補の組み合わせの妥当性を評価することができる。
 図8は、相対位置に基づくペアリング処理のフローチャートである。まず判定部26は、頭部候補と人体候補のすべての組み合わせの中から、頭部領域と人体領域とが重なりを有するペアを生成する(ステップS80)。図6の例の場合、6通りのペアが生成される。実際の人の数(5人)より多い理由は、人体候補62と誤検出による頭部候補56のペアも生成されるためである。
 次に判定部26は、ステップS80で得られたペアのそれぞれについて、頭部領域と人体領域のどちらが画像中心に近いかを判定し、人体領域の方が画像中心に近いペアのみ抽出する(ステップS81)。この判定は、例えば、頭部領域の中心と画像中心の間の距離と人体領域の中心と画像中心の間の距離の比較により行えばよい。かかる処理により、人体候補62と頭部候補56のペアを除外することができる。その結果、頭部候補51と人体候補61、頭部候補52と人体候補62、頭部候補53と人体候補63、頭部候補54と人体候補64、頭部候補55と人体候補65、の5つのペアに絞り込まれる。
 (2)相対サイズに基づくペアリング
 検出対象エリアに対する魚眼カメラ10の位置が固定されている場合、頭部や人体の魚眼画像上でのサイズは概ね予測可能である。また、身体の大きさの個人差は、頭部と人体の相対サイズを計算することでキャンセルできる。このような魚眼画像の特性を利用し、頭部領域と人体領域の相対サイズを考慮することで、頭部候補と人体候補の組み合わせの妥当性を評価することができる。
 図9は、相対サイズに基づくペアリング処理のフローチャートである。まず判定部26は、頭部候補と人体候補のすべての組み合わせの中から、頭部領域と人体領域とが重なりを有するペアを生成する(ステップS90)。この処理は図8のステップS80と同じである。次に判定部26は、ステップS90で得られたペアのそれぞれについて、頭部領域と人体領域のサイズ比率を計算する(ステップS91)。例えば、バウンディングボックスの面積比をサイズ比率として求めてもよいし、辺もしくは対角線の長さの比をサイズ比率として求めてもよい。そして、判定部26は、サイズ比率が所定の範囲に収まっているペアのみ抽出する(ステップS92)。かかる処理により、実際の頭部や人体とはサイズが明らかに異なる誤検出物体をペアリング対象から除外することができる。
 ところで、魚眼画像の特性として、画像の端にいくにしたがって俯角が小さくなり、頭部領域に比して人体領域のサイズが相対的に大きくなっていくという特性がある。すなわち、頭部領域と人体領域のサイズ比率は画像全体で一定ではなく、魚眼画像内の位置に応じて変わり得る。それゆえ、判定部26は、ステップS102で用いる「所定の範囲」を頭部候補または人体候補の画像上の座標に応じて可変にしてもよい。例えば、図10に示すように、魚眼画像をL1~L25の25個のエリアに分割し、各分割エリアにサイズ比率の正解範囲を設定する。図10の例では、画像中心からの距離が遠いほどサイズ比率(頭部領域/人体領域)が小さくなるような正解範囲が設定されている。判定部26がステップS92の判定処理において図10に示すようなテーブルを参照することで、魚眼画像内の位置に応じた適切な判定が実現できる。これにより、ペアリングの信頼性をより一層向上することができる。
 <信頼度>
 判定部26による信頼度判定の具体例をいくつか説明する。
 (1)個別判定
 判定部26は、ペアを構成する頭部候補と人体候補のそれぞれの信頼度がともに所定の閾値を超えている場合に、当該ペアが人であると判定してもよい。すなわち、頭部候補の信頼度をCh、人体候補の信頼度をCb、頭部候補の閾値をTh、人体候補の閾値をTbとしたときに、
  Ch>Th 且つ Cb>Tb ⇒ 人
  Ch≦Th 又は Cb≦Tb ⇒ 人ではない
と判定する方法が個別判定である。
 (2)単純平均
 判定部26は、頭部候補の信頼度Chと人体候補の信頼度Cbを基に総合信頼度Cwを求め、この総合信頼度Cwが閾値Twより大きいか否かで、当該ペアが人か否かを判定してもよい。単純平均の場合、総合信頼度Cwは以下の式で計算するとよい。
  Cw=(Ch+Cb)/2
 (3)加重平均
 加重平均の場合、総合信頼度Cwは例えば以下の式で計算するとよい。
  Cw=(w×Ch+(1-w)×Cb)/2
 ここで、wは重みである。重みwは、固定値でもよいし、頭部候補または人体候補の魚眼画像上の座標に応じて変えてもよい。図6に示すように、画像の中央部分では、頭部が大きく写るが、人体はほとんど写らない。そして、画像の端にいくにしたがい、人体の写る割合が大きくなっていく。このような魚眼画像の特性を考慮し、画像の中央部分では頭部候補の信頼度Chの重みwを相対的に大きくし、画像の端にいくにしたがい、人体候補の信頼度Cbの重み(1-w)を徐々に大きくしていくとよい。
 (4)頭部優先
 頭部候補の信頼度Chが極めて高い場合には、判定部26は、人体候補の信頼度Cbを考慮せずに(あるいは人体候補の信頼度Cbの重みを極めて小さくして)、人か否かの最終判定を行ってもよい。さらには、頭部候補の信頼度Chが極めて高い場合には、ペアとなる人体候補が見つかっていない場合でも、「人」と判定してもよい(身体が物陰に隠れている蓋然性が高いとみなす)。なお、信頼度Chが極めて高いかどうかの判断に用いる閾値は、上述したTh、Twよりも大きい値に設定するとよい。
 (5)人体優先
 人体候補の信頼度Cbが極めて高い場合には、判定部26は、頭部候補の信頼度Chを考慮せずに(あるいは頭部候補の信頼度Chの重みを極めて小さくして)、人か否かの最終判定を行ってもよい。さらには、人体候補の信頼度Cbが極めて高い場合には、ペアとなる頭部候補が見つかっていない場合でも、「人」と判定してもよい(頭部が物陰に隠れている蓋然性が高いとみなす)。なお、信頼度Cbが極めて高いかどうかの判断に用いる閾値は、上述したTb、Twよりも大きい値に設定するとよい。
 <その他>
 上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
 <付記1>
 (1)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13)を検出する人検出装置(1)であって、
 人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出部(22)と、
 人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出部(24)と、
 前記頭部検出部(22)の検出結果と前記人体検出部(24)の検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定部(26)と、
を有することを特徴とする人検出装置(1)。
 (2)検出対象エリア(11)の上方に設置された魚眼カメラ(10)により得られた魚眼画像を解析して、前記検出対象エリア(11)内に存在する人(13)を検出する人検出方法であって、
 人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出ステップ(S41)と、
 人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出ステップ(S42)と、
 前記頭部検出ステップの検出結果と前記人体検出ステップの検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定ステップ(S45)と、
を有することを特徴とする人検出方法。
1:人検出装置
2:監視システム
10:魚眼カメラ
11:検出対象エリア
12:天井
13:人

Claims (13)

  1.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出装置であって、
     人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出部と、
     人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出部と、
     前記頭部検出部の検出結果と前記人体検出部の検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定部と、
    を有することを特徴とする人検出装置。
  2.  前記所定の条件は、前記頭部候補と前記人体候補の相対位置に関する条件を含む
    ことを特徴とする請求項1に記載の人検出装置。
  3.  前記所定の条件は、前記頭部候補の領域と前記人体候補の領域とが重なりを有するという条件を含む
    ことを特徴とする請求項1または2に記載の人検出装置。
  4.  前記所定の条件は、前記人体候補が前記頭部候補よりも前記魚眼画像の中心に近い座標に存在するという条件を含む
    ことを特徴とする請求項1~3のいずれか1項に記載の人検出装置。
  5.  前記所定の条件は、前記頭部候補と前記人体候補の相対サイズに関する条件を含む
    ことを特徴とする請求項1~4のいずれか1項に記載の人検出装置。
  6.  前記所定の条件は、前記頭部候補と前記人体候補のサイズ比率が所定の範囲であるという条件を含む
    ことを特徴とする請求項1~5のいずれか1項に記載の人検出装置。
  7.  前記判定部は、前記頭部候補または前記人体候補の前記魚眼画像上の座標に応じて、前記所定の範囲を変える
    ことを特徴とする請求項6に記載の人検出装置。
  8.  前記頭部検出部は、検出した頭部候補ごとに、検出の信頼度を出力し、
     前記人体検出部は、検出した人体候補ごとに、検出の信頼度を出力し、
     前記所定の条件は、前記頭部候補および前記人体候補の信頼度に関する条件を含む
    ことを特徴とする請求項1~7のいずれか1項に記載の人検出装置。
  9.  前記判定部は、前記頭部候補の信頼度と前記人体候補の信頼度を基に総合信頼度を求め、
     前記所定の条件は、前記総合信頼度が閾値より大きいという条件を含む
    ことを特徴とする請求項8に記載の人検出装置。
  10.  前記判定部は、前記頭部候補または前記人体候補の前記魚眼画像上の座標に応じて、前記総合信頼度を求めるときの前記頭部候補の信頼度と前記人体候補の信頼度の重みを変える
    ことを特徴とする請求項9に記載の人検出装置。
  11.  前記頭部候補の信頼度と前記人体候補の信頼度のいずれか一方が十分に高い場合に、前記判定部は、他方の信頼度に対する条件を緩和する
    ことを特徴とする請求項8~10のいずれか1項に記載の人検出装置。
  12.  検出対象エリアの上方に設置された魚眼カメラにより得られた魚眼画像を解析して、前記検出対象エリア内に存在する人を検出する人検出方法であって、
     人の頭部を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の頭部候補を検出する頭部検出ステップと、
     人体を検出するアルゴリズムを用いて、前記魚眼画像から1つ以上の人体候補を検出する人体検出ステップと、
     前記頭部検出ステップの検出結果と前記人体検出ステップの検出結果とを組み合わせて作成される、前記頭部候補と前記人体候補のペアのうち、所定の条件を満たすペアを、人と判定する判定ステップと、
    を有することを特徴とする人検出方法。
  13.  請求項12に記載の人検出方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2019/043977 2018-12-26 2019-11-08 人検出装置および人検出方法 WO2020137193A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112019006414.2T DE112019006414T5 (de) 2018-12-26 2019-11-08 Vorrichtung und Verfahren zur Detektion von Menschen
CN201980079319.9A CN113168694B (zh) 2018-12-26 2019-11-08 人检测装置以及人检测方法
US17/294,810 US11983951B2 (en) 2018-12-26 2019-11-08 Human detection device and human detection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018243475A JP7255173B2 (ja) 2018-12-26 2018-12-26 人検出装置および人検出方法
JP2018-243475 2018-12-26

Publications (1)

Publication Number Publication Date
WO2020137193A1 true WO2020137193A1 (ja) 2020-07-02

Family

ID=71129009

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043977 WO2020137193A1 (ja) 2018-12-26 2019-11-08 人検出装置および人検出方法

Country Status (5)

Country Link
US (1) US11983951B2 (ja)
JP (1) JP7255173B2 (ja)
CN (1) CN113168694B (ja)
DE (1) DE112019006414T5 (ja)
WO (1) WO2020137193A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494935B2 (en) * 2019-10-17 2022-11-08 Objectvideo Labs, Llc Scaled human video tracking
US11640701B2 (en) * 2020-07-31 2023-05-02 Analog Devices International Unlimited Company People detection and tracking with multiple features augmented with orientation and size based classifiers
JP2024008196A (ja) * 2022-07-07 2024-01-19 オムロン株式会社 情報処理装置および情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005351814A (ja) * 2004-06-11 2005-12-22 Konica Minolta Holdings Inc 検出装置および検出方法
WO2013001941A1 (ja) * 2011-06-27 2013-01-03 日本電気株式会社 物体検知装置、物体検知方法および物体検知プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4048511B2 (ja) 1998-03-13 2008-02-20 富士通株式会社 魚眼レンズカメラ装置及びその画像歪み補正方法
CN100478979C (zh) * 2002-11-26 2009-04-15 中国科学院计算技术研究所 利用身材信息辅助人脸信息的身份识别方法
CN101561928B (zh) * 2009-05-27 2011-09-14 湖南大学 基于属性关系图外观模型的多人体跟踪方法
CN101996401B (zh) * 2009-08-24 2016-05-11 三星电子株式会社 基于强度图像和深度图像的目标分析方法及设备
CN101833791B (zh) * 2010-05-11 2012-04-18 成都索贝数码科技股份有限公司 一种单摄像机下的场景建模方法及系统
CN101866425A (zh) 2010-06-02 2010-10-20 北京交通大学 基于鱼眼摄像头的人体检测方法
JP2015104016A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体
EP2988248B1 (en) * 2014-07-22 2019-09-18 Canon Kabushiki Kaisha Image processing apparatus, image processing method, information processing apparatus, information processing method, and program
JP6381353B2 (ja) 2014-08-08 2018-08-29 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
EP3446281A1 (en) * 2016-04-21 2019-02-27 OSRAM GmbH Training method and detection method for object recognition
JP7122815B2 (ja) * 2017-11-15 2022-08-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP7059054B2 (ja) * 2018-03-13 2022-04-25 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP7230345B2 (ja) * 2018-06-07 2023-03-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005351814A (ja) * 2004-06-11 2005-12-22 Konica Minolta Holdings Inc 検出装置および検出方法
WO2013001941A1 (ja) * 2011-06-27 2013-01-03 日本電気株式会社 物体検知装置、物体検知方法および物体検知プログラム

Also Published As

Publication number Publication date
JP7255173B2 (ja) 2023-04-11
DE112019006414T5 (de) 2021-09-16
US11983951B2 (en) 2024-05-14
US20220004749A1 (en) 2022-01-06
CN113168694B (zh) 2024-04-30
CN113168694A (zh) 2021-07-23
JP2020106970A (ja) 2020-07-09

Similar Documents

Publication Publication Date Title
WO2020184207A1 (ja) 物体追跡装置および物体追跡方法
US9165190B2 (en) 3D human pose and shape modeling
CN111435438A (zh) 适于增强现实、虚拟现实和机器人的图形基准标记识别
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
WO2020137193A1 (ja) 人検出装置および人検出方法
JP6590609B2 (ja) 画像解析装置及び画像解析方法
TWI438702B (zh) 影像環境邊界之動態設定方法及人員活動內容之即時判定方法
WO2020202865A1 (ja) 人検出装置および人検出方法
JP7334432B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
WO2020137160A1 (ja) 人検出装置および人検出方法
US20180307896A1 (en) Facial detection device, facial detection system provided with same, and facial detection method
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
JP6255944B2 (ja) 画像解析装置、画像解析方法及び画像解析プログラム
JP7243372B2 (ja) 物体追跡装置および物体追跡方法
WO2020179638A1 (ja) 人検出装置および人検出方法
WO2021140844A1 (ja) 人体検出装置および人体検出方法
KR101886856B1 (ko) 이종센서 탐색기의 비정형 객체추적에 대한 데이터 결합시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19902104

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19902104

Country of ref document: EP

Kind code of ref document: A1