WO2017086058A1 - 画像処理装置と画像処理方法およびプログラム - Google Patents

画像処理装置と画像処理方法およびプログラム Download PDF

Info

Publication number
WO2017086058A1
WO2017086058A1 PCT/JP2016/080092 JP2016080092W WO2017086058A1 WO 2017086058 A1 WO2017086058 A1 WO 2017086058A1 JP 2016080092 W JP2016080092 W JP 2016080092W WO 2017086058 A1 WO2017086058 A1 WO 2017086058A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
tracking
unit
person detection
threshold
Prior art date
Application number
PCT/JP2016/080092
Other languages
English (en)
French (fr)
Inventor
高田 信一
堅一郎 多井
弘長 佐野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201680066097.3A priority Critical patent/CN108352064A/zh
Priority to US15/774,040 priority patent/US20200175693A1/en
Publication of WO2017086058A1 publication Critical patent/WO2017086058A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M7/00Counting of objects carried by a conveyor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Definitions

  • This technology makes it possible to obtain highly reliable and accurate person detection information regarding an image processing apparatus, an image processing method, and a program.
  • a technique for detecting a person from an image generated by an imaging apparatus and counting the detected person has been disclosed.
  • a trajectory of person tracking position information is supplied to a filter unit, and a person is counted from the number of trajectories (person trajectories) of selected person position information selected by the filter unit.
  • the filter unit adjusts the filtering parameter so that the number of approaching person trajectories that the person approaches in the trajectory of the person position information is substantially equal to the number of trajectories of the face position information, and the person tracking position Information has been selected.
  • an object of this technique is to provide an image processing apparatus, an image processing method, and a program that can obtain a highly reliable and accurate person detection result.
  • the first aspect of this technology is A threshold map generation unit that generates a threshold map in which a person determination threshold is set for each of a plurality of areas into which captured images are divided; Based on the threshold map generated by the threshold map generation unit, a person detection unit that performs person detection using the person determination threshold corresponding to a region for each of the plurality of regions; A tracking unit for tracking the person detected by the person detection unit;
  • the image processing apparatus includes a person detection reliability calculation unit that calculates a person detection reliability for each detected person using the person detection result of the person detection unit and the tracking result of the tracking unit.
  • a captured image is divided into a congested area and a quiet area by a user operation or based on a detection result of the congestion level of the captured image.
  • the threshold map generation unit generates a threshold map indicating the person determination threshold for each area using the person determination threshold corresponding to the congestion level of the area.
  • the person determination threshold value indicates which person in the congested area is detected in the person detected by the person detection in a state where the reproduction rate indicating how much the person detected in the congested area is included is maintained at a predetermined level. It is set so that the relevance ratio indicating whether it is included is maximized.
  • the person determination threshold value in the quiet area is a person detected by the person detection in the person in the quiet area having a matching rate that indicates how much the person in the quiet area is included in the person detected by the person detection is a predetermined level or more. Is set so that the recall rate representing how much is included is maximized.
  • the person determination threshold is set in advance by the threshold learning unit using, for example, learning images for a congested area and a quiet area.
  • the person detection unit calculates a score indicating the probability of being a person for the subject, and determines that the person is a person when the calculated score is equal to or greater than a person determination threshold corresponding to the position of the subject in the threshold map.
  • the tracking unit sets a tracking frame for the person detected by the person detection unit, and uses a captured image having a shooting time different from the image in the frame of the tracking frame, and sets the tracking frame in the captured image having a different shooting time. Predict position.
  • the tracking unit sets different tracking identification information for each person with respect to the tracking frame, predicts the position of the tracking frame for each tracking identification information, and within the person position assumption region corresponding to the tracking frame of the predicted position
  • the tracking identification information set in the tracking frame of the predicted position is included in the information indicating the person detection result obtained by the person detection unit in FIG.
  • the person detection reliability calculation unit calculates the person detection status at the tracking position in the reliability calculation period for each detected person using the person detection result of the person detection unit and the tracking result of the tracking unit. Reliable.
  • the tracking unit tracks the person detected in the quiet area, and when the predicted position of the person is a congested area, the tracking unit determines the person determination threshold value of the predetermined area with reference to the predicted position in the threshold map more than before the adjustment.
  • a threshold value adjustment unit is provided to adjust so as to be easily determined as a person.
  • a back tracking unit that performs adjustment so that it is easier to determine a person than before the adjustment and performs person detection using the adjusted person determination threshold is provided.
  • the person detection reliability calculation unit calculates the person detection reliability using the person detection result and the tracking result acquired by the back tracking unit. Based on the person detection reliability calculated by the degree calculation unit and the tracking result of the tracking unit, the person detection reliability is equal to or higher than the count target determination threshold and the person who passes the preset count position is counted as the count position.
  • a counting unit is provided for counting the number of passing people.
  • the second aspect of this technology is Generating a threshold map in which a person determination threshold is set for each of a plurality of areas into which captured images are divided, by a threshold map generation unit; Based on the threshold map generated by the threshold map generation unit, person detection by the person detection unit using the person determination threshold corresponding to the region for each of the plurality of regions, Tracking the person detected by the person detection unit by the tracking unit;
  • An image processing method includes calculating a person detection reliability for each detected person by a person detection reliability calculation unit using the person detection result of the person detection unit and the tracking result of the tracking unit.
  • the third aspect of this technology is A computer program for image processing, A procedure for generating a threshold map in which a person determination threshold is set for each of a plurality of areas into which captured images are divided; A procedure for performing person detection using the person determination threshold corresponding to a region for each of the plurality of regions based on the generated threshold map; A procedure for tracking the detected person; A program for causing the computer to execute a procedure for calculating a person detection reliability for each detected person using the person detection result and the tracking result.
  • the program of the present technology is, for example, a storage medium or a communication medium provided in a computer-readable format to a general-purpose computer that can execute various program codes, such as an optical disk, a magnetic disk, or a semiconductor memory. It is a program that can be provided by a medium or a communication medium such as a network. By providing such a program in a computer-readable format, processing corresponding to the program is realized on the computer.
  • a threshold map in which a person determination threshold is set for each of a plurality of areas obtained by dividing the captured image is generated, and based on this threshold map, a person detection threshold corresponding to the area is detected for each of the plurality of areas. Is done. Further, the detected person is tracked, and the person detection reliability is calculated for each detected person using the person detection result and the tracking result. Therefore, highly reliable and accurate person detection information can be obtained. Note that the effects described in the present specification are merely examples and are not limited, and may have additional effects.
  • 1 is a diagram illustrating a configuration of an image processing system. It is a figure which shows the structure of 1st Embodiment. It is a figure for demonstrating the production
  • FIG. 1 illustrates the configuration of the image processing system.
  • the image processing system 10 includes an imaging device 20, an input device 30, an image processing device 40, and a display device 50.
  • the imaging device 20 captures a place where a person moves and generates a captured image.
  • the captured image includes a region where congestion is likely to occur (hereinafter referred to as “congested region”) and another region (hereinafter referred to as “quiet region”).
  • congestion region a region where congestion is likely to occur
  • quiet region another region
  • the input device 30 is configured using an operation key, an operation lever, a touch panel, and the like, receives a user operation, and outputs an operation signal corresponding to the user operation to the image processing device 40.
  • the image processing device 40 generates a threshold map in which a person determination threshold is set for each of a plurality of areas obtained by dividing the captured image generated by the imaging device 20.
  • the image processing apparatus performs person detection using a person determination threshold corresponding to each area based on the generated threshold map.
  • the image processing apparatus 40 tracks the detected person, and calculates the person detection reliability for each detected person using the person detection result and the tracking result. Further, the image processing device 40 counts the number of persons passing through a preset determination position based on the tracking result and the person detection reliability.
  • the image processing device 40 outputs information acquired from the captured image, for example, a signal indicating a count result to the display device 50, and displays the information acquired by the image processing device 40 on the screen.
  • FIG. 2 shows a configuration of the first embodiment of the image processing apparatus of the present technology.
  • the image processing apparatus 40 includes a threshold storage unit 411, a threshold map generation unit 412, a person detection unit 421, a tracking unit 422, a person detection reliability calculation unit 441, a count unit 451, and an output unit 461.
  • the threshold storage unit 411 stores a person determination threshold in advance for each congestion level.
  • the person determination threshold is used as a determination criterion when the person detection unit 421 determines a person as will be described later.
  • the threshold value storage unit 411 outputs a person determination threshold value corresponding to the congestion level indicated from the threshold value map generation unit 412 described later to the threshold value map generation unit 412.
  • the threshold map generation unit 412 generates a threshold map according to a congestion area, a quiet area, and a congestion level set in advance. Based on the operation signal supplied from the input device 30, the threshold map generation unit 412 divides the captured image generated by the imaging device 20 into a plurality of regions having different congestion levels in advance according to a user operation. In the region classification, the image processing device 40 outputs, for example, a captured image generated by the imaging device 20 from the output unit 461 described later to the display device 50 to display the captured image. Using the captured image displayed on the display device 50, the user performs an operation of dividing the captured image into a plurality of regions having different congestion levels.
  • the threshold map generation unit 412 divides the captured image into a congested area and a quiet area based on an operation signal indicating an area dividing operation.
  • FIG. 3 is a diagram for explaining generation of a threshold map.
  • FIG. 3A illustrates a captured image generated by the imaging apparatus 20, where a hatched area is a congested area ARc and another area is a quiet area ARs.
  • the threshold map generation unit 412 acquires a person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area, and generates a threshold map. For example, the user performs an operation of designating a congestion level for the classified area. In FIG. 3A, the congestion level CL is designated for the congestion area ARc. The threshold map generation unit 412 notifies the threshold storage unit 411 of the designated congestion level based on the congestion level designation operation. Further, the threshold map generation unit 412 acquires the person determination threshold indicated from the threshold storage unit 411 in response to the notification of the congestion level, and generates a threshold map corresponding to the divided areas.
  • FIG. 3B illustrates a threshold map. As illustrated in FIG.
  • the threshold map generation unit 412 determines the person determination threshold Thc corresponding to the congestion level CL from the threshold storage unit 411 when the user specifies the congestion level CL for the congestion area ARc. Acquired as the person determination threshold Thc for the congested area ARc. Further, the threshold map generation unit 412 sets other areas excluding the congested areas as the quiet areas ARs, for example, sets the person determination threshold for the quiet areas ARs as a preset person determination threshold Ths.
  • the quiet area ARs is not limited to a preset threshold, and the user sets the congestion level of the quiet area ARs and acquires the person determination threshold Ths corresponding to the set congestion level from the threshold storage unit 411. There may be.
  • the threshold map generation unit 412 generates in advance a threshold map indicating the congested area and the quiet area in the captured image generated by the imaging device 20 and the person determination threshold value for each area in accordance with a user operation, thereby detecting the person. To 421.
  • the person detection unit 421 performs person detection using the captured image generated by the imaging device 20. In person detection, a score indicating the likelihood of a person is calculated. In addition, the person detection unit 421 compares the person determination threshold corresponding to the region with the score of the subject in the region for each region indicated by the threshold map generated by the threshold map generation unit 412, and the score is a person. A subject that is greater than or equal to the determination threshold is determined as a person. The person detection unit 421 outputs a person detection position indicating the position of the subject determined as a person to the tracking unit 422 as a person detection result.
  • the person detection unit 421 uses a feature amount based on gradient information, a feature amount based on color information, a feature amount based on motion, and the like in person detection.
  • the feature amount based on the gradient information is, for example, an HOG (Histograms of Oriented Gradients) feature amount or an EOG (Edge Orientation Histograms) feature amount.
  • the feature amount based on the color information is, for example, an ICF (Integral Channel Feature) feature amount, CSS (Color Self Self Similarity), or the like.
  • the feature quantity based on the motion is, for example, a Haar-like feature quantity or HOF (Histograms of Flow) feature quantity.
  • the person detection unit 421 calculates a score indicating the likelihood of the person using such a feature amount.
  • the person determination threshold is set so that the reproducibility is the maximum when the reproducibility is a certain value or more in the light area, and the reproducibility is the maximum while the constant reproducibility is maintained in the congested area.
  • the recall rate represents how much a person detected by person detection is included in the person included in the captured image.
  • the relevance ratio represents how much a person included in a captured image is included in a person detected by person detection.
  • FIG. 4 is a diagram for explaining the precision and the recall.
  • the set SN indicates the number of person detection results
  • the set SC indicates the correct number of people shown in the captured image
  • the common part SR of the set SN and the set SC is the number of person detection results. It shows the number of correct answers (number of people correctly detected).
  • the precision Rpre is reduced and the recall ratio Rrec is close to “1” as shown in FIG.
  • the recall ratio Rrec is close to “1” as shown in FIG.
  • FIG. 5 exemplifies the relationship between precision, recall, and score.
  • FIG. 5A illustrates a quiet area
  • FIG. 5B illustrates a congested area.
  • the person determination threshold Ths is set so that the relevance ratio Rpre is equal to or greater than a certain value Lpre and the recall ratio Rrec is maximized.
  • the person determination threshold Thc is set so that the relevance ratio Rpre is maximized in a state where the reproduction ratio Rrec is maintained at a certain value Lrec.
  • the relevance ratio Rpre becomes a low value as shown in FIG. May increase the number of false positives. For this reason, false detection is excluded from the person detection result using the person detection reliability described later.
  • the tracking unit 422 performs tracking of the person based on the person detection result supplied from the person detection unit 421.
  • FIG. 6 illustrates human detection results at different times.
  • 6A illustrates the captured image F (t ⁇ 1) at time (t ⁇ 1)
  • FIG. 6B illustrates the captured image F (t) at time (t).
  • the tracking unit 422 sets a tracking frame for each detected person for each person based on the person detection result.
  • the tracking frame is rectangular so as to include a body part with respect to the detected head, for example, so that tracking can be easily performed by using the characteristics of the person. Set as shape.
  • the tracking frame is set so as to include the body part in this way, it is possible to easily track the person using the characteristics of the body part such as a difference in body shape, a difference in clothes, and a difference in color of clothes.
  • the tracking unit 422 sets tracking identification information in the tracking frame so that individual persons can be classified by the tracking identification information.
  • the tracking unit 422 is configured to display the image of the position of the tracking frame WT (t ⁇ 1) set to the captured image F (t ⁇ 1) at time (t ⁇ 1) and the time ( The position of the corresponding tracking frame WT (t) in the captured image F (t) is predicted from the captured image F (t) of t).
  • the tracking unit 422 includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame as a tracking result.
  • the tracking unit 422 outputs the predicted tracking frame and the person detection result corresponding to the tracking frame to the person detection reliability calculation unit 441 as a pair.
  • the position of the head can be assumed with respect to the tracking frame, so the head is assumed to be positioned.
  • the area is assumed to be a person position assumed area corresponding to the tracking frame.
  • the person detection result and the predicted tracking frame are paired, for example, the person detection result is set to the predicted tracking frame. Ensure that tracking identification information is assigned.
  • the tracking unit 422 continues the tracking by adjusting the position of the tracking frame according to the detected position of the head. In this way, if the position of the tracking frame is adjusted according to the detected position of the head, even if an error occurs when the position of the tracking frame is predicted, the error is not accumulated. It becomes possible to carry out with high accuracy.
  • the person detection reliability calculation unit 441 calculates the person detection reliability using the tracking result and the person detection result.
  • the person detection reliability calculation unit 441 holds a tracking frame position and a history of person detection results, and uses the held history for each tracking frame identification information, for example, for the tracking frame in the reliability calculation period.
  • the ratio of the tracking frame in which the person is detected is calculated as the person detection reliability.
  • the person detection reliability calculation unit 441 determines, for each tracking identification information, the ratio of the tracking frame in which the position of the person detection and the tracking frame is paired in the tracking frame in a predetermined frame period from the present to the past, for example. Degree.
  • the person detection reliability calculation unit 441 outputs the calculated person detection reliability to the count unit 451.
  • the person detection reliability calculated in this way increases as the ratio of frames in which a person is detected increases. Therefore, if the person detection reliability is high, the reliability of the person detection result is high. Suppose it is expensive.
  • the tracking unit 422 and the person detection reliability calculation unit 441 are not limited to the case where tracking and person detection reliability are calculated using captured images of consecutive frames, and tracking and capture using a captured image of a predetermined frame interval.
  • the person detection reliability may be calculated. For example, when the movement of the subject is slow, there are few image differences between frames that are adjacent in the time direction. Therefore, it is possible to efficiently calculate tracking and human detection reliability by using captured images at predetermined frame intervals. become able to.
  • FIG. 7 illustrates the tracking result and the person detection result.
  • FIG. 7A shows a case where a person is detected in a person position assumed region corresponding to a tracking frame having the same tracking identification information, for example, at times t ⁇ 2, t ⁇ 1, and t.
  • FIG. 7B shows that a person is detected in the assumed human position area corresponding to the tracking frame only at time t ⁇ 2, for example, and the estimated human position area corresponding to the tracking frame at time t ⁇ 1 and t.
  • the case where a person is not detected is illustrated.
  • the tracking frame at time t-2 is indicated as "WT (t-2)”
  • the tracking frame at time t-1 is indicated as "WT (t-1)
  • the tracking frame at time t is indicated as "WT (t)". ing.
  • the person position assumed area corresponding to the tracking frame WT (t-2) is “ARa (t ⁇ 2)”
  • the person position assumed area corresponding to the tracking frame WT (t ⁇ 1) is “ARa (t ⁇ 1)”.
  • the assumed human position area corresponding to the tracking frame WT (t) is indicated as“ ARa (t) ”.
  • the position where the person is detected in the person position assumption area ARa (t ⁇ 2) is indicated as DH (t ⁇ 2).
  • a position where a person is detected in the assumed human position area ARa (t ⁇ 1) is indicated as DH (t ⁇ 1)
  • a position where a person is detected in the assumed human position area ARa (t) is indicated as DH (t). Yes.
  • the person detection reliability calculation unit 441 outputs the person detection reliability RD calculated for each tracking identification information to the counting unit 451.
  • the counting unit 451 determines a tracking frame that passes through the count line that is the determination position based on the tracking result supplied from the tracking unit 422. In addition, the count unit 451 uses the person detection reliability supplied from the person detection reliability calculation unit 441 and the person detection reliability corresponding to each tracking frame passing through the count line and a preset count target determination. Compare thresholds. Further, the counting unit 451 counts persons with the person corresponding to the tracking frame having the person detection reliability equal to or higher than the counting object determination threshold value as the counting object.
  • FIG. 8 is a diagram illustrating the operation of the count unit.
  • the person detection reliability RD corresponding to the tracking frame WTa crossing the count line Jc is compared with the count target determination threshold.
  • the person detection reliability RD is equal to or higher than the counting target determination threshold, it is assumed that the person detection result corresponding to the tracking frame WTa has detected the person correctly, and the subject corresponding to the tracking frame WTa is counted as the person to be counted.
  • the person detection reliability RD is smaller than the count target determination threshold, the person detection result corresponding to the tracking frame is not counted correctly, and the subject corresponding to the tracking frame is not counted.
  • the count unit 451 outputs the count result to the output unit 461.
  • the output unit 461 causes the display device 50 to display the captured image generated by the imaging device 20.
  • the output unit 461 supplies information indicating a congested area and a quiet area from the threshold map generation unit 412 to the output unit 461, for example, in order to be able to identify a segmented area according to a user operation. A congested area and a quiet area are displayed so as to be distinguishable.
  • the output unit 461 displays an image indicating the position of the count line superimposed on the captured image, for example, so that the position of the count line can be identified.
  • the output unit 461 causes the display device 50 to display information acquired by the image processing device 40, for example, the count result of the count unit 451. If the count result is displayed together with the captured image and the count line, for example, the user can grasp the progress status of the count by displaying the image of the person passing through the count line and the count result calculated from the captured image. .
  • FIG. 9 is a flowchart showing the operation of the first embodiment.
  • the image processing apparatus 40 performs a threshold map generation process.
  • FIG. 10 is a flowchart showing threshold map generation processing.
  • the image processing apparatus 40 accepts a user setting operation.
  • the threshold map generation unit 412 of the image processing device 40 receives the operation signal supplied from the input device 30, and proceeds to step ST12.
  • the image processing apparatus 40 generates a map.
  • the threshold map generation unit 412 of the image processing device 40 classifies the captured image generated by the imaging device 20 into a congested area ARc and a quiet area ARs according to a user operation.
  • the threshold map generation unit 412 acquires a person determination threshold corresponding to the congestion level set by the user from the threshold storage unit 411, and sets a person determination threshold for each of the congestion area ARc and the off-road area ARs. To do.
  • the threshold value map generating unit 412 generates a threshold value map indicating the congested area ARc and the quiet area ARs and the person determination threshold value of each area.
  • step ST2 the image processing apparatus 40 performs a person detection information generation process.
  • FIG. 11 is a flowchart showing person detection information generation processing.
  • the image processing apparatus 40 acquires a captured image.
  • the person detection unit 421 of the image processing device 40 acquires the captured image generated by the imaging device 20, and proceeds to step ST22.
  • the image processing apparatus 40 detects a person.
  • the person detection unit 421 of the image processing apparatus 40 calculates a score indicating the likelihood of the person based on the feature amount using the captured image generated by the imaging apparatus 20. Also, the person detection unit 421 compares the person determination threshold corresponding to the area with the score of the subject in the area for each area indicated by the threshold map, and determines a subject whose score is equal to or higher than the person determination threshold as a person. To do.
  • the person detection unit 421 proceeds to step ST23 with the person detection position, which is the position of the subject determined to be a person, as a person detection result.
  • the image processing apparatus 40 tracks a person.
  • the tracking unit 422 of the image processing device 40 sets a tracking frame based on the person detection result, and tracks the captured image acquired thereafter from the image in the frame of the set tracking frame and the captured image acquired thereafter. Predict the position of the frame.
  • the tracking unit 422 sets tracking identification information when setting a tracking frame. Further, the tracking unit 422 includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame, and proceeds to step ST24 as a tracking result.
  • the image processing apparatus 40 calculates the person detection reliability.
  • the person detection reliability calculation unit 441 of the image processing apparatus 40 indicates the person detection status corresponding to the tracking frame at the predicted position based on the person detection result obtained in step ST22 and the tracking result obtained in step ST23.
  • the person detection reliability is calculated.
  • the person detection reliability calculation unit 441 increases the person detection reliability when the ratio of detecting a person corresponding to the tracking frame at the predicted position is large and increases the person detection reliability when the ratio of detecting a person is small. Reduce the degree.
  • the person detection reliability calculation unit 441 uses the position of the tracking frame and the person detection reliability for each tracking frame as person detection information.
  • step ST3 the image processing apparatus 40 performs a count process.
  • the count unit 451 of the image processing apparatus 40 determines the tracking frame that passes through the count line, using the person detection information generated in step ST2. Further, the subject detection reliability corresponding to the discriminated tracking frame is counted for the subject of the tracking frame that is equal to or higher than a preset counting target determination threshold, and the number of people passing the count line is calculated and stepped Proceed to ST4.
  • step ST4 the image processing apparatus 40 performs output processing.
  • the output unit 461 of the image processing device 40 displays the count processing result obtained in step ST3.
  • the output unit 461 superimposes and displays an image indicating the position of the count line and an image indicating the count result of the person who has passed the count line on the captured image.
  • the first embodiment it is possible to accurately detect a person even in a congested area.
  • the person detection reliability is calculated, it is possible to obtain person detection information with high reliability and high accuracy.
  • the person detection can be accurately performed even in the congested area, the number of persons in the congested area can be accurately calculated by using the person detection information.
  • the count line is set in the congested area, even if a person detected at the position of the quiet area passes through the count line, it may not be counted as a person who has passed through the count line. In such a case, the number of persons passing through the count line cannot be accurately measured. Therefore, in the second embodiment, tracking is performed for a person detected in the quiet area, and when the person moves from the quiet area to the congested area, the person can be detected in the congested area. Specifically, when the position of the tracking frame is predicted by tracking as in the first embodiment, there is a high possibility that a person is located in the person position assumed region corresponding to the tracking frame of the predicted position. . For this reason, the person determination threshold is adjusted so that a person is easily detected in the person position assumption region.
  • FIG. 13 shows the configuration of the second embodiment of the image processing apparatus of the present technology.
  • the image processing apparatus 40 includes a threshold storage unit 411, a threshold map generation unit 412, a threshold adjustment unit 413, a person detection unit 421, a tracking unit 422, a person detection reliability calculation unit 441, a count unit 451, and an output unit 461. Yes.
  • the threshold storage unit 411 stores a person determination threshold in advance for each congestion level.
  • the threshold value storage unit 411 outputs a person determination threshold value corresponding to the congestion level indicated by the threshold value map generation unit 412 to the threshold value map generation unit 412.
  • the threshold map generation unit 412 generates a threshold map in response to a user operation based on the operation signal supplied from the input device 30.
  • the threshold map generation unit 412 divides the captured image generated by the imaging device 20 into a plurality of regions having different congestion levels according to a user operation. Further, the threshold map generation unit 412 acquires the person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area.
  • the threshold map generation unit 412 generates a threshold map indicating, for example, a congested area, a quiet area, and a person determination threshold for each area, and outputs the threshold value to the threshold adjustment unit 413 in association with the divided areas.
  • the threshold adjustment unit 413 performs threshold adjustment on the threshold map generated by the threshold map generation unit 412 based on the tracking result supplied from the tracking unit 422 described later.
  • the threshold adjustment unit 413 adjusts the person determination threshold of the person position assumed region with respect to the tracking frame of the predicted position indicated by the tracking result so that it can be easily determined as a person, and the threshold value adjusted threshold value is converted into a person detection unit.
  • FIG. 14 is a diagram for explaining the adjustment operation of the person determination threshold value. Since the threshold adjustment unit 413 indicates the predicted position of the tracking frame when the person detection is performed next by the tracking result, the person determination threshold value of the person position assumed region corresponding to the tracking frame of the predicted position is set as follows.
  • the threshold adjustment unit 413 sets the range of the width da from the position Pf in the horizontal and vertical directions, respectively, based on the head position Pf assumed from the predicted position of the tracking frame, for example. This is assumed to be a position assumed area ARa. Further, the threshold adjustment unit 413 sets the person determination threshold value of the person position assumption area ARa as the person determination threshold value Tha ( ⁇ Thc) lower than the person determination threshold value Thc before adjustment, and the person is easily detected in the person position assumption area ARa. To do.
  • the person determination threshold value Tha may be a value that is lower than the person determination threshold value Thc by a predetermined reduction amount, or may be a value that is a decrease of the person determination threshold value Thc by a predetermined reduction rate. Further, a reduction amount and a reduction rate may be set according to the congestion level. Further, when a person is not detected in the person position assumption area ARa corresponding to the tracking frame of the predicted position, the user sets a person determination threshold value Tha so that a person is detected in the person position assumption area ARa, and the threshold adjustment unit 413 May use the set person determination threshold value Tha for the subsequent person detection.
  • the person detection unit 421 performs person detection using the captured image generated by the imaging device 20. In person detection, a score indicating the likelihood of a person is calculated. Further, the person detection unit 421 compares the person determination threshold corresponding to the region with the score of the subject in the region for each region indicated by the threshold map adjusted by the threshold adjustment unit 413, and the score is the person determination threshold. The above subject is determined as a person. Here, since the person determination threshold value is adjusted so that it can be easily determined as a person in the person position assumed area, as shown in FIG. 14B, a person who moves from a quiet area to a congested area is congested. Detection is also possible in the area ARc.
  • the person detection unit 421 includes tracking identification information in the information of the person detection position indicating the position of the subject determined to be a person, and outputs the information to the tracking unit 422 as a person detection result.
  • the tracking unit 422 tracks the person detected based on the person detection result supplied from the person detection unit 421, and includes the tracking identification information assigned to the tracking frame in the information indicating the predicted position of the tracking frame. The result is output to the threshold adjustment unit 413 as a tracking result. In addition, the tracking unit 422 outputs the tracking result and the person detection result to the person detection reliability calculation unit 441.
  • the person detection reliability calculation unit 441 calculates the person detection reliability using the tracking result and the person detection result.
  • the person detection reliability calculation unit 441 holds a history of person detection results corresponding to the tracking frame for each tracking identification information.
  • the person detection reliability calculation unit 441 calculates the detection status of person detection corresponding to the tracked position and the tracked position based on the person detection result for each tracking identification information, using the held history.
  • the human detection reliability is assumed.
  • the person detection reliability calculation unit 441 outputs the person detection reliability calculated for each tracking identification information to the counting unit 451.
  • the counting unit 451 determines a tracking frame that passes through the count line that is the determination position based on the tracking result supplied from the tracking unit 422. In addition, the count unit 451 uses the person detection reliability supplied from the person detection reliability calculation unit 441 and the person detection reliability corresponding to each tracking frame passing through the count line and a preset count target determination. Compare thresholds. Further, the counting unit 451 counts persons with the person corresponding to the tracking frame having the person detection reliability equal to or higher than the counting object determination threshold value as the counting object. The count unit 451 outputs the person count result to the output unit 461.
  • the output unit 461 causes the display device 50 to display the captured image generated by the imaging device 20. In addition, the output unit 461 displays the areas and count line positions that are segmented according to the user operation so that they can be identified. Further, the output unit 461 causes the display device 50 to display the count result party information acquired by the image processing device 40.
  • the process of the flowchart shown in FIG. 9 is performed, and in the person detection information generation process in step ST2, the process of the flowchart shown in FIG. 15 is performed unlike the first embodiment.
  • step ST31 of FIG. 15 the image processing apparatus 40 acquires a captured image.
  • the person detection unit 421 of the image processing device 40 acquires the captured image generated by the imaging device 20, and proceeds to step ST32.
  • step ST32 the image processing apparatus 40 adjusts the person determination threshold value.
  • the threshold value adjustment unit 413 of the image processing apparatus 40 adjusts the person determination threshold value of the person position assumed region corresponding to the tracking frame of the predicted position in the threshold value map so that it can be easily determined as a person, and proceeds to step ST33.
  • step ST33 the image processing apparatus 40 detects a person.
  • the person detection unit 421 of the image processing apparatus 40 calculates a score indicating the likelihood of the person based on the feature amount using the captured image generated by the imaging apparatus 20.
  • the person detection unit 421 uses the threshold map in which the person determination threshold is adjusted in step ST32 to compare the person determination threshold and the score of the subject in the area for each region, and the score is equal to or higher than the person determination threshold. It is determined that the subject is a person.
  • the person detection unit 421 proceeds to step ST34 with the person detection position, which is the position of the subject determined to be a person, as a person detection result.
  • the image processing apparatus 40 tracks a person.
  • the tracking unit 422 of the image processing device 40 sets a tracking frame based on the person detection result, and tracks the captured image acquired thereafter from the image in the frame of the set tracking frame and the captured image acquired thereafter. Predict the position of the frame.
  • the tracking unit 422 sets tracking identification information when setting a tracking frame.
  • the tracking unit 422 includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame as a tracking result.
  • the tracking unit 422 outputs the tracking result to the threshold adjustment unit 413 in order to adjust the person determination threshold as described above in the subsequent person detection, and proceeds to step ST35.
  • step ST35 the image processing apparatus 40 calculates the person detection reliability.
  • the person detection reliability calculation unit 441 of the image processing device 40 indicates the person detection status corresponding to the tracking frame at the predicted position based on the person detection result obtained in step ST33 and the tracking result obtained in step ST34.
  • the person detection reliability is calculated.
  • the person detection reliability calculation unit 441 uses the position of the tracking frame and the person detection reliability for each tracking frame as person detection information.
  • the second embodiment it is possible to obtain highly accurate and highly accurate person detection information as in the first embodiment. Furthermore, in the second embodiment, since the person determination threshold value for an area in a predetermined range based on the predicted position of the tracking frame is adjusted so as to be easily determined as a person, the detection accuracy of person detection is reduced. Can be prevented. Therefore, for example, it is possible to prevent the person detected by the person detection at the position of the quiet area from being detected at the position of the crowded area.
  • the person detected in the quiet area is tracked in the past direction, and when the person moves from the congested area to the quiet area, the person can be accurately detected in the congested area. Specifically, tracking in the past direction in which the time direction is opposite to that of the second embodiment is performed.
  • the person determination threshold is adjusted.
  • FIG. 17 shows the configuration of the third embodiment of the image processing apparatus of the present technology.
  • the image processing apparatus 40 includes a threshold storage unit 411, a threshold map generation unit 412, a person detection unit 421, a tracking unit 423, a past image storage unit 431, a back tracking unit 432, a person detection reliability calculation unit 442, a count unit 451, and an output. Part 461.
  • the threshold storage unit 411 stores a person determination threshold in advance for each congestion level.
  • the threshold value storage unit 411 outputs a person determination threshold value corresponding to the congestion level indicated by the threshold value map generation unit 412 to the threshold value map generation unit 412.
  • the threshold map generation unit 412 generates a threshold map in response to a user operation based on the operation signal supplied from the input device 30.
  • the threshold map generation unit 412 divides the captured image generated by the imaging device 20 into a plurality of regions having different congestion levels according to a user operation. Further, the threshold map generation unit 412 acquires the person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area.
  • the threshold map generation unit 412 generates a threshold map indicating, for example, a congested area, a quiet area, and a person determination threshold for each area in association with the area obtained by dividing the acquired person determination threshold, and the person detection unit 421 and the back tracking unit Output to 432.
  • the person detection unit 421 performs person detection using the captured image generated by the imaging device 20. In person detection, a score indicating the likelihood of a person is calculated. Further, the person detection unit 421 compares the person determination threshold corresponding to the region with the score of the subject in the region for each region indicated by the threshold map adjusted by the threshold adjustment unit 413, and the score is the person determination threshold. The above subject is determined as a person. The person detection unit 421 outputs a person detection position indicating the position of the subject determined to be a person to the tracking unit 423 as a person detection result.
  • the tracking unit 423 tracks the person detected based on the person detection result supplied from the person detection unit 421, and includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame.
  • the result is output to the person detection reliability calculation unit 442 as a tracking result.
  • the tracking unit 423 performs tracking in the past direction and performs person detection by adjusting the person determination threshold
  • the tracking result is output to the back tracking unit 432, and the back tracking unit 432 performs tracking and tracking in the past direction.
  • the determination position is adjusted so that person detection can be performed.
  • the tracking unit 423 performs tracking in the past direction when a new person is detected and a tracking frame is set, and the tracking identification information is included in the information indicating the position of the set tracking frame to the back tracking unit 432. Output.
  • the tracking unit 423 performs tracking in the past direction when a person is not detected in the person position assumed region corresponding to the tracking frame and a person is detected at the predicted position, and the person is detected. The tracking result at the time of becoming may be output to the back tracking unit 432.
  • the past image storage unit 431 stores the captured image generated by the imaging device 20 from the present to, for example, a predetermined period in the past.
  • the past image storage unit 431 outputs the stored captured image to the back tracking unit 432.
  • the back tracking unit 432 uses the current captured image or the past captured image stored in the past image storage unit 431, and based on the tracking result supplied from the tracking unit 423, the person in the tracking frame for each tracking identification information. Is tracked in the past direction. In addition, the back tracking unit 432 adjusts the person determination threshold value of the person position assumed region corresponding to the predicted position of the tracking frame in tracking in the past direction so that it can be easily determined as a person, and uses the adjusted threshold map. The person detection result in the past image is acquired.
  • FIG. 18 shows a configuration of the back tracking unit.
  • the back tracking unit 432 includes a past image selection unit 4321, a threshold adjustment unit 4322, a person detection unit 4323, and a tracking unit 4324.
  • the past image selection unit 4321 acquires a past image for predicting the tracking position from the past image storage unit 431, and outputs the acquired past image to the person detection unit 4323 and the tracking unit 4324. For example, when the tracking position at the time (t ⁇ 1) is predicted for the tracking frame at the time t, the captured image at the time (t ⁇ 1) is acquired from the past image storage unit 431. When the tracking position at time (t-2) is predicted for the tracking frame at time (t-1), the captured image at time (t-2) is acquired from the past image storage unit 431.
  • the threshold adjustment unit 4322 performs threshold adjustment on the threshold map generated by the threshold map generation unit 412 based on the tracking result supplied from the tracking unit 4324.
  • the threshold adjustment unit 4322 adjusts the person determination threshold value of the person position assumed region corresponding to the tracking frame of the predicted position indicated by the tracking result so that it can be easily determined to be a person, and the threshold value adjusted threshold value is adjusted to the person.
  • the data is output to the detection unit 4323.
  • the person detection unit 4323 performs person detection using the past image acquired by the past image selection unit 4321. In person detection, a score indicating the likelihood of a person is calculated. In addition, the person detection unit 4323 compares the person determination threshold corresponding to the region with the score of the subject in the region for each region indicated by the threshold map adjusted by the threshold adjustment unit 4322, and the score is the person determination threshold. The above subject is determined as a person. The person detection unit 4323 outputs a person detection position indicating the position of the subject determined as a person to the tracking unit 4324 as a person detection result.
  • the tracking unit 4324 tracks the tracking frame indicated by the tracking unit 423 in the past direction for each tracking identification information. For example, when the tracking result is supplied from the tracking unit 423, the tracking unit 4324 starts tracking in the past direction with respect to the person indicated by the tracking frame of the tracking identification information indicated by the tracking result.
  • the tracking unit 4324 is a past image acquired by the past image selection unit 4321, and uses the image that is older than the captured image used at the time of generating the tracking result supplied from the tracking unit 423 in the past direction. To track.
  • the tracking unit 4324 performs tracking in the past direction, and includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame, and outputs the tracking result to the threshold adjustment unit 4322.
  • the tracking unit 4324 outputs the tracking result and the person detection result to the person detection reliability calculation unit 442 for each tracking identification information.
  • the back tracking unit 432 tracks the tracking frame set by the tracking unit 423 in the past direction for each tracking identification information, and sets the person determination threshold value of the person position assumed region corresponding to the tracking frame of the predicted position.
  • a person is detected by adjusting so that it can be easily determined as a person. That is, the operation described with reference to FIG. 14 in the second embodiment is performed with the time direction reversed, so that the person is tracked retroactively at the position of the quiet area and detected even in the congested area.
  • the person determination threshold is adjusted. Accordingly, as shown in FIG. 19A, ranges of width da from the position Pf in the horizontal and vertical directions with reference to the head position Pf assumed from the predicted position of the tracking frame predicted in the past direction.
  • the threshold adjustment unit 4322 sets the person determination threshold value of the person position assumption area ARa as the person determination threshold value Tha ( ⁇ Thc) lower than the person determination threshold value Thc before adjustment, and thus it is easy to detect a person in the person position assumption area ARa. To do. For this reason, as shown in FIG. 19B, a person who has moved from the congested area to the quiet area can be detected retroactively in the congested area ARc.
  • the back tracking unit 432 counts the tracking frame when tracking is performed in the past direction.
  • the tracking period is set in advance in accordance with, for example, the movement speed of the person.
  • the tracking period may be set based on the person detection result of the person detection unit 421 and the tracking result of the tracking unit 422. For example, it is possible to estimate the moving direction and moving speed of the person using the tracking frame when the person is detected. Further, the distance to the count line can be calculated based on the position of the tracking frame. Therefore, it is possible to set the tracking period so that the tracking frame passes the count line based on the estimated moving direction and speed of the person and the calculated distance to the count line.
  • the person detection reliability calculation unit 442 calculates the person detection reliability using the tracking result and the person detection result.
  • the person detection reliability calculation unit 442 calculates the person detection reliability for each tracking identification information based on the tracking result in the past direction and the person detection result.
  • the person detection reliability calculation unit 442 outputs the person detection reliability calculated for each tracking identification information to the counting unit 451.
  • the counting unit 451 determines a tracking frame that passes through the count line that is the determination position based on the tracking result supplied from the tracking unit 423. In addition, the count unit 451 uses the person detection reliability supplied from the person detection reliability calculation unit 442, and the person detection reliability corresponding to each tracking frame passing through the count line and the preset count target determination. Compare thresholds. Further, the counting unit 451 counts persons with the person corresponding to the tracking frame having the person detection reliability equal to or higher than the counting object determination threshold value as the counting object. The count unit 451 outputs the person count result to the output unit 461.
  • the output unit 461 causes the display device 50 to display the captured image generated by the imaging device 20. In addition, the output unit 461 displays the areas and count line positions that are segmented according to the user operation so that they can be identified. Further, the output unit 461 causes the display device 50 to display the count result party information acquired by the image processing device 40.
  • the process of the flowchart shown in FIG. 9 is performed, and in the person detection information generation process in step ST2, the process of the flowchart shown in FIG. 20 is performed unlike the first embodiment.
  • step ST41 in FIG. 20 the image processing apparatus 40 acquires a captured image.
  • the person detection unit 421 of the image processing device 40 acquires the captured image generated by the imaging device 20, and proceeds to step ST42.
  • step ST42 the image processing apparatus 40 adds the acquired captured image to the past image group.
  • the past image storage unit 431 of the image processing apparatus 40 sequentially stores the acquired captured images, deletes the captured images in order from the oldest captured image, and stores the captured images from the present to the past predetermined period as a past image group. In this way, the process proceeds to step ST43.
  • the image processing apparatus 40 detects a person.
  • the person detection unit 421 of the image processing apparatus 40 calculates a score indicating the likelihood of the person based on the feature amount using the captured image generated by the imaging apparatus 20. Also, the person detection unit 421 compares the person determination threshold corresponding to the area with the score of the subject in the area for each area indicated by the threshold map, and determines a subject whose score is equal to or higher than the person determination threshold as a person. To do.
  • the person detection unit 421 proceeds to step ST44 with the person detection position, which is the position of the subject determined to be a person, as a person detection result.
  • the image processing apparatus 40 tracks a person.
  • the tracking unit 423 of the image processing device 40 sets a tracking frame based on the person detection result, and tracks the captured image acquired thereafter from the image within the frame of the set tracking frame and the captured image acquired thereafter. Predict the position of the frame.
  • the tracking unit 423 sets tracking identification information when setting a tracking frame.
  • the tracking unit 423 includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame as a tracking result.
  • the tracking unit 423 proceeds to step ST45 so that the tracking result is used in the back tracking process.
  • step ST45 the image processing apparatus 40 performs backtracking processing.
  • FIG. 21 is a flowchart showing the back tracking process.
  • the back tracking unit 432 selects a past image.
  • the past image selection unit 4321 of the back tracking unit 432 acquires a past image for predicting the position of the tracking frame from the past image storage unit 431, and proceeds to step ST52.
  • step ST52 the back tracking unit 432 adjusts the person determination threshold value.
  • the threshold adjustment unit 4322 of the back tracking unit 432 determines that the person determination threshold of the person position assumed area corresponding to the tracking frame of the predicted position in the past image older than the captured image in which the person is detected is a person. The adjustment is made so as to make it easier, and the process proceeds to step ST53.
  • step ST53 the back tracking unit 432 detects a person.
  • the person detection unit 4323 of the back tracking unit 432 calculates a score indicating the probability of the person based on the feature amount using the past image acquired in step ST51.
  • the person detection unit 4323 uses a threshold map in which the person determination threshold is adjusted, and compares the person determination threshold corresponding to the area with the score of the subject in the area for each area indicated by the threshold map. Then, a subject whose score is equal to or higher than the person determination threshold is determined as a person.
  • the person detection unit 4323 proceeds to step ST54 with the person detection position, which is the position of the subject determined to be a person, as a person detection result.
  • the back tracking unit 432 tracks a person.
  • the tracking unit 4324 of the back tracking unit 432 predicts the position of the tracking frame in the acquired past image from the image within the frame of the tracking frame set by the tracking unit 423 and the acquired past image.
  • the tracking unit 4324 includes the tracking identification information set in the tracking frame in the information indicating the predicted position of the tracking frame as a tracking result.
  • the tracking unit 4324 outputs the tracking result to the threshold adjustment unit 4322 in order to adjust the person determination threshold as described above in subsequent human detection.
  • the back tracking unit 432 outputs the tracking result and the person detection result to the person detection reliability calculation unit 442 for each tracking identification information.
  • the image processing apparatus 40 calculates the person detection reliability.
  • the person detection reliability calculation unit 442 of the image processing apparatus 40 includes the person detection result obtained by the person detection in step ST43, the tracking frame setting in step ST44, and the tracking result obtained in the back tracking process in step ST45.
  • the person detection reliability is calculated based on the person detection result.
  • the person detection reliability calculation unit 441 uses the position of the tracking frame and the person detection reliability for each tracking frame as person detection information.
  • the third embodiment it is possible to obtain highly accurate and highly accurate person detection information as in the first embodiment. Furthermore, in the third embodiment, since the person determination threshold value for an area in a predetermined range based on the position of the tracking frame predicted in the past direction is adjusted so as to be easily determined as a person, the detection accuracy of person detection It becomes possible to prevent a decrease in the level. Therefore, for example, when a person who has moved from a crowded area to a quiet area is detected in the quiet area, it can be detected in the crowded area by backtracking processing.
  • the fourth embodiment exemplifies a case where a function for generating threshold information stored in the threshold storage unit 411 is provided.
  • FIG. 22 shows a configuration of the image processing apparatus according to the fourth embodiment of the present technology.
  • the image processing apparatus 40 includes a learning image group storage unit 401, a threshold learning unit 402, a threshold storage unit 411, a threshold map generation unit 412, a person detection unit 421, a tracking unit 422, a person detection reliability calculation unit 441, and a counting unit 451. And an output unit 461.
  • the learning image group storage unit 401 stores a learning image group for determining a person determination threshold value according to the congestion state by learning.
  • the learning image group storage unit 401 stores, for example, a crowded image group and a quiet image group as learning image groups.
  • the crowded image group is an image group in a state where people are crowded, and the image group is composed of one or a plurality of images for each congestion level.
  • the quiet image group is an image group in which people are dispersed.
  • the threshold learning unit 402 sets a person determination threshold corresponding to a congested area and a person determination threshold corresponding to a quiet area using the learning image.
  • the threshold learning unit 402 sets a person determination threshold for each congestion level using the learning image.
  • FIG. 23 and FIG. 24 are diagrams for explaining a person determination threshold value learning method performed by the threshold value learning unit 402.
  • (A) and (b) of FIG. 23 exemplify a learning image when the congestion level is high in the congestion area (congestion level 1), and the relationship between the recall rate and the matching rate and the threshold value.
  • (C) and (d) in FIG. 23 exemplify a learning image when the congestion level is lower than that in (a) in FIG. 23 (congestion level 2), and the relationship between the recall rate, the matching rate, and the threshold value. is doing.
  • (E) and (f) of FIG. 23 illustrate the learning image when the congestion level is lower than that of (c) of FIG.
  • the threshold learning unit 402 performs learning using the learning image and the correct answer data of the person reflected in the learning image. In learning of a congested area, an image for each congestion level in which people are uniformly congested in an image is used as a learning image so as not to be affected by the distribution of people in the image. Further, the threshold learning unit 402 calculates the reproduction rate Rrec and the relevance rate Rpre for each image group while changing the threshold value for the image for each congestion level. Further, the threshold value learning unit 402 sets a threshold value at which the recall rate Rrec is “Lrec” or more and the matching rate Rpre is the highest at each congestion level as the person determination threshold value. For example, in the congestion level 1, the person determination threshold is “Thc1”, in the congestion level 2, the person determination threshold is “Thc2”, and in the congestion level 3, the person determination threshold is “Thc3”.
  • the threshold learning unit 402 calculates the recall rate Rrec and the matching rate Rpre while changing the threshold value. Furthermore, the threshold value learning unit 402 sets the threshold value at which the relevance rate Rpre is “Lpre” or higher and the recall rate Rrec is the highest as the person determination threshold value. For example, the person determination threshold value in the quiet area is “Ths”. In the quiet area, as shown in FIG. 24, both the recall rate Rrec and the matching rate Rpre may be set to be high.
  • the threshold storage unit 411 stores the learning result of the threshold learning unit 402 and outputs a person determination threshold corresponding to the congestion level indicated by the threshold map generation unit 412 to the threshold map generation unit 412.
  • the threshold map generation unit 412 generates a threshold map in response to a user operation based on the operation signal supplied from the input device 30.
  • the threshold map generation unit 412 divides the captured image generated by the imaging device 20 into a plurality of regions having different congestion levels according to a user operation. Further, the threshold map generation unit 412 acquires the person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area.
  • the threshold map generation unit 412 generates a threshold map indicating, for example, a congested area, a quiet area, and a person determination threshold for each area, and outputs the threshold value map to the person detection unit 421 in association with the areas obtained by dividing the acquired person determination threshold.
  • the person detection unit 421 performs person detection using the captured image generated by the imaging device 20. In person detection, a score indicating the likelihood of a person is calculated. In addition, the person detection unit 421 compares the person determination threshold corresponding to the area with the score of the subject in the area for each area indicated by the threshold map, and determines a subject whose score is equal to or greater than the person determination threshold as a person. To do. The person detection unit 421 outputs a person detection position indicating the position of the subject determined as a person to the tracking unit 422 as a person detection result.
  • the tracking unit 422 tracks the person detected based on the person detection result supplied from the person detection unit 421, and includes the tracking identification information assigned to the tracking frame in the information indicating the predicted position of the tracking frame. The result is output to the threshold adjustment unit 413 as a tracking result. In addition, the tracking unit 422 outputs the tracking result and the person detection result to the person detection reliability calculation unit 441.
  • the person detection reliability calculation unit 441 calculates the person detection reliability using the tracking result and the person detection result.
  • the person detection reliability calculation unit 441 holds a history of person detection results corresponding to the tracking frame for each tracking identification information. Further, the person detection reliability calculation unit 441 uses the history held as the person detection reliability for each tracking identification information.
  • the person detection reliability calculation unit 441 outputs the person detection reliability calculated for each tracking identification information to the counting unit 451.
  • the counting unit 451 determines a tracking frame that passes through the count line that is the determination position based on the tracking result supplied from the tracking unit 422. In addition, the count unit 451 uses the person detection reliability supplied from the person detection reliability calculation unit 441 and the person detection reliability corresponding to each tracking frame passing through the count line and a preset count target determination. Compare thresholds. Further, the counting unit 451 counts persons with the person corresponding to the tracking frame having the person detection reliability equal to or higher than the counting object determination threshold value as the counting object. The count unit 451 outputs the person count result to the output unit 461.
  • the output unit 461 causes the display device 50 to display the captured image generated by the imaging device 20. In addition, the output unit 461 displays the areas and count line positions that are segmented according to the user operation so that they can be identified. Further, the output unit 461 causes the display device 50 to display the count result party information acquired by the image processing device 40.
  • FIG. 25 is a flowchart showing the operation of the fourth embodiment.
  • the image processing apparatus 40 performs a threshold learning process.
  • FIG. 26 is a flowchart showing the threshold learning process.
  • step ST71 the image processing apparatus 40 acquires learning information.
  • the threshold learning unit 402 of the image processing apparatus 40 acquires learning data and correct data of a person reflected in the learning image as learning information.
  • the learning image has a crowded image group for each congestion level where people are uniformly crowded in the image, and the people are uniformly dispersed in the image.
  • the quiet image group is used.
  • the threshold learning unit 402 acquires learning information and proceeds to step ST72.
  • step ST72 the image processing apparatus 40 calculates the precision and the recall.
  • the threshold value learning unit 402 of the image processing device 40 calculates the relevance ratio Rpre and the recall ratio Rrec for each image group while changing the threshold value for the crowded image group and the quiet image group for each congestion level, and proceeds to step ST73.
  • the image processing apparatus 40 sets a person determination threshold value.
  • the threshold value learning unit 402 of the image processing apparatus 40 sets a threshold value that makes the reproduction rate Rrec equal to or higher than “Lrec” and has the highest matching rate Rpre for each congestion level as the person determination threshold value. Further, the threshold value learning unit 402 sets a threshold value at which the relevance ratio Rpre is “Lpre” or more and the recall ratio Rrec is the highest for the quiet image group as the person determination threshold value.
  • the threshold value learning unit 402 causes the threshold value storage unit 411 to store the person determination threshold value set for each image group of the congestion image group and the quiet image group for each congestion level.
  • the image processing apparatus 40 performs a threshold map generation process.
  • the threshold map generation unit 412 of the image processing device 40 performs the same process as step ST1 of FIG. That is, the threshold map generation unit 412 divides the captured image into a plurality of regions having different congestion levels according to user operations. Further, the threshold map generation unit 412 acquires the person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area. Further, the threshold map generation unit 412 generates a threshold map in association with the area obtained by dividing the acquired person determination threshold, and the process proceeds to step ST63.
  • step ST63 the image processing apparatus 40 performs a person detection information generation process.
  • the image processing apparatus 40 performs the same process as step ST2 of FIG.
  • the person detection unit 421 performs subject detection and generates a person detection result indicating the person detection position.
  • the tracking unit 422 sets the tracking frame using the person detection result, and the tracking frame in the captured image acquired after that is determined from the image in the frame of the set tracking frame and the captured image acquired thereafter. Predict the position and track the person in the tracking frame.
  • the person detection reliability calculation unit 441 calculates the person detection reliability based on the tracking result and the person detection result.
  • the image processing apparatus 40 proceeds to step ST64 using the position of the tracking frame and the person detection reliability for each tracking frame as person detection information.
  • step ST64 the image processing apparatus 40 performs a count process.
  • the counting unit 451 of the image processing apparatus 40 performs the same process as step ST3 in FIG. 9, and determines the tracking frame that passes the count line from the position of the tracking frame in the person detection information generated in step ST63. Further, in the determined tracking frame, the number of persons passing the count line is calculated by counting the persons in the tracking frame whose person detection reliability is equal to or higher than a preset counting target determination threshold, and calculating the number of people passing the count line Proceed to ST65.
  • step ST65 the image processing apparatus 40 performs output processing.
  • the output unit 461 of the image processing apparatus 40 performs the same processing as step ST4 in FIG. 9 and displays the count processing result obtained in step ST64.
  • the person determination threshold is set by learning using the crowded image group and the quiet image group, it is possible to set the optimum person determination threshold according to the congestion situation of the person. . Therefore, person detection can be optimally performed according to the congestion level in each of the congestion area and the quiet area.
  • the threshold value map is generated according to the congestion area, the quiet area, and the congestion level of the congestion area set in advance based on the user operation or the like.
  • the region setting and the congestion level setting are not limited to the case where the setting is performed based on a user operation or the like.
  • the threshold map may be generated by automatically setting the area and the congestion level based on the captured image. In another embodiment, a case where the area setting and the congestion level setting are automatically performed will be described.
  • FIG. 27 illustrates the configuration of another embodiment.
  • the image processing apparatus 40 includes a congestion level detection unit 410, a threshold storage unit 411, a threshold map generation unit 412, a person detection unit 421, a tracking unit 422, a person detection reliability calculation unit 441, a count unit 451, and an output unit 461. ing.
  • the congestion level detection unit 410 detects the congestion level using the captured image acquired by the imaging device 20.
  • the congestion level detection unit 410 is a person for an image region as disclosed in, for example, the document “V. Lempisky and A. Zizzerman,“ Learning to count objects in images ”, in Neural Information Processing Systems, (2010).
  • a dictionary showing the relationship between the density and the feature amount is generated in advance, and in the detection of the congestion level, the congestion level of the person is predicted from the feature value extraction result of the image.
  • a moving object is detected from a plurality of captured images having different imaging times, and the congestion level is high when a large number of moving objects are detected, and the congestion level is low when the detection of a moving object is small.
  • the congestion level detection unit 410 outputs the congestion level detection result to the threshold map generation unit 412.
  • the threshold storage unit 411 stores a person determination threshold in advance for each congestion level.
  • the threshold value storage unit 411 outputs a person determination threshold value corresponding to the congestion level indicated by the threshold value map generation unit 412 to the threshold value map generation unit 412.
  • the threshold map generation unit 412 generates a threshold map in response to a user operation based on the operation signal supplied from the input device 30.
  • the threshold map generation unit 412 divides the captured image generated by the imaging device 20 into a plurality of regions having different congestion levels according to a user operation. Further, the threshold map generation unit 412 acquires the person determination threshold from the threshold storage unit 411 according to the user's congestion level designation operation for the divided area.
  • the threshold map generation unit 412 generates a threshold map indicating, for example, a congested area, a quiet area, and a person determination threshold for each area, and outputs the threshold value map to the person detection unit 421 in association with the areas obtained by dividing the acquired person determination threshold.
  • the person detection unit 421 performs person detection using the captured image generated by the imaging device 20. In person detection, a score indicating the likelihood of a person is calculated. In addition, the person detection unit 421 compares the person determination threshold corresponding to the area with the score of the subject in the area for each area indicated by the threshold map, and determines a subject whose score is equal to or greater than the person determination threshold as a person. To do. The person detection unit 421 outputs a person detection position indicating the position of the subject determined as a person to the tracking unit 422 as a person detection result.
  • the tracking unit 422 tracks the person detected based on the person detection result supplied from the person detection unit 421, and includes the tracking identification information assigned to the tracking frame in the information indicating the predicted position of the tracking frame. The result is output to the threshold adjustment unit 413 as a tracking result. In addition, the tracking unit 422 outputs the tracking result and the person detection result to the person detection reliability calculation unit 441.
  • the person detection reliability calculation unit 441 calculates the person detection reliability using the tracking result and the person detection result.
  • the person detection reliability calculation unit 441 stores a history of person detection results corresponding to the tracking frame for each tracking identification information, and calculates a person detection reliability for each tracking identification information using the stored history. To do.
  • the person detection reliability calculation unit 441 outputs the person detection reliability calculated for each tracking identification information to the counting unit 451.
  • the counting unit 451 determines a tracking frame that passes through the count line that is the determination position based on the tracking result supplied from the tracking unit 422. In addition, the count unit 451 uses the person detection reliability supplied from the person detection reliability calculation unit 441 and the person detection reliability corresponding to each tracking frame passing through the count line and a preset count target determination. Compare thresholds. Further, the counting unit 451 counts persons with the person corresponding to the tracking frame having the person detection reliability equal to or higher than the counting object determination threshold value as the counting object. The count unit 451 outputs the person count result to the output unit 461.
  • the output unit 461 causes the display device 50 to display the captured image generated by the imaging device 20. In addition, the output unit 461 displays the areas and count line positions that are segmented according to the user operation so that they can be identified. Further, the output unit 461 causes the display device 50 to display the count result party information acquired by the image processing device 40.
  • FIG. 28 is a flowchart showing the operation of another embodiment.
  • the image processing apparatus 40 performs a congestion degree detection process.
  • the congestion level detection unit 410 of the image processing device 40 detects the congestion level using the captured image generated by the imaging device 20, and proceeds to step ST82.
  • step ST82 the image processing apparatus 40 performs threshold map generation processing.
  • the threshold map generation unit 412 of the image processing device 40 divides the captured image into a congested area and a quiet area according to the congestion level detected in step ST81. Further, the threshold map generation unit 412 acquires a person determination threshold value corresponding to the congestion level of each area from the threshold storage unit 411 for each of the congested area and the quiet area, and sets a person determination threshold value for each area. Thus, a threshold map is generated, and the process proceeds to step ST83.
  • step ST83 the image processing apparatus 40 performs a person detection information generation process.
  • the image processing apparatus 40 performs the same process as step ST2 of FIG.
  • the person detection unit 421 performs subject detection and generates a person detection result indicating the person detection position.
  • the tracking unit 422 sets the tracking frame using the person detection result, and the tracking frame in the captured image acquired after that is determined from the image in the frame of the set tracking frame and the captured image acquired thereafter. Predict the position and track the person in the tracking frame.
  • the person detection reliability calculation unit 441 calculates the person detection reliability based on the tracking result and the person detection result.
  • the image processing apparatus 40 proceeds to step ST84 using the position of the tracking frame and the person detection reliability for each tracking frame as person detection information.
  • step ST84 the image processing apparatus 40 performs a count process.
  • the counting unit 451 of the image processing apparatus 40 performs the same processing as step ST3 in FIG. 9, and determines the tracking frame that passes the count line from the position of the tracking frame in the person detection information generated in step ST83. Further, in the determined tracking frame, the number of persons passing the count line is calculated by counting the persons in the tracking frame whose person detection reliability is equal to or higher than a preset counting target determination threshold, and calculating the number of people passing the count line Proceed to ST85.
  • step ST85 the image processing apparatus 40 performs output processing.
  • the output unit 461 of the image processing apparatus 40 performs the same process as step ST4 of FIG. 9 and displays the count process result obtained in step ST84.
  • the setting of the congestion area and the quiet area and the person determination threshold value according to the area are automatically set from the captured image, so that the user can set the area and the congestion level of the area. There is no need to perform the setting operation, and the use of the image processing apparatus is facilitated.
  • the congestion level of the area changes, it is possible to optimize the person determination threshold according to the change, and it is possible to improve the accuracy of person detection compared to the case where the user sets the congestion level. It becomes.
  • the third embodiment is applied to the second embodiment described above, it is reliable whether a person moves from a crowded area to a crowded area or from a crowded area to a crowded area. Highly accurate human detection information can be obtained.
  • the case where the number of persons passing through the count line is measured has been described.
  • some processes in the above-described flowchart may be omitted depending on the information to be acquired. For example, when acquiring information indicating the tracking result of a person who moves between a congested area and a quiet area, the counting process can be omitted in the flowchart showing the operation of the embodiment.
  • the output process a tracking result with high reliability may be displayed on the display device 50 based on the person detection reliability information.
  • the series of processing described in the specification can be executed by hardware, software, or a combined configuration of both.
  • a program in which a processing sequence is recorded is installed and executed in a memory in a computer incorporated in dedicated hardware.
  • the program can be installed and executed on a general-purpose computer capable of executing various processes.
  • the program can be recorded in advance on a hard disk, SSD (Solid State Drive), or ROM (Read Only Memory) as a recording medium.
  • the program is a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto optical disc), a DVD (Digital Versatile Disc), a BD (Blu-Ray Disc (registered trademark)), a magnetic disk, or a semiconductor memory card. It can be stored (recorded) in a removable recording medium such as temporarily or permanently. Such a removable recording medium can be provided as so-called package software.
  • the program may be transferred from the download site to the computer wirelessly or by wire via a network such as LAN (Local Area Network) or the Internet.
  • the computer can receive the program transferred in this way and install it on a recording medium such as a built-in hard disk.
  • the image processing apparatus may have the following configuration.
  • a threshold map generation unit that generates a threshold map in which a person determination threshold is set for each of a plurality of areas into which captured images are divided; Based on the threshold map generated by the threshold map generation unit, a person detection unit that performs person detection using the person determination threshold corresponding to a region for each of the plurality of regions;
  • a tracking unit for tracking the person detected by the person detection unit;
  • An image processing apparatus comprising: a person detection reliability calculation unit that calculates a person detection reliability for each detected person using the person detection result of the person detection unit and the tracking result of the tracking unit.
  • the image processing apparatus (2) The image processing apparatus according to (1), wherein the captured image is divided into a congested area and a quiet area, and the person determination threshold is set according to a congestion level of the area. (3) The person determination threshold value of the crowded area is detected by the person detection in a state in which a reproduction rate representing how many persons detected by the person detection are included in the crowded area person is maintained at a predetermined level. The image processing apparatus according to (2), wherein a setting is made such that the relevance ratio indicating how much of the crowded person is included in the selected person is maximized.
  • the person determination threshold value in the quiet area is such that a matching rate indicating how much the person in the quiet area is included in the person detected by the person detection is equal to or higher than a predetermined level, and the person in the person in the quiet area is the person
  • the person detection unit calculates a score indicating the probability of being a person for a subject, and determines that the person is a person when the calculated score is equal to or greater than a person determination threshold corresponding to the position of the subject.
  • the image processing apparatus according to any one of (4).
  • the tracking unit sets a tracking frame for the person detected by the person detection unit, and uses the captured image having an imaging time different from the image in the frame of the tracking frame to determine the imaging time.
  • the image processing device according to any one of (1) to (5), wherein the position of the tracking frame in different captured images is predicted.
  • the tracking unit sets different tracking identification information for each person in the tracking frame, predicts the position of the tracking frame for each tracking identification information, and corresponds to the tracking frame of the predicted position.
  • the image processing apparatus according to (6), wherein the tracking identification information set in the tracking frame of the predicted position is included in information indicating a person detection result obtained by the person detection unit in a person position assumed region.
  • the threshold learning unit sets a threshold value at which a reproduction rate is equal to or higher than a predetermined level and the highest matching rate is a person determination threshold in a congested region, and a threshold value or a reproduction rate at which the matching rate is higher than a predetermined level and has the highest reproduction rate in a quiet region.
  • the image processing apparatus according to (3) wherein a threshold value at which both the relevance ratios are high is a person determination threshold value.
  • the threshold map generation unit generates the threshold map according to the congestion area, the quiet area, and the congestion level of the congestion area set in advance.
  • the threshold map generation unit classifies the congestion region and the quiet region based on the congestion level detected by the congestion level detection unit, and generates the threshold map according to the congestion level for each divided region.
  • the person detection reliability is equal to or greater than a count target determination threshold and passes a preset determination position.
  • the image processing apparatus according to any one of (1) to (14), further including a count unit that counts the number of persons passing through the determination position, with a person being counted.
  • a threshold map in which a person determination threshold is set for each of a plurality of areas obtained by dividing the captured image is generated, and the area is determined for each of the plurality of areas based on the threshold map.
  • Person detection is performed using a corresponding person determination threshold. Further, the detected person is tracked, and the person detection reliability is calculated for each detected person using the person detection result and the tracking result. For this reason, it becomes possible to obtain highly accurate and accurate person detection information. Therefore, for example, the number of passersby can be accurately measured from a captured image of a monitoring camera or the like.
  • DESCRIPTION OF SYMBOLS 10 ... Image processing system 20 ... Imaging device 30 ... Input device 40 ... Image processing device 50 ... Display device 401 ... Learning image group memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

閾値マップ生成部412は、入力装置30からの操作信号に基づき撮像画像を混雑領域と閑散領域に区分して、領域毎に混雑レベルに応じた人物判定閾値を閾値記憶部411から取得して閾値マップを生成する。人物検出部421は、閾値マップに基づき、複数領域毎に領域に対応する人物判定閾値を用いて人物検出を行う。追尾部422は、検出された人物の追尾を行う。人物検出信頼度算出部441は、人物検出結果と追尾結果を用いて、検出された人物毎に人物検出信頼度を算出する。したがって、信頼度が高く精度よい人物検出情報を得ることができるようになる。

Description

画像処理装置と画像処理方法およびプログラム
 この技術は、画像処理装置と画像処理方法およびプログラムに関し、信頼度が高く精度よい人物検出情報を得られるようにする。
 従来、撮像装置で生成された画像から人物を検出して、検出された人物をカウントする技術が開示されている。例えば、特許文献1では、人物追跡位置情報の軌跡をフィルタ部に供給して、フィルタ部で選択された選択人物位置情報の軌跡(人物軌跡)の数から人物を集計することが行われている。また、フィルタ部では、人物位置情報の軌跡の中で人物が接近してくる接近人物軌跡の数が顔位置情報の軌跡の数に略等しくなるように、フィルタリングパラメータを調節して、人物追跡位置情報を選択することが行われている。
特開2013-206018号公報
 ところで、撮像装置で生成された画像から人物を検出する場合、人物が混雑していない領域を撮像した画像では人同士の重なりが少ない。したがって、精度の高い人物検出が可能である。しかし、人物が混雑している領域を撮像すると、この領域を撮像した画像では人同士の重なりの発生頻度が高くなり、人物を個々に精度よく検出することが難しくなってしまう。
 そこで、この技術では、信頼度が高く精度よい人物検出結果を得ることができる画像処理装置と画像処理方法およびプログラムを提供することを目的とする。
 この技術の第1の側面は、
 撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する閾値マップ生成部と、
 前記閾値マップ生成部で生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出を行う人物検出部と、
 前記人物検出部で検出された人物の追尾を行う追尾部と、
 前記人物検出部の人物検出結果と前記追尾部の追尾結果を用いて、前記検出された人物毎に人物検出信頼度を算出する人物検出信頼度算出部と
を備える画像処理装置にある。
 この技術においては、撮像画像がユーザ操作によってまたは撮像画像の混雑レベル検出結果に基づいて混雑領域と閑散領域に区分される。閾値マップ生成部は、領域の混雑レベルに応じた人物判定閾値を用いて、領域毎に人物判定閾値を示した閾値マップを生成する。人物判定閾値は、混雑領域の人物において人物検出によって検出される人物がどの程度含まれるかを表す再現率を所定レベルに維持した状態で、人物検出によって検出された人物において混雑領域の人物がどの程度含まれるかを表す適合率が最大となるように設定する。また、閑散領域の人物判定閾値は、人物検出によって検出された人物において閑散領域の人物がどの程度含まれるかを表す適合率が所定レベル以上で、閑散領域の人物において人物検出によって検出される人物がどの程度含まれるかを表す再現率が最大となるように設定する。人物判定閾値は、例えば混雑領域と閑散領域の学習用画像を用いて閾値学習部によって予め設定しておく。
 人物検出部は、人物であることの確度を示すスコアの算出を被写体に対して行い、算出したスコアが閾値マップの被写体の位置に対応する人物判定閾値以上であるとき人物と判定する。追尾部は、人物検出部で検出された人物に対して追尾枠を設定して、追尾枠の枠内の画像と撮像時刻が異なる撮像画像を用いて、撮像時刻が異なる撮像画像における追尾枠の位置を予測する。また、追尾部は、追尾枠に対して人物毎に異なる追尾識別情報を設定して、追尾識別情報毎に追尾枠の位置の予測を行い、予測位置の追尾枠に対応する人物位置想定領域内において人物検出部で得られた人物検出結果を示す情報に予測位置の追尾枠に設定された追尾識別情報を含める。人物検出信頼度算出部は、人物検出部の人物検出結果と追尾部の追尾結果を用いて、信頼度算出期間における追尾位置での人物検出状況を、検出された人物毎に算出して人物検出信頼度とする。
 また、追尾部は、閑散領域で検出された人物を追尾して、人物の予測位置が混雑領域であるとき、閾値マップにおける予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整する閾値調整部を設ける。
 また、閑散領域で検出された人物について過去方向に追尾と人物検出を行い、追尾における人物の予測位置が混雑領域であるとき、閾値マップにおける予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整して、調整後の人物判定閾値を用いて人物検出を行うバックトラッキング部を設ける。また、バックトラッキング部を設けた場合、人物検出信頼度算出部は、バックトラッキング部で取得した人物検出結果と追尾結果を用いて人物検出信頼度を算出する
 さらに、画像処理装置では、人物検出信頼度算出部で算出された人物検出信頼度と追尾部の追尾結果に基づき、人物検出信頼度がカウント対象判別閾値以上であって予め設定したカウント位置を通過する人物をカウント対象として、カウント位置を通過する人物の数をカウントするカウント部を設ける。
 この技術の第2の側面は、
 撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを閾値マップ生成部で生成することと、
 前記閾値マップ生成部で生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出部で人物検出を行うことと、
 前記人物検出部で検出された人物の追尾を追尾部で行うことと、
 前記人物検出部の人物検出結果と前記追尾部の追尾結果を用いて、前記検出された人物毎に人物検出信頼度を人物検出信頼度算出部で算出することと
を含む画像処理方法にある。
 この技術の第3の側面は、
 画像処理をコンピュータで行われるプログラムであって、
 撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する手順と、
 生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出を行う手順と、
 前記検出された人物の追尾を行う手順と、
 前記人物検出結果と前記追尾結果を用いて、前記検出された人物毎に人物検出信頼度を算出する手順と
を前記コンピュータで実行させるプログラムにある。
 なお、本技術のプログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。
 この技術によれば、撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップが生成されて、この閾値マップに基づき、複数領域毎に領域に対応する人物判定閾値を用いて人物検出が行われる。また、検出された人物の追尾を行い、人物検出結果と追尾結果を用いて、検出された人物毎に人物検出信頼度が算出される。したがって、信頼度が高く精度よい人物検出情報を得ることができるようになる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
画像処理システムの構成を例示した図である。 第1の実施の形態の構成を示す図である。 閾値マップの生成を説明するための図である。 適合率と再現率を説明するための図である。 適合率と再現率とスコアの関係を例示した図である。 異なる時刻の人物検出結果を例示した図である。 追尾結果と人物検出結果を例示した図である。 カウント部の動作を例示した図である。 第1の実施の形態の動作を示すフローチャートである。 閾値マップ生成処理を示すフローチャートである。 人物検出情報生成処理を示すフローチャートである。 閑散領域から混雑領域に人物が移動している場合を示す図である。 第2の実施の形態の構成を示した図である。 人物判定閾値の調整動作を説明するための図である。 第2の実施の形態における人物検出情報生成処理を示すフローチャートである。 混雑領域から閑散領域に人物が移動している場合を示す図である。 第3の実施の形態の構成を示した図である。 バックトラッキング部の構成を示す図である。 バックトラッキング部の動作を示す図である。 第3の実施の形態における人物検出情報生成処理を示すフローチャートである。 バックトラッキング処理を示すフローチャートである。 第4の実施の形態の構成を示した図である。 人物判定閾値の学習方法(混雑領域)を説明するための図である。 人物判定閾値の学習方法(閑散領域)を説明するための図である。 第4の実施の形態の動作を示すフローチャートである。 閾値学習処理を示すフローチャートである。 他の実施の形態の構成を示した図である。 他の実施の形態の動作を示すフローチャートである。
 以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
 1.画像処理システムについて
 2.第1の実施の形態
 3.第2の実施の形態
 4.第3の実施の形態
 5.第4の実施の形態
 6.他の実施の形態
 <1.画像処理システムについて>
 図1は、画像処理システムの構成を例示している。画像処理システム10は、撮像装置20、入力装置30、画像処理装置40および表示装置50を有している。
 撮像装置20は、人が移動する場所を撮像して撮像画像を生成する。撮像画像では、混雑が生じ易い領域(以下「混雑領域」という)と他の領域(以下「閑散領域」という)が含まれている。例えば、幅が狭い通路と幅が広い通路との接続部分やゲート等が設けられている場所を撮像した撮像画像では、幅が狭い通路を移動する人やゲートを通過する人が多くなる場合では、これらの場所を撮像した画像領域が混雑領域に相当する。撮像装置20は、生成した撮像画像の画像信号を画像処理装置40へ出力する。
 入力装置30は、操作キーや操作レバー,タッチパネル等を用いて構成されており、ユーザ操作を受け付けて、ユーザ操作に応じた操作信号を画像処理装置40へ出力する。
 画像処理装置40は、撮像装置20で生成された撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する。また、画像処理装置は、生成した閾値マップに基づき、領域毎に領域に対応する人物判定閾値を用いて人物検出を行う。また、画像処理装置40は、検出された人物の追尾を行い、人物検出結果と追尾結果を用いて、検出された人物毎の人物検出信頼度を算出する。さらに、画像処理装置40は、追尾結果と人物検出信頼度に基づき、予め設定した判定位置を通過する人物の数をカウントする。また、画像処理装置40は、撮像画像から取得した情報例えばカウント結果等を示す信号を表示装置50へ出力して、画像処理装置40で取得した情報等を画面上に表示する。
 <2.第1の実施の形態>
 図2は、本技術の画像処理装置の第1の実施の形態の構成を示している。画像処理装置40は、閾値記憶部411、閾値マップ生成部412、人物検出部421、追尾部422、人物検出信頼度算出部441、カウント部451、出力部461を有している。
 閾値記憶部411は、混雑レベル毎に予め人物判定閾値を記憶している。人物判定閾値は、後述するように人物検出部421で人物の判定を行う際に、判定基準として用いられる。閾値記憶部411は、後述する閾値マップ生成部412から示された混雑レベルに応じた人物判定閾値を閾値マップ生成部412へ出力する。
 閾値マップ生成部412は、予め設定された混雑領域と閑散領域および混雑領域の混雑レベルに応じて閾値マップを生成する。閾値マップ生成部412は、入力装置30から供給された操作信号に基づき、ユーザ操作に応じて、撮像装置20で生成される撮像画像を、予め混雑レベルの異なる複数の領域に区分する。領域の区分において、画像処理装置40では、例えば撮像装置20で生成された撮像画像を後述する出力部461から表示装置50に出力して撮像画像を表示させる。ユーザは、表示装置50で表示された撮像画像を利用して、撮像画像を混雑レベルの異なる複数の領域に区分する操作を行う。閾値マップ生成部412は、領域の区分操作を示す操作信号に基づき、撮像画像を混雑領域と閑散領域に区分する。図3は、閾値マップの生成を説明するための図である。図3の(a)は、撮像装置20で生成された撮像画像を例示しており、斜線で示す領域が混雑領域ARc、他の領域が閑散領域ARsである。
 また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得して閾値マップを生成する。例えば、ユーザは区分した領域に対して混雑レベルを指定する操作を行う。なお、図3の(a)では、混雑領域ARcに対して混雑レベルCLが指定されている。閾値マップ生成部412は、混雑レベルの指定操作に基づき、指定された混雑レベルを閾値記憶部411に通知する。さらに、閾値マップ生成部412は、混雑レベルの通知に応じて閾値記憶部411から示された人物判定閾値を取得して、取得した閾値を区分した領域に対応させて閾値マップを生成する。図3の(b)は、閾値マップを例示している。閾値マップ生成部412は、図3の(a)に示すように、混雑領域ARcに対してユーザが混雑レベルCLを指定した場合、混雑レベルCLに対応した人物判定閾値Thcを閾値記憶部411から取得して、混雑領域ARcに対する人物判定閾値Thcとする。また、閾値マップ生成部412は、混雑領域を除く他の領域を閑散領域ARsとして、例えば閑散領域ARsに対する人物判定閾値を予め設定されている人物判定閾値Thsとする。なお、閑散領域ARsは予め設定されている閾値に限らず、ユーザが閑散領域ARsの混雑レベルを設定して、設定した混雑レベルに対応した人物判定閾値Thsを閾値記憶部411から取得する構成であってもよい。このように、閾値マップ生成部412は、撮像装置20で生成された撮像画像における混雑領域と閑散領域および領域毎の人物判定閾値を示す閾値マップをユーザ操作に応じて予め生成して人物検出部421へ出力する。
 人物検出部421は、撮像装置20で生成された撮像画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値マップ生成部412で生成されている閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。人物検出部421は、人物と判定した被写体の位置を示す人物検出位置を人物検出結果として追尾部422へ出力する。
 人物検出部421は、人物検出において、勾配情報に基づく特徴量,色情報に基づく特徴量,動きに基づく特徴量等を用いる。勾配情報に基づく特徴量は、例えばHOG(Histograms of Oriented Gradients)特徴量やEOG(Edge Orientation Histograms)特徴量等である。色情報に基づく特徴量は、例えばICF(Integral Channel Features)特徴量やCSS(Color Self Similarity)等である。動きに基づく特徴量は、例えばHaar-like特徴量やHOF(Histograms of Flow)特徴量等である。人物検出部421は、このような特徴量を用いて人物の確からしさを示すスコアを算出する。
 人物判定閾値は、閑散領域では適合率が一定値以上で再現率が最大となり、混雑領域では一定の再現率を維持した状態で適合率が最大となるように設定する。再現率は、撮像画像に含まれる人物において人物検出によって検出される人物がどの程度含まれるかを表している。また、適合率は、人物検出によって検出された人物において撮像画像に含まれる人物がどの程度含まれるかを表している。
 図4は適合率と再現率を説明するための図である。図4において、集合SNは人物検出結果の数、集合SCは撮像画像に映っている人の正しい数を示しており、集合SNと集合SCの共通部分SRは人物検出結果の数の中での正解数(人物を正しく検出している数)を示している。適合率Rpreは「Rpre=(SR/SN)」、再現率Rrecは「Rrec=(SR/SC)」の演算を行うことで算出できる。
 ここで、人物検出の漏れが少なくなるように人物判定閾値を小さくすると、図4の(a)に示すように、適合率Rpreは小さくなり、再現率Rrecは「1」に近くなる。また、人物検出の精度が高くなるように人物判定閾値を大きくすると、図4の(b)に示すように、適合率Rpreは「1」に近くなり、再現率Rrecは図4の(a)に比べて小さくなる。
 図5は、適合率と再現率とスコアの関係を例示している。なお、図5の(a)は閑散領域、図5の(b)は混雑領域の場合を例示している。閑散領域ARsでは、適合率Rpreがある一定値Lpre以上かつ再現率Rrecが最大となるように人物判定閾値Thsを設定する。混雑領域ARcでは、人物検出が取りこぼし易くなるので、再現率Rrecがある一定値Lrecを維持した状態で適合率Rpreが最大になるように人物判定閾値Thcを設定する。また、再現率Rrecがある一定値Lrecを維持した状態で適合率Rpreが最大になるように人物判定閾値Thcを設定すると、図5の(b)に示すように適合率Rpreが低い値となり人物の誤検出が増加するおそれがある。このため、後述する人物検出信頼度を用いて人物検出結果から誤検出を排除する。
 追尾部422は、人物検出部421から供給された人物検出結果に基づいて人物の追尾を行う。図6は異なる時刻の人物検出結果を例示している。図6の(a)は時刻(t-1)の撮像画像F(t-1)、図6の(b)は、時刻(t)の撮像画像F(t)を例示している。追尾部422は、人物検出結果に基づいて、検出された人物に対して追尾枠を人物毎に設定する。追尾枠は、例えば人物検出で頭部を検出している場合、人物の特徴を利用することで追尾を容易に行うことができるように、例えば検出された頭部に対する身体部分を含むように矩形状として設定する。このように身体部分を含むように追尾枠を設定すれば、体型の違いや服装の違い、服装の色の違い等の身体部分の特徴を利用して人物の追尾を容易に行うことができる。また、追尾部422は、追尾枠に追尾識別情報を設定して、追尾識別情報によって個々の人物を区分できるようにする。
 追尾部422は、例えば図6の(c)に示すように、時刻(t-1)の撮像画像F(t-1)に設定した追尾枠WT(t-1)の位置の画像と時刻(t)の撮像画像F(t)から、撮像画像F(t)において対応する追尾枠WT(t)の位置を予測する。追尾部422は、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果とする。
 さらに、追尾部422は、予測した追尾枠と追尾枠に対応する人物検出結果を対として人物検出信頼度算出部441へ出力する。例えば、上述のように身体部分に追尾枠を設定して追尾を行い人物検出では頭部を検出する場合、追尾枠に対して頭部の位置を想定できるので、頭部が位置すると想定される領域を追尾枠に対応する人物位置想定領域とする。ここで、人物検出で検出された頭部の位置が人物位置想定領域であれば、この人物検出結果と予測した追尾枠とを対として、例えば人物検出結果では予測した追尾枠に設定されている追尾識別情報が割り当てられているようにする。また、追尾部422は、検出された頭部の位置に応じて追尾枠の位置を調整して追尾を継続する。このように、検出された頭部の位置に応じて追尾枠の位置を調整すれば、追尾枠の位置を予測したときに誤差を生じても、誤差が累積されることがないので、追尾を精度よく行うことが可能となる。
 人物検出信頼度算出部441は追尾結果と人物検出結果を用いて人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾枠の位置と人物検出結果の履歴を保持して、保持している履歴を用いて、追尾枠識別情報毎に、例えば信頼度算出期間の追尾枠に対して人物が検出されている追尾枠の割合を人物検出信頼度として算出する。人物検出信頼度算出部441は、追尾識別情報毎に、例えば現在から過去方向の所定フレーム期間の追尾枠において、人物検出と追尾枠の位置が対とされている追尾枠の割合を人物検出信頼度とする。人物検出信頼度算出部441は、算出した人物検出信頼度をカウント部451へ出力する。このようにして算出した人物検出信頼度は、人物が検出されているフレームの割合が多くなるに伴い人物検出信頼度が高くなることから、人物検出信頼度が高いと人物検出結果の信頼度は高いとする。
 なお、追尾部422および人物検出信頼度算出部441では、連続するフレームの撮像画像を用いて追尾や人物検出信頼度の算出を行う場合に限らず、所定フレーム間隔の撮像画像を用いて追尾や人物検出信頼度の算出を行うようにしてもよい。例えば、被写体の動きが遅い場合には時間方向に隣接するフレーム間で画像の違いが少ないため、所定フレーム間隔の撮像画像を用いることで、追尾や人物検出信頼度の算出を効率よく行うことができるようになる。
 図7は、追尾結果と人物検出結果を例示している。図7の(a)は、例えば時刻t-2,t-1,tで、追尾識別情報が同一である追尾枠に対応する人物位置想定領域で人物が検出されている場合を示している。図7の(b)は、例えば時刻t-2のみで、追尾枠に対応する人物位置想定領域で人物が検出されており、時刻t-1,tでは、追尾枠に対応する人物位置想定領域で人物の検出が行われていない場合を例示している。なお、時刻t-2における追尾枠を「WT(t-2)」、時刻t-1における追尾枠を「WT(t-1)」、時刻tにおける追尾枠を「WT(t)」として示している。また、追尾枠WT(t-2)に対応する人物位置想定領域を「ARa(t-2)」、追尾枠WT(t-1)に対応する人物位置想定領域を「ARa(t-1)」、追尾枠WT(t)に対応する人物位置想定領域を「ARa(t)」として示している。さらに、人物位置想定領域ARa(t-2)において人物が検出された位置をDH(t-2)として示している。また、人物位置想定領域ARa(t-1)において人物が検出された位置をDH(t-1)、人物位置想定領域ARa(t)において人物が検出された位置をDH(t)として示している。
 人物検出信頼度算出部441は、追尾識別情報毎に追尾結果と人物検出結果を用いて人物検出信頼度RDを算出する。例えば、図7の(a)に示す場合、時刻t-2,t-1,tのそれぞれのフレームで追尾枠WTに対応する人物位置想定領域では人物が検出されている。したがって、人物検出信頼度RDは「(人物が検出されたフレーム数/追尾を行ったフレーム数)=(3/3)」となる。また、図7の(b)に示す場合、時刻t-2のフレームのみで人物が検出されていることから、人物検出信頼度RDは「(人物が検出されたフレーム数/追尾を行ったフレーム数)=(1/3)」となる。人物検出信頼度算出部441は、追尾識別情報毎に算出した人物検出信頼度RDをカウント部451へ出力する。
 カウント部451は、追尾部422から供給された追尾結果に基づき、判定位置であるカウントラインを通過する追尾枠を判別する。また、カウント部451は、人物検出信頼度算出部441から供給された人物検出信頼度を用いて、カウントラインを通過する追尾枠毎に対応する人物検出信頼度と予め設定されているカウント対象判別閾値を比較する。さらに、カウント部451は、人物検出信頼度がカウント対象判別閾値以上である追尾枠に対応した人物をカウント対象として、人物のカウントを行う。図8は、カウント部の動作を例示した図である。例えば、予めユーザ等が設定したカウントラインJcを追尾枠WTaが横切って移動した場合、カウントラインJcを横切った追尾枠WTaに対応する人物検出信頼度RDをカウント対象判別閾値と比較する。ここで、人物検出信頼度RDがカウント対象判別閾値以上である場合、追尾枠WTaに対応する人物検出結果は、人物を正しく検出しているとして、追尾枠WTaに対応する被写体をカウント対象の人物とする。また、人物検出信頼度RDがカウント対象判別閾値よりも小さい場合、追尾枠に対応する人物検出結果は、人物を正しく検出していないとして、この追尾枠に対応する被写体をカウントしないようにする。カウント部451はカウント結果を出力部461へ出力する。
 出力部461は、撮像装置20で生成された撮像画像を表示装置50で表示させる。また、出力部461は、ユーザ操作に応じて区分された領域を識別可能とするため、例えば閾値マップ生成部412から混雑領域と閑散領域を示す情報を出力部461に供給して、撮像画像における混雑領域と閑散領域を識別可能に表示させる。また、出力部461は、カウントラインの位置を識別可能とするため、例えば撮像画像にカウントラインの位置を示す画像を重畳して表示させる。さらに、出力部461は、画像処理装置40で取得した情報、例えばカウント部451のカウント結果を表示装置50で表示させる。なお、カウント結果は、例えば撮像画像とカウントラインと共に表示すれば、カウントラインを通過する人物の画像と撮像画像から算出したカウント結果の表示によって、カウントの進捗状況等をユーザが把握できるようになる。
 図9は第1の実施の形態の動作を示すフローチャートである。ステップST1で画像処理装置40は、閾値マップ生成処理を行う。図10は閾値マップ生成処理を示すフローチャートである。ステップST11で画像処理装置40はユーザ設定操作の受け付けを行う。画像処理装置40の閾値マップ生成部412は、入力装置30から供給された操作信号を受け付けてステップST12に進む。
 ステップST12で画像処理装置40はマップの生成を行う。画像処理装置40の閾値マップ生成部412は、撮像装置20で生成された撮像画像を、ユーザ操作に応じて混雑領域ARcと閑散領域ARsに区分する。また、閾値マップ生成部412は、ユーザが設定した混雑レベルに応じた人物判定閾値を閾値記憶部411から取得して、混雑領域ARcと閑散領域ARsのそれぞれの領域に対して人物判定閾値を設定する。閾値マップ生成部412は、混雑領域ARcと閑散領域ARsおよびそれぞれの領域の人物判定閾値を示す閾値マップを生成する。
 図9に戻り、ステップST2で画像処理装置40は人物検出情報生成処理を行う。図11は人物検出情報生成処理を示すフローチャートである。ステップST21で画像処理装置40は撮像画像を取得する。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を取得してステップST22に進む。
 ステップST22で画像処理装置40は人物の検出を行う。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を用いて特徴量等に基づき人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上のである被写体を人物と判定する。人物検出部421は、人物と判別された被写体の位置である人物検出位置を、人物検出結果としてステップST23に進む。
 ステップST23で画像処理装置40は人物の追尾を行う。画像処理装置40の追尾部422は、人物検出結果に基づき追尾枠を設定して、設定した追尾枠の枠内の画像とその後に取得された撮像画像から、その後に取得された撮像画像における追尾枠の位置を予測する。また、追尾部422は、追尾枠の設定時に追尾識別情報を設定する。さらに、追尾部422は、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果としてステップST24に進む。
 ステップST24で画像処理装置40は人物検出信頼度を算出する。画像処理装置40の人物検出信頼度算出部441は、ステップST22で得られた人物検出結果とステップST23で得られた追尾結果に基づき、予測した位置の追尾枠に対応する人物検出の状況を示す人物検出信頼度を算出する。人物検出信頼度算出部441は、予測した位置の追尾枠に対応して人物が検出されている割合が大きい場合に人物検出信頼度を高く、人物が検出される割合が小さい場合に人物検出信頼度を低くする。人物検出信頼度算出部441は、追尾枠の位置と追尾枠毎の人物検出信頼度を人物検出情報とする。
 図9に戻り、ステップST3で画像処理装置40はカウント処理を行う。画像処理装置40のカウント部451は、ステップST2で生成された人物検出情報を用いて、カウントラインを通過する追尾枠を判別する。さらに判別した追尾枠に対応する人物検出信頼度が予め設定されているカウント対象判定閾値以上である追尾枠の被写体をカウント対象としてカウントを行い、カウントラインを通過する人の数を算出してステップST4に進む。
 ステップST4で画像処理装置40は出力処理を行う。画像処理装置40の出力部461は、ステップST3で得られたカウント処理結果を表示する。出力部461は、例えば撮像画像にカウントラインの位置を示す画像およびカウントラインを通過した人のカウント結果を示す画像を重畳して表示させる。
 このような第1の実施の形態によれば、混雑した領域でも人物検出を精度よく行うことができるようになる。また、人物検出信頼度が算出されるので、信頼度が高く精度がよい人物検出情報を得ることができる。また、混雑した領域でも人物検出を精度よく行うことができることから、人物検出情報を用いることで、混雑領域での人の数を精度よく算出できる。
 <3.第2の実施の形態>
 次に、第2の実施の形態について説明する。混雑領域では人物の接近や重なり等が多くなることから、閑散領域に比べて人物を検出しにくい。したがって、例えば図12に示すように、閑散領域から混雑領域に人物が移動している場合、閑散領域の位置では人物検出によって検出されている人物が、混雑領域の位置となると検出されなくなってしまうおそれがある。なお、図12では、矢印方向に人物が移動しており、黒丸印は人物として検出された位置、バツ印は検出されなかった位置を例示している。
 したがって、カウントラインが混雑領域に設定されていると、閑散領域の位置で検出されている人物がカウントラインを通過しても、カウントラインを通過した人物としてカウントされない場合が生じる。このような場合、カウントラインを通過した人物の数を精度よく計測できない。そこで、第2の実施の形態では、閑散領域で検出された人物について追尾を行い、閑散領域から混雑領域に移動したとき、この人物を混雑領域でも検出できるようにする。具体的には、第1の実施の形態のように追尾によって追尾枠の位置を予測した場合、予測位置の追尾枠に対応する人物位置想定領域には、人物が位置している可能性が高い。このため、人物位置想定領域では、人物が検出され易くなるように人物判定閾値を調整する。
 図13は、本技術の画像処理装置の第2の実施の形態の構成を示している。画像処理装置40は、閾値記憶部411、閾値マップ生成部412、閾値調整部413、人物検出部421、追尾部422、人物検出信頼度算出部441、カウント部451、出力部461を有している。
 閾値記憶部411は、混雑レベル毎に予め人物判定閾値を記憶している。閾値記憶部411は、閾値マップ生成部412で示された混雑レベルに応じた人物判定閾値を閾値マップ生成部412へ出力する。
 閾値マップ生成部412は、入力装置30から供給された操作信号に基づき、ユーザ操作に応じて閾値マップを生成する。閾値マップ生成部412は、撮像装置20で生成される撮像画像を、ユーザ操作に応じて混雑レベルの異なる複数の領域に区分する。また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得する。閾値マップ生成部412は、取得した人物判定閾値を区分した領域に対応させて、例えば混雑領域と閑散領域および領域毎の人物判定閾値を示す閾値マップを生成して閾値調整部413へ出力する。
 閾値調整部413は、閾値マップ生成部412で生成された閾値マップに対して、後述する追尾部422から供給された追尾結果に基づき閾値調整を行う。閾値調整部413は、追尾結果で示された予測位置の追尾枠に対する人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整して、閾値調整後の閾値マップを人物検出部421へ出力する。図14は、人物判定閾値の調整動作を説明するための図である。閾値調整部413では、追尾結果によって次に人物検出が行われるときの追尾枠の予測位置が示されていることから、この予測位置の追尾枠に対応する人物位置想定領域の人物判定閾値を、調整前よりも人物と判定され易くなるように調整する。閾値調整部413は、図14の(a)に示すように、例えば追尾枠の予測位置から想定した頭部の位置Pfを基準として、位置Pfから水平および垂直方向にそれぞれ幅daの範囲を人物位置想定領域ARaとする。また、閾値調整部413は、人物位置想定領域ARaの人物判定閾値を調整前の人物判定閾値Thcよりも低い人物判定閾値Tha(<Thc)として、人物位置想定領域ARaでは、人物が検出され易くする。人物判定閾値Thaは、人物判定閾値Thcから所定の低減量だけ低下した値としてもよく、人物判定閾値Thcを所定の低減率で低下した値を用いてもよい。また、混雑レベルに応じて低減量や低減率を設定してもよい。さらに、予測位置の追尾枠に対応する人物位置想定領域ARaで人物が検出されない場合、ユーザは人物位置想定領域ARaで人物が検出されるように人物判定閾値Thaを設定して、閾値調整部413は設定された人物判定閾値Thaをその後の人物検出で用いるようにしてもよい。
 人物検出部421は、撮像装置20で生成された撮像画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値調整部413で調整された閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。ここで、人物判定閾値は、人物位置想定領域で人物として判定され易くなるように調整されていることから、図14の(b)に示すように、閑散領域から混雑領域に移動する人物を混雑領域ARcでも検出できるようになる。人物検出部421は、人物と判定した被写体の位置を示す人物検出位置の情報に追尾識別情報を含めて人物検出結果として追尾部422へ出力する。
 追尾部422は、人物検出部421から供給された人物検出結果に基づき検出した人物の追尾を行い、追尾枠の予測位置を示す情報に、この追尾枠に割り当てられている追尾識別情報を含めて追尾結果として閾値調整部413へ出力する。また、追尾部422は、追尾結果と人物検出結果を人物検出信頼度算出部441へ出力する。
 人物検出信頼度算出部441は追尾結果と人物検出結果を用いて人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾識別情報毎に、追尾枠に対応する人物検出結果の履歴を保持する。また、人物検出信頼度算出部441は、保持している履歴を用いて、追尾識別情報毎に、追尾した位置と人物検出結果に基づき追尾した位置に対応する人物検出の検出状況を算出して人物検出信頼度とする。人物検出信頼度算出部441は、追尾識別情報毎に算出した人物検出信頼度をカウント部451へ出力する。
 カウント部451は、追尾部422から供給された追尾結果に基づき、判定位置であるカウントラインを通過する追尾枠を判別する。また、カウント部451は、人物検出信頼度算出部441から供給された人物検出信頼度を用いて、カウントラインを通過する追尾枠毎に対応する人物検出信頼度と予め設定されているカウント対象判別閾値を比較する。さらに、カウント部451は、人物検出信頼度がカウント対象判別閾値以上である追尾枠に対応した人物をカウント対象として、人物のカウントを行う。カウント部451は人物のカウント結果を出力部461へ出力する。
 出力部461は、撮像装置20で生成された撮像画像を表示装置50で表示させる。また、出力部461は、ユーザ操作に応じて区分された領域やカウントラインの位置を識別可能に表示させる。さらに、出力部461は、画像処理装置40で取得したカウント結果党の情報を表示装置50で表示させる。
 第2の実施の形態では、図9に示すフローチャートの処理を行いステップST2の人物検出情報生成処理では、第1の実施の形態と異なり図15に示すフローチャートの処理を行う。
 図15のステップST31で画像処理装置40は撮像画像を取得する。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を取得してステップST32に進む。
 ステップST32で画像処理装置40は人物判定閾値を調整する。画像処理装置40の閾値調整部413は、閾値マップにおいて、予測位置の追尾枠に対応する人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整してステップST33に進む。
 ステップST33で画像処理装置40は人物の検出を行う。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を用いて特徴量等に基づき人物の確からしさを示すスコアを算出する。また、人物検出部421は、ステップST32で人物判定閾値の調整が行われた閾値マップを用いて、領域毎に人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上のである被写体を人物と判定する。人物検出部421は、人物と判別された被写体の位置である人物検出位置を、人物検出結果としてステップST34に進む。
 ステップST34で画像処理装置40は人物の追尾を行う。画像処理装置40の追尾部422は、人物検出結果に基づき追尾枠を設定して、設定した追尾枠の枠内の画像とその後に取得された撮像画像から、その後に取得された撮像画像における追尾枠の位置を予測する。また、追尾部422は、追尾枠の設定時に追尾識別情報を設定する。さらに、追尾部422は、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果とする。また、追尾部422は、その後の人物の検出において、上述のように人物判定閾値を調整するため、追尾結果を閾値調整部413へ出力してステップST35に進む。
 ステップST35で画像処理装置40は人物検出信頼度を算出する。画像処理装置40の人物検出信頼度算出部441は、ステップST33で得られた人物検出結果とステップST34で得られた追尾結果に基づき、予測した位置の追尾枠に対応する人物検出の状況を示す人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾枠の位置と追尾枠毎の人物検出信頼度を人物検出情報とする。
 このような第2の実施の形態によれば、第1の実施の形態と同様に信頼度が高く精度よい人物検出情報を得ることができる。さらに、第2の実施の形態では、予測した追尾枠の位置を基準とした所定範囲の領域に対する人物判定閾値が人物と判定され易くなるように調整されるので、人物検出の検出精度の低下を防止できるようになる。したがって、例えば閑散領域の位置では人物検出によって検出されている人物が、混雑領域の位置で検出されなくなってしまうことを防止することが可能となる。
 <4.第3の実施の形態>
 次に第3の実施の形態について説明する。上述のように、混雑領域では人物の接近や重なり等が多くなることから、閑散領域に比べて人物を検出しにくい。したがって、例えば図16に示すように、混雑領域から閑散領域に人物が移動している場合、閑散領域の位置で人物検出によって検出されている人物が、混雑領域の位置では人物検出で検出されていないおそれがある。なお、図16では、矢印方向に人物が移動しており、丸印は人物として検出された位置、バツ印は人物として検出されたかった位置を例示している。
 したがって、例えばカウントラインが混雑領域に設定されていると、閑散領域の位置で人物検出によって検出された人物は、混雑領域の位置では人物検出によって検出されておらず、カウントラインを通過した人物としてカウントされないおそれがある。このため、カウントラインを通過した人物の数を精度よく計測できない。そこで、第3の実施の形態では、閑散領域で検出された人物について過去方向に追尾を行い、閑散領域に混雑領域から移動したとき、この人物を混雑領域でも精度よく検出できるようにする。具体的には、第2の実施の形態に対して時間方向が逆である過去方向の追尾を行う。また、追尾枠の予測位置を基準とした所定範囲の領域に人物が存在している可能性が高いことから、人物が存在している可能性の高い領域では、人物が検出され易くなるように人物判定閾値を調整する。
 図17は、本技術の画像処理装置の第3の実施の形態の構成を示している。画像処理装置40は、閾値記憶部411、閾値マップ生成部412、人物検出部421、追尾部423、過去画像記憶部431、バックトラッキング部432、人物検出信頼度算出部442、カウント部451、出力部461を有している。
 閾値記憶部411は、混雑レベル毎に予め人物判定閾値を記憶している。閾値記憶部411は、閾値マップ生成部412で示された混雑レベルに応じた人物判定閾値を閾値マップ生成部412へ出力する。
 閾値マップ生成部412は、入力装置30から供給された操作信号に基づき、ユーザ操作に応じて閾値マップを生成する。閾値マップ生成部412は、撮像装置20で生成される撮像画像を、ユーザ操作に応じて混雑レベルの異なる複数の領域に区分する。また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得する。閾値マップ生成部412は、取得した人物判定閾値を区分した領域に対応させて、例えば混雑領域と閑散領域および領域毎の人物判定閾値を示す閾値マップを生成して人物検出部421とバックトラッキング部432へ出力する。
 人物検出部421は、撮像装置20で生成された撮像画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値調整部413で調整された閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。人物検出部421は、人物と判定した被写体の位置を示す人物検出位置を人物検出結果として追尾部423へ出力する。
 追尾部423は、人物検出部421から供給された人物検出結果に基づき検出した人物の追尾を行い、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果として人物検出信頼度算出部442へ出力する。また、追尾部423は、過去方向の追尾を行い、人物判定閾値を調整して人物検出を行う場合、追尾結果をバックトラッキング部432に出力して、バックトラッキング部432で過去方向に追尾および人物判定位置を調整して人物検出を行えるようにする。例えば追尾部423は、新たな人物検出が行われて追尾枠を設定した場合に過去方向の追尾を行うとして、設定した追尾枠の位置を示す情報に追尾識別情報を含めてバックトラッキング部432へ出力する。また、追尾部423は、追尾枠に対応する人物位置想定領域で人物が検出されておらずその後に予測位置で人物が検出される場合に過去方向の追尾を行うとして、人物が検出されるようになったときの追尾結果をバックトラッキング部432へ出力してもよい。
 過去画像記憶部431は、撮像装置20で生成された撮像画像を、現在から例えば過去の所定期間まで記憶する。また、過去画像記憶部431は、記憶している撮像画像をバックトラッキング部432へ出力する。
 バックトラッキング部432は、現在の撮像画像や過去画像記憶部431に記憶されている過去の撮像画像を用いて、追尾部423から供給された追尾結果に基づき、追尾識別情報毎に追尾枠の人物を過去方向に追尾する。また、バックトラッキング部432は、過去方向の追尾における追尾枠の予測位置に対応する人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整して、調整後の閾値マップを用いて過去画像における人物検出結果を取得する。図18は、バックトラッキング部の構成を示している。バックトラッキング部432は、過去画像選択部4321、閾値調整部4322、人物検出部4323、追尾部4324を有している。
 過去画像選択部4321は、過去画像記憶部431から追尾位置を予測する過去画像を取得して、人物検出部4323と追尾部4324へ出力する。例えば時刻tにおける追尾枠について時刻(t-1)における追尾位置を予測する場合は、時刻(t-1)の撮像画像を過去画像記憶部431から取得する。また、時刻(t-1)における追尾枠について時刻(t-2)における追尾位置を予測する場合は、時刻(t-2)の撮像画像を過去画像記憶部431から取得する。
 閾値調整部4322は、閾値マップ生成部412で生成された閾値マップに対して、追尾部4324から供給された追尾結果に基づき閾値調整を行う。閾値調整部4322は、追尾結果で示された予測位置の追尾枠に対応する人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整して、閾値調整後の閾値マップを人物検出部4323へ出力する。
 人物検出部4323は、過去画像選択部4321で取得された過去画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部4323は、閾値調整部4322で調整された閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。人物検出部4323は、人物と判定した被写体の位置を示す人物検出位置を人物検出結果として追尾部4324へ出力する。
 追尾部4324は、追尾部423で示された追尾枠に対して、追尾識別情報毎に過去方向に追尾する。追尾部4324は、例えば追尾部423から追尾結果が供給されたとき、この追尾結果で示された追尾識別情報の追尾枠で示された人物に対して過去方向の追尾を開始する。追尾部4324は、過去画像選択部4321で取得された過去画像であって、追尾部423から供給された追尾結果の生成時に用いられた撮像画像よりもさらに古い画像を用いて追尾枠を過去方向に追尾する。追尾部4324は、過去方向の追尾を行い、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果として、閾値調整部4322へ出力する。また、追尾部4324は、追尾結果と人物検出結果を追尾識別情報毎に人物検出信頼度算出部442へ出力する。
 このようにバックトラッキング部432は、追尾部423で設定された追尾枠を、追尾識別情報毎に過去方向に追尾して、予測位置の追尾枠に対応する人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整して人物検出を行う。すなわち、第2の実施の形態において図14を用いて説明した動作が時間方向を逆として行われて、閑散領域の位置で人物が過去に遡って追尾されて、混雑領域でも検出されるように人物判定閾値が調整される。したがって、図19の(a)に示すように、過去方向に予測されている追尾枠の予測位置から想定した頭部の位置Pfを基準として、位置Pfから水平および垂直方向にそれぞれ幅daの範囲を人物位置想定領域ARaとする。また、閾値調整部4322は、人物位置想定領域ARaの人物判定閾値を調整前の人物判定閾値Thcよりも低い人物判定閾値Tha(<Thc)として、人物位置想定領域ARaでは、人物が検出され易くする。このため、図19の(b)に示すように、閑散領域に混雑領域から移動した人物を、過去方向に遡って混雑領域ARcでも検出できるようになる。
 なお、画像処理装置40でカウントラインを通過する人物のカウントを行い、人物がカウントラインを通り過ぎてから検出されて場合、バックトラッキング部432では、過去方向に追尾を行ったときに追尾枠がカウントラインを通過するように追尾期間を設定する。追尾期間は、例えば予め人物の移動速度等に応じて設定する。また、追尾期間は、人物検出部421の人物検出結果と追尾部422の追尾結果に基づき設定してもよい。例えば、人物が検出されたときの追尾枠を利用して人物の移動方向や移動速度を推定することが可能となる。また、追尾枠の位置に基づいてカウントラインまでの距離を算出できる。したがって、推定した人物の移動方向や移動速度と算出したカウントラインまでの距離に基づき、追尾枠がカウントラインを通過するように追尾期間を設定することが可能である。
 人物検出信頼度算出部442は追尾結果と人物検出結果を用いて人物検出信頼度を算出する。人物検出信頼度算出部442は、過去方向の追尾結果と人物検出結果に基づいて、追尾識別情報毎に人物検出信頼度を算出する。人物検出信頼度算出部442は、追尾識別情報毎に算出した人物検出信頼度をカウント部451へ出力する。
 カウント部451は、追尾部423から供給された追尾結果に基づき、判定位置であるカウントラインを通過する追尾枠を判別する。また、カウント部451は、人物検出信頼度算出部442から供給された人物検出信頼度を用いて、カウントラインを通過する追尾枠毎に対応する人物検出信頼度と予め設定されているカウント対象判別閾値を比較する。さらに、カウント部451は、人物検出信頼度がカウント対象判別閾値以上である追尾枠に対応した人物をカウント対象として、人物のカウントを行う。カウント部451は人物のカウント結果を出力部461へ出力する。
 出力部461は、撮像装置20で生成された撮像画像を表示装置50で表示させる。また、出力部461は、ユーザ操作に応じて区分された領域やカウントラインの位置を識別可能に表示させる。さらに、出力部461は、画像処理装置40で取得したカウント結果党の情報を表示装置50で表示させる。
 第3の実施の形態では、図9に示すフローチャートの処理を行いステップST2の人物検出情報生成処理では、第1の実施の形態と異なり図20に示すフローチャートの処理を行う。
 図20のステップST41で画像処理装置40は撮像画像を取得する。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を取得してステップST42に進む。
 ステップST42で画像処理装置40は取得した撮像画像を過去画像群に追加する。画像処理装置40の過去画像記憶部431は、取得した撮像画像を順次記憶するとともに最も古い撮像画像から順に撮像画像を削除して、現在から過去の所定期間までの撮像画像を過去画像群として記憶するようにしてステップST43に進む。
 ステップST43で画像処理装置40は人物の検出を行う。画像処理装置40の人物検出部421は、撮像装置20で生成された撮像画像を用いて特徴量等に基づき人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上のである被写体を人物と判定する。人物検出部421は、人物と判別された被写体の位置である人物検出位置を、人物検出結果としてステップST44に進む。
  ステップST44で画像処理装置40は人物の追尾を行う。画像処理装置40の追尾部423は、人物検出結果に基づき追尾枠を設定して、設定した追尾枠の枠内の画像とその後に取得された撮像画像から、その後に取得された撮像画像における追尾枠の位置を予測する。また、追尾部423は、追尾枠の設定時に追尾識別情報を設定する。また、追尾部423は、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果とする。さらに、追尾部423は、過去方向の追尾を行う場合、追尾結果をバックトラッキング処理で用いるようにしてステップST45に進む。
 ステップST45で画像処理装置40はバックトラッキング処理を行う。図21はバックトラッキング処理を示すフローチャートである。ステップST51でバックトラッキング部432は過去画像を選択する。バックトラッキング部432の過去画像選択部4321は、追尾枠の位置を予測する過去画像を過去画像記憶部431から取得してステップST52に進む。
 ステップST52でバックトラッキング部432は人物判定閾値を調整する。バックトラッキング部432の閾値調整部4322は、閾値マップにおいて、人物検出を行った撮像画像よりも古い過去画像における予測位置の追尾枠に対応した人物位置想定領域の人物判定閾値を、人物と判定され易くなるように調整してステップST53に進む。
 ステップST53でバックトラッキング部432は人物の検出を行う。バックトラッキング部432の人物検出部4323は、ステップST51で取得した過去画像を用いて特徴量等に基づき人物の確からしさを示すスコアを算出する。また、人物検出部4323は、人物判定閾値の調整が行われた閾値マップを用いて、この閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上のである被写体を人物と判定する。人物検出部4323は、人物と判別された被写体の位置である人物検出位置を、人物検出結果としてステップST54に進む。
 ステップST54でバックトラッキング部432は人物の追尾を行う。バックトラッキング部432の追尾部4324は、追尾部423で設定された追尾枠の枠内の画像と取得されている過去画像から、取得された過去画像における追尾枠の位置を予測する。さらに、追尾部4324は、追尾枠の予測位置を示す情報に、この追尾枠に設定されている追尾識別情報を含めて追尾結果とする。また、追尾部4324は、その後の人物の検出において、上述のように人物判定閾値を調整するため、追尾結果を閾値調整部4322へ出力する。また、バックトラッキング部432は、追尾結果と人物検出結果を追尾識別情報毎に人物検出信頼度算出部442へ出力する。
 図20に戻り、ステップST46で画像処理装置40は人物検出信頼度を算出する。画像処理装置40の人物検出信頼度算出部442は、ステップST43の人物の検出で得られた人物検出結果と、ステップST44の追尾枠の設定、およびステップST45のバックトラッキング処理で得られた追尾結果と人物検出結果に基づいて人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾枠の位置と追尾枠毎の人物検出信頼度を人物検出情報とする。
 このような第3の実施の形態によれば、第1の実施の形態と同様に信頼度が高く精度よい人物検出情報を得ることができる。さらに、第3の実施の形態では、過去方向に予測した追尾枠の位置を基準とした所定範囲の領域に対する人物判定閾値が人物と判定され易くなるように調整されるので、人物検出の検出精度の低下を防止できるようになる。したがって、例えば混雑領域から閑散領域に移動した人物が閑散領域で検出されるようになった場合、バックトラッキング処理によって混雑領域でも検出できるようになる。
 <5.第4の実施の形態>
 第4の実施の形態では、閾値記憶部411に記憶する閾値情報の生成機能を設けた場合を例示している。
 図22は、本技術の画像処理装置の第4の実施の形態の構成を示している。画像処理装置40は、学習用画像群記憶部401、閾値学習部402、閾値記憶部411、閾値マップ生成部412、人物検出部421、追尾部422、人物検出信頼度算出部441、カウント部451、出力部461を有している。
 学習用画像群記憶部401は、混雑状況に応じた人物判定閾値を学習によって決定するための学習用画像群が記憶されている。学習用画像群記憶部401には、学習用画像群として、例えば混雑画像群と閑散画像群が記憶されている。混雑画像群は、人物が混雑している状態の画像群であり、画像群は混雑レベル毎に1枚または複数枚の画像で構成されている。閑散画像群は、人物が分散している状態の画像群である。
 閾値学習部402は、学習用画像を用いて混雑領域に対応する人物判定閾値と閑散領域に対応する人物判定閾値を設定する。また、閾値学習部402は、学習用画像を用いて混雑レベル毎の人物判定閾値を設定する。
 図23と図24は、閾値学習部402で行われる人物判定閾値の学習方法を説明するための図である。図23の(a)(b)は、混雑領域で混雑レベルが高い場合(混雑レベル1とする)の学習画像、および再現率および適合率と閾値の関係を例示している。図23の(c)(d)は、混雑領域で混雑レベルが図23の(a)よりも低い場合(混雑レベル2とする)の学習画像、および再現率および適合率と閾値の関係を例示している。図23の(e)(f)は、混雑領域で混雑レベルが図23の(c)よりも低い場合(混雑レベル3とする)の学習画像、および再現率および適合率と閾値の関係を例示している。また、図24の(a)(b)は、閑散領域の学習画像、および再現率および適合率と閾値の関係を例示している。
 閾値学習部402は、学習用画像と、学習用画像に映り込んだ人物の正解データを用いて学習を行う。混雑領域の学習では、画像内における人物の分布の影響を受けないように、画像内で人物が一様に混雑している混雑レベル毎の画像を学習用画像として用いる。また、閾値学習部402は、混雑レベル毎の画像について、閾値を変更しながら各画像群で再現率Rrecと適合率Rpreを算出する。さらに閾値学習部402は、各混雑レベルで再現率Rrecが「Lrec」以上かつ適合率Rpreの最も高くなる閾値を人物判定閾値とする。例えば、混雑レベル1では人物判定閾値を「Thc1」、混雑レベル2では人物判定閾値を「Thc2」、混雑レベル3では人物判定閾値を「Thc3」とする。
 閑散領域の学習では、画像内における人物の分布の影響を受けないように、画像内で人物が一様にばらついている画像を学習用画像として用いる。また、閾値学習部402は、閾値を変更しながら再現率Rrecと適合率Rpreを算出する。さらに閾値学習部402は、適合率Rpreが「Lpre」以上かつ再現率Rrecの最も高くなる閾値を人物判定閾値とする。例えば、閑散領域の人物判定閾値を「Ths」とする。なお、閑散領域では図24に示すように、再現率Rrecと適合率Rpreが共に高くなるように設定してもよい。
 閾値記憶部411は、閾値学習部402の学習結果を記憶して、閾値マップ生成部412で示された混雑レベルに応じた人物判定閾値を閾値マップ生成部412へ出力する。
 閾値マップ生成部412は、入力装置30から供給された操作信号に基づき、ユーザ操作に応じて閾値マップを生成する。閾値マップ生成部412は、撮像装置20で生成される撮像画像を、ユーザ操作に応じて混雑レベルの異なる複数の領域に区分する。また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得する。閾値マップ生成部412は、取得した人物判定閾値を区分した領域に対応させて、例えば混雑領域と閑散領域および領域毎の人物判定閾値を示す閾値マップを生成して人物検出部421へ出力する。
 人物検出部421は、撮像装置20で生成された撮像画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。人物検出部421は、人物と判定した被写体の位置を示す人物検出位置を人物検出結果として追尾部422へ出力する。
 追尾部422は、人物検出部421から供給された人物検出結果に基づき検出した人物の追尾を行い、追尾枠の予測位置を示す情報に、この追尾枠に割り当てられている追尾識別情報を含めて追尾結果として閾値調整部413へ出力する。また、追尾部422は、追尾結果と人物検出結果を人物検出信頼度算出部441へ出力する。
 人物検出信頼度算出部441は追尾結果と人物検出結果を用いて人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾識別情報毎に、追尾枠に対応する人物検出結果の履歴を保持する。また、人物検出信頼度算出部441は、保持している履歴を用いて、追尾識別情報毎に人物検出信頼度とする。人物検出信頼度算出部441は、追尾識別情報毎に算出した人物検出信頼度をカウント部451へ出力する。
 カウント部451は、追尾部422から供給された追尾結果に基づき、判定位置であるカウントラインを通過する追尾枠を判別する。また、カウント部451は、人物検出信頼度算出部441から供給された人物検出信頼度を用いて、カウントラインを通過する追尾枠毎に対応する人物検出信頼度と予め設定されているカウント対象判別閾値を比較する。さらに、カウント部451は、人物検出信頼度がカウント対象判別閾値以上である追尾枠に対応した人物をカウント対象として、人物のカウントを行う。カウント部451は人物のカウント結果を出力部461へ出力する。
 出力部461は、撮像装置20で生成された撮像画像を表示装置50で表示させる。また、出力部461は、ユーザ操作に応じて区分された領域やカウントラインの位置を識別可能に表示させる。さらに、出力部461は、画像処理装置40で取得したカウント結果党の情報を表示装置50で表示させる。
 図25は第4の実施の形態の動作を示すフローチャートである。ステップST61で画像処理装置40は、閾値学習処理を行う。図26は閾値学習処理を示すフローチャートである。
 ステップST71で画像処理装置40は学習用情報を取得する。画像処理装置40の閾値学習部402は、学習用情報として学習用画像と学習用画像に映り込んだ人物の正解データを取得する。学習用画像は、画像内における人物の分布の影響を生じないように、画像内で人物が一様に混雑している混雑レベル毎の混雑画像群と、画像内で人物が一様に分散している閑散画像群を用いる。閾値学習部402は、学習用情報を取得してステップST72に進む。
 ステップST72で画像処理装置40は適合率と再現率を算出する。画像処理装置40の閾値学習部402は、混雑レベル毎の混雑画像群および閑散画像群について、閾値を変更しながら各画像群で適合率Rpreと再現率Rrecを算出してステップST73に進む。
 ステップST73で画像処理装置40は人物判定閾値を設定する。画像処理装置40の閾値学習部402は、混雑画像群については、各混雑レベルについて再現率Rrecが「Lrec」以上かつ適合率Rpreの最も高くなる閾値を人物判定閾値とする。また、閾値学習部402は、閑散画像群については、適合率Rpreが「Lpre」以上かつ再現率Rrecの最も高くなる閾値を人物判定閾値とする。閾値学習部402は、混雑レベル毎の混雑画像群および閑散画像群の各画像群について設定した人物判定閾値を閾値記憶部411に記憶させる。
 図25に戻り、ステップST62で画像処理装置40は、閾値マップ生成処理を行う。画像処理装置40の閾値マップ生成部412は、図9のステップST1と同様な処理を行う。すなわち、閾値マップ生成部412はユーザ操作に応じて撮像画像を混雑レベルの異なる複数の領域に区分する。また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得する。さらに、閾値マップ生成部412は、取得した人物判定閾値を区分した領域に対応させて閾値マップを生成してステップST63に進む。
 ステップST63で画像処理装置40は人物検出情報生成処理を行う。画像処理装置40は、図9のステップST2と同様な処理を行う。すなわち、人物検出部421は、被写体検出を行い、人物検出位置を示す人物検出結果を生成する。また、追尾部422は、人物検出結果を用いて追尾枠の設定を行い、設定した追尾枠の枠内の画像とその後に取得された撮像画像から、その後に取得された撮像画像における追尾枠の位置を予測して、追尾枠の人物を追尾する。さらに、人物検出信頼度算出部441は、追尾結果と人物検出結果に基づいて人物検出信頼度を算出する。画像処理装置40は、追尾枠の位置と追尾枠毎の人物検出信頼度を人物検出情報としてステップST64に進む。
 ステップST64で画像処理装置40はカウント処理を行う。画像処理装置40のカウント部451は、図9のステップST3と同様な処理を行い、ステップST63で生成された人物検出情報における追尾枠の位置から、カウントラインを通過する追尾枠を判別する。さらに判別した追尾枠において、人物検出信頼度が予め設定されているカウント対象判別用閾値以上である追尾枠の人物をカウント対象としてカウントを行い、カウントラインを通過する人の数を算出してステップST65に進む。
 ステップST65で画像処理装置40は出力処理を行う。画像処理装置40の出力部461は、図9のステップST4と同様な処理を行い、ステップST64で得られたカウント処理結果を表示する。
 このような第4の実施の形態によれば、混雑画像群と閑散画像群を用いた学習によって人物判定閾値が設定されることから、人物の混雑状況に応じた最適な人物判定閾値を設定できる。したがって、混雑領域および閑散領域のそれぞれで、混雑レベルに応じて人物検出を最適に行うことができるようになる。
 <6.他の実施の形態>
 ところで、上述の実施の形態では、ユーザ操作等に基づいて予め設定された混雑領域と閑散領域および混雑領域の混雑レベルに応じて閾値マップを生成する場合について説明した。しかし、領域設定や混雑レベル設定は、ユーザ操作等に基づいて行う場合に限られない。例えば、撮像画像に基づき自動的に領域設定や混雑レベル設定を行って閾値マップを生成するようにしてもよい。他の実施の形態では、領域設定と混雑レベル設定を自動的に行う場合について説明する。
 図27は、他の実施の形態の構成を例示している。画像処理装置40は、混雑レベル検出部410、閾値記憶部411、閾値マップ生成部412、人物検出部421、追尾部422、人物検出信頼度算出部441、カウント部451、出力部461を有している。
 混雑レベル検出部410は、撮像装置20で取得された撮像画像を用いて混雑レベルを検出する。混雑レベル検出部410は、例えば文献「V. Lempisky and A. Zizzerman, “Learning to count objects in images”, in Neural Information Processing Systems, (2010).」で開示されているように、画像領域に対する人の密度と特徴量との関係性を示す辞書を予め生成して,混雑レベルの検知では,画像の特徴量抽出結果から人物の混雑レベルを予測する。また、混雑レベル検出では、撮像時刻が異なる複数の撮像画像から動物体の検出を行い、動物体が多く検出されたときには混雑レベルが高く、動物体の検出が少ないときには混雑レベルが低いとする。混雑レベル検出部410は、混雑レベル検知結果を閾値マップ生成部412へ出力する。
 閾値記憶部411は、混雑レベル毎に予め人物判定閾値を記憶している。閾値記憶部411は、閾値マップ生成部412で示された混雑レベルに応じた人物判定閾値を閾値マップ生成部412へ出力する。
 閾値マップ生成部412は、入力装置30から供給された操作信号に基づき、ユーザ操作に応じて閾値マップを生成する。閾値マップ生成部412は、撮像装置20で生成される撮像画像を、ユーザ操作に応じて混雑レベルの異なる複数の領域に区分する。また、閾値マップ生成部412は、区分した領域に対するユーザの混雑レベル指定操作に応じて人物判定閾値を閾値記憶部411から取得する。閾値マップ生成部412は、取得した人物判定閾値を区分した領域に対応させて、例えば混雑領域と閑散領域および領域毎の人物判定閾値を示す閾値マップを生成して人物検出部421へ出力する。
 人物検出部421は、撮像装置20で生成された撮像画像を用いて人物検出を行う。人物検出では、人物の確からしさを示すスコアを算出する。また、人物検出部421は、閾値マップで示された領域毎に、領域に対応する人物判定閾値と領域内の被写体のスコアを比較して、スコアが人物判定閾値以上である被写体を人物と判定する。人物検出部421は、人物と判定した被写体の位置を示す人物検出位置を人物検出結果として追尾部422へ出力する。
 追尾部422は、人物検出部421から供給された人物検出結果に基づき検出した人物の追尾を行い、追尾枠の予測位置を示す情報に、この追尾枠に割り当てられている追尾識別情報を含めて追尾結果として閾値調整部413へ出力する。また、追尾部422は、追尾結果と人物検出結果を人物検出信頼度算出部441へ出力する。
 人物検出信頼度算出部441は追尾結果と人物検出結果を用いて人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾識別情報毎に、追尾枠に対応する人物検出結果の履歴を保持して、保持している履歴を用いて、追尾識別情報毎に人物検出信頼度を算出する。人物検出信頼度算出部441は、追尾識別情報毎に算出した人物検出信頼度をカウント部451へ出力する。
 カウント部451は、追尾部422から供給された追尾結果に基づき、判定位置であるカウントラインを通過する追尾枠を判別する。また、カウント部451は、人物検出信頼度算出部441から供給された人物検出信頼度を用いて、カウントラインを通過する追尾枠毎に対応する人物検出信頼度と予め設定されているカウント対象判別閾値を比較する。さらに、カウント部451は、人物検出信頼度がカウント対象判別閾値以上である追尾枠に対応した人物をカウント対象として、人物のカウントを行う。カウント部451は人物のカウント結果を出力部461へ出力する。
 出力部461は、撮像装置20で生成された撮像画像を表示装置50で表示させる。また、出力部461は、ユーザ操作に応じて区分された領域やカウントラインの位置を識別可能に表示させる。さらに、出力部461は、画像処理装置40で取得したカウント結果党の情報を表示装置50で表示させる。
 図28は、他の実施の形態の動作を示すフローチャートである。ステップST81で画像処理装置40は、混雑度検出処理を行う。画像処理装置40の混雑レベル検出部410は、撮像装置20で生成された撮像画像を用いて混雑レベルを検出してステップST82に進む。
 ステップST82で画像処理装置40は、閾値マップ生成処理を行う。画像処理装置40の閾値マップ生成部412は、ステップST81で検出された混雑レベルに応じて、撮像画像を混雑領域と閑散領域に区分する。さらに閾値マップ生成部412は、混雑領域と閑散領域のそれぞれについて、各領域の混雑レベルに応じた人物判定閾値を閾値記憶部411から取得して、それぞれの領域に対して人物判定閾値を設定することで閾値マップを生成してステップST83に進む。
 ステップST83で画像処理装置40は人物検出情報生成処理を行う。画像処理装置40は、図9のステップST2と同様な処理を行う。すなわち、人物検出部421は、被写体検出を行い、人物検出位置を示す人物検出結果を生成する。また、追尾部422は、人物検出結果を用いて追尾枠の設定を行い、設定した追尾枠の枠内の画像とその後に取得された撮像画像から、その後に取得された撮像画像における追尾枠の位置を予測して、追尾枠の人物を追尾する。さらに、人物検出信頼度算出部441は、追尾結果と人物検出結果に基づいて人物検出信頼度を算出する。画像処理装置40は、追尾枠の位置と追尾枠毎の人物検出信頼度を人物検出情報としてステップST84に進む。
 ステップST84で画像処理装置40はカウント処理を行う。画像処理装置40のカウント部451は、図9のステップST3と同様な処理を行い、ステップST83で生成された人物検出情報における追尾枠の位置から、カウントラインを通過する追尾枠を判別する。さらに判別した追尾枠において、人物検出信頼度が予め設定されているカウント対象判別用閾値以上である追尾枠の人物をカウント対象としてカウントを行い、カウントラインを通過する人の数を算出してステップST85に進む。
 ステップST85で画像処理装置40は出力処理を行う。画像処理装置40の出力部461は、図9のステップST4と同様な処理を行い、ステップST84で得られたカウント処理結果を表示する。
 このような他の実施の形態によれば、撮像画像から混雑領域や閑散領域の設定および領域に応じた人物判定閾値が自動的に設定されるので、ユーザが領域の設定や領域の混雑レベルを設定する操作を行う必要がなく、画像処理装置の利用が容易となる。また、領域の混雑レベルが変化したときは、変化に応じて人物判定閾値を最適化することが可能となり、ユーザが混雑レベルを設定する場合に比べて、人物検出の精度を向上させることが可能となる。
 また、上述の第2の実施の形態に第3の実施の形態を適用すれば、人物が閑散領域から混雑領域に移動する場合と混雑領域から閑散領域に移動する場合の何れであっても信頼度が高く精度よい人物検出情報を得ることができるようになる。
 また、上述の実施の形態では、カウントラインを通過する人物の数を計測する場合について説明したが、取得する情報に応じて上述のフローチャートの一部の処理を省略することもできる。例えば、混雑領域と閑散領域間を移動する人物の追尾結果を示す情報を取得する場合、実施の形態の動作を示すフローチャートにおいて、カウント処理を省略することができる。また、出力処理では、人物検出信頼度情報に基づき、信頼度の高い追尾結果を表示装置50に表示してもよい。
 さらに、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
 例えば、プログラムは記録媒体としてのハードディスクやSSD(Solid State Drive)、ROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、BD(Blu-Ray Disc(登録商標))、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからLAN(Local Area Network)やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。
 また、本技術の画像処理装置は以下のような構成も取ることができる。
 (1) 撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する閾値マップ生成部と、
 前記閾値マップ生成部で生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出を行う人物検出部と、
 前記人物検出部で検出された人物の追尾を行う追尾部と、
 前記人物検出部の人物検出結果と前記追尾部の追尾結果を用いて、前記検出された人物毎に人物検出信頼度を算出する人物検出信頼度算出部と
を備える画像処理装置。
 (2) 前記撮像画像は混雑領域と閑散領域に区分されており、前記人物判定閾値は領域の混雑レベルに応じて設定する(1)に記載の画像処理装置。
 (3) 前記混雑領域の人物判定閾値は、前記混雑領域の人物において前記人物検出によって検出される人物がどの程度含まれるかを表す再現率を所定レベルに維持した状態で、前記人物検出によって検出された人物において前記混雑領域の人物がどの程度含まれるかを表す適合率が最大となるように設定する(2)に記載の画像処理装置。
 (4) 前記閑散領域の人物判定閾値は、前記人物検出によって検出された人物において前記閑散領域の人物がどの程度含まれるかを表す適合率が所定レベル以上で、前記閑散領域の人物において前記人物検出によって検出される人物がどの程度含まれるかを表す再現率が最大となるように設定する(2)または(3)に記載の画像処理装置。
 (5) 前記人物検出部は、人物であることの確度を示すスコアの算出を被写体に対して行い、算出した前記スコアが前記被写体の位置に対応する人物判定閾値以上であるとき人物と判定する(1)乃至(4)の何れかに記載の画像処理装置。
 (6) 前記追尾部は、前記人物検出部で検出された人物に対して追尾枠を設定して、前記追尾枠の枠内の画像と撮像時刻が異なる撮像画像を用いて、前記撮像時刻が異なる撮像画像における前記追尾枠の位置を予測する(1)乃至(5)の何れかに記載の画像処理装置。
 (7) 前記追尾部は、前記追尾枠に対して人物毎に異なる追尾識別情報を設定して、前記追尾識別情報毎に前記追尾枠の位置の予測を行い、予測位置の追尾枠に対応する人物位置想定領域内において前記人物検出部で得られた人物検出結果を示す情報に前記予測位置の追尾枠に設定された前記追尾識別情報を含める(6)に記載の画像処理装置。
 (8) 前記人物検出信頼度算出部は、信頼度算出期間における追尾位置での人物検出状況を算出して前記人物検出信頼度とする(1)乃至(7)の何れかに記載の画像処理装置。
 (9) 前記閑散領域で検出された人物を追尾して、前記人物の予測位置が前記混雑領域であるとき、前記閾値マップにおける前記予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整する閾値調整部をさらに備える(2)に記載の画像処理装置。
 (10) 前記閑散領域で検出された人物について過去方向に追尾と人物検出を行い、前記追尾における人物の予測位置が前記混雑領域であるとき、前記閾値マップにおける前記予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整して、調整後の人物判定閾値を用いて前記人物検出を行うバックトラッキング部をさらに備える(2)または(9)に記載の画像処理装置。
 (11) 前記人物検出信頼度算出部は、前記バックトラッキング部で取得した人物検出結果と追尾結果を用いて前記人物検出信頼度を算出する(10)に記載の画像処理装置。
 (12) 混雑領域と閑散領域の学習用画像を用いて領域毎に前記人物判定閾値を学習する閾値学習部をさらに備え、
 前記閾値学習部は、混雑領域では再現率を所定レベル以上かつ適合率が最も高くなる閾値を人物判定閾値として、閑散領域では、適合率が所定レベル以上かつ再現率の最も高くなる閾値または再現率と適合率が共に高くなる閾値を人物判定閾値とする(3)に記載の画像処理装置。
 (13) 前記閾値マップ生成部は、予め設定された前記混雑領域と前記閑散領域および前記混雑領域の混雑レベルに応じて前記閾値マップを生成する(2)に記載の画像処理装置。
 (14) 前記撮像画像を用いて混雑レベルを検出する混雑レベル検出部をさらに備え、
 前記閾値マップ生成部は、前記混雑レベル検出部で検出された混雑レベルに基づいて前記混雑領域と前記閑散領域の区分を行い、区分した領域毎の前記混雑レベルに応じて前記閾値マップを生成する(2)に記載の画像処理装置。
 (15) 前記人物検出信頼度算出部で算出された人物検出信頼度と前記追尾部の追尾結果に基づき、前記人物検出信頼度がカウント対象判別閾値以上であって予め設定した判定位置を通過する人物をカウント対象として、前記判定位置を通過する人物の数をカウントするカウント部をさらに備える(1)乃至(14)の何れかに記載の画像処理装置。
 この技術の画像処理装置と画像処理方法およびプログラムによれば、撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップが生成されて、この閾値マップに基づき、複数領域毎に領域に対応する人物判定閾値を用いて人物検出が行われる。また、検出された人物の追尾を行い、人物検出結果と追尾結果を用いて、検出された人物毎に人物検出信頼度が算出される。このため、信頼度が高く精度よい人物検出情報を得ることができるようになる。したがって、例えば監視カメラ等の撮像画像から通行人の数等を精度よく計測できる。
 10・・・画像処理システム
 20・・・撮像装置
 30・・・入力装置
 40・・・画像処理装置
 50・・・表示装置
 401・・・学習用画像群記憶部
 402・・・閾値学習部
 410・・・混雑レベル検出部
 411・・・閾値記憶部
 412・・・閾値マップ生成部
 413・・・閾値調整部
 421・・・人物検出部
 422,423・・・追尾部
 431・・・過去画像記憶部
 432・・・バックトラッキング部
 4321・・・過去画像選択部
 4322・・・閾値調整部
 4323・・・人物検出部
 4324・・・追尾部
 441,442・・・人物検出信頼度算出部
 451・・・カウント部
 461・・・出力部

Claims (17)

  1.  撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する閾値マップ生成部と、
     前記閾値マップ生成部で生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出を行う人物検出部と、
     前記人物検出部で検出された人物の追尾を行う追尾部と、
     前記人物検出部の人物検出結果と前記追尾部の追尾結果を用いて、前記検出された人物毎に人物検出信頼度を算出する人物検出信頼度算出部と
    を備える画像処理装置。
  2.  前記撮像画像は混雑領域と閑散領域に区分されており、前記人物判定閾値は領域の混雑レベルに応じて設定する
    請求項1に記載の画像処理装置。
  3.  前記混雑領域の人物判定閾値は、前記混雑領域の人物において前記人物検出によって検出される人物がどの程度含まれるかを表す再現率を所定レベルに維持した状態で、前記人物検出によって検出された人物において前記混雑領域の人物がどの程度含まれるかを表す適合率が最大となるように設定する
    請求項2に記載の画像処理装置。
  4.  前記閑散領域の人物判定閾値は、前記人物検出によって検出された人物において前記閑散領域の人物がどの程度含まれるかを表す適合率が所定レベル以上で、前記閑散領域の人物において前記人物検出によって検出される人物がどの程度含まれるかを表す再現率が最大となるように設定する
    請求項2に記載の画像処理装置。
  5.  前記人物検出部は、人物であることの確度を示すスコアの算出を被写体に対して行い、算出した前記スコアが前記被写体の位置に対応する人物判定閾値以上であるとき人物と判定する
    請求項1に記載の画像処理装置。
  6.  前記追尾部は、前記人物検出部で検出された人物に対して追尾枠を設定して、前記追尾枠の枠内の画像と撮像時刻が異なる撮像画像を用いて、前記撮像時刻が異なる撮像画像における前記追尾枠の位置を予測する
    請求項1に記載の画像処理装置。
  7.  前記追尾部は、前記追尾枠に対して人物毎に異なる追尾識別情報を設定して、前記追尾識別情報毎に前記追尾枠の位置の予測を行い、予測位置の追尾枠に対応する人物位置想定領域内において前記人物検出部で得られた人物検出結果を示す情報に前記予測位置の追尾枠に設定された前記追尾識別情報を含める
    請求項6に記載の画像処理装置。
  8.  前記人物検出信頼度算出部は、信頼度算出期間における追尾位置での人物検出状況を算出して前記人物検出信頼度とする
    請求項1に記載の画像処理装置。
  9.  前記閑散領域で検出された人物を追尾して、前記人物の予測位置が前記混雑領域であるとき、前記閾値マップにおける前記予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整する閾値調整部をさらに備える
    請求項2に記載の画像処理装置。
  10.  前記閑散領域で検出された人物について過去方向に追尾と人物検出を行い、前記追尾における人物の予測位置が前記混雑領域であるとき、前記閾値マップにおける前記予測位置を基準とした所定領域の人物判定閾値を、調整前よりも人物として判定され易くなるように調整して、調整後の人物判定閾値を用いて前記人物検出を行うバックトラッキング部をさらに備える
    請求項2に記載の画像処理装置。
  11.  前記人物検出信頼度算出部は、前記バックトラッキング部で取得した人物検出結果と追尾結果を用いて前記人物検出信頼度を算出する
    請求項10に記載の画像処理装置。
  12.  混雑領域と閑散領域の学習用画像を用いて領域毎に前記人物判定閾値を学習する閾値学習部をさらに備え、
     前記閾値学習部は、混雑領域では再現率を所定レベル以上かつ適合率が最も高くなる閾値を人物判定閾値として、閑散領域では、適合率が所定レベル以上かつ再現率の最も高くなる閾値または再現率と適合率が共に高くなる閾値を人物判定閾値とする
    請求項3に記載の画像処理装置。
  13.  前記閾値マップ生成部は、予め設定された前記混雑領域と前記閑散領域および前記混雑領域の混雑レベルに応じて前記閾値マップを生成する
    請求項2に記載の画像処理装置。
  14.  前記撮像画像を用いて混雑レベルを検出する混雑レベル検出部をさらに備え、
     前記閾値マップ生成部は、前記混雑レベル検出部で検出された混雑レベルに基づいて前記混雑領域と前記閑散領域の区分を行い、区分した領域毎の前記混雑レベルに応じて前記閾値マップを生成する
    請求項2に記載の画像処理装置。
  15.  前記人物検出信頼度算出部で算出された人物検出信頼度と前記追尾部の追尾結果に基づき、前記人物検出信頼度がカウント対象判別閾値以上であって予め設定した判定位置を通過する人物をカウント対象として、前記判定位置を通過する人物の数をカウントするカウント部をさらに備える
    請求項1に記載の画像処理装置。
  16.  撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを閾値マップ生成部で生成することと、
     前記閾値マップ生成部で生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出部で人物検出を行うことと、
     前記人物検出部で検出された人物の追尾を追尾部で行うことと、
     前記人物検出部の人物検出結果と前記追尾部の追尾結果を用いて、前記検出された人物毎に人物検出信頼度を人物検出信頼度算出部で算出することと
    を含む画像処理方法。
  17.  画像処理をコンピュータで実行させるプログラムであって、
     撮像画像を区分した複数領域毎に人物判定閾値を設定した閾値マップを生成する手順と、
     生成された前記閾値マップに基づき、前記複数領域毎に領域に対応する前記人物判定閾値を用いて人物検出を行う手順と、
     前記検出された人物の追尾を行う手順と、
     前記人物検出結果と前記追尾結果を用いて、前記検出された人物毎に人物検出信頼度を算出する手順と
    を前記コンピュータで実行させるプログラム。
PCT/JP2016/080092 2015-11-20 2016-10-11 画像処理装置と画像処理方法およびプログラム WO2017086058A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201680066097.3A CN108352064A (zh) 2015-11-20 2016-10-11 图像处理装置、图像处理方法和程序
US15/774,040 US20200175693A1 (en) 2015-11-20 2016-10-11 Image processing device, image processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-227183 2015-11-20
JP2015227183A JP2017097510A (ja) 2015-11-20 2015-11-20 画像処理装置と画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2017086058A1 true WO2017086058A1 (ja) 2017-05-26

Family

ID=58718773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/080092 WO2017086058A1 (ja) 2015-11-20 2016-10-11 画像処理装置と画像処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20200175693A1 (ja)
JP (1) JP2017097510A (ja)
CN (1) CN108352064A (ja)
WO (1) WO2017086058A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143402A (zh) * 2017-06-28 2019-01-04 阿自倍尔株式会社 人检测结果判定方法及装置
US20220019811A1 (en) * 2020-07-20 2022-01-20 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
US11651609B2 (en) 2020-06-10 2023-05-16 Here Global B.V. Method, apparatus, and system for mapping based on a detected pedestrian type

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051944A1 (ja) 2016-09-13 2018-03-22 日本電気株式会社 人流推定装置、人流推定方法および記録媒体
JP6866210B2 (ja) * 2017-03-31 2021-04-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
IL252032A0 (en) * 2017-04-30 2017-07-31 Pointgrab Ltd A method and system for determining presence from images
JP6920944B2 (ja) * 2017-09-26 2021-08-18 セコム株式会社 物体検出装置
JP6412625B1 (ja) * 2017-09-27 2018-10-24 三菱電機インフォメーションシステムズ株式会社 カウント装置及びカウントプログラム
CN109697499B (zh) 2017-10-24 2021-09-07 北京京东尚科信息技术有限公司 行人流量漏斗生成方法及装置、存储介质、电子设备
JP7077046B2 (ja) * 2018-02-14 2022-05-30 キヤノン株式会社 情報処理装置、被写体の判別方法及びコンピュータプログラム
JP7069840B2 (ja) * 2018-03-02 2022-05-18 日本電気株式会社 個体計数装置、個体計数方法、個体計数プログラム、及び個体計数システム
WO2019180917A1 (ja) * 2018-03-23 2019-09-26 日本電気株式会社 オブジェクト追跡装置、オブジェクト追跡方法、及びオブジェクト追跡プログラム
US20220019813A1 (en) * 2018-11-30 2022-01-20 Sony Group Corporation Information processing device, information processing system, and information processing method
TWI686748B (zh) * 2018-12-07 2020-03-01 國立交通大學 人流分析系統及人流分析方法
US20200219026A1 (en) * 2019-01-04 2020-07-09 Walmart Apollo, Llc Systems and methods for automated person detection and notification
JP6746154B1 (ja) * 2019-04-10 2020-08-26 株式会社バカン 物体検出装置及び混雑状況管理装置
CN114677607A (zh) * 2020-12-10 2022-06-28 富泰华工业(深圳)有限公司 基于人脸识别的实时行人统计方法以及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005235104A (ja) * 2004-02-23 2005-09-02 Jr Higashi Nippon Consultants Kk 移動体検出システム、移動体検出装置、移動体検出方法及び移動体検出プログラム
JP2006133946A (ja) * 2004-11-04 2006-05-25 Fuji Xerox Co Ltd 動体認識装置
JP2008250444A (ja) * 2007-03-29 2008-10-16 Omron Corp 顔検出装置、顔検出方法及び顔検出プログラム
JP2009143722A (ja) * 2007-12-18 2009-07-02 Mitsubishi Electric Corp 人物追跡装置、人物追跡方法及び人物追跡プログラム
JP2013206018A (ja) * 2012-03-28 2013-10-07 Oki Electric Ind Co Ltd 人数集計サーバ、通行人数集計装置、及び通行人数集計システム
JP2014229068A (ja) * 2013-05-22 2014-12-08 株式会社 日立産業制御ソリューションズ 人数計測装置および人物動線解析装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705793B2 (en) * 2009-10-08 2014-04-22 University Of Southern California Object tracking by hierarchical association of detection responses
JP5535708B2 (ja) * 2010-03-19 2014-07-02 東芝エレベータ株式会社 エレベータの群管理制御装置
CN102324016B (zh) * 2011-05-27 2013-06-05 北京东方奔腾信息技术有限公司 一种高密度人群流量统计方法
US9111147B2 (en) * 2011-11-14 2015-08-18 Massachusetts Institute Of Technology Assisted video surveillance of persons-of-interest
CN105075248A (zh) * 2013-03-29 2015-11-18 日本电气株式会社 对象物体标识设备、对象物体标识方法和对象物体标识程序
JP6008045B2 (ja) * 2013-06-28 2016-10-19 日本電気株式会社 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム
CN105654021B (zh) * 2014-11-12 2019-02-01 株式会社理光 检测人群对目标位置关注度的方法及设备
CN104933412B (zh) * 2015-06-16 2018-05-04 电子科技大学 中高密度人群的异常状态检测方法
US9973711B2 (en) * 2015-06-29 2018-05-15 Amazon Technologies, Inc. Content-based zooming and panning for video curation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005235104A (ja) * 2004-02-23 2005-09-02 Jr Higashi Nippon Consultants Kk 移動体検出システム、移動体検出装置、移動体検出方法及び移動体検出プログラム
JP2006133946A (ja) * 2004-11-04 2006-05-25 Fuji Xerox Co Ltd 動体認識装置
JP2008250444A (ja) * 2007-03-29 2008-10-16 Omron Corp 顔検出装置、顔検出方法及び顔検出プログラム
JP2009143722A (ja) * 2007-12-18 2009-07-02 Mitsubishi Electric Corp 人物追跡装置、人物追跡方法及び人物追跡プログラム
JP2013206018A (ja) * 2012-03-28 2013-10-07 Oki Electric Ind Co Ltd 人数集計サーバ、通行人数集計装置、及び通行人数集計システム
JP2014229068A (ja) * 2013-05-22 2014-12-08 株式会社 日立産業制御ソリューションズ 人数計測装置および人物動線解析装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143402A (zh) * 2017-06-28 2019-01-04 阿自倍尔株式会社 人检测结果判定方法及装置
US11651609B2 (en) 2020-06-10 2023-05-16 Here Global B.V. Method, apparatus, and system for mapping based on a detected pedestrian type
US20220019811A1 (en) * 2020-07-20 2022-01-20 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
US11908197B2 (en) * 2020-07-20 2024-02-20 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Also Published As

Publication number Publication date
CN108352064A (zh) 2018-07-31
US20200175693A1 (en) 2020-06-04
JP2017097510A (ja) 2017-06-01

Similar Documents

Publication Publication Date Title
WO2017086058A1 (ja) 画像処理装置と画像処理方法およびプログラム
JP7428213B2 (ja) 情報処理システム、情報処理方法及びプログラム
EP2372654B1 (en) Object tracking apparatus, object tracking method, and control program
Ge et al. Automatically detecting the small group structure of a crowd
US10984252B2 (en) Apparatus and method for analyzing people flows in image
JP6481617B2 (ja) 回避行動検出装置、回避行動検出方法、およびプログラム
JP2013196684A (ja) 対象物計数方法および対象物計数装置
JP5754990B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6103080B2 (ja) ビデオにおけるカメラ動きの型を検出する方法および装置
US20180053314A1 (en) Moving object group detection device and moving object group detection method
JP2011258180A5 (ja)
US20170148174A1 (en) Object tracking method and object tracking apparatus for performing the method
US20140286531A1 (en) System for tracking a moving object, and a method and a non-transitory computer readable medium thereof
WO2018107748A1 (zh) 一种路径检测方法及装置
JP2011180684A (ja) 移動物体追跡装置
JP7081659B2 (ja) 情報処理装置、データ生成方法、及びプログラム
JP2018072939A (ja) 映像処理プログラム、映像処理方法、及び映像処理装置
JP6787075B2 (ja) 画像処理システム、画像処理装置および画像処理方法
Chandran et al. A PTZ camera based people-occupancy estimation system (PCBPOES)
KR101155273B1 (ko) 적응적 배경 기반의 터널 감시장치 및 방법
JP7131690B2 (ja) 制御装置、制御方法、及びプログラム
JP5336017B2 (ja) 撮像装置及び撮像方法
Patel Vision Based Smart Parking System Using Convolutional Neural Network
Blythe Video-based vehicle and pedestrian tracking and motion modelling
Li Study of Identifying Jaywalkers by Analyzing Camera Data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16866060

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16866060

Country of ref document: EP

Kind code of ref document: A1