WO2005020152A1 - 人物検出装置および人物検出方法 - Google Patents

人物検出装置および人物検出方法 Download PDF

Info

Publication number
WO2005020152A1
WO2005020152A1 PCT/JP2004/011790 JP2004011790W WO2005020152A1 WO 2005020152 A1 WO2005020152 A1 WO 2005020152A1 JP 2004011790 W JP2004011790 W JP 2004011790W WO 2005020152 A1 WO2005020152 A1 WO 2005020152A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
fragment
image
spatiotemporal
temporal
Prior art date
Application number
PCT/JP2004/011790
Other languages
English (en)
French (fr)
Inventor
Masahiro Iwasaki
Taro Imagawa
Kenji Nagao
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2005513284A priority Critical patent/JP3775683B2/ja
Publication of WO2005020152A1 publication Critical patent/WO2005020152A1/ja
Priority to US11/320,416 priority patent/US7613325B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention relates to a person detection device and a person detection method.
  • the present invention relates to a person detecting device and the like for detecting a walking person by image processing, and more particularly to a person detecting device and the like for detecting a position and a walking direction of a person.
  • a plurality of slits are arranged in an image, and a moving object image is obtained by using a temporal pixel value change in the slit area.
  • a method has also been proposed for forming and counting the moving direction of a moving object and counting (for example, page 7 and FIG. 4 of Patent No. 3183320). According to this technology, it is possible to stably detect a person and determine a moving direction by considering a temporal change of a person passing through the slit.
  • the first prior art is limited to the case where the position of the ankle of the person is known and the person is walking left and right with respect to the image. Also, since it is necessary to detect the ankle position in advance, it is assumed that the initial detection of the person has already been performed. Therefore, there is a problem that it is difficult to detect a person walking in various directions in the image.
  • the walking direction can be detected by arranging a plurality of slits for detecting a person in an image, but the designer has to arrange the slits in advance. Therefore, there is a problem that an area where a person can be detected in an image is limited. Disclosure of the invention
  • An object of the present invention is to solve the above-described problem, and perform a person detection including a person's location and a walking direction without limiting a detection area in an image even when the person's walking direction is not constant. It is an object of the present invention to provide a human detection device and the like that can perform the above-mentioned operations.
  • a person detection device is a device for detecting a person included in a moving image, wherein a frame image constituting a moving image of a person is taken along a time axis. From the spatio-temporal volume generation means for generating the arranged three-dimensional spatio-temporal image, and the generated three-dimensional spatio-temporal image, A spatio-temporal fragment extraction means for extracting a real-image spatio-temporal fragment which is an image of a cut plane or a cut piece when the three-dimensional spatio-temporal image is cut, and a person motion model defining the motion characteristics of the person.
  • a spatiotemporal fragment output unit for generating and outputting a spatiotemporal fragment of a human body part motion model, which is a spatiotemporal fragment obtained by movement by a human motion model; and a spatiotemporal fragment extracted by the spatiotemporal fragment extraction unit.
  • a spatiotemporal fragment matching unit that matches a human body part motion model spatiotemporal fragment output by the spatiotemporal fragment output unit; and a presence / absence of a person in the moving image based on a result of the comparison by the spatiotemporal fragment matching unit.
  • the spatiotemporal fragment extraction means determines a fragment extraction line for cutting the frame image, and sets a plane obtained by arranging the determined fragment extraction lines along the time axis as a cut plane.
  • the real image spatio-temporal fragment is extracted.
  • the real image spatio-temporal fragment is extracted using a fragment extraction line that cuts a leg of a person in the three-dimensional spatio-temporal image.
  • the spatiotemporal fragment output means is based on a human motion model that defines the walking characteristics of the human, and a human body part motion model spatiotemporal fragment obtained by a cut surface that cuts a leg of the human motion model during walking.
  • the person detection is performed using the walking characteristic peculiar to the motion of the person, it is possible to prevent a moving object such as a car having no walking characteristic from being erroneously detected.
  • the person motion model for example, it corresponds to two legs.
  • a model is defined in which one end is represented by two connected segments, and each segment alternately rotates up to a maximum angle of 2 ⁇ L at a constant angular velocity ⁇ with the joint point as the center of rotation. be able to.
  • the spatiotemporal fragment matching means when the real image spatiotemporal fragment is scanned in the temporal direction with a human body part motion model spatiotemporal fragment for one step output by the spatiotemporal fragment output means.
  • the matching is performed by calculating the degree of coincidence between the images. This makes it possible to reliably detect a person by simple image matching by using the fact that the human walking is a cyclic movement.
  • the human detection device further includes a movement direction calculation unit that calculates a movement existing in the three-dimensional space-time image from the three-dimensional space-time image generated by the space-time volume generation unit.
  • the spatio-temporal fragment extraction means may determine the fragment extraction line according to the movement direction calculated by the movement direction calculation means.
  • the moving direction calculating means extracts the moving object for each frame image forming the three-dimensional spatiotemporal image, and obtains a motion vector between the extracted moving objects between the frame images.
  • the moving direction of the moving object may be calculated, or each of the frame images constituting the three-dimensional spatiotemporal image may be divided into small areas, and the motion vector between the frame images may be calculated for each small area.
  • the moving direction of the moving object may be calculated.
  • the fragment extraction line is determined following the moving direction of the person, so that the fragment extracting line that generates the most appropriate spatiotemporal fragment regardless of the moving direction or position of the person, for example, Regardless of the position of the person, a fragment extraction line that always cuts the leg of the person is automatically determined.
  • the fragment extraction line is, for example, a straight line or a curve.
  • the attribute output means may include the real image by the spatiotemporal fragment matching means.
  • a parameter for specifying the cut surface or the cut piece and a parameter for specifying the human body motion model are obtained.
  • the person detecting device further includes a display unit for displaying a person attribute including the position and the moving direction of the person output from the attribute output unit. May be provided.
  • the person detecting device further includes a periodicity analysis unit that analyzes whether the real image spatiotemporal fragment extracted by the spatiotemporal fragment extraction unit is an image based on a periodic motion peculiar to walking of a person.
  • the spatiotemporal fragment extracting means may change a fragment extraction line based on an analysis result by the periodicity analyzing means, and extract a real image spatiotemporal fragment again using the changed fragment extraction line.
  • the periodicity analysis means generates time-series data of a correlation length by obtaining a self-correlation function with respect to one-dimensional data indicating an image at each time constituting the real image spatiotemporal fragment.
  • the real image spatio-temporal fragment is analyzed to be an image based on a periodic motion peculiar to human walking, and the correlation length time-series data
  • a graph showing the change of the autocorrelation function value with respect to the correlation length is obtained by calculating the autocorrelation function for the correlation length. If there is a peak in the graph, it is determined that the time series data of the correlation length has periodicity. May be.
  • the parameters of the fragment extraction line are changed and determined so that the periodicity based on the walking characteristic peculiar to the motion of the human is detected in the spatiotemporal fragment of the real image. People can be reliably detected without relying on the information.
  • the human detection device may further change the parameter for specifying the cut plane or the cut piece by the spatiotemporal fragment extraction means based on the result of the comparison by the spatiotemporal fragment collation means, and then return the real image Extracting at least one spatial fragment, and causing the spatiotemporal fragment output means to change at least one of the parameters for identifying the human body motion model and then again outputting the human body part motion model spatiotemporal fragment.
  • a solution search means for searching for an optimal parameter for specifying the cut plane or the cut piece and an optimal parameter for specifying the human body motion model may be provided.
  • the solution search means searches for an optimal parameter using, for example, a genetic algorithm.
  • the spatiotemporal volume generation means generates the three-dimensional spatiotemporal image by superimposing at least one or more images obtained by binarizing the frame image after subtracting the background difference or the interframe difference, and then superimposing at least one image. You may. As a result, a three-dimensional spatiotemporal image is generated only from a moving object, so that the matching speed is increased and the matching accuracy is improved.
  • the spatiotemporal fragment output means generates and outputs a spatiotemporal fragment of a human body part movement model corresponding to a human motion model selected from a plurality of different types of human motion models stored in advance.
  • the fragment matching means when the result of the matching does not satisfy a certain criterion, causes the spatiotemporal fragment output means to generate and output a human body part motion model spatiotemporal fragment corresponding to a new human motion model. In this case, the matching may be repeated.
  • the plurality of person motion models stored in advance by the spatiotemporal fragment output means the gender, age, the state of the road on which the person walks, and the walking At least one congestion at the location is different It may be made to be.
  • the present invention can be realized not only as a person detection device, but also for comparing an image of a person included in a moving image with a previously stored image of a person.
  • a collation camera having at least one function of pan, tilt, and zoom; and a pan, tilt, and zoom by the collation camera based on the position or moving direction of the person detected by the person detection device.
  • the present invention is realized as a person matching device including a force camera control unit that controls at least one person, and a person matching unit that matches a person image captured by the matching camera with a previously stored person image. You can also.
  • the present invention can be applied to a person monitoring device, a person authentication device, or the like that searches for a specific person or authenticates a person.
  • the present invention is an apparatus for fitting a person motion model defining the motion characteristics of a person to the motion of the person on the image, wherein a frame image constituting the moving image of the person is taken along a time axis.
  • a spatio-temporal volume generating means for generating an arranged three-dimensional spatio-temporal image, and an image on a cutting plane or a slice when the three-dimensional spatio-temporal image is cut from the generated three-dimensional spatio-temporal image.
  • Spatio-temporal fragment extraction means for extracting a real image spatio-temporal fragment, spatio-temporal fragment output means for generating and outputting a human body part motion model spatio-temporal fragment which is a spatio-temporal fragment obtained by a motion based on the human motion model, Spatio-temporal fragment matching means for comparing the real-image spatio-temporal fragment extracted by the spatio-temporal fragment extraction means with the human body part motion model spatio-temporal fragment output by the spatio-temporal fragment output means; Based on the comparison result by the spatiotemporal fragment verification unit, so that the person motion model indicating the motion of a person in the moving image, the model Fi Tsu Te to determine the value of the parameter that identifies the pre-Symbol human movement model It can also be realized as a person model fitting device provided with a singing means.
  • the present invention is an apparatus for generating an image or the like used for detecting a person included in a moving image, the apparatus being configured to generate a three-dimensional spatiotemporal image in which frame images constituting the moving image are arranged along a time axis.
  • This is a spatio-temporal fragment obtained by a motion based on a person motion model based on a person motion model that defines the motion characteristics of a person when an image on a cut plane or a cut piece at the time of cutting is defined as a spatio-temporal fragment.
  • the present invention can also be realized as an image generation device including a spatiotemporal fragment output unit that generates and outputs a spatiotemporal fragment of a human body part motion model.
  • a spatiotemporal fragment representing the motion of a characteristic human body part is generated from the human motion model, so that, for example, reference data corresponding to various human models to be collated in the human detection device is generated. It can be used as a dedicated device.
  • the present invention can be realized not only as such a person detecting device, a person matching device, a person model fitting device, and an image generating device, but also as a person detecting method, a person matching method, and a person model fitting device.
  • the present invention can also be realized as a programming method and an image generation method, as a program for causing a computer to execute such a method, or as a computer-readable recording medium on which the program is recorded.
  • FIG. 1 shows a configuration of a person detection device according to the first embodiment of the present invention.
  • FIG. 3 is a functional block diagram.
  • FIG. 2 is a flowchart showing the operation of the person detecting device according to the first embodiment of the present invention.
  • FIG. 3 is a diagram illustrating extraction of a spatiotemporal fragment according to the first embodiment of the present invention.
  • FIG. 4 is a functional block diagram showing the configuration of the spatiotemporal fragment extraction unit according to the first embodiment of the present invention.
  • FIG. 5 is a diagram showing fragment extraction lines on world coordinates according to the first embodiment of the present invention.
  • FIG. 6 is a functional block diagram showing a configuration of a human body part movement spatiotemporal fragment output unit according to the first embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a person motion model according to the first embodiment of the present invention.
  • FIG. 8 is a functional block diagram showing the configuration of the spatiotemporal fragment matching unit according to the first embodiment of the present invention.
  • FIG. 9 (a) is a diagram showing a spatiotemporal fragment according to the first embodiment of the present invention
  • FIG. 9 (b) is a human body part motion model spatiotemporal fragment according to the first embodiment of the present invention
  • FIG. 9 (c) is a diagram showing matching in the first embodiment of the present invention.
  • FIG. 10 is a functional block diagram showing the configuration of the person detecting device according to the second embodiment of the present invention.
  • FIG. 11 is a functional block diagram illustrating a configuration of a solution search unit according to the second embodiment of the present invention.
  • FIG. 12 is a functional block diagram showing the configuration of the person detecting device according to the third embodiment of the present invention.
  • FIG. 13 is a diagram showing a display on a display unit according to the third embodiment of the present invention. It is.
  • FIG. 14 is a functional block diagram showing the configuration of the person detecting device according to the fourth embodiment of the present invention.
  • FIG. 15 is a diagram illustrating an example of a moving direction calculation method according to the fourth embodiment of the present invention.
  • FIG. 16 is a diagram illustrating an example of a moving direction calculation method according to the fourth embodiment of the present invention.
  • FIG. 17 is a functional block diagram showing a configuration of a spatiotemporal fragment extraction unit according to the fourth embodiment of the present invention. .
  • FIG. 18 is a functional block diagram showing the configuration of the person detecting device according to the fifth embodiment of the present invention.
  • FIG. 19 is a functional block diagram showing the configuration of the periodicity analysis unit according to the fifth embodiment of the present invention.
  • FIG. 20 is a diagram illustrating an example of autocorrelation function calculation according to the fifth embodiment of the present invention.
  • FIG. 21 is a diagram illustrating an example of calculation of the autocorrelation function of the correlation length according to the fifth embodiment of the present invention.
  • FIG. 22 is a functional block diagram showing the configuration of the person model fitting device according to the sixth embodiment of the present invention.
  • FIG. 23 is a functional block diagram showing a configuration of a person model fitting unit according to the sixth embodiment of the present invention.
  • FIG. 24 is a diagram illustrating an example of a person motion model template for each type.
  • FIG. 25 is a diagram illustrating an example of a plurality of human motion model templates that are different for each situation of a walking road surface.
  • FIG. 4 is a diagram illustrating an example of a deltemplate. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a functional block diagram showing the configuration of the person detecting device according to the present embodiment.
  • This person detection device is a device that detects a person present in a video taken of a street, a parking lot, a store, or the like.
  • Camera 10, video processing unit 11, continuous image processing unit 12, spatiotemporal It comprises a volume generation unit 13, a spatiotemporal fragment extraction unit 14, a human body part motion model spatiotemporal fragment output unit 15, a spatiotemporal fragment collation unit 16, an attribute output unit 17, and a display unit 18.
  • a spatiotemporal fragment is extracted as an image will be described.
  • the spatiotemporal fragment does not necessarily need to be an image, and may be obtained by fitting feature amounts extracted from the image, ellipses, straight lines, and the like. It may be an extracted parameter.
  • a camera 10 is an imaging device that captures a video and outputs the captured video to a video processing unit 11 for each frame.
  • the video processing unit 11 is a processing unit that performs an inter-frame difference process or a background difference process for each frame of the input video, and binarizes the video based on a threshold.
  • the continuous image processing unit 12 accumulates the input image in chronological order of the frame.
  • the input image This is a processing unit that performs feature extraction and fits ellipses, straight lines, etc. using, and accumulates the results as parameters in chronological order.
  • the spatiotemporal volume generation unit 13 is a processing unit that generates a spatiotemporal volume using images or parameters for a predetermined number of N frames.
  • the spatiotemporal fragment extraction unit 14 is a processing unit that extracts spatiotemporal fragments using the spatiotemporal volume generated by the spatiotemporal volume generation unit 13.
  • the spatiotemporal fragment is an image on a cut plane or a slice when the three-dimensional spatial image indicated by the spatiotemporal volume is cut along the time axis.
  • this is an image on a cut plane when a 3D spatial image is cut along a plane parallel to the horizontal axis of the frame and parallel to the time axis.
  • the human body part motion model spatiotemporal fragment output unit 15 is a processing unit that outputs a human body part motion model spatiotemporal fragment according to the human motion model.
  • the spatiotemporal fragment collating unit 16 includes a spatiotemporal fragment from the real image generated by the spatiotemporal fragment extraction unit 14 and a human body part motion model. This is a processing unit that performs matching with the motion model spatiotemporal fragment.
  • the attribute output unit 17 uses the result of the spatiotemporal fragment matching unit 16 to calculate the position, walking direction, angular velocity, etc. of the detected person, or predict the position of the person after t seconds. It is a processing unit.
  • the display unit 18 is a processing unit, a display, and the like for arranging and displaying the location and the walking direction of the person detected by the spatiotemporal fragment collation unit 16 in an overhead view.
  • the camera 10 captures an image of an object such as a moving object.
  • the camera 10 may be constituted by a plurality of cameras.
  • the video processing unit 11 receives the input from the camera 10.
  • the video is subjected to inter-frame difference processing or background difference processing for each frame, and the video is binarized using a threshold.
  • background subtraction processing an image serving as a background where no person exists is prepared in advance.
  • the continuous image processing unit 12 stores the binarized image as a buffer in the built-in hard disk or the like as a buffer in order to generate a spatiotemporal volume.
  • an image is transmitted to the spatiotemporal volume generation unit 13 for each frame, or when a spatiotemporal volume is generated from a source other than the image, feature extraction, ellipse, straight line fitting, etc. are performed using the input image. The result is output as a parameter.
  • the spatio-temporal volume generation unit 13 uses the predetermined number of frames of N images or the time N parameters to generate the spatio-temporal volume. Generate Here, if the N + 1st image is newly transmitted from the continuous image processing unit 12, the first frame of the spatiotemporal volume is discarded in S 206, so that N frames are always Generate a spatiotemporal volume holding images of minutes.
  • the spatiotemporal fragment extraction unit 14 determines the parameters of the fragment extraction line, and the spatiotemporal volume generation unit 13 uses the determined fragment extraction line to generate the parameter. Extract spatiotemporal fragments from spatiotemporal volumes.
  • FIG. 3A shows the spatiotemporal volume 21
  • FIG. 3B shows the spatiotemporal fragment 22 determined by the fragment extraction line 23.
  • the spatiotemporal fragment 22 shown in Fig. 3 (b) is a one-dimensional image of the fragment extraction line 23 in each frame constituting the spatiotemporal volume 21 arranged on the time axis. This corresponds to the image on the cut plane when the three-dimensional spatiotemporal image shown in 21 is cut along the time axis.
  • the fragment extraction line 23 for extracting the spatiotemporal fragment may be a curve as well as a straight line as shown in FIG. 3 (a). Furthermore, the line may have a certain thickness (thickness). The method for determining the fragment extraction line will be described later.
  • the human body part motion model spatiotemporal fragment output unit 15 determines the parameters of the human motion model based on the parameters of the fragment extraction line determined in S207. Then, a human body part motion model spatiotemporal fragment is generated from the human motion model generated based on the determined parameters of the human motion model. The method for determining the parameters of the human motion model and the method for generating the human body part motion model spatiotemporal fragment will be described later.
  • the spatiotemporal fragment matching unit 16 calculates the spatiotemporal fragment extracted by the spatiotemporal fragment extraction unit 14 and the human body part motion generated by the human body part motion model spatiotemporal fragment output unit 15. Perform matching with model spatiotemporal fragments.
  • the spatiotemporal fragment collating unit 16 collates the spatiotemporal fragment with the spatiotemporal fragment of the human body part motion model, and if the collation result does not match (NO in S210), If the process has proceeded to S211 and all the parameters of the human motion model have not been tried (NO in S211), the process proceeds to S208 and the human body part motion model spatiotemporal fragment output unit When 15 generates a new spatiotemporal fragment of the human body part motion model, and if all the parameters of the human motion model have been tried (YES in S211), the process proceeds to S207 and again.
  • the spatiotemporal fragment extraction unit 14 determines a fragment extraction line 23.
  • the spatiotemporal fragment and the human body part motion model spatiotemporal fragment match or are equal to or larger than the threshold in the matching result (YES in S210)
  • the spatiotemporal fragment The collating unit 16 calculates the fragment extraction line at that time.
  • the parameters and the parameters of the person motion model are output to the attribute output unit 17.
  • the attribute output unit 17 calculates the presence position and the walking direction of the person, and outputs the calculated position to the display unit 18.
  • the display unit 18 displays the presence or absence of the person, the presence position, and the walking direction on the screen.
  • the spatiotemporal fragment extraction unit 14 performs fragment extraction that cuts the spatiotemporal volume in a field coordinate system, which is a coordinate axis that represents the position and movement direction of a person in real space in real space.
  • a fragment extraction line generation unit 30 that determines the line 23
  • a coordinate conversion unit 31 that converts from the world coordinate system to a pixel coordinate system that expresses the image plane using parameters related to the installation of the camera 10, and a spatiotemporal volume
  • a spatiotemporal volume cutting unit 32 for extracting spatiotemporal fragments 22 from 21 is provided.
  • the fragment extraction line generation unit 30 defines a straight line and a curve on the world coordinates.
  • the fragment extraction line generation unit 30 uses a world coordinate system that expresses coordinate axes in the real space in order to generate straight lines and curves based on the position and the moving direction of the person in the real space.
  • the world coordinates are indicated by (Xw, YwZw). The details of world coordinates are described in Xu and Tsuji, "3D Vision", page 9, Kyoritsu Shuppan, published in 1998.
  • ⁇ w is a parameter related to the walking direction of a person existing on the world coordinates representing the real space. If the intercept b w can be obtained, the walking of the person on the world coordinates is on the straight line represented by the equation (1).
  • a curve is also possible to use a curve as the fragment extraction line 23. For example, it is also effective to use a curve according to the fluctuation of walking. In this case, by assuming a walking cycle, a fragment extraction line is determined by a sin curve or the like, and fragment extraction is performed while shifting the phase, thereby performing fragment extraction that matches the periodic vertical movement in walking. it can.
  • the above 0 W and bw are determined in a sequential manner based on the result of the later-described comparison performed by the spatiotemporal fragment collation unit 16, assuming a combination that covers the inside of the monitoring area.
  • the above two parameters may be determined based on the detection result, and are not necessarily exhaustive.
  • the coordinate transformation unit 3 1 a fragment extraction line 2 3 produced by the parameter of the 0 W and b w, the installation position of the camera 1 0, focal length, using pre-known parameters such as scale factor Transforms from the world coordinate system to the pixel coordinate system representing the image plane.
  • the fragment extraction line becomes a line on the two-dimensional image.
  • the spatiotemporal volume cutting unit 32 extracts spatiotemporal fragments.
  • This spatio-temporal fragment was extracted by the spatio-temporal volume generation unit 13 using the fragment extraction line in the pixel coordinate system generated by the coordinate transformation unit 31. This is done by cutting the spatiotemporal volume.
  • the spatiotemporal fragment matching unit 16 compares the spatiotemporal fragment extracted by the spatiotemporal volume cutting unit 32 with the human body part motion model spatiotemporal fragment output from the human body part motion model spatiotemporal fragment output unit 15. Then, a fragment extraction line parameter change signal, which is a signal indicating a parameter change of the fragment extraction line, is output to the fragment extraction line generation unit 30 based on the comparison result.
  • the spatiotemporal fragment extraction unit 14 creates a fragment extraction line and creates a spatiotemporal fragment until the input of the fragment extraction line parameter change signal is completed.
  • the human body part motion model spatiotemporal fragment output unit 15 includes a human motion model generation unit 50 that models the walking of a person on world coordinates using fragment extraction lines 23, and world coordinates.
  • a coordinate transformation unit 51 for converting a system into a pixel coordinate system, and a spatiotemporal fragment output unit 52 for generating a spatiotemporal fragment according to a human motion model are provided.
  • a person's walking is modeled using two line segments representing legs.
  • a more detailed human motion model may be used in consideration of the knee joint, ankle, and the like.
  • the motion of the person may be modeled using an ellipse or the like, instead of the line segment.
  • human motion model generating unit 5 0 a one step walking in the world coordinate system as the basic unit, as shown in FIG. 7, the position on the Waal de coordinates human movement model walks (x start , Y start) and angular velocity ⁇ .
  • start% y start is one point on the fragment extraction line 23 on the world coordinates determined by the spatiotemporal fragment extraction unit 14.
  • FIG. 7 shows a case where the legs are opened to the maximum in the human motion model.
  • the next step starts from (X 2nd, V 2nd) and moves to angular velocity and angle 2.
  • the parameters 0 w and b w of the fragment extraction line determined by the fragment extraction line generator 30 represent a straight line on world coordinates.
  • the human motion model is a model of the motion of a human leg. Two straight lines are used as legs, and the position (x start , y start) in world coordinates is determined. By moving the legs of the human motion model at the angular velocity ⁇ as the starting point, a one-step walk is generated. If the crotch angle of the human motion model is 20 L, then 20 L Z o) is the time or the number of frames required to walk one step.
  • is a comprehensive trial of the possible angular velocity ⁇ in consideration of the walking speed of the person, so that the combination of the angular velocity ⁇ and the position ( Xstart , ystart) in world coordinates is used.
  • the case where the length L of the leg and the angle e L between the crotch are determined by the designer in advance will be described.
  • the walking generated by the human motion model is limited to one step. Instead, the basic unit can be several steps.
  • the coordinate conversion unit 51 uses the known coordinates such as the installation position of the camera 10, the focal length, and the scale factor to generate the world coordinates generated by the human motion model.
  • the spatiotemporal polygram is generated from the human motion model by transforming the human motion model for one step above into walking in the pixel coordinate system.
  • the spatio-temporal fragment output unit 52 outputs the same 0 W and b w parameters as the spatio-temporal fragment extraction unit 14 to the spatio-temporal volume in the pixel coordinate system generated by the coordinate transformation unit 51. To generate a spatiotemporal fragment.
  • a spatiotemporal volume is generated by the coordinate transformation unit 51 using the human motion model generated by the human motion model generation unit 50, and a spatiotemporal fragment of the human motion model is generated from the spatiotemporal volume.
  • the human motion model is modeled as leg motion, but the human body part motion model spatiotemporal fragment is generated as a fragment that focuses on one leg, such as an ankle position. Become.
  • a spatiotemporal fragment of the human body part motion model can be generated, and the amount of calculation can be reduced.
  • the spatiotemporal fragment matching unit 16 compares the spatiotemporal fragment extracted by the spatiotemporal fragment extraction unit 14 with the human body part motion model spatiotemporal fragment output from the human body part motion model spatiotemporal fragment output unit 15. Then, a human body part motion model spatiotemporal fragment parameter change signal, which is a signal indicating a parameter change of the human body part motion model spatiotemporal fragment, is output to the human motion model generation unit 50 based on the collation result.
  • the human body part motion model spatiotemporal fragment output unit 15 creates the human body part motion model spatiotemporal fragment from the human motion model until the input of the human body part motion model spatiotemporal fragment parameter change signal is completed. I do.
  • the spatiotemporal fragment matching unit 16 is composed of the spatiotemporal fragment extracted by the spatiotemporal fragment extraction unit 14 and the human body part motion model spatiotemporal generated from the human motion model by the human body part motion model spatiotemporal fragment output unit 15. It comprises a matching processing unit 150 for performing matching with a fragment, and a comparing unit 152 for holding a matching result, comparing the result with a predetermined threshold value, and outputting a matching result or a parameter change request.
  • the matching processing unit 150 matches the spatiotemporal fragment extracted from the real image by performing matching while scanning the spatiotemporal fragment of the human body part motion model generated from the human motion model in the time direction.
  • a collation example for a binarized image will be described.
  • Fig. 9 (a) is a spatiotemporal fragment 70 focusing on the motion of the human leg extracted from the real image
  • Fig. 9 (b) is a human body part motion model spatiotemporal fragment 7 1 generated from the human motion model.
  • Figure 9 (c) shows the matching score, which is the matching score of both.
  • the human body part motion model spatiotemporal fragment 71 generated from the human motion model is scanned from top to bottom for each pixel, and the matching score is calculated. .
  • a step of calculating a matching score is referred to as a step.
  • the matching score is calculated based on the spatio-temporal fragment 70 and the human body part motion model. If the Dell spatiotemporal fragment 1 is binarized to "0" and “1", the pixel whose pixel value is “1” is set to the ON pixel, and the pixel value is "0" Is the OFF pixel, and the ON and OFF pixels of the spatiotemporal fragment 71 of the human body motion model are compared with the ON and OFF pixels of the spatiotemporal fragment 70.
  • a human body part motion model spatiotemporal fragment 7 1 is superimposed on an arbitrary position of the spatiotemporal fragment 70.
  • the value obtained by normalizing the number of ON pixels to be compared with the number of ON pixels of the human body part motion model spatio-temporal fragment 71 and the number of OFF pixels to be collated are normalized by the number of OFF pixels of the human body part motion model temporal space fragment 71. By adding the converted values, the matching score is obtained.
  • the matching score is calculated while scanning the human body part motion model spatiotemporal fragment 71 for each step, and is output to the comparing section 151.
  • the comparing unit 151 compares the score indicating the largest matching score in the scanning process with a predetermined threshold value, and matches the matching score exceeding the threshold value, the number of steps thereof, and the parameters of the human motion model. The result is output to the attribute output unit 17.
  • the largest matching Only the score indicating the core is compared with the threshold value, but may be compared with the threshold value at each step.
  • the spatiotemporal fragment matching unit 16 changes the parameters of the human body part motion model spatiotemporal fragment.
  • the required body part motion model spatiotemporal fragment parameter change signal is output to the human body part motion model spatiotemporal fragment output unit 15. If all the human motion model parameters have been examined, fragment extraction is performed.
  • a fragment extraction line parameter change signal requesting a change in line parameters is output to the spatiotemporal fragment extraction unit 14.
  • the spatiotemporal fragment parameter change signal and the fragment extraction line parameter change signal of the human body part motion model include 0 W and b w which are the parameters of the fragment extraction line 23 and the parameters of the human motion model (X st art yst art / ⁇ and ⁇ are included.
  • the time in FIG. 9 (a) is the number N of frames determined in advance by the spatiotemporal volume generation unit 13 and the time in FIG. 9 (b) is generated by the human motion model generation unit 50. If the crotch angle of the obtained human motion model is 2 ⁇ L and the angular velocity is ⁇ , it is 20 ⁇ , and the steps in FIG. 9 (c) are the number of steps of the scan processing performed by the matching processing unit 150. .
  • the parameters of the human motion model of the human body part motion model spatiotemporal fragment output unit 15 are changed under the constraint of the fragment extraction line parameters, and the combination of the parameters relating to the human motion model is tried.
  • the detection result with the highest accuracy all combinations of parameters covering the monitoring area are tried, but if the detection result with sub-optimal accuracy is acceptable, detection is performed using the threshold value in the matching processing unit 150.
  • the result can also be.
  • the human candidate area can be calculated using other initial detection methods Does not necessarily try all parameter combinations that cover the monitored area.
  • the parameter of the fragment extraction line of the spatiotemporal fragment extraction unit 14 is changed again, and the combination of the parameters related to the human motion model is repeatedly tried again under the constraint of the fragment extraction line.
  • the matching processing unit 150 It is also possible to use the threshold value as a detection result.
  • a person candidate area can be calculated using another initial detection method, it is not always necessary to try combinations of all parameters covering the monitoring area.
  • the human body part movement model spatiotemporal fragment is also a fragment having a similar thickness.
  • the spatiotemporal fragment collation unit may collate fragments having a large thickness, or a spatiotemporal fragment extracted from the spatiotemporal volume and a human body part motion model spatiotemporal fragment generated from the human motion model. May be compared to each other by compressing the image into a single image.
  • the attribute output unit 17 uses the combination of the parameters output from the spatiotemporal fragment matching unit 16 to perform the same walking after t seconds based on the detected position, walking direction, and angular velocity of the person. Direction and constant angular velocity as in detection Calculate the position of the person t seconds later, assuming that the person is moving.
  • the fragment extraction line parameter 0 w corresponds to the walking direction on the world coordinate
  • the parameters of the human motion model ( X3art , ystart) Power ⁇ corresponds to the position of the person.
  • the detection time is calculated by the number of steps of the scan processing performed by the matching processing unit 150 attached to the combination of parameters, and specifically, can be calculated from the number of steps when the maximum matching score is shown.
  • the stride length can be calculated, and after detecting from the stride length, the angular velocity and the walking direction of the human motion model, t It predicts the location after a lapse of seconds. Note that this predicted value is the position of the person on world coordinates.
  • the display unit 18 arranges and displays the position and the walking direction of the person detected by the spatiotemporal fragment matching unit 16 on the overhead view.
  • FIG. 10 is a functional block diagram showing the configuration of the person detecting device according to the present embodiment.
  • This person detection device is a device that detects a person present in a video taken of a street, a parking lot, a store, or the like, as in the first embodiment. However, compared to the first embodiment, it has a feature that it is possible to match spatiotemporal fragments at a higher speed.
  • spatio-temporal volume generation unit 13 spatio-temporal fragment extraction unit 14
  • spontaneous body motion model spatio-temporal fragment output unit 15, spatio-temporal fragment collation unit 16, attribute output unit 17, display unit 18
  • a solution search unit 110 This configuration corresponds to a configuration in which a solution search unit 110 is added to the configuration of the person detection device according to the first embodiment.
  • the points different from the first embodiment will be mainly described.
  • matching of spatiotemporal fragments is performed by performing a full search for the parameters of the fragment extraction line and the parameters of the human motion model, or by searching for a parameter whose matching result is equal to or greater than a threshold value.
  • the provision of the solution search unit 110 for determining the above parameters enables high-speed spatio-temporal fragment matching.
  • the camera 10 the video processing unit 11, the continuous image processing unit 12, the spatiotemporal movie generator 13, the spatiotemporal fragment extraction unit 14, the human body part motion model spatiotemporal fragment output unit 15,
  • the operation of the spatiotemporal fragment collating unit 16 is the same as that of the first embodiment, and a description thereof will be omitted.
  • the spatiotemporal fragment matching unit 16 performs matching between the spatiotemporal fragment 70 and the human body part motion model spatiotemporal fragment file 1 as in the first embodiment, and after matching, a matching score, The number of steps, the parameters of the fragment extraction line, and the parameters of the human body part motion model spatiotemporal fragment are output to the solution search unit 110. Note that the matching method is the same as in the first embodiment.
  • the solution search unit 110 uses the genetic algorithm described in Kitano, “Genetic Algorithms”, pp. 1-41, Sangyo Tosho, published in 1993, to create a suboptimal solution. explore the parameter set, a parameter of the fragment extraction line 2 3 0 W and b w fragment extraction line generating section 3 0, person movement model By outputting the parameters (X start, V start) and ⁇ , high-speed human detection is realized.
  • FIG. 11 is a functional block diagram showing a detailed configuration of the solution search unit 110.
  • the solution search unit 110 includes a binarization unit 121 that converts a parameter such as a matching score input from the spatiotemporal fragment matching unit 16 into a bit sequence, and a plurality of parameters converted into a bit sequence.
  • a gene selector 122 selects a bit string to perform genetic operations, and a set of selected bit strings is used to perform mutation, crossover, etc.
  • a genetic operation unit 123 for generating a new bit string by performing a genetic method and a real number conversion unit 124 for converting the generated new bit string into a real value again are provided.
  • the binarization unit 1 2 1 is the parameters of the segment extraction line 23 0 W and b w input from the spatiotemporal fragment matching unit 16, and the parameters of the human motion model (start% V start) and ⁇ are converted into bit strings, respectively, and joined to generate one bit string.
  • the conversion to a bit string is a conversion from a 10-ary system to a binary system.
  • the gene selection unit 122 can determine the initial value of the bit string by randomly selecting the initial value of the parameter input from the spatiotemporal fragment matching unit 16 The bit strings are sorted in order with the higher matching score.
  • the genetic operation unit 123 considers a bit string obtained by connecting the parameters as a gene, and selects a bit string having a higher matching score value as a parent with a higher probability.
  • a new parameter bit sequence is obtained.
  • the crossover is performed, for example, by determining a crossing bit position, called a crossing point, of the selected two bit strings forming a pair with a random number, and before and after the crossing point as a boundary.
  • Mutation is to create a new bit sequence by alternately replacing the bits.Mutation, for example, randomly determines the position of the bit to be mutated with a certain probability and inverts the bit sequence.
  • bit string is changed.
  • bit string representing a is a parameter of a person movement model (X start, y start) uses a constraint that the straight line of which is a parameter of fragment extraction line 2 3 e w and b w You.
  • the output result of the genetic operation unit 123 is output to the gene selection unit 122, and the genetic operation is repeated, so that a solution can be efficiently searched.
  • the real number conversion unit 124 converts the bit string newly created by the genetic operation unit 123 into real-valued parameters, This is output as a fragment extraction line parameter change signal including parameters, and is output to the human body part motion model spatiotemporal fragment output unit 15 as a human body part motion model spatiotemporal fragment parameter change signal including various parameters.
  • the spatiotemporal fragment extraction unit 14 determines the fragment extraction line 23 based on the fragment extraction line parameter change signal including the parameters input from the solution search unit 110, and extracts the spatiotemporal fragment. Then, the human body part motion model spatiotemporal fragment output unit 15 generates a human motion model based on the human body part motion model spatiotemporal fragment parameter change signal including the parameter input from the solution search unit 110, The human motion model spatiotemporal fragments are generated and output to the spatiotemporal fragment collating unit 16, and the spatiotemporal fragment collating unit 16 compares them.
  • the parameters of the fragment extraction line 23 and the parameters of the human motion model are searched for by the genetic algorithm, so that the spatiotemporal fragment Faster human detection is possible than when matching is performed.
  • FIG. 12 is a functional block diagram showing a configuration of the person verification device according to the present embodiment.
  • This person verification device is a device for verifying a person by controlling a camera using the person detection device according to the first embodiment.
  • the display unit 18 includes a display unit 18, a camera control unit 100, a person collation unit 103, and a collation camera 9441 "! To n.
  • This configuration is included in the person detection device according to the first embodiment.
  • the camera control unit 100, the person collation unit 103, and the collation camera 944-1 "! To n are added.
  • the points different from the first embodiment will be mainly described.
  • the camera control unit 100 uses the result of the attribute output unit 17 to track the corresponding person.
  • the collation cameras 944-1 "! To n are pan, tilt, and zoom. It has a function, and the position on the set world coordinates and movable The range and the photographable range are stored.
  • the person collation unit 103 performs collation of persons using the images captured by the collation cameras 944-1 "! -N.
  • the display unit 18 is a processing unit that displays an overhead view in which the detected persons are arranged, a display, and the like.
  • the camera control unit 1000 calculates the matching power cameras 941 to n that are closest to the positions on the world coordinates at which the person 9 1 to 1 to n can be photographed, and performs pan, tilt, and zoom. This is a control unit that outputs the control signal to be performed to the collation camera 941-1-n.
  • the collation cameras 941-1 to n are imaging devices that perform panning, tilting, and zooming based on the control signal and photograph the corresponding person.
  • the person matching unit 103 is a processing unit that compares a photographed person with a previously stored video to perform person matching.
  • FIG. 13 shows a bird's-eye view 90 shown on the display unit 18 and a state of person verification.
  • the bird's-eye view 90 is an area in which a person can be monitored, and the persons 911 "! To n indicate the position and walking direction of the person.
  • the position of the detected person is displayed by creating in advance the correspondence with the position on the world coordinates representing the space.
  • the person to be compared may be selected by the force camera control unit 100 sequentially or may be arbitrarily selected by the observer.
  • the attribute output unit 17 outputs the predicted person position and the person information in the moving direction detected by the spatiotemporal fragment matching unit 16 to the display unit 18 so that the person 91-1 is displayed on the monitor.
  • person information indicating the position and moving direction of the person 91-1 is output to the camera control unit 100.
  • the camera control unit 1000 selects the optimal matching power camera 9411 from the personal information output from the attribute output unit 17 and uses the personal information to determine the optimal matching power.
  • the camera control signal which determines the control amount of the zoom, tilt, and zoom, is output to the verification camera 941-1.
  • the collation camera 9411 captures the person to be tracked by operating according to the camera control signal, and highlights the display of the person 911 in the bird's-eye view 90 of the display unit 18. .
  • the matching camera 9411 captures the person 911 based on the camera control signal, and outputs the captured image to the person matching unit 103.
  • the person matching unit 103 compares the captured image 95 with a previously stored image to be compared 96, and performs matching. . If the matching result 97 matches, the matching process ends, and the matching result 97 does not match. If the matching result 97 does not match, the attribute output unit 17 determines that the next matching person 9 1 — 2 is selected and the person information is output to the camera control unit 100.Then, the same processing is performed until the matching result 97 becomes negative or until all the persons to be matched are selected. repeat.
  • the number of collation cameras 94 selected from the camera control unit 100 may be plural, and the images used for collation are captured by the plurality of collation cameras 94. By selecting from images, the matching accuracy can be improved.
  • the force camera control unit 100 uses the detected walking direction to determine a force camera capable of photographing a person from the position of the person, and By controlling the camera in the direction most directly opposite to the detected walking direction in consideration of the movable range of the camera, it is possible to capture a frontal face image. This makes it possible to provide a more detailed face image, and also to improve the reliability of face matching when performing automatic face matching.
  • the position of a person and the direction of walking are detected, and the camera is controlled based on the detection result.
  • An image of an object can be taken.
  • FIG. 14 is a functional block diagram showing the configuration of the person detecting device according to the present embodiment.
  • This person detection device is a device for detecting a person present in a video taken of a street, a parking lot, a store, or the like as in the first to third embodiments, but calculates a moving direction of a moving object. It is characterized in that the fragment extraction line is determined according to the calculated moving direction, and the camera 10, video processing unit 11, continuous image processing unit 12, spatiotemporal volume generation unit 13, spatiotemporal It has a fragment extraction unit 14, a human body part motion model spatiotemporal fragment output unit 15, a spatiotemporal fragment collation unit 16, an attribute output unit 17, a display unit 18, and a movement direction calculation unit 140.
  • This configuration corresponds to a configuration in which the moving direction calculation unit 140 is added to the configuration of the person detection device according to the first embodiment. The following description focuses on the differences from the first embodiment.
  • spatiotemporal fragment matching is performed by performing a full search for the parameters of the fragment extraction line and the parameters of the human motion model, or by searching for a parameter whose matching result is equal to or greater than a threshold value.
  • the moving direction calculation unit 140 for calculating the moving direction of the moving object, high-speed spatio-temporal fragment matching becomes possible, and more accurate person detection becomes possible.
  • the operation of the fragment matching unit 16 is the same as that of the first embodiment, and a description thereof will be omitted.
  • the movement direction calculation unit 140 that calculates the movement direction of an object on an image from the spatiotemporal volume generated by the spatiotemporal volume generation unit 13 will be described.
  • the method of calculating the moving direction includes a method of calculating the moving direction by detecting a candidate for the target object, and a method of calculating the moving direction without detecting the target object.
  • the isolated object is regarded as a candidate for one detection target object by using a labeling algorithm for extracting the isolated object from one difference image.
  • Object extraction by the labeling algorithm is performed by connecting pixels with a pixel value of 1 and attaching different labels to different connected parts.
  • the procedure was as follows.
  • a pixel P having a pixel value of 1 and an unlabeled pixel P is detected and labeled.
  • the same label L is assigned to all pixels connected to pixel P.
  • Object extraction is performed by continuing this operation until there are no unlabeled pixels.
  • other labeling methods may be used as long as isolated objects can be extracted.
  • the small region is perturbed to obtain the difference at time t + 1.
  • Matching with the binarized difference image is performed.
  • the motion vector up to the position with the maximum matching value is calculated.
  • the motion vector is calculated in each small area. This motion vector calculation processing is performed at a fixed time, and the average motion vector for each small area is obtained. Then, the average motion vector calculated for each small area is voted, and if a vote equal to or more than a certain value is obtained, the movement direction of the target object candidate is determined.
  • the moving direction calculating method as described above has been described.
  • another object detecting method may be used as long as the moving vector can be calculated.
  • the spatiotemporal fragment extraction unit 14 includes a fragment extraction line generation unit 171 that generates fragment extraction lines and a spatiotemporal volume cutting unit 172 that extracts spatiotemporal fragments. And a coordinate conversion unit 173 for converting a straight line and a curve parameter on the image into a straight line and a curve on the world coordinates.
  • the fragment extraction line generation unit 171 will be described. First, define a straight line and a curve on the image. Here, a case will be described in which a fragment extraction line 23 is obtained by drawing a straight line on an image.
  • the fragment extraction line 23 can be defined by Equation 2 below.
  • Y i a X i + b-(Equation 2)
  • the inclination a is a parameter relating to the moving direction of the moving object on the image
  • b is the intercept on the image.
  • the inclination a can be obtained from the moving direction of the target object candidate calculated by the moving direction calculation unit 140.
  • a fragment extraction line 23 is generated, and the spatiotemporal volume cutting unit 172 can extract the spatiotemporal fragment 22.
  • the extracted spatiotemporal fragment 22 is sent to the spatiotemporal fragment collating unit 16.
  • the coordinate conversion unit 173 converts the straight line on the image generated by the fragment extraction line generation unit 171 into a straight line in world coordinates. Since the human body part motion model spatiotemporal fragment output unit 15 generates a human motion model according to the straight line in the world coordinate system converted here, the following operation is the same as that of the first embodiment.
  • the spatiotemporal fragment matching unit 16 compares the spatiotemporal fragment 70 with the human body part motion model spatiotemporal fragment 71, and extracts a fragment extraction line from the matching result. Then, a fragment extraction line parameter change signal, which is a signal indicating the parameter change, is output to the fragment extraction line generation unit 17 1.
  • the spatiotemporal fragment extraction unit 14 creates spatiotemporal fragments according to the parameters from the spatiotemporal data until the input of the fragment extraction line parameter change signal is completed.
  • the fragment extraction line parameter change signal may be changed for all parameter candidates based on the moving direction of the moving object candidate calculated by the moving direction calculation unit, or the attribute output unit “! 7”. This may be until the moving object is detected.
  • the fragment extraction line parameter change signal is a and b which are the parameters of the fragment extraction line.
  • the parameter of the fragment extraction line 23 and the parameter of the human motion model can be reduced by calculating the moving direction of the moving object. Compared with the case of performing spatial fragment matching, faster human detection is possible.
  • FIG. 18 is a functional block diagram illustrating a configuration of the person detecting device according to the present embodiment.
  • This person detection device is a device that detects a person present in a video shot of a street, a parking lot, a store, etc., as in the first to fourth embodiments, but calculates the moving direction of the moving object.
  • the method has the characteristic that the fragment extraction line is determined while also verifying the periodic motion peculiar to walking, and it is characterized by the following: power camera 10, video processing unit 11, continuous image processing unit 12, Component 13; spatiotemporal fragment extraction unit 14; human body part motion model spatiotemporal fragment output unit 15; spatiotemporal fragment collation unit 16; attribute output unit 17; display unit 18; movement direction calculation unit 1 40 and a periodicity analysis unit 190 are provided.
  • This configuration is obtained by adding a moving direction calculation unit 140 and a periodicity analysis unit 190 to the configuration of the person detection device according to the first embodiment, that is, the configuration according to the fourth embodiment. This corresponds to the addition of the periodicity analysis unit 190.
  • the points different from the first and fourth embodiments will be mainly described.
  • spatio-temporal fragment matching is performed by performing a full search for the parameters of the fragment extraction line and the parameters of the human motion model, or by searching for a parameter whose matching result is equal to or greater than a threshold value.
  • a moving direction calculating unit 140 for calculating the moving direction of a moving object is provided, and a periodicity analyzing unit 190 for verifying a periodic motion peculiar to walking is provided.
  • Camera 10 video processing unit 11, continuous image processing unit 12, spatiotemporal volume generation unit 13, human body part motion model spatiotemporal fragment output unit 15, spatiotemporal fragment collation unit 16, moving direction
  • the operation of the calculation unit 140 is the same as that of the first and fourth embodiments, and therefore the description is omitted.
  • the spatiotemporal fragment extraction unit 14 defines straight lines and curved lines on an image based on the moving direction of the moving object calculated by the moving direction calculation unit 140.
  • a fragment extraction line 23 is obtained by drawing a straight line on an image.
  • the fragment extraction line 23 can be defined by Equation 3 below.
  • the inclination a is a parameter relating to the moving direction of the moving object on the image
  • b is the intercept on the image.
  • the inclination a can be obtained from the moving direction of the target object candidate calculated by the moving direction calculation unit 140.
  • the fragment extraction line 23 is generated, and the spatiotemporal fragment 22 can be extracted.
  • the extracted parameters of the spatiotemporal fragment 22 and the fragment extraction line 23 are sent to the periodicity analyzer 190.
  • the periodicity analysis unit 190 calculates an autocorrelation function for each spatio-temporal fragment at each time t, and calculates a correlation length for each of the correlation length calculation units 191, Correlation length autocorrelation calculation that calculates the autocorrelation function again for the time series of correlation lengths in which the calculated correlation lengths are arranged in the time direction
  • the peak position is detected from the autocorrelation function of the correlation length input from the correlation length autocorrelation calculation unit and the correlation length autocorrelation calculation unit, and it is determined whether the detected peak position matches the moving period of the moving object.
  • a peak detector 193 that determines whether or not the object is a moving object by verifying it.
  • a coordinate converter 1 that converts a straight line on an image when a peak is detected by the peak detector 193 into a straight line in world coordinates. 9 and 4.
  • the periodicity analyzer 190 analyzes the periodicity of the spatiotemporal fragment 22, and when the periodicity analysis is completed, a fragment extraction line parameter change signal, which is a signal indicating a parameter change of the fragment extraction line 23, is sent. Output to spatiotemporal fragment extraction unit 14.
  • the spatiotemporal fragment extraction unit 14 creates a fragment extraction line 23 and creates a spatiotemporal fragment 22 until the input of the fragment extraction line parameter change signal is completed.
  • the correlation length calculation unit 19 1 divides the spatiotemporal fragment 201 shown in FIG. 20 (a) by one-dimensional at every time t as shown in the example shown in FIG. 20 (b).
  • the data 202 is created, and the autocorrelation function 203 is calculated for each one-dimensional data 202.
  • the time in FIG. 20 (a) is the number N of frames determined in advance by the spatiotemporal volume generation unit 13.
  • the length of FIG. 20 (b) is the width X of the spatiotemporal fragment 201 shown in FIG. 20 (a).
  • the calculation of the autocorrelation function 203 can be defined by Equation 4 below.
  • f (X) is one-dimensional data 202
  • C (r) is a self-correlation function 203.
  • the autocorrelation function C ( ⁇ ) is When f (x) is shifted by an interval r (f (X + te)), it is a measure of how similar it is to the original one-dimensional data f (X).
  • Figure 20 (c) shows the relationship as the autocorrelation function c (r).
  • the autocorrelation function c (0) takes the maximum value because it shows the correlation with itself.
  • the autocorrelation function C (rp) is p at the position where the autocorrelation function C (r) peaks, and the interval between ON pixels having high correlation in one-dimensional data corresponds to p.
  • the position p where the peak exists in the autocorrelation function C (r) indicates the stride when focusing on the leg of the moving object.
  • the temporal change of the autocorrelation function C (te) indicates the temporal change of the stride in movement, and can be expected to be periodic.
  • Figures 20 (d), (e), and (f) are obtained when the characteristic of walking (periodicity) does not exist, for example, when the fragment extraction line is set at a position that crosses the human body.
  • the spatio-temporal fragment data examples the spatio-temporal fragment, an example of one-dimensional data at a certain time of the spatio-temporal fragment, and a graph showing the relationship between the periodicity and the autocorrelation function C ( ⁇ "), respectively.
  • L is referred to as a correlation length.
  • the correlation length r L is calculated for each time, and the correlation length ⁇ L calculated for each time is arranged in chronological order to obtain time-series data 210 of the correlation length.
  • Figure 21 (a) shows the time-series data 210 of the correlation length ITL.
  • the time-series data 210 having a correlation length L is equivalent to a temporal change of a stride when an ideal spatiotemporal fragment is input, and periodically fluctuates with time.
  • the correlation length calculation unit 1911 outputs the calculated time series data 210 of the correlation length L to the correlation length autocorrelation calculation unit 1992.
  • the correlation length autocorrelation calculation section 1992 calculates an autocorrelation function 2 11 1 with respect to the time series data 210 of the correlation length I ′′ L as shown in FIG. 21 (a). Is the same as Equation 4.
  • the calculation result is shown in Fig. 21 (b).
  • the autocorrelation function 2 1 1 is obtained for the time series data 210 with a correlation length L.
  • C t ( ⁇ ) which is the result of the calculation, is output to the peak detector 193.
  • the fragment extraction line parameter change signal is b, which is the parameter of the fragment extraction line.
  • the peak detector 193 detects the peak position w from the autocorrelation function C t (h) of the correlation length input from the correlation length autocorrelation calculator, and the detected peak position a w is the moving period of the moving object. It is determined whether or not the object is a moving object by verifying whether or not the moving object is matched. If it is determined that the object is a moving object, the position and the moving direction of the moving object are specified and output to the display unit 18.
  • the correlation length of the autocorrelation function C t () is a fresh shifted by a certain interval of L (t) Te L (t + ⁇ ), 7 : measure of your L and (t) are similar much It becomes.
  • the peak detection unit 1993 determines that the object is a moving object.
  • the number of frames required for one step of movement depends on how many frames can be acquired per second by the video processing unit 11, but in the present embodiment, when 30 frames are input per second, Let 20 to 30 frames be the number of frames required for one step movement. If the peak position is between 20 and 30 frames, and the peak of the autocorrelation function C t () of the correlation length is detected, Judge as a moving object. This number of frames can be freely determined by the designer. When performing a more accurate moving object determination, it is also possible to detect a moving cycle in which two or more steps are defined as one unit. In that case, the number of steps determined by the designer can be increased by the number of steps.
  • the periodicity can be similarly determined.
  • the peak position a w of the peak detecting section 1993 may be calculated from the time required for the moving object to move one step.
  • the peak detecting section 1993 outputs a spatio-temporal fragment extraction signal which is a signal indicating a parameter change for extracting spatio-temporal fragments. Output to output unit 14.
  • the spatiotemporal fragment extraction unit 14 follows the parameters from the spatiotemporal data under the constraint of the parameter obtained from the moving direction calculation unit until the input of the fragment extraction line parameter change signal ends.
  • the fragment extraction line parameter change signal may be changed for all parameter candidates based on the moving direction of the moving object candidate calculated by the moving direction calculator, or may be moved by the attribute output unit 17. It may be until object detection is performed.
  • the peak detection unit 1993 transmits the fragment extraction line parameter to the coordinate conversion unit 1994.
  • the coordinate converter 194 converts a straight line on the image when the peak is detected by the peak detector 193 into a straight line in world coordinates.
  • the human body part motion model spatiotemporal fragment output unit 15 generates a human motion model according to the straight line in the world coordinate system converted here. The following operation is the same as in the first embodiment.
  • the attribute output unit 17 specifies the existence position and the moving direction of the moving object, and outputs them to the display unit 18.
  • the spatiotemporal fragment matching unit 16 includes a spatiotemporal fragment 70 when a peak is detected by the periodicity analysis unit 190 and a human body part motion model spatiotemporal fragment. Then, it performs a comparison with 7 1, and outputs a fragment extraction line parameter change signal, which is a signal indicating a parameter change of the fragment extraction line, to the spatiotemporal fragment extraction unit 14 based on the comparison result.
  • the spatiotemporal fragment extraction unit 14 creates spatiotemporal fragments according to the parameters from the spatiotemporal data until the input of the fragment extraction line parameter change signal is completed.
  • the fragment extraction line parameter change signal is The parameter may be changed for all parameter candidates based on the moving direction of the moving object candidate calculated by the direction calculation unit, or until the moving object detection is performed by the attribute output unit 17.
  • the fragment extraction line parameter change signal is a and b which are the parameters of the fragment extraction line.
  • the parameters of the fragment extraction line 23 and the parameters of the human motion model are reduced by calculating the moving direction of the moving object and analyzing the periodicity of the moving object. By doing so, it is possible to detect humans faster than in the case of performing spatiotemporal fragment matching while performing full search.
  • FIG. 22 is a functional block diagram showing the configuration of the person model fitting device in the present embodiment.
  • This person model fitting device is a device for fitting a model to a person present in an image without requiring a special device such as a marker to be attached to the subject, and includes a camera 10 and a video processing unit 11. , Continuous image processing unit 12, spatiotemporal volume generation unit 13, spatiotemporal fragment extraction unit 14, spontaneous body motion model spatiotemporal fragment output unit 15, spatiotemporal fragment matching unit 16, display unit 18, and model A fitting section 220 is provided.
  • This configuration corresponds to a configuration in which the attribute output unit 17 is replaced with a model fitting unit 220 among the components included in the human detection device according to the first embodiment.
  • the fitting of the person model refers to fitting the person motion model to a person existing in the image.
  • the camera 10 video processing unit 11, continuous image processing unit 12, spatiotemporal volume generation unit 13, spatiotemporal fragment extraction unit 14, human body part motion model spatiotemporal fragment output unit 15, and spatiotemporal
  • the operation of the fragment matching unit 16 is the same as that of the first embodiment, and a description thereof will be omitted.
  • the model fitting unit 220 includes a model generating unit 231 and a coordinate transforming unit 232.
  • the model generation unit 231 re-generates the human motion model shown in FIG. 7 from the combination result of the parameter indicating the position of the person on the first coordinate output from the spatiotemporal fragment matching unit 16. I do. Since the leg length L and the crotch angle 0 L of the human motion model are known, the human motion model shown in FIG. 7 can be generated from these parameters.
  • model generation unit 2 31 has the same function as the human motion model generation unit 50 included in the human body part motion model spatiotemporal fragment output unit 15.
  • the coordinate conversion unit 232 performs coordinate conversion to fit the human motion model on the image. I do. Specifically, among the combinations of the obtained parameters a high matching score, 0 w fragment extraction line parameter corresponds to the walking direction in world coordinates, parameter Ichita (X St art person movement model, y start ) Corresponds to the position of the person.
  • the detection time is the number of steps of the scanning process performed by the matching processing unit 150 of the spatiotemporal fragment matching unit 16 attached to the parameter combination.
  • the fitting is performed by superimposing the model obtained by performing coordinate transformation on the image at that time.
  • the display unit 18 displays the image fitted by the model fitting unit 220.
  • a special device such as a marker
  • a model can be fitted to a person present in an image.
  • present embodiment can be configured to reduce the calculation time as in the second, fourth, and fifth embodiments.
  • the person detection device, the person verification device, and the person model fitting device according to the present invention have been described based on the six embodiments, but the present invention is not limited to these embodiments.
  • the human motion model generation unit 50 of the human body part motion model spatiotemporal fragment output unit 15 uses the parameter of the fragment extraction line output from the spatiotemporal fragment extraction unit 14
  • a human model having specific parameters is generated by using the above, a plurality of human motion model templates may be held in advance, and an optimal template may be selected and output from the human motion model templates.
  • the human body part motion model spatiotemporal fragment output unit 15 is, as shown in Fig. 24, a human motion model template for each type of adult (male), adult (female), child and elderly.
  • the spatiotemporal fragment collating unit 16 compares the spatiotemporal fragment output from the spatiotemporal fragment extraction unit 14 and the human body part motion model spatiotemporal fragment output from the human body part motion model spatiotemporal fragment output unit 15. Collate.
  • the human body part motion model spatiotemporal fragment output unit 15 outputs A candidate human motion model template is selected, a human body part motion model spatiotemporal fragment of the human motion model template is output, and the spatiotemporal fragment collating unit 16 repeats the collation.
  • the person motion model template having the highest matching degree is determined, and the type of the person in the target image is determined.
  • each parameter was set to one value, but it was set within a certain range (for example, 300 as a child parameter). ⁇ 700 mm) may be set.
  • the spatiotemporal fragment matching unit 16 repeatedly performs the matching calculation within the set range, so that the optimal value and the optimal type of human motion model template may be searched.
  • such a person movement model template is not limited to each type of person, and as shown in Fig. 25, a plurality of templates are prepared for each situation of a walking road surface. In addition, as shown in Fig. 26, a plurality of templates may be prepared according to the degree of congestion in the walking place.
  • the present invention relates to a person detection device that detects the presence, position, walking direction, and the like of a person, such as a monitoring device that is installed on a street or a facility, or an authentication device that is used when entering or leaving a building.
  • a person detection device that detects the presence, position, walking direction, and the like of a person, such as a monitoring device that is installed on a street or a facility, or an authentication device that is used when entering or leaving a building.
  • a person detection device that detects the presence, position, walking direction, and the like of a person, such as a monitoring device that is installed on a street or a facility, or an authentication device that is used when entering or leaving a building.
  • the person ’s current position and walking direction are known, Even in the case where there is no detection area, it can be used as a person detection device, a person verification device, or the like that can perform person detection without limiting the detection area in the image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

動画像に含まれる人物を検出する人物検出装置であって、人物が撮影された動画像を構成するフレーム画像を時間軸に沿って並べた3次元時空間画像を生成する時空間ボリューム生成部(13)と、生成された3次元時空間画像を切断したときの切断面または切断片における画像である実画像時空間断片を抽出する時空間断片抽出部(14)と、人物の動き特性を規定した人物動きモデルに基づいて、当該人物動きモデルによる動きによって得られる時空間断片である人体部位動きモデル時空間断片を生成して出力する人体部位動きモデル時空間断片出力部(15)と、実画像時空間断片と人体部位動きモデル時空間断片とを照合する時空間断片照合部(16)と、その照合結果に基づいて、動画像における人物の存否を含む人物属性を出力する属性出力部(17)とを備える。

Description

明 細 書
人物検出装置および人物検出方法 技術分野
本発明は、 画像処理によって、 歩行する人物を検出する人物検出装置 等に関し、 特に、 人物の存在位置および歩行方向を検出する人物検出装 置等に関する。 背景技術
従来の人物検出技術の多くは、 静止画もしくは 1 枚の差分画像を用い ている。 静止画や 1 枚の差分画像を用いて人物検出を行う場合、 遮蔽等 で起こり うる人物の形状特徴変化を設計時に予測することが難しいため に、 誤検出や未検出を招く場合があるが、 それに対し、 画像シーケンス を用いる手法では、 遮蔽等によって起こる一時的な特徴量の変動に対し て、 補間および予測機構を用いることができるために、 遮蔽や一時的な 環境変動に対してロバス トな検出が期待できる。
従来、 動画像シーケンスを用いた人物検出技術 (第 1 の従来技術) と して、 画像を時間方向に並べた 3次元時空間画像を生成し、 フ レームご とに人物の足首位置に合わせて 3次元時空間画像を切断した時空間断片 画像を抽出し、 人物歩行に特有の周期性の検出を行うことによって人物 を検出する方法が提案されている (たとえば、 N i y o g ί 、 A d e I s o n "A n a l y z i n g a n d R e c o g n i z i n g W a l k i n g F i g u r e s i n X Y丁"、 M I T— T R— 2 2 3 1 9 9 4の第 3頁および第 3図等)。 これにより、他の移動物体と人物と の識別が可能となり、 さらに、 画像シーケンスを用いることによって、 —時的な環境変化においても、 安定した人物検出が可能となる。 また、 別の従来技術 (第 2の従来技術) と して、 画像中に複数本のス リ ツ トを配置し、 そのスリ ツ ト領域の時間的な画素値変化を用いて移動 物体像を形成し、 移動物体の移動方向を判定すると共に計数する方法も 提案されている (たとえば、 特許第 3 1 8 3 3 2 0号公報の第 7頁およ び第 4図等)。 この技術によれば、 ス リ ッ トを通過する人物の時間的変化 を考慮することによって、 安定して人物の検出および移動方向を判定す ることが可能となる。
しかしながら、 上記第 1 の従来技術では、 人物の足首位置が既知であ リ、 かつ画像に対して左右方向に歩行している場合に限定されている。 また、 事前に足首位置を検出する必要があるため、 人物の初期検出が既 になされていることが前提となる。 そのため、 画像中を様々な方向に歩 行する人物を検出することが難しいという問題がある。
また、 上記第 2の従来技術では、 人物検出用のスリ ッ トを画像中に複 数本配置することによって歩行方向を検出することが可能であるが、 設 計者が事前にスリ ッ ト配置を決定する必要があり、 画像中から人物検出 を行える領域が限定されてしまうという問題がある。 発明の開示
本発明は、 上記問題点を解決するものであり、 人物の歩行方向が一定 でない場合においても画像中の検出領域を限定することなく、 人物の存 在位置および歩行方向を含む人物検出を行うことができる人物検出装置 等を提供することを目的とする。
上記目的を達成するために、 本発明に係る人物検出装置は、 動画像に 含まれる人物を検出する装置であって、 人物が撮影された動画像を構成 するフ レーム画像を時間軸に沿って並べた 3次元時空間画像を生成する 時空間ボリューム生成手段と、 生成された 3次元時空間画像から、 当該 3次元時空間画像を切断したときの切断面または切断片における画像で ある実画像時空間断片を抽出する時空間断片抽出手段と、 人物の動き特 性を規定した人物動きモデルに基づいて、 当該人物動きモデルによる動 きによって得られる時空間断片である人体部位動きモデル時空間断片を 生成して出力する時空間断片出力手段と、 前記時空間断片抽出手段が抽 出した実画像時空間断片と前記時空間断片出力手段が出力した人体部位 動きモデル時空間断片とを照合する時空間断片照合手段と、 前記時空間 断片照合手段による照合結果に基づいて、 前記動画像における人物の存 否を含む人物属性を出力する属性出力手段とを備えることを特徴とする。 これによつて、 実画像から生成された実画像時空間断片と、 典型的な人 物の動きを表現した人物動きモデルから生成された人体部位動きモデル 時空間断片とが照合されるので、 例えば、 照合の一致度が一定基準を満 たす実画像時空間断片と人体部位動きモデル時空間断片の探索が可能と なり、 人物の歩行方向や画像中の検出領域を限定することなく、 人物の 存在位置および歩行方向を含む人物検出を行うことができる。
ここで、 前記時空間断片抽出手段は、 前記フ レーム画像を切断する断 片抽出線を決定し、 決定した断片抽出線を時間軸に沿って並べることに よって得られる面を切断面と して前記実画像時空間断片を抽出すること と し、 例えば、 前記 3次元時空間画像における人物の脚を切断する断片 抽出線を用いて前記実画像時空間断片を抽出する。 一方、 前記時空間断 片出力手段は、 人物の歩行特性を規定した人物動きモデルに基づいて、 当該人物動きモデルの歩行時における脚を切断する切断面によって得ら れる人体部位動きモデル時空間断片を生成する。 これによつて、 人物の 動きに特有の歩行特性を利用した人物検出が行われるので、 歩行特性を 持たない車等の移動物体が誤って検出されてしまうことが回避される。 なお、 人物動きモデルの具体例と して、 例えば、 2本の脚に対応する 一端どう しが結合された 2本の線分で表現され、 各線分が結合点を回転 中心と して一定の角速度 ωで交互に最大角度 2 Θ L まで回転するように 規定されるモデルを挙げることができる。
また、 前記時空間断片照合手段は、 前記実画像時空間断片に対して、 前記時空間断片出力手段が出力した一歩分の人体部位動きモデル時空間 断片を時間方向に走査していったときの画像どう しの一致度を算出する ことによって、 前記照合を行うのが好ましい。 これによつて、 人間の歩 行が周期的な動作であることを利用することで、 簡易な画像マツチング で人物を確実に検出することができる。
また、 前記人物検出装置はさらに、 前記時空間ボリューム生成手段に よって生成された 3次元時空間画像から、 当該 3次元時空間画像に存在 する移動.物体の移動方向を算出する移動方向算出手段を備え、 前記時空 間断片抽出手段は、 前記移動方向算出手段によって算出された移動方向 に従って前記断片抽出線を決定してもよい。 このとき、 前記移動方向算 出手段は、 例えば、 前記 3次元時空間画像を構成するフ レーム画像ごと に前記移動物体を抽出し、 抽出した移動物体のフ レーム画像間における 動きべク トルを求めることによって、 前記移動物体の移動方向を算出し てもよいし、 前記 3次元時空間画像を構成するフ レーム画像ごとに小領 域に区分し、 小領域ごとにフレーム画像間における動きべク トルを求め ることによって、 前記移動物体の移動方向を算出してもよい。 これによ つて、 人物の移動方向に追随して断片抽出線が決定されるので、 人物の 移動方向や位置に拘わらず、 最も適切な時空間断片を生成する断片抽出 線、 例えば、 画像中の人物の位置に拘わらず常に人物の脚を切断するよ うな断片抽出線が自動決定される。 なお、 前記断片抽出線は、 例えば、 直線または曲線である。
また、 前記属性出力手段は、 前記時空間断片照合手段により前記実画 像時空間断片と前記人体部位動きモデル時空間断片とが一定の基準以上 に一致すると照合された場合に、 前記切断面または切断片を特定するパ ラメータと前記人体動きモデルを特定するパラメータとから前記動画像 における人物の位置および移動方向を算出して出力し、 前記人物検出装 置はさらに、 前記属性出力手段から出力された人物の位置および移動方 向を含む人物属性を表示する表示手段を備えてもよい。 これによつて、 動画像における人物の存否だけでなく、 検出された人物の位置や移動方 向も特定され、 監視装置におけるカメラの追随制御等に利用することが できる。
また、 前記人物検出装置はさらに、 前記時空間断片抽出手段によって 抽出された実画像時空間断片が人物の歩行に特有の周期的動作に基づく 画像であるか否かを解析する周期性解析手段を備え、 前記時空間断片抽 出手段は、 前記周期性解析手段による解析結果に基づいて断片抽出線を 変更し、 変更した断片抽出線を用いて再び実画像時空間断片を抽出して もよい。 このとき、 前記周期性解析手段は、 例えば、 前記実画像時空間 断片を構成する各時間における画像を示す 1 次元データに対して自己相 関関数を求めることによって相関長の時系列データを生成し、 生成した 相関長の時系列データにおいて周期性が存在する場合に、 前記実画像時 空間断片が人物の歩行に特有の周期的動作に基づく画像であると解析し、 前記相関長の時系列データに対して自己相関関数を求めることによって 相関長に対する自己相関関数値の変化を示すグラフを求め、 そのグラフ においてピークが存在する場合に、 相関長の時系列データに周期性が存 在すると判断してもよい。 これによつて、 実画像時空間断片において人 物の動きに特有の歩行特性に基づく周期性が検出されるように断片抽出 線のパラメータが変更され、 決定されるので、 人物の歩行方向や位置に 依存することなく、 確実に人物が検出される。 また、 前記人物検出装置はさらに、 前記時空間断片照合手段による照 合結果に基づいて、 前記時空間断片抽出手段に前記切断面または切断片 を特定するパラメータを変更させたうえで再び実画像時空間断片を抽出 させること、 および、 前記時空間断片出力手段に前記人体動きモデルを 特定するパラメータを変更させたうえで再び人体部位動きモデル時空間 断片を出力させることの少なく とも 1 つを実行させることで、 前記切断 面または切断片を特定する最適なパラメータおよび前記人体動きモデル を特定する最適なパラメータを探索する解探索手段を備えてもよい。 こ のとき、 前記解探索手段は、 例えば、 遺伝的アルゴリズムを用いて最適 なパラメータを探索するのが好ましい。 これによつて、 より短時間で精 度の高いパラメータが決定され、 人物の存在位置および移動方向の検出 が正確となる。
また、 前記時空間ボリューム生成手段は、 前記フ レーム画像を背景差 分またはフレーム間差分した後に 2値化して得られる画像を少なく とも 1枚以上重ね合わせることによって前記 3次元時空間画像を生成しても よい。 これによつて、 移動する物体のみから 3次元時空間画像が生成さ れるので、 照合速度の高速化および照合精度の向上が図られる。
また、 前記時空間断片出力手段は、 予め記憶する複数の異なる種類の 人物動きモデルの中から選択した人物動きモデルに対応する人体部位動 きモデル時空間断片を生成して出力し、 前記時空間断片照合手段は、 前 記照合による結果が一定の基準を満たさない場合に、 前記時空間断片出 力手段に新たな人物動きモデルに対応する人体部位動きモデル時空間断 片を生成して出力させることで、 前記照合を繰り返してもよい。 このと き、 前記時空間断片出力手段が予め記憶する複数の人物動きモデルの例 と して、 モデリ ングの対象となる人物の性別、 年齢、 人物が歩行する路 面の状況、 および、 歩行する場所における混雑度の少なく とも 1 つが異 なるようにしておいてもよい。 これによつて、 動画像に含まれる人物の 存否、 位置、 移動方向だけでなく、 人物の性別や年齢等のタイプ、 路面 の状況や混雑度等の動き空間に関する環境についても判別が可能となる。 なお、 本発明は、 人物検出装置と して実現することができるだけでな く、 動画像に含まれる人物の画像と予め蓄積している人物の画像とを照 合する装置であって、 上記人物検出装置と、 パン、 チルトおよびズーム の少なく とも 1 つの機能を有する照合カメラと、 前記人物検出装置で検 出され人物の位置または移動方向に基づいて、 前記照合カメラによるパ ン、チルトおよびズームの少なく とも 1 つを制御する力メラ制御手段と、 前記照合カメラにより撮影された人物の画像と予め蓄積している人物の 画像とを照合する人物照合手段とを備える人物照合装置と して実現する こともできる。 これによつて、 特定の人物を探し出したり、 人物を認証 したりする人物監視装置や人物認証装置等に応用することができる。 また、 本発明は、 人物の動き特性を規定した人物動きモデルを画像上 の人物の動きにフィ ッティングさせる装置であって、 人物が撮影された 動画像を構成するフレーム画像を時間軸に沿って並べた 3次元時空間画 像を生成する時空間ボリューム生成手段と、 生成された 3次元時空間画 像から、 当該 3次元時空間画像を切断したときの切断面または切断片に おける画像である実画像時空間断片を抽出する時空間断片抽出手段と、 前記人物動きモデルによる動きによって得られる時空間断片である人体 部位動きモデル時空間断片を生成して出力する時空間断片出力手段と、 前記時空間断片抽出手段が抽出した実画像時空間断片と前記時空間断片 出力手段が出力した人体部位動きモデル時空間断片とを照合する時空間 断片照合手段と、 前記時空間断片照合手段による照合結果に基づいて、 前記人物動きモデルが前記動画像における人物の動きを示すように、 前 記人物動きモデルを特定するパラメータの値を決定するモデルフィ ッテ イング手段とを備える人物モデルフィ ッティング装置と して実現するこ ともできる。 これによつて、 マーカー等の特殊な装置を被写体に取り付 けることなく、 画像に存在する人物に対してモデルをフィ ッティ ングす ることができ、 個々の人物がもつ個性を反映したモデルデータが容易に 作成される。 よって、 作成されたモデルデータを照合の基準と して使用 することで、 特定の人物を検出する装置が実現される。
また、 本発明は、 動画像に含まれる人物の検出に用いられる画像等を 生成する装置であって、 動画像を構成するフ レーム画像を時間軸に沿つ て並べた 3次元時空間画像を切断したときの切断面または切断片におけ る画像を時空間断片と したときに、 人物の動き特性を規定した人物動き モデルに基づいて、 当該人物動きモデルによる動きによって得られる時 空間断片である人体部位動きモデル時空間断片を生成して出力する時空 間断片出力手段を備える画像生成装置と して実現することもできる。 こ れによって、 人物動きモデルから特徴的な人体部位の動きを表現した時 空間断片が生成されるので、 例えば、 上記人物検出装置における照合対 象となる各種人物モデルに対応した基準データを生成する専用の装置と して利用することができる。
なお、 本発明は、 このような人物検出装置、 人物照合装置、 人物モデ ルフィ ッティング装置および画像生成装置と して実現することができる だけでなく、 人物検出方法、 人物照合方法、 人物モデルフィ ッティ ング 方法および画像生成方法と して実現したり、 そのような方法をコンビュ ータに実行させるプログラムと して実現したり、 プログラムが記録され たコンピュータ読み取り可能な記録媒体として実現することもできる。 図面の簡単な説明
図 1 は、 本発明の第 1 の実施の形態における人物検出装置の構成を示 す機能プロック図である。
図 2は、 本発明の第 1 の実施の形態における人物検出装置の動作を示 すフローチヤ一トである。
図 3は、 本発明の第 1 の実施の形態における時空間断片の抽出を示す 図である。
図 4は、 本発明の第 1 の実施の形態における時空間断片抽出部の構成 を示す機能プロック図である。
図 5は、 本発明の第 1 の実施の形態におけるワールド座標上の断片抽 出線を示す図である。
図 6は、 本発明の第 1 の実施の形態における人体部位動き時空間断片 出力部の構成を示す機能ブロック図である。
図 7は、 本発明の第 1 の実施の形態における人物動きモデルを示す図 である。
図 8は、 本発明の第 1 の実施の形態における時空間断片照合部の構成 を示す機能ブロック図である。
図 9 ( a ) は、 本発明の第 1 の実施の形態における時空間断片を示す 図であり、 図 9 ( b ) は、 本発明の第 1 の実施の形態における人体部位 動きモデル時空間断片を示す図であり、 図 9 ( c ) は、 本発明の第 1 の 実施の形態におけるマッチングを示す図である。
図 1 0は、 本発明の第 2の実施の形態における人物検出装置の構成を 示す機能ブロック図である。
図 1 1 は、 本発明の第 2の実施の形態における解探索部の構成を示す 機能ブロック図である。
図 1 2は、 本発明の第 3の実施の形態における人物検出装置の構成を 示す機能ブロック図である。
図 1 3は、 本発明の第 3の実施の形態における表示部の表示を示す図 である。
図 1 4は、 本発明の第 4の実施の形態における人物検出装置の構成を 示す機能ブロック図である。
図 1 5は、 本発明の第 4の実施の形態における移動方向算出方法の例 を示す図である。
図 1 6は、 本発明の第 4の実施の形態における移動方向算出方法の例 を示す図である。
図 1 7は、 本発明の第 4の実施の形態における時空間断片抽出部の構 成を示す機能ブロック図である。 .
図 1 8は、 本発明の第 5の実施の形態における人物検出装置の構成を 示す機能ブロック図である。
図 1 9は、 本発明の第 5の実施の形態における周期性解析部の構成を 示す機能プロック図である。
図 2 0は、 本発明の第 5の実施の形態における自己相関関数計算の例 を示す図である。
図 2 1 は、 本発明の第 5の実施の形態における相関長の自己相関関数 計算の例を示す図である。
図 2 2は、 本発明の第 6の実施の形態における人物モデルフィ ッティ ング装置の構成を示す機能ブロック図である。
図 2 3は、 本発明の第 6の実施の形態における人物モデルフイ ツティ ング部の構成を示す機能ブロック図である。
図 2 4は、 タイプ別の人物動きモデルテンプレートの例を示す図であ る。
図 2 5は、 歩行する路面の状況別に異なる複数の人物動きモデルテン プレートの例を示す図である。
図 2 6は、 歩行する場所における混雑度別に異なる複数の人物動きモ デルテンプレー トの例を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 図面を用いて説明する。
(第 1 の実施の形態)
まず、 本発明の第 1 の実施の形態における人物検出装置について説明 する。
図 1 は、 本実施の形態における人物検出装置の構成を示す機能ブロッ ク図である。 この人物検出装置は、 街頭や駐車場、 店舗内などを撮影し た映像中に存在する人物を検出する装置であり、 カメラ 1 0、 映像処理 部 1 1 、 連続画像処理部 1 2、 時空間ボリユーム生成部 1 3、 時空間断 片抽出部 1 4、 人体部位動きモデル時空間断片出力部 1 5、 時空間断片 照合部 1 6、 属性出力部 1 7および表示部 1 8を備える。 なお、 本実施 の形態では、 時空間断片を画像と して抽出した場合について述べるが、 時空間断片は、 必ずしも画像である必要はなく、 画像から抽出した特徴 量や楕円、 直線等の当てはめによって抽出したパラメータであってもよ い。
図 1 において、 カメラ 1 0は、 映像を撮影し、 撮影した映像をフ レー 厶毎に映像処理部 1 1 に出力する撮像装置である。 映像処理部 1 1 は、 入力された映像に対してフレーム毎にフレーム間差分処理、 若しく は、 背景差分処理を行い、 閾値により映像を 2値化する処理部である。 連続画像処理部 1 2は、 入力画像から 3次元時空間画像を生成する場 合は、 入力画像をフ レームの時間順に蓄積し、 一方、 時空間ボリューム を画像以外で生成する場合は、 入力画像を用いて特徴抽出や楕円、 直線 等の当てはめを行い、 その結果をパラメータと して時間順に蓄積する処 理部である。 時空間ボリューム生成部 1 3は、 予め決定したフ レーム数 N枚分の画 像もしくはパラメータを用いて時空間ボリュームを生成する処理部であ る。 時空間断片抽出部 1 4は、 時空間ボリユ ー厶生成部 1 3で生成され た時空間ボリュームを用いて時空間断片を抽出する処理部である。 ここ で、 時空間断片とは、 時空間ボリュームが示す 3次元空間画像を時間軸 に沿って切断したときの切断面または切断片における画像である。 たと えば、 3次元空間画像をフ レームの横軸に平行でかつ時間軸に平行な面 で切断したときの切断面における画像であり、 このときには、 フレーム の横軸と時間軸とからなる 2次元画像となる。 なお、 切断片とは、 厚み を持った切断面に相当し、 切断片における画像は、 3次元画像となる。 人体部位動きモデル時空間断片出力部 1 5は、 人物動きモデルに従つ た人体部位動きモデル時空間断片を出力する処理部である。 時空間断片 照合部 1 6は、 時空間断片抽出部 1 4において生成された実画像からの 時空間断片と人体部位動きモデル時空間断片出力部 1 5において人物動 きモデルから生成された人体部位動きモデル時空間断片との照合を行う 処理部である。
属性出力部 1 7は、 時空間断片照合部 1 6の結果を用いて、 検出した 人物の位置、 歩行方向、 角速度等を算出したり、 t秒後の人物の存在位 置を予測したりする処理部である。 表示部 1 8は、 時空間断片照合部 1 6で検出された人物の存在位置と歩行方向を俯瞰図に配置して表示する 処理部およびディスプレイ等である。
以下に、 本実施の形態における人物検出装置の動作について、 図 2の フローチヤ— トを用いて詳細に説明する。
まず、 S 2 0 1 にて、 カメラ 1 0は、 移動物体等の対象物の映像を撮 影する。 なお、 カメラ 1 0は、 複数のカメラにより構成されてもよい。 次に、 S 2 0 2にて、 映像処理部 1 1 は、 カメラ 1 0から入力された 映像に対して、 フ レーム毎にフ レーム間差分処理、 若しくは、 背景差分 処理を行い、 閾値により映像を 2値化する。 なお、 背景差分処理を行う 場合は、 人物の存在しない背景となる画像を事前に準備しておく。
次に、 S 2 0 3にて、 連続画像処理部 1 2は、 2値化処理された画像 を、 時空間ボリュームを生成するために、 バッファと して画像を内蔵の ハードディスク等に蓄積しておき、 フ レーム毎に時空間ボリューム生成 部 1 3に画像を送信したり、 時空間ボリュームを画像以外から生成する 場合には、入力画像を用いて特徴抽出や楕円、直線等の当てはめを行い、 その結果をパラメータと して出力したりする。
次に、 S 2 0 4から S 2 0 6にて、 時空間ボリューム生成部 1 3は、 予め決定したフレーム数 N枚分の画像、 若しくは、 時刻 N分のパラメ一 タを用いて時空間ボリュームを生成する。 ここで、 新たに連続画像処理 部 1 2から N + 1 枚目の画像が送信された場合は、 S 2 0 6にて、 時空 間ボリュームの 1 枚目を破棄することによって、 常時、 Nフレーム分の 画像を保持した時空間ポリュームを生成する。
なお、 時空間ボリュームの生成方法については後述する。 ここでは、 必ずしも、 1 枚ずつ入力および破棄する必要はなく、 時刻 N分の連続し たデータを取得する手法であれば何でもよい。
次に、 S 2 0 7にて、 時空間断片抽出部 1 4は、 断片抽出線のパラメ —タを決定し、 決定した断片抽出線を用いて、 時空間ボリューム生成部 1 3で生成された時空間ポリュームから時空間断片を抽出する。
ここで、 図 3を用いて、 時空間断片の作成方法を説明する。 図 3 ( a ) は、 時空間ボリューム 2 1 を示し、 図 3 ( b ) は、 断片抽出線 2 3によ リ決定された時空間断片 2 2を示す。 図 3 ( b ) に示される時空間断片 2 2は、 時空間ボリューム 2 1 を構成する各フ レームにおける断片抽出 線 2 3での 1 次元画像を時間軸に並べたものであり、 時空間ポリユーム 2 1 が示す 3次元時空間画像を時間軸に沿って切断したときの切断面に おける画像に相当する。
ここで、 時空間断片を抽出するための断片抽出線 2 3は、 図 3 ( a ) に示されるように、 直線だけでなく、 曲線であってもよい。 さらに、 一 定の厚み (太さ) を持つ線であってもよい。 なお、 断片抽出線の決定方 法については、 後述する。
次に、 S 2 0 8にて、 人体部位動きモデル時空間断片出力部 1 5は、 S 2 0 7にて決定した断片抽出線のパラメータに基づいて人物動きモデ ルのパラメータを決'定し、 決定した人物動きモデルのパラメータに基づ いて生成した人物動きモデルから人体部位動きモデル時空間断片を生成 する。 なお、 人物動きモデルのパラメータ決定方法および人体部位動き モデル時空間断片の生成法については、 後述する。
次に、 S 2 0 9にて、 時空間断片照合部 1 6は、 時空間断片抽出部 1 4が抽出した時空間断片と人体部位動きモデル時空間断片出力部 1 5が 生成した人体部位動きモデル時空間断片とのマッチングを行う。
そして、 S 2 1 0にて、 時空間断片照合部 1 6は、 時空間断片と人体 部位動きモデル時空間断片とを照合し、照合結果が一致でない場合は( S 2 1 0で N O )、 S 2 1 1 に移行し、 人物動きモデルのパラメータをすベ て試行していないときは (S 2 1 1 で N O )、 S 2 0 8に移行し、 人体部 位動きモデル時空間断片出力部 1 5が新たな人体部位動きモデル時空間 断片を生成し、 一方、 人物動きモデルのパラメータをすベて試行したと きは (S 2 1 1 で Y E S )、 S 2 0 7に移行し、 再度、 時空間断片抽出部 1 4が断片抽出線 2 3を決定する。
—方、 S 2 1 0にて、 照合結果において時空間断片と人体部位動きモ デル時空間断片とがー致するかもしくは閾値以上である場合は ( S 2 1 0で Y E S )、 時空間断片照合部 1 6は、 その時点における断片抽出線の パラメータ、 および人物動きモデルのパラメータを属性出力部 1 7に出 力する。
そして、 S 2 1 2にて、 属性出力部 1 7は、 人物の存在が確認できた 場合には、 人物の存在位置および歩行方向を算出し、 表示部 1 8に出力 する。 最後に、 S 2 1 3にて、 表示部 1 8は、 人物の存否、 存在位置お よび歩行方向を画面に表示する。
ここで、 時空間断片抽出部 1 4.について、 図 4を用いて詳しく説明す る。 時空間断片抽出部 1 4は、 図 4に示されるように、 実空間における 人物の存在位置および移動方向を実空間上に表現する座標軸であるヮー ルド座標系において時空間ボリユームを切断する断片抽出線 2 3を決定 する断片抽出線生成部 3 0、 カメラ 1 0の設置に関するパラメータを用 いてワールド座標系から画像平面を表現するピクセル座標系への変換を 行う座標変換部 3 1 、 時空間ボリューム 2 1 から時空間断片 2 2の抽出 を行う時空間ボリユーム切断部 3 2を備える。
以下、 断片抽出線と して、 直線で生成する場合について述べる。 まず、 断片抽出線生成部 3 0は、 ワール ド座標上での直線および曲線 を定義する。 ここで、 断片抽出線生成部 3 0は、 実空間における人物の 存在位置および移動方向に基づいて直線および曲線を生成するために、 座標軸を実空間上に表現するワール ド座標系を用いる。
なお、 ワールド座標を ( X w、 Y w Z w) で示す。 ワールド座標の詳 細は、 徐、 辻著、 「 3次元ビジョ ン」、 9ページ、 共立出版、 1 9 9 8年 発行に記述されている。
ここで、 Z w をワールド座標上における天地方向と仮定して Z W を一 定値とすると、 図 5に示されるように、 ワールド座標における断片抽出 線 2 3は、 以下の式 1 で定義することができる。
y w = x w t a n Θ w + b w , z w = c o n s t 一 、式 1 ) Θ w は、 実空間を表現するワールド座標上において存在する人物の歩 行方向に関するパラメータとなる。 切片 b w を求めることができれば、 ワールド座標上における人物の歩行は、 この式 1 で示される直線上に乗 つていることになる。 なお、 断片抽出線 2 3は、 曲線を用いることも可 能であり、 例えば、 歩行のゆらぎに合わせた曲線を用いることも有効で ある。 この場合、 歩行周期を仮定することによって、 sin カーブ等で断 片抽出線を決定し、 位相をずらしながら断片抽出を行うことによって、 歩行における周期的な上下動に合った断片抽出を行うことができる。 さらに、 例えば、 膝下から足首までの動きに基づいて人物検出を行い たい場合は、 断片抽出線に厚みを持たせることによって、 実現可能であ る。 この場合、 時空間ボリュームから抽出される時空間断片は、 一定の 厚みを持ったものとなる。 また、 上記 0 Wおよび b wは、 監視領域内を網 羅するような組み合わせをとることになリ、 後述する時空間断片照合部 1 6の照合結果により、 順次、 決定される。 なお、 他の検出手法と併用 する場合には、 その検出結果をもとに前記 2つのパラメータを決定すれ ばよく、 必ずしも網羅的である必要はない。
他の検出手法と併用する場合については、 第 4および第 5の実施の形 態で説明する。
次に、 座標変換部 3 1 は、 この 0 Wおよび b wのパラメータにより生成 された断片抽出線 2 3を、 カメラ 1 0の設置位置、 焦点距離、 スケール ファクタ等の予め既知のパラメータを用いて、 ワールド座標系から、 画 像平面を表現するピクセル座標系への変換を行う。 この変換により、 断 片抽出線は 2次元画像上の線となる。
次に、 時空間ボリューム切断部 3 2は、 時空間断片の抽出を行う。 こ の時空間断片の抽出は、 座標変換部 3 1 で生成されたピクセル座標系に おける断片抽出線を用いて、 時空間ボリューム生成部 1 3で生成された 時空間ボリュームを切断することによって行う。
次に、 時空間断片照合部 1 6は、 時空間ボリューム切断部 3 2で抽出 された時空間断片と人体部位動きモデル時空間断片出力部 1 5から出力 された人体部位動きモデル時空間断片とを照合し、 照合結果から断片抽 出線のパラメータ変更を示す信号である断片抽出線パラメータ変更信号 を断片抽出線生成部 3 0に出力する。
以下、 同様に、 時空間断片抽出部 1 4は、 断片抽出線パラメータ変更 信号の入力が終了するまで、 断片抽出線を作成し、 時空間断片を作成す る。
次に、 人体部位動きモデル時空間断片出力部 1 5について、 詳細に説 明する。
人体部位動きモデル時空間断片出力部 1 5は、図 6に示されるように、 断片抽出線 2 3を用いてワールド座標上における人物の歩行をモデル化 する人物動きモデル生成部 5 0、 ワールド座標系からピクセル座標系へ の変換を行う座標変換部 5 1 、 人物動きモデルに従った時空間断片を生 成する時空間断片出力部 5 2を備える。
本実施の形態では、 脚を表現する 2本の線分を用いて人物の歩行をモ デル化した例について説明する。 なお、 膝関節や足首等を考慮してより 精細な人物動きモデルを用いても構わない。 さらに、 胴体、 頭部、 腕、 手の動きも同時にモデル化することも可能である。 また、 線分に限らず 楕円などを用いて人物の動きをモデル化してもよい。
まず、 人物動きモデル生成部 5 0は、 ワールド座標系における歩行 1 歩分を基本単位と して、 図 7に示されるように、 人物動きモデルが歩行 するワール ド座標上での位置 ( x start、 y start ) および角速度 ωを決定す る。 ここで、 位置 ( start % y start ) は、 時空間断片抽出部 1 4で決定し たワールド座標上における断片抽出線 2 3上の 1 点であるとする。 なお、 図 7は、 人物動きモデルにおいて、 脚を最大に開いた場合を示 す。 また、 次の 1 歩は、 ( X 2nd、 V 2nd ) を起点と して、 角速度 、 角度 2 まで移動するものである。
人物動きモデルに関するパラメータであるワール ド座標上での位置 ( X start \ y start ) および角速度 ωの決定方法について説明する。
断片抽出線生成部 3 0で決定した断片抽出線のパラメータ 0 w および b w は、 ワールド座標上における直線を表現している。 人物動きモデル のパラメータである、 ワールド座標上での位置 ( X s t ar t、 y start ) は、 こ のワールド座標上での直線上であるとの拘束のもとに、 監視領域内の位 置について網羅的にパラメータを決定する。 なお、 他の検出手法と併用 する場合には、 その検出結果をもとに位置に関するパラメータを決定す ればよく、 必ずしも網羅的である必要はない。
次に、 人物動きモデル生成部 5 0における人物動きモデルの動作につ いて述べる。 人物動きモデルは、 図 7に示されるように、 人間の脚の動 きをモデル化したものであり、 2本の直線を脚と し、 ワールド座標にお ける位置 ( x start、 y start ) を起点と して、 角速度 ωで人物動きモデルの 脚を動かすことによって、 一歩分の歩行を生成する。 人物動きモデルの 股間の角度を 2 0 Lと した場合、 2 0 LZ o)がー歩歩行するのにかかる時 間もしくはフ レーム数となる。 ここで、 ωは、 人物の歩行速度を考慮し て、 可能性のある角速度 ωを網羅的に試行することと したため、 角速度 ωとワールド座標における位置 ( X s t art、 y start ) の組み合わせ分の人体 部位動きモデル時空間断片を生成する。 なお、 本実施の形態では、 脚の 長さ Lおよび股間の角度 e L は、 事前に設計者が決定した場合について 説明するが、 これらのパラメータ.も状況に応じて変化させ、 数種類の人 物動きモデルを用意することで、 より精細な人物動きモデルとすること も可能である。 また勿論、 人物動きモデルが生成する歩行は、 1 歩に限 定するものではなく、 数歩分を基本単位とすることも可能である。 次に、 座標変換部 5 1 は、 座標変換部 3 1 と同様に、 カメラ 1 0の設 置位置、 焦点距離、 スケールファクタ等の予め既知のパラメータを用い て、 人物動きモデルが生成したワールド座標上での 1 歩分の人物動きモ デルをピクセル座標系での歩行に変換することによって、 人物動きモデ ルから時空間ポリユームを生成する。
次に、 時空間断片出力部 5 2は、 座標変換部 5 1 で生成されたピクセ ル座標系での時空間ボリュームに対して、 時空間断片抽出部 1 4と同じ 0 Wおよび b wのパラメータを用いて時空間断片を生成する。
なお、 ここでは、 人物動きモデル生成部 5 0において生成した人物動 きモデルを用いて、 座標変換部 5 1 で時空間ボリュームを生成し、 時空 間ボリユー厶から人物動きモデルの時空間断片を生成したが、 人物動き モデルの特定部位に着目することによって、 特定部位の動きを直接計算 することにより、 時空間断片を生成することも可能である。 この場合、 人物動きモデルを脚の動きとしてモデル化しているが、 人体部位動きモ デル時空間断片は、 足首位置などのように、 脚の一部位に着目 した断片 と して生成されることになる。 このように、 特定部位の動きを直接計算 することによって、 人体部位動きモデル時空間断片を生成すれば、 計算 量を削減でき、 かつ、 人物特有の部位の動きを用いることで、 人物検出 が容易になる利点がある。
次に、 時空間断片照合部 1 6は、 時空間断片抽出部 1 4で抽出された 時空間断片と人体部位動きモデル時空間断片出力部 1 5から出力された 人体部位動きモデル時空間断片とを照合し、 照合結果から人体部位動き モデル時空間断片のパラメータ変更を示す信号である人体部位動きモデ ル時空間断片パラメータ変更信号.を、 人物動きモデル生成部 5 0に出力 する。 以下、 同様に、 人体部位動きモデル時空間断片出力部 1 5は、 人体部 位動きモデル時空間断片パラメータ変更信号の入力が終了するまで、 人 物動きモデルから人体部位動きモデル時空間断片を作成する。
以上のように、 人物動きモデルのパラメータは、 断片抽出線のパラメ ータによる拘束のもとに決定されるものであり、 人物動きモデルのパラ メータが第 1 の処理ループ、 断片抽出線のパラメータが第 2の処理ルー プとすると、第 1 のループは、第 2の処理ループに含まれるものである。 次に、 時空間断片照合部 1 6について図 8を用いて説明する。 時空間 断片照合部 1 6は、 時空間断片抽出部 1 4において抽出された時空間断 片と人体部位動きモデル時空間断片出力部 1 5において人物動きモデル から生成された人体部位動きモデル時空間断片との照合を行う照合処理 部 1 5 0と、 照合結果を保持し、 予め定めた閾値と比較し、 照合結果ま たはパラメータの変更要求を出力する比較部 1 5 2とを備える。
照合処理部 1 5 0は、 実画像から抽出した時空間断片に対し、 人物動 きモデルから生成した人体部位動きモデル時空間断片を時間方向にスキ ヤンしながらマッチングを行うことで照合する。 以下、 2値化された画 像に対しての照合例を説明する。
図 9 ( a ) は、 実画像から抽出した人物の脚の動きに着目 した時空間 断片 7 0であり、 図 9 ( b ) は、 人物動きモデルから生成した人体部位 動きモデル時空間断片 7 1 であり、 図 9 ( c ) は、 両者の照合得点であ るマッチングスコアを示す。
実画像から抽出された時空間断片 7 0に対し、 人物動きモデルから生 成された人体部位動きモデル時空間断片 7 1 を上から下方向に 1 ピクセ ル毎にスキャンし、 マッチングスコアを計算する。 なお、 本実施の形態 では、 マッチングスコアを計算する工程をステップと称する。
ここで、 マッチングスコアは、 時空間断片 7 0および人体部位動きモ デル時空間断片フ 1 を、 " 0 "および'' 1 "の 2値化した場合に、 画素の値 が、 " 1 "のピクセルを O N ピクセルと し、 画素の値が、 " 0 "のピクセル を O F F ピクセルと し、 人体部位動きモデル時空間断片 7 1 の O N ピク セルおよび O F F ピクセルを、 時空間断片 7 0の O N ピクセルおよび O F F ピクセルと照合するものである。
まず、 時空間断片 7 0の任意の場所に、 人体部位動きモデル時空間断 片 7 1 を重ね合わせる。
次に、 人体部位動きモデル時空間断片 7 1 を基準と して、 人体部位動 きモデル時空間断片 7 1 が O N ピクセルであり、 かつ、 時空間断片 7 0 も O N ピクセルである場合の O N ピクセルの照合数を算出する。
次に、 人体部位動きモデル時空間断片 7 1 を基準と して、 人体部位動 きモデル時空間断片 7 1 が O F F ピクセルであり、 かつ、 時空間断片 7 0 も O F F ピクセルである場合の O F F ピクセルの照合数を算出する。 次に、 O N ピクセルの照合数を人体部位動きモデル時空間断片 7 1 の O N ピクセル数で正規化した値と O F F ピクセルの照合数を人体部位動 きモデル時空間断片 7 1 の O F F ピクセル数で正規化した値とを加算す ることでマッチングスコアとする。
なお、 マッチングスコアの計算方法は、 他の方法を用いることも可能 である。
図 9 ( c ) の照合結果に示されるように、 人体部位動きモデル時空間 断片 7 1 をステップ毎にスキャンしながらマッチングスコアを計算し、 比較部 1 5 1 に出力する。
次に、 比較部 1 5 1 は、 スキャン処理の中で最大のマッチングスコア を示したスコアを予め定めた閾値と比較し、 閾値を上回るマッチングス コア、 そのステップ数および人物動きモデルのパラメータ を照合結果と して属性出力部 1 7 に出力する。 なお、 ここでは、 最大のマッチングス コアを示したスコアに対してのみ閾値と比較したが、 ステップ毎に閾値 と比較しても構わない。
更に、時空間断片照合部 1 6は、マッチングスコアが閾値以下であり、 全ての人物動きモデルのパラメータについての検討が終了 していない場 合は、 人体部位動きモデル時空間断片のパラメータの変更を要求する人 体部位動きモデル時空間断片パラメータ変更信号を人体部位動きモデル 時空間断片出力部 1 5に出力 し、 全ての人物動きモデルのパラメータに ついての検討が終了 している場合は、 断片抽出線のパラメータの変更を 要求する断片抽出線パラメータ変更信号を時空間断片抽出部 1 4に出力 する。
なお、 人体部位動きモデル時空間断片パラメータ変更信号および断片 抽出線パラメータ変更信号には、断片抽出線 2 3のパラメータである 0 W および b w、 人物動きモデルのパラメータである ( X st art y s t art / θ び ωが含まれる。
また、 図 9 ( a ) における時間は、 時空間ボリ ューム生成部 1 3で、 予め決定したフ レーム数 Nであり、 図 9 ( b ) における時間は、 人物動 きモデル生成部 5 0で生成された人物動きモデルの股間角度を 2 Θ L、角 速度 ωと した場合、 2 0 ωであり、 図 9 ( c ) におけるステップは、 照合処理部 1 5 0で行うスキャン処理のステップ数である。
スキャンが終了 したら、 断片抽出線パラメータの拘束のもと、 人体部 位動きモデル時空間断片出力部 1 5の人物動きモデルのパラメータ を変 更して、 人物動きモデルに関するパラメータの組み合わせを試行する。 最高精度の検出結果を得るためには、 監視領域を網羅するすべてのパラ メータの組み合わせを試行するが、 準最適精度の検出結果でもよい場合 には、 照合処理部 1 5 0での閾値によって検出結果とすることも可能で ある。 また、 他の初期検出手法を用いて人物候補領域を算出可能な場合 は、 必ずしも監視領域を網羅する全てのパラメータの組み合わせを試行 する必要はない。
次に、 再度、 時空間断片抽出部 1 4の断片抽出線のパラメータを変更 して、 断片抽出線の拘束のもとに、 再度、 人物動きモデルに関するパラ メータの組み合わせを繰り返し試行する。 ここでも、 最高精度の検出結 果を得るためには、 監視領域を網羅するすべてのパラメータの組み合わ せを試行するが、 準最適精度の検出結果でもよい場合には、 照合処理部 1 5 0での閾値によって検出結果とすることも可能である。 また、 他の 初期検出手法を用いて人物候補領域を算出可能な場合は、 必ずしも監視 領域を網羅する全てのパラメータの組み合わせを試行する必要はない。 なお、 断片抽出線に厚みを持たせた場合、 抽出される時空間断片は、 厚みを持った断片となる。 この場合、 人体部位動きモデル時空間断片も 同様に厚みを持った断片とする。 この場合、 時空間断片照合部では、 厚 みを持った断片同士を照合してもよいし、 時空間ボリュームから抽出し た時空間断片と人物動きモデルから生成した人体部位動きモデル時空間 断片それぞれを、 1 枚の画像に圧縮することによって画像同士の照合を 行ってもよい。
次に、 監視領域を網羅する全てのパラメータの組み合わせの全探索結 果、 もしくは、 照合処理部 1 5 0で閾値以上の探索結果から、 最終的に 高いマッチングスコアを得たワールド座標上における断片抽出線 2 3お よび人物動きモデルのパラメータを人物検出結果とする。 ただし、 他の 初期検出手法を用いて人物候補領域を算出可能な場合は、 必ずしも監視 領域を網羅する全てのパラメータの組み合わせを試行する必要はない。 次に、 属性出力部 1 7は、 時空間断片照合部 1 6の出力するパラメ一 タの組み合わせ結果を用いて、 検出した人物の位置、 歩行方向、 角速度 を基に、 t秒後も同じ歩行方向で、 かつ、 検出時と同様に一定の角速度 で移動していることを仮定して、 t秒後の人物の存在位置を算出する。 ここで、高いマッチングスコアを得たパラメータの組み合わせのうち、 断片抽出線パラメータの 0 w は、 ワール ド座標上における歩行方向に該 当し、 人物動きモデルのパラメータ ( X 3t art、 y start ) 力《、 人物の存在位 置に該当する。 また、 検出時刻は、 パラメータの組み合わせに添付され た照合処理部 1 5 0で行うスキャン処理のステップ数により算出され、 具体的には、 最大のマッチングスコアを示した時のステップ数から算出 できる。
人物動きモデルの脚の長さ Lおよび股間の角度 S L は既知であるため、 歩幅を算出可能であり、 その歩幅および、 人物動きモデルの角速度およ び歩行方向から、 検出を行ってから t秒経過後の存在位置を予測するも のである。 なお、 この予測値は、 ワールド座標上における人物の存在位 置である。
最後に、 表示部 1 8は、 時空間断片照合部 1 6で検出した人物の存在 位置と歩行方向を俯瞰図に配置し、 表示する。
これにより、 時刻、 位置、 歩行方向を同時に検出することが可能であ る。 なお、 本手法は、 パラメータの探索方法を限定するものではない。 以上のように、 本実施の形態によれば、 人物の歩行方向や位置を限定 することなく、 歩行する人物の存在位置および移動方向を検出し、 人物 検出を行うことができる。
(第 2の実施の形態)
次に、 本発明の第 2の実施の形態における人物検出装置について説明 する。
図 1 0は、 本実施の形態における人物検出装置の構成を示す機能プロ ック図である。 この人物検出装置は、 第 1 の実施の形態と同様に街頭や 駐車場、 店舗内などを撮影した映像中に存在する人物を検出する装置で あるが、 第 1 の実施の形態に比べて高速な時空間断片の照合が可能であ るという特徴を有し、 カメ ラ 1 0、 映像処理部 1 1 、 連続画像処理部 1
2、 時空間ボリ ューム生成部 1 3、 時空間断片抽出部 1 4、 人体部位動 きモデル時空間断片出力部 1 5、 時空間断片照合部 1 6、 属性出力部 1 7、表示部 1 8および解探索部 1 1 0を備える。 この構成は、 第 1 の実施 の形態における人物検出装置の構成に解探索部 1 1 0 を付加したものに 相当する。 以下、 第 1 の実施の形態と異なる点を中心に説明する。
第 1 の実施の形態では、 断片抽出線のパラメータおよび人物動きモデ ルのパラメータ を全探索するか、 も し く は、 照合結果が閾値以上のパラ メータ を探索することによって時空間断片の照合を行ったが、 本実施の 形態では、 上記パラメータ を決定する解探索部 1 1 0 を設けることによ リ、 高速な時空間断片の照合が可能となる。
以下に、本実施の形態の人物検出装置の動作について説明する。なお、 カメ ラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ポリ ューム 生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断片出 力部 1 5および時空間断片照合部 1 6は、 第 1 の実施の形態と同様の動 作であるため、 説明を省略する。
まず、 時空間断片照合部 1 6は.、 第 1 の実施の形態と同様に、 時空間 断片 7 0 と人体部位動きモデル時空間断片フ 1 との照合を行い、 照合後 に、 マッチングスコア、 ステップ数、 断片抽出線のパラメータおよび人 体部位動きモデル時空間断片のパラメータを解探索部 1 1 0に出力する。 なお、 照合方法は、 第 1 の実施の形態と同様である。
次に、 解探索部 1 1 0は、 北野著、 「遺伝的ァルゴリズム」、 1 — 4 1 頁、 産業図書、 1 9 9 3年出版に記載されている遺伝的アルゴリズムを 用いて、 準最適なパラメータセッ トを探索し、 断片抽出線 2 3のパラメ ータである 0 Wおよび b wを断片抽出線生成部 3 0に、人物動きモデルの パラメ一タである ( X start、 V start ) および ωを出力することによって、 高速な人物検出を実現する。
図 1 1 は、解探索部 1 1 0の詳細な構成を示す機能ブロ ック図である。 解探索部 1 1 0は、 時空間断片照合部 1 6から入力されたマッチング スコアなどのパラメータをビッ ト列に変換するする二値化部 1 2 1 、 ビ ッ ト列に変換した複数のパラメータ を繋ぎ合わせて 1 本のビッ ト列と し たもののうち、遺伝操作を行う ビッ ト列を選択する遺伝子選択部 1 2 2、 選択したビッ ト列の組を用いて、 突然変異、 交差などの遺伝的手法を行 いて新たなビッ ト列を生成する遺伝的操作部 1 2 3および生成した新し いビッ ト列を再度実数値に変換する実数変換部 1 2 4 を備える。
以下に、 解探索部 1 1 0での処理を説明する。
まず、 二値化部 1 2 1 は、 時空間断片照合部 1 6から入力された、 断 片抽出線 2 3のパラメータである 0 Wおよび b w、 人物動きモデルのパラ メータである ( start % V start ) および ωをそれぞれビッ ト列に変換し、 繋ぎ合わせるこ とによって一つのビッ ト列を生成する。 なお、 ビッ ト列 への変換は、 1 0進法から 2進法への変換である。
次に、 遺伝子選択部 1 2 2は、 ビッ ト列の初期値を、 時空間断片照合 部 1 6から入力されたパラメータの初期値をランダムに選択することに よって決定することができ、 決定したビッ ト列をマッチングスコアが高 し、順に並び替える。
なお、 他の人物初期検出手法を用いて初期検出を行った結果を初期値 とすることも有効である。
次に、 遺伝的操作部 1 2 3は、 各パラメータ を繋ぎ合わせたビッ ト列 を遺伝子と考え、 マッチングスコア値が高いビッ ト列ほど高確率で親と して選択すること と し、 交叉、 突然変異を行う ことによって、 新たなパ ラメータのビッ ト列を得る。 ここで、 交叉は、 例えば、 ペアとなる選択された 2つのビッ ト列のう ち、 交叉点と呼ばれる交叉するビッ ト位置を乱数で決定し、 交叉点を境 にして、 前後のビッ ト列を交互に入れ替えることで、 新たなビッ ト列を 作成するものであり、 突然変異は、 例えば、 ある一定の確率でランダム に、 変異を起こすビッ ト位置を決定し、 ビッ ト列を反転することによつ て、 ビッ ト列を変化させるものである。 ただし、 人物動きモデルのパラ メータである ( X start , y start) を表現するビッ ト列は、 断片抽出線 2 3 のパラメータである e w および b w の直線上であるとの拘束条件を用い る。
なお、遺伝的操作部 1 2 3の出力結果を遺伝子選択部 1 2 2に出力 し、 遺伝的操作を繰り返すことで、 効率良く解の探索が可能となる。
次に、 実数変換部 1 2 4は、 遺伝的操作部 1 2 3によ り新たに作成さ れたビッ ト列を実数値のパラメータに変換し、 時空間断片抽出部 1 4に 対して各種パラメータを含む断片抽出線パラメータ変更信号と して出力 し、 人体部位動きモデル時空間断片出力部 1 5に対して各種パラメータ を含む人体部位動きモデル時空間断片パラメータ変更信号と して出力す る。
次に、 時空間断片抽出部 1 4は、 解探索部 1 1 0から入力されたパラ メータを含む断片抽出線パラメータ変更信号を基に、 断片抽出線 2 3 を 決定し、 時空間断片を抽出 し、 人体部位動きモデル時空間断片出力部 1 5は、 解探索部 1 1 0から入力されたパラメータ を含む人体部位動きモ デル時空間断片パラメータ変更信号を基に、 人物動きモデルを生成し、 人物動きモデル時空間断片を生成し、 それぞれを時空間断片照合部 1 6 へ出力 し、 時空間断片照合部 1 6は、 それらの照合を行う。
上記の解探索操作を予め定めた一定回数繰り返した後、 最大のマッチ ングスコアを得た直線および人物動きモデルのパラメータ を人物検出結 果とする。
以後の処理は、 第 1 の実施の形態と同様であるので、 ここでの説明は 省略する。
以上のように、 本実施の形態によれば、 断片抽出線 2 3のパラメータ および人物動きモデルのパラメータ を、 遺伝的アルゴリズムによ り解探 索することによ り、全探索しながら時空間断片照合を行う場合に比べて、 よ り高速な人物検出が可能となる。
(第 3の実施の形態)
次に、 本発明の第 3の実施の形態における人物照合装置について説明 する。
図 1 2は、 本実施の形態における人物照合装置の構成を示す機能プロ ック図である。 この人物照合装置は、 第 1 の実施の形態における人物検 出装置を用いてカメ ラを制御することによって人物を照合する装置であ リ、 カメ ラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ボリ ュ —ム生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断 片出力部 1 5、 時空間断片照合部 1 6、 属性出力部 1 7 、 表示部 1 8、 カメ ラ制御部 1 0 0、 人物照合部 1 0 3および照合カメ ラ 9 4一 "! 〜 n を備える。 この構成は、 第 1 の実施の形態における人物検出装置が備え る構成にカメ ラ制御部 1 0 0、 人物照合部 1 0 3 および照合カメ ラ 9 4 一 "! 〜 n を付加したものに相当する。 以下、 第 1 の実施の形態と異なる 点を中心に説明する。
なお、 人物検出装置は、 第 2〜第 5の実施の形態における人物検出装 置を用いても同様の効果を得ることができる。
カメ ラ制御部 1 0 0は、 属性出力部 1 7の結果を用いて、 該当する人 物を追跡するものであり、 照合カメ ラ 9 4一 "! 〜 nは、 パン、 チル トお よびズーム機能を持ち、 設置されているワール ド座標上での位置、 可動 範囲および撮影可能範囲を記憶しているものである。 人物照合部 1 0 3 は、 照合カメ ラ 9 4 一 "! 〜 nの撮影した映像を用いて、 人物の照合を行 う ものである。
表示部 1 8は、 検出された人物を配置した俯瞰図を表示する処理部お よびディスプレイ等である。 カメ ラ制御部 1 0 0は、 人物 9 1 — 1 〜 n を撮影可能なワール ド座標上で位置が最も近い照合力メ ラ 9 4一 1 〜 n を算出 し、 パン、 チル ト、 ズームを行う制御信号を照合カメ ラ 9 4一 1 〜 n出力する制御部である。 照合カメ ラ 9 4一 1 ~ n は、 その制御信号 によ りパン、 チル ト、 ズームを行い、 該当する人物を撮影する撮像装置 である。 人物照合部 1 0 3は、 撮影された人物と予め蓄積された映像と を比較して人物の照合を行う処理部である。
図 1 3 に、表示部 1 8に示される俯瞰図 9 0 と人物照合の状態を示す。 ここで、 俯瞰図 9 0が人物を監視するこ とのできる領域であり、 人物 9 1 一 "! 〜 n は、 人物の位置と歩行方向とを示すものである。 俯瞰図 9 0 は、 実空間を表現するワール ド座標上での位置との対応関係を事前に作 成しておく ことによって、 検出 した人物の位置を表示する。
ここで、人物 9 1一 1 〜 nの照合を行う場合について説明する。なお、 照合する人物の選択は、 力メ ラ制御部 1 0 0が順次選択するのでもよい し、 監視者が任意で選択してもよい。
以下に、 人物照合装置の動作について詳細に説明する。
まず、 属性出力部 1 7 は、 予測した人物の位置および時空間断片照合 部 1 6で検出 した移動方向の人物情報を表示部 1 8に出力することで、 人物 9 1 - 1 をモニタ上に表示させると ともに、 人物 9 1 - 1 の位置お よび移動方向を示す人物情報をカメ ラ制御部 1 0 0に出力する。
次に、 カメ ラ制御部 1 0 0は、 属性出力部 1 7から出力された人物情 報から最適な照合力メラ 9 4一 1 を選択し、 人物情報を用いて最適なパ ン、 チル ト、 ズームの制御量を決定したカメ ラ制御信号を照合カメ ラ 9 4一 1 に出力する。 照合カメ ラ 9 4一 1 は、 カメ ラ制御信号に従って動 作することによって、 追跡対象の人物を撮影し、 表示部 1 8の俯瞰図 9 0において、 人物 9 1 一 1 の表示を強調表示する。
次に、 照合カメ ラ 9 4一 1 は、 カメ ラ制御信号に基づいて、 人物 9 1 一 1 を撮影し、 撮影した画像を人物照合部 1 0 3に出力する。
次に、 人物照合部 1 0 3 は、 図 1 3の表示例に示されるように、 撮影 された画像 9 5 と、 予め記億している照合対象の画像 9 6 とを比較し、 照合する。 ここで、 照合結果 9 7が一致である場合は、 照合処理は終了 し、 照合結果 9 7が不一致である.場合は、 属性出力部 1 7が、 次の照合 の対象となる人物 9 1 — 2 を選択し、 人物情報をカメ ラ制御部 1 0 0に 出力 し、 以下、 同様の処理を、 照合結果 9 7がー致となるか、 照合の対 象となる人物を全て選択するまで、 繰り返す。
なお、 カメ ラ制御部 1 0 0よ り選択される照合カメ ラ 9 4は、 複数で あってもよ く 、 また、 照合に用いる画像は、 複数の照合カメ ラ 9 4によ リ撮影された画像から選択することで、 照合精度を向上することができ る。
特に、 顔照合を行う場合においては、 検出 した歩行方向を用いて、 力 メ ラ制御部 1 0 0によ り、 人物の存在位置から人物を撮影可能な力メ ラ を決定し、 かつ、 各カメ ラの可動範囲を考慮して、 検出 した歩行方向と 最も正対する方向にカメ ラを制御することによって、 正面の顏画像を撮 影することが可能である。 これによ り、 よ り詳細な顔画像を提供するこ とが可能であると共に、 自動顔照合を行う場合においても、 顏照合の信 頼性を向上させることが可能である。
以上のように、 本実施の形態によれば、 人物の存在位置と歩行方向を 検出 し、 その結果を基にカメ ラを制御することによって、 よ り精細な人 物の画像を撮影することができる。
(第 4の実施の形態)
次に、 本発明の第 4の実施の形態における人物検出装置について説明 する。
図 1 4は、 本実施の形態における人物検出装置の構成を示す機能プロ ック図である。 この人物検出装置は、 第 1 〜第 3の実施の形態と同様に 街頭や駐車場、 店舗内などを撮影した映像中に存在する人物を検出する 装置であるが、 移動物体の移動方向を算出し、 算出した移動方向に従つ て断片抽出線を決定する点に特徴を有し、カメラ 1 0、映像処理部 1 1 、 連続画像処理部 1 2、 時空間ボリューム生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断片出力部 1 5、 時空間断片照合部 1 6、属性出力部 1 7、表示部 1 8および移動方向算出部 1 4 0を備える。 この構成は、 第 1 の実施の形態における人物検出装置が備える構成に移 動方向算出部 1 4 0を付加したものに相当する。 以下、 第 1 の実施の形 態と異なる点を中心に説明する。
第 1 の実施の形態では、 断片抽出線のパラメータおよび人物動きモデ ルのパラメータを全探索するか、 もしくは、 照合結果が閾値以上のパラ メータを探索することによって時空間断片の照合を行ったが、 本実施の 形態では、 移動物体の移動方向を算出する移動方向算出部 1 4 0を設け ることにより、 高速な時空間断片の照合が可能となり、 より正確な人物 検出が可能となる。
以下に、本実施の形態の人物検出装置の動作について説明する。なお、 カメラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ボリューム 生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断片出 力部 1 5および時空間断片照合部 1 6は、 第 1 の実施の形態と同様の動 作であるため、 説明を省略する。 まず、 時空間ボリューム生成部 1 3で生成された時空間ボリュームか ら、 画像上での物体の移動方向を算出する移動方向算出部 1 4 0につい て説明する。
移動方向の算出方法には、 対象物体の候補を検出して移動方向を算出 する方法と、 対象物体の検出は行わずに移動方向を算出する方法とがあ る。
まず、 対象物体の候補を検出して移動方向を算出する方法について説 明する。 図 1 5 ( a ) に示されるように、 1 枚の差分画像から、 孤立し た物体を抽出するラベリングアルゴリズムを用いて、 孤立した物体を一 つの検出対象物体の候補であると捉える。
ラベリングアルゴリズムによる物体抽出は、 画素値が 1 のピクセルを 連結し、異なつた連結部には異なつたラベルをつけることによって行う。 本実施例では、 以下のように行った。
まず、 時刻 t における 2値化された差分画像に対し、 画素値が 1 であ リ、 かつラベルの付けられていない画素 Pを検出し、 ラベルしを付与す る。 画素 Pと連結している画素全てに対し、 同じラベル Lを付与する。 この操作をラベル付けされていない画素が存在しなくなるまで続けるこ とによって、 物体抽出を行う。 もちろん、 孤立した物体を抽出できるも のであれば、 他のラベリング手法を用いても構わない。
続いて、 図 1 5 ( b ) に示されるように、 時刻 t + 1 における 2値化 された差分画像に対し、 時刻 t においてラベリングした移動物体候補を 画像上で摂動させながらマッチングすることによって、 最もマッチング 値が高い位置までの動きべク トルを算出する。 この動きべク トル算出処 理を一定時刻行い、 ラベルごとの平均動きべク トルを求めることによつ て、 対象物体候補の移動方向を算出する。
次に、 対象物体の検出を行わずに移動方向を算出する方法について説 明する。 ここでは、 図 1 6 ( a ) に示されるように、 小領域に区切って 算出する方法について説明する。
なお、 これは、 小領域の区切り方を限定するものではない。
まず、 時刻 t における二値化された差分画像に対し、 各小領域ごとに ある一定数以上の画素値 1 のピクセルが存在する場合、 その小領域を摂 動させることによって、 時刻 t + 1 における二値化された差分画像との マッチングを行う。 この時、 現在の位置から摂動させた結果、 最大のマ ツチング値を持った位置までの動きべク トルを算出する。 これにより、 図 1 6 ( b ) のように、 それぞれの小領域において、 動きべク トルが算 出されることになる。 この動きベク トル算出処理を一定時刻行い、 各小 領域ごとの平均動きべク トルを求める。 そして、 各小領域ごとに算出し た平均動きベク トルを投票し、ある一定値以上の投票が得られた場合に、 対象物体候補の移動方向とする。
なお、 本実施の形態では、 上記のような移動方向算出方法について述 ベたが、 移動べク トルを算出することができれば、 他の物体検出手法を 用いても構わない。
以下、 時空間断片抽出部 1 4が断片抽出線 2 3を直線で生成する場合 について述べる。
時空間断片抽出部 1 4は、 図 1 7に示されるように、 断片抽出線を生 成する断片抽出線生成部 1 7 1 と時空間断片を抽出する時空間ボリユ ー ム切断部 1 7 2と画像上での直線および曲線パラメータをワールド座標 上における直線および曲線に変換する座標変換部 1 7 3 とを備える。 ここで、 断片抽出線生成部 1 7 1 について説明する。 まず、 画像上で の直線および曲線を定義する。 ここでは、 画像上に直線を引く ことで、 断片抽出線 2 3を求める場合について説明する。
断片抽出線 2 3は、 以下の式 2で定義することができる。 Y i = a X i + b - (式 2 )
ここで、 傾き aは、 画像上における移動物体の移動方向に関するパラ メータとなり、 bは、 画像上での切片である。
傾き aは、 移動方向算出部 1 4 0により算出された対象物体候補の移 動方向により求めることができる。 この傾き aに応じて、 切片 bの値を 変更することによって断片抽出線 2 3を生成し、 時空間ポリューム切断 部 1 7 2にて、 時空間断片 2 2を抽出することができる。 抽出された、 時空間断片 2 2は、 時空間断片照合部 1 6へ送られる。
次に、 座標変換部 1 7 3では、 断片抽出線生成部 1 7 1 で生成された 画像上での直線をワールド座標における直線に変換する。 人体部位動き モデル時空間断片出力部 1 5では、 ここで変換したワールド座標系にお ける直線にしたがって人物動きモデルを生成するため、 以下の動作は、 第 1 の実施の形態と同様である。
次に、 時空間断片照合部 1 6は、 第 1 の実施の形態と同様に、 時空間 断片 7 0と人体部位動きモデル時空間断片 7 1 との照合を行い、 照合結 果から断片抽出線のパラメータ変更を示す信号である断片抽出線パラメ ータ変更信号を断片抽出線生成部 1 7 1 に出力する。
以下、 同様に、 時空間断片抽出部 1 4は、 断片抽出線パラメータ変更 信号の入力が終了するまで、 時空間データからパラメータに従った時空 間断片を作成する。 ここで、 断片抽出線パラメータ変更信号は、 移動方 向算出部で算出した移動物体候補の移動方向に基づいて、 すべてのパラ メータ候補についてパラメータ変更をしてもよいし、 属性出力部 "! 7で 移動物体検出が行われるまでと してもよい。
なお、 断片抽出線パラメータ変更信号は、 断片抽出線のパラメータで ある aおよび bである。
以後の処理は、 第 1 の実施の形態と同様であるので、 ここでの説明は 省略する。
以上のように、 本実施の形態によれば、 移動物体の移動方向を算出す ることによって、 断片抽出線 2 3のパラメータおよび人物動きモデルの パラメータを削減することができ、 全探索しながら時空間断片照合を行 う場合に比べて、 より高速な人物検出が可能となる。
(第 5の実施の形態)
次に、 本発明の第 5の実施の形態における人物検出装置について説明 する。
図 1 8は、 本実施の形態における人物検出装置の構成を示す機能プロ ック図である。 この人物検出装置は、 第 1 〜第 4の実施の形態と同様に 街頭や駐車場、 店舗内などを撮影した映像中に存在する人物を検出する 装置であるが、 移動物体の移動方向を算出するとともに、 歩行に特有の 周期的動作をも検証しながら断片抽出線を決定する点に特徴を有し、 力 メラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ポリユーム生 成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断片出力 部 1 5、 時空間断片照合部 1 6、 属性出力部 1 7、 表示部 1 8、 移動方 向算出部 1 4 0および周期性解析部 1 9 0を備える。 この構成は、 第 1 の実施の形態における人物検出装置が備える構成に移動方向算出部 1 4 0および周期性解析部 1 9 0を付加したもの、 つまり、 第 4の実施の形 態における構成に周期性解析部 1 9 0を付加したものに相当する。以下、 第 1 および第 4の実施の形態と異なる点を中心に説明する。
第 1 の実施の形態では、 断片抽出線のパラメータおよび人物動きモデ ルのパラメータを全探索するか、 も しくは、 照合結果が閾値以上のパラ メータを探索することによって時空間断片の照合を行ったが、 本実施の 形態では、移動物体の移動方向を算出する移動方向算出部 1 4 0を設け、 さらに歩行に特有な周期的動作を検証する周期性解析部 1 9 0を設ける ことにより、 高速な時空間断片の照合が可能となり、 より正確な人物検 出が可能となる。
以下に、本実施の形態の人物検出装置の動作について説明する。なお、 カメラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ボリユーム 生成部 1 3、 人体部位動きモデル時空間断片出力部 1 5、 時空間断片照 合部 1 6、 移動方向算出部 1 4 0は、 第 1 および第 4の実施の形態と同 様の動作であるため、 説明を省略する。
まず、 時空間断片抽出部 1 4が断片抽出線 2 3を直線で生成した場合 について述べる。
本実施の形態では、 時空間断片抽出部 1 4は、 移動方向算出部 1 4 0 で算出された移動物体の移動方向に基づいて、 画像上での直線および曲 線を定義する。 ここでは、 画像上に直線を引く ことで、 断片抽出線 2 3 を求める場合について説明する。
断片抽出線 2 3は、 以下の式 3で定義することができる。
Y i = a X i + b - (式 3 )
ここで、 傾き aは、 画像上における移動物体の移動方向に関するパラ メータ となり、 bは、 画像上での切片である。
傾き aは、 移動方向算出部 1 4 0によリ算出された対象物体候補の移 動方向により求めることができる。 この傾き aに応じて、 切片 bの値を 変更することによって断片抽出線 2 3を生成し、 時空間断片 2 2を抽出 することができる。 抽出された時空間断片 2 2および断片抽出線 2 3の パラメータは、 周期性解析部 1 9 0へ送られる。
周期性解析部 1 9 0は、 図 1 9に示されるように、 時空間断片に対し て時刻 t ごとに自己相関関数を計算し、 それぞれ相関長を計算する相関 長計算部 1 9 1 と、 それぞれ算出した相関長を時間方向に並べた相関長 の時系列に対して、 再度、 自己相関関数を計算する相関長自己相関計算 部 1 9 2と、 相関長自己相関計算部 1 9 2から入力された相関長の自己 相関関数からピーク位置を検出し、 検出したピーク位置が移動物体の移 動周期にマッチしているかどうかを検証することによって移動物体か否 かを判定するピーク検出部 1 9 3、 ピーク検出部 1 9 3でピークが検出 された時の画像上での直線をワールド座標における直線に変換する座標 変換部 1 9 4とを備える。
周期性解析部 1 9 0は、 時空間断片 2 2の周期性の解析を行い、 その 周期性解析が終了したら、 断片抽出線 2 3のパラメータ変更を示す信号 である断片抽出線パラメータ変更信号を時空間断片抽出部 1 4に出力す る。
以下、 同様に、 時空間断片抽出部 1 4は、 断片抽出線パラメータ変更 信号の入力が終了するまで、 断片抽出線 2 3を作成し時空間断片 2 2を 作成する。
次に、相関長計算部 1 9 1 について説明する。相関長計算部 1 9 1 は、 図 2 0 ( a ) に示されるような時空間断片 2 0 1 に対して、 図 2 0 ( b ) に示される例のように、 時刻 t ごとに 1 次元データ 2 0 2を作成して、 それぞれの 1 次元データ 2 0 2に対して自己相関関数 2 0 3を計算する。 なお、 図 2 0 ( a ) の時間は、 時空間ポリューム生成部 1 3で予め决 定したフ レーム数 Nである。 図 2 0 ( b ) の長さは、 図 2 0 ( a ) に示 される時空間断片 2 0 1 の幅 Xである。 自己相関関数 2 0 3の計算は、 以下の式 4で定義することができる。
Figure imgf000039_0001
一 (式 4 )
ここで、 f ( X ) が 1 次元データ 2 0 2であり、 C ( r ) は、 自己相 関関数 2 0 3である。 すなわち、 自己相関関数 C ( Γ ) は、 1 次元デー タ f ( x ) をある間隔 rだけずらした場合 ( f ( X + て )) に、 元の 1 次 元データ f ( X ) とどれだけ似ているかを示す尺度となる。 図 2 0 ( c ) に、 自己相関関数 c ( r ) と ての関係を示す。 自己相関関数 c ( 0 ) は、 自分自身との相関を示すことになるために、 最大値をとることになる。 また、 自己相関関数 C ( r p) は、 自己相関関数 C ( r ) がピークになる 位置て pであり、 1 次元データで相関の高い O Nピクセルの間隔はて pに 相当する。 自己相関関数 C ( r ) においてピークの存在する位置て pは、 移動物体の脚に着目 した場合、 歩幅を示すことになる。 すなわち、 自己 相関関数 C ( て ) の時間的変化は、 移動における歩幅の時間的変化を示 すこととなり周期的であることが期待できる。
なお、 図 2 0 ( d )、 ( e )、 ( f ) は、 歩行の特徴 (周期性) が存在し ない場合、 例えば、 断片抽出線が人物の胴体を横切る位置に設定された 場合に得られる時空間断片のデータ例であり、 それぞれ、 時空間断片、 時空間断片のある時刻における一次元データの例、 周期て と自己相関関 数 C (∑" ) との関係を示すグラフであり、 歩行の特徴が存在する場合に おける図 2 0 ( a )、 ( b )、 ( c ) に対応する。 図 2 0 ( f ) に示される ように、 時空間断片において周期性が存在しない場合には、 自己相関関 数 C ( て ) のグラフにおいてピークが存在しないことになる。
本実施の形態では、 自己相関関数 C ( τ ρ) のようなピークが必ずしも 存在しない場合があることを考慮して、 自己相関関数 C ( て ) = 0とな る位置て L を用いて周期性の解析を行うこととする。 これは、 脚が閉じ ている状態時に起こり うる。 また、 以降、 この て L を相関長と呼ぶこと とする。 なお、 本実施の形態においては、 自己相関関数 C ( て ) = 0と なる位置て L を相関長と したが、 必ずしも相関関数 C (て) = 0となる 位置 である必要はなく、歩幅の周期的変動を捉えられるものであれば、 何でもよい。 相関長 rLは、 時刻ごとに計算され、 時刻ごとに計算された相関長 ΪΤ L を時間順に並べることによって、 相関長の時系列データ 2 1 0を得る。 相関長 IT Lの時系列データ 2 1 0を図 2 1 ( a ) に示す。 相関長て Lの時 系列データ 2 1 0は、 理想的な時空間断片が入力された場合において、 歩幅の時間的変化に相当するものとなり、 時間に応じて周期的に変動す る。
次に、 相関長自己相関計算部 1 9 2について詳しく説明する。 相関長 計算部 1 9 1 は、 算出した相関長 て L の時系列データ 2 1 0を相関長自 己相関計算部 1 9 2に出力する。 相関長自己相関計算部 1 9 2は、 図 2 1 ( a ) に示されるような相関長 I" Lの時系列データ 2 1 0に対して自 己相関関数 2 1 1 を計算する。 計算式は、 前述の式 4と同様である。 こ の計算結果を図 2 1 ( b ) に示す.。 こ こで、 相関長 て L の時系列データ 2 1 0に対して自己相関関数 2 1 1 を計算した結果である C t ( α ) を ピーク検出部 1 93に出力する。
なお、 断片抽出線パラメータ変更信号は、 断片抽出線のパラメータで ある bである。
次に、 ピーク検出部 1 9 3について説明する。 ピーク検出部 1 9 3で は、 相関長自己相関計算部から入力された相関長の自己相関関数 C t (ひ) からピーク位置 wを検出し、 検出したピーク位置 awが移動物体 の移動周期にマッチしているかどうかを検証することによって移動物体 か否かを判定し、 移動物体と判定した場合に、 移動物体の存在位置と移 動方向を特定し、 表示部 1 8に出力する。
すなわち、 相関長の自己相関関数 C t ( ) は、 て L ( t ) をある間隔 だけずらしたて L ( t + α ) と、 7: L ( t ) とがどれだけ似ているかを 示す尺度となる。
本実施の形態では、 ピーク位置 awの検出は、 位置 = 0から探索を 行い、 最初のピークを検出することによって行ったが、 他のピーク検出 手法を用いても構わないし、 後述する設計者が決定したフレーム数付近 のピークを探索する方法を用いても構わない。
本実施の形態では、 移動 1 歩分の移動周期を検出する場合について述 ベる。 ピーク検出部 1 9 3は、 ピーク位置 a wがー歩の移動に必要なフ レーム数である場合に、 移動物体であると判定する。 一歩の移動に必要 なフ レーム数は、 映像処理部 1 1 で 1 秒間に何フ レーム取得できるかに よって異なるが、 本実施の形態では、 1 秒間に 3 0 フ レーム入力された 場合で、 2 0フレームから 3 0フレームを一歩の移動に必要なフレーム 数と し、 ピーク位置 が 2 0フレームから 3 0フレームの間に相関長の 自己相関関数 C t ( ) のピークが検出された場合に移動物体であると 判定する。 このフ レーム数は、 設計者によって自在に決定可能である。 なお、 より高精度な移動物体判定を行う場合は、 2歩以上を一単位と し た移動周期を検出することも可能である。 その場合は、 前記設計者が決 定するフ レーム数を歩数倍することによって対応可能である。
また、 犬やネコ等の動物を検出する場合においても、 同様に周期性を 判定することが可能である。
さらに、 自己相関関数 C t ( a ) を計算する代わりにフーリエ変換を 用いることも可能である。 この場合、 特定の周波数にピークが存在する か否かを判定することになる。
なお、 本実施の形態では、 フ レーム毎に画像が入力された場合につい て述べたが、 一定時間ごとにサンプリングした画像を用いてもよい。 そ の場合には、 移動物体が一歩移動するために必要な時間から、 ピーク検 出部 1 9 3のピーク位置 a wを計算すればよい。
また、 ピーク検出部 1 9 3は、 時空間断片を抽出するためのパラメ一 タ変更を示す信号である断片抽出線パラメータ変更信号を時空間断片抽 出部 1 4に出力する。
以下、 同様に、 時空間断片抽出部 1 4は、 移動方向算出部から得られ たパラメータの拘束のもとに、 断片抽出線パラメータ変更信号の入力が 終了するまで、 時空間データからパラメータに従った時空間断片を作成 する。 ここで、 断片抽出線パラメータ変更信号は、 移動方向算出部で算 出 した移動物体候補の移動方向に基づいて、 すべてのパラメータ候補に ついてパラメータ変更してもよいし、 属性出力部 1 7 で移動物体検出が 行われるまでと してもよい。
次に、 ピーク検出部 1 9 3は、 相関長の自己相関関数から移動物体の 移動に特有のピークが検出された場合、 断片抽出線パラメータ を座標変 換部 1 9 4に送信する。
次に、 座標変換部 1 9 4は、 ピーク検出部 1 9 3でピークが検出され た時の画像上での直線をワール ド座標における直線に変換する。 人体部 位動きモデル時空間断片出力部 1 5は、 ここで変換したワール ド座標系 における直線にしたがって人物動きモデルを生成する。 以下の動作は、 第 1 の実施の形態と同様である。
属性出力部 1 7は、 移動物体の存在位置と移動方向を特定し、 表示部 1 8に出力する。
次に、 時空間断片照合部 1 6は、 第 1 の実施の形態と同様に、 周期性 解析部 1 9 0でピークが検出できた時の時空間断片 7 0 と人体部位動き モデル時空間断片 7 1 との照合を行い、 照合結果から断片抽出線のパラ メータ変更を示す信号である断片抽出線パラメータ変更信号を時空間断 片抽出部 1 4に出力する。
以下、 同様に、 時空間断片抽出部 1 4は、 断片抽出線パラメータ変更 信号の入力が終了するまで、 時空.間データからパラメータに従った時空 間断片を作成する。 ここで、 断片抽出線パラメータ変更信号は、 移動方 向算出部で算出した移動物体候補の移動方向に基づいて、 すべてのパラ メータ候補についてパラメータ変更してもよいし、 属性出力部 1 7で移 動物体検出が行われるまでと してもよい
なお、 断片抽出線パラメータ変更信号は、 断片抽出線のパラメータで ある aおよび bである。
以後の処理は、 第 1 の実施の形態と同様であるので、 ここでの説明は 省略する。
以上のように、本実施の形態によれば、移動物体の移動方向を算出し、 移動物体の周期性を解析することによって、 断片抽出線 2 3のパラメ一 タおよび人物動きモデルのパラメータを削減することにより、 全探索し ながら時空間断片照合を行う場合に比べて、 より高速な人物検出が可能 となる。
(第 6の実施の形態)
次に、 本発明の第 6の実施の形態における人物モデルフィ ッティング 装置について説明する。
図 2 2は、 本実施の形態における人物モデルフイ ツティング装置の構 成を示す機能ブロック図である。この人物モデルフィ ッティング装置は、 マーカー等の特殊な装置を被写体に取リ付ける必要がなく、 画像に存在 する人物に対してモデルをフィ ッティングする装置であり、カメラ 1 0、 映像処理部 1 1 、 連続画像処理部 1 2、 時空間ボリューム生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモデル時空間断片出力部 1 5、 時 空間断片照合部 1 6、 表示部 1 8およびモデルフィ ッティング部 2 2 0 を備える。 この構成は、 第 1 の実施の形態における人物検出装置が備え る構成要素のうち、 属性出力部 1 7をモデルフィ ッティ ング部 2 2 0に 置き換えた構成に相当する。 以下、 第 1 の実施の形態と異なる点を中心 に説明する。 なお、 人物モデルのフィ ッティングとは、 人物動きモデルを画像に存 在する人物にフィ ッティングすることであり、 ここでは、 図 7に示され る人物動きモデルのパラメータの値 (画像に存在する人物の動きに合致 した値) を決定することをいう。
以下に、 本実施の形態の人物モデルフィ ッティ ング装置の動作につい て説明する。なお、 カメラ 1 0、映像処理部 1 1 、連続画像処理部 1 2、 時空間ボリューム生成部 1 3、 時空間断片抽出部 1 4、 人体部位動きモ デル時空間断片出力部 1 5および時空間断片照合部 1 6は、 第 1 の実施 の形態と同様の動作であるため、 説明を省略する。
モデルフィ ッティング部 2 2 0は、 図 2 3に示されるように、 モデル 生成部 2 3 1 と座標変換部 2 3 2とを備える。
まず、 モデル生成部 2 3 1 は、 時空間断片照合部 1 6の出力するヮ一 ルド座標上での人物の存在位置を示すパラメータの組み合わせ結果から、 図 7に示される人物動きモデルを再度生成する。 人物動きモデルの脚の 長さ Lおよび股間の角度 0 L は、 既知であるため、 これらのパラメ一タ から図 7に示される人物動きモデルを生成可能である。
ここで、 モデル生成部 2 3 1 は、 人体部位動きモデル時空間断片出力 部 1 5が備える人物動きモデル生成部 5 0と同様の機能を有する。
また、 この人物動きモデルは、 ワールド座標系における存在位置や歩 行方向をパラメータ と して持っため、 座標変換部 2 3 2にて、 座標変換 を行うことで画像上に人物動きモデルをフィ ッティングする。 具体的に は、 高いマッチングスコアを得たパラメータの組み合わせのうち、 断片 抽出線パラメータの 0 wは、 ワールド座標上における歩行方向に該当し、 人物動きモデルのパラメ一タ ( X St art、 y start ) が、 人物の存在位置に該 当する。 また、 検出時刻は、 パラメータの組み合わせに添付された時空 間断片照合部 1 6の照合処理部 1 5 0で行うスキャン処理のステツプ数 により算出され、 その時刻における画像に座標変換を行ったモデルを重 ねることによって、 フィ ッティングを行う。
最後に、 表示部 1 8は、 モデルフィ ッティング部 2 2 0でフイ ツティ ングされた画像を表示する。
以上のように、 本実施の形態によれば、 マーカー等の特殊な装置を被 写体に取り付ける必要がなく、 画像に存在する人物に対してモデルをフ ィ ッティ ングすることができる。
なお、 本実施の形態は、 第 2、 第 4および第 5の実施の形態のように 計算時間短縮のための構成をとる事も可能である。
以上、 本発明に係る人物検出装置、 人物照合装置および人物モデルフ イ ツティング装置について、 6つの実施の形態に基づいて説明したが、 本発明は、 これらの実施の形態に限定されるものではない。
たとえば、 第 1 の実施の形態等では、 人体部位動きモデル時空間断片 出力部 1 5の人物動きモデル生成部 5 0は、 時空間断片抽出部 1 4から 出力される断片抽出線のパラメータに基づいて具体的なパラメータを持 つ人物モデルを生成したが、 予め複数の人物動きモデルテンプレー トを 保持しておき、 その中から、 最適なテンプレートを選択して出力しても よい。 例と して、 人体部位動きモデル時空間断片出力部 1 5が、 図 2 4 に示されるように、 大人 (男性)、 大人 (女性)、 子供および老人という タイプ別の人物動きモデルテンプレー トの中から、 時空間断片抽出部 1 4から出力されたパラメータに近いものを選択し、 選択した人物動きモ デルテンプレー トの人体部位動きモデル時空間断片を出力する。そして、 時空間断片照合部 1 6は、 時空間断片抽出部 1 4から出力される時空間 断片と人体部位動きモデル時空間断片出力部 1 5から出力される人体部 位動きモデル時空間断片とを照合する。 照合の結果、 一定の基準が満た されない場合には、 人体部位動きモデル時空間断片出力部 1 5は、 次の 候補となる人物動きモデルテンプレー トを選択し、 その人物動きモデル テンプレー トの人体部位動きモデル時空間断片を出力 し、 時空間断片照 合部 1 6が照合を繰り返す。 これによつて、 最も一致度の高い人物動き モデルテンプレー トが決定され、 対象画像中の人物のタイ プが決定され る。
なお、 図 2 4に示された人物動きモデルテンプレー トでは、 各パラメ ータは、 1 つの値に設定されていたが、 一定の範囲 (例えば、 子供のパ ラメータ し と して 3 0 0〜 7 0 0 m m等) が設定されていてもよい。 こ の場合には、 設定された範囲内で時空間断片照合部 1 6が繰り返して照 合計算を行う ことで、 最適な値や最適なタイプの人物動きモデルテンプ レー トを探索すればよい。
また、 このような人物動きモデルテンプレー トと しては、 人物のタイ プ別に限られず、 図 2 5に示されるように、 歩行する路面の状況別に複 数のテンプレー トを用意しておいた り、 図 2 6に示されるよ うに、 歩行 する場所における混雑度別に複数のテンプレー トを用意しおいてもよし、。 これによつて、 画像から得られる時空間断片に最も近い人体部位動きモ デル時空間断片を生成する人物動きモデルテンプレー トを探索すること で、 人物だけでなく 、 歩行の環境についても、 各種状況を判断すること ができる。 つま り、 人物が歩行している映像から、 人物のタイ プだけで なく 、 路面状況、 歩行場所における混雑度等をある程度予測するこ とが できる。 産業上の利用の可能性
本発明は、 人物の存在、 位置、 歩行方向等を検出する人物検出装置等 と して、 例えば、 街頭や施設内に設置する監視装置や建物への入退出時 における認証装置等と して、 特に、 人物の現在位置、 歩行方向が既知で ない場合においても、 画像中の検出領域を限定することなく 、 人物検出 を行う ことが可能な人物検出装置、 人物照合装置等と して利用すること ができる。

Claims

o
線得 2
請 求 の 範 囲
1 . 動画像に含まれる人物を検出する装置であって、
人物が撮影された動画像を構成するフ レーム画像を時間軸に沿って並 ベた 3次元時空間画像を生成する時空間ボリューム生成手段と、 5 生成された 3次元時空間画像から、 当該 3次元時空間画像を切断した ときの切断面または切断片における画像である実画像時空間断片を抽出 する時空間断片抽出手段と、
人物の動き特性を規定した人物動きモデルに基づいて、 当該人物動き モデルによる動きによって得られる時空間断片である人体部位動きモデ0 ル時空間断片を生成して出力する時空間断片出力手段と、
前記時空間断片抽出手段が抽出した実画像時空間断片と前記時空間断 片出力手段が出力した人体部位動きモデル時空間断片とを照合する時空 間断片照合手段と、
前記時空間断片照合手段による照合結果に基づいて、 前記動画像にお5 ける人物の存否を含む人物属性を出力する属性出力手段と
を備えることを特徴とする人物検出装置。
. 前記時空間断片抽出手段は、 前記フ レーム画像を切断する断片抽出 を決定し、 決定した断片抽出線.を時間軸に沿って並べることによって られる面を切断面と して前記実画像時空間断片を抽出する
ことを特徴とする請求の範囲 1記載の人物検出装置。
3 . 前記時空間断片抽出手段は、 前記 3次元時空間画像における人物の 脚を切断する断片抽出線を用いて前記実画像時空間断片を抽出し、 前記時空間断片出力手段は、 人物の歩行特性を規定した人物動きモデ ルに基づいて、 当該人物動きモデルの歩行時における脚を切断する切断 面によって得られる人体部位動きモデル時空間断片を生成する
ことを特徴とする請求の範囲 2記載の人物検出装置。
4 . 前記人物動きモデルは、 2本の脚に対応する一端どう しが結合され た 2本の線分で表現され、 各線分が結合点を回転中心と して一定の角速 度 ωで交互に最大角度 2 0 Lまで回転するように規定される
ことを特徴とする請求の範囲 3記載の人物検出装置。
5 . 前記時空間断片照合手段は、 前記実画像時空間断片に対して、 前記 時空間断片出力手段が出力した一歩分の人体部位動きモデル時空間断片 を時間方向に走査していったときの画像どう しの一致度を算出すること によって、 前記照合を行う
ことを特徴とする請求の範囲 3記載の人物検出装置。 6 . 前記人物検出装置はさらに、 前記時空間ボリューム生成手段によつ て生成された 3次元時空間画像から、 当該 3次元時空間画像に存在する 移動物体の移動方向を算出する移動方向算出手段を備え、
前記時空間断片抽出手段は、 前記移動方向算出手段によって算出され た移動方向に従って前記断片抽出線を決定する
こ とを特徴とする請求の範囲 2記載の人物検出装置。
7 . 前記移動方向算出手段は、 前記 3次元時空間画像を構成するフ レー ム画像ごとに前記移動物体を抽出し、 抽出した移動物体のフ レーム画像 間における動きべク トルを求めることによって、 前記移動物体の移動方 向を算出する
ことを特徴とする請求の範囲 6記載の人物検出装置。
8 . 前記移動方向算出手段は、 前記 3次元時空間画像を構成するフレー ム画像ごとに小領域に区分し、 小領域ごとにフレーム画像間における動 きべク トルを求めることによって、 前記移動物体の移動方向を算出する ことを特徴とする請求の範囲 6記載の人物検出装置
9 . 前記断片抽出線は、 直線または曲線である
ことを特徴とする請求の範囲 2記載の人物検出装置。
1 0 . 前記属性出力手段は、 前記時空間断片照合手段によリ前記実画像 時空間断片と前記人体部位動きモデル時空間断片とが一定の基準以上に 致すると照合された場合に、 前記切断面または切断片を特定するパラ メ一夕と前記人体動きモデルを特定するパラメータとから前記動画像に おける人物の位置および移動方向を算出して出力する
ことを特徴とする請求の範囲 1 記載の人物検出装置
1 1 . 前記人物検出装置はさらに 、 刖
物の位置および移動方向を含む人物属
ことを特徴とする請求の 囲 1 0記
2 . 前記人物検出装置はさらに、 前記時空間断片抽出手段によって抽 された実画像時空間断片が人物の歩行に特有の周期的動作に基づく画 であるか否かを解析する周期性解析手段を備え、
前記時空間断片抽出手段は、 前記周期性解析手段による解析結果に基 いて断片抽出線を変更し、 変更した断片抽出線を用いて再び実画像時 間断片を抽出する ことを特徴とする請求の範囲 1 記載の人物検出装置。
1 3 . 前記周期性解析手段は、 前記実画像時空間断片を構成する各時間 における画像を示す 1次元データに対して自己相関関数を求めることに よって相関長の時系列データを生成し、 生成した相関長の時系列データ において周期性が存在する場合に、 前記実画像時空間断片が人物の歩行 に特有の周期的動作に基づく画像であると解析する
ことを特徴とする請求の範囲 1 2記載の人物検出装置。
1 4 . 前記周期性解析手段は、、 前 IIJ記記相相関長の時系列データに対して自己 相関関数を求めるこ て相関長 対する自己相関関数値の 化を 示すグラフを求め、 フにおい ピークが存在する場合に 相関 長の時系列データに周期性が存在すると判断する
ことを特徴とする請求の範囲 1 3記載の人物検出装置。
1 5 . 前記人物検出装置はさらに、 前記時空間断片照合手段による照合 結果に基づいて、 前記時空間断片抽出手段に前記切断面または切断片を 特定するパラメータを変更させたうえで再び実画像時空間断片を抽出さ せること、 および、 前記時空間断片出力手段に前記人体動きモデルを特 定するパラメータを変更させたうえで再び人体部位動きモデル時空間断 片を出力させることの少なく とも 1 つを実行させることで、 前記切断面 または切断片を特定する最適なパラメータおよび前記人体動きモデルを 特定する最適なパラメータを探索する解探索手段を備える
ことを特徴とする請求の範囲 1 記載の人物検出装置。 前記解探索手段は、 遺伝的ァルゴリズムを用いて最適なパラメ タを探索する
ことを特徴とする請求の範囲 1 5記載の人物検出装置。
1 7 . 前記時空間ボリューム生成手段は、 前記フ レーム画像を背景差分 またはフレーム間差分した後に 2値化して得られる画像を少なく とも 1 枚以上重ね合わせることによって前記 3次元時空間画像を生成する
ことを特徴とする請求の範囲 1 記載の人物検出装置。
1 8 . 前記時空間断片出力手段は、 予め記憶する複数の異なる種類の人 物動きモデルの中から選択した人物動きモデルに対応する人体部位動き モデル時空間断片を生成して出力し、
前記時空間断片照合手段は、 前記照合による結果が一定の基準を満た さない場合に、 前記時空間断片出力手段に新たな人物動きモデルに対応 する人体部位動きモデル時空間断片を生成して出力させることで、 前記 照合を繰り返す
ことを特徴とする請求の範囲 1 記載の人物検出装置。
1 9 .前記時空間断片出力手段が予め記憶する複数の人物動きモデルは、 モデリングの対象となる人物の性別、年齢、人物が歩行する路面の状況、 および、 歩行する場所における混雑度の少なく とも 1 つが異なる
ことを特徴とする請求の範囲 1 . 8記載の人物検出装置。
2 0 . 動画像に含まれる人物の画像と予め蓄積している人物の画像とを 照合する装置であって、
請求の範囲 1 ~ 1 9のいずれか 1 項に記載の人物検出装置と、 パン、 チル トおよびズームの少なく とも 1 つの機能を有する照合力メ ラ
前記人物検出装置で検出され人物の位置または移動方向に基づいて、 前記照合力メラによるパン、 チルトおよびズームの少なく とも 1 つを制 御するカメラ制御手段と、
前記照合カメラにより撮影された人物の画像と予め蓄積している人物 の画像とを照合する人物照合手段と
を備えるこどを特徴とする人物照合装置。
2 1 . 人物の動き特性を規定した人物動きモデルを画像上の人物の動き にフイ ツティングさせる装置であって
人物が撮影された動画像を構成するフ レーム画像を時間軸に沿って並 ベた 3次元時空間画像を生成する時 間ポリユ ーム生成手段と、 生成された 3次元時空間画像から 当該 3次元時空間画像を切断した ときの切断面または切断片における 像である実画像時空間断片を抽出 する時空間断片抽出手段と、
前記人物動きモデルによる動きによつて得られる時空間断片である人 体部位動きモデル時空間断片を生成して出力する時空間断片出力手段と 前記時空間断片抽出手段が抽出した実画像時空間断片と前記時空間断 片出力手段が出力した人体部位動きモデル時空間断片とを照合する時空 間断片照合手段と、
前記時空間断片照合手段による照合結果に基づいて、 前記人物動きモ デルが前記動画像における人物の動きを示すように、 前記人物動きモデ ルを特定するパラメータの値を決定するモデルフィ ッティング手段と を備えることを特徴とする人物モデルフイ ツティング装置。
2 2 . 画像を生成する装置であって、 動画像を構成するフ レーム画像を時間軸に沿って並べた 3次元時空間 画像を切断したときの切断面または切断片における画像を時空間断片と したときに、
人物の動き特性を規定した人物動きモデルに基づいて、 当該人物動き モデルによる動きによって得られる時空間断片である人体部位動きモデ ル時空間断片を生成して出力する時空間断片出力手段を備える
ことを特徴とする画像生成装置。
2 3 . 動画像に含まれる人物を検出する方法であって、
人物が撮影された動画像を構成するフ レーム画像を時間軸に沿って並 ベた 3次元時空間画像を生成する時空間ボリューム生成ステップと、 生成された 3次元時空間画像から、 当該 3次元時空間画像を切断した ときの切断面または切断片における画像である実画像時空間断片を抽出 する時空間断片抽出ステップと、
人物の動き特性を規定した人物動きモデルに基づいて、 当該人物動き モデルによる動きによって得られる時空間断片である人体部位動きモデ ル時空間断片を出力する時空間断片出力ステップと、
前記時空間断片抽出ステツプで抽出された実画像時空間断片と前記時 空間断片出力ステップで出力された人体部位動きモデル時空間断片とを 照合する時空間断片照合ステップと、
前記時空間断片照合ステップによる照合結果に基づいて、 前記動画像 における人物の存否を含む人物属性を出力する属性出力ステップと を含むことを特徴とする人物検出方法。 2 4 . 動画像に含まれる人物を検出する装置のためのプログラムであつ て、 請求の範囲 2 3記載の人物検出方法に含まれるステップをコンビユー タに実行させる
ことを特徴とするプログラム。
2 5 . 動画像に含まれる人物の画像と予め蓄積している人物の画像とを 照合する方法であって、
請求の範囲 2 3記載の人物検出方法に含まれるステップと、
前記人物検出方法で検出された人物の位置または移動方向に基づいて、 照合カメラによるパン、 チルトおよびズームの少なく とも 1 つを制御す るカメラ制御ステップと、
前記照合カメラにより撮影された人物の画像と予め蓄積している人物 の画像とを照合する人物照合ステップと
を含むことを特徴とする人物照合方法。
2 6 . 動画像に含まれる人物の画像と予め蓄積している人物の画像とを 照合する装置のためのプログラムであって、
請求の範囲 2 5記載の人物照合方法に含まれるステップをコンビユー タに実行させる
Figure imgf000056_0001
2 7 . 人物の動き特性を規定した人物動きモデルを画像上の人物の動き にフィ ッティングさせる方法であって、
人物が撮影された動画像を構成するフレーム画像を時間軸に沿って並 ベた 3次元時空間画像を生成する時空間ボリューム生成ステップと、 生成された 3次元時空間画像から、 当該 3次元時空間画像を切断した ときの切断面または切断片における画像である実画像時空間断片を抽出 する時空間断片抽出ステップと、
前記人物動きモデルによる動きによって得られる時空間断片である人 体部位動きモデル時空間断片を生成して出力する時空間断片出カステツ プと、
前記時空間断片抽出ステツプで抽出された実画像時空間断片と前記時 空間断片出力ステップで出力された人体部位動きモデル時空間断片とを 照合する時空間断片照合ス亍ップと、
前記前記時空間断片照合ステツプによる照合結果に基づいて、 前記人 物動きモデルが前記動画像における人物の動きを示すように、 前記人物 動きモデルを特定するパラメ一タの値を決定するモデルフイ ツティング ステップと
を含むことを特徴とする人物モデルフィ ッティング方法。
2 8 . 人物の動き特性を規定した人物動きモデルを画像上の人物の動き にフィ ッティングさせる装置のためのプログラムであって、
請求の範囲 2 7記載の人物モデルフィ ッティング方法に含まれるステ ップをコンピュータに実行させる
ことを特徴とするプログラム。 2 9 . 動画像に含まれる人物の検出に用いられる画像を生成する方法で あって、
動画像を構成するフレーム画像を時間軸に沿って並べた 3次元時空間 画像を切断したときの切断面または切断片における画像を時空間断片と したときに、
人物の動き特性を規定した人物動きモデルに基づいて、 当該人物動き モデルによる動きによって得られる時空間断片である人体部位動きモデ ル時空間断片を生成して出力する時空間断片出力ステップを含む ことを特徴とする画像生成方法。
3 0 . 動画像に含まれる人物の検出に用いられる画像を生成する装置の ためのプログラムであって、
請求の範囲 2 9記載の画像生成方法に含まれるステップをコンビユー タに実行させる
ことを特徴とするプログラム。
PCT/JP2004/011790 2003-08-21 2004-08-11 人物検出装置および人物検出方法 WO2005020152A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005513284A JP3775683B2 (ja) 2003-08-21 2004-08-11 人物検出装置および人物検出方法
US11/320,416 US7613325B2 (en) 2003-08-21 2005-12-29 Human detection device and human detection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003297118 2003-08-21
JP2003-297118 2003-08-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/320,416 Continuation US7613325B2 (en) 2003-08-21 2005-12-29 Human detection device and human detection method

Publications (1)

Publication Number Publication Date
WO2005020152A1 true WO2005020152A1 (ja) 2005-03-03

Family

ID=34213634

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/011790 WO2005020152A1 (ja) 2003-08-21 2004-08-11 人物検出装置および人物検出方法

Country Status (4)

Country Link
US (1) US7613325B2 (ja)
JP (1) JP3775683B2 (ja)
CN (1) CN1839409A (ja)
WO (1) WO2005020152A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040781A (ja) * 2006-08-07 2008-02-21 Matsushita Electric Ind Co Ltd 被写体照合装置および被写体照合方法
JP2009140009A (ja) * 2007-12-03 2009-06-25 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに記録媒体
JP2010079910A (ja) * 2008-09-26 2010-04-08 Axis Ab ビデオモーション検出方法
WO2011161924A1 (ja) * 2010-06-23 2011-12-29 国立大学法人大阪大学 移動物体検出装置
WO2018043437A1 (ja) * 2016-09-01 2018-03-08 公立大学法人会津大学 画像距離算出装置および画像距離算出用プログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体
JP2018040789A (ja) * 2016-09-01 2018-03-15 公立大学法人会津大学 画像距離算出装置、画像距離算出方法および画像距離算出用プログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4432929B2 (ja) * 2006-04-25 2010-03-17 トヨタ自動車株式会社 駐車支援装置及び駐車支援方法
EP1870857A1 (en) * 2006-06-19 2007-12-26 Koninklijke Philips Electronics N.V. Global motion estimation
JP4386083B2 (ja) * 2007-02-27 2009-12-16 トヨタ自動車株式会社 駐車支援装置
JP4315991B2 (ja) * 2007-04-20 2009-08-19 本田技研工業株式会社 車両周辺監視装置、車両周辺監視方法、車両周辺監視プログラム
CN101515374B (zh) * 2008-02-20 2010-12-01 中国科学院自动化研究所 基于图像的个性化真实感虚拟人物造型方法
US8170278B2 (en) 2008-08-06 2012-05-01 Sri International System and method for detecting and tracking an object of interest in spatio-temporal space
WO2010098024A1 (ja) * 2009-02-24 2010-09-02 三菱電機株式会社 人物追跡装置及び人物追跡プログラム
US8744121B2 (en) 2009-05-29 2014-06-03 Microsoft Corporation Device for identifying and tracking multiple humans over time
JP2011114823A (ja) * 2009-11-30 2011-06-09 Sanyo Electric Co Ltd 画像処理装置及び撮像装置
WO2012077287A1 (ja) 2010-12-09 2012-06-14 パナソニック株式会社 姿勢状態推定装置および姿勢状態推定方法
US8913129B2 (en) * 2011-01-27 2014-12-16 Thermal Matrix USA, Inc. Method and system of progressive analysis for assessment of occluded data and redundant analysis for confidence efficacy of non-occluded data
EP2693373A4 (en) * 2011-03-31 2015-02-18 Panasonic Corp DEVICE FOR MEASURING THE NUMBER OF PEOPLE
CN102609680B (zh) * 2011-12-22 2013-12-04 中国科学院自动化研究所 一种基于三维深度图像信息的并行统计学习人体部位检测方法
WO2013114862A1 (ja) * 2012-01-30 2013-08-08 パナソニック株式会社 最適カメラ設定装置及び最適カメラ設定方法
US8872850B2 (en) * 2012-03-05 2014-10-28 Microsoft Corporation Juxtaposing still and dynamic imagery for cliplet creation
US10009579B2 (en) 2012-11-21 2018-06-26 Pelco, Inc. Method and system for counting people using depth sensor
US9367733B2 (en) * 2012-11-21 2016-06-14 Pelco, Inc. Method and apparatus for detecting people by a surveillance system
JP5961123B2 (ja) * 2013-01-30 2016-08-02 パナソニック株式会社 人物検出追跡装置、人物検出追跡方法、および人物検出追跡プログラム
US9639747B2 (en) 2013-03-15 2017-05-02 Pelco, Inc. Online learning method for people detection and counting for retail stores
US10347100B2 (en) 2013-04-26 2019-07-09 Nec Corporation Information processing system, method and computer readable medium for determining whether moving bodies appearing in first and second videos are the same or not
US9256348B2 (en) * 2013-12-18 2016-02-09 Dassault Systemes Americas Corp. Posture creation with tool pickup
KR101679741B1 (ko) * 2015-05-06 2016-11-28 고려대학교 산학협력단 외곽 공간 특징 정보 추출 방법
US9648211B2 (en) * 2015-05-14 2017-05-09 Xerox Corporation Automatic video synchronization via analysis in the spatiotemporal domain
CN105892538B (zh) * 2016-04-22 2018-08-31 郑贵林 用于构建主动消防体系及智慧建筑的智能终端和智能终端系统
US10402643B2 (en) * 2016-06-15 2019-09-03 Google Llc Object rejection system and method
JP6701018B2 (ja) * 2016-07-19 2020-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN106652002A (zh) * 2016-09-20 2017-05-10 努比亚技术有限公司 一种轨迹动画影像的生成方法及生成系统
EP3407232B1 (en) * 2017-05-23 2021-07-28 Ordnance Survey Limited Spatiotemporal authentication
US11238046B2 (en) * 2018-02-19 2022-02-01 Nippon Telegraph And Telephone Corporation Information management device, information management method, and information management program
US11315363B2 (en) * 2020-01-22 2022-04-26 Board Of Trustees Of Michigan State University Systems and methods for gait recognition via disentangled representation learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121499A (ja) * 1993-10-20 1995-05-12 Nippon Telegr & Teleph Corp <Ntt> 動きパラメータ推定方法
JP2001109891A (ja) * 1999-10-08 2001-04-20 Toshiba Corp 物体領域抽出方法
JP2001202379A (ja) * 2000-01-21 2001-07-27 Kobe University 仮想空間における仮想人物動作データブラウジング装置
JP2001266131A (ja) * 2000-03-23 2001-09-28 Minolta Co Ltd 監視システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3183320B2 (ja) 1994-08-31 2001-07-09 日本電信電話株式会社 移動物体方向別計数方法および装置
EP0700017B1 (en) * 1994-08-31 2001-11-07 Nippon Telegraph And Telephone Corporation Method and apparatus for directional counting of moving objects
JP3603737B2 (ja) * 2000-03-30 2004-12-22 日本電気株式会社 移動体追尾方法及びその装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121499A (ja) * 1993-10-20 1995-05-12 Nippon Telegr & Teleph Corp <Ntt> 動きパラメータ推定方法
JP2001109891A (ja) * 1999-10-08 2001-04-20 Toshiba Corp 物体領域抽出方法
JP2001202379A (ja) * 2000-01-21 2001-07-27 Kobe University 仮想空間における仮想人物動作データブラウジング装置
JP2001266131A (ja) * 2000-03-23 2001-09-28 Minolta Co Ltd 監視システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NIYOGI A. ET AL.: "Analyzing and recognizing walking figures in XYT", M.I.T. MEDIA AND LAB VISION AND MODELING GROUP TECHNICAL REPORT, no. 223, 1994, XP000515879 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008040781A (ja) * 2006-08-07 2008-02-21 Matsushita Electric Ind Co Ltd 被写体照合装置および被写体照合方法
US8208028B2 (en) 2006-08-07 2012-06-26 Panasonic Corporation Object verification device and object verification method
JP2009140009A (ja) * 2007-12-03 2009-06-25 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに記録媒体
JP2010079910A (ja) * 2008-09-26 2010-04-08 Axis Ab ビデオモーション検出方法
US8121424B2 (en) 2008-09-26 2012-02-21 Axis Ab System, computer program product and associated methodology for video motion detection using spatio-temporal slice processing
WO2011161924A1 (ja) * 2010-06-23 2011-12-29 国立大学法人大阪大学 移動物体検出装置
JP5467300B2 (ja) * 2010-06-23 2014-04-09 国立大学法人大阪大学 移動物体検出装置
US8958641B2 (en) 2010-06-23 2015-02-17 Osaka University Moving object detection device
WO2018043437A1 (ja) * 2016-09-01 2018-03-08 公立大学法人会津大学 画像距離算出装置および画像距離算出用プログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体
JP2018040789A (ja) * 2016-09-01 2018-03-15 公立大学法人会津大学 画像距離算出装置、画像距離算出方法および画像距離算出用プログラム
US10803609B2 (en) 2016-09-01 2020-10-13 The Public University Corporation, The University Aizu Image distance calculator and computer-readable, non-transitory storage medium storing image distance calculation program

Also Published As

Publication number Publication date
JP3775683B2 (ja) 2006-05-17
JPWO2005020152A1 (ja) 2006-10-19
US20060115116A1 (en) 2006-06-01
CN1839409A (zh) 2006-09-27
US7613325B2 (en) 2009-11-03

Similar Documents

Publication Publication Date Title
WO2005020152A1 (ja) 人物検出装置および人物検出方法
US7330566B2 (en) Video-based gait recognition
Shen et al. Multiobject tracking by submodular optimization
US7702019B2 (en) Moving object detection device and moving object detection method
JP5820366B2 (ja) 姿勢推定装置及び姿勢推定方法
RU2546327C1 (ru) Устройство для отслеживания человека, способ отслеживания человека и невременный машиночитаемый носитель, хранящий программу для отслеживания человека
JP5424852B2 (ja) 映像情報処理方法及びその装置
US20060269145A1 (en) Method and system for determining object pose from images
Świtoński et al. Human identification based on gait paths
CN105531995A (zh) 用于使用多个摄像机进行对象和事件识别的系统和方法
KR20140114741A (ko) 인체 포즈 추정 장치 및 방법
JP2008219570A (ja) カメラ間連結関係情報生成装置
JP3655618B2 (ja) 歩行者年齢判定装置、歩行状態・歩行者年齢判定方法およびプログラム
CN109583373A (zh) 一种行人重识别实现方法
KR102475752B1 (ko) 이동 경로 예측 방법 및 장치
JP2007028680A (ja) 監視装置
JP2020052822A (ja) 情報処理装置、認証システムおよびそれらの制御方法、プログラム
JP2010015472A (ja) 歩行者性別判定装置、歩行者性別判定方法、歩行者性別判定プログラムおよびその記録媒体
Ramasso et al. Human shape-motion analysis in athletics videos for coarse to fine action/activity recognition using transferable belief model
Albu et al. Generic temporal segmentation of cyclic human motion
Swain et al. Human Pose Estimation Using GNN
JP6893812B2 (ja) 物体検出装置
Panagiotakis et al. Shape-motion based athlete tracking for multilevel action recognition
Serrano et al. Automated feet detection for clinical gait assessment
Hild Estimation of 3d motion trajectory and velocity from monocular image sequences in the context of human gait recognition

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480024007.1

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005513284

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11320416

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 11320416

Country of ref document: US

122 Ep: pct application non-entry in european phase