WO2010084902A1 - 侵入警報ビデオ処理装置 - Google Patents

侵入警報ビデオ処理装置 Download PDF

Info

Publication number
WO2010084902A1
WO2010084902A1 PCT/JP2010/050680 JP2010050680W WO2010084902A1 WO 2010084902 A1 WO2010084902 A1 WO 2010084902A1 JP 2010050680 W JP2010050680 W JP 2010050680W WO 2010084902 A1 WO2010084902 A1 WO 2010084902A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
zone
pixel
processing
area
Prior art date
Application number
PCT/JP2010/050680
Other languages
English (en)
French (fr)
Inventor
ヴィタリー アレクサンドロヴィチ ロポタ
アレクサンダー セルゲイビッチ コンドラチェフ
ヴィクター イワノヴィッチ ユージン
セルゲイ アナトリエヴィッチ ポロフコ
エカテリーナ ユーレヴナ スミルノワ
キリル ニコラエヴィッチ スチューピン
レフ ボリソヴィッチ コーギャン
ドミトリィ ニコラエヴィッチ ステパーノフ
渡 伊藤
光恵 伊藤
一成 岩永
幸 藤井
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to JP2010547509A priority Critical patent/JP5325899B2/ja
Publication of WO2010084902A1 publication Critical patent/WO2010084902A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/1961Movement detection not involving frame subtraction, e.g. motion detection on the basis of luminance changes in the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform

Definitions

  • the present invention relates to an intrusion alarm video processing apparatus, and more particularly to an intrusion alarm video processing apparatus that detects an intruder by processing an image taken by a monocular camera.
  • the conventional intruder alarm system is not satisfactory in that it requires frequent misinformation and lack of versatility, that is, it requires delicate and laborious setting adjustment according to the monitoring location.
  • classic image processing tasks such as region segmentation, skeleton extraction, recognition, and detection
  • the difficulty of developing a general intruder alarm system is due to the presence of various noises from various sources. It is clear that it is big.
  • CMOS sensors Most surveillance video cameras use inexpensive CMOS sensors. However, even the highest performance of these sensors has some hardware noise mixed in the image data. An inverse correlation is established between the luminance level and the sensor noise level. This noise makes it impossible to capture two images of the same image even when the camera and the imaging environment are not moving. Actually, the luminance value or RGB value of the pixel is observed as a random variable. Therefore, the pixel values observed as random variables should be modeled by an appropriate method. It has been experimentally illuminated that sensor noise can be appropriately modeled as white noise.
  • a moving vehicle detection method by Eremin S.N. is known (see Patent Document 1).
  • the method includes frame acquisition, calculation of difference between frames, binarization by threshold, morphological operation, calculation of Sobel operator, storage of initial frame, background update based on special formula, frame and background Detection of differences between images, calculation of image histogram, detection of maximum brightness, verification by comparison with existing objects, separation of mixed objects, vehicle position and coordinates where the vehicle is supposed to be located in its frame means Includes the creation of a rectangle to represent.
  • Non-Patent Document 1 image recognition using a Hu invariant moment is known (see Non-Patent Document 1). Moreover, what recognizes an object by using a Fourier Merin transform or a Gabor filter as a scale invariant value and comparing them with a dictionary is known (see Non-Patent Documents 2 and 3).
  • Harris corner detection is also known (see Non-Patent Document 4).
  • the detected corner is used as a feature amount. Every object has a unique set of corner arrangements.
  • the recognition process is performed by comparing with the positional relationship of the corners of the object in the standard image.
  • a Gaussian filter is applied to the image in multiple stages to create a difference image group (Laplacian pyramid) (see Patent Document 2), and a scale invariant feature quantity such as a key point from the maximum value of the image group.
  • a SIFT Scale-invariant feature transform
  • the purpose of the present invention is to improve the quality of television surveillance security systems under complex weather conditions and changing backgrounds by reducing the number of false responses and improving the detection accuracy of moving object boundaries, Furthermore, it is to extend functionality and operability.
  • the intrusion alarm video processing apparatus of the present invention uses a background subtraction method based on a parametric model. That is, each time a frame image is input, the absolute value of the difference between the input image of the current frame and the background image is calculated, and binarization is performed using the threshold image.
  • the threshold image an image obtained by multiplying the fluctuation ⁇ 2 of each pixel value of the input image by a predetermined coefficient k 1 is used.
  • the variation ⁇ 2 is time-averaged for each pixel based on the update coefficient ⁇ , but the update coefficient ⁇ is selected to have a different value depending on whether the pixel belongs to the background or the object. Thereafter, an initial detection zone is formed from the binarized image, and spatial filtering is performed.
  • the spatial filtering process includes at least one of a skeleton analysis process, an object mask process, a morphological operation process, and a section analysis process.
  • the skeleton process is performed by thinning or skeletal processing on the binarized image to form the shape of the initial detection zone. It includes a process for obtaining information, a process for extracting main axes from shape information, and a process for extracting the axis of an object from the extracted axes.
  • the object mask process includes a process of extracting a boundary region that is not adjacent to the boundary of the initial detection zone of the binarized image.
  • the morphology operation process includes an expansion process in which a pixel adjacent to a white pixel of the binarized image is a white pixel, and a contraction process in which a pixel adjacent to the black pixel of the binarized image is a black pixel.
  • the section analysis process includes a process of dividing the initial detection zone into fragments, a process of analyzing the ratio of white pixels of binarized pixels to each fragment, and a process of selecting fragments based on the ratio of white pixels. Thereafter, a tracking zone representing an independent part of the object is formed.
  • the tracking zone is a tracking method based on feature information such as its existence position and size, center of gravity, image outline features, moments, etc., or binarization when binarized images obtained at each time are temporally arranged.
  • the temporal position change of the tracking zone of interest is tracked by at least one of tracking methods based on a line component extraction technique represented by Hough transform or the like from spatial data.
  • the tracked result is subjected to at least one of a smoothing filter, a moving average filter, and a Kalman filter, and a component due to noise is reduced from the calculated position change.
  • the cluster selection is determined based on the size of the cluster, the displacement between the position coordinates of the cluster and an area having a predetermined shape, the displacement with an area that is a predetermined distance from a certain cluster, or the like. This determination is performed by converting to dimensions in real space by coordinate conversion. This conversion is calculated using the conditions of the image sensor of the camera and the camera parameters of the attachment position. Finally, it is determined that the cluster that remains selected is an object to be detected.
  • the present invention may include those obtained by replacing some of the constituent elements with other known techniques.
  • the intrusion alarm video processing apparatus of the present invention can detect a steady, temporary, or periodic disturbance such as weather conditions, inactive (non-living) movement, and artificial image fluctuations.
  • the monitoring target object can be detected with high accuracy.
  • Example 1 A diagram showing scene coordinates, camera coordinates, and screen coordinates (Example 1)
  • Image showing an example of skeleton processing (Example 3) Image showing an example of skeleton processing (Example 3)
  • Image showing an example of skeleton processing (Example 3) Image showing an example of skeleton processing (Example 3)
  • Flow chart of object area division (OS) processing Example 4)
  • Example of monitoring conditions Example 5)
  • Example of device configuration (Example 5) Example of determination table (Example 5)
  • Example of setting of monitoring area in camera coordinate system (Example 6) Example of setting a monitoring area in the scene
  • the processing logic of the video surveillance system is the logic of the detection, prediction and removal (screening) of wonders directed at the goods.
  • Processing logic development is based on the formalization of vigilance and danger situations. Under real conditions, situation formalization can reduce the number of false alarms by classifying the integrated analysis and the current situation into one of the classes ("Problem”, “Danger”, “Very dangerous”). Is possible.
  • Developing processing logic in line with the judgment of those who have experienced monitoring work is a straightforward approach. While watching complex scenes where environmental changes occur, he turns his attention to objects that could pose a direct threat to the item being protected, and pays attention to the speed and direction of suspicious objects. Try to predict changes.
  • Identifying moving objects (or objects left behind) from complex backgrounds in natural noise scenes should be done prior to the current situation assessment. And the combined functions of this system can be divided into the following four main stages: 1) Adjustment 2) Initial detection (pre-detection) 3) Analyzing the situation taking into account the detected objects 4) Analyzing alarms and metadata. “Adjustment” includes the following items: 1) Algorithm adjustment (parameter setting for video data processing) 2) Camera setting adjustment (camera setting parameter setting / adjustment) 3) Zone adjustment (selection and designation of different “attention zones” depending on the surveillance scene).
  • “Initial detection” means evaluation of the difference between “background” and the current video frame.
  • the main purpose of this stage is to detect as much as possible all differences according to the selected criteria (threshold).
  • the quality of detection detection of differences from the background
  • the algorithm for initial detection is processing for pixel luminance values (RGB color 3 channels, each having a value of 0 to 255).
  • the first step in situation analysis is to ignore objects that do not need to be reported and do not need attention.
  • Implementation of this step in the system includes the following items: 1) Evaluation of the size of the initial detection object 2) Evaluation of the shape of the initial detection object 3) Evaluation of the “matching with the background” value of the initial detection object (the pixel corresponding to the detection object, not the processing of the luminance value of one pixel) Process the overall characteristics) 4) Evaluation of lifetime of initial detection object 5) Evaluation of speed of initial detection object.
  • Current frame One frame image obtained from video input in the current processing cycle.
  • Background frame An image obtained by sequentially averaging (smoothing) the luminance value of each pixel in an image frame. These calculations are performed by a low frequency time filter 106a (described later).
  • Standard deviation frame An image obtained by sequentially averaging (smoothing) the luminance value dispersion of each pixel in an image frame. These calculations are performed by a low frequency time filter 106b (described later).
  • Difference frame image: Result image of the image difference between the current frame and the background frame.
  • Binarized frame (image) A result image obtained by binarizing the difference image frame, and obtained by comparing the difference frame and the standard deviation frame for each pixel.
  • Foreground pixel A pixel in the current frame that is included in a non-zero zone (a zone having a pixel value of 0 or more) in the binary image frame.
  • Background pixel A pixel in the current frame that is included in a zero zone (a zone having a pixel value of 0) in a binary image frame.
  • a frame is a unit constituting one image, but may be used synonymously with an image.
  • FIG. 1 shows a main processing loop of the first embodiment.
  • the initial detection phase covers from the input of the frame image (step 101) to the binarization process (step 108).
  • step 101 the input frame just taken by the camera is input.
  • Step 101 is triggered via the event hand by a timer event, thereby starting the main processing loop.
  • the input image is, for example, in the YUV 4: 2: 2 format.
  • step 102 the resolution and / or the number of colors of the input image are reduced to a format suitable for real-time processing.
  • a format suitable for real-time processing since several functions described later support only RBG or 1-channel gray scale, it is converted into a 1-byte grace case image per pixel.
  • YUV, HSB (HSV) or other formats may also be appropriate.
  • the resolution corresponds to a plurality of formats and is reduced to, for example, 360 * 240 pixels.
  • processing for appropriately blurring the image with the low-frequency spatial filter is also performed.
  • the Gaussian filter is suitable for high-speed processing because the calculation in the x direction and the y direction can be performed separately.
  • a median filter that employs medians within 3 ⁇ 3 pixels may be used.
  • the gain is controlled so that the luminance (average) in a predetermined region in the image is constant.
  • step 103 if it was the initial operation of the main processing loop, the loop is branched to the setup (setting) process (step 104).
  • step 104 various constants (parameters), which will be described later, are set, and what type of alarm is issued when an object of any size, speed, or locus is detected in a detection area of any shape and position. Set any of them. Some of these settings are given not in screen coordinates but in real space coordinates (scene coordinate system). Details will be described in steps 124 and 125.
  • step 105 the prepared (reduced) frame is saved for use as a one-frame delayed image.
  • step 106 two types of low-pass filters are performed using the prepared current image and the one-frame delayed image.
  • the background image is modeled as a stochastic process with unknown mean and standard deviation. Time domain low pass filters are used to evaluate (estimate) those moments.
  • the low-pass filter 106a constantly updates the evaluation of the average value of each pixel. The moving average is calculated each time a new frame is input (as in the following equation).
  • I i is the current image
  • is a filter constant (0 ⁇ ⁇ 1)
  • i is a frame index.
  • the result of the low pass filter 1 is called the background frame.
  • the low frequency time filter 106b sequentially calculates the estimated standard deviation ⁇ of each pixel using the same method.
  • the background frame and the current frame may be one frame before (index is i ⁇ 1).
  • is switchable for each pixel according to the type of zone and various conditions (for example, luminance).
  • may be different between the low-frequency time filters 106a and 106b, and in this case, ⁇ a and ⁇ b respectively.
  • the estimated standard deviation ⁇ is actually stored in the memory as ⁇ 2 (that is, variance), and is treated as a square value until binarization processing.
  • step 107 the local maximum value ⁇ ′ of the standard deviation ⁇ (or variance) calculated by the low-frequency time filter 106b is calculated and held for each pixel.
  • the maximum value ⁇ ′ may be sequentially searched from a predetermined number of frames in the past, but can also be obtained by the following expression, for example.
  • a difference frame is generated using the prepared current image and background image.
  • the change detection algorithm of this embodiment is based on the absolute value image frame difference between the reduced input image Ii and the background image ⁇ i (or ⁇ i-1) generated by the low frequency time filter 106a.
  • step 109 the difference frame is binarized by the adaptive threshold value k 1 ⁇ .
  • Standard deviation is used here as an adaptive part of the binarization threshold.
  • k is a constant value selected in the setting stage (step 104).
  • Recommended values are 3-4, depending on the quality of the noise.
  • the result of the binarization process is obtained with a binary image, “0” (False) means that nothing was detected, and “255” (True) represents the detected pixel. If it is handled as a color image up to this step, the color channels are also integrated here. Integration may be performed with weighted addition before binarization, or may be combined with logical sum (OR) after binarization.
  • the binarized image obtained in this step 109 (or the true value area in the binarized image) is also called an initial object mask.
  • Steps 110 to 123 are the “situation analysis” phase.
  • Morphological Operations are applied to the initial object mask.
  • Morphological operations include dilation (shifting and overlapping) for obtaining a logical sum while shifting an image within a predetermined range, erosion (scraping) for obtaining a logical product, opening processing for performing erosion after dilation, and closing processing for performing dilation after erosion.
  • Opening has an effect of connecting adjacent “255” (True) pixels
  • closing has an effect of removing dot-like “255” (True) pixels. In this example, either one is used.
  • a false value hole is generated in a true value connected region cannot be sufficiently removed by morphology operation. For this reason, a false value region surrounded by true values may be detected, and hole filling processing may be performed to fill the region with true values.
  • step 111 the wrong trace (tracking) is removed, and the background image (the binarized pixel) is removed.
  • the pixels in the tracking zone in the initial object mask are invalidated (set to a value other than 255).
  • the original current frame is also saved separately.
  • the pre-detection zone is labeled and its attributes are calculated. Labeling is a technique for finding all connected regions in an image and marking them (labels). In this stage, a unique number is assigned to a connected area composed of pixels having true values in the binarized image, and the connected area is then connected to circumscribed rectangular coordinates (upper, lower, left and right) and area (in the connected area). , Or the number of connected pixels) as a pre-detection zone “DetZones” (Dz 0 , Dz 1 ,).
  • Step 113 branches the main processing loop to the high-speed adaptation mode (step 114) if the brightness changes suddenly due to some event (such as lighting of a cloud or a streetlight).
  • the main processing loop is branched when the total area of the detection zones of the entire image frame or the total area of the detection zones in the “high-speed adaptive zone” becomes larger than a preset threshold value.
  • the fast adaptation mode is maintained for several periods. The period (specified by the number of frames, not time) is also preset.
  • step 114 during the high-speed adaptation period, a value is assigned to the filter constant so that the background image can be renewed by the end of the duration of the high-speed adaptation processing. For example, if the duration of 50 processing frames is set for the high-speed adaptive processing, the filter constant ⁇ is equal to 0.1. As such, the fast adaptation process can avoid false detections due to abrupt background changes. Detection of suspicious objects (after step 116) during the fast adaptation process is not performed.
  • the filter constant for the detection zone is adapted.
  • a binarized image is a pixel where a suspicious object can be detected (having a value of 255 in the binary image, called a foreground pixel) and a pixel where only the background is detected (having a value of 0 in the binary image) ).
  • the system can prevent the actual object from being reflected in the background image for a long time compared to the case without this local adaptation processing. Compared with the high-speed adaptive process, this process can avoid overlooking an object that is stopped or moving at a low speed.
  • the geometric attributes of the pre-detection zone are calculated.
  • the geometric attributes include the position and size (width and height) of the detection zone expressed in the scene coordinate system.
  • Figure 2 X, Y, Z: Scene coordinate system (world coordinate system).
  • the XY plane is parallel to the floor (ground), and its level is, for example, 0.5 to 0.7 m.
  • X ′, Y ′, Z ′ Camera coordinate system.
  • the X ′ and Y ′ axes are parallel to the target focal plane, X ′ is parallel to the X axis, and Z ′ is equal to the optical axis of the camera.
  • Xs, Ys Image (screen) coordinates. Similar to the X'-Y 'plane, but in units of pixels, not meters.
  • the height of the camera is represented by h, and the inclination of the camera optical axis with respect to the XY plane is represented by t.
  • the screen coordinates of the object are as follows.
  • f i represents the focal length
  • p X [m ⁇ 1 ] and p Y [m ⁇ 1 ] represent the pixel densities in the X S and Y S directions, respectively
  • variable Z ′ By substitution of variable Z ′ And the conversion formula is as follows. Since the camera may be installed in a different way than in FIG. 2, it may be necessary to consider the rotation angle of the camera with respect to the Z and Z ′ axes. In this case, the new coordinates are expressed as: Here, a is a rotation angle with respect to the Z axis. Similarly for screen coordinates Here, a ′ is a rotation angle with respect to the Z axis.
  • the pre-detection zone (analysis zone) that does not satisfy the predetermined size is blocked (so as not to be passed to subsequent processing).
  • geometric attributes for example, width and height in real space
  • predetermined values for example, w min that defines the upper and lower limits, respectively
  • the pixels in the pre-detection zone that have not been satisfied in the current frame are overwritten with those in the background frame.
  • step 118 the pre-detection zone that has passed step 117 is divided.
  • the division processing is necessary for the analysis of “detection area filling” level.
  • all of the filtered zones (the rectangular area of interest) are divided into strips of equal width, and the upper and lower sides of the divided zones are based on the object mask.
  • the width of the division is predetermined as a metric value in the scene coordinate system. Actually, the width is finely adjusted so that it is divided into an integer number and equal width.
  • the divided zones are stored as Sz0, Sz1,.
  • FIG. 3 shows the result of the division.
  • a rectangle drawn with a thick white line and a vertically long rectangle within the white rectangle represent the division result and the recalculated boundary, respectively. It can be seen that an actual car outline and an actual shadow outline can be obtained by setting the division width to 0.2 [m], for example, by the division process.
  • step 119 the divided areas are merged using the filling rate of the elongated zone (analysis zone). Merging is accomplished by repeating the following first to third sub-steps until there are no unreferenced divided zones.
  • the reference zone is one of the aforementioned divided zones and is as follows. That is, 1) closest to the bottom center of the image frame, 2) not included in any merged group, and 3) not previously used as a trial zone.
  • a long and narrow zone that is a candidate for merging is calculated from the attribute of the found reference zone.
  • the elongated zone is a rectangle having a height greater than a predetermined height in the scene coordinate system (for example, 0.8 m for a person).
  • the height in meters is calculated from the height of the filtered zone (zone before division) based on the proportional relationship.
  • S cross is the area of the intersection area (common area) of the merged zone (the circumscribed rectangle of the merged group) and the elongated zone
  • S total is the area of the elongated zone itself.
  • a fully filled merged group is registered in the array “Merge” as a merge zone.
  • the condition is S sum / S merge > “Merge region filling ratio”, S sum is the sum of the individual areas of the elongated zones included in the merged group, and S merge is the area of the merged zone (external Rectangle). “Merge region filling ratio” is, for example, 60%. Merged groups that are not fully filled are not registered in the array “Merge”.
  • FIG. 4 shows the result of the merge. A thin line rectangle represents a division zone merged together. It can be seen that only the high part of the detected object passes through the merging process.
  • step 120 a place similar to the zone (tracking zone) registered in the array Merge (tracking zone) and its matching degree are calculated from the previous frame, and the array Trace is updated.
  • the tracking traces up to the previous time are registered in the array Trace, and this process aims to reduce false detections by checking whether these zones exist stably in a series of processing frames. .
  • the tracking zone is cut out from the previous frame (or the previous difference frame), and the image for the search range obtained by extending the tracking zone by a predetermined amount is cut out from the current frame, Within the search range, the following calculation is performed to search for the maximum matching degree.
  • a ij represents an element of the luminance matrix (partial image) of the pattern
  • b ij represents an element of the luminance matrix (partial image) of the search range. If each element has a plurality of color channels, the sum of absolute values of differences for each color channel is used.
  • the maximum match is greater than the value “Trace zone correlation coef”
  • the calculated tracking zone position within the search range updates the array Trace as the new position of the tracking zone. If the maximum match is less than the value “Trace zone correlation coef” for the number of frames iMissedFrameCnt, the tracking zone is deleted from the array Trace (and the array Merge).
  • step 121 a tracking zone similar to the background is not added to each tracking zone of the array Trace. That is, the new zone is added to the array Trace only when the collation value with the background is smaller than “Trace zone correlation to backgr”. Also, if the overlap between the new zone and the existing zone is greater than the value iTRZoneOvrCoef, this new zone is not added to the array Trace.
  • the collation in this step may be the same as the collation in equation (11) (step 117), or another feature amount may be used. In the processing of steps 120 and 121, the amount of calculation increases rapidly as the zone becomes larger. For this reason, an upper limit is set for the zone size, and the clipped image may be reduced so as not to exceed the upper limit.
  • the array Merge is released from the memory.
  • each tracking zone of the array Trace is integrated into a cluster to create an array Cluster.
  • the cluster parameters of acceptable lifetime and size are defined, and those satisfying the parameters are registered in the array Cluster.
  • the integration process is performed by the following first to fifth sub-steps.
  • the clusters are created as rectangular regions that each include a group of tracking zones that are present in the vicinity.
  • the maximum allowable interval between tracking zones that are grouped into a cluster is represented by a Clustering factor, for example 5 pixels.
  • a concatenation process of clusters Cluster and ClustPre, hereinafter referred to as current cluster and previous cluster
  • current cluster and previous cluster a concatenation process of clusters created in the current and previous processing cycles is performed to create the following array.
  • MinT0Cur indicates the previous cluster that intersects a certain current cluster Cluster [i] and has the smallest T0 (detection time) value.
  • CrQPre The number of current clusters that intersect with a previous cluster ClustPre [j].
  • CrQCur The number of previous clusters that intersect a certain current cluster Cluster [i].
  • data of the array Cluster is created from the above CrQCur, CrQPre, and MinT0Cur based on the following rules. If a certain previous cluster and a certain current cluster intersect each other, the previous cluster ID, T0, and detection position are inherited by the current cluster. If a current cluster intersects with one or more previous clusters, this current cluster is given a new ID, inherits the previous cluster T0 with the smallest value T0, and uses the current cluster as the detection position. Adopt position. If a current cluster does not intersect with any previous cluster, a new ID is assigned to this current cluster, the current time is assigned as T0, and the position of the current cluster is adopted as the detection position.
  • the trajectory, speed, etc. (used in a later step) of the cluster are calculated and stored in the array Cluster.
  • the array Cluster of the current cluster is overwritten and saved on the array ClustPre of the previous cluster.
  • step 123 those having a lifetime (difference between T0 and the current time, the unit being the number of frames) of each cluster in the array Cluster exceeding a predetermined value (for example, 40) are selected, and those below the predetermined value are rejected. (Do not pass to next processing).
  • a predetermined value for example, 40
  • step 123 those having a lifetime (difference between T0 and the current time, the unit being the number of frames) of each cluster in the array Cluster exceeding a predetermined value (for example, 40) are selected, and those below the predetermined value are rejected. (Do not pass to next processing).
  • a predetermined value for example, 40
  • step 124 based on the relative position between the detection area set in step 104 and each cluster, it is determined whether the cluster is inside or outside each detection area.
  • the detection area includes a polygon area (defined by screen coordinates or scene coordinates), a cylindrical area (defined by scene coordinates, and the lower end of the cylinder is the ground (XY plane)) a circular area (ground There is a vertical plane area (defined by scene coordinates, suitable for walls and windows).
  • coordinate values (screen coordinates or scene coordinates) at the center of the bottom of the cluster (a grounding part such as a human foot) are used.
  • a known algorithm is used for the inside / outside determination.
  • step 125 when the result of the analysis and collation of the attributes of the cluster set in the detection area (position, movement, invariant value of the foreground image of the cluster, etc.) satisfies the determination rule defined in the detection area. , Issue a predetermined alarm.
  • Use of invariant values (features) is not essential, but for example, HOG (Histograms of Oriented Gradients) can be used in addition to those shown in Non-Patent Documents 1 to 5. Examples of the decision rule include the following.
  • the value of the counter exceeds a threshold value (“the object is almost stopped during the threshold processing frame”), it is determined that the object is making a U-turn action. More preferably, a locus to which a smoothing filter, a moving average filter, a Kalman filter or the like is applied is used. The inversion of the velocity vector is determined with a time period of several seconds to several seconds. [Decision rule name: Fixed time zone] When an object is detected within the fixed time zone, the object time zone counter k3 is incremented. The object's time zone counter never decreases. If the counter is greater than the threshold k3 max , it is determined that the object has stayed for a long time near the vehicle and an alarm is sounded.
  • the time zone removal process is started. It takes some time for the background in the zone to update. During this period, no alarm is issued within this time zone.
  • the “adaptation period for return” is completed, the time zone is deleted.
  • the low speed movement counter k2 is increased.
  • the low speed movement counter is decreased. If the counter value exceeds a threshold value (“the object is almost stopped during the threshold processing frame”), it is determined that the object has stopped.
  • the intrusion alarm video processing apparatus of the second embodiment differs from the first embodiment in that TSV (Temporal-Spatio-Velocity) conversion is used to track an object.
  • TSV Temporal-Spatio-Velocity
  • the apparatus according to the first embodiment is suitable for detecting an intrusion of an object (car, boat, person) into a place where a person is not normally present. The goal is to detect objects that behave suspiciously.
  • the TSV transform is based on a three-dimensional Hough transform for a spatiotemporal image such as a continuous time series frame.
  • the linear Hough transform is used. That is, a straight line is detected from a pixel value space defined in two spatial dimensions (vertical and horizontal directions of the original image) and in three dimensions in time.
  • an image to be subjected to TSV conversion (referred to as an initial detection image)
  • the following series of adjacent frame difference images is used as an image to be subjected to TSV conversion.
  • S (x, y, n) indicates an initial detection image of the nth frame
  • I (x, y, n) is an input image of the nth frame
  • T is a time constant
  • Th is a threshold value (constant).
  • the contour detection image and the background difference image of the first embodiment may be used as the initial detection image.
  • a 1 ⁇ 3 AND operator is used for all pixels of S (x, y, n) to obtain S * (x, y, n).
  • TSV conversion is defined as follows.
  • an exponential attenuation filter is applied to S * (x, y, n) in advance so that the voting weight becomes smaller as the frame is older.
  • S * (x, y, n) is the binary image of the nth image frame
  • n p is the index of the current image frame
  • the Hough transform for LineA in space-time is expressed by the following equation.
  • (x, y) is the coordinate
  • (v x , v y ) is the velocity
  • (p x , p y ) is the reference position (for example, the position of the known object in the current frame)
  • LineA is the point (p x , p y ) and represents a straight line having a slope (v x , v y ).
  • the value of V np represents the probability of the straight line at the time point n p .
  • a cell is defined by discretizing p x , p y , v x , and v y , and formula (18) is aggregated in each cell, and binarized to true or false by an appropriate threshold value is V * np (p x, defined p y, v x, v y ) and.
  • the inclined cylinder type of the following motion model is introduced.
  • the center of the cylindrical coordinates is (a x n 2 + v x n + p x , a y n 2 + v y n + p y ), and the horizontal and vertical radii are R x and R y .
  • the cylindrical coordinate parameters are defined by the following formula:
  • ⁇ k 2 represents the variance on the k axis
  • ⁇ k, l represents the covariance of k and l
  • k bar represents the average value of k.
  • the density of the cylinder which means the validity of the cylinder, is defined by the following equation.
  • h is the height of the cylinder (that is, the observation time)
  • N is the number of true value TSV cells in the cylinder.
  • the initial detection based on the inter-frame difference described above is performed in parallel with the initial detection based on the background difference in steps 106 to 115 in the first embodiment. Also, steps 120 to 121 in the first embodiment are deleted, and the process proceeds from step 119 to step 122, and TSV conversion is performed in parallel therewith. In step 122, the locus information obtained by the TSV conversion is matched with the array “Merge” obtained in step 119, and the same processing as in the first embodiment is performed.
  • the intrusion alarm video processing apparatus is different from the first embodiment in that a skeleton process is performed instead of or in addition to the division / merging process in steps 118 to 119 of the first embodiment.
  • a skeleton process is performed instead of or in addition to the division / merging process in steps 118 to 119 of the first embodiment.
  • processing for obtaining shape information of the initial detection zone by thinning processing or skeleton processing for a binarized image processing for extracting main axes from the shape information, and extracting an object axis from the extracted axes Processing.
  • An image skel (A) obtained by skeleton processing an arbitrary image A is expressed by the following equation.
  • B is a structural element (preferably a circle)
  • er (A, kB) is an operation for erosion (scraping) k times A with B
  • open (A, B) is an operation for opening A with B.
  • image A a binary image cut out in the pre-detection zone (circumscribed rectangle) obtained in step 117 is used as the image A.
  • FIG. 5A to 5F are images showing an example of the skeleton process of this example.
  • 5A is an image obtained by cutting the current frame in a pre-detection zone including an object (person)
  • FIG. 5B is a difference image corresponding to FIG. 5A
  • FIG. 5C is a binarized image of FIG. 5B.
  • FIG. 5D is a thin line (filament) image obtained by the skeleton processing of FIG. 5C.
  • FIG. 5E shows the result of arranging (deleting) the short thin lines in FIG. 5D and approximating the remaining basic thin lines with two bands having a constant width, and shows the connection boundary of the bands. With this band, the basic axis of the person and their shadow can be determined, and their angle to the vertical direction can be determined.
  • step 120 If one angle of the band is almost 0 (close to vertical) and the other angle is within a predetermined range, it is determined that the other is a shadow.
  • An image in which only a person as shown in FIG. 5F is extracted is obtained by painting the shadow side binarized image delimited by the connection boundary with a false value. After the object mask is corrected, the processing after step 120 can be continued as in the first embodiment.
  • the intrusion alarm video processing apparatus performs a process of extracting a purer object from the pre-detection zone (hereinafter referred to as an OS process) instead of the division / merging process at steps 118 to 119 of the first embodiment.
  • the pre-detection zone is a rectangular area composed of horizontal or vertical sides that includes object candidates in a binarized image obtained by initial detection of an object, and is hereinafter referred to as DZ.
  • DZ region segmentation processing in DZ is to represent “pure” object pixels, ie, an object image without a background pixel as a recognized image.
  • an image matrix in DZ is an input for object region division processing of DZ, and a matrix of DZ object images without a background is an output of object region division processing.
  • the image matrix is generally a matrix of three-dimensional vectors of pixels composed of RGB components corresponding to the matrix of pixels in the DZ in the original image.
  • the OS processing in this example is a combination of the following three methods. 1) Difference analysis method between partial image detected in DZ and image without object (background image) 2) Extraction method of partial image by brightness, color, texture, etc. 3) Segmentation and shadow cutout method
  • FIG. 6 is a flowchart of the method 1), which is performed for each DZ.
  • step 201 it is determined whether the target DZ includes a background (more precisely, a background that can be separated in steps 202 to 206). If the background is not included, Steps 202 to 206 are meaningless, and the process proceeds to Step 207.
  • step 202 filtering of the current image and background image in DZ is performed.
  • This processing includes a median filter, so-called cell discretization processing (hereinafter referred to as CD (Celluar Dilation) processing) by image enlargement processing, and low-frequency filter (smoothing).
  • CD Celluar Dilation
  • the CD processing includes processing for converting each pixel of the original image into a square partial image including similar pixels including two to three or more pixels around the pixel. This process helps to make the DZ as small as possible.
  • Using CD processing in combination with median processing (executed before CD) and a low-frequency filter (executed after CD) can simultaneously stretch the image in DZ and restore a small, low-quality image to a certain degree. .
  • These processes are simultaneously executed for each of the current image frame and the background image (reference image) frame in each DZ.
  • a difference frame (DF, Difference Frame) in DZ is created and processed.
  • This is a process of creating a DF in each DZ from the filtered current image (including objects) and background image (not including objects) in step 202, and binary of DF using an appropriate pixel value threshold This is performed by two separate processes.
  • the DF creation process is a simple subtraction process for each element of the filter image matrix for the current image and the background image in the DZ.
  • the vector difference is determined by the calculation result of the vector size.
  • the same process as step 109 of the first embodiment is performed using a predetermined threshold value.
  • step 204 a connected area extraction process is performed.
  • the connected (collected) area extraction process is an area connected as one lump within each DZ, and is an area having a size (number of pixels) of a predetermined size or more, and is the same as step 112 in the first embodiment. is there.
  • step 205 an effective area is extracted from the plurality of connected areas extracted in step 203.
  • the maximum connected area (determined by the number of pixels) is selected, and this is defined as ArM.
  • the process of filling the hole that exists in ArM is performed. First, create a reverse image of only ArM. Next, a connected region that is not adjacent to the boundary of DZ is extracted from the created reverse image. Since the area is a hole, ArM is corrected by filling the area with “true”.
  • step 206 it is determined whether an effective area has been extracted in step 204. If it is possible, the process proceeds to step 212.
  • step 207 area division based on brightness (luminance) is performed. For example, Y values in the YUV format and V values of HUV are converted into discrete values, and all the pixels in the DZ are allocated to groups of these discrete values. The distributed pixels are made into connected regions by spatial filtering.
  • step 208 area division by color is performed as in step 205.
  • step 209 DZ is divided into blocks each having several pixels, a texture value for each block is calculated, and an area is formed by grouping using the texture value.
  • step 210 a plurality of effective area candidates are created according to a predetermined rule from the combination of area divisions of steps 205 to 207.
  • step 211 one effective area is extracted from a plurality of effective area candidates with a predetermined scale (for example, the size of the area).
  • step 212 shadow detection, area division, and shadow area removal are performed using a skeleton process similar to that of the third embodiment.
  • step 213 the corrected object mask is applied to the current image to obtain an image array of only objects.
  • the intrusion alarm video processing apparatus is an improvement of the setup process in step 104 of the first embodiment.
  • FIG. 9 shows the configuration of an image processing apparatus.
  • the monitoring device includes an imaging device 501, a video input circuit 502, an image processor 503, a program memory 504, a work memory 505, an external I / F circuit 506, a video output circuit 507, a data bus 508, An instruction device 509 and a display device 510 are provided.
  • FIG. 7 is a script for monitoring a violation of the traveling speed and traveling direction of a vehicle.
  • the script is permitted to proceed in a predetermined direction at a speed lower than a predetermined speed (in the case of an object to be monitored that is not a target for issuing an alarm). Otherwise, it is forbidden (objects to be monitored, objects to be monitored).
  • FIG. 8 shows an intermediate script in which the monitoring condition specified in the script format is lexically analyzed in the image processor 503.
  • FIG. 10 shows an example of a determination table.
  • the determination condition is composed of a combination of a plurality of conditions, it is determined whether the detected object matches the monitoring condition using a determination table as shown in FIG.
  • a determination table is created based on two pieces of information on the width and height of the detected object, and the detected object (for example, an object having a width of 3 m and a height of 1.5 m) is It indicates whether or not the condition 401 is met, that is, whether or not the detected object can be determined as [CAR].
  • 1 for example, symbol 603 is filled in the portion that matches this condition
  • -1 for example, symbol 602 is filled in the portion that does not match. If this is also performed for the [HEIGHT] axis, the determination table 601 shown in FIG. 10 is obtained.
  • the detected object has a width of 3 m and a height of 1.5 m, according to this determination table, it becomes 1 as indicated by symbol 603, and it can be determined that the condition is met. Even when the number of conditions increases, the number of axes in the determination table and the number of divisions of each axis need only be changed, and the number of data that can be stored in the work memory can be handled in practice.
  • whether or not the condition is met is expressed by a value such as -1 or 1, but a condition (Don't care) in which determination is not performed by any other value (for example, 0). May be shown.
  • monitoring conditions with simple sentences (scripts) with high readability, and moreover, it is possible to specify a plurality of conditions logically, thereby making it more complicated than before. It becomes possible to specify, and it becomes possible to specify easily and accurately. (If special monitoring conditions are configured and can be downloaded via the network, services that can be flexibly adapted to various monitoring environments can be realized, and a business model can be constructed.)
  • the monitoring area 1301 is information on the map of the area desired to be monitored on the scene coordinate system (second coordinate system parallel to the ground and similar to the map) Instructions are given using the pointing device (FIG. 12).
  • the height information of the area desired to be monitored is given by a numerical value or the like. Since the height information corresponds to the z-axis coordinate of the scene coordinate system (when the xy plane is 0 height), it can be given as an actual value (2 meters, 3 feet, etc.) independent of the apparent height. is there.
  • the instruction of the monitoring area 1301 may be directly performed on a camera coordinate system such as an input image (FIG.
  • the height of the area desired to be monitored may be preset in advance.
  • the monitoring area may be indicated by a circle or a line in addition to a polygon, and the processing area can be specified using various figures such as a cylindrical shape, a spherical shape, and a vertical plane.
  • FIG. 14 shows an imaging example of the target object 601 to be monitored. From FIG. 14, the height Height of the target object can be calculated geometrically by the following equation.
  • D_head (Height ⁇ D_legs) / (H-Height) + D_legs
  • the coordinates (x_head, y_head) of the upper side of the monitoring area can be calculated as follows.
  • x_head D_head ⁇ cos ( ⁇ x)
  • y_head -D_head ⁇ sin ( ⁇ x)
  • camera coordinates (x′_head, y′_head) can also be calculated by coordinate conversion, and the apparent height on the camera coordinates can be easily expressed.
  • a three-dimensional processing area can be automatically set in consideration of the height of the monitoring area, so simple area setting regardless of the apparent size Can be realized.
  • setting complexity is reduced.
  • the coordinates on the map can be used for area setting as they are, and the efficient area combined with the prior application such as sharing the monitoring area between multiple monitoring devices Configuration and intruder monitoring are possible.
  • Imaging device 502 Video input circuit 503 Image processor 504 Program memory 505 Work memory 506 External I / F circuit 507 Video output circuit 508 Data bus 509 Instruction device 510 Display device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)

Abstract

 自然現象や人工的な外乱を含む映像から精度良く物体検出する。背景差分法を基礎とし、入力画像の各画素値の変動に係数を乗じて得たしきい値画像で二値化を行う。変動は、画素毎に更新係数に基づき時間平均するが、更新係数は、その画素が物体に属するか否かによって切替える。その後、二値化画像から初期検出のゾーンを形成して、空間的なフィルタ処理を行う。空間的なフィルタ処理は、スケルトン解析処理、オブジェクトマスク処理、モフォロジ演算処理、セクション解析処理の少なくとも1つを含む。追跡ゾーンは、例えばHough変換等の線成分抽出手法によって、その時間的な位置変化が追跡され、カルマンフィルタ等により雑音が低減される。追跡ゾーンのあるものは除かれ、残ったゾーンはクラスタに統合され、更に、実空間での寸法に基づきクラスタの選別が行われる。

Description

侵入警報ビデオ処理装置
 本発明は、侵入警報ビデオ処理装置に関し、特に単眼カメラで撮影された映像を処理することで侵入者を検知する侵入警報ビデオ処理装置に関する。
 従来の侵入者警報システムは、頻繁な誤報や、汎用性の無さ、即ち監視場所に応じた繊細で労力のかかる設定調整を要するという点で、満足なものではなかった。領域分割,骨格抽出,認識,検出などの画像処理の古典的タスクなどを実現する必要がある場合、一般的な侵入者警報システムの開発の難しさは、各種起源によるさまざまなノイズの存在よるところが大きいのは明らかである。 
 ほとんどの監視用ビデオカメラでは、安価なCMOSセンサが使われている。しかし、これらのセンサの中でもっとも高性能なものでさえ、撮像データには何らかのハードウェアノイズが混入する。輝度レベルとセンサノイズレベルとの間には、逆相関の関係が成り立つ。このノイズによって、カメラと撮像する環境が動いていない場合でさえ、同じ画像を2枚撮像することは不可能となる。実際に、画素の輝度値あるいはRGB値は、確率変数として観測される。したがって、確率変数として観測される画素の値は、適切な方法によってモデル化されるべきである。センサのノイズは、白色雑音として適切にモデル化できることが実験的に照明されている。
 本発明の基礎となる従来技術として、Eremin S.N.による移動車両検出方法が知られる(特許文献1参照。)。その方法は、フレームの取得、フレーム間の差分の計算、閾値による2値化、モルフォロジカル演算、Sobel演算子の計算、初期フレームの保存、特別な式に基づく背景の更新、フレームと背景との間の差分の検出、イメージのヒストグラムの算出、最大輝度の検出、存在する物体との比較による検証、混ざった物体の分離、車両の位置およびそのフレーム手段中でその車両が位置すると考えられる座標を表現する矩形の生成を含んでいる。
 また、本発明に関連のある従来技術として、Hu不変モーメントを用いた画像認識が知られる(非特許文献1参照)。
 また、フーリエメリン変換やガボールフィルタをスケール不変値として用い、それらを辞書と比較して物体認識するものが知られる(非特許文献2及び3参照)。
 また、ハリスのコーナー検出が知られる(非特許文献4参照)。このアプローチでは、検出したコーナーを特徴量として用いる。どのような物体も、ユニークなコーナー配置のセットを有する。認識処理は、標準画像における物体の持つコーナーの位置関係と比較することで行われる。
 また、画像にガウスフィルタを多段階に適用し、それらの差分画像群(ラプラシアンピラミッド)を作成するもの(特許文献2参照)や、その画像群の極大値からキーポイント等のスケール不変特徴量を抽出するSIFT(Scale-invariant feature transform)(非特許文献5参照)が知られる。
露国特許第2262661号明細書 米国特許第6141459号明細書
Ming-Kuei HU,"Visual Pattern Recognition by Moment Invariants",IRE Transactions on information theory,1962年, p.179-187 Park, H.J., Yang H.S,"Invariant object detection based on evidence accumulation and Gabor features",Pattern recognition letters 22,p.869-882 Kyrki, V., Kamarainen J.K,"Simple Gabor feature space for invariant object recognition",Pattern recognition letters 25, No.3,2004年,p.311-318 C. Harris and M. Stephens,"A combined corner and edge detector",Proc. Alvey Vision Conf.,Univ. Manchester,1988年,p.147-151 David G. Lowe,"Distinctive image features from scale-invariant keypoints", Journal of Computer Vision, 60, 2,2004年,p.91-110
 上記個々の方法の欠点は、影を物体(侵入者、車輌等)として誤って検出すること、及び物体の実際のサイズを判断できないことである。その他の欠点は、視界に持ってこられ置き去られた物体(或いはその位置)を誤って検出した場合に、適切なピクセルにおける背景モデルの更新が完全に停止してしまい、結果的に、静止物体を背景へ自動的に統合できなくなることである。そのため、照明や木の葉、水面の動き、降水(雨や雪など)の持続的もしくは一時的な変化によって生じる外乱が存在する状態下では、誤報や検出漏れが生じるという問題があった。また、フリッカ等の周期的な背景の変動や、場所により照度の大きく異なるようなエリア内での追跡に対しても、十分な配慮がされていなかった。
 本発明の目的は、誤った応答の数を減らし、動く物体の境界の検出精度を向上させることで、複雑な気象条件および変化する背景のもとで、テレビ監視セキュリティシステムの品質を向上させ、さらに機能性や操作性を拡張することである。
 本発明の侵入警報ビデオ処理装置は、パラメトリックなモデルに基づいた背景差分法を用いる。即ち、フレーム画像の入力の都度、現在のフレームの入力画像と背景画像の差分の絶対値を計算し、しきい値画像による二値化を行う。しきい値画像には、入力画像の各画素値の変動σ2に所定の係数k1を乗じたものを使う。変動σ2は、画素毎に更新係数ρに基づき時間平均されるが、更新係数ρは、その画素が背景に属するか、物体に属するかによって、異なる値に選択される。
 その後、二値化画像から初期検出のゾーンを形成して、空間的なフィルタ処理を行う。空間的なフィルタ処理は、スケルトン解析処理、オブジェクトマスク処理、モフォロジー演算処理、セクション解析処理の少なくとも1つを含み、スケルトン処理は、二値化画像に対する細線化処理ないしは骨格処理によって初期検出ゾーンの形状情報を得る処理と、形状情報から主要な軸を抽出する処理と、抽出された軸から物体の軸を抽出する処理とを含む。
 オブジェクトマスク処理は、二値化画像の初期検出ゾーンの境界に隣接していない境界領域を抽出する処理を含む。モフォロジー演算処理は、二値化画像の白画素に隣接する画素を白画素とする膨張処理と、二値化画像の黒画素に隣接する画素を黒画素とする収縮処理とを含む。セクション解析処理は、初期検出ゾーンを断片に分割する処理と、各断片に対する二値化画素の白画素の割合を解析する処理と、白画素の割合に基づいて断片を選別する処理とを含む。その後、物体の独立部位を表す追跡ゾーンが形成される。
 追跡ゾーンは、その存在位置や大きさ、重心、画像の輪郭特徴、モーメントなどの特徴情報に基づく追跡方法、あるいは、各時刻で得られた二値化画像を時間的に配置した二値化時空間データからHough変換などに代表される線成分抽出手法に基づく追跡方法の少なくとも1つの方法によって、注目する追跡ゾーンの時間的な位置変化を追跡する。追跡された結果は、平滑化フィルタ、移動平均フィルタ、カルマンフィルタの少なくとも1つのフィルタが施され算出した位置変化から雑音に起因する成分が削減される。
 追跡ゾーンのあるものは除かれ、残ったゾーンはクラスタに統合され、その上、クラスタの選別が行われる。クラスタ選別は、クラスタのサイズ、クラスタの位置座標と所定形状を持つ領域との変位やあるクラスタから所定の距離以下になる領域との変位などに基づいて判定される。この判定は、座標変換により実空間での寸法に変換して行う。この変換は、カメラの撮像素子の条件、取り付け位置のカメラパラメータを用いて算出する。最終的に、選別され残ったクラスタを、検出すべき物体であると判断する。
 以上のような侵入警報ビデオ処理装置のほか、構成要素の一部を他の公知技術で置換したものも本発明に含まれうる。
 本発明の侵入警報ビデオ処理装置は、気象条件や非能動(非生物)的な動き、人工的な画像の変動など、定常的、一時的、周期的な各種の外乱があっても、映像から精度良く監視対象物体を検知することができる。
侵入警報ビデオ処理装置のメイン処理ループ(実施例1) シーン座標、カメラ座標、スクリーン座標を示す図(実施例1) 分割処理(S118)の一例を示す画像(実施例1) 併合処理(S119)の一例を示す画像(実施例1) スケルトン処理の一例を示す画像(実施例3) スケルトン処理の一例を示す画像(実施例3) スケルトン処理の一例を示す画像(実施例3) スケルトン処理の一例を示す画像(実施例3) スケルトン処理の一例を示す画像(実施例3) スケルトン処理の一例を示す画像(実施例3) オブジェクト領域分割(OS)処理のフローチャート(実施例4) 監視条件の一例(実施例5) 監視条件の一例(実施例5) 機器構成の一例(実施例5) 判定テーブルの一例(実施例5) カメラ座標系での監視領域の設定例(実施例6) シーン座標系での監視領域の設定例(実施例6) 監視領域の高さを考慮した処理領域の作成例(実施例6) 監視すべき対象物体の撮像例(実施例6)
<ビデオ監視システム機能の一般的なロジック>
 主要目標の実現のためには、まず始めに、本発明の実施形態に係る侵入警報ビデオ処理装置の動作の一般的なロジックを決定する必要がある。 
 従来の問題を解決するために、観測された環境変化の評価と予測のレベルにおけるデータ解析が必要である。このような解析結果に応じて、観測された状況は、警報すべきもの(脅威となるもの)として評価される。(予測も考慮に入れた)状況の危険度に依存して、1つあるいはその他のいずれかのビデオ監視システムの応答が形成されるであろう。このシステムの特徴は、システムの応答を人間のオペレータと同じものにすることである。
 その結果、ビデオ監視システムの処理ロジックは、物品に向けられた驚異の検出,予測,除去(スクリーニング)のロジックそのものである。処理ロジックの開発は、警戒と危険の状況の形式化が元になっている。現実の条件下では、状況の形式化は、統合解析と現在の状況をクラス(「問題」,「危険」,「非常に危険」)のひとつに分類することで、誤報の数を減らすことが可能である。処理ロジックを、監視業務を経験した人の判断に沿って開発することは、的を射たやり方である。環境変化が起こる複雑な複数シーンを見ている間、彼は、保護している物品への直接の脅威となる可能性を持つオブジェクトに注意を向け、疑わしいオブジェクトの速度や方向に注意しながら状況の変化を予測しようとする。
 自然界のノイズが存在する場面における複雑な背景から移動オブジェクト(または置き去られたオブジェクト)を識別することは、現在の状況評価の前に行うべきである。
 そして、本システムの複合機能は、以下の4つの主なステージに分けることができる:
 1) 調整
 2) 初期の検出(予検出)
 3) 検出オブジェクトを考慮した上での状況の解析
 4) 警報とメタデータの解析。
 「調整」は、以下の項目を含む:
 1) アルゴリズムの調整(ビデオデータ処理のパラメータ設定)
 2) カメラ設定調整(カメラ設定パラメータの設定・調節)
 3) ゾーン調整(監視シーンに応じた異なる“注目ゾーン”の選択と指定)。
 「初期の検出」は、“背景”と現在のビデオフレームとの違いの評価を意味する。このステージの主な目的は、選択された基準(しきい値)によってすべての違いを可能な限り検出することである。検出の質(背景との違いの検出)は、初期検出ステージによって条件付けされる。ここで、我々はたくさんの誤検出を得るが、その量は次のステージで減少するであろう。初期検出のアルゴリズムは、画素の輝度値(RGBカラー3チャネルで、それぞれ0~255の値を持つ)に対する処理である。
 「状況の解析」は、誤検出の量を減らすために必要である。状況解析の第一ステップは、発報の必要のない注目しなくても良いオブジェクトを無視することである。本システムにおけるこのステップの実装には、以下の項目が含まれる:
 1) 初期検出オブジェクトのサイズの評価
 2) 初期検出オブジェクトの形状の評価
 3) 初期検出オブジェクトの“背景との照合”値の評価(1画素の輝度値の処理ではなく、検出オブジェクトに対応する画素全体の特性についての処理を行う)
 4) 初期検出オブジェクトのライフタイムの評価
 5) 初期検出オブジェクトの速度の評価。
 オブジェクト行動のさらなる評価と,状況の認識,対応する反応の生成のため、カメラ撮像範囲における以下の形状のエリアを用いる:
 1) 多角形エリア
 2) 円柱エリア
 3) 垂直平面エリア。
各ゾーンには、それぞれ個別の危険度を設定できる。
 はじめに、本実施例の説明で用いられている主な用語を定義する。
 現在フレーム(画像):現処理サイクルにおいて、映像入力から得た1コマの画像。
 背景フレーム(画像):画像フレーム内の各画素の輝度値を逐次平均(平滑)化した画像。これらの算出は、低周波時間フィルタ106a(後述)によって行われる。
 標準偏差フレーム:画像フレーム内の各画素の輝度値分散を逐次平均(平滑)化した画像。これらの算出は、低周波時間フィルタ106b(後述)によって行われる。
 差分フレーム(画像):現在フレームと背景フレームとの画像差分の結果画像。
 二値化フレーム(画像):差分画像フレームを二値化した結果画像で、差分フレームと標準偏差フレームとを画素毎に比較して得る。
 前景画素:現在フレーム内の画素であって、二値画像フレームにおいて非ゼロゾーン(0以上の画素値を持つゾーン)に含まれる画素。
 背景画素:現在フレーム内の画素であって、二値画像フレームにおいてゼロゾーン(0の画素値を持つゾーン)に含まれる画素。
 なお、フレームは1画像を構成する単位であるが、画像と同義で用いる場合がある。
 図1は、実施例1のメイン処理ループを示している。初期検出のフェーズは、フレーム画像の入力(ステップ101)から、二値化処理(ステップ108)までを対象としている。
 ステップ101では、カメラで撮影されたばかりの入力フレームが入力される。ステップ101は、タイマーイベントによってイベントハンドらを介して起動され、それによってメイン処理ループが開始する。入力画像は、例えばYUV4:2:2フォーマットである。
 ステップ102では、入力画像の解像度及び/又は色数が、リアルタイム処理に適したフォーマットへ削減される。本実施例では、後述する幾つかの関数がRBGか1チャネルグレイスケールのみサポートするため、1ピクセルあたり1byteのグレイスケース画像に変換される。YUV、HSB(HSV)あるいはその他のフォーマットも適切かもしれない。解像度は、複数のフォーマットに対応しており、例えば360*240ピクセルへ削減される。本ステップ102では、解像度及び/又は色数の削減の前或いは後に、低周波空間フィルタにより画像を適切にぼやけさせる処理も行う。例えば、ガウスフィルタはx方向とy方向の演算を別個にできるため、高速処理に向いている。或いは3×3画素内でのメディアンを採用するメディアンフィルタでもよい。最後に、画像内の所定の領域での輝度(平均)を一定にするように利得を制御する。
 ステップ103では、もしそれがメイン処理ループの初期の動作であった場合、ループをセットアップ(設定)プロセス(ステップ104)に分岐させる。ステップ104では、後述する各種の定数(パラメータ)を設定するほか、どのような形状及び位置の検知エリアで、どのような大きさや速度や軌跡の物体を検出したときに、どのような警報を出すかの設定を行う。これらの設定の一部は、スクリーン座標ではなく、実空間の座標(シーン座標系)の値で与えられる。詳細はステップ124、125で述べる。
 ステップ105では、その用意された(削減された)フレームを、1フレーム遅延画像として用いるために保存される。
 ステップ106では、用意された現在の画像と1フレーム遅延画像とを用いて、2種類の低域通過フィルタが行われる。本実施例では、背景画像は、未知の平均および標準偏差を有する確率過程としてモデル化される。時間領域低域通過フィルタは、それらのモーメントを評価(推定)するために用いられる。
 低域通過フィルタ106aは、各画素の平均値の評価を定常的に更新する。移動平均は、(下式のように)新しいフレームが入力されるたびに算出される。
Figure JPOXMLDOC01-appb-M000001
ここで、Iiは現在の画像、ρはフィルタ定数(0<ρ<1)、iはフレームのインデックスを示す。低域通過フィルタ1の結果は、背景フレームと呼ばれる。
 フィルタ定数は、以下の意味を持つ。今、新しい物体を背景に取り込むのに必要な画像フレームの数を考える。もし、この取り込みが早過ぎる場合、我々は、あまり早く移動しない(検出すべき)オブジェクトを見失ってしまうかも知れない。たとえば、ρ=1の場合、現在の(新しい)画像フレームは直ちに新しい背景画像フレームになり、ρ=0の場合、最初の画像フレームが背景画像フレームとして残り、背景画像フレームは更新されなくなる。実際は、我々は、(逐次的に)緩やかな背景の更新と、輝度値の急激な変化の平滑化の処理を実現したい。まず最初に、Tを背景画像フレームの完全な更新の望ましい周期(間隔)として定義する。Tを(秒単位ではなく)処理フレーム数で定義すると、ρはρ=5/Tで得られる。例えば、もし背景の完全な更新を1000処理フレーム以内に実行したい場合、フィルタ定数をρ=0.005に設定する。
 低周波時間フィルタ106bは、同様の方法を用いて各画素の推定標準偏差σを逐次算出する。
Figure JPOXMLDOC01-appb-M000002
なお、背景フレームや現在フレームは、1フレーム前(インデックスがi-1)のものでもよい。後述するように、ρはゾーンの種類や各種条件(例えば輝度)に応じて画素毎にスイッチャブルである。ρは低周波時間フィルタ106aと106bで異ならせても良く、その場合それぞれρa、ρbとする。
 推定標準偏差σは、平方根の計算を避けるため、実際にはσ2(つまり分散)としてメモリ上に保存され、二値化処理まで自乗値のまま扱われる。
 ステップ107では、低周波時間フィルタ106bが算出した標準偏差σ(又は分散)の時間上での極大値σ'を、画素毎に算出して保持する。極大値σ'は、過去所定数のフレームから逐次探しても良いが、例えば以下の式で求めることもできる。
Figure JPOXMLDOC01-appb-M000003
 ステップ108では、その用意された現在の画像及び背景画像を用いて、差分フレームを生成する。本実施例の変化検出アルゴリズムは、縮小した入力画像Iiと低周波時間フィルタ106aによって生成された背景画像μi(あるいはμi-1)との絶対値画像フレーム差分に基づいている。
 ステップ109では、その差分フレームが、適応しきい値k1σによって2値化される。標準偏差は、2値化しきい値の適応的部分としてここで用いられる。
Figure JPOXMLDOC01-appb-M000004
ここで、kは、設定ステージ(ステップ104)で選択される定数値である。推奨値は3ないし4で、ノイズの質に依存して決定される。二値化処理の結果は、二値画像で得られ、“0”(False)は何も検出されなかったことを意味し、“255”(True)は検出された画素を表す。もし、本ステップまでカラー画像として扱っていた場合、ここでカラーチャネルの統合も行う。統合は、2値化前に重み付き加算しても良く、2値化後に論理和(OR)で合成してもよい。このステップ109で得られる2値化画像(またはその2値化画像中の真値の領域)は、初期オブジェクトマスクとも呼ばれる。
 ステップ110から123までが「状況の解析」のフェーズである。
 ステップ110では、初期オブジェクトマスクにモフォロジ演算(Morphological Operations)を施す。モフォロジ演算には、画像を所定範囲でずらしながら論理和を求めるdilation(ずらし重ね)と、論理積を求めるerosion(掻き取り)と、dilation後にerosionをするopening処理と、erosion後にdilationをするclosing処理の、4つの基本操作がある。Openingには、近接する“255”(True)の画素を繋ぎ合わせる効果があり、closingには、点状の“255”(True)画素を除去する効果があり、本例ではどちらかを用いる。
 初期オブジェクトマスクにおいて、真値の連結領域の中に偽値の穴が生じる場合が、モフォロジ演算では十分に取り除けない。そのため、周りを真値に囲まれた偽値領域を検出して、その領域を真値で埋める穴埋め処理を行ってもよい。
 ステップ111では、間違ったトレース(追跡)の除去と、その(原因となった)背景画像(の2値化画素)の除去を行う。即ち、前回の処理サイクルのステップ120や122等において、間違って検出された追跡ゾーンが見つかっていた場合、初期オブジェクトマスクにおけるその追跡ゾーン内の画素を無効にする(255以外の値にする)と共に、現在フレームにおけるその追跡ゾーン内を、背景画像のそれで置き換えて修正する。本ステップにより、オブジェクトマスクが完成する。なおオリジナルの現在フレームも別途保存しておく。
 ステップ112では、予検出ゾーンのラベリングとそれらの属性の算出が行われる。ラベリングは、画像内のすべての連結領域を見つけて印(ラベル)を付ける手法である。このステージでは、二値化画像内において真値を持つ画素からなる連結領域に対して独自の番号を付与し、連結領域はその後、外接矩形座標(上下左右の4つ)と面積(連結領域内の面積、或いは連結画素数)を持った予検出ゾーン“DetZones”(Dz0、Dz1、…)として扱われる。
 ステップ113では、もし輝度がなにかの出来事(雲や街灯の点灯など)によって急激に変化したときに、メイン処理ループを高速適応モード(ステップ114)に分岐させる。本例では、画像フレーム全体の検出ゾーンの面積総和、または“高速適応ゾーン”内の検出ゾーンの面積総和があらかじめ設定したしきい値よりも大きくなったときに、メイン処理ループを分岐させる。本例では、高速適応モードは、数期間維持される。その期間(時間ではなくフレーム数で規定)もまた予め設定される。
 ステップ114では、高速適応期間中であれば、フィルタ定数に、高速適応処理の継続時間の終了までに背景画像を刷新できるような値を割り当てる。たとえば、高速適応処理に50処理フレームの継続時間を設定したとすると、フィルタ定数ρは0.1に等しくなる。そのようにして、高速適応処理は、背景の急激な変化に起因する誤検出を避けることが可能となる。高速適応処理の間の疑わしいオブジェクトの検出(ステップ116以降)は、実行されない。
 ステップ115では、検出ゾーン用のフィルタ定数を適応化する。二値化画像は、疑わしいオブジェクトが検出され得る画素(二値画像中で255の値を持ち、前景画素と呼ばれる)と、背景のみが検出される画素(二値画像中で0の値を持つ)とを分離するために使用される。前景画素に対する低周波時間フィルタ106a,bのフィルタ定数は、(誤って検出された)前景画素が背景になる速度が、画像フレームの他の画素に比べて10倍遅くなるように、変更される。即ち、前述のρの説明をρ1に適用し、ρを以下のように定義し直す。
Figure JPOXMLDOC01-appb-M000005
本例では、k=0.1である。これによって、システムは、この局所的な適応処理がない場合に比べて長い間、背景画像に実際のオブジェクトが映り込まないようにできる。高速適応処理と比べて、この処理は、停止あるいは低速移動しているオブジェクトの見逃しを回避することができる。
 ステップ116では、予検出ゾーン(解析ゾーン)の幾何学的属性が計算される。幾何学的属性には、シーン座標系で表現された検出ゾーンの位置と大きさ(幅と高さ)が含まれる。以下の座標系を考える(図2)。
 X,Y,Z:シーン座標系(ワールド座標系)。X-Y平面は床面(地面)に平行で、そのレベルは例えば0.5~0.7m。
 X',Y',Z':カメラ座標系。X',Y'軸は対象とする焦点面に平行で、X'はX軸に平行であり、Z'はカメラの光軸に等しい。
 Xs,Ys:画像(スクリーン)座標。X'-Y'平面に相似であるが、単位はメートルではなく、ピクセル。
 カメラの高さはh、カメラ光軸のX-Y平面に対する傾斜はtで表す。X,Y,Z座標(Z=0)で表されているシーン中に位置するオブジェクトPは、以下によってカメラ座標系に変換される。
Figure JPOXMLDOC01-appb-M000006
投影光学式によって、オブジェクトのスクリーン座標は、以下のようになる。
Figure JPOXMLDOC01-appb-M000007
ここで、fiは焦点距離を、pX [m-1] と pY [m-1] はそれぞれXSとYS方向の画素密度を表し、f = fi・px = fi・pYと定義する。これらのカメラ設置パラメータは、ステップ104において与えられる。変数Z'の置換によって、
Figure JPOXMLDOC01-appb-M000008
が得られ、変換式は下記のようになる。
Figure JPOXMLDOC01-appb-M000009
カメラが図2と異なる別の方法で設置されている可能性があるため、Z軸およびZ'軸に対してカメラの回転角を考慮する必要があるかも知れない。この場合、新しい座標は以下の式で表される:
Figure JPOXMLDOC01-appb-M000010
ここで、aは、Z軸に対する回転角である。スクリーン座標についても同様に
Figure JPOXMLDOC01-appb-M000011
ここで、a'は、Z軸に対する回転角である。
 ステップ117では、所定のサイズを満たさない予検出ゾーン(解析ゾーン)を(後続の処理に渡されないように)遮断する。検出ゾーン毎にそのシーン座標系(X,Y,Z)における幾何学的属性(例えば、実空間での幅及び高さ)を所定の値(例えば、それぞれの上限、下限値を定義するwmin=0.1, wmax=2, hmin=0.1, hmax=3)と比較され、それを満たすゾーンだけがろ過されて配列“SelZone”に保存される。また、現在フレームにおける、満たさなかった予検出ゾーンの画素は、背景フレームのそれで上書きされる。
 ステップ118では、ステップ117を通過した予検出ゾーンの分割が行われる。分割処理は、“検出領域の穴埋め”レベルの解析に必要である。濾された各ゾーンの新たな境界を計算するために、濾されたゾーン(注目する矩形領域)の全てが短冊状に等幅に分割され、その分割ゾーンの上辺及び下辺はオブジェクトマスクに基づいて再定義され、分割の幅はシーン座標系におけるメートル値として予め定められる。実際には、整数個でかつ等幅に分割されるよう、幅は微調整される。そして、分割ゾーンは、Sz0、Sz1、…として保存される。
 図3は、その分割の結果を示している。太い白線で描かれた矩形とその白い矩形内の縦長の矩形は、分割の結果と再計算された境界をそれぞれ表している。分割処理によって、例えば分割の幅を0.2[m]に設定することで、実際の車の輪郭と、実際の影の輪郭が得られることが分かる。
 ステップ119では、細長いゾーン(解析ゾーン)の充満率を用いて、分割された領域の併合が行われる。併合は、下記の第1から第3のサブステップを、未参照の分割ゾーンがなくなるまで繰り返すことで達成される。
 第1に、参照ゾーンの探索が行われる。参照ゾーンとは、前述の分割ゾーンの1つであって、下記のようなものである。即ち、1) 画像フレームの底辺中央に最も近く、2) いずれの併合済みグループにも含まれておらず、3) 以前に試行ゾーンとして用いられていない。
 第2に、見つかった参照ゾーンの属性から、併合候補となる細長いゾーンを算出する。細長いゾーンは、シーン座標系における所定の高さ(例えば、人に対して0.8m)より大きな高さを持つ矩形である。そのメートル単位の高さは、比例関係に基づいて、濾されたゾーン(分割前のゾーン)の高さから計算される。
 第3に、Scross/Stotal>“Merge region overlapping ratio”が満たされたならば、細長いゾーンは併合済みグループに組み入れられる。ここで、Scrossは、併合済みゾーン(併合済みグループの外接矩形)と、細長いゾーンとの交差領域(共通領域)の面積であり、Stotalは細長いゾーン自体の面積である。交差領域が0の場合、参照ゾーン自体を併合済みゾーンとみなして上記重複率を計算し、満たしたときは、細長いゾーンをその最初のメンバーとする新規な併合済みグループを作成する。
 最終的に、十分満たされた併合済みグループが、併合ゾーンとして配列“Merge”に登録される。その条件は、Ssum/Smerge>“Merge region filling ratio”であり、Ssumは、併合済みグループに含まれる細長いゾーンの個々の面積の和であり、Smergeは併合済みゾーンの面積(外接矩形)である。“Merge region filling ratio”は例えば60%である。十分に満たされなかった併合済みグループは、配列“Merge”に登録されない。
 図4は、併合の結果を示している。細い線の矩形は、一体に併合された分割ゾーンを表している。検出物体の高い部分だけが、併合処理を通過することが理解できる。
 ステップ120では、前回フレームの中から、配列Mergeに登録されたゾーン(追跡ゾーン)と類似する場所およびその一致度を算出し、配列Traceを更新する。配列Traceには前回までの追跡ゾーンが登録されており、この処理は、これらのゾーンが一連の処理フレームにおいて安定に存在しているか否かをチェックして、誤検出を減らすことを目的とする。このステップでは、配列Mergeに格納された各追跡ゾーンに対し、前回フレーム(もしくは前回の差分フレーム)から追跡ゾーンを切り出し、現在フレームからは追跡ゾーンを所定量拡張した探索範囲分の画像を切り出し、その探索範囲内で下記の計算を行い最大一致度を検索する。
Figure JPOXMLDOC01-appb-M000012
ただし、aijは、パターンの輝度行列(部分画像)の要素、bijは、探索範囲の輝度行列(部分画像)の要素を表す。もし各要素が複数のカラーチャネルを持つ場合、カラーチャネル毎の差分の絶対値の和が用いられる。
 ある追跡ゾーンにおいて、最大一致度が値“Trace zone correlation coef”より大きい場合、探索範囲内の算出された追跡ゾーンの位置は、追跡ゾーンの新しい位置として配列Traceを更新する。もし、フレーム数iMissedFrameCntの間、最大一致度が値“Trace zone correlation coef”より小さい場合、その追跡ゾーンは、配列Trace(および配列Merge)から削除される。
 ステップ121では、配列Traceの各追跡ゾーンに、背景と類似する追跡ゾーンが追加されないようにする。即ち、新しいゾーンは、背景との照合値が“Trace zone correlation to backgr”より小さい場合に限り配列Traceに追加されることになる。また、新しいゾーンと既存のゾーンとの重なりが値iTRZoneOvrCoefより大きい場合も、この新しいゾーンは配列Traceに追加しない。このステップにおける照合は、式(11)(ステップ117)の一致度(collation)と同様でも良く、或いは別の特徴量を用いてもよい。
 ステップ120、121の処理は、ゾーンが大きくなるに従い、計算量が急激に増加する。そのため、ゾーンサイズに上限を設け、切り出した画像をこの上限を越えないように縮小するとよい。ステップ121の後、配列Mergeはメモリ上から開放される。
 ステップ122では、配列Traceの各追跡ゾーンをクラスタに統合し、配列Clusterを作成する。クラスタには、許容できるライフタイムとサイズのパラメータが定義され、それを満たすものが配列Clusterに登録される。統合処理は、下記の第1から第5のサブステップにより行う。
 第1に、クラスタは、それぞれ近傍に存在する追跡ゾーンのグループを包含する矩形領域として、作成される。クラスタにまとめられる追跡ゾーン同士の最大許容間隔は、Clustering factorで表わされ、例えば5ピクセルである。
 第2に、現在と前回の処理サイクルで作成されたクラスタ(Cluster及びClustPre、以降、現クラスタ,前クラスタと呼ぶ)の連結処理を行い、以下の配列を作成する。
  MinT0Cur:ある現クラスタCluster[i]と交差し、最小のT0(検出時刻)値を持つ、前クラスタを示す。
  CrQPre:ある前クラスタClustPre[j]と交差する、現クラスタの数。
  CrQCur:ある現クラスタCluster[i]と交差する、前クラスタの数。
 第3に、上記CrQCur,CrQPre,MinT0Curから、下記のルールに基づき、配列Clusterのデータを作成する。
  ・もし、ある前クラスタとある現クラスタが互いに唯一交差する場合、前クラスタのIDとT0および検出位置を現クラスタに継承する。
  ・もし、ある現クラスタが一つ以上の前クラスタと交差する場合、この現クラスタには、新しいIDを付与し、もっとも小さな値T0を持つ前クラスタのT0を継承し、検出位置として現クラスタの位置を採用する。
  ・もし、ある現クラスタがいかなる前クラスタとも交差しない場合、この現クラスタには、新しいIDを付与し、T0として現在の時刻を付与し、検出位置として現クラスタの位置を採用する。
 第4に、クラスタの軌跡,速度など(後のステップで用いる)を算出し、配列Clusterに格納する。
 第5に、現クラスタの配列Clusterを、前クラスタの配列ClustPreに上書き保存する。
 ステップ123では、配列Clusterの各クラスタのライフタイム(T0と現在時刻の差であって、単位はフレーム数)が所定値(例えば40)を超えるものを選別し、所定値以下のものは却下する(次の処理に渡さない)。
 ステップ123では、配列Clusterの各クラスタのライフタイム(T0と現在時刻の差であって、単位はフレーム数)が所定値(例えば40)を超えるものを選別し、所定値以下のものは却下する(次の処理に渡さない)。
 ステップ124では、ステップ104で設定された検知エリアと、各クラスタとの相対位置基づいて、クラスタが各検知エリアの内か外かの判定を行う。検知エリアには、多角形エリア(スクリーン座標またはシーン座標で定義される)、円柱エリア(シーン座標で定義される。円柱の下端は地面(X-Y平面)とする。)円状エリア(地面(X-Y平面)上にシーン座標で定義される。)、垂直平面エリア(シーン座標で定義される。壁や窓に好適。)がある。各クラスタの位置としては、クラスタの底辺中央(人の足などの接地部分)における、座標値(スクリーン座標またはシーン座標)を用いる。内外判定には公知のアルゴリズムを用いる。
 ステップ125では、検知エリア内とされたクラスタの属性(位置や動きのほか、クラスタ前景画像の不変値など)の解析及び照合の結果が、その検知エリアに定義された決定ルールを満たした場合に、所定の警報を発する。不変値(特徴量)の使用は必須ではないが、例えば非特許文献1~5に示されたもののほか、HOG(Histograms of Oriented Gradients)なども使用できる。
 決定ルールには、例えば下記のものがある。
 [決定ルール名:“車両立入禁止”区域内の車両]
 オブジェクトが車両として検出され、“車両立入禁止”警戒区域(人のみの立ち入りが許可された区域)に存在した場合、そのオブジェクトは違反物体と判断される。
 [決定ルール名:車両限定区域内の人]
 オブジェクトが人として検出され、“車両限定”警戒区域に存在した場合、そのオブジェクトは違反物体と判断される。
 [決定ルール名:Uターン]
 すべての処理フレームにおいて、オブジェクトの軌跡の位置と、現在のオブジェクトの位置との距離を算出しており、この距離が前処理フレームの距離よりも小さくなったらそのオブジェクトの“Uターンカウンタ”を増加させ、この距離が大きくなったらカウンタを減少させる。カウンタの値がしきい値(“オブジェクトは、しきい値の処理フレームの間、ほとんど止まっている”)を超えた場合、そのオブジェクトは、Uターン動作をしていると判断される。より好適には、軌跡には、平滑化フィルタ、移動平均フィルタ、カルマンフィルタ等を適用したものを用い、0.数秒ないし数秒程度の時間周期で速度ベクトルの反転を判断する。
 [決定ルール名:固定タイムゾーン]
 固定タイムゾーンの内部でオブジェクトが検出された場合、オブジェクトのタイムゾーンカウンタk3が増加する。オブジェクトのタイムゾーンカウンタは、絶対に減少しない。カウンタがしきい値k3maxより大きくなった場合、オブジェクトは車両の近くで長い間留まっていると判断され、警報を鳴らす。
 [決定ルール名:車両停車(一時タイムゾーン)]
 オブジェクトが車両として検出され、さらに停止として検出された場合、オブジェクトの周りに一時タイムゾーンを生成する(オブジェクトクラスタの外周を、上下左右方向にオブジェクトサイズの半分の量だけ拡大する)。タイムゾーンでは、車両が背景になるまでに少しの時間を要する(この期間を、タイムゾーン適応期間と呼ぶ)。その後、ゾーンが有効になり、判定動作が開始される。タイムゾーン内でオブジェクトが人として検出した場合、オブジェクトのタイムゾーンカウンタk3が増加する。オブジェクトのタイムゾーンカウンタは、絶対に減少しない。カウンタがしきい値k3maxより大きくなった場合、オブジェクトは停止車両の近くで長い間留まっていると判断され、警報を鳴らす。もし、タイムゾーンの内側で車両が検出された場合、タイムゾーン除去処理が開始される。ゾーン中の背景が更新するまでしばらく時間がかかる。この期間、このタイムゾーンの内部では警報を発報しない。“復帰のための適応期間”が終了するとタイムゾーンは削除される
停止/低速移動オブジェクトの速度がしきい値を下回っている処理フレームでは、低速移動カウンタk2を増加させる。オブジェクトの速度がしきい値を上回っている処理フレームでは、低速移動カウンタを減少させる。カウンタの値がしきい値(“オブジェクトは、しきい値の処理フレームの間、ほとんど止まっている”)を超えた場合、オブジェクトは停止したと判断される。
 [決定ルール名:置き去り/持ち去られた物体]
 オブジェクトの分裂が検出(前処理フレームでは1つのオブジェクトだったものが、その位置で2つ以上に観測される)された場合、これらのオブジェクトのすべての“Split flag”(分裂フラグ)をオンにする。もし、オブジェクトの一つが停止したと判断され、分裂フラグがオンの場合、このオブジェクトは、“置き去りにされた、あるいは持ち去られたオブジェクト”として判断される。
 本実施例2の侵入警報ビデオ処理装置は、物体の追跡ために、TSV(Temporal Spatio-Velocity:時空間-速度)変換を用いた点などで、実施例1と異なる。実施例1の装置は、通常は人が存在しない場所へのあるオブジェクト(車,ボート,人)の侵入を検出するのに好適であったが、実施例2の装置は、通常の往来する物体の中から疑わしい行動を行うオブジェクトを検出することを目標とする。
 TSV変換は、連続する時系列フレームのような時空間画像についての3次元ハフ(Hough)変換を基本とするものである。物体の軌跡を得ることを目的とする本実施例では直線ハフ変換を用いる。つまり、空間的な2次元(原画像の縦方向と横方向)ならびに時間の3次元上で定義される画素値空間から直線を検出する。TSV変換の対象となる画像(初期検出画像と呼ぶ)として以下のような隣接フレーム間差分画像の系列を用いる。
Figure JPOXMLDOC01-appb-M000013
ここで、S(x,y,n)はnフレーム目の初期検出画像を示し、I(x,y,n)はnフレーム目の入力画像,Tは時定数,Thはしきい値(定数)を示す。式(13)の他、輪郭検出画像や、実施例1の背景差分画像も初期検出画像として使用できるかもしれない。
 品質を高めるために、S(x,y,n)のすべての画素に対して1×3のANDオペレータを使用し、S*(x,y,n)を得る。
Figure JPOXMLDOC01-appb-M000014
 TSV変換の表記を、下記のように定義する。
Figure JPOXMLDOC01-appb-M000015
本例のハフ変換では、フレームが古いほど投票の重みが小さくなるように、S*(x,y,n)に予め指数関数減衰のフィルタを施す。
Figure JPOXMLDOC01-appb-M000016
ここで、S*(x,y,n)はn番目の画像フレームの二値画像,npは現在の画像フレームのインデックス、Fnp(n)は以下の式で表されるフィルタであり、n<=npである。
Figure JPOXMLDOC01-appb-M000017
 時空間におけるLineAに対するハフ変換は、以下の式で表される。
Figure JPOXMLDOC01-appb-M000018
ここで、(x,y)は座標,(vx,vy)は速度,(px,py)は基準位置(例えば、既知オブジェクトの現在フレームにおける位置)、LineAは、点(px,py)を通り傾き(vx,vy)を持つ直線を表す。Vnpの値は、np時点におけるその直線の確からしさを表している。
 指数関数表現の場合は、以下の回帰式で記述することができる。
Figure JPOXMLDOC01-appb-M000019
px, py, vx, vyを離散化してセルを定義し、各セル内で式(18)を集計し適当な閾値によって真か偽に2値化したものをV* np(px, py, vx, vy)と定義する。
ここで、下記のような動きモデルの傾斜円筒式を導入する。
Figure JPOXMLDOC01-appb-M000020
ただし、円筒座標の中心は、(axn2+vxn+px,ayn2+vyn+py)であり、横方向および縦方向の半径は、Rx、Ryである。円筒座標のパラメータは、以下の式によって定義される:
Figure JPOXMLDOC01-appb-M000021
ここで、σk 2はk軸上での分散,τk,lはkとlの共分散,kバーはkの平均値を表す。
 円筒の妥当性を意味する円筒の密度は、以下の式で定義される。
Figure JPOXMLDOC01-appb-M000022
ここで、hは円柱の高さ(すなわち、観測時間)、Nは円筒内にある真値TSVセルの数である。
 本実施例では、上記説明したフレーム間差分による初期検出を、実施例1のステップ106~115の背景差分による初期検出と平行して行う。また、実施例1のステップ120~121を削除してステップ119からステップ122へ遷移するようにし、それと平行してTSV変換を行う。ステップ122では、TSV変換で得られた軌跡情報とステップ119で得られた配列“Merge”とを突き合わせて、実施例1同様の処理を行う。
 本実施例3の侵入警報ビデオ処理装置は、実施例1のステップ118~119の分割併合処理に代えて或いは加えて、スケルトン処理を行う点などで、実施例1と異なる。スケルトン処理は、二値化画像に対する細線化処理ないしは骨格処理によって初期検出ゾーンの形状情報を得る処理と、形状情報から主要な軸を抽出する処理と、抽出された軸から物体の軸を抽出する処理とを含む。
 任意の画像Aをスケルトン処理した画像skel(A)は、以下の式で表される。
Figure JPOXMLDOC01-appb-M000023
ただし、Bは構造要素(望ましくは円形)、er(A,kB)はAをBでk回erosion(掻き取り)する演算、open(A,B)はAをBでオープニングする演算を示す。
 本実施例では、画像Aとして、ステップ117で得られた予検出ゾーン(外接矩形)で切り出した2値化画像を用いる。
 図5Aから図5Fは、本例のスケルトン処理の一例を示す画像である。図5Aは、現在フレームを、オブジェクト(人)を含む予検出ゾーンで切り出した画像であり、図5Bは、図5Aに対応する差分画像であり、図5Cは、図5Bの2値化画像であり、図5Dは、図5Cのスケルトン処理による細線(フィラメント)化画像である。
 図5Eは、図5Dにおいて短い細線を整理(削除)し、残った基本的な細線を幅の一定な2つの帯で近似した結果であり、帯の連結境界の示してある。この帯により人とその影の基本軸を決定でき、それらの鉛直方向に対する角度が求められる。もし帯の一方の角度がほぼ0(鉛直に近い)で、他方の角度が所定の範囲内のときには、その他方は影であると判断する。連結境界で区切られた影側の2値化画像を偽値で塗りつぶすことで、図5Fのような人だけが取り出された画像が得られる。
 オブジェクトマスクが修正された後は、実施例1同様にステップ120以降の処理を続けることができる。
 本実施例4の侵入警報ビデオ処理装置は、実施例1のステップ118~119の分割併合処理に代えて、予検出ゾーンからより純粋なオブジェクトを抽出する処理(以下、OS処理と呼ぶ)を行う。
 本例において、予検出ゾーンは、物体の初期検出による二値化画像中のオブジェクト候補を内包する、水平又は垂直な辺からなる長方形の領域であり、以下DZと称す。DZにおける領域分割処理の目的は、「純粋な」オブジェクトの画素、すなわち、認識画像として背景の画素を伴わないオブジェクト画像を表現することである。数学的に、DZにおける画像の行列は、DZのオブジェクト領域分割処理の入力となり、背景を伴わないDZのオブジェクト画像の行列は、オブジェクト領域分割処理の出力となる。画像の行列は、一般に、原画像におけるDZ内の画素の行列に対応する、RGB成分からなる画素の3次元ベクトルの行列になる。
 本例のOS処理は、下記の3方法を複合化したものである。
 1) DZにおけるオブジェクト検出された部分画像とオブジェクトが存在しない画像(背景画像)の差分分析方式
 2) 明るさ,色,テクスチャなどによる部分画像の抽出方式
 3) 領域分割および影切り取り方式
 図6は、上記1)の方法のフローチャートであり、DZ1つずつに対して行われる。
 ステップ201として、対象とするDZに背景(正確には、ステップ202~206で分離可能な背景)が含まれるかどうか判断する。背景が含まれていない場合、ステップ202~206は無意味なので、ステップ207に遷移する。
 ステップ202として、DZにおける現在画像と背景画像のフィルタ処理を行う。この処理は、メディアンフィルタ、画像拡大処理によるいわゆるセル離散化処理(以後、CD(Celluar Dilation)処理と呼ぶ)、低周波フィルタ(平滑化)を含む。
 CD処理は、原画像の各画素を、その画素の周囲2~3またはそれ以上の画素を含めた類似の画素からなる正方部分画像へ変換する処理からなる。この処理は、DZをできる限り小さいサイズにするのに役立つ。
 CD処理にメディアン処理(CDの前に実行)と低周波フィルタ(CDの後に実行)とを組み合わせて使用すると、DZにおける画像の引き伸ばしと、ある度合への小さく低画質の画像の復元が同時に行える。これらの処理は、各DZにおいて、現在の画像フレームと,背景画像(基準画像)フレームのそれぞれに対して同時に実行される。
 ステップ203として、DZにおける差分フレーム(DF, Difference Frame)の作成および処理を行う。これは、ステップ202によるフィルタ済みの現在画像(オブジェクトを含む)と背景画像(オブジェクトを含まない)から各DZにおけるDFを作成する処理と,適切な画素値しきい値を用いたDFの二値化処理の2つの個別の処理によって行われる。DF作成処理は、DZにおける現在画像と背景画像についてのフィルタ画像行列の各要素の単純な減算処理である。カラー画像を処理する場合は、ベクトルの差は、ベクトルの大きさの算出結果によって決定される。二値化処理は、所定のしきい値を用いて実施例1のステップ109同様の処理を行う。
 ステップ204として、連結領域抽出処理を行う。連結(集結)領域抽出処理は、個々のDZ内で1つの塊として繋がった領域であって、所定以上のサイズ(画素数)の領域を抽出するもので、実施例1のステップ112と同様である。
 ステップ205として、ステップ203で抽出した複数の連結領域の中から有効領域を抽出する。有効領域の候補として、最大(画素数で判断)の連結領域を選択し、これをArMとする。そしてArMの内部に存在する穴を埋める処理をおこなう。
 それにはまず、ArMのみの反転画像を作成する。
 次に、作成した反転画像からDZの境界に隣接していない連結領域を抽出する。その領域が穴であるので、その領域を“真”で塗りつぶすことによりArMを修正する。
 穴埋め領域を考慮に入れたことで、認識や除去のためにオブジェクトの有益な幾何的情報が得られるようになるが、有益な特徴(特にオブジェクト領域の骨格情報)を得るのに単純連結オブジェクト領域が必要なことに変わりはない。
 ステップ206として、ステップ204で有効領域が抽出できたか判定し、できたときはステップ212へ、できないときはステップ206へ遷移する。
 ステップ207として、明度(輝度)による領域分割を行う。例えばYUVフォーマットのYやHUVのVの値を離散値化し、DZ内の全画素をそれら離散値のグループに振り分ける。振り分けられた画素を空間フィルタリングにより、連結領域化する。
 ステップ208として、色による領域分割をステップ205同様に行う。
 ステップ209として、DZを数ピクセル四方のブロックに分割してブロック毎のテクスチャ値を算出し、それを用いてグループ分けすることで領域を形成する。
 ステップ210として、ステップ205~207の領域分割の組み合わせから、所定の規則で複数の有効領域の候補を作成する。
 ステップ211として、複数の有効領域の候補から、所定の尺度(例えば領域の大きさ)で有効領域を1つ抽出する。
 ステップ212として、実施例3同様のスケルトン処理などを用いて、陰の検出、領域分割、影領域の除去を行う。
 ステップ213として、修正さえたオブジェクトマスクを現在画像に適用して、オブジェクトのみの画像配列を得る。
 本実施例5の侵入警報ビデオ処理装置は、実施例1のステップ104のセットアッププロセスを改良したものである。
(1) 本実施例の機器構成
 画像処理装置の構成を図9に示す。監視装置は、撮像装置501と、映像入力回路502と、画像処理プロセッサ503と、プログラムメモリ504と、ワークメモリ505と、外部I/F回路506と、映像出力回路507と、データバス508と、指示装置509と、表示装置510を有している。
(2) 本実施例の監視条件の指定方法
 本実施例における監視条件の一例を図7、図8に示す。図7は、車両の走行速度,走行方向の違反を監視するためのスクリプトであり、所定速度以下で、所定方向に進む場合は許可され(警報を発報する対象ではない、監視すべき物体ではない)、それ以外は禁止される(発報の対象となる、監視すべき物体である)。図8は、スクリプト形式で指定された監視条件が、画像処理プロセッサ503において、字句解析される中間スクリプトを示している。中間スクリプト中「:=」は定義を表す演算子であり、「:=」の左側(左辺値)は対象とする定義、「:=」の右側(右辺値)は定義の条件である。また、「=」は比較を表す演算子であり、「=」の左辺値は物体の情報、「=」の右辺値はユーザが設定する条件値である。
(3) 判定テーブルの生成と判定テーブルを用いた判定
 図10は判定テーブルの例である。本発明において、判定条件は、複数の条件の組み合わせによって構成されるため、図10に示すような判定テーブルを用いて検出された物体が監視条件に合致するかを判断する。ここで、説明を簡潔にするために、検出された物体の幅と高さの2つの情報により判定テーブルを作成し、検出された物体(一例として、幅3m,高さ1.5mの物体)が条件401に合致するか否か、すなわち検出された物体が、[CAR]と判断できるかを示す。まず、図8において、条件401の高さに関する条件は、[WIDTH]=[2m以上]かつ[WIDTH]=[5m未満]であるため、判定テーブルの[WIDTH]の軸、すなわち横軸を5等分し、それぞれ[2m未満],[2m],[5m未満],[5m],[5m超]トラベル付けする。ここで、5つのラベルにしたのは、[WIDTH]の条件が、[2m以上]かつ[5m未満]という2つの条件値から成り立っており、「以上」や「未満」を区分するための境界部分を含めるためである。また、[WIDTH]=[2m以上]という一つの条件値でよい場合は、3つの区分になる。したがって、区分の最大値は、条件値の2倍に1を加えた数となる。次に、この条件に合致する部分に1(例えば、記号603),合致しない部分に-1(例えば、記号602)を埋めていく。これを、[HEIGHT]の軸に対しても行うと、図10に示した判定テーブル601になる。次に、前記検出された物体は、幅3m,高さ1.5mであるため、この判定テーブルによれば、記号603で示されるように1となり、条件に合致すると判断できる。条件の数が増えた場合でも、この判定テーブルの軸の数、各軸の区分数を変化させればよく、事実上、ワークメモリに記憶できる大きさのデータ数まで対応できるようになる。また、この方法では、-1乃至は1といった値によって、条件に合致するか否かを表現しているが、それ以外の値(例えば0など)によって判定を行わない条件(Don't care)を示すようにしてもよい。
 本実施例によれば、監視条件を可読性の高い平易な文章(スクリプト)で指定できるようになり、さらに、複数の条件を論理的に判定するように構成することで、従来に比べ複雑な条件指定ができるようにし、容易かつ正確な指定が行えるようになる。
 (特殊な監視条件を構成しておき、ネットワークを介してダウンロードできるようにすれば、各種監視環境に柔軟に対応したサービスが実現でき、ビジネスモデルの構築も可能となる。)
(1) 本実施例の機器構成
 実施例6の機器構成、基本動作は実施例5と同じである。
(2) 本実施例での監視領域の設定
 監視領域1301は、シーン座標系(地面に平行で地図に相似する第二の座標系)上で、監視を所望する領域の地図上の情報を、指示装置を用いて指示する(図12)。監視を所望する領域の高さ情報は、数値などによって与える。高さ情報はシーン座標系のz軸座標に相当するため(xy平面が高さ0の場合)、見かけの高さによらない実際の値(2メートル, 3フィートなど)で与えることが可能である。 
 監視領域1301の指示は、入力画像などのカメラ座標系に、直接実施してもよい(図11)。監視を所望する領域の高さは、事前にプリセットされていてもよい。監視領域は、多角形の他、円や直線で指示してもよく、円柱型や球状、垂直平面などの様々な図形を用いて処理領域を指定できる。
(3) 本実施例でのカメラと監視領域上の点との距離を計算する方法
 カメラ座標系での位置(x',y')をシーン座標系での位置(x,y)に変換する。
 シーン座標系は地図に相似であるので、シーン座標系の原点Oがカメラの位置である場合、カメラと監視領域上の点との距離は、
Figure JPOXMLDOC01-appb-M000024
となる。
(4) 前記点における監視すべき対象物体の見かけの高さを算出する方法
対象物体の上辺のカメラ座標 (x'_head, y'_head)
対象物体の下辺のカメラ座標 (x'_legs, y'_legs) とする。
 まず、カメラの設置条件を用いてシーン座標への変換式によって、以下を算出する。
対象物体の上辺のシーン座標 (x_head, y_head)  上辺を撮像する俯角 θy_head
対象物体の下辺のシーン座標 (x_legs, y_legs)  下辺を撮像する俯角 θy_legs
回転角θx = θx_head = θx_legs
 カメラと対象物体下辺の距離
Figure JPOXMLDOC01-appb-M000025
 カメラと対象物体上辺のシーン座標上での距離
Figure JPOXMLDOC01-appb-M000026
 図14に監視すべき対象物体601の撮像例を示す。
 図14より、対象物体の高さHeightは、幾何学的に次の式で計算できる。
Height = (D_head - D_legs)/ tan(90°- θy_head) …(1-1)
(5) シーン座標系に変換して見かけの高さを算出する方法
 監視領域上の点(x_legs, y_legs)における高さHeightの情報が、シーン座標上でどの位置(x_head, y_head)に現れるか[見かけの高さ]を算出する(つまり(4)の逆算)。
 θy_headは、撮像装置の設置高さHを利用して、次のように表現できる。
tan(θy_head) = (H - Height) / D_legs …(1-2)
[ tan(90 - θy_head) = D_legs / (H - Height) ]
 (1-1)式を変形して、(1-2)を代入する。
D_head = (Height・D_legs) / (H - Height) + D_legs
 従って、監視領域の上辺の座標(x_head, y_head)は、以下のように算出できる。
x_head = D_head・cos(θx)
y_head = - D_head・sin(θx)
 また、カメラ座標(x'_head, y'_head)も座標変換により算出でき、カメラ座標上での見かけの高さについても容易に表現できる。
(6) 前記見かけの高さに基づいて監視領域から処理領域を生成する方法
 (2)で指示した監視領域1301の各座標と、監視領域の高さ情報より、それぞれの見かけの高さを算出する。見かけの高さが占める各座標と、指示した監視領域が占める各座標を処理領域とする事で、監視領域1301の高さを考慮した立体的な処理領域1401を作成する事が出来る(図13)。
本実施例の効果
 (地図上の)監視領域を設定することで、自動的に監視領域の高さを考慮した立体的な処理領域が設定できるため、見かけの大きさによらない簡単な領域設定を実現できる。また、入力画像中に映る物体の高さを実際に測量することによる領域設定が不要なため、設定の煩雑さが軽減される。
 また、シーン座標系で監視領域を設定する事が可能で、地図上の座標を領域設定にそのまま利用できることや、複数監視装置間での監視領域の共有など、先願と組み合わせた効率的な領域設定及び侵入者監視が可能となる。
 501 撮像装置
 502 映像入力回路
 503 画像処理プロセッサ
 504 プログラムメモリ
 505 ワークメモリ
 506 外部I/F回路
 507 映像出力回路
 508 データバス
 509 指示装置
 510 表示装置

Claims (4)

  1.  動画像から物体を検出する物体検出方法であって、
     画像の画素毎に、該画素の時間平均値を算出するステップと、
     画像の画素毎に、該画素の時間領域での分散または標準偏差を、画素毎に可変の時定数を用いて算出するステップと、
     画像の画素毎に、前記分散または標準偏差の時間領域での極大値を算出するステップと、
     画像の画素毎に、前記極大値に所定の係数を乗じた値に基づくしきい値で、現在の画像を二値化するステップと、
     前記二値化された画像をラベリング処理し、見つかった複数の連結領域をそれぞれ予検出ゾーンとするステップと、
     画像の画素毎に、当該画素が背景もしくは物体のいずれに分類されるかに応じて、前記可変の時定数を制御するステップと、
     複数の前記予検出ゾーンの実空間における幾何学的属性を計算し、該幾何学的属性に基づいて前記予検出ゾーンをスクリーニングするステップと、
     前記二値化された画像もしくは該二値化から派生した画像に、スケルトン解析処理、オブジェクトマスク処理、モフォロジー演算処理、セクション解析処理の少なくとも1つを含む空間フィルタを施すステップと、
     前記空間フィルタ或いはスクリーニングを通過した予検出ゾーンを追跡ゾーンとし、記憶された過去の追跡ゾーンとの一致度に応じて該記録された追跡ゾーンを更新するか、或いは、時空間における線成分抽出することによって、注目する追跡ゾーンの時間的な位置変化を追跡するステップと、
     近傍に存在する追跡ゾーンを所定の規則でクラスタにまとめるステップと、
     実空間におけるクラスタのサイズ、もしくは予め定めた監視領域又は他のクラスタとの相対位置の変位の少なくとも1つを既定する複数の条件に基づいて、該クラスタを判別するステップと、
    を有する物体検出方法。
  2.  請求項1に記載の物体検出方法において、前記判別するステップは、前記予め定めた監視領域を用いるものであって、予め定めた監視領域は、地面に平行な2つの直交軸を有する座標系を用いて、該地面に垂直な多角柱、円柱、若しくは平面領域のいずれかで定義することを特徴とする物体検出方法。
  3.  請求項1に記載の物体検出方法において、前記スケルトン解析処理は、前記二値化画像に対する細線化処理ないしは骨格処理によって予検出ゾーンの形状情報を得るステップと、形状情報から主要な軸を抽出するステップと、抽出された軸から影の軸を除去し、物体の軸を抽出するステップとを有する物体検出方法。
  4.  請求項1に記載の物体検出方法において、
     スクリプト形式で記述される前記複数の条件を、それぞれの条件に優先順位及び検出の禁止又は許可を指定可能な監視条件スクリプトとして入力するステップと、
     該監視条件スクリプトの論理を解析して判定テーブルを生成するステップと、
     を更に備え、
     前記判別するステップは、条件に割り当てた優先順位に従って該物体の前記情報が監視条件に合致するか否かを判定することを特徴とする物体検出方法。
PCT/JP2010/050680 2009-01-22 2010-01-21 侵入警報ビデオ処理装置 WO2010084902A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010547509A JP5325899B2 (ja) 2009-01-22 2010-01-21 侵入警報ビデオ処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2009102124 2009-01-22
RU2009102124/08A RU2484531C2 (ru) 2009-01-22 2009-01-22 Устройство обработки видеоинформации системы охранной сигнализации

Publications (1)

Publication Number Publication Date
WO2010084902A1 true WO2010084902A1 (ja) 2010-07-29

Family

ID=42355954

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/050680 WO2010084902A1 (ja) 2009-01-22 2010-01-21 侵入警報ビデオ処理装置

Country Status (4)

Country Link
US (1) US8189049B2 (ja)
JP (1) JP5325899B2 (ja)
RU (1) RU2484531C2 (ja)
WO (1) WO2010084902A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722700A (zh) * 2012-05-17 2012-10-10 浙江工商大学 视频监控中遗留物品检测的方法和系统
CN102930541A (zh) * 2012-10-29 2013-02-13 深圳市开天源自动化工程有限公司 视频图像的背景提取及更新方法
JP2014003599A (ja) * 2012-06-15 2014-01-09 Palo Alto Research Center Inc カメラの位置ずれの検出
CN104881643A (zh) * 2015-05-22 2015-09-02 深圳市赛为智能股份有限公司 一种快速的遗留物检测方法及系统
JP2016052121A (ja) * 2014-08-29 2016-04-11 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像の再現のための擬似スケルトンに基づく画像エンハンスメント
WO2018105248A1 (ja) * 2016-12-07 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 画像センサ
WO2018105246A1 (ja) * 2016-12-07 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 画像センサ
JP2018523234A (ja) * 2016-03-18 2018-08-16 シェンチェン ユニバーシティー 乗客の混雑度の算出方法及びそのシステム
US10282622B2 (en) 2016-12-09 2019-05-07 Hitachi Kokusai Electric Inc. Marine intrusion detection system and method
KR20200058260A (ko) * 2019-01-18 2020-05-27 주식회사 인텔리빅스 객체 이미지 인식 dcnn 기반 cctv 영상분석장치 및 그 장치의 구동방법
CN111402301A (zh) * 2020-03-17 2020-07-10 浙江大华技术股份有限公司 积水检测方法及装置、存储介质及电子装置
CN117082217A (zh) * 2023-10-17 2023-11-17 北京比格凯特科技有限公司 一种基于Jetson平台的智能视频监控系统

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5235718B2 (ja) * 2009-02-27 2013-07-10 株式会社日立製作所 映像監視システム
JP5218168B2 (ja) * 2009-03-11 2013-06-26 ソニー株式会社 撮像装置、動体検知方法、動体検知回路、プログラム、及び監視システム
US8438175B2 (en) * 2010-03-17 2013-05-07 Lighthaus Logic Inc. Systems, methods and articles for video analysis reporting
JP2011214933A (ja) * 2010-03-31 2011-10-27 Kawasaki Heavy Ind Ltd 軌道用距離画像取得システム
US10395125B2 (en) 2016-10-06 2019-08-27 Smr Patents S.A.R.L. Object detection and classification with fourier fans
US20110316697A1 (en) * 2010-06-29 2011-12-29 General Electric Company System and method for monitoring an entity within an area
US8423599B2 (en) * 2010-08-19 2013-04-16 Chip Goal Electronics Corporation, Roc Locus smoothing method
US8971632B2 (en) * 2010-08-19 2015-03-03 Sharp Laboratories Of America, Inc. System for feature detection for low contrast images
JP5719141B2 (ja) * 2010-10-28 2015-05-13 キヤノン株式会社 情報処理装置、その処理方法及びプログラム
US8675090B2 (en) * 2010-12-15 2014-03-18 Panasonic Corporation Image generating apparatus, image generating method, and recording medium
TWI419082B (zh) * 2010-12-20 2013-12-11 Ind Tech Res Inst 偵測視訊序列中的移動物體影像的方法以及影像處理系統
US8363897B2 (en) * 2011-03-15 2013-01-29 Victor Gorelik Method for detection of moving object of approximately known size in conditions of low signal-to-noise ratio
US11632520B2 (en) * 2011-11-14 2023-04-18 Aaron Chien LED light has built-in camera-assembly to capture colorful digital-data under dark environment
TWI530913B (zh) * 2012-04-25 2016-04-21 鴻海精密工業股份有限公司 移動物體偵測系統及方法
CN104240222A (zh) * 2013-06-19 2014-12-24 贺江涛 一种消防通道堵塞的智能检测方法与装置
JP5506989B1 (ja) * 2013-07-11 2014-05-28 パナソニック株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
CN103914830B (zh) * 2014-02-22 2017-02-01 小米科技有限责任公司 直线检测方法和装置
US9693042B2 (en) * 2014-06-10 2017-06-27 Bitanimate, Inc. Foreground and background detection in a video
CN104200236B (zh) * 2014-08-22 2018-10-26 浙江生辉照明有限公司 基于dpm的快速目标检测方法
US9460522B2 (en) 2014-10-29 2016-10-04 Behavioral Recognition Systems, Inc. Incremental update for background model thresholds
US9471844B2 (en) 2014-10-29 2016-10-18 Behavioral Recognition Systems, Inc. Dynamic absorption window for foreground background detector
US9349054B1 (en) 2014-10-29 2016-05-24 Behavioral Recognition Systems, Inc. Foreground detector for video analytics system
US9805662B2 (en) * 2015-03-23 2017-10-31 Intel Corporation Content adaptive backlight power saving technology
WO2017077902A1 (ja) * 2015-11-06 2017-05-11 日本電気株式会社 データ処理装置、データ処理方法、及び、プログラム
CN105654094B (zh) * 2015-11-25 2019-11-29 小米科技有限责任公司 特征提取方法及装置
US10190914B2 (en) 2015-12-04 2019-01-29 Amazon Technologies, Inc. Motion detection for A/V recording and communication devices
US10325625B2 (en) 2015-12-04 2019-06-18 Amazon Technologies, Inc. Motion detection for A/V recording and communication devices
EP3179406B1 (en) * 2015-12-11 2017-11-22 Axis AB Method for increasing reliability in monitoring systems
CN107221133B (zh) * 2016-03-22 2018-12-11 杭州海康威视数字技术股份有限公司 一种区域监控报警系统及报警方法
US10685542B2 (en) * 2016-04-26 2020-06-16 Sensormatic Electronics, LLC System and method for monitoring a premises based on parsed codec data
CN106204633B (zh) * 2016-06-22 2020-02-07 广州市保伦电子有限公司 一种基于计算机视觉的学生跟踪方法和装置
CN106483129B (zh) * 2016-09-23 2019-06-21 电子科技大学 一种基于运动目标识别的白带滴虫自动检测的方法
US11400860B2 (en) 2016-10-06 2022-08-02 SMR Patents S.à.r.l. CMS systems and processing methods for vehicles
CN106846443A (zh) * 2017-01-05 2017-06-13 福建天泉教育科技有限公司 一种碰撞检测方法及系统
US10553091B2 (en) * 2017-03-31 2020-02-04 Qualcomm Incorporated Methods and systems for shape adaptation for merged objects in video analytics
RU2688735C2 (ru) * 2017-09-04 2019-05-22 ООО "Ай Ти Ви групп" Устройство и способ управления системой видеонаблюдения в реальном времени в режиме фиксации тревожных событий
CN109785347A (zh) * 2018-04-27 2019-05-21 京东方科技集团股份有限公司 图像处理方法、图像处理系统及存储介质
RU2693267C1 (ru) * 2018-10-23 2019-07-01 Акционерное общество Научно-производственное предприятие "Авиационная и Морская Электроника" Способ распознавания объектов на изображении
CN113379984B (zh) * 2020-02-25 2022-09-23 北京君正集成电路股份有限公司 一种电子看护围栏系统
CN113379987B (zh) * 2020-02-25 2022-10-21 北京君正集成电路股份有限公司 一种看护电子围栏模块的设计方法
CN113379985B (zh) * 2020-02-25 2022-09-27 北京君正集成电路股份有限公司 一种看护电子围栏报警装置
US11978247B2 (en) 2020-11-12 2024-05-07 Objectvideo Labs, Llc Adversarial masks for scene-customized false detection removal
CN113554008B (zh) * 2021-09-18 2021-12-31 深圳市安软慧视科技有限公司 静态物体区域内检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044859A (ja) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd 動き追跡装置及び人物追跡方法
JP2004227527A (ja) * 2003-01-27 2004-08-12 Fujitsu Ltd 画像処理方法、その方法をコンピュータに行わせるプログラム、そのプログラムを記録する記録媒体
JP2006146823A (ja) * 2004-11-24 2006-06-08 Nippon Hoso Kyokai <Nhk> 映像オブジェクト軌跡付加装置及び映像オブジェクト軌跡付加プログラム
WO2007102537A1 (ja) * 2006-03-07 2007-09-13 Osaka University 姿勢推定装置および方法
JP2007334631A (ja) * 2006-06-15 2007-12-27 Sony Corp 画像監視システムおよび物体領域追跡方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7744122B2 (en) * 1995-12-12 2010-06-29 Automotive Technologies International, Inc. Driver side aspirated airbags
US6141459A (en) * 1997-09-24 2000-10-31 Sarnoff Corporation Method and apparatus for processing image pyramid borders
EP0921684B1 (en) * 1997-12-02 2005-11-02 Daewoo Electronics Corporation Method and apparatus for encoding object information of a video object plane
US7430257B1 (en) * 1998-02-12 2008-09-30 Lot 41 Acquisition Foundation, Llc Multicarrier sub-layer for direct sequence channel and multiple-access coding
RU2262661C2 (ru) 2000-06-26 2005-10-20 Череповецкий научный координационный центр Российской Академии Наук (ЧНКЦ РАН) Способ обнаружения движущихся транспортных средств
US7215795B2 (en) * 2000-09-28 2007-05-08 Hitachi Kokusai Electric Inc. Intruding object detecting method and intruding object monitoring apparatus employing the method
US6833845B2 (en) * 2000-10-27 2004-12-21 Matsushita Electric Industrial Co., Ltd. Image object content generation device and padding device
RU2246760C2 (ru) * 2001-11-29 2005-02-20 Институт солнечно-земной физики СО РАН Способ обнаружения изменяющихся объектов
JP4430666B2 (ja) * 2003-05-02 2010-03-10 ギリテック アクティーゼルスカブ モバイルインテリジェントデータキャリアを介した動的なデータグラムスイッチとオンデマンドの認証及び暗号体系によって実現した広範なユーザー中心のネットワークセキュリティ
US7956889B2 (en) * 2003-06-04 2011-06-07 Model Software Corporation Video surveillance system
EP1916538A3 (en) * 2006-10-27 2011-02-16 Panasonic Electric Works Co., Ltd. Target moving object tracking device
KR101271092B1 (ko) * 2007-05-23 2013-06-04 연세대학교 산학협력단 감시 카메라 시스템에서 움직임을 검출하기 위한 실시간움직임 영역 분할 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044859A (ja) * 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd 動き追跡装置及び人物追跡方法
JP2004227527A (ja) * 2003-01-27 2004-08-12 Fujitsu Ltd 画像処理方法、その方法をコンピュータに行わせるプログラム、そのプログラムを記録する記録媒体
JP2006146823A (ja) * 2004-11-24 2006-06-08 Nippon Hoso Kyokai <Nhk> 映像オブジェクト軌跡付加装置及び映像オブジェクト軌跡付加プログラム
WO2007102537A1 (ja) * 2006-03-07 2007-09-13 Osaka University 姿勢推定装置および方法
JP2007334631A (ja) * 2006-06-15 2007-12-27 Sony Corp 画像監視システムおよび物体領域追跡方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722700A (zh) * 2012-05-17 2012-10-10 浙江工商大学 视频监控中遗留物品检测的方法和系统
JP2014003599A (ja) * 2012-06-15 2014-01-09 Palo Alto Research Center Inc カメラの位置ずれの検出
CN102930541A (zh) * 2012-10-29 2013-02-13 深圳市开天源自动化工程有限公司 视频图像的背景提取及更新方法
CN102930541B (zh) * 2012-10-29 2015-06-24 深圳市开天源自动化工程有限公司 视频图像的背景提取及更新方法
JP2016052121A (ja) * 2014-08-29 2016-04-11 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像の再現のための擬似スケルトンに基づく画像エンハンスメント
CN104881643A (zh) * 2015-05-22 2015-09-02 深圳市赛为智能股份有限公司 一种快速的遗留物检测方法及系统
CN104881643B (zh) * 2015-05-22 2018-06-12 深圳市赛为智能股份有限公司 一种快速的遗留物检测方法及系统
JP2018523234A (ja) * 2016-03-18 2018-08-16 シェンチェン ユニバーシティー 乗客の混雑度の算出方法及びそのシステム
WO2018105246A1 (ja) * 2016-12-07 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 画像センサ
WO2018105248A1 (ja) * 2016-12-07 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 画像センサ
US10904429B2 (en) 2016-12-07 2021-01-26 Sony Semiconductor Solutions Corporation Image sensor
US10282622B2 (en) 2016-12-09 2019-05-07 Hitachi Kokusai Electric Inc. Marine intrusion detection system and method
KR20200058260A (ko) * 2019-01-18 2020-05-27 주식회사 인텔리빅스 객체 이미지 인식 dcnn 기반 cctv 영상분석장치 및 그 장치의 구동방법
KR102194499B1 (ko) * 2019-01-18 2020-12-23 주식회사 인텔리빅스 객체 이미지 인식 dcnn 기반 cctv 영상분석장치 및 그 장치의 구동방법
CN111402301A (zh) * 2020-03-17 2020-07-10 浙江大华技术股份有限公司 积水检测方法及装置、存储介质及电子装置
CN111402301B (zh) * 2020-03-17 2023-06-13 浙江大华技术股份有限公司 积水检测方法及装置、存储介质及电子装置
CN117082217A (zh) * 2023-10-17 2023-11-17 北京比格凯特科技有限公司 一种基于Jetson平台的智能视频监控系统

Also Published As

Publication number Publication date
RU2009102124A (ru) 2010-08-20
US8189049B2 (en) 2012-05-29
JPWO2010084902A1 (ja) 2012-07-19
RU2484531C2 (ru) 2013-06-10
US20100201820A1 (en) 2010-08-12
JP5325899B2 (ja) 2013-10-23

Similar Documents

Publication Publication Date Title
JP5325899B2 (ja) 侵入警報ビデオ処理装置
CN109154976B (zh) 通过机器学习训练对象分类器的系统和方法
US9299162B2 (en) Multi-mode video event indexing
Li et al. 3D parallel fully convolutional networks for real-time video wildfire smoke detection
Rakibe et al. Background subtraction algorithm based human motion detection
Memon et al. A video based vehicle detection, counting and classification system
US9412025B2 (en) Systems and methods to classify moving airplanes in airports
Hong et al. Fast multi-feature pedestrian detection algorithm based on histogram of oriented gradient using discrete wavelet transform
KR101062225B1 (ko) 감시 카메라를 이용한 지능형 영상 검색 방법 및 시스템
Armanfard et al. TED: A texture-edge descriptor for pedestrian detection in video sequences
Tao et al. Smoke vehicle detection based on multi-feature fusion and hidden Markov model
Kongurgsa et al. Real-time intrusion—detecting and alert system by image processing techniques
Sanoj et al. Vision approach of human detection and tracking using focus tracing analysis
Volkov et al. Devising an image processing method for transport infrastructure monitoring systems
Tank et al. A fast moving object detection technique in video surveillance system
El Baf et al. Fuzzy foreground detection for infrared videos
Agrawal et al. Specific motion pattern detection: state-of-the-art and challenges
Haritha et al. Survey on various traffic monitoring and reasoning techniques
Pava et al. Object Detection and Motion Analysis in a Low Resolution 3-D Model
Narwal et al. Image Systems and Visualizations
Johnson Fragment Association Matching Enhancement (FAME) on a Video Tracker
Mantini et al. A Survey of Feature Types and Their Contributions for Camera Tampering Detection
Zhao et al. Detection of Abnormal Crowd Behavior Based on ViBE and Optical Flow Methods
MING SHADOW REMOVAL UTILIZING MULTIPLICATIVE FUSION OF TEXTURE AND COLOUR FEATURES FOR SURVEILLANCE IMAGE
Ullah et al. Moving Object Detection Based on Background Subtraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10733509

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010547509

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10733509

Country of ref document: EP

Kind code of ref document: A1