WO2005117448A1 - 移動物体検出装置および移動物体検出方法 - Google Patents

移動物体検出装置および移動物体検出方法 Download PDF

Info

Publication number
WO2005117448A1
WO2005117448A1 PCT/JP2005/009665 JP2005009665W WO2005117448A1 WO 2005117448 A1 WO2005117448 A1 WO 2005117448A1 JP 2005009665 W JP2005009665 W JP 2005009665W WO 2005117448 A1 WO2005117448 A1 WO 2005117448A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving object
video
area
object detection
information
Prior art date
Application number
PCT/JP2005/009665
Other languages
English (en)
French (fr)
Inventor
Daijiro Ichimura
Yoshimasa Honda
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Publication of WO2005117448A1 publication Critical patent/WO2005117448A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Definitions

  • the present invention relates to a moving object detecting apparatus and method for detecting a moving object from a video stream generated by encoding a video.
  • the moving object detection device extracts a motion vector used in a motion prediction compensation encoding method for decoding a video stream, and regards the motion vector as a motion of an object in a certain area. It detects a moving object at high speed.
  • FIG. 1 shows a conventional moving object detection device described in Patent Document 1.
  • the coding mode, motion compensation mode, and motion vector information of the image block decoded by the variable length decoding unit 1801 and the pattern information detected by the pattern information detection unit 1802 are moving.
  • the object is sent to the object detection processing unit 1803.
  • the moving object detection processing unit 1803 uses these pieces of information to determine whether or not this image block is a moving object. This determination is performed using a motion vector, a spatial similarity determination, a temporal similarity determination, and the like.
  • Patent Document 1 JP-A-10-75457
  • An object of the present invention is to convert an image into a reduced image, a horizontal component, a vertical component, and a diagonal component.
  • Moving object capable of performing high-speed, high-accuracy, low-processing-load detection of a moving object from a video stream that has been video-coded using motion prediction compensation coding It is to provide a detection device and method.
  • the moving object detection device of the present invention extracts motion information from a video stream that has been video-encoded using hierarchical coding and motion prediction / compensation coding, which divide the video into a plurality of layers and encode it.
  • a moving object detection method is a method for detecting a moving object in a video stream.
  • the moving object detection device for detecting the moving object executes the moving object detection method by dividing an image into a plurality of layers. Extracting video stream power and motion information that have been video-encoded using hierarchical coding and motion prediction compensation coding; extracting the video stream power and edge information; and extracting the extracted motion information. And detecting the moving object using the edge information.
  • a band division method for dividing an image into a reduced image, a horizontal component, a vertical component, and a diagonal component, and a video encoding using a motion prediction compensation encoding It is possible to detect the contour of an object moving at high speed, high accuracy, and low processing load without decoding the video from the video stream. At the same time, video decoding can be performed.
  • FIG. 1 is a diagram showing a configuration of a conventional moving object detection device
  • FIG. 2 is a diagram showing a configuration of a video decoding device according to Embodiment 1 of the present invention.
  • FIG. 3 is a conceptual diagram of bit plane encoding according to Embodiment 1 of the present invention.
  • FIG. 4 is a flowchart showing an operation of the video decoding device according to the first embodiment of the present invention.
  • FIG. 5 is a flowchart showing an operation of a moving object detection process of the video decoding device according to the first embodiment of the present invention.
  • FIG. 6 is a stream structure diagram of an enhancement layer according to the first embodiment of the present invention.
  • FIG. 7 is a stream structure diagram of a bit plane k of an enhancement layer according to the first embodiment of the present invention.
  • FIG. 8 is a stream structure diagram of bit plane k in enhancement layer region j according to Embodiment 1 of the present invention.
  • FIG. 9 is a diagram showing a stream structure of a base layer according to the first embodiment of the present invention.
  • FIG. 10 is a diagram showing a stream structure of an area j of a base layer according to the first embodiment of the present invention.
  • FIG. 11A is a diagram illustrating an example of a horizontal component in an 8 ⁇ 8 pixel region according to the first embodiment of the present invention
  • FIG. 11B is a diagram illustrating an example in an 8 ⁇ 8 pixel region according to the first embodiment of the present invention
  • FIG. 11C is a diagram showing another example of the horizontal component
  • FIG. 11C is a diagram showing still another example of the horizontal component in the 8 ⁇ 8 pixel area according to the first embodiment of the present invention.
  • FIG. 12 is a diagram showing a configuration of a video surveillance system according to Embodiment 2 of the present invention.
  • FIG. 13 is a diagram showing a configuration of an automatic tracking camera according to Embodiment 2 of the present invention.
  • FIG. 14 is a diagram showing a configuration of a video encoding device according to Embodiment 2 of the present invention.
  • FIG. 15 is a flowchart showing the operation of the automatic tracking camera according to Embodiment 2 of the present invention.
  • FIG. 16 is a flowchart showing the operation of the video encoding device according to the second embodiment of the present invention.
  • FIG. 17 is a flowchart showing an operation of the video monitoring device according to the second embodiment of the present invention.
  • FIG. 18 is a sequence diagram showing an operation of the video monitoring system according to the second embodiment of the present invention.
  • FIG. 19 is a diagram showing a configuration of a video decoding device according to Embodiment 3 of the present invention.
  • FIG. 20 is a flowchart showing the operation of the video decoding device according to the third embodiment of the present invention.
  • Embodiment 1 is an application of the moving object detection method and device according to the present invention to a video decoding device. That is, at the same time that the video stream is decoded, a moving object in the video can be detected at high speed and with high accuracy.
  • This video stream is composed of a base layer and an enhancement layer.
  • the base layer can be decoded independently to obtain a low-resolution video.
  • the enhancement layer improves the image quality of the base layer and This is additional information from which an image can be obtained, and includes horizontal, vertical, and diagonal edge components (horizontal, vertical, and diagonal components).
  • the input image is divided into bands to generate a reduced image, a horizontal component, a vertical component, and a diagonal component.
  • the reduced image is encoded as a base layer capable of independently decoding a video by motion prediction compensation encoding.
  • the horizontal direction component, the vertical direction component, and the diagonal direction component are encoded by a bit plane encoding as an enhancement layer for encoding a video obtained by decoding the base layer with high image quality.
  • band division an image is divided into four components: a reduced image, a horizontal component, a vertical component, and a diagonal component.
  • This band division is performed by wavelet transform or by using a combination of a high-pass filter, a low-pass filter, and a down-sampler.
  • the reduced image, the horizontal component, the vertical component, and the diagonal component obtained by band division can be restored to the original image by band combination.
  • the horizontal component, the vertical component, and the diagonal component obtained by this band division are differences in pixel values from neighboring pixels that can be mathematically calculated, and do not necessarily represent the contour of the object. . For example, in a black-and-white horizontal stripe pattern, a strong vertical component appears as a horizontal line at the boundary between the colors.
  • FIG. 2 is a block diagram showing a configuration of a video decoding device 100 according to Embodiment 1 to which the moving object detection method and device of the present invention are applied.
  • the video decoding device 100 includes a stream input unit 101, base layer decoding 1
  • an enhancement layer decoding unit 103 an enhancement layer decoding unit 103, a band synthesis unit 104, a video output unit 105, a moving object detection unit 106, and a detection result output unit 107.
  • the base layer decoding unit 102, the enhancement layer decoding unit 103, and the band synthesizing unit 104 correspond to the video decoding unit of the present invention, and the base layer decoding unit 102 corresponds to the motion information extracting unit.
  • the enhancement layer decoding unit 103 corresponds to the edge information extraction unit, and the moving object detection unit
  • 106 corresponds to a moving object detecting means.
  • the video decoding means generates and outputs a video by decoding the input video stream.
  • the motion information extraction means extracts and transfers the input video stream power motion information. Output to the moving object detecting means.
  • the edge information extracting means extracts the input video stream power margin information and outputs it to the moving object detecting means.
  • the moving object detecting means detects the input edge information and the motion information force and the moving object.
  • FIG. 4 is a flowchart showing the operation of video decoding apparatus 100 according to Embodiment 1 shown in FIG.
  • the control program stored in a storage device (for example, a ROM or a flash memory) is executed by a CPU (not shown), whereby the control program is executed by software by executing the program. It is also possible to do so.
  • the stream input unit 101 inputs a video stream from outside the video decoding device 100, and a base layer of the video stream is input to the base layer decoding unit 102, and an enhancement layer is subjected to enhanced layer decoding.
  • the output is output to the dangling unit 103 (step S301).
  • base layer decoding section 102 extracts motion information from the base layer input from stream input section 101, and outputs the extracted motion information to moving object detection section 106. Further, enhancement layer decoding section 103 extracts enhancement layer power edge information input from stream input section 101 and outputs the information to moving object detection section 106. Then, the moving object detecting unit 106 detects a moving object using the motion information and the edge information input from the base layer decoding unit 102 and the enhancement layer decoding unit 103, and generates and detects a moving object detection result. The result is output from the result output unit 107 and the band synthesis unit 104 (step S302).
  • the video may or may not include a moving object, and if so, may include only one moving object or may include a plurality of moving objects.
  • step S302 the moving object detection processing in step S302 will be described in detail.
  • FIG. 5 is a flowchart illustrating an example of a procedure of the moving object detection process in FIG.
  • step S401 an edge information extraction process is performed.
  • the enhancement layer decoding unit 103 extracts a code including information up to a specific bit plane from the enhancement layer power input from the stream input unit 101, generates edge information, and generates a moving object detection unit 106. Output to
  • bit plane encoding will be described.
  • the bit plane is a bit string in which only the same bit positions of some numerical data represented by binary numbers are arranged.
  • the method of coding for each bit plane is called bit plane coding.
  • FIG. 3 is a diagram showing the concept of bit plane coding, and the description will proceed assuming that it represents a region having a horizontal component.
  • one column represents one pixel of the horizontal component represented by a binary number (pixel 1, pixel 2).
  • One row represents a bit plane (bit plane 1, bit plane 2) in an area having a horizontal component, that is, only the same bits of each pixel are collected.
  • bit plane the higher the bit plane, the stronger the edge of the horizontal component can be expressed.
  • the edge information is obtained by encoding the information on the most significant bit plane force up to a specific bit plane. For example, it includes information such as the code amount for each bit plane up to a specific bit plane for each area of 8 ⁇ 8 pixels or 16 ⁇ 16 pixels.
  • the bit plane coding is performed such that the code length is shortened when the number of “0s” is large. Therefore, the code length of the bit plane in the horizontal component, the vertical component, and the diagonal component region increases as the number of “1” s increases.
  • FIG. 6 shows a data structure of the enhancement layer according to the present embodiment.
  • the enhancement layer shown in FIG. 6 is a code for one image, and includes information on n bit planes and m regions.
  • the enhancement layer for one image holds the header information 501 of the image, the bit plane representing the most significant bit plane, and the information 502 of the least significant bit plane n.
  • FIG. 7 shows the data structure of bit plane k of the enhancement layer in FIG. 6.
  • Bit plane k of the enhancement layer includes header information 601 of the bit plane, and code 602 of bit plane k of region 1 to region m. .
  • FIG. 8 shows the data structure of the bit plane k of the area j of the enhancement layer in FIG. 7.
  • the bit plane k of the area j of the enhancement layer has the code 701 of the pixel component of the corresponding area and the code of the area. It includes a termination signal 702 that indicates termination.
  • the bit plane information is extracted from the video stream in order from the most significant bit plane to the specific bit plane, and the end signals of those areas are sequentially searched. It is only necessary to count the code length. Therefore, the enhancement layer decoding unit 103 can generate edge information at high speed.
  • step S402 a motion information extraction process is performed. Specifically, the base layer decoding unit 102 extracts the base layer force motion vector information input from the stream input unit 101, generates motion information, and outputs it to the moving object detection unit 106.
  • This motion information is used for motion prediction compensation of the base layer, and includes information on force that is motion prediction compensation code for each area or intra-frame coding, and information on motion level.
  • the information includes the size and direction, information on the image referred to by the motion vector, and information on whether the entire image is a motion prediction compensation code or an intra-frame code.
  • FIG. 9 shows a data structure of a base layer according to the present embodiment.
  • the base layer shown in FIG. 9 is a code for one image and includes information of m regions. That is, the base layer for one image includes the header information 801 of the image and the information 802 of the areas 1 to m.
  • Fig. 10 shows the data structure of the base layer region p in Fig. 9, where the base layer region p indicates that the region header information 901, the motion vector 902, the pixel component code 903, and the code of the region have been completed. Including termination signal 904.
  • Extraction of the motion vector only requires searching the video stream for header information 901 and end signal 904 of those areas, and decoding only the motion vector 902 whose positional force is also at a fixed position. Thereby, base layer decoding section 102 can generate motion information at high speed.
  • step S403 detection processing of the contour of the moving object is performed. Specifically, the moving object detection unit 106 detects a contour area of the moving object using the motion information and the edge information input from the base layer decoding unit 102 and the enhancement layer decoding unit 103, The result is stored in the moving object detection unit 106.
  • a code length obtained from a bit plane of a horizontal component, a vertical component, and a diagonal component for a certain area, for example, each code from the most significant bit plane to a three-bit plane Condition 1 is that the total code length of the quantity is greater than or equal to the threshold A.
  • this threshold A is a reference value for determining a weak edge.
  • the condition 2 is that the total code length of the above-mentioned area is equal to or less than the threshold value B.
  • This threshold value B is a reference value for identifying an image that is not an edge such as a striped pattern.
  • FIGS. 11A to 11C show examples of horizontal components in an 8 ⁇ 8 pixel area, respectively.
  • pixel values are represented by binary values, and the most significant bit plane force is black if it contains "1" by a specific bit plane, and white if it does not contain "1".
  • Fig. 11A shows the horizontal component when noise or small points exist in the area
  • Fig. 11B shows the horizontal component when a vertical line exists in the area
  • Fig. 11C shows the entire horizontal component. For example, it shows the horizontal component when it is a part of a stripe pattern.
  • 11A, 11B, and 11C in ascending order of the number of non-zero values included in the regions. The same applies to the vertical component and the diagonal component.
  • the threshold value A is 8 and the threshold value B is 32, it can be determined that the area shown in FIG. 11B where the relationship of the threshold value A and the total value ⁇ the threshold value B is satisfied includes a line appearing in the contour of the object. . Note that threshold A is equal to threshold B.
  • threshold value A may be used, and it may be determined that an area where the relationship of threshold value A ⁇ the total value is satisfied includes a line that appears in the contour of the object.
  • a certain area determined as a contour is a force that is a contour of a moving object is determined by whether or not the following condition 3 or condition 4 is satisfied.
  • condition 3 is that the magnitude of the motion vector of the area is smaller than the threshold value C, and the movement of the target moving object needs to move to a certain degree or more.
  • Condition 4 is that the magnitude of the difference vector between the motion vector of the area and the surrounding motion vector is smaller than the threshold value D. This determines whether the moving object moves in the same way as the surroundings. The number of surrounding motion vectors need not be one. Condition 4 in that case will be described. First, a plurality of surrounding motion vectors are extracted. The magnitude of the difference vector from the motion vector of the area is obtained. Condition 4 in this case is that the sum of the magnitudes of the difference vectors is less than the threshold value D.
  • condition 4 the following condition other than the above can be assumed for the condition 4.
  • the sum of squares of the difference between the X direction component (horizontal component) of the motion vector of the region and the surrounding region and the Y direction component (vertical method component) The variance can also be used as a reference, calculated as the sum of the square sums of the differences.
  • Condition 4 in this case is that the variance is less than threshold D. If condition 4 is satisfied, the motion vector of the area is assumed to have the same direction and size as the surroundings, and it is determined that the area is not a moving object.
  • the calculation of the variance is not limited to this, and the variance may be calculated as a value obtained by summing the product of the absolute value of the difference between the magnitudes of the motion vectors and the absolute value of the angle difference in the surrounding area. It is not limited to these as long as it can be determined whether or not the motion vector of the region has a different direction and size from the surrounding motion vectors.
  • the condition 4 or the condition 5 it is determined that the area is not a moving object area. It should be noted that, as in the case of intra-frame encoding of the entire image, the motion vector is not included! / In the frame, the outline is not determined, and the frame including the motion vector is waited for. This is a force that cannot detect motion from a frame without a motion vector.
  • the moving object detection unit 106 determines that the region satisfying the condition 3 or the condition 4 among the regions determined as the object contour from the above conditions 1 and 2 is not the contour of the moving object. This is because the contour of a moving object moves at a different speed from the surroundings.
  • step S404 detection processing of the inside of the moving object is performed.
  • the moving object detection unit 106 detects an area inside the moving object using the motion information input from the base layer decoding unit 102 and the stored detection result of the outline of the moving object. .
  • the detection result of the internal area is stored in the moving object detection unit 106.
  • condition for determining that a certain area is inside the moving object is when the following condition 5 or condition 6 is satisfied.
  • Condition 5 is that the moving object is in the vicinity of the contour or the area determined to be inside the moving object.
  • the variance in the magnitude and direction of the motion vector is less than the threshold value E.
  • the threshold value E is a reference value when it is determined that the contour and the inside of the moving object move at the same speed.
  • Condition 6 is that the moving object is surrounded by a contour or a region determined to be inside, which is a force in which the inside of the moving object is surrounded by the contour.
  • step S405 processing for removing erroneous detection of a moving object is performed.
  • the moving object detection unit 106 removes the erroneously detected area from the stored detection results of the outline of the moving object and the internal area, generates a moving object detection result, and outputs a detection result output unit 107 and a band synthesis unit 104. Output to
  • the condition for determining that the area is an erroneously detected area is that there are few areas around the moving object that are determined to be contours or inside. If an extremely small moving object is detected, erroneous detection is possible. It is because the nature is high.
  • the moving object detection unit 106 generates a region force moving object detection result of the moving object obtained as described above.
  • the moving object detection result is, for example, as follows.
  • the first is information describing, for each region, whether the region is a moving object or not.
  • the method of detecting a moving object is not limited to the method of detecting a moving object using a motion vector, and other methods may be used in combination with the edge information of the present invention.
  • the moving object detection method of the present embodiment if the base layer includes a motion vector and the enhancement layer includes a code up to a bit plane of a certain bit position, transmission is performed at a low bit rate. Therefore, even if the image quality is poor, it is possible to detect a moving object at high speed, with high accuracy, and with a low processing load.
  • step S303 the result of detecting the moving object is output.
  • the detection result output unit 107 outputs the coordinates of the area of the moving object input from the moving object detection unit 106 to the outside.
  • step S 304 base layer decoding processing is performed.
  • the base layer The decoding unit 102 performs motion prediction compensation decoding on the base layer of the video stream input from the stream input unit 101, generates a reduced image, and outputs the reduced image to the band synthesis unit 104.
  • step S 305 enhancement layer decoding processing is performed.
  • the enhancement layer decoding unit 103 performs bit plane decoding on the enhancement layer of the video stream input from the stream input unit 101 to generate a horizontal component, a vertical component, and a diagonal component, Output to band synthesis section 104.
  • band combining section 104 combines the reduced image input from base layer decoding section 102 and the horizontal, vertical, and diagonal components input from enhancement layer decoding section 103 into a band. Then, a decoded image is generated and output to the video output unit 105. Further, band combining section 104 may use the moving object detection result input from moving object detecting section 106 to emphasize a region including the moving object in the decoded image.
  • the band synthesis unit 104 performs processing such as coloring the decoded video only in the area of the moving object area or enclosing the moving object area with a frame. Further, the value of all the pixels of the reduced image obtained by decoding the base layer may be set to “0” to generate an image having only the contour by performing band synthesis, and further, the area of the moving object region may be emphasized.
  • step S307 a video output process is performed. Specifically, video output section 105 outputs the decoded video input from band synthesis section 104 to the outside.
  • step S304 Since the processing up to the force processing (step S307) is not performed, it is possible to detect a moving object at a higher speed and with a lower processing load.
  • step S308 an end determination process is performed.
  • the stream input unit 101 determines whether or not there is a subsequent video stream, and terminates the process if the video decoding apparatus 100 does not need to detect a moving object any more and decode the video. If not, return to step S301.
  • Step S307 is performed after the moving object detection processing (Step S302 and Step S303), but is not limited thereto, and the moving object detection processing is performed in parallel with the decoding processing of the base layer and the enhancement layer. It is possible.
  • the enhancement layer can include not only the horizontal direction component, the vertical direction component, and the diagonal direction component but also information about the difference between the reduced image and the image obtained by decoding the base layer.
  • information on the horizontal component, the vertical component, and the diagonal component obtained by directly subdividing the input image, and the motion generated by motion prediction compensation
  • the base layer using the motion prediction code and the horizontal, vertical, and diagonal components can be extracted.
  • a moving object can be detected with high speed, high accuracy, and a low processing load without decoding a video stream that is an enhancement layer using bit plane coding.
  • the edge information it is possible to extract the edge information from the video stream of the enhancement layer from the video stream of the base layer, and to show that the motion information does not move. Processing such as extraction of edge information is stopped when there is In addition, when the edge information indicates that there is no edge, processing such as extraction of motion information can be stopped to reduce the processing load, and the contour of the object can be reduced at high speed. Can be detected. At this time, either of the extraction of the motion information and the extraction of the edge information may be performed first, or they may be performed in parallel.
  • the detection of a moving object can be performed only by using a motion vector and edge information of a part of a bit plane, a low bit rate such as a situation where a communication speed is limited. , It is possible to detect a moving object at high speed and with high efficiency.
  • the enhancement layer decoding unit 103 extracts edge information necessary for detecting a moving object
  • the base layer decoding unit 102 extracts motion information. Since the video decoding process and the moving object detection process can share the means and processes of the sections, the detection of the moving object and the decoding of the video can be performed simultaneously and at high speed. The size of the entire apparatus can be reduced.
  • enhancement layer decoding section 103 generates start signal included in bit plane header 601 in the video stream, and end signal 702 for each area such as 8 ⁇ 8 pixels. It is possible to generate edge information at high speed simply by searching for and counting the code length between identification signals.
  • base layer decoding section 102 searches for an identification signal for each area such as, for example, 8 ⁇ 8 pixels in the video stream, and the identification signal power is determined. It is possible to generate motion information at high speed only by decoding the motion vector at the position.
  • moving object detecting section 106 detects the contour of the moving object based on the edge information and the motion information, detects the inside of the moving object based on the motion information and the result of the detection, In addition, by removing erroneous detection, it is possible to detect a moving object with high accuracy.
  • band combining section 104 emphasizes the area of the moving object in the decoded video, and performs band synthesis on the reduced video in which the base layer is decoded without band combining.
  • the detection result of the moving object can be detected and chewed by the monitoring person.
  • Embodiment 2 is an application of the moving object detection method and apparatus according to the present invention to a video surveillance system.
  • the video surveillance system has an automatic tracking camera equipped with a video encoding device.
  • a moving object in the video is detected at high speed, with high accuracy, and with a low processing load. It automatically tracks and enables efficient video monitoring.
  • FIG. 12 is a diagram showing a configuration of a video surveillance system according to Embodiment 2 to which the moving object detection method and device of the present invention are applied.
  • This video monitoring system has a video monitoring device 1100, a communication network 1110, and N automatic tracking power cameras 1121 to 112N.
  • the automatic tracking camera corresponds to the imaging device of the present invention.
  • FIG. 13 is a block diagram showing a configuration of automatic tracking cameras 1121 to 112N according to the second embodiment.
  • the automatic tracking camera shown in FIG. 13 corresponds to the automatic tracking camera 1121 in the video surveillance system shown in FIG.
  • the automatic tracking camera 1121 includes an imaging unit 1201, a video encoding unit 1202, and an imaging control unit 1203.
  • the other automatic tracking cameras 1122 to 112N have the same configuration.
  • imaging unit 1201 corresponds to the imaging unit of the present invention
  • imaging control unit 1203 corresponds to the imaging control unit of the present invention
  • the imaging unit 1201 outputs an image captured by performing an imaging function operation such as pan, tilt, and zoom to the video encoding unit 1202.
  • the video encoding unit 1202 divides the input video into bands, and generates a video stream including information on the horizontal component, the vertical component, and the diagonal component, and a motion vector generated by motion prediction compensation. I do.
  • the imaging control unit 1203 receives information on a target to be tracked and a result of detection of a moving object, and generates and outputs a control signal for performing pan-tilt-zoom to the imaging unit 1201.
  • FIG. 14 is a block diagram illustrating a configuration of the video encoding unit 1202, and illustrates a moving object according to the present invention. This corresponds to a video encoding device to which the detection method and device are applied.
  • video encoding unit 1202 includes video input unit 1301, band division unit 1302, basic layer encoding unit 1303, enhancement layer encoding unit 1304, stream output unit 1305, moving object detection It has a unit 1306 and a detection result output unit 1307.
  • band division section 1302, base layer coding section 1303, and enhancement layer coding section 1304 correspond to the video coding section of the present invention, and base layer coding section 1303 extracts motion information.
  • the enhancement layer coding unit 1304 corresponds to edge information extraction means, and the moving object detection unit 1306 corresponds to moving object detection means.
  • the video encoding unit encodes the input video to generate and output a video stream.
  • the band division unit 1302 constituting the band division unit divides the input image into bands to generate a reduced image, a horizontal component, a vertical component, and a diagonal component.
  • the horizontal component, the vertical component, and the diagonal component are coded as an enhancement layer using a bit plane code.
  • the base layer coding unit 1303 extracts motion information from the generated video stream and outputs the extracted motion information to the moving object detection unit 1306.
  • Enhancement layer encoding section 1304 also extracts the edge information from the generated video stream power and outputs it to moving object detection section 1306.
  • the moving object detection unit 1306 detects the input edge information and the moving information force moving object.
  • the stream output unit 1305 and the detection result output unit 1307 correspond to the output unit of the present invention.
  • FIG. 15 is a flowchart showing the operation of the automatic tracking camera 1121 shown in FIG. Note that the flowchart shown in FIG. 15 is executed in a software manner by executing a control program stored in a storage device (not shown, for example, a ROM or a flash memory) by a CPU (not shown). It is also possible to make it.
  • a control program stored in a storage device (not shown, for example, a ROM or a flash memory) by a CPU (not shown). It is also possible to make it.
  • an imaging process is performed in step S1401. Specifically, the imaging unit 1201 captures a video to be monitored, and outputs an input image to the video input unit 1301 of the video encoding unit 1202. Further, the imaging unit 1201 outputs information of the pan / tilt / zoom and the installation location to the detection result output unit 1307 of the video encoding unit 1202.
  • a video encoding process is performed.
  • the video encoding unit 1202 encodes the input video input from the imaging unit 1202 to generate a video stream, and simultaneously detects a moving object to generate a moving object detection result.
  • the generated video stream and the moving object detection result are output to the receiving unit 1101 of the video monitoring device 1100 via the communication network 1110. Further, it outputs the moving object detection result to the imaging control unit 1203.
  • step S1403 an imaging control process is performed. More specifically, the image capturing control unit 1203 outputs a target tracking command input from the camera group control unit 1102 of the video monitoring device 1100 via the communication network 1100, and a moving object detection result input from the video coding unit. , And generates a pan / tilt / zoom control signal and outputs the control signal to the imaging unit 1201. The imaging unit 1201 performs pan-tilt-zoom based on the control signal input from the imaging control unit 1203.
  • the imaging control unit 1203 adjusts the Generates a control signal to pan and tilt. If there is a deviation between the coordinates for capturing the suspicious person to be supplemented and the coordinates of the area of the moving object indicated by the moving object detection result, the imaging control unit 1203 corrects the deviation and generates a control signal. Is also good. Further, the camera may be panned so that the moving object to be tracked always occupies a certain area with respect to the screen.
  • control signal may be generated so that all of the plurality of moving objects are included in the video.
  • a control signal for causing the imaging unit 1201 to swing in order to capture a wide area may be generated!
  • step S1404 if there is no need to perform video monitoring, such as when the power of the automatic tracking camera 1121 is turned off, the process ends. Otherwise, the process returns to step S1401.
  • step S 1402 in FIG. 15 will be described in detail.
  • FIG. 16 is a flowchart showing the operation of the video encoding unit 120. Note that the flowchart shown in FIG. 16 executes a control program stored in a storage device (not shown) (for example, a ROM or a flash memory) by a CPU (not shown). It is also possible.
  • a storage device for example, a ROM or a flash memory
  • step S1501 video input processing is performed. Specifically, the video input unit 1301 inputs an input image from the imaging unit 1201 of the automatic tracking camera 1121 and outputs the input image to the band division unit 1302.
  • step S1502 band division processing is performed. More specifically, the input image input from the video input unit 1301 is divided into bands to generate a reduced image, a horizontal component, a vertical component, and a diagonal component. The horizontal direction component, the vertical direction component, and the diagonal direction component are output to the converting unit 1303 to the enhancement layer coding unit 1304.
  • step S1503 base layer coding processing is performed. Specifically, base layer coding section 1303 generates a base layer by performing motion prediction compensation coding on the reduced image input from band division section 1302, and outputs the base layer to stream output section 1305. Also, motion information obtained at the time of motion prediction compensation is output to the moving object detection unit 1306.
  • step S1504 enhancement layer coding processing is performed. Specifically, the extended layer coding unit 1304 generates an enhancement layer by bit plane coding the horizontal component, the vertical component, and the diagonal component input from the band division unit 1302, and generates a stream output. Output to part 1 305. In addition, edge information obtained at the time of bit plane encoding is output to moving object detection section 1306.
  • step S1505 a stream output process is performed. Specifically, the stream output unit 1305 receives the base layer input from the base layer coding unit 1303 and the enhancement layer input from the enhancement layer coding unit 1304 via the communication network 1110 to the video monitoring device 1100. Output to communication unit 1101.
  • step S1506 a moving object detection process is performed. Specifically, the moving object detection unit 1306 detects a moving object using the motion information input from the base layer coding unit 1303 and the edge information input from the enhancement layer coding unit 1304, The moving object detection result is generated and output to the detection result output unit 1307.
  • step S1507 a detection result output process is performed. Specifically, the detection result output
  • the power unit 1307 transmits, via the communication network 1110, the moving object detection result input from the moving object detection unit 1306 and information such as pan / tilt / zoom and the installation position input from the imaging unit 1201 of the automatic tracking camera 1121. Output to the receiving unit 1101 of the video monitoring device 1100.
  • the video monitoring device 1100 has a receiving unit 1101, an image recognition unit 1102, and a camera group control unit 1103.
  • the image recognition unit 1102 corresponds to the image recognition unit of the present invention.
  • the image recognition unit 1102 receives a video stream and a detection result of a moving object, performs detailed image recognition, and outputs the image recognition result to the camera group control unit 1103. I do.
  • the camera group control unit 1103 corresponds to the camera group control unit of the present invention, inputs the result of image recognition, and generates and outputs target information to be tracked to the cameras 1121 to 112N.
  • FIG. 17 is a flowchart showing the operation of the video monitoring device 1100.
  • step S1601 reception processing is performed. Specifically, the receiving unit 1101 inputs the video stream and the moving object detection result from the automatic tracking camera 1121 via the communication network 1110, and outputs them to the image recognition unit 1102.
  • step S1602 an image recognition process is performed. Specifically, the video stream is decoded using the video stream input from the image recognition unit 1102 and the moving object detection result input from the reception unit 1101, and the detection of a person's face using various known image recognition methods is performed. Authentication and the like are performed, and the result is generated and output to the camera group control unit 1103. Further, the image recognition unit 1102 can perform the processing at high speed by not performing the image recognition except for the area of the moving object included in the moving object detection result.
  • step S1603 a camera control process is performed. Specifically, the camera group control unit 1103 uses the image recognition result input from the image recognition unit 1102 to , And outputs a target tracking command to the imaging control unit 1203 of the automatic tracking camera 1121 via the communication network 1110. Also, when a new tracking is required for the other automatic tracking cameras 1122 to 112N based on the image recognition result of the automatic tracking camera 1121, a new target tracking command is generated and the corresponding automatic tracking camera is generated via the communication network 1110. Output to the image section 1203 of 1122 to 112N.
  • the camera group control unit 1103 uses the coordinates and enlargement to make the suspicious person larger.
  • a target tracking command including a rate and the like is generated. If the suspicious person is present in the video but the automatic tracking camera 1121 cannot capture the suspicious person's face, the automatic tracking camera 1122 generates a target tracking instruction to cause the suspicious person to be photographed. Then, a target tracking command for causing the automatic tracking camera 1121 to capture a wide range including the suspicious person is generated.
  • step S 1604 a termination determination is made, and if there is no need to perform video monitoring such as when the power of the video monitoring device 1100 is turned off, the process returns to step S 1601 otherwise.
  • FIG. 18 is a sequence diagram showing the operation of the video monitoring system according to the present embodiment.
  • step S1701 First, when the auto-tracking camera 1121 captures an image of a monitoring target, a video stream including information on a horizontal component, a vertical component, and a diagonal component, and a motion vector generated by motion prediction compensation. Is generated, the moving object detection results are obtained, and these are transmitted to the video monitoring device 1100 via the communication network 1110 (step S1701).
  • the video monitoring device 1100 decodes the received video stream, and recognizes the target object using the information of the moving object detection result. Then, a target tracking command for tracking the target object is transmitted to the automatic tracking camera (step S1702).
  • the automatic tracking camera 1121 controls the imaging unit to track the target. Then, the video stream or the like at this time is transmitted to the video monitoring device 1100 (step S1703).
  • step S1702 and step S1703 described above are repeated.
  • automatic tracking The video stream or the like from the camera 1121 is always transmitted to the video monitoring device 1100 regardless of the presence or absence of a command from the video monitoring device 1100.
  • the video surveillance system is configured to encode and compress a video in order to transmit the video from the automatic tracking camera to the video monitoring device via the communication network.
  • a moving object is simultaneously detected and the result information can be notified to the video monitoring device. There is no need to detect moving objects. Thereby, the processing of the video monitoring device can be reduced.
  • the automatic tracking camera in an image monitoring system that receives an image captured by an automatic tracking camera located in a remote place and monitors and tracks the image with an image monitoring device, the automatic tracking camera
  • a video stream containing information on the horizontal, vertical, and diagonal components of the captured image and the motion vector generated by motion prediction compensation Since video encoding processing and moving object detection processing can be performed, high-precision moving object detection and video encoding can be performed simultaneously and at high speed, and the scale of the entire system Can also be reduced.
  • the automatic tracking camera can control the panning / tilting / zoom imaging function in accordance with an instruction from the video monitoring device obtained based on the detection result of the moving object. Therefore, it is possible to efficiently monitor moving objects and eventually suspicious persons.
  • the video monitoring device recognizes only the area of the moving object based on the detection result of the moving object input together with the video stream.
  • the load can be reduced, and the accuracy of image recognition is improved.
  • this makes it possible to provide a video monitoring system capable of controlling more automatic tracking cameras and monitoring efficiently.
  • Embodiment 3 is a moving object detection method and apparatus according to the present invention.
  • a video stream having a base layer and enhancement layer power is also provided.
  • This section describes a method for detecting a moving object using only the video stream of the enhancement layer in the stream.
  • the video stream of the enhancement layer handled in this embodiment is based on ISO / IEC 14496-2
  • FIG. 19 is a block diagram showing a configuration of a moving object detection device 1900 according to Embodiment 1 to which the moving object detection method and device of the present invention are applied.
  • moving object detection apparatus 1900 includes stream input section 1901, motion information extraction section 1902, edge information extraction section 1903, moving object detection section 1904, detection result output section 190
  • stream input section 1901 inputs only the video stream of the enhancement layer.
  • the motion information extraction unit 1902 corresponds to the motion information extraction means, and the edge information extraction unit 1902
  • the moving object detection unit 1904 corresponds to moving object detection means.
  • the motion information extracting means also extracts the motion information from the input video stream power of the enhancement layer and outputs it to the moving object detecting means.
  • the edge information extracting means also extracts the edge information from the input video stream power of the extended layer and outputs it to the moving object detecting means.
  • the moving object detecting means detects the input edge information and the motion information force and the moving object.
  • FIG. 20 is a flowchart showing the operation of moving object apparatus 1900 of Embodiment 3 shown in FIG.
  • the flowchart shown in FIG. 20 is executed by software by executing a control program stored in a storage device (not shown, such as a ROM or a flash memory) by a CPU (not shown). It is also possible to do so.
  • the stream input unit 1901 inputs a video stream of the enhancement layer from outside the moving object detection device 1900, and outputs it to the motion information extraction unit 1902 and the edge information extraction unit 1903 (step S2001).
  • motion information extracting section 1902 extracts motion information from the enhancement layer input from stream input section 1901, and outputs the motion information to moving object detecting section 1904 (step S2002).
  • the edge information extraction unit 1903 also extracts edge information from the enhancement layer power input from the stream input unit 1902, and outputs it to the moving object detection unit 1904 (step S2003).
  • the motion vector of the entire frame area is stored at the head of the enhancement layer of one frame, and information of the bit plane is stored subsequently. Therefore, the stream input unit 1901 inputs up to the motion vector video stream, the motion information extraction unit 1902 generates motion information, and inputs the bit plane video stream only when there is motion in the frame, and inputs the edge information extraction unit 1903. May be output.
  • the stream input unit 1901 inputs up to the motion vector video stream
  • the motion information extraction unit 1902 generates motion information
  • the edge information extraction unit 1903. May be output.
  • a moving object detection unit 1904 detects a moving object using the motion information input from the motion information extraction unit 1902 and the edge information input from the edge information extraction unit 1903, and implements the embodiment. As in the case of 1, a moving object detection result is generated and output to the detection result output unit 1905 (steps S2004 to S2006).
  • the detection result output unit 1905 outputs the coordinates of the area of the moving object input from the moving object detection unit 1904 to the outside (step S2007).
  • the stream input unit 1901 determines whether or not there is a subsequent video stream. If the moving object detection device 1900 does not detect any more moving objects, the process ends. If not, the process returns to step S2001. (Step S 2008).
  • the moving object detection device of the present invention extracts motion information from a video stream that has been video-encoded using hierarchical coding and motion prediction compensation coding, which divide the video into a plurality of layers and encode it.
  • Motion information extracting means for extracting edge information from the video stream It has a configuration including edge information extracting means, and moving object detecting means for detecting a moving object using the motion information and the edge information and outputting the detection result.
  • the edge information extraction means may further include, among bit plane information obtained by bit plane encoding the image, the most significant bit plane color N (N is a natural number) bit bits The bit plane information up to the plane is also extracted as edge information of the video stream.
  • an edge having a specific strength or more can be detected, and a contour of an object can be detected at high speed.
  • the contour of an object can be detected only on a bit plane at or above a certain bit position, and a bit plane with less than a certain bit position is required to receive a required video stream via a communication network with a slow communication speed.
  • high-precision detection can be performed at a low bit rate.
  • the video stream is further divided into a plurality of regions, and the moving object detection means determines that the sum of the code lengths of the bit plane information in the region is smaller than If the value is equal to or greater than a predetermined first value, the area is determined as a contour area of the moving object.
  • the moving object detection means may further include: when a total of code lengths of the bit plane information in the area is equal to or less than a predetermined second value, The region is determined as a contour region of the moving object.
  • the contour of the object is a line
  • a certain region includes too many horizontal components, vertical components, and diagonal components, for example, it is a region including a stripe pattern. Yes, it is possible to determine that it is not the contour of the moving object and prevent erroneous detection.
  • the motion information extraction means may further include The motion vector detecting unit extracts a motion vector that is determined as a contour region of the object, and
  • the area is determined to be a contour area of the moving object.
  • the motion information extracting means further extracts a region force first motion vector determined to be a contour region of the moving object, and detects a position in the vicinity of the region.
  • a moving object detecting means for extracting a second motion vector, and measuring a magnitude of a difference vector between the first motion vector and the second motion vector. If the measured value is equal to or less than a predetermined fourth value, the selected area is determined to be an internal area of the moving object.
  • the motion information extracting means selects a plurality of areas, extracts a motion vector from each of the selected areas, and the moving object detecting means further comprises: Calculating the magnitude of the difference vector between the first motion vector and the motion vector of the selected area, and calculating the sum of the magnitudes of the difference vectors for all the selected areas as the measurement value. is there.
  • the region of the outline of the moving object in the video has a different speed from the surrounding region, so that a plurality of regions other than the outline of the moving object are not regions of the moving object! / , And the detection accuracy of the moving object can be improved.
  • the moving object detection means may further include a motion vector of the area determined to be an internal area of the moving object, and a motion vector of an area located near the area. If the magnitude of the difference vector with respect to the motion vector is equal to or smaller than a predetermined fifth value, it is determined that the moving object is inside the area.
  • the area of the moving object moving at a certain speed that is not determined to be the moving object is determined.
  • the area can be detected, and the accuracy of detection of the moving object can be improved.
  • the moving object detection means may further include a region surrounded by the outline region of the moving object or an area determined to be an internal region of the moving object, and Is determined to be the internal area of
  • the moving object detection means further includes a contour area or an inner area of the second moving object near the contour area or the inner area determined as the first moving object. If the number of regions determined to be regions is equal to or greater than a predetermined sixth value, the outline region or the inner region determined to be the first moving object is re-determined to be the first moving object. Things.
  • the moving object detection method of the present invention is a method for detecting a moving object of a video stream, wherein the moving object detection device for detecting the moving object executes the processing by dividing the image into a plurality of layers and encoding the moving image. Extracting video stream power and motion information that have been video-encoded using hierarchical coding and motion prediction compensation coding; extracting the video stream power and edge information; and extracting the extracted motion information. And detecting the moving object using the edge information.
  • the moving object detection program of the present invention uses a computer for detecting a moving object in a video stream using a hierarchical code and a motion prediction compensation code, which divide a video into a plurality of layers and encode the video. Extracting motion information from the video stream encoded in the video stream, extracting the video stream force edge information, and detecting a moving object using the extracted motion information and the edge information. And the steps to be performed. [0179] According to this program, it is possible to detect the outline of an object without decoding the video stream, and further, it is possible to detect a moving object from motion information, and to move at high speed, with high accuracy, and with a low processing load. Objects can be detected.
  • the video decoding device of the present invention is a video decoding means for decoding a video stream coded by hierarchical coding and motion prediction compensation coding by dividing a video into a plurality of layers. And moving object detection means for detecting a moving object from the motion information and the edge information extracted when the video decoding means decodes the video stream.
  • the video decoding device and the moving object detection device can share some processing and means, and can simultaneously perform video decoding and moving object detection at a high speed. In addition, it is possible to reduce the scale of the entire apparatus.
  • the video stream is divided into a plurality of regions, and the moving object detecting means determines in advance that the sum of the code lengths of the bit plane information in the region is predetermined.
  • the region is determined as a contour region of the moving object.
  • the region including the horizontal direction component, the vertical direction component, and the diagonal direction component exists in the region only by checking the code amount of the bit plane up to the bit position of a certain threshold value.
  • the number of edges can be determined, and the contour of the object can be detected at high speed.
  • the moving object detecting means may further include a control unit that determines whether the sum of the code lengths of the bit plane information in the area is equal to or less than a predetermined second value.
  • the area is determined as a contour area of a moving object.
  • the contour of the object is a line, when a certain region includes too many horizontal components, vertical components, and diagonal components, for example, it is a region including a striped pattern. Yes, it is possible to determine that it is not the contour of the moving object and prevent erroneous detection.
  • the video decoding device further generates a video in which the area of the moving object detected by the moving object detection means is emphasized.
  • the observer can easily detect the moving object.
  • the video decoding means further generates a video composed of edge components, and displays only the area of the moving object detected by the moving object detection means in an emphasized manner. It is something.
  • the bit rate of the base layer is extremely low due to the limitation of the communication speed, etc., and the image quality is extremely poor. Even when only a video can be generated, the outline alone may be able to recognize the details. .
  • the video encoding apparatus provides a video encoding scheme for generating a video stream encoded using hierarchical encoding and motion prediction compensation encoding that divides an image into a plurality of layers.
  • the video encoding means and the moving object detection means can share some processing and means, and can simultaneously perform video encoding and detection of the moving object at a high speed. In addition, it is possible to reduce the scale of the entire apparatus.
  • the imaging device of the present invention includes imaging means for inputting a video, a video encoding apparatus according to the present invention for encoding the video input by the imaging means, and detection of a moving object output from the moving object detection means. It has imaging control means for controlling an imaging function for the imaging means based on the result, and an output section for outputting a video stream and a detection result of a moving object.
  • a moving object can be detected in the process of generating a video stream generated for transmitting a video to a remote location. Therefore, in video monitoring or the like, a suspicious person or the like moves at high speed. In addition to being able to continue detecting and photographing as an object, the video can be transmitted and video monitoring can be performed efficiently.
  • the imaging control means may control the imaging means so that the area of the area of the moving object output by the moving object detection means is a fixed ratio to the entire area of the input video. Is controlled. [0195] With this configuration, the moving object and its surroundings can be included in the video, and the moving object of interest can be monitored efficiently.
  • the video surveillance system provides an image capturing apparatus according to the present invention, a video stream received from the image capturing apparatus, a video stream received from the image capturing apparatus, and a detection result of the moving object. And a video monitoring device for performing image recognition.
  • a moving object can be detected in the process of generating a video stream generated for transmitting a video to a remote place, and image recognition processing of an area other than the moving object is omitted. Since image recognition can be performed at high speed and with a low processing load, it is possible to detect a suspicious person or the like as a moving object at high speed and continue shooting in video monitoring.
  • image recognition is not limited to detection of a moving object, but refers to automatic discrimination means using a machine image, including recognition of a person's face and authentication of a person.
  • the video stream is further hierarchized and coded into a base layer and an enhancement layer, and the motion information extracting means includes a video stream power of the base layer.
  • the motion information is extracted, and the edge information extracting means extracts the edge information of the video stream of the extended layer.
  • the video stream is further encoded by being hierarchized into a base layer and an enhancement layer, and the motion information extracting means includes a video stream power of the enhancement layer.
  • the motion information is extracted, and the edge information extracting means extracts the edge information of the video stream of the enhancement layer.
  • the moving object detection process can be performed only with the video stream of the enhancement layer, and the contour of the object can be detected with a high speed and a small number of video streams.
  • the present specification is based on Japanese Patent Application No. 2004-161053 filed on May 31, 2004 and Japanese Patent Application No. 2005-035627, filed on February 14, 2005. All of these details are included here. Industrial applicability
  • the present invention is useful for a moving object detection device that detects a moving object from a video stream generated by encoding a video, and detects a moving object at high speed without decoding a video stream. Suitable to do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

 移動物体の検出を高速かつ高精度かつ低処理負荷で行うことができる移動物体検出装置。本装置において、画像を縮小画像、水平方向成分、垂直方向成分および対角方向成分に分割する帯域分割方法、および、動き予測補償符号化を用いて映像符号化された映像ストリームから動きの情報を抽出する動き情報抽出手段(102)と、映像ストリームの最上位ビット平面から順に1以上のビット平面から水平方向成分、垂直方向成分および対角方向成分の情報を抽出するエッジ情報抽出手段(103)と、抽出した動き情報とエッジ情報とを用いて移動物体を検出し、その検出結果を出力する移動物体検出手段(106)とを有することにより、映像ストリームを復号化する必要がないので、高速かつ高精度かつ低処理負荷で移動物体を検出することができる。  

Description

移動物体検出装置および移動物体検出方法
技術分野
[0001] 本発明は、映像を符号ィ匕して生成した映像ストリームカゝら移動物体を検出する移動 物体検出装置および方法に関する。
背景技術
[0002] 従来より、この移動物体検出装置としては、例えば、特許文献 1に記載されているよ うなものがあった。
[0003] この移動物体検出装置は、映像ストリームを復号ィ匕することなぐ動き予測補償符 号ィ匕方式に用いた動きベクトルを抽出し、動きベクトルをある領域内の物体の動きと みなして、高速に移動物体を検出するものである。図 1は、特許文献 1に記載された 従来の移動物体検出装置を示すものである。
[0004] 図 1において、可変長復号部 1801で復号化された、画像ブロックの符号ィ匕モード、 動き補償モードおよび動きベクトル情報と、模様情報検出部 1802で検出された模様 情報とは、移動物体検出処理部 1803へ送られる。移動物体検出処理部 1803は、こ れらの情報を用いて、この画像ブロックが移動物体である力否かを判別する。この判 別には、動きベクトル、空間的類似性判断、時間的類似性判断等を用いて行う。 特許文献 1:特開平 10— 75457号公報
発明の開示
発明が解決しょうとする課題
[0005] し力しながら、上記従来の構成では、必ずしも物体の動きを正確に表して 、な!/、動 きベクトルのみに依存しているので、精度が良いとは言えな力つた。すなわち、動きべ タトルの生成方法としては、符号化中の領域に対して前後の画像から符号化の圧縮 率が高くなる参照領域を探索し、その探索した領域への参照を動きベクトルとするこ とが多い。このため、動きベクトルのみを用いた移動物体の検出は精度が良くなかつ た。
[0006] 本発明の目的は、画像を縮小画像、水平方向成分、垂直方向成分および対角方 向成分に分割する帯域分割方法、および、動き予測補償符号ィ匕を用いて映像符号 ィ匕された映像ストリームから、移動物体の検出を高速かつ高精度かつ低処理負荷で 行うことができる移動物体検出装置および方法を提供することである。
課題を解決するための手段
[0007] 本発明の移動物体検出装置は、映像を複数レイヤに分けて符号ィ匕する階層符号 化および動き予測補償符号ィ匕を用いて映像符号化された映像ストリームから、動き 情報を抽出する動き情報抽出手段と、前記映像ストリームからエッジ情報を抽出する エッジ情報抽出手段と、前記動き情報と前記エッジ情報とを用いて移動物体を検出 し、当該検出結果を出力する移動物体検出手段とを有する構成をとる。
[0008] 本発明の移動物体検出方法は、映像ストリーム力 移動物体を検出する方法であ つて、前記移動物体を検出する移動物体検出装置が実行するところの、映像を複数 レイヤに分けて符号ィ匕する階層符号化、および、動き予測補償符号化を用いて映像 符号ィ匕された映像ストリーム力 動き情報を抽出するステップと、前記映像ストリーム 力 エッジ情報を抽出するステップと、抽出した前記動き情報と前記エッジ情報とを 用いて移動物体を検出するステップとを有するものである。 発明の効果
[0009] 本発明によれば、画像を縮小画像、水平方向成分、垂直方向成分および対角方 向成分に分割する帯域分割方法、および、動き予測補償符号ィ匕を用いて映像符号 ィ匕された映像ストリームから、映像を復号ィ匕することなぐ高速、高精度かつ低処理負 荷で移動する物体の輪郭を検出することが可能になる。また、それと同時に映像の復 号ィ匕を行うことができる。
図面の簡単な説明
[0010] [図 1]従来の移動物体検出装置の構成を示す図
[図 2]本発明の実施の形態 1による映像復号ィ匕装置の構成を示す図
[図 3]本発明の実施の形態 1におけるビット平面符号ィ匕の概念図
[図 4]本発明の実施の形態 1による映像復号ィ匕装置の動作を示すフローチャート
[図 5]本発明の実施の形態 1による映像復号ィ匕装置の移動物体検出処理の動作を 示すフローチャート [図 6]本発明の実施の形態 1における拡張レイヤのストリーム構造図
[図 7]本発明の実施の形態 1における拡張レイヤのビット平面 kのストリーム構造図
[図 8]本発明の実施の形態 1における拡張レイヤの領域 jのビット平面 kのストリーム構 造図
[図 9]本発明の実施の形態 1における基本レイヤのストリーム構造図
[図 10]本発明の実施の形態 1における基本レイヤの領域 jのストリーム構造図
[図 11]図 11Aは、本発明の実施の形態 1における 8 X 8画素領域における水平方向 成分の一例を表した図、図 11Bは、本発明の実施の形態 1における 8 X 8画素領域 における水平方向成分の他の例を表した図、図 11Cは、本発明の実施の形態 1にお ける 8 X 8画素領域における水平方向成分のさらに他の例を表した図
[図 12]本発明の実施の形態 2による映像監視システムの構成を示す図
[図 13]本発明の実施の形態 2による自動追尾カメラの構成を示す図
[図 14]本発明の実施の形態 2による映像符号ィ匕装置の構成を示す図
[図 15]本発明の実施の形態 2による自動追尾カメラの動作を示すフローチャート
[図 16]本発明の実施の形態 2による映像符号ィ匕装置の動作を示すフローチャート
[図 17]本発明の実施の形態 2による映像監視装置の動作を示すフローチャート
[図 18]本発明の実施の形態 2による映像監視システムの動作を示すシーケンス図
[図 19]本発明の実施の形態 3による映像復号ィ匕装置の構成を示す図
[図 20]本発明の実施の形態 3による映像復号ィ匕装置の動作を示すフローチャート 発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
[0012] (実施の形態 1)
実施の形態 1は、本発明に係る移動物体検出方法および装置を、映像復号化装置 に適用したものである。つまり、映像ストリームを復号ィ匕すると同時に、映像内にある 移動物体を高速かつ高精度で検出できるようにしたものである。
[0013] 初めに、本実施の形態で用いる映像ストリームについて説明する。この映像ストリー ムは基本レイヤと拡張レイヤとからなり、基本レイヤは、単独で復号化し低解像度の 映像を得ることができる。拡張レイヤは、基本レイヤの画質を向上して高解像度の映 像を得ることが可能な付加情報であり、水平 ·垂直 ·対角方向のエッジ成分 (水平方 向成分、垂直方向成分および対角方向成分)を含む。
[0014] 次に、この映像ストリームを生成する方法を説明する。
[0015] まず、入力画像を帯域分割して、縮小画像、水平成分、垂直成分、対角成分を生 成する。また、縮小画像を動き予測補償符号化により、単独で映像を復号化可能な 基本レイヤとして符号化する。そして水平方向成分、垂直方向成分および対角方向 成分をビット平面符号ィ匕により、基本レイヤを復号ィ匕した映像を高画質ィ匕するための 拡張レイヤとして符号化する。
[0016] ここで、帯域分割について説明する。帯域分割では、画像を縮小画像、水平成分、 垂直成分、および対角成分の 4つの成分に分割する。この帯域分割は、ウェーブレツ ト変換や、ハイパスフィルタとローパスフィルタとダウンサンブラの組合せを用いるなど により行う。また、帯域分割して得た、縮小画像 ·水平方向成分、垂直方向成分、およ び対角方向成分は、帯域合成によってもとの画像に復元することが可能である。この 帯域分割によって得られる水平方向成分、垂直方向成分、および対角方向成分とは 、数学的に計算可能な近隣画素との画素値の差であり、必ずしも、物体の輪郭を表 す訳ではない。例えば、白黒の横縞模様は、その色の境目に強い垂直成分が横線と なって現われる。
[0017] 図 2は、本発明の移動物体検出方法および装置を適用した実施の形態 1に係る映 像復号ィ匕装置 100の構成を示すブロック図である。
[0018] 図 2において、映像復号ィ匕装置 100は、ストリーム入力部 101、基本レイヤ復号化 1
02、拡張レイヤ復号化部 103、帯域合成部 104、映像出力部 105、移動物体検出 部 106、検出結果出力部 107を有する。
[0019] なお、基本レイヤ復号ィ匕部 102と拡張レイヤ復号ィ匕部 103と帯域合成部 104とが本 発明の映像復号ィ匕手段に相当し、基本レイヤ復号化部 102が動き情報抽出手段に 相当し、拡張レイヤ復号ィ匕部 103がエッジ情報抽出手段に相当し、移動物体検出部
106が移動物体検出手段に相当する。
[0020] ここで、映像復号化手段は、入力した映像ストリームを復号ィ匕して映像を生成して 出力する。動き情報抽出手段は、入力した映像ストリーム力 動き情報を抽出して移 動物体検出手段に出力する。エッジ情報抽出手段は、入力した映像ストリーム力 ェ ッジ情報を抽出して移動物体検出手段に出力する。移動物体検出手段は、入力した エッジ情報と動き情報力 移動物体を検出する。
[0021] 次に、以上のように構成された映像復号ィ匕装置 100の動作を説明する。
[0022] 図 4は、図 2に示す実施の形態 1の映像復号ィ匕装置 100の動作を表すフローチヤ ートである。なお、図 4に示すフローチャートは、図示しない記憶装置(例えば ROM やフラッシュメモリなど)に格納された制御プログラムを、同じく図示しない CPUが実 行することにより、プログラムの実行によりソフトウェア的に実行されるようにすることも 可能である。
[0023] まず、ストリーム入力部 101が、映像復号ィ匕装置 100の外部から映像ストリームを入 力し、映像ストリームの基本レイヤを基本レイヤ復号ィ匕部 102へ、拡張レイヤを拡張レ ィャ復号ィ匕部 103に出力する (ステップ S301)。
[0024] 次に、基本レイヤ復号ィ匕部 102が、ストリーム入力部 101から入力した基本レイヤか ら動き情報を抽出し移動物体検出部 106に出力する。また、拡張レイヤ復号化部 10 3が、ストリーム入力部 101から入力した拡張レイヤ力 エッジ情報を抽出して移動物 体検出部 106に出力する。そして、移動物体検出部 106が、基本レイヤ復号化部 10 2と拡張レイヤ復号ィ匕部 103から入力した動き情報とエッジ情報を用いて移動物体の 検出を行い、移動物体検出結果を生成し検出結果出力部 107と帯域合成部 104〖こ 出力する (ステップ S302)。
[0025] なお、映像は、移動物体を含むこともあれば含まないこともあり、また、含む場合に も移動物体が 1つであることもあれば複数であることもある。
[0026] 以下に、ステップ S302の移動物体検出処理について詳しく説明を行う。
[0027] 図 5は、図 4の移動物体検出処理の手順の一例を示すフローチャートである。
[0028] まず、ステップ S401では、エッジ情報の抽出処理を行う。具体的には、拡張レイヤ 復号ィ匕部 103が、ストリーム入力部 101から入力した拡張レイヤ力も特定のビット平 面までの情報を含む符号を抽出し、エッジ情報を生成して移動物体検出部 106に出 力する。
[0029] ここで、ビット平面符号ィ匕について説明する。 [0030] このビット平面とは、 2進数で表された幾つかの数値データの同じビット位のみを並 ベたビット列のことである。ビット平面ごとに符号ィ匕する方法をビット平面符号化とよび 、 Weiping. Li, Overview of Fine Granularity scalability in MPEG— 4 Video Standard , IEEE Transaction on Circuits and Systems for Video Technology, vol.11, pp.301— 317, Mar.2001に記述されるようにデータの品質を調整する能力に優れて 、る。
[0031] 図 3はビット平面符号ィ匕の概念を示した図であり、水平方向成分のある領域を表す ものとして説明を進める。
[0032] 図 3において、 1列は、水平成分の 1画素を 2進数で表現したものを表す (画素 1、 画素 2)。 1行は、水平方向成分のある領域におけるビット平面を表し (ビット平面 1、ビ ット平面 2)、すなわち、各画素の同じ位のビットのみを集めたものである。ビット平面 は、上位のビット平面であるほど、水平方向成分の強いエッジを表現することが可能 である。このビット平面のうち、最上位ビット平面力も特定のビット平面までの情報を並 ベたものを符号化したものがエッジ情報である。例えば 8 X 8画素や 16 X 16画素の 領域ごとの特定ビット平面までのビット平面ごとの符号量などの情報を含む。水平方 向成分、垂直方向成分および対角方向成分は多くの「0」を含むので、ビット平面符 号ィ匕は「0」が多い場合に符号長が短くなるように符号ィ匕する。よって、「1」を多く含む ほど水平方向成分、垂直方向成分および対角方向成分の領域のビット平面は符号 長が長くなる。
[0033] 図 6は本実施の形態の拡張レイヤのデータ構造を表すものである。図 6に示す拡張 レイヤは、 1画像分の符号であり、 n個のビット平面と m個の領域の情報を含む。 1画 像分の拡張レイヤは、画像のヘッダ情報 501、最上位のビット平面を表すビット平面 1力も最下位のビット平面 nの情報 502を保持する。
[0034] 図 7は図 6における拡張レイヤのビット平面 kのデータ構造を表し、拡張レイヤのビッ ト平面 kはビット平面のヘッダ情報 601、領域 1〜領域 mのビット平面 kの符号 602を 含む。
[0035] 図 8は図 7における拡張レイヤの領域 jのビット平面 kのデータ構造を表し、拡張レイ ャの領域 jのビット平面 kは該当する領域の画素成分の符号 701と、領域の符号が終 了したことを表す終端信号 702を含む。 [0036] 以上のようなデータ構造により、ビット平面の情報の抽出は、最上位ビット平面から 特定のビット平面まで、それら領域の終端信号を順に映像ストリーム内から検索し、 領域の終端信号間の符号長を数えるだけでよい。このため、拡張レイヤ復号ィ匕部 10 3は高速にエッジ情報を生成することが可能である。
[0037] 次に、ステップ S402では、動き情報の抽出処理を行う。具体的には、基本レイヤ復 号ィ匕部 102が、ストリーム入力部 101から入力した基本レイヤ力 動きベクトルの情報 を抽出し、動き情報を生成して移動物体検出部 106に出力する。
[0038] この動き情報は、基本レイヤの動き予測補償に用いるものであり、領域ごとの動き予 測補償符号ィ匕であるか、フレーム内符号ィ匕である力の情報、動きべ外ルの大きさと 方向、動きベクトルが参照する画像の情報、および画像全体が動き予測補償符号ィ匕 であるか、フレーム内符号ィ匕であるかの情報などを含む。
[0039] 図 9は本実施の形態の基本レイヤのデータ構造を表すものである。図 9に示す基本 レイヤは、 1画像分の符号であり、 m個の領域の情報を含む。すなわち、 1画像分の 基本レイヤは、画像のヘッダ情報 801と、領域 1〜領域 mの情報 802とを含む。図 10 は図 9における基本レイヤの領域 pのデータ構造を表し、基本レイヤの領域 pは領域 のヘッダ情報 901、動きベクトル 902、画素成分の符号 903、および、領域の符号が 終了したことを表す終端信号 904を含む。
[0040] 動きベクトルの抽出は、それら領域のヘッダ情報 901や終端信号 904を映像ストリ 一ムカも検索し、その位置力も定位置にある動きベクトル 902のみを復号ィ匕するだけ でよい。これにより、基本レイヤ復号ィ匕部 102は高速に動き情報を生成することが可 能である。
[0041] ステップ S403では、移動物体の輪郭の検出処理を行う。具体的には、移動物体検 出部 106が、基本レイヤ復号ィ匕部 102と拡張レイヤ復号ィ匕部 103とから入力した動き 情報とエッジ情報を用いて移動物体の輪郭の領域を検出し、結果を移動物体検出 部 106に記憶する。
[0042] ここで、輪郭の領域の検出方法について、以下に説明する。
[0043] すなわち、ある領域に対する水平方向成分、垂直方向成分および対角方向成分の ビット平面から求めた符号長、例えば最上位ビット平面から 3ビット平面までの各符号 量の合計符号長が閾値 A以上であることを条件 1とする。なお、この閾値 Aは弱いェ ッジと判定する基準値である。
[0044] また、上記の領域の合計符号長が閾値 B以下であることを条件 2とする。この閾値 B は縞模様のようなエッジでない画像を識別するための基準値である。
[0045] そして、領域が含むエッジ情報が点力線か面を表すものであるか否かを判別し、上 記の領域の合計符号長が、これら条件 1と条件 2とを満足するとき、物体の輪郭に現 われる線であると判定する。以下に、具体的な例を、図 11を用いて説明する。
[0046] 図 11Aから図 11Cは、それぞれ、 8 X 8画素領域における水平方向成分の例を表 したものである。説明を簡単にするため、画素値を 2値で表しており、最上位ビット平 面力も特定のビット平面までに" 1 "を含むならばマスを黒くし、" 1 "を含まないものは 白く表す。図 11 Aは領域内にノイズや小さ ヽ点などが存在する場合の水平方向成分 を示し、図 11Bは領域内に縦線が存在する場合の水平方向成分を示し、図 11Cは 領域内全てが例えば縞模様の一部である場合の水平方向成分を示す。図 11Aから 図 11Cで表される領域をそれぞれ符号化すると、領域が含む 0以外の値の多さに応 じて符号量は小さい順に図 11A、図 11B、図 11Cとなる。垂直方向成分と対角方向 成分についても同様である。このとき、閾値 Aが 8、閾値 Bが 32とすると、閾値 Aく前 記合計値 <閾値 Bの関係が成立する図 11Bに示す領域は物体の輪郭に現われる線 を含むと判定することができる。なお、閾値 Aく閾値 Bである。
[0047] また、より簡便な輪郭抽出としては、閾値 Aのみを利用して、閾値 A<前記合計値 の関係が成立する領域は、物体の輪郭に現れる線を含むと判定することもできる。
[0048] さらに、輪郭と判定したある領域が移動物体の輪郭である力否かは、次の条件 3あ るいは条件 4を満たすか否かにより行う。
[0049] すなわち、条件 3は、領域の動きベクトルの大きさが閾値 C未満であることであり、対 象とする移動物体の動きはある程度以上の動きをしている必要があるからである。
[0050] 条件 4は、領域の動きベクトルと、周囲の動きベクトルとの差分ベクトルの大きさが閾 値 D未満であることである。これは、移動物体が周囲とは同じ動きをするか否かを判 断する。なお、周囲の動きベクトルは一つでなくても良い。その場合の条件 4につい て説明する。まず、周囲の複数の動きベクトルを抽出し、周囲の動きベクトル毎に、領 域の動きベクトルとの差分ベクトルの大きさを求める。この場合の条件 4は、差分べク トルの大きさの合計値が閾値 D未満であることである。
[0051] なお、条件 4について上記以外として次の条件も想定できる。例えば周囲の動きべ タトルとして複数の動きベクトルを選択した場合、領域と周囲の領域の動きベクトルの X方向成分 (水平方向成分)の差分の 2乗和と、同じく Y方向成分 (垂直方法成分)の 差分の 2乗和の合計で計算したもの (以下、分散)を基準とすることもできる。この場 合の条件 4は、上記分散が閾値 D未満であることである。条件 4を満たせば、領域の 動きベクトルは周囲と同じ方向や大きさを持つものとし、移動物体でないと判断する。 また、分散の計算はこれに限らず、動きベクトルの大きさの差分の絶対値と角度の差 分の絶対値の積を周囲領域で合計した値で計算しても良い。領域の動きベクトルが 周囲の動きベクトルと異なる方向や大きさを持つかどうかを判断できるものであれば、 これらに限らない。
[0052] そして、この条件 4あるいは条件 5を満たすとき、その領域は移動物体の領域でな いと判定する。なお、画像全体をフレーム内符号ィ匕しているように、動きベクトルを含 まな!/、フレームでは輪郭の判断をせずに、動きベクトルを含んで 、るフレームを待つ ようにする。これは、動きベクトルのないフレームからは動きを検出することができない 力 である。
[0053] 移動物体検出部 106は、上記の条件 1と条件 2とから物体の輪郭と判定した領域の うち、条件 3、又は条件 4を満たす領域を、移動物体の輪郭ではないと判定する。これ は、移動する物体の輪郭は、周囲と異なる速度をもって動くからである。
[0054] 次に、ステップ S404では、移動物体の内部の検出処理を行う。具体的には、移動 物体検出部 106が、基本レイヤ復号ィ匕部 102から入力した動き情報と、前記記憶し た移動物体の輪郭の検出結果を用いて、移動物体の内部の領域を検出する。内部 の領域の検出結果を移動物体検出部 106に記憶する。
[0055] ここで、内部の領域を検出する方法について、以下に説明する。
[0056] すなわち、ある領域を移動物体の内部であると判定する条件は次に示す条件 5ある いは条件 6を満たす場合である。
[0057] 条件 5は、移動物体の輪郭または内部と判定した領域の近傍にあり、近傍の領域と の動きベクトルの大きさと方向の分散が閾値 E未満であることであり、閾値 Eは移動物 体の輪郭と内部とが同一速度で動くと判定するときの基準値である。
[0058] 条件 6は、移動物体の輪郭または内部と判定した領域に囲まれていることであり、こ れは移動物体の内部は輪郭で囲まれているものだ力 である。
[0059] 次に、ステップ S405では、移動物体の誤検出を除去する処理を行う。具体的には
、移動物体検出部 106が、記憶してある移動物体の輪郭と内部の領域の検出結果 から、誤検出した領域を除去し、移動物体検出結果を生成し検出結果出力部 107と 帯域合成部 104に出力する。
[0060] この誤検出した領域であることの判定条件は、移動物体の輪郭または内部と判定し た領域が周囲に少ないことであり、あまりに小さい移動物体を検出した場合には、誤 検出の可能性が高いからである。
[0061] 移動物体検出部 106は、上記のようにして得た移動物体の領域力 移動物体検出 結果を生成する。移動物体検出結果は、例えば以下のようなものである。
[0062] 第 1に、移動物体の領域であるか、そうでないかを領域ごとに記述した情報であり、 第 2に、 1つの移動物体に対してそれに外接する 1つ矩形や楕円を定義し、矩形や 楕円ごとの座標や大きさを記述した情報である。
[0063] なお、移動物体の内部の情報を必要としない場合は、内部の検出の処理を省略し ても良い。
[0064] また、移動物体の検出方法については、動きベクトルを用いた移動物体の検出方 法に限らず、本発明のエッジ情報と組み合わせれば、他の方法を用いても良い。
[0065] 本実施の形態の移動物体検出方法によると、基本レイヤが動きベクトルを含み、拡 張レイヤがあるビット位のビット平面までの符号さえ含んで 、れば、伝送が低ビットレ ートであって、例え画質が悪くても、移動物体の検出を高速かつ高精度かつ低処理 負荷に行うことが可能である。
[0066] 次に、ステップ S303では、移動物体を検出した結果を出力する。具体的には、検 出結果出力部 107が、移動物体検出部 106から入力された移動物体の領域の座標 を外部に出力する。
[0067] 次に、ステップ S 304では、基本レイヤ復号化処理を行う。具体的には、基本レイヤ 復号ィ匕部 102が、ストリーム入力部 101から入力した映像ストリームの基本レイヤを、 動き予測補償復号化して縮小画像を生成し、帯域合成部 104に出力する。
[0068] 次に、ステップ S 305では、拡張レイヤ復号化処理を行う。具体的には、拡張レイヤ 復号ィ匕部 103が、ストリーム入力部 101から入力した映像ストリームの拡張レイヤをビ ット平面復号化して水平方向成分、垂直方向成分および対角方向成分を生成し、帯 域合成部 104に出力する。
[0069] 次に、ステップ S306では、帯域合成処理を行う。具体的には、帯域合成部 104が 、基本レイヤ復号ィ匕部 102から入力した縮小画像と拡張レイヤ復号ィ匕部 103から入 力した水平方向成分、垂直方向成分および対角方向成分を帯域合成し復号画像を 生成し、映像出力部 105に出力する。さらに、帯域合成部 104が、移動物体検出部 1 06から入力した移動物体検出結果を用いて、復号画像の移動物体を含む領域を強 調しても良い。
[0070] ここで、この移動物体の領域の強調にっ 、て説明する。例えば、帯域合成部 104 力 移動物体の領域の部分だけ復号映像を着色する、または、移動物体の領域を枠 で囲むなどの処理を行う。また、基本レイヤを復号ィ匕して得る縮小画像の全画素の値 を「0」として帯域合成して輪郭のみ力もなる画像を生成し、さらに、移動物体の領域 部分を強調しても良い。
[0071] このようにすると、輪郭力 なる映像の中において移動物体のみが非常に目立ち、 複数の監視映像を同時に見る監視者にとって異常や不審人物の発生を検知しやす い。また、通信速度の制限などにより基本レイヤのビットレートが非常に低ぐ画質の 極端に悪い映像しか生成できないときには、輪郭のみの方がむしろ細部を認識でき る場合がある。あるいは、複数のカメラ映像を表示する場合などの、処理能力が限ら れた環境においても、輪郭のみ表示する方が、低処理負荷で、監視上重要な領域を 見やすくすることが可能になる。
[0072] 次に、ステップ S307では、映像出力処理を行う。具体的には、映像出力部 105が 、帯域合成部 104から入力した復号映像を外部に出力する。
[0073] なお、復号ィ匕処理を行わずに移動物体の検出のみを行うことも可能であり、このとき 、映像を得ることはできないが、基本レイヤ復号ィ匕処理 (ステップ S304)から映像出 力処理 (ステップ S307)までの処理をしないので、更に高速かつ低処理負荷で移動 物体を検出することが可能となる。
[0074] 次に、ステップ S308では、終了判定処理を行う。ストリーム入力部 101が、続く映像 ストリームの有無を判定するなどして、映像復号ィ匕装置 100がこれ以上移動物体の 検出を行う必要も映像を復号する必要もなければ処理を終了し、そうでなければステ ップ S 301に戻る。
[0075] なお、上記の説明では基本レイヤ復号化処理 (ステップ S304)乃至映像出力処理
(ステップ S307)を移動物体の検出処理 (ステップ S302とステップ S303)後に行つ ているが、これに限らず、基本レイヤや拡張レイヤの復号化処理と並列して、移動物 体検出処理を行うことが可能である。
[0076] また、帯域分割を用いた他の符号ィ匕方法による映像ストリームの生成方法として、 入力画像を動き予測補償した後に帯域分割を行って、ビット平面符号ィ匕する方法が ある。しかし、この方法では、動き予測補償により前後の画像と差分をとつた画像を帯 域分割しても、物体の輪郭に発生する水平方向成分、垂直方向成分および対角方 向成分を得ることができない。この場合は、全体をフレーム内符号ィ匕した画像の水平 方向成分、垂直方向成分および対角方向成分のみ用いることになる。
[0077] また、拡張レイヤに、水平方向成分、垂直方向成分および対角方向成分のみなら ず、縮小画像と基本レイヤを復号した画像の差分の情報を含めることも可能である。
[0078] 以上のように、本実施の形態 1によれば、入力画像を直接帯域分割して得る水平方 向成分、垂直方向成分および対角方向成分の情報と、動き予測補償によって生成 する動きベクトルを含む映像ストリームから、エッジの情報と動きの情報を抽出する手 段を設けたことにより、動き予測符号ィヒを用いた基本レイヤと水平方向成分、垂直方 向成分および対角方向成分のビット平面符号ィ匕を用いた拡張レイヤ力 なる映像ス トリームを復号ィ匕することなぐ高速かつ高精度かつ低処理負荷に移動物体を検出 することができる。
[0079] また、実施の形態 1によれば、動き情報を基本レイヤの映像ストリームから、エッジ 情報を拡張レイヤの映像ストリーム力 抽出することが可能で、動き情報が動きのな いことを示している場合にエッジ情報の抽出などの処理を中止して処理負荷を軽減 することが可能であり、また、エッジ情報がエッジのないことを示している場合に動き 情報の抽出などの処理を中止して処理負荷を軽減することが可能であり、高速に物 体の輪郭を検出することができる。このとき、動き情報とエッジ情報の抽出はどちらを 先に行っても良ぐまた、並列に行っても良い。
[0080] また、実施の形態 1によれば、移動物体の検出は、動きベクトルと一部のビット平面 のエッジ情報のみで行うことができるので、通信速度が制限された状況など低ビットレ ートの映像ストリームであっても高速かつ高効率に移動物体の検出が可能である。
[0081] また、実施の形態 1では、移動物体の検出に必要なエッジ情報の抽出を拡張レイヤ 復号ィ匕部 103が行い、動き情報の抽出を基本レイヤ復号ィ匕部 102が行うことにより、 映像復号化処理と移動物体検出処理とがー部の手段や処理を共有することができる ので、移動物体の検出と映像の復号化とを同時に、かつ高速に行うことが可能であり 、また、装置全体の規模を小さくすることができる。
[0082] また、実施の形態 1によれば、拡張レイヤ復号ィ匕部 103が、映像ストリーム内にある ビット平面ヘッダ 601に含まれる開始信号や、 8 X 8画素などの領域ごとの終端信号 702を検索し識別信号間の符号長を数えるだけで、高速にエッジ情報を生成するこ とが可能である。
[0083] また、実施の形態 1によれば、基本レイヤ復号ィ匕部 102が、映像ストリーム内の、例 えば、 8 X 8画素などの領域ごとの識別信号を検索し、その識別信号力 決まった位 置にある動きベクトルを復号するだけで、高速に動き情報を生成することが可能であ る。
[0084] また、実施の形態 1によれば、移動物体検出部 106が、エッジ情報と動き情報によ る移動物体の輪郭の検出、動き情報や既に検出した結果による移動物体の内部の 検出、および、誤検出の除去を行うことにより、移動物体の検出を高精度に行うことが 可能である。
[0085] また、実施の形態 1では、帯域合成部 104が、復号ィ匕した映像の移動物体の領域 を強調することや、基本レイヤを復号ィ匕した縮小映像を帯域合成しな 、線画をもち ヽ ることにより、移動物体の検出結果を監視者に検知しゃすくすることが可能である。
[0086] (実施の形態 2) 実施の形態 2は、本発明に係る移動物体検出方法および装置を映像監視システム に適用したものである。映像監視システムは、映像符号化装置を備えた自動追尾カメ ラを有する。つまり、映像を符号ィ匕し映像ストリームを生成すると同時に、映像内にあ る移動物体を高速かつ高精度かつ低処理負荷で検出し、その検出結果をもとに自 動追尾カメラが移動物体を自動追尾し、効率的に映像監視できるようにしたものであ る。
[0087] 以下に、この映像監視システムについて具体的に説明する。
[0088] 図 12は、本発明の移動物体検出方法および装置を適用した実施の形態 2に係る 映像監視システムの構成を示す図である。
[0089] この映像監視システムは、映像監視装置 1100、通信網 1110、 N台の自動追尾力 メラ 1121〜112Nを有する。なお、自動追尾カメラは本発明の撮像装置に相当する
[0090] 図 13は、実施の形態 2に係る自動追尾カメラ 1121乃至 112Nの構成を示すブロッ ク図である。図 13に示す自動追尾カメラは、図 12に示す映像監視システムにおける 自動追尾カメラ 1121に対応する。
[0091] 図 13において、自動追尾カメラ 1121は、撮像部 1201、映像符号ィ匕部 1202、撮 像制御部 1203を有する。他の自動追尾カメラ 1122〜 112Nにつ 、ても同様の構成 を有する。
[0092] なお、撮像部 1201が本発明の撮像手段に相当し、撮像制御部 1203が本発明の 撮像制御手段に相当する。
[0093] ここで、撮像部 1201はパン'ティルト 'ズームなどの撮像機能動作を行って撮像した 映像を映像符号ィ匕部 1202へ出力する。
[0094] 映像符号ィ匕部 1202は、入力した映像を帯域分割して、水平方向成分、垂直方向 成分および対角方向成分の情報と、動き予測補償によって生成する動きベクトルを 含む映像ストリームを生成する。
[0095] 撮像制御部 1203は、追尾する目標の情報と移動物体の検出の結果を入力し、撮 像部 1201に対してパン'ティルト ·ズームを行うための制御信号を生成し出力する。
[0096] 図 14は、映像符号ィ匕部 1202の構成を示すブロック図であり、本発明の移動物体 検出方法および装置を適用した映像符号化装置に相当する。
[0097] 図 14において、映像符号ィ匕部 1202は、映像入力部 1301、帯域分割部 1302、基 本レイヤ符号ィ匕部 1303、拡張レイヤ符号ィ匕部 1304、ストリーム出力部 1305,移動 物体検出部 1306、および検出結果出力部 1307を有する。
[0098] なお、帯域分割部 1302と基本レイヤ符号ィ匕部 1303と拡張レイヤ符号ィ匕部 1304と が本発明の映像符号ィ匕手段に相当し、基本レイヤ符号ィ匕部 1303が動き情報抽出 手段に相当し、拡張レイヤ符号ィ匕部 1304がエッジ情報抽出手段に相当し、移動物 体検出部 1306が移動物体検出手段に相当する。
[0099] ここで、映像符号化手段は、入力した映像を符号ィ匕して映像ストリームを生成して 出力する。これを構成する帯域分割部 1302は、入力画像を帯域分割して、縮小画 像、水平成分、垂直成分、および対角成分を生成したり、縮小画像を動き予測補償 符号化により、単独で映像を復号ィ匕可能な基本レイヤとして符号ィ匕する。また、これ ら水平方向成分、垂直方向成分および対角方向成分をビット平面符号ィヒにより、拡 張レイヤとして符号化する。基本レイヤ符号ィ匕部 1303は、生成した映像ストリームか ら動き情報を抽出して移動物体検出部 1306に出力する。拡張レイヤ符号化部 130 4は、生成した映像ストリーム力もエッジ情報を抽出して移動物体検出部 1306に出 力する。移動物体検出部 1306は、入力したエッジ情報と動き情報力 移動物体を検 出する。なお、ストリーム出力部 1305と検出結果出力部 1307とが本発明の出力部 に相当する。
[0100] 次に、本実施の形態に係る自動追尾カメラ 1121の動作を説明する。図 15は、図 1 3に示す自動追尾カメラ 1121の動作を表すフローチャートである。なお、図 15に示 すフローチャートは、図示しない記憶装置 (例えば ROMやフラッシュメモリなど)に格 納された制御プログラムを、同じく図示しない CPUが実行することにより、プログラム の実行によりソフトウェア的に実行されるようにすることも可能である。
[0101] まず、ステップ S1401により、撮像処理を行う。具体的には、撮像部 1201が、監視 対象の映像を撮像し、入力画像を映像符号化部 1202の映像入力部 1301に出力 する。また、撮像部 1201が、パン'ティルト 'ズームや設置場所の情報を映像符号ィ匕 部 1202の検出結果出力部 1307に出力する。 [0102] 次に、ステップ S1402では、映像符号化処理を行う。映像符号ィ匕部 1202が、撮像 部 1202から入力した入力映像を符号ィ匕して映像ストリームを生成し、同時に移動物 体を検出して移動物体検出結果を生成する。これら生成した映像ストリームと移動物 体検出結果とを、通信網 1110を介して映像監視装置 1100の受信部 1101に出力 する。また、移動物体検出結果を撮像制御部 1203に出力する。
[0103] 次に、ステップ S1403では、撮像制御処理を行う。具体的には、撮像制御部 1203 力 通信網 1100を介して映像監視装置 1100のカメラ群制御部 1102から入力した 目標追尾命令と、映像符号ィ匕部カゝら入力した移動物体検出結果とにより、パン'ティ ルト 'ズームの制御信号を生成し撮像部 1201に出力する。撮像部 1201は、撮像制 御部 1203から入力した制御信号に基づきパン'ティルト ·ズームを行う。
[0104] ここで、この制御信号について説明する。後述する映像監視装置 1100が生成した 目標追尾命令が、例えば、補足すべき不審人物を撮影するための座標や拡大率な どを指定して 、る場合には、撮像制御部 1203はそれにあわせてパン'ティルト ·ズー ムさせる制御信号を生成する。補足すべき不審人物を撮影するための座標と、移動 物体検出結果が示す移動物体の領域の座標にズレがある場合には、撮像制御部 1 203がズレを修正して制御信号を生成してもよい。また、追尾する移動物体が画面に 対して常に一定の面積を占めるようにカメラをパンさせても良い。目標追尾命令が無 いが移動物体検出結果がある場合、移動物体を映像の中心にして撮影する。また、 複数の移動物体が全て映像に収まるように制御信号を生成しても良い。その他、特 に目標追尾命令も移動物体検出結果も無い場合は、広範囲を撮影する目的で撮像 部 1201に首振り運動させる制御信号を生成してもよ!/、。
[0105] 次に、ステップ S1404で、自動追尾カメラ 1121の電源が切られるなど、映像監視を 行う必要がなければ終了し、そうでなければステップ S1401に戻る。
[0106] ここで、図 15におけるステップ S 1402の映像符号ィ匕処理について詳しく説明する。
[0107] 図 16は、映像符号ィ匕部 120の動作を表すフローチャートである。なお、図 16に示 すフローチャートは、図示しない記憶装置 (例えば ROMやフラッシュメモリなど)に格 納された制御プログラムを、同じく図示しない CPUが実行することにより、プログラム の実行によりソフトウェア的に実行することも可能である。 [0108] まず、ステップ S1501では、映像入力処理を行う。具体的には、映像入力部 1301 が、自動追尾カメラ 1121の撮像部 1201から入力画像を入力し帯域分割部 1302に 出力する。
[0109] 次に、ステップ S1502では、帯域分割処理を行う。具体的には、帯域分割部 1302 力 映像入力部 1301から入力した入力画像を帯域分割して縮小画像と水平方向成 分、垂直方向成分および対角方向成分を生成し、縮小画像を基本レイヤ符号化部 1 303に、水平方向成分、垂直方向成分および対角方向成分を拡張レイヤ符号ィ匕部 1 304に出力する。
[0110] 次に、ステップ S1503では、基本レイヤ符号化処理を行う。具体的には、基本レイ ャ符号ィ匕部 1303が、帯域分割部 1302から入力した縮小画像を動き予測補償符号 化して基本レイヤを生成し、ストリーム出力部 1305に出力する。また、動き予測補償 の際に得る動き情報を移動物体検出部 1306に出力する。
[0111] 次に、ステップ S1504では、拡張レイヤ符号化処理を行う。具体的には、拡張レイ ャ符号ィ匕部 1304が、帯域分割部 1302から入力した水平方向成分、垂直方向成分 および対角方向成分をビット平面符号ィ匕して拡張レイヤを生成し、ストリーム出力部 1 305に出力する。また、ビット平面符号ィ匕の際に得られるエッジ情報を移動物体検出 部 1306に出力する。
[0112] 次に、ステップ S1505では、ストリーム出力処理を行う。具体的には、ストリーム出力 部 1305が、基本レイヤ符号ィ匕部 1303から入力した基本レイヤと、拡張レイヤ符号化 部 1304から入力した拡張レイヤを、通信網 1110を介して映像監視装置 1100の受 信部 1101に出力する。
[0113] 次に、ステップ S1506では、移動物体検出処理を行う。具体的には、移動物体検 出部 1306が、基本レイヤ符号ィ匕部 1303から入力した動き情報と、拡張レイヤ符号 化部 1304から入力したエッジ情報とを用 、て移動物体の検出を行 、移動物体検出 結果を生成し、検出結果出力部 1307に出力する。
[0114] なお、移動物体の検出の方法については実施の形態 1と同様であるので、ここでは 詳しく述べない。
[0115] 次に、ステップ S1507では、検出結果出力処理を行う。具体的には、検出結果出 力部 1307が、移動物体検出部 1306から入力した移動物体検出結果と、自動追尾 カメラ 1121の撮像部 1201から入力したパン'ティルト ·ズームや設置位置などの情 報を、通信網 1110を介して映像監視装置 1100の受信部 1101に出力する。
[0116] なお、実施の形態 1に述べた映像復号化装置と同様に、本実施の形態においても 水平方向成分、垂直方向成分および対角方向成分の情報と、動き予測補償によつ て生成する動きベクトルとを含んだ映像ストリームを生成することができれば、他の帯 域分割方法を利用することも可能である。
[0117] 次に、本実施の形態に係る映像監視装置 1100の構成について以下に説明する。
[0118] 図 12において、映像監視装置 1100は、受信部 1101、画像認識部 1102、および カメラ群制御部 1103を有する。
[0119] 画像認識部 1102は本発明の画像認識手段に相当し、映像ストリームと移動物体 の検出結果を入力して、詳細な画像認識を行い、画像認識の結果をカメラ群制御部 1103に出力する。
[0120] カメラ群制御部 1103は本発明のカメラ群制御手段に相当し、画像認識の結果を入 力し、カメラ 1121〜112Nに対して追尾する目標の情報を生成し出力する。
[0121] 次に、上記のように構成された映像監視装置 1100の動作を説明する。
[0122] 図 17は、映像監視装置 1100の動作を表すフローチャートである。
[0123] まず、ステップ S1601により、受信処理を行う。具体的には、受信部 1101が、通信 網 1110を介して自動追尾カメラ 1121からの映像ストリームと移動物体検出結果とを 入力し画像認識部 1102に出力する。
[0124] 次に、ステップ S1602では、画像認識処理を行う。具体的には、画像認識部 1102 力 受信部 1101から入力した映像ストリームと移動物体検出結果を用いて映像ストリ 一ムを復号化し、種々の公知の画像認識方法で人'顔 '物の検出や認証などを行い 、その結果を生成しカメラ群制御部 1103に出力する。また、画像認識部 1102は、移 動物体検出結果が含む移動物体の領域以外は画像認識を行わな ヽようにすること により、処理を高速ィ匕することが可能である。
[0125] 次に、ステップ S1603では、カメラ制御処理を行う。具体的には、カメラ群制御部 1 103が、画像認識部 1102から入力した画像認識結果を用いて自動追尾カメラ 1121 に対する目標追尾命令を生成し、通信網 1110を介して自動追尾カメラ 1121の撮像 制御部 1203に出力する。また、自動追尾カメラ 1121に対する画像認識結果により、 他の自動追尾カメラ 1122〜112Nに新たな追尾の必要が生じた場合、新たな目標 追尾命令を生成し通信網 1110を介して該当する自動追尾カメラ 1122〜 112Nの撮 像部 1203に出力する。
[0126] ここで、目標追尾命令について説明する。
[0127] 画像認識部 1102から入力した画像認識結果が、例えば、映像内に不審人物が存 在することを示す場合、カメラ群制御部 1103はその不審人物を大きく撮影させるた めに座標や拡大率などを含む目標追尾命令を生成する。また、映像内に不審人物 が存在するが自動追尾カメラ 1121では不審人物の顔を撮影することが不可能な場 合、自動追尾カメラ 1122に対してその不審人物を撮影させる目標追尾命令を生成 し、自動追尾カメラ 1121に対して不審人物を含む広い範囲を撮影させる目標追尾 命令を生成する。
[0128] 次に、ステップ S 1604では、終了判定を行い、映像監視装置 1100の電源が切ら れるなど、映像監視を行う必要がなければ終了し、そうでなければステップ S 1601に 戻る。
[0129] 以上のように構成された映像監視システムの動作について以下に説明する。
[0130] 図 18は本実施の形態の映像監視システムの動作を示すシーケンス図である。
[0131] まず、自動追尾カメラ 1121は監視対象を撮影すると、水平方向成分、垂直方向成 分および対角方向成分の情報と、動き予測補償によって生成する動きべ外ルとを含 んだ映像ストリームを生成すると共に、移動物体検出結果を求め、これらを通信網 11 10を介して、映像監視装置 1100へ送信する (ステップ S 1701)。
[0132] 映像監視装置 1100は受信した映像ストリームを復号し、移動物体検出結果の情報 を用いて対象物体の認識を行う。そして、自動追尾カメラに対象物体を追尾するため の目標追尾命令を送信する (ステップ S 1702)。
[0133] 自動追尾カメラ 1121はこれを受けて、撮像部を制御し対象物を追尾する。そして、 このときの映像ストリームなどを映像監視装置 1100へ送信する(ステップ S 1703)。
[0134] 以降、上記のステップ S1702とステップ S1703とが繰り返される。なお、自動追尾 カメラ 1121からの映像ストリーム等は映像監視装置 1100からの命令の有無にかか わらず、常時映像監視装置 1100へ送信される。
[0135] 以上のように、本実施の形態に係る映像監視システムは、通信網を介して自動追 尾カメラから映像監視装置へ映像を送信するために、映像は符号化してデータ圧縮 された映像ストリームとする必要がある。このとき、本発明によれば、映像ストリームを 生成する過程で、同時に移動物体検出を行い、その結果情報を映像監視装置へ通 知することができるので、映像監視装置はあらためて受信した映像ストリーム力 移動 物体の検出をする必要が無くなる。これにより、映像監視装置の処理を軽減すること ができる。
[0136] また、本実施の形態 2によれば、遠隔地にある自動追尾カメラが撮影した画像を受 信して、映像監視装置で映像の監視と追尾を行う映像監視システムにおいて、自動 追尾カメラが、一部の手段や処理を共有して、撮影した画像の水平方向成分、垂直 方向成分および対角方向成分の情報と、動き予測補償によって生成する動きべタト ルとを含んだ映像ストリームに映像符号化する処理と、移動物体検出処理とをするこ とができるので、高精度な移動物体の検出と映像の符号化とを同時に高速に行うこと が可能であり、また、システム全体の規模を小さくすることもできる。
[0137] また、実施の形態 2によれば、自動追尾カメラは移動物体の検出結果をもとに求め られた映像監視装置からの指示で、パン'ティルト 'ズームの撮像機能の制御を行うこ とができるので、移動物体、ひいては不審人物などを効率的に監視することが可能で ある。
[0138] また、実施の形態 2によれば、映像監視装置は上記の映像ストリームとともに入力す る移動物体の検出結果をもとに移動物体の領域のみを画像認識するので、画像認 識処理の負荷を軽減することができるとともに、画像認識の精度が向上する。また、こ れにより、より多くの自動追尾カメラを制御して効率的に監視することが可能な映像監 視システムとすることができる。
[0139] (実施の形態 3)
実施の形態 3は、本発明に係る移動物体検出方法および装置である。
[0140] 本実施の形態では、実施の形態 1と同様に基本レイヤと拡張レイヤ力もなる映像ス トリームのうち拡張レイヤの映像ストリームのみを用いて移動物体を検出する方法を 述べる。本実施の形態で取り扱う拡張レイヤの映像ストリームは、 ISO/IEC 14496-2
Amendment 2に規定される MPEG— 4 FGS(Fine Granularity Scalable coding)の F
GST(FGSTemporal Scalability)のように拡張レイヤの映像ストリームのフレームの先 頭に動きベクトル情報が含まれるものとする。
[0141] 図 19は、本発明の移動物体検出方法および装置を適用した実施の形態 1に係る 移動物体検出装置 1900の構成を示すブロック図である。
[0142] 図 19において、移動物体検出装置 1900は、ストリーム入力部 1901、動き情報抽 出部 1902、エッジ情報抽出部 1903、移動物体検出部 1904、検出結果出力部 190
5を有する。
[0143] 本実施の形態では、実施の形態 1と異なり、ストリーム入力部 1901は拡張レイヤの 映像ストリームのみ入力する。
[0144] なお、動き情報抽出部 1902が動き情報抽出手段に相当し、エッジ情報抽出部 19
03がエッジ情報抽出手段に相当し、移動物体検出部 1904が移動物体検出手段に 相当する。
[0145] ここで、動き情報抽出手段は、入力した拡張レイヤの映像ストリーム力も動き情報を 抽出して移動物体検出手段に出力する。エッジ情報抽出手段は、入力した拡張レイ ャの映像ストリーム力もエッジ情報を抽出して移動物体検出手段に出力する。移動 物体検出手段は、入力したエッジ情報と動き情報力 移動物体を検出する。
[0146] 次に、以上のように構成された移動物体装置 1900の動作を説明する。
[0147] 図 20は、図 19に示す実施の形態 3の移動物体装置 1900の動作を表すフローチヤ ートである。なお、図 20に示すフローチャートは、図示しない記憶装置(例えば ROM やフラッシュメモリなど)に格納された制御プログラムを、同じく図示しない CPUが実 行することにより、プログラムの実行によりソフトウェア的に実行されるようにすることも 可能である。
[0148] まず、ストリーム入力部 1901が、移動物体検出装置 1900の外部から拡張レイヤの 映像ストリームを入力し、動き情報抽出部 1902とエッジ情報抽出部 1903に出力する (ステップ S2001)。 [0149] 次に、動き情報抽出部 1902が、ストリーム入力部 1901から入力した拡張レイヤか ら動き情報を抽出し、移動物体検出部 1904に出力する (ステップ S2002)。
[0150] 次に、エッジ情報抽出部 1903が、ストリーム入力部 1902から入力した拡張レイヤ 力もエッジ情報を抽出し、移動物体検出部 1904に出力する (ステップ S2003)。
[0151] ここで、 MPEG— 4 FGSで規定される FGSTでは、 1フレームの拡張レイヤの先頭 にフレーム全領域の動きベクトルが格納され、それに続 、てビット平面の情報が格納 される。よって、ストリーム入力部 1901が動きベクトルの映像ストリームまでを入力し 動き情報抽出部 1902が動き情報を生成し、フレーム内に動きがある場合のみビット 平面の映像ストリームを入力してエッジ情報抽出部 1903に出力しても良い。これによ り、フレーム内に動きがない場合に、ストリームの入力処理とエッジの抽出処理および 移動物体の検出処理を省略し処理負荷を軽減することが可能である。
[0152] 次に、移動物体検出部 1904が、動き情報抽出部 1902から入力した動き情報とェ ッジ情報抽出部 1903から入力したエッジ情報を用いて移動物体の検出を行い、実 施の形態 1と同様に、移動物体検出結果を生成し検出結果出力部 1905に出力する (ステップ S2004乃至ステップ S 2006)。
[0153] 次に、移動物体を検出した結果を出力する。具体的には、検出結果出力部 1905 力 移動物体検出部 1904から入力された移動物体の領域の座標を外部に出力する (ステップ S2007)。
[0154] 次に、終了判定処理を行う。ストリーム入力部 1901が、続く映像ストリームの有無を 判定するなどして、移動物体検出装置 1900がこれ以上移動物体の検出を行うがな ければ処理を終了し、そうでなければステップ S 2001に戻る(ステップ S 2008)。
[0155] 以上のように、本実施の形態 3によれば、拡張レイヤの映像ストリームのみを入力し 、動き情報抽出部 1902が動き情報を抽出し、エッジ情報抽出部 1903がエッジ情報 を抽出することにより、高速かつ少ない映像ストリームで物体の輪郭を検出することが できる。
[0156] 本発明の移動物体検出装置は、映像を複数レイヤに分けて符号ィ匕する階層符号 化および動き予測補償符号ィ匕を用いて映像符号化された映像ストリームから、動き 情報を抽出する動き情報抽出手段と、前記映像ストリームからエッジ情報を抽出する エッジ情報抽出手段と、前記動き情報と前記エッジ情報とを用いて移動物体を検出 し、当該検出結果を出力する移動物体検出手段とを有する構成をとる。
[0157] この構成によれば、映像ストリームを復号ィ匕することなぐ物体輪郭を検出可能で、 さらに、動きの情報から移動物体の検出が可能で、高速かつ高精度かつ低処理負 荷で移動物体を検出することができる。
[0158] また、本発明の移動物体検出装置は、さらにエッジ情報抽出手段は、画像をビット 平面符号化したビット平面情報のうち、最上位ビット平面カゝら N (Nは自然数)ビット位 ビット平面までのビット平面情報を、前記映像ストリーム力もエッジ情報として抽出する ものである。
[0159] この構成によれば、特定のビット平面まで情報を抽出することで特定の強度以上の エッジを検出することが可能で、高速に物体の輪郭を検出することができる。また、特 定ビット位以上のビット平面だけで物体の輪郭の検出が可能で、特定ビット位未満の ビット平面は必要なぐ映像ストリームを通信速度の遅 、通信網を介して受信して 、る 場合も、低ビットレートで高精度な検出ができる。
[0160] また、本発明の移動物体検出装置は、さらに映像ストリームが複数の領域に分割さ れたものであって、移動物体検出手段は、前記領域内部のビット平面情報の符号長 の合計が予め定めた第 1の値以上である場合に、前記領域を移動物体の輪郭領域 と判定するものである。
[0161] この構成によれば、画像のある領域のある閾値のビット位までのビット平面の符号量 を確認するだけで領域内に存在するエッジの多さを判定することが可能であり、高速 に物体の輪郭を検出することができる。
[0162] また、本発明の移動物体検出装置おいて、さらに移動物体検出手段は、前記領域 内部の前記ビット平面情報の符号長の合計が、予め定めた第 2の値以下である場合 に、前記領域を移動物体の輪郭領域と判定するものである。
[0163] この構成によれば、物体の輪郭は線であるので、ある領域があまりに多くの水平方 向成分、垂直方向成分および対角方向成分を含む場合、例えば、それは縞模様を 含む領域であり、移動物体の輪郭ではないと判定し誤検出を防ぐことが可能である。
[0164] また、本発明の移動物体検出装置おいて、さらに動き情報抽出手段は、前記移動 物体の輪郭領域と判断された領域カゝら動きベクトルを抽出し、移動物体検出手段は
、前記動きベクトルの大きさが予め定めた第 3の値以上である場合に、前記領域を移 動物体の輪郭領域であると判定するものである。
[0165] この構成によれば、動 、て 、な 、物体を移動物体でな 、と判定し、移動物体の検 出の精度を向上することができる。
[0166] また、本発明の移動物体検出装置において、さらに動き情報抽出手段は、移動物 体の輪郭領域と判断された領域力 第 1の動きベクトルを抽出するとともに、当該領 域の近傍に位置する領域を選択し、選択した領域力 第 2の動きベクトルを抽出し、 前記移動物体検出手段は、前記第 1の動きベクトルと、前記第 2の動きベクトルとの 差分ベクトルの大きさを測定値として算出し、前記測定値が予め定めた第 4の値以下 である場合、前記選択された領域を移動物体の内部領域であると判定するものであ る。
[0167] この構成によれば、映像の中で移動物体の輪郭の領域は周囲の領域とは異なる速 度を持つので、移動物体の輪郭以外の領域を移動物体の領域ではな!/、と判定し、 移動物体の検出の精度を向上することができる。
[0168] また、本発明の移動物体検出装置において、さらに動き情報抽出手段は、複数の 領域を選択し、それぞれの選択領域から動きベクトルを抽出し、移動物体検出手段 は、前記選択領域毎に、前記第 1の動きベクトルと前記選択された領域の動きべタト ルとの差分ベクトルの大きさを求め、全ての選択領域についての差分ベクトルの大き さの合計を前記測定値として算出するものである。
[0169] この構成によれば、映像の中で移動物体の輪郭の領域は周囲の領域とは異なる速 度を持つので、移動物体の輪郭以外の複数の領域を移動物体の領域ではな!/、と判 定し、移動物体の検出の精度を向上することができる。
[0170] また、本発明の移動物体検出装置において、さらに前記移動物体検出手段は、前 記移動物体の内部領域であると判定された領域の動きベクトルと、前記領域の近傍 に位置する領域の動きベクトルとの差分ベクトルの大きさが予め定めた第 5の値以下 である場合、前記移動物体の領域の内部領域であると判定するものである。
[0171] この構成によれば、ある速度で移動する移動物体の、移動物体と判定していない領 域を検出することが可能で、移動物体の検出の精度を向上することができる。
[0172] また、本発明の移動物体検出装置において、さらに移動物体検出手段は、前記移 動物体の輪郭領域又前記移動物体の内部領域と判定された領域により囲まれた領 域を、移動物体の内部領域であると判定するものである。
[0173] この構成によれば、移動物体の輪郭と判定した内部を移動物体の領域として検出 することが可能で、移動物体の検出の精度を向上することができる。
[0174] また、本発明の移動物体検出装置において、さらに移動物体検出手段は、第 1の 移動物体と判定された輪郭領域又は内部領域の近傍に、第 2の移動物体の輪郭領 域又は内部領域であると判定された領域の数が、予め定めた第 6の値以上の場合、 前記第 1の移動物体と判定された輪郭領域又は内部領域を第 1の移動物体であると 再判定するものである。
[0175] この構成によれば、あまりに小さい領域を移動物体でないと判定することが可能で、 移動物体検出の誤検出を低下することができる。
[0176] 本発明の移動物体検出方法は、映像ストリーム力 移動物体を検出する方法であ つて、前記移動物体を検出する移動物体検出装置が実行するところの、映像を複数 レイヤに分けて符号ィ匕する階層符号化、および、動き予測補償符号化を用いて映像 符号ィ匕された映像ストリーム力 動き情報を抽出するステップと、前記映像ストリーム 力 エッジ情報を抽出するステップと、抽出した前記動き情報と前記エッジ情報とを 用いて移動物体を検出するステップとを有するものである。
[0177] この方法によれば、映像ストリームを復号ィ匕することなぐ物体の輪郭を検出可能で 、さらに、動きの情報から移動物体の検出が可能で、高速かつ高精度かつ低処理負 荷で移動物体を検出することができる。
[0178] 本発明の移動物体検出プログラムは、映像ストリーム力 移動物体を検出するため にコンピュータを、映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕および動き予 測補償符号ィ匕を用いて映像符号化された映像ストリームカゝら動き情報を抽出するス テツプと、前記映像ストリーム力 エッジ情報を抽出するステップと、抽出した前記動 き情報と前記エッジ情報とを用いて移動物体を検出するステップとを実行させるもの である。 [0179] このプログラムによれば、映像ストリームを復号ィ匕することなぐ物体の輪郭を検出 可能で、さらに、動きの情報から移動物体の検出が可能で、高速かつ高精度かつ低 処理負荷で移動物体を検出することができる。
[0180] 本発明の映像復号ィ匕装置は、映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕 および動き予測補償符号ィ匕により符号化した映像ストリームを復号ィ匕する映像復号 化手段と、前記映像復号ィ匕手段が前記映像ストリームを復号ィ匕する際に抽出した動 き情報およびエッジ情報から移動物体を検出する移動物体検出手段とを有するもの である。
[0181] この構成によれば、映像復号装置と移動物体検出装置が、一部の処理や手段を共 有することができ、映像の復号化と移動物体の検出とを同時に高速に行うことが可能 で、かつ、装置全体の規模を小さくすることが可能である。
[0182] また、本発明の映像復号ィ匕装置において、映像ストリームは複数の領域に分割され たものであって、移動物体検出手段は、前記領域内部のビット平面情報の符号長の 合計が予め定めた第 1の値以上である場合に、前記領域を移動物体の輪郭領域と 判定するものである。
[0183] この構成によれば、例えば水平方向成分、垂直方向成分および対角方向成分のあ る領域のある閾値のビット位までのビット平面の符号量を確認するだけで領域内に存 在するエッジの多さを判定することが可能であり、高速に物体の輪郭を検出すること ができる。
[0184] また、本発明の映像復号ィ匕装置おいて、さらに移動物体検出手段は、前記領域内 部の前記ビット平面情報の符号長の合計が予め定めた第 2の値以下である場合に、 前記領域を移動物体の輪郭領域と判定するものである。
[0185] この構成によれば、物体の輪郭は線であるので、ある領域があまりに多くの水平方 向成分、垂直方向成分および対角方向成分を含む場合、例えば、それは縞模様を 含む領域であり、移動物体の輪郭ではないと判定し誤検出を防ぐことが可能である。
[0186] 本発明の映像復号ィ匕装置において、さらに映像復号ィ匕手段は、移動物体検出手 段の検出した移動物体の領域を強調した映像を生成するものである。
[0187] この方法によれば、監視者は容易に移動物体を検知することが可能である。 [0188] 本発明の映像復号ィ匕装置において、さらに前記映像復号化手段は、エッジ成分か らなる映像を生成し、前記移動物体検出手段の検出した移動物体の領域のみを強 調して表示すものである。
[0189] これにより、通信速度の制限などにより基本レイヤのビットレートが非常に低ぐ画質 の極端に悪 、映像しか生成できな ヽときでも、輪郭のみの方が細部を認識できる場 合がある。
[0190] また、輪郭力もなる映像の中において移動物体のみが非常に目立ち、複数の監視 映像を同時に見る監視者にとって異常や不審人物の発生を検知しやすい。あるいは 、複数のカメラ映像を表示する場合など、処理能力が限られた環境においても、低処 理負荷で、監視上重要な領域を見やすく表示することが可能となる。
[0191] 本発明の映像符号ィ匕装置は、映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕 および動き予測補償符号ィ匕を用いて符号ィ匕した映像ストリームを生成する映像符号 化手段と、映像符号化手段が前記映像を符号化する際に動き情報と、映像のエッジ 情報とを抽出して移動物体を検出する移動物体検出手段を有するものである。この 構成によれば、映像符号化手段と移動物体検出手段とが、一部の処理や手段を共 有することができ、映像の符号化と移動物体の検出とを同時に高速に行うことが可能 で、かつ、装置全体の規模を小さくすることが可能である。
[0192] 本発明の撮像装置は、映像を入力する撮像手段と、この撮像手段の入力した映像 を符号化する本発明に係る映像符号化装置と、移動物体検出手段が出力する移動 物体の検出結果に基づき、撮像手段に対して撮像機能を制御する撮像制御手段と 、映像ストリームと移動物体の検出結果とを出力する出力部とを有するものである。
[0193] この構成によって、遠隔地への映像送信のために生成する映像ストリームの生成過 程で、移動物体の検出を行うことができるので、映像監視などにおいて、不審人物な どを高速に移動物体として検出し撮影しつづけることが可能であるとともに、その映像 を送信することができ、映像監視を効率的に行うことができる。
[0194] また、本発明の撮像装置において、撮像制御手段が、前記移動物体検出手段が 出力する移動物体の領域の面積を入力映像の全面積に対して一定の割合となるよう に、撮像手段を制御するものである。 [0195] この構成によって、移動物体とその周囲の状況を映像に収めることが可能で、注目 する移動物体の監視を効率的に行うことができる。
[0196] 本発明の映像監視システムは、本発明に係る撮像装置と、この撮像装置から受信 した映像ストリームを復号ィ匕するとともに、移動物体の検出結果を用いて、検出した 移動物体の領域の画像認識を行う映像監視装置とを有するものである。
[0197] この構成によって、遠隔地への映像送信のために生成する映像ストリームの生成過 程で、移動物体の検出を行うことができ、また、移動物体以外の領域の画像認識処 理を省略し高速かつ低処理負荷で画像認識することができるので、映像監視などに おいて、不審人物などを高速に移動物体として検出し撮影しつづけることが可能であ る。
[0198] なお、本発明において画像認識とは、移動物体の検出に限らず、人'顔 '物の認識 や人の認証を含む、機械による画像を用いた自動判別手段をさす。
[0199] また、本発明の映像復号ィ匕装置において、さらに映像ストリームは、基本レイヤと拡 張レイヤに階層化して符号化され、前記動き情報抽出手段は、前記基本レイヤの映 像ストリーム力 前記動き情報を抽出し、前記エッジ情報抽出手段は、前記拡張レイ ャの映像ストリーム力 前記エッジ情報を抽出するものである。
[0200] この構成によれば、前記動き情報が動きのないことを示している場合に前記エッジ 情報の抽出などの処理を中止して処理負荷を軽減することが可能であり、また、前記 エッジ情報がエッジのな 、ことを示して 、る場合に前記動き情報の抽出などの処理を 中止して処理負荷を軽減することが可能であり、高速に物体の輪郭を検出することが できる。
[0201] また、本発明の映像復号ィ匕装置において、さらに映像ストリームは、基本レイヤと拡 張レイヤに階層化して符号化され、前記動き情報抽出手段は、前記拡張レイヤの映 像ストリーム力 前記動き情報を抽出し、前記エッジ情報抽出手段は、拡張レイヤの 映像ストリーム力 前記エッジ情報を抽出するものである。
[0202] この構成によれば、移動物体の検出処理を、拡張レイヤの映像ストリームのみで行 うことが可能で、高速かつ少ない映像ストリームで物体の輪郭を検出することができる [0203] 本明細書は、 2004年 5月 31日出願の特願 2004— 161053および 2005年 2月 14 日出願の特願 2005— 035627に基づく。これらの内容はすべてここに含めておく。 産業上の利用可能性
[0204] 本発明は、映像を符号ィ匕して生成した映像ストリームカゝら移動物体を検出する移動 物体検出装置に有用であり、映像ストリームを復号ィ匕することなく高速に移動物体を 検出するのに適している。

Claims

請求の範囲
[1] 映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕および動き予測補償符号ィ匕を 用いて映像符号化された映像ストリームから、動き情報を抽出する動き情報抽出手 段と、
前記映像ストリーム力 エッジ情報を抽出するエッジ情報抽出手段と、 前記動き情報と前記エッジ情報とを用いて移動物体を検出し、当該検出結果を出 力する移動物体検出手段と、
を有する移動物体検出装置。
[2] 前記エッジ情報抽出手段は、
画像をビット平面符号ィ匕したビット平面情報のうち、最上位ビット平面力も N (Nは自 然数)ビット位ビット平面までのビット平面情報を、前記映像ストリームからエッジ情報 として抽出する、
請求項 1記載の移動物体検出装置。
[3] 前記映像ストリームは、複数の領域に分割されたものであって、
前記移動物体検出手段は、
前記領域内部のビット平面情報の符号長の合計が予め定めた第 1の値以上である 場合に、前記領域を移動物体の輪郭領域と判定する、
請求項 2記載の移動物体検出装置。
[4] 前記移動物体検出手段は、
前記領域内部の前記ビット平面情報の符号長の合計が、予め定めた第 2の値以下 である場合に、前記領域を移動物体の輪郭領域と判定する、
請求項 3記載の移動物体検出装置。
[5] 前記動き情報抽出手段は、
前記移動物体の輪郭領域と判断された領域力 動きベクトルを抽出し、 前記移動物体検出手段は、
前記動きベクトルの大きさが予め定めた第 3の値以上である場合に、前記領域を移 動物体の輪郭領域であると判定する、
請求項 3記載の移動物体検出装置。
[6] 前記動き情報抽出手段は、
前記移動物体の輪郭領域と判断された領域力 第 1の動きベクトルを抽出するとと もに、当該領域の近傍に位置する領域を選択し、選択した領域力 第 2の動きべタト ルを抽出し、
前記移動物体検出手段は、
前記第 1の動きベクトルと、前記第 2の動きベクトルとの差分ベクトルの大きさを測定 値として算出し、前記測定値が予め定めた第 4の値以下である場合、前記選択され た領域を移動物体の内部領域であると判定する、
請求項 3記載の移動物体検出装置。
[7] 前記動き情報抽出手段は、
複数の領域を選択し、それぞれの選択領域から動きベクトルを抽出し、 前記移動物体検出手段は、
前記選択領域毎に、前記第 1の動きベクトルと前記選択された領域の動きベクトル との差分ベクトルの大きさを求め、全ての選択領域についての差分ベクトルの大きさ の合計を前記測定値として算出する、
請求項 6記載の移動物体検出装置。
[8] 前記移動物体検出手段は、
前記移動物体の内部領域であると判定された領域の動きベクトルと、前記領域の近 傍に位置する領域の動きベクトルとの差分ベクトルの大きさが予め定めた第 5の値以 下である場合、前記移動物体の領域の内部領域であると判定する、
請求項 6記載の移動物体検出装置。
[9] 前記移動物体検出手段は、
前記移動物体の輪郭領域又前記移動物体の内部領域と判定された領域により囲 まれた領域を、前記移動物体の内部領域であると判定する、
請求項 3記載の移動物体検出装置。
[10] 前記移動物体検出手段は、
第 1の移動物体と判定された輪郭領域又は内部領域の近傍に、第 2の移動物体の 輪郭領域又は内部領域であると判定された領域の数が、予め定めた第 6の値以上の 場合、前記第 1の移動物体と判定された輪郭領域又は内部領域を第 1の移動物体で あると再判定する、
請求項 3記載の移動物体検出装置。
[11] 映像ストリーム力 移動物体を検出する方法であって、前記移動物体を検出する移 動物体検出装置が実行するところの、
映像を複数レイヤに分けて符号ィ匕する階層符号化、および、動き予測補償符号ィ匕 を用いて映像符号ィ匕された映像ストリーム力も動き情報を抽出するステップと、 前記映像ストリーム力 エッジ情報を抽出するステップと、
抽出した前記動き情報と前記エッジ情報とを用いて移動物体を検出するステップと を有する移動物体検出方法。
[12] 映像ストリームから移動物体を検出するためにコンピュータを、
映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕および動き予測補償符号ィ匕を 用いて映像符号ィ匕された映像ストリームカゝら動き情報を抽出するステップと、 前記映像ストリーム力 エッジ情報を抽出するステップと、
抽出した前記動き情報と前記エッジ情報とを用いて移動物体を検出するステップと を実行させるための移動物体検出プログラム。
[13] 映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕および動き予測補償符号化によ り符号ィ匕した映像ストリームを復号ィ匕する映像復号ィ匕手段と、
前記映像復号化手段が前記映像ストリームを復号化する際に抽出した動き情報お よびエッジ情報力 移動物体を検出する移動物体検出手段と、
を有する映像復号化装置。
[14] 前記映像ストリームは、複数の領域に分割されたものであって、
前記移動物体検出手段は、
前記領域内部のビット平面情報の符号長の合計が予め定めた第 1の値以上である 場合に、前記領域を移動物体の輪郭領域と判定する、
請求項 13記載の映像復号化装置。
[15] 前記移動物体検出手段は、
前記領域内部の前記ビット平面情報の符号長の合計が予め定めた第 2の値以下で ある場合に、前記領域を移動物体の輪郭領域と判定する、
請求項 14記載の映像復号化装置。
[16] 前記映像復号化手段は、
前記移動物体検出手段の検出した移動物体の領域を強調した映像を生成する、 請求項 15記載の映像復号化装置。
[17] 前記映像復号化手段は、
エッジ成分力 なる映像を生成し、
前記移動物体検出手段の検出した移動物体の領域を強調して表示する、 請求項 13記載の映像復号化装置。
[18] 映像を複数レイヤに分けて符号ィ匕する階層符号ィ匕および動き予測補償符号ィ匕を 用いて符号ィ匕した映像ストリームを生成する映像符号ィ匕手段と、
前記映像符号化手段が前記映像を符号化する際に動き情報と、映像のエッジ情報 とを抽出して移動物体を検出する移動物体検出手段と、
を含む映像符号化装置。
[19] 映像を入力する撮像手段と、
請求項 18記載の映像符号化装置と、
前記移動物体検出手段が出力する移動物体の検出結果に基づき、前記撮像手段 に対して撮像機能を制御する撮像制御手段と、
前記映像ストリームと、前記移動物体の検出結果とを出力する出力部と、 を有する撮像装置。
[20] 前記撮像制御手段が、前記移動物体検出手段が出力する移動物体の領域の面積 を入力映像の全面積に対して一定の割合となるように、撮像手段を制御する、請求 項 19記載の撮像装置。
[21] 請求項 19記載の撮像装置と、
前記撮像装置から受信した前記映像ストリームを復号化するとともに、前記移動物 体の検出結果を用いて、検出した移動物体の領域の画像認識を行う映像監視装置 と、
を有する映像監視システム。
[22] 前記映像ストリームは、基本レイヤと拡張レイヤに階層化して符号化され、 前記動き情報抽出手段は、
前記基本レイヤの映像ストリームから前記動き情報を抽出し、 前記エッジ情報抽出手段は、
前記拡張レイヤの映像ストリームから前記エッジ情報を抽出する、 請求項 1記載の映像復号化装置。
[23] 前記映像ストリームは、基本レイヤと拡張レイヤに階層化して符号化され、 前記動き情報抽出手段は、
前記拡張レイヤの映像ストリームから前記動き情報を抽出し、 前記エッジ情報抽出手段は、
拡張レイヤの映像ストリームから前記エッジ情報を抽出する、
請求項 1記載の映像復号化装置。
PCT/JP2005/009665 2004-05-31 2005-05-26 移動物体検出装置および移動物体検出方法 WO2005117448A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-161053 2004-05-31
JP2004161053 2004-05-31
JP2005-035627 2005-02-14
JP2005035627A JP2007266652A (ja) 2004-05-31 2005-02-14 移動物体検出装置、移動物体検出方法、移動物体検出プログラム、映像復号化装置、映像符号化装置、撮像装置及び映像管理システム

Publications (1)

Publication Number Publication Date
WO2005117448A1 true WO2005117448A1 (ja) 2005-12-08

Family

ID=35451279

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/009665 WO2005117448A1 (ja) 2004-05-31 2005-05-26 移動物体検出装置および移動物体検出方法

Country Status (2)

Country Link
JP (1) JP2007266652A (ja)
WO (1) WO2005117448A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013229806A (ja) * 2012-04-26 2013-11-07 Toshiba Corp 遠隔点検装置および監視装置
JP2016031576A (ja) * 2014-07-28 2016-03-07 クラリオン株式会社 物体検出装置
CN105516650A (zh) * 2014-10-14 2016-04-20 西门子公司 用于检测运动对象的设备和方法
CN113706573A (zh) * 2020-05-08 2021-11-26 杭州海康威视数字技术股份有限公司 一种运动物体的检测方法、装置及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010113129A (ja) * 2008-11-06 2010-05-20 Nikon Corp 画像追尾装置、焦点調節装置、および撮像装置
KR101416957B1 (ko) * 2012-10-09 2014-07-09 주식회사 아이티엑스시큐리티 영상 기록 장치 및 svc 비디오 스트림을 이용한 모션 분석 방법
US9921397B2 (en) 2012-12-11 2018-03-20 Solatube International, Inc. Daylight collectors with thermal control
CA2980037C (en) 2015-03-18 2018-08-28 Solatube International, Inc. Daylight collectors with diffuse and direct light collection
US9816675B2 (en) 2015-03-18 2017-11-14 Solatube International, Inc. Daylight collectors with diffuse and direct light collection
JP6537396B2 (ja) * 2015-08-03 2019-07-03 キヤノン株式会社 画像処理装置、撮像装置および画像処理方法
WO2017094140A1 (ja) 2015-12-02 2017-06-08 三菱電機株式会社 物体検出装置及び物体検出方法
JP6696083B2 (ja) * 2016-05-20 2020-05-20 国際航業株式会社 領域変位算出システム、領域変位算出方法、及び領域変位算出プログラム
WO2018037665A1 (ja) * 2016-08-22 2018-03-01 日本電気株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01318382A (ja) * 1988-06-17 1989-12-22 Matsushita Electric Ind Co Ltd 動き検出装置
JPH1075457A (ja) * 1996-08-29 1998-03-17 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像内の移動物体検出装置
JP2001250118A (ja) * 2000-03-06 2001-09-14 Kddi Corp 動画像内の移動物体検出追跡装置
JP2003032496A (ja) * 2001-07-12 2003-01-31 Sanyo Electric Co Ltd 画像符号化装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01318382A (ja) * 1988-06-17 1989-12-22 Matsushita Electric Ind Co Ltd 動き検出装置
JPH1075457A (ja) * 1996-08-29 1998-03-17 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像内の移動物体検出装置
JP2001250118A (ja) * 2000-03-06 2001-09-14 Kddi Corp 動画像内の移動物体検出追跡装置
JP2003032496A (ja) * 2001-07-12 2003-01-31 Sanyo Electric Co Ltd 画像符号化装置および方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OKUMURA M. ET AL: "Ugoki Tokutyo to Iro Joho o Riyo shita Dobuttai Kenshutsu ni yoru Scene Bunkatsu Shuho ni Kansuru Kento", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU, vol. 103, no. 585, 16 January 2004 (2004-01-16), pages 31 - 36, XP002997043 *
YONEYAMA A. ET AL: "MPEG Video Stream kara no Idobuttai no Kenshutsu", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J81-D-II, no. 8, 25 August 1998 (1998-08-25), pages 1776 - 1786, XP002997044 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013229806A (ja) * 2012-04-26 2013-11-07 Toshiba Corp 遠隔点検装置および監視装置
JP2016031576A (ja) * 2014-07-28 2016-03-07 クラリオン株式会社 物体検出装置
CN105516650A (zh) * 2014-10-14 2016-04-20 西门子公司 用于检测运动对象的设备和方法
CN113706573A (zh) * 2020-05-08 2021-11-26 杭州海康威视数字技术股份有限公司 一种运动物体的检测方法、装置及存储介质
CN113706573B (zh) * 2020-05-08 2024-06-11 杭州海康威视数字技术股份有限公司 一种运动物体的检测方法、装置及存储介质

Also Published As

Publication number Publication date
JP2007266652A (ja) 2007-10-11

Similar Documents

Publication Publication Date Title
US8983121B2 (en) Image processing apparatus and method thereof
US7616782B2 (en) Mesh based frame processing and applications
US8315481B2 (en) Image transmitting apparatus, image receiving apparatus, image transmitting and receiving system, recording medium recording image transmitting program, and recording medium recording image receiving program
US8331617B2 (en) Robot vision system and detection method
JP3926572B2 (ja) 画像監視方法、画像監視装置及び記憶媒体
WO2019076503A1 (en) APPARATUS, METHOD AND COMPUTER PROGRAM FOR ENCODING VOLUMETRIC VIDEO
WO2017221643A1 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
KR20080049063A (ko) 모션 감지 디바이스
CN108012155A (zh) 预拼接图像的视频编码方法、视频解码方法和相关的装置
WO2005117448A1 (ja) 移動物体検出装置および移動物体検出方法
US11503267B2 (en) Image processing device, content processing device, content processing system, and image processing method
KR20120072351A (ko) 디지털 이미지 안정화
WO2003024116A1 (en) Motion estimation and/or compensation
US9584806B2 (en) Using depth information to assist motion compensation-based video coding
US5596370A (en) Boundary matching motion estimation apparatus
WO2017221644A1 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
KR20110111106A (ko) 객체추적 및 로이터링 장치 및 방법
US11044399B2 (en) Video surveillance system
CA2812890C (en) Mesh based frame processing and applications
KR20030049804A (ko) 카메라 움직임 판별 장치 및 방법
Hofer et al. Comparison of Analyze-Then-Compress Methods in Edge-Assisted Visual SLAM
JP3279354B2 (ja) 3次元ボリュームデータの動き補償予測方式
JP2009268065A (ja) 画像処理システム、画像処理方法、およびプログラム
JP2701393B2 (ja) 動画像符号化装置
US6898244B1 (en) Movement vector generating apparatus and method and image encoding apparatus and method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200580000797.4

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005743856

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2005743856

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

NENP Non-entry into the national phase

Ref country code: JP