WO2006008944A1 - 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2006008944A1
WO2006008944A1 PCT/JP2005/012282 JP2005012282W WO2006008944A1 WO 2006008944 A1 WO2006008944 A1 WO 2006008944A1 JP 2005012282 W JP2005012282 W JP 2005012282W WO 2006008944 A1 WO2006008944 A1 WO 2006008944A1
Authority
WO
WIPO (PCT)
Prior art keywords
color
background
pixel
area
gradation value
Prior art date
Application number
PCT/JP2005/012282
Other languages
English (en)
French (fr)
Inventor
Norimichi Ukita
Original Assignee
National University Corporation Nara Institute Ofscience And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University Corporation Nara Institute Ofscience And Technology filed Critical National University Corporation Nara Institute Ofscience And Technology
Priority to EP05765443A priority Critical patent/EP1780673A4/en
Priority to US11/632,932 priority patent/US20080247640A1/en
Publication of WO2006008944A1 publication Critical patent/WO2006008944A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Definitions

  • the present invention relates to an image processing device for identifying a plurality of areas included in an image, an image processing method, an image processing program, and a recording medium on which the program is recorded.
  • the problem of detecting a target (target) such as a moving object from an observed image is one of the most important issues in computer evening vision.
  • color detection that detects a specific color in an image and background difference that detects a changed area from a background image prepared in advance are the basics of target detection. It is used as a technical technique.
  • color detection can set an appropriate threshold for each target color, it is possible to identify subtle color differences.
  • background difference is a method that can detect any evening target without requiring prior knowledge about the target, and can model changes in the background color for each pixel. Because of these advantages, background subtraction is used in many visual systems compared to inter-frame subtraction, where still areas cannot be detected, and face detection / skin color detection, where only predefined targets can be detected. Has been. In particular, excellent results can be expected in an environment where sufficient background information can be learned in advance.
  • Non-Patent Document 1 Organic integration is also performed (see Non-Patent Document 1, for example).
  • pixel colors are expressed in a 6-dimensional YUV color space (identification space).
  • the background color is the identification space.
  • (Yb p , Ub p , Vb p , Yb p , Ub p , Vb p ) T is represented by a 6-dimensional vector (T represents the transposition of the vector).
  • background image data (background color vector) represented by a 6-dimensional vector in the identification space forms a background color region.
  • the input is performed.
  • the color is represented by a 6-dimensional vector (Yb s , Ub s , Vb s , Y i s , U i s , V i s ) T in the identification space.
  • the 6-dimensional vector (Yb s , Ub s , Vb s , Y i s , U i s , V i s ) T identified in the target color area is called the target color vector, the background color area and the target color area
  • the boundary is called the decision boundary.
  • This method requires more processing time because the number of dimensions is larger than normal (3D), but real-time operation is possible due to the efficient use of the cache for nearest neighbor identification.
  • the background difference is a change in the appearance of a background object due to a change in illumination (change in illumination intensity or illumination color) or a shadow, or when there is a non-stationary area in the background, such as a fluctuating leaf or flag. Cannot accurately identify the background and the target. Furthermore, the background difference has a problem that it is difficult to detect a target having a color similar to the background.
  • color detection is a method for discriminating between a color set included in all pixels of the background image and each target color, and thus becomes an identification problem for handling a huge variety of color sets. Therefore, the distance between different classes is inevitably reduced, and the identification performance is degraded (missing location information). Furthermore, since the target color is given manually, there is a problem that it cannot be directly applied to a target detection system that operates autonomously (non-autonomous).
  • Non-Patent Document 1 which integrates background difference and color detection, there is a problem in that it cannot respond to illumination changes because only one background image is referenced. For example, even if a set of background images is recorded under various lighting conditions, the current method does not have a standard for selecting background images to be sequentially referenced. Also, since the background information is expressed as an independent YUV value, the position information is missing. In other words, co-occurrence between adjacent pixels is not considered at all. In addition, there is a problem that manpower is required to specify an appropriate evening color.
  • Non-Patent Document 1 Takekazu Kato, Tomoyuki Shibata, Toshikazu Wada: “Integrating Background Difference and Color Detection Using Nearest Neighbor Discriminator”, Information Processing Research Report CVIM- 142-5, Vol.145, no.5 , pp.31-36, Jan. 2004. Disclosure of the invention
  • An object of the present invention is to provide an image processing apparatus, an image processing method, an image processing program, and a recording medium on which the program is recorded, which can detect a small difference in color.
  • an image processing apparatus provides an image capturing unit that captures a predetermined area and converts it into image data, and background image data including only a background area captured by the image capturing unit.
  • the coordinates of each pixel and the color gradation value of each pixel are structured and stored in an identification space, a background color storage means for forming a background color area, and a background area and an object imaged by the imaging means
  • a distance in the identification space between the color gradation value of each pixel and the background color area in the input image data consisting of the area is calculated, and each pixel of the input image data is calculated based on the calculated distance.
  • Class identification means for identifying whether the color gradation value belongs to the background color area or the other background color area, and the color gradation value of each pixel by the class identification means In the area Then when it is determined, it is preferably provided with a target color storage means for structuring and storing the coordinates and the identification space of each pixel with color gradation values of each pixel.
  • background image data in which only the background region is imaged by the imaging means is obtained.
  • the background color storage means structures and stores the coordinates of the pixels of the background image data and the color gradation values of the pixels in the identification space.
  • a set of background image data in this identification space is called a background color area.
  • an input image image in which the background area and the target area are imaged by the imaging means is obtained.
  • the distance in the identification space between the color gradation value of each pixel of the input image data and the background color region is calculated. Based on the calculated distance, the class identifying means identifies whether the color gradation value of each pixel of the input image data belongs to the background color area or the other background color area.
  • the target color storage means identifies the color gradation value of each pixel and the coordinates of each pixel. Structured and stored in space. That is, a plurality of background image data can be used, and pixel coordinates and pixel color gradation values in the image data are structured and stored in the identification space. Therefore, not only color information but also location information is captured. As a result, not only steady background fluctuations but also sudden and large lighting changes can be handled, and small differences between the background color and the target color can be detected.
  • an image processing method includes only an imaging step of capturing a predetermined area and converting it into image data, and a background area captured by the processing of the imaging step.
  • the coordinates of each pixel in the background image data A color gradation value of each of the pixels is structured and stored in an identification space, a background color storing step for forming a background color region, and a background region and a target region captured by the processing of the imaging step And calculating the distance in the identification space between the color gradation value of each pixel and the background color area in the input image data, and based on the calculated distance, the color scale of each pixel of the input image data
  • a class identification step for identifying whether the tone value belongs to the background color area or the other background color area, and the color gradation value of each pixel is determined to be the background color by the process of the class identification step.
  • the target color storing step of structuring and storing the color gradation value of each pixel and the coordinates of each pixel in an identification space is preferably included.
  • Background Image processing that can handle not only steady background fluctuations, but also sudden and large lighting changes, as well as detection of small differences between the background and sunset colors by integrating minute and color detection A method can be provided.
  • the recording medium according to one aspect of the present invention includes an imaging step of capturing a predetermined area and converting it into an image, and only a background area captured by the processing of the imaging step.
  • the distance in the identification space between the color gradation value of each pixel and the background color area is calculated, and based on the calculated distance
  • the class identification step for identifying whether the color gradation value of each pixel of the input image data belongs to the background color region or the other background color region
  • the class identification step When it is determined that the color gradation value of each pixel belongs to the color region outside the background, the object is structured to store the color gradation value of each pixel and the coordinates of each pixel in the identification space.
  • the recording medium be a computer-readable recording medium storing a color storage step and a program for causing the computer to execute.
  • a program includes an imaging step of capturing a predetermined region and converting the image into an image, and a background region captured by the processing of the imaging step.
  • a background color storage step for structuring and storing the coordinates of each pixel in the background image data and the color gradation value of each pixel in the identification space to form a background color region, and imaging by the processing of the imaging step Background
  • a distance in the identification space between the color gradation value of each pixel and the background color region is calculated, and the input image data is converted based on the calculated distance.
  • a target color storage step for structuring and storing the color gradation value of each pixel and the coordinates of each pixel in an identification space is executed in a computer. It is preferable that it is a program for making it happen.
  • FIG. 1 is a functional block diagram of an image processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a flowchart showing the flow of processing in an embodiment of the image processing apparatus according to the present invention.
  • (A) relates to the background color region formation, and
  • (b) relates to the target region detection processing.
  • FIG. 3 is a schematic diagram showing an X y -YUV five-dimensional space in an embodiment of the present invention.
  • FIG. 4 is a schematic diagram showing a three-dimensional YUV space in the pixel (x p , y p ).
  • (A) is the result when the target color learning time is insufficient
  • (b) is the result when the target color learning time is sufficient.
  • FIG. 5 is a schematic diagram showing an embodiment in which the pixels on the xy axis and the gradation on the YUV axis are resampled.
  • A is a pixel of image data
  • (b) is after spatial resampling
  • (c) is after gradation resampling
  • (d) is after spatial weighting.
  • Figure 6 shows the background area where the experiment was conducted.
  • (A) is when the illumination is on, and (b) is when the illumination is off.
  • Figure 7 shows the result of target detection using the input image when the illumination is on, based on background subtraction.
  • A is the input image
  • (b) is the difference threshold small
  • (c) is the difference threshold dog.
  • Figure 8 shows the result of target detection using the input image when the illumination is off, based on the background difference.
  • A is the input image
  • (b) is the difference threshold is small
  • (c) is the difference threshold is large
  • (d) is the difference threshold is small
  • (e) is the result for the difference threshold dog.
  • Figure 9 shows the target detection results based on background differences using a Gaussian mixture model.
  • (A) is the result when illumination is on
  • (b) is the result immediately after illumination is off
  • (c) is the result when illumination is off.
  • FIG. 10 is a result of target detection when illumination is turned on by the image processing method according to the present invention.
  • A is the result when the target color is not learned
  • (b) is the result when the target color learning amount is small
  • (c) is the result when the target color learning amount is large.
  • FIG. 11 shows the result of target detection when the illumination is turned off by the image processing method according to the present invention.
  • (A) is the result when the target color is not learned
  • (b) is the result when the target color learning amount is small
  • (c) is the result when the target color learning amount is large.
  • Fig. 12 is a schematic diagram showing the Y UV-Y UV 6-dimensional space in the conventional image processing method.
  • the present invention is a method based on the background difference, and all background fluctuations that can occur at the time of evening get detection are expressed by the color distribution itself in the background image taken in advance. Therefore, in order to improve target detection performance, it is necessary to observe and collect all possible background fluctuations.
  • the background pattern including the reflection of all moving objects and the minute shadow changes caused by the movement of clouds, is enormous, and it is not possible to observe all of them in advance. It is possible.
  • FIG. 1 is a functional block diagram in an embodiment of an image processing apparatus according to the present invention.
  • the camera 3 fixed at a predetermined position captures an image of the background area 1 indicated by a rectangular dotted line, or an area composed of the background area 1 and the target area 2.
  • the camera 3 is connected to the control unit 4, controlled by the control unit 4, and outputs captured image data and the like to the control unit 4.
  • a drive 5 is connected to the control unit 4, and image data output from the control unit 4 is recorded on a recording medium.
  • the background area 1 and the target area 2 are, for example, a predetermined area including an expressway is the background area 1, and The traveling car is in target area 2.
  • ITS intelligent transport system
  • the background area 1 and the target area 2 are, for example, a predetermined area including an expressway is the background area 1, and The traveling car is in target area 2.
  • the present invention is applied to a monitoring system, for example, the entrance of a residence or an elevator hall is the background region 1, and a person passing through the background region
  • the camera 3 is, for example, a digital still camera in the case of still image shooting, and is a digital video camera in the case of moving image shooting, for example.
  • the camera 3 includes a CCD (Charge Coupled Devices) as an image sensor.
  • the force lens 3 captures an image in accordance with an instruction from the control unit 4 and outputs image data including the pixel value I (x, y) to the control unit 4.
  • the pixel value I (X, y) is color data
  • the color gradation value of the image data is expressed in the YUV method.
  • the YUV method expresses the color of image data with Y as a luminance signal and U and V as color signals.
  • this YUV value (color gradation value) is the RGB value in the RGB system that expresses the color of the image data with R (red), G (green), and B (blue), which are the three primary colors of light, and other It can be easily converted into a color representation format.
  • the CCD is a single plate type, and a YUV value is given to each pixel.
  • the CCD of the camera 3 may be a three plate type or a single plate type. Absent.
  • the three-plate type is a method in which the color of captured image data is divided into, for example, the three primary colors R, G, and B, and C CD is assigned to each.
  • the single plate type is a method in which colors such as R GB are collected and one C CD is assigned to them.
  • the control unit 4 is a functional unit that captures image data captured by the camera 3 and performs predetermined processing based on the image data.
  • the control unit 4 outputs data such as image data to the drive 5. Furthermore, the control unit 4 can install necessary information from a recording medium on which various image data, programs, and the like are recorded via the drive 5 and execute the function.
  • the control unit 4 includes a main control unit 10, a background image data storage unit 11, an input image data storage unit 1 2, a structured data storage unit 1 3, a class identification unit 14, and a threshold comparison unit 15. And a peripheral device control unit 16.
  • the main control unit 10 includes a background image data storage unit 1 1, an input image data storage unit 1 2, a structured data storage unit 1 3, a class identification unit 1 4, a threshold comparison unit 1 5 and a peripheral device control unit 1 6. It is connected and controls these processes.
  • the background image data storage unit 11 is a functional unit that stores image data (background image data) of only the background region 1 captured by the camera 3.
  • YUV values are stored corresponding to the coordinates (x, y) of the pixels.
  • the input image data storage unit 12 is a functional unit that stores image data including the background region 1 and the target region 2 captured by the camera 3. Also in the input image data storage unit 12, YUV values are stored corresponding to the coordinates (x, y) of the pixels, similarly to the background image data storage unit 11.
  • the structured data storage unit 13 stores the YUV value of the background image corresponding to the coordinates (X, y) of the pixel. However, unlike the background image data storage unit 11, YUV values for the number of background image data are structured and stored corresponding to one pixel coordinate. Furthermore, the structured data storage unit 13 structures and stores the coordinates (x, y) and YUV values of the pixels determined to be included in the target color area in each pixel of the input image data. Hereinafter, the color space in which the YUV values are structured corresponding to the coordinates of the pixels is referred to as an identification space.
  • the structured data storage unit 13 functions as a background color storage unit and a target color storage unit.
  • the class identification unit 14 is a function for determining whether the YUV value of each pixel of the input image data stored in the input image data storage unit 12 belongs to the background color region or the target color region in the identification space. Part. When it is determined that the YUV value belongs to the target color region, the class identification unit 14 stores the Y UV value in the structured data storage unit 13. At the same time, the class identification unit 14 obtains the YUV value of each pixel and the distance to the nearest point in the background color area in the identification space. The class identification unit 14 functions as a class identification means.
  • the threshold value comparison unit 15 is a functional unit that compares the Y UV value of each pixel obtained by the class identification unit 14 and the distance to the nearest point of the background area with the threshold value Th b .
  • the peripheral device control unit 16 has a function of controlling the camera 3 such as sending an imaging signal to the camera 3 and capturing an image in the case of still image shooting, for example.
  • the peripheral device control unit 16 outputs image data or a program to the drive 5 and records it on a recording medium, and conversely inputs the image data or program recorded on the recording medium via the drive 5. Has a function to control 5.
  • the drive 5 receives data such as image data output from the control unit 4 and outputs the data to various recording media.
  • the drive 5 also outputs various image data and programs recorded on the recording medium to the control unit 4.
  • This recording medium consists of a magnetic disk (including floppy disk) 2 1, an optical disk (CD: Compact Disk. D VD: including Digital Versatile Disk) 2 2, and a magneto-optical disk (MD: including Mini-Disk) 2 3 or semiconductor memory 24 or the like.
  • FIG. 2 is a flowchart showing the flow of processing in an embodiment of the image processing apparatus according to the present invention.
  • functions and a flow of processing in an embodiment of the image processing apparatus according to the present invention will be described with reference to FIGS. 1 and 2.
  • First, the background color area formation process based on the background image data (S 1 in Fig. 2) 0 and S 11) will be described.
  • a plurality of images of only the background region 1 are captured by the camera 3 while changing the illumination conditions (S10).
  • the obtained background image data is output to the background image data storage unit 11 in the control unit 4 and stored therein.
  • the background image data storage unit 11 stores YUV values corresponding to the coordinates (x, y) of each pixel of the background image data.
  • multiple YUV values exist at the same pixel coordinates.
  • an xy_YUV five-dimensional space is considered, and YUV values are stored in the space (S11).
  • FIG. 3 is a schematic diagram showing an identification space in one embodiment of the present invention. This figure shows how pixel coordinates and Y UV values are arranged in the identification space for multiple background image data and input image data. For example, if the YUV value of a pixel whose coordinate in the background image data is (x Q , y q ) is (Y q , U g , V q ), the xy coordinate and the YUV value are combined to create a five-dimensional vector ( x Q , y q , Y q , U q , V q ) T (background color vector) is constructed.
  • This five-dimensional vector (x Q , y q , Y q , U g , V q ) T is labeled “background” in the identification space.
  • each (x, y) coordinate point has a YUV axis.
  • the pixel coordinates (x Q , y q , Y q , U g , V q ) T is labeled “background” in the identification space.
  • X q , y g ) and the pixel's YUV value (color gradation value) (Y q , U q , V q ) are structured in the identification space ((X Q , Yq, Y q , U q , V q ) T ) and labeled as the background color area.
  • the structured five-dimensional vector is stored in the structured data storage unit 13.
  • the target region detection is ready. If the color information in the target area is unknown, the target area is detected only from the background color information.
  • an input image in which the background region 1 and the target region 2 overlap is captured by the force lens 3 (S20).
  • the obtained input image data is output to the input image data storage unit 12 in the control unit 4 and stored therein.
  • the input image data storage unit 12 stores the YUV value corresponding to the coordinates (x, y) of each pixel of the input image data.
  • the pixel (x q , y g ) of the input image data is selected (S 21), and the xy-YUV value of the pixel is projected onto the identification space (S 22).
  • the class identification unit 14 receives the YUV value of the pixel at coordinates (x q , y q ) from the input image data storage unit 12, and further receives the same coordinates (x Q , y from the structured data storage unit 13).
  • n This is equivalent to receiving all YUV values and comparing them.
  • the class identification unit 14 performs nearest neighbor identification on the YUV value of the pixel (x q , y q ) (S 23).
  • the YUV value of the input image data is divided into either the background or target class.
  • the class identification unit 14 determines the nearest class and, at the same time, obtains the distance to the nearest point belonging to the background color region. The calculated distance to the nearest neighbor is output to the threshold comparison unit 15.
  • a threshold Th b (constant) is introduced as in the case of a normal background difference, and an xy—YUV value whose distance to the nearest neighbor is larger than the threshold Th b is set to a color area outside the background (in this embodiment, the target color area). Is configured to detect as
  • the threshold comparing unit 15 compares the distance to the nearest point obtained by the class identifying unit 14 with the threshold Th b (S 24). If the distance to the nearest neighbor point is smaller than the threshold value Th b (0 at 324), the YUV value of the input image data is identified as belonging to the background area, and the next pixel of the input image data is identified ( S 2 1).
  • the threshold value comparison unit 15 determines that the distance to the nearest neighbor is larger than the threshold value Th b ( ⁇ 3 in 324), the YUV value of the input image data belongs to the target color area. Identified. Furthermore, 5-dimensional vector in this case (x Q, y g, Y q, U q, V q) to T, referred to as target color vector. Then, in the xy coordinates of all the pixels in the identification space, the YUV value is stored as the target color area (S 26), and the process proceeds to the identification of the next pixel of the input image data (S 21).
  • the threshold comparison unit 15 compares the distance to the nearest point obtained by the class identification unit 14 with the threshold Th b (S 25). If the distance to the nearest neighbor point is smaller than the threshold value Th b (NO in S 25), the YUV value of the input image data will be close to the background area, so that it is not stored in the identification space. Otherwise, the process proceeds to identification of the next pixel of the input image data (S 21).
  • the threshold value comparison unit 15 determines that the distance to the nearest neighbor is larger than the threshold value Th b (£ 3 at 325), the YUV value of the input image data definitely belongs to the target color area. Identified. Then, at the coordinates of all the pixels in the identification space, the YUV value is stored as the target color area, and the process proceeds to the identification of the next pixel in the input image (S21).
  • the target area can be identified from the background area.
  • the YUV value of the input image data is identified as belonging to the target color area, the YUV value is stored in the identification space. For this reason, if a defect occurs in this identification, subsequent false detections due to nearest neighbor identification increase. To avoid this, and is preferably child sufficiently large threshold value Th b during identification.
  • this threshold value Th b may be set sufficiently large.
  • the threshold Th b is a process for reliably detecting the target area in an area where the background and target colors are significantly different, and recording the color in the detection area as an evening get color in the identification space.
  • the distinction between similar background / evening colors is performed by nearest neighbor identification. Therefore, the threshold value Th b may be a sufficiently large value.
  • the threshold value Th b is described as a constant, but this is for speeding up the identification process. This allows real-time processing of identification.
  • the present invention is not limited to this, and an appropriate threshold value can be set according to changes in the background region.
  • the nearest neighbor identification if the distance to the nearest neighbor is greater than the threshold Th t, it is considered that there is no overlap with the background color, and the xy-YUV value is obtained in the evening. Classify.
  • the threshold value Th t introduced here may be 0 (zero) if the background color region in the identification space is reliable. In other words, it may be configured to classify the target only when the YUV values completely match. This is because in the present invention, the background region observation / learning is offline processing, and therefore the reliability of the background color region in the identification space can be sufficiently increased at the stage of this processing.
  • xy—YUV values (x p , y p , Y p , U p , V p ) are identified not only by threshold processing by threshold Th b but also by nearest neighbor identification T appears.
  • the background color region in the identification space is reliable because sufficient background learning has been performed, but the pixel (x p , y) at the time when the target color learning is insufficient (time T p ).
  • p ) shows the 3D YUV space.
  • the target color detection result by nearest neighbor identification is highly reliable. Therefore, the pixel (x p , y p ) is detected as the target area.
  • the possibility of xy-YUV value identified as the background color by nearest neighbor classification corresponds to the actual background necessarily high wards.
  • FIG. 4 (a) shows the pixel at time T q when sufficient target color learning was performed.
  • the decision boundary (insufficient learning) DB Tp is the target color area side. It is located near. Therefore, V 2 that should be identified as a target is identified as a background.
  • the decision boundary (sufficient learning) DB Tq moves closer to the background color region side. As a result, V 2 is also identified as a target.
  • the color gradation value of the image data has been described as being expressed in the YUV method.
  • the present invention is not limited to this, and RGB values in the RGB system that expresses the color of image data with R (red), G (green), and B (blue), which are the three primary colors of light, and other colors. It may be expressed in an expression format.
  • the YUV value output from the camera may be converted into another color representation format such as an RGB value, and the image processing according to the present invention may be performed.
  • Another color representation format can be converted into a YUV value to perform image processing according to the present invention.
  • the present invention is not limited to a color image, and can also be applied to, for example, image data represented by an 8-bit 256-scale sag scale.
  • the present invention is not limited to the combination of the xy two-dimensional coordinates representing the pixel coordinates and the YUV three-dimensional vector representing the color gradations, and other vectors and the vectors representing the color gradations. It can be applied to any combination. For example, if the pixels are arranged three-dimensionally, it is possible to combine xy z three-dimensional coordinates representing pixel coordinates and a vector of any dimension representing color gradation. In the above description, only two classes to be identified are the background and the target. However, the present invention is not limited to this, and is effective for identifying three or more classes.
  • the YUV value is projected on the identification space for each pixel, and the target color is detected.
  • the occurrence probability of YUV values between adjacent pixels there is a high correlation between the occurrence probability of YUV values between adjacent pixels, and the low-order bit value of each YUV value is unreliable due to the effects of camera quantization errors. Therefore, even if sampling is performed at the maximum resolution that can observe the xy-YUV axis (that is, the xy axis is one pixel at a time and the YUV axis is one tone at a time), the redundancy is high, and the classification accompanying the increase in the identification space High accuracy cannot be expected. Therefore, it is preferable to determine the sampling rate for each axis in consideration of the trade-off between discrimination performance and calculation cost.
  • FIG. 5 is a schematic diagram showing an embodiment in which the xy-axis pixel and the YUV-axis gradation are resampled.
  • Figure 5 (a) shows the pixels of the image data, and (b) is the YUV set obtained by resampling each xy axis (spatial resampling).
  • each xy axis is resampled to lZb to create the YUV set S s in Fig. 5 (b).
  • b 4 in this example. That is, all YUV values in a 4X4 pixel block correspond to a single xy value in the identification space (eg, the upper left coordinate of 4X4 pixels).
  • each tone on the Y UV axis is resampled to l Z c to obtain the YUV set S c shown in Fig. 5 (c) (gradation resampling).
  • the symbol [X] in the figure represents the largest integer not exceeding X.
  • the identification space is constituted by different information amounts of the image coordinates xy and the color gradation YUV. Therefore, when colors are identified by distance in the identification space, evaluating the distance between all axes uniformly may adversely affect the identification results. Therefore, in consideration of the sampling rate described above, the distance between each axis is weighted so that appropriate identification is performed.
  • this resampling only adjusts the size of the identification space and does not reduce the size of the input image data. Nevertheless, efficient processing can be performed with almost no reduction in the amount of information, and calculation speed can be increased. Also, less memory is required. Furthermore, in spatial resampling, even if the color gradation value of a certain pixel is changed from its original value due to noise, processing is performed on the block combined with adjacent pixels, so Almost no influence.
  • the xy—YUV values corresponding to all the pixels are projected onto the identification space according to the same rule as the background learning described above. For example, if the image is 6 4 0 X 4 8 0 pixels, 6 4 0 X 4 8 0 nearest neighbors are identified.
  • the series of image processing described above can be executed by software.
  • the program that constitutes the software is realized by a computer that is incorporated in dedicated hardware. In FIG. 1, this corresponds to the control unit 4 and the drive 5 being combined and the main control unit 10 being dedicated hardware.
  • a series of image processing is realized by a general-purpose computer capable of executing various functions by installing a program that configures software from a recording medium.
  • the control unit 4 and the drive 5 are general-purpose computers, and the magnetic disk 21, the optical disk 2 2, the magneto-optical disk 2 3, or the semiconductor memory 24 are recorded with a program recorded therein. This corresponds to the medium.
  • Example 1 Hereinafter, an embodiment for confirming the effectiveness of the present invention with respect to changes in the background area such as changes in illumination and movement of the background object will be described.
  • a Pentium4 2.4 GHz PC personal computer
  • a Sony IE EE 1394 camera DFW-VL 500 was used as the camera 3 in FIG.
  • An example of image processing is shown.
  • the input image data is a YUV image of 640 X480 pixels.
  • Figure 6 shows the background area where the experiment was performed.
  • Figure 6 (a) shows the case when the illumination is on
  • Figure 6 (b) shows the case when the illumination is off.
  • the shading of walls and floors has changed slightly due to changes in sunshine.
  • the curtain on the upper left of the screen is shaking due to the wind.
  • Figures 7 and 8 show the background difference detection results using the constant threshold. However, Fig. 7 (b), Fig. 8 (b), and (d) show the detection results when the threshold value determined manually is set to be small so that the entire target region is detected as much as possible. Figures 7 (c), 8 (c), and 8 (e) show the detection results when the threshold value that is manually determined is set to be large so that false detection is minimized. And the threshold of all results is different from each other.
  • Figures 7 (b) and 7 (c) show the results of changing the threshold values in the difference between Figure 6 (a) (illumination on) and Figure 7 (a). Although a relatively good result can be obtained with an appropriate threshold as shown in Fig. 7 (c), the movement of the curtain is erroneously detected in Figs. 6 (a) and 7 (a). .
  • Figures 8 (b) and 8 (c) show the results of changing the threshold values in the difference results of Figure 6 (a) (illumination on) and Figure 8 (a). Because the lighting conditions of the input image are changing rapidly, large false detections occur even if the threshold is adjusted.
  • Figs. 8 (d) and 8 (e) show the results of changing the threshold in the difference results of Fig. 6 (b) (illumination off) and Fig. 8 (a).
  • Fig. 8 (d) and 8 (e) show the results of changing the threshold in the difference results of Fig. 6 (b) (illumination off) and Fig. 8 (a).
  • Fig. 9 shows the background difference detection results using the Gaussian mixture model.
  • Fig. 9 (a) shows the detection results from Fig. 7 (a) (illumination on), and shows the detection results after the background model is sufficiently adapted to the lighting conditions.
  • the results shown in Fig. 9 (a) show almost no false detection of non-stationary background objects, compared to Figs. 7 (b) and 7 (c) in which constant threshold processing is performed on all pixels.
  • Fig. 9 (b) if detection is performed from Fig. 8 (a) (illumination off) using the background model adapted to illumination on, false detection will occur.
  • FIG. 10 (illumination on) and FIG. 11 (illumination off) show the detection results obtained by the image processing method according to the present invention.
  • the nearest neighbors in the xy_YUV space were speeded up by efficient caching using a hash table.
  • 8ch table By using an 8ch table, even if the amount of data is large, high-speed processing is possible because the corresponding object can be accessed at high speed from the key object.
  • the x and y axes are each 1/8 (X axis: 640 pixels ⁇ 80 pixels, y axis: 480 pixels—60 pixels), and the YUV axis is resampled by half each (256—128).
  • the xy axis is given a double weight so that the unit length ratio of the xy axis and YUV axis is 2: 1.
  • the target reciprocated several times in the image, and sufficient get color learning was performed in the evening.
  • Target detection was performed under three different conditions: (b) small target color learning amount, and (c) large target color learning amount.
  • the results are (a), (b) and (c) in Fig. 10 and Fig. 11 respectively. That is, Fig. 10 (a) and Fig. 11 (a), Fig. 10 (b) and Fig. 11 (b), and Fig. 10 (c) and Fig. 11 (c) show the same background color and target color data, respectively. It is a detection result by, and it does not mean that identification data suitable for each illumination on / off is prepared.
  • the detection results from Fig. 7 (a) (illumination on) and Fig. 8 (a) (illumination off) are shown in Figs. 10 and 11, respectively.
  • the image processing method according to the present invention does not include any manual processing that allows a human to determine an appropriate threshold, as in the simple background difference shown in FIGS. That is, in this embodiment, target detection is performed by autonomous operation.
  • the detection result after learning a sufficient amount of target colors also improves the detection rate of the target area of colors similar to the background color, which is extremely superior to other methods. Is obtained.
  • Fig. 10 (c) It is an area where the color is completely saturated, and it cannot be distinguished from a background area where the color is also completely saturated by referring only to the color information.
  • the operating speed after target color learning depends on the performance of the PC, but the current value is close to 10 fps, and sufficient real-time target detection is possible.
  • an image processing device an image processing method, an image processing program, and a program for recording a real-time target in an arbitrary target region that integrate background difference and target color detection are recorded.
  • Recorded media can be provided.
  • an identification space that takes into account both the spatial distribution of the background image color and the distribution of the target color is constructed by nearest neighbor identification in a five-dimensional space consisting of the xy axis of the image and the YUV axis of the color. This makes it possible to set an appropriate threshold for the background difference. As a result, not only steady background fluctuations but also sudden and large lighting changes can be dealt with, and small differences between the background and evening colors can be detected.
  • the image processing apparatus is an image processing unit that captures an image of a predetermined area and converts it into image data, and background image data that includes only the background area captured by the imaging unit.
  • the coordinates of each pixel and the color gradation value of each pixel are structured and stored in an identification space, a background color storage means for forming a background color area, and a background area and an object imaged by the imaging means.
  • the distance in the identification space between the color tone value of each pixel and the background color area in the input image data consisting of the area is calculated, and the respective input image data are calculated based on the calculated distance.
  • Class identifying means for identifying whether the color gradation value of the pixel belongs to the background color area or the other background color area; and the color gradation value of each pixel is determined to be the background by the class identifying means. Belongs to outer color area If it is determined that that is preferably provided with a target color storage means for structuring and storing the coordinates and the identification space of each pixel with color gradation values of each pixel.
  • the background color storage means structures and stores the coordinates of the pixels of the background image data and the color gradation values of the pixels in the identification space.
  • a set of background image data in this identification space is called a background color area.
  • an input image image in which the background area and the target area are imaged by the imaging means is obtained.
  • the distance in the identification space between the color gradation value of each pixel of the input image data and the background color region is calculated. Based on the calculated distance, the class identifying means identifies whether the color gradation value of each pixel of the input image data belongs to the background color area or the other background color area.
  • the target color storage means determines that the color gradation value of each pixel belongs to the color area outside the background.
  • the color gradation value of each pixel and the coordinates of each pixel are structured and stored in the identification space. That is, a plurality of background image data can be used, and pixel coordinates and pixel color gradation values in the image data are structured and stored in the identification space. Therefore, not only color information but also location information is captured. As a result, not only steady background fluctuations but also sudden and large lighting changes can be handled, and it is also possible to detect small differences between the background and evening colors.
  • the image processing apparatus is an image processing apparatus (1), and the color gradation value of the image data is preferably expressed in a YUV system.
  • the color of the image is expressed with the luminance signal Y and the color signals U and V.
  • the image processing apparatus is an image processing apparatus (1), and it is preferable that the color gradation value of the image data is represented by an R GB method.
  • the R GB system is highly versatile because it is used in scanners, monitors, digital cameras, color televisions, and so on. Also, for example, in the case of a full color, R GB is divided into 2 5 6 gradations to express colors, so that it is possible to express the color tone of 1 677,772 16 colors.
  • the image processing device is an image processing device (1), and it is preferable that the color gradation value of the image data is expressed in a sag scale.
  • the color of the image data is expressed in a gray scale based on the brightness difference.
  • the amount of information for specifying the color is less than that of a color image.
  • the image processing device is any one of the image processing devices (1) to (4), and in the class identification unit, the color gradation value of each pixel is set to either the background region or the background region. In identifying whether it belongs, it is preferable to use nearest neighbor identification. According to this configuration, in the identification space, which of the background area and the outside background area has the closest point from the color gradation value of each pixel is determined by nearest neighbor identification. In other words, since identification is performed by nearest neighbor classification that is typically used in identification problems, efficient algorithms developed so far can be used effectively.
  • the image processing device is any one of the image processing devices (1) to (5), and in the class identification unit, the color gradation value of each pixel is set to either the background region or the background region. It is preferable to use a hash table when identifying whether it belongs. According to this configuration, it is possible to directly access the corresponding object from the key object. As a result, even if the amount of data increases, Since the corresponding object can be accessed at high speed from the object that becomes —, high-speed processing is possible.
  • the image processing device is any one of the image processing devices (1) to (6), and when the class identification means determines that the color gradation value of each pixel belongs to the background color region, When the distance between the color gradation value of each pixel and the background color area in the identification space is larger than a predetermined threshold, it is determined that the color gradation value of each pixel is included in the background color area, It is preferable that the color gradation value of each pixel and the coordinates of each pixel are structured and stored in an identification space.
  • the color gradation value of each pixel is determined to belong to the background color area by the class identification unit, the color gradation value of each pixel and the background color area When the distance at is greater than a predetermined threshold, it is re-determined as being included in the background color region.
  • the identification criterion can be controlled by changing the threshold value. Therefore, even when there is a change in the background area, it is possible to easily perform optimal discrimination by adjusting the threshold value.
  • the image processing device is any one of the image processing devices (1) to (7), wherein in the background color storage unit or the target color storage unit, the color gradation value of each pixel and the coordinate of each pixel Are structured and stored in the identification space, the color gradation values of a plurality of adjacent pixels are preferably stored together in the coordinates of one pixel.
  • the color gradation values of a plurality of adjacent pixels are grouped and stored in the coordinates of a single pixel, so that information about the pixel coordinates can be reduced to a single location with little reduction. To aggregate.
  • efficient processing can be performed without substantially reducing the information about the coordinates of the pixels, and the calculation speed can be increased. Also, less memory is required.
  • the image processing device is any one of the image processing devices (1) to (8), wherein in the background color storage means or the target color storage means, the color gradation value of each pixel and the coordinate of each pixel Is preferably stored in the identification space by multiplying the color gradation value by a predetermined value.
  • the color gradation value of each pixel is compressed without substantially reducing the “I blueprint” regarding the color gradation.
  • efficient processing can be performed with almost no reduction in information on color gradations, and calculation speed can be increased. Also, less memory is required.
  • the image processing device is any one of the image processing devices (1) to (9), wherein in the background color storage means or the target color storage means, the color gradation value of each pixel and each pixel
  • the coordinates are structured and stored in the identification space
  • the coordinates of the pixels obtained by multiplying the coordinate axes for specifying the coordinates of the pixels by a predetermined weight are used, and the coordinates of the pixels and the color gradation values of the pixels are used.
  • a predetermined weight is applied to the coordinate axis that specifies the coordinates of the pixel, and the Change the distance in intercoordinates. This corrects the relationship between the spatial coordinates and the color gradation space distance in the identification space. In other words, since the distance between the axes based on different amounts of information such as the image coordinates xy and the color gradation YUV is adjusted by weighting, appropriate identification is performed.
  • the image processing method captures a predetermined area and converts it into image data, and a background consisting only of the background area imaged by the processing of the imaging step. Coordinates of each pixel in the image data and the color gradation value of each pixel are structured and stored in the identification space, and a background color storing step for forming a background color region, and imaging is performed by the processing of the imaging step.
  • the distance in the identification space between the color gradation value of each pixel and the background color region is calculated, and the input based on the calculated distance
  • the class identification step for identifying whether the color gradation value of each pixel of the image data belongs to the background color region or the other background color region
  • the processing of the class identification step When it is determined that the color gradation value of each pixel belongs to the color area outside the background, the target color for storing the color gradation value of each pixel and the coordinates of each pixel in the identification space.
  • the target color for storing the color gradation value of each pixel and the coordinates of each pixel in the identification space.
  • the recording medium captures a predetermined area and converts it into image data, and background image data including only the background area captured by the processing of the imaging step.
  • the coordinates of each pixel and the color gradation value of each pixel are structured and stored in an identification space, a background storage step for forming a background color region, and the background imaged by the processing of the imaging step, A distance in the identification space between the color gradation value of each pixel and the background color area in the input image data composed of the area and the target area is calculated, and each of the input image data of the input image data is calculated based on the calculated distance.
  • a computer-readable recording medium on which a program for causing the computer to execute is recorded.
  • a recording medium on which a computer-readable program relating to a possible image processing method is recorded. Can be provided.
  • the program according to the present invention captures a predetermined area and converts it into image data, and background image data including only the background area imaged by the processing of the imaging step.
  • the coordinate of each pixel and the color gradation value of each pixel are structured and stored in an identification space, a background color storage step for forming a background color region, and a background imaged by the processing of the imaging step, A distance in the identification space between the color gradation value of each pixel and the background area in the input image consisting of the area and the target area is calculated, and each of the input image data is calculated based on the calculated distance.
  • a class identification step for identifying whether a color gradation value of a pixel belongs to the background color region or the other background color region, and the class identification step When it is determined that the color gradation value of each pixel belongs to the color area outside the background, the target color for storing the color gradation value of each pixel and the coordinates of each pixel in the identification space in a structured manner
  • the program is a program for causing a computer to execute the storing step.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

背景差分と色検出の統合により、画像中における複数の領域を正確に識別することができる画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体を提供する。 まず、カメラ3により背景領域1のみが撮像された背景画像データが得られる。そして、構造化データ記憶部13に、背景画像データの画素の座標と画素の色階調値とが識別空間内に構造化されて記憶され、背景色領域が形成される。続いて、カメラ3により背景領域1および対象領域2が撮像された入力画像データが得られる。そして、クラス識別部14において、各画素の色階調値と背景色領域との識別空間内における距離が計算される。その計算された距離に基づき、クラス識別部14において、各画素の色階調値が、背景色領域とそれ以外の背景外色領域のいずれに属するかが識別される。

Description

明細書 画像処理装置、 画像処理方法、 画像処理プログラムおよびそのプログラムを記 録した記録媒体 技術分野
本発明は、 画像中に含まれる複数の領域を識別する画像処理装置、 画像処理 方法、 画像処理プログラムおよびそのプログラムを記録した記録媒体に関する ものである。 背景技術
観測画像中から移動物体などの対象 (ターゲット) を検出する問題は、 コン ピュー夕ビジョンの中でも重要な課題の一つとして挙げられる。 その解決のた めに開発された方法の中でも、 画像中の特定の色を検出する色検出と、 あらか じめ用意した背景画像から変化した領域を検出する背景差分は、 ターゲット検 出の基本的な技術として用いられている。
色検出は、 ターゲット色ごとに適切な閾値を設定できるので、 微妙な色の違 いを識別することが可能である。
また、 背景差分は、 ターゲットに関する事前知識を必要とせず、 任意の夕一 ゲットを検出可能であり、 かつ画素ごとに背景色の変化をモデル化可能な方法 である。 このような利点を有するため、 背景差分は、 静止領域の検出が不可能 なフレーム間差分や、 事前に定義されたターゲットしか検出できない顔検出 · 肌色検出と比較して、 多くの視覚システムで利用されている。 特に、 十分な背 景情報を事前に学習可能な環境下であれば、 優れた結果を期待することができ る。
さらに最近は、 背景変動に対して口パスト (頑健) であり、 かつ背景と任意 の夕一ゲットの微妙な色の差を検出可能とするために、 これら背景差分と最近 傍識別による色検出を有機的に統合することも行われている (例えば、 非特許 文献 1参照)。
この非特許文献 1に開示された方法においては、 図 12に示したように、 画 素の色 (色階調値) が 6次元の YUV色空間 (識別空間) で表現される。 具体 的には、 背景領域を撮像した背景画像データの座標 (xp, yp) における画素 の 3次元色が (Ybp, Ubp, Vbp) であるとき、 その背景色は、 識別空間に おいて (Ybp, Ubp, Vbp, Ybp, Ubp, Vbp) Tという 6次元べクト ルで表現される (Tは、 ベクトルの転置を表す。)。 同様に、 背景画像データの 座標 (xQ, yq) における画素の 3次元色が(Ybq, Ubq, Vbq) であると き、 その背景色は、 識別空間において (Ybq, Ubq, Vbq, Ybq, Ubq , Vbg) Tという 6次元ベクトルで表現される。 このように識別空間における 6次元ベクトルで表された背景画像データ (背景色ベクトル) は、 背景色領域 を形成する。
また、 背景領域および対象領域を撮像した入力画像データの座標 (xs, ys ) における画素の 3次元色が (Y i s, U i s, V i s) であるとき、 その入力さ れた色は、 識別空間において (Ybs, Ubs, Vbs, Y i s, U i s, V i s) Tという 6次元べクトルで表現される。 このようにして得られた 6次元べクトル に対して、 6次元空間における最近傍識別を用いることで、 入力された色が背 景色領域または対象色 (夕ーゲット色) 領域に識別される。 対象色領域に識別 された 6次元ベクトル (Ybs, Ubs, Vbs, Y i s, U i s, V i s) Tは対 象色べクトルと呼ばれ、 背景色領域と対象色領域との境界は決定境界と呼ばれ る。
この方法では、 通常 (3次元) に比べて次元数が大きいため、 処理時間はか かるが、 最近傍識別のためのキヤッシュの効率的利用により実時間動作が可能 となっている。
しかしながら、 背景差分は、 照明変化 (照明強度や照明色の変化) や影によ る背景物体の見えの変化、 または、 背景内に、 例えば葉や旗の揺らぎなどの非 静止領域がある場合には、 背景とターゲットを正確に識別することができない 。 さらに、 背景差分には、 背景に似た色を有するターゲットの検出が困難であ るという課題がある。
また、 色検出は、 背景画像の全画素に含まれる色集合と各ターゲット色の間 の識別を行う方法であるため、 膨大な種類の色集合を扱う識別問題となる。 そ のため、 必然的に異なるクラス間の距離は小さくなり、 識別性能が低下する ( 位置情報の欠落)。 さらに、 ターゲット色は人手により与えられているので、 自 律動作するターゲット検出システムにはそのまま適用することができない (非 自律性) という課題を有する。
背景差分と色検出を統合した非特許文献 1に開示された方法においては、 参 照する背景画像が 1枚だけなので、 照明変化に対応できないという課題がある。 例え、 様々な照明条件下における背景画像集合を記録していたとしても、 現状 の方法では、 逐次参照する背景画像を選択する基準がない。 また、 背景情報は 独立な YUV値として表現されているため、 位置情報が欠落している。 すなわ ち、 近接画素間の共起性などは全く考慮されていない。 さらに、 適切な夕ーゲ ット色を指定するために人手を要しているという課題もある。
【非特許文献 1】 加藤丈和、 柴田智行、 和田俊和:「最近傍識別器を用いた背景 差分と色検出の統合」、 情処研報 CVIM- 142-5, Vol.145, no.5, pp.31-36, Jan. 2004. 発明の開示
本発明は、 上記課題に鑑みてなされたものであり、 背景差分と色検出の統合 により、 定常的な背景変動だけでなく急激かつ大きな照明変化などに対しても 対応でき、 かつ背景色とターゲット色の小さな差分の検出も可能である画像処 理装置、 画像処理方法、 画像処理プログラムおよびそのプログラムを記録した 記録媒体を提供することを目的とする。
この目的のために本発明の一態様に係る画像処理装置は、 所定の領域を撮像 し、 画像データに変換する撮像手段と、 前記撮像手段により撮像された背景領 域のみからなる背景画像データにおける各画素の座標と、 前記各画素の色階調 値とを識別空間内に構造化して記憶し、 背景色領域を形成する背景色記憶手段 と、 前記撮像手段により撮像された、 背景領域および対象領域からなる入力画 像データにおける、 各画素の色階調値と前記背景色領域との識別空間内におけ る距離を計算し、 その計算された距離に基づき前記入力画像データの前記各画 素の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれに属する かを識別するクラス識別手段と、 前記クラス識別手段により前記各画素の色階 調値が前記背景外色領域に属すると判断された場合、 前記各画素の色階調値と 前記各画素の座標とを識別空間内に構造化して記憶する対象色記憶手段と、 を 備えることが好ましい。
この態様によれば、 まず、 撮像手段により背景領域のみが撮像された背景画 像データが得られる。 そして、 背景色記憶手段により、 背景画像データの画素 の座標と前記画素の色階調値とが識別空間内に構造化されて記憶される。 この 識別空間内における背景画像データの集合は、背景色領域と呼ばれる。続いて、 撮像手段により背景領域および対象領域が撮像された入力画像デ一夕が得られ る。 そして、 入力画像データの各画素の色階調値と背景色領域との識別空間内 における距離が計算される。 その計算された距離に基づき、 クラス識別手段に より、 入力画像データの各画素の色階調値が、 背景色領域とそれ以外の背景外 色領域のいずれに属するかが識別される。 このクラス識別手段により各画素の 色階調値が背景外色領域に属すると判断された場合には、 対象色記憶手段によ り、 各画素の色階調値と各画素の座標とが識別空間内に構造化して記憶される。 つまり、 複数枚の背景画像データを利用することができ、 かつ画像データに おける画素の座標と画素の色階調値とが識別空間内に構造化して記憶されてい る。 そのため、 色情報だけでなく、 位置情報も取り込まれている。 その結果、 定常的な背景変動だけでなく急激かつ大きな照明変化に対しても対応でき、 か つ背景色とターゲット色との小さな差分の検出も可能である。
また、 この目的のために本発明の一態様に係る画像処理方法は、 所定の領域 を撮像し、 画像データに変換する撮像ステップと、 前記撮像ステップの処理に より撮像された背景領域のみからなる背景画像データにおける各画素の座標と 、 前記各画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形 成する背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背 景領域および対象領域からなる入力画像デ一夕における、 各画素の色階調値と 前記背景色領域との識別空間内における距離を計算し、 その計算された距離に 基づき前記入力画像データの前記各画素の色階調値が、 前記背景色領域とそれ 以外の背景外色領域のいずれに属するかを識別するクラス識別ステップと、 前 記クラス識別ステツプの処理により前記各画素の色階調値が前記背景外色領域 に属すると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識 別空間内に構造化して記憶する対象色記憶ステップと、 を含むことが好ましい この態様によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色と夕ーゲ ット色の小さな差分の検出も可能である画像処理方法を提供することができる。 また、 この目的のために本発明の一態様に係る記録媒体は、 所定の領域を撮 像し、 画像デ一夕に変換する撮像ステップと、 前記撮像ステップの処理により 撮像された背景領域のみからなる背景画像データにおける各画素の座標と、 前 記各画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形成す る背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景領 域および対象領域からなる入力画像データにおける、 各画素の色階調値と前記 背景色領域との識別空間内における距離を計算し、 その計算された距離に基づ き前記入力画像デ一夕の前記各画素の色階調値が、 前記背景色領域とそれ以外 の背景外色領域のいずれに属するかを識別するクラス識別ステップと、 前記ク ラス識別ステップの処理により前記各画素の色階調値が前記背景外色領域に属 すると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別空 間内に構造化して記憶する対象色記憶ステツプと、 をコンピュータに実行させ るためのプログラムを記録したコンピュータが読み取り可能な記録媒体である ことが好ましい。
この態様によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色と夕ーゲ ット色の小さな差分の検出も可能である画像処理方法に関する、 コンピュータ が読み取り可能なプログラムが記録されていることを特徴とする記録媒体を提 供することができる。
また、 この目的のために本発明の一態様に係るプログラムは、 所定の領域を 撮像し、 画像デ一夕に変換する撮像ステップと、 前記撮像ステップの処理によ り撮像された背景領域のみからなる背景画像データにおける各画素の座標と、 前記各画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形成 する背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景 領域および対象領域からなる入力画像データにおける、 各画素の色階調値と前 記背景色領域との識別空間内における距離を計算し、 その計算された距離に基 づき前記入力画像デ一夕の前記各画素の色階調値が、 前記背景色領域とそれ以 外の背景外色領域のいずれに属するかを識別するクラス識別ステップと、 前記 クラス識別ステップの処理により前記各画素の色階調値が前記背景外色領域に 属すると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別 空間内に構造化して記憶する対象色記憶ステツプと、 をコンピュータに実行さ せるためのプログラムであることが好ましい。
この態様によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色と夕ーゲ ット色の小さな差分の検出も可能である画像処理方法に関するプログラムを提 供するこ ができる。
本発明の目的、 特徴、 局面、 及び利点は、 以下の詳細な説明と添付図面とに よって、 より明白となる。 図面の簡単な説明
図 1は、 本発明に係る画像処理装置の一実施形態における機能ブロック図で ある。
図 2は、 本発明に係る画像処理装置の一実施形態における処理の流れを示す フローチャートである。 (a ) は背景色領域形成、 (b ) は対象領域検出の処理 に関するものである。
図 3は、 本発明の一実施形態における X y - YUV 5次元空間を表す模式図 である。
図 4は、 画素 (x p, y p) における 3次元 YUV空間を示す模式図である。 ( a ) はターゲット色学習時間が不十分、 (b ) はターゲット色学習時間が十分行 われた場合の結果である。
図 5は、 x y軸の画素、 および YUV軸の階調をリサンプリングする一実施 形態を示した模式図である。 (a ) は画像データの画素、 (b ) は空間リサンプ リング後、 (c ) は階調リサンプリング後、 ( d ) は空間重み付け後を表す。 図 6は、 実験を行った背景領域である。 (a ) は照明オン時、 (b ) は照明ォ フ時である。
図 7は、 背景差分による、 照明オン時の入力画像を用いたターゲット検出結 果である。 (a ) は入力画像、 (b ) は差分閾値小、 (c ) は差分閾値犬の場合の 結果である。
図 8は、 背景差分による、 照明オフ時の入力画像を用いたターゲット検出結 果である。 (a ) は入力画像、 (b ) は差分閾値小、 (c ) は差分閾値大、 (d ) は差分閾値小、 (e ) は差分閾値犬の場合の結果である。 図 9は、 ガウス混合モデルを用いた背景差分によるターゲット検出結果であ る。 (a ) は照明オン時、 (b ) は照明オフ直後、 ( c ) は照明オフ時の場合の結 果である。
図 1 0は、 本発明に係る画像処理方法による、 照明オン時のターゲット検出 結果である。 (a ) はターゲット色未学習、 (b ) はターゲット色学習量小、 (c ) はターゲット色学習量大の場合の結果である。
図 1 1は、 本発明に係る画像処理方法による、 照明オフ時のターゲット検出 結果である。 (a ) はターゲット色未学習、 (b ) はターゲット色学習量小、 (c ) はターゲット色学習量大の場合の結果である。
図 1 2は、 従来の画像処理方法における Y UV— Y UV 6次元空間を表す模 式図である。 発明を実施するための最良の形態 ' 以下、 本発明の一実施形態について、 図面を参照しながら説明する。
[本実施形態の概略]
本発明は背景差分を基本とした方法であり、 夕一ゲット検出時に起こりうる 背景変動はすべて事前に撮影された背景画像中の色分布そのものによつて表現 される。 したがって、 ターゲット検出性能を上げるためには、 起こりうる背景 変動を可能な限りもれなく観測 ·収集しておく必要がある。 し力、し、 すべての 移動対象物の写り込みや雲の移動による細かな影の変化なども含めた背景の見 えのパターンは膨大であり、 それらすベてを事前に観測することは不可能であ る。
したがって、 背景情報のみに基づくターゲット検出時は、 背景情報が不完全 であることを考慮して、 確実に背景外領域と見なせる領域を検出する。 また、 背景色とターゲット色を考慮したターゲット検出時は、 ターゲット色学習後に 、 背景色とターゲット色が似通っていても、 最近傍識別によって双方の等方的 な誤差 ·変動に対して口バストな識別を行うことを可能とする。
[背景色領域形成]
図 1は、 本発明に係る画像処理装置の一実施形態における機能プロック図で ある。 所定の位置に固定されたカメラ 3は、 矩形の点線で示された背景領域 1 、 または背景領域 1および対象領域 2からなる領域を撮像する。 このカメラ 3 は、 制御部 4に接続され、 制御部 4によって制御されるとともに、 撮像した画 像データなどを制御部 4に出力する。 また、 制御部 4にはドライブ 5が接続さ れており、 制御部 4から出力された画像データなどを記録媒体に記録する。 背景領域 1および対象領域 2は、 本発明を高度道路交通システム (I T S : Intelligent Transport System) に適用する場合には、 例えば、 高速道路を含め た所定の領域が背景領域 1であり、 その道路を走行している車が対象領域 2に 対応する。 また、 本発明を監視システムに適用する場合には、 例えば、 住居の 入り口やエレベータホールなどが背景領域 1であり、 その背景領域 1内を通過 する人物が対象領域 2に対応する。
カメラ 3は、 静止画撮影の場合には、 例えばデジタルスチルカメラであり、 動画撮影の場合には、 例えばデジタルビデオカメラである。 また、 カメラ 3は 、 C C D (Charge Coupled Devices) を撮像素子として備えるものである。 力 メラ 3は、 制御部 4の指示に従って画像を撮像し、 画素値 I ( x, y ) からな る画像データを制御部 4に出力する。 本実施形態においては、 この画素値 I ( X, y ) は、 カラーデータであり、 画像デ一夕の色階調値は YUV方式で表さ れているとする。 YUV方式は、 輝度信号である Yと、 色信号である Uおよび Vとで画像データの色を表現するものである。 このように YUV方式では輝度 と色の信号を分けているため、 輝度信号 (Y) により多くのデータ量を割り当 てることで、 少ない画質の劣化で高いデ一夕圧縮率を得ることができる。 また 、 この YUV値 (色階調値) は、 光の三原色である R (赤)、 G (緑) および B (青) で画像データの色を表現する R G B方式における R G B値や、 それ以外 の色表現形式に容易に変換することができる。
また、 本実施形態においては、 C C Dは単板式であり、 各画素に YUV値が 与えられているとして説明するが、 カメラ 3の C C Dは、 3板式であっても、 単板式であっても構わない。 3板式は、 撮像された画像データの色を、 例えば R、 G、 Bの三原色に分けて、 それぞれに C C Dを割り当てる方式である。 そ れに対して、 単板式は、 R G Bなどの色をまとめて、 それに 1つの C C Dを割 り当てる方式である。
制御部 4は、 カメラ 3で撮像された画像データを取り込み、 その画像データ に基づいて所定の処理を施す機能部である。 また、 制御部 4は、 ドライブ 5に 対して画像データなどのデ一夕を出力する。 さらに、 制御部 4は、 ドライブ 5 を介して、 種々の画像データやプログラムなどが記録された記録媒体から必要 な情報をインストールし、 その機能を実行することができる。
この制御部 4は、 主制御部 1 0、 背景画像データ記憶部 1 1、 入力画像デー 夕記憶部 1 2、 構造化デ一夕記憶部 1 3、 クラス識別部 1 4、 閾値比較部 1 5 および周辺機器制御部 1 6を備える。
主制御部 1 0は、 背景画像データ記憶部 1 1、 入力画像データ記憶部 1 2、 構造化データ記憶部 1 3、 クラス識別部 1 4、 閾値比較部 1 5および周辺機器 制御部 1 6に接続され、 これらの処理を制御するものである。
背景画像データ記憶部 1 1は、 カメラ 3で撮像された背景領域 1のみの画像 データ (背景画像データ) を記憶する機能部である。 この背景画像データ記憶 部 1 1においては、 画素の座標 (x, y ) に対応して、 YUV値が記憶されて いる。 入力画像データ記憶部 1 2は、 カメラ 3で撮像された背景領域 1および対象 領域 2からなる画像デ一タを記憶する機能部である。 この入力画像データ記憶 部 1 2においても、 背景画像データ記憶部 1 1と同様、 画素の座標 (x, y ) に対応して、 YUV値が記憶されている。
構造化データ記憶部 1 3は、 画素の座標 (X , y ) に対応して、 背景画像デ —夕の YUV値を記.憶する。 ただし、 背景画像デ一夕記憶部 1 1とは異なり、 画素の座標一つに対応して背景画像デ一夕枚数分の YUV値を構造化して記憶 する。 さらに、 構造化データ記憶部 1 3は、 入力画像データの各画素において 、 対象色領域に含まれると判断された画素の座標 (x, y ) と YUV値とを構 造化して記憶する。 この画素の座標に対応して Y U V値が構造化されている色 空間を、 以後、 識別空間と呼ぶ。 また、 構造化データ記憶部 1 3は、 背景色記 憶手段および対象色記憶手段として機能する。
クラス識別部 1 4は、 入力画像データ記憶部 1 2に記憶された入力画像デ一 夕の各画素の Y U V値が、 識別空間において背景色領域と対象色領域のいずれ に属するかを判別する機能部である。 そして、 YUV値が対象色領域に属する と判別された場合に、 クラス識別部 1 4は、 その Y UV値を構造化データ記憶 部 1 3に記憶させる。 また、 同時に、 クラス識別部 1 4は、 識別空間において 各画素の YUV値と背景色領域の最近傍点までの距離とを求める。 また、 クラ ス識別部 1 4は、 クラス識別手段として機能する。
閾値比較部 1 5は、 クラス識別部 1 4で求められた、 各画素の Y UV値と背 景色領域の最近傍点までの距離と閾値 T h bとを比較する機能部である。
周辺機器制御部 1 6は、 例えば静止画撮影の場合に、 カメラ 3に撮像信号を 送出し、 画像を撮像させるなど、 カメラ 3を制御する機能を有する。 また、 周 辺機器制御部 1 6は、 画像データやプログラムをドライブ 5に出力し記録媒体 に記録させ、 逆に記録媒体に記録された画像データやプログラムをドライブ 5 を介して入力するなど、 ドライブ 5を制御する機能を有する。
ドライブ 5は、 制御部 4から.出力された画像データなどのデータを受け取り 、 そのデ一夕を種々の記録媒体に出力する。 また、 ドライブ 5は、 記録媒体に 記録された種々の画像デ一夕やプログラムなどを制御部 4に出力する。 この記 録媒体は、 磁気ディスク (フロッピーディスクを含む) 2 1、 光ディスク (C D: Compact Disk. D VD: Digital Versatile Diskを含む) 2 2、 光磁気ディ スク (MD: Mini-Diskを含む) 2 3または半導体メモリ 2 4などにより構成さ れる。
図 2は、 本発明に係る画像処理装置の一実施形態における処理の流れを示す フロ一チャートである。 以下、 この図 1および図 2を参照しながら、 本発明に 係る画像処理装置の一実施形態における機能および処理の流れを説明する。 まず、 背景画像データに基づいて、 背景色領域形成を行う処理 (図 2の S 1 0および S 11) について説明する。
最初に、 照明条件などを変化させながら、 背景領域 1のみがカメラ 3で複数 枚撮像される (S 10)。 得られた背景画像データは、 制御部 4内の背景画像デ —夕記憶部 11に出力され、 そこに記憶される。 このとき、 背景画像データ記 憶部 11においては、 背景画像データの各画素の座標 (x, y) に対応して、 YUV値が記憶されている。 また、 背景画像データは複数枚撮像されているの で、 同じ画素の座標に複数個の YUV値が存在している。 これを表現するため に、 本実施形態においては、 xy_YUV5次元空間 (識別空間) を考え、 そ の空間内に YUV値を記憶させる (S 11)。
図 3は、 本発明の一実施形態における識別空間を表す模式図である。 この図 は、 複数枚の背景画像データおよび入力画像データにおける、 画素の座標と Y UV値とをどのように識別空間に配置させるかを示している。 例えば、 背景画 像データにおける座標が (xQ, yq) である画素の YUV値が (Yq, Ug, Vq ) のとき、 この xy座標と YUV値とを合わせて 5次元ベクトル (xQ, yq, Yq, Uq, Vq) T (背景色ベクトル) が構成される。 そして、 この 5次元べク トル (xQ, yq, Yq, Ug, Vq) Tが、 識別空間において 「背景」 とラベル付 けされる。 このとき、 模式的には、 各 (x, y) 座標点にそれぞれ YUV軸が 備わっていると考えることができる。 つまり、 背景画像データの画素の座標 (
Xq, yg) と画素の YUV値 (色階調値) (Yq, Uq, Vq) とが識別空間内に 構造化 ((XQ, Yq, Yq, Uq, Vq) T) され、 背景色領域とラベル付けされ ることになる。 この構造化された 5次元ベクトルは、 構造化データ記憶部 13 に記憶される。
[対象領域検出]
前述した識別空間における背景色領域形成 (背景学習) が終了すると、 対象 領域検出の準備が整ったことになる。 対象領域中の色情報が未知の場合には、 背景色情報のみから対象領域検出を行う。
以下、 入力画像データが、 背景色領域と対象色領域とのいずれに属するかを 判別する処理 (図2の320〜326) について説明する。
最初に、 背景領域 1と対象領域 2とが重なった入力画像が力メラ 3で撮像さ れる (S 20)。 得られた入力画像データは、 制御部 4内の入力画像データ記憶 部 12に出力され、 そこに記憶される。 このとき、 入力画像データ記憶部 12 においては、 入力画像データの各画素の座標 (x, y) に対応して、 YUV値 が記憶されている。
続いて、 入力画像データの画素 (xq, yg) が選択され (S 21)、 その画素 の xy— YUV値が識別空間に投影される (S 22)。 これは、 クラス識別部 1 4が、 入力画像データ記憶部 12から座標 (xq, yq) の画素の YUV値を受 け取り、 さらに構造化データ記憶部 13から同じ座標 (xQ, yn) の画素のす ベての YUV値を受け取り、 これらを比較することに相当する。
次に、 クラス識別部 14において、 画素 (xq, yq) の YUV値に対して、 最近傍識別が行われる (S 23)。 本実施形態においては、 簡単のため、 識別す べきクラスは背景とターゲットの 2つだけとする。 したがって、 最近傍識別の 結果、 入力画像データの YUV値は、 背景かターゲットかのいずれかのクラス に分けられる。 また、 クラス識別部 14において、 最近接クラスが決定される と同時に、 背景色領域に属する最近傍点までの距離が求められる。 求められた 最近傍点までの距離は、 閾値比較部 15に出力される。
識別空間にターゲット色が全く記録されていない初期状態では、 最近傍識別 はすべての xy— YUV値を背景として識別してしまう。 そこで、 通常の背景 差分のように閾値 Thb (定数) を導入し、 最近傍点までの距離が閾値 Thbよ り大きい xy— YUV値を背景外色領域 (本実施形態においては対象色領域) として検出するように構成する。
まず、 図 2の最近傍識別 (S 23) において、 入力画像デ一夕の座標 (xq, yq) の画素の YUV値が背景色領域に属すると識別された場合を説明する。 ま ず、 閾値比較部 15において、 クラス識別部 14で求められた最近傍点までの 距離と閾値 Thbとが比較される (S 24)。 そして、 最近傍点までの距離が閾 値 Thbより小さければ (324で 0)、 その入力画像データの YUV値は背 景色領域に属すると識別され、 入力画像データの次の画素の識別に移る (S 2 1)。
それに対して、 閾値比較部 15において、 最近傍点までの距離が閾値 Thbよ り大きいと判断されれば (324で丫£3)、 その入力画像デ一夕の YUV値は 対象色領域に属すると識別される。 また、 このときの 5次元ベクトル (xQ, y g, Yq, Uq, Vq) Tを、 対象色ベクトルと呼ぶ。 そして、 識別空間の全画素の xy座標において、 その YUV値が対象色領域として記憶され (S 26)、 入力 画像データの次の画素の識別に移る (S 21)。
このようにして、 順次、 対象色ベクトルが記憶されていくと、 背景色領域と 対象色領域とを分けている決定境界の形状も、 それに応じて変化していく。 次に、 図 2の最近傍識別 (S 23) において、 入力画像デ一夕の座標 (xq, yq) の画素の YUV値が対象色領域に属すると識別された場合を説明する。 ま ず、 閾値比較部 15において、 クラス識別部 14で求められた最近傍点までの 距離と閾値 Thbとが比較される (S 25)。 そして、 最近傍点までの距離が閾 値 Thbより小さければ (S 25でNO)、 その入力画像データの YUV値は背 景色領域にも近いことになるために、 識別空間内に記憶させることはせず、 入 力画像データの次の画素の識別に移る (S 21)。
つまり、 本実施形態においては、 「確実に背景外領域である」 と判断された領 域のみを切り出し、 その領域中の色をターゲット色として記録し、 以降の識別 処理に利用する。
それに対して、 閾値比較部 15において、 最近傍点までの距離が閾値 Thbよ り大きいと判断されれば (325で £3)、 その入力画像データの YUV値は 確実に対象色領域に属すると識別される。 そして、 識別空間の全画素の座標に おいて、 その YUV値が対象色領域として記憶され、 入力画像デ一夕の次の画 素の識別に移る (S 21)。
以上の処理を繰り返していくことにより、 背景領域の中から対象領域を識別 することができる。
以上説明したように本実施形態においては、 入力画像デ一夕の YUV値が対 象色領域に属すると識別されると、 その YUV値が識別空間に記憶される。 そ のため、 この識別に不具合が生ずると、 以降の最近傍識別による誤検出が増加 してしまう。 これを避けるためには、 識別時の閾値 Thbを十分に大きくするこ とが好ましい。
この閾値 Thbを十分に大きく取ってよい理由は以下の通りである。 ある背景 領域の色とそれに似た色の対象領域が重なったとき、 閾値 Thbが大きいと、 そ の対象領域が全く検出されなくなってしまう。 しかし、 閾値 Thbによる背景差 分は、 背景とターゲットの色が大きく異なる領域において確実に対象領域を検 出し、 その検出領域中の色を夕一ゲット色として識別空間に記録するための処 理であり、 類似した背景 ·夕ーゲット色間の識別は最近傍識別によって行われ る。 したがって、 閾値 Thbは適当に十分大きな値でよい。
また、 本実施形態においては、 閾値 Thbを定数として説明したが、 これは識 別処理を高速化するためである。 これにより、 識別の実時間処理が可能となる 。 しかし、 本発明はこれに限られることなく、 背景領域の変動に応じた適切な 閾値設定も可能である。
上記の識別処理においては、 例えば (xp, yp, Yp, Up, Vp) Tが背景外 色領域として識別されると、 この (Yp, Up, Vp) が他の xy座標で観測され てもターゲット色として識別されるように、 全 xy座標の (Yp, Up, Vp) を ターゲット色にクラス分類する。 しかし、 他の x y座標 (χ。, yq) では、 (X q, yq, Yp, Up, Vp) Tが背景色領域に分類されている可能性がある。 この とき、 (xq, yq, Yp, Up, Vp) Tのクラスをターゲットに変更してしまう と、 座標 (xq, yq) を頻繁に誤検出してしまう。 そこで、 以下のターゲット 色登録処理によってこの問題を回避することも可能である。
まず、 ターゲット色として識別された YUV値 (Yi, U Vi) を色成分に 持つ全 xy— YUV値 {(X i, y;, Y5, Uj; V;) τ} (ただし、 iは全画像 座標を要素に持つ集合の要素) の最近傍識別を行う。
次に、 最近傍識別の結果、 最近傍点までの距離が閾値 Thtより大きい場合の み背景色との重なりがないとみなし、 その xy— YUV値を夕一ゲットにクラ ス分類する。
ここで導入した閾値 Th tは、識別空間における背景色領域が信頼できる場合 は、 0 (ゼロ) でよい。 つまり、 YUV値が完全に一致した場合のみ、 ターゲ ッ卜にクラス分類するように構成してもよい。 それは、 本発明においては、 背 景領域の観測 ·学習はオフライン処理であるため、 この処理の段階で識別空間 における背景色領域の信頼性を十分に高めておくことが可能であるからである
[対象色領域の逐次更新]
夕一ゲット色が学習されると、 閾値 Thbによる閾値処理によってだけでなく 、 最近傍識別によってターゲットに識別される xy— YUV値 (xp, yp, Yp , Up, Vp) Tが現れる。 図 4 (a) に、 十分な背景学習が行われたため、 識別 空間における背景色領域は信頼できるが、 ターゲット色学習が不十分な時点 ( 時刻 Tpとする) の、 画素 (xp, yp) における 3次元 YUV空間を示す。 この 時刻 Tpにおいても、 図 4 (a) の のように、 最近傍識別によるターゲット 色検出結果は信頼性が高い。 したがって、 画素 (xp, yp) を対象領域として 検出する。 しかし、 逆に、 図 4 (a) の V2のように、 最近傍識別により背景色 と識別された xy— YUV値が実際に背景に対応している可能性は必ずしも高 くない。
図 4 (a) の例では、 ターゲット色学習が不十分な時刻 Tpにおいて、 少ない ながらも学習済の対象色領域 ΤΤρとの距離が小さい はターゲットとして識 別されている。 しかしながら、 本来はターゲットに識別されるべき V2は、 背景 に識別されている。 この問題は、 ターゲット色学習が進むにつれて自動的に解 決できる。 図 4 (b) に、 十分なターゲット色学習が行われた時刻 Tqの、 画素
(xp, yp) における 3次元 YUV空間を示す。 この図からわかるように、 、 V2ともにターゲットとして識別されることになる。
これは、 言い換えれば、 背景領域と対象色領域を分けている境界である、 決 定境界の位置に依存する。 図 4 (a) に示したように、 不十分な学習しか行わ れていなければ、 対象色領域に属するべクトルが少ないために、 決定境界 (不 十分な学習) DBTpは、 対象色領域側に近いところに位置している。 そのため 、 本来はターゲットに識別されるべき V2は、 背景に識別されている。 それに対 して、 学習が進んでいき時刻 Tqになると、 決定境界 (十分な学習) DBTqは、 より背景色領域側に近いところに移動している。 これにより、 V2もターゲット として識別されることになる。
また、 最近傍識別によりある xy— YUV値が夕一ゲット色に識別されても 、 最近傍背景色領域との距離が大きい (確実にターゲット色であると確認でき る) ことは保証されていない。 そこで、 最近傍識別によってターゲットに識別 された xy— YUV値を、 識別空間内に夕ーゲッ卜色として記憶する際にも、 前述した夕一ゲット色登録処理を実行することが好ましい。
[他の好ましい実施形態]
前述した実施形態においては、 画像データの色階調値は YUV方式で表され ているとして説明した。 しかし、 本発明はそれに限られることなく、 光の三原 色である R (赤)、 G (緑) および B (青) で画像データの色を表現する RGB 方式における RGB値や、 それ以外の色表現形式で表してもよい。 また、 例え ばカメラから出力された YUV値を RGB値など、 他の色表現形式に変換して 本発明に係る画像処理を行ってもよいし、 逆に、 カメラから出力された RGB 値など、 他の色表現形式のものを YUV値に変換して本発明に係る画像処理を 行うように構成することも可能である。
また、 本発明はカラ一画像に限られることなく、 例えば、 8ビット 256階 調のダレ一スケールで表された画像データに対しても、 適用可能である。
さらに、 本発明は、 画素の座標を表す xy 2次元座標と色階調を表す YUV 3次元べクトルとの組み合わせに限られることなく、 画素の座標と色階調を表 すベクトルとの他の任意の組み合わせに対しても適応可能である。 例えば、 画 素が 3次元的に配列されている場合であれば、 画素の座標を表す xy z 3次元 座標と色階調を表す任意の次元のべクトルとを組み合わせることも可能である また、 以上の説明においては、 識別すべきクラスは背景とターゲットの 2つ だけとしたが、 本発明はそ lに限られることなく、 3つ以上のクラスの識別に おいても有効である。
前述した実施形態においては、 1画素ごとにその YUV値を識別空間に投影 し、 ターゲット色検出を行った。 しかし、 近接画素間においては、 YUV値の 生起確率には高い相関があり、 またカメラの量子化誤差の影響で各 YUV値の 下位ビットの値は信頼性が低い。 そのため、 xy— YUV軸をそれぞれ観測可 能な最大解像度 (すなわち、 xy軸を 1画素ごと、 YUV軸を 1階調ごと) で サンプリングしても冗長性が高く、 識別空間の巨大化に伴う識別の高精度化は 期待できない。 そこで、 識別性能と計算コストとのトレードオフを考慮して、 各軸のサンプリングレートを決めることが好ましい。
図 5は、 xy軸の画素、 および YUV軸の階調をリサンプリングする一実施 形態を示した模式図である。 図 5 (a) は画像データの画素を表しており、 (b ) は xy各軸をリサンプリングして得た YUV集合である (空間リサンプリン グ)。 図 5 (a) では、 xy各軸をそれぞれ lZbにリサンプリングして、 図 5 (b) の YUV集合 Ssを作製している。 ここで、 この例においては、 b = 4で ある。 すなわち、 4X4ピクセルのブロック中の全 YUV値を識別空間中の一 つの xy値 (例えば、 4X4ピクセルの最も左上の座標など) に対応させてい る。 続いて、 Y UV軸の各階調を l Z cにリサンプリングして、 図 5 ( c ) に示 した YUV集合 S cを得ている (階調リサンプリング)。 図中の記号 [ X ] は、 Xを超えない最大の整数を表す。
本発明においては、 画像座標 x yと色階調 YUVという異なる情報量によつ て、 識別空間が構成されている。 そのため、 識別空間中の距離によって色を識 別する際に、 全軸間の距離を均一に評価してしまうことは、 識別結果に悪影響 を及ぼす可能性がある。 そこで、 前述のサンプリングレートを考慮した上で、 各軸間の距離に重みを与えることにより、 適切な識別が行われるように調整す る。
図 5 ( d ) では、 画像中の (x = n , y = n ) 番目のブロックからサンプリ ングされた YUV集合 S cが、 X y— YUV空間の X y軸方向単位長に w倍の重 みを与えられて、 (x =wn , y =wn) に投影されている。 この重みは、 厳密 には入力画像の複雑さによって変化させるべきであるが、 一般的には x y— Y UV軸のサンプリングレートのみに応じて決定しても識別結果に大きな影響は ない。
また、 このリサンプリングは、 識別空間のサイズを調整しているだけで、 入 力画像データのサイズを縮小している訳ではない。 それでありながら、 情報量 をほとんど減らすことなく、 効率的な処理が行えるため、 計算の高速化が可能 となる。 また、 必要なメモリ量も少なくて済む。 さらに、 空間リサンプリング においては、 例えある画素の色階調値がノイズにより本来の値から変動させら れたとしても、 隣接する画素と合わせたブロックに対して処理が行われるため 、 その変動の影響をほとんど受けずに済む。
ターゲット検出時は、 全画素に対応する x y— YUV値が上記の背景学習と 同様のルールで識別空間に投影され、 それぞれ独立に、 例えば画像が 6 4 0 X 4 8 0ピクセルであれば、 6 4 0 X 4 8 0回の最近傍識別が行われる。
以上説明した一連の画像処理は、 ソフトウェアにより実行することができる 。 例えば、 そのソフトウェアを構成するプログラムが、 専用のハードウェアに 組み込まれているコンピュータで実現される。 これは、 図 1において、 制御部 4およびドライブ 5をコンビュ一夕とし、 主制御部 1 0を専用のハードウェア とすることに相当する。
または、 一連の画像処理は、 記録媒体からソフトウェアを構成するプロダラ ムがィンストールされることにより、 各種の機能を実行することが可能な汎用 のコンピュータで実現される。 これは、 例えば、 図 1において、 制御部 4およ びドライブ 5を汎用のコンピュータとし、 磁気ディスク 2 1、 光ディスク 2 2 、 光磁気ディスク 2 3または半導体メモリ 2 4などを、 プログラムを記録した 記録媒体としたことに相当する。
【実施例 1】 以下、 照明の変化、 背景物体の動きなどの背景領域の変動に対する、 本発明 の有効性を確認するための一実施例について説明する。
本実施例では、 図 1の制御部 4およびドライブ 5として P e n t i um4 2. 4GHzの PC (パーソナルコンピュータ) と、 図 1のカメラ 3として S ONY製 I E EE 1394カメラ DFW— VL 500とを用いた画像処理の一 例を示す。 入力画像データは、 640 X480ピクセルの YUV画像である。 図 6に、 実験を行った背景領域を示す。 図 6 (a) は照明がオンの場合であ り、 図 6 (b) は照明がオフの場合である。 日照変化により壁や床の陰影は微 妙に変化している。 また、 画面左上のカーテンは風のため揺れている。
図 7および図 8は、 定数閾値による背景差分の検出結果を示す。 ただし、 図 7 (b) および図 8 (b)、 (d) は、 「極力全対象領域が検出されるように」 手 動で決められる閾値を小さく取った場合の検出結果である。 また、 図 7 (c) および図 8 (c)、 (e) は、 逆に、 「極力誤検出が小さくなるように」 手動で決 められる閾値を大きく取った場合の検出結果である。 そして、 全結果の閾値は 互いに異なる値である。
図 7 (b)、 (c) は、 図 6 (a) (照明オン) と図 7 (a) の差分結果におい て、 閾値を変えた結果である。 適切な閾値によって、 図 7 (c) のように比較 的良好な結果を得ることもできるが、 図 6 (a) と図 7 (a) において、 カー テンが移動した分は誤検出されている。 また、 図 8 (b)、 (c) は、 図 6 (a ) (照明オン) と図 8 (a) の差分結果において、 閾値を変えた結果である。 入 力画像の照明条件が急激に変化しているため、 閾値を調節しても大きな誤検出 が生じている。
一方、 図 8 (d)、 (e) は、 図 6 (b) (照明オフ) と図 8 (a) の差分結果 において、 閾値を変えた結果である。 このように、 仮に入力画像に適した静止 背景画像が与えられたとしても、 照明が消えて画像全体が暗い場合、 背景色と ターゲット色との差分が小さいため、 閾値の小さな違いが検出結果に大きな影 響を与えてしまう。
次に、 図 9に、 ガウス混合モデルを用いた背景差分の検出結果を示す。 図 9 (a) は、 図 7 (a) (照明オン) からの検出結果であり、 照明状況に対して十 分に背景モデルが適応した後の検出結果を示している。 この図 9 (a) に示し た結果は、 全画素に対して定数の閾値処理が行われた図 7 (b)、 (c) と比べ て、 非静止背景物体の誤検出がほとんどない。 しかし、 図 9 (b) に示すよう に、 照明オンに適応した背景モデルにより、 図 8 (a) (照明オフ) からの検出 を行うと、 誤検出が生じてしまう。
これは、 照明オフ直後には背景モデル更新が間に合わないために誤検出が生 じることを意味する。 照明オフの背景画像集合に合わせて十分に更新された背 景モデルから検出閾値を決定すると、 図 9 (c) に示すように単純な背景差分 の結果 (図 8 (b)、 (c)、 (d)、 (e)) と比べて良好な結果を得ることができ る。
最後に、 図 10 (照明オン) および図 1 1 (照明オフ) に、 本発明に係る画 像処理方法による検出結果を示す。 xy_YUV空間での最近傍識別には、 ハ ッシュ表を用いた効率的キャッシングによる高速化を施した。 八ッシュ表を用 いると、 データ量が大きくなつても、 キーとなるオブジェクトから対応するォ ブジェク卜へ高速にアクセスできるため、 高速な処理が可能となる。
また、 x、 y軸をそれぞれ 1/8に (X軸: 640ピクセル→80ピクセル 、 y軸: 480ピクセル— 60ピクセル)、 YUV軸はそれぞれ階調を半分 (2 56— 128) にリサンプリングし、 xy軸と YUV軸の単位長の比が 2 : 1 になるように xy軸に 2倍の重みを与えた。 つまり、 前述の b、 cおよび wは 、 b = 8、 じ=2ぉょぴ^=2でぁる。
本実施例では、 まず図 6に示したような照明オン ·オフ時の背景画像をそれ ぞれ 5種類ずつ事前に撮影し、 計 10枚の画像中の全 xy— YUV値を一つの 識別空間中に記録した。 これらの画像において、 壁や床の上の陰影は微妙に変 化し、 風で揺れるカーテンは様々な形状で撮影された。
本実施例においては、 ターゲットは画像内を数往復し、 その間に十分な夕一 ゲット色学習が行われた。 また、 ターゲット色学習量に応じた検出結果の変化 を確認するため、 ある 1枚の入力画像に対して、 (a) ターゲット色学習なし、
(b) ターゲット色学習量小、 および (c) ターゲット色学習量大、 という 3 つの異なる条件でターゲット検出を行った。 その結果が、 それぞれ、 図 10な らびに図 1 1の (a)、 (b) および (c) である。 すなわち、 図 10 (a) と 図 11 (a)、 図 10 (b) と図 1 1 (b)、 および図 10 (c) と図 11 (c ) は、 それぞれ同一の背景色 ·ターゲット色データによる検出結果であり、 照 明オン ·オフ時のそれぞれに適した識別データを用意している訳ではない。 図 7 (a) (照明オン) と図 8 (a) (照明オフ) からの検出結果を、 それぞ れ図 10および図 11に示す。 ただし、 本発明に係る画像処理方法には、 図 7 および図 8に示した単純な背景差分のように、 人間が適切な閾値を定めるよう な手動処理は一切含まれていない。 つまり、 本実施例においては自律動作によ りターゲット検出を行わせている。
図 10 )、 (b) や図 11 (a)、 (b) に示すように、 ターゲット色の学 習量が十分ではないときは、 背景色と対象領域中の色が似ている領域 (カーテ ンとシャツが重なる領域) での検出洩れが多い。 しかし、 図 10 (c)、 図 11
(c) に示したように、 十分な量のターゲット色を学習した後の検出結果では 、 背景色と類似した色の対象領域の検出率も向上し、 他の方法と比べて極めて 優れた結果が得られている。
また、 図 10 (c) における検出洩れのほとんどは、 照明によりターゲット 色が完全に飽和している領域であり、 色情報のみを参照して同じく色が完全に 飽和した背景領域と識別することは不可能である。 また、 ターゲット色学習後 の動作速度は、 P Cの性能に依存するが、 現状 1 0 f p sに近い値が得られて おり、 十分に実時間ターゲット検出が可能である。
以上説明したように、 本発明によれば、 背景差分とターゲット色検出を統合 した、 任意の対象領域における実時間ターゲット検出が可能な画像処理装置、 画像処理方法、 画像処理プログラムおよびそのプログラムを記録した記録媒体 を提供できる。 本発明においては、 画像の x y軸と色の YUV軸からなる 5次 元空間における最近傍識別によって、 背景画像色の空間的分布とターゲット色 の分布との両方を考慮した識別空間を構成することにより、 背景差分の適切な 閾値設定を実現している。 その結果、 定常的な背景変動だけでなく急激かつ大 きな照明変化などに対しても対応でき、 かつ背景色と夕ーゲット色の小さな差 分の検出も可能である。
[実施の形態の概要]
本発明に係る実施の形態の概要を以下に記載する。
( 1 ) 上記したように、 本願発明に係る画像処理装置は、 所定の領域を撮像 し、 画像データに変換する撮像手段と、 前記撮像手段により撮像された背景領 域のみからなる背景画像データにおける各画素の座標と、 前記各画素の色階調 値とを識別空間内に構造化して記憶し、 背景色領域を形成する背景色記憶手段 と、 前記撮像手段により撮像された、 背景領域および対象領域からなる入力画 像デ一夕における、 各画素の色階調値と前記背景色領域との識別空間内におけ る距離を計算し、 その計算された距離に基づき前記入力画像データの前記各画 素の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれに属する かを識別するクラス識別手段と、 前記クラス識別手段により前記各画素の色階 調値が前記背景外色領域に属すると判断された場合、 前記各画素の色階調値と 前記各画素の座標とを識別空間内に構造化して記憶する対象色記憶手段と、 を 備えることが好ましい。
この構成によれば、 まず、 撮像手段により背景領域のみが撮像された背景画 像データが得られる。 そして、 背景色記憶手段により、 背景画像データの画素 の座標と前記画素の色階調値とが識別空間内に構造化されて記憶される。 この 識別空間内における背景画像データの集合は、背景色領域と呼ばれる。続いて、 撮像手段により背景領域および対象領域が撮像された入力画像デ一夕が得られ る。 そして、 入力画像データの各画素の色階調値と背景色領域との識別空間内 における距離が計算される。 その計算された距離に基づき、 クラス識別手段に より、 入力画像データの各画素の色階調値が、 背景色領域とそれ以外の背景外 色領域のいずれに属するかが識別される。 このクラス識別手段により各画素の 色階調値が背景外色領域に属すると判断された場合には、 対象色記憶手段によ り、 各画素の色階調値と各画素の座標とが識別空間内に構造化して記憶される。 つまり、 複数枚の背景画像データを利用することができ、 かつ画像データに おける画素の座標と画素の色階調値とが識別空間内に構造化して記憶されてい る。 そのため、 色情報だけでなく、 位置情報も取り込まれている。 その結果、 定常的な背景変動だけでなく急激かつ大きな照明変化に対しても対応でき、 か つ背景色と夕ーゲット色との小さな差分の検出も可能である。
( 2 ) 画像処理装置は、 画像処理装置 (1 ) であって、 画像データの色階調 値は YUV方式で表されていることが好ましい。
この構成によれば、 輝度信号である Yと、 色信号である Uおよび Vで画像デ 一夕の色を表現する。 そして、 輝度信号 (Y) により多くのデータ量を割り当 てることで、 少ない画質の劣化で高いデータ圧縮率を得ることができる。
( 3 ) 画像処理装置は、 画像処理装置 (1 ) であって、 画像データの色階調 値は R G B方式で表されていることが好ましい。
この構成によれば、 光の三原色である R (赤)、 G (緑) および B (青) で画 像デ一夕の色を表現する。 R G B方式はスキャナ、 モニタ、 デジタルカメラ、 カラーテレビなどに使用されているので、 汎用性が高い。 また、 例えば、 フル カラ一であれば、 R G Bをそれぞれ 2 5 6階調に分けて色を表現するので、 1 6 7 7万 7 2 1 6色の色調表現が可能である。
( 4 ) 画像処理装置は、 画像処理装置 (1 ) であって、 画像デ一夕の色階調 値はダレ一スケールで表されていることが好ましい。
この構成によれば、 明度差に基づいたグレースケールで画像データの色を表 現する。 つまり、 画像を白から黒までの明暗だけで表現するため、 カラ一画像 に比べて色を指定するための情報量が少なくて済む。 その結果、 色を識別する 処理が高速に行える。
( 5 ) 画像処理装置は、 画像処理装置 (1 ) 乃至(4 ) のいずれかであって、 クラス識別手段において、 前記各画素の色階調値が前記背景領域と前記背景外 領域のいずれに属するかを識別する際に、 最近傍識別を用いることが好ましい。 この構成によれば、 識別空間において、 背景領域と背景外領域のいずれが、 各画素の色階調値から最も近い点を有するのかが、 最近傍識別により判断され る。 つまり、 識別問題で典型的に用いられている最近傍識別により識別を行う ので、 これまでに開発された効率的なアルゴリズムなどを有効に活用すること ができる。
( 6 ) 画像処理装置は、 画像処理装置 (1 ) 乃至 (5 ) のいずれかであって、 クラス識別手段において、 前記各画素の色階調値が前記背景領域と前記背景外 領域のいずれに属するかを識別する際に、 ハッシュ表を用いることが好ましい。 この構成によれば、 キーとなるオブジェクトから対応するォブジェクトへの 直接的なアクセスが可能となる。 これにより、 データ量が大きくなつても、 キ —となるオブジェクトから対応するォブジェク卜へ高速にアクセスできるため、 高速な処理が可能となる。
( 7 ) 画像処理装置は、 画像処理装置 (1 ) 乃至 (6 ) のいずれかであって、 クラス識別手段により前記各画素の色階調値が前記背景色領域に属すると判断 された場合、 前記各画素の色階調値と前記背景色領域の識別空間内における距 離が所定の閾値より大きいときに、 前記各画素の色階調値が前記背景外色領域 に含まれると判断し、 前記各画素の色階調値と前記各画素の座標とを識別空間 内に構造化して記憶することが好ましい。
この構成によれば、 クラス識別手段により前記各画素の色階調値が前記背景 色領域に属すると判断された場合であっても、 各画素の色階調値と背景色領域 の識別空間内における距離が所定の閾値より大きいときには、 背景外色領域に 含まれると判断し直される。 つまり、 閾値を変えることにより、 識別の基準を 制御することができる。 そのため、 背景領域の変動などがあった場合にも、 閾 値を調整することで、 容易に最適な識別を行うことができる。
( 8 ) 画像処理装置は、 画像処理装置 (1 ) 乃至 (7 ) のいずれかであって、 背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と前記 各画素の座標とを識別空間内に構造化して記憶する際、 近接する複数の画素の 色階調値をまとめて一つの画素の座標に記憶することが好ましい。
この構成によれば、 識別空間において、 近接する複数の画素の色階調値をま とめて一つの画素の座標に構造化して記憶するので、 画素の座標に関する情報 をほとんど減らすことなく、 1箇所に集約する。 これにより、 画素の座標に関 する情報をほとんど減らすことなく、 効率的な処理が行えるため、 計算の高速 化が可能となる。 また、 必要なメモリ量も少なくて済む。
( 9 ) 画像処理装置は、 画像処理装置 (1 ) 乃至 (8 ) のいずれかであって、 背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と前記 各画素の座標とを識別空間内に構造化して記憶する際、 色階調値に所定の値を 掛けて記憶することが好ましい。
この構成によれば、 色階調に関する' I青報をほとんど減らすことなく、 各画素 の色階調値が圧縮される。 これにより、 色階調に関する情報をほとんど減らす ことなく、 効率的な処理が行えるため、 計算の高速化が可能となる。 また、 必 要なメモリ量も少なくて済む。
( 1 0 ) 画像処理装置は、 画像処理装置 (1 ) 乃至 (9 ) のいずれかであつ て、 背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と 前記各画素の座標とを識別空間内に構造化して記憶する際、 画素の座標を指定 する座標軸に所定の重みを掛けて得られた画素の座標を用い、 該画素の座標と 前記各画素の色階調値とを識別空間内に構造化して記憶することが好ましい。 この構成によれば、 画素の座標を指定する座標軸に所定の重みを掛けて、 空 間座標における距離を変更する。 これにより、 識別空間における、 空間座標と 色階調空間の距離の関係が修正される。 つまり、 画像座標 x yと色階調 YUV という異なる情報量による各軸間の距離に重みを与えて調整しているので、 適 切な識別が行われる。
( 1 1 ) 上記したように、 本願発明に係る画像処理方法は、 所定の領域を撮 像し、 画像データに変換する撮像ステップと、 前記撮像ステップの処理により 撮像された背景領域のみからなる背景画像データにおける各画素の座標と、 前 記各画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形成す る背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景領 域および対象領域からなる入力画像データにおける、 各画素の色階調値と前記 背景色領域との識別空間内における距離を計算し、 その計算された距離に基づ き前記入力画像データの前記各画素の色階調値が、 前記背景色領域とそれ以外 の背景外色領域のいずれに属するかを識別するクラス識別ステップと、 前記ク ラス識別ステップの処理により前記各画素の色階調値が前記背景外色領域に属 すると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別空 間内に構造化して記憶する対象色記憶ステツプと、 を含むことが好ましい。
この構成によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色とターゲ ット色の小さな差分の検出も可能である画像処理方法を提供することができる。
( 1 2 ) 上記したように、 本願発明に係る記録媒体は、 所定の領域を撮像し 、 画像データに変換する撮像ステップと、 前記撮像ステップの処理により撮像 された背景領域のみからなる背景画像データにおける各画素の座標と、 前記各 画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形成する背 景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景領域お よび対象領域からなる入力画像データにおける、 各画素の色階調値と前記背景 色領域との識別空間内における距離を計算し、 その計算された距離に基づき前 記入力画像データの前記各画素の色階調値が、 前記背景色領域とそれ以外の背 景外色領域のいずれに属するかを識別するクラス識別ステツプと、 前記クラス 識別ステップの処理により前記各画素の色階調値が前記背景外色領域に属する と判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別空間内 に構造化して記憶する対象色記憶ステップと、 をコンピュータに実行させるた めのプログラムを記録したコンピュータが読み取り可能な記録媒体であること が好ましい。
この構成によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色とターゲ ット色の小さな差分の検出も可能である画像処理方法に関する、 コンピュータ が読み取り可能なプログラムが記録されていることを特徴とする記録媒体を提 供することができる。
( 1 3 ) 上記したように、 本願発明に係るプログラムは、 所定の領域を撮像 し、 画像データに変換する撮像ステップと、 前記撮像ステップの処理により撮 像された背景領域のみからなる背景画像データにおける各画素の座標と、 前記 各画素の色階調値とを識別空間内に構造化して記憶し、 背景色領域を形成する 背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景領域 および対象領域からなる入力画像デ一夕における、 各画素の色階調値と前記背 景色領域との識別空間内における距離を計算し、 その計算された距離に基づき 前記入力画像データの前記各画素の色階調値が、 前記背景色領域とそれ以外の 背景外色領域のいずれに属するかを識別するクラス識別ステップと、 前記クラ ス識別ステップの処理により前記各画素の色階調値が前記背景外色領域に属す ると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別空間 内に構造化して記憶する対象色記憶ステップと、 をコンピュータに実行させる ためのプログラムであることが好ましい。
この構成によれば、 背景差分と色検出の統合により、 定常的な背景変動だけ でなく急激かつ大きな照明変化などに対しても対応でき、 かつ背景色とターゲ ット色の小さな差分の検出も可能である画像処理方法に関するプログラムを提 供することができる。
本発明は詳細に説明されたが、 上記した説明は、 全ての局面において、 例示 であって、 本発明がそれに限定されるものではない。 例示されていない無数の 変形例が、 この発明の範囲から外れることなく想定され得るものと解される。

Claims

請求の範囲
【請求項 1】
所定の領域を撮像し、 画像データに変換する撮像手段と、
前記撮像手段により撮像された背景領域のみからなる背景画像デー夕におけ る各画素の座標と、 前記各画素の色階調値とを識別空間内に構造化して記憶し 、 背景色領域を形成する背景色記憶手段と、
前記撮像手段により撮像された、 背景領域および対象領域からなる入力画像 デ一夕における、 各画素の色階調値と前記背景色領域との識別空間内における 距離を計算し、 その計算された距離に基づき前記入力画像データの前記各画素 の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれに属するか を識別するクラス識別手段と、
前記クラス識別手段により前記各画素の色階調値が前記背景外色領域に属す ると判断された場合、 前記各画素の色階調値と前記各画素の座標とを識別空間 内に構造化して記憶する対象色記憶手段と、
を備えることを特徴とする画像処理装置。
【請求項 2】
画像デ一夕の色階調値は YUV方式で表されていることを特徴.とする請求項 1記載の画像処理装置。
【請求項 3】
画像データの色階調値は R G B方式で表されていることを特徴とする請求項 1記載の画像処理装置。
【請求項 4】
画像データの色階調値はグレースケールで表されていることを特徴とする請 求項 1記載の画像処理装置。
【請求項 5】
クラス識別手段において、 前記各画素の色階調値が前記背景領域と前記背景 外領域のいずれに属するかを識別する際に、 最近傍識別を用いることを特徴と する請求項 1乃至 4のいずれかに記載の画像処理装置。
【請求項 6】
クラス識別手段において、 前記各画素の色階調値が前記背景領域と前記背景 外領域のいずれに属するかを識別する際に、 ハッシュ表を用いることを特徴と する請求項 1乃至 5のいずれかに記載の画像処理装置。
【請求項 7】
クラス識別手段により前記各画素の色階調値が前記背景色領域に属すると判 断された場合、 前記各画素の色階調値と前記背景色領域の識別空間内における 距離が所定の閾値より大きいときに、 前記各画素の色階調値が前記背景外色領 域に含まれると判断し、 前記各画素の色階調値と前記各画素の座標とを識別空 間内に構造化して記憶することを特徴とする請求項 1乃至 6のいずれかに記載 の画像処理装置。
【請求項 8】
背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と前 記各画素の座標とを識別空間内に構造化して記憶する際、 近接する複数の画素 の色階調値をまとめて一つの画素の座標に記憶することを特徴とする請求項 1 乃至 7のいずれかに記載の画像処理装置。
【請求項 9】
背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と前 記各画素の座標とを識別空間内に構造化して記憶する際、 色階調値に所定の値 を掛けて記憶することを特徴とする請求項 1乃至 8のいずれかに記載の画像処 理装置。
【請求項 1 0】
背景色記憶手段または対象色記憶手段において、 前記各画素の色階調値と前 記各画素の座標とを識別空間内に構造化して記憶する際、 画素の座標を指定す る座標軸に所定の重みを掛けて得られた画素の座標を用い、 該画素の座標と前 記各画素の色階調値とを識別空間内に構造化して記憶することを特徴とする請 求項 1乃至 9のいずれかに記載の画像処理装置。
【請求項 1 1】
所定の領域を撮像し、 画像デ一夕に変換する撮像ステツプと、
前記撮像ステップの処理により撮像された背景領域のみからなる背景画像デ 一夕における各画素の座標と、 前記各画素の色階調値とを識別空間内に構造化 して記憶し、 背景色領域を形成する背景色記憶ステツプと、
前記撮像ステップの処理により撮像された、 背景領域および対象領域からな る入力画像データにおける、 各画素の色階調値と前記背景色領域との識別空間 内における距離を計算し、 その計算された距離に基づき前記入力画像データの 前記各画素の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれ に属するかを識別するクラス識別ステップと、
前記クラス識別ステップの処理により前記各画素の色階調値が前記背景外色 領域に属すると判断された場合、 前記各画素の色階調値と前記各画素の座標と を識別空間内に構造化して記憶する対象色記憶ステツプと、
を含むことを特徴とする画像処理方法。
【請求項 1 2】
所定の領域を撮像し、 画像デー夕に変換する撮像ステツプと、
前記撮像ステップの処理により撮像された背景領域のみからなる背景画像デ 一夕における各画素の座標と、 前記各画素の色階調値とを識別空間内に構造化 して記憶し、 背景色領域を形成する背景色記憶ステップと、 前記撮像ステップの処理により撮像された、 背景領域および対象領域からな る入力画像データにおける、 各画素の色階調値と前記背景色領域との識別空間 内における距離を計算し、 その計算された距離に基づき前記入力画像データの 前記各画素の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれ に属するかを識別するクラス識別ステップと、
前記クラス識別ステツプの処理により前記各画素の色階調値が前記背景外色 領域に属すると判断された場合、 前記各画素の色階調値と前記各画素の座標と を識別空間内に構造化して記憶する対象色記憶ステツプと、
をコンピュータに実行させるためのプログラムを記録したコンピュータが読み 取り可能な記録媒体。
【請求項 1 3】
所定の領域を撮像し、 画像デー夕に変換する撮像ステップと、
前記撮像ステップの処理により撮像された背景領域のみからなる背景画像デ 一夕における各画素の座標と、 前記各画素の色階調値とを識別空間内に構造化 して記憶し、 背景色領域を形成する背景色記憶ステツプと、
前記撮像ステップの処理により撮像された、 背景領域および対象領域からな る入力画像データにおける、 各画素の色階調値と前記背景色領域との識別空間 内における距離を計算し、 その計算された距離に基づき前記入力画像データの 前記各画素の色階調値が、 前記背景色領域とそれ以外の背景外色領域のいずれ に属するかを識別するクラス識別ステップと、
前記クラス識別ステツプの処理により前記各画素の色階調値が前記背景外色 領域に属すると判断された場合、 前記各画素の色階調値と前記各画素の座標と を識別空間内に構造化して記憶する対象色記憶ステツプと、
をコンピュータに実行させるためのプログラム。
PCT/JP2005/012282 2004-07-22 2005-06-28 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体 WO2006008944A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05765443A EP1780673A4 (en) 2004-07-22 2005-06-28 IMAGE PROCESSOR, IMAGE PROCESSING METHOD, IMAGE PROCESSING PROGRAM, AND PROGRAM RECORDING MEDIUM
US11/632,932 US20080247640A1 (en) 2004-07-22 2005-06-28 Image Processing Device, Image Processing Method, and Recording Medium on Which the Program is Recorded

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004214920A JP2006039689A (ja) 2004-07-22 2004-07-22 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体
JP2004-214920 2004-07-22

Publications (1)

Publication Number Publication Date
WO2006008944A1 true WO2006008944A1 (ja) 2006-01-26

Family

ID=35785064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012282 WO2006008944A1 (ja) 2004-07-22 2005-06-28 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体

Country Status (4)

Country Link
US (1) US20080247640A1 (ja)
EP (1) EP1780673A4 (ja)
JP (1) JP2006039689A (ja)
WO (1) WO2006008944A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105806853A (zh) * 2014-12-31 2016-07-27 北京有色金属研究总院 一种材料中微区金属元素的监测分析方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4089736B2 (ja) * 2006-05-26 2008-05-28 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US8009193B2 (en) * 2006-06-05 2011-08-30 Fuji Xerox Co., Ltd. Unusual event detection via collaborative video mining
AU2006252252B2 (en) * 2006-12-22 2009-10-01 Canon Kabushiki Kaisha Image processing method and apparatus
JP4963306B2 (ja) * 2008-09-25 2012-06-27 楽天株式会社 前景領域抽出プログラム、前景領域抽出装置、及び前景領域抽出方法
JP5318664B2 (ja) * 2009-05-28 2013-10-16 セコム株式会社 対象物検知装置
JP5155250B2 (ja) * 2009-05-29 2013-03-06 セコム株式会社 対象物検出装置
KR20120052767A (ko) * 2010-11-16 2012-05-24 한국전자통신연구원 영상 분리 장치 및 방법
US10713499B2 (en) * 2012-04-23 2020-07-14 Conduent Business Services, Llc Real-time video triggering for traffic surveillance and photo enforcement applications using near infrared video acquisition
CN102722889B (zh) * 2012-05-31 2015-12-16 信帧科技(北京)有限公司 一种图像背景获取方法和装置
CN104766089A (zh) * 2014-01-08 2015-07-08 富士通株式会社 检测图像中斑马线的方法、装置以及电子设备
CN104252623A (zh) * 2014-09-04 2014-12-31 华中科技大学 一种高温蒸发型喷雾纹影图像识别与测量方法
US9813762B2 (en) * 2015-11-16 2017-11-07 Arris Enterprises Llc Creating hash values indicative of differences in images
CN105761286A (zh) * 2016-02-29 2016-07-13 环境保护部卫星环境应用中心 基于多光谱遥感影像的水色异常对象提取方法及系统
CN109313805A (zh) * 2016-06-22 2019-02-05 索尼公司 图像处理装置、图像处理系统、图像处理方法和程序
CN109615610B (zh) * 2018-11-13 2023-06-06 浙江师范大学 一种基于YOLO v2-tiny的医用创可贴瑕疵检测方法
CN110751635B (zh) * 2019-10-12 2024-03-19 湖南师范大学 一种基于帧间差分和hsv颜色空间的口腔检测方法
JP7381369B2 (ja) 2020-03-04 2023-11-15 セコム株式会社 画像処理装置、画像処理方法及び画像処理プログラム
CN111277772A (zh) * 2020-03-09 2020-06-12 北京文香信息技术有限公司 一种抠图方法、装置、设备和存储介质
CN111307727B (zh) * 2020-03-13 2020-10-30 生态环境部卫星环境应用中心 基于时序遥感影像的水体水色异常识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251149A (ja) * 1993-03-01 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 静止画像切り出し処理方式
JPH1021408A (ja) * 1996-07-04 1998-01-23 Canon Inc 画像抽出装置および方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5436672A (en) * 1994-05-27 1995-07-25 Symah Vision Video processing system for modifying a zone in successive images
US7162101B2 (en) * 2001-11-15 2007-01-09 Canon Kabushiki Kaisha Image processing apparatus and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251149A (ja) * 1993-03-01 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 静止画像切り出し処理方式
JPH1021408A (ja) * 1996-07-04 1998-01-23 Canon Inc 画像抽出装置および方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KATO T. ET AL: "Integration between Background Subtraction and Color Detection based on Nearest Neighbor Classifier", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 145, no. 5, January 2004 (2004-01-01), pages 31 - 36, XP002997734 *
See also references of EP1780673A4 *
WADA T.: "Color-Target Detection Based on Nearest Neighbor Classifier: Example Based Classification and Its Applications", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2002, no. 84, 12 September 2002 (2002-09-12), pages 17 - 24, XP002997733 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105806853A (zh) * 2014-12-31 2016-07-27 北京有色金属研究总院 一种材料中微区金属元素的监测分析方法

Also Published As

Publication number Publication date
EP1780673A1 (en) 2007-05-02
JP2006039689A (ja) 2006-02-09
EP1780673A4 (en) 2010-06-16
US20080247640A1 (en) 2008-10-09

Similar Documents

Publication Publication Date Title
WO2006008944A1 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録した記録媒体
JP4653155B2 (ja) 画像処理方法及び装置
Nadimi et al. Physical models for moving shadow and object detection in video
JP4722923B2 (ja) コンピュータビジョンによりシーンをモデル化する方法
US8922674B2 (en) Method and system for facilitating color balance synchronization between a plurality of video cameras and for obtaining object tracking between two or more video cameras
US10181088B2 (en) Method for video object detection
US8553086B2 (en) Spatio-activity based mode matching
KR20140095333A (ko) 영상에서 객체 추적 방법 및 장치
JP3459950B2 (ja) 顔検出及び顔追跡方法並びにその装置
EP2795904B1 (en) Method and system for color adjustment
KR20120133646A (ko) 객체 수 추정 장치 및 방법
CN115661720A (zh) 一种被遮挡车辆的目标跟踪识别方法及系统
WO2013114803A1 (ja) 画像処理装置及びその画像処理方法、並びにコンピュータ・プログラム、および画像処理システム
KR20100118368A (ko) 영상 감시 시스템에서 은닉 마르코프 모델을 이용한 불 검출방법
Zhang et al. An optical flow based moving objects detection algorithm for the UAV
JPH1021408A (ja) 画像抽出装置および方法
JP2005049979A (ja) 顔検知装置及びインターホン装置
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
Fregin et al. Feature detectors for traffic light recognition
JP2002342758A (ja) 視覚認識システム
JP2010050651A (ja) ホワイトバランス制御装置およびそれを用いた撮像装置並びにホワイトバランス制御方法
Jiang et al. Shadow-resistant tracking in video
JP2007102270A (ja) 画像処理装置
WO2021136001A1 (zh) 一种基于Codebook原理的高效视频移动目标检测方法
WO2013114802A1 (ja) 画像処理装置及びその画像処理方法、並びにコンピュータ・プログラム、および画像処理システム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11632932

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2005765443

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005765443

Country of ref document: EP