WO2016175234A1 - 色画像処理方法、色画像処理プログラム、物体認識方法及び装置 - Google Patents
色画像処理方法、色画像処理プログラム、物体認識方法及び装置 Download PDFInfo
- Publication number
- WO2016175234A1 WO2016175234A1 PCT/JP2016/063163 JP2016063163W WO2016175234A1 WO 2016175234 A1 WO2016175234 A1 WO 2016175234A1 JP 2016063163 W JP2016063163 W JP 2016063163W WO 2016175234 A1 WO2016175234 A1 WO 2016175234A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- color
- image
- template
- matching
- image processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/46—Colour picture communication systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/46—Colour picture communication systems
- H04N1/56—Processing of colour picture signals
- H04N1/60—Colour correction or control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Definitions
- the present invention relates to a color image processing method, a color image processing program, an object recognition method, and an apparatus that are robust to changes in light sources such as illumination light.
- a mobile robot such as a humanoid robot is required to recognize an object through a camera, but it is difficult to recognize the color of the object.
- the reason for this is that a mobile robot moves from place to place and operates under various illumination lights, so that the “color appearance” of the object surface changes due to changes in the illumination light. Therefore, color image processing that is robust against illumination light is required.
- a humanoid robot has a camera on its head and is expected to recognize a scene in the same way as a human.
- color information is a clue when recognizing people and objects, but in an outdoor environment where the color changes from moment to moment, or in an indoor environment where the color of the surrounding lighting changes due to independent movement, etc.
- the “color appearance” of the object surface changes.
- the color information extracted from the image captured by the camera changes the pixel value of the captured camera image in response to changes in the “color appearance” of the object surface.
- the color perceived by the camera and the image captured by the camera may be significantly different from each other.
- Retinex theory is known as a color image processing theory based on color constancy.
- Retinex theory is a coined word that combines Retina (retina) and Cortex (cerebral cortex), and is a theory that models how the human brain perceives color and light.
- the camera determines the brightness based on the physical light intensity for each pixel, whereas human vision perceives the relative brightness ratio of each area by removing the light source light such as illumination light. It is a model to do.
- the light that enters the human eye is modeled by the product of the component of the illumination light applied to the object and the reflectance of the object surface that does not depend on the illumination.
- template matching that is robust to changes in light sources such as illumination light
- template matching using normalized correlation and stable template matching even when a part of the target image to be searched is shielded
- a method for realizing the above there is known a method of dividing a template image into block regions and performing matching by normalized correlation for each block (see Non-Patent Document 1). According to the method of performing matching by normalized correlation for each block, it is robust against partial hiding.
- tracking is performed using the characteristics of the color histogram in the template window (Mean-Shift Law) is known.
- Such a method is a method in which a slope in a predetermined section near the initial value of a function is obtained, the center of the section is moved in a direction in which the function value increases with the obtained slope, and a position where the maximum is near the initial value is obtained. is there. In this method, tracking is performed assuming temporal continuity of images.
- color information is assigned not in units of pixels, but in units of pixel blocks obtained by dividing an acquired color image by a predetermined size, and using a color histogram obtained by integrating the pixel blocks, region division (shape An environment recognition device that recognizes an object without performing (acquisition) is known (see Patent Document 1).
- the environment recognition device disclosed in Patent Literature 1 the number of pixel blocks in which the associated color information matches the color index of interest is integrated along one direction on the color image, and the integrated values are arranged one-dimensionally.
- a color histogram is generated for each color index.
- the color information extracted from the image captured by the camera also changes the pixel value of the captured camera image in response to the change in the “color appearance” of the object surface.
- the color perceived by the person in the field and the image captured by the camera are greatly separated from each other. Therefore, there is a need for color image processing, an object recognition device, and the like that solve the color constancy problem of estimating an object surface color from an object color that changes due to a change in a light source such as illumination light.
- an object of the present invention is to provide a color image processing method, a color image processing program, an object recognition method, and an apparatus that are robust to changes in light sources such as illumination light.
- a color image processing method of the present invention is a color image processing method for performing template matching on a target color image using at least one template image, and a plurality of template images. Matching is performed using the similarity of the color histogram in each block region divided into blocks.
- a template image is divided into a plurality of blocks, and template matching is performed on a color image that is a target image for each block region, thereby robustly changing a light source in a small region. Can be estimated. Further, by performing template matching using the similarity of the color histogram in each block region, a slight difference in shape, that is, a slight deformation can be allowed.
- the color histogram is a histogram that counts how many pixels a specific color is in the image, and the similarity of the color histogram is a numerical value of the degree of similarity of the histogram shapes.
- each color is usually represented by 8 bits (256 ways) in digital data and can be displayed.
- the number of histogram bar graphs is 16777216 and 16777216 dimensional vectors. It is also possible to reduce the number and dimension by subtracting colors by substituting each of the RGB components into n equal parts (for example, 16 equal parts) and replacing them with the central representative value.
- a method of digitizing the similarity of the color histogram for example, a method using a luminance order color vector described later, a frequency distribution is created, and an appropriate bin size is selected, and then the chi-square distance or There is a method that uses the Batachariya distance.
- template matching is performed by estimating a light source distribution such as illumination light as well as a texture feeling such as the degree of color variation on the surface of an object. Absorbs the change in the “color appearance” of the object surface due to, and can perform robust matching to light source changes.
- the color histogram in the block area is determined from the pixel values of the image in the block area and indicates the color distribution in the block area.
- the color distribution of the block area is determined by the product of the spectral distribution of the light source in the block area and the spectral reflection characteristic of the object surface. From the two-dimensional pixel values of the block area, the color distribution of the block area can be calculated.
- the light sources are different. If the object reflected in the block area in the template image and the object reflected in the block area in the target image are the same object, the spectral reflection characteristics of the object surface are the same.
- the spectral distribution of the light source is matched by correcting it.
- the light sources are different, for example, the light intensity may be different, or the color characteristics of the light sources may be different.
- the spectral distribution of a specific color is compared or corrected by scaling to match the spectral distribution of the light source.
- the spectral distributions of the light sources are matched to compare the color histograms indicating the color distribution of the block areas.
- the spectral distribution of the light source is estimated and matching is performed by determining the similarity of the color distribution of the block area.
- the color histogram of the block area is based on the luminance value (pixel value).
- Use a sorted color histogram By sorting based on the luminance value, the pixel position information is lost, and the feature related to the shape of the object is lost, so that only the size of the pixel value included in the block region is used.
- a situation in which the luminance value of each color changes in accordance with the change of the illumination light can be considered, but by rearranging in order of the luminance value, the change of the illumination light appears only in the change of the luminance value.
- the block region may be separated into red, green, and blue gray images, and the color histograms may be compared based on the gray images.
- the processing can be simplified. Specifically, an image obtained by cutting out the block area in the window in template matching as one color image is separated into three grayscale images of red, green, and blue and transformed into three vectors. Then, the three vectors are rearranged in order of luminance values, and a set of three vectors is treated as a color feature amount of the block area, and the color histograms are compared. This makes it more robust against light source changes.
- N color histograms are provided for each color of R (red), G (green), and B (blue), where N is the number of pixels in the block area.
- This is a luminance order color vector obtained by sorting existing color vectors in order of pixel value.
- the similarity between the color histograms is preferably calculated from the difference between the luminance order color vectors of the template image and the target image, and a predetermined threshold obtained from the weighting of the minimum error and the maximum error.
- the template image in the color image processing method of the present invention is preferably an image whose light source color at the time of imaging is known. Since the light source color at the time of capturing the template image is known, the spectral reflection characteristic of the object surface unique to the object of the template image can be known, so that the matching accuracy can be improved.
- the light source color is the color characteristic of the light source, from which the spectral distribution of the light source can be calculated. Of course, the spectral distribution of the light source may be known.
- the logarithm of the light source ratios R (red), G (green), and B (blue) obtained from the luminance order color vectors of two adjacent block areas in the target image is used as each axis.
- the block area where the light source light when the target image is captured is blocked by the object and a shadow is formed, and the light source light when the target image is captured is natural sunlight It is preferable to discriminate and exclude a block area that has not been present.
- the data distribution is Focus on the fact that it is biased, and improve the accuracy of matching by discriminating and removing those that deviate from the bias of the distribution by determining that the shadow is formed or the light source light was not natural sunlight.
- the outdoor shadow is not a simple black but a strong blue component. Therefore, when the light source light when the target image is captured is obstructed by the object and a shadow is formed, natural light among R (red), G (green), and B (blue) is formed in the shadow portion. Since the blue component is emphasized and the brightness is normalized, the shadow portion becomes bluish, and the color of the present invention that calculates the difference between the luminance order color vectors of two adjacent block areas for each RGB This is the basis for the image processing method.
- the logarithm of R (red), G (green), and B (blue) of the light source ratio obtained from the luminance order color vectors of two adjacent block regions in the target image is used as each axis. This is because, when taking into account the bias in the data distribution, the way the light hits is shown as a difference of the same scale, for example, a doubled and a doubled.
- the logarithms of the light source ratios R (red), G (green), and B (blue) obtained from the luminance order color vectors of two adjacent block regions in the target image are expressed on each axis.
- the threshold of the trivariate Mahalanobis distance from the distribution of data in the three-dimensional map, the block area in which the light source light when the target image is captured is obstructed by the object and the shadow is formed, and the target image Block areas where the light source light at the time of imaging was not natural sunlight may be determined and excluded based on a set threshold value.
- discriminant analysis is performed using the Mahalanobis distance with the logarithm of R (red), G (green) and B (blue) as three variables. Specifically, a Mahalanobis distance threshold is set, and those larger than the threshold are excluded. In addition, it is also possible to discriminate and analyze by classifying with a support vector machine (SVM).
- SVM support vector machine
- the object recognition method of the present invention includes the following steps 1) to 4), and the step of performing template matching 3) below divides the window image into a plurality of block regions, and performs the color image processing of the present invention described above.
- the method is used to compare the similarity of color histograms or luminance order color vectors of block areas.
- the step of performing template matching in the above 3) is performed on the obtained color image using each template image, and the position of the target object distribution is recognized by combining the template matching results. It is preferable to do. Perform template matching using multiple template images, and recognize the position of the distribution of the target object with a combination of matching results (for example, the total), thereby making object recognition more robust against light source changes It can be carried out.
- the machine control method of the present invention is a control method using the color image processing method of the present invention or the object recognition method of the present invention, wherein the controlled machine detects a target object by template matching and operates. It is characterized by waking up. According to the machine control method of the present invention, it is possible to perform machine control that is robust against light source changes.
- the machine to be controlled is a robot such as a fruit picking robot, a machine device in a factory line, an automobile, and the like, and includes a machine controlled by a program, autonomous control, or remote control.
- the color information output method of the present invention is an output method using the color image processing method of the present invention or the object recognition method of the present invention, and recognizes and recognizes individual objects existing in the camera image.
- the display color of the object is determined by template matching, and color information is output.
- the color information output method of the present invention it is possible to output color information that is robust against changes in the light source.
- the color information output includes a color information that is displayed in text, displayed in voice, displayed on a wearable terminal, or output as network communication data.
- the color information output method of the present invention is useful, for example, as one method for supporting color blind patients.
- the color image processing program of the present invention is a program for causing a computer to execute the template matching step in the object recognition method of the present invention.
- the color image processing program of the present invention causes a computer to execute a step by comparing an image having the same size as the window in the acquired color image and the template image, and the image of the window is divided into a plurality of blocks. The image is divided into regions, and the color histograms of the block regions are compared using the color image processing method of the present invention.
- the object recognition apparatus uses at least one template image using an image acquisition unit that acquires a color image of an object captured by a camera and a pixel area in which the target object is captured in a window of a preset size.
- Analyzing means for recognizing the position of the distribution of the target object is provided.
- the matching means divides the window image into a plurality of block areas, and compares the similarity between the color histogram of each block area and the color histogram of the block area of the template image. According to the above configuration, robust object recognition can be performed against light source changes.
- the similarity of the color histograms is obtained by separating the block region into red, green and blue gray images, and based on the respective gray images, the similarity of the color histograms May be compared.
- the color histogram is specifically N for each of R (red), G (green), and B (blue), where N is the number of pixels in the block region.
- This is a luminance order color vector obtained by sorting the existing color vectors in order of pixel value.
- the similarity between the color histograms is preferably calculated from the difference between the luminance order color vectors of the template image and the target image, and a predetermined threshold obtained from the weighting of the minimum error and the maximum error.
- the template image of the object recognition apparatus of the present invention is an image in which the light source color at the time of imaging is known.
- the matching unit performs template matching on the acquired color image using each template image, and the analysis unit distributes the target object according to the combination of the template matching results. It is preferable to recognize the position of. As a result, more robust object recognition can be performed against light source changes.
- each axis is a logarithm of R (red), G (green), and B (blue) of the light source ratio obtained from the luminance normal color vectors of two adjacent block regions in the target image.
- R red
- G green
- B blue
- the block area where the light source light when the target image was captured was blocked by the object and a shadow was formed, and the light source light when the target image was captured is not natural sunlight
- an exclusion discriminating means for discriminating and excluding the block area.
- the data distribution is Focusing on the fact that it is biased, by including an exclusion determination means that determines that the deviation from the distribution bias is formed, or that the light source light is not natural sunlight and is excluded, Increase the accuracy of object recognition matching.
- the logarithm of R (red), G (green), and B (blue) of the light source ratio obtained from the luminance normal color vectors of two adjacent block regions in the target image
- a trivariate Mahalanobis distance threshold is set, and a block area in which a shadow is formed by blocking the light source light when the target image is captured; Block areas where the light source light is not natural sunlight when the target image is captured may be discriminated by the threshold and excluded.
- Mahalanobis distance Discrimination using Mahalanobis distance with trivariate logarithm of R (red), G (green) and B (blue) of light source ratio obtained from two luminance normal color vectors based on data distribution in 3D map Analyze. Specifically, a Mahalanobis distance threshold is set, and those larger than the threshold are excluded.
- the machine control system of the present invention is a control system in which the object recognition apparatus of the present invention is incorporated or connected by a network, and the machine to be controlled detects the target object by template matching and performs the operation. It is characterized by waking up. Robust machine control can be performed against light source changes.
- the color information output system of the present invention is an output system in which the object recognition apparatus of the present invention is incorporated or connected via a network, and recognizes and recognizes individual objects existing in a camera image.
- the display color is determined by template matching, and color information is output. Color information output that is robust against changes in the light source can be performed.
- template matching is performed by estimating a light source distribution such as illumination light as well as a texture feeling such as the degree of color variation of the object surface. It has the effect of absorbing changes in color appearance and performing robust matching to light source changes, and using it to perform object recognition robust to light source changes.
- a color image processing method for performing template matching on a color image to be a target image using a template image will be described.
- the color in each block area in which the template image is divided into a plurality of blocks will be described in detail.
- the “color appearance” of the object surface changes between the illumination light in the indoor environment and the sunlight in the outdoor environment.
- the light source 13 in FIG. 7 is an illumination lamp, and the light source 14 is the sun.
- FIGS. 7A and 7B represent the appearance of the color of the object surface by the light source light in the indoor environment and the outdoor environment, respectively.
- the color information extracted from the image captured by the camera changes the pixel value of the captured camera image in response to the change in the “color appearance” of the object surface. Whether in an indoor environment or an outdoor environment, the same color can be recognized as the same color without being affected by the light source color.
- Equation 1 the object surface color is expressed by the addition of the diffuse reflection component and the specular reflection component of the object surface, as shown in Equation 1 below.
- S S ( ⁇ ) is the specular reflection component of the object color
- S D ( ⁇ ) is the spectral reflectance for the diffuse reflection component of the object color
- E is the spectral distribution of the light source
- ⁇ is the wavelength.
- a monochromatic reflection model that targets only an object having a diffuse reflection component is also used (see Equation 2 below).
- the pixel value I c of light emitted from the light source is obtained through the color filters of the camera is reflected by the object surface can be expressed by the following Equation 3.
- I ( ⁇ ) is the reflected light from the object, and ⁇ represents the aperture, shutter speed, and camera gain by electrical amplification.
- q (A) represents the response characteristic of the sensor, ⁇ represents the wavelength of the spectrum, and g represents a parameter depending on exposure.
- c ⁇ R, G, B ⁇ is the color channel of the filter, and the integration region ⁇ is the visible light region of light.
- the RGB value of the pixel is proportional to the RGB value of the light source.
- the light intensity and pixel values that are incident on the camera are usually subjected to non-linear conversion.
- correction for restoring the original value is performed.
- Such correction is called gamma correction and corrects the characteristics of the target luminance and the video signal intensity so that the luminance of the imaging target and the brightness of the display are proportional. If the luminance of the object (or the illuminance of the video camera imaging plane proportional thereto) is I, the gamma characteristic value is ⁇ , and the video signal intensity is E, E ⁇ I ⁇ is obtained.
- gamma correction is taken into consideration.
- Template matching is processing for preparing a specific pattern in advance, checking whether there is the same pattern in the input image, and specifying its position.
- template matching when the pixel value is used as it is, it becomes weak against changes in luminance values and shadows. Therefore, when an image in a real environment is used as a target, there is a problem that the pixel value of the image to be matched changes due to a change in illumination and the color is far from that of a template image prepared in advance. Therefore, in the color image processing of the present invention, as shown in FIG. 8, one template image 2 is divided into small block areas 4 having a grid pattern, and not the matching of the entire template image 2 but local blocks. Matching is performed in region 4. Then, a stable matching position is obtained by integrating the matching results.
- a square template of W s ⁇ W s size is divided into square blocks of B s ⁇ B s size.
- W s is selected to be an integer multiple of B s .
- B (n, m) represents a block area of n rows and m columns of the divided block area.
- An example in which the template and the window in the target image are divided into block areas is shown in FIG.
- a square indicated by reference numeral 2 is a window image, and each of the squares divided into squares is a block area.
- two windows 2 divided into fine block areas 4 are formed.
- a feature amount is extracted from the pixel values in the block area 2 and compared.
- the template image window in the target image There are various scanning directions of the template image window in the target image, but scanning is basically performed as shown in FIG. That is, the template image is set to W s ⁇ W s size, and the advance width of the template image is set to “step”.
- the template image is translated from the upper left corner to the upper right corner.
- the advance width may be 1 pixel, but is set to step (pixel) in order to increase the processing speed.
- a template image having a window size W s ⁇ W s and an image to be matched with the template are prepared.
- a plurality of template images and a plurality of target images to be matched are prepared, and template matching is performed one by one using each of the prepared templates (TP 1 to TP n ) as shown in FIG.
- a plurality of templates are matched against one image, and a matching position is obtained by a combination (for example, a total).
- a combination for example, a total.
- FIG. 1 shows a processing flow of the color image processing method.
- a color image of an object imaged by a camera is acquired (step S01), and the acquired color image is divided into window images having a preset window size and cut out (step S02).
- the window size is W s
- the target image size is 1 ⁇ m
- the movement width is step
- the number of windows to be cut out is expressed by Equation 4 below.
- [] is a Gaussian symbol.
- each is divided into block areas (step S03).
- B S be the size of the block area.
- the window size W S is determined in advance so as to be an integral multiple of the block size B S.
- feature quantities are extracted from each of the B N block areas. That is, the color feature of each block area is converted into a feature amount (step S04).
- each block area is divided into red, blue, and green (step S21), and a color histogram is generated from the pixel values of the block area for each color (step S22).
- the image is a color image, it is decomposed into RGB colors, the luminance image of each color of B s ⁇ B s (pixel) is made into a vector shape in one row, and three vectors are used as feature amounts. Then, the feature amounts of the three vectors are sorted in order of luminance values (step S23), thereby converting the color features of the block area into feature amounts.
- the process of converting the feature amount is the same for the template as described later.
- a template image is set (step S05).
- a template image is set based on a pixel region in which the target object is captured in a window having a preset size based on the image in which the target object is captured.
- the template image may be set at the beginning of the processing flow in FIG.
- the template image is also divided into block areas (step S06), and the color features of each block area are converted into feature quantities (step S07).
- the process flow of converting the color features of each block area into feature quantities (step S07) is the same as that described above with reference to FIG.
- a matching process is performed by comparing the feature quantity of the block area in the window in the target image with the color feature quantity of the block area in the template image.
- the comparison of the color feature amount is performed by scaling the light source light component and comparing the color feature amount using the color histogram of the block area (step S08).
- step S09 If the similarity of the color feature quantity, that is, the similarity of the color histogram of the block area is within the threshold range, it is determined that the color area matches the block area of the template image, and if not, it is determined that they do not match (step S09).
- the similarity is determined for the color histogram of each block area, and the similarity of the template image is calculated.
- the template image is switched to another template image, that is, the process returns to step S05 to repeat the processing, and the matching result of each template image is displayed.
- the template image similarity is calculated comprehensively. Since the position of the distribution of the target object can be recognized from the sum of the template matching results, a similarity map of template images can be created.
- the similarity map is a map showing the position of the distribution of the target object, and shows the degree of matching in shades.
- the color feature amount comparison method and the scaling that is the process used for the comparison will be described in detail for the color histogram of the block region used as the color feature amount.
- the block areas are compared with each other.
- Color feature amounts are extracted from the pixel values in the block area and used for comparison.
- Colors included in the block area that is, RGB pixel values are used.
- a luminance order color vector is used as a color histogram indicating the color feature amount of the block area.
- the luminance order color vector is obtained by rearranging the colors of the RGB image in the order of luminance values.
- the block area in the window is cut out as one color image, the image is separated into three grayscale images of RGB, and each is transformed into a column vector. Three vectors are created, each sorted in order of brightness. These three sets of vectors are treated as color feature values of the block area.
- the comparison of the color feature amount is performed by calculating the similarity between the object colors of the two block areas.
- One pixel in the block area is represented by a three-dimensional vector of R, G, and B. If the number of pixels in the block region is N, there are N vectors, and these three R, G, B vectors are compared independently for each color. That is, the object color S in the block area is represented by three vectors of R, G, and B having N elements, and comparison is performed independently for each color.
- the pixel value and the light source color have a proportional relationship.
- the gamma power and light source color of the pixel value is a proportional relationship, to define the scale value s c as follows Equation 7.
- target image represents the same as the template, determines the scale value s c to minimize the difference between the luminance order color vector. Sonouede difference values e c the distance between the two vectors.
- the above equation 6 is expressed by the following equation 8 using the scale value s c.
- Equation 8 The first term and the second term in Equation 8 are compared.
- K-th element I Tck of I Tc, k-th element I Wck of I Wc, when the number of elements and N, e c becomes the following equation 9. in order to consider the minimum value of e c, and e c f (s c) .
- f (s c ) is expressed by the following formula 10.
- the difference s c is expressed as the above Expression 7 by two illumination lights, but it can be understood that it can be expressed only by the pixel values of the two images as in the above Expression 12. Thereby, even when RGB of illumination light is not actually known, the similarity of two object colors can be calculated. Then, after comparing the color feature amounts, an area where the difference is small and equal to or less than the threshold is set as a position where the detection target is present.
- the threshold value used for selecting the region is set to a value represented by the following Equation 13.
- ⁇ is an arbitrary real number set in advance, and is used as one constant in the experiment.
- FIG. 5 illustrates an image for converting the color feature of the block area into a feature amount.
- Each block area 4 of the target image 2 is decomposed into red (R), blue (B), and green (G), and a color histogram is generated from the pixel values of the block area for each color.
- the color histogram is a pixel value converted into a column vector for each color. Since three vectors of red (R), blue (B), and green (G) are generated, a vector obtained by sorting these vectors in order of luminance values is treated as a feature amount of the block region.
- FIG. 6 shows an example of a color histogram of three shades of red, green, and blue. The horizontal axis is the number of pixels, and the vertical axis is the pixel value.
- FIG. 6 is a graph of three vectors having 64 elements converted from an 8 ⁇ 8 (Pixel) color image. The maximum number of pixels is 64 and the maximum pixel value is 256. ing.
- ten white grape images were prepared, and one of the images is shown in FIG. All template images were prepared by cutting out the bunch of white grapes.
- a region surrounded by a square in the target image 3 is the template image 2.
- the size of the template image is 32 ⁇ 32 (pixel).
- the template image is not subjected to any special color processing such as illumination light control or white balance adjustment.
- the window size is used to calculate the similarity of template matching. Further, the left / right / up / down movement of the window is performed every step as described above. Therefore, the determination of the presence / absence of white grapes is a series of squares, and the fineness is lost.
- FIG. 12 (2) is a similarity map showing the position of the distribution of the target object in object recognition, and shows the degree of matching in shades. The closer to white, the greater the degree of matching, and the smaller the luminance value, the smaller the degree of matching. As shown in FIG. 12 (2), the center position of the frame of the template image 2 in FIG. 12 (1) is the whitest.
- the image obtained as a result of executing the method of the present embodiment is a binary image area image, which was compared with the prepared correct image.
- the comparison method evaluates the performance by confirming the ratio of two overlaps between the white grape bunches of the correct image and the white grape bunches of the processed image obtained by the method of this embodiment.
- FIG. 13A shows a correct image
- FIG. 13B shows a processed image according to this embodiment. The number of pixels of the white grape bunch area in each image is described. Compared with the correct image (11297 pixels), the processed image (11953 pixels) had more bunch of white grape bunches, and the ratio was about 1.16 times.
- the reason why a larger number of white grape bunches are calculated in the processed image is that the determination of the presence / absence of white grapes is continuous and coarse. Since the error of the ratio of the overlap between the correct image and the processed image is within 20% and the position distribution in FIG. 13 is almost the same, it can be confirmed that the processing performance of the color image processing method of this embodiment is high. It was.
- area A is an area obtained by the color image processing method of this embodiment
- area B is a correct image area.
- the correct answer rate is expressed by the following formula 14.
- the area C indicated by the hatched area is the range used for calculating the correct answer rate. The positions of (1) 2048 pixels and (2) 392 pixels in FIG.
- Table 1 shows images of white grapes and kyoho grapes (simply referred to as grapes), correct images, image sizes (number of pixels) of binary images, and correct answer rates.
- the unit of numerical values other than the correct answer rate is pixel, and the value in parentheses is the percentage.
- the two types of white grapes and grapes are the result of adding 34 white grapes and adding 27 grapes. Since the image size is larger in white grapes, the image size is larger than in white grapes. Since the template image is white grapes, it is expected that white grapes will have a higher percentage of correct answers when compared to white grapes.
- the light source ratios R (red), G (green), and B (blue) obtained from the luminance order color vectors of two adjacent block areas in the target image are further included. Based on the variance of the data in the three-dimensional map with the logarithm of each as the axis, the block area where the light source light when the target image is captured is blocked by the object and a shadow is formed, and the light source when the target image is captured A color image processing method in which processing for discriminating and excluding from block areas where the light is not natural sunlight will be described.
- the threshold value of the trivariate Mahalanobis distance is set, and the block area where the light source light when the target image is captured is blocked by the object and the shadow is formed, and the light source light when the target image is captured is natural. Processing for discriminating and excluding block areas that are not sunlight from the set threshold value will be described.
- FIG. 19 shows an example of a three-dimensional map with logarithms of R (red), G (green), and B (blue) of light source ratios obtained from luminance order color vectors of two adjacent block regions in the target image as axes. Is shown.
- the values of R (red), G (green), and B (blue) of the light source ratio obtained from two luminance normal color vectors are scattered.
- the three-dimensional map in FIG. 19 represents how the color histogram changes depending on the degree of shadow.
- the directional axis of dispersion is calculated using the trivariate Mahalanobis distance (the straight line in FIG.
- FIG. 19 is the directional axis).
- the existence of one group of data along the direction axis can be confirmed. It can be said that data is easily distributed in the direction along the direction axis.
- data deviating from this direction axis for example, the three data at the right end of the graph of FIG. 19, can be said to be unique data. Therefore, by setting a threshold value of the Mahalanobis distance and discriminating and excluding data larger than the set threshold value, a block area in which a shadow is formed by obstructing the light source light when the target image is captured, and The block area where the light source light at the time of capturing the target image is not natural sunlight is excluded. As a result, the accuracy of similarity determination of the color histogram is increased, and the accuracy of template matching is increased.
- the matching performance evaluation graph is shown in FIG. FIG. 20 is a graph obtained by two-dimensionally plotting the ratio of True Positive on the vertical axis and False Positive on the horizontal axis.
- the comparative example is an example in which the color distribution of the template is represented by a normal distribution without considering the influence of the light source, and is identified by the Mahalanobis distance. Details of the comparative example are described in the literature (B. Schiele and A. Waibel, "Gaze tracking based on face color", in Proceedings of the International Workshop on Automatic Face and Gesture Recognition, pp. 344-349, 1995.). Has been. In the graph of FIG.
- the convex state toward the upper left direction of the graph indicates that the accuracy of determining that the correct one is correct and that the wrong one is wrong is higher. From FIG. 20, it can be seen that the matching performance of the color image processing method of the first embodiment and the color image processing method of the second embodiment is improved as compared with the comparative example. In addition, it can be seen that the color image processing method according to the second embodiment further improves the matching performance as compared with the color image processing method according to the first embodiment.
- FIG. 15 shows a functional block diagram of the object recognition apparatus.
- the object recognition apparatus 100 includes an image acquisition unit 102, a template setting unit 104, a matching unit 110, and an analysis unit 106.
- the image acquisition unit 102 acquires a color image of an object captured by the camera 101.
- the template setting unit 104 reads one or a plurality of template images in which the target object is captured from the template image database (D / B) 103. Then, the read template image is compared with the acquired color image.
- the template image is a pixel area in which a target object is captured in a window having a preset size.
- the matching unit 110 divides the image of the window into a plurality of block regions (block region division 111) when performing template matching for comparing the template image with an image having the same size as the window in the acquired color image.
- the similarity between the color histogram of each block area and the color histogram of the block area of the template image is compared (similarity comparison 113 of color histograms).
- the analysis unit 106 analyzes and recognizes the position of the distribution of the target object in the color image based on the result of template matching by the matching unit 110.
- FIG. 16 shows a functional block diagram of the mobile robot control system.
- the mobile robot control system 120 includes the camera 101, the object recognition device 100 described in the second embodiment, the direction and distance calculation unit 122 of the target object, and the robot drive unit 124.
- a color image is acquired using the camera 101, and the object recognition apparatus 101 detects the target object using the acquired color image and a template image of the target object acquired in advance.
- the direction and distance calculation unit 122 of the target object measures the three-dimensional position of the target object from the camera image based on the three-dimensional position of the camera 101 using a known photogrammetry method, and determines the camera position.
- Information on the calculated direction and distance is transmitted to the robot drive unit to drive the robot. For example, when the robot is a fruit picking robot, the robot moves to an appropriate position, and a picking mechanism for picking up is operated.
- FIG. 17 shows a functional block diagram of the color blindness patient support system.
- the color information output system 130 includes a camera 101, an object recognition device 100, and a display 132.
- the object recognition device 100 specifies the distribution position of the target object from the color image acquired by the camera 101, and specifies the color of the target object. For example, when the target object is a fruit, the color of the fruit changes depending on the degree of ripening.
- the color change of the fruit by preparing in advance a template image having a plurality of shades (degrees of ripening), not only the position of the fruit but also the color of the fruit is specified from the color image.
- the color display on the display 132 can represent the color of the target object in the vicinity of the target object appearing in the color image, for example.
- the color may be output as a sound.
- FIG. 18 shows an example of text display of the color blindness patient support system.
- FIG. 18 is a schematic diagram illustrating an image of a front intersection from a camera mounted on a car traveling on a road.
- a center line 33 and a roadway outer line 34 are shown.
- a traffic signal, a pedestrian crossing, a car, a center line, and a roadway outer line are registered as target objects, and template images thereof are also prepared in advance.
- template images of three colors of blue (or green), yellow, and red are prepared.
- a white template image is prepared for the pedestrian crossing and the outer road line, and an orange template image is prepared for the center line.
- template images of various colors are prepared.
- the color blind patient support system recognizes traffic lights, pedestrian crossings, cars, center lines, and roadway outer lines as target objects from color images acquired from in-vehicle cameras, identifies their colors, and determines color images. Is displayed on the display, the color of the target object is displayed as text (41 to 47).
- the present invention is useful as a control device for a mobile robot such as a fruit picking robot.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
- Facsimile Image Signal Circuits (AREA)
- Color Image Communication Systems (AREA)
Abstract
照明光などの光源変化にロバストな色画像処理方法、色画像処理プログラム、物体認識方法及び装置を提供する。少なくとも1つのテンプレート画像を用いて、対象画像となるカラー画像に対してテンプレートマッチングを行う色画像処理方法であって、テンプレート画像が複数のブロックに分割された各ブロック領域における色ヒストグラムの類似度を用いてマッチングを行う。色ヒストグラムとして、ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルを用いる。
Description
本発明は、照明光などの光源変化にロバストな色画像処理方法、色画像処理プログラム、物体認識方法及び装置に関するものである。
近年、防犯カメラが市街地や屋内に数多く設置されており、色情報は人や物を照合するための一つの特徴として利用されている。色の特徴は、物体表面に固有であり、見えている部分の色情報に関しては不変であるため、物体の形状の一部が隠れたとしても特徴が保たれるため、同一物体の検出の有効な手がかりとなる。
また、昨今のロボット分野において、ヒト型ロボットのような移動ロボットではカメラを介して物体認識を行う要求があるが、物体の色の認識は困難である。その理由として、移動ロボットの場合、場所を移動して多様な照明光の元で活動するため、照明光の変化によって、物体表面の“色の見え”が変化してしまうからである。そのため、照明光に対してロバストな色画像処理が求められている。特に、ヒト型ロボットは頭部にカメラを持ち、ヒトと同じ様に情景を認識することが期待されている。
このように、色情報は人や物を認識する際の手がかりとなる反面、時々刻々と色が変化する屋外環境の場合や、主体的な移動などによって周りの照明の色が変わる屋内環境であったりすると、物体表面の“色の見え”が変化してしまうといった特徴がある。カメラで撮像した画像から抽出される色情報は、物体表面の“色の見え”の変化に対応して、撮像されたカメラ画像の画素値も変化してしまうため、実際にその場にいた人が知覚した色とカメラの捉えた画像では、色が大きくかけ離れてしまう可能性がある。
一方、人の目の場合、室内であっても屋外であっても、また昼光であっても日陰であっても、光源色の影響を取り除き同一色を同一色として認識できる性質(色恒常性)があり、光源の変化により変わる物体色から物体表面色を推定する色恒常性問題について、長年研究されている。
一方、人の目の場合、室内であっても屋外であっても、また昼光であっても日陰であっても、光源色の影響を取り除き同一色を同一色として認識できる性質(色恒常性)があり、光源の変化により変わる物体色から物体表面色を推定する色恒常性問題について、長年研究されている。
例えば、色恒常性に基づく色画像処理の理論としてRetinex理論が知られている。Retinex理論は、Retina(網膜)とCortex(大脳皮質)を合わせた造語であり、人の脳が色や光をどのようにとらえるのかをモデル化した理論である。Retinex理論では、カメラが画素ごとの物理的な光量によって輝度を決定するのに対して、人の視覚は、照明光などの光源光を除去して、領域毎の相対化された輝度比を知覚するというモデルである。Retinex理論によれば、人の目に入る光は、物体に照射された照明光の成分と、照明に依存しない物体表面の反射率との積によってモデル化される。
また一方で、照明光などの光源変化にロバストなテンプレートマッチングとして、正規化相関を用いたテンプレートマッチングや、探索すべき対象画像の一部が遮へいされている場合であっても、安定なテンプレートマッチングを実現する方法として、テンプレート画像をブロック領域に分割し、各ブロック単位に正規化相関によるマッチングを行う方法が知られている(非特許文献1を参照)。各ブロック単位に正規化相関によるマッチングを行う方法によれば、部分的な隠れに対してロバストである。
また、テンプレートマッチングを用いた物体追跡問題(指定した対象が画像上でどこにいるかを推定する問題)において、テンプレートのウィンドウ内の色ヒストグラムの特徴を用いて追跡(トラッキング)を行う方法(Mean-Shift法)が知られている。かかる方法は、ある関数の初期値付近の所定区間内における傾きを求めて、求めた傾きで関数値が大きくなる方向へ区間の中心を移動させ、初期値付近で極大となる位置を求める方法である。この方法の場合、画像の時間的連続性を仮定して追跡を行っている。
また、色情報の付与を画素単位ではなく、取得したカラー画像を予め設定された大きさで分割してなる画素ブロック単位に行い、その画素ブロックを積算した色ヒストグラムを用いて、領域分割(形状獲得)を行うことなく対象物の認識を行う環境認識装置が知られている(特許文献1を参照)。特許文献1の環境認識装置では、対応づけられた色情報と着目する色インデックスとが一致する画素ブロックの数をカラー画像上の一方向に沿って積算し、その積算値を一次元的に配列してなる色ヒストグラムを、色インデックス毎に生成している。
斉藤文彦,"ブロック照合投票処理を用いた遮へいに強い画像マッチング",電子情報通信学会論文誌,Vol.J84-D2,No.10,pp.2270-2279,2001.10
上述の如く、カメラで撮像した画像から抽出される色情報は、物体表面の“色の見え”の変化に対応して、撮像されたカメラ画像の画素値も変化してしまうため、実際にその場にいた人が知覚した色とカメラの捉えた画像では、色が大きくかけ離れてしまうといった問題がある。
そのため、照明光などの光源の変化により変わる物体色から物体表面色を推定する色恒常性問題を解決する色画像処理や物体認識装置などが求められている。
そのため、照明光などの光源の変化により変わる物体色から物体表面色を推定する色恒常性問題を解決する色画像処理や物体認識装置などが求められている。
かかる状況に鑑みて、本発明は、照明光などの光源変化にロバストな色画像処理方法、色画像処理プログラム、物体認識方法及び装置を提供することを目的とする。
上記課題を解決すべく、本発明の色画像処理方法は、少なくとも1つのテンプレート画像を用いて、対象画像となるカラー画像に対してテンプレートマッチングを行う色画像処理方法であって、テンプレート画像が複数のブロックに分割された各ブロック領域における色ヒストグラムの類似度を用いてマッチングを行う。
本発明の色画像処理方法は、テンプレート画像を複数のブロックに分割し、個々のブロック領域に対して、対象画像となるカラー画像に対してテンプレートマッチングを行うことによって、小領域の光源変化をロバスト推定できる。また、各ブロック領域における色ヒストグラムの類似度を用いてテンプレートマッチングを行うことによって、多少の形状の違い、すなわち、多少の変形を許容できる。色ヒストグラムは、画像中に特定の色が何ピクセルあるかをカウントしたヒストグラムであり、色ヒストグラムの類似度は、このヒストグラムの形が相互に似ている度合いを数値化したものである。例えば、カラー画像が、赤成分(R)、緑成分(G)、青成分(B)で構成されるとした場合、通常、ディジタルデータでは各色が8ビット(256通り)で表現され、表示できる色数は256×256×256=1677万7216通りになる。この場合、ヒストグラムの棒グラフの本数は16777216本、16777216次元ベクトルとなる。RGBの各成分をn等分(例えば、16等分)して、中央の代表値に置き換えることによって減色して本数や次元を減らすことも可能である。
ここで、色ヒストグラムの類似度を数値化する方法として、例えば、後述する輝度順色ベクトルを用いる方法や、度数分布を作成して、適切なビンのサイズを選んだ上で、カイ二乗距離やバタチャリヤ距離を用いる方法がある。
ここで、色ヒストグラムの類似度を数値化する方法として、例えば、後述する輝度順色ベクトルを用いる方法や、度数分布を作成して、適切なビンのサイズを選んだ上で、カイ二乗距離やバタチャリヤ距離を用いる方法がある。
本発明の色画像処理方法によれば、物体表面の色のばらつき度合いと言ったテクスチャ感のみではなく、照明光などの光源分布を推定してテンプレートマッチングを行うので、照明光などの光源の変化による物体表面の“色の見え”の変化を吸収し、光源変化にロバストなマッチングを行える。
ブロック領域における色ヒストグラムは、ブロック領域の画像の画素値から決まるもので、ブロック領域の色分布を示すものである。ブロック領域の色分布は、ブロック領域の光源の分光分布と物体表面の分光反射特性の積で決まる。ブロック領域の2次元画素値から、ブロック領域の色分布が算出できる。テンプレート画像におけるブロック領域の色分布と、対象画像となるカラー画像におけるブロック領域の色分布とを比較する際、光源が異なることが想定される。テンプレート画像におけるブロック領域に映っている物体と、対象画像におけるブロック領域に映っている物体とが同一の物体であれば、物体表面の分光反射特性は同じになる。
そこで、光源が異なり、ブロック領域の光源の分光分布が異なるとしても、それを補正することで光源の分光分布を一致させる。光源が異なる場合は、例えば、光の強度が異なる場合もあるし、或は、光源の色特性が異なる場合もある。ブロック領域の色分布において、特定の色の分光分布で比較したり、スケーリングを行って強度を合せたりして補正し、光源の分光分布を一致させる。光源の分光分布を一致させて、ブロック領域の色分布を示す色ヒストグラムを比較する。すなわち、スケールを変化させてヒストグラムの類似度が最大になるようにスケーリングすることにより、光源の分光分布を推定して、ブロック領域の色分布の類似度を判別することにより、光源変化にロバストなマッチングを行うのである。
上述の通り、光源の分光分布を推定して、ブロック領域の色分布の類似度を判別してマッチングを行うが、具体的には、ブロック領域の色ヒストグラムを輝度値(画素値)に基づいてソーティングした色ヒストグラムを利用する。輝度値に基づいてソーティングすることにより、画素の位置情報が無くなり、物体の形状に関する特徴が失われることによって、ブロック領域内に含まれる画素値の大きさのみを利用することになる。照明光の変化に伴って各色の輝度値が変化する状況が考えられるが、輝度値順に並べ替えることによって、照明光の変化が輝度値の変化のみに現れることになる。
そして、照明光が変化して物体表面の“色の見え”が変化した場合の色特徴量の変化が、色ヒストグラムの分散に現れることになる。例えば、光源が強くなればその分だけ分布が幅広くなる。
そして、照明光が変化して物体表面の“色の見え”が変化した場合の色特徴量の変化が、色ヒストグラムの分散に現れることになる。例えば、光源が強くなればその分だけ分布が幅広くなる。
本発明の色画像処理方法のマッチングにおいて、ブロック領域を、赤、緑および青の濃淡画像に分離して、各々の濃淡画像に基づいて、色ヒストグラムを比較することでもよい。処理を簡略化できるからである。
具体的には、テンプレートマッチングにおけるウィンドウ内の上記ブロック領域を一つのカラー画像として切り出した画像を、赤、緑および青の3つの濃淡画像に分離して、3つのベクトルに変形する。そして、3つのベクトルを各々輝度値順に並び替え、3本一組のベクトルをブロック領域の色特徴量として扱い、色ヒストグラムを比較する。これにより、光源変化に対して、さらにロバストになる。
具体的には、テンプレートマッチングにおけるウィンドウ内の上記ブロック領域を一つのカラー画像として切り出した画像を、赤、緑および青の3つの濃淡画像に分離して、3つのベクトルに変形する。そして、3つのベクトルを各々輝度値順に並び替え、3本一組のベクトルをブロック領域の色特徴量として扱い、色ヒストグラムを比較する。これにより、光源変化に対して、さらにロバストになる。
本発明の色画像処理方法において、色ヒストグラムは、具体的には、ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルである。
そして、色ヒストグラムの類似度は、テンプレート画像と対象画像のそれぞれの輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することが好ましい。
そして、色ヒストグラムの類似度は、テンプレート画像と対象画像のそれぞれの輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することが好ましい。
本発明の色画像処理方法におけるテンプレート画像は、撮像時の光源色が既知である画像であることが好ましい。
テンプレート画像の撮像時の光源色が既知であることで、テンプレート画像の物体に固有な物体表面の分光反射特性を知ることができるので、マッチングの精度を高めることができる。ここで、光源色とは、光源の色特性のことであり、これから光源の分光分布を算出できる。もちろん、光源の分光分布が既知であってもよい。
テンプレート画像の撮像時の光源色が既知であることで、テンプレート画像の物体に固有な物体表面の分光反射特性を知ることができるので、マッチングの精度を高めることができる。ここで、光源色とは、光源の色特性のことであり、これから光源の分光分布を算出できる。もちろん、光源の分光分布が既知であってもよい。
本発明の色画像処理方法において、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散に基づいて、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域と、を判別して除外することが好ましい。
対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおいて、データの分布が偏っていることに着目し、その分布の偏りから外れたものを、影が形成されているか、又は、光源光が自然な太陽光ではなかったと判別して除外することにより、マッチングの精度を高める。
対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおいて、データの分布が偏っていることに着目し、その分布の偏りから外れたものを、影が形成されているか、又は、光源光が自然な太陽光ではなかったと判別して除外することにより、マッチングの精度を高める。
屋外の影は、単純な黒ではなく、青色の成分が強い黒である。そのため、対象画像を撮像した時の光源光が物体に妨げられて影が形成される場合、影の部分では、R(赤),G(緑),B(青)の内、自然な太陽光では青色の成分が強調されてしまい、明るさを正規化すると、影の部分は青みがかるという結果となり、RGBごとに隣接する2つのブロック領域の輝度順色ベクトルの差を計算する本発明の色画像処理方法の根拠となる。
上述の3次元マップにおいて、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とすることにしたのは、データ分布の偏りを加味する際に、光の当たり方が、例えば2倍になったものと1/2倍になったものを、同じスケールの差として示すためである。
上記の本発明の色画像処理方法において、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを、設定した閾値により判別して除外することでもよい。
3次元マップにおけるデータの分散に基づいて、R(赤),G(緑)およびB(青)の対数を三変量とするマハラノビス距離を用いた判別分析を行うものである。具体的には、マハラノビス距離の閾値を設定して、その閾値より大きいものを除外する。
その他、サポートベクターマシン(SVM)による区分分けをして判別分析することでもよい。
その他、サポートベクターマシン(SVM)による区分分けをして判別分析することでもよい。
次に、本発明の物体認識方法について説明する。
本発明の物体認識方法は、下記1)~4)のステップを備え、下記3)のテンプレートマッチングを行うステップは、ウィンドウの画像を複数のブロック領域に分割し、上述の本発明の色画像処理方法を用いて、ブロック領域の色ヒストグラムもしくは輝度順色ベクトルの類似度を比較する。
1)カメラにより撮像された対象物のカラー画像を取得するステップ
2)予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するステップ
3)取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うステップ
4)テンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を認識するステップ
本発明の物体認識方法は、下記1)~4)のステップを備え、下記3)のテンプレートマッチングを行うステップは、ウィンドウの画像を複数のブロック領域に分割し、上述の本発明の色画像処理方法を用いて、ブロック領域の色ヒストグラムもしくは輝度順色ベクトルの類似度を比較する。
1)カメラにより撮像された対象物のカラー画像を取得するステップ
2)予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するステップ
3)取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うステップ
4)テンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を認識するステップ
テンプレート画像が複数枚の場合、取得したカラー画像に対し、各々のテンプレート画像を用いて、上記3)のテンプレートマッチングを行うステップを行い、テンプレートマッチング結果の組合せで目的対象物の分布の位置を認識することが好ましい。
複数枚のテンプレート画像を用いて、テンプレートマッチングを行い、マッチング結果の組合せ(例えば、合計など)で目的対象物の分布の位置を認識することにより、光源変化に対して、さらにロバストな物体認識を行うことができる。
複数枚のテンプレート画像を用いて、テンプレートマッチングを行い、マッチング結果の組合せ(例えば、合計など)で目的対象物の分布の位置を認識することにより、光源変化に対して、さらにロバストな物体認識を行うことができる。
次に、本発明の機械制御方法、色情報出力方法、色画像処理プログラムを説明する。
本発明の機械制御方法は、本発明の色画像処理方法、或は、本発明の物体認識方法を用いる制御方法であって、制御対象の機械が、テンプレートマッチングにより目的対象物を検知し、動作を起こすことを特徴とする。本発明の機械制御方法によれば、光源変化に対してロバストな機械制御を行うことができる。
ここで、制御対象の機械とは、ロボット、例えば果実採取ロボット、工場のラインの機械装置、自動車などであり、プログラムによる制御や自律制御や遠隔制御される機械が含まれる。
本発明の機械制御方法は、本発明の色画像処理方法、或は、本発明の物体認識方法を用いる制御方法であって、制御対象の機械が、テンプレートマッチングにより目的対象物を検知し、動作を起こすことを特徴とする。本発明の機械制御方法によれば、光源変化に対してロバストな機械制御を行うことができる。
ここで、制御対象の機械とは、ロボット、例えば果実採取ロボット、工場のラインの機械装置、自動車などであり、プログラムによる制御や自律制御や遠隔制御される機械が含まれる。
本発明の色情報出力方法は、本発明の色画像処理方法、或は、本発明の物体認識方法を用いる出力方法であって、カメラ画像の中に存在する個々の物体を認識し、認識した物体の表示色をテンプレートマッチングにより判別して、色情報を出力することを特徴とする。本発明の色情報出力方法によれば、光源変化に対してロバストな色情報出力を行うことができる。
ここで、色情報出力には、色情報をテキスト表示したり、音声表示したり、ウェアラブル端末に表示したり、ネットワーク通信データとして出力したりするものなどが含まれる。本発明の色情報出力方法は、例えば、色覚異常患者のサポートの一つの方法として有用である。
ここで、色情報出力には、色情報をテキスト表示したり、音声表示したり、ウェアラブル端末に表示したり、ネットワーク通信データとして出力したりするものなどが含まれる。本発明の色情報出力方法は、例えば、色覚異常患者のサポートの一つの方法として有用である。
本発明の色画像処理プログラムは、本発明の物体認識方法におけるテンプレートマッチングを行うステップを、コンピュータに実行させるためのプログラムである。
すなわち、本発明の色画像処理プログラムは、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるステップをコンピュータに実行させる際に、ウィンドウの画像を複数のブロック領域に分割し、本発明の色画像処理方法を用いて、ブロック領域の色ヒストグラムを比較させる。
すなわち、本発明の色画像処理プログラムは、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるステップをコンピュータに実行させる際に、ウィンドウの画像を複数のブロック領域に分割し、本発明の色画像処理方法を用いて、ブロック領域の色ヒストグラムを比較させる。
次に、本発明の物体認識装置について説明する。
本発明の物体認識装置は、カメラにより撮像された対象物のカラー画像を取得する画像取得手段と、予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するテンプレート設定手段と、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うマッチング手段と、テンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を認識する解析手段を備える。
そして、上記のマッチング手段は、ウィンドウの画像を複数のブロック領域に分割し、それぞれのブロック領域の色ヒストグラムと、テンプレート画像の当該ブロック領域の色ヒストグラムとの類似度を比較する。
上記構成によれば、光源変化に対して、ロバストな物体認識を行うことができる。
本発明の物体認識装置は、カメラにより撮像された対象物のカラー画像を取得する画像取得手段と、予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するテンプレート設定手段と、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うマッチング手段と、テンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を認識する解析手段を備える。
そして、上記のマッチング手段は、ウィンドウの画像を複数のブロック領域に分割し、それぞれのブロック領域の色ヒストグラムと、テンプレート画像の当該ブロック領域の色ヒストグラムとの類似度を比較する。
上記構成によれば、光源変化に対して、ロバストな物体認識を行うことができる。
本発明の物体認識装置のマッチング手段において、色ヒストグラムの類似度の比較は、ブロック領域を、赤、緑および青の濃淡画像に分離して、各々の濃淡画像に基づいて、色ヒストグラムの類似度を比較することでもよい。
また、本発明の物体認識装置において、色ヒストグラムは、具体的には、ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルである。そして、色ヒストグラムの類似度は、テンプレート画像と対象画像のそれぞれの輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することが好ましい。
また、本発明の物体認識装置において、色ヒストグラムは、具体的には、ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルである。そして、色ヒストグラムの類似度は、テンプレート画像と対象画像のそれぞれの輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することが好ましい。
また、本発明の物体認識装置のテンプレート画像は、撮像時の光源色が既知である画像であることが好ましい。
さらに、テンプレート画像が複数枚の場合、取得したカラー画像に対し、各々のテンプレート画像を用いて、マッチング手段がテンプレートマッチングを行い、解析手段がそれぞれのテンプレートマッチングの結果の組合せで目的対象物の分布の位置を認識することが好ましい。
これらによって、光源変化に対して、さらにロバストな物体認識を行えることになる。
さらに、テンプレート画像が複数枚の場合、取得したカラー画像に対し、各々のテンプレート画像を用いて、マッチング手段がテンプレートマッチングを行い、解析手段がそれぞれのテンプレートマッチングの結果の組合せで目的対象物の分布の位置を認識することが好ましい。
これらによって、光源変化に対して、さらにロバストな物体認識を行えることになる。
本発明の物体認識装置において、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散に基づいて、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域と、を判別して除外する除外判別手段を、更に備えることが好ましい。
対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおいて、データの分布が偏っていることに着目し、その分布の偏りから外れたものを、影が形成されているか、又は、光源光が自然な太陽光ではなかったと判別して除外する除外判別手段を備えることにより、物体認識のマッチングの精度を高める。
対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおいて、データの分布が偏っていることに着目し、その分布の偏りから外れたものを、影が形成されているか、又は、光源光が自然な太陽光ではなかったと判別して除外する除外判別手段を備えることにより、物体認識のマッチングの精度を高める。
上記の本発明の物体認識装置の除外判別手段において、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを、該閾値により判別して除外することでもよい。3次元マップにおけるデータの分散に基づいて、2つの輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を三変量とするマハラノビス距離を用いた判別分析を行うものである。具体的には、マハラノビス距離の閾値を設定して、その閾値より大きいものを除外する。
本発明の機械制御システムは、本発明の物体認識装置が組み込まれ、或は、ネットワークで接続された制御システムであって、制御対象の機械が、テンプレートマッチングにより目的対象物を検知し、動作を起こすことを特徴とする。光源変化に対してロバストな機械制御を行うことができる。
本発明の色情報出力システムは、本発明の物体認識装置が組み込まれ、或は、ネットワークで接続された出力システムであって、カメラ画像の中に存在する個々の物体を認識し、認識した物体の表示色をテンプレートマッチングにより判別して、色情報を出力することを特徴とする。光源変化に対してロバストな色情報出力を行うことができる。
本発明によれば、物体表面の色のばらつき度合いと言ったテクスチャ感のみではなく、照明光などの光源分布を推定してテンプレートマッチングを行うので、照明光などの光源の変化による物体表面の“色の見え”の変化を吸収し、光源変化にロバストなマッチングを行え、それを用いて光源変化にロバストな物体認識を行えるといった効果がある。
以下、本発明の実施形態の一例を、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
まず、テンプレート画像を用いて、対象画像となるカラー画像に対してテンプレートマッチングを行う色画像処理方法を説明し、後述の実施例で、テンプレート画像が複数のブロックに分割された各ブロック領域における色ヒストグラムの類似度を用いてマッチングを行う色画像処理方法について詳述する。
屋内環境の照明光と、屋外環境の太陽光とでは、物体表面の“色の見え”が変化してしまう。図7の光源13は照明ランプ、光源14は太陽であり、図7(1)(2)は、それぞれ室内環境と屋外環境の光源光による物体表面の色の見えを表現している。カメラで撮像した画像から抽出される色情報は、物体表面の“色の見え”の変化に対応して、撮像されたカメラ画像の画素値も変化してしまうが、人の目であれば、室内環境であっても屋外環境であっても、光源色の影響を受けず同一色を同一色として認識できる。
カメラで撮影されたカラー画像の持つ各ピクセルの画素値、光源色、物体表面色の関係は、従来からモデル化されており、特に、画像処理でよく用いられるのは2色性反射モデルである。2色性反射モデルでは、下記数式1に示されるように、物体表面色が物体表面の拡散反射成分と鏡面反射成分の足し合わせで表現される。SS(λ)は物体色の鏡面反射成分であり、SD(λ)は物体色の拡散反射成分に対する分光反射率であり、Eは光源の分光分布であり、λは波長である。この他、拡散反射成分をもつ物体のみ対象とする1色性反射モデルも用いられる(下記数式2を参照)。
後述の実施例では、下記数式2に示される1色性反射モデルを前提とし、拡散反射成分をもつ物体のみ扱うものとする。なお、本発明は、1色性反射モデルに限定されるものではなく、2色性反射モデルやその他のモデルにも適用可能である。
後述の実施例では、下記数式2に示される1色性反射モデルを前提とし、拡散反射成分をもつ物体のみ扱うものとする。なお、本発明は、1色性反射モデルに限定されるものではなく、2色性反射モデルやその他のモデルにも適用可能である。
一方、物体をデジタルカメラ等で撮像する場合、光源から放射された光が物体表面で反射しカメラのカラーフィルタを通過して得られる画素値Icは下記数式3で表せる。
ここで、I(λ)は物体からの反射光であり、τは絞り,シャッタースピード,電気的な増幅によるカメラのゲインを表す。q(A)はセンサの応答特性、λはスペクトルの波長、gは露出に依存するパラメータを表す。c={R,G,B}はフィルタのカラーチャンネルであり、積分領域Ωは光の可視光領域である。物体色が一定の場合には、画素のRGB値は、光源のRGB値に比例することになる。
人の刺激に対する非線形性と画像信号の表現能力から、通常、カメラに入射する光の強度と画素値には非線形な変換が施されており、通常のディスプレイに出力する際には、非線形な関係を元に戻すための補正が一般的に行われている。かかる補正は、ガンマ補正といい、撮像対象の輝度とディスプレイの明るさとが比例するように、対象輝度と映像信号強度との特性を補正する。対象の輝度(或は、それに比例するビデオカメラ結像面の照度)をI、ガンマ特性値をγ、映像信号強度をEとすると、E∝Iγとなる。既に、ガンマ補正がかかっている画像を対象にして物体色を算出する場合、ガンマ補正を考慮に入れる。
次に、図8~11を参照して、本発明の色画像処理で用いるテンプレートマッチングについて説明する。テンプレートマッチングは、ある特定のパターンをあらかじめ用意しておき、入力画像中にそれと同じパターンがあるかどうかを調べて、その位置を特定する処理である。
テンプレートマッチングでは、画素の値をそのまま利用する場合、輝度値の変化や影に対して弱くなる。そこで、実環境における画像を対象とする場合、マッチングの対象となる画像の画素値が照明の変化によって変化し、事前に用意したテンプレート画像に比べて色がかけ離れてしまうことが問題である。そこで、本発明の色画像処理では、図8に示すように、1つのテンプレート画像2を碁盤の目状の小さなブロック領域4に分割し、テンプレート画像2全体でのマッチングではなく、局所的なブロック領域4でマッチングを行う。そして、そのマッチング結果を統合することによって、安定したマッチング位置を得る。
テンプレートマッチングでは、画素の値をそのまま利用する場合、輝度値の変化や影に対して弱くなる。そこで、実環境における画像を対象とする場合、マッチングの対象となる画像の画素値が照明の変化によって変化し、事前に用意したテンプレート画像に比べて色がかけ離れてしまうことが問題である。そこで、本発明の色画像処理では、図8に示すように、1つのテンプレート画像2を碁盤の目状の小さなブロック領域4に分割し、テンプレート画像2全体でのマッチングではなく、局所的なブロック領域4でマッチングを行う。そして、そのマッチング結果を統合することによって、安定したマッチング位置を得る。
ここで、図8では、Ws×Wsサイズの正方形のテンプレートを、Bs×Bsサイズの正方形のブロックに分割する。但し、WsはBsの整数倍になるように選択する。B(n,m)は、分割されたブロック領域のn行m列のブロック領域を表す。テンプレート及び対象画像中のウィンドウをブロック領域に分割した例を図9に示す。符号2で示した正方形がウィンドウ画像であり、それを更に正方形に区切った一つ一つがブロック領域である。図9で示したように、細かいブロック領域4に分割された二つのウィンドウ2ができる。このブロック領域2内の画素値から特徴量を抽出して比較する。
対象画像におけるテンプレート画像のウィンドウの走査の方向は様々あるが、基本的には図10に示すように走査する。すなわち、テンプレート画像をWs×Wsサイズとし、テンプレート画像の進む幅を“step”とする。左上端から右上端まで、テンプレート画像を平行移動させていく。ここで、進む幅は1ピクセルにしても構わないが、処理速度を高めるために、step (pixel)とする。
ウィンドウサイズWs×Wsのテンプレート画像とそのテンプレートのマッチング対象となる画像を用意する。テンプレート画像を複数枚とマッチング対象となる対象画像を複数枚用意し、図11に示すように、用意した複数毎のテンプレート(TP1~TPn)を使用し一枚一枚テンプレートマッチングを行う。複数枚のテンプレートを一枚の画像に対してマッチングし、その組合せ(例えば、合計など)によってマッチング位置を得る。
後述する性能実験では、多様なぶどうのステクチャを含むテンプレート画像を用いて、同じぶどうであってもテンプレート画像が含まれない画像に対して、一枚で行うよりも頑健な結果が得られることを確認している。
後述する性能実験では、多様なぶどうのステクチャを含むテンプレート画像を用いて、同じぶどうであってもテンプレート画像が含まれない画像に対して、一枚で行うよりも頑健な結果が得られることを確認している。
図1は、色画像処理方法の処理フローを示している。
色画像処理方法では、カメラにより撮像された対象物のカラー画像を取得し(ステップS01)、取得したカラー画像を予め設定されたサイズのウィンドウサイズのウィンドウ画像に分割して切り出しておく(ステップS02)。ウィンドウサイズWs、対象画像サイズl×m、移動幅stepとすると、切り出されるウィンドウの数は、下記数式4で表される。ここで、[ ] はガウス記号である。
色画像処理方法では、カメラにより撮像された対象物のカラー画像を取得し(ステップS01)、取得したカラー画像を予め設定されたサイズのウィンドウサイズのウィンドウ画像に分割して切り出しておく(ステップS02)。ウィンドウサイズWs、対象画像サイズl×m、移動幅stepとすると、切り出されるウィンドウの数は、下記数式4で表される。ここで、[ ] はガウス記号である。
ウィンドウのデータがWN個あるので、各々をブロック領域に分割する(ステップS03)。ブロック領域の大きさをBSとする.ウィンドウサイズWSがブロックサイズBSの整数倍になるようにあらかじめ決めておく。ブロック領域の個数は、どのウィンドウにも共通でBN = (Ws/Bs)2個となる。
ブロック領域に分割した後、BN個ある各ブロック領域から特徴量を抽出する。すなわち、各ブロック領域の色特徴を特徴量化する(ステップS04)。
各ブロック領域の色特徴を特徴量化の処理フローについて、図2を参照して説明する。特徴量化の処理は、各ブロック領域を赤、青及び緑へ分解して(ステップS21)、色毎にブロック領域の画素値から色ヒストグラムを生成する(ステップS22)。具体的には、画像はカラー画像であるので、RGB各色に分解し、Bs×Bs(pixel)の各色の輝度画像を一列のベクトル形状にし、3つのベクトルを特徴量とする。そして、3つのベクトルの特徴量を輝度値順にソーティングする(ステップS23)ことにより、ブロック領域の色特徴を特徴量化する。この特徴量化する処理は、後述するように、テンプレートに対しても同様である。
ブロック領域に分割した後、BN個ある各ブロック領域から特徴量を抽出する。すなわち、各ブロック領域の色特徴を特徴量化する(ステップS04)。
各ブロック領域の色特徴を特徴量化の処理フローについて、図2を参照して説明する。特徴量化の処理は、各ブロック領域を赤、青及び緑へ分解して(ステップS21)、色毎にブロック領域の画素値から色ヒストグラムを生成する(ステップS22)。具体的には、画像はカラー画像であるので、RGB各色に分解し、Bs×Bs(pixel)の各色の輝度画像を一列のベクトル形状にし、3つのベクトルを特徴量とする。そして、3つのベクトルの特徴量を輝度値順にソーティングする(ステップS23)ことにより、ブロック領域の色特徴を特徴量化する。この特徴量化する処理は、後述するように、テンプレートに対しても同様である。
再び、図1の処理フローに戻るが、各ブロック領域の色特徴を特徴量化(ステップS04)した後、テンプレート画像を設定する(ステップS05)。テンプレート画像は、目的対象物が写る画像に基づいて、予め設定されたサイズのウィンドウで目的対象物が写る画素領域に基づいてテンプレート画像を設定する。なお、テンプレート画像の設定は、図1の処理フローの最初に行っても構わない。そして、テンプレート画像についても、ブロック領域へ分割して(ステップS06)、各ブロック領域の色特徴を特徴量化する(ステップS07)。各ブロック領域の色特徴を特徴量化(ステップS07)の処理フローについては、上述の図2の説明と同様である。
対象画像におけるウィンドウ内のブロック領域の特徴量と、テンプレート画像内のブロック領域の色特徴量を比較してマッチング処理を行う。色特徴量の比較は、ブロック領域の色ヒストグラムを用いて、光源光分をスケーリングして色特徴量を比較する(ステップS08)。
対象画像におけるウィンドウ内のブロック領域の特徴量と、テンプレート画像内のブロック領域の色特徴量を比較してマッチング処理を行う。色特徴量の比較は、ブロック領域の色ヒストグラムを用いて、光源光分をスケーリングして色特徴量を比較する(ステップS08)。
色特徴量の類似度、すなわち、ブロック領域の色ヒストグラムの類似度が閾値範囲内であれば、テンプレート画像のブロック領域と一致すると判断し、そうでなければ不一致と判断する(ステップS09)。それらの類似度の判断をそれぞれのブロック領域の色ヒストグラムについて行い、テンプレート画像の類似度を算出する。
ここで、ブロック領域の単位で色ヒストグラムの類似度から一致不一致を判断するのではなく、ブロック領域の色ヒストグラムの類似度の評価値の合計値で、マッチング領域全体の一致不一致を判断することでもよい。
なお、図1の処理フローには、図示しないが、テンプレート画像が複数枚あれば、他のテンプレート画像に切り替えて、すなわち、ステップS05に戻り、処理を繰り返して、それぞれのテンプレート画像によるマッチング結果の合計で、総合的にテンプレート画像の類似度を算出する。
テンプレートマッチング結果の合計で目的対象物の分布の位置を認識することができるため、テンプレート画像の類似度マップを作成することができる。類似度マップは、目的対象物の分布の位置を示す地図であり、マッチング度合いを濃淡で示したものである。
ここで、ブロック領域の単位で色ヒストグラムの類似度から一致不一致を判断するのではなく、ブロック領域の色ヒストグラムの類似度の評価値の合計値で、マッチング領域全体の一致不一致を判断することでもよい。
なお、図1の処理フローには、図示しないが、テンプレート画像が複数枚あれば、他のテンプレート画像に切り替えて、すなわち、ステップS05に戻り、処理を繰り返して、それぞれのテンプレート画像によるマッチング結果の合計で、総合的にテンプレート画像の類似度を算出する。
テンプレートマッチング結果の合計で目的対象物の分布の位置を認識することができるため、テンプレート画像の類似度マップを作成することができる。類似度マップは、目的対象物の分布の位置を示す地図であり、マッチング度合いを濃淡で示したものである。
ここで、図3および図4を参照して、色特徴量として用いるブロック領域の色ヒストグラムについて、色特徴量の比較方法とその比較に使う処理であるスケーリングについて詳細に説明する。上述の如く、本発明で用いるテンプレートマッチングでは、ブロック領域同士を比較する。ブロック領域内の画素値から色特徴量を抽出してそれを比較に用いる。ブロック領域内に含まれる色、すなわち、RGBの画素値を利用する。
本実施例では、ブロック領域の色特徴量を示す色ヒストグラムとして、輝度順色ベクトルを用いる。輝度順色ベクトルとは、RGB画像の各色を輝度値順に並べ替えたものである。上述の如く、並べ替えることによって、画素の位置情報が無くなり、形状に関する特徴が失われるが、照明光の変化が輝度値の変化のみに現れるために処理しやすいといった利点がある。具体的には、ウィンドウ内のブロック領域を一つのカラー画像として切り出し、その画像をRGBの3つの濃淡画像に分離し、各々を列ベクトルに変形する。3つのベクトルができ、それぞれを輝度順に並び替える。これらの3本一組のベクトルをブロック領域の色特徴量として扱う。
本実施例では、ブロック領域の色特徴量を示す色ヒストグラムとして、輝度順色ベクトルを用いる。輝度順色ベクトルとは、RGB画像の各色を輝度値順に並べ替えたものである。上述の如く、並べ替えることによって、画素の位置情報が無くなり、形状に関する特徴が失われるが、照明光の変化が輝度値の変化のみに現れるために処理しやすいといった利点がある。具体的には、ウィンドウ内のブロック領域を一つのカラー画像として切り出し、その画像をRGBの3つの濃淡画像に分離し、各々を列ベクトルに変形する。3つのベクトルができ、それぞれを輝度順に並び替える。これらの3本一組のベクトルをブロック領域の色特徴量として扱う。
次に、色特徴量の比較について説明する。色特徴量の比較は、二つのブロック領域の物体色の類似度を計算することにより行う。ブロック領域内の1画素は、R,G,Bの3次元ベクトルで表現されている。ブロック領域内の画素数をNとすると、N個のベクトルが存在し、これらN個のR,G,Bの3つのベクトルを各色独立に比較を行う。すなわち、ブロック領域内の物体色Sは、N個の要素を持つR,G,Bの3つのベクトルで表され、各色独立に比較を行うことになる。c∈{R,G,B}とすると、テンプレートのブロック領域の物体色をSTc, 対象画像のウィンドウ内のブロック領域の物体色をSWcとすると、その二つの差e は下記数式5で表される。また、テンプレート内のブロック領域の画素値ITcとすると、ITc
γ = STcETc、IWc
γ = SWcEWcとなるので、下記数式5は、下記数式6で表される。
画素値と光源色は比例の関係であることは、上述した通りである。ガンマ補正を考慮に入れると、画素値のガンマ乗と光源色が比例の関係となっているので、スケール値sc を下記数式7のように定義する。対象画像がテンプレートと同じものを表していると仮定し、輝度順色ベクトルの差を最小にするようにスケール値scを決定する。そのうえで差ec の値を2つのベクトル間の距離とする。上記数式6は、スケール値scを用いて下記数式8で表される。
上記数式8における第一項と第二項の比較を行う。ITc のk番目の要素をITck、IWc のk番目の要素をIWck,要素数をNとすると、ecは、下記数式9になる。ecの最小値を考えるために、ec = f(sc)とする。f(sc)の最小値を求めるため、f(sc)を微分すると、f(sc)´は下記数式10で表される。
上記数式10から、下記数式11の時に、f(sc)´=0となることがわかる。その時のscは下記数式11で表される。
従って、差異scは、2つの照明光によって上記数式7として表されたが、上記数式12の通り、2つの画像の画素値のみによって表すことができたことがわかる。これにより、実際に照明光のRGBが分からない場合でも、2つの物体色の類似度の計算ができる。
そして、色特徴量の比較を行った後、差が小さく閾値以下である領域を検出対象のある位置とする。領域の選択に用いる閾値は、下記数式13で示す値にする。ここで、αは予め設定する任意の実数であり、実験の中で一つの定数として用いる。
そして、色特徴量の比較を行った後、差が小さく閾値以下である領域を検出対象のある位置とする。領域の選択に用いる閾値は、下記数式13で示す値にする。ここで、αは予め設定する任意の実数であり、実験の中で一つの定数として用いる。
図5は、ブロック領域の色特徴を特徴量化するイメージを図示したものである。対象画像2の各ブロック領域4を赤(R)、青(B)及び緑(G)へ分解して、色毎にブロック領域の画素値から色ヒストグラムを生成する。色ヒストグラムは画素値を色毎に列ベクトルに変換したものである。赤(R)、青(B)及び緑(G)の3つのベクトルができるので、これらのベクトルを輝度値順にソーティングしたものを、ブロック領域の特徴量として扱う。
図6は、赤緑青の3つの濃淡画像の色ヒストグラムの一例を示している。横軸は画素数(Number of Pixel)であり、縦軸は画素値(Pixel Value)である。図6は、8×8(Pixel)のカラー画像から変換した64個の要素を有する3つのベクトルをグラフ化したものであり、画素数の最大が64になり、画素値の最大が256となっている。
図6は、赤緑青の3つの濃淡画像の色ヒストグラムの一例を示している。横軸は画素数(Number of Pixel)であり、縦軸は画素値(Pixel Value)である。図6は、8×8(Pixel)のカラー画像から変換した64個の要素を有する3つのベクトルをグラフ化したものであり、画素数の最大が64になり、画素値の最大が256となっている。
(性能評価実験)
性能評価実験として、白ぶどうの認識を行った。白ぶどうと白ぶどう以外のぶどう(巨峰などの赤ぶどう)の画像を複数枚用意し、実施例1の色画像処理を用いた物体認識方法を実行し、白ぶどうとして認識された画像中の位置と、人の眼で認識された画像中の白ぶどうの位置を比較し、その適合率を算出することにより性能を評価した。テンプレート画像については、用意した画像中から白ぶどう部分を切り抜くことによって準備した。また、画像の大きさは、ぶどうの粒の大きさがほぼ同じくらいになるようにリサイズを施した。テンプレート画像も複数枚用意した。テンプレート画像を複数枚用意することによりロバスト性を上げた。
性能評価実験として、白ぶどうの認識を行った。白ぶどうと白ぶどう以外のぶどう(巨峰などの赤ぶどう)の画像を複数枚用意し、実施例1の色画像処理を用いた物体認識方法を実行し、白ぶどうとして認識された画像中の位置と、人の眼で認識された画像中の白ぶどうの位置を比較し、その適合率を算出することにより性能を評価した。テンプレート画像については、用意した画像中から白ぶどう部分を切り抜くことによって準備した。また、画像の大きさは、ぶどうの粒の大きさがほぼ同じくらいになるようにリサイズを施した。テンプレート画像も複数枚用意した。テンプレート画像を複数枚用意することによりロバスト性を上げた。
実験では10枚の白ぶどう画像を用意したが、その内の1枚の画像を図12(1)に示す。テンプレート画像は、全て白ぶどうの房部分を切り取り用意した。図12(1)において、対象画像3の中に四角で囲んだ領域がテンプレート画像2である。テンプレート画像のサイズは、32×32(pixel)である。テンプレート画像に対して、照明光のコントロールやホワイトバランス調整といった色に関する特別な処理は施していない。
本実施例の方法では、テンプレートマッチングの類似度を算出するのがウィンドウサイズである。また、ウィンドウの左右上下の移動は、上述の通りstep 毎である。そのため、白ぶどうの有り無しの判定は、四角形の連続となり、細かさは無くなっている。
図12(2)は、物体認識における目的対象物の分布の位置を示す類似度マップであり、マッチング度合いを濃淡で示したものである。白に近い方はマッチング度合いが大きく、輝度値が小さくなるに従って、マッチング度合いは小さくなる。図12(2)に示すように、図12(1)におけるテンプレート画像2の枠の中心位置が最も白くなっている。
図12(2)は、物体認識における目的対象物の分布の位置を示す類似度マップであり、マッチング度合いを濃淡で示したものである。白に近い方はマッチング度合いが大きく、輝度値が小さくなるに従って、マッチング度合いは小さくなる。図12(2)に示すように、図12(1)におけるテンプレート画像2の枠の中心位置が最も白くなっている。
本実施例の方法で算出した結果が正しいかどうかを検証するために、比較用の正解画像が必要となるが、用意した実験画像一つ一つについて、人の目で確認して、白ぶどうの房の位置を示す正解画像を用意した。
本実施例の方法を実行した結果で得られる画像は、二値画像の領域画像であり、準備した正解画像と比較した。比較方法は、正解画像の白ぶどうの房の領域と、本実施例の方法によって得た処理画像の白ぶどうの房の領域の2つの重なりの割合を確認することにより、性能を評価する。
図13(1)に正解画像、(2)に本実施例による処理画像を示す。それぞれの画像における白ぶどうの房の領域の画素数を表記する。正解画像(11297ピクセル)と比べると、処理画像(11953ピクセル)の方が、白ぶどうの房の領域が多く、その割合は約1.16倍であった。まず、処理画像の方が白ぶどうの房の領域が多く算出された理由としては、白ぶどうの有り無しの判定は、四角形の連続となり粗いためである。正解画像と処理画像との2つの重なりの割合の誤差が20%以内で、図13の位置分布もほぼ同一であることから、本実施例の色画像処理方法の処理性能が高いことが確認できた。
図13(1)に正解画像、(2)に本実施例による処理画像を示す。それぞれの画像における白ぶどうの房の領域の画素数を表記する。正解画像(11297ピクセル)と比べると、処理画像(11953ピクセル)の方が、白ぶどうの房の領域が多く、その割合は約1.16倍であった。まず、処理画像の方が白ぶどうの房の領域が多く算出された理由としては、白ぶどうの有り無しの判定は、四角形の連続となり粗いためである。正解画像と処理画像との2つの重なりの割合の誤差が20%以内で、図13の位置分布もほぼ同一であることから、本実施例の色画像処理方法の処理性能が高いことが確認できた。
図14を参照して、本実施例の色画像処理方法の正答率について説明する。
図14において、A領域は本実施例の色画像処理方法で得られた領域であり、B領域は正解画像の領域である。また、正答率は下記数式14で表される。図14において、斜線部分で示されるC領域が正答率の計算に利用する範囲である。図14における(1)2048ピクセルと(2)392ピクセルの位置が誤解答した部分である。
図14において、A領域は本実施例の色画像処理方法で得られた領域であり、B領域は正解画像の領域である。また、正答率は下記数式14で表される。図14において、斜線部分で示されるC領域が正答率の計算に利用する範囲である。図14における(1)2048ピクセルと(2)392ピクセルの位置が誤解答した部分である。
次に、テンプレートのマッチング対象となる画像として、白ぶどう画像を34枚、房が紫色である巨峰画像を27枚用意して、評価実験を行った結果について説明する。用意した画像の大きさは全て同一サイズである。
下記表1は、白ぶどうと巨峰ぶどう(単にぶどうと表記)の画像と正解画像、2値画像の画像サイズ(画素数)および正答率を示している。正答率以外の数値の単位はpixelであり、括弧内はパッセンテージである。ここで、白ぶどうとぶどうの2つの種類としているのは、白ぶどう34枚の足し合わせと、ぶどう27枚の足し合わせの2つの結果だからである。画像サイズは白ぶどうの方が多い画像数なので、画像サイズも白ぶどうが上回っている。テンプレート画像は白ぶどうであるため、白ぶどうとぶどうを比べると白ぶどうの方が、正答率が高いことは予想されるが、実験結果も同様に、白ぶどうの方が高い結果となった。
下記表1は、白ぶどうと巨峰ぶどう(単にぶどうと表記)の画像と正解画像、2値画像の画像サイズ(画素数)および正答率を示している。正答率以外の数値の単位はpixelであり、括弧内はパッセンテージである。ここで、白ぶどうとぶどうの2つの種類としているのは、白ぶどう34枚の足し合わせと、ぶどう27枚の足し合わせの2つの結果だからである。画像サイズは白ぶどうの方が多い画像数なので、画像サイズも白ぶどうが上回っている。テンプレート画像は白ぶどうであるため、白ぶどうとぶどうを比べると白ぶどうの方が、正答率が高いことは予想されるが、実験結果も同様に、白ぶどうの方が高い結果となった。
実施例1で説明した色画像処理方法の処理において、さらに、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散に基づいて、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを判別して除外する処理を加えた色画像処理方法について説明する。
特に、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを、設定した閾値により判別して除外する処理を説明する。
特に、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを、設定した閾値により判別して除外する処理を説明する。
図19は、対象画像における隣接する2つのブロック領域の輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップの一例を示している。図19の3次元マップ上に、2つの輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の値が散らばっている。図19の3次元マップは、影の度合いによって色ヒストグラムがどのように変化していくのかを表している。データ(マップ上で“×”で表記)の散らばり方(分散)について、三変量のマハラノビス距離を用いて、分散の方向軸を算定する(図19の直線が方向軸である)。
図19の場合、方向軸にそって1つのグループのデータの存在が確認できる。この方向軸に沿った方向には、データが分散されやすいと言える。一方で、この方向軸から逸脱したデータ、例えば図19のグラフの右端にある3つのデータは、特異なデータであると言える。
そこで、マハラノビス距離の閾値を設定して、設定した閾値より大きいデータを判別して除外することにより、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを除外する。これによって、色ヒストグラムの類似度の判定精度を高めて、テンプレートマッチングの精度を高めるのである。
図19の場合、方向軸にそって1つのグループのデータの存在が確認できる。この方向軸に沿った方向には、データが分散されやすいと言える。一方で、この方向軸から逸脱したデータ、例えば図19のグラフの右端にある3つのデータは、特異なデータであると言える。
そこで、マハラノビス距離の閾値を設定して、設定した閾値より大きいデータを判別して除外することにより、対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域とを除外する。これによって、色ヒストグラムの類似度の判定精度を高めて、テンプレートマッチングの精度を高めるのである。
マッチング性能評価グラフを図20に示す。図20は、縦軸にTrue Positive、横軸にFalse Positiveの割合を2次元プロットしたグラフである。図20において、比較例とは、光源の影響を考慮せずテンプレートの色の分布を正規分布で表し、マハラノビス距離によって識別した例である。比較例の詳細については、文献(B. Schiele and A. Waibel, "Gaze tracking based on face color", in Proceedings of the International Workshop on Automatic Face and Gesture Recognition, pp. 344-349, 1995.)に説明されている。
図20のグラフでは、グラフの左上方向に向かって凸状態になる方が、正しいものを正しく、間違ったものを間違っていると判定する精度が高いことを表している。
図20から、上述の実施例1の色画像処理方法、本実施例2の色画像処理方法の方が、比較例よりもマッチング性能の改善が図られているのがわかる。また、本実施例2の色画像処理方法の方が、上述の実施例1の色画像処理方法よりも、更にマッチング性能の改善が図られているのがわかる。
図20のグラフでは、グラフの左上方向に向かって凸状態になる方が、正しいものを正しく、間違ったものを間違っていると判定する精度が高いことを表している。
図20から、上述の実施例1の色画像処理方法、本実施例2の色画像処理方法の方が、比較例よりもマッチング性能の改善が図られているのがわかる。また、本実施例2の色画像処理方法の方が、上述の実施例1の色画像処理方法よりも、更にマッチング性能の改善が図られているのがわかる。
次に、物体認識装置について説明する。図15は、物体認識装置の機能ブロック図を示している。
物体認識装置100は、画像取得手段102とテンプレート設定手段104とマッチング手段110と解析手段106とから構成される。画像取得手段102は、カメラ101により撮像された対象物のカラー画像を取得する。テンプレート設定手段104は、テンプレート画像データベース(D/B)103から目的対象物が写る1つ或は複数のテンプレート画像を読み込む。そして、読み込んだテンプレート画像と取得したカラー画像を比較する。
テンプレート画像は、予め設定されたサイズのウィンドウで目的対象物が写る画素領域である。マッチング手段110は、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とをそれぞれ比較するテンプレートマッチングを行う際に、ウィンドウの画像を複数のブロック領域に分割し(ブロック領域分割111)、それぞれのブロック領域の色ヒストグラムと、テンプレート画像の当該ブロック領域の色ヒストグラムとの類似度を比較する(色ヒストグラムの類似度比較113)。
解析手段106は、マッチング手段110によるテンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を解析し認識する。
物体認識装置100は、画像取得手段102とテンプレート設定手段104とマッチング手段110と解析手段106とから構成される。画像取得手段102は、カメラ101により撮像された対象物のカラー画像を取得する。テンプレート設定手段104は、テンプレート画像データベース(D/B)103から目的対象物が写る1つ或は複数のテンプレート画像を読み込む。そして、読み込んだテンプレート画像と取得したカラー画像を比較する。
テンプレート画像は、予め設定されたサイズのウィンドウで目的対象物が写る画素領域である。マッチング手段110は、取得したカラー画像におけるウィンドウと同サイズの画像と、テンプレート画像とをそれぞれ比較するテンプレートマッチングを行う際に、ウィンドウの画像を複数のブロック領域に分割し(ブロック領域分割111)、それぞれのブロック領域の色ヒストグラムと、テンプレート画像の当該ブロック領域の色ヒストグラムとの類似度を比較する(色ヒストグラムの類似度比較113)。
解析手段106は、マッチング手段110によるテンプレートマッチングの結果に基づいて、カラー画像における目的対象物の分布の位置を解析し認識する。
次に、機械制御システムの一例として、移動ロボット制御システムについて説明する。図16は、移動ロボット制御システムの機能ブロック図を示している。
移動ロボット制御システム120は、カメラ101と上述の実施例2で説明した物体認識装置100と目的対象物の方向と距離の演算部122とロボット駆動ユニット124とから構成される。移動ロボット制御システム120では、カメラ101を用いてカラー画像を取得し、取得したカラー画像と予め取得した目的対象物のテンプレート画像を用いて、物体認識装置101が目的対象物の検出を行う。そして、目的対象物の方向と距離の演算部122は、公知の写真測量方法を用いて、カメラ101の3次元位置を基準として目的対象物の3次元位置をカメラ画像から計測し、カメラ位置を基準とした目的対象物の方向と距離を算出する。算出された方向と距離の情報をロボット駆動ユニットに伝達し、ロボットを駆動する。例えば、ロボットが果実採取ロボットの場合、適切な位置までロボットが移動し、採取するための採取機構が作動することになる。
移動ロボット制御システム120は、カメラ101と上述の実施例2で説明した物体認識装置100と目的対象物の方向と距離の演算部122とロボット駆動ユニット124とから構成される。移動ロボット制御システム120では、カメラ101を用いてカラー画像を取得し、取得したカラー画像と予め取得した目的対象物のテンプレート画像を用いて、物体認識装置101が目的対象物の検出を行う。そして、目的対象物の方向と距離の演算部122は、公知の写真測量方法を用いて、カメラ101の3次元位置を基準として目的対象物の3次元位置をカメラ画像から計測し、カメラ位置を基準とした目的対象物の方向と距離を算出する。算出された方向と距離の情報をロボット駆動ユニットに伝達し、ロボットを駆動する。例えば、ロボットが果実採取ロボットの場合、適切な位置までロボットが移動し、採取するための採取機構が作動することになる。
次に、色情報出力システムの一例として、色覚異常患者サポートシステムについて説明する。図17は、色覚異常患者サポートシステムの機能ブロック図を示している。
色情報出力システム130は、図17に示すように、カメラ101と物体認識装置100とディスプレイ132とから構成される。物体認識装置100は、カメラ101が取得したカラー画像から目的対象物の分布位置を特定し、目的対象物の色を特定する。例えば、目的対象物が果実の場合には、熟し度合いによって果実の色が変化する。そのため、果実の色変わりを想定し、複数の色合い(熟し度合い)のテンプレート画像を予め準備することにより、カラー画像から果実の位置のみならず、果実の色を特定する。ディスプレイ132における色表示は、カラー画像に写る目的対象物の近傍に、例えば、目的対象物の色を文字で表すことができる。なお、色情報出力システム130において、目的対象物の色を文字でディスプレイ132に表示する以外に、色を音声出力してもよい。
色情報出力システム130は、図17に示すように、カメラ101と物体認識装置100とディスプレイ132とから構成される。物体認識装置100は、カメラ101が取得したカラー画像から目的対象物の分布位置を特定し、目的対象物の色を特定する。例えば、目的対象物が果実の場合には、熟し度合いによって果実の色が変化する。そのため、果実の色変わりを想定し、複数の色合い(熟し度合い)のテンプレート画像を予め準備することにより、カラー画像から果実の位置のみならず、果実の色を特定する。ディスプレイ132における色表示は、カラー画像に写る目的対象物の近傍に、例えば、目的対象物の色を文字で表すことができる。なお、色情報出力システム130において、目的対象物の色を文字でディスプレイ132に表示する以外に、色を音声出力してもよい。
図18は、色覚異常患者サポートシステムのテキスト表示の一例を示している。図18は、道路を走行する車に搭載されたカメラから前方の交差点の様子の画像を模式図として表している。図18の模式図では、交差点に2つの信号機(31,32)と2つの横断歩道(35,36)があり、1台の車37(シルバーの車体色の車)が交差点に入っている。また、中央線33と車道外側線34が示されている。色覚異常患者サポートシステムでは、目的対象物として、信号機、横断歩道、車、中央線および車道外側線が登録されており、それらのテンプレート画像も予め用意されている。信号機の場合は、青色(或は緑色)、黄色、赤色の3通りの色のテンプレート画像が用意されている。横断歩道と車道外側線は白色のテンプレート画像が用意され、中央線はオレンジ色のテンプレート画像が用意されている。車は、様々な色のテンプレート画像が用意されている。そして、色覚異常患者サポートシステムでは、車載カメラから取得したカラー画像から、目的対象物として、信号機、横断歩道、車、中央線、車道外側線を認識し、それらの色を特定して、カラー画像をディスプレイに表示する際に、目的対象物の色をテキスト表示する(41~47)。
本発明は、果実採取ロボットなどの移動ロボットの制御装置として有用である。
2 ウィンドウ画像
3 対象画像
4 ブロック領域
11 物体表面
12 ヒトの目
13,14 光源
TP1,TP2,・・・,TPn テンプレート画像
100 物体認識装置
101 カメラ
102 テンプレート画像D/B
102 画像取得手段
104 テンプレート設定手段
105 解析手段
110 マッチング手段
120 移動ロボット制御システム
122 目的対象物の方向と距離の演算部
124 ロボット駆動ユニット
130 色覚異常患者サポートシステム
132 ディスプレイ
3 対象画像
4 ブロック領域
11 物体表面
12 ヒトの目
13,14 光源
TP1,TP2,・・・,TPn テンプレート画像
100 物体認識装置
101 カメラ
102 テンプレート画像D/B
102 画像取得手段
104 テンプレート設定手段
105 解析手段
110 マッチング手段
120 移動ロボット制御システム
122 目的対象物の方向と距離の演算部
124 ロボット駆動ユニット
130 色覚異常患者サポートシステム
132 ディスプレイ
Claims (22)
- 少なくとも1つのテンプレート画像を用いて、対象画像となるカラー画像に対してテンプレートマッチングを行う色画像処理方法であって、
前記テンプレート画像が複数のブロックに分割された各ブロック領域における色ヒストグラムの類似度を用いてマッチングを行うことを特徴とする色画像処理方法。 - 前記マッチングにおいて、前記ブロック領域を、赤、緑および青の濃淡画像に分離して、各々の濃淡画像に基づいて、前記色ヒストグラムを比較することを特徴とする請求項2に記載の色画像処理方法。
- 前記色ヒストグラムは、前記ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルであることを特徴とする請求項1に記載の色画像処理方法。
- 前記色ヒストグラムの類似度は、前記テンプレート画像と前記対象画像のそれぞれの前記輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することを特徴とする請求項3に記載の色画像処理方法。
- 前記テンプレート画像は、撮像時の光源色が既知である画像であることを特徴とする請求項1~4の何れかに記載の色画像処理方法。
- 前記対象画像における隣接する2つの前記ブロック領域の前記輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散に基づいて、
前記対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、前記対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域と、
を判別して除外することを特徴とする請求項3に記載の色画像処理方法。 - 前記3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、該閾値により前記ブロック領域を判別して除外することを特徴とする請求項6に記載の色画像処理方法。
- カメラにより撮像された対象物のカラー画像を取得するステップと、
予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するステップと、
取得した前記カラー画像における前記ウィンドウと同サイズの画像と、前記テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うステップと、
テンプレートマッチングの結果に基づいて、前記カラー画像における前記目的対象物の分布の位置を認識するステップ、
を備え、
前記テンプレートマッチングを行うステップは、
前記ウィンドウの画像を複数のブロック領域に分割し、請求項1~7の何れかの色画像処理方法を用いて、前記ブロック領域の前記色ヒストグラムもしくは前記輝度順色ベクトルの類似度を比較することを特徴とする物体認識方法。 - 前記テンプレート画像が複数枚の場合、取得した前記カラー画像に対し、各々の前記テンプレート画像を用いて、前記テンプレートマッチングを行うステップを行い、テンプレートマッチング結果の組合せで前記目的対象物の分布の位置を認識することを特徴とする請求項8に記載の物体認識方法。
- 請求項1~7の何れかの色画像処理方法、或は、請求項8又は9の物体認識方法を用いる制御方法であって、
制御対象の機械が、前記テンプレートマッチングにより前記目的対象物を検知し、動作を起こすことを特徴とする機械制御方法。 - 請求項1~7の何れかの色画像処理方法、或は、請求項8又は9の物体認識方法を用いる出力方法であって、
カメラ画像の中に存在する個々の物体を認識し、認識した物体の表示色を前記テンプレートマッチングにより判別して、色情報を出力することを特徴とする色情報出力方法。 - 請求項8又は9の物体認識方法における前記テンプレートマッチングを行うステップを、コンピュータに実行させるための色画像処理プログラム。
- カメラにより撮像された対象物のカラー画像を取得する画像取得手段と、
予め設定されたサイズのウィンドウで目的対象物が写る画素領域を用いて、少なくとも1つのテンプレート画像を設定するテンプレート設定手段と、
取得した前記カラー画像における前記ウィンドウと同サイズの画像と、前記テンプレート画像とを、それぞれ比較することによるテンプレートマッチングを行うマッチング手段と、
テンプレートマッチングの結果に基づいて、前記カラー画像における前記目的対象物の分布の位置を認識する解析手段、
を備え、
前記マッチング手段は、
前記ウィンドウの画像を複数のブロック領域に分割し、それぞれのブロック領域の色ヒストグラムと、前記テンプレート画像の当該ブロック領域の色ヒストグラムとの類似度を比較することを特徴とする物体認識装置。 - 前記マッチング手段において、色ヒストグラムの類似度の比較は、前記ブロック領域を、赤、緑および青の濃淡画像に分離して、各々の濃淡画像の色ヒストグラムの類似度を比較することを特徴とする請求項13に記載の物体認識装置。
- 前記色ヒストグラムは、前記ブロック領域内の画素数をNとした場合、R(赤),G(緑)及びB(青)の色毎にN個存在する色ベクトルを、画素値の大小順にソーティングした輝度順色ベクトルであることを特徴とする請求項13に記載の物体認識装置。
- 前記色ヒストグラムの類似度は、前記テンプレート画像と前記対象画像のそれぞれの前記輝度順色ベクトルの差と、最小誤差と最大誤差の重み付けから得られる所定閾値とから算出することを特徴とする請求項15に記載の物体認識装置。
- 前記テンプレート画像は、撮像時の光源色が既知である画像であることを特徴とする請求項13~16の何れかに記載の物体認識装置。
- 前記対象画像における隣接する2つの前記ブロック領域の前記輝度順色ベクトルから求められる光源比のR(赤),G(緑)およびB(青)の対数を各軸とする3次元マップにおけるデータの分散に基づいて、
前記対象画像を撮像した時の光源光が物体に妨げられて影が形成されたブロック領域と、前記対象画像を撮像した時の光源光が自然な太陽光ではなかったブロック領域と、を判別して除外する除外判別手段、
を更に備えたことを特徴とする請求項15に記載の物体認識装置。 - 前記除外判別手段において、3次元マップにおけるデータの分散から、三変量のマハラノビス距離の閾値を設定して、該閾値により前記ブロック領域を判別して除外することを特徴とする請求項18に記載の物体認識装置。
- 前記テンプレート画像が複数枚の場合、
取得した前記カラー画像に対し、各々の前記テンプレート画像を用いて、
前記マッチング手段が前記テンプレートマッチングを行い、
前記解析手段がそれぞれの前記テンプレートマッチングの結果の組合せで前記目的対象物の分布の位置を認識することを特徴とする請求項13~19の何れかに記載の物体認識装置。 - 請求項13~19の何れかの物体認識装置が組み込まれ、或は、ネットワークで接続された制御システムであって、
制御対象の機械が、前記テンプレートマッチングにより前記目的対象物を検知し、動作を起こすことを特徴とする機械制御システム。 - 請求項13~19の何れかの物体認識装置が組み込まれ、或は、ネットワークで接続された出力システムであって、
カメラ画像の中に存在する個々の物体を認識し、認識した物体の表示色を前記テンプレートマッチングにより判別して、色情報を出力することを特徴とする色情報出力システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-090892 | 2015-04-27 | ||
JP2015090892A JP2018101165A (ja) | 2015-04-27 | 2015-04-27 | 色画像処理方法、色画像処理プログラム、物体認識方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016175234A1 true WO2016175234A1 (ja) | 2016-11-03 |
Family
ID=57198426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/063163 WO2016175234A1 (ja) | 2015-04-27 | 2016-04-27 | 色画像処理方法、色画像処理プログラム、物体認識方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2018101165A (ja) |
WO (1) | WO2016175234A1 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107661158A (zh) * | 2017-07-27 | 2018-02-06 | 芜湖微云机器人有限公司 | 一种通过多目摄像头进行数字化齿科比色的方法 |
CN109255387A (zh) * | 2018-09-20 | 2019-01-22 | 珠海市君天电子科技有限公司 | 一种图像匹配方法、装置、电子设备及存储介质 |
CN109711317A (zh) * | 2018-12-21 | 2019-05-03 | 重庆理工大学 | 基于区域特征的成熟柑橘果实及枝叶的分割识别方法 |
CN110807817A (zh) * | 2019-10-29 | 2020-02-18 | 长春融成智能设备制造股份有限公司 | 一种适应光照变化的目标颜色识别的机器视觉方法 |
CN111681221A (zh) * | 2020-06-05 | 2020-09-18 | 中国科学院空天信息创新研究院 | 一种基于基元矢量多角度描述彩色图像的方法 |
CN113012220A (zh) * | 2021-02-02 | 2021-06-22 | 深圳市识农智能科技有限公司 | 一种果实计数方法、装置及电子设备 |
CN113145473A (zh) * | 2021-02-20 | 2021-07-23 | 广州大学华软软件学院 | 一种水果智能分拣系统及方法 |
CN113989207A (zh) * | 2021-10-21 | 2022-01-28 | 江苏智库智能科技有限公司 | 一种基于图像处理的物资盘点方法 |
EP4152273A1 (en) * | 2021-09-15 | 2023-03-22 | Samsung Electronics Co., Ltd. | Method and device with image processing |
CN117876232A (zh) * | 2024-03-11 | 2024-04-12 | 国任财产保险股份有限公司 | 一种基于大模型的智能交通事故保险处理方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102017218072A1 (de) * | 2017-10-11 | 2019-04-11 | Robert Bosch Gmbh | Verfahren zum Aufnehmen eines Bildes |
CN116134472A (zh) * | 2020-07-31 | 2023-05-16 | 三井化学株式会社 | 图像输出装置、图像输出方法、图像输出系统以及计算机程序 |
WO2023176562A1 (ja) * | 2022-03-17 | 2023-09-21 | ソニーグループ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002073538A1 (fr) * | 2001-03-13 | 2002-09-19 | Ecchandes Inc. | Dispositif visuel, compteur asservi et capteur d'images |
JP2011018238A (ja) * | 2009-07-09 | 2011-01-27 | Hitachi Ltd | 画像検索システム及び画像検索方法 |
JP2013003860A (ja) * | 2011-06-16 | 2013-01-07 | Iwate Univ | 物体検出装置及び物体検出プログラム |
JP2013080460A (ja) * | 2011-09-30 | 2013-05-02 | Ricoh Co Ltd | 前方車両検知方法及び前方車両検知装置 |
JP2015026122A (ja) * | 2013-07-24 | 2015-02-05 | 株式会社ニコン | 画像処理装置 |
-
2015
- 2015-04-27 JP JP2015090892A patent/JP2018101165A/ja active Pending
-
2016
- 2016-04-27 WO PCT/JP2016/063163 patent/WO2016175234A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002073538A1 (fr) * | 2001-03-13 | 2002-09-19 | Ecchandes Inc. | Dispositif visuel, compteur asservi et capteur d'images |
JP2011018238A (ja) * | 2009-07-09 | 2011-01-27 | Hitachi Ltd | 画像検索システム及び画像検索方法 |
JP2013003860A (ja) * | 2011-06-16 | 2013-01-07 | Iwate Univ | 物体検出装置及び物体検出プログラム |
JP2013080460A (ja) * | 2011-09-30 | 2013-05-02 | Ricoh Co Ltd | 前方車両検知方法及び前方車両検知装置 |
JP2015026122A (ja) * | 2013-07-24 | 2015-02-05 | 株式会社ニコン | 画像処理装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107661158B (zh) * | 2017-07-27 | 2020-06-26 | 江苏微云人工智能有限公司 | 一种通过多目摄像头进行数字化齿科比色的方法 |
CN107661158A (zh) * | 2017-07-27 | 2018-02-06 | 芜湖微云机器人有限公司 | 一种通过多目摄像头进行数字化齿科比色的方法 |
CN109255387A (zh) * | 2018-09-20 | 2019-01-22 | 珠海市君天电子科技有限公司 | 一种图像匹配方法、装置、电子设备及存储介质 |
CN109711317A (zh) * | 2018-12-21 | 2019-05-03 | 重庆理工大学 | 基于区域特征的成熟柑橘果实及枝叶的分割识别方法 |
CN110807817B (zh) * | 2019-10-29 | 2023-01-03 | 长春融成智能设备制造股份有限公司 | 一种适应光照变化的目标颜色识别的机器视觉方法 |
CN110807817A (zh) * | 2019-10-29 | 2020-02-18 | 长春融成智能设备制造股份有限公司 | 一种适应光照变化的目标颜色识别的机器视觉方法 |
CN111681221A (zh) * | 2020-06-05 | 2020-09-18 | 中国科学院空天信息创新研究院 | 一种基于基元矢量多角度描述彩色图像的方法 |
CN111681221B (zh) * | 2020-06-05 | 2023-12-19 | 中国科学院空天信息创新研究院 | 一种基于基元矢量多角度描述彩色图像的方法 |
CN113012220A (zh) * | 2021-02-02 | 2021-06-22 | 深圳市识农智能科技有限公司 | 一种果实计数方法、装置及电子设备 |
CN113145473A (zh) * | 2021-02-20 | 2021-07-23 | 广州大学华软软件学院 | 一种水果智能分拣系统及方法 |
EP4152273A1 (en) * | 2021-09-15 | 2023-03-22 | Samsung Electronics Co., Ltd. | Method and device with image processing |
CN113989207A (zh) * | 2021-10-21 | 2022-01-28 | 江苏智库智能科技有限公司 | 一种基于图像处理的物资盘点方法 |
CN117876232A (zh) * | 2024-03-11 | 2024-04-12 | 国任财产保险股份有限公司 | 一种基于大模型的智能交通事故保险处理方法及系统 |
CN117876232B (zh) * | 2024-03-11 | 2024-05-28 | 国任财产保险股份有限公司 | 一种基于大模型的智能交通事故保险处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2018101165A (ja) | 2018-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016175234A1 (ja) | 色画像処理方法、色画像処理プログラム、物体認識方法及び装置 | |
CN111046703B (zh) | 人脸防伪检测方法、装置及多目相机 | |
Dorj et al. | An yield estimation in citrus orchards via fruit detection and counting using image processing | |
CN109271921B (zh) | 一种多光谱成像的智能识别方法及系统 | |
US6961466B2 (en) | Method and apparatus for object recognition | |
DE112013000590B4 (de) | Verbesserter Kontrast zur Objekterfassung und Charakterisierung durch optisches Abbilden | |
CN101443791B (zh) | 用于在数字图像中的前景和背景之间提供分离的方法和设备 | |
JP6312714B2 (ja) | 陰影検出および減衰のためのマルチスペクトル撮像システム | |
CN107301378B (zh) | 图像中多分类器集成的行人检测方法和系统 | |
JP6497579B2 (ja) | 画像合成システム、画像合成方法、画像合成プログラム | |
US20060095207A1 (en) | Obstacle detection using stereo vision | |
CN111062378A (zh) | 图像处理方法、模型训练方法、目标检测方法及相关装置 | |
US8934669B2 (en) | Self-adaptive image-based obstacle detection method | |
CN105138987B (zh) | 一种基于聚合通道特征和运动估计的车辆检测方法 | |
CN105956515A (zh) | 基于极成像的立体-高光谱人脸识别方法 | |
CN102314602A (zh) | 使用最优定向线性轴线去除由基于车辆的相机捕获的图像中的阴影 | |
IL256202A (en) | A method for enhancing an ir or scam image based on video analysis information | |
CN104915943B (zh) | 用于在视差图中确定主要视差值的方法和装置 | |
DE112011105435B4 (de) | Augenliderfassungsvorrichtung | |
JP3659914B2 (ja) | 物体認識装置、物体を認識する方法、プログラムおよび記録媒体 | |
CN107800965A (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111967319A (zh) | 基于红外和可见光的活体检测方法、装置、设备和存储介质 | |
WO2020027210A1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
CN113008380A (zh) | 一种智慧ai体温预警方法、系统及存储介质 | |
CN115690513A (zh) | 一种基于深度学习的城市行道树种类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16786510 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16786510 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |