WO2013021580A1 - 特徴抽出装置、特徴抽出プログラム、および画像処理装置 - Google Patents

特徴抽出装置、特徴抽出プログラム、および画像処理装置 Download PDF

Info

Publication number
WO2013021580A1
WO2013021580A1 PCT/JP2012/004852 JP2012004852W WO2013021580A1 WO 2013021580 A1 WO2013021580 A1 WO 2013021580A1 JP 2012004852 W JP2012004852 W JP 2012004852W WO 2013021580 A1 WO2013021580 A1 WO 2013021580A1
Authority
WO
WIPO (PCT)
Prior art keywords
pixel
sub
feature extraction
region
pixels
Prior art date
Application number
PCT/JP2012/004852
Other languages
English (en)
French (fr)
Inventor
芸芸 曹
西村 洋文
スギリ プラナタ
ジーヘン ニュー
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US14/237,729 priority Critical patent/US9294665B2/en
Priority to EP12821503.5A priority patent/EP2743888B1/en
Priority to CN201280038798.8A priority patent/CN103733224B/zh
Publication of WO2013021580A1 publication Critical patent/WO2013021580A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/333Mode signalling or mode changing; Handshaking therefor
    • H04N2201/33307Mode signalling or mode changing; Handshaking therefor of a particular mode
    • H04N2201/33342Mode signalling or mode changing; Handshaking therefor of a particular mode of transmission mode
    • H04N2201/33371Mode signalling or mode changing; Handshaking therefor of a particular mode of transmission mode using test signals, e.g. checking error occurrences

Definitions

  • the present invention relates to a feature extraction device for extracting an image feature from image data, a feature extraction program, and an image processing device using the feature extraction device.
  • Non-Patent Document 1 A technique using a local binary pattern (LBP) is described, for example, in Non-Patent Document 1 as one of the methods of object detection.
  • LBP local binary pattern
  • the local binary pattern is a binary pattern in which the pixel value differences between each pixel of interest and each pixel in the vicinity of the pixel of interest are binarized and arranged. According to the local binary pattern, it is possible to extract the gray scale pattern included in the image.
  • Non-Patent Document 1 and Non-Patent Document 2 are all or part included in a certain region of an image to be identified (hereinafter referred to as “target image”). Calculate a local binary pattern for the pixel. The first prior art then generates a histogram of the values of the local binary pattern as an image feature.
  • a classifier is generated and stored in advance based on a histogram similarly generated from an image including a predetermined object and an image not including the predetermined object (hereinafter collectively referred to as “learning image”). deep. Then, according to the first prior art, the histogram of the target image is evaluated using a classifier to determine whether the target image includes a predetermined object.
  • Histograms of local binary patterns can express different textures and gray-scale patterns with higher accuracy and can be calculated with less processing load compared to image features such as intensity gradient direction histograms (HOGs) of Histograms of Oriented Gradients (HOG) It is. Therefore, object detection using a local binary pattern as in the first prior art is expected to be applied to various fields.
  • HOGs intensity gradient direction histograms
  • HOG Histograms of Oriented Gradients
  • the area to be operated on for the local binary pattern is usually an area of 3 ⁇ 3 pixels centered on the pixel of interest.
  • the area to be calculated may be set wider, and a local binary pattern may be generated from more pixels, thereby allowing a wider range of features to be shared. There is a demand to use the origin.
  • Patent Document 1 describes a technology (hereinafter referred to as “second prior art”) in which only a wider 5 pixel ⁇ 5 pixel region or the outer peripheral portion of the region is to be calculated. According to this technique, it is possible to set a wider area to be the target of calculation of the local binary pattern.
  • the number of bits of the local binary pattern increases. For example, while the number of bits is 8 bits when the above-mentioned area of 3 pixels ⁇ 3 pixels is to be operated, the outer peripheral portion thereof is made to be the area of 5 pixels ⁇ 5 pixels as described above. Even if you use only, it is doubled to 16 bits. As the number of bits of the local binary pattern increases, the number of dimensions of the histogram increases, and the processing load upon generation of a classifier or object detection using the classifier increases.
  • the pixels to be calculated are thinned out, the number of bits of the local binary pattern can be reduced, but the accuracy of object detection is correspondingly reduced.
  • the second prior art has a problem that, if a wider area is to be calculated for the local binary pattern, the detection accuracy is reduced or the processing load is increased.
  • An object of the present invention is to provide a feature extraction device, a feature extraction program, and a feature extraction program capable of generating a local binary pattern from more pixels while suppressing a decrease in object detection accuracy and an increase in processing load.
  • An image processing apparatus is provided.
  • the feature extraction device sets, for each pixel of all or part of an image, the pixel as a pixel of interest and a subregion setting unit configured to set a plurality of subregions for the pixel of interest; And a binary pattern generation unit that generates a local binary pattern indicating a comparison of pixel values with each of the set plurality of sub-regions by a bit value, the sub-region setting unit including at least the target pixel An area composed of a plurality of pixels including pixels separated from each other is set as the sub area, and the binary pattern generation unit is configured to, for each of the sub areas, one or more pixels of pixels constituting the sub area. Bit data indicating a representative value representing a value group and indicating whether or not the difference between the representative value and the pixel value of the pixel of interest is equal to or greater than a predetermined threshold value. Generates as said local binary pattern.
  • An image processing apparatus uses the feature extraction apparatus further including a histogram generation unit that generates a histogram indicating a distribution of local binary patterns generated from an image, and a classifier for identifying a predetermined object. And an identification unit that determines whether the predetermined object is included in the image from the histogram generated by the feature extraction device.
  • the feature extraction program includes a process of setting a pixel as a pixel of interest and setting a plurality of subregions for the pixel of interest for each pixel of all or part of an image in the computer; A process of generating a local binary pattern indicating a comparison of pixel values with each of the plurality of set sub-areas by a bit value, and a process of setting the sub-areas at least from the target pixel An area configured of a plurality of pixels including separated pixels is set as the sub area, and the process of generating the local binary pattern includes, for each sub area, one or more pixels constituting the sub area.
  • Block diagram showing an example of the configuration of a feature extraction device according to Embodiment 1 of the present invention Block diagram showing an example of the configuration of an object detection system including a feature extraction device according to Embodiment 2 of the present invention Block diagram showing a detailed configuration of a feature extraction unit according to Embodiment 2 of the present invention
  • the flowchart which shows one example of operation of the object detection device which relates to the form 2 of execution of this invention The schematic diagram which shows an example of the mode of the image scan in Embodiment 2 of this invention
  • the schematic diagram which shows an example of a mode of a shift of the vicinity area in Embodiment 2 of this invention Graph showing an example of spatial frequency characteristics of a camera according to Embodiment 2 of the present invention Schematic diagram showing a first example of arrangement of sub-regions in the second embodiment of the present invention
  • the figure which shows the 2nd example of the sub field arrangement in the form 2 of execution of this invention The figure which shows the 3rd example of the sub field arrangement in the form 2 of execution of this invention
  • the figure which shows the 5th example of the sub field arrangement in the form 2 of execution of this invention The figure which shows the experimental result of performance evaluation of the 4th example of the sub area
  • FIG. 1 A diagram showing a seventh example of arrangement of sub-regions in the second embodiment of the present invention
  • FIG. 1 A diagram showing a seventh example of arrangement of sub-regions in the second embodiment of the present invention
  • Embodiment 1 of the present invention is an example of a basic aspect of the present invention.
  • FIG. 1 is a block diagram showing an example of the configuration of a feature extraction device according to the present embodiment.
  • the feature extraction device 10 has a sub region setting unit 433 and a binary pattern generation unit 434.
  • the sub-region setting unit 433 sets the pixel as a pixel of interest for each of all or part of pixels of the image, and sets a plurality of sub-regions for the pixel of interest. At this time, the sub-region setting unit 433 sets a region including at least a plurality of pixels including a pixel separated from the target pixel as a sub-region.
  • the binary pattern generation unit 434 generates, for each pixel of interest, a local binary pattern in which comparison of pixel values with each of a plurality of set subregions is indicated by a bit value. At this time, the binary pattern generation unit 434 calculates, for each sub region, a representative value representing a pixel value group of one or a plurality of pixels constituting the sub region. Then, the binary pattern generation unit 434 generates, as a local binary pattern, bit data indicating by bit value whether or not the difference of the representative value with respect to the pixel value of the pixel of interest is equal to or greater than a predetermined threshold.
  • the feature extraction device 10 can have a computer configuration including, for example, storage media such as a CPU (central processing unit) and a RAM (random access memory). In this case, the feature extraction device 10 operates when the CPU executes a control program to be stored.
  • storage media such as a CPU (central processing unit) and a RAM (random access memory).
  • the feature extraction device 10 operates when the CPU executes a control program to be stored.
  • Such a feature extraction device 10 can generate a local binary pattern from representative values of pixel values of a plurality of pixels while including a pixel separated from a target pixel as an operation target of the local binary pattern. Thereby, the feature extraction device 10 can generate a local binary pattern using more pixels while suppressing a decrease in object detection accuracy and an increase in processing load.
  • the second embodiment of the present invention is an example of a specific mode when the present invention is applied to an object detection system.
  • FIG. 2 is a block diagram showing an example of the configuration of an object detection system including the feature extraction device according to the present embodiment.
  • the object detection system 100 includes a classifier learning device 200, a classifier storage device 300, and an object detection device 400.
  • the classifier learning device 200 and the object detection device 400 can be connected to the classifier storage device 300 via a communication network such as the Internet, for example.
  • a Boosting method is adopted as an example of the machine learning method used by the classifier learning device 200.
  • the classifier learning device 200 learns a classifier for detecting an object to be detected (hereinafter referred to as “detection target object”) from an image normalized in advance for learning, and classification as a learning result Are stored in the identifier storage unit 300.
  • the classifier learning device 200 includes a learning data storage unit 210, a feature extraction unit 220 including a feature extraction device according to the present invention, and a learning unit 240.
  • the learning data storage unit 210 stores in advance a plurality of learning images (positive samples) including the detection target object, a plurality of learning images (negative samples) not including the detection target object, and feature extraction area information candidates. Do.
  • the feature extraction unit 220 acquires a feature extraction area for each learning image stored in the learning data storage unit 210, and extracts an image feature from the acquired feature extraction area.
  • the feature extraction area is an image area that is an object of extraction of an image feature.
  • the feature extraction region can be a face part of the person, for example, a large number of randomly arranged image regions including an eye or a nose.
  • the feature extraction region can be, for example, a large number of randomly arranged image regions including a head, an arm, a foot, and the like.
  • the feature extraction unit 220 extracts the image feature for each feature extraction area and outputs the image feature to the learning unit 240. More specifically, the feature extraction unit 220 first generates, for each or all of the pixels of the feature extraction region, a local binary pattern with that pixel as the pixel of interest. Then, the feature extraction unit 220 generates a histogram (hereinafter, simply referred to as “histogram”) indicating the distribution of the generated local binary pattern as an image feature of the feature extraction region.
  • histogram histogram
  • the local binary pattern is information indicating the comparison of pixel values of the pixel of interest and each of the plurality of sub-regions by bit values.
  • the method of setting the subregions and the method of comparing the pixel values of the pixel of interest and each subregion will be described later.
  • the learning unit 240 is one or more for dividing the image including the detection target object from the image not including the detection target object based on the histogram group obtained from the positive sample and the histogram group obtained from the negative sample. Generate a classifier of That is, the learning unit 240 generates feature extraction area information and identification information corresponding to the feature extraction area information as a classifier. Then, the learning unit 240 transmits the generated identification information together with the feature extraction area information to the discriminator storage device 300, and assembles the feature extraction area information for storage.
  • the feature extraction region information is information indicating the range of the feature extraction region, and includes, for example, the position and size of the feature extraction region.
  • the identification information is information for evaluating the histogram of the feature extraction area of the target image and determining whether the target image includes a predetermined object.
  • the object detection apparatus 400 acquires the classifier stored in the classifier storage apparatus 300 and performs object detection on the target image.
  • the object detection device 400 has a camera 410, an image input unit 420, a feature extraction unit 430 including a feature extraction device according to the present invention, and an identification unit 450.
  • the camera 410 captures a target image, and outputs the target image to the image input unit 420.
  • the image input unit 420 scans the target image with a window of a predetermined size, and outputs the scanned individual image regions (hereinafter referred to as “window regions”) to the feature extraction unit 430.
  • the feature extraction unit 430 acquires, for each window region, the range indicated by the feature extraction region information stored in the identifier storage device among the window regions as a feature extraction region.
  • the feature extraction unit 430 extracts the image feature for each feature extraction area, and outputs the image feature to the identification unit 450. More specifically, the feature extraction unit 430 generates a local binary pattern for each pixel of the feature extraction area, and generates a histogram of the local binary pattern as an image feature of the feature extraction area.
  • the process performed by the feature extraction unit 430 on the window region is similar to the process performed by the feature extraction unit 220 in the above-described classifier learning apparatus 200 on the learning image. That is, the feature extraction unit 220 in the classifier learning device 200 acquires, for example, all of a large number of areas prepared in advance as candidate areas as a feature extraction area. On the other hand, the feature extraction unit 430 acquires, from the classifier storage device 300, only the region indicated by the feature extraction region information selected by the learning unit 240 as a feature extraction region. Therefore, hereinafter, description of one configuration and operation will be omitted, and the description of the other configuration and description will be omitted as appropriate.
  • FIG. 3 is a block diagram showing the detailed configuration of the feature extraction unit 430. As shown in FIG. 3
  • the feature extraction unit 430 includes a feature extraction area acquisition unit 431, a region scan unit 432, a sub region setting unit 433, a binary pattern generation unit 434, and a histogram generation unit 440.
  • the feature extraction area acquisition unit 431 acquires, for each window area input from the image input unit 420, a range indicated by the feature extraction area information stored in the identifier storage device 300 among the window areas as a feature extraction area. . Then, the acquired feature extraction area is output to the area scanning unit 432.
  • the area scan unit 432 scans the feature extraction area input from the feature extraction area acquisition unit 431 at a predetermined interval, and outputs the scanned pixel to the sub-area setting unit 433 as a target pixel.
  • the sub-region setting unit 433 sets, for each pixel of all or part of the feature extraction region input from the region scan unit 432, the pixel as a pixel of interest, and sets a plurality of sub-regions for the pixel of interest.
  • the sub region setting unit 433 has a near region acquisition unit 435 and a sub region setting unit 436.
  • the neighboring region acquiring unit 435 sets a neighboring region centered on the pixel of interest for the pixel of interest input from the region scanning unit 432, and acquires the pixel value of each pixel.
  • the near region acquisition unit 435 sets a region including a plurality of pixels including a pixel separated from the target pixel as a near region.
  • the neighboring region acquiring unit 435 outputs the set neighboring region and the plurality of acquired pixel values to the subregion setting unit 436 for each pixel of interest.
  • the sub region setting unit 436 sets a plurality of sub regions from the near region input from the near region acquisition unit 435. Then, the sub region setting unit 436 outputs the pixel value of the target pixel (hereinafter referred to as “target pixel value”) and the pixel value of each pixel of each sub region to the binary pattern generation unit 434 for each target pixel. . At this time, the sub region setting unit 436 sets at least one sub region including a plurality of pixels including a pixel separated from the target pixel. At this time, the sub region setting unit 436 sets the sub region based on the spatial frequency characteristics of the camera 410. The method of sub-region setting based on the spatial frequency characteristic of the camera 410 will be described later.
  • the binary pattern generation unit 434 generates, for each pixel of interest, a local binary pattern in which comparison of pixel values with each of a plurality of set subregions is indicated by a bit value.
  • the binary pattern generation unit 434 has a region representative value calculation unit 437, a sub region difference calculation unit 438, and a binary pattern calculation unit 439.
  • the area representative value calculation unit 437 calculates, for each sub area, a representative value (hereinafter referred to as “area representative value”) representing a pixel value group of one or a plurality of pixels constituting the sub area. Then, the region representative value calculation unit 437 outputs the target pixel value and the calculated region representative value to the sub region difference calculation unit 438 for each sub region.
  • area representative value a representative value representing a pixel value group of one or a plurality of pixels constituting the sub area.
  • region representative value calculation unit 437 sets the pixel value of that pixel as a region representative value for a sub region consisting of one pixel, and for a sub region consisting of a plurality of pixels An average of pixel values is taken as a region representative value.
  • the subregion difference calculation unit 438 calculates, for each pixel of interest, the difference between the region representative values input from the region representative value calculation unit 437 with respect to the pixel of interest value. Then, the subregion difference calculation unit 438 outputs the calculated difference of each adjacent subregion to the binary pattern calculation unit 439 for each pixel of interest.
  • the binary pattern calculation unit 439 determines, for each pixel of interest, whether or not the difference between the subregions input from the subregion difference calculation unit 438 is equal to or greater than a predetermined threshold value. Then, a local binary pattern indicating whether or not the difference between the subregions is equal to or greater than a predetermined threshold value is generated for each pixel of interest, and is output to the histogram generation unit 440.
  • the histogram generation unit 440 generates a histogram indicating the distribution of the local binary pattern of the feature extraction region based on the local binary pattern input from the binary pattern calculation unit 439 for each feature extraction region. Then, the histogram generation unit 440 outputs the generated histogram to the identification unit 450 in FIG. 2 for each feature extraction region.
  • the identification unit 450 of FIG. 2 acquires identification information stored in the identifier storage device 300.
  • the identification unit 450 uses the acquired identification information to calculate, from the histogram input from the feature extraction unit 430, a score as to whether or not the target image includes a part of the detection target object. Then, the identification unit 450 calculates a total score from the scores of all feature extraction areas stored in the classifier storage device 300, and determines whether the target image includes the detection target object based on the total score. Then, the identification unit 450 notifies the user of the determination result, for example, via an image display device or an audio output device (not shown).
  • the classifier learning device 200 and the object detection device 400 can each have a computer configuration including, for example, storage media such as a CPU and a RAM. In this case, the classifier learning device 200 and the object detection device 400 operate when the CPU executes a control program to be stored. Further, the object detection device 400 may be a dedicated chip that performs only the calculation.
  • the identifier storage device 300 is, for example, a network server including a storage medium such as a semiconductor memory or a hard disk.
  • the object detection system 100 sets a sub-region composed of a plurality of pixels, performs statistical processing on pixel values of the sub-region, and calculates a region representative value. Then, the object detection system 100 uses the region representative value for feature extraction.
  • the object detection system 100 can reduce not only the number of bits of the local binary pattern, but also the noise on a pixel basis in the binary pattern. When object detection is performed using such a binary pattern histogram, calculation cost is reduced and object detection that is robust against noise can be performed.
  • the object detection system 100 can generate a local binary pattern from more pixels while suppressing a decrease in object detection accuracy and an increase in processing load. That is, the object detection system 100 can use an image feature capable of high-speed and robust object detection with respect to a noisy image captured in an environment such as low illuminance when detecting an object in an image.
  • the operation of the object detection device 400 including the feature extraction device according to the present invention will be described.
  • the operation of the feature extraction unit 220 in the classifier learning device 200 is the same as the operation of the feature extraction unit 430 in the object detection device 400, the description thereof will be omitted.
  • FIG. 4 is a flowchart showing an example of the operation of the object detection apparatus 400.
  • step S1100 the image input unit 420 scans a target image with a window of a predetermined size.
  • FIG. 5 is a schematic view showing an example of the state of image scanning.
  • the image input unit 420 scans the entire target image 510 with a window 511 of a predetermined size, and acquires window regions 512 from various positions.
  • the size of the window 511 is, for example, 64 pixels ⁇ 128 pixels.
  • the feature extraction area acquisition unit 431 of the feature extraction unit 430 of FIG. 3 obtains information of the feature extraction area obtained by learning of the classifier learning device 200 and stored in the classifier storage device ( Acquire one position, size, etc.). For example, as illustrated in FIG. 5, the feature extraction area acquisition unit 431 acquires a rectangular area including the head of a person as a feature extraction area 520.
  • step S1300 the area scan unit 432 of the feature extraction unit 430 selects one of the pixels of the feature extraction area 520 as a target pixel.
  • step S1400 the neighboring region acquiring unit 435 sets a neighboring region centered on the pixel of interest being scanned in step S1300.
  • the area scan unit 432 selects an unselected pixel each time the process returns to step S1300 by the determination process of step S1900 described later, and as a result, shifts the neighboring area.
  • FIG. 6 is a schematic view showing an example of the state of the shift of the near region.
  • the area scan unit 432 shifts the target pixel 521 in the entire feature extraction area 520 to shift the vicinity area 522 centered on the target pixel 521.
  • the neighboring area acquiring unit 435 sets an area of 11 ⁇ 11 pixels centered on the pixel of interest 521 as the neighboring area 522 for each pixel of interest 521. That is, the near region acquisition unit 435 sets 121 pixels as the near region.
  • step S1500 in FIG. 4 the sub-region setting unit 436 of the feature extraction unit 430 sets a sub-region from the region near the pixel of interest. At this time, the sub region setting unit 436 sets the sub region based on the spatial frequency characteristic of the camera 410.
  • FIG. 7 is a graph showing an example of the spatial frequency characteristic of the camera 410.
  • the horizontal axis indicates the spatial frequency
  • the vertical axis indicates the signal (reproduction rate of contrast) output from the camera 410.
  • the output 523 of the camera 410 is filtered at high spatial frequencies. That is, the lens of the camera 410 has MTF (Modulation Transfer Function) characteristics similar to a low pass filter. Due to this characteristic, the pixel value of the image captured by the camera 410 smoothly changes between adjacent pixels, and the luminance is large at a length shorter than the number of pixels corresponding to the maximum value of the spatial frequency reproducible by the camera 410. There is no change in value.
  • MTF Modulation Transfer Function
  • the sub area setting unit 436 is configured such that the size of the sub area can be regarded as a size that all pixel values in the length direction can be considered to be nearly equal (hereinafter referred to as “equal pixel value length”) Set the sub area.
  • the size of the subregion is at least one of the width, the length, the distance from the pixel of interest, and the distance from other subregions of the subregion.
  • the sub-region setting unit 436 can set a sub-region in which the feature of the neighboring region is accurately reflected in the region representative value. For example, when the distance between two pixels (number of pixels) is equal to or less than the number of pixels corresponding to the reciprocal of the maximum value of the spatial frequency, the two pixels can be treated as similar luminance. That is, when the distance between the plurality of pixels is equal to or less than the number of pixels corresponding to the reciprocal of the maximum value of the spatial frequency, the plurality of pixels constitute a sub-region.
  • the spatial frequency for the imaging device is set high in order to enhance the resolution.
  • the spatial frequency is not set to the reciprocal of the pixel interval of the image pickup element or more so that a pseudo stripe pattern due to aliasing noise does not occur even when fine stripes are photographed. That is, in the image captured by the camera 410, the pixel values of adjacent pixels at intervals of 2 to 3 pixels are approximately the same regardless of the type of camera. For this reason, it is desirable to set the size of the sub region to 2 pixels or 3 pixels.
  • the size of the sub region may be four pixels or more.
  • FIG. 8 is a schematic view showing an example of the sub-region arrangement.
  • the sub-region setting unit 436 is configured to sub-select each of eight pixels (indicated by reference numerals 11 to 18) adjacent to the pixel of interest 521 in the neighboring region 522. It is set in the area 524.
  • the sub-region setting unit 436 sets each of the eight regions (indicated by reference numerals 21 to 28) obtained by dividing the 24 pixel groups separated by two pixels from the pixel of interest 521 into three sub-regions 524.
  • the sub-region setting unit 436 is an eight-region consisting of three pixels at equal angular intervals with respect to the target pixel 521 out of 40 pixel groups separated from the target pixel 521 by four pixels.
  • Each of the sub-areas 524 is set (indicated by numbers 31 to 38). That is, the sub-region setting unit 436 sets, in the sub-region 524, an area of 8 ⁇ 3 sets having different pixel distances from the target pixel.
  • step S1600 of FIG. 4 the region representative value calculation unit 437 obtains, for each sub region group, an average of pixel values of the sub regions as a region representative value. Then, the sub region difference calculation unit 438 calculates the difference between each region representative value and the pixel of interest.
  • the region representative value calculation unit 437 generates three sets of eight difference values for each pixel of interest.
  • step S1700 the binary pattern calculation unit 435 binarizes the difference value by comparison with a predetermined threshold to generate a local binary pattern.
  • the binary pattern calculation unit 435 sets “0” as the predetermined threshold. Then, the binary pattern calculation unit 435 calculates the value “1” for a sub-region whose difference is equal to or more than a predetermined threshold, and the value “0” for a sub-region whose difference is less than the predetermined threshold. To calculate
  • the local binary pattern LBPP R is represented, for example, by the following equation (1).
  • g c is the pixel value of the target pixel
  • P is the number of sub-regions (8 in the present embodiment).
  • p is the order of the sub-region
  • g p is the p th average pixel value of the sub-region (that is typical)
  • R is the number of pixels corresponding to the distance of the pixel of interest and the sub-region (the In the embodiment, it is 1, 3, 3).
  • 8 ⁇ 3 sets of regions having different distances from the pixel of interest are set as subregions, so the binary pattern calculation unit 435 selects three 8-bit binary patterns for each pixel of interest. Generate one by one.
  • step S1800 the histogram generation unit 440 adds 1 to the bins of the local binary pattern LBPP , R among the bins constituting the histogram.
  • step S1900 the area scan unit 432 determines whether or not there is an unprocessed pixel in the feature extraction area. If there is an unprocessed pixel (S1900: YES), the area scan unit 432 returns to step S1300, selects an unprocessed pixel, and repeats the process. If the region scanning unit 432 completes the processing for all of the feature extraction regions (S1900: NO), the region scanning unit 432 proceeds to step S2000.
  • the histogram generation unit 440 finally generates three histograms for each feature extraction region.
  • FIG. 9 is a schematic view showing an outline of an example of processing until a certain local binary pattern is reflected in a histogram.
  • FIG. 9 is a schematic diagram showing an outline of an example of processing until a local binary pattern of a certain near region is reflected in a histogram.
  • the pixel value g p shall be obtained from the upper left neighboring pixel clockwise.
  • the numerical value group 603 of the neighborhood difference (g p -g c ) is [116, 50, -80, -101, 125, 80, 110, -100].
  • a numerical value group 604 obtained by binarizing the neighborhood difference is [1, 1, 0, 0, 1, 1, 1, 0].
  • the local binary pattern 605 is “11001110” (“206” in decimal number).
  • the histogram generation unit 440 adds 1 to the bin “206” to generate a histogram 606.
  • a histogram representing the features of the feature extraction area image is generated.
  • the histogram H (k) is expressed, for example, by the following equation (2), where K is the maximum value of the number of local binary patterns obtained from a feature extraction region of size I ⁇ J.
  • the binary pattern calculation unit 435 may generate one 24-bit binary pattern for each pixel of interest by arranging the three local binary patterns in a predetermined order.
  • the histogram generation unit 440 finally generates one histogram for each feature extraction region.
  • the histogram generation unit 440 normalizes the histogram to the feature amount that does not depend on the size of the feature extraction region. Specifically, the histogram generation unit 440 normalizes the histogram, for example, with the sum of the frequencies of all the bins of the histogram.
  • FIG. 10 is a diagram showing an example of histogram normalization.
  • the frequencies H 1 , H 2 ,..., H 8 of the bins in the histogram before normalization are “5, 6, 4 , 7 , 10 , 5 , 8 ” in order. , 3 ".
  • the sum Sum of frequencies SumH i is calculated as the following equation (5).
  • the identification unit 450 acquires the classifier from the classifier storage device 300, and based on the normalized histogram, whether or not the detection target object is included in the current feature extraction region. Calculate a score indicating the likelihood to determine the
  • step S2200 the object detection apparatus 400 cumulatively adds the calculated scores.
  • step S2300 the feature extraction unit 430 determines whether there is an unprocessed feature extraction region. That is, the feature extraction unit 430 determines whether or not the score has been calculated for all feature extraction areas corresponding to the feature extraction area information stored in the classifier storage device 300. If there is an unprocessed feature extraction area (S2300: YES), the feature extraction unit 430 returns to step S1200, and proceeds to processing for the unprocessed feature extraction area. If the feature extraction unit 430 completes the processing for all feature extraction regions (S2300: NO), the feature extraction unit 430 proceeds to step S2400.
  • the identification unit 450 determines, for each of the scanned windows, whether or not a detection target object is included, based on the value of the cumulatively added score. That is, when the score is equal to or higher than a predetermined threshold, the identification unit 450 determines that the window contains a detection target object. Note that the identification unit 450 may perform this determination based on the result of applying a predetermined function to the score.
  • step S2500 the identification unit 450 outputs the determination result of the object detection.
  • the identification unit 450 may determine whether or not the specified object is included in the target image, or may determine what object is included in the target image. In the former case, the identification unit 450 may output, for example, information indicating whether or not the object is included, using only the identifier corresponding to the designated object. In the latter case, the identification unit 450 may sequentially apply a plurality of classifiers to repeat the determination, and when an object is detected, may output information indicating which object is detected.
  • step S2600 image input unit 420 determines whether an instruction to end the process has been issued by an operation or the like. If the image input unit 420 is not instructed to end the process (S2600: NO), the process returns to step S1100, and proceeds to the process for the next scan or the next target image. When the image input unit 420 is instructed to end the process (S2600: YES), the image input unit 420 ends the series of processes.
  • the object detection apparatus 400 sets a plurality of sub-regions including a plurality of pixels, and generates a local binary pattern histogram using the difference between the pixel of interest and the average value of the sub-regions. be able to.
  • the object detection apparatus 400 can generate a histogram of a local binary pattern with low computational complexity, low dimensionality, and noise robustness. Then, the object detection apparatus 400 can perform object detection using this histogram as an image feature.
  • the arrangement of the sub-regions is not limited to the example shown in FIG.
  • the classifier learning device 200 and the object detection device 400 can set the sub-region arrangement with various patterns according to the spatial frequency characteristics of the camera 410 and the like.
  • FIG. 11 and FIG. 12 are diagrams showing an example of the arrangement of sub-regions in the case of setting a pixel group separated from the pixel of interest by one pixel as a sub-region.
  • the classifier learning device 200 and the object detection device 400 may set 5 pixels ⁇ 5 pixels centered on the pixel of interest 521 in the vicinity region 522.
  • the classifier learning device 200 and the object detection device 400 divide the sixteen pixel groups separated by one pixel from the pixel of interest 521 into eight without overlapping, two each The eight sub-regions 524 may be set, each of which consists of
  • the classifier learning device 200 and the object detection device 400 divide the 16 pixel groups so as to overlap one pixel at a time, and each group is divided into eight sub-pixels each consisting of three pixels.
  • An area 524 may be set.
  • the classifier learning device 200 and the object detection device 400 set the sub-regions 524 without overlapping, as shown in FIG. This is because the non-overlapping sub-regions are likely to include different feature information, and the number of pixels for calculation is small, so the calculation cost is low. Further, as shown in FIG. 12, when the sub-regions 524 are overlapped, the overlapping adjacent sub-regions include the same feature information and the number of pixels is increased, so that the calculation cost is also increased.
  • FIG. 13 and FIG. 14 are diagrams showing an example of the arrangement of sub-regions in the case where adjacent pixel groups and pixel groups separated from the target pixel by two pixels are set as sub-regions.
  • the classifier learning device 200 and the object detection device 400 set 7 ⁇ 7 pixels centered on the pixel of interest 521 in the vicinity area 522, and 8 adjacent pixels are It may be set in the sub area 524.
  • the classifier learning device 200 and the object detection device 400 further set a sub-region 524 as a region obtained by dividing the twenty-four pixel group separated by two pixels from the pixel of interest 521 into eight. May be
  • the classifier learning device 200 and the object detection device 400 include a pixel of interest 521, 16 pixel groups separated by one pixel, and 24 pixel groups separated by 2 pixels. 40 groups of pixels may be acquired. Then, the classifier learning device 200 and the object detection device 400 may set an area obtained by dividing the pixel group into eight sub-areas 524.
  • the size of the subregion 524 is large, and the number of pixels used for calculation of the local binary pattern is large.
  • the number of pixels is increased, although the calculation cost is increased, it is considered that the detection accuracy is increased.
  • the detection accuracy in the case of FIG. 13 is equivalent to the detection accuracy in the case of FIG. It is possible.
  • FIG. 15 is a diagram showing experimental results of performance evaluation in object detection of the sub-region arrangement shown in FIG. 13 and the sub-region arrangement shown in FIG. 14 when the spatial frequency characteristics of the camera 310 are considered.
  • the horizontal axis indicates FPPW (False Positive Per Window) which is a false detection rate for a data set not to be detected
  • the vertical axis indicates Hit Rate which is a detection rate for a data set to be detected.
  • the performance curve 611 in the case of the sub-region arrangement shown in FIG. 13 almost matches the performance curve 612 in the case of the sub-region arrangement shown in FIG.
  • FIG. 16 shows an example of the arrangement of the sub-regions in the case where the center positions of the sub-regions adjacent in the radial direction with respect to the pixel of interest are made coincident with each other except the adjacent pixels. This is an example of the sub-region arrangement when the spatial frequency characteristics of the camera 410 are not considered.
  • FIG. 17 is an example of the arrangement of the sub-regions in the case where the central position of the sub-regions adjacent in the radial direction to the pixel of interest is different among the adjacent pixels. This is an example of the sub-region arrangement when the spatial frequency characteristics of the camera 410 are considered.
  • the center has a distance exceeding one pixel.
  • the center position of the subregion 524 adjacent in the radial direction is as shown in FIG. It is desirable to be separated by more than one pixel.
  • FIG. 18 is a diagram showing experimental results of performance evaluation in object detection of the sub-region arrangement shown in FIG. 16 and the sub-region arrangement shown in FIG.
  • the performance curve 622 in the case of the subregion arrangement shown in FIG. 17 is located above the performance curve 621 in the case of the subregion arrangement shown in FIG. That is, it was confirmed that the performance in the case of the sub-region arrangement shown in FIG. 17 is better than the performance in the case of the sub-region arrangement shown in FIG.
  • the range adopted as the sub-region arrangement is equivalent to the pixel separated from the pixel of interest by 4 pixels. If the distance from the pixel of interest to the subregion is too long, the subregion is too far from the target pixel, and the subregion is likely to include an image that is not a component to be recognized.
  • the sub-region has a length of 2 to 3 pixels, does not overlap with other sub-regions in the circumferential direction, and the central positions of the sub-regions are separated by more than one pixel in the radial direction. It is desirable to be located in the range from the pixel of interest to the pixels separated by 4 pixels. On the other hand, subregions do not affect the detection performance even if they are spaced apart by one pixel in the radial direction. Therefore, it is desirable for the object detection system 100 to set the sub-regions to the arrangement shown in FIG. 8, for example.
  • the object detection system 100 generates a local binary pattern from representative values of pixel values of a plurality of pixels while including pixels separated from the target pixel in the calculation target of the local binary pattern. can do.
  • the object detection system 100 can generate a local binary pattern from more pixels while suppressing a decrease in object detection accuracy and an increase in processing load.
  • the object detection system 100 uses the representative value (average value) of the pixel values of the plurality of pixels, the influence of noise on the object detection accuracy in pixel units can be reduced. That is, the object detection system 100 can extract, as an image feature of an image, a histogram capable of robust object detection even for a noisy image captured in an environment such as low illuminance.
  • the object detection system 100 can group pixel regions with a small pixel value change and define them as sub-regions in consideration of the spatial frequency characteristics of the camera 410 among the near regions. Thereby, the object detection system 100 can reduce the processing load of the identifier in object detection while maintaining detection accuracy.
  • the classifier learning device 200, the classifier storage device 300, and the object detection device 400 are separately configured, but two or all of these may be one It may be integrally configured as a device.
  • the feature extraction units 220 and 43 can be configured as common functional units.
  • Boosting is used as a machine learning method, but other machine learning methods such as a support vector machine (SVM) or a decision tree may be used.
  • SVM support vector machine
  • a feature extraction device, a feature extraction program, and an image processing device generate local binary patterns from more pixels while suppressing a decrease in object detection accuracy and suppressing an increase in processing load.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

 物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素からローカルバイナリパターンを生成することができる特徴抽出装置。この特徴抽出装置は、注目画素に対して複数のサブ領域を設定するサブ領域設定部(433)と、注目画素ごとに、各サブ領域との画素値の比較を示すローカルバイナリパターンを生成するバイナリパターン生成部(434)とを有し、サブ領域設定部(433)は、少なくとも、注目画素から離隔した画素を含む複数の画素から構成される領域を、サブ領域として設定し(436)、バイナリパターン生成部(434)は、サブ領域ごとに代表値を算出し(437)、注目画素の画素値に対する当該代表値の差分(438)が所定の閾値以上であるか否かを示すローカルバイナリパターンを生成する(439)。

Description

特徴抽出装置、特徴抽出プログラム、および画像処理装置
 本発明は、画像データから画像特徴を抽出する特徴抽出装置、特徴抽出プログラム、および、特徴抽出装置を用いた画像処理装置に関する。
 従来、画像データから画像特徴を抽出して、画像に含まれる物体を検出または識別すること(以下「物体検出」という)が、広く行われている。物体検出の手法の1つとして、ローカルバイナリパターン(LBP)を用いる技術が、例えば非特許文献1に記載されている。
 ローカルバイナリパターンは、注目画素ごとに、その注目画素の周囲近傍の各画素との画素値の差分を二値化して並べたバイナリパターンである。ローカルバイナリパターンによれば、画像に含まれる濃淡パターンを抽出することができる。
 非特許文献1および非特許文献2に記載の技術(以下「第1の従来技術」という)は、識別の対象となる画像(以下「対象画像」という)のある領域に含まれる、全部または部分画素に対して、ローカルバイナリパターンを算出する。そして、第1の従来技術は、ローカルバイナリパターンの値のヒストグラムを、画像特徴として生成する。また、第1の従来技術は、予め、所定の物体を含む画像と含まない画像(以下「学習画像」と総称する)から同様に生成したヒストグラムに基づいて、識別器を生成して記憶しておく。そして、第1の従来技術は、識別器を用いて対象画像のヒストグラムを評価し、対象画像に所定の物体が含まれているか否かを判断する。
 ローカルバイナリパターンのヒストグラムは、輝度勾配方向ヒストグラム(HOG:Histograms of Oriented Gradients)等の画像特徴に比べて、テクスチャの違いや濃淡パターンをより高精度に表現でき、かつ、より少ない処理負荷で算出可能である。したがって、第1の従来技術のようなローカルバイナリパターンを用いた物体検出は、様々な分野への適用が期待されている。
 ローカルバイナリパターンの演算対象となる領域は、通常、注目画素を中心とした3画素×3画素の領域である。ところが、画像の種類や検出対象となる物体の種類によっては、この演算対象となる領域を、より広く設定し、より多くの画素からローカルバイナリパターンを生成することにより、より広い範囲の特徴の共起性を用いたいという要求がある。
 そこで、例えば特許文献1には、より広い5画素×5画素の領域や、当該領域の外周部のみを演算対象とする技術(以下「第2の従来技術」という)が記載されている。かかる技術によれば、ローカルバイナリパターンの演算対象となる領域を、より広く設定することができる。
特開2009-211179号公報
Timo Ojala, Matti Pietikainen and Topi Maenpaa "Multiresolution Gray-Scale and Rotation Invariant Texture Classification With Local Binary Patterns" IEEE, Pattern Analysis and Machine Intelligence vol. 24 no. 7, pp. 971-978, July 2002 Xiaoyu Wang, Tony X. Han and Shuicheng Yan, "An HOG-LBP Human Detector with Partial Occlusion Handling," IEEE International Conference on Computer Vision (ICCV 2009), Kyoto, 2009
 しかしながら、第2の従来技術は、演算対象となる領域を広くすればするほど、ローカルバイナリパターンのビット数が増大する。例えば、当該ビット数は、上述の3画素×3画素の領域を演算対象とする場合は8ビットであるのに対し、上述の5画素×5画素の領域を演算対象とする場合、その外周部のみを用いても、倍の16ビットとなる。ローカルバイナリパターンのビット数が増えると、ヒストグラムの次元数が増え、識別器の生成や識別器を用いた物体検出の際の処理負荷が増大する。
 一方で、演算対象となる画素を間引けば、ローカルバイナリパターンのビット数を抑えることができるが、その分、物体検出の精度は低くなる。
 すなわち、第2の従来技術は、より広い領域をローカルバイナリパターンの演算対象とすると、検出精度の低下あるいは処理負荷の増大を招くという課題を有する。
 本発明の目的は、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素からローカルバイナリパターンを生成することができる、特徴抽出装置、特徴抽出プログラム、および画像処理装置を提供することである。
 本発明の特徴抽出装置は、画像の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定するサブ領域設定部と、前記注目画素ごとに、設定された前記複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成するバイナリパターン生成部と、を有し、前記サブ領域設定部は、少なくとも、前記注目画素から離隔した画素を含む複数の画素から構成される領域を、前記サブ領域として設定し、前記バイナリパターン生成部は、前記サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値を算出し、前記注目画素の画素値に対する当該代表値の差分が所定の閾値以上であるか否かをビット値により示すビットデータを、前記ローカルバイナリパターンとして生成する。
 本発明の画像処理装置は、画像から生成されたローカルバイナリパターンの分布を示すヒストグラムを生成するヒストグラム生成部を更に有する上記特徴抽出装置と、所定の物体を識別するための識別器を用いて、前記特徴抽出装置により生成された前記ヒストグラムから、前記画像に前記所定の物体が含まれるか否か判断する識別部とを有する。
 本発明の特徴抽出プログラムは、コンピュータに、画像の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定する処理と、前記注目画素ごとに、設定された前記複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成する処理と、を実行させ、前記サブ領域を設定する処理は、少なくとも、前記注目画素から離隔した画素を含む複数の画素から構成される領域を、前記サブ領域として設定し、前記ローカルバイナリパターンを生成する処理は、前記サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値を算出する処理と、前記注目画素の画素値に対する当該代表値の差分が所定の閾値以上であるか否かをビット値により示すビットデータを、前記ローカルバイナリパターンとして生成する処理とを含む。
 本発明によれば、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素を用いてローカルバイナリパターンを生成することができる。
本発明の実施の形態1に係る特徴抽出装置の構成の一例を示すブロック図 本発明の実施の形態2に係る特徴抽出装置を含む物体検出システムの構成の一例を示すブロック図 本発明の実施の形態2に係る特徴抽出部の詳細な構成を示すブロック図 本発明の実施の形態2に係る物体検出装置の動作の一例を示すフローチャート 本発明の実施の形態2における画像スキャンの様子の一例を示す模式図 本発明の実施の形態2における近傍領域のシフトの様子の一例を示す模式図 本発明の実施の形態2におけるカメラの空間周波数特性の一例を示すグラフ 本発明の実施の形態2におけるサブ領域配置の第1の例を示す模式図 本発明の実施の形態2におけるローカルバイナリパターンがヒストグラムに反映されるまでの処理の一例の概要を示す模式図 本発明の実施の形態2におけるヒストグラムの正規化の様子の一例を示す図 本発明の実施の形態2におけるサブ領域配置の第2の例を示す図 本発明の実施の形態2におけるサブ領域配置の第3の例を示す図 本発明の実施の形態2におけるサブ領域配置の第4の例を示す図 本発明の実施の形態2におけるサブ領域配置の第5の例を示す図 本発明の実施の形態2におけるサブ領域配置の第4の例および第5の例の性能評価の実験結果を示す図 本発明の実施の形態2におけるサブ領域配置の第6の例を示す図 本発明の実施の形態2におけるサブ領域配置の第7の例を示す図 本発明の実施の形態2におけるサブ領域配置の第6の例および第7の例の性能評価の実験結果を示す図
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本発明の実施の形態1は、本発明の基本的態様の一例である。
 図1は、本実施の形態に係る特徴抽出装置の構成の一例を示すブロック図である。
 図1において、特徴抽出装置10は、サブ領域設定部433およびバイナリパターン生成部434を有する。
 サブ領域設定部433は、画像の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定する。この際、サブ領域設定部433は、少なくとも、注目画素から離隔した画素を含む複数の画素から構成される領域を、サブ領域として設定する。
 バイナリパターン生成部434は、注目画素ごとに、設定された複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成する。この際、バイナリパターン生成部434は、サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値を算出する。そして、バイナリパターン生成部434は、注目画素の画素値に対する当該代表値の差分が所定の閾値以上であるか否かをビット値により示すビットデータを、ローカルバイナリパターンとして生成する。
 なお、特徴抽出装置10は、例えば、CPU(central processing unit)およびRAM(random access memory)等の記憶媒体等を含むコンピュータの構成を取ることができる。この場合、特徴抽出装置10は、記憶する制御プログラムをCPUが実行することによって動作する。
 このような特徴抽出装置10は、注目画素から離隔した画素をローカルバイナリパターンの演算対象に含めつつ、複数の画素の画素値の代表値からローカルバイナリパターンを生成することができる。これにより、特徴抽出装置10は、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素を用いてローカルバイナリパターンを生成することができる。
 (実施の形態2)
 本発明の実施の形態2は、本発明を物体検出システムに適用した場合の、具体的態様の一例である。
 まず、本実施の形態に係る特徴抽出装置を含む物体検出システムの構成について説明する。
 図2は、本実施の形態に係る特徴抽出装置を含む物体検出システムの構成の一例を示すブロック図である。
 図2において、物体検出システム100は、識別器学習装置200、識別器記憶装置300、および物体検出装置400を有する。識別器学習装置200および物体検出装置400は、例えば、インターネット等の通信ネットワークを介して、識別器記憶装置300にそれぞれ接続可能となっている。
 本実施の形態においては、識別器学習装置200が用いる機械学習方法の一つの例として、Boosting法を採用する。識別器学習装置200は、予め、学習用に正規化された画像から、検出の対象となる物体(以下「検出対象物体」という)を検出するための識別器を学習し、学習結果である識別器を識別器記憶装置300に記憶させる。
 識別器学習装置200は、学習用データ記憶部210と、本発明に係る特徴抽出装置を含む特徴抽出部220と、学習部240とを有する。
 学習用データ記憶部210は、検出対象物体を含む複数の学習画像(ポジティブサンプル)と、検出対象物体を含まない複数の学習画像(ネガティブサンプル)と、特徴抽出領域情報の候補と、を予め格納する。
 特徴抽出部220は、学習用データ記憶部210に格納された学習画像ごとに、特徴抽出領域を取得し、取得した特徴抽出領域から画像特徴を抽出する。
 特徴抽出領域とは、画像特徴の抽出の対象となる画像領域である。例えば、検出対象が人物の顔である場合には、特徴抽出領域は、人の顔部品、例えば、眼、または鼻等を含むランダムに配置された多数の画像領域とすることができる。また、検出対象が人の全身である場合には、特徴抽出領域は、例えば、頭部、腕、足等を含包むランダムに配置された多数の画像領域とすることができる。
 特徴抽出部220は、特徴抽出領域ごとに、その画像特徴を抽出し、学習部240へ出力する。より具体的には、特徴抽出部220は、まず、特徴抽出領域の全部または一部の画素ごとに、その画素を注目画素として、ローカルバイナリパターンを生成する。そして、特徴抽出部220は、生成されたローカルバイナリパターンの分布を示すヒストグラム(以下、単に「ヒストグラム」という)を、その特徴抽出領域の画像特徴として生成する。
 ローカルバイナリパターンとは、注目画素と複数のサブ領域のそれぞれとの画素値の比較を、ビット値により示す情報である。サブ領域の設定手法、および、注目画素と各サブ領域との画素値の比較手法については、後述する。
 学習部240は、ポジティブサンプルから得られたヒストグラム群と、ネガティブサンプルから得られたヒストグラム群とに基づいて、検出対象物体が含まれる画像と含まれない画像とを区分するための1つまたは複数の識別器を生成する。すなわち、学習部240は、識別器として、特徴抽出領域情報と、特徴抽出領域情報に対応する識別情報とを生成する。そして、学習部240は、識別器記憶装置300に対して、生成した識別情報を特徴抽出領域情報と共に送信し、特徴抽出領域情報と組み付けて記憶させる。
 特徴抽出領域情報とは、特徴抽出領域の範囲を示す情報であり、例えば、特徴抽出領域の位置およびサイズを含む。識別情報とは、対象画像の特徴抽出領域のヒストグラムを評価し、対象画像に所定の物体が含まれているか否かを判定するための情報である。
 物体検出装置400は、識別器記憶装置300に記憶された識別器を取得して、対象画像に対する物体検出を行う。
 物体検出装置400は、カメラ410と、画像入力部420と、本発明に係る特徴抽出装置を含む特徴抽出部430と、識別部450とを有する。
 カメラ410は、対象画像の撮影を行い、対象画像を画像入力部420へ出力する。
 画像入力部420は、対象画像を、予め定められたサイズのウィンドウでスキャンし、スキャンした個々の画像領域(以下「窓領域」という)を、特徴抽出部430へ出力する。
 特徴抽出部430は、窓領域ごとに、その窓領域のうち、識別器記憶装置に記憶された特徴抽出領域情報が示す範囲を、特徴抽出領域として取得する。
 そして、特徴抽出部430は、特徴抽出領域ごとに、その画像特徴を抽出し、識別部450へ出力する。より具体的には、特徴抽出部430は、特徴抽出領域の画素ごとにローカルバイナリパターンを生成し、ローカルバイナリパターンのヒストグラムを、その特徴抽出領域の画像特徴として生成する。
 なお、特徴抽出部430が窓領域に対して行う処理と、上述の識別器学習装置200にある特徴抽出部220が学習画像に対して行う処理は類似している。すなわち、識別器学習装置200にある特徴抽出部220は、例えば、候補領域として予め用意した多くの領域の全てを、特徴抽出領域として取得する。これに対し、特徴抽出部430は、識別器記憶装置300から、既に学習部240によって選択された特徴抽出領域情報が示す領域のみを、特徴抽出領域として取得する。よって、以下、適宜、一方の構成および動作の説明をもって他方の構成および説明の説明を省略する。
 図3は、特徴抽出部430の詳細な構成を示すブロック図である。
 図3において、特徴抽出部430は、特徴抽出領域取得部431、領域スキャン部432、サブ領域設定部433、バイナリパターン生成部434、およびヒストグラム生成部440を有する。
 特徴抽出領域取得部431は、画像入力部420から入力した窓領域ごとに、その窓領域のうち、識別器記憶装置300に記憶された特徴抽出領域情報が示す範囲を、特徴抽出領域として取得する。そして、取得した特徴抽出領域を、領域スキャン部432へ出力する。
 領域スキャン部432は、特徴抽出領域取得部431から入力した特徴抽出領域を、予め決めた間隔でスキャンし、スキャンした画素を、注目画素として、サブ領域設定部433へ出力する。
 サブ領域設定部433は、領域スキャン部432から入力した特徴抽出領域の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定する。
 サブ領域設定部433は、近傍領域取得部435およびサブ領域設定部436を有する。
 近傍領域取得部435は、領域スキャン部432から入力された注目画素に対し、注目画素を中心とする近傍領域を設定して各画素の画素値を取得する。この際、近傍領域取得部435は、注目画素から離隔した画素を含む複数の画素から構成される領域を、近傍領域に設定する。そして、近傍領域取得部435は、注目画素ごとに、設定した近傍領域と、取得した複数の画素値とを、サブ領域設定部436へ出力する。
 サブ領域設定部436は、近傍領域取得部435から入力された近傍領域から、複数のサブ領域を設定する。そして、サブ領域設定部436は、注目画素ごとに、注目画素の画素値(以下「注目画素値」という)と、各サブ領域の各画素の画素値とを、バイナリパターン生成部434へ出力する。この際、サブ領域設定部436は、注目画素から離隔した画素を含む複数の画素から構成されるサブ領域を、少なくとも1つ設定する。なお、この際、サブ領域設定部436は、カメラ410の空間周波数特性に基づいて、サブ領域を設定する。カメラ410の空間周波数特性に基づくサブ領域設定の手法については、後述する。
 バイナリパターン生成部434は、注目画素ごとに、設定された複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成する。
 バイナリパターン生成部434は、領域代表値計算部437、サブ領域差分計算部438、およびバイナリパターン計算部439を有する。
 領域代表値計算部437は、サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値(以下「領域代表値」という)を算出する。そして、領域代表値計算部437は、サブ領域ごとに、注目画素値と、算出した領域代表値とを、サブ領域差分計算部438へ出力する。
 本実施の形態においては、領域代表値計算部437は、1つの画素から成るサブ領域については、その画素の画素値を領域代表値とし、複数の画素から成るサブ領域については、その複数画素の画素値の平均を、領域代表値とする。
 サブ領域差分計算部438は、注目画素ごとに、注目画素値に対する、領域代表値計算部437から入力された各領域代表値の差分を、計算する。そして、サブ領域差分計算部438は、注目画素ごとに、算出した各隣接サブ領域の差分を、バイナリパターン計算部439へ出力する。
 バイナリパターン計算部439は、注目画素ごとに、サブ領域差分計算部438から入力された各サブ領域の差分が、所定の閾値以上であるか否かを判断する。そして、注目画素ごとに、各サブ領域の差分が所定の閾値以上であるか否かを示すローカルバイナリパターンを生成し、ヒストグラム生成部440へ出力する。
 ヒストグラム生成部440は、特徴抽出領域ごとに、バイナリパターン計算部439から入力されたローカルバイナリパターンに基づいて、特徴抽出領域のローカルバイナリパターンの分布を示すヒストグラムを生成する。そして、ヒストグラム生成部440は、特徴抽出領域ごとに、生成したヒストグラムを、図2の識別部450へ出力する。
 図2の識別部450は、識別器記憶装置300が記憶する識別情報を取得する。識別部450は、取得した識別情報を用いて、特徴抽出部430から入力されたヒストグラムから、対象画像に検出対象物体の部品が含まれるか否かのスコアを算出する。そして、識別部450は、識別器記憶装置300が記憶するすべての特徴抽出領域のスコアから総スコアを算出し、前記総スコアで対象画像に検出対象物体が含まれるか否か判断する。そして、識別部450は、判断結果を、例えば画像表示装置や音声出力装置(図示せず)を介して、ユーザに通知する。
 なお、識別器学習装置200および物体検出装置400は、例えば、それぞれ、CPUおよびRAM等の記憶媒体等を含むコンピュータの構成を取ることができる。この場合、識別器学習装置200および物体検出装置400は、記憶する制御プログラムをCPUが実行することによってそれぞれ動作する。また、物体検出装置400は、その計算のみを行う専用チップにしてもよい。また、識別器記憶装置300は、例えば、半導体メモリやハードディスク等の記憶媒体を含むネットワークサーバである。
 学習画像の特徴あるいは対象画像の特徴を精度よく抽出するためには、より広い領域、つまり、より多くの画素を、ローカルバイナリパターンの演算対象とすることが望ましい。ところが、上述の通り、近傍領域の画素数を単に増大させた場合、処理負荷が高くなると共に、ノイズが含まれる可能性が高くなり、検出精度が低下するおそれがある。
 このため、物体検出システム100は、複数の画素から構成されるサブ領域を設定し、サブ領域の画素値に統計処理を行って領域代表値を算出する。そして、物体検出システム100は、領域代表値を、特徴抽出に用いる。これにより、物体検出システム100は、ローカルバイナリパターンのビット数を低減するだけでなく、バイナリパターンにおける画素単位でのノイズをも低減することができる。このようなバイナリパターンのヒストグラムを用いて物体検出を行った場合、演算コストが削減され、ノイズに対してロバストな物体検出が可能となる。
 したがって、物体検出システム100は、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素からローカルバイナリパターンを生成することができる。すなわち、物体検出システム100は、画像に対する物体検出に際して、低照度などの環境で撮影されたノイズの多い画像に対して、高速かつロバストな物体検出が可能な画像特徴を、用いることができる。
 以上で、物体検出システム100の構成についての説明を終える。
 次に、本発明に係る特徴抽出装置を含む物体検出装置400の動作について説明する。なお、識別器学習装置200における特徴抽出部220の動作は、物体検出装置400における特徴抽出部430の動作と共通しているため、その説明を省略する。
 図4は、物体検出装置400の動作の一例を示すフローチャートである。
 まず、ステップS1100において、画像入力部420は、対象画像を、予め定められたサイズのウィンドウでスキャンする。
 図5は、画像スキャンの様子の一例を示す模式図である。
 図5に示すように、画像入力部420は、対象画像510の全体を、予め定められたサイズのウィンドウ511でスキャンし、様々な位置から窓領域512を取得する。ウィンドウ511のサイズは、例えば、64画素×128画素である。
 そして、図4のステップS1200において、図3の特徴抽出部430の特徴抽出領域取得部431は、識別器学習装置200の学習で得られ、識別器記憶装置に記憶された特徴抽出領域の情報(位置、サイズ等)を、1つ取得する。特徴抽出領域取得部431は、例えば、図5に示すように、人の頭部を含む矩形状の領域を、特徴抽出領域520として取得する。
 そして、ステップS1300において、特徴抽出部430の領域スキャン部432は、特徴抽出領域520の画素の1つを、注目画素として選択する。
 そして、ステップS1400において、近傍領域取得部435は、ステップS1300でスキャンしている注目画素を中心とする近傍領域を設定する。領域スキャン部432は、後述のステップS1900の判断処理によってステップS1300へ戻る度に、未選択の画素を選択し、その結果、近傍領域をシフトさせていく。
 図6は、近傍領域のシフトの様子の一例を示す模式図である。
 図6に示すように、領域スキャン部432は、特徴抽出領域520の全体において、注目画素521をシフトさせることにより、注目画素521を中心とする近傍領域522をシフトさせていく。
 本実施の形態においては、図6に示すように、近傍領域取得部435は、注目画素521ごとに、注目画素521を中心とする11画素×11画素の領域を、近傍領域522として設定する。すなわち、近傍領域取得部435は、121個の画素を、近傍領域として設定する。
 そして、図4のステップS1500において、特徴抽出部430のサブ領域設定部436は、注目画素の近傍領域から、サブ領域を設定する。この際、サブ領域設定部436は、カメラ410の空間周波数特性に基づいて、サブ領域を設定する。
 図7は、カメラ410の空間周波数特性の一例を示すグラフである。図7において、横軸は、空間周波数を示し、縦軸は、カメラ410からの出力される信号(コントラストの再現率)を示す。
 図7に示すように、カメラ410の出力523は、高い空間周波数においてフィルタリングされている。すなわち、カメラ410のレンズは、ローパスフィルターに似たMTF(Modulation Transfer Function)特性を有する。この特性により、カメラ410が撮影した画像の画素値は、隣接する画素間において滑らかに変化し、カメラ410で再現可能な空間周波数の最大値に相当する画素数よりも短い長さにおいて、大きな輝度値の変化はなくなる。
 そこで、サブ領域設定部436は、サブ領域のサイズが、その長さ方向における全ての画素値が均等に近いとみなすことができる大きさ(以下「等画素値長」という)となるように、サブ領域を設定する。ここで、サブ領域のサイズとは、サブ領域の幅、長さ、注目画素との間隔、および他のサブ領域との間隔の少なくとも1つである。これにより、サブ領域設定部436は、領域代表値に近傍領域の特徴が精度良く反映されるような、サブ領域を設定することができる。例えば、2つの画素の間隔(画素数)が、空間周波数の最大値の逆数に相当する画素数以下である場合、その2つの画素は同様の輝度として扱うことができる。すなわち、複数の画素同士の間隔が、空間周波数の最大値の逆数に相当する画素数以下である場合、その複数の画素によってサブ領域が構成される。
 カメラの種類によってMTF特性は異なる。また、通常のカメラにおいては、解像感を高めるために、撮像素子に対する空間周波数を高く設定する。この際、細かい縞を撮影した場合にも折り返しノイズによる擬似的な縞模様が発生しないように、撮像素子の画素の間隔の逆数以上にまで、空間周波数を設定することはない。つまり、カメラ410によって撮像された画像において隣接する2から3画素間隔の画素同士の画素値は、カメラの種類に関わらず同程度である。このため、サブ領域のサイズは、2画素または3画素に設定することが望ましい。なぜなら、隣接する2画素ないし3画素の間では、画素値の差が小さいため、それらを1つの情報として扱った場合に、情報量の損失は少なく、特徴抽出の演算量および特徴次元数を抑制することが可能となるからである。なお、カメラ410のMTF特性が、低域の狭い帯域のローパスフィルター特性である場合(つまり、急激に減衰する場合)、サブ領域のサイズは、4画素分以上としてもよい。
 図8は、サブ領域配置の一例を示す模式図である。
 図8に示すように、本実施の形態においては、サブ領域設定部436は、近傍領域522のうち、注目画素521に隣接する8個の画素(番号11~18で示す)のそれぞれを、サブ領域524に設定する。また、サブ領域設定部436は、注目画素521と2画素分離隔した24個の画素群を3個ずつに分割した8個の領域(番号21~28で示す)のそれぞれを、サブ領域524に設定する。更に、サブ領域設定部436は、注目画素521との4画素分離隔した40個の画素群のうち、注目画素521に対して等角度間隔であって3個ずつの画素から成る8個の領域(番号31~38で示す)のそれぞれを、サブ領域524に設定する。すなわち、サブ領域設定部436は、注目画素からの画素距離が異なる8個×3組の領域を、サブ領域524に設定する。
 そして、図4のステップS1600において、領域代表値計算部437は、サブ領域群ごとに、サブ領域の画素値の平均を、領域代表値として求める。そして、サブ領域差分計算部438は、各領域代表値と注目画素との差分を計算する。
 本実施の形態においては、注目画素からの距離が異なる8個×3組の領域がサブ領域として設定されている。このため、領域代表値計算部437は、注目画素ごとに、8個の差分値のセットを、3組生成する。
 そして、ステップS1700において、バイナリパターン計算部435は、所定の閾値との比較により、差分値を2値化して、ローカルバイナリパターンを生成する。
 本実施の形態においては、バイナリパターン計算部435は、「0」を上記所定の閾値とする。そして、バイナリパターン計算部435は、差分が所定の閾値以上であるサブ領域に対しては、値「1」を算出し、差分が所定の閾値未満であるサブ領域に対しては、値「0」を算出する。
 すなわち、ローカルバイナリパターンLBPP,Rは、例えば、以下の式(1)で表される。ここで、gは、注目画素の画素値であり、Pは、サブ領域の数(本実施の形態においては8)である。また、pは、サブ領域の順序であり、gは、p番目のサブ領域の画素平均値(つまり代表値)であり、Rは、サブ領域と注目画素の距離に相当する画素数(本実施の形態においては1、3、3)である。
Figure JPOXMLDOC01-appb-M000001
 本実施の形態においては、注目画素からの距離が異なる8個×3組の領域がサブ領域として設定されているため、バイナリパターン計算部435は、注目画素ごとに、8ビットバイナリパターンを3個ずつ生成する。
 そして、ステップS1800において、ヒストグラム生成部440は、ヒストグラムを構成するビンのうちローカルバイナリパターンLBPP,Rのビンに、1を加算する。
 そして、ステップS1900において、領域スキャン部432は、特徴抽出領域に未処理の画素が存在するか否かを判断する。領域スキャン部432は、未処理の画素が存在する場合(S1900:YES)、ステップS1300へ戻って未処理の画素を選択して処理を繰り返す。また、領域スキャン部432は、特徴抽出領域の全てについて処理を完了した場合(S1900:NO)、ステップS2000へ進む。
 本実施の形態においては、ヒストグラム生成部440は、最終的に、特徴抽出領域ごとに、3個ずつのヒストグラムを生成する。
 図9は、あるローカルバイナリパターンがヒストグラムに反映されるまでの処理の一例の概要を示す模式図である。
 図9は、ある近傍領域のローカルバイナリパターンがヒストグラムに反映されるまでの処理の一例の概要を示す模式図である。
 図9に示すように、近傍領域522のR=1の部分領域601について、注目画素の画素値gが「128」であったとする。そして、そのサブ領域(R=1の場合、一つの画素となる)画素値gを[244,178,48,27,253,208,238,28]とする数値群602が、取得されたものとする。なお、画素値gは、近傍画素の左上から時計回りに取得されるものとする。この場合、近傍差分(g-g)の数値群603は、[116,50,-80,-101,125,80,110,-100]となる。ここで、2値化の閾値を「0」とすると、近傍差分を2値化して得られる数値群604は、[1,1,0,0,1,1,1,0]となる。そして、ローカルバイナリパターン605は、「11001110」(10進数では「206」)となる。
 ヒストグラム生成部440は、1を、ビン「206」に加算して、ヒストグラム606を生成する。
 このような、該当ビンへ加算を繰り返すことにより、最終的に、特徴抽出領域画像の特徴を表すヒストグラムが生成される。ヒストグラムH(k)は、例えば、I×Jのサイズの特徴抽出領域から得られるローカルバイナリパターンの数の最大値をKと置くと、以下の式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
 なお、バイナリパターン計算部435は、3個のローカルバイナリパターンを所定の順序で並べることにより、注目画素ごとに、1個の24ビットバイナリパターンを生成してもよい。この場合、ヒストグラム生成部440は、最終的に、特徴抽出領域ごとに、1個のヒストグラムを生成する。
 そして、図4のステップS2000において、ヒストグラム生成部440は、ヒストグラムを、特徴抽出領域の大きさに依存しない特徴量に正規化する。具体的には、ヒストグラム生成部440は、例えば、ヒストグラム全てのビンの度数の総和で、ヒストグラムを正規化する。度数の総和SumHは、ビンの数をN、i番目のビンの度数をH(i=1,2,・・・,N)と置くと、以下の式(3)により表される。
Figure JPOXMLDOC01-appb-M000003
 そして、正規化されたヒストグラムのi番目のビンの度数H'は、以下の式(4)により表される。
Figure JPOXMLDOC01-appb-M000004
 図10は、ヒストグラムの正規化の様子の一例を示す図である。
 図10(A)に示すように、正規化前のヒストグラムの各ビンの度数H、H、・・・、Hが、順に、「5,6,4,7,10,5,8,3」であったとする。この場合、度数の総和SumHは、以下の式(5)のように算出される。
Figure JPOXMLDOC01-appb-M000005
 そして、正規化されたヒストグラムの各ビンの度数H'、H'、・・・、H'は、以下の式(6)のように算出される。
Figure JPOXMLDOC01-appb-M000006
 そして、図4のステップS2100において、識別部450は、識別器記憶装置300から識別器を取得し、正規化後のヒストグラムに基づいて、現在の特徴抽出領域に検出対象物体が含まれているか否かを判定するための尤度を示すスコアを算出する。
 そして、ステップS2200において、物体検出装置400は、算出したスコアを累積加算する。
 そして、ステップS2300において、特徴抽出部430は、未処理の特徴抽出領域があるか否かを判断する。すなわち、特徴抽出部430は、識別器記憶装置300に記憶された特徴抽出領域情報に対応する全ての特徴抽出領域について、スコアを算出したか否かを判断する。特徴抽出部430は、未処理の特徴抽出領域がある場合には(S2300:YES)、ステップS1200へ戻り、未処理の特徴抽出領域に対する処理に移る。また、特徴抽出部430は、全ての特徴抽出領域について処理を完了した場合には(S2300:NO)、ステップS2400へ進む。
 そして、ステップS2400において、識別部450は、スキャンされたウィンドウごとに、累積加算されたスコアの値に基づいて、検出対象物体が含まれているか否かを判定する。すなわち、識別部450は、スコアが所定の閾値以上となっている場合には、そのウィンドウに検出対象物体が含まれていると判定する。なお、識別部450は、スコアに対して所定の関数を適用した結果に基づいて、この判定を行ってもよい。
 そして、ステップS2500において、識別部450は、物体検出の判定結果を出力する。
 なお、識別部450は、指定された物体が対象画像に含まれるか否かを判定してもよいし、対象画像にどのような物体が含まれるかを判定してもよい。前者の場合には、識別部450は、例えば、指定された物体に対応する識別器のみを用いて、その物体が含まれるか否かのみを示す情報を出力すればよい。また、後者の場合には、識別部450は、複数の識別器を順次適用して判定を繰り返し、物体が検出されたとき、どの物体が検出されたかを示す情報を出力すればよい。
 そして、ステップS2600において、画像入力部420は、操作等により処理の終了を指示されたか否かを判断する。画像入力部420は、処理の終了を指示されていない場合(S2600:NO)、ステップS1100へ戻り、次のスキャンまたは次の対象画像に対する処理に移る。また、画像入力部420は、処理の終了を指示された場合(S2600:YES)、一連の処理を終了する。
 このような動作により、物体検出装置400は、複数の画素から成るものを含むサブ領域を複数設定し、注目画素とサブ領域の平均値との差分を用いて、ローカルバイナリパターンのヒストグラムを生成することができる。これにより、物体検出装置400は、低い演算量で、次元数が低く、ノイズにロバストな、ローカルバイナリパターンのヒストグラムを生成することができる。そして、物体検出装置400は、このヒストグラムを画像特徴として用いて、物体検出を行うことができる。
 以上で、物体検出装置400の動作についての説明を終える。
 なお、サブ領域の配置は、図8に示す例に限定されない。識別器学習装置200および物体検出装置400は、カメラ410の空間周波数特性その他に応じて、各種のパターンで、サブ領域配置を設定することができる。
 以下、各種のサブ領域配置について説明する。
 図11および図12は、注目画素と1画素分離隔した画素群をサブ領域に設定する場合の、サブ領域配置の例を示す図である。
 図11および図12に示すように、識別器学習装置200および物体検出装置400は、注目画素521を中心とする5画素×5画素を、近傍領域522に設定してもよい。
 そして、図11に示すように、識別器学習装置200および物体検出装置400は、注目画素521との1画素分離隔した16個の画素群を、オーバーラップさせずに8分割し、それぞれ2個の画素から成る8個のサブ領域524を設定してもよい。
 または、図12に示すように、識別器学習装置200および物体検出装置400は、上記16個の画素群を、1画素ずつオーバーラップさせて分割し、それぞれ3個の画素から成る8個のサブ領域524を設定してもよい。
 なお、識別器学習装置200および物体検出装置400は、上述の等画素値長が確保される場合は、図11のように、サブ領域524を、オーバーラップさせずに設定することが望ましい。なぜなら、オーバーラッピングしていないサブ領域は、異なる特徴情報を含む可能性が高く、しかも、演算用の画素数が少ないため、演算コストが低いからである。また、図12のように、サブ領域524をオーバーラップさせた場合は、オーバーラッピングしている隣のサブ領域が同じ特徴情報を含み、画素数が多くなるため、演算コストも高くなる。
 図13および図14は、隣接画素群、および、注目画素と2画素分離隔した画素群をサブ領域に設定する場合の、サブ領域配置の例を示す図である。
 図13および図14に示すように、識別器学習装置200および物体検出装置400は、注目画素521を中心とする7画素×7画素を、近傍領域522に設定し、8個の隣接画素を、サブ領域524に設定してもよい。
 そして、図13に示すように、識別器学習装置200および物体検出装置400は、更に、注目画素521と2画素分離隔した24個の画素群を8分割した領域を、サブ領域524に設定してもよい。
 または、図14に示すように、識別器学習装置200および物体検出装置400は、注目画素521と、1画素分離隔した16個の画素群、および、2画素分離隔した24個の画素群とから成る40個の画素群を取得してもよい。そして、識別器学習装置200および物体検出装置400は、この画素群を8分割した領域を、サブ領域524に設定してもよい。
 図14の場合、サブ領域524のサイズが大きく、ローカルバイナリパターンの演算に用いられる用いる画素数が多くなる。画素数が多くなると、演算コストが高くなるものの、検出精度が高くなると考えられる。
 ところが、上述の通り、隣接する画素間における画素値は近似しているため、カメラ310の空間周波数特性を考慮した場合、図13の場合の検出精度を、図14の場合の検出精度と同等にすることが可能である。
 図15は、カメラ310の空間周波数特性を考慮した場合における、図13に示すサブ領域配置および図14に示すサブ領域配置の、物体検出における性能評価の実験結果を示す図である。図15において、横軸は、検出対象でないデータセットに対する誤検出率であるFPPW(False Positive Per Window)を示し、縦軸は、検出対象データセットに対する検出率であるHit Rateを示す。
 図15に示すように、図13に示すサブ領域配置の場合の性能曲線611は、図14に示すサブ領域配置の場合の性能曲線612と、ほとんど一致している。
 このように、カメラ410の空間周波数特性を考慮してサブ領域配置を配置する場合、演算コストを抑えつつ、高い検出精度を得られることが確認された。
 また、以上の説明では、注目画素からの距離が異なるサブ領域を配置する場合に、注目画素からみて同じ方向に配置される例について説明したが、サブ領域の配置はこれに限定されない。
 図16は、注目画素に対して放射方向に隣り合うサブ領域の中心位置を、隣接画素以外で一致させた場合の、サブ領域配置の一例である。これは、カメラ410の空間周波数特性を考慮しない場合のサブ領域配置の一例である。
 かかる場合、図16に示すように、近傍領域522において、例えば、注目画素521から1画素分離隔したサブ領域524-1の中心と、注目画素521から2画素分離隔したサブ領域524-2の中心とは、1画素分の距離を有する。
 図17は、注目画素に対して放射方向に隣り合うサブ領域の中心位置を、隣接画素以外で異なるようにした場合の、サブ領域配置の一例である。これは、カメラ410の空間周波数特性を考慮した場合のサブ領域配置の一例である。
 かかる場合、図17に示すように、近傍領域522において、例えば、注目画素521から1画素分離隔したサブ領域524-1の中心と、注目画素521から2画素分離隔したサブ領域524-2の中心とは、1画素分を超えた距離を有する。
 カメラ410の空間周波数特性から、情報量の損失を抑えて、特徴抽出の演算量および特徴次元数を抑制するためには、放射方向に隣り合うサブ領域524の中心位置は、図17に示すように、1画素を超えて離れていることが望ましい。
 図18は、図16に示すサブ領域配置と、図17に示すサブ領域配置との、物体検出における性能評価の実験結果を示す図である。
 図18に示すように、図16に示すサブ領域配置の場合の性能曲線621に比べて、図17に示すサブ領域配置の場合の性能曲線622のほうが、上に位置する。すなわち、図17に示すサブ領域配置の場合の性能の方が、図16に示すサブ領域配置の場合の性能よりも良好であることが確認された。
 なお、別途行った実験により、サブ領域配置として採用する範囲は、注目画素から4画素分離隔した画素までが相当であることが分かった。注目画素からサブ領域までの距離が長すぎると、サブ領域が対象画素から離れ過ぎ、サブ領域に認識対象の部品ではない画像が含まれる可能性が高くなるためである。
 以上より、サブ領域は、2~3画素分の長さとし、円周方向には他のサブ領域とオーバーラップせず、放射方向にはサブ領域の中心位置同士が1画素を超えて離れており、注目画素から4画素分離隔した画素までの範囲内に位置することが望ましい。一方で、サブ領域は、放射方向において、1画素分離隔して配置されていても検出性能に影響を及ぼさない。したがって、物体検出システム100は、サブ領域を、例えば、図8に示す配置に設定することが望ましい。
 以上で、各種のサブ領域配置についての説明を終える。
 以上説明したように、本実施の形態に係る物体検出システム100は、注目画素から離隔した画素をローカルバイナリパターンの演算対象に含めつつ、複数の画素の画素値の代表値からローカルバイナリパターンを生成することができる。これにより、物体検出システム100は、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素からローカルバイナリパターンを生成することができる。
 なお、ローカルバイナリパターンの生成に用いられる画素の数が多くなると、夜間画像のようにノイズの多い画像の場合、正しくないローカルバイナリパターンが生成される可能性が高くなる。画像特徴の抽出精度が低くなると、ひいては、ヒストグラムから生成される識別器の精度や、ヒストグラムを用いて行われる物体検出の精度も、低くなる。
 この点、物体検出システム100は、複数の画素の画素値の代表値(平均値)を用いるため、画素単位でのノイズの物体検出精度への影響を低減することができる。すなわち、物体検出システム100は、低照度などの環境で撮影されたノイズの多い画像に対してもロバストな物体検出が可能なヒストグラムを、画像の画像特徴として抽出することができる。
 また、物体検出システム100は、近傍領域のうち、カメラ410の空間周波数特性を考慮して、画素値変化が少ない画素領域をグループ化して、サブ領域として定義することができる。これにより、物体検出システム100は、検出精度を保ちながら、物体検出における識別器の処理負荷を少なくすることができる。
 なお、以上説明した実施の形態では、識別器学習装置200、識別器記憶装置300、および物体検出装置400が別々に構成されている例について説明したが、これらの2つまたは全ては、1つの装置として一体的に構成されていてもよい。特に、識別器学習装置200と物体検出装置400とが一体的に構成される場合には、特徴抽出部220、43は、それぞれ、共通の機能部として構成することができる。また、本実施の形態においては、機械学習手法としてBoostingを用いたが、SVM(Support Vector Machine)や決定木(Decision Tree)等、他の機械学習手法を用いてもよい。
 2011年8月11日出願の特願2011-176139の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明に係る特徴抽出装置、特徴抽出プログラム、および画像処理装置は、物体検出精度の低下を抑え、かつ、処理負荷の増大を抑えた状態で、より多くの画素からローカルバイナリパターンを生成することができる、特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および画像処理装置として有用である。
 10 特徴抽出装置
 100 物体検出システム
 200 識別器学習装置
 210 学習用データ記憶部
 220 特徴抽出部
 240 学習部
 300 識別器記憶装置
 400 物体検出装置
 410 カメラ
 420 画像入力部
 430 特徴抽出部
 431 特徴抽出領域取得部
 432 領域スキャン部
 433 サブ領域設定部
 434 バイナリパターン生成部
 435 近傍領域取得部
 436 サブ領域設定部
 437 領域代表値計算部
 438 サブ領域差分計算部
 439 バイナリパターン計算部
 440 ヒストグラム生成部
 450 識別部

Claims (10)

  1.  画像の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定するサブ領域設定部と、
     前記注目画素ごとに、設定された前記複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成するバイナリパターン生成部と、
     を有し、
     前記サブ領域設定部は、
     少なくとも、前記注目画素から離隔した画素を含む複数の画素から構成される領域を、前記サブ領域として設定し、
     前記バイナリパターン生成部は、
     前記サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値を算出し、前記注目画素の画素値に対する当該代表値の差分が所定の閾値以上であるか否かをビット値により示すビットデータを、前記ローカルバイナリパターンとして生成する、
     特徴抽出装置。
  2.  前記画像は、カメラによる撮影画像であり、
     前記サブ領域設定部は、
     前記カメラの空間周波数特性に基づいて、前記サブ領域を設定する、
     請求項1記載の特徴抽出装置。
  3.  前記サブ領域設定部は、
     前記サブ領域の幅、長さ、前記注目画素との間隔、および他の前記サブ領域との間隔の少なくとも1つが、前記カメラの空間周波数特性からみて、その長さ方向における全ての画素値が均等に近いとみなすことができる大きさとなるように、前記サブ領域を設定する、
     請求項2記載の特徴抽出装置。
  4.  前記サブ領域設定部は、
     前記注目画素から等距離上に、前記複数のサブ領域を設定する、
     請求項1記載の特徴抽出装置。
  5.  前記サブ領域設定部は、
     前記複数のサブ領域を、互いにオーバーラップしないように設定する、
     請求項1記載の特徴抽出装置。
  6.  前記サブ領域設定部は、
     前記複数のサブ領域を、互いに離隔するように設定する、
     請求項1記載の特徴抽出装置。
  7.  前記サブ領域設定部は、
     前記複数のサブ領域を、前記注目画素に対して等角度間隔となるように設定する、
     請求項1記載の特徴抽出装置。
  8.  前記サブ領域設定部は、
     少なくとも、前記注目画素に隣接する複数の画素のそれぞれと、前記注目画素からそれぞれ2画素分以上離隔した複数の画素から構成される領域とを、前記サブ領域として設定する、
     請求項1記載の特徴抽出装置。
  9.  前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成するヒストグラム生成部、を更に有する請求項1に記載の特徴抽出装置と、
     所定の物体を識別するための識別器を用いて、前記特徴抽出装置により生成された前記ヒストグラムから、前記画像に前記所定の物体が含まれるか否か判断する識別部と、を有する、
     画像処理装置。
  10.  コンピュータに、
     画像の全部または一部の画素ごとに、当該画素を注目画素とし、当該注目画素に対して複数のサブ領域を設定する処理と、
     前記注目画素ごとに、設定された前記複数のサブ領域のそれぞれとの画素値の比較をビット値により示すローカルバイナリパターンを生成する処理と、
     を実行させ、
     前記サブ領域を設定する処理は、
     少なくとも、前記注目画素から離隔した画素を含む複数の画素から構成される領域を、前記サブ領域として設定し、
     前記ローカルバイナリパターンを生成する処理は、
     前記サブ領域ごとに、当該サブ領域を構成する1つまたは複数の画素の画素値群を代表する代表値を算出する処理と、
     前記注目画素の画素値に対する当該代表値の差分が所定の閾値以上であるか否かをビット値により示すビットデータを、前記ローカルバイナリパターンとして生成する処理と、を含む、
     特徴抽出プログラム。
PCT/JP2012/004852 2011-08-11 2012-07-31 特徴抽出装置、特徴抽出プログラム、および画像処理装置 WO2013021580A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/237,729 US9294665B2 (en) 2011-08-11 2012-07-31 Feature extraction apparatus, feature extraction program, and image processing apparatus
EP12821503.5A EP2743888B1 (en) 2011-08-11 2012-07-31 Feature extraction device, feature extraction program, and image processing device
CN201280038798.8A CN103733224B (zh) 2011-08-11 2012-07-31 特征提取装置、特征提取程序、以及图像处理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011176139A JP5789751B2 (ja) 2011-08-11 2011-08-11 特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および画像処理装置
JP2011-176139 2011-08-11

Publications (1)

Publication Number Publication Date
WO2013021580A1 true WO2013021580A1 (ja) 2013-02-14

Family

ID=47668118

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004852 WO2013021580A1 (ja) 2011-08-11 2012-07-31 特徴抽出装置、特徴抽出プログラム、および画像処理装置

Country Status (5)

Country Link
US (1) US9294665B2 (ja)
EP (1) EP2743888B1 (ja)
JP (1) JP5789751B2 (ja)
CN (1) CN103733224B (ja)
WO (1) WO2013021580A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366177B (zh) * 2012-03-28 2016-12-07 佳能株式会社 对象检测分类器生成方法和设备、图像对象检测方法和设备
JP6202937B2 (ja) * 2013-08-21 2017-09-27 キヤノン株式会社 画像認識装置、画像認識方法、及びコンピュータプログラム
KR102213867B1 (ko) * 2014-03-12 2021-02-08 에스케이플래닛 주식회사 서비스 제공 장치와 사용자 장치, 그를 포함하는 단일 영상 기반의 분류 시스템, 그 제어 방법 및 컴퓨터 프로그램이 기록된 기록매체
US10515284B2 (en) 2014-09-30 2019-12-24 Qualcomm Incorporated Single-processor computer vision hardware control and application execution
US9838635B2 (en) * 2014-09-30 2017-12-05 Qualcomm Incorporated Feature computation in a sensor element array
US9554100B2 (en) 2014-09-30 2017-01-24 Qualcomm Incorporated Low-power always-on face detection, tracking, recognition and/or analysis using events-based vision sensor
US9940533B2 (en) 2014-09-30 2018-04-10 Qualcomm Incorporated Scanning window for isolating pixel values in hardware for computer vision operations
US20170132466A1 (en) 2014-09-30 2017-05-11 Qualcomm Incorporated Low-power iris scan initialization
US9923004B2 (en) * 2014-09-30 2018-03-20 Qualcomm Incorporated Hardware acceleration of computer vision feature detection
KR101648052B1 (ko) 2014-12-12 2016-08-12 도레이첨단소재 주식회사 광학용 폴리에스테르 적층 필름
KR102592647B1 (ko) * 2016-01-14 2023-10-23 엘지전자 주식회사 냉장고
US10614332B2 (en) 2016-12-16 2020-04-07 Qualcomm Incorportaed Light source modulation for iris size adjustment
US10984235B2 (en) 2016-12-16 2021-04-20 Qualcomm Incorporated Low power data generation for iris-related detection and authentication
CN111768410B (zh) * 2019-05-22 2024-04-05 北京沃东天骏信息技术有限公司 图像处理方法和装置
CN111696080B (zh) * 2020-05-18 2022-12-30 江苏科技大学 一种基于静态纹理的人脸欺诈检测方法、系统及存储介质
WO2023008509A1 (ja) * 2021-07-29 2023-02-02 興和株式会社 情報処理プログラム及び情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005537578A (ja) * 2002-09-03 2005-12-08 ハニーウェル・オサケユキテュア 紙の特徴付け
JP2009086926A (ja) * 2007-09-28 2009-04-23 Kddi Corp 画像認識方法および装置
JP2009211179A (ja) 2008-02-29 2009-09-17 Canon Inc 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
JP2011008631A (ja) * 2009-06-26 2011-01-13 Canon Inc 画像変換方法及び装置並びにパターン識別方法及び装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4575124A (en) * 1982-04-05 1986-03-11 Ampex Corporation Reproducible gray scale test chart for television cameras
KR100459892B1 (ko) * 2001-12-13 2004-12-03 삼성전자주식회사 3차원 얼굴 모델을 위한 텍스쳐 생성 방법 및 장치
WO2008067509A1 (en) * 2006-11-30 2008-06-05 Westar Display Technologies, Inc. Motion artifact measurement for display devices
DE102008012152A1 (de) * 2008-03-01 2009-09-03 Voith Patent Gmbh Verfahren und Vorrichtung zur Charakterisierung der Formation von Papier
CN101266704B (zh) 2008-04-24 2010-11-10 张宏志 基于人脸识别的atm安全认证与预警方法
US8855420B2 (en) 2009-04-09 2014-10-07 France Telecom Descriptor determination in a multimedia content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005537578A (ja) * 2002-09-03 2005-12-08 ハニーウェル・オサケユキテュア 紙の特徴付け
JP2009086926A (ja) * 2007-09-28 2009-04-23 Kddi Corp 画像認識方法および装置
JP2009211179A (ja) 2008-02-29 2009-09-17 Canon Inc 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
JP2011008631A (ja) * 2009-06-26 2011-01-13 Canon Inc 画像変換方法及び装置並びにパターン識別方法及び装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAISUKE SASAKI ET AL.: "A Study on A Personal Authentication Using Mannerism of Lip Motion in Utterance", IEICE TECHNICAL REPORT, vol. 109, no. 436, 22 February 2010 (2010-02-22), pages 23 - 28, XP008169406 *
SHIGUANG SHAN ET AL.: "Locally Assembled Binary (LAB) feature with feature- centric cascade for fast and accurate face detection", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2008. CVPR 2008, 23 July 2008 (2008-07-23), pages 1 - 7, XP031297360 *
TIMO OJALA; MATTI PIETIKÄINEN; TOPI MÄENPÄÄ: "Multiresolution Gray-Scale and Rotation Invariant Texture Classification With Local Binary Patterns", IEEE, PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 24, no. 7, July 2002 (2002-07-01), pages 971 - 978
XIAOYU WANG; TONY X. HAN; SHUICHENG YAN: "An HOG-LBP Human Detector with Partial Occlusion Handling", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2009, 2009
YUTAKA USUI ET AL.: "A Study on Face Recognition Using LAB for Embedded Hardware Implementation", IEICE TECHNICAL REPORT, vol. 109, no. 447, 25 February 2010 (2010-02-25), pages 49 - 52, XP008169405 *

Also Published As

Publication number Publication date
CN103733224A (zh) 2014-04-16
EP2743888A1 (en) 2014-06-18
JP2013041330A (ja) 2013-02-28
US20140204238A1 (en) 2014-07-24
US9294665B2 (en) 2016-03-22
EP2743888A4 (en) 2015-05-20
JP5789751B2 (ja) 2015-10-07
EP2743888B1 (en) 2023-10-25
CN103733224B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
WO2013021580A1 (ja) 特徴抽出装置、特徴抽出プログラム、および画像処理装置
JP5891409B2 (ja) 特徴抽出装置、特徴抽出方法、および特徴抽出プログラム
JP5861123B2 (ja) 特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および、画像処理装置
US9292745B2 (en) Object detection apparatus and method therefor
Lalonde et al. Detecting ground shadows in outdoor consumer photographs
US8103115B2 (en) Information processing apparatus, method, and program
Chen et al. Human shadow removal with unknown light source
US20140037159A1 (en) Apparatus and method for analyzing lesions in medical image
US9633284B2 (en) Image processing apparatus and image processing method of identifying object in image
JP4877374B2 (ja) 画像処理装置及びプログラム
Salti et al. A traffic sign detection pipeline based on interest region extraction
Johnson et al. Fingerprint pore characteristics for liveness detection
CN108154483B (zh) 图像处理装置、图像处理方法以及记录介质
US20150269778A1 (en) Identification device, identification method, and computer program product
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
US20180047158A1 (en) Chest radiograph (cxr) image analysis
Obdržálek et al. Detecting scene elements using maximally stable colour regions
JP2012150730A (ja) 特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および画像処理装置
Song et al. Robustness of point feature detection
CN110046639A (zh) 一种基于超像素权重密度的高光谱影像噪声标签检测方法
JP2013011950A (ja) 画像処理装置、画像処理方法及びプログラム
KR101521136B1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
JP3906221B2 (ja) 画像処理方法及び画像処理装置
Gauch Segmentation and edge detection
Masri et al. Image classification using appearance based features

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12821503

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012821503

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14237729

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE