WO2010032297A1 - 画像処理装置、画像処理方法および画像処理プログラム - Google Patents

画像処理装置、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
WO2010032297A1
WO2010032297A1 PCT/JP2008/066790 JP2008066790W WO2010032297A1 WO 2010032297 A1 WO2010032297 A1 WO 2010032297A1 JP 2008066790 W JP2008066790 W JP 2008066790W WO 2010032297 A1 WO2010032297 A1 WO 2010032297A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
image
region
subject
dictionary data
Prior art date
Application number
PCT/JP2008/066790
Other languages
English (en)
French (fr)
Inventor
珊珊 于
清水 雅芳
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/066790 priority Critical patent/WO2010032297A1/ja
Priority to JP2010529529A priority patent/JP4791598B2/ja
Publication of WO2010032297A1 publication Critical patent/WO2010032297A1/ja
Priority to US13/064,272 priority patent/US8509539B2/en
Priority to US13/937,680 priority patent/US8818104B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Definitions

  • the present invention relates to an image processing apparatus, an image processing method, and an image processing program for quantizing image data.
  • the amount of information in the image data itself is enormous, and the object detection technique only needs to be able to determine whether or not an object to be searched exists in the image. There is a need to reduce data and save memory resources.
  • image data is frequency-converted (wavelet ⁇ Wavelet> conversion), and quantization processing is performed based on the conversion coefficient size (or the difference in pixel value between adjacent pixels) as the conversion result.
  • quantization processing the image data is quantized in three stages by comparing the transform coefficient and the quantization threshold value, so it is possible to reduce the storage area for image data and learning data used for object detection. It becomes.
  • the entire area of the image data and the entire area of the learning data need not be compared in detail.
  • the image data and the learning data are compared up to the area, and the object detection process is wasted.
  • JP 2004-246618 A H. Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appearance in International Journal of Computer Vision, 2002.
  • the above-described conventional technology has a problem that the object detection cannot be performed with high accuracy and the object detection process cannot be accelerated.
  • object detection is roughly performed on the search area in the image data, so that different objects similar to the search target object are also erroneously detected. In many cases, it is determined that the object is. Since the object is erroneously determined to be an object to be detected, the process proceeds to detailed object detection processing even though the object to be detected does not exist. As a result, the object detection processing is delayed. It will end up.
  • the present invention has been made to solve the above-described problems caused by the prior art, and is an image processing apparatus, an image processing method, and an image processing program capable of performing object detection with high accuracy and speeding up object detection processing.
  • the purpose is to provide.
  • this image processing apparatus obtains an input image and storage means for storing dictionary data including information on a feature region indicating a region where a feature of a subject appears.
  • the determination unit determines whether or not the input image includes the subject by comparing the feature area of the dictionary data with the input image area corresponding to the feature area of the dictionary data. It is a requirement to have.
  • FIG. 1 is a diagram illustrating an example of hierarchical learning data.
  • FIG. 2 is a functional block diagram of the configuration of the image processing apparatus according to the present embodiment.
  • FIG. 3 is a diagram illustrating an example of the data structure of the face learning data.
  • FIG. 4 is a diagram illustrating an example of a data structure of hierarchical data.
  • FIG. 5 is a diagram illustrating an example of the data structure of non-face learning data.
  • FIG. 6 is a diagram illustrating an example of a data structure of comparison target data.
  • FIG. 7 is a diagram illustrating an example of the data structure of the comparison result table.
  • FIG. 8 is a flowchart of the process procedure of the image processing apparatus according to the present embodiment.
  • FIG. 8 is a flowchart of the process procedure of the image processing apparatus according to the present embodiment.
  • FIG. 9 is a flowchart showing a processing procedure for creating hierarchical data.
  • FIG. 10 is a diagram for explaining an example of the smoothing process.
  • FIG. 11 is a diagram illustrating a hardware configuration of a computer constituting the image processing apparatus according to the present embodiment.
  • the image processing apparatus When the image processing apparatus according to the present embodiment performs object detection by comparing image data (image data to be detected by the object) and learning data, the image processing apparatus stores learning data according to the importance in each region of the subject. Each region is hierarchized, and the object detection processing is speeded up by comparing the image data and the learning data in descending order of importance.
  • the subject is a human face
  • the positions of the eyes, nose, and mouth of the face are almost the same regardless of the person, so the area corresponding to the position of the eyes, nose, and mouth is of importance. It becomes a high hierarchy.
  • the region corresponding to the position of the hair is a layer of low importance.
  • FIG. 1 is a diagram showing an example of hierarchical learning data.
  • the subject is a human face
  • the face is an image in which the face is captured from the front, from the chin to the top and bottom width almost including the head, and to the left and right width including both ears.
  • FIG. 1A shows longitudinal learning data obtained as a result of frequency conversion (wavelet transformation) of a face image
  • FIG. 1B shows lateral learning obtained as a result of frequency conversion of the face image. It is data.
  • the importance of the hierarchy 1 is the highest, and the importance becomes lower in order of the hierarchy 2, 3, 4 (the hierarchy 4 has the lowest importance).
  • the region on the image corresponding to the position of the nose is layer 1
  • the area on the image corresponding to the mouth is level 1.
  • the image processing apparatus first compares the learning data area corresponding to the hierarchy 1 with the image data area. If it is determined that the subject is not included, object detection is omitted for the regions corresponding to the remaining layers 2 to 4, and a determination result that no subject exists in the image data is output.
  • the learning data area corresponding to layer 2 is compared with the image data area. If it is determined that the subject is not included, object detection is omitted for the regions corresponding to the remaining layers 3 and 4, and a determination result that no subject exists in the image data is output.
  • the learning data area corresponding to the hierarchy 3 is compared with the image data area. If it is determined that the subject is not included, object detection is omitted for the region corresponding to the remaining hierarchy 4, and a determination result that the subject does not exist in the image data is output.
  • the learning data area corresponding to the hierarchy 4 is compared with the image data area. Also, in layer 4, when it is determined that the subject is included, a determination result that the subject exists in the image data is output.
  • the image processing apparatus hierarchizes the learning data, and omits object detection for the remaining hierarchies according to the comparison result for each hierarchy. it can.
  • each layer is set according to the importance of the subject, erroneous detection of the subject can be prevented.
  • FIG. 2 is a functional block diagram illustrating the configuration of the image processing apparatus 100 according to the present embodiment.
  • the image processing apparatus 100 includes conversion processing units 110a and 110b, analysis processing units 120a and 120b, a storage unit 130, and a face detection processing unit 140.
  • the conversion processing unit 110a is a processing unit that acquires face image collection data and non-face image collection data, and performs frequency conversion processing (for example, wavelet conversion) on the acquired face image collection data and non-face image collection data. is there.
  • the frequency conversion process for the image data is the same as the known technique.
  • the face image collection data is image data obtained by collecting face images of various persons
  • the non-face image collection data is image data obtained by collecting various images other than the face images. It is assumed that the size of the face image collection data and the size of the non-face image collection data are unified.
  • the conversion processing unit 110a acquires face image collection data and non-face image collection data from an input device, a storage device (not shown), or the like.
  • the conversion processing unit 110a outputs the face image collection data and non-face image collection data subjected to frequency conversion to the analysis processing unit 120a.
  • frequency-converted face image collection data is referred to as converted face image collection data
  • frequency-converted non-face image collection data is referred to as converted non-face image collection data.
  • the conversion processing unit 110b is a processing unit that acquires input image data and executes frequency conversion processing (for example, wavelet conversion) on the acquired input image data.
  • the frequency conversion process for the image data is the same as the known technique.
  • the input image data is image data that is an object detection target.
  • the conversion processing unit 110a acquires input image data from an input device, a storage device (not shown), or the like.
  • the conversion processing unit 110b outputs the input image data subjected to frequency conversion to the analysis processing unit 120b.
  • the analysis processing unit 120a When the converted face image collection data and the converted non-face image collection data are acquired, the analysis processing unit 120a creates face learning data based on the converted face image collection data, and based on the converted non-face image collection data. It is a processing unit that creates non-face learning data.
  • the analysis processing unit 120a calculates the variance of the face learning data, and classifies (stratifies) the face learning data into a plurality of layers based on the calculated variance.
  • the analysis processing unit 120a extracts single image data from the image data included in the converted face image collection data.
  • each of the image data included in the converted face image collection data is composed of a group of images in which the face is captured on the entire surface with a vertical width substantially including the head from the chin and a horizontal width substantially including both ears.
  • learning data for detecting various faces in addition to data showing the face from the front, data facing diagonally up, down, left, right, and face data wearing a hat or glasses
  • Data of people of various ages and genders may be included.
  • the division processing unit 120a quantizes the corresponding transform coefficient (quantized into three or four values) by comparing the transform coefficient, which is the result of frequency transforming each image data, with each quantization threshold.
  • Each quantization threshold is set in advance by the administrator.
  • the analysis processing unit 120a also quantizes the remaining image data included in the converted face image collection data by the above method. Then, the analysis processing unit 120a compares the respective transform coefficient values of the quantized image data (transform coefficient values corresponding to the same positions of the respective image data), and determines the face learning data based on the frequency of the transform coefficient values. create. For example, when the coefficient values at the position (x1, y1) in the image data are compared with each other, the frequency of the coefficient value “2” is larger than the frequency of the coefficient values “0” and “1”. The coefficient value of the position (x1, y1) in the face learning data is set to “2”. Note that the variance of the coefficient values is calculated in accordance with the coefficient frequency count. If the coefficient values are concentrated on one of 0, 1, and 2, the variance value becomes small.
  • FIG. 3 is a diagram showing an example of the data structure of face learning data. As shown in FIG. 3, this face learning data stores position information and conversion coefficient values in association with each other. Note that the data structure of the face learning data is not limited to that shown in FIG. 3. For example, conversion coefficient values are associated with each other and stored for each block of conversion coefficients to be compared at the time of object detection (for example, 8 conversion coefficients). Also good. Further, not only the conversion coefficient value but also the variance value may be stored in association with the position information.
  • the analysis processing unit 120a compares the calculated variance with the comparison values 1, 2, and 3 (where comparison value 1 ⁇ comparison value 2 ⁇ comparison value 3), and converts the face learning data into each of layers 1 to 4. Classify into:
  • the analysis processing unit 120a performs the following on the area on the face image data. Set the area where variance ⁇ comparison value 1 to layer 1, Set the region where comparison value 1 ⁇ variance ⁇ comparison value 2 to layer 2, An area where comparison value 2 ⁇ dispersion ⁇ comparison value 3 is set in hierarchy 3, Hierarchy data is created by setting an area where the comparison value 3 ⁇ distribution is set to hierarchy 4.
  • the variance (dispersion value) is small around the nose, and in the horizontal direction, the variance is small around the eyes and mouth. Such a tendency is obtained because the data concentrates on the part representing the facial features.
  • FIG. 4 is a diagram showing an example of the data structure of hierarchical data. As shown in FIG. 4, this hierarchical data stores position information and a hierarchy in association with each other. Here, as an example, the position information and the hierarchy are associated with each other. However, the present invention is not limited to this, and the area on the face learning data and the hierarchy may be stored in association with each other. .
  • the division processing unit 120b extracts single image data from the image data included in the converted non-face image collection data. Note that the image data included in the non-face image collection data is an image in which no face is shown. Then, the division processing unit 120a quantizes the corresponding transform coefficient (quantized into three or four values) by comparing the transform coefficient, which is the result of frequency transforming each image data, with each quantization threshold. . Each quantization threshold is set in advance by the administrator.
  • the analysis processing unit 120a also quantizes the remaining image data included in the converted non-face image collection data by the above method. Then, the analysis processing unit 120a compares the respective transform coefficient values of the quantized image data (transform coefficient values corresponding to the same position of each image data), and based on the frequency of the transform coefficient values, the non-face learning data Create For example, when each image data is compared with respect to the conversion coefficient value at the position (x1, y1) in the image data, the frequency of the conversion coefficient value “2” is higher than the frequency of the conversion coefficient values “0” and “1”. If it is larger, the conversion coefficient value at the position (x1, y1) in the non-face learning data is set to “2”.
  • FIG. 5 is a diagram showing an example of the data structure of non-face learning data.
  • the non-face learning data stores position information and conversion coefficient values in association with each other.
  • the data structure of the non-face learning data is not limited to that shown in FIG. 5, and for example, each block of transform coefficients to be compared at the time of object detection (for example, 8 transform coefficients) is stored in association with the transform coefficient value. May be.
  • the analysis processing unit 120b is a processing unit that quantizes the acquired input image data when the frequency-converted input image data is acquired.
  • the analysis processing unit 120b outputs the quantized input image data to the storage unit 130.
  • quantized input image data is referred to as comparison target data.
  • the analysis processing unit 120b quantizes the pixel value of the corresponding block (quantizes to three or four values) by comparing the transform coefficient with each quantization threshold.
  • Each quantization threshold is set in advance by the administrator.
  • FIG. 6 is a diagram illustrating an example of a data structure of comparison target data.
  • the comparison target data stores position information and conversion coefficient values in association with each other.
  • the data structure of the comparison target data is not limited to that shown in FIG. 6, and is stored in association with a conversion coefficient value for each block of conversion coefficients (for example, 8 conversion coefficients) to be compared at the time of object detection, for example. Also good.
  • the storage unit 130 is a storage unit that stores face learning data, hierarchical data, non-face learning data output from the analysis processing unit 120a, and comparison target data output from the analysis processing unit 120b.
  • the face detection processing unit 140 sets a detection range, compares the face learning data 130a, the non-face learning data 130c, and the comparison target data 130d in the order of layers 1 to 4 within the detection range, and inputs image data. Is a processing unit for determining whether or not a face image is included. When the face detection processing unit 140 determines that the input image does not include a face in a certain layer, the face detection processing unit 140 omits the object detection in the remaining layers and proceeds to the object detection processing for the next detection range.
  • input image data means an image cut out from a face detection processing target (input frame itself), and this corresponds to comparison target data. Since it is not known what size face is included in the entire face detection target frame, the comparison target data is changed to multiple types of sizes, and the cutout position in the input image data is changed. The area of the comparison target data is set by cutting out while shifting.
  • the face detection processing unit 140 converts the transformation coefficient value of the region corresponding to the hierarchy 1 within the detection range of the face learning data (hereinafter referred to as the first region) and the non-face learning corresponding to the first region.
  • the conversion coefficient value on the data 130c is compared with the conversion coefficient value on the comparison target data 130d corresponding to the first area.
  • the face detection processing unit 140 has a conversion coefficient value matching rate between the comparison target data 130d and the face learning data 130a higher than a conversion coefficient value matching rate between the comparison target data 130d and the non-face learning data 130c. If it is larger, the processing is transferred to level 2. It should be noted that when the conversion coefficient value matching rate between the comparison target data 130d and the face learning data 130a is not larger than the matching rate between the conversion coefficient values between the comparison target data 130d and the non-face learning data 130c, that is, as a processing target If there is no possibility that the comparison target data 130d is a face, the processing of layers 2 to 4 is omitted, and the processing for the input image data is terminated.
  • the face detection processing unit 140 When it is determined that the face is included in the input image data in the hierarchy 1, the face detection processing unit 140 performs an area corresponding to the hierarchy 2 in the detection range of the face learning data 130a (hereinafter referred to as a second area). ), The conversion coefficient value on the non-face learning data 130c corresponding to the second area, and the conversion coefficient value on the comparison target data 130d corresponding to the second area.
  • the face detection processing unit 140 has a conversion coefficient value matching rate between the comparison target data 130d and the face learning data 130a higher than a conversion coefficient value matching rate between the comparison target data 130d and the non-face learning data 130c. If it is larger, the process is transferred to level 3. If the matching rate of the conversion coefficient values of the comparison target data 130d and the face learning data 130a is not larger than the matching rate of the conversion coefficient values of the comparison target data 130d and the non-face learning data 130c, the hierarchy 3, The process of 4 is omitted, and the process for the input image data is terminated.
  • the face detection processing unit 140 When it is determined that the face is included in the input image data in the hierarchy 2, the face detection processing unit 140 performs an area corresponding to the hierarchy 3 in the detection range of the face learning data (hereinafter referred to as a third area). (Noted), the conversion coefficient value on the non-face learning data 130c corresponding to the third area, and the conversion coefficient value on the comparison target data 130d corresponding to the second area are compared.
  • the face detection processing unit 140 has a matching rate of conversion coefficient values of the comparison target data 130d and the face learning data 130a higher than a matching rate of conversion coefficient values of the comparison target data 130d and the non-face learning data 130c. If larger, the process is transferred to the hierarchy 4. If the matching rate of the conversion coefficient values of the comparison target data 130d and the face learning data 130a is not larger than the matching rate of the conversion coefficient values of the comparison target data 130d and the non-face learning data 130c, The processing is omitted and the input image data processing is terminated.
  • the face detection processing unit 140 When it is determined that the face is included in the input image data in the hierarchy 3, the face detection processing unit 140 performs an area corresponding to the hierarchy 4 in the detection range of the face learning data (hereinafter referred to as a fourth area). (Noted), the conversion coefficient value on the non-face learning data 130c corresponding to the fourth area, and the conversion coefficient value on the comparison target data 130d corresponding to the second area are compared.
  • the face detection processing unit 140 has a conversion coefficient value matching rate between the comparison target data 130d and the face learning data 130a higher than a conversion coefficient value matching rate between the comparison target data 130d and the non-face learning data 130c. If it is larger, it is determined that facial features are included in the corresponding detection range. In other cases, it is determined that no facial feature is included in the corresponding detection range.
  • FIG. 7 is a diagram illustrating an example of the data structure of the comparison result table. As shown in FIG. 7, this comparison result table stores detection range identification information for identifying a detection range and a comparison result in association with each other.
  • the face detection processing unit 140 compares the detection ranges of the face learning data 130a, the non-face learning data 130c, and the comparison target data 130d and determines that a facial feature is included, "Is registered, and if it is determined that the facial features are not included," X "is registered in the comparison result.
  • FIG. 8 is a flowchart of the process procedure of the image processing apparatus 100 according to the present embodiment.
  • the image processing apparatus 100 acquires input image data (step S101) and executes a quantization process (step S102).
  • step S103 the image processing apparatus 100 first selects level 1.
  • the image processing apparatus 100 compares the areas of the face learning data 130a, non-face learning data 130c, and comparison target data 130d corresponding to the selected hierarchy, and determines whether or not an object (object to be detected) exists. (Step S104).
  • the image processing apparatus 100 ends the process when there is no possibility that an object exists (step S105, No). On the other hand, if there is a possibility that an object exists (step S105, Yes), it is determined whether or not the next hierarchy exists (step S106).
  • step S107 If the next hierarchy exists (step S107, Yes), the image processing apparatus 100 selects the next hierarchy (step S108), and proceeds to step S104.
  • step S108 for example, when the image processing apparatus 100 currently selects the hierarchy 1, the hierarchy 2 is selected.
  • step S109 the image processing apparatus 100 determines the detection result (step S109).
  • FIG. 9 is a flowchart showing a processing procedure for creating the hierarchical data 130b.
  • the image processing apparatus 100 acquires the face learning data 130a (step S201), and calculates the variance of each area of the face learning data (step S202). Then, the image processing apparatus 100 creates a hierarchy by creating a hierarchy based on the distribution of the face learning data (step S203).
  • the image processing apparatus 100 is important in each region of a subject when performing object detection by comparing image data (image data to be detected by an object) and learning data.
  • image data image data to be detected by an object
  • learning data Each area of learning data is hierarchized according to the degree, image data and learning data are compared in order from the highest importance level, and object detection processing in unnecessary hierarchies is omitted.
  • the detection process can be speeded up.
  • the image processing apparatus 100 calculates the variance of the face learning data 130a and creates the hierarchical data 130b, but the method of calculating the hierarchical data is not limited to this.
  • the image processing apparatus 100 may determine the importance in each area of the image data from the histogram of the conversion coefficient and the frequency when the image data is frequency-converted, and classify each area into a plurality of hierarchies. .
  • FIG. 10 is a diagram for explaining an example of the smoothing process. As an example, FIG. 10 shows a case where the hierarchical data 130b is composed of nine blocks a to i, and the block to be smoothed is “e”.
  • the image processing apparatus 100 can suppress the influence of noise and the like by executing the smoothing process on the hierarchical data 130b. It is also effective to implement the hierarchization method described in this embodiment in combination with a known face detection technique. For example, it can be combined with [Non-Patent Document 1]. In this case, the hierarchical structure may be determined based on the distribution of the face dictionary of [Non-Patent Document 1].
  • a dictionary in the form of a histogram is held for each position in the conversion coefficient of the local operator, and a hierarchy can be determined for each position in the conversion coefficient of the local operator based on the variance of the histogram.
  • Hierarchy determination may be based on dictionary distribution as described above, but may be determined in advance by an administrator.
  • each component of the image processing apparatus 100 shown in FIG. 2 is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the various processing procedures described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation.
  • FIG. 11 is a diagram illustrating a hardware configuration of a computer constituting the image processing apparatus 100 according to the present embodiment.
  • this computer (image processing device) 30 communicates with other devices via an input device 31, a monitor 32, a RAM (Random Access Memory) 33, a ROM (Read Only Memory) 34, and a network.
  • a communication control device 35, a medium reading device 36 that reads data from a storage medium, a camera 37, a CPU (Central Processing Unit) 38, and an HDD (Hard Disk Drive) 39 are connected by a bus 40.
  • the HDD 39 stores an image processing program 39b that exhibits the same function as that of the image processing apparatus 100 described above.
  • the image processing process 38a is activated.
  • the image processing process 38a corresponds to the conversion processing units 110a and 110b, the analysis processing units 120a and 120b, and the face detection processing unit 140 in FIG.
  • the HDD 39 also stores various data 39a corresponding to information stored in the storage unit 130 of the image processing apparatus 100.
  • the CPU 38 reads out various data 39 a stored in the HDD 39, stores it in the RAM 33, and executes quantization of the image data and object detection using the various data 33 a stored in the RAM 33.
  • the image processing program 39b shown in FIG. 11 is not necessarily stored in the HDD 39 from the beginning.
  • a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into a computer, or a hard disk drive (HDD) provided inside or outside the computer.
  • the image processing program 39b is stored in the “fixed physical medium” of “the computer”, and “another computer (or server)” connected to the computer via the public line, the Internet, LAN, WAN, etc.
  • the computer may read and execute the image processing program 39b from these.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

 本発明にかかる画像処理装置(100)は、画像データ(物体の検出対象となる画像データ)と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度(分散)に応じて学習データの各領域を階層化する。そして、画像処理装置(100)は、重要度が高い階層から順に画像データと学習データとを比較し、不要な階層における物体検出処理を省略するので、物体検出を精度よく行うことができる。また、物体検出処理を高速化することができる。

Description

画像処理装置、画像処理方法および画像処理プログラム
 本発明は、画像データを量子化する画像処理装置、画像処理方法および画像処理プログラムに関するものである。
 近年、カメラ等によって撮影された画像中から、各種の物体(例えば、人物の顔、車等)を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。
 また、画像データそのものの情報量は膨大であり、物体検出の技術では、画像中に検索対象となる物体が存在しているか否かを判定できればよいので、情報の量子化技術を利用して画像データを削減し、メモリ資源を節約する必要がある。
 情報の量子化技術には、画像データを周波数変換(ウェーブレット<Wavelet>変換)し、変換結果となる変換係数の大小(または、隣り合う画素同士の画素値の差分の大小)から量子化処理を行う技術がある(例えば、非特許文献1参照)。かかる量子化処理では、変換係数と、量子化閾値とを比較することにより、画像データを3段階に量子化するので、物体検出に用いられる画像データ、学習データの記憶領域を削減することが可能となる。
 また、画像データ中に、検出対象となる物体が存在するケースは全体的には小確率であるため、画像データの全領域と学習データの全領域とを詳細に比較すると、比較する必要のない領域まで画像データと学習データとを比較してしまい、物体検出処理に無駄が生じてしまう。
 そこで、物体検出処理にかかる無駄を省くため、画像データ中の検索領域に対して大まかに物体検出を行い、画像データ中に検出対象の物体が含まれている可能性があると判定した場合のみ、詳細に物体検出を行うという技術が知られている(例えば、特許文献1参照)。かかる技術では、大まかに物体検出を行い、画像データ中に検出対象となる物体が含まれていないと判定した場合には、次の領域に処理を進めるので、物体検出処理を高速化することができる。
特開2004-246618号公報 H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.
 しかしながら、上述した従来の技術では、物体検出を精度よく行なえず、物体検出処理を高速化することができないという問題があった。
 すなわち、従来の技術では、物体検出処理を高速化するために、画像データ中の検索領域に対して大まかに物体検出を行っているので、検索対象の物体に類似する異なる物体も誤って検出対象の物体であると判定してしまうことが多くなる。そして、誤って検出対象の物体であると判定したために、検出対象となる物体が存在していないにも関わらず、詳細な物体検出処理に移行してしまうので、結果として、物体検出処理が遅れてしまうことになる。
 この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体検出を精度よく行い、物体検出処理を高速化することができる画像処理装置、画像処理方法および画像処理プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、この画像処理装置は、被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶する記憶手段と、入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定手段と、を有することを要件とする。
 この画像処理装置によれば、無駄な物体検出処理を省略して処理を高速化し、画像データ中に含まれる被写体を精度よく検出することができる。
図1は、階層化した学習データの一例を示す図である。 図2は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。 図3は、顔学習データのデータ構造の一例を示す図である。 図4は、階層データのデータ構造の一例を示す図である。 図5は、非顔学習データのデータ構造の一例を示す図である。 図6は、比較対象データのデータ構造の一例を示す図である。 図7は、比較結果テーブルのデータ構造の一例を示す図である。 図8は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。 図9は、階層データを作成する処理手順を示すフローチャートである。 図10は、平滑化処理の一例を説明するための図である。 図11は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。
符号の説明
 30  コンピュータ
 31  入力装置
 32  モニタ
 33  RAM
 33a,39a 各種データ
 34  ROM
 35  通信制御装置
 36  媒体読取装置
 37  カメラ
 38  CPU
 38a 画像処理プロセス
 39  HDD
 39b 画像処理プログラム
 40  バス
100  画像処理装置
110a,110b 変換処理部
120a,120b 分析処理部
130  記憶部
130a 顔学習データ
130b 階層データ
130c 非顔学習データ
130d 比較対象データ
140  顔検出処理部
 以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 まず、本実施例にかかる画像処理装置の概要および特徴について説明する。本実施例にかかる画像処理装置は、画像データ(物体の検出対象となる画像データ)と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較することで、物体検出処理を高速化する。ここで、被写体を人物の顔とすると、顔の目や鼻、口の位置は、どの人物であっても略一致しているため、目や鼻、口の位置に対応する領域が重要度の高い階層となる。一方、髪の毛の位置などは人それぞれであるため、髪の毛の位置に対応する領域は重要度の低い階層となる。
 図1は、階層化した学習データの一例を示す図である。図1では一例として、被写体を人物の顔とし、顔を正面から、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔をフレーム全面に写した画像とする。図1の(a)は、顔画像を周波数変換(ウェーブレット変換)した結果得られる縦方向の学習データであり、図1の(b)は、顔画像を周波数変換した結果得られる横方向の学習データである。また、図1において、階層1の重要度が最も高く、階層2,3,4の順に重要度が低くなる(階層4が最も重要度が低い)。
 図1の(a)に示す例では、鼻の位置に対応する画像上の領域(画像のほぼ中央部)が階層1になっており、図1の(b)に示す例では、目(画像の上部の左と右)、口(画像の下部の中央部)に対応する画像上の領域が階層1になっている。本実施例にかかる画像処理装置は、物体検出を行う場合に、まず階層1に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層2~4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
 一方、被写体が含まれると判断した場合には、階層2に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層3,4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
 一方、被写体が含まれると判断した場合には、階層3に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
 一方、被写体が含まれると判断した場合には、階層4に対応する学習データの領域と画像データの領域とを比較する。そして、階層4においても、被写体が含まれていると判定した場合に、画像データに被写体が存在するという判定結果を出力する。
 このように、本実施例にかかる画像処理装置は、学習データを階層化し、階層毎の比較結果に応じて残りの階層に対する物体検出を省略するので、物体検出にかかる処理を高速化することができる。また、被写体の重要度に応じて、各階層を設定しているので、被写体の誤検出を防止することができる。
 次に、本実施例1にかかる画像処理装置の構成について説明する。図2は、本実施例にかかる画像処理装置100の構成を示す機能ブロック図である。図2に示すように、この画像処理装置100は、変換処理部110a,110bと、分析処理部120a,120bと、記憶部130と、顔検出処理部140とを有する。
 変換処理部110aは、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。
 なお、顔画像集データは、様々な人物の顔画像を集めた画像データであり、非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。また、顔画像集データのサイズおよび非顔画像集データのサイズは統一されているものとする。
 変換処理部110aは、入力装置、記憶装置(図示略)等から顔画像集データおよび非顔画像集データを取得する。変換処理部110aは、周波数変換した顔画像集データおよび非顔画像集データを分析処理部120aに出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。
 変換処理部110bは、入力画像データを取得し、取得した入力画像データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。なお、入力画像データは、物体検出対象となる画像データである。変換処理部110aは、入力装置、記憶装置(図示略)等から入力画像データを取得する。変換処理部110bは、周波数変換した入力画像データを分析処理部120bに出力する。
 分析処理部120aは、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換顔画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。また、分析処理部120aは、顔学習データの分散を算出し、算出した分散に基づいて顔学習データを複数の階層に分類(階層化)する。
 まず、分析処理部120aが、顔学習データを作成する処理について具体的に説明する。分析処理部120aは、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。ここで、変換顔画像集データに含まれる画像データはそれぞれ、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。そして、分割処理部120aは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
 同様に、分析処理部120aは、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120aは、量子化した各画像データの各変換係数値(各画像データの同一位置に対応する変換係数値)を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の係数値について、各画像データを比較したところ、係数値「0」、「1」の頻度よりも、係数値「2」の頻度のほうが大きい場合には、顔学習データ中の位置(x1、y1)の係数値を「2」に設定する。なお,この係数頻度計数に合わせて,係数値の分散を算出しておく。係数値が0,1,2のいずれかの値に集中していれば,分散値は小さくなる。
 図3は、顔学習データのデータ構造の一例を示す図である。図3に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図3に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値を対応付けて記憶させても良い。また、位置情報と対応付けて変換係数値だけではなく分散値も記憶させてもよい。
 次に、分析処理部120aが、顔学習データを複数の階層に分類する処理について説明する。分析処理部120aは、算出しておいた分散と比較値1,2,3(ただし、比較値1<比較値2<比較値3)とを比較して、顔学習データを各階層1~4に分類する。
 例えば、分析処理部120aは、顔画像データ上の領域において、
分散<比較値1となる領域を階層1に設定し、
比較値1≦分散<比較値2となる領域を階層2に設定し、
比較値2≦分散<比較値3となる領域を階層3に設定し、
比較値3≦分散となる領域を階層4に設定することで、階層データを作成する。
 図1で説明したように、顔学習データの縦方向では、鼻などの周囲で分散(分散の値)が小さく、横方向では、目や口周辺で分散が小さくなる。顔の特徴をあらわす部位においては、データが集中するため、このような傾向が得られる。
 図4は、階層データのデータ構造の一例を示す図である。図4に示すように、この階層データは、位置情報と階層とを対応付けて記憶している。なお、ここでは一例として、位置情報と、階層とを対応付ける構成となっているが、これに限定されるものではなく、顔学習データ上の領域と、階層とを対応付けて記憶させても良い。
 次に、分析処理部120aが、非顔学習データを作成する処理について説明する。分割処理部120bは、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。なお、非顔画像集データに含まれる画像データは、顔が写っていない画像である。そして、分割処理部120aは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
 同様に、分析処理部120aは、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120aは、量子化した各画像データの各変換係数値(各画像データの同一位置に対応する変換係数値)を比較し、変換係数値の頻度に基づいて、非顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の変換係数値について、各画像データを比較したところ、変換係数値「0」、「1」の頻度よりも、変換係数値「2」の頻度のほうが大きい場合には、非顔学習データ中の位置(x1、y1)の変換係数値を「2」に設定する。
 図5は、非顔学習データのデータ構造の一例を示す図である。図5に示すように、この非顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図5に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値に対応付けて記憶させても良い。
 分析処理部120bは、周波数変換された入力画像データを取得した場合に、取得した入力画像データを量子化する処理部である。分析処理部120bは、量子化した入力画像データを記憶部130に出力する。以下の説明において、量子化した入力画像データを比較対象データと表記する。
 具体的に、分析処理部120bは、変換係数と各量子化閾値とを比較することにより、該当ブロックの画素値を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
 図6は、比較対象データのデータ構造の一例を示す図である。図6に示すように、この比較対象データは、位置情報と変換係数値とを対応付けて記憶している。なお、比較対象データのデータ構造は、図6に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値と対応付けて記憶させても良い。
 記憶部130は、分析処理部120aから出力される顔学習データ、階層データ、非顔学習データ、分析処理部120bから出力される比較対象データを記憶する記憶部である。
 顔検出処理部140は、検出範囲を設定し、検出範囲内の階層1~4の順に、顔学習データ130aと、非顔学習データ130cと、比較対象データ130dとを比較して、入力画像データに顔画像が含まれているか否かを判定する処理部である。顔検出処理部140は、ある階層で入力画像に顔が含まれていないと判定した時点で、残りの階層の物体検出を省略し、次の検出範囲に対する物体検出処理に移行する。なお、以下の説明において、入力画像データとは,顔検出処理対象(入力されるフレームそのもの)から切り出した画像を意味し,これが比較対象データに相当する。顔検出対象のフレーム全体の中に,どのような大きさの顔が含まれているかはわからないので、比較対象データを複数種類の大きさに変化させて、また、入力画像データ内で切り出し位置をずらしながら切り出して、比較対象データの領域を設定することになる。
 顔検出処理部140は、まず、顔学習データの検出範囲内の階層1に対応する領域(以下、第1の領域と表記する)の変換係数値と、第1の領域に対応する非顔学習データ130c上の変換係数値と、第1の領域に対応する比較対象データ130d上の変換係数値とを比較する。
 顔検出処理部140は、階層1について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層2に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合、すなわち、処理対象としている比較対象データ130dは顔である可能性がない場合には、階層2~4の処理を省略し、入力画像データに対する処理を終了する。
 階層1において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データ130aの検出範囲内の階層2に対応する領域(以下、第2の領域と表記する)の変換係数値と、第2の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
 顔検出処理部140は、階層2について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層3に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合には、階層3、4の処理を省略し、入力画像データに対する処理を終了する。
 階層2において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データの検出範囲内の階層3に対応する領域(以下、第3の領域と表記する)の変換係数値と、第3の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
 顔検出処理部140は、階層3について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層4に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合には、階層4の処理を省略し、入力画像データ処理を終了する。
 階層3において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データの検出範囲内の階層4に対応する領域(以下、第4の領域と表記する)の変換係数値と、第4の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
 顔検出処理部140は、階層4について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、該当する検出範囲に顔の特徴が含まれていると判定する。その他の場合には、該当する検出範囲に顔の特徴が含まれていないと判定する。
 顔検出処理部140による判定結果は、比較結果テーブルに登録される。図7は、比較結果テーブルのデータ構造の一例を示す図である。図7に示すように、この比較結果テーブルは、検出範囲を識別する検出範囲識別情報と、比較結果とを対応付けて記憶している。顔検出処理部140は、顔学習データ130a、非顔学習データ130c、比較対象データ130dの検出範囲を比較した結果、顔の特徴が含まれていると判定した場合には、比較結果に「マル」を登録し、顔の特徴が含まれていないと判定した場合には、比較結果に「バツ」を登録する。
 なお、図7に示すように、必ずしも検出範囲毎に比較結果を保存する必要はなく、例えば、「マル」の数および「バツ」の数を集計し、集計結果のみを比較結果テーブルに保存しても良い。かかる比較結果テーブルは、顔検出処理部140が保持しているものとする。
 次に、本実施例にかかる画像処理装置100の処理手順について説明する。図8は、本実施例にかかる画像処理装置100の処理手順を示すフローチャートである。図8に示すように、画像処理装置100は、入力画像データを取得し(ステップS101)、量子化処理を実行する(ステップS102)。
 画像処理装置100は、ステップS103において、はじめに画像処理装置100は、階層1を選択する。
 画像処理装置100は、選択した階層に対応する顔学習データ130a、非顔学習データ130c、比較対象データ130dの領域をそれぞれ比較し、物体(検出対象となる物体)が存在するか否かを判定する(ステップS104)。
 画像処理装置100は、物体が存在する可能性がない場合には(ステップS105,No)、処理を終了する。一方、物体が存在する可能性がある場合には(ステップS105,Yes)、次の階層が存在するか否かを判定する(ステップS106)。
 画像処理装置100は、次の階層が存在する場合には(ステップS107,Yes)、次の階層を選択し(ステップS108)、ステップS104に移行する。ステップS108において、例えば、画像処理装置100が、現在、階層1を選択している場合には、階層2を選択する。
 一方、次の階層が存在しない場合には(ステップS107,No)、画像処理装置100は、検出結果を判定する(ステップS109)。
 次に、本実施例にかかる画像処理装置が階層データ130bを作成する処理手順について説明する。図9は、階層データ130bを作成する処理手順を示すフローチャートである。
 図9に示すように、画像処理装置100は、顔学習データ130aを取得し(ステップS201)、顔学習データの各領域の分散を算出する(ステップS202)。そして、画像処理装置100は、顔学習データの分散に基づいて階層化し、階層データ130bを作成する(ステップS203)。
 上述してきたように、本実施例にかかる画像処理装置100は、画像データ(物体の検出対象となる画像データ)と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較し、不要な階層における物体検出処理を省略するので、物体検出を精度よく行い、物体検出処理を高速化することができる。
 ところで、本実施例にかかる画像処理装置100は、顔学習データ130aの分散を算出し、階層データ130bを作成していたが、階層データを算出する方法はこれに限定されるものではない。例えば、画像処理装置100は、画像データを周波数変換した場合の、変換係数と頻度とのヒストグラムから、画像データの各領域における重要度を判定し、各領域を複数の階層に分類しても良い。
 また、画像処理装置100は、階層データ130bを作成した後に、周辺の階層との関係を考慮して、階層を修正する平滑化処理を実行しても良い。図10は、平滑化処理の一例を説明するための図である。図10では一例として、階層データ130bが、9つのブロックa~iで構成されている場合を示しており、平滑化処理対象となるブロックを「e」とする。
 画像処理装置100は、修正対象となるブロックの階層を
修正後の階層=(右隣の階層+左隣の階層+上隣の階層+下隣の階層+修正対象の階層×2)÷6
によって算出する(小数点以下は、四捨五入)。
 例えば、図10において、ブロックeに対して平滑化処理を行うと、平滑化処理後のブロックeの階層は、階層2となる。このように、画像処理装置100が、平滑化処理を階層データ130bに対して実行することにより、ノイズの影響などを抑止することができる。
 また、本実施例にて述べた階層化方法を、公知の顔検出技術と組み合わせて実施することも有効である。たとえば、[非特許文献1]と組み合わせることが可能である。この場合は、[非特許文献1]の顔辞書の分散を基準にして、階層構造を定めればよい。ローカルオペレータの変換係数内の位置ごとにヒストグラム態様の辞書を保有しており、このヒストグラムの分散を基準にすれば、ローカルオペレータの変換係数内の位置ごとに階層を定めることができる。階層の決定は、前記のように辞書の分散を基準としても良いが、管理者によって予め定めておく等の方法でもかまわない。
 なお、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
 また、図2に示した画像処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
 図11は、本実施例にかかる画像処理装置100を構成するコンピュータのハードウェア構成を示す図である。図11に示すように、このコンピュータ(画像処理装置)30は、入力装置31、モニタ32、RAM(Random Access Memory)33、ROM(Read Only Memory)34、ネットワークを介して他の装置と通信を行う通信制御装置35、記憶媒体からデータを読み出す媒体読取装置36、カメラ37、CPU(Central Processing Unit)38、HDD(Hard Disk Drive)39をバス40で接続している。
 そして、HDD39には、上述した画像処理装置100の機能と同様の機能を発揮する画像処理プログラム39bが記憶されている。CPU38が、画像処理プログラム39bを読み出して実行することにより、画像処理プロセス38aが起動される。
 ここで、画像処理プロセス38aは、図2の変換処理部110a,110b、分析処理部120a,120b、顔検出処理部140に対応する。また、HDD39は、画像処理装置100の記憶部130に記憶される情報に対応する各種データ39aを記憶する。CPU38は、HDD39に格納された各種データ39aを読み出して、RAM33に格納し、RAM33に格納された各種データ33aを利用して、画像データの量子化、物体検出を実行する。
 ところで、図11に示した画像処理プログラム39bは、必ずしも最初からHDD39に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータに接続される「他のコンピュータ(またはサーバ)」などに画像処理プログラム39bを記憶しておき、コンピュータがこれらから画像処理プログラム39bを読み出して実行するようにしてもよい。

Claims (13)

  1.  被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶する記憶手段と、
     入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する前記入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定手段と、
     を有することを特徴とする画像処理装置。
  2.  入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する領域ごとに被写体の特徴が現れる頻度を抽出する特徴抽出手段と、
     前記特徴抽出手段の抽出結果に基づいて、前記入力画像の各領域のうち、他の領域と比較して前記被写体の特徴の出現頻度が高い領域を示す特徴領域の情報を含んだ辞書データを作成する作成手段と、
     前記被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データの特徴領域と、前記検出対象画像の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定する判定手段と、
     を有することを特徴とする画像処理装置。
  3.  前記作成手段は、前記入力画像の各領域を前記被写体の特徴の出現頻度に応じて複数の特徴領域に分類し、分類した複数の特徴領域の情報を含んだ辞書データを作成し、前記判定手段は、前記辞書データの各特徴領域と、前記検出対象の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定することを特徴とする請求項2に記載の画像処理装置。
  4.  前記判定手段は、前記辞書データに含まれる各特徴領域のうち前記被写体の出現頻度が高い特徴領域から順に比較することを特徴とする請求項3に記載の画像処理装置。
  5.  画像処理装置が、
     被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶装置に記憶する記憶ステップと、
     入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する前記入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定ステップと、
     を含んでいることを特徴とする画像処理方法。
  6.  画像処理装置が、
     入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する領域ごとに被写体の特徴が現れる頻度を抽出する特徴抽出ステップと、
     前記特徴抽出ステップの抽出結果に基づいて、前記入力画像の各領域のうち、他の領域と比較して前記被写体の特徴の出現頻度が高い領域を示す特徴領域の情報を含んだ辞書データを作成する作成ステップと、
     前記被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データの特徴領域と、前記検出対象画像の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定する判定ステップと、
     を含んでいることを特徴とする画像処理方法。
  7.  前記作成ステップは、前記入力画像の各領域を前記被写体の特徴の出現頻度に応じて複数の特徴領域に分類し、分類した複数の特徴領域の情報を含んだ辞書データを作成し、前記判定ステップは、前記辞書データの各特徴領域と、前記検出対象の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定することを特徴とする請求項6に記載の画像処理方法。
  8.  前記判定ステップは、前記辞書データに含まれる各特徴領域のうち前記被写体の出現頻度が高い特徴領域から順に比較することを特徴とする請求項7に記載の画像処理方法。
  9.  コンピュータに、
     被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶装置に記憶する記憶手順と、
     入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する前記入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定手順と、
     を実行させることを特徴とする画像処理プログラム。
  10.  コンピュータに、
     入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する領域ごとに被写体の特徴が現れる頻度を抽出する特徴抽出手順と、
     前記特徴抽出手順の抽出結果に基づいて、前記入力画像の各領域のうち、他の領域と比較して前記被写体の特徴の出現頻度が高い領域を示す特徴領域の情報を含んだ辞書データを作成する作成手順と、
     前記被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データの特徴領域と、前記検出対象画像の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定する判定手順と、
     を実行させることを特徴とする画像処理プログラム。
  11.  前記作成手順は、前記入力画像の各領域を前記被写体の特徴の出現頻度に応じて複数の特徴領域に分類し、分類した複数の特徴領域の情報を含んだ辞書データを作成し、前記判定手順は、前記辞書データの各特徴領域と、前記検出対象の各領域のうち前記特量領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定することを特徴とする請求項10に記載の画像処理プログラム。
  12.  前記判定手順は、前記辞書データに含まれる各特徴領域のうち前記被写体の出現頻度が高い特徴領域から順に比較することを特徴とする請求項11に記載の画像処理プログラム。
  13.  入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する領域ごとに被写体の特徴が現れる頻度を抽出し、該抽出結果に基づいて判断された、前記入力画像の各領域のうち他の領域と比較して前記被写体の特徴の出現頻度が高い領域を示す特徴領域の情報を含んだ辞書データを記憶する記憶手段と、
     前記被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データの特徴領域と、前記検出対象画像の各領域のうち前記特徴領域に対応する領域とを比較することで、前記検出対象画像に前記被写体が含まれているか否かを判定する判定手段と、
     を有することを特徴とする画像処理装置。
PCT/JP2008/066790 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム WO2010032297A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2008/066790 WO2010032297A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム
JP2010529529A JP4791598B2 (ja) 2008-09-17 2008-09-17 画像処理装置および画像処理方法
US13/064,272 US8509539B2 (en) 2008-09-17 2011-03-15 Image processing apparatus and image processing method
US13/937,680 US8818104B2 (en) 2008-09-17 2013-07-09 Image processing apparatus and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/066790 WO2010032297A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/064,272 Continuation US8509539B2 (en) 2008-09-17 2011-03-15 Image processing apparatus and image processing method

Publications (1)

Publication Number Publication Date
WO2010032297A1 true WO2010032297A1 (ja) 2010-03-25

Family

ID=42039151

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/066790 WO2010032297A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム

Country Status (3)

Country Link
US (2) US8509539B2 (ja)
JP (1) JP4791598B2 (ja)
WO (1) WO2010032297A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120121192A1 (en) * 2010-11-15 2012-05-17 Samsung Electronics Co., Ltd. Method and apparatus for image search using feature point
CN105574157A (zh) * 2015-12-16 2016-05-11 广东欧珀移动通信有限公司 一种照片存储方法及设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9530144B2 (en) * 2010-05-28 2016-12-27 Rakuten, Inc. Content output device, content output method, content output program, and recording medium having content output program recorded thereon
US8326001B2 (en) * 2010-06-29 2012-12-04 Apple Inc. Low threshold face recognition
US9202108B2 (en) * 2012-04-13 2015-12-01 Nokia Technologies Oy Methods and apparatuses for facilitating face image analysis
US10049273B2 (en) * 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
CN107066943B (zh) * 2017-03-06 2019-10-25 中国科学院信息工程研究所 一种人脸检测方法及装置
USD837914S1 (en) 2017-09-15 2019-01-08 Karsten Manufacturing Corporation Golf club head

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62217390A (ja) * 1986-03-18 1987-09-24 Fujitsu Ltd 順変換テ−ブルを用いたパタ−ン整合方式
JPH10162143A (ja) * 1996-12-04 1998-06-19 Omron Corp 類似度算出装置
JP2004246618A (ja) * 2003-02-13 2004-09-02 Toshiba Corp パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829384B2 (en) * 2001-02-28 2004-12-07 Carnegie Mellon University Object finder for photographic images
US7263220B2 (en) * 2003-02-28 2007-08-28 Eastman Kodak Company Method for detecting color objects in digital images
JP4507679B2 (ja) * 2004-04-21 2010-07-21 富士ゼロックス株式会社 画像認識装置、画像抽出装置、画像抽出方法及びプログラム
US7848566B2 (en) * 2004-10-22 2010-12-07 Carnegie Mellon University Object recognizer and detector for two-dimensional images using bayesian network based classifier
US8503800B2 (en) * 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
JP2007072620A (ja) * 2005-09-05 2007-03-22 Toshiba Corp 画像認識装置及びその方法
JP5202148B2 (ja) * 2008-07-15 2013-06-05 キヤノン株式会社 画像処理装置、画像処理方法、及びコンピュータプログラム
US8189866B1 (en) * 2008-08-26 2012-05-29 Adobe Systems Incorporated Human-action recognition in images and videos
JP4720880B2 (ja) * 2008-09-04 2011-07-13 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP5384273B2 (ja) * 2009-09-30 2014-01-08 富士フイルム株式会社 カメラ及びカメラの記録方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62217390A (ja) * 1986-03-18 1987-09-24 Fujitsu Ltd 順変換テ−ブルを用いたパタ−ン整合方式
JPH10162143A (ja) * 1996-12-04 1998-06-19 Omron Corp 類似度算出装置
JP2004246618A (ja) * 2003-02-13 2004-09-02 Toshiba Corp パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120121192A1 (en) * 2010-11-15 2012-05-17 Samsung Electronics Co., Ltd. Method and apparatus for image search using feature point
KR20120051952A (ko) * 2010-11-15 2012-05-23 삼성전자주식회사 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치
US8971638B2 (en) * 2010-11-15 2015-03-03 Samsung Electronics Co., Ltd. Method and apparatus for image search using feature point
KR101675785B1 (ko) * 2010-11-15 2016-11-14 삼성전자주식회사 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치
US9519543B2 (en) 2010-11-15 2016-12-13 Samsung Electronics Co., Ltd. Method and apparatus for image search using feature point
CN105574157A (zh) * 2015-12-16 2016-05-11 广东欧珀移动通信有限公司 一种照片存储方法及设备
CN105574157B (zh) * 2015-12-16 2019-03-22 Oppo广东移动通信有限公司 一种照片存储方法及设备

Also Published As

Publication number Publication date
US20130294699A1 (en) 2013-11-07
JP4791598B2 (ja) 2011-10-12
JPWO2010032297A1 (ja) 2012-02-02
US8509539B2 (en) 2013-08-13
US8818104B2 (en) 2014-08-26
US20110216977A1 (en) 2011-09-08

Similar Documents

Publication Publication Date Title
JP4791598B2 (ja) 画像処理装置および画像処理方法
US8358837B2 (en) Apparatus and methods for detecting adult videos
US8639042B2 (en) Hierarchical filtered motion field for action recognition
CN110532866B (zh) 视频数据检测方法、装置、计算机设备及存储介质
EP2605169B1 (en) User detecting apparatus, user detecting method, and a user detecting program
US20180174301A1 (en) Iterative method for salient foreground detection and multi-object segmentation
EP2224357A1 (en) Video segmentation
CN104504397A (zh) 一种基于人脸识别的监控视频摘要方法及系统
US20120114177A1 (en) Image processing system, image capture apparatus, image processing apparatus, control method therefor, and program
JP5900208B2 (ja) 画像処理装置及び画像処理方法
JP2004164624A (ja) 低被写界深度画像セグメンテーションの方法及び機器
JP2008542911A (ja) メトリック埋め込みによる画像比較
JP4719825B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP4947216B2 (ja) 画像処理装置および画像処理方法
JP2007013480A (ja) 監視システム、監視方法、及び監視プログラム
CN104504161B (zh) 一种基于机器人视觉平台的图像检索方法
JP2007213581A (ja) 特徴量分析を使用してデジタル画像データ内のオブジェクト・パーツの位置を推定する方法および装置
JP4802297B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP4743617B2 (ja) 特徴点抽出装置
JP4779057B2 (ja) 画像処理装置および画像処理方法
CN112818728B (zh) 年龄识别的方法及相关产品
JP5283267B2 (ja) コンテンツ識別方法及び装置
Ojo et al. Illumination invariant face detection using hybrid skin segmentation method
CN111832460B (zh) 一种基于多特征融合的人脸图像提取方法及系统
KR101040182B1 (ko) 특징 되먹임을 이용한 얼굴 인식 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08810836

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010529529

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08810836

Country of ref document: EP

Kind code of ref document: A1