WO2004055735A1 - パターン識別方法、その装置及びそのプログラム - Google Patents

パターン識別方法、その装置及びそのプログラム Download PDF

Info

Publication number
WO2004055735A1
WO2004055735A1 PCT/JP2003/016095 JP0316095W WO2004055735A1 WO 2004055735 A1 WO2004055735 A1 WO 2004055735A1 JP 0316095 W JP0316095 W JP 0316095W WO 2004055735 A1 WO2004055735 A1 WO 2004055735A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
detection
unit
model
pattern
Prior art date
Application number
PCT/JP2003/016095
Other languages
English (en)
French (fr)
Inventor
Yusuke Mitarai
Masakazu Matsugu
Katsuhiko Mori
Mie Ishii
Original Assignee
Canon Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002364369A external-priority patent/JP4298283B2/ja
Priority claimed from JP2003416236A external-priority patent/JP4266798B2/ja
Application filed by Canon Kabushiki Kaisha filed Critical Canon Kabushiki Kaisha
Priority to AU2003289116A priority Critical patent/AU2003289116A1/en
Priority to US10/539,882 priority patent/US7577297B2/en
Publication of WO2004055735A1 publication Critical patent/WO2004055735A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Definitions

  • the present invention relates to a method, an apparatus and a program for identifying a pattern of an input signal.
  • a recognition processing algorithm specialized for a specific recognition target is executed by computer software or hardware using a dedicated parallel image processing processor, so that the recognition target and the background are recognized. It is known to detect an object to be recognized from an image including a character.
  • Japanese Unexamined Patent Application Publication No. Heisei 9-251 534 describes that a face area is searched for an input image using a template called a standard face. After that, a method of authenticating a person using a partial template for feature point candidates such as eyes, nostrils, and mouth is disclosed. Also, Japanese Patent No.
  • Japanese Patent No. 29733667 discloses that the shape data is changed when checking the degree of coincidence between the shape data of each face part and the input image. Is disclosed based on the previously determined positional relationship of parts.
  • Japanese Patent Application Laid-Open No. A model is disclosed in which an area model in which a determination element acquisition area is set is moved in an input image, and at each point, the presence or absence of a determination element is determined in the determination element acquisition area to recognize a face.
  • Japanese Patent Application Laid-Open No. H11-15973 and "Rotation Invariant Neural Network-Based Face Detection discloses a method in which, in order to cope with the rotation of a subject, the subject is subjected to a coordinate transformation from its center coordinates, and the rotation is converted to a shift to detect the rotation.
  • a neural network (Neural Network, hereafter referred to as “NN”) that detects the rotation angle of the face is prepared, and the output angle of the NN is calculated.
  • the input image is rotated according to, and the rotated input image is input to the NN that performs face detection.
  • the technology described in Japanese Patent No. 2767814 matches the face candidate group in the input image with a previously stored face structure, but the number of faces in the target input image is one. Or limited to a small number.
  • the size of the face it is assumed that the input image is an image having a somewhat large size, most of the area in the input image being a face area, and having a small background. If such an input image is used, face candidates are created from all eye and mouth candidate groups. Also, the number of face candidates is limited. However, in the case of images taken with a general camera or video, the size of the face may become smaller or the area of the background may become larger. Will be falsely detected. Therefore, if face candidates are created from all the eye and mouth candidate groups by the method described in Japanese Patent No. 2767814, the number of face candidates becomes enormous, and the processing cost required for matching with the face structure increases. I do.
  • the technique described in Japanese Patent No. 29733667 holds the shape data of the iris (eye), the mouth, the nose, etc., first obtains two irises (eyes), and then calculates the mouth, When finding the nose, etc., the search area for face parts such as the mouth and nose is limited based on the position of the iris (eye). In other words, this algorithm does not detect face parts such as the iris (eye), mouth, and nose that make up the face in parallel. Instead, the algorithm first finds the iris (eye) and uses the result to order the mouth, The face part of the nose is detected. This method assumes that there is only one face in the image, and that the iris (eye) is accurately determined. Therefore, if the detected iris (eye) is erroneously detected, the search area for other features such as mouth and nose cannot be set correctly.
  • the accuracy of the latter half face detection NN depends on the accuracy of the former stage NN for detecting the rotation angle. Incorrect output makes face detection difficult. If there are multiple subjects in the image and their rotation angles are different, the input image is rotated and converted at multiple rotation angles, and the converted image is input to the face detection NN and the entire image is converted. Since face detection is performed, the processing cost is greatly increased compared to when detecting an image without rotation.
  • Japanese Patent Publication No. 7-111819 discloses a dictionary pattern in which the characteristic vectors of the patterns of each class are arranged in descending order of the variance of the vector components.
  • a pattern recognition method has been disclosed in which a feature vector is generated from, and matching with dictionary patterns up to the upper N dimensions is performed, and matching is performed with lower dimensions based on the result, thereby reducing processing costs. .
  • Japanese Patent Application Laid-Open Publication No. Hei 10-115543 discloses that feature vectors are extracted from input data and classified into class evenings according to the degree of coincidence with the standard vector in each class.
  • a pattern recognition dictionary creation device and a pattern recognition device have been proposed that reduce the processing cost of matching by performing category classification based on the degree of coincidence between the category standard vector and the feature vector in the cluster. . Disclosure of the invention
  • a pattern extracting method for hierarchically extracting features of input data and identifying a pattern of the input data includes a first feature extracting step of extracting features of a first hierarchy.
  • a pattern identification device for hierarchically extracting the features of the input data and identifying the pattern of the input data includes a first feature for extracting the features of the first hierarchy.
  • Feature extracting means determining means for determining a method of extracting a feature of a second layer higher than the first layer based on a feature extraction result in the first feature extracting step; and determining by the determining means.
  • Second feature extracting means for extracting the feature of the second hierarchy based on the determined method.
  • a pattern identification program for causing a computer to hierarchically extract characteristics of input data and identify a pattern of the input data.
  • a feature extracting step a determining step of determining a method of extracting a feature of a second layer higher than the first layer based on the feature extraction result in the first feature extracting step, and a determining step.
  • FIG. 1A and 1B are diagrams showing a basic configuration of the pattern identification device according to the first embodiment.
  • FIG. 2 is a diagram illustrating a functional configuration of the pattern identification device according to the first embodiment.
  • FIG. 3 is a flowchart showing a processing flow in the first embodiment.
  • FIG. 4 is a diagram showing a face presence image as an identification category in the first embodiment.
  • FIG. 5 is a diagram showing four types of initial feature extraction results.
  • FIG. 6 is a diagram showing each initial feature extraction result at a position where each local feature to be extracted exists.
  • FIG. 7 is a diagram showing a configuration of a basic Convolutional Neural Network.
  • FIG. 8 is a diagram illustrating a functional configuration of a pattern identification device according to the second embodiment.
  • FIGS. 9A and 9B are flowcharts showing the flow of processing in the second embodiment.
  • FIG. 10 is a diagram illustrating a functional configuration of a pattern identification device according to the third embodiment.
  • FIGS. 11A and 11B are flowcharts showing the flow of processing in the third embodiment.
  • FIG. 12 is a diagram showing a block configuration of a computer for realizing the present invention. ⁇ 2003/016095
  • FIG. 13 is a diagram showing a configuration of a pattern detection device according to the fourth embodiment.
  • FIG. 14 is a diagram illustrating an example of a feature detected by each feature detection unit in the pattern detection device according to the first embodiment.
  • FIG. 15 is a flowchart for explaining an operation example of the putter detection device according to the fourth embodiment.
  • FIGS. 16A and 16B are diagrams for explaining a model relating to the right empty V-shaped feature 2-1-1 among the secondary features.
  • FIGS. 17A to 17D are diagrams illustrating an example of a rotated detection model for detecting a secondary feature.
  • FIGS. 18A and 18B are schematic diagrams illustrating a model selection method in the tertiary feature detection model selection unit 1313.
  • FIGS. 19A and 19B are diagrams illustrating an example of an eye detection model for detecting an eye feature in the tertiary feature detection unit 1303.
  • FIG. 20 is a block diagram showing a configuration of an imaging device using the pattern detection device.
  • FIG. 21 is a block diagram illustrating a configuration of a pattern detection device according to the second embodiment of the present invention.
  • FIG. 22 is a flowchart for explaining the operation of the tertiary feature detection model selection unit according to the fifth embodiment.
  • FIG. 23 is a schematic diagram for explaining a method of selecting a detection model in the fifth embodiment.
  • FIG. 24 is a diagram illustrating a change in the rotation angle of the detection model in each layer in the fifth embodiment.
  • FIG. 25 is a block diagram showing the configuration of the pattern detection device according to the sixth embodiment. Five
  • FIG. 26 is a diagram showing an outline of two rotation angles ⁇ and 0a ⁇ 0 ⁇ in the sixth embodiment.
  • FIG. 27 is a block diagram illustrating a configuration of the pattern detection device according to the seventh embodiment.
  • FIG. 28 is a flowchart for explaining the operation of the pattern detection device.
  • 29A to 29D are diagrams for explaining an example of a target image for face area detection.
  • FIG. 30 is a diagram for explaining an example of “parameters” used for face area detection.
  • FIGS. 31 ⁇ and 3IB are diagrams for explaining the difference in the eye characteristic detection model depending on the position in the target image of the limited area detection.
  • FIGS. 32A and 32B are diagrams for describing the setting of a confirmation pattern for face area detection.
  • FIGS. 33A and 33B are diagrams for describing detection of a character string by the function of the pattern detection device.
  • FIG. 34 is a block diagram illustrating a configuration of the information processing device according to the eighth embodiment.
  • Fig. 35 is a diagram for explaining the Convolutional neural network structure.
  • FIG. 36 is a flowchart for explaining the operation of the information processing apparatus.
  • FIG. 37 is a diagram for schematically explaining feature detection weight data in the information processing device.
  • FIG. 38 is a block diagram illustrating the configuration of the information processing device according to the ninth embodiment.
  • FIG. 39 is a diagram for schematically explaining the size changing function.
  • the identification category a face presence image in which the vicinity of the center of the face is almost at the center of the input image as shown in i to iv of FIG. Assuming a face-absence image as an image, a method for identifying one of the above two categories with respect to the input image data will be described.
  • an image includes a face
  • the present invention is not limited to this, and the present invention is also applicable to other image patterns and cases where the input data is audio data.
  • the present embodiment for the sake of simplicity, only a single category of face is identified as to whether or not it is within that category. However, instead of such a single category, a plurality of categories are used. Can also be applied when identifying
  • FIG. 1A shows the basic configuration of the pattern identification device.
  • an outline of the pattern identification device will be described with reference to FIG. 1A.
  • the data input unit 11 in FIG. 1A inputs input data for performing pattern identification.
  • the hierarchical feature extraction processing unit 12 is a processing unit that hierarchically extracts features from input data and identifies patterns of input data, and performs a primary feature extraction process. It has a feature extraction processing unit 122 and a secondary feature extraction processing unit 122 that performs secondary feature extraction processing.
  • the extraction result distribution analysis unit 13 analyzes the distribution of the feature extraction results extracted by the primary feature extraction processing unit 121. -PT / JP2003 / 016095
  • a data input unit 11 inputs data for performing an identification process.
  • the input data is subjected to hierarchical feature extraction processing in the hierarchical feature extraction processing unit 12.
  • a primary feature extraction processing unit 121 hierarchically extracts a plurality of primary features from input data.
  • the distribution of at least one type of primary feature extracted in the primary feature extraction processing section 121 is analyzed in the extraction result distribution analysis section 13 and, based on the analysis result, the secondary The secondary feature extraction is performed in the primary feature extraction processing unit 122.
  • FIG. 1B shows another basic configuration of the pattern identification device.
  • an outline of the personal identification device will be described with reference to FIG. 1B.
  • a data input unit 11 inputs input data for performing pattern identification.
  • the hierarchical feature extraction processing unit 12 is a processing unit that performs feature extraction hierarchically from the input data and identifies the pattern of the input data, and performs primary feature extraction processing.
  • the processing unit includes a processing unit 121 and a secondary feature extraction processing unit 122 that performs a secondary feature extraction process.
  • the extraction result distribution analysis unit 13 analyzes the distribution of the feature extraction results extracted in the primary feature extraction processing unit 121.
  • the category-by-category calculation unit 14 is a processing unit that calculates the likelihood of each category of the secondary feature from the analysis result analyzed by the extraction result distribution analysis unit 13. '
  • a data input unit 11 inputs a data to be subjected to identification processing.
  • the input data is subjected to hierarchical feature extraction processing in the hierarchical feature extraction processing unit 12.
  • a primary feature extraction processing unit 121 hierarchically extracts a plurality of primary features from input data.
  • the extraction result distribution of at least one type of primary feature extracted in the primary feature extraction processing unit 121 is analyzed in the extraction result distribution analysis unit 13.
  • the category-based likelihood calculation unit Based on the results analyzed by the extraction result distribution analysis unit 13, the category-based likelihood calculation unit performs a secondary feature extraction processing unit 1 22. The likelihood of each category of the secondary feature to be extracted is calculated, and the secondary feature extraction processing unit 122 determines that the calculated likelihood is greater than or equal to a predetermined value. Perform feature extraction.
  • FIG. 2 shows a functional configuration of the personal identification device according to the present embodiment.
  • FIG. 3 shows a processing flow in the present embodiment.
  • the solid arrows in FIG. 2 indicate the flow of actual signal data, and the broken arrows indicate not the actual signal data but the flow of command signals such as operation instructions. The same expression is used in FIGS. 8 and 10 described later.
  • step S301 image data to be identified is input from the image input unit 21.
  • a grayscale image is used as input image data, but an RGB color image or the like may be used.
  • the initial feature extracting unit 22 extracts at least one initial feature such as an edge in a specific direction in the input image.
  • the local feature extraction unit 23 uses the initial features extracted by the initial feature extraction unit 22 to generate local information such as an edge line segment having a specific length and an end point of the edge line segment. Features are extracted.
  • the partial feature extraction unit 24 extracts the partial features such as the eyes and the mouth using the local features extracted by the local feature extraction unit 23.
  • step S305 the distribution of the partial features extracted by the partial feature extraction unit 24 in the image is analyzed by the partial feature distribution determination unit 25.
  • step S306 the partial feature distribution determination unit 25 issues a start command to the face extraction unit 26 according to the analysis result, and turns on the flag of the face extraction module to be started.
  • the face extraction unit 26 is a processing unit that extracts a face using the partial features extracted by the partial feature extraction unit 24.
  • the face extraction unit 26 is composed of a plurality of modules that perform face extraction corresponding to a specific size and orientation. Only those modules that have received face extraction.
  • the face extraction processing is sequentially performed by the face extraction module whose flag is on, and the flag of the face extraction module that has performed the face extraction is turned off. When there are no more face extraction modules with the flag turned on, the face extraction processing ends.
  • the detection result output unit 27 integrates the face extraction results obtained by the face extraction module to determine whether the input image is a face presence image or a face absence image. And output the result.
  • the initial features extracted from the input image be features that are constituent elements of the features extracted in the local feature extraction unit 23 that is a higher hierarchy.
  • filtering processing is performed at each position of the input image using a differential filter in a vertical direction, a horizontal direction, a diagonally rising right direction, and a diagonally rising left direction, and a vertical edge, a horizontal edge, a diagonal edge Extract four kinds of features such as
  • the filtering process is performed as described above.
  • the features are extracted by performing template matching at each position of the input image using a template image or the like that shows initial features prepared in advance. It does not matter.
  • the features extracted here are stored as information such as the type of the feature, the position in the image, the likelihood of the feature to be extracted, and the feature detection level.
  • features as shown in FIGS. 5A to 5D are extracted from the input image.
  • a shows the vertical edge extraction result
  • b shows the horizontal edge
  • c shows the right diagonal edge
  • d shows the left diagonal edge extraction result.
  • the position where the result of performing the filtering at each position of the image is 0 is gray, the positive value is represented as a high luminance value, and the negative value is represented as a low luminance value. In other words, the brightness value is higher in the image in Fig. 5.
  • the positions where the edges are extracted in the direction corresponding to the type of each filter are extracted. Conversely, the position where the luminance value is shown low is the position where the edge in the direction opposite to the direction corresponding to the type of each filter exists.
  • the gray part which is an intermediate value of the luminance, indicates a position where no edge is extracted.
  • a differential filter is used for feature extraction, so the absolute value of the filtered value indicates the sharpness of the edge. That is, in the input image, the position where the change in the luminance value is large in the direction according to the type of the filter is indicated as a high luminance value or a low luminance value.
  • the local features extracted using the initial feature extraction result extracted in the initial feature extraction unit 22 are similar to the features extracted in the initial feature extraction unit 22 in the upper layer. It is desirable that the feature is a component that is a component of a feature extracted in a certain partial feature extraction unit 24.
  • the local feature extraction unit 23 since the eyes and the mouth are extracted by the partial feature extraction unit 24, the local feature extraction unit 23 includes a portion surrounded by a circle from (1-1a) to (11-d) in FIG. There are two types of edge line end points, such as the outer corner of the eye, the inner corner of the eye, and both ends of the mouth, as shown in Fig. 2. Extract two types of edge segments with a specific length, which are the features corresponding to the lower part.
  • (11a) to (11d) in Fig. 6 are the results of initial feature extraction at the position where the left end point (the left eye's inner corner is shown).
  • (1-1a) is the extraction result of vertical edge
  • (1-1b) is the horizontal edge
  • (l-c) is the diagonal right edge
  • (1-d) is the extraction result of diagonal left edge .
  • Others (2-a) through (2-d) are the extraction results of each initial feature (vertical, horizontal, right-right diagonal, left diagonal edge) at the position where the right end point (the end point of the mouth in the figure) exists.
  • (3-a) to (3-d) are the upper part of the eye and upper lip (the upper part of the right eye is shown), (4-a) to (4-1d) are the lower part of the eye and lower lip (the lower part of the lip is shown) )
  • Each initial feature at the position (vertical, horizontal, diagonal right, diagonal left edge) is the extraction result.
  • a unique two-dimensional mask is prepared in advance for each feature extracted by the initial feature extraction unit 22, and as shown in FIGS.
  • filtering processing composition operation
  • each feature is extracted.
  • the unique two-dimensional mask prepared in advance is the distribution of the initial feature extraction results at the position where the feature is to be extracted, for example, the feature such as the left end point, that is, (11-a) to (1-d) are supported.
  • the distribution of the initial feature extraction results is a distribution of the initial feature extraction results peculiar to the position where the feature to be extracted exists, a two-dimensional mask with a high filtered value is used. Set.
  • a method of setting a two-dimensional mask simply provide a plurality of test patterns and, if the given test pattern is a feature to be extracted, set the two-dimensional mask so that the result of filtering becomes high. If the value of each element of the mask is adjusted, and if it is not a feature to be extracted, it may be set by adjusting the value of each element of the two-dimensional mask so that the filtered value becomes a low value. . As another method, the value of each element of the two-dimensional mask may be set by using the knowledge possessed in advance.
  • the features extracted by performing the above processing are stored as information such as the type of the extracted feature, the position in the image, the likelihood of the feature to be extracted, and the feature detection level, as in the initial feature extraction unit 22. .
  • the positions of the extracted features and a two-dimensional mask unique to each feature are used.
  • Each initial features Filing is performed on the features, and the result is integrated and recorded as the likelihood of the feature.
  • the processing in the partial feature extraction unit 24 is the same as the processing in the local feature extraction unit 23, and the extraction of a plurality of local features extracted in the local feature extraction unit 23 which is the feature extraction result of the lower layer Extract partial features from the results.
  • the partial features to be extracted are desirably the features extracted in the face extraction unit 26 which is the upper hierarchy, that is, the features that are the constituent elements of the face in the embodiment.
  • the partial feature extraction unit 24 extracts an eye, a mouth, and the like.
  • the extraction process is the same as the extraction method in the local feature extraction unit 23, and the feature may be extracted by filtering using a specific two-dimensional mask.
  • eyes and mouths are extracted depending on whether or not a feature having a likelihood of a certain value or more has a specific spatial arrangement relationship. You may.
  • the eyes and mouth extracted as described above are also stored as information such as the type of the extracted feature, the position in the image, the likelihood and the feature amount of the feature to be extracted.
  • the result of filtering the local feature extraction result using a unique two-dimensional mask for each eye and mouth is integrated at each position in the image, Hold as likelihood.
  • the partial feature distribution determination unit 25 performs a simple distribution analysis on the feature extraction result extracted by the partial feature extraction unit 24, and based on the result, the face extraction unit 26 A start instruction is given to one or more face extraction modules.
  • the analysis performed here is different from the processing performed by the initial feature extraction unit 22 to the partial feature extraction unit 24, and extracts necessary conditions for each predetermined face extraction module to which an activation instruction is given. For example, in the present embodiment, whether or not eyes are extracted by the processing of the partial feature extraction unit 24 in the vicinity of predetermined coordinates of the input image, PT / JP2003 / 016095
  • an analysis to determine whether or not it has been extracted an analysis to determine whether the center of gravity of the mouth extraction result by the processing of the partial feature extraction unit 24 is near predetermined coordinates, or An analysis is performed to determine whether the total eye likelihood as a processing result is equal to or greater than a predetermined value.
  • fluctuation refers to a change in a characteristic obtained by, for example, an affinity conversion such as a rotation conversion or a size conversion, or a conversion corresponding to when a face is turned sideways.
  • the center of gravity of the mouth extraction result is located at the lower left position from the center of the image, and the center of gravity of the eye extraction result is A condition such as the presence of the center of gravity of the extraction result at the upper right position is set as one of the necessary conditions of the face extraction module corresponding to the clockwise in-plane rotation fluctuation.
  • Several such analyzes are performed, and a start command is issued to a predetermined face extraction module that satisfies the conditions of the analysis.
  • the analysis of the center of gravity, the analysis of the total likelihood, and the like may be performed within a predetermined range, for example, at a position where an eye is predicted to be present. Further, comparison of two or more features with respect to the cumulative likelihood may be performed.
  • the predetermined face extraction module that received the activation instruction from the partial feature distribution extraction unit 25 uses the eye and mouth extraction results extracted by the partial feature extraction unit 24 to extract the partial A feature extraction process similar to that of the feature extraction unit 24 is performed.
  • Modules that respond to specific fluctuations include, for example, fluctuations due to size (Fig. 4), fluctuations due to in-plane rotation (Fig. 4 iii), lateral movement of the face (iv in Fig. 4), fluctuation due to vertical vibration, etc.
  • a specific two-dimensional mask is prepared in advance for each module corresponding to the above-described variation, and only the module that has received the activation instruction performs the filtering process using the specific two-dimensional mask. .
  • the setting of the two-dimensional mask is the same as that described in the local feature extraction unit 23, and a face having a specific variation corresponding to the module is used as a test pattern so as to specialize in the variation corresponding to each module. Set by giving.
  • the detection result output unit 27 receives the activation command, performs face extraction processing, and performs final classification of the input image from the result of filtering by the module corresponding to the fluctuation.
  • the determination here is not limited to this method, and for example, the final determination may be made by integrating the output values of the activated modules. Specifically, the output value of the module corresponding to the rotation fluctuation in the clockwise plane is given a predetermined weight, and the output value of the module corresponding to the rotation fluctuation in the counterclockwise plane, which is the opposite category of the fluctuation, is given a predetermined weight. In this case, it is possible to reduce erroneous discrimination by suppressing the mutual output between modules whose fluctuations are contradictory.
  • the output value of the module corresponding to the face of a specific size is given a predetermined weight by the output value of the module corresponding to the face having a size slightly larger than the specific size, which is a similar category as the variation. And add, etc.
  • the threshold for discrimination can be set high, and as a result, erroneous discrimination can be reduced.
  • values obtained by weighting and adding the output values of two or more modules of similar categories as described above, or simply performing arithmetic averaging, etc. correspond to intermediate fluctuations between categories.
  • the first embodiment uses two-dimensional image data as input data and identifies whether or not the image data belongs to a specific category. Assuming a face-existing image at the center of the image and a face-absent image of the other images, an example of a method to identify which of the above two categories corresponds to the input image data It was explained as.
  • a method of detecting a position in an image using a two-dimensional image data as input data will be described.
  • processing for detecting a face in an image is performed.
  • the present invention is not limited to this.
  • Other image patterns and input data may be used as audio data. It is also applicable to cases where It is also applicable to cases where multiple categories of objects are detected.
  • a basic configuration of a Convolutional Neural Network (hereinafter referred to as CNN) is used after being changed.
  • Figure 7 shows the configuration of a basic CNN. Use Fig. 7 for basic processing of CNN To explain. In FIG. 7, the processing flow is such that the left end is input and the processing is performed in the right direction.
  • Reference numeral 71 in FIG. 7 denotes a pixel value distribution corresponding to the luminance value and the like of the input image.
  • reference numerals 72, 74, 76, and 78 denote feature detection layers, and each layer includes L7 ⁇ 21, L7 ⁇ 22, L7 ⁇ 23, L7 ⁇ 24, L7 ⁇ 4 L7 ⁇ . 42, L7 • 43, L7 • 44, L7 • 61, L7 • 62, L7-81 are the characteristic detection cell surfaces.
  • 73, 75, and 77 are feature integration layers, and L7, 31, L7 ⁇ 32, L7 ⁇ 33, L7 ⁇ 34, L7 '51, L7 ⁇ 52, L7 '53 in each layer L7'54, L7'71, L7'72 are features of the integrated cell surface.
  • Each feature detection cell surface in the feature detection layer has a feature detection neuron for detecting a specific feature.
  • Each feature detection neuron has a local range corresponding to the position of the feature detection neuron, and the feature detection result of the previous stage layer, that is, if the feature detection neuron in the feature detection layer 74 is L7 ⁇ 31, From the feature extraction results up to L7 ⁇ 34, if the feature detection neurons are in the feature detection layer 72, they are connected to the input image 71 with a unique weight distribution for each feature detection cell plane.
  • This weight corresponds to the differential filter for extracting an edge and the two-dimensional mask for extracting a specific feature described in the first embodiment, and as described in the first embodiment.
  • Each feature detection neuron performs weighted addition with a predetermined weight on the feature extraction result on each feature cell surface that is the connection destination, or the brightness value of the input image if the feature detection layer 72, and calculates its value.
  • Non-linear function such as hyperbolic tangent function 6095
  • the feature is detected by using the value converted by the function as the output value of the feature detection neuron.
  • each feature detection neuron in L 7 ⁇ 2 1 adds a weighted addition corresponding to the differential filter to the luminance value of the input image. Then, at the position where a vertical edge exists in the input image, the value of the operation result performed by the feature detection neuron in L 7 ⁇ 2 1 becomes large, indicating a high output value, that is, the feature is detected. Will be successful.
  • the other feature detection cell surfaces are configured such that the feature detection neuron has a high output value at a position where a specific feature is detected on each feature detection cell surface.
  • the nonlinear conversion is generally performed as described above, but the present invention is not limited to this.
  • Each feature-integrated cell surface in the feature-integration layer is connected to one feature-detection cell surface of the feature detection layer, which is the previous stage, and is combined with the feature detection result in the previous stage in a local range, It has a feature-integrating neuron that blurs (integrates) the detection result.
  • Each feature-integrated neuron basically performs the same operation as the above-described feature detection neuron, except that the weight distribution corresponding to a specific two-dimensional mask is Gaussian Filter or Low-Pass Filter. It is a sign.
  • CNN's network is to gradually detect higher-order features from the initial features and finally categorize the inputs.
  • the structure is By detecting higher-order features from the input image by the processing described above, a specific image can be detected.
  • CNN is characterized by its ability to perform robust discrimination against various pattern variations by hierarchical feature extraction and blurring of the feature integration layer.
  • FIG. 8 shows a configuration of a processing unit in the present embodiment. Things.
  • FIGS. 9A and 9B show the flow of processing in the present embodiment.
  • the process in the present embodiment will be described with reference to FIGS. 8 and 9A and 9B.
  • the image input unit 801, the initial feature extraction unit 802, the local feature extraction unit 803, and the partial feature extraction unit 804 in FIG. 8 correspond to the image input unit 21, the initial feature extraction unit 804 in the first embodiment, respectively. This is the same as the feature extraction unit 22, the local feature extraction unit 23, and the partial feature extraction unit 24.
  • the processing in steps S901 to S904 is the same as the processing in steps S301 to S304 in FIG.
  • an RGB color image is used in the image input unit 801, and an RGB color image converted to a grayscale image is used as an input of the initial feature extraction unit 802 in the next layer.
  • the above-described processing by CNN is used for feature extraction, and each feature extraction unit performs feature detection by the feature detection layer and integration of the features detected by the feature integration layer.
  • the types of features extracted by the local feature extraction unit 803 and the partial feature extraction unit 804 are the same as those in the first embodiment.
  • a unique weight distribution for each feature-detecting cell surface for detecting each of the features can be obtained by inputting a plurality of test patterns as input, similarly to the method of setting a unique two-dimensional mask described in the first embodiment. And use the one set by learning.
  • the feature extracted by the initial feature extraction unit 801 does not use a previously defined feature, and the error backpropagation method is used when learning the feature detected by the local feature extraction unit 802.
  • the weight distribution specific to each feature detection cell surface for detecting a local feature is learned, and the weight distribution specific to each feature cell surface for detecting an initial feature is automatically set.
  • the initial feature extraction unit 801 extracts the features that constitute the local features detected by the local feature extraction unit 802 and are necessary to detect the local features.
  • the connection weight distribution with the input image 71 can be automatically set. 2003/016095
  • step 905 the same processing as the above feature extraction method is performed by the first face extraction unit 805 on the eyes and mouth extraction results extracted by the partial feature extraction unit 804. And extract the faces in the image.
  • the face candidate presence determination unit 806 determines that a face candidate exists there (step S 906).
  • the number of face candidates is set to Count (step S907), and the coordinates of the face candidate existence positions determined to have face candidates are sequentially output, and the skin color region extraction unit 807 and partial feature distribution determination A start command is issued to the unit 808 (step S908).
  • the skin color region extraction unit 807 receives the activation command from the face candidate presence determination unit 806, and extracts a skin color region from the input image in a range based on the face candidate presence position coordinates (step S909) ).
  • the partial feature distribution determination unit 808 determines the distribution of the partial feature extraction result in the range based on the face candidate existence position coordinates (Step S910), and, similarly to the first embodiment, activates the face to be activated.
  • the flag of the extraction module is turned on (step S911).
  • the partial feature distribution determination unit 808 of the present embodiment differs from the partial feature distribution determination unit 25 of the first embodiment in that not only the feature extraction result in the partial feature extraction unit 804 but also skin color region extraction Utilizing the skin color region extraction results of the unit 807, the analysis of the simple distribution of those feature extraction results is performed, and the second is composed of a face extraction module corresponding to multiple variations.
  • This is a processing unit that issues a start command to the face extraction unit 809.
  • one face extraction module in the present embodiment corresponds to one feature detection cell surface in the CNN.
  • the second face extraction unit 809 performs face extraction by a face extraction module corresponding to the variation, as in the first embodiment. That is, the face extraction module with the flag turned on sequentially performs face extraction processing at the coordinates of the face candidate existence position, and turns off the flag of the face extraction module that has performed face extraction (step S91). 1 to 9 14).
  • the face extraction processing in the present embodiment differs from the first embodiment in that not only the eye / mouth feature extraction results extracted by the processing in the partial feature extraction unit 804 but also the local feature extraction unit 803
  • the feature extraction result corresponding to the upper part of the eyes and upper part of the lips extracted in and the skin color area extraction result extracted by the skin color area extraction unit 807 is used to extract a face corresponding to the specific variation.
  • the detection result output unit 810 outputs a result indicating where the face is in the input image based on the face extraction result in the second face extraction unit 809. That is, the output results of each module are integrated (step S914), the detection result at the face candidate existence position is output (S916), and the process loops to the detection at the next face candidate existence position (step S91). 9 17 to 9 18).
  • the face extraction processing performed by the first face extraction unit 805 is the same as the feature extraction processing performed by the local feature extraction unit 803 and the partial feature extraction unit 804.
  • the face extraction here is different from the face extraction unit 26 in the first embodiment in that it does not have a plurality of face extraction modules corresponding to fluctuations, but is composed of only one module. Also, in the present embodiment, unlike the first embodiment, in order to detect where the face is in the image, the face is not extracted only near the center of the image. Perform face extraction.
  • the unique weight distribution combined with the partial feature extraction result extracted by the partial feature extraction unit 804 of each face detection neuron used in the extraction process is a face with various fluctuations, that is, i to iv in FIG.
  • the setting is performed by learning given faces with various fluctuations as test data, as shown in Fig. 1. By learning in this way, the accuracy is low, such as the possibility of determining non-faces as faces is high, but it is possible to extract faces with various fluctuations with a single module .
  • feature detection is performed using the weight distribution learned as described above, and the results are integrated by the feature integration layer.
  • the face candidate presence determination unit 806 determines a portion that is an output equal to or greater than a predetermined threshold value with respect to the result of the face extraction processing in the first face extraction unit 805. Then, assuming that a face candidate exists at the determined position, the processing of the skin color partial feature distribution determining unit 807 and the partial feature distribution determining unit 808 is performed within the range where the candidate exists. Issue a start command.
  • the skin color region extraction unit 807 receives the activation command from the face candidate presence determination unit 806 and extracts a skin color region near the range where the face candidate exists.
  • a skin color region In this embodiment, in a region where a skin color region is extracted, an RGB color input image is converted into an HSV color system, and only pixels in a specific hue (H) range are extracted as a skin color region. I do.
  • the method for extracting the skin color region is not limited to this, and any other generally known method may be used. For example, the extraction may be performed using the saturation (S) and the luminance (V). Further, in the present embodiment, the skin color area is extracted, but other than that, a hair area or the like may be extracted.
  • the partial feature distribution determining unit 808 performs the same processing as the partial feature distribution determining unit 25 in the first embodiment.
  • the activation instruction is received from the face candidate presence determination unit 806, and the distribution of the predetermined feature extraction result is analyzed in the vicinity of the range where the face candidate exists. I do.
  • a predetermined face extraction module of the second face extraction unit 809 composed of a plurality of face extraction modules corresponding to specific fluctuations is selected, and the face extraction is performed at the face candidate existence position.
  • a start command is given to perform processing.
  • the feature extraction results analyzed by the partial feature distribution determination unit 806 are the eye and mouth extraction results extracted by the partial feature extraction unit 804, and the skin color region extraction results by the skin color region extraction unit 807. .
  • the analysis performed here is the same as that described in the first embodiment, and each module corresponding to the fluctuation, which constitutes the second face extraction unit 809, should satisfy when there is a face Perform processing to extract necessary conditions. 6095
  • the skin color region extraction result is used, some analysis of the result will be described.
  • the simplest example is to analyze the area of the extracted flesh-tone area.
  • the aspect ratio of the region extracted as the skin color is analyzed, and the relative position of the center of gravity of the upper half skin color extraction region and the center of gravity of the lower half skin color extraction region of the region where the face candidate is determined to be present.
  • the positional relationship may be analyzed.
  • the first example is one of the requirements for a specific size face extraction module, depending on its area.
  • the second example can be set as one of the requirements for a module that supports horizontal and vertical swing of the face
  • the third example can be set as one of the requirements for a module that supports in-plane rotation of the face.
  • the area of the area where the eyes are extracted is compared with the area of the skin color area, or the area where the eyes are not extracted.
  • An analysis may be performed such as a comparison between the area of the skin color region and the area of the skin color region, and a comparison between the area of the region where no eyes are extracted and the area of the skin color region.
  • the analysis may be performed only in a specific area as described in the first embodiment.
  • the area of a non-skin color area may be analyzed in an area considered to be the position of the hair.
  • the second face extraction unit 809 is a processing unit similar to the face extraction unit 26 of the first embodiment, and is composed of a plurality of face extraction modules corresponding to specific variations.
  • the present embodiment unlike the first embodiment, not only the eye and mouth extraction results by the partial feature extraction unit 804 but also the skin color extraction results by the skin color region extraction unit 807 and the first face extraction unit
  • the face is extracted at the face candidate location using the feature extraction result corresponding to the part.
  • the feature extraction result of the immediately preceding hierarchy not only the feature extraction result of the immediately preceding hierarchy, but also the feature extraction results in the same hierarchy (here, the first face extraction result) and the outside of the hierarchical feature extraction framework
  • the inserted feature extraction result here, the skin color region extraction result
  • the feature extraction result in the hierarchy before the immediately preceding hierarchy here, the feature extraction result corresponding to the upper part of the eyes and the upper lip
  • the accuracy of feature extraction can be improved by using the feature extraction result of the later-stage layer, which will be described in the form, as a supplementary feature at the time of feature extraction.
  • the processing cost is increased, but the second face extraction unit 800 is used only at the position where the face candidate exists in the module that has received the activation instruction from the partial feature distribution determination unit 808. Since the nine feature extraction processes are performed, the increase in processing costs can be minimized.
  • the detection result output unit 810 is a processing unit similar to the detection result output unit 27 in the first embodiment, and constitutes a second face extraction unit 809. From the result of performing the feature extraction process in response to the activation command from the partial feature determination unit 808 of the module, it is determined at which position in the image the face is located, and the result is output. Also in this case, as described in the first embodiment, highly accurate detection can be performed by integrating outputs of a plurality of modules.
  • the second embodiment has described an example in which two-dimensional image data is used as input data and a face is detected in a method of detecting a specific target in the image.
  • the third embodiment of the present invention is a modification of the second embodiment.
  • processing for detecting a face in an image is performed.
  • the present invention is not limited to this, and other image patterns and audio data are detected.
  • FIG. 10 shows the configuration of the processing unit in the present embodiment.
  • FIGS. 11A and 11B show the flow of processing in this embodiment.
  • the configuration of the basic processing of this embodiment is the same as that described in the second embodiment.
  • the processing in this embodiment will be described with reference to FIG.
  • step S910 of the second embodiment Since it is exactly the same as that of 9909, its description is omitted.
  • the partial feature distribution determining unit 108 is also the same as the partial feature distribution determining unit 808 in the second embodiment, but the second face extraction is performed in accordance with the analysis result of the distribution of the feature extraction result.
  • the part 1 010 is composed of a partial feature extraction module that gives a start instruction to the face extraction module corresponding to a plurality of variations to perform a face extraction process at the face candidate existence position and that supports a plurality of variations. Also, a start command is issued to the second partial feature extraction unit 101. That is, the distribution of the partial feature extraction result in the range based on the face candidate existence position coordinates is determined (step S111), and the flag of the activated face extraction module is turned on (step S111).
  • the second partial feature extracting unit 101 is composed of a plurality of modules for extracting a partial feature corresponding to a specific variation, and receives a start instruction from the partial feature distribution determining unit 1008.
  • the partial feature is re-extracted only at the specific position determined by the face candidate existence position of the module that received the activation instruction.
  • the partial feature extraction processing is performed at the position determined by the face candidate existence position coordinates (steps S111 13-1). 1 1 4).
  • the second face extraction unit 109 is a processing unit substantially similar to the second face extraction unit 809 of the second embodiment.
  • the partial feature extraction unit 100 4 Face extraction is performed using the extracted features.
  • the face extraction module with the flag turned on performs face extraction at the position where the face candidate exists, and turns off the flag of the face extraction module that has executed the face extraction (steps S111-5-111). 6).
  • the detection result output unit 11010 is exactly the same as the detection result output unit 8100 of the second embodiment, and Steps S1117-1 to 1120 are performed in Step S11 of the second embodiment. The description is omitted because it is exactly the same as 915 to 918. .
  • the partial feature distribution determination unit 1008 is similar to the second embodiment in the process of analyzing the distribution of the partial feature extraction result.
  • a start instruction is issued to a module that extracts a face corresponding to a plurality of changes here. Further, a partial feature corresponding to the change of the face extraction module that has issued the start instruction. Also, a start instruction is issued to the second partial feature extraction unit 1011, which extracts the data. Specifically, for example, when a start command is issued to start the face extraction module corresponding to the clockwise in-plane rotation fluctuation, at the same time, the partial feature extraction module corresponding to the same clockwise in-plane rotation fluctuation , A start command is issued.
  • the second partial feature extraction unit 101 1 is configured by a plurality of modules for extracting a partial feature corresponding to a plurality of fluctuations.
  • a partial feature extraction module corresponding to a module for extracting a face corresponding to a plurality of fluctuations which has received a start instruction from the partial feature distribution determination unit 1008, is activated, and a face candidate exists. Partial features are extracted only in a specific range determined by the face candidate existence position obtained as a result of the determination unit 1006.
  • the feature extraction method is the same as that described in the second embodiment.
  • Each partial feature module basically corresponds to each of the face extraction modules constituting the second face extraction unit. It is not necessary. For example, a feature extraction module corresponding to the front face extraction module may not exist, or a partial feature extraction module may not exist. In such a case, if the activation command is issued to the face extraction module facing the front, the processing in the second partial feature extraction unit 101 1 may not be performed.
  • one partial feature extraction module may correspond to a plurality of types of face extraction modules.
  • a face extraction module that responds to in-plane rotation fluctuations of 15 degrees clockwise and a face extraction module that responds to in-plane rotation fluctuations of 30 degrees clockwise include both fluctuations in one module.
  • the corresponding partial feature extraction module that performs the extraction includes both fluctuations in one module.
  • a feed pack mechanism that controls the operation of the feature extraction module at the lower hierarchical level based on the output of the feature extraction result at the upper hierarchical level is introduced.
  • the partial feature extraction module corresponding to the face extraction module that responds to a specific change, which is activated in the second face extraction more accurate feature extraction is possible. become.
  • the processing cost increases by re-extracting the features, but the processing is performed only at a specific position of the module that received the activation instruction, so the increase in processing cost can be minimized.
  • the processing unit does not extract the mouth, but only extracts the eyes corresponding to the fluctuation. If you want more accurate feature extraction For example, a mouth corresponding to the variation may be extracted, or a type of feature other than the feature extracted by the first partial feature extraction unit 104 may be extracted. Further, the feature extraction here is different from the first partial feature extraction unit 1004.
  • the partial feature extraction unit Eye extraction is also performed using the partial feature extraction result of eyes, mouth, etc. extracted in 104 and the first face extraction result extracted in first face extraction 105.
  • the feature extraction result in the same layer, which is the feature at the same level, and the feature extraction result of the upper layer, which is the feature at the higher level are supplementarily used. This enables more accurate feature extraction processing.
  • the second face extraction unit 1109 basically performs the same processing as the second face extraction unit 809 in the second embodiment.
  • the difference from the second face extraction unit 809 in the second embodiment is that the second partial feature extraction unit 1011, which corresponds to the activated face extraction module and corresponds to the variation
  • the face is not extracted using the partial feature extraction result extracted in the first partial feature extraction unit 1004, but the face is extracted by the second partial feature extraction unit 1011.
  • face extraction is performed using the partial feature extraction results corresponding to the extracted fluctuations.
  • the extraction result of the mouth is the extraction result in the first partial feature extraction unit 1004. Is used.
  • the second partial feature extraction unit 1011 for example, if there is no partial feature extraction module corresponding to the frontal face extraction module, When the activation instruction is issued, the feature is not re-extracted in the second partial feature extracting unit 101.
  • the feature extraction result of the first partial feature extraction unit 1004 may be used as it is.
  • the activated face extraction When the partial feature extraction corresponding to the variation corresponding to the output module is performed, the eye extraction result extracted by the first partial feature extraction unit 1004 is not used. However, in order to further improve the accuracy, this feature extraction result is used. May also be used as a supplement.
  • the third embodiment is a modification of the second embodiment, in which two-dimensional image data is used as input data, and a face is detected by a method of detecting a specific target in the image. This has been described as an example.
  • FIG. 12 is a diagram illustrating an example of a block configuration of an information processing device that implements the present invention. As shown in the figure, this information processing device is composed of a CPU 1201, ROM 1202, RAMI 203, HD disk, single disk) 1204, CD 1205, KB (keypad) 1206, CRT 1207, camera 1208, The network interface (I / ⁇ ) 1209 is configured to be communicably connected to each other via a path 1210.
  • the CPU 1201 controls the operation of the entire information processing apparatus, and controls the entire information processing apparatus by reading and executing a processing program (software program) from an HD (hard disk) 1204 or the like.
  • the ROM 1202 stores a program, various data used in the program, and the like.
  • the RAMI 203 is used as a work area or the like for temporarily storing a processing program and information to be processed for various kinds of processing in the CPU 1201.
  • the HD 1204 is a component as an example of a large-capacity storage device, and stores various data such as model data, a processing program transferred to the RAMI 203 or the like when various processes are executed, and the like.
  • the CD (CD drive) 1205 has a function of reading data stored in a CD (CDR) as an example of an external storage medium and writing data to the CD.
  • a keypad 126 is an operation unit for a user to input various instructions to the information processing apparatus.
  • the CRT 122 displays various instruction information to the user and various information such as character information or image information.
  • the camera 128 captures and inputs an image to be identified.
  • the interface 1209 is used to acquire information from the network and to transmit information to the network.
  • FIG. 13 is a diagram showing a configuration of a pattern detection device according to a fourth embodiment of the present invention.
  • 1300 is a signal input section
  • 1301 is a primary feature detection section
  • 1131 is a primary feature detection filter setting section
  • 1302 is a secondary feature detection section.
  • 1312 is the secondary feature detection model setting unit
  • 1303 is the tertiary feature detection unit
  • 1313 is the tertiary feature detection model selection unit
  • 1323 is the tertiary feature detection model holding
  • 1304 denotes a fourth-order feature detection unit
  • 1314 denotes a fourth-order feature detection model selection unit
  • 1324 denotes a fourth-order feature detection model holding unit.
  • the features of each order shown above indicate local features detected locally, and the features of the higher order include features of the lower order.
  • Fig. 14 shows examples of features detected by the primary to quaternary feature detectors 1301 to 4 respectively.
  • the signal input unit 1300 inputs a signal to be processed such as an image signal (eg, image data).
  • the primary feature detection unit 1301 performs a process for detecting a primary feature, which will be described later, on the signal input from the signal input unit 1300, and outputs the detection result to the secondary feature detection unit 1.
  • the primary feature detection filter setting unit 1311 sets the characteristics of the filter for detecting the primary feature in the primary feature detection unit 13100.
  • the secondary feature detection unit 1302 uses the detection model set by the secondary feature detection model setting unit 1312 for the result detected by the primary feature detection unit 1301, A process for detecting a secondary feature, which will be described later, is performed, and the detection result is passed to the tertiary feature detection unit 133 and the tertiary feature detection model selection unit 1313.
  • the secondary feature detection model setting unit 1312 sets a model that indicates the positional relationship between the two primary features that is used when the secondary feature detection unit 1302 detects secondary features. I do.
  • This model has an attribute related to a predetermined shape, and a plurality of models may be prepared from the beginning.
  • one rotation angle is set as one parameter and one model is set.
  • the model may be created by performing a rotation-affine transformation or the like.
  • the secondary feature is described as a model indicating the positional relationship between two primary features. However, even if there are three or more, the same can be applied.
  • the tertiary feature detection unit 1303 uses the detection model selected by the tertiary feature detection model selection unit 1313 to compare the result detected by the secondary feature detection unit 1302 Perform processing to detect the third-order feature, and pass the detection result to the fourth-order feature detection unit 1304 and the fourth-order feature detection model selection unit 1314.
  • the tertiary feature detection model holding unit 1323 holds a plurality of models having different rotation angles (that is, different inclinations) selected by the tertiary feature detection model selection unit 1313. Then, the tertiary feature detection model selector 1 3 13 3 generates a model indicating the positional relationship between the respective secondary features used when detecting the feature in the tertiary feature detector 1 303.
  • the model is selected and set from the models stored in the feature detection model storage unit 1323 based on the detection result from the secondary feature detection unit 1302.
  • the fourth-order feature detection unit 1304 uses the detection model selected by the fourth-order feature detection model selection unit 1314 to detect the result detected by the third-order feature detection unit 1303 as described below. Performs the process of detecting the fourth-order feature and outputs the detection result. Further, the fourth-order feature detection model holding unit 1324 holds a plurality of models having different rotation angles (that is, different inclinations) selected by the fourth-order feature detection model selection unit 1314. Then, the quaternary feature detection model selection unit 1 3 1 4 generates a model indicating the positional relationship between the tertiary features used when the quaternary feature detection unit 1 304 detects a feature. Based on the detection result from the tertiary feature detection unit 1303, the model is selected and set from among the models stored in the feature detection model storage unit 1324.
  • the pattern detection device detects a predetermined pattern in an image input from the signal input unit 1303 using a detection model for each dimension that is a pattern model.
  • the pattern detection apparatus includes a detection model holding unit (for each dimension) that holds an upper model (for example, a three-dimensional feature detection model) configured by combining a predetermined lower model (for example, a two-dimensional feature detection model).
  • the three-dimensional feature detection model holding unit 1332) is compared with the above-described lower model and the component part of the pattern in the image, and the dimension of each dimension for calculating the feature amount for the component part of the lower model is compared.
  • a feature detection unit for example, a two-dimensional feature detection unit 1302 is compared with the upper model held in the detection model holding unit and the pattern in the image, and a pattern model of the pattern (for example, a three-dimensional Setting unit for setting a feature detection model), and when each lower model constituting the higher model has a predetermined feature amount, the higher model is set as a pattern model of the pattern.
  • Setting unit for example, 1 3 0 3 3 dimensional feature detection unit, characterized in that it comprises a.
  • the pattern detection device includes a detection unit (for example, a primary feature detection unit 13) that detects a partial feature (for example, a primary feature) of the pattern from the image input from the signal input unit 1303. 0 1), and a lower model setting unit (for example, a two-dimensional detection model setting unit 1312) for setting the lower model (for example, a two-dimensional feature detection model) using a predetermined partial model.
  • a detection unit for example, a primary feature detection unit 13
  • a partial feature for example, a primary feature
  • a partial feature for example, a primary feature
  • a lower model setting unit for example, a two-dimensional detection model setting unit 1312
  • the feature detecting unit such as the two-dimensional feature detecting unit 1302 includes a part included in the lower model. The feature is to compare the model with the partial features of the pattern in the image and calculate the feature amount.
  • the above-mentioned pattern detecting device holds a higher-order model (for example, a four-dimensional detection model) formed by combining a plurality of higher-order models (for example, a three-dimensional detection model) (for example, 4
  • the dimensional feature detection model storage unit 1 3 2 4) is compared with the model and a predetermined pattern in the image, and when all of the plurality of higher-order models have the predetermined feature amount, the model is determined.
  • Means for setting a pattern model of a predetermined pattern for example, a four-dimensional feature detection unit 1344), and setting a pattern model of the predetermined pattern in the image using a model having a hierarchical configuration.
  • FIG. 15 is a flowchart for explaining an operation example of the pattern detection device according to the fourth embodiment.
  • an image is used as an input signal and an operation of detecting a face area in the image is taken as an example. The operation will be described.
  • an image signal is input to the image input section 130 (step S201).
  • a primary feature for example, an edge component having directionality
  • a primary feature detection unit 1301 is detected at each position of the input image in the primary feature detection unit 1301 (step S202).
  • FIG. 14 is a diagram illustrating an example of features detected by each of the feature detection units (primary to quaternary feature detection units 1301 to 4) in the pattern detection device according to the fourth embodiment. That is, as shown in FIG. 14, the primary feature detection unit 1301 includes vertical features 111, horizontal features 1-2, right-up diagonal features 131, and right-down diagonal features 114. Detect different four-way component features. In this embodiment, the primary feature is described as a feature in the above four directions, but this is merely an example. Alternatively, other features may be used as primary features for detection of secondary features and thereafter.
  • the setting of the filter used to detect the four features is determined by the primary feature detection filter setting unit 13 in FIG. Done in 1 1.
  • Such feature detection can be performed by performing an enhancement process using a filter that enhances edge components in each direction, for example, a Soverl filter, a Gabor function, or the like.
  • edge enhancement processing independent of direction may be performed in a Laplacian filter or the like, and processing may be performed to further enhance features in each direction.
  • a plurality of these feature detection filters may be prepared from the beginning, or may be created by the primary feature detection filter setting unit 1311 with the direction as a parameter.
  • the detection result in the primary feature detection unit 1301 is output as a detection result image having the same size as the input image for each feature. That is, in the case of the primary feature as shown in FIG. 14, four detection result images having four types of feature components in each of vertical, horizontal, and oblique directions are obtained. Then, the primary feature amount (for example, the number of pixel values equal to or more than a certain value included in the image), which is the value of each position of the detection result image relating to each feature, is checked, and the It can be determined whether the feature exists.
  • the primary feature amount for example, the number of pixel values equal to or more than a certain value included in the image
  • the secondary features are detected by a secondary feature detection unit 1302, a tertiary feature detection unit 1303, and a quaternary feature detection unit 1304 described below. Some examples of secondary, tertiary and quaternary features are also shown.
  • the secondary features are V-shaped right vacant feature 2-1-1-2-1-4, V-shaped left vacant feature 2-2-1-2-2-4, horizontal parallel Line feature 2 — 3—1 to 2—3—4, vertical parallel line feature 2—4—1 to 2—4—4.
  • the names of these features are determined when the face is upright with respect to the image, and the names of the features and the respective features in the actual image are determined by rotating the face.
  • the orientation may be different. That is, in the present embodiment, for example, the setting unit of the lower model represented by the secondary feature detection model setting unit 1311 rotates each of the lower models having the same shape at a plurality of angles. It is characterized in that a plurality of lower models are set.
  • eye features 3-1-1 to 3-1-4 and mouth features 3-2-1 to 3-2-4 there are shown eye features 3-1-1 to 3-1-4 and mouth features 3-2-1 to 3-2-4.
  • a face feature 411-1-1 to 411- -4 and an inverted face feature 4-12-1 are shown.
  • reverse face features corresponding to face features 41-1-2 to 4-11-4 also exist as quaternary features.
  • the primary feature detecting unit 1301 detects four types of primary features at each position by the processing of step S202, and then performs the secondary feature detecting unit.
  • a secondary feature is detected (step S203).
  • a case where the right empty V-shaped feature 2-1-1 shown in FIG. 14 is detected will be described. However, other cases can be similarly realized.
  • FIGS. 16A and 16B are diagrams for explaining a model relating to the right empty V-shaped feature 2-1-11 among the secondary features.
  • this right-open V-shaped feature 2-1-11 has a primary feature, an upward-sloping diagonal feature 1-3, at the top, and a downward-sloping diagonal feature 1-4. Present at the bottom.
  • the detection result of the primary feature obtained in step S 202 is used. It is only necessary to find the position where the downward-sloping oblique feature 1--4 exists, and the right-open V-shaped feature 2-1-1 exists at that position. In this manner, secondary features can be detected by combining a plurality of types of primary features.
  • the size of the face in the image is not a fixed size, and the size of the eyes and mouth varies from person to person, and the eyes and mouth open and close, so the size of the V-shape changes and rotates.
  • the error caused by extraction processing of edges etc. T / JP2003 / 016095
  • Etc. may also occur. Therefore, in the present embodiment, a right empty V-shaped detection model 400 as shown in FIG. 16B is considered. Then, in the right empty V-shaped detection model 400, 403 is defined as a diagonally upward-sloping region, and 404 is defined as a diagonally downward-slant region. Then, among the primary features obtained in step S202 in the upward-sloping diagonal region 400, only the upward-slant diagonal 1-3 exists, and in the downward-slant diagonal region 400, only the downward-slant diagonal 114 exists. If there exists, it is assumed that there is a V-th order feature 2-1-1 at the right. By doing so, it is possible to perform robust processing against a change in size or shape and rotation.
  • the present invention when the center of an image having a right-up diagonal feature exists in the right-up diagonal region 4003 in FIG. 16B, and a right-down diagonal feature exists in the right-down diagonal region 400 If the center of the image exists, the right empty V-shaped feature 2-1 shall exist. It should be noted that the present invention is not limited to the case where the center of the image exists as described above. For example, the image may exist when the entire image having the primary feature is included in each region.
  • the upward-sloping oblique region 403 and the downward-sloping oblique region 404 are not limited to the rectangular shape as shown in FIG. 16B, but may be any shape. This is the same for other areas.
  • FIGS. 17A to 17D are diagrams showing an example of a rotated detection model for detecting a secondary feature. For example, consider a secondary feature detection model in which the four types of secondary feature detection models shown in Figure 17A are rotated 45 degrees counterclockwise and divided into four groups. Fig.
  • FIG. 17A is a set of detection models for detecting the secondary features of a face that has been rotated almost 0 and 180 degrees when the front erect face is 0, and Fig. 17B is the same.
  • a group of detection models for detecting the secondary features of the face rotated by approximately 90 degrees and one hundred and ninety degrees Figure 17C also shows the secondary features of the face rotated by approximately 45 degrees and -135 degrees
  • FIG. 17D shows a detection model group for detecting the secondary features of the face rotated by approximately 144 degrees and 135 degrees.
  • 1-1 to 1-4 indicate regions including images having primary features of the same reference numerals shown in FIG.
  • the detection model groups shown in Figs. 17A to 17D have the V-shaped right-opening feature 2—1—1, the V-shaped left-opening feature 2—2_1, and the horizontal parallel line feature 2—3— 1, and the vertical parallel line feature 2—4–1 Consists of four types of detection models for detecting four types of secondary features, and the number of each detection model is detected by that detection model.
  • the secondary features shown in Fig. 8 are shown.
  • the names of these V-shaped right-sided features, V-shaped left-sided features, horizontal parallel line features, and vertical parallel line features are based on when the face is upright. . Therefore, for example, in Fig. 17A, the horizontal parallel line feature shows two lines extending in the horizontal direction as shown in 2-3-1 and matches the name.
  • the name of the horizontal parallel line feature indicates that, as shown in 2-3-2, two lines that actually extend in the vertical direction To show.
  • the name of the feature may not correspond to the shape indicated by the actual feature due to the rotation.
  • the rectangular areas indicated by reference numerals 1-1 to 1-4 in FIGS. 17A to 17D are areas where the primary features detected in step S202 exist.
  • the reference numerals and the features assigned to each area are the same as those of the primary features shown in FIG. That is, when only the primary feature indicated by the number exists in these rectangular areas, there is a feature detected by the detection model. Therefore, using all these detection models 2003/016095
  • the secondary features can be detected even for a rotated (tilted) face.
  • the setting of the secondary feature detection model is performed by the secondary feature detection model setting unit 1312 in FIG.
  • a plurality of such detection models may be prepared from the beginning, and for example, the face rotated about 0 degrees or 180 degrees shown in FIGS. 17A to 17D may be used.
  • a detection model for detecting the next feature is prepared, and a process of rotating transformation and changing the type of the primary feature to be detected is performed on these models, so that the secondary feature detection filter setting unit 1 3 1 1 May be created.
  • the secondary feature detection unit 1302 detects secondary features using the set detection model. That is, the detection of the secondary features is performed using the values of the primary features constituting the secondary features, and whether or not the value of the primary feature of each region set by the detection model is equal to or greater than the threshold value. You can judge. For example, a case will be described in which a right empty V-shaped feature is detected as a secondary feature at a predetermined position using a right empty V-shaped detection model 2-1-11 for 0 degrees. In this case, as shown in Fig.
  • the maximum value of the right-upward diagonal feature 1-3 existing in the right-upward diagonal region 4 03 is higher than the threshold value, and the right-down diagonal region 4
  • the position value is, for example, an average of the maximum values.
  • the detection result obtained in this way is output as a detection result image having the same size as the input image for each secondary feature.
  • inspection of each feature By looking at the value of each position in the output result image, it can be determined whether each secondary feature in each rotation direction exists at that position in the input image.
  • the feature is that the primary feature is not detected again in each area of the secondary feature detection model. That is, in the detection of the V-shaped right vacant feature 2-1-1, which is one of the secondary features, the upper right skewed area and the lower right sloping area are again detected in the upper right diagonal area and the lower right diagonal area. It does not detect the feature 1-3 and the downward slanting feature 1-1.
  • the detection of these primary features has already been completed in step S202, and in step S203, a threshold is used to determine whether or not each primary feature exists in those regions. Just judge. Then, when it is determined that a plurality of primary features exist in each area, processing is performed to determine that a secondary feature exists at that position.
  • the processing method for detecting this feature is the same for the tertiary feature and the quaternary feature. This makes it possible to reduce the processing cost.
  • the tertiary feature detection model selection unit 1313 selects a tertiary feature detection model (step S204).
  • a tertiary feature detection model For example, consider detecting an eye feature (reference numeral 3—1— :! to 3—1—4 in FIG. 14) from the secondary features detected in step S203.
  • FIGS. 19A and 19B are diagrams illustrating an example of an eye detection model for detecting an eye feature in the tertiary feature detection unit 1303.
  • Fig. 19A is for detecting the eye features (code 3-11 1 shown in Fig. 14) with a rotation of almost 0 or 180 degrees when the face is upright as 0 degrees.
  • Figure 7 shows an eye detection model 700. Eye features with a rotation of almost 0 degrees or 180 degrees are V-shaped right-opening features, which are secondary features with 0-degree rotation, 2-1-1 are on the left side, and V-shaped features on the left are 2--2. It can be detected by satisfying the combination where 1 is on the right and horizontal parallel features 2-3-1 and vertical parallel features 2-4-1 are in the middle of those V-shaped features.
  • the eye detection model 7 0 0 is also a right empty V-shaped feature 2—1-1 1 to detect the right empty V-shaped area 7 0 1 on the left side, and a left empty V-shaped feature 2—2—11
  • a horizontal parallel region 703 that detects horizontal parallel line feature 2-3-1 and a vertical parallel region 704 that detects vertical parallel line feature 2-4-1 exist in the middle of these V-shaped regions It holds.
  • FIG. 19B shows an eye detection model 710 for detecting an eye feature (reference numeral 3-1-2 in FIG. 14) whose rotation is approximately 90 degrees or 190 degrees.
  • An eye feature with a rotation of approximately 90 degrees or 90 degrees is a right-handed V-shaped feature, which is a secondary feature of 90-degree rotation.
  • — 2-2 can be detected by filling the combination that is on the bottom and horizontal and vertical parallel line features 2-3 — 4-2 are in the middle of those V-shaped features.
  • the eye detection model 7110 also has a right empty V-shaped area 7 1 1 for detecting the right empty V-shaped feature 2-1-2, and an empty left V-shaped area 2-2-2 for detecting the left empty V-shaped feature 2-2-2
  • the V-shaped area 7 1 2 is on the lower side, and the horizontal and vertical parallel line features 2_3 to 4 1-2 are detected.
  • the horizontal parallel area 7 13 and the vertical parallel area 7 1 4 are in the middle of those V-shaped areas It is possible to exist. Incidentally, 45 degrees and 135 degrees can be realized in the same manner.
  • the tertiary feature detection unit 1303 uses the tertiary feature detection based on the detection result of the secondary feature detected in step S203.
  • the secondary feature detection model is selected by the tertiary feature detection model selection unit 13 13.
  • the secondary features of all the rotation angles detected in step S203 are set to 2—1 1 1 to 2 —
  • 4-4 it is also possible to detect the tertiary features 3-1--1 to 3-2-4 at all rotation angles shown in Fig.14.
  • that method significantly increases the computational cost.
  • the tertiary feature model used for the detection is selected based on the detection result of the secondary feature detected in step S203, and the tertiary feature detection model selecting unit 13
  • the pattern detection device includes, in the tertiary feature detection unit 1303, a higher-order model that is compared with the pattern based on the feature amount of the lower-order model calculated by the secondary feature detection unit 1302. It further comprises a three-dimensional feature detection model selection unit 1313 for limiting the number of (three-dimensional feature detection models). The same applies to the fourth-order feature detection model selection unit 1314.
  • FIGS. 17A to 17D are schematic diagrams illustrating a method of selecting a model in the tertiary feature detection model selection unit 1313.
  • the graph in Fig. 18A shows the detection result value (correlation value) of the secondary feature at a certain position
  • the horizontal axis shows the rotation angle when the erected time is 0 degree
  • the vertical axis shows the correlation value.
  • the range of the correlation value is from 0 (no correlation) to 1 (maximum correlation).
  • the horizontal axis shows the results of secondary features rotated by -45, 45, and 90 degrees with 0 degrees interposed. This is because, as shown in FIGS. 17A to 17D, the rotation angle at the time of detecting the secondary feature is set at every 45 degrees.
  • the maximum Sn from angles satisfying Sn> S th is set to Sp, and the angle 0 at that time Select p. Then, when the second largest Sn is S q, and S Q> k ⁇ S p is satisfied, the angle ⁇ q at that time is also selected. Furthermore, the third largest Sn is defined as Sr, and when Sr> k '* SQ is satisfied, the angle 0r at that time is also selected.
  • the correlation value exceeds the threshold value, and the angle 0p in the case of the maximum correlation value Sp is selected.
  • the second correlation value is higher than 70% (0.7 Sp) of the maximum correlation value Sp, that is, if Sq;> 0.7 Sp, the second correlation value is higher.
  • the angle of the correlation value of is also selected.
  • the correlation value at this time is SQ.
  • the third correlation value is higher than 70% (0.7 Sq) of the second correlation value, that is, if Sr> 0.7 SQ, the third correlation value Also select the angle.
  • the correlation value at this time is S r.
  • the rotation angle of the tertiary feature to be detected is selected by the above-described selection method. Therefore, when there is no angle exceeding the threshold value, the selected angle is 0. When there is an angle exceeding the threshold value, the rotation angle selected based on the distribution of the correlation value of each angle. And its number is determined. Then, a detection model corresponding to the selected rotation angle is selected.
  • a correlation value is used. May be used to select a predetermined number of models at higher angles. The selection process in this case is performed by the tertiary feature detection model selection unit 1313 of the pattern detection device shown in FIG. 13, and the selected detection model is stored in the tertiary feature detection model storage unit 1323.
  • FIG. 18A shows the correlation value of the secondary feature amount at a certain position for each rotation angle.
  • the tertiary feature detection unit 1303 detects the tertiary feature using the tertiary feature detection model set in step S204 (step S205).
  • the method of detecting each tertiary feature is the same as that in step S203, and each secondary feature detected in step S203 exists in the detection area of the detection model selected in step S204.
  • the tertiary feature is detected by checking whether or not to do so.
  • the detection example of the eye feature which is one of the tertiary features described above with respect to the processing in step S204
  • two types of detection models 0 degrees and 45 degrees, are used at the position.
  • An eye feature which is the next feature, is detected.
  • the detection model of the 0-degree eye feature is as shown by the detection model 700 shown in FIG. 19A described above. That is, in the right empty V-shaped area 7001 in the detection model 700, (1) the correlation value of the detection result of the 0-degree right empty V-shaped feature 2-1-1 of the secondary feature sets the threshold value.
  • the correlation value of other features is relatively low, and (2) Left empty V-shaped feature at 0 degree of secondary feature in left-open V-shaped area 702 2-2-1
  • the correlation value of the detection result exceeds the threshold value, the correlation value of the other feature is relatively low, and (3) the horizontal parallel line at 0 degree of the secondary feature in the horizontal parallel region 703 Feature 2-3-1
  • the correlation value of the detection result exceeds the threshold value, the correlation values of other features are relatively low, and (4) the secondary features in the vertical parallel region 704
  • the above four conditions are satisfied simultaneously when the correlation value of the detection result of the 0-degree vertical parallel line feature 2-4-4-1 exceeds the threshold value and the correlation values of other features are relatively low
  • the detection of the 45-degree eye feature is performed using the 45-degree detection result of the secondary feature detected using the secondary detection model for the 45-degree. Then, these detection results are output to the fourth-order feature detection unit 1304 and the fourth-order feature detection 9 Note is output to the model selection unit 1 3 1 4, these processes are performed in tertiary feature detection unit 1 3 0 3 in the pattern detector of FIG 3.
  • the fourth-order feature detection model selection unit 1314 selects a fourth-order feature detection model (step S206).
  • the selection method here is to select based on the correlation value, as in step S204. For example, suppose that the detection result of the tertiary feature in which 0 degrees and 45 degrees are selected as shown in the description of the processing in step S205 is as shown in FIG. 18B.
  • the 45-degree correlation value is 70% or less of the 0-degree correlation value. Therefore, at this time, the detection model for detecting the facial features is the 0-degree face (the code in FIG. 14).
  • the detection model for detecting 4-1-1) and 180-degree reverse face detection (reference numeral 4-2-1 in FIG. 14) is selected.
  • the fourth-order feature detection unit 1304 detects the fourth-order feature using the fourth-order feature detection model selected in step S206 (step S207).
  • the detection method in this case is the same as in steps S203 and S205.
  • the face feature which is the fourth-order feature
  • the face size detected from the positions of both eyes and the mouth can be detected together with the rotation angle of the face.
  • a detection model for detecting each feature is prepared according to the rotation angle, and the next-stage feature is detected according to the result of detection of the preceding feature.
  • the detection model to be used for detection is selected. Therefore, regardless of the rotation of each feature, the detection ⁇ PT / JP2003 / 016095
  • the effect is that the degree of accuracy is improved, and the detection accuracy of the finally detected pattern is improved.
  • the shape of the eyes and mouth changes depending on the opening / closing operation and facial expressions.
  • the rotation angle of the right open V-shaped feature and the rotation angle of the face may differ.
  • the tertiary and quaternary features are not detected only by the rotation angle at which the correlation value of the secondary feature is maximized.
  • the next stage is performed based on the correlation value.
  • FIG. 20 is a block diagram showing a configuration of an imaging device using the pattern detection device according to the fourth embodiment.
  • An imaging device 2001 shown in FIG. 20 includes an imaging optical system 2002 including an imaging lens and a drive control mechanism for zoom imaging, a CCD or CMOS image sensor 2003, an imaging parameter. Evening measurement section 204, video signal processing circuit 200, storage section 200, control signal generation section 200 that generates control signals for controlling the imaging operation, controlling the imaging conditions, etc. 7.Equipped with a display display 200, which also serves as a finder such as an EVF (Electronic View Finder), a strobe light emitting unit 209, a recording medium 210, etc. Provided as output device 201.
  • EVF Electronic View Finder
  • the imaging device 2001 for example, detection of a face image of a person (that is, detection of the position, size, and rotation angle) of a captured video is performed by a subject detection (recognition) device 201. Perform by 1. Then, when the detected position information of the person is input from the subject detection (recognition) device 201 to the control signal generation unit 207, the control signal generation unit 207 determines the imaging parameter. Based on the output from the measuring section 204, a control signal for optimally performing focus control, exposure condition control, white balance control, and the like for the person is generated.
  • the imaging device 2001 including the above-described pattern detection device as the object detection (recognition) device 201 has been described, but the algorithm of the above-described pattern detection device is naturally used as a program. It is also possible to mount and operate on a CPU and mount it on the imaging device 20001.
  • the features of the pattern to be detected are divided into four layers, the primary features are detected in order from the fourth feature, and the pattern to be detected is confirmed at the end.
  • the number of layers may be three or less, or five or more. This is the same in the second embodiment and a sixth embodiment described later.
  • FIG. 21 is a block diagram showing the configuration of the pattern detection device according to the fifth embodiment of the present invention.
  • 2100 is a signal input section
  • 2101 is a primary feature detection section
  • 2111 is a primary feature detection filter setting section
  • 2102 is a secondary feature detection section
  • 2 1 1 2 is the secondary feature detection model setting section
  • 2 103 is the tertiary feature detection section
  • 2 1 1 3 is the tertiary feature detection model selection section
  • 2 1 2 3 is the tertiary feature detection model holding section
  • 2 1 3 3 is the secondary feature measurement unit
  • 210 4 is the 4th feature detection unit
  • 2114 is the 4th feature detection model selection unit
  • 2 1 2 4 is the 4th feature detection model holding unit
  • 2 1 3 4 indicates a tertiary feature measuring unit.
  • the parts different from the above-described fourth embodiment are basically a secondary feature measuring unit 2 13 3 and a tertiary feature measuring unit 2 13 4, and a tertiary feature detection model selection unit 2 1 1 3, and a quaternary feature detection model selection unit 2 1 1 4.
  • the tertiary feature detection model selector 1313 based on the output value of the secondary feature detector 1302, operates as the entire pattern detection device. Therefore, the detection model used for detecting the tertiary feature was selected. Further, the quaternary feature detection model selection unit 1314 has selected a detection model to be used when detecting the quaternary feature based on the output value of the tertiary feature detection unit 1303. On the other hand, in the present embodiment, the tertiary feature detection model selection unit 211 selects a detection model to be used when detecting a tertiary feature based on the output of the secondary feature measurement unit 213. Is different. Similarly, the quaternary feature detection model selection unit 211 is different in that it selects a detection model that detects a quaternary feature based on the output value of the tertiary feature measurement unit 213.
  • the secondary feature measuring unit 2 1 3 3 measures the rotation angle of the secondary feature based on the output of the secondary feature detecting unit 2 102.
  • the tertiary feature measuring unit 213 measures the rotation angle of the tertiary feature based on the output of the tertiary feature detecting unit 210.
  • 0 i indicates each angle
  • S i indicates a correlation value of the angle.
  • all angles calculated by the secondary feature detection unit 2102 may be used.
  • an angle greater than the threshold value may be used, or the angle may be selected based on a percentage of the maximum correlation value.
  • the second-order feature measurement unit 2 1 3 3 (or the 3rd-order feature measurement unit 2 1 3 4) also calculates the top two angles of the correlation value among the angles used to calculate the angle. Output.
  • the expression (1) estimates the rotation angle ⁇ a of the secondary or tertiary feature from the results of detection at discrete angles, and in the present embodiment, in particular, is limited to only this calculation expression There is no problem, and other calculation formulas may be used.
  • the operation of the tertiary feature detection model selection unit 2113 and the quaternary feature detection model selection unit 2114 will be described. Since the operations of these two feature detection model selection units are basically the same, only the tertiary feature detection model selection unit 211 will be described below as an example.
  • FIG. 22 is a flowchart for explaining the operation of the tertiary feature detection model selection unit 2113 of the pattern detection device according to the fifth embodiment.
  • the tertiary feature detection model selection unit 2113 determines whether there is no input of ⁇ c (step S1002). As a result, if there is no input of ⁇ c and only 0b is input (Yes), a detection model for detecting the tertiary feature of the rotation angle 0b is selected (step S1003). On the other hand, when two angles 0b0c are input (No) The tertiary feature detection model selection unit 2113 performs a discrimination process on 0a ab, ⁇ c (step S1004). This determination processing is performed based on, for example, the following equation (2). f l Q 2 * 6b + 0c
  • the tertiary feature detection model selection unit 2113 calculates the two angles of rotation angle 0 c and (0 b + 0 c) Z2. Then, a detection model for detecting the tertiary feature is selected (Step S1007). On the other hand, if 0a is not within the range shown by equation (3) (No), the tertiary feature detection model selector 2113 detects the tertiary feature using the two angles of rotation angles 0b and 0c. Is selected (step S1008).
  • the tertiary feature detection unit selection unit 2113 uses the tertiary feature detection unit 2103 based on the rotation angle obtained by the secondary feature measurement unit 2133 and the two angles used in the calculation. Select a detection model to detect the next feature. This operation is the same for the fourth-order feature detection model selection unit 2114.
  • FIG. 23 is a schematic diagram for explaining a method of selecting a detection model in the fifth embodiment.
  • the operation of the flowchart shown in FIG. 22 described above will be described with reference to the schematic diagram of FIG. 23.
  • the detection model for detecting the tertiary feature is changed.
  • the rotation angle obtained by the secondary feature measurement unit 2133 is In the range of B
  • the detection model used by the tertiary feature detection unit 2103 is a detection model rotated by 0 degrees and 45 degrees.
  • the detection model is a detection model rotated by 0 degrees and 22.5 degrees. In the range of C, the detection model is rotated by 22.5 degrees and 45 degrees.
  • the accuracy of the calculation of the rotation angle in the next stage feature detection is improved by narrowing the interval between the two detections. For this purpose, it is necessary to prepare a detection model for detecting the tertiary feature at a smaller angular interval than the detection model for detecting the secondary feature. Then, it is necessary to prepare a detection model for detecting the fourth-order feature at a more detailed angle.
  • FIG. 24 is a diagram illustrating a change in the rotation angle of the detection model in each layer in the fifth embodiment.
  • the detection results at two rotation angles sandwiching that rotation angle are used.
  • the detection using the detection model includes the secondary feature detection unit 210.
  • the 0 ° and 45 ° rotated secondary features detected in 2 are used.
  • Equations (2) and (3) above represent the rotation angle 0a of the secondary or tertiary feature measured by the secondary feature measurement unit 2 1 3 3 or tertiary feature measurement unit 2 1 3 4
  • the rotation angle Q i when the preceding feature is detected is compared with the rotation angle Q i to determine whether the measured rotation angle ⁇ a is close to a certain rotation angle ⁇ i in the rotation angle used for detection. It is used to determine whether or not it is. Therefore, the present invention is not limited to the above formula, and another determination method may be used.
  • a detection model for detecting each feature is prepared with a smaller angle width for higher-order features, and the detection model is used for the feature detection results of the preceding stage. Accordingly, the user is allowed to select a detection model to be used for detecting the next-stage feature. Therefore, the detection accuracy is improved while suppressing an increase in the calculation cost regardless of the rotation of each feature, and the higher the higher-order features, the higher the detection accuracy is obtained.
  • FIG. 25 is a block diagram showing the configuration of the pattern detection device according to the sixth embodiment of the present invention.
  • reference numeral 2500 denotes a signal input unit
  • 2501 denotes a primary feature detection unit
  • 2551 1 denotes a primary feature detection filter setting unit
  • 2502 denotes a secondary feature detection unit
  • 2 5 1 2 is a secondary feature detection model setting unit
  • 250 3 is a tertiary feature detection unit
  • 2 5 1 3 is a tertiary feature detection model setting unit
  • 2 5 2 3 is a tertiary feature reference model holding unit
  • 2 5 3 3 is the secondary feature measurement unit
  • 250 4 is the 4 th feature detection unit
  • 2 5 14 is the 4 th feature detection model ⁇ setting unit
  • 2 5 2 4 is the 4 th feature reference model holding unit
  • 2 5 3 4 denotes a tertiary feature measuring unit.
  • parts different from the fifth embodiment is basically tertiary feature detection model setting unit 2 5 1 3, 4-order feature detection model; Le setting unit 2 5 1 4, 3rd feature reference model holding unit 2 5 2 3, and 4th feature reference model holding unit 2 5 2 4.
  • the tertiary feature detection model selection unit 211 is used to detect a tertiary feature based on the output of the secondary feature measurement unit 213.
  • the detection model to be used was selected from the tertiary feature detection model holding unit 2 1 2 3.
  • the quaternary feature detection model selection unit 2 1 1 4 holds the detection model used when detecting the quaternary feature based on the output of the tertiary feature measurement unit 2 1 3 4. Part 2 1 2 4 was selected from.
  • the tertiary feature detection model setting unit 2513 detects the tertiary feature based on the output of the secondary feature measurement unit 2533
  • the detection model to be used is set from the reference model stored in the tertiary feature reference model storage unit 252 3.
  • the fourth-order feature detection model setting unit 2514 sets the detection model used when detecting the fourth-order feature based on the output of the third-order feature measurement unit 2534 in the fourth-order feature reference model holding unit 2. It differs in that it is set from the reference model stored in 524.
  • the operation of the third-order feature detection model setting unit 2513 and the fourth-order feature detection model setting unit 2514 will be described. Since the operations of these two feature detection model setting units are basically the same, a description will be given below using the tertiary feature detection model setting unit 25 13 as an example.
  • the tertiary feature detection model setting unit 2 5 13 sets the output of the secondary feature measurement unit 2 13 3 as a parameter, and calculates 0 d using the following equation (4).
  • Equation (4) 0 i is each angle, S i is a correlation value of the angle, and 0 a is a rotation angle according to the equation (1) described in the fifth embodiment.
  • ⁇ e is found using equation (5).
  • FIG. 26 is a diagram showing an outline of two rotation angles 0 f and 0 a and soil 0 f in the sixth embodiment.
  • the detection model is created by rotating and converting the reference model held in the tertiary feature reference model holding unit 2 5 2 3 at the obtained rotation angle 0a soil 0f. This operation is the same for the fourth-order feature detection model selection unit 211.
  • the above equation (4) is used to calculate the rotation angle interval of the detection model of the tertiary feature or the quaternary feature from the result obtained by detecting the rotation angle 0a and the discrete angles. However, if the calculation angle of equation (4) becomes too small, the detection accuracy deteriorates. Therefore, in the present embodiment, the above equation (5) is calculated. When the angle is set, the equation (4) or (5) The one with the larger calculation angle is selected.
  • the setting of the detection model in the present embodiment is not limited to the above method. For example, if an appropriate rotation angle interval of the detection model of the tertiary feature or the quaternary feature can be set, other methods are used. May be used.
  • the tertiary feature detection unit 2503 uses the detection model rotated at the two rotation angles to determine the tertiary feature (or the quaternary feature). Perform detection. If there is no previous detection result corresponding to the rotation angle of the selected detection model, the detection results at two rotation angles sandwiching the rotation angle are used, as in the fifth embodiment. , Or the detection result at the closest rotation angle is used.
  • the detection model for detecting each feature is used to determine the angle of the detection result to be used for detecting the next-stage feature based on the detection result of the preceding stage. It was set so that it was always sandwiched. At that time, the angle of the pinch was adjusted based on the detection result value. Therefore, detection accuracy is improved while suppressing an increase in calculation cost regardless of the rotation of each feature.
  • pattern detection (recognition) device and the processing means on which the pattern detection method described in the present embodiment operates can also be mounted on the imaging device, as in the fourth and fifth embodiments.
  • FIG. 27 shows a functional configuration of the pattern recognition device of the seventh embodiment.
  • the pattern detection device according to the present embodiment is applicable to an imaging device or the like.
  • a plurality of features constituting the recognition target from the target image are hierarchically arranged.
  • a configuration in which a plurality of reference data for detection is stored, and based on the reference data, data for detecting the target feature is set using the parameters obtained from the detection results of the preceding features.
  • the pattern detection device includes a signal input section 270, a primary feature detection section 2701, a primary feature detection filter setting section 271, a secondary Feature detector 2 7 0 2, 2nd feature detection model setting unit 2 7 1 2, 2nd feature reference model holding unit 2 7 2 2, 3rd feature detection unit 2 7 0 3, 3rd feature detection model setting unit 2 7 1 3, 3rd feature reference model holding unit 2 7 2 3, 4th feature detection unit 2704, 4th feature detection model setting unit 2 7 1 4, 4th feature reference model holding unit 2 7 2 4 It has a pattern confirmation section 275, a confirmation pattern setting section 275, and a reference confirmation pattern holding section 272.
  • the signal input unit 270 00 is a signal (such as an image signal or an audio signal) to be processed. Here, the signal of the target image) is input.
  • the primary feature detector 2701 performs a process for detecting a primary feature on the signal input from the signal input unit 2700, and the processing result (the primary feature detection result ) Is supplied to the secondary feature detection unit 270 2, and the primary feature detection result and its parameter are supplied to the secondary feature detection model setting unit 271 12.
  • the primary feature detection filter setting section 271 1 1 sets the filter characteristic or parameter for detecting the primary feature in the primary feature detection section 270 1.
  • the secondary feature detection unit 2702 is configured to use the detection model set by the secondary feature detection model setting unit 2712 for the primary feature detection result from the primary feature detection unit 2701. Is used to perform processing for detecting secondary features, and the processing result (secondary feature detection result) is supplied to the tertiary feature detection unit 2703, and the secondary feature detection result and its parameters are Supplied to tertiary feature detection model setting unit 2 7 1 3.
  • the secondary feature detection model setting unit 2712 sets a model that indicates the positional relationship of each primary feature used when the secondary feature is detected by the secondary feature detection unit 2702. It is set using the reference model stored in the secondary feature reference model storage unit 272, the primary feature detection result from the primary feature detection unit 2701, and its parameters.
  • the secondary feature reference model holding unit 2 7 2 2 holds the reference model of the detection model set by the secondary feature detection model setting unit 2 7 1 2.
  • the tertiary feature detection unit 270 3 uses the detection model set by the tertiary feature detection model setting unit 271 3 in response to the secondary feature detection result from the secondary feature detection unit 270 2.
  • the tertiary feature detection process is performed using, the processing result (tertiary feature detection result) is supplied to the quaternary feature detection unit 2704, and the tertiary feature detection result and its parameters are 4th feature detection model setting section 2 7 1 4 Supply.
  • the tertiary feature detection model setting unit 271 13 sets the model indicating the positional relationship between the secondary features used when the tertiary feature detection unit 2703 detects the tertiary features. It is set using the reference model held in the next feature reference model holding unit 272, the secondary feature detection result from the secondary feature detection unit 2702, and its parameters.
  • the tertiary feature reference model holding unit 272 3 holds a reference model of the detection model set by the tertiary feature detection model setting unit 271 13.
  • the quaternary feature detection unit 270 4 detects the tertiary feature detection result from the tertiary feature detection unit 270 3 and sets the detection model set by the quaternary feature detection model setting unit 274 Is used to detect the fourth-order feature, and the processing result (fourth-order feature detection result) is supplied to the pattern checking unit 27005, and the fourth-order feature detection result and its parameters are checked. Supplied to the pattern setting section 27 15.
  • the quaternary feature detection model setting unit 2 714 sets the model indicating the positional relationship of the tertiary features used when the quaternary feature is detected by the quaternary feature detection unit 2704. It is set using the reference model held in the next feature reference model holding unit 274, the tertiary feature detection result from the tertiary feature detection unit 2703, and its parameters.
  • the fourth-order feature reference model holding unit 2724 holds the reference model of the detection model set by the fourth-order feature detection model setting unit 2714.
  • the pattern checking unit 275 5 checks whether or not the signal input by the signal input unit 270 0 contains the check pattern set by the check pattern setting unit 275 5.
  • the check pattern setting section 2715 stores the reference pattern held in the reference check pattern holding section 2724, the fourth-order feature detection result from the fourth-order feature detection section 2704, and its parameters. Use the pattern confirmation section 2 7 0 5 Set the pattern.
  • the reference check pattern holding section 2725 holds the reference pattern of the check pattern set in the check pattern setting section 2715.
  • FIG. 28 is a flowchart showing the operation of the pattern recognition device 100.
  • the signal input unit 2700 inputs an image signal as a signal to be processed (step S2801).
  • the primary feature detection unit 27001 is composed of, for example, an image signal input by the signal input unit 270 00 using the filter set by the primary feature detection filter setting unit 271 001. A primary feature is detected at each position of the image (target image) (step S2802).
  • the target image has a large vertical feature (1-1-1) and a large horizontal feature (1-12-1).
  • each feature is output as a detection result image of the same size as the target image.
  • a plurality of filters used in the primary feature detection unit 27001 may be prepared from the beginning, or a primary feature detection filter setting unit 275 may be used with the direction and size as parameters. It may be created in 1 1.
  • the secondary features detected in the processing described below are: The right-open V-shaped feature (2-1), the left-open V-shaped feature (2 2), the horizontal parallel line feature (2-13), and the vertical parallel line feature (2-4).
  • the feature (3-1) and the mouth feature (3-2) are assumed, and the quaternary feature is the face feature (4-1).
  • the secondary feature detection model setting unit 2712 sets a model for detecting a secondary feature in the secondary feature detection unit 2720 (step S2803).
  • the setting of a detection model for detecting the right empty V-shaped feature (2-1) shown in FIG. 14 will be considered as an example.
  • the right-open V-shaped feature (2-1) has a primary feature, a right-up diagonal feature at the top, and a right-down diagonal feature at the bottom. That is, in order to detect a right empty V-shaped feature, using the result of the primary feature detection obtained in step S2802, there is an upward-sloping oblique feature at the top, and a downward-sloping oblique feature at the bottom. It suffices to find the position where the feature exists, and the right empty V-shaped feature (2-1) exists at that position.
  • the size of the face present in the target image is not a fixed size, and the size of the eyes and mouth varies depending on the individual. It also changes.
  • a right empty V-shaped detection reference model 400 as shown in FIG. 16B is used.
  • reference numeral 4003 denotes a diagonally upward-sloping region
  • reference numeral 404 denotes a diagonally downward-slant region.
  • the primary features obtained in step S2802 only the large right-up diagonal feature or the small right-up diagonal feature among the primary features obtained in step S2802, and the right-down diagonal region 4
  • the right-down diagonal region 4 In contrast to the case of 04, if there is only a large right-down diagonal feature or only a small right-down diagonal feature, it is assumed that there is a right empty V-order feature (2-1) at that position.
  • FIG. 29A and 29B in order to detect V-shaped right-features having significantly different sizes, the same V-shaped detection reference model 400 Is difficult.
  • FIG. 29A and 29B in order to detect the right empty V-shaped features having considerably different sizes as shown in FIGS. 29A and 29B using the same V-shaped reference model 400, for example, FIG.
  • the size of the large and small size can be set by setting the right empty V-shape detection reference model 400 shown in B to be very large, and as a result, making the upward-sloping oblique area 400 and the downward-sloping oblique area 400 very wide. It is possible to detect the right empty V-shaped feature with different.
  • both the right-up diagonal feature and the right-down diagonal feature are one component of the right-open V-shaped feature, and their sizes are almost the same. If it is nearby and the size of the right empty V-shaped feature is large, the size of the right-up diagonal feature and the size of the right-down diagonal feature also become large.
  • the size of the reference model for detecting the secondary feature is set to be suitable for the size of the primary feature detected in step S2802.
  • the primary features are detected with a small size filter, and the target image is detected as shown in Fig. 29B.
  • the primary features are detected with a large-size filter, and as described above, the primary features are also detected for the size of the model for detecting the right-open V-shaped feature, which is the secondary feature. Varies depending on the size of the fill.
  • the size of the filter that has detected the primary feature is set as a parameter, and the model for detecting each secondary feature is enlarged or reduced, and each secondary feature is detected. Set the model for secondary feature detection for feature detection.
  • Figure 29C shows a model for detecting a right empty V-shape when the face size is small
  • Figure 29D shows a model for detecting a right empty V-shape when the face size is large. .
  • These models are obtained by changing the size of the right empty Vth detection reference model 400 shown in FIG. 16B at different magnifications.
  • multiple sizes of filters are prepared to detect the primary features
  • multiple processing channels are prepared according to the size
  • the method of detecting in each processing channel is effective.
  • the above-described problem is solved by changing the size of the detection model according to the detection result of the previous hierarchy.
  • Each feature as shown in FIG. 14 can be detected by a combination of the features detected in the previous step processing.
  • the left empty V-shaped feature can be detected from the diagonal down right and the diagonal up right, and the horizontal parallel line feature can be detected from the horizontal feature.
  • vertical parallel features can be detected from vertical features.
  • the eye features can be detected from the right empty V-shaped feature, the left empty V-shaped feature, the horizontal parallel line feature, and the vertical parallel line feature.
  • the left open V-shaped feature and the horizontal parallel line feature can be detected, and the quaternary feature can be detected from the eye feature and the mouth feature.
  • the secondary feature detection unit 2702 detects the secondary feature of the target image using the secondary feature detection model set in step S2803 (step S2804). Specifically, for example, first, the detection of the secondary feature is performed using the value of each primary feature constituting the secondary feature. For example, when the value of each primary feature is equal to or larger than an arbitrary threshold value, It is determined by whether or not there is.
  • the maximum value of each right-up diagonal feature in the right-up diagonal area is detected. Is higher than the threshold value and the maximum value of each of the downward-sloping oblique features present in the downward-sloping oblique region is higher than the threshold value, it is assumed that there is a right empty V-shaped feature at that position . Then, the value at that position is taken as the average of those maximum values. Conversely, if the value of each primary feature is lower than the threshold value, there is no secondary feature at that position, and the value at that position is set to "0".
  • the secondary feature detection result obtained as described above is output in the form of a detection result image of the same size as the target image for each secondary feature. That is, if the secondary features are as shown in FIG. 14 above, images of four types of secondary feature detection results can be obtained. By referring to the value of each position in these detection result images, it can be determined whether or not each secondary feature exists at the corresponding position in the target image.
  • the primary feature is not detected in each region of the secondary feature detection model.
  • step S2804 it is determined whether or not each primary feature exists in these regions by using a threshold. We judge by using it.
  • processing is performed to determine that a secondary feature exists at the position.
  • the processing method for such feature detection is the same for the following tertiary features and quaternary features.
  • step S2804 parameters used for setting the next tertiary feature detection model are obtained. For example, as shown in Fig. 30, the distance between the point indicating the maximum value of the upward-sloping diagonal feature and the point indicating the maximum value of the downward-sloping diagonal feature at the same time as the detection of the right empty V-shaped feature. Ask for it in the evening. Then, this parameter is output together with each secondary feature detection result.
  • the tertiary feature detection model setting unit 271 13 uses the tertiary feature criterion to determine the model used to detect the tertiary features in the tertiary feature detection unit 270
  • the setting is performed using the reference model stored in the model storage unit 272, the secondary feature detection result from the secondary feature detection unit 27, 02, and its parameter (step S2805).
  • FIG. 19A shows an example of an eye detection reference model 700 for detecting an eye.
  • the right empty V-shaped area 701 in which the right empty V-shaped feature (see (2-1) in Fig. 14), which is the secondary feature, exists on the left and the left empty
  • the left V-shaped area 7002 where the V-shaped feature (see (2-2) in Fig. 14) exists is on the right side, and the horizontal parallel line feature (see (2-3) in Fig. 14) exists
  • the horizontal parallel line region 703 and the vertical parallel line region 704 with the vertical parallel line feature (see (2-4) in Fig. 14) are present between these V-shaped features. are doing.
  • this reference model is scaled up or down to obtain a tertiary feature suitable for detecting tertiary features.
  • the parameter used in step S2804 is used to enlarge or reduce the reference model.
  • the distance between the position indicating the maximum value of the right-up diagonal feature and the maximum value of the right-down diagonal feature obtained when detecting a right free V-shaped edge depends on the size of the eye. Therefore, with this distance as a parameter, an eye feature detection model is set based on the reference model of the eye.
  • a detection model corresponding to each position is set using the parameters of the secondary feature. That is, for example, as shown in FIG. 31A, when faces having different sizes (that is, different eye sizes) are present in the target image, the right empty V-shaped feature, which is the secondary feature, as described above. With the size of the parameter set as a parameter, an eye feature detection model suitable for each position is set as shown in Figure 31B.
  • the eye feature detection model 800 1 has the size calculated from the parameter value of the secondary feature at that position, and the size of the secondary feature at the position of the eye feature detection model 800 2 This conceptually shows that the size is determined from the parameter value.
  • the tertiary feature detection unit 2703 detects a tertiary feature using the tertiary feature detection model set in step S2805 (step S2806).
  • the method of detecting each tertiary feature here is the same as that in step S2804, and therefore detailed description thereof is omitted.
  • the parameters for example, in the case of eye detection, the distance (the distance corresponding to the width of the eye) between the right empty V-shaped feature and the left empty V-shaped feature that shows the maximum value is determined, and this is used as a parameter. .
  • the 4th-order feature detection model setting unit 2 7 1 4 uses the 4th-order feature detection unit 2 7 0 4
  • the model indicating the positional relationship of each tertiary feature used when detecting the feature is obtained from the reference model stored in the quaternary feature reference model storage unit 274 and the tertiary feature detection unit 270 3 It is set by using the tertiary feature detection result and its parameters (step S2807).
  • a face feature detection model is set based on the reference model of the face using the parameter indicating the width of the eye obtained in step S2806.
  • the fourth-order feature detection unit 27004 detects a fourth-order feature using the fourth-order feature detection model set in step S2807 (step S2808). Since the detection method here is the same as that in steps S2804 and S206, detailed description thereof is omitted. Also, regarding the parameters, for example, in the case of detecting facial features, the positions of both eyes and mouth are set as parameters. This parameter is used in the next step S2809.
  • the check pattern setting section 2715 stores the reference pattern held in the reference check pattern holding section 2724, the fourth-order feature detection result from the fourth-order feature detection section 2704, and its parameters. Use this to set the confirmation pattern to be used in the pattern confirmation section 275 (Step S2809).
  • a quaternary feature is detected in the processing of steps S2801 to S2808, and a plurality of tertiary features constituting the quaternary feature in the background in the target image are obtained. If there are regions similar to, and their positional relationships are similar, erroneous detection may occur in the fourth-order feature detection.
  • a general reference pattern to be detected is prepared, and the size and shape of the pattern are corrected based on the parameters obtained in step S288 to obtain a confirmation pattern.
  • this confirmation pattern it is determined whether or not a pattern to be finally detected exists in the target image.
  • the face is used as the detection pattern, a general reference pattern of the face is prepared, and by correcting this reference pattern, a face confirmation pattern is obtained, and this face confirmation pattern is used. It is determined whether the face pattern exists in the target image.
  • a confirmation pattern is set using the parameters obtained in step S2808 based on the reference pattern. That is, in setting the face pattern, the face confirmation pattern is set based on the reference pattern of the face and using the parameters indicating the positions of the eyes and the mouth obtained in step S2806. I do.
  • Figures 32A and 32B show an example of the confirmation pattern.
  • Fig. 32A shows a face reference pattern.This face reference pattern is obtained, for example, by preparing a plurality of faces, normalizing their sizes, and averaging the luminance values. It is.
  • step S 2808 for the face reference pattern of FIG. 32A that is, the positions of both eyes and the position of the mouth, as shown in FIG. 32B.
  • Perform size and rotation conversion Specifically, for example, the size is converted using the distance between the eyes and the distance between the midpoint and the mouth between the eyes, and the rotation conversion is performed using the inclination between the eyes. Use to set the face confirmation pattern.
  • the method of setting the check pattern is not limited to the method described above.
  • a plurality of reference patterns having different sizes and rotation amounts are prepared, and one of these reference patterns is set as one of the reference patterns.
  • the selection may be made by using the parameters in step S2806.
  • a plurality of reference patterns may be combined and set by a morphing technique or the like using parameters.
  • the pattern confirmation unit 2705 obtains a detection pattern from the target image using the confirmation pattern set in step S2809 (step S2801).
  • the confirmation pattern obtained in step S2809 and the corresponding position in the target image The correlation with the area is calculated, and if the value exceeds an arbitrary threshold value, it is assumed that the detection pattern exists at that position.
  • a reference model for detecting each feature is prepared, and a detection model is set based on the reference model using parameters obtained from the result of feature detection in the preceding stage.
  • the detection accuracy of each feature is improved, and the detection accuracy of the finally detected pattern is improved.
  • the final confirmation process when looking at the correlation with the average pattern, the average pattern is deformed, such as rotation and size change, according to the position of each feature found so far. The effect is that the confirmation accuracy is improved.
  • the function of the pattern recognition (detection) device shown in FIG. 27 on an imaging device as shown in FIG. 20, for example, focusing on a specific subject, color correction of the specific subject, Alternatively, it can be used when performing exposure control. That is, it is possible to detect a person in a video obtained by shooting and perform optimal shooting control based on the detection.
  • the feature of the pattern to be detected from the target image is divided into four layers, the primary feature to the fourth feature are sequentially detected, and the pattern to be detected is finally confirmed.
  • the present invention is not limited to the four layers, and an arbitrary layer such as three layers or five layers can be applied. This can be similarly implemented in the eighth and ninth embodiments described below.
  • a face region is obtained from a target image using a face pattern as a detection pattern.
  • the present invention is not limited to only face detection.
  • "2" is a secondary feature (upper feature) consisting of a horizontal segment and a diagonally lower right segment, and a vertical segment and a diagonal right segment. It consists of a secondary feature consisting of an upward segment (intermediate feature), and a secondary feature consisting of an obliquely rightward upward segment and a horizontal segment (lower feature).
  • the primary feature is detected from the target image
  • the secondary feature is detected from the detection result of the primary feature
  • “2” as the tertiary feature is detected using the secondary feature detection result. Is detected.
  • "4" is detected as a tertiary feature from the secondary feature detection result.
  • the present invention is applied to, for example, an information processing device 1200 as shown in FIG.
  • the information processing device 1200 of the present embodiment has, in particular, the function of the pattern recognition device 100 shown in FIG.
  • the information processing device 1200 includes a control unit 1270, a calculation unit 1210, a weight setting unit 1220, a reference weight holding unit 1230, a parameter—evening detection unit 1240, an input signal memory 1250, and an input signal memory control unit. 1251, an intermediate result memory 1260, and an intermediate result memory control unit 1261. ,
  • the control unit 1270 controls the operation of the entire information processing apparatus.
  • the control unit 1270 includes a calculation unit 1210, a weight setting unit 1220, a reference weight holding unit 1230, a parameter detection unit 1240, an input signal memory control unit 1251, and an intermediate result memory control unit 1261.
  • the pattern recognition operation is performed.
  • the arithmetic unit 1 210 uses these data from the input signal memory 1 250 or the intermediate result memory 1 260 and the weight data from the weight setting unit 1 220 to obtain these values.
  • a non-linear operation such as a product-sum operation and a mouth function is performed, and the result is stored in the intermediate result memory 126.
  • the weight setting section 122 sets weight data using the parameters from the parameter detection section 124 based on the reference weight data from the reference weight holding section 122, and sets the weight.
  • the data is supplied to the operation unit 1 210.
  • the reference weight storage unit 1 230 holds reference weight data, which serves as a reference for detecting each feature in the input signal, for each feature. Feed to part 122.
  • the parameter overnight detector 1240 detects the parameter used when setting the weight data in the weight setting unit 1220 using the data of the intermediate result memory 1260, and detects the parameter in question. One night is supplied to the weight setting unit 122.
  • the input signal memory 1250 holds input signals to be processed, such as image signals and audio signals.
  • the input signal memory controller 1 2 5 1 uses the input signal stored in the input signal memory 1 2 5 0 when the input signal is stored in the input signal memory 1 2 5 When supplying to 0, it controls the input signal memory 1250. '
  • the intermediate result memory 1260 holds the operation result obtained by the operation unit 1210.
  • the intermediate result memory control unit 1261 stores the operation result from the operation unit 1210 in the intermediate result memory 1260, and also stores the intermediate result held in the intermediate result memory into the operation unit. Controls the intermediate result memory 1260 when it is supplied to 1210 and the parameter detector 1240.
  • an input signal to be processed is an image signal.
  • the neural network handles information related to recognition (detection) of an object or a geometric feature in a local region in an input signal in a hierarchical manner, and its basic structure is a so-called convolutional network structure.
  • the output from the final layer is the category of the recognized object as the recognition result and the position information on the input data.
  • 0 1 is a layer for inputting local area data from a photoelectric conversion element such as a CMOS sensor or a CCD element, etc.
  • the first feature detection layer 3502 (1,0) is a data input layer 3501 Local low-order features of the image pattern input from In addition to geometric features such as components, features including color component features may be used as the center of each position on the full screen, and each local area (or each point of a predetermined sampling point over the entire screen as the center). In a local area), only the number of feature categories is detected at the same location at multiple scale levels or resolutions.
  • the feature integration layer 3503 (2, 0) is a predetermined receptive field structure (hereinafter, "receptive field” means the range of coupling with the output element of the immediately preceding layer, and “receptive field structure” And the integration of multiple neuron element outputs within the same reception field from the feature detection layer 3502 (1, 0) (meaning local averaging and maximum output detection). Integration by calculation such as sub-sampling).
  • each receptive field of neurons in the integration layer has a common structure among neurons in the same layer.
  • each receptive field of a neuron in the feature detection layer also has a common structure among neurons in the same layer.
  • the gist of the present embodiment is that the change is made according to the output result (detection result) of the neuron in the preceding stage.
  • feature detection layers 3502 ((1, 1), (1, 2),..., ( ⁇ , ⁇ )) and feature integration layers 3503 ((2, 1), (2, 2) ),..., (2, ⁇ )) are the same as the layers described above, and the former ((1, 1),%) Detects a plurality of different features in each feature detection module, and the latter ( (2, 1), 7) performs detection result integration for multiple features from the preceding feature detection layer 9
  • the former feature detection layer is connected (wired) to receive the cell element output of the preceding feature integration layer belonging to the same channel.
  • Subsampling which is a process performed in the feature integration layer, averages the output from local regions (local receptive fields of the feature integration layer neurons) from the feature detection cell population of the same feature category. is there.
  • FIG. 36 is a flowchart showing, as a specific example of the operation of the information processing apparatus, the operation in the case of recognizing a face pattern from a target image, as in the seventh embodiment.
  • the input signal memory control unit 1251 inputs the signal (here, the image signal) input by the control unit 1270 to the input signal memory 1250 (step S1401).
  • This step S1401 corresponds to the processing by the data input layer 3501 shown in FIG.
  • the weight setting unit 1220 includes, for example, the detection weight data of the primary feature as shown in FIG. 14 (weight data for performing edge extraction in each direction and each size) held in the reference weight holding unit 1230 Is set for the calculation unit 1210 (step S1402).
  • the size and direction may be used as parameters, and the primary feature detection weight data may be generated by the weight setting unit 1220.
  • Arithmetic unit 1210 detects a primary feature (step S1403). That is, the primary feature detection in this step S 1403 corresponds to the processing of the feature detection layer 3502 (1, 0) shown in FIG. 35 above, and the calculation unit 1210 detects the feature f Executes processing equivalent to module 3504.
  • each primary feature detection weight value set in step S1402 corresponds to the structure of the receptive field 3505 for detecting each feature f
  • the arithmetic unit 1210 reads the image from the input image memory 1250
  • the signal is acquired, and a product-sum operation of the local region (region corresponding to the receptive field 3505) at each position of the image signal and each primary feature detection weight data is executed.
  • an example of the input / output characteristic of the feature detection layer neuron executed by the arithmetic processing unit 1210 is represented by the following equation (6). That is, the output u SL (n, k) of the neuron at position n on the cell surface for detecting the k-th feature in the L-th stage is
  • u SL (n, k) f ( t w ⁇ vK ⁇ -u ⁇ n + v, ⁇ ))
  • u CL ( ⁇ , ⁇ ) indicates the output of the neuron at position n on the ⁇ th cell surface of the L-th feature integration layer.
  • K CIj indicates the number of types of the feature integration layer at the Lth stage.
  • wL (V, ⁇ , k) is the ⁇ th position of the neuron at position n on the kth cell surface of the Lth feature detection cell layer, This is the input connection from the neuron at position n + v on the cell surface.
  • WL is a receptive field of a detection cell, and its size is finite.
  • step S1403 Since the processing in step S1403 is the primary feature detection, L is "1" Since, therefore, corresponds to the data input layer, the number of features in the first stage is one. Since eight types of features are detected, eight types of results can be obtained.
  • f 0 indicates nonlinear processing on the result of the product-sum operation. For example, this nonlinear processing
  • the result of the non-linear processing is held in the intermediate result memory 1260.
  • the weight setting unit 122 sets the primary feature integrated weight data held in the reference weight holding unit 122 to the arithmetic unit 122 (step S144).
  • the primary feature integration weight data is weight data for performing processing such as local averaging of the primary features detected in step S1403 and detection of the maximum value.
  • the arithmetic unit 1210 generates the primary feature detection result stored in the intermediate result memory 1260 and the primary feature integration weight data set in step S 14 04. (Step S1405) to perform the product-sum operation (integration processing of the detection results of each primary feature).
  • the processing in this step S1405 corresponds to the processing of the feature integration layer 3503 (2, 0) shown in FIG. 35, and is a processing corresponding to the integration module of each feature f.
  • the integration of multiple neuron element outputs that exist in the same receptive field from the feature detection layer 3502 (1, 0) (operations such as local averaging, subsampling by maximum output detection, etc.) Is equivalent to
  • the arithmetic unit 1 210 executes processing such as averaging and maximum value detection in a local region for each primary feature detection result.
  • processing such as averaging and maximum value detection in a local region for each primary feature detection result.
  • the operation unit 1 210 JP2003 / 016095
  • (V) is the input coupling from the neuron of the L-th feature detection layer to the neuron existing on the cell surface of the L-th feature integration cell layer.
  • IVI is simply a decreasing function. Indicates the receptive field of the integrated cell, and its size is finite.
  • the arithmetic unit 1210 holds the result of the product-sum operation by the above equation (8) in the intermediate result memory 1260. At this time, the arithmetic unit 1210 may further perform a non-linear process on the result of the product-sum operation, and may store the result in the intermediate result memory 1260.
  • the intermediate result memory 1260 stores the primary feature detection results obtained by integrating the primary feature detection results in the local region for each feature, and the primary feature integration results in each size and each direction. You are holding it.
  • this is the weight data for detecting each secondary feature shown in Fig.14.
  • the weight setting unit 122 0 sets feature detection weight data depending on the size of the feature detected in the previous hierarchy when detecting each feature after the secondary feature.
  • the weight setting unit 122 0 is a pre-set receptive field indicated by the primary feature detection weight data which has detected each primary feature by the parameter detection unit 124. Set the size as a parameter. Then, the weight setting unit 122 0 converts the reference secondary feature detection weight data held in the reference weight holding unit 1 230 into the parameter detection unit 1 240 Correction is performed using the parameters set in (2), and this result is used as secondary feature detection weight data.
  • the operation unit 1 210 performs detection of a secondary feature. This corresponds to the processing of the feature detection layer 3502 (1, 1) shown in FIG. 35 (step S1407).
  • the processing itself in step S1407 is the same as the primary characteristic detection processing in step S1403.
  • the arithmetic unit 1 210 executes the product-sum operation using the above equation (1) and the processing of the non-linear operation on the result.
  • the arithmetic unit 1210 performs the integration of the secondary feature detection weight data set in step S 14 06 and the primary feature integration result held in the intermediate result memory 1260, Used for multiply-accumulate operation, non-linear operation is performed on the operation result, and the operation result (secondary feature detection result) is stored in the intermediate result memory 1260.
  • the weight setting unit 122 sets the secondary feature integrated weight data held in the reference weight holding unit 123 to the calculation unit 122.
  • the secondary feature integration weight data here is a weight data for executing processing such as local averaging of the secondary feature result detected in step S 1407 and detection of the maximum value. (Step S1408).
  • the calculation unit 1 210 integrates the detection results of each secondary feature. This corresponds to the processing of the feature integration layer 133 (2, 1) shown in FIG. 13 above (step S1409).
  • the arithmetic unit 1 210 is stored in the intermediate result memory 1 260
  • the arithmetic unit 1210 may further perform non-linear processing on the result of the product-sum operation, and may hold the processing result in the intermediate result memory 1260.
  • the weight setting unit 122 sets the third-order feature detection weight data for the calculation unit 122 (step S144).
  • the tertiary feature detection weight data is a weight data for detecting each tertiary feature shown in FIG. 14 described above.
  • the weight setting unit 122 0 is a parameter overnight detection unit 124 0, and each primary feature detection result and each secondary feature stored in the intermediate result memory 1 260 is stored. From the detection result, set a value based on the size of the secondary feature as a parameter.
  • the parameter for example, as described in the first embodiment, in the case of the right empty V-shaped feature, the vertical distance between the upward-sloping oblique feature and the downward-sloping oblique feature can be used.
  • the weight setting unit 122 0 obtains the reference tertiary feature detection weight data held in the reference weight holding unit 1 230 with respect to the receptive field size by the parameter-evening detection unit 1 240.
  • the parameters are modified using the calculated parameters, and the result is used as the tertiary feature detection weight data.
  • the operation unit 1 210 performs tertiary feature detection. This corresponds to the processing of the feature detection layer 3502 (1, 2) shown in FIG. 13 above (step S1411). More specifically, the arithmetic unit 1 210 outputs the tertiary feature detection weight data set in step S1401 and the secondary feature stored in the intermediate result memory 126. The product-sum operation with the integrated result and the non-linear operation on the result are executed, and the operation result (third-order feature detection result) is stored in the intermediate result memory 126.
  • the weight setting unit 1 220 sets the tertiary feature integrated weight data held in the reference weight holding unit 1 230 to the calculation unit 1 210 (step S 1 412).
  • the tertiary feature integrated weight data here is weight data for performing processing such as local averaging and maximum value detection of the tertiary feature result detected in step S1411.
  • the operation unit 1210 integrates the detection results of each tertiary feature. This corresponds to the processing of the feature integration layer 3503 (2, 2) shown in FIG. 13 (step S1413). Specifically, the calculation unit 1210 executes a product-sum operation of the detection result of each tertiary feature held in the intermediate result memory 1260 and each tertiary feature integration weight data set in step S1412 Then, the result of the product-sum operation is stored in the intermediate result memory 1260. At this time, the arithmetic unit 1210 may further perform non-linear processing on the result of the product-sum operation, and may hold the processing result in the intermediate result memory 1260.
  • the weight setting unit 1220 sets a fourth-order feature detection weight for the calculation unit 1210 (step S1414).
  • the quaternary feature detection weight data here is a weight data for detecting each quaternary feature shown in FIG. 14 as described above.
  • the weight setting unit 1220 calculates the size of the tertiary feature from the respective secondary feature detection results and the respective tertiary feature detection results held in the intermediate result memory 1260 by the parameter overnight detector 1240. Set a value based on this as a parameter. As this parameter overnight, for example, as described in the first embodiment, in the case of the eye feature, the horizontal distance between the right empty V-shaped feature and the left empty V-shaped feature can be used.
  • the weight setting unit 1220 corrects the reference fourth-order feature detection weight data held in the reference weight holding unit 1230 with respect to the receptive field size using the parameters obtained by the parameter-evening detection unit 1240. This result is used as fourth-order feature detection weight data.
  • Arithmetic unit 1210 performs fourth-order feature detection. This corresponds to the processing of the feature detection layer 3502 (1, 3) shown in FIG. 35 (step S1415). Specifically, the arithmetic unit 1210 performs the integration of the quaternary feature detection weight data set in step S1414 with the tertiary feature stored in the intermediate result memory 1260. The product-sum operation of and the non-linear operation on the result are executed, and the operation result (fourth-order feature detection result) is stored in the intermediate result memory 126. The weight setting unit 1 220 sets the fourth-order feature integrated weight data held in the reference weight holding unit 1 230 to the calculation unit 1 210 (step S 1
  • the quaternary feature integration weight data is a weight data for performing processing such as local averaging of the quaternary feature results detected in step S1415 and detection of the maximum value. .
  • the calculation unit 1 210 integrates the detection results of the fourth-order feature. This corresponds to the processing of the feature integration layer 3503 (2, 3) shown in FIG. 35 above (step S117). Specifically, the arithmetic unit 1 210 includes the fourth-order feature detection result stored in the intermediate result memory 1 260 and the fourth-order feature integration weight data set in step S 1 4 16. Is performed, and the result of the product-sum operation is held in the intermediate result memory 1260. At this time, the arithmetic unit 1210 may further perform non-linear processing on the result of the product-sum operation, and may hold the processing result in the intermediate result memory 1260.
  • the arithmetic unit 1 210 sets the pattern confirmation weight data (step S 1 4 18). Specifically, first, the quaternary feature is detected by the processing up to step S14417 described above. However, as described in the first embodiment, the target image (input image) If there is an area similar to a plurality of tertiary features that make up the quaternary feature in the background, and the positional relationship between them is also similar, there is a possibility that the quaternary feature will be erroneously detected. That is, for example, in the case of face detection, if there is an area similar to both eyes and mouth in the background in the input image, and their positional relationships are similar, erroneous detection is performed by detecting face features. there is a possibility.
  • reference pattern confirmation weight data for detecting a typical type (size, direction, etc.) in a pattern to be detected is used.
  • the weight data is corrected, the corrected pattern check weight data is set, and the pattern to be finally detected is present in the input image using the set pattern check weight data.
  • reference face pattern confirmation weight data for detecting a typical face is prepared, corrected, and the corrected face pattern confirmation weight data is set. Then, it is determined whether or not a face pattern exists in the input image by using the set face pattern confirmation weight.
  • the arithmetic unit 1 210 is a parameter—evening detection unit 1 240, and each tertiary feature detection result held in the intermediate result memory 1 260 From the results of the quaternary feature detection and at each position of the detected quaternary feature, a value based on the tertiary feature detection result is set as a parameter.
  • the parameters for example, as described in the first embodiment, in the case of a facial feature, the positions of an eye feature and a mouth feature can be used.
  • the arithmetic unit 1 210 obtains the reference pattern confirmation weight data held in the reference weight holding unit 1 230 with respect to its receptive field size and rotation by the parameter overnight detection unit 1 240.
  • the parameters are corrected using the parameters and the correction results are used as the pattern confirmation weight data.
  • the operation unit 1210 confirms the detection pattern (step S1419). Specifically, the arithmetic unit 1210 performs the product-sum operation of the check pattern weight data set in step S1418 and the input signal held in the input signal memory 1250, And a non-linear operation on the result is executed, and the operation result is stored in the intermediate result memory 1260. The result held in the intermediate result memory 1260 is the final detection result of the pattern to be detected.
  • the reference weight data for detecting each feature is prepared, and the detection is performed based on the reference weight data using the parameters obtained from the detection result of the previous stage. Since the configuration is such that the weight is set at a minimum, the detection accuracy of each feature is improved, and the detection accuracy of the finally detected pattern is improved. There is an effect of doing.
  • the arithmetic unit 1210 performs the product-sum operation of the detection weight data or the integrated weight data and the data from the intermediate result memory 1260 or the input signal memory 1250 and the nonlinear conversion of the result. Since the weight data used for the product-sum operation is set each time, the same arithmetic unit 1 210 can be used repeatedly. Furthermore, since the configuration is such that both the input signal and the intermediate result are retained, there is an effect that the final confirmation processing can be easily performed.
  • the setting according to the detection result is not performed for the integration weight data used for the integration processing.
  • the setting of the receptive field size is not performed. It is also possible to perform
  • the integration processing for the quaternary features of steps S14416 and S14417 shown in FIG. 36 can be omitted.
  • FIG. 38 shows an information processing apparatus according to the present embodiment. This device has the function of the pattern recognition device shown in FIG.
  • this information processing device includes a control unit 16 7
  • an input signal memory 1650 an input signal memory control section 1651, an intermediate result memory 1660, and an intermediate result memory control section 1661.
  • the information processing apparatus basically has the same function as the information processing apparatus according to the second embodiment (see FIG. 34). It does not have a function equivalent to the setting unit 1 220, and supplies the parameters obtained by the no-lambda detector 1 640 to the intermediate result memory controller 166 1 and the arithmetic unit 161 0. It has been configured to.
  • parameters are obtained from the processing result of the previous stage, although the configuration is such that weight data for detecting a feature is set from the parameters, in the present embodiment, the reference weight data held in the reference weight holding means 1630 is directly used as the weight data.
  • the size of the previous detection result stored in the intermediate result memory 1660 corresponding to the receptive field is changed using interpolation or the like.
  • the information processing apparatus changes the size of the normal receptive field for the input image 1700 as shown in FIG. As a result, the resized local image 1710 is generated, and the product-sum operation of the resized local image 1710 and the reference weight data held in the reference weight holding unit 1630 is executed. I do.
  • the secondary feature detection result held in the intermediate result memory 1660 is used.
  • the local area of the secondary feature detection result image is resized and used.
  • the size of the previous detection result used when detecting the feature is changed and reset using the parameters obtained from the previous detection result. Therefore, it is possible to obtain the effect that the detection accuracy of each feature is improved, and the detection accuracy of the finally detected pattern is improved. Also, the size of the detection result can be changed easily by changing the area to be read from the memory and the interpolation processing.
  • the present invention can be applied as a part of a system composed of a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.), but can be composed of one device (for example, a copying machine, a facsimile machine). It may be applied to a part of things.
  • a host computer for example, a host computer, an interface device, a reader, a printer, etc.
  • one device for example, a copying machine, a facsimile machine. It may be applied to a part of things.
  • the present invention is not limited to only a method and an apparatus for realizing the above embodiment and a method performed by combining the methods described in the embodiment.
  • a program code of software for realizing the above-described embodiment is supplied to a computer (CPU or MPU) in the system or the apparatus, and the computer of the system or apparatus operates the various devices according to the program code to execute the above-described operation. Realization of the embodiment is also included in the scope of the present invention.
  • the program code of the software implements the functions of the above-described embodiment, and the program code itself and means for supplying the program code to a computer, specifically, the program A storage medium storing the code is included in the scope of the present invention.
  • a storage medium for storing such a program code for example, a floppy (R) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, nonvolatile memory card, ROM, or the like is used.
  • R floppy
  • CD-ROM compact disc-read only memory
  • magnetic tape magnetic tape
  • nonvolatile memory card nonvolatile memory card
  • the above-described program code operates on the computer.
  • Such a program code is included in the scope of the present invention even when the above-described embodiment is realized in cooperation with another application software or the like.
  • the function expansion port is stored in the memory provided in the function expansion unit connected to the computer.
  • the present invention also includes a case where a CPU or the like provided in the function storage unit performs a part or all of the actual processing, and the above-described embodiment is realized by the processing. According to the above-described embodiment, it is possible to perform robust identification with respect to input pattern fluctuations, and to perform pattern recognition with a lower processing cost while reducing the possibility of erroneous identification. Become.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

階層的に特徴を抽出することにより、入力されたデータのパターン識別を行うパターン識別装置において、1次的特徴を抽出し、抽出された少なくとも1つの特徴抽出結果の分布を分析し、この分析結果に基づいて2次的特徴抽出を行う。これにより、入力パターンの変動に対して頑健な識別が可能であり、誤識別が生じる可能性を低減させながら、より処理コストの少ないパターン識別を行う。

Description

パターン識別方法、 その装置及びそのプログラム 技術分野
本発明は、 入力信号のパターンを識別する方法、 その装置及びそのプロ グラムに関する。 背景技術
従来より、 画像認識や音声認識の分野においては、 特定の認識対象に特 化した認識処理アルゴリズムをコンピュータソフトウェア、 或いは専用並 列画像処理プロセッサを用いたハードウェアにより実行することで、 認識 対象及び背景を含む画像から、 認識対象を検出するものが知られている。 特に、 顔を特定の認識対象として検出するものとして、 特開平 9一 2 5 1 5 3 4号公報には、 入力画像に対して、 標準顔と呼ばれるテンプレート を使って、 顔領域を探索し、 その後、 眼、 鼻孔、 口といった特徴点候補に 対して、 部分テンプレートを使用して、 人物を認証するものが開示されて いる。 また、 特許 2 7 6 7 8 1 4号公報には、 顔画像から眼と口の候補群 を求め、 それらを組み合わせた顔候補群と予め記憶されている顔構造とを 照合し、眼と口に対応する領域を発見するものが開示されている。さらに、 特開平 9一 4 4 6 7 6号公報には、眼、鼻、口の候補をそれぞれ複数求め、 予め用意されている特徴点間の位置関係から、 顔を検出するものが開示さ れている。
また、 特許 2 9 7 3 6 7 6号公報には、 顔の各部品の形状データと入力 画像との一致度を調べる際に、 形状データを変更させるものであり、 また 各顔部品の探索領域は、 以前に求めた部品の位置関係を基に決定するもの が開示されている。 また、 特開平 1 1一 2 8 3 0 3 6号公報には、 複数の 判定要素取得領域を設定した領域モデルを入力画像中で移動させ、各点で、 それら判定要素取得領域内で、 判定要素の有無を判定し、 顔を認識するも のが開示されている。
一方、 回転した被写体を検出するものとして、 特開平 1 1一 1 5 9 7 3 号公報や、 " Rotat ion Invari ant Neural Network-Based Face Detect ion (H. Rowley, T. Kanade, CVPR98, p38-44) に開示されているものがある。 前者は、 被写体の回転に対応するために、 被写体に対してその中心座標か ら曲座標変換を行い、回転をシフトに変換して回転を検出するものである。 また、 後者は、 顔の検出の前段として、 顔の回転角度を検出する二ュ一ラ ルネットワーク (Neural Network, 以下「NN」 と記述する。 ) を用意し、 その NNの出力角度に応じて入力画像を回転させ、 回転後の入力画像を顔 検出を行う NNに入力するものである。
しかしながら、 上述した従来技術を用いるパターン検出には、 以下に示 すような問題があった。
すなわち、 特開平 9一 2 5 1 5 3 4号公報に記載の技術では、 始めに標 準顔を使用して、 顔全体でマッチングして顔領域を検出するため、 複数の 顔のサイズや顔の向きの変化に弱いという問題がある。 従って、 様々なサ ィズゃ顔の向きに対応させるためには、 それぞれの場合に適合した多数の 標準顔を用意し、 それぞれを用いて検出する必要がある。 しかし、 これを 実現するためには、 多数のテンプレートと比較しなければならないために 処理コストがかかる。
また、 特許 2 7 6 7 8 1 4号公報に記載の技術は、 入力画像中の顔候補 群と予め記憶した顔構造とを照合するが、 対象となる入力画像中の顔の数 は 1つ又は少数に限定されている。 また、 顔の大きさについても、 ある程 度大きなサイズであって、 入力画像中のほとんどの領域が顔領域であって 背景の少ない画像が入力画像として想定されている。 そのような入力画像 であれば、 全ての眼及び口の候補群から、 顔候補を作成した場合であって も顔候補の数は限定される。 しかしながら、 一般的なカメラやビデオで撮 影した画像の場合は、 顔のサイズが小さくなつたり、 背景の面積が大きく なるような場合があり、 その際には、 背景中で眼候補や口候補を多数誤検 出してしまうことになる。 従って、 特許 2 7 6 7 8 1 4号公報に記載の方 法によって全ての眼と口候補群から顔候補を作成すると、 その数は膨大に なり、 顔構造との照合に要する処理コストが増大する。
また、 特開平 9一 4 4 6 7 6号公報及び特許 2 9 7 3 6 7 6号公報に記 載の発明では、 背景に眼、 鼻、 口の候補が多数存在した場合には、 それら の位置関係を照合するための処理コストが膨大になる。
さらに、 特許 2 9 7 3 6 7 6号公報に記載の技術は、 虹彩 (眼) 、 口、 鼻等の形状データを保持しておき、 まず 2つの虹彩 (眼) を求め、 続いて 口、 鼻等を求める際に、 その虹彩 (眼) の位置に基づいて、 口、 鼻等の顔 部品の探索領域を限定している。すなわち、このアルゴリズムは、虹彩(眼)、 口、 鼻といった顔を構成する顔部品を並列的に検出するのではなく、 虹彩 (眼) を最初に見つけ、 その結果を使用して、 順に口、 鼻という顔部品を 検出している。 この方法においては、 画像中に顔が一つしかなく、 さらに 虹彩 (眼) が正確に求まった場合を想定している。 そのため、 検出された 虹彩 (眼) が誤検出であった場合には、 口や鼻等の他の特徴の探索領域を 正しく設定することができない。
また、 特開平 1 1— 2 8 3 0 3 6号公報に記載の発明では、 サイズの異 なった顔や回転した顔に対応させるためには、 サイズの異なった領域モデ ルゃ回転した領域モデルを用意する必要がある。 しかし、 実際にそのサイ ズの顔やその回転角度の顔が存在しない場合、 無駄な計算を多数行うこと となる。 さらに、 特開平 1 1— 1 5 9 7 3号公報に記載の技術における極 座標変換では、 中心座標の精度が重要である。 しかし、 画像中のどこに被 写体が存在するのかを検出する段階では、 中心座標の検出は困難である。 さらにまた、 " Rotat ion Invari ant Neural Network-Based Face Detect ion" に記載の発明では、回転角度を検出する前段の NNの精度に後 半の顔検出 NNの精度が依存し、 もし前段の NNの出力が誤っていると顔 検出が困難になる。 また、 画像中に複数の被写体が存在し、 それぞれの回 転角度が異なる場合、 複数の回転角度で入力画像を回転変換させ、 その変 換後の画像を顔検出 N Nに入力して画像全体で顔検出を行うため、 回転の ない画像を検出する際と比較すると処理コス卜が大幅に増大する。
また、 階層的に特徴を抽出していくことにより、 入力信号のパターンを 識別する技術がある。 この方法では、 高次の特徴を抽出する際に、 その抽 出する特徴を構成する、 その特徴より低次の特徴を用いて、 特徴抽出を行 うため、 識別パターンの変動に対して頑健な識別が可能であるという特徴 がある。 しかし、 パターンの変動に対する頑健性を高めようとすると、 抽 出すべき特徴の種類を増やす必要があり、 結果として処理コストが増大し てしまう。 そこで 抽出すべき特徴の種類を増やさないようにすると、 誤 識別を生じる可能性が高くなる、 などの問題があった。
上記の問題に対して、 特公平 7— 1 1 8 1 9号公報には、 各クラスのパ ターンの特徴べクトルを、 べクトル成分の分散が大きい順に並べたものを 辞書パターンとし、 入力パターンから特徴ベクトルを生成し、 上位 N次元 まで辞書パターンとのマッチングを行い、 その結果に基づいて、 下位次元 とのマッチングを行うことで、 処理コストを低減させるという、 パターン 認識方法が開示されている。
また、 特開平 1 0— 1 1 5 4 3号公報には、 入力データから特徴べクト ルを抽出し、 各クラス夕の標準ベクトルとの一致度によって、 クラス夕に 分類し、 入力パターンが分類されたクラスタ内の、 カテゴリ標準ベクトル と特徴ベクトルの一致度によって、 カテゴリ分類することで、 マッチング の処理コストを低減させるという、 パターン認識用辞書作成装置及びパ夕 ーン認識装置も提案されている。 発明の開示
本発明は、 上記の実状を鑑みてなされたものであり、 入力パターンの変 動に対して頑健な識別が可能であり、 誤識別が生じる可能性を低減させな がら、 より処理コストの少ないパターン認識を行うことを目的とする。 本発明の一観点によれば、 入力データの特徴を階層的に抽出して当該入 力データのパターンを識別するパターン識別方法に、 第 1の階層の特徴を 抽出する第 1の特徴抽出工程と、 前記第 1の特徴抽出工程における特徴抽 出結果に基づいて前記第 1の階層より上位の第 2の階層の特徴を抽出する 方式を決定する決定工程と、 前記決定工程で決定された方式に基づいて前 記第 2の階層の特徴を抽出する第 2の特徴抽出工程とを備える。
本発明の他の観点によれば、 入力デ一夕の特徴を階層的に抽出して当該 入力デ一夕のパターンを識別するパターン識別装置に、 第 1の階層の特徴 を抽出する第 1の特徴抽出手段と、 前記第 1の特徴抽出工程における特徴 抽出結果に基づいて前記第 1の階層より上位の第 2の階層の特徴を抽出す る方式を決定する決定手段と、 前記決定手段により決定された方式に基づ いて前記第 2の階層の特徴を抽出する第 2の特徴抽出手段とを備える。 本発明の他の観点によれば、 コンピュータに、 入力データの特徴を階層 的に抽出させて当該入力データのパターンを識別させるパターン識別プロ グラムに、 第 1の階層の特徴を抽出する第 1の特徴抽出工程と、 前記第 1 の特徴抽出工程における特徴抽出結果に基づいて前記第 1の階層より上位 の第 2の階層の特徴を抽出する方式を決定する決定工程と、 前記決定工程 で決定された方式に基づいて前記第 2の階層の特徴を抽出する第 2の特徴 抽出工程とを備える。
本願発明の他の特徴や利点は、 添付図面を参照してなされる以下の説明 により明らかになるであろう。 図面の簡単な説明
本願に組み込まれ、 本願の説明の一部を構成する添付図面は、 本願の実 施例を例示するもので、 明細書と共に本願発明の原理を説明するものであ る。
図 1 A、 I Bは、 第 1の実施形態にかかるパターン識別装置の基本構成 を示す図である。
図 2は、 第 1の実施形態におけるパターン識別装置の機能構成を示す図 である。
図 3は、 第 1の実施形態における処理の流れを示すフローチヤ一卜であ る。
図 4は、 第 1の実施形態における、 識別カテゴリとしての顔存在画像を 示す図である。
図 5は、 4種類の初期特徴抽出結果を示す図である。
図 6は、 抽出すべき各局所特徴の存在する位置における、 各初期特徴抽 出結果を示す図である。
図 7は、基本的な Convolut ional Neural Networkの構成を示す図である。 図 8は、 第 2の実施形態におけるパターン識別装置の機能構成を示す図 である。
図 9 A、 9 Bは、 第 2の実施形態における処理の流れを示すフローチヤ 一卜である。
図 1 0は、 第 3の実施形態におけるパターン識別装置の機能構成を示す 図である。
図 1 1 A、 1 1 Bは、 第 3の実施形態における処理の流れを示すフロー チヤ一卜である。
図 1 2は、 本発明を実現するコンピュータのブロック構成を示す図であ る。 ― 2003/016095
図 1 3は、 第 4の実施形態に係るパターン検出装置の構成を示す図であ る。
図 1 4は、 第 1の実施形態のパターン検出装置における各特徴検出部に おいて検出される特徴の例を示す図である。
図 1 5は、 第 4の実施形態に係るパター 検出装置の動作例を説明する ためのフローチヤ一トである。
図 1 6 A、 1 6 Bは、 2次特徴のうち右空き V字特徴 2— 1— 1に関す るモデルを説明するための図である。
図 1 7 A〜1 7 Dは、 2次特徴を検出するための回転した検出モデルの 一例を示す図である。
図 1 8 A、 1 8 Bは、 3次特徴検出モデル選択部 1 3 1 3におけるモデ ル選択の方法を示す模式図である。
図 1 9 A、 1 9 Bは、 3次特徴検出部 1 3 0 3において眼特徴を検出す るための眼検出モデルの一例を示す図である。
図 2 0は、 パターン検出装置を用いた撮像装置の構成を示すブロック図 である。
図 2 1は、 本発明の第 2の実施形態に係るパターン検出装置の構成を示 すブロック図である。
図 2 2は、 第 5の実施形態に係る 3次特徴検出モデル選択部の動作を説 明するためのフローチャートである。
図 2 3は、 第 5の実施形態における検出モデルの選択方法を説明するた めの模式図である。
図 2 4は、 第 5の実施形態での各階層における検出モデルの回転角度の 変化を示す図である。
図 2 5は、 第 6の実施形態に係るパターン検出装置の構成を示すブロッ ク図である。 5
図 2 6は、 第 6の実施形態における 2つの回転角度 θ ί、 0 a ± 0 ίの 概要を示す図である。
図 2 7は、 第 7の実施の形態におけるパターン検出装置の構成を示すブ ロック図である。
図 2 8は、 パターン検出装置の動作を説明するためのフローチャートで ある。
図 2 9 A〜2 9 Dは、 顔領域検出の対象画像の一例を説明するための図 である。
図 3 0は、 顔領域検出の際に用いる'パラメ一夕の一例を説明するための 図である。
図 3 1 Α、 3 I Bは、 限領域検出の対象画像において、 位置による眼特 徴の検出モデルの違いを説明するための図である。
図 3 2 A、 3 2 Bは、 顔領域検出の確認パターンの設定を説明するため の図である。
図 3 3 A、 3 3 Bは、 パターン検出装置の機能による文字列の検出を説 明するための図である。
図 3 4は、 第 8の実施の形態における情報処理装置の構成を示すプロッ ク図である。
図 3 5は、 Convolut ionalニューラルネットワーク構造を説明するため の図である。
図 3 6は、情報処理装置の動作を説明するためのフロ一チヤ一トである。 図 3 7は、 情報処理装置において、 特徴検出重みデータを模式的に説明 するための図である。
図 3 8は、 第 9の実施の形態における情報処理装置の構成を示すブロッ ク図である。
図 3 9は、 サイズ変更機能を模式的に説明するための図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について図面を用いて説明する。
<第 1の実施形態 >
本発明の第 1の実施形態として、 入力データとして 2次元画像データを 用い、 その画像デ一夕が、 ある特定のカテゴリであるかどうかを識別する 方法を示す。
本実施形態では、 識別カテゴリとして、 図 4の iから ivに示すような、 顔の中心付近が入力画像のほぼ中央に存在する顔存在画像と、 図 4の Vに 示すような、 それ以外の画像である顔不在画像を想定し、 入力された画像 デ一夕に対し、 上記 2つのカテゴリのいずれであるかを識別する方法につ いて説明する。
本実施形態では、 顔の存在する画像かどうかという識別を行うが、 これ に限るものではなく、 その他の画像パターンや、 入力デ一夕が音声データ であるような場合にも適用可能である。 また、 本実施形態では、 説明を簡 単にするため、 顔という単一のカテゴリについて、 そのカテゴリ内である か否かの識別のみを行うが、 このような単一のカテゴリではなく、 複数の カテゴリについて識別する場合にも適用可能である。
図 1 Aにパターン識別装置の基本構成を示す。 以下、 このパターン識別 装置の概要について図 1 Aを用いて説明する。
図 1 Aのデータ入力部 1 1は、 パターン識別を行う入力データを入力す る。 階層的特徴抽出処理部 1 2は、 入力されたデ一夕から階層的に特徵抽 出を行い、 入力データのパターン識別を行う処理部であり、 1次的特徴抽 出処理を行う 1次的特徴抽出処理部 1 2 1と、 2次的特徴抽出処理を行う 2次的特徴抽出処理部 1 2 2とを備えている。抽出結果分布分析部 1 3は、 1次的特徴抽出処理部 1 2 1において抽出された特徴抽出結果の分布を分 析する。 - P T/JP2003/016095
10
このパターン識別装置では、 まずデータ入力部 1 1において識別処理を 行うデ一夕を入力する。 この入力したデータに対し、 階層的特徴抽出処理 部 1 2において階層的特徴抽出処理を行う。 この階層的抽出処理では、 ま ず 1次的特徴抽出処理部 1 2 1において、 入力データから階層的に複数の 1次的特徴の抽出を行う。 次に、 1次的特徴抽出処理部 1 2 1において抽 出された少なくとも 1種類の 1次的特徴の分布を、 抽出結果分布分析部 1 3において分析し、 その分析結果に基づいて、 2次的特徴抽出処理部 1 2 2において 2次的特徴抽出を行う。
次に、 図 1 Bにパターン識別装置の別の基本構成を示す。 以下、 このパ 夕一ン識別装置の概要について図 1 Bを用いて説明する。
図 1 Bにおいて、 デ一タ入力部 1 1は、 パターン識別を行う入力データ を入力する。 階層的特徴抽出処理部 1 2は、 入力されたデータから階層的 に特徴抽出を行い、 入力デ一夕のパターン識別を行う処理部であり、 1次 的特徴抽出処理を行う 1次的特徴抽出処理部 1 2 1と、 2次的特徴抽出処 理を行う 2次的特徴抽出処理部 1 2 2とを備えている。 抽出結果分布分析 部 1 3は、 1次的特徴抽出処理部 1 2 1において抽出された特徴抽出結果 の分布を分析する。 カテゴリ別尤度算出部 1 4は、 抽出結果分布分析部 1 3により分析された分析結果から、 2次的特徴の各カテゴリの尤度を算出 する処理部である。 '
このパ夕一ン識別装置では、 まずデータ入力部 1 1において識別処理を 行うデ一夕を入力する。 この入力したデータに対し、 階層的特徴抽出処理 部 1 2において階層的特徴抽出処理を行う。 この階層的抽出処理では、 ま ず 1次的特徴抽出処理部 1 2 1において、 入力データから階層的に複数の 1次的特徴の抽出を行う。 次に、 1次的特徴抽出処理部 1 2 1において抽 出された少なくとも 1種類の 1次的特徴の抽出結果分布を、 抽出結果分布 分析部 1 3において分析する。 抽出結果分布分析部 1 3により分析された 結果に基づき、 カテゴリ別尤度算出部において、 2次的特徴抽出処理部 1 2 2において抽出する 2次的特徴の各カテゴリの尤度の算出を行い、 2次 的特徴抽出処理部 1 2 2において、 算出した尤度が所定値以上であった力 テゴリに属する 2次的特徴抽出を行う。
図 2は、 本実施形態におけるパ夕一ン識別装置の機能構成を示したもの である。 また、 図 3は、 本実施形態における処理の流れを示したものであ る。 以下、 本実施形態における処理について、 図 2及び 3を用いて説明す る。 図 2の中の実線の矢印は、 実際の信号データの流れを示しており、 破 線の矢印は、 実際の信号データではなく動作指示等の命令信号の流れを示 したものである。 後述する図 8及び図 1 0でも同様の表現とする。
まず、 ステップ S 3 0 1で、 画像入力部 2 1より、 識別対象となる画像 データを入力する。 入力する画像データとして、 本実施形態ではグレース ケール画像を用いるが、 R G Bカラー画像などでもかまわない。
ステップ S 3 0 2では、 初期特徴抽出部 2 2により、 入力された画像中 の特定方向のエッジなどの初期的な特徴を、 少なくとも 1つ抽出する。 ス テツプ S 3 0 3では、 局所特徴抽出部 2 3により、 初期特徴抽出部 2 2で 抽出された初期特徴を用いて、 特定の長さを持つエッジ線分、 エッジ線分 の端点等の局所的な特徴を抽出する。 ステップ S 3 0 4では、 部分特徴抽 出部 2 4において、 局所特徴抽出部 2 3で抽出された局所特徴を用いて、 目、 口等の部分特徴を抽出する。
ステップ S 3 0 5では、 部分特徴分布判定部 2 5により、 部分特徴抽出 部 2 4で抽出された部分特徴の画像内での分布を分析する。 ステップ S 3 0 6では、 部分特徴分布判定部 2 5は、 その分析結果に応じて、 顔抽出部 2 6に対し起動命令を発し、 起動する顔抽出モジュールのフラグをオンす る。
顔抽出部 2 6は、 部分特徴抽出部 2 4において抽出された部分特徴を用 いて顔の抽出を行う処理部である。 顔抽出部 2 6は、 特定のサイズや向き に対応した顔抽出を行う複数のモジュールから構成されており、 起動命令 を受けたモジュールのみ、 顔の抽出を行う。 ステップ S 3 0 7〜3 0 9で は、 順次、 フラグがオンになっている顔抽出モジュールによる顔抽出処理 を行い、 顔抽出を実行した顔抽出モジュールのフラグをオフにする。 フラ グがオンになっている顔抽出モジュールがなくなると、 顔抽出処理を終了 する。
ステップ S 3 1 0〜3 1 1では、 検出結果出力部 2 7において、 顔抽出 モジュールによる顔の抽出結果を統合して、 入力画像が顔存在画像である のか、 顔不在画像であるのかの判別を行い、 その結果を出力する。
以下で、 画像入力部 2 1において入力された画像データに対する、 初期 特徴抽出部 2 2以降の各処理部での処理について詳細に説明する。
初期特徴抽出部 2 2において、 入力画像から抽出する初期的な特徴は、 上位階層である局所特徴抽出部 2 3において抽出される特徴の構成要素と なる特徴であることが望ましい。本実施形態では、単純に縦方向、横方向、 右上がり斜め方向、 左上がり斜め方向の微分フィルタを用いて、 入力画像 の各位置でフィルタリング処理を行い、 垂直エッジ、 水平エッジ、 斜め方 向エツジ等の 4種の特徴を抽出する。 本実施形態では上記のようなフィル 夕リング処理を行うが、 予め用意した初期的な特徴を示すテンプレート画 像などを用い、 入力画像の各位置でテンプレートマッチングを行うことに より、 特徴を抽出するなどしても構わない。
ここで抽出された特徴は、 その特徴の種類、 画像中での位置、 抽出すベ き特徴の尤度や特徴検出レベルといつた情報として保持する。 本実施形態 では、 この段階で入力画像から、 図 5の aから dに示すような特徴が抽出 される。 図 5の aは垂直エッジの抽出結果を示し、 bは水平エッジ、 cは 右斜めェッジ、 dは左斜めェッジの抽出結果である。
図 5では、 それぞれ画像の各位置でフィル夕リングを行つた結果が 0で ある位置をグレーとし、 正の値を高輝度値、 負の値を低輝度値としてあら わすようにしてある。 つまり、 図 5の画像内において、 輝度値が高く示さ T/JP2003/016095
13
れている位置が各フィルタの種類に対応した方向のエッジが抽出された位 置である。 逆に輝度値が低く示されている位置は、 各フィルタの種類に対 応した方向と逆方向のエッジが存在する位置である。 また輝度の中間値で あるグレーの部分はエッジが抽出されていない位置を示している。
ここでは特徴の抽出に微分フィルタを用いているので、 フィルタリング を行った値の絶対値はエッジの急峻さを示す。 つまり入力画像において、 フィル夕の種類に応じた方向に輝度値の変化が大きい位置ほど、高輝度値、 もしくは低輝度値として示してある。
局所特徴抽出部 2 3において、 初期特徴抽出部 2 2において抽出された 初期特徴抽出結果を用いて抽出する局所的な特徴は、 初期特徴抽出部 2 2 において抽出する特徴と同様に、 上位階層である部分特徴抽出部 2 4にお いて抽出される特徴の構成要素となる特徴であることが望ましい。
本実施形態では、 部分特徴抽出部 2 4において目と口を抽出するため、 局所特徴抽出部 2 3では、 図 6の (1一 a ) から (1一 d ) 内の円で囲わ れた部分に示すような、 目尻、 目頭や口の両端等に相当するエッジ線分の 端点として、 左側端点と右側端点の 2種類の特徴と、 目の上部や口唇上部 に相当する特徴、 目の下部や口唇下部に相当する特徴の、 2種類の特定の 長さを持ったエッジ線分を抽出する。
図 6の (1一 a ) から (1一 d ) は、 左側端点 (図は左目の目頭) が存 在する位置における初期特徴抽出結果である。 (1一 a ) は垂直エッジの 抽出,結果であり、 (1一 b) は水平エッジ、 (l— c ) は右斜めエッジ、 ( 1 - d ) は左斜めエッジの抽出結果となっている。 その他 (2— a ) か ら (2— d ) は、 右端点 (図は口の端点) が存在する位置における各初期 特徴 (順に、 垂直、 水平、 右斜め、 左斜めエッジ) 抽出結果であり、 (3 - a ) から (3— d ) は目の上部や口唇上部 (図は右目の上部) 、 (4— a ) から (4一 d ) は、 目の下部や口唇下部 (図は口唇下部) が存在する 5
14
位置における各初期特徴 (順に、 垂直、 水平、 右斜め、 左斜めエッジ) 抽 出結果である。
本実施形態では、 各々の特徴の抽出方法として、 初期特徴抽出部 2 2で 抽出された特徴ごとに特有の 2次元マスクを予め用意しておき、 図 5の a から dに示したような、 それぞれの特徴抽出結果の各位置において、 予め 用意した抽出予定の特徴に固有の 2次元マスクにより、 フィルタリング処 理 (コンポリューション演算) を行う。 そして、 それぞれの初期特徴抽出 結果に対してフィルタリングを行った結果を統合することで、 それぞれの 特徴の抽出を行う。
予め用意しておく固有の 2次元マスクは、 抽出すべき特徴、 ここでは例 えば左端点のような特徴において、 その特徴が存在する位置における、 そ れぞれの初期特徴抽出結果の分布、 すなわち (1一 a ) から (1— d ) に 対応している。 つまり、 初期特徴抽出結果の分布が、 抽出すべき特徴が存 在する位置周辺に特有の初期特徴抽出結果の分布である場合にフィルタリ ングを行つた値が高いものになるような 2次元マスクを設定する。
2次元マスクの設定の方法としては、 単純に複数のテストパターンを与 え、 与えたテストパターンが抽出すべき特徴である場合は、 フィルタリン グを行った結果が高い値になるように 2次元マスクの各要素の値を調整し、 逆に抽出すべき特徴でない場合は、 フィルタリングを行った値が低い値に なるように、 2次元マスクの各要素の値を調整することにより設定すれば よい。 またその他の方法として、 事前に有する知識を利用して、 2次元マ スクの各要素の値を設定するようにしても構わない。
上記のような処理を行い抽出した特徴は、初期特徴抽出部 2 2と同様に、 抽出した特徴の種類、 画像中での位置、 抽出すべき特徴の尤度や特徴検出 レベルといった情報として保持する。 本実施形態では、 2種類の端点と、 2種類の特定の長さを持つエッジ線分の 4種類の特徴ごとに、 抽出された 特徴の位置と、 各特徴に固有の 2次元マスクを用いて、 それぞれの初期特 徴に対してフィル夕リングを行い、 その結果を統合したものを、 その特徴 の尤度として記録して保持しておく。
部分特徴抽出部 2 4での処理も、 局所特徴抽出部 2 3での処理と同様で あり、 下位の層の特徴抽出結果である局所特徴抽出部 2 3において抽出し た複数の局所特徴の抽出結果から、 部分特徴の抽出を行う。 抽出する部分 特徴は、 これも同様に、 上位階層である顔抽出部 2 6において抽出される 特徴、 つまり実施形態中では顔の構成要素となる特徴であることが望まし い。
本実施形態では、 前述のように、 部分特徴抽出部 2 4では、 目、 口等の 抽出を行う。 抽出の処理としては、 局所特徴抽出部 2 3での抽出方法と同 様であり、 特定の 2次元マスクを用いたフィルタリングにより特徴を抽出 すればよい。 または単純に、 局所特徴抽出部 2 3における特徴抽出結果の 内、 ある一定値以上の尤度を持った特徴が、 特定の空間配置関係にあるか どうかによって、 目、 口の抽出を行うなどしてもよい。
上記のようにして抽出した目、 口に関しても、 抽出した特徴の種類、 画 像中での位置、 抽出すべき特徴の尤度や特徴量といった情報として保持す る。 本実施形態では、 目、 口ごとに、 それぞれに固有の 2次元マスクによ る局所特徴抽出結果に対するフィルタリングの結果を、 画像中の各位置で 統合したものを、 各部分特徴の各位置での尤度として保持する。
部分特徴分布判定部 2 5では、 部分特徴抽出部 2 4において抽出された 特徴の抽出結果に対して、簡単な分布の分析を行い、その結果に基づいて、 顔抽出部 2 6に対し、 所定の顔抽出モジュール (複数可) に対して起動命 令を与える。
ここで行う分析は、 初期特徴抽出部 2 2から部分特徴抽出部 2 4までで 行ったような処理とは異なり、 起動命令を与える所定の顔抽出モジュール ごとの必要条件を抽出する。 例えば本実施形態では、 入力画像の所定の座 標付近において、部分特徴抽出部 2 4の処理により目が抽出されているか、 P T/JP2003/016095
16
もしくは抽出されていないかを判別するという分析や、 部分特徴抽出部 2 4の処理による口抽出結果の重心位置が所定の座標付近にあるかどうかを 判別する分析、 或いは部分特徴抽出部 2 4の処理結果である目の尤度の累 計が所定値以上であるかどうかを判別する分析などを行う。
ここで行う上記のような分析は、 顔抽出部 2 6を構成している、 複数の 変動に対応した顔抽出を行うモジュールに対応した条件などを、 予め設定 しておけばよい。 ここで変動とは、 例えば回転変換やサイズ変換等のァフ ィン変換や、 顔が横を向いたときなどに対応する変換等によって得られる 特徴の変化のことである。 '例えば、 時計回り面内回転変動に対応した顔抽 出モジュールであれば、 口抽出結果の重心位置が、 画像中央より左寄り下 部の位置に存在し、 さらに目抽出結果の重心位置が、 口抽出結果の重心位 置の、 右上部の位置に存在するというような条件を、 時計回り面内回転変 動に対応した顔抽出モジュールの必要条件の 1つとして設定しておく。 このような分析をいくつか行い、 分析の条件を満たす所定の顔抽出モジ ュ一ルに対して起動命令を発する。 重心の分析、 尤度の累計の分析等は、 例えば目が存在するだろうと予測される位置等の、 所定の範囲内で行うよ うにしてもよい。 また、 2つ以上の特徴の、 尤度の累計に関する比較など を行ってもよい。 このような簡単な必要条件の分析により、 特徴抽出を行 うモジュールを選択することで、 処理コストの低減が可能になり、 さらに 誤識別の低減も可能になる。
顔抽出部 2 6では、 部分特徴分布抽出部 2 5から起動命令を受けた所定 の顔抽出モジュールのみ、 部分特徴抽出部 2 4で抽出された、 目、 口の抽 出結果を用いて、 部分特徴抽出部 2 4等と同様な特徴抽出処理を行う。 特 定の変動に対応したモジュールとしては、 例えばサイズによる変動 (図 4 の ) 、 面内回転による変動 (図 4の iii) 、 顔の横振り (図 4の iv) 、 縦 振りによる変動等に特化したモジュールを用意しておく。 本実施形態では、 前記のような変動に対応したモジュールごとに、 特定 の 2次元マスクを予め用意しておき、 起動命令を受けたモジュールのみ、 前記特定の 2次元マスクを用いてフィルタリング処理を行う。 2次元マス クの設定は、 局所特徴抽出部 2 3で説明したのと同様であり、 モジュール ごとに対応する変動に特化するように、 モジュールに対応した特定の変動 を有する顔をテストパターンとして与えることによって設定を行う。
この顔抽出では、 画像中央付近を中心とする顔を目標とした抽出を行う ため、 部分特徴抽出部 2 4までの特徴抽出処理とは異なり、 フィルタリン グを画像の各位置で行う必要はなく'、 画面内の顔を抽出するための範囲で のみフィルタリングを行えばよい。
検出結果出力部 2 7では、 起動命令を受け、 顔抽出処理を行った、 変動 に対応したモジュールによるフィルタリングの結果から、 最終的な入力画 像のカテゴリ分別を行う。 ここでは単純に、 起動された顔抽出モジュール の出力値が、 それぞれのモジュールに応じて設定された閾値を超えている か否かを判定して、 少なくとも 1つのモジュールの出力値が閾値を超えて いた時、 入力画像が顔存在画像であると判定し、 そうでない場合は、 顔不 在画像であると判定する。
ここでの判定は、 この方法に限るものではなく、 例えば起動されたモジ ユールの出力値を統合して、最終的な判定を行うというようにしてもよい。 具体的には、 時計回り面内回転変動に対応したモジュールの出力値を、 変 動としては逆のカテゴリである、 反時計回り面内回転変動に対応したモジ ユールの出力値に所定の重み付けをして減算したものとする、 等というよ うに、 変動が相反するようなモジュール間で、 お互いの出力を抑制するこ とで、 誤識別を低減することができる。
また、 特定のサイズの顔に対応したモジュールの出力値に対し、 変動と しては類似したカテゴリである前記特定のサイズよりやや大きいサイズの 顔に対応したモジュールの出力値に所定の重み付けをして加算する、 等と いうよう、 変動が似通ったモジュール間で、 お互いの出力を促進すること で、 識別のための閾値を高く設定することができ、 結果として誤識別が低 減できる。
または、 上記のような類似したカテゴリの、 2つ以上のモジュールの出 力値を重み付け加算、 もしくは単純に相加平均演算等をすることにより得 られる値を、 カテゴリ間の中間の変動に対応する仮想的な特徴抽出モジュ ールの出力値として新たに設定することで、 少ない処理コストで、 識別漏 れのない高精度な識別が可能である。
以上、 第 1の実施形態は、 入力データとして 2次元画像データを用い、 その画像データが、 ある特定のカテゴリであるかどうかを識別する方法に おいて、 識別カテゴリとして、 顔の中心付近が入力画像のほぼ中央に存在 する顔存在画像と、 それ以外の画像の顔不在画像を想定し、 入力された画 像デ一夕に対し、 上記 2つのカテゴリのいずれであるかを識別する方法の 例として説明した。
<第 2の実施形態 >
第 2の実施形態では、 上記第 1の実施形態の変形として、 入力データと して、 2次元画像データを用い、 画像中のどの位置に顔があるのかを検出 する方法を示す。 本実施形態においては、 画像中の顔を検出するといぅ処 理を行うが、 第 1の実施形態と同様に、 これに限るものではなく、 その他 の画像パターンや、 入力データが音声デ一夕であるような場合にも適用可 能である。 また、 複数のカテゴリの対象を検出するような場合においても 適用可能である。
本実施形態では、 2次元画像データから、 階層的特徴抽出により、 変動 に対して頑健に特定のパターンを検出する方法として、 Convolut ional Neural Network (以下 C NN) の基本構成に変更を与えて用いる。 図 7に 基本的な C NNの構成を示す。 C NNの基本的な処理について、 図 7を用 いて説明をする。 図 7において、 処理の流れは、 左端を入力とし、 右方向 へ処理をされる。
図 7の 71は、 入力画像の輝度値等に対応した画素値分布である。 また 図中、 72、 74、 76、 78は、 特徴検出層であり、 各層内の、 L 7 · 21、 L 7 · 22, L 7 · 23, L 7 · 24, L 7 · 4 L 7 · 42, L 7 · 43, L 7 · 44, L 7 · 61, L 7 · 62, L7 - 81は、 特徴 検出細胞面である。 一方、 73、 75、 77は、 特徴統合層であり、 各層 内の、 L7 , 31、 L 7 · 32, L 7 · 33, L 7 · 34, L7 ' 51、 L 7 · 52, L7 ' 53、 L 7 ' 54、 L 7 ' 71、 L 7 ' 72は、 特徴 統合細胞面である。
CNNでは、特徴検出層と特徴統合層の 2つの層をひとつのセットとし、 それが階層的に構成されている。 特徴検出層内の各特徴検出細胞面は、 そ れぞれある特定の特徴を検出する特徴検出ニューロンを有している。 各特 徴検出ニューロンは、 その特徴検出ニューロンの位置に応じた局所的な範 囲で、 前段階層の特徴検出結果、 つまり特徴検出層 74内の特徴検出ニュ —ロンであれば L 7 · 31から L7 · 34までの特徴抽出結果に、 特徴検 出層 72内の特徴検出ニューロンであれば、 入力画像である 71に、 特徴 検出細胞面ごとに固有の重み分布で結合されている。
この重みは、 第 1の実施形態において述べた、 エッジを抽出するための 微分フィルタや、 特定の特徴を抽出するための 2次元マスクに対応してお り、 第 1の実施形態で述べたように、 事前の知識を利用して設定したり、 複数のテストパターンを与えて学習により設定したりすればよい。 その他 誤差逆伝播法による学習や、 Hebbの学習則による自己組織化的な学習など、 既知の Neural Networkの学習方法を利用して設定しても構わない。
各特徴検出ニューロンは、結合先である各特徴細胞面での特徴抽出結果、 もしくは特徴検出層 72であれば入力画像の輝度値等に対して、 所定の重 みで重み付け加算を行い、 その演算結果の値を双曲線正接関数等の非線形 6095
20
関数で変換したものを、 当該特徴検出ニューロンの出力値とするようにし て特徴の検出を行う。
例えば、 L 7 · 2 1は垂直エッジを検出する細胞面であるとすると、 入 力画像の輝度値に対し、 微分フィル夕に対応する重み付け加算を L 7 · 2 1内の各特徴検出ニューロンが行い、 入力画像において垂直エッジが存在 する位置で、 L 7 · 2 1内の特徴検出ニューロンで行った演算結果の値が 大きくなり、 高い出力値を示す、 つまり特徴が検出されるというような構 成になる。
その他の特徴検出細胞面に関しても同様に、 各特徴検出細胞面に特定の 特徴が検出された位置において、 特徴検出ニューロンが高い出力値となる ようになつている。 出力値の演算に関しては、 一般的には上記のように非 線形変換を行うが、 特にこれに限るものではない。
特徴統合層内の各特徴統合細胞面は、 それぞれ前段階層である特徴検出 層の 1つの特徴検出細胞面と結合しており、 前段の特徴検出結果に対して 局所的な範囲において結合し、特徴検出結果をぼかす(統合)処理を行う、 特徴統合ニューロンを有している。 各特徴統合ニューロンは、 基本的には 前述の特徴検出ニューロンと同様の演算を行うが、 特定の 2次元マスクに 対応する重み分布が Gaussian Fi l terや Low- Pass Fi l terであることが特 徴である。
このような階層的な特徴検出、 特徴統合処理を用いて、 初期的な特徴か ら、 徐々に高次の特徴を検出し、 最終的に入力のカテゴライズをするとい うのが C NNのネットヮ一ク構造である。 上記のような処理により、 入力 画像から高次特徴を検出することで、 特定の画像検出が可能である。 C N Nは、 階層的な特徴抽出と、 特徴統合層のぼかしにより、 さまざまなパ夕 ーンの変動に対して頑健な識別が可能であることが特徴である。
本実施形態においては、 上記 C NNを基本的な階層的特徴抽出の処理構 成として説明を行う。 図 8は、 本実施形態における処理部の構成を示した ものである。 また、 図 9 A、 9 Bは、 本実施形態における処理の流れを示 したものである。以下、本実施形態における処理について、図 8及び 9 A、 Bを用いて説明する。
図 8における画像入力部 8 0 1、 初期特徴抽出部 8 0 2、 局所特徴抽出 部 8 0 3、 部分特徴抽出部 8 0 4は、 それぞれ第 1の実施形態における画 像入力部 2 1、 初期特徴抽出部 2 2、 局所特徴抽出部 2 3、 部分特徴抽出 部 2 4と同様である。 そしてステップ S 9 0 1〜9 0 4の処理は、 図 3に おけるステップ S 3 0 1〜3 0 4の処理と同様である。
本実施形態では、 画像入力部 8 0 1において R G Bカラ一画像を用い、 R G Bカラ一画像をグレースケール画像に変換したものを、 次の階層であ る初期特徴抽出部 8 0 2の入力とする。 また、 特徴抽出に上記 C NNによ る処理を用い、 各特徴抽出部では、 特徴検出層による特徴検出と、 特徴統 合層による検出された特徴の統合を行う。 局所特徴抽出部 8 0 3、 部分特 徵抽出部 8 0 4で抽出する特徴の種類は、 第 1の実施形態と同様のもので ある。 またその各特徴を検出するための、 特徴検出細胞面ごとに固有の重 み分布も、 第 1の実施形態で説明した固有の 2次元マスクの設定方法と同 様に、 入力として複数のテストパターンを与え、 学習によって設定したも のを用いる。
本実施形態では、 初期特徴抽出部 8 0 1で抽出する特徴は予め限定した 特徴を用いず、 局所特徴抽出部 8 0 2で検出する特徴を学習する際に、 誤 差逆伝播法を用いることによって、 局所特徴を検出するための各特徴検出 細胞面固有の重み分布を学習するとともに、 初期特徴を検出する各特徴細 胞面固有の重み分布を自動的に設定するようにしている。 これにより、 初 期特徴抽出部 8 0 1では、 局所特徴抽出部 8 0 2で検出する局所特徴を構 成する特徴であって、 その局所特徴を検出するのに必要である初期特徴を 抽出するように、 入力画像 7 1との結合重み分布が自動的に設定すること ができる。 2003/016095
22
ステップ 9 0 5では、 第 1の顔抽出部 8 0 5により、 部分特徴抽出部 8 0 4において抽出された、 目、 口の抽出結果に対して、 上記の特徴抽出方 法と同様の処理を行い、 画像内の顔を抽出する。
顔候補存在判定部 8 0 6では、 第 1の顔抽出部 8 0 5の出力値が所定の 閾値を超えた場合に、 そこに顔の候補が存在すると判定し (ステップ S 9 0 6 ) 、 顔候補の個数を Countに設定して (ステップ S 9 0 7 ) 、 顔候補 があると判定された顔候補存在位置の座標を順次出力し、 肌色領域抽出部 8 0 7、 及び部分特徴分布判定部 8 0 8に対して起動命令を発する (ステ ップ S 9 0 8 ) 。
肌色領域抽出部 8 0 7は、 顔候補存在判定部 8 0 6からの起動命令を受 け、 顔候補存在位置座標に基づく範囲において、 入力画像から肌色の領域 を抽出する (ステップ S 9 0 9 ) 。 部分特徴分布判定部 8 0 8は、 顔候補 存在位置座標に基づく範囲における部分特徴抽出結果の分布を判定し (ス テツプ S 9 1 0 ) 、 上記第 1の実施形態と同様に、 起動する顔抽出モジュ ールのフラグをオンする (ステップ S 9 1 1 ) 。
本実施形態の部分特徴分布判定部 8 0 8は、 第 1の実施形態の部分特徴 分布判定部 2 5とは異なり、 部分特徴抽出部 8 0 4での特徴抽出結果だけ でなく、 肌色領域抽出部 8 0 7での肌色領域抽出結果も利用して、 それら の特徴抽出結果に対して、 簡単な分布の分析を行い、 複数の変動に対応し た顔抽出モジュールから構成される、 第 2の顔抽出部 8 0 9に対して起動 命令を発する処理部である。 ちなみに、 本実施形態での 1つの顔抽出モジ ユールは、 上記 C NNにおける 1つの特徴検出細胞面に対応する。
第 2の顔抽出部 8 0 9は、 上記第 1の実施形態と同様に、 変動に対応し た顔抽出モジュールによる顔抽出を行う。 すなわち、 順次、 フラグがオン になっている顔抽出モジュールによる、 顔候補存在位置座標での顔抽出処 理を行い、 顔抽出を実行した顔抽出モジュールのフラグをオフにする (ス テツプ S 9 1 1〜9 1 4 ) 。 本実施形態における顔抽出処理は、 第 1の実施形態とは異なり、 部分特 徴抽出部 8 0 4における処理により抽出された目、 口の特徴抽出結果だけ でなく、 局所特徴抽出部 8 0 3において抽出した、 目の上部や口唇上部に 相当する特徴抽出結果、 及び肌色領域抽出部 8 0 7において抽出した肌色 領域抽出結果も用いて、 特定変動に対応した顔の抽出を行う。
検出結果出力部 8 1 0では、 第 2の顔抽出部 8 0 9における顔抽出結果 に基づいて、 入力画像中のどの位置に顔が存在するかという結果を出力す る。 すなわち、 各モジュールの出力結果を統合し (ステップ S 9 1 4 ) 、 その顔候補存在位置における検出結果を出力し (S 9 1 5 ) 、 次の顔候補 存在位置における検出へループする (ステップ S 9 1 7〜9 1 8 ) 。
本実施形態での、 第 1の顔抽出部 8 0 5以降の各処理部での詳細な処理 について以下に説明する。
第 1の顔抽出部 8 0 5で行う顔の抽出処理は、 局所特徴抽出部 8 0 3や 部分特徴抽出部 8 0 4での特徴抽出処理と同様である。ここでの顔抽出は、 第 1の実施形態における顔抽出部 2 6のように、 変動に対応した複数の顔 抽出モジュールを持っておらず、 1つのモジュールのみで構成されている。 また本実施形態では、 第 1の実施形態とは異なり、 画像内のどの位置に顔 があるのかを検出するため、 画像の中央付近においてのみ顔の抽出を行う のではなく、 画像の各位置において顔抽出を行う。
ここで抽出処理に用いる、 各顔検出ニューロンの部分特徴抽出部 8 0 4 において抽出された部分特徴抽出結果に結合する固有の重み分布は、 様々 な変動のある顔、 つまり図 4の iから ivに示すような様々な変動を有する 顔をテス卜データとして与えた学習によって設定を行っている。 このよう に学習することで、 顔でないものを顔と判定する可能性が高くなる等、 精 度としては低くなるが、 単独のモジュールで様々な変動のある顔を抽出す ることが可能になる。 この処理部では、 上記のように学習した重み分布を 用い特徴検出を行って、 その結果を特徴統合層により統合する。 顔候補存在判定部 8 0 6では、 第 1の顔抽出部 8 0 5における顔抽出処 理の結果に対して、所定の閾値以上の出力である部分を判定する。そして、 判定された位置に顔の候補が存在するとして、 その候補が存在する範囲に おいて、 肌色部分特徴分布判定部 8 0 7、 及び部分特徴分布判定部 8 0 8 の処理を行うように起動命令を発する。
肌色領域抽出部 8 0 7は、 顔候補存在判定部 8 0 6からの起動命令を受 け、 顔の候補が存在する範囲付近において、 肌色領域の抽出を行う。 本実 施形態では、 肌色領域の抽出を行う領域において、 R G Bカラ一入力画像 を、 H S V表色系に変換し、 特定の色相 (H) の範囲の画素のみを肌色領 域として抽出するようにする。 肌色領域抽出の方法に関しては、 これに限 るものではなく、 一般に知られたその他の方法でも構わない。 例えば、 彩 度 (S ) や輝度 (V) を利用して抽出するようにしてもよい。 また、 本実 施形態では肌色領域を抽出したが、 これ以外にも髪の毛の領域等を抽出す るなどしてもよい。
部分特徴分布判定部 8 0 8は、 第 1の実施形態における部分特徴分布判 定部 2 5と同様の処理を行う。 本実施形態では、 肌色領域抽出部 8 0 7と 同様に、 顔候補存在判定部 8 0 6からの起動命令を受け、 顔の候補が存在 する範囲付近において、 所定の特徴抽出結果の分布の分析を行う。 そして その結果に応じて、 複数の特定の変動に対応した顔抽出モジュールから構 成される、 第 2の顔抽出部 8 0 9の所定の顔抽出モジュールを選択し、 顔 候補存在位置において顔抽出処理を行うように起動命令を与える。
部分特徴分布判定部 8 0 6により分析を行う特徴抽出結果は、 部分特徴 抽出部 8 0 4により抽出された目、 口の抽出結果、 及び肌色領域抽出部 8 0 7による肌色領域抽出結果である。 ここで行う分析は、 第 1の実施形態 において説明したものと同様であり、 第 2の顔抽出部 8 0 9を構成する、 変動に対応した各モジュールが、 顔が存在する場合に満足すべき必要条件 を抽出する処理を行う。 6095
25
本実施形態では、 第 1の実施形態とは異なり、 肌色領域抽出結果を用い るので、 その結果に対する分析のいくつかを挙げる。 いちばん簡単な例と しては、 抽出された肌色領域の面積を分析するものがある。 その他、 肌色 として抽出された領域の縦横比を分析したり、 顔候補が存在すると判定さ れた領域の、 上半分の肌色抽出領域の重心位置と、 下半分の肌色抽出領域 の重心位置の相対位置関係を分析したりしてもよい。
例えば 1番目に挙げた例は、 その面積に応じて、 特定のサイズの顔抽出 モジュールにおける必要条件の 1つになる。 また、 2番目の例は、 顔の横 振りや縦振りに対応したモジュール、 3番目の例は、 顔の面内回転に対応 したモジュールにおける必要条件の 1つとして設定することができる。 ま た、 部分特徴抽出部 8 0 4により抽出された、 部分特徴抽出結果を用い、 目が抽出された領域の面積と、 肌色領域の面積の比較や、 逆に目が抽出さ れていない領域と肌色領域の面積の比較、 さらに目が抽出されていない領 域と肌色でない領域の面積の比較といった分析を行ってもよい。
上記のような面積等の分析においても、 第 1の実施形態において述べた ように、特定の領域内においてのみ分析をするようにしてもよい。例えば、 髪の毛の位置と思われる領域で、 肌色ではない領域の面積の分析を行うよ うにしてもよい。 第 1の実施形態で行ったような、 目、 口の抽出結果に関 する分析に加え、 上記のような分析を追加することで、 より精度の高い起 動命令を発することが可能になる。
第 2の顔抽出部 8 0 9は、 第 1の実施形態の顔抽出部 2 6と同様の処理 部であり、 特定の変動に対応した複数の顔抽出モジュールから構成されて いる。 本実施形態では、 第 1の実施形態とは異なり、 部分特徴抽出部 8 0 4による目、 口の抽出結果だけでなく、 肌色領域抽出部 8 0 7による肌色 抽出結果、第 1の顔抽出部 8 0 5による、様々な変動のある顔の抽出結果、 及び局所特徴抽出部 8 0 3により抽出された特徴の内、 目の上部や口唇上 部に相当する特徴抽出結果を用いて、 顔候補存在位置において顔抽出を行 う。
このように、 直前の階層の特徴抽出結果だけでなく、 同レベルの特徴で ある、 同階層内の特徴抽出結果 (ここでは第 1の顔抽出結果) や、 階層的 特徴抽出の枠組みの外部から挿入した特徴抽出結果 (ここでは肌色領域抽 出結果) 、 直前の階層以前の階層における特徴抽出結果 (ここでは目の上 部や口唇上部に相当する特徴抽出結果) 、 さらに後述の第 3の実施形態に おいて説明を行う、 後段階層の特徴抽出結果等を、 特徴抽出の際に補助的 に用いることで、 特徴抽出の精度を高めることができる。 このようにする ことにより、 処理コストは増加するが、 部分特徴分布判定部 8 0 8から起 動命令を受けたモジュールの、 顔候補が存在する位置でのみ、 第 2の顔抽 出部 8 0 9の特徴抽出処理を行うため、 処理コストの増加は最低限で抑え ることができる。
検出結果出力部 8 1 0は、 第 1の実施形態における検出結果出力部 2 7 と同様の処理部であり、 第 2の顔抽出部 8 0 9を構成する、 複数の変動に 対応した顔抽出モジュールの内、 部分特徴判定部 8 0 8からの起動命令に より特徴抽出処理を行つた結果から、 画像中のどの位置に顔が存在するの かを判定して、 その結果を出力する。 ここでも、 第 1の実施形態で説明し たのと同様に、 複数のモジュールの出力を統合することで、 精度の高い検 出が可能になる。
以上、 第 2の実施形態は、 入力デ一夕として 2次元画像データを用い、 その画像内において、 ある特定の対象を検出する方法において、 顔を検出 対象とする例を説明した。
<第 3の実施形態 >
本発明の第 3の実施形態は、上記第 2の実施形態の変形したものである。 本実施形態も、 第 2の実施形態と同様に、 画像中の顔を検出するといぅ処 理を行うが、 これに限るものではなく、 その他の画像パターンや音声デー 16095
27
夕にも適用可能である。 また、 複数のカテゴリの対象を検出するような場 合にも適用可能である。
図 1 0は、本実施形態における処理部の構成を示したものである。また、 図 1 1 A、 1 1 Bは、本実施形態における処理の流れを示したものである。 本実施形態の基本的な処理の構成は第 2の実施形態において説明したもの と同様である、 以下、 本実施形態における処理について、 図 1 0を用いて 説明する。
図 1 0の画像入力部 1 0 0 1から肌色領域抽出部 1 0 0 7までによる処 理 (ステップ S 1 1 0 1〜 1 1 0 9 ) は、 第 2の実施形態のステップ S 9 0 1〜9 0 9とまったく同様のものであるので説明を省略する。
部分特徴分布判定部 1 0 0 8も第 2の実施形態における部分特徴分布判 定部 8 0 8と同様の処理であるが、 特徴抽出結果の分布の分析結果に応じ て、 第 2の顔抽出部 1 0 0 9の、 複数の変動に対応した顔抽出モジュール に、 顔候補存在位置において顔抽出処理を行うように起動命令を与えると ともに、複数の変動に対応した、部分特徴抽出モジュールから構成される、 第 2の部分特徴抽出部 1 0 1 1に対しても、起動命令を発する。すなわち、 顔候補存在位置座標に基づく範囲における部分特徴抽出結果の分布を判定 し (ステップ S 1 1 1 0 ) 、 及び起動する顔抽出モジュールのフラグをォ ンする (ステップ S 1 1 1 1 ) 。
第 2の部分特徴抽出部 1 0 1 1は、 特定の変動に対応した部分特徴の抽 出を行う複数のモジュールから構成されており、 部分特徴分布判定部 1 0 0 8からの起動命令を受け、 起動命令を受けたモジュールの、 顔候補存在 位置によって決まる特定の位置でのみ、 部分特徴の再抽出を行う。 すなわ ち、 フラグがオンになっている顔抽出モジュールに対応した部分特徴抽出 モジュールがあれば、 顔候補存在位置座標によって定まる位置における部 分特徴抽出処理を行う (ステップ S 1 1 1 3〜1 1 1 4 ) 。 第 2の顔抽出部 1 0 0 9は、 第 2の実施形態の第 2の顔抽出部 8 0 9と ほぼ同様の処理部である。ただし、第 2の部分特徴抽出部 1 0 1 1により、 ここで起動される顔抽出モジュールに対応した、 部分特徴の再抽出が行わ れた場合は、 部分特徴抽出部 1 0 0 4で抽出された特徴を用いて顔抽出を 行う。 すなわち、 フラグがオンになっている顔抽出モジュールにより、 顔 候補存在位置で顔抽出を行い、 顔抽出を実行した顔抽出モジュールのフラ グをオフにする (ステップ S 1 1 1 5〜 1 1 1 6 ) 。
検出結果出力部 1 0 1 0は、 第 2の実施形態の検出結果出力部 8 1 0と まったく同様であり、 ステップ S 1 1 1 7〜 1 1 2 0は、 第 2の実施形態 のステップ S 9 1 5〜9 1 8とまったく同様のものであるので説明を省略 する。 .
本実施形態における部分特徴分布判定部 1 0 0 8、 第 2の部分特徴抽出 部 1 0 1 1、 及び第 2の顔抽出部 1 0 0 9での詳細な処理について以下に 説明する。
部分特徴分布判定部 1 0 0 8は、 前述のように、 部分特徴の抽出結果の 分布を分析する処理に関しては、 第 2の実施形態と同様である。 第 2の実 施形態では、 ここで複数の変動に対応した顔の抽出を行うモジュールに対 して起動命令を発したが、 さらに起動命令を発した顔抽出モジュールの変 動に対応した部分特徴の抽出を行う第 2の部分特徴抽出部 1 0 1 1に対し ても、 起動命令を発する。 具体的には、 例えば時計回り面内回転変動に対 応した顔抽出モジュールを起動するように起動命令を発したとき、同時に、 同じ変動である時計回り面内回転変動に対応した部分特徴抽出モジュール に対しても、 起動命令を発するというようにする。
第 2の部分特徴抽出部 1 0 1 1は、 複数の変動に対応した部分特徴の抽 出を行う複数のモジュールにより構成される。 ここでは、 部分特徴分布判 定部 1 0 0 8からの起動命令を受けた、 複数の変動に対応した顔の抽出を 行うモジュールに対応した部分特徴抽出モジュールを起動し、 顔候補存在 判定部 1 0 0 6の結果として得られる顔候補存在位置によって決まる特定 の範囲においてのみ、 部分特徴の抽出を行う。 特徴の抽出方法は、 第 2の 実施形態において説明したものと同様のものである。
各部分特徴モジュールは、 基本的には第 2の顔抽出部.1 0 0 9を構成す る、複数の変動に対応した顔抽出モジュールのそれぞれに対応しているが、 1対 1の対応でなくてもよい。 例えば、 正面向きの顔抽出モジュールに対 応した、 部分特徴抽出モジュールは存在しない、 などとしてもよい。 この ようにした場合、 正面向きの顔抽出モジュールに対して起動命令が発せら れた場合は、 第 2の部分特徴抽出部 1 0 1 1での処理は行わない、 という ようにすればよい。
さらに、 複数種類の顔抽出モジュールに対して、 1つの部分特徴抽出モ ジュールを対応させるというようにしてもよい。 例えば、 時計回り 1 5度 の面内回転変動に対応する顔抽出モジュールと、 時計回り 3 0度の面内回 転変動に対応する顔抽出モジュールとでは、 1つのモジュールで両方の変 動を含めた抽出を行う部分特徴抽出モジュールを対応させるようにしたり する。
このように、 上位の階層レベルの特徴抽出結果出力に基づいて、 下位の 階層レベルの特徴抽出モジュールの動作を制御するフィードパック機構を 導入する。 すなわち、 第 2の顔抽出において起動される、 特定の変動に対 応する顔抽出モジュールに対応した部分特徴抽出モジュールにより、 低次 の特徴を再抽出することで、 さらに高精度な特徴抽出が可能になる。 特徴 の再抽出により、 処理コストは増加するが、 起動命令を受けたモジュール の特定の位置のみで処理を行うため、 処理コストの増加は最低限で抑える ことができる。
本実施形態では、 この処理部において口の抽出は行わず、 変動に対 し た目の抽出のみを行っている。 さらに高精度な特徴抽出を求めるのであれ ば、 変動に対応した口の抽出を行ってもよいし、 第 1の部分特徴抽出部 1 0 0 4で抽出した特徴以外の種類の特徴を抽出するようにしてもよい。 さらに、 ここでの特徴抽出は、 第 1の部分特徴抽出部 1 0 0 4とは異な り、 局所特徴抽出部 1 0 0 3で抽出された、 局所特徴抽出結果に加えて、 部分特徴抽出部 1 0 0 4において抽出された目、口等の部分特徴抽出結果、 及び第 1の顔抽出 1 0 0 5において抽出された、 第 1の顔抽出結果も利用 して、 目の抽出を行う。 第 2の実施形態においても述べたように、 同レべ ルの特徴である同階層内の特徴抽出結果や、 上位レベルの特徴である上位 階層の特徴抽出結果を補助的に利用することで、 さらに精度の高い特徴抽 出処理が可能になる。
第 2の顔抽出部 1 0 0 9は、 基本的には、 第 2の実施形態における、 第 2の顔抽出部 8 0 9と同様の処理を行う。 第 2の実施形態での第 2の顔抽 出部 8 0 9との違いは、 第 2の部分特徴抽出部 1 0 1 1において、 起動さ れる顔抽出モジュールに対応する、 変動に対応した部分特徴抽出が行われ た場合、 第 1の部分特徴抽出部 1 0 0 4において抽出された部分特徴抽出 結果を用いて顔抽出をするのではなく、 第 2の部分特徴抽出部 1 0 1 1に おいて抽出された変動に対応した部分特徴抽出結果を利用して、 顔抽出を 行う点にある。
本実施形態では、 第 2の部分特徴抽出部 1 0 1 1においては、 目のみの 抽出を行っているため、 口の抽出結果は、 第 1の部分特徴抽出部 1 0 0 4 での抽出結果を用いる。 上記の第 2の部分特徴抽出部 1 0 1 1において説 明したように、 例えば、 正面向きの顔抽出モジュールに対応する部分特徴 抽出モジュールが存在しないという場合、 正面向きの顔抽出モジュールに 対して起動命令が発せられた時は、 第' 2の部分特徴抽出部 1 0 1 1におけ る特徴の再抽出は行われない。
このような場合は、 第 1の部分特徴抽出部 1 0 0 4の特徴抽出結果をそ のまま用いるというようにすればよい。 本実施形態では、 起動される顔抽 出モジュールに対応する、 変動に対応した部分特徴抽出が行われた場合、 第 1の部分特徴抽出部 1004により抽出された目の抽出結果は用いない が、 さらなる精度向上のため、 この特徴抽出結果も補助的に用いるという ようにしてもよい。
以上、 第 3の実施形態は、 第 2の実施形態の変形として、 入力データと して 2次元画像データを用い、 その画像内において、 ある特定の対象を検 出する方法において、 顔を検出する例として説明した。
図 12は、 本発明を実現する情報処理装置のブロック構成例を示す図で ある。 同図に示すように、 この情報処理装置は、 CPU1201、 ROM 1202、 RAMI 203、 HD ひ、一ドディスク) 1204、 CD 12 05、 KB (キ一ポ一ド) 1206、 CRT 1207, カメラ 1208、 ネットヮ一クのインタ一フェース ( I /¥) 1209が、 パス 1210を 介して互いに通信可能に接続されて構成されている。
CPU1201は、 情報処理装置全体の動作制御を司るものであり、 H D (ハードディスク) 1204等から処理プログラム (ソフトウェアプロ グラム) を読み出して実行することで、 情報処理装置全体を制御する。
ROM1202は、 プログラムやプログラム内で用いられる各種データ 等を記憶する。
RAMI 203は、 CPU1201での各種処理のために、 一時的に処 理プログラムや処理対象の情報を格納するための作業用エリア等として使 用される。
HD 1204は、 大容量記憶装置の一例としての構成要素であり、 モデ ルデータなどの各種データ、 あるいは各種処理の実行時に RAMI 203 等へ転送される処理プログラム等を保存する。
CD (CDドライブ) 1205は、外部記憶媒体の一例としての CD (C D-R) に記憶されたデータを読み込み、 また、 当該 CDへデ一タを書き 出す機能を有する。 キ一ポ一ド 1 2 0 6は、 情報処理装置に対する各種指示等をユーザが入 力するための操作部である。
C R T 1 2 0 7は、 ユーザへの各種指示情報や、 文字情報或いは画像情 報等の各種情報の表示を行う。
カメラ 1 2 0 8は、 識別対象画像を撮像して入力する。
インターフエ一ス 1 2 0 9は、 ネットワークから情報を取り込んだり、 ネットワークへ情報を発信したりするために用いられる。
<第 4の実施形態 >
図 1 3は、 本発明の第 4の実施形態に係るパターン検出装置の構成を示 す図である。 図 1 3において、 1 3 0 0は信号入力部、 1 3 0 1は 1次特 徵検出部、 1 3 1 1は 1次特徴検出フィル夕設定部、 1 3 0 2は 2次特徴 検出部、 1 3 1 2は 2次特徴検出モデル設定部、 1 3 0 3は 3次特徴検出 部、 1 3 1 3は 3次特徴検出モデル選択部、 1 3 2 3は 3次特徴検出モデ ル保持部、 1 3 0 4は 4次特徴検出部、 1 3 1 4は 4次特徴検出モデル選 択部、 そして、 1 3 2 4は 4次特徴検出モデル保持部を示す。 尚、 本実施 形態では、 上記のように示した各次数の特徴は、 局所的に検出される局所 特徴を示すものであって、 上位の次数の特徴は下位の次数の特徴を含むも のである。 図 1 4に、 1次〜 4次特徴検出部 1 3 0 1〜4においてそれぞ れ検出される特徴の例を示す
以下、 図 1 3に示すパターン検出装置のそれぞれの構成要素の機能につ いて説明する。 信号入力部 1 3 0 0は、 画像信号等の処理対象となる信号 (例えば、 画像データ) を入力する。 1次特徴検出部 1 3 0 1は、 信号入 力部 1 3 0 0から入力された信号に対し、 後述する 1次の特徴を検出する 処理を行い、 その検出結果を 2次特徴検出部 1 3 0 2に渡す。 1次特徴検 出フィルタ設定部 1 3 1 1は、 1次特徴検出部 1 3 0 0で 1次の特徴を検 出するためのフィル夕の特性を設定する。 2次特徴検出部 1 3 0 2は、 1次特徴検出部 1 3 0 1で検出された結果 に対して、 2次特徴検出モデル設定部 1 3 1 2で設定された検出モデルを 用いて、 後述する 2次の特徴を検出する処理を行い、 その検出結果を 3次 特徴検出部 1 3 0 3及び 3次特徴検出モデル選択部 1 3 1 3に渡す。 2次 特徴検出モデル設定部 1 3 1 2は、 2次特徴検出部 1 3 0 2で 2次の特徴 を検出する際に使用される 2つの 1次特徴間の位置関係を示すモデルを設 定する。 このモデルは、 所定の形状に関する属性を有し、 最初から複数用 意しておいても良いし、 2次特徴検出モデル設定部 1 3 1 2において、 回 転角度をパラメ一夕として、 1つのモデルに回転ァフィン変換等を行って 作成しても良い。 以下、 3次、 4次のモデルについても同様である。 尚、 本実施形態では、 2次特徴は 2つの 1次特徴間の位置関係を示すモデルと して説明しているが、 3つ以上であっても同様に適用することが可能であ る。
3次特徴検出部 1 3 0 3は、 3次特徴検出モデル選択部 1 3 1 3で選択 した検出モデルを用いて、 2次特徴検出部 1 3 0 2で検出された結果に対 して後述する 3次の特徴を検出する処理を行い、 その検出結果を 4次特徴 検出部 1 3 0 4及び 4次特徴検出モデル選択部 1 3 1 4に渡す。 また、 3 次特徴検出モデル保持部 1 3 2 3は、 3次特徴検出モデル選択部 1 3 1 3 で選択される、 回転角度の異なる (すなわち、 傾きが異なる) 複数のモデ ルを保持する。 そして、 3次特徴検出モデル選択部 1 3 1 3は、 3次特徴 検出部 1 3 0 3で特徴を検出する際に使用されるそれぞれの 2次特徴間の 位置関係を示すモデルを、 3次特徴検出モデル保持部 1 3 2 3に保持され たモデルの中から 2次特徴検出部 1 3 0 2からの検出結果に基づいて選択 し設定する。
4次特徴検出部 1 3 0 4は、 4次特徴検出モデル選択部 1 3 1 4で選択 した検出モデルを用いて、 3次特徴検出部 1 3 0 3で検出された結果に対 して後述する 4次の特徴を検出する処理を行い、その検出結果を出力する。 また、 4次特徴検出モデル保持部 1 3 2 4は、 4次特徴検出モデル選択部 1 3 1 4で選択される、 回転角度の異なる (すなわち、 傾きが異なる) 複 数のモデルを保持する。 そして、 4次特徴検出モデル選択部 1 3 1 4は、 4次特徴検出部 1 3 0 4で特徴を検出する際に使用されるそれぞれの 3次 特徴間の位置関係を示すモデルを、 4次特徴検出モデル保持部 1 3 2 4に 保持されたモデルの中から 3次特徴検出部 1 3 0 3からの検出結果に基づ いて選択し設定する。
すなわち、 本実施形態に係るパターン検出装置は、 信号入力部 1 3 0 0 から入力された画像中の所定のパターンをパターンモデルである各次元ご との検出モデルを用いて検出する。 本パターン検出装置は、 所定の下位モ デル (例えば、 2次元特徴検出モデル) を組み合わせて構成される上位モ デル (例えば、 3次元特徴検出モデル) を保持する各次元の検出モデル保 持部 (例えば、 3次元特徴検出モデル保持部 1 3 2 3 ) と、 上記下位モデ ルと画像中のパターンの構成部分とを比較して、 当該下位モデルの構成部 分に対する特徴量を算出する各次元の特徴検出部 (例えば、 2次元特徵検 出部 1 3 0 2 ) と、 上記検出モデル保持部に保持された上位モデルと画像 中のパターンとを比較して、 パターンのパターンモデル (例えば、 3次元 特徴検出モデル) を設定する設定部であって、 上位モデルを構成するそれ ぞれの下位モデルが所定の特徴量を有している場合、 当該上位モデルをパ ターンのパターンモデルとして設定する設定部 (例えば、 3次元特徴検出 部 1 3 0 3 ) を備えることを特徴とする。
また、 上記パターン検出装置は、 信号入力部 1 3 0 0から入力された画 像中からパターンの部分特徴 (例えば、 1次特徴) を検出する検出部 (例 えば、 1次特徴検出部 1 3 0 1 ) と、 所定の部分モデルを用いて上記下位 モデル(例えば、 2次元特徴検出モデル)を設定する下位モデル設定部(例 えば、 2次元検出モデル設定部 1 3 1 2 ) とをさらに備え、 例えば、 2次 元特徴検出部 1 3 0 2等の特徴検出部は、 上記下位モデルに含まれる部分 モデルと画像中のパターンの部分特徴とを比較して、 特徴量を算出するこ とを特徴とする。
さらに、 上記パターン検出装置は、 複数個の上位モデル (例えば、 3次 元検出モデル) を羝み合わせて構成されるさらに上位のモデル (例えば、 4次元検出モデル) を保持する手段 (例えば、 4次元特徴検出モデル保持 部 1 3 2 4 ) と、 当該モデルと画像中の所定のパターンとを比較して、 複 数個の上位モデルがすべて所定の特徴量を有している場合、 そのモデルを 所定のパターンのパターンモデルとして設定する手段 (例えば、 4次元特 徴検出部 1 3 0 4 ) とをさらに備え、 階層的な構成を有するモデルを用い て画像中の所定のパターンのパターンモデルを設定することを特徴とする 次に、 上述したような図 1 3に示す搆成のパターン検出装置の動作例に ついて説明する。 図 1 5は、 第 4の実施形態に係るパターン検出装置の動 作例を説明するためのフローチャートである。 ここで、 説明を分かり易く するために、 上述した本実施形態の構成において、 画像を入力信号とし、 その画像中の顔領域を検出する動作を例として、 本実施形態に係るパター ン検出装置の動作について説明する。
まず、 画像入力部 1 3 0 0において画像信号が入力される (ステップ S 2 0 1 ) 。 次いで、 1次特徴検出部 1 3 0 1において、 入力された画像の 各位置で 1次特徴(例えば、方向性を有するエッジ成分)が検出される(ス テツプ S 2 0 2 ) 。
図 1 4は、第 4の実施形態のパターン検出装置における各特徴検出部(1 次〜 4次特徴検出部 1 3 0 1〜4 ) において検出される特徴の例を示す図 である。 すなわち、 図 1 4に示すように、 1次特徴検出部 1 3 0 1では、 縦特徴 1一 1、 横特徴 1— 2、 右上がり斜め特徴 1一 3、 右下がり斜め特 徴 1一 4といった、 異なる 4方向成分の特徴を検出する。 尚、 本実施形態 では、 1次特徴を上記 4方向の特徴として説明しているが、 これは一例で あっ 、 その他の特徴を 1次特徴として 2次特徴以降の検出に用いるよう にしてもよい。
1次特徴検出部 1 3 0 1における 1次特徴の検出では、 例えば、 4つの 特徴を検出するために使用されるフィル夕の設定が、 図 1 3の 1次特徴検 出フィルタ設定部 1 3 1 1で行われる。 このような特徴検出は、 各方向の エッジ成分を強調するようなフィル夕、 例えば、 S o b e lフィルタや G a b o r関数等を用いて強調処理を行うことによって行うことができる。 また、 ラプラシアンフィル夕等で方向性によらないエツジ強調処理を行つ て、その後各方向の特徴をさらに強調するような処理を行ってもよい。尚、 これらの特徴検出用フィルタは、 最初から複数用意しておいても良いし、 方向をパラメ一夕として、 1次特徴検出フィルタ設定部 1 3 1 1で作成す るようにしても良い。
1次特徴検出部 1 3 0 1における検出結果は、 各特徴毎に、 入力画像と 同等の大きさを有する検出結果画像という形として出力される。すなわち、 図 1 4に示すような 1次特徴の場合、 縦横斜めの 4種類のそれぞれの方向 の特徴成分を有する 4つの検出結果画像が得られる。 そして、 それぞれの 特徴に関する検出結果画像の各位置の値である 1次特徴量 (例えば、 当該 画像中に含まれる一定値以上の画素値の個数等) を見て、 入力画像のその 位置に各特徴が存在するか否かを判断することができる。
また、図 1 4には、 1次特徴の他に、後述する 2次特徴検出部 1 3 0 2、 3次特徴検出部 1 3 0 3及び 4次特徴検出部 1 3 0 4で検出される 2次特 徴、 3次特徴及び 4次特徴の例の一部も示されている。
図 1 4に示すように、 2次特徴としては、 右空き V字特徴 2— 1— 1〜 2 - 1 - 4 , 左空き V字特徴 2— 2—1〜 2— 2— 4、 水平平行線特徴 2 — 3— 1〜2— 3— 4、 垂直平行線特徴 2— 4— 1〜2— 4— 4がある。 尚、 これらの特徴の名称は、 画像に対して顔が正立している時の状態で決 めたもので、 顔の回転により特徴の名称と実際の画像中における各特徴の 2003/016095
37
向きが異なることが生じる。 すなわち、 本実施形態では、 例えば、 2次特 徴検出モデル設定部 1 3 1 1に代表される下位モデルの設定部が、 同一形 状を有する下位モデルのそれぞれについて複数の角度で回転させた形態の 複数の下位モデルを設定することを特徵とする。
また、 3次特徴の例として、 眼特徴 3— 1— 1〜3— 1一 4、 口特徴 3 —2— 1〜3— 2— 4が示されている。 さらに、 4次特徴の例の一部とし て、顔特徵 4一 1— 1〜 4一 1 _ 4、逆顔特徴 4一 2 - 1が示されている。 尚、 逆顔特徴として、 図示はされていないが、 顔特徴 4一 1— 2〜4一 1 一 4に対応するものも 4次特徴として存在する。
上述したように、 本実施形態ではステップ S 2 0 2の処理により、 1次 特徴検出部 1 3 0 1において、 各位置において 4種類の 1次特徴が検出さ れた後、 2次特徴検出部 1 3 0 2において 2次特徴の検出が行われる (ス テツプ S 2 0 3 ) 。 以下では一例として、 図 1 4に示す右空き V字特徴 2 - 1 - 1を検出する場合について説明するが、 その他の場合についても同 様に実現することができる。
図 1 6 A、 1 6 Bは、 2次特徴のうち右空き V字特徴 2— 1一 1に関す るモデルを説明するための図である。この右空き V字特徴 2— 1一 1には、 図 1 6 Aに示すように、 1次特徴である右上がり斜め特徴 1一 3が上部に 存在し、 また右下がり斜め特徴 1—4が下部に存在している。 すなわち、 右空き V字特徴 2— 1一 1を検出するためには、 ステップ S 2 0 2で求め た 1次特徴の検出結果を利用し、 上部に右上がり斜め特徴 1一 3があり、 下部に右下がり斜め特徴 1一 4がある位置を求めれば良く、 その位置に右 空き V字特徴 2— 1一 1が存在することとなる。 このように、 複数種類の 1次特徴を組み合わせて、 2次特徴を検出することができる。
しかしながら、 画像中の顔のサイズは固定サイズではなく、 また個人に より眼や口の大きさが異なり、 さらに眼や口は開閉動作をするので、 V字 の大きさも変化しまた回転もする。 また、 エッジ等の抽出処理による誤差 T/JP2003/016095
38
等も発生する可能性がある。 そこで、' 本実施形態では、 図 1 6 Bに示すよ うな、 右空き V字検出モデル 4 0 0を考える。 そして、 この右空き V字検 出モデル 4 0 0中の 4 0 3を右上がり斜め領域、 4 0 4を右下がり斜め領 域とする。 そして、 右上がり斜め領域 4 0 3にステップ S 2 0 2で求めた 1次特徴のうち、 右上がり斜め 1一 3のみ存在し、 また右下がり斜め領域 4 0 4に右下がり斜め 1一 4のみが存在するような場合、 その位置に右空 き V次特徴 2— 1— 1が存在するものとする。 このようにすることで、 あ る程度の大きさや形状の変化、 回転に対して、 ロバストな処理をすること が可能となる。
本実施形態では、 図 1 6 Bの右上がり斜め領域 4 0 3内に右上がり斜め 特徴を有する画像の中心が存在する場合、 及び、 右下がり斜め領域 4 0 4 内に右下がり斜め特徴を有する画像の中心が存在する場合に、 右空き V字 特徴 2— 1一 1が存在するものとする。 尚、 上述したように画像の中心が 存在する場合だけに限らず、 例えば、 それぞれの領域内に 1次特徴を有す る画像全体が含まれる場合に存在するようにしてもよい。 また、 右上がり 斜め領域 4 0 3及び右下がり斜め領域 4 0 4は、 図 1 6 Bに示すような矩 形形状に限られず、 任意の形状であってもよい。 これは、 他の領域につい ても同様である。
ここで、 顔全体が大きく回転したような画像の場合 (すなわち、 画像の 水平方向或いは垂直方向等の特定の方向から大きく傾いたような場合)は、 上述したようなモデルであっても抽出することは困難である。 そこで、 本 実施形態では、 複数の回転角度用の検出モデルを用いて 2次特徴の検出を 行うようにする。 図 1 7 A〜1 7 Dは、 2次特徴を検出するための回転し た検出モデルの一例を示す図である。 例えば、 図 1 7 Aに示す 4種類の 2 次特徴の検出モデルを反時計方向に 4 5度ずつ回転させて 4グループに分 けた 2次特徴検出モデルを考える。 図 1 7 Aは、 正面正立顔を 0度としたときに、 ほぼ 0度及び 1 8 0度回 転した顔の 2次特徴を検出するための検出モデル群、 図 1 7 Bは同様にほ ぼ 9 0度及び一 9 0度回転した顔の 2次特徴を検出するための検出モデル 群、 図 1 7 Cは同様にほぼ 4 5度及び— 1 3 5度回転した顔の 2次特徴を 検出するための検出モデル群、 図 1 7 Dは同様にほぼ一 4 5度及び 1 3 5 度回転した顔の 2次特徴を検出するための検出モデル群を示す。 尚、 各検 出モデルにおいて、 1— 1〜1—4はそれぞれ図 1 4に示される同一符号 の 1次特徴を有する画像が含まれる領域を示している。
また、 図 1 7 A〜l 7 Dに示した各検出モデル群は、 それぞれ右空き V 字特徴 2— 1— 1、 左空き V字特徴 2— 2 _ 1、 水平平行線特徴 2— 3 - 1、 及び、 垂直平行線特徴 2— 4一 1という 4種類の 2次特徴を検出する ための 4種類の検出モデルから成立し、 各検出モデルの番号がその検出モ デルで検出する図 1 4に示した 2次特徴を示す。 尚、 これらの右空き V字 特徴、 左空き V字特徴、 水平平行線特徴、 及び垂直平行線特徴という特徴 の名称は、 顔が正立している時を基準にして付けられたものである。 その ため、 例えば、 図 1 7 Aでは 2— 3 - 1に示すように水平平行線特徴は水 平方向に伸びた 2本の線を示しており、 その名称と一致する。 しかし、 図 1 7 Bのように、 9 0度回転した場合は水平平行線特徴という名前が示す 特徴は、 2— 3— 2に示すように、 実際には垂直方向に伸びた 2本の線を 示すことになつてしまう。 このように、 回転により、 特徴の名称と実際の 特徴が示す形状が対応しなくなることがある。
尚、 図 1 7 A〜l 7 D中の符号 1— 1〜1—4で示されるそれぞれの矩 形領域は、 上記ステップ S 2 0 2で検出された 1次特徴が存在する領域で あり、 それぞれの領域に付された符号及びその特徴は、 図 1 4に示した 1 次特徴の符号のものと同一である。 すなわち、 これらの矩形領域に内に当 該番号が示す 1次特徴のみが存在する時に、 その検出モデルで検出する特 徵が存在するということになる。 従って、 これらの全ての検出モデルを用 2003/016095
40
いて 2次特徴を検出することにより、 回転した (傾いた) 顔であってもそ の 2次特徴を検出することができる。
2次特徴検出モデルの設定は、 図 1 3の 2次特徴検出モデル設定部 1 3 1 2で行われる。 それ以外でも、 最初からこのような複数の検出モデルを 用意しておいても良いし、 例えば、 図 1 7 A〜l 7 D中に示したほぼ 0度 又は 1 8 0度回転した顔の 2次特徴を検出するための検出モデルを用意し、 これらのモデルに対して回転変換及び検出する 1次特徴の種類を変更する 処理を行うことにより、 2次特徴検出フィルタ設定部 1 3 1 1で作成して も良い。 尚、 図 1 7 A〜l 7 Dに示した 2次特徴の検出モデルには同じも のが存在しているが、 これは説明を分かりやすくするために全て書いてあ るためであり、実際の処理では同じ検出モデルを複数用意する必要はない。
2次特徵検出部 1 3 0 2は、 上述したように、 設定された検出モデルを 用いて 2次特徴の検出を行う。 すなわち、 2次特徴の検出は、 2次特徴を 構成する各 1次特徴の値を用いて行い、 検出モデルで設定される各領域の 1次特徴の値がしきい値以上であるかどうかで判断することができる。 例 えば、 0度用の右空き V字検出モデル 2— 1一 1を用いて、 所定の位置の 2次特徴として右空き V字特徴を検出する場合について説明する。 この場 合は、 図 1 6 Bに示すように、 右上がり斜め領域 4 0 3中に存在する右上 がり斜め特徴 1一 3の値の最大値がしきい値より高く、 かつ右下がり斜め 領域 4 0 4中に存在する右下がり斜め特徴 1—4の値の最大値がしきい値 より高い場合に、 当該位置に右空き V字特徴が存在するものとする。 そし て、 その位置の値 (2次特徴量) として、 例えば、 それらの最大値の平均 とする。 逆に、 各領域における 1次特徴の値 (1次特徴量) が、 どちらか 一方でもしきい値より低い場合は、 この位置には 2次特徴が存在しないと して、 その位置の値を 0とする。
このようにして求められた検出結果は、 各 2次特徴毎に、 入力画像と同 等の大きさの検出結果画像という形で出力される。 すなわち、 各特徴の検 出結果画像の各位置の値を見て、 入力画像のその位置に各回転方向の各 2 次特徴が存在するか否かを判断することができる。
従って、 このステップ S 2 0 3の処理では、 2次特徴検出モデルの各領 域で再度 1次特徴を検出するのではない、 ということが特徴である。 すな わち、 2次特徴の一つである右空き V字特徴 2— 1—1の検出では、 右上 がり斜め領域と右下がり斜め領域内で、 再度、 それぞれ 1次特徴である右 上がり斜め特徴 1一 3と右下がり斜め特徴 1一 4を検出するのではない。 これらの 1次特徴の検出はステップ S 2 0 2の処理で既に終了しており、 ステップ S 2 0 3では、 それらの領域に各 1次特徴が存在するか否かをし きい値を使用して判断しているだけである。 そして、 複数の 1次特徴がそ れぞれの領域に存在すると判断された場合に、 その位置に 2次特徴が存在 するとする処理を行っている。 この特徴の検出の処理方法は、 3次特徴及 び 4次特徴に関しても同様である。 これによつて、 処理コストの減少を図 ることが可能となる。
2次特徴が検出された後、 3次特徴検出モデル選択部 1 3 1 3では、 3 次特徴検出モデルを選択する (ステップ S 2 0 4 ) 。 ここで一例として、 ステップ S 2 0 3で検出された 2次特徴から、 眼特徴 (図 1 4中の符号 3 — 1—:!〜 3— 1ー4) を検出することを考える。 図 1 9 A、 1 9 Bは、 3次特徴検出部 1 3 0 3において眼特徴を検出するための眼検出モデルの —例を示す図である。
図 1 9 Aは顔が正立の時を 0度としたときに、 回転がほぼ 0度又は 1 8 0度の眼特徴 (図 1 4に示した符号 3— 1一 1 ) を検出するための眼検出 モデル 7 0 0を示す。 回転がほぼ 0度又は 1 8 0度の眼特徴は、 回転が 0 度の 2次特徴量である右空き V字特徴 2— 1一 1が左側に、 左空き V字特 徴 2— 2— 1が右側に、 そして水平平行線特徴 2— 3— 1及び垂直平行線 特徴 2— 4一 1がそれら V字特徴の中間に存在するといつた組み合わせが 満たされることによって検出することができる。 従って、 眼検出モデル 7 0 0も右空き V字特徴 2— 1一 1を検出する右空き V字領域 7 0 1が左側 に、左空き V字特徴 2— 2一 1を検出する左空き V字領域 7 0 2が右側に、 そして水平平行線特徴 2 - 3 - 1を検出する水平平行領域 7 0 3及び垂直 平行線特徴 2— 4一 1を検出する垂直平行領域 7 0 4がそれら V字領域の 中間に存在して成り立つている。
また同様に、 図 1 9 Bは回転がほぼ 9 0度又は一 9 0度の眼特徴 (図 1 4中の符号 3— 1— 2 ) を検出するための眼検出モデル 7 1 0を示す。 回 転がほぼ 9 0度又は一 9 0度の眼特徴は、 回転が 9 0度の 2次特徴量であ る右空き V字特徴 2— 1一 2が上側に、 左空き V字特徴 2— 2— 2が下側 に、 そして水平 ·垂直平行線特徴 2— 3〜 4一 2がそれら V字特徴の中間 に存在する組み合わせが満たされることによって検出ができる。 従って、 眼検出モデル 7 1 0も右空き V字特徴 2 - 1 - 2を検出する右空き V字領 域 7 1 1が上側に、 左空き V字特徴 2— 2— 2を検出する左空き V字領域 7 1 2が下側に、 そして水平 ·垂直平行線特徴 2 _ 3〜 4一 2を検出する 水平平行領域 7 1 3及び垂直平行領域 7 1 4がそれら V字領域の中間に存 在して成り立つている。 尚、 4 5度及び 1 3 5度も同様にして実現するこ とができる。
上述したように、 ステップ S 2 0 4では、 ステップ S 2 0 3で検出され た 2次特徴の検出結果に基づいて、 3次特徴検出部 1 3 0 3において 3次 特徴検出に使用される 3次特徴検出モデルが、 3次特徴検出モデル選択部 1 3 1 3で選択される。ここで、対象の回転を含んだ 3次特徴(すなわち、 傾斜した 3次特徴) を検出するために、 ステップ S 2 0 3で検出した全て の回転角度の 2次特徴 2— 1一 1〜2— 4— 4を使用して、 図 1 4に示し た全ての回転角度での 3次特徴 3—1— 1〜3— 2— 4を検出することも 可能である。 しかし、 その方法では計算コストの増大が著しい。 そこで、 本実施形態では、 ステップ S 2 0 3で検出した 2次特徴の検出結果に基づ いて、 検出に使用される 3次特徴モデルを 3次特徴検出モデル選択部 1 3 13で選択し、 検出する 3次特徴の数 (すなわち、 対象とする回転角度) を制限することで、 計算コストの増大を抑制する。 すなわち、 本実施形態 に係るパターン検出装置には、 2次特徴検出部 1302によって算出され た下位モデルの特徴量に基づいて、 3次特徴検出部 1303においてパ夕 ーンと比較される上位モデル (3次元特徴検出モデル) の数を制限する 3 次元特徴検出モデル選択部 1313をさらに備えることを特徴とする。 ま た、 4次特徴検出モデル選択部 1314についても同様である。
この選択は、 2次特徴の検出結果画像の各位置毎に、 その位置での 2次 特徴量である検出結果値 (相関値) に基づいて行われる。 図 18A、 18 Bは、 3次特徴検出モデル選択部 13 13におけるモデル選択の方法を示 す模式図である。 図 1 8Aのグラフは、 ある位置での 2次特徴の検出結果 値 (相関値) を示し、 横軸は正立時を 0度としたときの回転角度を、 縦軸 は相関値を示す。 ここで、 相関値の値域は 0 (相関無し) 〜1 (相関最大) とする。 また、 横軸は、 0度を挟み、 —45度、 45度、 及び 90度回転 した 2次特徴の結果を示している。 これは図 17A〜17Dに示したよう に 2次特徵を検出する時の回転角度を 45度毎としたためである。
角度 nでの相関値を Snとし、 しきい値を S t hとすると、 選択方法の 例としては、 まず、 Sn>S t hを満たす角度の中から最大の Snを S p とし、 その時の角度 0 pを選択する。 そして、 2番目に大きい Snを S q とし、 S Q>k · S pを満たす時に、 その時の角度 Θ qも選択する。 さら に、 3番目に大きい S nを S rとし、 S r〉k' * S Qを満たす時にその 時の角度 0 rも選択する。 ここで、 k、 k' は係数であり、 例えば、 k' = k = 0. 7とする。
例えば、 k = k' =0. 7の場合、 相関値がしきい値を越えており、 か つ、 最大相関値 S pの場合の角度 0 pを選択する。 次に、 さらに最大相関 値 Spの 7割 (0. 7 S p) よりも 2番目の相関値の方が高ければ、 すな わち S q;>0. 7 S pであれば、 2番目の相関値の角度も選択する。 尚、 このときの相関値は S Qである。そして、さらに 2番目の相関値の 7割(0. 7 S q) よりも 3番目の相関値の方が高ければ、 すなわち、 S r>0. 7 S Qであれば、 3番目の相関値の角度も選択する。 このときの相関値は S rである。
本実施形態では、 上述したような選択方法で、 検出する 3次特徴の回転 角を選択する。 従って、 しきい値を越えた角度が無い場合には選択する角 度は 0個となり、 またしきい値を越えた角度が存在する場合には、 各角度 の相関値の分布により選択する回転角度とその数が決定される。 そして、 その選択された回転角に対応した検出モデルを選択する。
尚、他の選択方法として、上述したような相関値に基づいて(すなわち、 所定量以上の特徴量を有するもの) 3次特徴を検出する検出モデルの回転 角度を選択するのではなく、 相関値が上位の角度のモデルを所定数個選択 するような選択方法を用いても良い。 この場合の選択処理は、 図 13に示 すパターン検出装置の 3次特徴検出モデル選択部 1313で行われ、 選択 される検出モデルは、 3次特徴検出モデル保持部 1323に保持されてい る。
例えば、 眼特徴を検出する検出モデルが 45度毎の回転角度で用意され ていたとする。そして、図 18 Aが、ある位置での 2次特徴量の相関値を、 各回転角度ごとに示しているとする。 ここで、 例えば、 回転角度が一 45 度、 0度、 45度、 及び 90度の相関値をそれぞれ 0. 5、 0. 9、 0. 8、 及び 0. 3とし、 しきい値 S t h = 0. 4、 係数 k = k' =0. 7と する。 このとき、 回転角度一 45度、 0度、 45度で相関値はしきい値 S t hを越えており、 0度の相関値が最大であって、 S p = 0. 9、 0 p = 0度となる。 また、 45度の相関値が 0度の相関値の 7割以上を示してい るので、 S Q = 0. 8、 度となる。 よって、 この時は、 眼特徴 を検出するための検出モデルは、 0度の検出モデル及び 45度の検出モデ ルが選択されることとなる。 次に、 3次特徴検出部 1 3 0 3では、 ステップ S 2 0 4で設定された 3 次特徴検出モデルを用いて 3次特徴が検出される (ステップ S 2 0 5 ) 。 各 3次特徴の検出方法は、 ステップ S 2 0 3と同様であり、 ステップ S 2 0 4で選択された検出モデルの検出領域内にステップ S 2 0 3で検出され た各 2次特徴が存在するか否かを調べることで 3次特徴の検出を行う。 例 えば、 ステップ S 2 0 4の処理に関して上述した 3次特徴の一つである眼 特徴の検出例では、 その位置において、 0度及び 4 5度の 2種類の検出モ デルを用いて、 3次特徴である眼特徴を検出する。
以下では、 3次特徴検出処理の一例として、 0度の検出モデルを用いた 時の眼特徴の検出方法について説明する。 0度の眼特徴の検出モデルは、 前述した図 1 9 Aに示す検出モデル 7 0 0で示した通りである。すなわち、 検出モデル 7 0 0中の右空き V字領域 7 0 1において、 (1 ) 2次特徴の 0度の右空き V字特徴 2— 1 - 1の検出結果の相関値がしきい値を越えて おり、 また他の特徴の相関値が相対的に低く、 かつ、 (2 ) 左空き V字領 '域 7 0 2において 2次特徴の 0度の左空き V字特徴 2— 2— 1の検出結果 の相関値がしきい値を越えており、また他の特徴の相関値が相対的に低く、 かつ、 ( 3 ) 水平平行領域 7 0 3において 2次特徴の 0度の水平平行線特 徴 2— 3— 1の検出結果の相関値がしきい値を越えており、 また他の特徴 の相関値が相対的に低く、 かつ、 (4 ) 垂直平行領域 7 0 4において 2次 特徴の 0度の垂直平行線特徴 2— 4— 1の検出結果の相関値がしきい値を 越えており、 また他の特徴の相関値が相対的に低い場合の上記 4つの条件 を同時に満たすとき、 その場所に 3次特徴である眼特徴が存在するものと する。
また、 4 5度の眼特徴の検出についても、 同様に、 4 5度用の 2次検出 モデルを用いて検出された 2次特徴の 4 5度の検出結果を用いて検出する。 そして、 これらの検出結果は、 4次特徴検出部 1 3 0 4及び 4次特徴検出 モデル選択部 1 3 1 4に対して出力される 9 尚、 これらの処理は、 図 1 3 のパターン検出装置における 3次特徴検出部 1 3 0 3で行われる。
次いで、 4次特徴検出モデル選択部 1 3 1 4は、 4次特徴検出モデルを 選択する (ステップ S 2 0 6 ) 。 ここでの選択方法は、 ステップ S 2 0 4 と同様に、 相関値に基づいて選択するものである。 例えば、 ステップ S 2 0 5の処理の場合の説明で示した 0度及び 4 5度を選択した 3次特徴の検 出結果が図 1 8 Bに示すようになったとし、 回転角度 0度及び 4 5度の相 関値をそれぞれ、 0 . 9及び 0 . 6とし、 しきい値を S t h = 0 . 4とす る。 この場合、 回転角度が 0度及び 4 5度ともにしきい値 S t hを越えて おり、 0度の相関値が最大で S p = 0 . 9、 0 p = O度となる。
ここで、 4 5度の相関値が 0度の相関値の 7割以下であるので、 よって この時は、 顔特徴を検出するための検出モデルは、 0度の顔 (図 1 4中の 符号 4一 1— 1 ) 及び 1 8 0度の逆顔検出 (図 1 4中の符号 4一 2— 1 ) を検出するための検出モデルが選択される。 また、 別の方法として、 相関 値が上位の角度を既定数選択する選択方法もある。 これらの処理は、 図 1 のパターン検出装置における 4次特徴検出モデル選択部 1 3 1 4で行われ、 検出モデルは 4次特徴検出モデル保持部 1 3 2 4に保持されている。
4次特徴検出部 1 3 0 4は、 ステップ S 2 0 6で選択された 4次特徴検 出モデルを用いて 4次特徵を検出する (ステップ S 2 0 7 ) 。 この場合の 検出方法は、 ステップ S 2 0 3、 S 2 0 5と同様である。 また、 4次特徴 である顔特徴を検出した場合、 顔の回転角度とともに、 両眼と口の位置か ら検出した顔のサイズも検出できる。 これらの処理は、 図 1 3のパターン 検出装置の 4次特徴検出部 1 3 0 4で行われる。
上述したように、 本実施形態に係るパターン検出装置によれば、 各特徴 を検出するための検出モデルを回転角度に応じて用意し、 前段の特徴の検 出結果に応じて、次段の特徴の検出に使用する検出モデルを選択している。 そのため、 各特徴の回転によらず計算コストの増大を抑制しながら検出精 ― P T/JP2003/016095
47
度が向上し、 最終的に検出するパターンの検出精度が向上するという効果 が得られる。また、眼や口は開閉動作や表情により形状が変化し、例えば、 右空き V字特徴の回転角度と顔の回転角度が異なることもある。そのため、 2次特徴の相関値が最大となった回転角度だけで 3次特徴、 4次特徴の検 出を行うのではなく、 本実施形態で説明したように、 相関値に基づいて次 段に使用する回転角度の数を決定することにより、 回転の検出精度も向上 させることができるという効果が得られる。
次に、 本実施形態の構成に係るパターン検出 (認識) 装置又はそれと同 様の処理を行う処理手段を撮像装置に搭載させることにより、 特定被写体 へのフォーカシング、 特定被写体の色補正、 或いは露出制御を行う場合に ついて説明する。 図 2 0は、 第 4の実施形態に係るパターン検出装置を用 いた撮像装置の構成を示すプロック図である。
図 2 0に示す撮像装置 2 0 0 1は、 撮影レンズ及びズ一ム撮影用駆動制 御機構を含む結像光学系 2 0 0 2、 C C D又は CMO Sイメージセンサ 2 0 0 3、 撮像パラメ一夕計測部 2 0 0 4、 映像信号処理回路 2 0 0 5、 記 憶部 2 0 0 6、 撮像動作の制御、 撮像条件の制御等の制御用信号を発生す る制御信号発生部 2 0 0 7、 E V F (Electronic View Finder) 等のファ インダーを兼ねた表示ディスプレイ 2 0 0 8、 ストロボ発光部 2 0 0 9、 記録媒体 2 0 1 0等を具備し、 更に上述したパターン検出装置を被写体検 出装置 2 0 1 1として備える。
上記構成を備える撮像装置 2 0 0 1では、 例えば、 撮影された映像中か ら人物の顔画像の検出 (すなわち、 存在位置、 サイズ、 回転角度の検出) を被写体検出 (認識) 装置 2 0 1 1により行う。 そして、 検出された人物 の位置情報等が被写体検出 (認識)装置 2 0 1 1から制御信号発生部 2 0 0 7に入力されると、 制御信号発生部 2 0 0 7は、 撮像パラメ一夕計測部 2 0 0 4からの出力に基づき、その人物に対するピント制御、露出条件制御、 ホワイトバランス制御等を最適に行う制御信号を発生する。 このように、 上述したパターン検出 (認識) 装置を、 上記のように撮像 装置に用いることで、 人物検出とそれに基づく撮影の最適制御を行うこと ができるようになる。 尚、 上記説明では、 上述したパターン検出装置を被 写体検出 (認識) 装置 2 0 1 1として備える撮像装置 2 0 0 1について説 明したが、 当然、 上述したパターン検出装置のアルゴリズムをプログラム として実装し、 C P Uで動作させるようにして、 撮像装置 2 0 0 1に搭載 することも可能である。
また、 上記の説明では、 検出すべきパターンの特徴を 4階層に分け、 1 次特徴から 4次特徴を順に検出し、 最後に検出すべきパターンを確認した が、 4階層に限定されることはなく、 例えば 3階層以下であっても、 5階 層以上であっても良い。 これは、 第 2の実施形態や、 後述する第 6の実施 形態でも同様である。
<第 5の実施形態 >
図 2 1は、 本発明の第 5の実施形態に係るパターン検出装置の構成を示 すプロック図である。 図 2 1において、 2 1 0 0は信号入力部、 2 1 0 1 は 1次特徴検出部、 2 1 1 1は 1次特徴検出フィルタ設定部、 2 1 0 2は 2次特徴検出部、 2 1 1 2は 2次特徴検出モデル設定部、 2 1 0 3は 3次 特徴検出部、 2 1 1 3は 3次特徴検出モデル選択部、 2 1 2 3は 3次特徴 検出モデル保持部、 2 1 3 3は 2次特徴計測部、 2 1 0 4は 4次特徴検出 部、 2 1 1 4は 4次特徴検出モデル選択部、 2 1 2 4は 4次特徴検出モデ ル保持部、 そして 2 1 3 4は 3次特徴計測部を示す。
図 2 1に示すパターン検出装置のそれぞれの構成要素について、 上述し た第 4の実施形態と異なる部分は、 基本的に、 2次特徴計測部 2 1 3 3、 3次特徴計測部 2 1 3 4、 及び 3次特徴検出モデル選択部 2 1 1 3、 及び 4次特徴検出モデル選択部 2 1 1 4である。
上記第 4の実施形態では、 パターン検出装置全体の動作として、 3次特 徵検出モデル選択部 1 3 1 3は、 2次特徴検出部 1 3 0 2の出力値に基づ いて 3次特徴を検出する際に使用する検出モデルを選択していた。 また、 4次特徴検出モデル選択部 1 3 1 4は、 3次特徴検出部 1 3 0 3の出力値 に基づいて 4次特徴を検出する際に使用する検出モデルを選択していた。 これに対し、 本実施形態では、 3次特徴検出モデル選択部 2 1 1 3は、 2 次特徴計測部 2 1 3 3の出力に基づいて 3次特徴を検出する際に使用する 検出モデルを選択するという点で異なる。 同様に、 4次特徴検出モデル選 択部 2 1 1 4は、 3次特徴計測部 2 1 3 4の出力値に基づいて 4次特徴を 検出する検出モデルを選択するという点で異なる。
次に、 2次特徴計測部 2 1 3 3及び 3次特徵計測部 2 1 3 4の動作につ いて説明する。 2次特徴計測部 2 1 3 3は、 2次特徴検出部 2 1 0 2の出 力に基づいて 2次特徴の回転角度を計測する。 また、 3次特徵計測部 2 1 3 4は、 3次特徴検出部 2 1 0 3の出力に基づいて 3次特徴の回転角度を 計測する。 これらの回転角度 Θ aは、 例えば、 式 (1 ) に示すようにして 求められる。
0 式 (1)
Figure imgf000051_0001
ここで、 0 iは各角度、 S iはその角度の相関値を示す。 この計算に使 用する角度及び相関値は、 2次特徴検出部 2 1 0 2 (又は、 3次特徴検出 部 2 1 0 3 ) で計算した全ての角度を用いても良いし、 第 4の実施形態で 説明したように、 しきい値以上の角度を使用したり、 またさらに最大の相 関値の何割か以上ということで選択してもよい。 また、 同時に、 2次特徴 計測部 2 1 3 3 (又は、 3次特徴計測部 2 1 3 4 ) は、 その角度を計算す るために使用した角度の中で相関値の上位 2つの角度も出力する。 尚、 上 記式 (1) は、 2次特徴又は 3次特徴の回転角度 Θ aを離散的な角度で検 出した結果から推定するものであり、 本実施形態では、 特にこの計算式だ けに限られることはなく、 他の計算式を使用しても良い。
次に、 3次特徴検出モデル選択部 21 13、 及び 4次特徴検出モデル選 択部 21 14の動作について説明する。 この 2つの特徴検出モデル選択部 の動作は、 基本的に同じであるので、 以下では 3次特徴検出モデル選択部 2 1 1 3だけを例にとって説明する。
図 22は、 第 5の実施形態に係るパターン検出装置の 3次特徴検出モデ ル選択部 21 13の動作を説明するためのフローチャートである。 まず、 2次特徴計測部 2133で求められた回転角度 Θ a及びその回転角度 Θ aの計算に使用された前段の特徴を検出した回転角度の中で、 検出結果の 相関値の上位 2つの回転角度 0 b Θ c (0 b<0 cとする。 ) が 3次特 徴検出モデル選択部 21 13に入力される (ステップ S 1001) 。 尚、 2次特徴計測部 2133での計算の際に、 選択された角度が 1つだった場 合は、 1つの角度 6 b (=θ a) のみ入力される。
次に、 3次特徴検出モデル選択部 21 1 3では、 Θ cの入力が無いかど うかが判別される(ステップ S 1002)。その結果、 Θ cの入力が無く、 0 bのみが入力されていれる場合 (Ye s) 、 回転角度 0 bの 3次特徴を 検出するための検出モデルが選択される (ステップ S 1003) 。 一方、 2つの角度 0 b 0 cが入力されている場合 (No) 3次特徴検出モデ ル選択部 21 13では、 0 a Θ b, Θ cに関する判別処理が行われる(ス テツプ S 1004) 。 この判別処理は、 例えば、 以下に示す式 (2) に基 づいて行われる。 fl Q 2*6b+0c
0b≤0a≤ 式 (2)
3 ここで、 0 a、 Θ b 0 cが上記式 (2) を満たす場合 (Ye s) 、 回 転角度 0 bと (0 b + 0 c) 2の 2つの角度で 3次特徴を検出するため の検出モデルが選択される (ステップ S 1005) 。 一方、 Θ aが式 (2) を満たす範囲にない場合 (No) 、 Θ a, Θ b, 0 cに関する次の判別が 行われる(ステップ S 1005)。 この判別は、例えば、以下に示す式(3) に基づいて行われる。 式 (3)
Figure imgf000053_0001
Θ a, Θ b, 0 cが上記式 (3) を満たす場合 (Ye s) 、 3次特徴検 出モデル選択部 2113は、 回転角度 0 cと (0 b + 0 c) Z2の 2つの 角度で 3次特徴を検出するための検出モデルを選択する (ステップ S 10 07) 。 一方、 0 aが式 (3) で示す範囲にない場合 (No) 、 3次特徴 検出モデル選択部 2113は、回転角度 0 bと 0 cの 2つの角度を用いて 3次特徴を検出するための検出モデルを選択する(ステップ S 1008)。 上述したように、 3次特徴検出モデル選択部 2113では、 2次特徴計 測部 2133で求められた回転角度及び計算に使用された 2つの角度に基 づいて、 3次特徴検出部 2103で 3次特徴を検出するための検出モデル を選択する。 この動作は、 4次特徴検出モデル選択部 2114も同様であ る。
ここで、 図 23は、 第 5の実施形態における検出モデルの選択方法を説 明するための模式図である。 上述した図 22に示すフローチャートの動作 を図 23の模式図を用いて説明すると、 2次特徴計測部 2133で求めら れた回転角度が、 図 23における Aの範囲の時、 Bの範囲の時、 Cの範囲 の時で、 3次特徴を検出するための検出モデルを変更するものである。 例 えば、 図 23に示すように、 2次特徴計測部 2133で求めた回転角度が Bの範囲であれば、 3次特徴検出部 2 1 0 3で使用する検出モデルは、 0 度及び 4 5度回転した検出モデルとなる。 一方、 回転角度が Aの範囲であ れば、 検出モデルは、 0度及び 2 2 . 5度回転した検出モデルとなる。 ま た Cの範囲であれば、 2 2 . 5度及び 4 5度回転した検出モデルとなる。 このように、計算に使用した 2つの回転角度のいずれか一方に近ければ、 2つの検出予定の角度間隔を狭めることで、 次段の特徴検出において回転 角度の計算の精度が向上する。 尚、 そのためには、 3次特徴を検出するた めの検出モデルは、 2次特徴を検出するための検出モデルよりも細かい角 度間隔で用意する必要がある。 そして、 4次特徴を検出するための検出モ デルは、 さらに詳細な角度で用意する必要がある。
例えば、 2次特徴を 4 5度間隔で検出したときには、 3次特徴は 2 2 . 5度ずつ用意する必要がある。 このようにすることで、 被検出被写体にも よるが、 図 2 4に示したように、 2次特徴、 3次特徴、 4次特徴と検出を 進めていくことで、 検出モデルの回転角度間隔が狭くなり、 検出精度が向 上することもある。 すなわち、 図 2 4は、 第 5の実施形態での各階層にお ける検出モデルの回転角度の変化を示す図である。
尚、 選択された検出モデルの回転角度に対応した前段の検出結果が無い 場合は、 その回転角度を挟む 2つの回転角度での検出結果が使用される。 例えば、 3次特徴検出部 2 1 0 3で使用する検出モデルとして 2 2 . 5度 回転した検出モデルが選択されると、 その検出モデルを用いた検出には、 2次特徴検出部 2 1 0 2で検出した 0度及び 4 5度回転した 2次特徴が使 用される。
尚、 上記式 (2 ) 及び式 ( 3 ) は、 2次特徴計測部 2 1 3 3又は 3次特 徴計測部 2 1 3 4で計測した 2次特徴又は 3次特徴の回転角度 0 aと、そ の前段の特徴を検出した時の回転角度 Q iとの比較を行い、 計測した回転 角度 Θ aが検出に使用した回転角度におけるある回転角度 Θ iに近いか 否かを判別するために用いられるものである。 従って、 上記計算式だけに 限定されるものではなく、 別の判別方法を使用しても良い。
上述したように、 本実施形態に係るパターン検出装置によれば、 各特徵 を検出するための検出モデルを、 ·高次特徴になるほど角度幅を小さくして 用意し、 前段の特徴の検出結果に応じて、 次段の特徴の検出に使用する検 出モデルを選択させる。 従って、 各特徴の回転によらず計算コストの増大 を抑制しながら検出精度が向上し、 高次特徴になるほど検出精度が向上す るという効果が得られる。
また、 第 5の実施形態の構成に係るパターン検出 (認識) 装置、 及びパ 夕一ン検出方法が動作する処理手段を撮像装置に搭載させることによって、 第 4の実施形態と同様に、 上記効果を有する撮像装置を実現することが可 能である。
<第 6の実施形態 >
図 2 5は、 本発明の第 6の実施形態に係るパターン検出装置の構成を示 すブロック図である。 図 2 5において、 2 5 0 0は信号入力部、 2 5 0 1 は 1次特徴検出部、 2 5 1 1は 1次特徴検出フィルタ設定部、 2 5 0 2は 2次特徴検出部、 2 5 1 2は 2次特徴検出モデル設定部、 2 5 0 3は 3次 特徴検出部、 2 5 1 3は 3次特徴検出モデル設定部、 2 5 2 3は 3次特徴 基準モデル保持部、 2 5 3 3は 2次特徴計測部、 2 5 0 4は 4次特徴検出 部、 2 5 1 4は 4次特徴検出モデル^定部、 2 5 2 4は 4次特徴基準モデ ル保持部、 及び 2 5 3 4は 3次特徴計測部を示す。
図 2 5に示すパターン検出装置中のそれぞれの構成要素において、 第 5 の実施形態と異なる部分は、基本的に 3次特徴検出モデル設定部 2 5 1 3、 4次特徴検出モデ ;ル設定部 2 5 1 4、 3次特徴基準モデル保持部 2 5 2 3、 及び 4次特徴基準モデル保持部 2 5 2 4である。
上記第 5の実施形態では、 3次特徴検出モデル選択部 2 1 1 3において は、 2次特徴計測部 2 1 3 3の出力に基づいて 3次特徴を検出する際に使 用する検出モデルを 3次特徴検出モデル保持部 2 1 2 3から選択していた。 同様に、 4次特徴検出モデル選択部 2 1 1 4においては、 3次特徴計測部 2 1 3 4の出力に基づいて 4次特徴を検出する際に使用する検出モデルを 4次特徴検出モデル保持部 2 1 2 4から選択していた。
これに対し本実施形態に係るパターン検出装置では、 3次特徴検出モデ ル設定部 2 5 1 3おいて、 2次特徵計測部 2 5 3 3の出力に基づいて 3次 特徴を検出する際に使用する検出モデルを 3次特徴基準モデル保持部 2 5 2 3に保持されている基準モデルから設定するという点で異なる。 また、 4次特徴検出モデル設定部 2 5 1 4において 3次特徵計測部 2 5 3 4の出 力に基づいて 4次特徴を検出する際に使用する検出モデルを 4次特徴基準 モデル保持部 2 5 2 4に保持されている基準モデルから設定するという点 で異なる。
次に、 3次特徴検出モデル設定部 2 5 1 3及び 4次特徴検出モデル設定 部 2 5 1 4の動作について説明する。 尚、 この 2つの特徴検出モデル設定 部の動作は基本的に同じであるので、 以下では、 3次特徴検出モデル設定 部 2 5 1 3を例にして説明する。 3次特徴検出モデル設定部 2 5 1 3は、 まず、 2次特徴計測部 2 1 3 3の出力をパラメ一夕とし、以下に示す式(4 ) を使用して 0 dを計算する。
θ ά 式 (4)
Figure imgf000056_0001
ここで、 0 iは各角度、 S iはその角度の相関値であり、 0 aは第 5の 実施形態で説明した式 ( 1 ) による回転角度である。 次に、 式 (5 ) を使 用して Θ eを求める。
Figure imgf000057_0001
式 ( 5 ) 上記式 (5 ) において、 ηは階層を表し、 例えば、 ここでは 3次特徴の 検出モデルを設定するので η = 3となる。 また、 ひは初期角度であり、 例 えば 4 5度とする。さらに、 Ρは任意の正の実数であり、例えば 2とする。 次に、 この 0 dと 0 eの値の大きい方を選択し、 それを S f とする。 そ して、 0 a ± 0 fで求められる 2つの回転角度の検出モデルを設定する。 図 2 6は、 第 6の実施形態における 2つの回転角度 0 f 、 0 a土 0 fの概 要を示す図である。
検出モデルの設定は、 3次特徴基準モデル保持部 2 5 2 3に保持されて いる基準モデルを求めた回転角度 0 a土 0 fで回転変換させて作成する。 この動作は 4次特徴検出モデル選択部 2 1 1 4も同様である。 尚、 上記式 ( 4 ) は、 3次特徴又は 4次特徴の検出モデルの回転角度間隔を、 回転角 度 0 a及び離散的な角度で検出した結果から計算するものである。 しかし、 式 (4 ) の計算角度が非常に小さくなると検出精度が劣化するため、 本実 施形態では上記式(5 ) を計算し、角度の設定時には、式(4 )又は式(5 ) の計算角度の大きい方を選択するようにしている。 尚、 本実施形態におけ る検出モデルの設定は、上記方式だけに限定されるものではなぐ例えば、 3次特徴又は 4次特徴の検出モデルの適切な回転角度間隔が設定できれば、 他の方式を用いても良い。
3次特徴検出部 2 5 0 3 (又は、 4次特徴検出部 2 5 0 4 ) では、 上記 2つの回転角度で回転された検出モデルを用いて、 3次特徴 (又は、 4次 特徴) の検出を行う。 尚、 選択された検出モデルの回転角度に対応した前 段の検出結果が無い場合は、 第 5の実施形態と同様に、 その回転角度を挟 む 2つの回転角度での検出結果が使用される、 又は一番近い回転角度での 検出結果が使用される。 上述したように本実施形態によれば、 各特徴を検出するための検出モデ ルを前段の特徴の検出結果に基づいて、 次段の特徴の検出に使用する検出 モデルをその検出結果の角度を必ず挟むように設定した。 また、 その際に 検出結果値に基づいて挟む角度も調整した。 従って、 各特徴の回転によら ず計算コストの増大を抑制しながら検出精度が向上する。
尚、 本実施形態で示したパターン検出 (認識) 装置及びパターン検出方 法が動作する処理手段を、 第 4、 第 5の実施形態と同様に、 撮像装置に搭 載させることも可能である。
<第 7の実施形態 >
図 2 7に、 第 7の実施形態のパターン認識装置の機能構成を示す。 本実施形態のパターン検出装置は、 撮像装置等に適用可能であり、 対象 画像中に存在する全ての認識対象 (パターン) を検出するにあたり、 対象 画像から認識対象を構成する複数の特徴を階層的に検出するための基準デ 一夕を複数保持し、 当該基準データに基づき、 前段の特徴の検出結果から 求めたパラメ一夕を用いて、 対象とする特徴検出のためのデータを設定す る構成により、 対象画像中にサイズの異なる複数の認識対象が存在する場 合であっても、 全ての認識対象を少ない処理コストで効率的に検出するよ うになされている。
本実施形態のパターン検出装置は、 図 2 7に示すように、 信号入力部 2 7 0 0、 1次特徴検出部 2 7 0 1、 1次特徴検出フィル夕設定部 2 7 1 1、 2次特徴検出部 2 7 0 2、 2次特徴検出モデル設定部 2 7 1 2、 2次特徴 基準モデル保持部 2 7 2 2、 3次特徴検出部 2 7 0 3、 3次特徴検出モデ ル設定部 2 7 1 3、 3次特徴基準モデル保持部 2 7 2 3、 4次特徴検出部 2 7 0 4、 4次特徴検出モデル設定部 2 7 1 4、 4次特徴基準モデル保持 部 2 7 2 4、 パターン確認部 2 7 0 5、 確認パターン設定部 2 7 1 5、 及 び基準確認パターン保持部 2 7 2 5を備えている。
信号入力部 2 7 0 0は、画像信号や音声信号等の処理対象となる信号(こ こでは、 対象画像の信号) を入力する。
1次特徴検出部 2 7 0 1は、 信号入力部 2 7 0 0から入力された信号に 対して、 1次の特徴を検出するための処理を施し、 この処理結果 (1次特 徴検出結果) を 2次特徴検出部 2 7 0 2に供給すると共に、 当該 1次特徴 検出結果及びそのパラメータを 2次特徴検出モデル設定部 2 7 1 2に供給 する。
このとき、 1次特徴検出フィル夕設定部 2 7 1 1は、 1次特徴検出部 2 7 0 1で 1次特徴を検出するためのフィル夕特性又はパラメ一夕を設定す る。
2次特徴検出部 2 7 0 2は、 1次特徴検出部 2 7 0 1からの 1次特徴検 出結果に対して、 2次特徴検出モデル設定部 2 7 1 2により設定された検 出モデルを用いて、 2次の特徴を検出する処理を施し、 この処理結果 (2 次特徴検出結果) を 3次特徴検出部 2 7 0 3に供給すると共に、 当該 2次 特徴検出結果及びそのパラメータを 3次特徴検出モデル設定部 2 7 1 3に 供給する。
このとき、 2次特徴検出モデル設定部 2 7 1 2は、 2次特徴検出部 2 7 0 2で 2次特徴を検出する際に使用する、 1次特徴それぞれの位置関係を 示すモデルを、 2次特徴基準モデル保持部 2 7 2 2に保持された基準モデ ル、 1次特徴検出部 2 7 0 1からの 1次特徴検出結果、 及びそのパラメ一 夕を用いて設定する。
2次特徴基準モデル保持部 2 7 2 2は、 2次特徴検出モデル設定部 2 7 1 2で設定する検出モデルの基準モデルを保持する。
3次特徴検出部 2 7 0 3は、 2次特徴検出部 2 7 0 2からの 2次特徴検 出結果に対して、 3次特徴検出モデル設定部 2 7 1 3により設定された検 出モデルを用いて、 3次の特徴を検出する処理を施し、 この処理結果 (3 次特徴検出結果) を 4次特徴検出部 2 7 0 4に供給すると共に、 当該 3次 特徴検出結果及びそのパラメータを 4次特徴検出モデル設定部 2 7 1 4に 供給する。
このとき、 3次特徴検出モデル設定部 2 7 1 3は、 3次特徴検出部 2 7 0 3で 3次特徴を検出する際に使用する、 2次特徴それぞれの位置関係を 示すモデルを、 3次特徴基準モデル保持部 2 7 2 3に保持された基準モデ ル、 及び 2次特徴検出部 2 7 0 2からの 2次特徴検出結果及びそのパラメ 一夕とを用いて設定する。
3次特徴基準モデル保持部 2 7 2 3は、 3次特徴検出モデル設定部 2 7 1 3で設定する検出モデルの基準モデルを保持する。
4次特徴検出部 2 7 0 4は、 3次特徴検出部 2 7 0 3からの 3次特徴検 出結果に対して、 4次特徴検出モデル設定部 2 7 1 4により設定された検 出モデルを用いて、 4次の特徴を検出する処理を施し、 この処理結果 (4 次特徴検出結果) をパターン確認部 2 7 0 5に供給すると共に、 当該 4次 特徴検出結果及ぴそのパラメータを確認パターン設定部 2 7 1 5に供給す る。
このとき、 4次特徴検出モデル設定部 2 7 1 4は、 4次特徴検出部 2 7 0 4で 4次特徴を検出する際に使用する、 3次特徴それぞれの位置関係を 示すモデルを、 4次特徴基準モデル保持部 2 7 2 4に保持された基準モデ ル、 及び 3次特徴検出部 2 7 0 3からの 3次特徴検出結果及びそのパラメ 一夕とを用いて設定する。
4次特徴基準モデル保持部 2 7 2 4は、 4次特徴検出モデル設定部 2 7 1 4で設定する検出モデルの基準モデルを保持する。
パターン確認部 2 7 0 5は、 信号入力部 2 7 0 0により入力された信号 中に、 確認パターン設定部 2 7 1 5で設定された確認パターンが存在する か否かを確認する。
確認パターン設定部 2 7 1 5は、 基準確認パターン保持部 2 7 2 5に保 持された基準パターン、 4次特徴検出部 2 7 0 4からの 4次特徴検出結果、 及びそのパラメ一夕を使用して、 パターン確認部 2 7 0 5で使用する確認 パターンを設定する。
基準確認パターン保持部 2 7 2 5は、 確認パターン設定部 2 7 1 5で設 定する確認パターンの基準パターンを保持する。
図 2 8は、 パターン認識装置 1 0 0の動作をフローチャートにより示し たものである。
尚、 ここではパターン認識処理の一例として、 信号入力 1 3 0からは画 像信号が入力され、 その画像中の顔領域を検出するものとする。
信号入力部 2 7 0 0は、 処理対象信号として画像信号を入力する (ステ ップ S 2 8 0 1 )。
1次特徴検出部 2 7 0 1は、 例えば、 1次特徴検出フィル夕設定部 2 7 1 1により設定されたフィルタを用いて、 信号入力部 2 7 0 0により入力 された画像信号から構成される画像 (対象画像) の各位置で 1次特徴を検 出する (ステップ S 2 8 0 2 )。
具体的には、 例えば図 1 4に示すように、 1次特徴検出部 2 7 0 1は、 対象画像において、 縦特徴大 ( 1— 1— 1 )、 横特徴大 ( 1一 2— 1 )、 右 上がり斜め特徵大 (1一 3— 1 )、 右下がり斜め特徴大 (1一 4一 1 )、 縦 特徴小 (1一 1一 2 )、 横特徴小 (1— 2— 2 )、 右上がり斜め特徴小 (1 - 3 - 2 ) , 及び右下がり斜め特徴小( 1一 4一 2 )等の異なる方向及び異 なるサイズの特徴を検出し、 この検出結果 (1次特徴検出結果) を、 各特 徴毎に対象画像と同等の大きさの検出結果画像という形で出力する。
この結果、 ここでは 8種類の 1次特徴の検出結果画像が得られることに なる。これにより、各特徴の検出結果画像の各位置の値を参照することで、 対象画像の該当する位置に各特徴が存在するか否かを判断できる。
尚、 1次特徴検出部 2 7 0 1で使用するフィルタは、 最初から複数用意 するようにしてもよいし、 或いは、 方向やサイズをパラメ一夕として、 1 次特徴検出フィル夕設定部 2 7 1 1で作成するようにしてもよい。
また、 上記図 1 4に示すように、 後述する処理で検出する 2次特徴は、 右空き V字特徴(2 - 1 )、左空き V字特徴(2 2 )、水平平行線特徴(2 一 3 )、 及び垂直平行線特徴 (2— 4 ) であり、 3次特徴は、 眼特徴 (3— 1 ) 及び口特徴 (3— 2 ) であり、 4次特徴は、 顔特徴 (4— 1 ) である ものとする。
2次特徴検出モデル設定部 2 7 1 2は、 2次特徴検出部 2 7 0 2で 2次 特徴を検出するためのモデルを設定する (ステップ S 2 8 0 3 )。
具体的には、 例えばまず、 上記図 1 4に示す右空き V字特徴 (2— 1 ) を検出するための検出モデルの設定を一例として挙げて考えるものとする。 右空き V字特徴 (2— 1 ) は、 例えば、 図 1 6 Aに示すように、 1次特 徴である右上がり斜め特徴が上部に、 右下がり斜め特徴が下部に存在して いる。 すなわち、 右空き V字特徴を検出するためには、 ステップ S 2 8 0 2で求めた 1次特徴検出の結果を利用して、 上部に右上がり斜め特徴が存 在し、 下部に右下がり斜め特徴が存在する位置を求めればよく、 その位置 に、 右空き V字特徴 ( 2 - 1 ) が存在することになる。
このように、 複数種類の 1次特徴を組み合わせて、 2次特徴を検出する ことができる。 しかしながら、 対象画像中に存在する顔のサイズは固定サ ィズではなく、 また、 個人によって眼や口の大きさが異なり、 さらに、 眼 や口は開閉動作をするため、 右空き V字の大きさも変化する。
そこで、 本実施形態では、 上記図 1 6 Bに示すような、 右空き V字検出 基準モデル 4 0 0を用いる。 右空き V字検出基準モデル 4 0 0において、 4 0 3は右上がり斜め領域、 4 0 4は右下がり斜め領域である。 右上がり 斜め領域 4 0 3に対して、 ステップ S 2 8 0 2で求めた 1次特徴のうち、 右上がり斜め特徴大、 若しくは右上がり斜め特徴小のみが存在し、 また、 右下がり斜め領域 4 0 4に対して、 右下がり斜め特徴大、 若しくは右下が り斜め特徴小のみが存在する場合に、その位置に右空き V次特徴(2— 1 ) が存在するとする。 このような構成することで、 右空き V字について、 あ る程度の大きさや形状の変化に対して、 頑健な処理を施すことができる。 しかしながら、 例えば、 図 2 9 A及び 2 9 Bに示すように、 大きさがか なり異なる右空き V字特徴の検出のためには、 同じ V字検出基準モデル 4 0 0を使用しても検出が困難である。 もちろん、 上記図 2 9 A及び 2 9 B に示すような、 大きさがかなり異なる右空き V字特徴を同一の V字基準モ デル 4 0 0を用いて検出するために、 例えば、 図 1 6 Bに示す右空き V字 検出基準モデル 4 0 0を非常に大きく設定し、 その結果右上がり斜め領域 4 0 3や右下がり斜め領域 4 0 4を非常に広く取るようにすれば、 大小の サイズの異なる右空き V字特徴の検出は可能である。
しかしながら、 各 1次特徴の探索範囲が大きくなるため、 例えば、.右上 がり斜め特徴のサイズは大であり、右下がり斜め特徴のサイズは小であり、 さらに、 それらの位置も大きくずれている、 などという誤検出が起こりや すい。
すなわち、 右空き V字特徴であれば、 右上がり斜め特徴も、 右下がり斜 め特徴も、 それぞれ右空き V字特徴の 1構成要素であり、 これらの大きさ は略同じであり、 且つこれらは近傍に存在しており、 右空き V字特徴のサ ィズが大きければ、 右上がり斜め特徴のサイズも、 右下がり斜め特徴のサ ィズも、 大きくなる。
したがって、 2次特徴を検出するための基準モデルのサイズは、 ステツ プ S 2 8 0 2で検出された 1次特徴のサイズに合わせて適したものにする。 また、 1次特徴である、 右上がり斜め特徴や右下がり斜め特徴に関して も、 常に同じフィルタサイズでの検出は困難である。
そこで、 上記図 2 9 Aに示すように、 対象画像における '顔のサイズが小 さい場合、 1次特徴を小さいサイズのフィル夕で検出し、 同図 2 9 Bに示 すように、 対象画像における顔のサイズが大きい場合、 1次特徴を大きい サイズのフィルタで検出し、 上述したように 2次特徴である右空き V字特 徴を検出するモデルのサイズをも、 1次特徴を検出したフィル夕のサイズ に依存して変更する。 上述のように、 本ステップ S 2 8 0 3では、 1次特徴を検出したフィル 夕のサイズをパラメ一夕として、 各 2次特徴の検出のためのモデルを拡大 或いは縮小して、 各 2次特徴を検出するための 2次特徴の検出のためのモ デルを設定する。
上記図 2 9 Cは、 顔サイズが小さい場合の右空き V字検出用のモデルを 示し、 図 2 9 Dは、 顔サイズが大きい場合の右空き V字検出用のモデルを 示したものである。 これらのモデルは、 上記図 1 6 Bに示した右空き V次 検出基準モデル 4 0 0を、 それぞれ異なる倍率でサイズ変更したものであ る。
もちろん、 1次特徴を検出するために複数のサイズのフィルタを用意し、 該当するサイズに合わせて複数の処理チャネルを用意し、 それぞれのサイ ズの 2次特徴、 さらに 3次特徴、 …を、 それぞれの処理チャネルで検出す る方法は有効である。
ただし、 対象画像中の顔のサイズの変動が大きい場合、 各顔サイズに合 わせた処理チャネルを用意すると、 処理チャネルの数が多くなる。 すなわ ち、 処理コスト量が多くなる。 '
そこで、 本実施形態では、 2次特徴検出以降の特徴検出においては、 検 出モデルのサイズを、 前段の階層の検出結果に応じて変更することで、 上 記の問題を解決している。
尚、 上記図 1 6 Bに示したような、 右空き V字検出基準モデル 4 0 0、 右上がり斜め領域 4 0 3、 及び右下がり斜め領域 4 0 4は、 予め検出すベ き特徴に合わせて設定され、 2次特徴基準モデル保持部 2 7 2 2に保持さ れているものとする。
また、 上記図 1 4に示したような各特徴はそれぞれ、 前ステップ処理で 検出された特徴の組み合わせで検出が可能である。
例えば、 2次特徴に関しては、 左空き V字特徴は右下がり斜め特徴及び 右上がり斜め特徴から検出可能であり、 水平平行線特徴は横特徴から検出 可能であり、 垂直平行線特徴は縦特徴から検出可能である。 また、 3次特 徴に関しては、 眼特徴は右空き V字特徴、 左空き V字特徴、 水平平行線特 徴、 及び垂直平行線特徴から検出可能であり、 口特徴は右空き V字特徴、 左空き V字特徵、 及び水平平行線特徴から検出可能であり、 4次特徴に関 しては、 顔特徴は眼特徴と口特徴から検出可能である。
2次特徴検出部 2 7 0 2は、 ステップ S 2 8 0 3で設定された 2次特徵 検出モデルを用いて、 対象画像の 2次特徴を検出する (ステップ S 2 8 0 4 )。具体的には、 例えば、 まず 2次特徴の検出は、 2次特徴を構成する各 1次特徴の値を用いて行うが、 例えば、 各 1次特徴の値が、 任意のしきい 値以上であるか否かで判断する。
例えば、 右空き V字検出モデルを用いて、 所定の位置の 2次特徴の右空 き V字特徴を検出する場合で、 右上がり斜め領域中に存在する各右上がり 斜め特徴の値の最大値がしきい値より高く、 且つ右下がり斜め領域中に存 在する各右下がり斜め特徴の値の最大値がしきい値より高い場合、 その位 置に右空き V字特徴が存在するものとする。 そして、 その位置の値を、 そ れら最大値の平均とする。逆に、各 1次特徴の値がしきい値より低い場合、 その位置には 2次特徴が存在しないとして、その位置の値を" 0 "とする。 上述のようにして求めた 2次特徴検出結果は、 各 2次特徴毎に、 対象画 像と同等の大きさの検出結果画像という形で出力される。 すなわち、 上記 図 1 4に示すような 2次特徴であれば、 4種類の 2次特徴検出結果の画像 が得られることになる。 これらの検出結果画像の各位置の値を参照するこ とで、 対象画像の該当する位置に各 2次特徴が存在するか否かを判断でき る。
ところで、 本ステップ S 2 8 0 4の処理では、 2次特徴検出モデルの各 領域で 1次特徴を検出するのではない、ということに注意する必要がある。 すなわち、 例えば、 2次特徴の 1つである右空き V字特徴の検出では、 右 上がり斜め領域と右下がり斜め領域でそれぞれ、 1次特徴である右上がり JP2003/016095
64
斜め特徴と右下がり斜め特徴を検出するのではない。 これらの 1次特徴の 検出はステップ S 2 8 0 2で終了しており、 したがって、 本ステップ S 2 8 0 4では、 これら領域に各 1次特徴が存在するか否かを、 しきい値を使 用して判断している。
そして、 この結果、 複数の 1次特徴が、 それぞれの領域に存在すると判 断した場合に、 その位置に 2次特徴が存在するとする処理を実行する。 こ のような特徴検出の処理方法は、 次の 3次特徴及び 4次特徴に関しても同 様である。
また、 本ステップ S 2 8 0 4の処理では、 次の 3次特徴検出モデルを設 定するために使用するパラメ一夕を求める。例えば、図 3 0に示すように、 右空き V字特徴の検出と同時に、右上がり斜め特徴の最大値を示した点と、 右下がり斜め特徴の最大値を示した点との距離をパラメ一夕として求めて おく。 そして、 このパラメ一夕を、 各 2次特徴検出結果と共に出力する。
3次特徴検出モデル設定部 2 7 1 3は、 3次特徴検出部 2 7 0 3で 3次 特徴を検出する際に使用する、 2次特徴それぞれの位置関係を示すモデル を、 3次特徴基準モデル保持部 2 7 2 3に保持された基準モデル、 及び 2 次特徴検出部 2 7, 0 2からの 2次特徴検出結果及びそのパラメータとを用 いて設定する (ステップ S 2 8 0 5 )。
具体的には例えば、 ここでは説明の簡単のため、 上記図 1 4に示すよう な眼特徵 (3— 1 ) を検出するための検出モデルの設定を考える。
図 1 9 Aは、 眼を検出するための眼検出基準モデル 7 0 0の一例を示し たものである。 眼検出基準モデル 7 0 0では、 2次特徴量である、 右空き V字特徴 (図 1 4の (2— 1 ) 参照) の存在する右空き V字領域 7 0 1が 左側に、 左空き V字特徴 (図 1 4の (2— 2 ) 参照) の存在する左空き V 字領域 7 0 2が右側に、 そして水平平行線特徴(図 1 4の ( 2— 3 )参照) の存在する水平平行線領域 7 0 3及び垂直平行線特徴(図 1 4の( 2 - 4 ) 参照) の存在する垂直平行線領域 7 0 4が、 これら V字特徴の中間に存在 している。
本ステップ S 2 8 0 5においても、 ステップ S 2 8 0 3と同様に、 サイ ズ変動に対応するために、 この基準モデルを拡大或いは縮小して 3次特徴 を検出するのに適した 3次特徴検出モデルを設定する。 当該基準モデルの 拡大或いは縮小に使用するのが、 ステップ S 2 8 0 4で求めたパラメ一夕 である。
例えば、 右空き V字エッジを検出する際に求めた右上がり斜め特徴と右 下がり斜め特徴の最大値を示す位置間の距離は、 眼の大きさに依存する。 そこで、 この距離をパラメ一夕として、 眼の基準モデルを基に眼特徴検出 モデルを設定する。
上述のようにして、 各 3次特徴に対して、 各基準モデルを基に、 2次特 徴のパラメ一夕を用いて各位置に応じた検出モデルを設定する。すなわち、 例えば、 図 3 1 Aに示すように、 サイズが異なる (すなわち、 眼のサイズ が異なる) 顔が対象画像中に存在する場合、 上述したように 2次特徴であ る右空き V字特徴の大きさをパラメ一夕として、 図 3 1 Bに示すように、 各位置に適した眼特徴検出モデルを設定する。
上記図 3 1 Bでは、 眼特徴検出モデル 8 0 1は、 その位置の 2次特徴の パラメ一夕値から求めた大きさとなり、 また、 眼特徴検出モデル 8 0 2の 位置の 2次特徴のパラメ一夕値から求めた大きさになることを概念的に示 している。
3次特徴検出部 2 7 0 3は、 ステップ S 2 8 0 5で設定された 3次特徴 検出モデルを用いて 3次特徴を検出する(ステップ S 2 8 0 6 )。 ここでの 各 3次特徴の検出方法は、 ステップ S 2 8 0 4と同様の方法であるため、 その詳細な説明は省略する。 また、 パラメータに関しては、 例えば、 眼の 検出でる場合、 最大値を示した右空き V字特徴と左空き V字特徴間の距離 (眼の横幅に対応した距離) を求め、 これをパラメータとする。
4次特徴検出モデル設定部 2 7 1 4は、 4次特徴検出部 2 7 0 4で 4次 特徴を検出する際に使用する、 3次特徴それぞれの位置関係を示すモデル を、 4次特徴基準モデル保持部 2 7 2 4に保持された基準モデル、 及び 3 次特徴検出部 2 7 0 3からの 3次特徴検出結果及びそのパラメ一夕とを用 いて設定する (ステップ S 2 8 0 7 )。
具体的には例えば、 顔特徴の検出の場合、 顔のサイズと眼の横幅には一 般的に関連があるため、 上記図 1 4に示すような顔特徴 (4—1 ) の基準 モデルに対して、 ステップ S 2 8 0 6で得られた、 眼の横幅を示すパラメ —タを用いて、当該顔の基準モデルを基に、顔特徴検出モデルを設定する。
4次特徴検出部 2 7 0 4は、 ステップ S 2 8 0 7で設定された 4次特徴 検出モデルを用いて、 4次特徴を検出する (ステップ S 2 8 0 8 )。 ここで の検出方法は、ステップ S 2 8 0 4及び S 2 0 6と同様の方法であるため、 その詳細な説明は省略する。 また、 パラメ一夕に関しては、 例えば、 顔特 徴の検出の場合、両眼と口の位置をパラメ一夕とする。このパラメ一夕は、 次のステップ S 2 8 0 9で使用される。
確認パターン設定部 2 7 1 5は、 基準確認パターン保持部 2 7 2 5に保 持された基準パターン、 4次特徴検出部 2 7 0 4からの 4次特徴検出結果、 及びそのパラメ一夕を使用して、 パターン確認部 2 7 0 5で使用する確認 パターンを設定する (ステップ S 2 8 0 9 )。
具体的には、 まず、 ステップ S 2 8 0 1〜ステップ S 2 8 0 8の処理で 4次特徴検出を行なうが、 対象画像中の背景において、 4次特徴を構成す る複数の 3次特徴に似た領域が存在し、 かつそれらの位置関係も似ている 場合、 4次特徴検出で誤検出を行う可能性がある。
例えば、 顔の検出の場合、 対象画像中の背景において、 それぞれ両眼及 び口と似た領域が存在し、 また、 これらの位置関係も似ている場合、 顔特 徴の検出で誤検出をする可能性がある。 そこで、 検出すべきパターンの一 般的な基準パターンを用意し、 このパターンの大きさや形状を、 ステップ S 2 8 0 8で求めたパラメ一夕を基に修正することで、 確認パターンを求 め、 この確認パターンを用いて、 最終的に検出すべきパターンが対象画像 中に存在するか否かを判断する。
ここでは一例として、 顔を検出パターンとしているため、 顔の一般的な 基準パターンを用意し、 この基準パターンを修正することで、 顔確認パ夕 —ンを求め、 この顔確認パターンを使用して、 顔パターンが対象画像中に 存在するかを判断する。
このため、 本ステップ S 2 8 0 9では、 先ず、 基準パターンを基に、 ス テツプ S 2 8 0 8で求めたパラメ一夕を用いて、確認パターンを設定する。 すなわち、 顔パターンの設定においては、 顔の基準パ夕一ンを基に、 ステ ップ S 2 8 0 6で求めた両眼と口の位置を示すパラメータを用いて、 顔確 認パターンを設定する。
図 3 2 A及び 3 2 Bは、 確認パ夕一ンの一例を示したものである。 図 3 2 Aは、 顔基準パターンを示したものであり、 この顔基準パターンは、 例 えば、 複数の顔を用意し、 これらの大きさを正規化した後で輝度値の平均 を取ったものである。
図 3 2 Aの顔基準パターンに対して、 ステップ S 2 8 0 8で求められた パラメ一夕、 すなわち両眼の位置及び口の位置を使用して、 図 3 2 Bに示 すように、 サイズや回転の変換を行なう。 具体的には例えば、 両眼間の距 離や、 両眼間の中点と口の距離を用いて、 サイズの変換を行ない、 また、 両眼間の傾きを用いて、 回転変換を行なうことで、 顔確認パターンを設定 する。
尚、 確認パターンの設定方法としては、 上述した方法に限られることは なく、 例えば、 サイズや回転量が異なった複数の基準パターンを用意して おき、 これらの基準パターンの中から 1つを、 ステップ S 2 8 0 6のパラ メ一夕を用いて選択するようにしてもよい。 或いは、 パラメ一夕を使用し て、 上記複数の基準パターンをモ一フィングの技術等により合成して設定 するようにしてもよい。 パ夕一ン確認部 2 7 0 5は、 ステップ S 2 8 0 9で設定された確認パ夕 —ンを用いて、対象画像から検出パターンを求める(ステップ S 2 8 1 0 )。 具体的には例えば、 対象画像において、 ステップ S 2 8 0 8で 4次特徴が 検出された位置で、 ステップ S 2 8 0 9で求めた確認パターンと、 対象画 像中の該当する位置の部分領域との相関を求め、 その値が任意のしきい値 を越えた場合に、 その位置に検出パターンが存在するものとする。
上述したように、 本実施形態では、 各特徴を検出するための基準モデル を用意し、 前段の特徴の検出結果から求めたパラメータを用いて、 基準モ デルを基に検出モデルを設定するように構成したので、 各特徴の検出精度 が向上し、 最終的に検出するパターンの検出精度が向上する。 また、 最後 の確認処理として、 平均パターンとの相関を見る際に、 それまでに求めた 各特徴の位置に応じて、 その平均パターンに対して、 回転やサイズの変更 等の変形を行なうことで、 確認精度が向上する、 という効果が得られる。 更に、上記図 2 7に示したパターン認識(検出)装置の機能を、例えば、 図 2 0に示すような撮像装置に搭載させることで、 特定被写体へのフォー カシングゃ、特定被写体の色補正、或いは露出制御を行う際に利用できる。 すなわち、 撮影して得られた映像中の人物検出と、 これに基づく撮影の最 適制御を行うことができる。
尚、 本実施形態では、 対象画像から検出すべきパターンの特徴を 4階層 に分けて、 1次特徴〜 4次特徴を順に検出し、 最後に検出すべきパターン を確認するように構成したが、 この 4階層に限られることはなく、 3階層 や 5階層等の任意の階層を適用可能である。 これは、 以下に説明する第 8 の実施形態及び第 9の実施形態でも同様に実施可能である。
また、 本実施形態では一例として、 顔パターンを検出パターンとして、 対象画像から顔領域を求めるものとしたが、 本発明は、 顔検出のみに限定 されるわけではない。 例えば、 図 3 3 Aに示すような " 2 4 " という数字 列を対象画像中から検出することも可能である。 上記の数字列検出の場合、 図 33 Bに示すように、 "2"は、 横方向線分 と右斜め下方向線分からなる 2次特徴 (上部特徴) と、 縦方向線分と右斜 め上方向線分からなる 2次特徴 (中間部特徴) と、 右斜め上方向線分と横 方向線分からなる 2次特徴 (下部特徴) とから構成され、 さらに、 これら の 2次特徴は、 上記図 14に示したような 1次特徴から構成されている。 したがって、 先ず、 対象画像から 1次特徴を検出し、 当該 1次特徴の検 出結果から 2次特徴を検出し、 そして、 当該 2次特徴検出結果を用いて、 3次特徴としての "2" を検出する。 これと同様に "4" に関しても、 2 次特徴検出結果から 3次特徴として検出する。
次に、 "2" と "4" の 3次特徴検出結果から、 4次特徴として "24" を求める。 そして、 3次特徴として検出した "2" と "4" の位置関係を パラメ一夕として、 "24"を示す数字列の基準パターンを基に、 当該パラ メ一夕を用いて "24" の確認パターンを設定し、 最終的に "24" を示 す数字列を検出する。
<第 8の実施形態]
本発明は、 えば、 図 34に示すような情報処理装置 1200に適用さ れる。 本実施形態の情報処理装置 1200は、 特に、 図 27に示したパ夕 ーン認識装置 100の機能を有するものである。
情報処理装置 1200は、 上記図 34に示すように、 制御部 1270、 演算部 1210、 重み設定部 1220、 基準重み保持部 1230、 パラメ —夕検出部 1240、 入力信号メモリ 1250、 入力信号メモリ制御部 1 251、 中間結果メモリ 1260、 及び中間結果メモリ制御部 1261を 含む構成としている。 ,
上述のような情報処理装置において、 まず、 制御部 1270は、 情報処 理装置全体の動作制御を司る。特に、制御部 1270は、演算部 1210、 重み設定部 1220、 基準重み保持部 1230、 パラメータ検出部 124 0、 入力信号メモリ制御部 1251、 及び中間結果メモリ制御部 1261 を制御することで、 パターン認識動作を実施する。
演算部 1 2 1 0は、 入力信号メモリ 1 2 5 0又は中間結果メモリ 1 2 6 0からのデ一夕と、 重み設定部 1 2 2 0からの重みデータとを用いて、 こ れらの積和演算及び口ジスティック関数等による非線形演算を行ない、 そ の結果を中間結果メモリ 1 2 6 0に保持する。
重み設定部 1 2 2 0は、 基準重み保持部 1 2 3 0からの基準重みデータ を基に、 パラメータ検出部 1 2 4 0からのパラメータを用いて、 重みデ一 タを設定し、 その重みデータを演算部 1 2 1 0に供給する。
基準重み保持部 1 2 3 0は、 入力信号中の各特徴を検出するための基準 となる基準重みデータを、 各特徴それぞれに対して保持しており、 その基 準重みデ一夕を重み設定部 1 2 2 0に供給する。
パラメ一夕検出部 1 2 4 0は、 重み設定部 1 2 2 0で重みデータを設定 する際に使用するパラメ一夕を、 中間結果メモリ 1 2 6 0のデータを用い て検出し、 当該パラメ一夕を重み設定部 1 2 2 0に供給する。
入力信号メモリ 1 2 5 0は、 画像信号や音声信号等の処理対象となる入 力信号を保持する。 入力信号メモリ制御部 1 2 5 1は、 入力信号を入力信 号メモリ 1 2 5 0に保持する際、 また、 入力信号メモリ 1 2 5 0に保持さ れている入力信号を演算部 1 2 1 0に供給する際に、 入力信号メモリ 1 2 5 0を制御する。 '
中間結果メモリ 1 2 6 0は、 演算部 1 2 1 0で得られた演算結果を保持 する。 中間結果メモリ制御部 1 2 6 1は、 演算部 1 2 1 0からの演算結果 を中間結果メモリ 1 2 6 0に保持する際、 また、 中間結果メモリに保持さ れている中間結果を演算部 1 2 1 0やパラメ一夕検出部 1 2 4 0に供給す る際に、 中間結果メモリ 1 2 6 0を制御する。
ここでは情報処理装置の動作の一例として、 並列階層処理により画像認 識を行う神経回路網を形成した場合の動作について説明する。すなわち、第 1の実施形態と同様に、 処理対象となる入力信号を画像信号とする。 まず、 図 3 5を参照して、 神経回路網の処理内容を詳細に説明する。 神 経回路網は、 入力信号中の局所領域において、 対象又は幾何学的特徴等の 認識 (検出)に閧与する情報を階層的に扱うものであり、 その基本構造は、 所謂 Convolut ionalネットワーク構造(LeCim, Y. and Bengio, Y., 1995, "Convolut ional Networks for Images Speech, and Time Series in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed. ) , MIT Press, pp. 255-258)である。 最終層 (最上位層) からの出力は、 認識結果としての 認識された対象のカテゴリ、 及びその入力デ一夕上の位置情報である。 上記図 3 5において、 データ入力層 3 5 0 1は、 CMO Sセンサ或いは C C D素子等の光電変換素子からの局所領域データを入力する層である。 最初の特徴検出層 3 5 0 2 ( 1 , 0 )は、データ入力層 3 5 0 1から入力さ れた画像パターンの局所的な低次の特徴 (特定方向成分や特定空間周波数 成分等の幾何学的特徴の他、 色成分特徴等を含む特徴でもよい) を全画面 の各位置を中心として、局所領域 (或いは、全画面にわたる所定のサンプリ ング点の各点を中心とする局所領域)において、同一箇所で複数のスケール レベル又は解像度で複数の特徴カテゴリの数のみ検出する。
特徴統合層 3 5 0 3 ( 2 , 0 )は、所定の受容野構造 (以下、「受容野」とは、 直前の層の出力素子との結合範囲を意味し、 「受容野構造」 とは、その結合 荷重の分布を意味する)を有し、 特徴検出層 3 5 0 2 ( 1 , 0 )からの同一受 容野内にある複数のニューロン素子出力の統合 (局所平均化や最大出力検 出等によるサブサンプリング等の演算による統合) を行う。
上記の統合処理は、 特徴検出層 3 5 0 2 ( 1 , 0 ) からの出力を空間的 にぼかすことで、 位置ずれや変形等を許容する役割を有する。 また、 特徴 統合層内のニューロンの各受容野は、 同一層内のニューロン間で共通の構 造を有している。
尚、 一般的に特徴検出層内のニューロンの各受容野も同一層内のニュー ロン間で共通の構造を有しているが、 その受容野構造をサイズに関して、 前段のニューロンの出力結果 (検出結果) に応じて変更するというのが、 本実施形態の主旨である。
後続の層である各特徴検出層 3502 ((1, 1)、 (1, 2)、 ···、 (Ι,Μ)) 及び各特徴統合層 3503 ((2, 1)、 (2, 2)、 ···、 (2,Μ)) は、 上述し た各層と同様に、 前者 ((1, 1)、 …) は、 各特徴検出モジュールにおいて 複数の異なる特徴の検出を行ない、 後者 ((2, 1)、 …) は、 前段の特徴検 出層からの複数特徴に関する検出結果の統合を行なう 9
但し、 前者の特徴検出層は、 同一チャネルに属する前段の特徴統合層の 細胞素子出力を受けるように結合 (配線) されている。 特徴統合層で行う 処理であるサブサンプリングは、 同一特徴カテゴリの特徴検出細胞集団か らの局所的な領域 (当該特徴統合層ニューロンの局所受容野) からの出力 についての平均化等を行なうものである。
図 36は、 情報処理装置の動作の具体例として、 第 7の実施形態と同様 に、 対象画像から顔パターンを認識する場合の動作を、 フローチャートに より示したものである。
入力信号メモリ制御部 1251は、 制御部 1270により入力された信 号 (ここでは画像信号) を入力信号メモリ 1250に入力する (ステップ S 1401)。本ステップ S 1401が、図 35に示したデータ入力層 35 01による処理に対応する。
重み設定部 1220は、 例えば、 基準重み保持部 1230に保持されて いる、 上記図 14に示したような 1次特徴の検出重みデータ (各方向や各 サイズのエッジ抽出を行なうための重みデータ) を演算部 1210に対し て設定する (ステップ S 1402)。 尚、 サイズや方向をパラメータとして は、 1次特徴検出重みデータを重み設定部 1220で生成するようにして もよい。 また、 次の 2次特徴、 3次特徴、 及び 4次特徴に関しても、 例え ば、 第 1の実施形態で述べた特徴と同様のものを使用することが可能であ る。 演算部 1210は、 1次特徴を検出する (ステップ S 1403)。すなわ ち、 本ステップ S 1403での 1次特徴検出は、 上記図 35に示した特徴 検出層 3502 (1, 0)の処理に対応し、演算部 12 10は、それぞれの特 徴 f の検出モジュール 3504に相当する処理を実行する。
具体的には、 ステップ S 1402で設定された各 1次特徴検出重みデ一 夕は、 各特徴 f を検出する受容野 3505の構造に相当し、 演算部 121 0は、 入力画像メモリ 1250から画像信号を取得し、 当該画像信号の各 位置の局所領域 (受容野 3505に対応する領域) と、 各 1次特徴検出重 みデータとの積和演算を実行する。
ここで、 演算処理部 1210で実行される特徴検出層ニューロンの入出 力特性の一例を、 下記の式 (6) で示す。 すなわち、 第 L段目の第 k番目 の特徴を検出する細胞面の位置 nにあるニューロンの出力 uSL (n, k) は、
^CL-l
uSL (n,k) = f( t w^v.K^-u^ n+v, κ))
なる式 (6) で表される。
上記式 (6) において、 uCL (η, κ) は、 第 L段目の特徴統合層の第 κ番目の細胞面の位置 nにあるニューロンの出力を示す。 KCIjは、 第 L段 目の特徴統合層の種類の数を示す。 wL (V, κ, k) は、 第 L段目の特 徵検出細胞層の第 k番目の細胞面の位置 nにあるニューロンの、 第 L一 1 段目の特徴統合層の第 κ番目の細胞面の位置 n + vにあるニューロンから の入力結合である。 また、 WLは、 検出細胞の受容野であり、 その大きさ は有限である。
本ステップ S 1403の処理は、 1次特徴検出であるため、 Lは " 1" であり、 したがって、 は、 データ入力層に相当するため、 前段の特 徴数は 1種類となる。 そして、 検出する特徴が 8種類であるため、 8種類 の結果が得られることになる。
また、 上記式 (6 ) において、 f 0 は、 積和演算の結果に対しての非 線形処理を示す。 例えば、 この非線形処理には、
/ ( ) = 1/(1+0
なる式 (7 ) で表されるロジスティック関数を使用する。
上記非線形処理された結果は、 中間結果メモリ 1 2 6 0に保持される。 ここでは、 上述したように 8種類の特徴を検出しているため、 これら全て の特徴の検出結果が、 中間結果メモリ 1 2 6 0に保持されることになる。 重み設定部 1 2 2 0は、 基準重み保持手段 1 2 3 0に保持されている 1 次特徴統合重みデータを演算部 1 2 1 0に対して設定する (ステップ S 1 4 0 4 )。 ここでの 1次特徴統合重みデ一夕は、ステップ S 1 4 0 3で検出 された 1次特徴の局所的な平均化や最大値の検出等の処理を行なうための 重みデータである。
演算部 1 2 1 0は、 中間結果メモリ 1 2 6 0に保持されている各 1次特 徴の検出結果と、 ステップ S 1 4 0 4で設定された各 1次特徴統合重みデ 一夕との積和演算を行なう処理 (各 1次特徴の検出結果の統合処理) を実 行する (ステップ S 1 4 0 5 )。
本ステップ S 1 4 0 5における処理は、 上記図 3 5に示した特徴統合層 3 5 0 3 ( 2, 0 )の処理に対応し、 各特徴 fの統合モジュールに相当する 処理である。 具体的には、 特徴検出層 3 5 0 2 ( 1, 0 )からの同一受容野 内に存在する複数のニューロン素子出力の統合 (局所平均化、 最大出力検 出等によるサブサンプリングなどの演算) に相当する。
すなわち、 演算部 1 2 1 0は、 各 1次特徴の検出結果毎に、 局所領域で 平均化や最大値検出等の処理を実行する。 例えば、 演算部 1 2 1 0は、 JP2003/016095
75
uCL (n7 k) (v) ' w ( + v,ん)
Figure imgf000077_0001
なる式 (8 ) で示される、 局所領域での平均化を実行する。
上記式 (8 ) において、 ( V ) は、 第 L段目の特徴検出層のニュー ロンから、 第 L段目の特徴統合細胞層の細胞面に存在する二ュ一ロンへの 入力結合であり、 I V I に関して単純に減少する関数である。 また、 は、 統合細胞の受容野を示し、 その大きさは有限である。
演算部 1 2 1 0は、 上記式 (8 ) による積和演算の結果を中間結果メモ リ 1 2 6 0に保持する。 このとき、 演算部 1 2 1 0は、 上記積和演算の結 果に対して、 さらに非線形処理を施し、 この結果を中間結果メモリ 1 2 6 0に保持するようにしてもよい。
本ステップ S 1 4 0 5までの処理で、 中間結果メモリ 1 2 6 0は、 1次 特徴検出結果を各特徴毎に局所領域で統合した、 各サイズ及び各方向の 1 次特徴の統合結果を保持していることになる。
重み設定部 1 2 2 0は、 2次特徴検出重みデータを設定する (ステップ S 1 4 0 6 ) 0 ここでの 2次特徴検出重みデータは、 上述したように、第 7 の実施形態で用いた図 1 4に示した各 2次特徴を検出するための重みデー 夕である。
第 7の実施形態においても説明したように、 2次特徴以降の各特徴の大 きさはそれ以前に求めた特徴の大きさと相関がある。 このため、 重み設定 部 1 2 2 0は、 2次特徴以降の各特徴を検出する際に、 前段の階層で検出 された特徴の大きさに依存して、 特徴検出重みデータを設定する。
具体的には、 先ず、 重み設定部 1 2 2 0は、 予め設定された、 パラメ一 夕検出部 1 2 4 0により各 1次特徴を検出した 1次特徴検出重みデ一夕が 示す受容野サイズを、 パラメ一夕として設定する。 そして、 重み設定部 1 2 2 0は、 基準重み保持部 1 2 3 0に保持されている基準 2次特徴検出重 みデータを、 上記受容野サイズに関して、 先にパラメータ検出部 1 2 4 0 により設定したパラメータを用いて修正し、 この結果を 2次特徴検出重み データとする。
すなわち、 例えば、 基準 2次特徴検出重みデータが、 図 1 4に示したよ うな 1次特徴のサイズが大きい方 (受容野サイズが大きい方) に対して設 定されているものとすると、 重み設定部 1 2 2 0は、 受容野サイズが小さ い重み係数で検出した 1次特徴検出結果に対して、 2次特徴を検出する際 に、 例えば、 図 3 7に示すように、 2次特徴検出重みデータの受容野サイ ズを小さくする。
演算部 1 2 1 0は、 2次特徴の検出を行なう。 これは、 図 3 5に示した 特徴検出層 3 5 0 2 ( 1, 1 )の処理に対応する (ステップ S 1 4 0 7 )。本 ステップ S 1 4 0 7での処理自体は、 ステップ S 1 4 0 3における 1次特 徴検出処理と同様である。
例えば、 演算部 1 2 1 0は、 上記式 (1 ) を用いた積和演算、 ¾びその 結果に対する非線形演算の処理を実行する。 ただし、 演算部 1 2 1 0は、 ステップ S 1 4 0 6で設定された 2次特徴検出重みデ一夕、 及び中間結果 メモリ 1 2 6 0に保持されている 1次特徴の統合結果を、 積和演算に使用 し、 当該演算結果に対して非線形演算を行ない、 当該演算結果 (2次特徴 検出結果) を中間結果メモリ 1 2 6 0に保持する。
重み設定部 1 2 2 0は、 基準重み保持部 1 2 3 0に保持されている 2次 特徴統合重みデータを演算部 1 2 1 0に対して設定する。 ここでの 2次特 徴統合重みデータは、 ステップ S 1 4 0 7で検出した 2次特徴結果の局所 的な平均化や最大値の検出等の処理を実行するための重みデ一夕である (ステップ S 1 4 0 8 )。
演算部 1 2 1 0は、 各 2次特徴の検出結果を統合する。 これは、 上記図 1 3に示した特徴統合層 1 3 0 3 ( 2, 1 )の処理に対応する (ステップ S 1 4 0 9 )。
具体的には、 演算部 1 2 1 0は、 中間結果メモリ 1 2 6 0に保持されて いる各 2次特徴の検出結果と、 ステップ S 1 4 0 8で設定された各 2次特 徴統合重みデータとの積和演算を、 例えば、 上記式(8 )に従って実行し、 当該積和演算の結果を中間結果メモリ 1 2 6 0に保持する。 このとき、 演 算部 1 2 1 0は、上記積和演算の結果に対して、さらに非線形処理を施し、 当該処理結果を中間結果メモリ 1 2 6 0に保持するようにしてもよい。 重み設定部 1 2 2 0は、 3次特徴検出重みデ一夕を演算部 1 2 1 0に対 して設定する(ステップ S 1 4 1 0 )。ここでの 3次特徴検出重みデ一夕は、 上述したように、 上記図 1 4で示した各 3次特徴を検出するための重みデ —夕である。
具体的には、 先ず、 重み設定部 1 2 2 0は、 パラメ一夕検出部 1 2 4 0 で、 中間結果メモリ 1 2 6 0に保持されている各 1次特徴検出結果及び各 2次特徴検出結果から、 2次特徴の大きさに基づいた値をパラメ一夕とし て設定する。 このパラメータとしては、 例えば、 第 1の実施形態で説明し たように、 右空き V字特徴の場合、 右上がり斜め特徴と右下がり斜め特徴 間の垂直距離を使用することができる。
そして、 重み設定部 1 2 2 0は、 基準重み保持部 1 2 3 0に保持されて いる基準 3次特徴検出重みデータを、 その受容野サイズに関して、 パラメ —夕検出部 1 2 4 0で求めたパラメータを用いて修正し、 この結果を 3次 特徴検出重みデータとする。
演算部 1 2 1 0は、 3次特徴検出を行なう。 これは、 上記図 1 3に示し た特徴検出層 3 5 0 2 ( 1 , 2 )の処理に対応する (ステップ S 1 4 1 1 )。 具体的には、 演算部 1 2 1 0は、 ステップ S 1 4 1 0で設定された 3次特 徴検出重みデ一夕と、 中間結果メモリ 1 2 6 0に保持されている 2次特徴 の統合結果との積和演算、 及びその結果に対する非線形演算を実行し、 当 該演算結果 (3次特徴検出結果) を中間結果メモリ 1 2 6 0に保持する。 重み設定部 1 2 2 0は、 基準重み保持部 1 2 3 0に保持されている 3次 特徴統合重みデータを演算部 1 2 1 0に対して設定される (ステップ S 1 412)。 ここでの 3次特徴統合重みデータは、ステップ S 1411で検出 した 3次特徴結果の局所的な平均化や最大値検出等の処理を行なうための 重みデータである。
演算部 1210は、 各 3次特徴の検出結果を統合する。 これは、 上記図 13に示した特徴統合層 3503 (2, 2)の処理に対応する (ステップ S 1413)。具体的には、演算部 1210は、 中間結果メモリ 1260に保 持されている各 3次特徴の検出結果と、 ステップ S 1412で設定された 各 3次特徴統合重みデータとの積和演算を実行し、 当該積和演算の結果を 中間結果メモリ 1260に保持する。 このとき、 演算部 1210は、 当該 積和演算の結果に対して、 さらに非線形処理を行い、 当該処理結果を中間 結果メモリ 1260に保持するようにしてもよい。
重み設定部 1220は、 4次特徴検出重みデ一夕を演算部 1210に対 して設定する(ステップ S 1414)。ここでの 4次特徴検出重みデータは、 上述したように、 上記図 14に示した各 4次特徴を検出するための重みデ 一夕である。
具体的には、 先ず、 重み設定部 1220は、 パラメ一夕検出部 1240 で、 中間結果メモリ 1260に保持されている各 2次特徵検出結果及び各 3次特徴検出結果から、 3次特徴の大きさに基づいた値をパラメータとし て設定する。 このパラメ一夕としては、 例えば、 第 1の実施形態で説明し たように、 眼特徴の場合、 右空き V字特徴と左空き V字特徴間の水平距離 を使用することができる。
そして、 重み設定部 1220は、 基準重み保持部 1230に保持されて いる基準 4次特徴検出重みデータを、 その受容野サイズに関して、 パラメ —夕検出部 1240で求めたパラメ一夕を用いて修正し、 この結果を 4次 特徵検出重みデータとする。
演算部 1210は、 4次特徴検出を行なう。 これは、 上記図 35に示し た特徴検出層 3502 (1, 3)の処理に対応する (ステップ S 1415)。 具体的には、 演算部 1 2 1 0は、 ステップ S 1 4 1 4で設定された 4次特 徴検出重みデータと中間結果メモリ 1 2 6 0に保持されている 3次特徴の 統合結果との積和演算、 及びその結果に対する非線形演算を実行し、 当該 演算結果 (4次特徴検出結果) を中間結果メモリ 1 2 6 0に保持する。 重み設定部 1 2 2 0は、 基準重み保持手段 1 2 3 0に保持されている 4 次特徴統合重みデータを演算部 1 2 1 0に対して設定する (ステップ S 1
4 1 6 )。 ここでの 4次特徴統合重みデ一夕は、ステップ S 1 4 1 5で検出 した 4次特徴結果の局所的な平均化や最大値の検出等の処理を行なうため の重みデ一夕である。
演算部 1 2 1 0は、 4次特徴の検出結果を統合する。 これは、 上記図 3 5に示した特徴統合層 3 5 0 3 ( 2, 3 )の処理に対応する (ステップ S 1 1 7 )。具体的には、演算部 1 2 1 0は、 中間結果メモリ 1 2 6 0に保持 されている 4次特徴の検出結果と、 ステップ S 1 4 1 6で設定された 4次 特徴統合重みデータとの積和演算を実行し、 当該積和演算の結果を中間結 果メモリ 1 2 6 0に保持する。 このとき、 演算部 1 2 1 0は、 当該積和演 算の結果に対して、 さらに非線形処理を行い、 当該処理結果を中間結果メ モリ 1 2 6 0に保持するようにしてもよい。
演算部 1 2 1 0は、 パターン確認重みデ一夕を設定する (ステップ S 1 4 1 8 )。具体的には、 まず、 上述したステップ S 1 4 1 7までの処理によ り、 4次特徴が検出されるが、 第 1の実施形態で説明したように、 対象画 像 (入力画像) 中の背景に 4次特徴を構成する複数の 3次特徴に似た領域 があり、 また、 これらの位置関係をも似ている場合、 4次特徴の検出で誤 検出する可能性がある。 すなわち、 例えば、 顔の検出の場合、 入力画像中 の背景に、 それぞれ両眼及び口と似た領域が存在し、 また、 その位置関係 をも似ている場合、 顔特徴の検出で誤検出する可能性がある。
このため、 本実施形態では、 検出すべきパ夕一ンにおいて典型的なタイ プ (サイズや向き等) を検出するための基準パターン確認重みデータを用 意し、 当該重みデータを修正し、 当該修正後のパターン確認重みデータを 設定し、 当該設定パターン確認重みデ一夕を用いて、 最終的に検出すべき パターンが入力画像中に存在するか否かを判断する。
ここで一例として、 顔を検出パターンとしているので、 典型的な顔を検 出する基準顔パタ一ン確認重みデータを用意し、 これを修正し、 当該修正 後の顔パターン確認重みデータを設定し、 当該設定顔パターン確認重みデ 一夕を使用して、 顔パターンが入力画像中に存在するかを判断する。
従って、 本ステップ S 1 4 1 8では、 先ず、 演算部 1 2 1 0は、 パラメ —夕検出部 1 2 4 0で、 中間結果メモリ 1 2 6 0に保持されている各 3次 特徴検出結果及び 4次特徴検出結果から、 検出した 4次特徴の各位置にお いて、 3次特徴検出結果に基づいた値をパラメ一夕として設定する。 この パラメ一夕としては、 例えば、 第 1の実施形態で説明したように、 顔特徴 である場合、 眼特徴と口特徴の位置を使用することができる。
そして、 演算部 1 2 1 0は、 基準重み保持部 1 2 3 0に保持されている 基準パターン確認重みデータを、 その受容野サイズ及び回転に関して、 パ ラメ一夕検出部 1 2 4 0で求めたパラメ一夕を用いて修正し、 当該修正結 果をパターン確認重みデータとする。
演算部 1 2 1 0は、検出パターンの確認を行なう(ステップ S 1 4 1 9 )。 具体的には、 演算部 1 2 1 0は、 ステップ S 1 4 1 8で設定された確認 パターン重みデータと、 入力信号メモリ 1 2 5 0に保持されている入力信 号との積和演算、 及びその結果に対する非線形演算を実行し、 当該演算結 果を中間結果メモリ 1 2 6 0に保持する。 この中間結果メモリ 1 2 6 0に 保持された結果が、 検出すべきパターンの検出最終結果となる。
以上説明したように、 本実施形態では、 各特徴を検出するための基準重 みデ一夕を用意し、 前段の検出結果から求めたパラーメータを用いて、 当 該基準重みデータを基に、検出重みデ一夕を設定するように構成したので、 各特徴の検出精度が向上し、 最終的に検出するパターンの検出精度が向上 するという効果がある。
また、 演算部 1 2 1 0では、 検出重みデータ又は統合重みデータと、 中 間結果メモリ 1 2 6 0又は入力信号メモリ 1 2 5 0からのデータとの積和 演算及びその結果の非線形変換を行い、 当該積和演算に使用する重みデー 夕を、 毎回設定するように構成したので、 同じ演算部 1 2 1 0を繰り返し 使用できるという効果がある。 さらに、 入力信号と中間結果の両方を保持 する構成としているので、 最後の確認処理をも容易に行えるという効果が ある。
尚、 本実施形態では、 その一例として、 統合処理に使用する統合重みデ 一夕に対して、 検出結果に応じた設定を行なっていないが、 例えば、 検出 重みデータ同様に、受容野サイズの設定を行なうことも可能である。また、 上記図 3 6に示したステップ S 1 4 1 6及び S 1 4 1 7の 4次特徴に対す る統合処理は、 省略することも可能である。
<第 9の実施形態 >
本実施形態の情報処理装置を図 3 8に示す。 本装置は、 図 2 7に示した パターン認識装置の機能を有するものである。
具体的には、 この情報処理装置は、 図 3 8に示すように、 制御部 1 6 7
0、 演算部 1 6 1 0、 基準重み保持部 1 6 3 0、 パラメータ検出部 1 6 4
0、 入力信号メモリ 1 6 5 0、 入力信号メモリ制御部 1 6 5 1、 中間結果 メモリ 1 6 6 0、 及び中間結果メモリ制御部 1 6 6 1を含む構成としてい る。
ここで、 本実施形態における情報処理装置は、 基本的には第 2の実施形 態における情報処理装置 (図 3 4参照) と同様の機能を有するものである が、 これと異なる点は、 重み設定部 1 2 2 0に相当する機能を持たず、 ノ° ラメ一夕検出部 1 6 4 0で求めたパラメータを中間結果メモリ制御部 1 6 6 1及び演算部 1 6 1 0に供給するように構成したことにある。
すなわち、第 2の実施形態では、前段の処理結果からパラメ一夕を求め、 そのパラメ一夕から特徴を検出するための重みデータを設定するように構 成したが、 本実施形態では、 重みデータとして、 基準重み保持手段 1 6 3 0に保持されている基準重みデータをそのまま使用し、 代わりに受容野に 相当する、 中間結果メモリ 1 6 6 0に保持されている前段の検出結果を、 補間等を用いてサイズ変更するように構成する。
このため、 例えば、 3次特徴である眼特徴を検出する場合、 情報処理装 置は、 図 3 9に示すように、 入力画像 1 7 0 0に対する通常の受容野に対 して、 サイズ変更することで、 サイズ変更後局所画像 1 7 1 0を生成し、 この変更後局所画像 1 7 1 0と、 基準重み保持部 1 6 3 0に保持されてい る基準重みデータとの積和演算を実行する。
尚、 3次特徴を求める場合、 中間結果メモリ 1 6 6 0に保持されている 2次特徴検出結果を使用するが、上記図 3 9では、説明を簡単にするため、 入力画像 1 7 0 0の局所画像のサイズ変更を示している。 実際には、 2次 特徴検出結果画像の局所領域をサイズ変更して使用する。
以上説明したように、 本実施形態では、 前段の検出結果から求めたパラ 一メータを用いて、 特徴を検出する際に使用する前段の検出結果のサイズ を変更して再設定するように構成したので、 各特徴の検出精度が向上し、 最終的に検出するパターンの検出精度が向上する、という効果を得られる。 また、 検出結果のサイズを変更は、 メモリから読み出す領域の変更と補間 処理で良いため、 容易に実現できる、 という効果をも得られる。
<ソフトウェアなどによる他の実施形態 >
本発明は、 複数の機器 (例えばホストコンピュータ、 インタ一フェース 機器、 リーダ、 プリン夕等) から構成されるシステムの一部として適用し ても、 ひとつの機器 (たとえば複写機、 ファクシミリ装置) からなるもの の一部に適用してもよい。
また、 本発明は上記実施形態を実現するための装置及び方法及び実施形 態で説明した方法を組み合わせて行う方法のみに限定されるものではなく、 上記システムまたは装置内のコンピュータ (C P Uあるいは M P U) に、 上記実施形態を実現するためのソフトウェアのプログラムコードを供給し、 このプログラムコードに従って上記システムあるいは装置のコンピュータ が上記各種デバィスを動作させることにより上記実施形態を実現する場合 も本発明の範疇に含まれる。
またこの場合、 前記ソフトウェアのプログラムコード自体が上記実施形 態の機能を実現することになり、 そのプログラムコード自体、 及びそのプ ログラムコードをコンピュータに供給するための手段、 具体的には上記プ ログラムコードを格納した記憶媒体は本発明の範疇に含まれる。
この様なプログラムコードを格納する記憶媒体としては、 例えばフロッ ピー (R) ディスク、 ハードディスク、 光ディスク、 光磁気ディスク、 C D— R OM、 磁気テープ、 不揮発性のメモリカード、 R OM等を用いるこ とができる。
また、 上記コンピュータが、 供給されたプログラムコードのみに従って 各種デバイスを制御することにより、 上記実施形態の機能が実現される場 合だけではなく、 上記プログラムコードがコンピュータ上で稼働している O S (オペレーティングシステム) 、 あるいは他のアプリケーションソフ ト等と共同して上記実施形態が実現される場合にもかかるプログラムコー ドは本発明の範疇に含まれる。
更に、 この供給されたプログラムコードが、 コンピュータの機能拡張ポ ードゃコンピュータに接続された機能拡張ュニットに備わるメモリに格納 された後、 そのプログラムコ一ドの指示に基づいてその機能拡張ポードゃ 機能格納ュニッ卜に備わる C P U等が実際の処理の一部または全部を行い、 その処理によって上記実施形態が実現される場合も本発明の範疇に含まれ る。 以上説明した実施形態によれば、 入力パターンの変動に対して頑健な識 別が可能であり、 誤識別が生じる可能性を低減させながら、 より処理コス トの少ないパターン認識を行うことが可能となる。
なお、 上記実施形態は、 何れも本発明を実施するにあたっての具体化の 例を示したものに過ぎず、 これらによって本発明の技術的範囲が限定的に 解釈されてはならないものである。 すなわち、 本発明はその技術思想、 ま たはその主要な特徴から逸脱することなく、 様々な形で実施することがで さる。
本発明は上述した実施例に限定されるものでなく種々の変更や修正が考 えられる。 よって、 本願発明の技術的範囲は、 以下の請求の範囲に基づい て決定される。

Claims

請求の範囲
1 . 入力データの特徴を階層的に抽出して当該入力データのパターン を識別するパターン識別方法において、
第 1の階層の特徴を抽出する第 1の特徴抽出工程と、
前記第 1の特徴抽出工程における特徴抽出結果に基づいて前記第 1の階 層より上位の第 2の階層の特徴を抽出する方式を決定する決定工程と、 前記決定工程で決定された方式に基づいて前記第 2の階層の特徴を抽出 する第 2の特徴抽出工程とを有することを特徴とするパターン識別方法。
2 . 前記決定工程では、 前記第 1の特徴抽出工程における特徴抽出結 果の分布を分析し、 当該分析された分布に基づいて前記方式を決定するこ とを特徴とする請求項 1に記載のパターン識別方法。
3 . 前記決定工程では、 前記分布に基づいて前記第 2の階層の複数の 特徴の尤度を算出し、 算出された尤度が所定値以上の特徴を抽出対象とし て決定することを特徴とする請求項 2に記載のパターン識別方法。
4. 前記第 1または第 2の特徴抽出工程において、 所定の特徴に所定 の変換を与えて得られる特徴を抽出することを特徴とする請求項 1に記載 のパターン識別方法。
5 . 前記第 2の特徴抽出工程における上位の階層の特徴抽出結果に基 づいて、 下位の階層の特徴を再抽出する再抽出工程を有することを特徴と する請求項 1に記載のパターン識別方法。
6 . 前記決定工程では、 複数の前記特徴抽出結果の各々の分布を分析 し、 それぞれの分析結果の相対関係を分析することを特徴とする請求項 1 に記載のパターン識別方法。
7 . 前記決定工程では、 少なくとも 1つの前記特徴抽出結果の特定の 範囲内での分布を分析することを特徴とする請求項 1に記載のパターン識 別方法。
8 . 前記決定工程では、 少なくとも 1つの前記特徴抽出結果の分布に おいて、 所定の範囲内に前記特徴が抽出されている、 もしくは抽出されて いないことを分析することを特徴とする請求項 1に記載のパターン識別方 法。
9 . 前記決定工程では、 少なくとも 1つの前記特徴抽出結果の分布の 重心位置を分析することを特徴とする請求項 1に記載のパターン識別方法。
1 0 . 前記決定工程では、 少なくとも 1つの前記特徴抽出結果の分布 において、 前記特徴が抽出されている範囲もしくは抽出されていない範囲 の大きさを分析することを特徴とする請求項 1に記載のパターン識別方法。
1 1 . 前記決定工程では、 少なくとも 1つの前記特徴抽出結果の尤度 もしくは特徴検出レベルの累計を分析することを特徴とする請求項 1に記 載のパターン識別方法。
1 2 . 前記第 2の特徴抽出工程ではモデルを設定して特徴を抽出し、 前記決定工程では、 前記第 2の特徴抽出工程で設定すべきモデルを決定 することを特徴とする請求項 1に記載のパターン識別方法。
1 3 . 前記第 1の特徴抽出工程ではモデルを設定して特徴を抽出して おり、 前記第 2の特徴抽出工程で使用されるモデルは、 前記第 1の特徴抽 出工程で使用される所定のモデルを組み合わせて構成されており、
前記第 1の検出工程では、 当該第 1の検出工程で使用されるモデルと前 記パターンの構成部分とを比較して、 該モデルの前記構成部分に対する特 微量を算出し、
前記決定工程では、特定のモデルを構成するモデルの特徴量に基づいて、 該特定のモデルを設定すべきモデルに決定することを特徴とする請求項 1 2に記載のパターン識別方法。
1 4. 前記決定工程では、 特定のモデルを構成するモデルがすべて所 定の特徴量を有している場合、 該特定のモデルを設定すべきモデルに決定 することを特徴とする請求項 1 3に記載のパターン識別方法。
1 5 . 前記決定工程では、 同一のモデルをそれぞれ複数の角度で回転 させた形態の複数のモデルを設定すべきモデルに決定することを特徴とす る請求項 1 2に記載のパターン識別方法。
1 6 . 前記決定工程では、 モデルに対して算出された特徴量に基づい て、 設定すべきモデルの数を制限することを特徴とする請求項 1 2に記載 のパターン識別方法。
1 7 . 前記決定工程では、 算出された下位モデルの特徴量のうち、 所 定量以上の特徴量を有する下位モデルの回転角度を選択し、 選択された回 転角度に対応する上位モデルを設定すべきモデルに決定することを特徴と する請求項 1 5に記載のパターン識別方法。
1 8 . 算出された下位モデルの特徴量のうち、 該特徴量の順で上位と なる下位モデルの回転角度を選択し、 選択された回転角度に対応する上位 モデルを設定することを特徴とする請求項 1 5に記載のパターン識別方法。
1 9 . 算出された前記下位モデルの特徴量に基づいて、 当該下位モデ ルの回転角度を計測し、 当該計測された回転角度を用いて、 前記上位モデ ルの数を制限することを特徴とする請求項 1 6に記載のパターン識別方法。
2 0 . 複数の角度で回転させた形態の複数のモデルが設定される際の 該複数の角度の回転間隔を変更する変更工程をさらに有し、
該変更工程では、 より高次な階層におけるモデルの回転間隔をより狭く することを特徴とする請求項 1 5に記載のパターン識別方法。
2 1 . 所定の基準モデルが保持されており、
前記決定工程では、 前記基準モデルを算出された前記特徴量を用いて変 換することによつて得られるモデルを設定すべきモデルに決定することを 特徴とする請求項 1 3に記載のパターン識別方法。
2 2 . 所定の基準データが保持されており、 前記決定工程では、 前記基準データと前記第 1の特徴抽出工程における 特徴抽出結果とに基づいて前記第 2の特徴抽出工程で使用するデータを決 定することを特徴とする請求項 1に記載のパターン識別方法。
2 3 . 前記決定工程では、 入力信号の空間的位置毎に、 使用するデー 夕を決定することを特徴とする請求項 2 2記載のパターン識別方法。
2 4. 前記基準データは、 前記所定パターンの典型的なパターンを構 成する複数の特徴を検出するためのデータであり、
前記決定工程では、 前記第 1の特徴抽出工程で得られた複数の特徴の位 置関係に基づいて、 保持された前記基準データを変換し、
前記第 2の特徴抽出工程では、 変換後の前記基準データと、 前記入力信 号との相関に基づいて、 当該入力信号に含まれる所定パターンの有無を判 別することを特徴とする請求項 2 2記載のパターン識別方法。
2 5 . 前記決定工程では、 前記第 1の特徴抽出工程における特徴検出 に使用する前階層の検出結果からの入力範囲の大きさを、 前記第 1の特徴 抽出工程における特徴抽出結果に基づき決定することを特徴とするパター ン識別方法。
2 6 . 前記決定工程では、 前記入力範囲の大きさを入力信号の空間的 位置毎に決定することを特徴とする請求項 2 5記載のパターン識別方法。
2 7 . 前記第 1の特徴抽出工程における特徴検出結果を保持する結果 保持工程と、
前記結果保持工程において保持された検出結果に基づきパラメ一夕を求 めるパラメータ取得工程と、
上記パラメ一夕取得工程で得られたパラメ一夕に基づいて、 前記第 2の 特徴抽出工程において読み出すべき特徴検出結果を変更する変更工程とを 更に有することを特徴とする請求項 1に記載のパターン識別方法。
2 8 . 前記入力データは画像であり、 前記第 1及び第 2の特徴抽出ェ 程では、 顔を構成する特徴を抽出することを特徴とする請求項 1に記載の パターン識別方法。
2 9 . 入力データの特徴を階層的に抽出して当該入力データのパター ンを識別するパターン識別装置であって、
第 1の階層の特徴を抽出する第 1の特徴抽出手段と、
前記第 1の特徴抽出工程における特徴抽出結果に基づいて前記第 1の階 層より上位の第 2の階層の特徴を抽出する方式を決定する決定手段と、 前記決定手段により決定された方式に基づいて前記第 2の階層の特徴を 抽出する第 2の特徴抽出手段とを有することを特徴とするパターン識別装
3 0 . 前記入力データとして画像を撮像して入力する撮像手段を備え たことを特徴とする請求項 2 9に記載のパターン識別装置。
3 1 . コンピュータに、 入力データの特徴を階層的に油出させて当該 入力データのパターンを識別させるパターン識別プログラムであって、 第 1の階層の特徴を抽出する第 1の特徴抽出手順と、
前記第 1の特徴抽出手順における特徴抽出結果に基づいて前記第 1の階 層より上位の第 2の階層の特徴を抽出する方式を決定する決定手順と、 前記決定手順で決定された方式に基づいて前記第 2の階層の特徴を抽出 する第 2の特徴抽出手順とを実行させるためのコンピュータ読み取り可能 なパターン識別プログラム。
PCT/JP2003/016095 2002-12-16 2003-12-16 パターン識別方法、その装置及びそのプログラム WO2004055735A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
AU2003289116A AU2003289116A1 (en) 2002-12-16 2003-12-16 Pattern identification method, device thereof, and program thereof
US10/539,882 US7577297B2 (en) 2002-12-16 2003-12-16 Pattern identification method, device thereof, and program thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002-364369 2002-12-16
JP2002364369A JP4298283B2 (ja) 2002-12-16 2002-12-16 パターン認識装置、パターン認識方法、及びプログラム
JP2003416236A JP4266798B2 (ja) 2003-12-15 2003-12-15 パターン検出装置及びパターン検出方法
JP2003-416236 2003-12-15

Publications (1)

Publication Number Publication Date
WO2004055735A1 true WO2004055735A1 (ja) 2004-07-01

Family

ID=32599267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/016095 WO2004055735A1 (ja) 2002-12-16 2003-12-16 パターン識別方法、その装置及びそのプログラム

Country Status (3)

Country Link
US (1) US7577297B2 (ja)
AU (1) AU2003289116A1 (ja)
WO (1) WO2004055735A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI647660B (zh) * 2016-12-15 2019-01-11 歐姆龍股份有限公司 條狀區域檢測裝置、條狀區域檢測方法及其程式的記錄媒體
CN110751134A (zh) * 2019-12-23 2020-02-04 长沙智能驾驶研究院有限公司 目标检测方法、存储介质及计算机设备

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8553949B2 (en) 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
EP2955662B1 (en) 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
JP4665764B2 (ja) * 2004-01-15 2011-04-06 日本電気株式会社 パターン識別システム、パターン識別方法、及びパターン識別プログラム
US7564994B1 (en) * 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
CA2600938A1 (en) * 2004-03-24 2005-10-06 Andre Hoffmann Identification, verification, and recognition method and system
JP2005352900A (ja) * 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
US8233681B2 (en) * 2004-09-24 2012-07-31 The University Of North Carolina At Chapel Hill Methods, systems, and computer program products for hierarchical registration between a blood vessel and tissue surface model for a subject and a blood vessel and tissue surface image for the subject
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
JP2006254229A (ja) * 2005-03-11 2006-09-21 Fuji Photo Film Co Ltd 撮像装置、撮像方法及び撮像プログラム
JP5008269B2 (ja) * 2005-04-08 2012-08-22 キヤノン株式会社 情報処理装置、情報処理方法
JP4412552B2 (ja) * 2005-10-05 2010-02-10 富士フイルム株式会社 画像レイアウト装置および方法並びにプログラム
JP4910507B2 (ja) * 2006-06-29 2012-04-04 コニカミノルタホールディングス株式会社 顔認証システム及び顔認証方法
JP2008021228A (ja) * 2006-07-14 2008-01-31 Renesas Technology Corp データ処理装置
JP4683228B2 (ja) * 2006-07-25 2011-05-18 富士フイルム株式会社 画像表示装置、撮影装置、画像表示方法およびプログラム
EP2050043A2 (en) 2006-08-02 2009-04-22 Fotonation Vision Limited Face recognition with combined pca-based datasets
JP2008059197A (ja) * 2006-08-30 2008-03-13 Canon Inc 画像照合装置、画像照合方法、コンピュータプログラム及び記憶媒体
US20080201641A1 (en) * 2007-02-21 2008-08-21 Yiling Xie Method And The Associated Mechanism For 3-D Simulation Stored-Image Database-Driven Spectacle Frame Fitting Services Over Public Network
US8331674B2 (en) 2007-04-06 2012-12-11 International Business Machines Corporation Rule-based combination of a hierarchy of classifiers for occlusion detection
US20090022403A1 (en) * 2007-07-20 2009-01-22 Fujifilm Corporation Image processing apparatus, image processing method, and computer readable medium
JP2009086749A (ja) * 2007-09-27 2009-04-23 Canon Inc パターン識別手法、識別用パラメータ学習方法、及び装置
JP4948379B2 (ja) * 2007-12-18 2012-06-06 キヤノン株式会社 パターン識別器生成方法、情報処理装置、プログラム及び記憶媒体
JP5055166B2 (ja) * 2008-02-29 2012-10-24 キヤノン株式会社 眼の開閉度判定装置、方法及びプログラム、撮像装置
WO2009122760A1 (ja) * 2008-04-04 2009-10-08 富士フイルム株式会社 画像処理装置、画像処理方法、およびコンピュータ読取可能な媒体
US8290240B2 (en) * 2008-06-11 2012-10-16 Sirona Dental Systems Gmbh System, apparatus, method, and computer program product for determining spatial characteristics of an object using a camera and a search pattern
JP4966260B2 (ja) * 2008-06-25 2012-07-04 キヤノン株式会社 画像処理方法および画像処理装置、プログラム並びに、コンピュータ読み取り可能な記憶媒体
US8331655B2 (en) * 2008-06-30 2012-12-11 Canon Kabushiki Kaisha Learning apparatus for pattern detector, learning method and computer-readable storage medium
JP5394485B2 (ja) * 2008-07-03 2014-01-22 エヌイーシー ラボラトリーズ アメリカ インク 印環細胞検出器及び関連する方法
US8560488B2 (en) * 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
US8160354B2 (en) * 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
US8290250B2 (en) * 2008-12-26 2012-10-16 Five Apes, Inc. Method and apparatus for creating a pattern recognizer
US8229209B2 (en) * 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
JP5709410B2 (ja) * 2009-06-16 2015-04-30 キヤノン株式会社 パターン処理装置及びその方法、プログラム
JP5538967B2 (ja) 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP5336995B2 (ja) * 2009-10-19 2013-11-06 キヤノン株式会社 特徴点位置決め装置、画像認識装置、その処理方法及びプログラム
JP5554984B2 (ja) * 2009-12-24 2014-07-23 キヤノン株式会社 パターン認識方法およびパターン認識装置
JP5588165B2 (ja) * 2009-12-24 2014-09-10 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP5812599B2 (ja) * 2010-02-25 2015-11-17 キヤノン株式会社 情報処理方法及びその装置
JP2012038106A (ja) 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
US8768944B2 (en) 2010-08-18 2014-07-01 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
JP5675214B2 (ja) 2010-08-18 2015-02-25 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US8879804B1 (en) * 2010-12-18 2014-11-04 Alexey Konoplev System and method for automatic detection and recognition of facial features
JP5746550B2 (ja) * 2011-04-25 2015-07-08 キヤノン株式会社 画像処理装置、画像処理方法
JP5848551B2 (ja) 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
US9111346B2 (en) * 2011-09-13 2015-08-18 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
JP5896661B2 (ja) 2011-09-14 2016-03-30 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP5886616B2 (ja) 2011-11-30 2016-03-16 キヤノン株式会社 物体検出装置、物体検出装置の制御方法、およびプログラム
JP5806606B2 (ja) 2011-12-01 2015-11-10 キヤノン株式会社 情報処理装置、情報処理方法
JP5865043B2 (ja) 2011-12-06 2016-02-17 キヤノン株式会社 情報処理装置、情報処理方法
JP6026119B2 (ja) * 2012-03-19 2016-11-16 株式会社東芝 生体情報処理装置
JP6000602B2 (ja) * 2012-03-30 2016-09-28 キヤノン株式会社 体検出方法及び物体検出装置
US8843759B2 (en) * 2012-08-28 2014-09-23 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for media-based authentication
US9460069B2 (en) * 2012-10-19 2016-10-04 International Business Machines Corporation Generation of test data using text analytics
US9092697B2 (en) * 2013-02-07 2015-07-28 Raytheon Company Image recognition system and method for identifying similarities in different images
US9141872B2 (en) 2013-09-11 2015-09-22 Digitalglobe, Inc. Automated and scalable object and feature extraction from imagery
JP6304999B2 (ja) * 2013-10-09 2018-04-04 アイシン精機株式会社 顔検出装置、方法およびプログラム
KR20150071038A (ko) * 2013-12-17 2015-06-26 삼성전자주식회사 전자 장치를 이용한 소셜 네트워크 서비스 제공 방법 및 이를 구현한 장치
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9639742B2 (en) * 2014-04-28 2017-05-02 Microsoft Technology Licensing, Llc Creation of representative content based on facial analysis
US9773156B2 (en) 2014-04-29 2017-09-26 Microsoft Technology Licensing, Llc Grouping and ranking images based on facial recognition data
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9460493B2 (en) 2014-06-14 2016-10-04 Microsoft Technology Licensing, Llc Automatic video quality enhancement with temporal smoothing and user override
US9373179B2 (en) 2014-06-23 2016-06-21 Microsoft Technology Licensing, Llc Saliency-preserving distinctive low-footprint photograph aging effect
EP3065086A1 (en) * 2015-03-02 2016-09-07 Medizinische Universität Wien Computerized device and method for processing image data
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10049406B2 (en) 2015-03-20 2018-08-14 Bank Of America Corporation System for sharing retirement scores between social groups of customers
US10687711B2 (en) 2015-05-05 2020-06-23 Medizinische Universität Wien Computerized device and method for processing image data
US10846566B2 (en) 2016-09-14 2020-11-24 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US10657424B2 (en) * 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
KR102085334B1 (ko) * 2017-01-19 2020-03-05 서울대학교산학협력단 회전된 사물 인식 방법 및 장치
US11804070B2 (en) * 2019-05-02 2023-10-31 Samsung Electronics Co., Ltd. Method and apparatus with liveness detection
CN113515981A (zh) 2020-05-22 2021-10-19 阿里巴巴集团控股有限公司 识别方法、装置、设备和存储介质
CN114119610B (zh) * 2022-01-25 2022-06-28 合肥中科类脑智能技术有限公司 基于旋转目标检测的缺陷检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07220090A (ja) * 1994-02-02 1995-08-18 Canon Inc 物体認識方法
EP0784285A2 (en) * 1996-01-12 1997-07-16 Canon Kabushiki Kaisha Method and apparatus for generating a classification tree
JPH11250267A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 目の位置検出方法、目の位置検出装置および目の位置検出プログラムを記録した記録媒体
JP2001202516A (ja) * 2000-01-19 2001-07-27 Victor Co Of Japan Ltd 個人識別装置
EP1262908A1 (en) * 2001-05-31 2002-12-04 Canon Kabushiki Kaisha Pattern recognition apparatus for detecting predetermined pattern contained in input signal

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2767814B2 (ja) 1988-06-14 1998-06-18 日本電気株式会社 顔画像検出方法及び装置
DE4028191A1 (de) * 1990-09-05 1992-03-12 Philips Patentverwaltung Schaltungsanordnung zum erkennen eines menschlichen gesichtes
CA2107553C (en) * 1991-04-05 2001-07-31 Nancy Lin Monoclonal antibodies to stem cell factor receptors
JPH0711819A (ja) 1992-01-16 1995-01-13 Renko Ko ドアロック用調整プレートアセンブリ
JP2973676B2 (ja) 1992-01-23 1999-11-08 松下電器産業株式会社 顔画像特徴点抽出装置
JP2573126B2 (ja) 1992-06-22 1997-01-22 正重 古川 表情のコード化及び情緒の判別装置
JPH08147469A (ja) 1994-11-18 1996-06-07 Ricoh Co Ltd カラー画像認識方法
JPH0944676A (ja) 1995-08-01 1997-02-14 Toyota Motor Corp 顔面検出装置
JP3279913B2 (ja) 1996-03-18 2002-04-30 株式会社東芝 人物認証装置、特徴点抽出装置及び特徴点抽出方法
JPH1011543A (ja) 1996-06-27 1998-01-16 Matsushita Electric Ind Co Ltd パターン認識用辞書作成装置及びパターン認識装置
JPH1115973A (ja) 1997-06-23 1999-01-22 Mitsubishi Electric Corp 画像認識装置
JPH11283036A (ja) 1998-03-30 1999-10-15 Toshiba Tec Corp 対象物検出装置及び対象物検出方法
KR100343223B1 (ko) 1999-12-07 2002-07-10 윤종용 화자 위치 검출 장치 및 그 방법
US7054850B2 (en) 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
JP2002358523A (ja) 2001-05-31 2002-12-13 Canon Inc パターン認識処理装置及びその方法、画像入力装置
EP2955662B1 (en) 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
US8209172B2 (en) 2003-12-16 2012-06-26 Canon Kabushiki Kaisha Pattern identification method, apparatus, and program
JP5008269B2 (ja) 2005-04-08 2012-08-22 キヤノン株式会社 情報処理装置、情報処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07220090A (ja) * 1994-02-02 1995-08-18 Canon Inc 物体認識方法
EP0784285A2 (en) * 1996-01-12 1997-07-16 Canon Kabushiki Kaisha Method and apparatus for generating a classification tree
JPH11250267A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 目の位置検出方法、目の位置検出装置および目の位置検出プログラムを記録した記録媒体
JP2001202516A (ja) * 2000-01-19 2001-07-27 Victor Co Of Japan Ltd 個人識別装置
EP1262908A1 (en) * 2001-05-31 2002-12-04 Canon Kabushiki Kaisha Pattern recognition apparatus for detecting predetermined pattern contained in input signal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI647660B (zh) * 2016-12-15 2019-01-11 歐姆龍股份有限公司 條狀區域檢測裝置、條狀區域檢測方法及其程式的記錄媒體
CN110751134A (zh) * 2019-12-23 2020-02-04 长沙智能驾驶研究院有限公司 目标检测方法、存储介质及计算机设备

Also Published As

Publication number Publication date
US20060204053A1 (en) 2006-09-14
AU2003289116A1 (en) 2004-07-09
US7577297B2 (en) 2009-08-18

Similar Documents

Publication Publication Date Title
WO2004055735A1 (ja) パターン識別方法、その装置及びそのプログラム
EP1650711B1 (en) Image processing device, imaging device, image processing method
JP4868530B2 (ja) 画像認識装置
CN111274916B (zh) 人脸识别方法和人脸识别装置
EP2678824B1 (en) Determining model parameters based on transforming a model of an object
JP4532915B2 (ja) パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US8254644B2 (en) Method, apparatus, and program for detecting facial characteristic points
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN108416291B (zh) 人脸检测识别方法、装置和系统
JP5574033B2 (ja) 画像認識システム及びその認識方法並びにプログラム
CN111784747A (zh) 一种基于关键点检测和校正的车辆多目标跟踪系统及方法
CN111626295B (zh) 车牌检测模型的训练方法和装置
CN111507908B (zh) 图像矫正处理方法、装置、存储介质及计算机设备
JP4993615B2 (ja) 画像認識方法および装置
CN111192194A (zh) 一种针对幕墙建筑立面的全景图像拼接方法
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN112686248B (zh) 证件增减类别检测方法、装置、可读存储介质和终端
Cai et al. Feature detection and matching with linear adjustment and adaptive thresholding
JP4298283B2 (ja) パターン認識装置、パターン認識方法、及びプログラム
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN114332814A (zh) 一种停车框识别方法、装置、电子设备及存储介质
CN114241194A (zh) 一种基于轻量级网络的仪表识别及读数方法
JP4493448B2 (ja) 対象物識別装置および方法並びにプログラム
JP4266798B2 (ja) パターン検出装置及びパターン検出方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
WWE Wipo information: entry into national phase

Ref document number: 10539882

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10539882

Country of ref document: US