WO2010147137A1 - パターン処理装置及びその方法、プログラム - Google Patents

パターン処理装置及びその方法、プログラム Download PDF

Info

Publication number
WO2010147137A1
WO2010147137A1 PCT/JP2010/060181 JP2010060181W WO2010147137A1 WO 2010147137 A1 WO2010147137 A1 WO 2010147137A1 JP 2010060181 W JP2010060181 W JP 2010060181W WO 2010147137 A1 WO2010147137 A1 WO 2010147137A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
local region
local
region
variable
Prior art date
Application number
PCT/JP2010/060181
Other languages
English (en)
French (fr)
Inventor
克彦 森
政美 加藤
嘉則 伊藤
貴久 山本
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Priority to US12/963,568 priority Critical patent/US9117111B2/en
Publication of WO2010147137A1 publication Critical patent/WO2010147137A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Definitions

  • the present invention relates to a pattern processing apparatus that performs pattern discrimination and detection, a method thereof, and a program.
  • the process for recognizing a face in an image includes a process for detecting a face in a captured image and a recognition process for identifying an individual with respect to the detected face area.
  • Non-Patent Document 1 proposes a technique for detecting a face as a subject at high speed. In this method, it is determined whether or not the predetermined region cut out from the input image is a face using a cascade-connected weak classifier.
  • Patent Document 1 an eigenvector representing a face is generated in advance from a large number of face images, a registered face image and an input face image are projected onto the eigenvectors, and a personal ID is obtained by measuring the distance between the obtained projection vectors.
  • a technique for identifying is disclosed. This technique is called Eigenface. This Eigenface is said to deteriorate in accuracy due to variations in face orientation, illumination, and the like.
  • Non-Patent Document 2 a technique called Local Feature Analysis (LFA) is performed, in which eigenvectors are created for a local area of a face, and recognition is performed using a projection vector for each local area of a registered image and an input image. It is shown.
  • LFA Local Feature Analysis
  • Patent Document 3 discloses a technique for performing recognition using a luminance value distribution obtained by adding and projecting luminance values in a predetermined direction for each local region.
  • Patent Document 4 discloses a method of separately obtaining a face orientation, occlusion, and the like and weighting a local region based on the values.
  • Non-Patent Document 3 a difference image between a registered face image and an input face image is input, and in the case of the same person, the intra-person (same person) class, and in the case of different persons, extra-person (other person). Face recognition is performed using a classifier that identifies each class.
  • Patent Document 2 shows a method of identifying using support vector machines (SVM) based on the method of Non-Patent Document 3. There, a similarity vector is generated from a feature amount obtained by a Gabor filter at a plurality of points of a registered face image and an input face image, and an intra-person class and an extra-person class are identified using SVM. .
  • SVM support vector machines
  • Non-Patent Document 4 shows a method using a circular separability filter and a partial space.
  • Non-Patent Document 5 discloses various methods for discriminating the face orientation attribute with respect to the input face image.
  • Non-Patent Document 6 discloses a technique for improving the identification rate by deforming a local region in accordance with the face orientation attribute and improving the similarity to the same person.
  • the present invention has been made in view of such problems, and an object thereof is to suppress a reduction in recognition accuracy even when an error occurs in detection of a feature point.
  • the present invention aims to obtain a good detection result even when the shape of a part of the target object varies.
  • a local region is set in the input pattern and the registered pattern in the pattern processing device that determines the class to which the input pattern belongs by comparing the input pattern and the registered pattern in the local region.
  • Local area setting means variable local area generation means for generating a plurality of variable local area patterns based on the local area set in at least one of the input pattern and the registered pattern, and the input pattern
  • Similarity calculation means for obtaining a plurality of similarities for combinations with area patterns; For each local region, the local region pattern or the plurality of variable local region patterns set in the input pattern, and the local region pattern or the plurality of variable local region patterns set in the registered pattern
  • Representative similarity calculating means for obtaining a representative similarity as a similarity between the registered pattern corresponding to the local area of the input pattern and the local area from the pluralit
  • a pattern for detecting a detection target existing in an input pattern based on a detection result of a local region pattern corresponding to each of a plurality of local regions of the pattern of the detection target A processing device generates a plurality of variable local region patterns based on at least one of the reference local region pattern and a reference local region pattern holding unit that stores a reference local region pattern serving as a reference for each of the local region patterns.
  • object detection means for detecting detection objects in the input pattern by integrating the detection results. .
  • the present invention it is possible to prevent the recognition accuracy from deteriorating even when the shape of the local region is changed due to an error, face orientation, or facial expression in the detection of feature points.
  • the input pattern is a face image
  • the input face image is compared with the registered face image to determine who the face in the input face image is, that is, the input face image
  • a process for specifying a personal ID will be described as an example of a pattern process.
  • processing necessary for recognition on a registered image and holding the data is referred to as registration processing.
  • processing necessary for recognition is performed on the input image to obtain a feature vector, and the similarity between the feature vector and the feature vector of the registered image generated and held in the registration process is obtained and discriminated.
  • the process is called an evaluation process.
  • FIG. 1 is a diagram illustrating an example of a hardware configuration of the pattern discrimination device.
  • the input device 11 is composed of a keyboard and a pointing device. The user operates the input device 11 to input data and instruct operation.
  • the display device 13 displays, for example, data stored in the storage device 12, and is, for example, a CRT or a liquid crystal.
  • the CPU 14 is involved in all of the above processing, and the ROM 15 and the RAM 16 provide a memory and a work area for storing data necessary for the processing. Further, the CPU 14 reads out a program from the ROM 15 and executes processing based on the program, thereby realizing all or a part of functions to be described later and each process of a flowchart to be described later.
  • the pattern discriminating apparatus may further include a reading unit that reads an image from an imaging apparatus configured with a known CCD element or the like.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the pattern discrimination device.
  • the facial organ feature point detection unit 101 detects facial organ feature points such as the corners of the eyes, the eyes, and the mouth end points in the input face image. A feature point detection method in the facial organ feature point detection unit 101 will be described later.
  • the search region setting unit 102 sets a search region for setting a local region in the input face image pattern based on the output of the facial organ feature point detection unit 101.
  • a search area setting method in the search area setting unit 102 will be described later.
  • Feature vector generation region setting unit 103 sets a feature vector generation region for generating a feature vector in the search region set by search region setting unit 102 (local region setting). A feature vector generation region setting method in the feature vector generation region setting unit 103 will be described later.
  • Feature vector generation unit 104 generates a feature vector of the region from the feature vector generation region set by feature vector generation region setting unit 103.
  • a feature vector generation method in the feature vector generation unit 104 will be described later.
  • the registered feature vector holding unit 105 holds the feature vector generated by the feature vector generating unit 104 in the registration process.
  • the similarity calculation unit 106 includes a feature vector of a local area having an input face image generated by the feature vector generation unit 104 and a registered face image held in the registered feature vector holding unit 105. The similarity with the feature vector of the local region is calculated. A method for calculating the similarity in the similarity calculator 106 will be described later.
  • the representative similarity calculation unit 107 calculates the representative similarity of the search region by using the similarity obtained by the similarity calculation unit 106 for each local region in the search region. A method of calculating the representative similarity in the representative similarity calculating unit 107 will be described later.
  • the representative similarity integrating unit 108 integrates the representative similarity of each search area obtained by the representative similarity calculating unit 107 to obtain an evaluation value between the input image and the registered image. A method of integrating the representative similarity in the representative similarity integrating unit 108 will be described later.
  • the discriminating unit 109 discriminates the class corresponding to the person in the input face image based on the evaluation value with the input image obtained by the representative similarity integrating unit 108 for all the registered images.
  • the reference search area data holding unit 110 holds data related to the reference search area used by the search area setting unit 102.
  • the broken line indicates registration processing
  • the solid line indicates evaluation processing
  • FIG. 3 is a flowchart illustrating an example of a registration processing procedure.
  • step S201 the facial organ feature point detection unit 101 performs facial organ feature point detection on the registered face image.
  • FIG. 4 is a diagram illustrating an example of the feature points detected in step S201.
  • E1, E4 indicate the corner of the eye
  • E2, E3 indicate the head of the eye
  • B1, B2, B3, B4 indicate the eyebrow ends
  • M1, M2 indicate the mouth end points.
  • the facial organ feature point detection unit 101 can use an existing method for detection of facial feature points. For example, the facial organ feature point detection unit 101 detects a feature point by repeatedly detecting a local feature in a hierarchical manner, integrating the detection results, and detecting a local feature in the next layer. Can be used. That is, the facial organ feature point detection unit 101 first detects a primary feature which is a primitive feature, and detects a secondary feature using the detection result (detection level and positional relationship) of the primary feature. Then, the facial organ feature point detection unit 101 uses the detection result of the secondary feature to detect higher-order features in order of the tertiary features.
  • FIG. 5 is a diagram illustrating an example of primary features to be detected.
  • the facial organ feature point detection unit 101 includes features such as a vertical feature (1-1), a horizontal feature (1-2), a right-up diagonal feature (1-3), and a right-down diagonal feature (1-4). Is detected.
  • the vertical feature (1-1) represents an edge segment in the vertical direction (the same applies hereinafter).
  • This detection result is output for each feature in the form of a detection result image having the same size as the input image. That is, in the example of FIG. 5, four types of detection result images are obtained, and the facial organ feature point detection unit 101 looks at the value of each position of the detection result image of each feature and sets each position at the position of the input image. It can be determined whether a feature exists.
  • the facial organ feature point detection unit 101 detects a right empty V-shaped feature (2-1) that is a secondary feature from a right-up diagonal feature and a right-down diagonal feature. Further, the facial organ feature point detection unit 101 detects a left empty V-shaped feature (2-2) that is a secondary feature from a right-down diagonal feature and a right-up diagonal feature. Further, the facial organ feature point detection unit 101 detects the horizontal parallel line feature (2-3) that is the secondary feature from the lateral feature. Further, the facial organ feature point detection unit 101 detects the vertical parallel line feature (2-4) that is the secondary feature from the vertical feature.
  • the facial organ feature point detection unit 101 detects the tertiary eye feature (3-1) from the right empty V-character feature, the left empty V-character feature, the horizontal parallel line feature, and the vertical parallel line feature. Further, the facial organ feature point detection unit 101 detects the mouth feature (3-2) of the tertiary feature from the right empty V-character feature, the left empty V-character feature, and the horizontal parallel line feature.
  • the above detection method can also be realized by using a neural network that performs image recognition by parallel hierarchical processing. More specifically, M.M. Matsusu, K .; Mori, et. al, “Conventional Spiking Neural Network Model for Robust Face Detection”, 2002, which can be used in the International Information OnNeural Information Processing, which can be described as “National Information Processing”.
  • FIG. 6 is a diagram for explaining the processing contents of the neural network.
  • the neural network shown in FIG. 6 hierarchically handles information related to recognition (detection) of an object or a geometric feature in a local region in input data.
  • the basic structure is the so-called Convolutional network structure (LeCun, Y. and Bengio, Y., 1995), “Convolutional Networks for Images, Speech, and TimeSerries, and TimeSorries” in Handbook. , Pp. 255-258).
  • the final layer (uppermost layer), the presence / absence of the subject to be detected and the position information on the input data are obtained if present.
  • the data input layer 1701 is a layer for inputting image data.
  • the first feature detection layer 1702 (1, 0) has a plurality of scales at the same location in a local region centered on each position of the entire screen, with local low-order features of the image pattern input from the data input layer 1701.
  • the number of feature categories is detected by level or resolution.
  • the low-order features may include color component features in addition to geometric features such as a specific direction component and a specific spatial frequency component. Further, it may be a local region centered on each point of a predetermined sampling point over the entire screen instead of the local region centering on each position of the entire screen.
  • the feature integration layer 1703 (2, 0) has a predetermined receptive field structure (hereinafter, the receptive field means the coupling range with the output element of the immediately preceding layer, and the receptive field structure means the distribution of the coupling load).
  • the feature integration layer 1703 (2, 0) integrates the outputs of a plurality of neuron elements in the same receptive field from the feature detection layer 1702 (1, 0) (calculation such as subsampling by local averaging, maximum output detection, etc.) I do.
  • This integration process has a role of allowing positional deviation and deformation by spatially blurring the output from the feature detection layer 1702 (1, 0).
  • Each receptive field of neurons in the feature integration layer has a common structure among neurons in the same layer.
  • Each subsequent feature detection layer 1702 detects a plurality of different features in each feature detection module.
  • Each feature integration layer 1703 ((2, 1), (2, 2),..., (2, M)) integrates detection results regarding a plurality of features from the preceding feature detection layer.
  • the feature detection layer 1702 ((1, 1), (1, 2),..., (1, M)) is coupled so as to receive the cell element output of the previous feature integration layer belonging to the same channel ( Wiring).
  • Subsampling which is a process performed in the feature integration layer, is to average the output from a local region (local receptive field of a feature integration layer neuron) from the feature detection cell population of the same feature category.
  • each feature can be detected by making the receptive field structure used for detection of each feature detection layer in FIG. 6 to detect the feature. it can.
  • FIG. 7 schematically shows an example of the output distribution of the detection result of the eye corner E1.
  • FIG. 7 is a diagram illustrating an example of an output distribution of the detection result of the corner E1.
  • the value of the detection result is the product-sum result of the weighting factor and the integrated detection result of the previous layer, and the higher this value, the closer to the desired feature. That is, this distribution can be considered to reflect the existence probability distribution of the desired feature. Therefore, the facial organ feature point detection unit 101 sets the position of the highest value in the distribution or the gravity center position as the feature point position.
  • the search area setting unit 102 reflects each feature point obtained in step S201 and a distribution reflecting the existence probability distribution obtained when the feature point is obtained (that is, when obtaining a feature point).
  • the search area is set using the information on the estimation error.
  • the search area setting unit 102 sets the reference local area set using the reference search area data held in the reference search area data holding unit 110 as the search area.
  • FIG. 8 is a diagram for explaining a method of setting a reference search area.
  • the search area setting unit 102 sets the reference search area based on the feature points detected in step S201.
  • FIG. 8 schematically shows the reference search region and the feature points.
  • the circle points indicated by the feature points 503 and 504 represent the feature points detected in step S201, and the rectangular areas 501 and 502 indicate the reference search areas.
  • the positions of these reference search areas are determined by the feature points and the displacements therefrom.
  • the amount of displacement as shown in FIG. 8 (b), represents the relative position between the center 505 and the feature point 506 of the reference search area, the vertical displacement d h and face the horizontal direction of the face The displacement amount dv with respect to.
  • the search area setting unit 102 can determine a plurality of reference local area positions by setting these displacement amounts to various values.
  • the reference search area 501 in FIG. 8A is set by displacement from the feature point 503
  • the reference search area 502 is set by displacement from the feature point 504.
  • the amount of displacement and the size of the reference local area are held in the reference search area data holding unit 110.
  • These values may be determined in advance so that the reference search area exists without any bias.
  • the recognition accuracy may be used to determine the desired accuracy.
  • the feature vector generation region setting unit 103 sets a feature vector generation region from the search region obtained in step S202.
  • the feature vector generation region is the same region as the search region.
  • search area local area.
  • the feature vector generation unit 104 generates a feature vector from the feature vector generation region set in step S203.
  • the feature vector is not particularly limited as long as it is a feature amount obtained from the region.
  • the feature vector generation unit 104 may use the luminance values of all the pixels in the region as a one-dimensional vector.
  • the feature vector generation unit 104 projects a one-dimensional vector obtained from the luminance values of all the pixels in the area onto a previously obtained eigenspace, similarly to the Eigen Face described in the background art. May be a feature vector.
  • step S205 the feature vector generation unit 104 determines whether or not feature vectors are obtained in all the search areas set in step 102, that is, in all the reference search areas.
  • the feature vector generation unit 104 shifts the process to the feature vector registration step S206 if the feature vector is obtained in all the search regions, and to step S103 if the feature vector is not obtained.
  • the feature vector generation unit 104 holds the feature vectors obtained in all the search areas in the registered feature vector holding unit 105 as registered feature vectors of the registered image. That is, the feature vector generation unit 104 associates an image number indicating a registered image, for example, a registered feature vector with the registered feature vector holding unit 105.
  • FIG. 9 is a flowchart illustrating an example of the evaluation process.
  • step S601 the facial organ feature point detection unit 101 performs the same process as the registration process.
  • step S602 similarly to the registration process, the search area setting unit 102 sets a search area using each feature point obtained in step S601 and the probability distribution obtained when the feature point is obtained.
  • the search area to be set is different from the registration process. This will be described below.
  • FIG. 10 is a flowchart showing an example of a search area setting process in the evaluation process.
  • step S701 similarly to the registration process, the search area setting unit 102 uses each feature point obtained in step S601 and the reference search area data held in the reference search area data holding unit 110 to perform the reference. Set the search area.
  • the reference search area is one point that matches the center point of the local area. (In other words, the size is 1 ⁇ 1.)
  • step S702 the search area setting unit 102 obtains the size of the search area using the distribution related to the existence probability distribution of the feature points when the feature points are obtained in step S601. The method for obtaining the size will be described later.
  • step S703 the search area setting unit 102 changes the size of the reference search area set in step S701 to the size obtained in step S702, and sets the changed area as the search area.
  • step S702 the search area size setting method in step S702 will be described.
  • the distribution of the value of the feature point detection result can be considered as the existence probability distribution of the feature. Then, if the distribution variance is small, it is possible to limit the position where the feature point exists. Conversely, if the variance is large, it can be said that it is difficult to limit the position where the feature point exists. For example, considering the detection of the corner of the eye E1 in FIG. 4, if the illumination condition is good, the detection result of the corner of the eye corner is distributed with a small dispersion in the vicinity of the corner of the eye as shown in FIG. . However, as shown in FIG.
  • the detection result is a spread distribution 802 having a plurality of mountains.
  • the feature point is the position or the center of gravity of the maximum value of the distribution, the feature point is almost correct in the situation of FIG. 11A, but in the situation of FIG. , May be in the wrong position. For example, assuming that the feature point position is the center of gravity of the distribution, in FIG. On the other hand, in FIG.
  • the center of gravity of the distribution is inside the eye rather than the corner of the eye, and an error occurs from the correct position of the eye corner. If only the reference local region based on the feature point position is used and the evaluation process is performed, the similarity is obtained in a non-corresponding region, and the recognition accuracy deteriorates. Therefore, in this embodiment, a search area is set according to the distribution of the value of the feature point detection result, and a plurality of local areas for obtaining similarity are set from the search area, and the results are used to The representative similarity of the search area is obtained.
  • FIG. 12 is a diagram schematically illustrating a method for setting a search region according to the distribution of values of the feature point detection results.
  • reference numeral 901 denotes a feature point position candidate region obtained by binarizing the distribution of output values of detection results with a certain threshold value.
  • Reference numeral 902 denotes the feature point position obtained in step S601.
  • Reference numeral 903 denotes a circumscribed rectangle of the feature point position candidate region.
  • the reference local region is set based on the feature point position in both the registration process and the evaluation process.
  • the search area setting unit 102 sets the size of the search area using the area of the feature point position candidate area 901. More specifically, the search area setting unit 102 obtains a circumscribed rectangle 903 that circumscribes the area of the feature point position candidate area 901, and sets the size of the circumscribed rectangle 903 as the size of the search area. This process corresponds to the process of step S702. Then, the search area setting unit 102 matches the center of the reference local area set in step S701 with the position of the feature point position 902, and determines the area having the size of the search area set in step S702 as the search area. The search area setting unit 102 may set the range of the feature point position candidate area 901 as the search area after aligning the center of the reference local area and the position of the feature point position 902 without making the search area rectangular. This process corresponds to the process in step S703.
  • FIG. 13 is a diagram schematically illustrating setting of a feature vector generation region.
  • reference numeral 1001 denotes a search area
  • reference numeral 1002 denotes a feature vector generation area.
  • the feature vector generation areas 1002 are selected one by one from the search area 1001.
  • reference numeral 1003 in FIG. 13B indicates a case where the feature point position candidate region obtained in step S602 is the search region 1003.
  • the feature vector generation region setting unit 103 sets the feature vector generation region 1004 sequentially from within this region.
  • step S604 the feature vector generation unit 104 generates a feature vector from the feature vector generation region.
  • the feature vector generation method is the same as the registration process.
  • step S605 the similarity calculation unit 106 calculates the similarity between the feature vector obtained in the feature vector generation step S604 and the feature vector held in the registered feature vector holding unit 105.
  • the similarity calculation unit 106 uses, for example, the normalized correlation represented by Expression (1) for calculating the similarity.
  • S represents the similarity
  • F represents the feature vector obtained in step S604
  • F (i) represents the i-th element of the feature vector.
  • G indicates a feature vector held in the registered feature vector holding unit 105
  • G (i) similarly indicates the i-th element.
  • ⁇ F ⁇ represents the norm of the vector F.
  • the normalized correlation is a method for calculating the similarity
  • the similarity calculation unit 106 may use a vector distance such as a square error of each element of the vector. Further, when feature vectors obtained from a plurality of registered face images are registered in the registered feature vector holding unit 105, the similarity calculating unit 106 obtains the similarity for each registered face image.
  • step S606 the similarity calculation unit 106 determines whether the similarity is obtained by generating a feature vector in the entire search region. If not obtained for the entire area, the similarity calculation unit 106 shifts the processing to step S603. Then, the feature vector generation area setting unit 103 sets the next feature vector generation area within the search area.
  • the representative similarity calculation unit 107 calculates the representative similarity of the search area from the obtained plurality of similarities.
  • the calculation method is not particularly limited, and may be the maximum similarity among a plurality of similarities, or may be an average of a predetermined number of higher similarities.
  • step S608 the representative similarity calculation unit 107 obtains the calculated representative similarity in all the search areas set in the search area setting step S602, that is, the similarity of all local areas. Judge whether it is. If not obtained, the feature vector generation region setting unit 103 selects the next search region, and performs the processing from step S603 within the search region.
  • the representative similarity integration unit 108 integrates the similarity of all search regions, that is, all local regions, and calculates an integrated representative similarity of the input evaluation face image and one registered face image. To do.
  • the method for calculating the integrated representative similarity is not particularly limited, but an average of all representative similarities may be obtained, or an average of a predetermined number of higher similarities may be used.
  • the representative similarity integrating unit 108 calculates a plurality of integrated representative similarities.
  • step S610 the determination unit 109 determines the input evaluation face image using the integrated representative similarity obtained in step S609.
  • the determination unit 109 performs the determination by comparing with a predetermined threshold value, and when the integrated representative similarity is equal to or higher than the threshold value, the evaluation face image ID is set as the registered face image ID To do. If the determination unit 109 is less than or equal to the threshold value, the ID of the evaluation face image is not the ID of the registered face image. Note that, when feature vectors obtained from a plurality of registered face images are registered in the registered feature vector holding unit 105, a plurality of integrated representative similarities are obtained. Select representative similarity.
  • the determination unit 109 sets the ID of the evaluation face image as the ID of the registered face image having the integrated representative similarity. Further, when the determination unit 109 does not exceed the threshold value, it is assumed that the face image with the ID of the corresponding evaluation face image is not registered.
  • the description has been made using Convolutional Neural Network as a facial organ feature detection method.
  • a face organ feature template to be detected this template is created from an average image of many face organ features, for example
  • a matching score for example, a correlation value obtained by moving a template in a local region and performing matching can be considered as an existence probability distribution of the facial organ features.
  • the reference local area is set as a search area.
  • the distribution of the result values of facial organ feature detection is used to expand the reference local area.
  • a search area may be set.
  • the similarity calculation unit 106 obtains the similarity for all combinations of the plurality of registered feature vectors and the plurality of feature vectors of the input face image.
  • the representative similarity calculation unit 107 uses the similarities obtained for all the combinations when obtaining the representative similarity.
  • the above-described deterioration in accuracy is suppressed by using a plurality of local regions obtained from the region set based on the cause of the error in setting the position of the local region. Can do.
  • the pattern to discriminate is not restricted to a face.
  • it may be a general object such as a car or a bicycle.
  • the second embodiment is different from the first embodiment in the detection method (detection processing) of the facial organ feature point detection unit 101 and the search region setting method (setting processing) of the search region setting unit 102.
  • FIG. 14 is a flowchart showing an example of facial organ feature detection processing.
  • the first candidate point of the facial organ feature point is obtained by the same method as that of the first embodiment, and then the second candidate point is obtained using the first candidate point.
  • the feature point is finally detected by using the second candidate point and the processing result when the first candidate is obtained.
  • step S1101 the facial organ feature point detection unit 101 detects all facial organ feature points by the method described in the first embodiment.
  • the facial organ feature point detection unit 101 sets the detected result as a first candidate point.
  • step S1102 the facial organ feature point detection unit 101 uses the first candidate point to obtain a second candidate point of the facial organ feature point. How to obtain this will be described later.
  • step S1103 the facial organ feature point detection unit 101 finally uses the processing result when the second candidate point and the first candidate point of the facial organ feature point are obtained, and finally the facial organ feature point. Find a point. The contents of this process will be described later.
  • FIG. 15 is a diagram showing an outline of the processing in step S1102.
  • the facial organ feature point detection unit 101 detects the second candidate point using the projection of the first candidate point onto the eigenspace and the inverse projection of the projection vector. That is, here, the eigenspace obtained from the coordinate values of the facial organ feature points is used as knowledge of the arrangement relationship of the facial organ feature points.
  • the eigenspace used here is calculated in advance based on a plurality of teacher data.
  • this eigenspace is indicated by an orthonormal matrix F.
  • One teacher data is obtained by vectorizing coordinate values of a plurality of facial organ feature points existing in one face image.
  • a coordinate vector is expressed by the following equation.
  • ⁇ l is a coordinate vector obtained from p reference points in the l-th image. It is assumed that the coordinates of the facial organ feature points used for the teacher data include correct answers such as human input.
  • the eigenvector used for the eigenspace filter is obtained by principal component analysis.
  • the facial organ feature point detection unit 101 obtains a coordinate vector represented by Expression (2) from various face images, and obtains a variance / covariance matrix C represented by Expression (3).
  • a case where q pieces of teacher data exist is shown.
  • the facial organ feature point detection unit 101 can obtain the orthonormal matrix G by solving the eigenvalue problem of Equation (5).
  • CG G ⁇ (5)
  • the facial organ feature point detection unit 101 selects, for example, k eigenvectors from the top of the orthonormal matrix G using the eigenvalue cumulative contribution ratio, and creates an orthonormal matrix F to be used in the eigenspace.
  • the contribution of each eigenvector obtained by equation (5) can be measured as an eigenvalue, and based on this value, an orthonormal matrix F is created with important eigenvectors, and is represented by this orthonormal matrix F.
  • the eigenspace can represent a general arrangement of facial organ feature points.
  • a vector representing the first candidate is d.
  • the first candidate points are 7 points, that is, the corners of the left and right eyes, the eyes, the nose, and both ends of the mouth
  • the facial organ feature point detection unit 101 projects this vector d onto the eigenspace. If the projection vector is d *, the dimension is k ( ⁇ d). Subsequently, the facial organ feature point detection unit 101 converts the dimension-reduced projection vector d * into a coordinate value in the original image space by back projection.
  • the matrix used for the inverse projection is obtained by a pseudo inverse matrix of the eigenspace F. If the back-projected vector is d ⁇ , the dimension of the d ⁇ vector is 14 dimensions, and each coordinate value indicated by each element of the vector is the coordinate value of the second candidate point of the facial organ feature point. It becomes.
  • FIG. 16 is a diagram schematically illustrating the final feature point detection process with the detection of the corner of the eye taken as an example.
  • reference numeral 1301 denotes a first candidate point
  • 1302 denotes a second candidate point
  • 1304 denotes a detection result output value distribution region used in the final feature point detection processing.
  • reference numeral 1303 denotes a distribution of output values obtained as a result of obtaining the first candidate point
  • reference numeral 1304 denotes an output value distribution area of detection results used in the final feature point detection processing. .
  • the eyebrows may be erroneously detected when detecting the outer corner of the eye.
  • the distribution of output values at this time is 1303 in FIG.
  • the result of obtaining the centroid of the distribution of output values is the first candidate 1301. That is, in addition to the periphery of the outer corner of the eye, there is a distribution with a high output value around the end point of the eyebrow, so that the center of gravity position exists in the middle between the end points of the outer corner of the eye and the eyebrow.
  • 1302 is the second candidate point obtained using the eigenspace.
  • the second candidate point obtained by using the positional relationship with other first candidate points such as the eyes and mouth shown in FIG. 16 has a value closer to the corner of the eye.
  • this second candidate point is like an average distribution of a large number of data, and does not indicate the correct answer of individual data. That is, an abnormal value greatly deviated can be corrected as such, but an accurate value is not guaranteed.
  • it can be considered that the feature point is located in the vicinity of the second candidate point.
  • the facial organ feature point detection unit 101 obtains the center of gravity or the maximum value of the distribution 1303 of the output values obtained as a result of obtaining the first candidate point in the vicinity 1304 centered on the second candidate point 1302, and The value is the final feature point position.
  • the size of this neighborhood may be a fixed value obtained by analyzing the error, or for example, the distance between the first candidate point and the second candidate point may be used.
  • search area setting process will be described. Note that this search area setting will be described assuming that the setting in the evaluation process of the first embodiment is changed. That is, the registration process is performed as a basic local area as in the first embodiment. However, a plurality of feature vectors may be created from the registered face image by setting the search area in the registration process in a range wider than the basic local area as described below.
  • FIG. 17 is a diagram schematically showing the search area setting process, taking the detection of the corner of the eye as an example.
  • reference numeral 1401 denotes a second candidate point for face organ feature point detection processing
  • 1402 denotes a feature point position obtained by face organ feature point detection processing
  • 1403 denotes a rectangle indicating the size of the search range
  • 1404 denotes.
  • a second candidate point and a circle whose radius is the distance between the feature point positions are shown.
  • the second candidate point is the position of the facial organ feature point estimated from the positional relationship between a large number of data and the first candidate point. Shows the position. Further, since the final feature point position is obtained from the output distribution of the detection result as in the first embodiment, if the feature point position is obtained by the method described above, an error occurs in the result. Therefore, the facial organ feature point detection unit 101 sets the range of the search area on the basis of the deviation between the position of the second candidate point and the finally obtained feature point position.
  • the facial organ feature point detection unit 101 obtains a rectangle circumscribing the circle 1404 whose radius is the distance between the second candidate point and the feature point position, and sets this rectangle as the size of the search region. A rectangle indicating this size is shown at 1403.
  • the facial organ feature point detection unit 101 performs an AND operation on the rectangle 1403 and an area obtained by binarizing the output value distribution of the feature point detection described in the first embodiment with a threshold value.
  • the region 1501 may be used as a search region mask.
  • FIG. 18 is a diagram for explaining the search range. Since the setting of the search area is the same as that of the first embodiment, a description thereof will be omitted.
  • a position estimated from a large amount of data regarding the facial organ feature point position and the distribution of each feature point position obtained first is obtained, and the estimated position and the feature point obtained second time are obtained.
  • the search range is set from the relationship with the position. This makes it possible to limit the search area and further suppress an increase in processing time.
  • the search area is set using the facial organ feature point detection result for the input face image in the evaluation process.
  • the search area for the evaluation face image may be set as a basic local area, and the search area may be set in a wider range than the basic local area in the registration process. In this way, when the search area is performed on the input face image, processing for obtaining the search area occurs and the processing time increases. However, since the registration process is performed in advance, the search area is set on the registered face image. There is an effect that the influence of the increase in processing time due to the required processing does not substantially occur.
  • the size of the search range of the registered image can be a fixed value as well as the distribution of output values of face organ feature point detection results and the result of eigenspace correction for only the registered image.
  • the size of the search range is calculated in advance using the distribution of output values of facial organ feature point detection results and the result of eigenspace correction for a large number of data, and the average value etc. is used as the size of the fixed value search range. use. In this case, the process of obtaining the size of the search area for the registered image can be omitted.
  • the distribution of output values of face organ feature point detection results and the result of eigenspace correction are affected by the depth rotation of the face. Therefore, the size of the search range obtained by using the distribution of the output values of the facial organ feature point detection results and the result of the eigenspace correction for a large number of data in advance for each face orientation. Then, it is possible to perform face depth rotation processing on the registered face image and the input face image, and to select a fixed search range size according to the detected face orientation. In this way, even when a fixed value is used, it is possible to cope with a change in face orientation.
  • a search area is set, a representative similarity is obtained from a plurality of similarities obtained by using a plurality of local areas in the search area, and the representative similarity is obtained as an input pattern and a registered pattern. And used as the similarity between search areas.
  • FIG. 19 is a diagram showing a configuration of the present embodiment.
  • the same numbered configuration as in FIG. 2 has the same function.
  • the reference local region setting unit 1802, the fluctuation local region generation unit 1803, the reference station various region data holding unit 1810, and the fluctuation parameter holding unit 1811 are different from the configuration in FIG.
  • the reference local region setting unit 1802 sets a reference local region in the input face image based on the output of the facial organ feature point detection unit 101.
  • the process here is equivalent to the reference search area setting at the time of the registration process in the first embodiment. Set based on the displacement from the point.
  • the reference local region data holding unit 1810 holds information such as a feature point type, a displacement amount, and a local region size for setting a reference local region used by the reference local region setting unit 1802.
  • the variable local region generation unit 1803 generates a plurality of variable local regions corresponding to each reference local region. A method for generating the fluctuating local region will be described later.
  • the fluctuation parameter holding unit 1811 holds the fluctuation parameter used in the fluctuation local region generation unit 1803.
  • FIG. 20 is a flowchart of the registration process, and corresponds to FIG. 3 in the first embodiment.
  • step S1901 Since the facial organ feature point detection in step S1901 is exactly the same as step S201 in FIG. 3, detailed description thereof is omitted.
  • the reference local region setting in step S1902 corresponds to the search region setting in step S202 in FIG.
  • step S202 described above a plurality of reference local areas that match the reference search area shown in FIG. 8A are set, and the search area is the reference local area itself (that is, one central position of each reference local area is the search area).
  • step S1902 the process up to setting the reference local region is performed in the same manner as in step S202.
  • the type of feature point and the amount of displacement for determining the center position of the reference local region, and the size of the reference local region are stored in the reference local region data holding unit 1810 corresponding to the reference search region data holding unit 110 in FIG. Is retained.
  • the reference local area is used without change during the registration process. That is, the reference local region is directly handled as the feature vector generation region in the first embodiment. At this time, the fluctuating local region generation unit 1803 is passed through.
  • next feature vector generation step S1903 processing equivalent to that in step S204 in FIG. 3 is performed on the reference local region.
  • the luminance values of all the pixels in the area may be used as a one-dimensional vector, or a projection vector obtained by projecting the vector onto a previously determined eigenspace may be used as a feature vector.
  • the feature vector generation unit 104 in FIG. 19 is equivalent to that in FIG.
  • step S1904 as in step S205, it is determined whether or not feature vectors corresponding to all the reference local regions set in step S1902 are obtained. If feature vectors corresponding to all reference local regions have been obtained, the process proceeds to feature vector registration step S1905. If not obtained, the process of step S1903 is repeated.
  • step S1905 as in step S206, a set of feature vectors corresponding to all reference local regions is registered in the registered feature vector holding unit 105 as registered feature vectors of the registered image.
  • the above is the registration process for one registered face image in the present embodiment.
  • the above processing is repeated as in the first embodiment.
  • FIG. 21 shows an evaluation process flowchart in the present embodiment, which corresponds to FIG. 9 in the first embodiment.
  • the facial organ feature point detection in step S2001 is equivalent to step S1901 and step S601.
  • the reference local region setting in step S2002 is equivalent to step S1902.
  • a plurality of reference local regions are set on the evaluation face image.
  • Step S2003 is the head of the processing loop for each reference local region.
  • the range of the fluctuation parameter for generating a plurality of fluctuation local areas corresponding to the reference local area is determined with reference to the parameters held in the fluctuation parameter holding unit 1811. Details will be described later.
  • the variable local region generation in step S2004 is a process corresponding to the feature vector generation region setting in step S603 in the first embodiment.
  • step S603 as described above, a region image having the same size as the reference local region is cut out from each position in the search range.
  • step S2004 one set of variation parameters in the variation range is selected, and based on this, an image having the same size as the reference local region is generated as a variation local region pattern with reference to pixels near the reference local region. Details will be described later.
  • step S2005 processing equivalent to step S1903 in the registration processing is performed on the image of the varying local region pattern to generate a feature vector.
  • Step S2006 performs similarity calculation equivalent to step S605 in the first embodiment. That is, the similarity between the feature vector of the variable local region pattern obtained in step S2005 and the feature vector of the corresponding reference local region held in the registered feature vector holding unit 105 is calculated.
  • the method for calculating the similarity is the same as in the first embodiment.
  • step S2007 it is determined whether or not the calculation of the similarity with respect to all the changing local regions corresponding to the reference local region being processed in the changing range set in step S2003 is completed. If not completed, the process for the next variable local region is started from step S2004.
  • the representative similarity calculation step S2008 corresponds to step S607 in the first embodiment. That is, the representative similarity is calculated from the similarity of the plurality of variable local region patterns obtained for the reference local region.
  • the calculation method is not particularly limited as in the first embodiment, and the maximum similarity may be selected or the average of the upper similarities may be used.
  • step S2009 as in step S608, it is determined whether the above-described representative similarity has been calculated for all reference local regions (that is, whether processing for all reference local regions on the evaluation face image has been completed). If not calculated, the process returns to step S2003 to perform processing for the next reference local region.
  • step S2010 representative similarity integration processing equivalent to step S609 of the first embodiment is performed, and in subsequent step S2011, discrimination processing equivalent to step S610 is performed.
  • FIG. 22 is a diagram for explaining a case in which scaling processing (enlargement / reduction) with a fixed region center position is performed as variation processing.
  • FIG. 22 shows a part of a registered face image of a certain person.
  • the face image is normalized based on the feature points E1 to E4 so that both eyes are in a predetermined position.
  • the middle point of E1 and E2 is the left eye position toward the left, and the middle point of E3 and E4 is the right eye position.
  • 2101 is the displacement dw, the center position based on the feature point E3.
  • This is a reference local region in which both dh are set to 0.
  • a feature vector based on the reference local region is generated and held in the registered feature vector holding unit 105 as a part of the registered feature vector corresponding to the face image (a).
  • FIG. 22 shows a part of the face image of the same person as the face image (a).
  • This evaluation face image is normalized based on E1 to E4, like the registered face image.
  • An area 2102 (dotted rectangle) is a reference local area based on the feature point E3 on the evaluation face image (b) corresponding to the reference local area 2101 of the registered face image, and 2103 is a size with the center position fixed. An example of a down area is shown.
  • the normalized face image (b) is slightly more than the registered face image (a). It has become smaller. Accordingly, the degree of coincidence between the feature vector generated from the reference local region 2101 on the registered face image (a) and the feature vector generated from the reference local region 2102 on the evaluation face image (b) is not so high.
  • the degree of coincidence with 2201 is a feature vector generated from the narrower region 2103 in (b).
  • step S2003 determines a set of the plurality of variation parameters for each reference local region.
  • the variation range corresponding to each reference local region is statistically learned in advance from a large number of sample face images and is retained in the variation parameter retaining unit 1811.
  • step S2003 a plurality of variation parameters in the variation range corresponding to the reference local region being processed are selected.
  • FIG. 22C is an enlarged view of the right eye portion of the evaluation face image (b) in FIG.
  • the change parameter is represented by the enlargement ratio.
  • the fluctuation range of the reference local region 2201 is set as five enlargement ratio fluctuation parameters [0.8, 0.9, 1.0, 1.1, 1.2].
  • An area 2206 indicates a reference area for generating a variable local area pattern image having an enlargement ratio of 1.2.
  • the image of the reference area is multiplied by 1.2, an image having the same size as the standard local area 2201 can be generated.
  • the area 2205 has an enlargement ratio of 1.1
  • the area 2201 has an enlargement ratio of 1.0 (that is, no scaling)
  • the area 2202 has an enlargement ratio of 0.9 (that is, reduction)
  • the area 2204 has an enlargement.
  • a reference region corresponding to a rate of 0.8 times is shown.
  • the reliability at the time of feature point detection can be calculated like CNN mentioned above, it is also possible to set a fluctuation range based on the reliability. For example, if the reliability of all the feature points relating to the eyes E1 to E4 is sufficiently high, the normalized evaluation face image corresponding to (b) of FIG. 22 is not much different from the normalized registered face image of (a). It will be the same size. In this case, the variation range may be narrowed down to, for example, three variation parameters [0.9, 1.0, 1.1].
  • step S2004 the variation parameters in the range determined in this way are selected one by one in order, and a variation local region pattern image is generated from the image in the reference region near the corresponding standard local region.
  • the values to be calculated at this time are all pixel values of the changing local area pattern image. This is calculated as follows by referring to the pixels in the reference region near the standard local region.
  • each pixel value of the varying local area pattern image can be obtained by referring to the four neighboring pixels in the same area and bilinearly interpolating according to the proximity of the distance. Can be calculated.
  • the nearest pixel value of the corresponding point coordinates or bicubic interpolation referring to the surrounding 16 pixels may be applied.
  • FIG. 23 is a diagram illustrating a case where a rotation process with a fixed region center position is performed as a variation process.
  • FIG. 23 (a) shows a part of a normalized registered face image of the same person as FIG. 22 (a).
  • reference numeral 2301 denotes a reference local region set based on the feature point E3.
  • FIG. 23B shows a part of the evaluation face image of the same person as the registered face image (a), which is different from FIG. 22B.
  • E1, E2, and E4 are erroneously detected as shown in the figure, the line segment between the eyes of the evaluation face image is normalized in a state inclined from the horizontal.
  • the feature vector generated from the reference local region 2302 (dotted rectangle) set from the feature point E3 that is not misaligned matches the feature vector generated and registered from the reference local region 2301 so much. do not do.
  • a feature vector generated from a rectangular area 2303 (solid rectangle) tilted about 10 degrees to the right is more consistent. In such a case, if the rotation process is performed as the fluctuation process, the similarity between the areas of the same person is improved, and an improvement in the identification rate can be expected.
  • FIG. 23C is an enlarged view of the right eye part of the evaluation face image (b) in FIG.
  • the fluctuation parameter is represented by a rotation angle.
  • the fluctuation range of the reference local region 2401 is set as fluctuation parameters of five rotation angles of [ ⁇ 20 °, ⁇ 10 °, 0 °, + 10 °, + 20 °].
  • the minus angle direction indicates left rotation
  • the plus angle direction indicates right rotation.
  • An area 2406 indicates a reference area for generating a fluctuation local area pattern image having a rotation angle of ⁇ 20 °.
  • the reference local area 2401 and the reference local area 2401 are displayed. Images of the same size can be generated.
  • the region 2405 corresponds to the rotation angle ⁇ 10 °
  • the region 2401 corresponds to the rotation angle 0 ° (that is, no rotation)
  • the region 2402 corresponds to the rotation angle + 10 ° (right rotation)
  • the region 2404 corresponds to the rotation angle + 20 °.
  • the reference area is shown.
  • the method of generating the fluctuation local area pattern image by the rotation process can be performed similarly to the case of the scaling process. That is, if the position of each point of the fluctuation local area pattern image is calculated by calculating the position where the rotation angle r ° of the fluctuation parameter is reversed with respect to the rotation angle r ° with the area center point as the rotation center, The coordinate points are shown. The corresponding point coordinates are also normally real values as in the scaling process, and the pixel value can be calculated by performing the same interpolation process.
  • FIG. 24 is a diagram illustrating another example of variation processing.
  • FIG. 24A shows a part of the registered face image, and the reference local region set based on the feature point M1 is 2301.
  • FIG. (B) of FIG. 24 shows a part of the evaluation face image of the same person as (a), but is a face image slightly facing the left side with respect to (a) facing front.
  • the feature vector generated from the reference local region 2302 and the reference local region of the registered face image may be low.
  • the degree of coincidence can be improved by performing a variation process in which a rhombus reference area image as indicated by 2303 is deformed into a rectangle having the same size as the standard local area.
  • Such variation processing can be performed by affine transformation represented by the following equation (6).
  • (x, y) represents the coordinates of each pixel of the varying local area pattern image
  • (x ′, y ′) represents the corresponding point coordinates in the reference area corresponding to each pixel.
  • the six parameters a1, a2, a3, b1, b2, b3 are called affine parameters.
  • the method for calculating the pixel value from the corresponding point coordinates is the same as the scaling process and the rotation process.
  • the fluctuation range is set for the number of fluctuations in the affine parameter group.
  • a predetermined step eg, 0.1
  • FIG. 24C shows an example of a reference area corresponding to each variation when the affine transformation process is performed using the affine parameters set as described above.
  • ⁇ a3 which is a vertical movement parameter can be fixed to zero.
  • variable range can be set in the same way as in the case of affine transformation. It goes without saying that the present invention can also be applied to any other variation processing performed with reference to the peripheral pixels.
  • the variation process is performed at the time of the evaluation process.
  • the variation process may be performed in the registration process. In this way, the data amount of the registered feature vector increases by the variation range, but it is not necessary to perform variation processing during the evaluation processing, and the processing speed can be improved.
  • FIG. 25 (a) shows a part of a registered face image.
  • Regions 2701, 2702, and 2703 indicate reference local regions set based on the feature points E1, E4, and M2, respectively, and feature vectors generated from the respective regions are held as registered feature vectors.
  • FIG. 25 (b) shows an example of an evaluation face image of the same person as the registered face image of (a).
  • This evaluation face image is a face image facing slightly to the left from the front.
  • the calculation of the representative similarity corresponding to each reference local region is performed in the order of the regions 2701, 2702, and 2703. At this time, it is assumed that each feature point is detected sufficiently accurately (high reliability).
  • a broken-line frame area 2704 is a reference local area on the evaluation face image corresponding to the reference local area 2701, but the most matching variable local area pattern selected as the representative similarity is an area indicated by a solid line frame 2705. It is the fluctuation
  • the broken line frame region 2706 is a reference local region on the evaluation face image corresponding to the reference local region 2702, and the most matching variable local region selected as the representative similarity is the region indicated by the solid line frame 2707. It is a fluctuating local region pattern subjected to reduction processing as a reference pixel region.
  • the above processing is performed by applying the scaling process or the affine transformation process described in the third embodiment.
  • the representative similarity corresponding to the reference local region 2703 is calculated.
  • the reference local region on the corresponding evaluation face image is a broken line frame 2708, but the highest similarity is the variable local region obtained by performing rhombus affine transformation processing using the solid line frame 2709 as a reference pixel region It becomes a pattern.
  • the evaluation face image (b) It can be analogized that is facing left.
  • the variable region corresponding to the reference region 2703 can be limited to be performed centering on rhombus affine transformation processing as shown in 2709.
  • a similar variation range may be set for these regions.
  • the variation attribute can be inferred to be leftward is shown, but it does not matter if it is not an attribute that can be expressed explicitly in words.
  • the range of variation that can be taken is statistically learned in advance using a large number of learning samples, and the variation range limitation information based on the learning result Is stored in the fluctuation parameter storage unit 1811.
  • the processing load can be reduced for the reference local region to be processed later by limiting the variation range based on the variation in which the reference local region for which the representative similarity has been calculated is matched.
  • FIG. 26 shows a configuration of an embodiment in the case of determining an attribute that affects a face.
  • a variation attribute determination unit 2801 is inserted between the facial organ feature point detection unit 101 and the reference local region setting unit 1802.
  • the variation attribute discriminating unit 2801 discriminates a variation attribute that affects the appearance of the face, such as the face direction and the type of facial expression.
  • the variation attribute determination unit 2801 can also use the position information of each feature point detected by the face organ feature point detection unit 101 and the face image itself input to the face organ feature point detection unit 101 as inputs.
  • the face orientation is the main variable attribute, and various techniques disclosed in Non-Patent Document 5, for example, can be used for the attribute discrimination processing.
  • the front face (and no expression) is determined as a basic face image without fluctuation
  • the left and right and up and down faces (or facial expressions such as smiles) are determined as face images with fluctuation.
  • the reference local region setting unit 1802 sets a reference local region corresponding to a basic face image without fluctuation.
  • the reference local region is a rectangle of a predetermined size whose position is determined according to the feature point detected by the face period feature point detection unit 101, as in the third embodiment.
  • the position information of the reference local region is used as a reference position for indicating a reference pixel region for generating a variation local region pattern.
  • variable local region generation unit 1803 generates a variable local region pattern image even during the registration process.
  • the variable local region pattern generated at this time is one for each reference local region.
  • the variation parameter of each local region with respect to the specific variation is learned in advance using a large number of samples of pair images of the same person of the non-variable face and the specific variation face, for example, using the technique disclosed in Non-Patent Document 6. It is possible to keep.
  • Non-Patent Document 6 an affine parameter for each local region corresponding to a specific face orientation variation attribute is learned, and this embodiment follows this.
  • the variation parameter estimated here becomes a reference variation parameter, and at the time of registration processing, a registered feature vector is generated using a variation local region pattern image generated by performing variation processing based on the reference variation parameter in each local region.
  • the fluctuation range is set by adding a fluctuation value as described in Expression (7) to the reference fluctuation parameter determined based on the fluctuation attribute. That is, if the reference variation parameter is expressed by equation (6), the variation range is represented by a combination of variation values ⁇ a1, ⁇ a2, ⁇ a3, ⁇ b1, ⁇ b2, and ⁇ b3 of the following equation (9) with a predetermined range and a predetermined width. Multiple affine parameters.
  • the same technique as in this embodiment can be applied not only to affine transformation but also to bilinear transformation and other arbitrary variation processing as in the third embodiment.
  • a plurality of variation processes other than the reference variation parameter are performed at the time of the evaluation process, but a plurality of variation processes may be performed at the time of the registration process as in the third embodiment.
  • the present invention is widely applicable not only to face recognition processing but also to other pattern discrimination processing.
  • the present invention is applied to detection processing for detecting the position and orientation of a specific component that is a detection target from an image.
  • FIG. 29 is an example of a certain machine component that is a detection target by the pattern detection processing apparatus of the present embodiment.
  • This mechanical part is composed of a rotation fluctuation part 3101 and other non-fluctuation parts. Since the rotation fluctuation 3101 rotates freely, the appearance of this part fluctuates not only in (a) of FIG. 29 but also in (b) and (c), for example.
  • FIG. 28 is a diagram showing the configuration of the pattern detection processing apparatus of the present embodiment.
  • 2901 indicates a preprocessing unit
  • 2902 indicates a partial region selection unit
  • 2903 indicates a variation template generation unit
  • 2904 indicates a scan unit
  • 2905 indicates a voting unit
  • 2906 indicates an object detection unit.
  • Reference numeral 2907 denotes a reference template holding unit
  • 2908 denotes a variation parameter holding unit.
  • the pre-processing unit 2901 processes the input image in a state suitable for matching processing with the subsequent template.
  • an edge extraction process by a filter operation or the like is performed.
  • the partial area selection unit 2902 selects one of a plurality of partial areas set on the detection target component, and a reference partial area corresponding to the area held in the reference partial area template holding unit 2907 Select and set a template.
  • the reference partial region template is a template for detecting a reference local region pattern that is an image pattern of a predetermined local region of the detection target. Prior to the detection process, this template is previously cut out from the component image for registration and stored in the reference partial region template holding unit 2907 (that is, the reference local region pattern holding unit).
  • the variation template generation unit 2903 generates a plurality of variation templates based on a predetermined variation range when the selected reference partial region template is a variation portion of the detection target part.
  • Scan unit 2904 is a local region pattern detection unit. A sub-window having the same size as the variation template is scanned with respect to the processing target image, and if a portion matching the variation template is detected, the position is output.
  • the voting unit 2905 has a voting plane corresponding to each posture of the component inside, and on the voting plane corresponding to the relative center position of the component based on the positional information that matches the variation template obtained from the scanning unit 2904. Vote for position. That is, the voting plane corresponding to each posture is a two-dimensional histogram corresponding to the entire input image.
  • the object detection unit 2906 searches the histogram bins of the respective voting planes for objects that are equal to or greater than the threshold value, and detects that a detection target component having a corresponding posture exists at a position on the input image corresponding to the bin.
  • step S3001 the pre-processing unit 2901 converts the input image into a state suitable for detection processing.
  • edge extraction is performed here. Subsequent processing is performed on the edge extracted image obtained by converting the input image.
  • Step S3002 is a partial area template selection process performed by the partial area selection unit 2902. First, one of a plurality of preset partial areas corresponding to a part of the detection target part is selected.
  • the partial area is, for example, a part corresponding to a frame 3201 or 3202 shown in FIG. 29D, and there is a partial area (not shown).
  • a reference partial region template corresponding to the partial region held in the reference partial region template holding unit 2907 is selected and set.
  • the reference partial region template is an edge image.
  • step S3003 it is determined whether or not the selected reference partial region is a variable portion.
  • the fluctuation portion 3202 is a portion that is not particularly deformed and is therefore a non-change portion. Information on whether or not the portion is a variable portion is held as an attribute for each partial region. If not, the process proceeds to step S3005, and the reference partial region template is applied as it is to the subsequent processing.
  • a fluctuation template generation unit 2903 generates a fluctuation template in step S3004.
  • the fluctuation range corresponding to each partial area is determined by the fluctuation parameter held in the fluctuation parameter holding unit 2908.
  • a variation corresponding to each variation parameter in the variation range is applied to the reference partial region template to generate a plurality of templates.
  • the variation template is generated for each predetermined step in the range of 0 ° to 180 °.
  • step S3006 using each variation template in order, the preprocessed image preprocessed in step S3001 is scanned for an area that matches the variation template.
  • This process is performed by the scanning unit 2904.
  • template matching processing based on the pixel difference sum (SSD) of the prior art is performed.
  • SSD pixel difference sum
  • the voting unit 2905 votes on the voting plane based on the position that matches the reference partial region template or the variation template detected in step S3006.
  • the voting plane is a two-dimensionally arranged histogram that is conceptually the same size as the input image. However, one pixel of the input image does not necessarily correspond to one bin of the histogram. Based on the required position accuracy, adjacent multiple pixel regions (typically rectangular regions of a predetermined size) are defined as one bin. To express. Furthermore, as many voting planes as the number of postures of the parts to be detected are prepared.
  • the relative position of the voting destination bin with respect to the voting plane for detecting the target component in an upright position (the central axis 3102 of the component is vertical) in the image is indicated by reference numeral 3207 in FIG. It is.
  • Reference numeral 3207 denotes the center position of the component, and if it is in the upright posture, it exists at a position away from the position 3206 that matches the reference partial region template 3202 by a predetermined distance upward.
  • a process of incrementing from the partial region detection position corresponding to 3206 to the bin corresponding to the component center position 3207 relatively upward is performed.
  • the increment amount at this time may be always 1 when the SSD value is equal to or greater than a predetermined threshold value, or may be an amount based on a difference value exceeding the threshold value (that is, the degree of match). Further, instead of voting for only one bin on the voting plane, a predetermined increment may be added to a plurality of adjacent bins with a certain extent such as a Gaussian distribution.
  • the rotation center position 3208 is always used as a reference with respect to the bin on the voting plane corresponding to the component center position 3207 in the downward direction by a predetermined distance. Do it. In this way, the same voting result can be expected when matching any of 3204, 3205, 3206 or other variation templates not shown.
  • step S3008 it is determined whether or not voting for all the variation templates for the reference partial region (the reference partial region template for the non-variable portion) has been completed. If not completed, the process for the remaining variation template is repeated from step S3006.
  • step S3008 it is determined whether or not the voting process for all the partial areas has been completed. If the voting process has not been completed, the process from step S3002 is repeated.
  • step S3010 the object detection unit 2906 performs position and orientation determination. More specifically, a search is made from the histogram bins of the respective voting planes that are equal to or greater than the threshold value, and it is detected that a detection target component having a corresponding posture exists at a position on the input image corresponding to the bin.
  • FIG. 29 (f) shows a voting state on the voting plane corresponding to the posture in which the component is rotated 45 ° to the right.
  • the rotating part is oriented in the horizontal direction with respect to the axis of the part (that is, equivalent to 3201), but the same template as the variation template corresponding to the partial area 3205 in (e) can be used.
  • the scanning process can be omitted.
  • the scan results of all the variation templates in this embodiment are directed to all the voting planes. Can be used for voting.
  • the relative positions of the voting bins on each voting plane are different. For example, in the voting plane having the right 45 ° posture corresponding to (f), the ball is voted to the bin corresponding to the center of the component separated by a predetermined distance in the 225 ° direction.
  • each reference partial area template is voted only on the voting plane corresponding to the specific posture.
  • the reference partial area corresponding to each posture can be generated from one reference partial area template.
  • the template corresponding to the partial region 3210 in (f) is generated by rotating the reference partial region template corresponding to 3202 in (d) 45 degrees to the right.
  • a variation template for a variation portion and a reference partial region template corresponding to each posture can be generated in advance as necessary, instead of being generated at the time of detection processing. However, instead of speeding up the detection process, the amount of template data that must be retained increases significantly.
  • FIG. 30 shows other components that can be detected by the component detection processing apparatus of this embodiment.
  • This component has a structure in which a variable portion 3302 is connected to a non-variable portion similar to the component in FIG. 29 via a rubber-like flexible portion 3301.
  • This part is based on the state of (a), and the variable part 3302 can be swung to the left and right within a predetermined range as shown in (b) and (c).
  • the variable part is not limited. It does not mean that it will rotate.
  • the reference partial region template for the variable portion 3302 corresponds to the partial region 3401 in FIG. This fluctuating portion fluctuates within a range of ⁇ 45 ° with the point 3402 as the rotation center.
  • the scan result by each variation template is voted to the voting plane corresponding to a plurality of postures, but because the variation range is limited, it is voted to the voting plane for all 360 ° postures. is not.
  • An arc 3403 indicates the range of the voting plane on which the scan result of the template 3401 is voted. In this case, voting is performed on the voting plane for the posture in the range of ⁇ 45 ° with respect to the upright state.
  • FIG. 30 (e) shows an established part that matches the variation template with the variation portion inclined about 10 ° to the left.
  • the range of the voting plane corresponds to a posture of ⁇ 10 ⁇ 45 °. It is possible to detect correctly because it includes a flat surface and an upright posture.
  • FIG. 30 (f) shows a state of voting for a component with a posture inclined 30 ° to the left.
  • the angle of the variation portion 3405 coincides with 3404 of (e), and the scan result by the same variation template is used.
  • the voting plane corresponding to the ⁇ 30 ° attitude is included in the range of ⁇ 10 ⁇ 45 °, the detection can be performed correctly.
  • the present embodiment it is possible to specify the position and orientation existing in the image with the same accuracy as the part having the non-variable part in the entire region even for the part having the variable part.
  • detection processing based on voting is performed
  • the present invention can be applied as long as detection processing based on a partial region is performed.
  • the variable portion is rotated or rotated with a limited range.
  • the present invention can be similarly applied even to a modification suitable for the variable processing such as affine transformation described in the first to third embodiments.
  • the detected posture is only in-plane rotation. However, as with the face, even a posture variation in the depth direction is applicable.
  • the object of the present invention can also be achieved by supplying a system or apparatus with a computer-readable storage medium storing software program codes for realizing the functions of the above-described embodiments.
  • the above functions are realized by the computer (or CPU or MPU) of the system or apparatus reading and executing the program code stored in the storage medium.
  • the storage medium storing the program code constitutes the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

 局所領域に変動が生じた場合でも、認識精度および検出精度の低下を抑止する。そのために、パターン処理装置に、顔器官特徴点検出部101での特徴点の検出結果に基づいて、基準局所領域を設定する基準局所領域設定部1802と、基準局所領域の周辺画像領域を参照して複数の変動局所領域パターンを生成する変動局所領域生成部1803と、入力パターンおよび登録パターンの基準局所領域および複数の変動局所領域パターンとの類似度を求める類似度算出部106と、類似度から代表類似度を求める代表類似度算出部107と、代表類似度に基づいて、入力パターンの属するクラスを判別する判別部109とを備える。

Description

パターン処理装置及びその方法、プログラム
 本発明は、パターンの判別や検出を行うパターン処理装置及びその方法、プログラムに関する。
 近年、画像中の所定の被写体を検出、認識する機能を有する様々な機器が提案されている。このような機器に対して、入力画像中の対象物(例えば人の顔、機械部品等)を高速、高精度に検出し、認識する手法の開発が望まれている。
 一般的に、画像中の顔を認識する処理には、撮影された画像中の顔を検出する処理と、検出された顔領域に対して、個人を特定する認識処理とが含まれる。
 従来、入力画像中の人の顔等の対象物を検出する手法は数多く提案されている。例えば、非特許文献1では、被写体として顔を高速に検出する手法が提案されている。この手法では、入力画像から切り出した所定領域が顔であるか否かの判別を、カスケード接続された弱判別器を用いて行う。
 また、認識手法も多く提案されている。例えば、特許文献1では、予め大量の顔画像から顔を表す固有ベクトルを生成し、登録顔画像と入力顔画像をそれぞれ前記固有ベクトルに射影し、得られる射影ベクトル同士の距離を測ることで個人IDを特定する技術が開示されている。この手法は、Eigenfaceと呼ばれている。このEigenfaceは、顔の向きや照明等の変動により精度が劣化すると言われている。非特許文献2では、顔の局所領域に対して、固有ベクトルの作成を行い、登録画像と入力画像との局所領域ごとの射影ベクトルを使用して認識を行う、Local Feature Analysis(LFA)と呼ばれる手法が示されている。また、特許文献3には、局所領域ごとに、輝度値を所定の方向に加算して射影した輝度値分布を使用して認識を行う手法が開示されている。また、特許文献4には、顔向きやオクルージョン等を別途求め、その値に基づいて局所領域を重み付けする手法が開示されている。
 また、非特許文献3では、登録顔画像と入力顔画像の差分画像を入力とし、同一人物の場合にはintra-person(同一人物)クラスに、異なる人物の場合にはextra-person(他人)クラスに識別する識別器を用いて、顔認識を行っている。さらに、特許文献2では、この非特許文献3の手法をベースにし、support vector machines(SVM)を用いた識別する手法が示されている。そこでは、登録顔画像と入力顔画像との複数の地点において、ガボアフィルタで求めた特徴量から類似度ベクトルを生成し、SVMを用いてintra-personクラスとextra-personクラスとを識別している。
 局所領域に基づく顔認識では、局所領域の設定のために、目尻、目頭、口端点等の顔器官の特徴点が使用される。これらの特徴点を検出する手法も多く提案されている。例えば、非特許文献4には、円形分離度フィルタと部分空間を用いる手法が示されている。
 また、非特許文献5には、入力された顔画像に対する顔向き属性を判別する手法が各種示されている。
 非特許文献6には、顔向き属性に応じて局所領域を変形させて同一人物に対する類似度を向上させることにより、識別率の向上を実現する手法が開示されている。
米国特許第5164992号明細書 特開2006-004003号公報 特開2003-178304号公報 特開2007-128262号公報
Paul Viola, Michael Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 P. S. Penev, J. J. Atick, "Local Feature Analysis : A general statistical theory for object representation", Network:Computation in Neural Systems 1996; 7:477-500 B. Moghaddam, W. Wahid, A. Pentland, "Beyond Eigenfaces: Probabilistic Matching for Face Recognition", International Conference on Automatic Face & Gesture Recognition (1998) 福井和弘、山口修著、"形状抽出とパターン照合の組み合わせによる顔特徴点抽出"、電子情報通信学会論文誌(D)、Vol.J80-D-2、No.8、2170-2177、1997 E. Murphy-Chutorian, M. M. Trivedi,"Head Pose Estimation in Computer Vision: A Survey",  IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.31, NO.4, APRIL 2009. A. B. Ashraf, S. Lucey, T. Chen, "Learning Patch Correspondencesfor Improved Viewpoint Invariant Face Recognition", Carnegie Mellon University, IEEE International Conference on Computer Vsion and Pattern Recognition (CVPR), June, 2008.
 上記した背景技術の状況において、更なる認識精度の向上が望まれている。局所領域に基づく認識処理では、登録画像と入力画像との間の対応する局所領域で比較を行う必要があるが、その局所領域を決定するために使用される特徴点の検出は照明変動や顔向きの変動によって誤差が生じやすい。また特徴点に誤差が生じなかったとしても局所領域の形状自体が顔向きや表情の変動によって変形する。そのため、結果的に認識処理において比較を行う局所領域の位置がずれてしまうという問題があった。また、登録画像と入力画像との間で、対象物体(例えば、顔)の向きやサイズや形状変動(例えば表情)が一致するとは限らず、登録画像と入力画像との被写体が同一人物である場合にも、その局所領域で求めた評価値が低い値になるという問題もあった。
 また特定物体の検出処理においても、対象物体の一部が変動するような場合には、検出率が低下するという問題もあった。
 本発明はこのような問題点に鑑みなされたもので、特徴点の検出に誤差が生じた場合でも、認識精度が低下することを抑止することを目的とする。
 また、本発明は対象物体の一部の形状が変動するような場合であっても、良好な検出結果を得ることを目的とする。
 そこで、本発明によれば、入力パターンと登録パターンとを局所領域で比較することにより、入力パターンの属するクラスを判別するパターン処理装置に、前記入力パターン及び前記登録パターンに、局所領域を設定する局所領域設定手段と、前記入力パターンと前記登録パターンの少なくともいずれかに設定された前記局所領域に基づき、複数の変動局所領域パターンを生成する変動局所領域生成手段と、前記入力パターンに設定された前記局所領域のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンと、当該局所領域に対応する前記登録パターンに設定された前記局所領域内のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンとの組合せに対する複数の類似度を求める類似度算出手段と、前記局所領域毎に、前記入力パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンと、前記登録パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンとの組合せに対する前記複数の類似度から、前記入力パターンの前記局所領域に対応する前記登録パターンの前記局所領域との類似度としての代表類似度を求める代表類似度算出手段と、前記代表類似度算出手段で求められた代表類似度に基づいて、入力パターンの属するクラスを判別する判別手段とを備える。
 また、本発明の他の態様によれば、検出対象物のパターンの複数の局所領域の各々に対応する局所領域パターンの検出結果に基づき、入力パターンの中に存在する検出対象物を検出するパターン処理装置に、前記局所領域パターンのそれぞれの基準となる基準局所領域パターンを記憶する基準局所領域パターン保持手段と、前記基準局所領域パターンの少なくとも一つに基づき、複数の変動局所領域パターンを生成する変動局所領域生成手段と、前記入力パターンの中から、前記基準局所領域パターンもしくは前記複数の変動局所領域パターンを検出する局所領域パターン検出手段と、前記局所領域パターン検出手段による複数の局所領域パターンの検出結果を統合して、入力パターンの中の検出対象物を検出する対象物検出手段とを備える。
 本発明によれば、特徴点の検出に誤差や顔向き、表情による局所領域の形状変動が生じた場合でも、認識精度が低下することを抑止することができる。
 また、本発明によれば、対象物体の一部の形状が変動するような場合であっても、良好な検出結果を得ることが可能となる。
パターン判別装置のハードウェア構成の一例を示す図である。 パターン判別装置の機能構成等の一例を示す図である。 登録処理の一例を示すフローチャートである。 検出される特徴点の一例を示す図である。 検出すべき1次特徴の一例を示す図である。 神経回路網の処理内容を説明するための図である。 目尻の検出結果の出力分布の一例を示す図である。 基準探索領域の設定方法を説明するための図である。 評価処理の一例を示すフローチャートである。 評価処理における探索領域の設定処理の一例を示すフローチャートである。 特徴点検出の誤差を説明するための図である。 探索領域を設定する方法を模式的に示す図である。 特徴ベクトル生成領域の設定を模式的に示す図である。 顔器官特徴検出処理の一例を示すフローチャートである。 ステップS1102の処理の概要を示す図である。 最終特徴点検出処理を、目尻の検出を例に模式的に示す図である。 探索領域設定処理を、目尻の検出を例に模式的に示す図である。 探索範囲を説明するための図である。 パターン判別装置の機能構成の他の一例を示す図である。 登録処理の他の一例を示すフローチャートである。 評価処理の他の一例を示すフローチャートである。 登録顔画像の一部と、評価顔画像の一部の一例を示す図である。 登録顔画像の一部と、評価顔画像の一部の他の一例を示す図である。 登録顔画像の一部と、評価顔画像の一部の一例を示す図である。 処理済みの領域に基づく変動範囲を制限を説明する図である。 パターン判別装置の機能構成の他の一例を示す図である。 部品検出処理装置の機能構成の他の一例を示す図である。 部品検出処理装置における検出処理の一例を示すフローチャートである。 部品検出処理装置で検出する部品の一例を示す図である。 部品検出処理装置で検出する部品の他の一例を示す図である。
 以下、本発明の実施形態について図面に基づいて説明する。
 <実施形態1>
 本実施形態では、入力パターンを顔画像とし、入力された顔画像と登録顔画像とを比較することにより、入力顔画像中の顔が誰の顔であるかを判別する、つまり入力顔画像の個人IDを特定する処理を、パターン処理の例として説明する。
 以下の説明においては、登録画像に対して認識に必要な処理を行い、そのデータ(特徴ベクトル)を保持する処理を登録処理と呼ぶ。また入力画像に対して同様に認識に必要な処理を行って特徴ベクトルを求め、その特徴ベクトルと登録処理で生成し保持していた登録画像の特徴ベクトルとの類似度を求めて、判別を行う処理を評価処理と呼ぶ。
 図1は、パターン判別装置のハードウェア構成の一例を示す図である。図1において、入力装置11は、キーボードやポインティング装置で構成されている。ユーザは入力装置11を操作し、データの入力や操作の指示を行う。記憶装置の一例である蓄積装置12は、データを蓄積するものであり、例えば、ハードディスク等である。表示装置13は、例えば蓄積装置12に蓄積されたデータ等を表示するものであり、例えば、CRTや液晶等である。
 CPU14は、上記の処理の全てに関わり、ROM15とRAM16とはその処理に必要なデータを格納するメモリや作業領域を提供する。また、CPU14が、ROM15からプログラムを読み出して、プログラムに基づき処理を実行することにより、後述する機能の全て又は一部や、後述するフローチャートの各処理が実現される。
 また、パターン判別装置は、公知のCCD素子等で構成された撮像装置より画像を読み込むような読込部を更に設けた構成としてもよい。
 図2は、パターン判別装置の機能構成等の一例を示す図である。
 顔器官特徴点検出部101は、入力された顔画像中の目尻、目頭、口端点等の顔器官の特徴点を検出する。顔器官特徴点検出部101における特徴点の検出手法は、後述する。
 探索領域設定部102は、顔器官特徴点検出部101の出力に基づいて、入力された顔画像のパターン内に、局所領域を設定するための、探索領域を設定する。探索領域設定部102における探索領域の設定手法は、後述する。
 特徴ベクトル生成領域設定部103は、探索領域設定部102で設定された探索領域中に、特徴ベクトルを生成するための、特徴ベクトル生成領域を設定する(局所領域設定)。特徴ベクトル生成領域設定部103における特徴ベクトル生成領域の設定手法は、後述する。
 特徴ベクトル生成部104は、特徴ベクトル生成領域設定部103で設定された特徴ベクトル生成領域から、その領域の特徴ベクトルを生成する。特徴ベクトル生成部104における特徴ベクトルの生成手法は、後述する。
 登録特徴ベクトル保持部105は、登録処理において、特徴ベクトル生成部104で生成された特徴ベクトルを保持する。
 類似度算出部106は、評価処理において、特徴ベクトル生成部104で生成された、入力顔画像のある局所領域の特徴ベクトルと、登録特徴ベクトル保持部105に保持されている、登録顔画像のある局所領域の特徴ベクトルとの類似度を算出する。類似度算出部106における類似度の算出方法は、後述する。
 代表類似度算出部107は、探索領域内の各局所領域に対して、類似度算出部106で求められた類似度を使用して、その探索領域の代表類似度を算出する。代表類似度算出部107における代表類似度の算出方法は、後述する。
 代表類似度統合部108は、代表類似度算出部107で求められた各探索領域の代表類似度を統合して、入力画像と登録画像との評価値を求める。代表類似度統合部108における代表類似度の統合方法は、後述する。
 判別部109は、全ての登録画像に対して、代表類似度統合部108で求められた入力画像との評価値に基づいて、入力顔画像中の人物に対応するクラスを判別する。
 基準探索領域データ保持部110は、探索領域設定部102で使用する基準探索領域に関するデータを保持する。
 なお、図2中、破線は登録処理を、実線は評価処理を示す。
 最初に登録処理を説明する。図3は、登録処理手順の一例を示すフローチャートである。
 ステップS201において、顔器官特徴点検出部101は、登録顔画像に対して顔器官の特徴点検出を行う。図4は、ステップS201で検出される特徴点の一例を示す図である。図4中、E1,E4は目尻を、E2,E3は目頭を、B1,B2,B3,B4は眉端を、M1,M2は口端点を示す。
 顔器官特徴点検出部101は、顔器官の特徴点の検出に既存の手法を使用することができる。顔器官特徴点検出部101は、例えば、局所特徴を階層的に検出し、その検出結果を統合し、次の階層の局所特徴を検出する、という処理を繰り返して、特徴点を検出する手法を使用することができる。つまり、顔器官特徴点検出部101は、最初にプリミティブな特徴である1次特徴を検出し、その1次特徴の検出結果(検出レベルと位置関係)を用いて2次特徴を検出する。そして、顔器官特徴点検出部101は、2次特徴の検出結果を用いて、3次特徴を、と順々に、更に高次の特徴を検出していくものである。
 図5は、検出すべき1次特徴の一例を示す図である。顔器官特徴点検出部101は、最初に、縦特徴(1-1)・横特徴(1-2)・右上がり斜め特徴(1-3)・右下がり斜め特徴(1-4)等の特徴を検出する。ここに、縦特徴(1-1)とは縦方向のエッジセグメントを表す(以下、同様である)。この検出結果は、特徴毎に、入力画像と同等の大きさの検出結果画像という形で出力される。つまり、図5の例であれば4種類の検出結果画像が得られ、顔器官特徴点検出部101は、各特徴の検出結果画像の各位置の値を見て、入力画像のその位置に各特徴が存在するか否かを判断することができる。
 2次特徴である右空きV字特徴(2-1)について、顔器官特徴点検出部101は、右上がり斜め特徴と右下がり斜め特徴とから検出を行う。また、2次特徴である左空きV字特徴(2-2)について、顔器官特徴点検出部101は、右下がり斜め特徴と右上がり斜め特徴とから検出を行う。また、2次特徴である水平平行線特徴(2-3)について、顔器官特徴点検出部101は、横特徴から検出を行う。また、2次特徴である垂直平行線特徴(2-4)について、顔器官特徴点検出部101は、縦特徴から検出を行なう。
 また3次特徴の眼特徴(3-1)について、顔器官特徴点検出部101は、右空きV字特徴と左空きV字特徴と水平平行線特徴と垂直平行線特徴とから検出を行なう。また、3次特徴の口特徴(3-2)について、顔器官特徴点検出部101は、右空きV字特徴と左空きV字特徴と水平平行線特徴とから検出を行なう。
 上記の検出手法を並列階層処理により画像認識を行う神経回路網を用いて実現することもできる。より具体的に説明すると、M.Matsugu,K.Mori,et.al, “Convolutional Spiking Neural Network Model for Robust Face Detection”,2002,Internatinal Conference On Neural Information Processing (ICONIP02)に記述されている、Convolutional Neural Networksを使用することで実現することができる。
 図6を参照して神経回路網の処理内容を説明する。図6は、神経回路網の処理内容を説明するための図である。図6の神経回路網は、入力データ中の局所領域において、対象、又は幾何学的特徴等の認識(検出)に関与する情報を階層的に扱うものである。基本構造はいわゆるConvolutionalネットワーク構造(LeCun, Y. and Bengio, Y., 1995, “Convolutional Networks for Images Speech, and Time Series” in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, pp.255-258)である。最終層(最上位層)では検出したい被写体の有無と、存在すればその入力データ上の位置情報とが得られる。
 データ入力層1701は、画像データを入力する層である。最初の特徴検出層1702(1,0)は、データ入力層1701より入力された画像パターンの局所的な低次の特徴を全画面の各位置を中心とした局所領域において同一箇所で複数のスケールレベル、又は解像度で複数の特徴カテゴリの数だけ検出する。なお、低次の特徴には、特定方向成分、特定空間周波数成分等の幾何学的特徴のほか色成分特徴を含んでもよい。また、全画面の各位置を中心として局所領域ではなく、全画面にわたる所定のサンプリング点の各点を中心とする局所領域であってもよい。
 特徴統合層1703(2,0)は、所定の受容野構造(以下、受容野とは直前の層の出力素子との結合範囲を、受容野構造とはその結合荷重の分布を意味する)を有する。特徴統合層1703(2,0)は、特徴検出層1702(1,0)からの同一受容野内にある複数のニューロン素子出力の統合(局所平均化、最大出力検出等によるサブサンプリング等の演算)を行う。この統合処理は、特徴検出層1702(1,0)からの出力を空間的にぼかすことで、位置ずれや変形等を許容する役割を有する。また、特徴統合層内のニューロンの各受容野は同一層内のニューロン間で共通の構造を有している。
 後続の層である各特徴検出層1702((1,1)、(1,2)、・・・、(1,M))は、各特徴検出モジュールにおいて複数の異なる特徴の検出を行う。各特徴統合層1703((2,1)、(2,2)、・・・、(2,M))は、前段の特徴検出層からの複数特徴に関する検出結果の統合を行う。但し、特徴検出層1702((1,1)、(1,2)、・・・、(1,M))は、同一チャネルに属する前段の特徴統合層の細胞素子出力を受けるように結合(配線)されている。特徴統合層で行う処理であるサブサンプリングは、同一特徴カテゴリの特徴検出細胞集団からの局所的な領域(特徴統合層ニューロンの局所受容野)からの出力についての平均化等を行うものである。
 図5に示した各特徴を検出するためには、図6の各特徴検出層の検出に使用する受容野構造をその特徴を検出するためのものにすることで、各特徴を検出することができる。
 この手法は、予め用意した重み係数との積和演算を所定の範囲で行うため、対象となる特徴点の検出処理の出力値が高い結果はある範囲に分布する。図7に、目尻E1の検出結果の出力分布の例を模式的に示す。図7は、目尻E1の検出結果の出力分布の一例を示す図である。図7の例では検出結果の出力値が高いほど黒く示している。検出結果の値は、前記重み係数と前階層の統合された検出結果との積和結果であり、この値が高いほど、所望の特徴に近い特徴が存在していることを示している。つまり、この分布は所望の特徴の存在確率分布を反映していると考えることができる。従って、顔器官特徴点検出部101は、この分布中の最高値の位置、又は、重心位置を、特徴点位置として設定する。
 図3の説明に戻り、ステップS202では、探索領域設定部102は、ステップS201で求められた各特徴点とその特徴点を求めたときの存在確率分布を反映した分布(つまり特徴点を求めるときの推定誤差に関する情報)とを使用して、探索領域を設定する。登録処理においては、探索領域設定部102は、基準探索領域データ保持部110に保持されている基準探索領域データを使用して設定した基準局所領域を、探索領域とする。
 基準探索領域の設定方法を、図8を使用して説明する。図8は、基準探索領域の設定方法を説明するための図である。
 探索領域設定部102は、基準探索領域を、ステップS201で検出された特徴点を基に設定する。図8では、基準探索領域と特徴点とを模式的に示している。図8の(a)中、特徴点503、504で示される丸点は、ステップS201で検出された特徴点を表し、矩形状の領域501、502が基準探索領域を示している。図8(b)に示すように、これら基準探索領域の位置は、特徴点とそこからの変位で決定される。この変位量は、図8(b)に示すように、基準探索領域の中心505と特徴点506との間の相対的な位置を表し、顔の水平方向に対する変位量dと顔の垂直方向に対する変位量dとからなる。探索領域設定部102は、これら変位量を種々の値に設定することで、複数の基準局所領域位置を決定することができる。例えば、図8(a)の基準探索領域501は特徴点503からの変位で、基準探索領域502は特徴点504からの変位で設定されている。ここで、変位量及び基準局所領域のサイズは、基準探索領域データ保持部110に保持されている。これらの値は、予め基準探索領域が偏り無く存在するように決められておいてもよいし、同様に予め多数の学習データを使用して、基準探索領域の位置やサイズを変更したときの結果と認識精度とを使用して、所望の精度になるように決定されておいてもよい。
 図3の説明に戻り、ステップS203では、特徴ベクトル生成領域設定部103は、ステップS202で求められた探索領域から、特徴ベクトル生成領域を設定する。前述のように、探索領域と認識に使用する局所領域とは同位置・同サイズであるので、特徴ベクトル生成領域は、探索領域と同領域となる。図8では、基準探索領域を局所領域全体が移動する範囲として示しているため、探索領域=局所領域である。探索領域を、後述の図13のように局所領域の中心点が移動する範囲として表す場合は、登録処理における探索領域は局所領域の中心点と合致する1点のみになる。
 ステップS204では、特徴ベクトル生成部104は、ステップS203で設定された特徴ベクトル生成領域から、特徴ベクトルを生成する。特徴ベクトルは、その領域から求められる特徴量であれば特に限定はしない。例えば、特徴ベクトル生成部104は、その領域の全画素の輝度値を1次元のベクトルとして使用してもよい。また、特徴ベクトル生成部104は、背景技術で述べたEigen Faceと同様に、その領域の全画素の輝度値から求めた1次元のベクトルを、予め求めた固有空間に射影して得られる射影ベクトルを特徴ベクトルとしてもよい。
 ステップS205では、特徴ベクトル生成部104は、ステップ102で設定された全ての探索領域、つまり全ての基準探索領域で特徴ベクトルが得られているかを判断する。特徴ベクトル生成部104は、全ての探索領域で特徴ベクトルが得られていれば、特徴ベクトル登録ステップS206へ、得られていなければ、ステップS103へと処理を遷移させる。
 ステップS206では、特徴ベクトル生成部104は、全ての探索領域で得られた特徴ベクトルを、その登録画像の登録特徴ベクトルとして、登録特徴ベクトル保持部105に保持する。つまり、特徴ベクトル生成部104は、登録画像を示すもの、例えば画像番号と登録された登録特徴ベクトルとを関連付けて登録特徴ベクトル保持部105に保持する。
 以上で、ある1枚の登録顔画像の登録処理を終了する。登録画像が複数ある場合は、以上の処理を繰り返す。
 続いて、評価処理を説明する。図9は、評価処理の一例を示すフローチャートである。
 ステップS601では、顔器官特徴点検出部101は、登録処理と同様の処理を行う。
 ステップS602では、探索領域設定部102は、登録処理と同様に、ステップS601で求められた各特徴点とその特徴点を求めたときの確率分布とを使用して、探索領域を設定する。ただし、設定する探索領域が、登録処理とは異なる。以下で説明する。
 図10は、評価処理における探索領域の設定処理の一例を示すフローチャートである。
 ステップS701では、探索領域設定部102は、登録処理と同様に、ステップS601で求められた各特徴点と基準探索領域データ保持部110に保持されている基準探索領域データとを使用して、基準探索領域を設定する。ここで基準探索領域は、局所領域の中心点に一致する1点である。(すなわちサイズは1×1。)
 ステップS702では、探索領域設定部102は、ステップS601で特徴点を求めたときの特徴点の存在確率分布に関連する分布を使用して、探索領域のサイズを求める。サイズの求め方は後述する。
 ステップS703では、探索領域設定部102は、ステップS701で設定した基準探索領域のサイズを、ステップS702で求めたサイズに変更して、変更した領域を探索領域とする。
 以下、ステップS702における探索領域サイズ設定方法について説明する。
 登録処理の顔器官特徴検出処理で説明したように、特徴点の検出結果の値の分布は、その特徴の存在確率分布として考えることができる。すると、この分布の分散が小さければ、特徴点の存在位置を限定することが可能であり、逆に分散が大きければ、特徴点の存在位置を限定することは困難であるといえる。例えば、図4中の目尻E1を検出することを考えると、照明条件がよい画像であれば、目尻特徴の検出結果は、図11(A)に示すように、目尻付近に小さい分散で分布する。しかし、図11(B)に示すように、射光等により、目の付近に影801ができると、本当の目尻の他に、影と目との輪郭部分で誤検出を起こす場合がある。この場合、検出結果は、複数の山を持つ広がった分布802になる。登録処理で述べたように、特徴点をその分布の最大値の位置や重心とすると、図11(A)の状況では、特徴点はほぼ正しい位置となるが、図11(B)の状況では、誤った位置になることがある。例えば、特徴点位置を分布の重心とすると、図11(A)では、目尻の位置とほぼ等しい位置になる。それに対して図11(B)では、分布の重心は目尻よりも目の内部となり、正しい目尻の位置とは誤差が生じる。そしてその特徴点位置に基づいた基準局所領域のみで、評価処理を行うと対応していない領域で類似度を求めることになり、認識精度が劣化することになる。そこで、本実施形態では、特徴点検出結果の値の分布に従って、探索領域を設定し、その探索領域の中から、類似度を求める局所領域を複数設定して、それらの結果を用いて、その探索領域の代表類似度を求めるようにしている。
 特徴点検出結果の値の分布に従って、探索領域を設定する方法について説明する。図12は、特徴点検出結果の値の分布に従って、探索領域を設定する方法を模式的に示す図である。図12中、901は、検出結果の出力値の分布をあるしきい値で2値化した特徴点位置候補領域を示す。また、902は、ステップS601で求められた特徴点位置を示す。また、903は、特徴点位置候補領域の外接矩形を示す。前述のように、登録処理でも評価処理でも基準局所領域は、特徴点位置に基づいて設定される。したがって、基準となる特徴点位置に誤差があると、登録顔画像と評価顔画像との間で類似度を算出する際の局所領域の位置がずれて、対応した位置でない可能性がある。このずれは、特徴点検出の位置に起因するものであるため、特徴点検出位置が誤る可能性のある範囲の領域で類似度を算出すれば、誤差の影響を抑制することができる。
 そこで、探索領域設定部102は、特徴点位置候補領域901の領域を使用して、探索領域のサイズを設定する。より具体的に説明すると、探索領域設定部102は、特徴点位置候補領域901の領域に外接する外接矩形903を求め、この外接矩形903のサイズを探索領域のサイズとする。この処理が、ステップS702の処理に相当する。そして、探索領域設定部102は、ステップS701で設定した基準局所領域の中心と特徴点位置902との位置を合わせ、ステップS702で設定した探索領域のサイズの領域を探索領域として決定する。なお、探索領域設定部102は、探索領域を矩形とせずに、基準局所領域の中心と特徴点位置902の位置を合わせた後に、特徴点位置候補領域901の範囲を探索領域としてもよい。この処理はステップS703の処理に相当する。
 図9の説明に戻り、ステップS603で、特徴ベクトル生成領域設定部103は、探索領域から、特徴ベクトル生成領域を設定する。図13は、特徴ベクトル生成領域の設定を模式的に示す図である。図13(A)中、1001は探索領域を、1002は特徴ベクトル生成領域を示す。特徴ベクトル生成領域1002は、探索領域1001内から、順次一つずつ選択される。なお、図13(B)の1003は、ステップS602で得られた、特徴点位置候補領域を探索領域1003とした場合を示している。この場合、特徴ベクトル生成領域設定部103は、この領域内から順次、特徴ベクトル生成領域1004を設定する。
 図9の説明に戻り、ステップS604で、特徴ベクトル生成部104は、特徴ベクトル生成領域から、特徴ベクトルを生成する。特徴ベクトルの生成手法は、登録処理と同様である。
 次に、ステップS605で、類似度算出部106は、特徴ベクトル生成ステップS604で得られた特徴ベクトルと、登録特徴ベクトル保持部105に保持されている特徴ベクトルとの類似度を算出する。類似度算出部106は、類似度の算出に、例えば式(1)で示される正規化相関を使用する。式(1)中、Sが類似度を、FがステップS604で得られた特徴ベクトルを示し、F(i)はその特徴ベクトルのi番目の要素を示す。また、Gが登録特徴ベクトル保持部105に保持されている特徴ベクトルを示し、同様にG(i)がi番目の要素を示す。また、∥F∥は、ベクトルFのノルムを示す。
Figure JPOXMLDOC01-appb-M000001
 なお、正規化相関は、類似度算出の一手法であり、類似度算出部106は、ベクトルの各要素の2乗誤差等のベクトルの距離を使用してもよい。また、登録特徴ベクトル保持部105に複数の登録顔画像から求めた特徴ベクトルが登録されている場合、類似度算出部106は、登録顔画像ごとの類似度を求めることになる。
 ステップS606では、類似度算出部106は、探索領域全域で特徴ベクトルを生成して、類似度を求めたかを判定する。全域で求めていなければ、類似度算出部106は、処理をステップS603に遷移させる。そして、特徴ベクトル生成領域設定部103は、探索領域内で次の特徴ベクトル生成領域を設定する。
 ステップS607では、代表類似度算出部107は、得られた複数の類似度から、その探索領域の代表類似度を算出する。算出方法は、特に限定しないが、複数の類似度中の最大類似度としてもよいし、所定数の上位の類似度の平均としてもよい。
 ステップS608では、代表類似度算出部107は、算出した代表類似度が、探索領域設定ステップS602で設定された全ての探索領域で得られているか、つまり、全ての局所領域の類似度が得られているかを判定する。得られていなければ、特徴ベクトル生成領域設定部103は、次の探索領域を選択し、その探索領域内で、ステップS603からの処理を行う。
 ステップS609では、代表類似度統合部108は、全ての探索領域、つまり全ての局所領域の類似度を統合して、入力された評価顔画像と1つの登録顔画像との統合代表類似度を算出する。統合代表類似度を算出方法は特に限定しないが、全ての代表類似度の平均を求めてもよいし、所定数の上位の類似度の平均としてもよい。なお、登録特徴ベクトル保持部105に複数の登録顔画像から求めた特徴ベクトルが登録されている場合、代表類似度統合部108は、複数の統合代表類似度を算出する。
 ステップS610では、判別部109は、ステップS609で得られた統合代表類似度を使用して、入力された評価顔画像の判別を行う。判別部109は、判別を、予め定められた所定のしきい値との比較で行い、統合代表類似度がそのしきい値以上の場合には、評価顔画像のIDを登録顔画像のIDとする。判別部109は、しきい値以下であれば、評価顔画像のIDは登録顔画像のIDでは無いとする。なお、登録特徴ベクトル保持部105に複数の登録顔画像から求めた特徴ベクトルが登録されている場合、複数の統合代表類似度が得られているので、判別部109は、その中から最大の統合代表類似度を選択する。更に判別部109は、その値が所定のしきい値を越えている場合に、評価顔画像のIDをその統合代表類似度の登録顔画像のIDとする。また、判別部109は、しきい値を越えていない場合、対応する評価顔画像のIDの顔画像は登録されていないこととする。
 なお、上記説明では、顔器官特徴検出手法として、Convolutional Neural Networkを使用して説明したが、本実施形態では、顔器官検出特徴の存在確率分布に相当する分布があればよく、上記の手法に限定されるものではない。例えば、検出対象の顔器官特徴のテンプレート(このテンプレートは例えば多数の顔器官特徴の平均画像から作成する)を使用してもよい。テンプレートを局所領域で移動させてマッチングをとることで得られるマッチングスコア(例えば相関値)は、その顔器官特徴の存在確率分布と考えることができる。
 なお、上記説明したように、登録処理では、基準局所領域を探索領域として設定したが、後述する評価処理と同様に、顔器官特徴検出の結果値の分布を使用して、基準局所領域を拡張して、探索領域を設定してもよい。この場合は、ある一つの探索領域に対して、複数の登録特徴ベクトルが得られる。したがって、ステップS605において、類似度算出部106は、複数の登録特徴ベクトルと入力顔画像の複数の特徴ベクトルとの全ての組み合わせで類似度を求める。そして、ステップS607で代表類似度算出部107が、代表類似度を求める際に、全ての組み合わせで求められた類似度を使用するようにする。
 以上、本実施形態によれば、局所領域の位置の設定の誤差が生じる原因に基づいて設定された領域内から得られた複数の局所領域を使用することにより、前述の精度劣化を抑制することができる。
 なお、本実施形態及び以降の実施形態2は、顔を判別する例を使用して説明するが、判別するパターンは顔に限らない。例えば、車や自転車等の一般物体等であってもよい。
 <実施形態2>
 実施形態2は、実施形態1と比較して、顔器官特徴点検出部101の検出手法(検出処理)と探索領域設定部102の探索領域の設定手法(設定処理)が異なる。
 以下、本実施形態の、顔器官特徴検出手法と探索領域設定手法とに関して説明する。
 図14は、顔器官特徴検出処理の一例を示すフローチャートである。実施形態2の顔器官特徴検出は、実施形態1と同様の手法で、顔器官特徴点の第1の候補点を求めた後に、第1の候補点を使用して、第2の候補点を求め、その第2の候補点と第1の候補を求めたときの処理の結果を使用して、最終的に特徴点を検出するものである。
 ステップS1101で、顔器官特徴点検出部101は、実施形態1で示した方法等により、全ての顔器官特徴点検出を行う。顔器官特徴点検出部101は、この検出した結果を、第1の候補点とする。
 ステップS1102で、顔器官特徴点検出部101は、第1の候補点を使用して、顔器官特徴点の第2の候補点を求める。この求め方は後述する。
 ステップS1103で、顔器官特徴点検出部101は、顔器官特徴点の第2の候補点と、第1の候補点とを求めたときの処理の結果を使用して、最終的に顔器官特徴点を求める。この処理の内容は、後述する。
 図15は、ステップS1102の処理の概要を示す図である。
 図15中、1201は第1の候補点群を、1202は第2の候補点群を示す。つまり、顔器官特徴点検出部101は、第1の候補点の固有空間への射影とその射影ベクトルの逆射影とを使用して、第2の候補点を検出する。つまり、ここでは顔器官特徴点の各座標値から求めた固有空間を、顔器官特徴点の配置関係の知識として使用している。
 ここで使用する固有空間は、複数の教師データを基に予め算出されている。ここでは、この固有空間を正規直交行列Fで示す。
 この固有空間の作成方法について、説明する。ある1つの教師データは、1つの顔画像に存在する複数の顔器官特徴点の座標値をベクトル化したものである。座標ベクトルを、次式で表す。
Figure JPOXMLDOC01-appb-M000002
 ここで、νは、l番目の画像において、p個の基準点より求められる座標ベクトルである。なお、教師データに使用する顔器官特徴点の座標は、人間が入力する等、正解が入っているものとする。
 以下、式(2)で表された座標ベクトルを用いて、使用する固有空間、すなわち正規直交行列Fを算出する方法について示す。なお、固有空間フィルタに使用する固有ベクトルは、主成分分析で求めるものとする。
 まず、顔器官特徴点検出部101は、式(2)で表される座標ベクトルを様々な顔画像から取得し、式(3)で示す分散・共分散行列Cを求める。ここでは、教師データが、q個存在した時を示している。
Figure JPOXMLDOC01-appb-M000003
 式(3)中の、
Figure JPOXMLDOC01-appb-M000004
は、平均ベクトルで、式(4)で表される。
Figure JPOXMLDOC01-appb-M000005
 一般に、分散・共分散行列をC、固有値行列をΛ、正規直交行列をGとすると、これらは、以下の式(5)を満足することが知られている。そこで、顔器官特徴点検出部101は、この式(5)の固有値問題を解く事により、正規直交行列Gを求めることができる。
CG=GΛ  (5)
 顔器官特徴点検出部101は、この正規直交行列Gに対して、固有値の累積寄与率を用いて、固有ベクトルを上位から例えばk個を選択し、固有空間に使用する正規直交行列Fを作成する。つまり式(5)で求められた各固有ベクトルの寄与度は固有値で計測することができ、その値に基づいて、重要な固有ベクトルで正規直交行列Fを作成することにより、この正規直交行列Fで示される固有空間は顔器官特徴点の一般的な配置関係を表すことができる。
 続いて、実際の動作を説明する。
 第1の候補を表すベクトルをdとする。例えば、図15に示すように、第1の候補点を、左右の目の目尻と目頭、鼻、口の両端点の7点とすると、このベクトルdの次元は14次元(=7*2)である。次に、顔器官特徴点検出部101は、このベクトルdを、固有空間に射影する。射影ベクトルをd*とすると、その次元は、k(<d)次元となる。続いて、顔器官特徴点検出部101は、次元削減された射影ベクトルd*を、逆射影により元の画像空間の座標値に変換する。逆射影に使用する行列は、固有空間Fの擬似逆行列により求められる。この逆射影されたベクトルをd^とすると、d^ベクトルの次元は、14次元であり、このベクトルの各要素で示される各座標値が、顔器官特徴点の第2の候補点の座標値となる。
 続いて、最終特徴点検出処理について説明する。図16は、最終特徴点検出処理を、目尻の検出を例に模式的に示す図である。図16(A)中の1301は第1の候補点を、1302は第2の候補点を、1304は最終特徴点検出処理で使用する検出結果の出力値分布の領域を示す。また、図16(B)中の、1303は、第1の候補点を求めた結果の出力値の分布を、1304は、最終特徴点検出処理で使用する検出結果の出力値分布の領域を示す。
 実施形態1では、目尻の付近に誤検出が出ることを説明したが、例えば、目尻と眉との端点の形状は似ているため、目尻検出の際に、眉が誤検出されることもある。このときの、出力値の分布が図16の1303である。この出力値の分布の重心を求めた結果が、第1の候補1301である。つまり、目尻の周囲の他に、眉の端点の周囲にも出力値が高い分布があるため、重心位置が、目尻と眉との端点の中間に存在する。この座標に対して、上記の固有空間を使用して求めた第2の候補点が、1302である。図16には図示の、目頭や口等の他の第1の候補点との配置関係を使用して求めた第2の候補点は、目尻により近い値になっている。ただし、この第2の候補点は、簡単に言うと、多数のデータの平均の分布のようなものであり、個々のデータの正解を示すものではない。つまり、大きく外れた異常値をそれなりに補正することはできるが、正確な値を保障するものではない。ただし、特徴点が、その第2の候補点の近傍に位置すると考えることはできる。
 そこで、顔器官特徴点検出部101は、第2の候補点1302を中心とする近傍1304で、第1の候補点を求めた結果の出力値の分布1303の重心又は最大値を求めて、その値を、最終の特徴点位置とする。この近傍のサイズは、誤差を解析して求めた固定値でもよいし、例えば、第1の候補点と第2の候補点との距離を使用してもよい。
 以上で、実施形態2の特徴点検出処理の説明を終了する。
 続いて、探索領域設定処理について説明する。なお、この探索領域設定は、実施形態1の評価処理における設定を変更するものとして説明する。つまり、登録処理は、実施形態1と同様に基本局所領域とする。ただし、登録処理における探索領域設定も以下に説明するように基本局所領域より広い範囲で設定することで、登録顔画像から特徴ベクトルを複数作成するようにしてもよい。
 図17は、探索領域設定処理を、目尻の検出を例に模式的に示す図である。図17中、1401は顔器官特徴点検出処理の第2の候補点を、1402は顔器官特徴点検出処理で求められた特徴点位置を、1403は探索範囲のサイズを示す矩形を、1404は第2の候補点と特徴点位置の距離を半径とする円とを示す。
 顔器官特徴点検出処理においても説明したように、第2の候補点は、多数のデータと第1の候補点との配置関係から推定される顔器官特徴点の位置で、この配置関係における平均的な位置を示している。また、最終的な特徴点の位置は、実施形態1同様に、検出結果の出力分布から求めているため、上記説明した方法で特徴点位置を求めたとして、その結果には誤差が生じる。そこで、顔器官特徴点検出部101は、探索領域の範囲を、この第2の候補点の位置と、最終的に求めた特徴点位置とのずれを基準に設定する。
 つまり、顔器官特徴点検出部101は、第2の候補点と特徴点位置の距離を半径とする円1404に外接する矩形とを求めて、この矩形を探索領域のサイズとして設定する。このサイズを示す矩形を1403に示す。
 また、図18に示すように、顔器官特徴点検出部101は、この矩形1403と、実施形態1で説明した特徴点検出の出力値分布をしきい値で2値化した領域とのANDの領域1501を探索領域のマスクとして使用してもよい。図18は、探索範囲を説明するための図である。探索領域の設定については、実施形態1と同様であるので省略する。
 以上、実施形態2によれば、顔器官特徴点位置に関して多数のデータと最初に求めた各特徴点位置の分布から推定される位置を求め、その推定される位置と2回目に求めた特徴点位置との関係から、探索範囲を設定する。このことにより、探索領域を限定することが可能となり、処理時間の増加を更に抑えることができる。
 なお、実施形態1と実施形態2とでは、評価処理において、入力顔画像に対する顔器官特徴点検出結果を使用して、探索領域を設定していた。リアルタイム性を要求されるような場合では、評価顔画像に対する探索領域の設定は、基本局所領域とし、登録処理において、探索領域を基本局所領域よりも広い範囲で設定するようにしてもよい。このようにすると入力顔画像に対して探索領域を行うとその探索領域を求めるための処理が発生して処理時間が増加するが登録処理は予め行っておくため登録顔画像に対して探索領域を求める処理による処理時間の増加の影響は実質的には発生しない効果がある。
 また、登録画像の探索範囲のサイズは、登録画像のみに対する顔器官特徴点検出結果の出力値の分布や固有空間補正の結果だけではなく、固定値とすることもできる。予め多数のデータに対して顔器官特徴点検出結果の出力値の分布や固有空間補正の結果を使用して探索範囲のサイズを求めておき、その平均値等を固定値の探索範囲のサイズとして使用する。この場合、登録画像に対する探索領域のサイズを求めるという処理も省略できる。
 また、顔の奥行き回転によって、顔器官特徴点検出結果の出力値の分布や固有空間補正の結果は影響を受ける。そのため、顔向き毎に、予め多数のデータに対して顔器官特徴点検出結果の出力値の分布や固有空間補正の結果を使用して求めた探索範囲のサイズを保持しておく。そして、登録顔画像や入力顔画像に対して、顔の奥行き回転を求める処理を行い、検出された顔向きに従って、固定値の探索範囲サイズを選択するようにすることができる。こうすることで、固定値を使用した場合でも、顔向きの変動に対応できる。
 以上、上述したように、探索領域を設定し、その探索領域内の複数の局所領域を使用して求めた複数の類似度から代表類似度を求め、その代表類似度を、入力パターンと登録パターンとの探索領域間の類似度として使用する。このことで、特徴点の検出に誤差が生じた場合でも、認識精度が低下することを抑止する効果がある。また、顔器官の特徴点検出の誤差に関連するパラメータを使用して、探索領域を設定することで、演算負荷の増加を最小限に抑止しながら、認識精度を向上させるという効果がある。
 <実施形態3>
 実施形態3では、基準局所領域に対する複数の変動局所領域として、位置ではなく形状の変形を与える。以下、実施形態1及び2と同様に顔認識処理への適用について説明する。
 図19は、本実施形態の構成を示す図である。同図において、図2と同一付番の構成は、同様の機能を有する。また、基準局所領域設定部1802、変動局所領域生成部1803、基準局諸領域データ保持部1810、変動パラメータ保持部1811は、図2の構成とは異なる部分である。
 基準局所領域設定部1802は、顔器官特徴点検出部101の出力に基づいて、入力された顔画像中に基準局所領域を設定する。ここでの処理は、実施形態1における登録処理時の基準探索領域設定と同等であり、所定サイズ矩形の基準となる局所領域の中心位置を、顔景観特徴点検出部101より検出された各特徴点からの変位に基づき設定する。
 基準局所領域データ保持部1810は、基準局所領域設定部1802で用いられる基準局所領域を設定するための特徴点種別や変位量および局所領域サイズといった情報を保持している。変動局所領域生成部1803は、各基準局所領域に対応する複数の変動局所領域を生成する。変動局所領域の生成方法については後述する。変動パラメータ保持部1811は、変動局所領域生成部1803で使用する変動パラメータを保持する。
 続いて、図20および図21のフローチャートを使用して、本実施形態の判別処理動作と図19の各構成要素について説明する。尚、図19では図2と同様に、破線は登録処理を、実線は評価処理を示している。
 〔登録処理〕
 図20は登録処理のフローチャートであり、実施形態1における図3に相当する。
 ステップS1901の顔器官特徴点検出は、図3におけるステップS201と全く同等であるので詳細な説明は割愛する。
 ステップS1902の基準局所領域設定は、図3におけるステップS202の探索領域設定に相当する。先述のステップS202では、図8(a)に示した基準探索領域と一致する複数の基準局所領域を設定し、探索領域を基準局所領域そのもの(つまり各基準局所領域の中心位置1箇所が探索領域)としていた。ステップS1902では、基準局所領域設定までの処理をステップS202と同様に行う。ここで基準局所領域の中心位置を定めるための特徴点の種別と変位量、および基準局所領域のサイズは、図2の基準探索領域データ保持部110に相当する、基準局所領域データ保持部1810に保持されている。
 本実施形態においては、登録処理時には基準局所領域を変動させずにそのまま用いる。つまり基準局所領域がそのまま実施形態1における特徴ベクトル生成領域として取り扱われる。このとき変動局所領域生成部1803はスルーされる。
 次の特徴ベクトル生成ステップS1903は、図3におけるステップS204と同等の処理を、基準局所領域に対して実行する。実施形態1と同様に、その領域の全画素の輝度値を1次元のベクトルとして使用してもよいし、同ベクトルを予め求めた固有空間に射影して得られる射影ベクトルを特徴ベクトルとしてもよい。すなわち図19の特徴ベクトル生成部104は図2のものと同等である。
 ステップS1904では、ステップS205と同様に、ステップS1902で設定された複数個所全ての基準局所領域に対応する特徴ベクトルが得られているかを判断する。全ての基準局所領域に対応する特徴ベクトルが得られていれば、特徴ベクトル登録ステップS1905へ進み、得られていなければ、ステップS1903の処理を繰り返す。
 ステップS1905では、ステップS206と同様、全ての基準局所領域に対応する特徴ベクトル一式を、その登録画像の登録特徴ベクトルとして、登録特徴ベクトル保持部105に登録する。
 以上が本実施形態における1枚の登録顔画像に対する登録処理である。登録画像が複数ある場合は、実施形態1と同様に以上の処理を繰り返す。
 〔評価処理フロー〕
 続いて評価処理を説明する。図21は本実施形態における評価処理フローチャートを示しており、実施形態1における図9に相当する。
 ステップS2001における顔器官特徴点検出は、ステップS1901及びステップS601と同等である。ステップS2002における基準局所領域設定は、ステップS1902と同等である。ここで評価顔画像上に複数の基準局所領域が設定される。
 ステップS2003は基準局所領域毎の処理ループの先頭である。ここでは基準局所領域に対応する複数の変動局所領域を生成するための変動パラメータの範囲を、変動パラメータ保持部1811に保持されているパラメータを参照して決定する。詳細については後述する。
 ステップS2004の変動局所領域生成は、実施形態1におけるステップS603の特徴ベクトル生成領域設定に相当する処理である。ステップS603では、先述の通り、基準局所領域と同サイズの領域画像を探索範囲内の各位置から切り出す。これに対し、ステップS2004では、変動範囲の変動パラメータ1組を選択し、これに基づき基準局所領域の近傍の画素を参照して基準局所領域と同サイズの画像を変動局所領域パターンとして生成する。詳細は後述する。
 続くステップS2005では、登録処理におけるステップS1903と同等の処理を変動局所領域パターンの画像に対して行い、特徴ベクトルを生成する。
 ステップS2006は、実施形態1におけるステップS605と同等の類似度算出を行う。すなわち、ステップS2005で得られた変動局所領域パターンの特徴ベクトルと、登録特徴ベクトル保持部105に保持されている対応する基準局所領域の特徴ベクトルとの類似度を算出する。類似度の算出方法は実施形態1と同様である。
 ステップS2007では、ステップS2003で設定した変動範囲の、処理中の基準局所領域に対応する全変動局所領域に対する類似度の算出が完了したか否かを判別する。完了していなければステップS2004より次の変動局所領域に対する処理を開始する。
 代表類似度算出ステップS2008は、実施形態1におけるステップS607に相当する。すなわち基準局所領域に対して得られた複数の変動局所領域パターンの類似度から、代表類似度を算出する。算出方法は実施形態1と同じく特に限定せず、最大類似度選択でも良いし上位類似度の平均としても良い。
 ステップS2009では、ステップS608と同様、上記の代表類似度が全ての基準局所領域に対して算出されているか(すなわち評価顔画像上の全基準局所領域に対する処理が完了しているか)を判定する。算出されていなければ、ステップS2003に戻って次の基準局所領域に対する処理を行う。
 ステップS2010では、実施形態1のステップS609と同等の代表類似度統合処理を行い、続くステップS2011ではステップS610と同等の判別処理を行う。
 〔拡大・縮小変動処理〕
 続いて、ステップS2003のパラメータの変動範囲決定方法及びステップS2004の変動局所領域パターンの生成方法の一例について以下に説明する。図22は、変動処理として領域中心位置を固定した変倍処理(拡大・縮小)を行う場合を説明する図である。
 図22の(a)は、ある人物の登録顔画像の一部を示している。この顔画像は、特徴点E1~E4に基づき、両目が所定の位置となるように正規化されている。(E1、E2の中点が向かって左の目位置、E3、E4の中点が向かって右の目位置とする。)ここで2101は、特徴点E3に基づき、中心位置の変位量dw,dhが共に0として設定された基準局所領域である。先述の通り、登録処理で、この基準局所領域に基づく特徴ベクトルが生成され、顔画像(a)に対応する登録特徴ベクトルの一部として登録特徴ベクトル保持部105に保持されている。
 図22の(b)は、顔画像(a)と同一人物の顔画像の一部を示している。この評価顔画像は、登録顔画像と同様にE1~E4に基づき正規化されている。領域2102(点線矩形)は、登録顔画像の基準局所領域2101に対応する、評価顔画像(b)上の特徴点E3に基づく基準局所領域であり、2103は同領域を中心位置固定のままサイズダウンした領域の一例を示している。
 ここで、評価顔画像上に検出された特徴点E1、E2、E4は、誤検出により位置ずれを起こしているため、正規化後の顔画像(b)は、登録顔画像(a)より若干小さくなってしまっている。従って、登録顔画像(a)上の基準局所領域2101から生成した特徴ベクトルと、評価顔画像(b)上の基準局所領域2102から生成した特徴ベクトルとの一致度はあまり高くならない。2201との一致度が高いのは、(b)上のより狭い領域2103から生成した特徴ベクトルとなる。
 一般に、特徴点の検出位置がずれているか否か、あるいはどの方向にどの程度ずれているかを判別するのは非常に困難である(そもそも判別できるならば、特徴点の位置自体を修正すればよい。)。従って、一つの基準局所領域に対し、考えられ得る複数の変動局所領域を生成する。各基準局所領域に対して、この複数の変動パラメータの組を決定するのがステップS2003の変動範囲決定処理である。各基準局所領域に対応する変動範囲は、予め多数のサンプル顔画像により統計的に学習されて、変動パラメータ保持部1811に保持されている。ステップS2003では、処理中の基準局所領域に対応する変動範囲の複数の変動パラメータを選択する。
 図22(c)は、同図の評価顔画像(b)の、向かって右の目の部分を拡大した図である。ここでは、特徴点E3に基づき設定された基準局所領域2201(=2102)に対応する、複数の変動局所領域(より正確には変動局所領域を生成する際に参照する画素領域)を示している。先に述べたとおり、ここでは中心位置を固定した拡大・縮小処理を変動処理としているので、変動パラメータは拡大率で表される。基準局所領域2201の変動範囲は、[0.8,0.9,1.0,1.1,1.2〕の5つの拡大率の変動パラメータとして設定されている。
 領域2206は拡大率1.2の変動局所領域パターン画像を生成するための参照領域を示しており、当該参照領域の画像を1.2倍すると基準局所領域2201と同サイズの画像が生成できる。同様に、領域2205は拡大率1.1倍に、領域2201は拡大率1.0倍(つまり変倍無し)に、領域2202は拡大率0.9倍(すなわち縮小)に、領域2204は拡大率0.8倍に対応する参照領域を示している。
 尚、先に述べたCNNのように、特徴点検出時の信頼度が計算できる場合には、信頼度に基づき変動範囲を設定することも可能である。例えば、E1~E4の目に関する特徴点全ての信頼度が十分に高ければ、図22の(b)に相当する正規化された評価顔画像は(a)の正規化された登録顔画像とあまり変わらない大きさになると考えられる。この場合、変動範囲を例えば[0.9,1.0,1.1]の3つの変動パラメータに絞り込むようにしてもよい。
 ステップS2004では、このように決定した範囲の変動パラメータを、順に1組ずつ選択して、対応する基準局所領域の近傍の参照領域内の画像から、変動局所領域パターン画像を生成する。このとき算出すべき値は、変動局所領域パターン画像の全画素値である。これは、基準局所領域の近傍の参照領域内の画素を参照して、次のように計算する。
 まず、変動局所領域パターンの各画素の座標値に対応する参照領域内座標を計算する。領域中心点を原点(0,0)として、各点の座標(x,y)に対して対応する拡大率(=cとする)を除算した(x/c,y/c)が参照領域内の対応点座標となる。
 このとき、参照領域内の対応点の座標は通常実数となるので、同領域内の近傍4画素を参照し、距離の近さに応じてバイリニア補間すれば、変動局所領域パターン画像の各画素値を計算することができる。尚、画素値の決定については他の計算方法、例えば対応点座標の最近傍画素値や、あるいは周辺16画素を参照するバイキュービック補間を適用しても構わない。
 〔回転変動処理〕
 変動処理として、回転処理を行うと良い場合も存在する。図23は、変動処理として領域中心位置を固定した回転処理を行う場合を説明する図である。
 図23(a)は、図22(a)と同じある人物の正規化された登録顔画像の一部を示している。ここで2301は特徴点E3に基づき設定された基準局所領域である。
 また、図23(b)は、図22(b)とは別の、登録顔画像(a)と同一人物の評価顔画像の一部を示している。ここでE1、E2およびE4は図に示すように誤検出されているため、評価顔画像の両目間線分は、水平よりも傾いた状態となって正規化されている。このような場合、位置ずれしていない特徴点E3より設定される基準局所領域2302(点線矩形)から生成される特徴ベクトルは、基準局所領域2301から生成されて登録されている特徴ベクトルとあまり一致しない。それよりも右に10度程傾いた矩形領域2303(実線矩形)から生成された特徴ベクトルの方が一致度が高くなる。このような場合には、変動処理として回転処理を行うと、同一人物の領域間類似度が向上し、識別率の向上が見込める。
 図23(c)は、同図の評価顔画像(b)の、向かって右の目の部分を拡大した図である。ここでは、図22(c)と同様に、特徴点E3に基づき設定された基準局所領域2401(=2302)に対応する、複数の変動局所領域を生成する際に参照する画素領域を示している。中心位置を固定した左右回転処理を変動処理としているので、変動パラメータは回転角度で表される。基準局所領域2401の変動範囲は、[-20°,-10°,0°,+10°,+20°〕の5つの回転角度の変動パラメータとして設定されている。ここでマイナス角度方向は左回転を示し、プラス角度方向は右回転を示している。
 領域2406は回転角度-20°の変動局所領域パターン画像を生成するための参照領域を示しており、当該参照領域の画像を左回転することにより、変倍処理時と同様、基準局所領域2401と同サイズの画像が生成できる。同様に、領域2405は回転角度-10°に、領域2401は回転角度0°(つまり回転無し)に、領域2402は回転角度+10°(右回転)に、領域2404は回転角度+20°に対応する参照領域を示している。もちろん変倍処理時と同様に、特徴点検出時の信頼度に基づき変動範囲を限定することも可能である。
 回転処理して変動局所領域パターン画像を生成する方法も、変倍処理の場合と同様に行うことができる。すなわち変動局所領域パターン画像の各点の座標を、領域中心点を回転中心として、変動パラメータの回転角度r°に対し-r°の逆回転を行った位置を計算すれば、対応する参照領域内の座標点が示される。この対応点座標も、変倍処理時と同じく、通常実数値となり、同様の補間処理を行って画素値を計算することができる。
 〔アフィン変換〕
 図24は、さらに別の変動処理の例を示す図である。図24の(a)は、登録顔画像の一部を示しており、特徴点M1に基づき設定された基準局所領域が2301である。図24の(b)は、(a)と同一人物の評価顔画像の一部を示しているが、正面向きの(a)に対し若干左側を向いた顔の画像である。
 このような場合、評価顔画像上における特徴点M1が、図に示すように誤検出していなかったとしても、基準局所領域2302から生成した特徴ベクトルと、登録顔画像(a)の基準局所領域2301から生成した特徴ベクトルとの一致度が低くなる場合がある。このような場合、2303に示すような菱形の参照領域画像を、基準局所領域と同サイズ矩形に変形させるような変動処理を行うと、一致度を向上させることができる。
 このような変動処理は、以下の式(6)に示されるアフィン変換により行うことができる。
Figure JPOXMLDOC01-appb-M000006
 ここで(x,y)は、変動局所領域パターン画像の各画素の座標を表し、(x’,y’)は各画素に対応する参照領域内の対応点座標を表す。6つのパラメータa1,a2,a3,b1,b2,b3をアフィン・パラメータという。尚、対応点座標から画素値を計算する方法は、変倍処理や回転処理と同様である。
 また、変動処理としてアフィン変換を用いる場合、菱形変形のみならず、実施形態1で説明した基準局所領域の移動処理、および本実施形態で説明した変倍処理や回転処理を、全て組み合わせて包含することが可能である。
 変動処理としてアフィン変換を利用する場合は、変動範囲はアフィン・パラメータの組を変動数分設定することになる。基準局所領域内の画像をそのまま変動局所領域パターン画像とする変動無しの場合のアフィン・パラメータは、a1=1,a2=0,a3=0,b1=0,b2=1,b3=0(すなわち(x’,y’)=(x,y)となる)である。従って、変動値Δa1,Δa2,Δa3,Δb1,Δb2,Δb3それぞれを独立に、所定範囲の正負の小数値(例えば-0.1~+0.1)の間を所定ステップ(例えば0.1)感覚で振って、
Figure JPOXMLDOC01-appb-M000007
 で表される複数の組のアフィン・パラメータを設定すれば、基準局所領域を中心として各種微少な組合せ変動を行う変動範囲を設定することができる。各変動値を、-0.1~+0.1の範囲で、0.1刻みで振るとすると、6個の各変動値に付き3通り、従って3の6乗=729通りの変動パラメータが設定されることになる。同範囲を0.05刻みで振るとすると、各変動値に付き5通りであるから、5の6乗=15625通りとなる。図24(c)には、このようにして設定したアフィン・パラメータによるアフィン変換処理を行う場合の、各変動に対応する参照領域の一例を示している。
 多数のサンプル画像を用いて事前に統計的な調査を行っておくことにより、変動させる値を選択するようにすることもできる。例えば、水平方向にはずれ易いが垂直方向にはずれ難い特徴点が存在する場合、その特徴点に基づく局所領域は、垂直方向の移動は行わなくとも類似度の向上には影響が出にくい。このような場合には、垂直方向の移動パラメータであるΔa3は0に固定することができる。
 〔その他〕
 顔向きや表情が変わる場合、図24に示したような菱形ではなく、台形の参照領域からの変形処理を変動処理とした方が良好な類似度を得られる場合もある。このような場合、アフィン変換ではなく次式(8)で表される共一次変換(擬似アフィン変換)による変形を行えばよい。
Figure JPOXMLDOC01-appb-M000008
 変動範囲の設定は、アフィン変換の場合と同様に行うことができる。あるいは周辺画素を参照して行う他の任意の変動処理に対しても、本発明を適用可能であることは言うまでもない。
 また、本実施形態では、評価処理時に変動処理を行っていたが、実施形態1と同様、登録処理において変動処理を行うようにしても構わない。このようにすると、登録特徴ベクトルのデータ量は変動範囲分増加することになるが、評価処理時に変動処理を行う必要が無くなり処理速度を向上させることが可能となる。
 <実施形態4>
 全ての基準局所領域に対し、想定される全ての変動処理を行って多数の変動局所領域を生成すると、その処理負荷は極めて大きなものとなる。本実施形態では、各基準局所領域に対する変動範囲を限定して処理負荷を低減する方法について説明する。
 図25(a)はある登録顔画像の一部を示している。領域2701、2702、2703は、それぞれ特徴点E1,E4,M2に基づき設定される基準局所領域を示し、それぞれの領域から生成された特徴ベクトルが、登録特徴ベクトルとして保持されている。
 図25(b)は(a)の登録顔画像と同一人物の評価顔画像の一例を示している。この評価顔画像は、正面より少し左側を向いた顔画像である。ここで各基準局所領域に対応する代表類似度の算出は、領域2701、2702、2703の順に行われるものとする。また、このとき各特徴点は十分正確に検出されているものとする(信頼度高)。
 破線枠の領域2704は、基準局所領域2701に対応する評価顔画像上の基準局所領域であるが、代表類似度として選択された最も一致する変動局所領域パターンは、2705の実線枠で示す領域を参照画素領域とする拡大処理された変動局所領域パターンである。
 また、破線枠領域2706は、基準局所領域2702に対応する評価顔画像上の基準局所領域であるが、代表類似度として選択された最も一致する変動局所領域は、2707の実線枠で示す領域を参照画素領域とする縮小処理された変動局所領域パターンである。
 以上の処理は、実施形態3で説明した変倍処理あるいはアフィン変換処理を適用して行われる。
 次に基準局所領域2703に対応する代表類似度の算出を行う。このとき対応する評価顔画像上の基準局所領域は2708の破線枠であるが、類似度が最も高くなるのは2709の実線枠を参照画素領域とする菱形のアフィン変換処理を行った変動局所領域パターンとなる。
 人物の顔の形状は基本的に類似しているため、向きや表情等、同一の変動が与えられた場合には、各領域の変動の傾向は一般的に似ている。図25(b)の評価画像は、左側を向いているため、向かって左側の目尻E1付近の局所領域は小さくなり、向かって右側の目尻E4付近の局所領域は大きくなる。基準局所領域2701の代表類似度が拡大処理された2705に基づく類似度となり、基準局所領域2702の代表類似度が縮小処理された2707に基づく類似度となったことから、評価顔画像(b)は左を向いていることが類推できる。すなわち基準領域2703に対応する変動領域は、2709に示したような菱形のアフィン変換処理を中心として行うように限定することが可能となる。また、2709付近に別の基準領域が存在するならば、それらの領域も同様の変動範囲を設定してやればよい。
 この例では、変動属性を左向きと類推できる例を示したが、明示的に言葉で表せる属性でなくとももちろん構わない。各領域が事前に代表類似度算出した領域の変動に基づき、如何なる変動範囲を取り得るかは、事前に多数の学習サンプルを用いて統計的に学習しておき、学習結果に基づく変動範囲限定情報を、変動パラメータ保持部1811に保持しておくようにしている。
 以上のように、代表類似度算出済みの基準局所領域が合致した変動に基づき、変動範囲を限定してゆくことで、後に処理する基準局所領域ほど処理負荷を低減できるようになる。
 <実施形態5>
 さらに積極的に、顔の局所領域形状に影響を及ぼす変動属性判別を事前に行うようにすることにより、各基準局所領域の変動範囲を限定するようにすることも可能である。
 図26は、顔に変動を及ぼす属性を判別する場合の実施形態の構成を示す。実施形態3で説明した構成と比較すると、顔器官特徴点検出部101と基準局所領域設定部1802の間に、変動属性判別部2801が挿入されている。
 変動属性判別部2801は、顔向きや表情の種類等、顔の見え方に影響を及ぼす変動属性を判別する。変動属性判別部2801は、顔器官特徴点検出部101により検出された各特徴点の位置情報と、顔器官特徴点検出部101に入力された顔画像自体も、入力として用いることができる。本実施形態では、顔向きを主たる変動属性としており、属性判別処理には、例えば非特許文献5に開示されている各種技術を用いることができる。尚、ここでは正面向き(および無表情)を変動無しの基本顔画像とし、左右上下方向の顔(や笑顔等の表情)を変動有りの顔画像として判別する。変動有りの属性は複数あってももちろんかまわない。
 基準局所領域設定部1802は、変動無しの基本顔画像に対応する基準局所領域を設定する。本実施形態において、基準局所領域は、実施形態3と同様、顔期間特徴点検出部101で検出された特徴点に応じて位置が定められる所定サイズの矩形である。入力された顔画像が変動有りの属性である場合は、基準局所領域の位置情報は、変動局所領域パターンを生成するための参照画素領域を示すための基準位置として用いられる。
 変動局所領域生成部1803は、実施形態3と異なり登録処理時においても変動局所領域パターン画像を生成する。このとき生成される変動局所領域パターンは、基準局所領域毎に1つずつである。特定変動に対する各局所領域の変動パラメータは、例えば非特許文献6に開示される技術を用いて、無変動顔と特定変動顔の同一人物のペア画像の多数のサンプルを用いて、事前に学習しておくことが可能である。非特許文献6では、特定の顔向き変動属性に対応する局所領域毎のアフィン・パラメータを学習しており、本実施形態はこれを踏襲している。
 ここで推定された変動パラメータは、基準変動パラメータとなり、登録処理時には、各局所領域で基準変動パラメータに基づく変動処理を行い生成した変動局所領域パターン画像を用いて、登録特徴ベクトルを生成する。
 評価処理の場合、変動属性に基づき定められた基準変動パラメータに対し、式(7)で説明したような変動値を加えることにより、変動範囲を設定する。すなわち基準変動パラメータが式(6)で表されるとすると、変動範囲は次式(9)の変動値Δa1,Δa2,Δa3,Δb1,Δb2,Δb3を所定範囲で所定幅で振った組合せで表される複数のアフィン・パラメータとなる。
Figure JPOXMLDOC01-appb-M000009
 このように顔の変動属性が判別可能な場合は、合致する可能性の高い変動パラメータの近傍のみを変動範囲とすることにより、変動局所領域パターンを生成する負荷を限定しつつ、良好な判別を行うことが可能となる。
 尚、アフィン変換に限らず、実施形態3と同様、共一次変換や他の任意の変動処理に対して、本実施形態と同様の手法を適用することが可能であるのは言うまでもない。また、本実施形態では、評価処理時に基準変動パラメータ以外の複数の変動処理を行うものとして説明したが、登録処理時に複数変動処理を行うようにしても良いのは実施形態3と同様である。さらに、実施形態4と同様、すでに処理済みの基準局所領域に対する変動パラメータに基づき、これから処理する基準局所領域の変動範囲を限定してゆくことももちろん可能である。
 <実施形態6>
 本発明は顔認識処理に限らない他のパターン判別処理にも広く適用可能である。実施形態6としては、検出対象物である特定部品の位置および姿勢を画像中より検出する検出処理に対して、本発明を適用する例を説明する。
 図29は、本実施形態のパターン検出処理装置が検出対象物とするある機械部品の一例である。この機械部品は、回転変動部3101と他の無変動部より構成されている。回転変動3101は自由に回転するため、この部品の見え方は、図29の(a)だけでなく、例えば(b)や(c)のように変動する。
 図28は本実施形態のパターン検出処理装置の構成を示す図である。図の中で、2901は前処理部を、2902は部分領域選択部を、2903は変動テンプレート生成部を、2904はスキャン部を、2905は投票部を、2906は対象物検出部を示す。また、2907は基準テンプレート保持部を、2908は変動パラメータ保持部を示す。
 前処理部2901は、続くテンプレートとのマッチング処理に適した状態に入力画像を処理する。ここでは例えば、フィルタ演算によるエッジ抽出処理等を行う。
 部分領域選択部2902は、検出対象部品上に設定されている複数の一部領域の中から一つを選択し、基準部分領域テンプレート保持部2907に保持されている当該領域に対応する基準部分領域テンプレートを選択して設定する。ここで基準部分領域テンプレートとは、検出対象物の所定の局所領域の画像パターンである基準局所領域パターンを検出するためのテンプレートである。このテンプレートは検出処理に先立ち、予め登録用の部品画像から切り出して基準部分領域テンプレート保持部2907(すなわち基準局所領域パターン保持手段)に記憶されている。
 変動テンプレート生成部2903は、選択された基準部分領域テンプレートが検出対象部品の変動部分である場合に、所定の変動範囲に基づき、複数の変動テンプレートを生成する。
 スキャン部2904とは、すなわち局所領域パターン検出部である。処理対象画像に対して、変動テンプレートと同サイズのサブウィンドウをスキャンさせて、変動テンプレートに合致する部分が検出された場合にはその位置を出力する。
 投票部2905は、内部に部品の各姿勢に応じた投票平面を持ち、スキャン部2904より得られた変動テンプレートと合致する位置情報に基づき、相対的な部品の中心位置に対応する投票平面上の位置に投票を行う。すなわち、各姿勢に対応する投票平面は、入力画像全域に対応する二次元ヒストグラムである。
 対象物検出部2906は、各投票平面のヒストグラム・ビンから閾値以上のものを探索して対応する姿勢の検出対象部品が、ビンに対応する入力画像上の位置に存在することを検出する。
 続いて図29のフローチャートを使用して、本実施形態の部品検出処理動作を説明する。
 ステップS3001では、前処理部2901により検出処理に適した状態に入力画像を変換する。本実施形態では、エッジ画像を対象部品の部分テンプレートとして使用するため、ここではエッジ抽出を行う。以後の処理は入力画像を変換したエッジ抽出画像に対して行われる。
 ステップS3002は、部分領域選択部2902により行われる部分領域テンプレート選択処理であり、まず、検出対象部分の一部分に対応する予め設定されている複数の部分領域の内の一つを選択する。部分領域とは、例えば図29(d)に示す3201や3202の枠内に対応する部分であり、他に不図示の部分領域も存在する。そして、基準部分領域テンプレート保持部2907に保持されている当該部分領域に対応する基準部分領域テンプレートを選択して設定する。本実施形態においては、この基準部分領域テンプレートはエッジ画像である。
 続くステップS3003では、選択された基準部分領域が変動部分であるか否かを判別する。図29(d)においては、3201が回転変動を行う部分であるので変動部分、3202は特に変形しない部分であるため非変動部分である。変動部分か否かの情報は、部分領域毎に属性として保持されている。変動部分でない場合には、ステップS3005に進み、基準部分領域テンプレートをそのまま以後の処理に適用する。
 変動部分である場合には、ステップS3004で、変動テンプレート生成部2903により変動テンプレート生成を行う。各部分領域に対応する変動範囲は、変動パラメータ保持部2908に保持されている変動パラメータにより定められる。本ステップでは、変動範囲の各変動パラメータに対応する変動を、基準部分領域テンプレートに適用して、複数のテンプレートを生成する。例えば、領域3201は回転部分であるので、同図(e)の3203、3204、3205に一部を示すように、3201に対応する基準部分領域テンプレートを少しずつ回転処理した変動テンプレートを生成する。尚、ここでは不図示であるが、3201は360°自由回転かつ回転軸対象であるので、変動テンプレートは0°~180°の範囲で所定ステップ毎に生成される。
 続くステップS3006では、各変動テンプレートを順に用いて、ステップS3001で前処理された前処理画像に対して、変動テンプレートと合致する領域をスキャンする。この処理はスキャン部2904で行われる。本実施形態では、従来技術の画素差分総和値(SSD)に基づくテンプレート・マッチング処理を行うが、実施形態1で説明したCNN等のより高性能なパターン検出器を使用することももちろん可能である。
 ステップS3007では、投票部2905において、ステップS3006で検出された基準部分領域テンプレートもしくは変動テンプレートに合致する位置に基づき、投票平面に投票を行う。ここで投票平面とは、概念的に入力画像と同サイズの二次元配置されたヒストグラムである。但し、必ずしも入力画像の1画素がヒストグラムの1ビンに対応する訳ではなく、要求される位置の精度に基づき、隣接する複数画素領域(典型的には所定サイズの矩形領域)を一つのビンとして表す。さらに、検出したい部品の姿勢数と同じだけの投票平面を用意する。
 例えば、画像中で正立(部品の中心軸3102が垂直方向)姿勢である対象部品を検出するための投票平面に対する投票先のビンの相対的な位置は、図29(d)の3207で示される。3207は部品の中心位置であって、正立姿勢であれば、3202の基準部分領域テンプレートに合致した位置3206から、所定距離上方向に離れた位置に存在する。投票平面上では、3206に相当する部分領域検出位置から、相対的に上方向の部品中心位置3207に相当するビンに対して、インクリメントする処理を行う。このときのインクリメント量は、SSD値が所定閾値以上の場合は常に1としても良いし、閾値を超えた差分値(すなわち合致度)に基づく量としても良い。また、投票平面上の1ビンのみ投票するのではなく、ガウシアン分布等ある程度の広がりを持たせて、隣接する複数のビンに所定のインクリメント量を加えるようにしても良い。
 また、変動テンプレートの何れかと合致した、回転変動する部分領域3201に対応する投票ついては、常に回転中心位置3208を基準として、所定距離下方向の部品中心位置3207に相当する投票平面上のビンに対して行う。こうすることで、3204、3205、3206或いは不図示の他の変動テンプレート何れに合致した際にも、同様の投票結果が期待できる。
 このように、不図示の部分も含めて、各部分領域に合致した際の投票先を、部品中心位置に集中させることにより、部品中心が存在する位置のビンの値が高くなり、画像中に存在する各姿勢の部品の位置を検出できるようになる。
 ステップS3008においては、基準部分領域に対する全ての変動テンプレート(非変動部分については基準部分領域テンプレート)に対する投票が完了したか否かを判別する。完了していなければ残りの変動テンプレートに対する処理をステップS3006から繰り返す。
 そしてステップS3008において、全ての部分領域に対する投票処理が完了したかどうかを判別し、完了していない場合は、ステップS3002からの処理を繰り返す。
 ステップS3010では、対象物検出部2906により位置姿勢判別が実行される。具体的には、各投票平面のヒストグラム・ビンから閾値以上のものを探索して、対応する姿勢の検出対象部品が、ビンに対応する入力画像上の位置に存在することを検出する。
 尚、変動テンプレートのスキャン結果は、複数の投票平面で共用して利用することが可能である。図29(f)は部品が右45°に回転した姿勢に対応する投票平面における投票の様子を表している。3209の部分領域は、回転部分が部品の軸に対して水平方向を向いている(つまり3201相当)が、(e)における部分領域3205相当の変動テンプレートと全く同じテンプレートを使用できる。すなわち3205相当の変動テンプレートによるスキャン結果に基づき投票する際には、正立姿勢の投票平面だけでなく右45°姿勢の投票平面にも投票を行うとスキャン処理を省略できることになる。
 投票平面は部品の360°いずれの姿勢にも対応すべく用意され、かつ回転部品もいずれの回転方向にも向き得るため、本実施形態における全ての変動テンプレートのスキャン結果は、全ての投票平面への投票に用いることができる。もちろん各投票平面において投票するビンの相対位置は異なったものとなる。例えば(f)に相当する右45°姿勢の投票平面では225°方向に所定距離離れた部品中心に対応するビンへと投票される。
 また3202のような非変動部分については、各基準部分領域テンプレートのスキャン結果は、特定姿勢に対応する投票平面のみに投票される。各姿勢に対応する基準部分領域は、一つの基準部分領域テンプレートから生成することが可能である。例えば(f)における部分領域3210に対応するテンプレートは、(d)の3202に対応する基準部分領域テンプレートを右45°回転することにより生成している。
 尚、変動部分に対する変動テンプレートや各姿勢に対応する基準部分領域テンプレートを、検出処理時に生成するのではなく、事前に必要分生成しておくこともできる。しかし、検出処理が高速化される代わりに、保持しなければならないテンプレートのデータ量が大幅に増大する。
 〔他の柔軟部品の例〕
 図30は、本実施形態の部品検出処理装置で検出可能な他の部品を示している。この部品は、図29の部品と同様の非変動部分に、ゴム状の柔軟部3301を介して変動部分3302が接続された構造となっている。この部品は(a)の状態を基本として、(b)や(c)のように変動部分3302が所定範囲で左右に振れた状態と成り得るが、図29の部品と異なり変動部分が制限無しで回転してしまう訳ではない。
 このような部品も、本実施形態の部品検出処理装置で検出することができる。ここで変動部分3302に対する基準部分領域テンプレートは、図30(d)の部分領域3401に対応するものとなる。この変動部分は、点3402を回転中心として±45°の範囲で変動する。
 図29の部品と同様、各変動テンプレートによるスキャン結果は、複数の姿勢に対応する投票平面へ投票されるが、変動範囲に制限があるため、360°すべての姿勢に対する投票平面に投票されるわけではない。3403の円弧は3401のテンプレートのスキャン結果が投票される投票平面の範囲を示している。この場合は、正立状態に対して±45°の範囲の姿勢に対する投票平面に投票される。
 また、図30の(e)では、変動部分を左に10°程度傾けた変動テンプレートに合致した成立部品を表しているが、この場合の投票平面の範囲は-10±45°の姿勢に対応する平面となり、正立姿勢も含まれるため正しく検出することが可能である。
 図30(f)は左に30°傾いた姿勢の部品の投票の様子を示している。このとき変動部分3405の角度は、(e)の3404と一致していおり、同じ変動テンプレートによるスキャン結果が用いられる。同じく-10±45°の範囲に-30°姿勢に対応する投票平面が含まれるため、正しく検出を行うことが可能となる。
 以上、本実施形態によれば、変動部分を備えた部品に対しても、全域が非変動部分である部品と同様の精度で、画像中に存在する位置と姿勢とを特定することができる。尚、本実施形態では投票に基づく検出処理を行う例を示したが、部分領域に基づく検出処理を行うものであれば、本発明を適用可能である。また、本実施形態では変動部分を回転あるいは範囲限定付き回転としたが、実施形態1~3で説明したアフィン変換などの変動処理に適合する変形であっても、同様に適用可能である。さらに、説明を簡単にするため、検出する姿勢を面内回転のみとしたが、顔と同様に、奥行き方向の姿勢変動であっても適用可能である。
 また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ読取可能な記憶媒体を、システムあるいは装置に供給するよう構成することによっても達成できる。この場合、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出して実行することにより、上記機能が実現されることとなる。なお、この場合、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。

Claims (18)

  1.  入力パターンと登録パターンとを局所領域で比較することにより、入力パターンの属するクラスを判別するパターン処理装置であって、
     前記入力パターン及び前記登録パターンに、局所領域を設定する局所領域設定手段と、
     前記入力パターンと前記登録パターンの少なくともいずれかに設定された前記局所領域に基づき、複数の変動局所領域パターンを生成する変動局所領域生成手段と、
     前記入力パターンに設定された前記局所領域のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンと、当該局所領域に対応する前記登録パターンに設定された前記局所領域内のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンとの組合せに対する複数の類似度を求める類似度算出手段と、
     前記局所領域毎に、前記入力パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンと、前記登録パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンとの組合せに対する前記複数の類似度から、前記入力パターンの前記局所領域に対応する前記登録パターンの前記局所領域との類似度としての代表類似度を求める代表類似度算出手段と、
     前記代表類似度算出手段で求められた代表類似度に基づいて、入力パターンの属するクラスを判別する判別手段と
     を有することを特徴とするパターン処理装置。
  2.  検出対象物のパターンの複数の局所領域の各々に対応する局所領域パターンの検出結果に基づき、入力パターンの中に存在する検出対象物を検出するパターン処理装置であって、
     前記局所領域パターンのそれぞれの基準となる基準局所領域パターンを記憶する基準局所領域パターン保持手段と、
     前記基準局所領域パターンの少なくとも一つに基づき、複数の変動局所領域パターンを生成する変動局所領域生成手段と、
     前記入力パターンの中から、前記基準局所領域パターンもしくは前記複数の変動局所領域パターンを検出する局所領域パターン検出手段と、
     前記局所領域パターン検出手段による複数の局所領域パターンの検出結果を統合して、入力パターンの中の検出対象物を検出する対象物検出手段と、
     を有することを特徴とするパターン処理装置。
  3.  前記変動局所領域生成手段は、前記局所領域の位置を所定の探索範囲内で移動させた位置からパターンを切り出すことにより、前記複数の変動局所領域パターンを生成することを特徴とする請求項1または2に記載のパターン処理装置。
  4.  前記変動局所領域生成手段は、前記局所領域の近傍のパターンを複数の角度に回転処理することにより、前記複数の変動局所領域パターンを生成することを特徴とする請求項1または2に記載のパターン処理装置。
  5.  前記変動局所領域生成手段は、前記局所領域の近傍のパターンを複数の拡大率で変倍処理することにより、前記複数の変動局所領域パターンを生成することを特徴とする請求項1または2に記載のパターン処理装置。
  6.  前記変動局所領域生成手段は、前記局所領域の近傍のパターンを複数の変動パラメータに基づき変形処理することにより、前記複数の変動局所領域パターンを生成することを特徴とする請求項1または2に記載のパターン処理装置。
  7.  前記入力パターンもしくは前記登録パターンの変動属性を判別する変動属性判別手段とをさらに備え、
     前記変動属性判別手段により判別した前記変動属性に基づき、前記変動局所領域生成手段における変動範囲を決定することを特徴とする請求項3乃至6のいずれか1項に記載のパターン処理装置。
  8.  パターンの特徴点を検出する特徴点検出手段をさらに備え、
     前記局所領域設定手段は、前記特徴点検出手段の特徴点検出結果に基づき前記局所領域を設定し、
     前記変動局所領域生成手段は、前記特徴点検出手段で得られる特徴点検出結果と前記特徴点検出手段の特徴点検出の推定誤差に関する情報に基づいて、変動範囲を決定することを特徴とする請求項3乃至7のいずれか1項に記載のパターン処理装置。
  9.  前記特徴点の検出の推定誤差に関する情報は、特徴点の存在確率分布を反映する分布であり、
     前記変動局所領域生成手段は、前記特徴点検出手段での特徴点の検出結果と前記特徴点の存在確率分布を反映する分布のうち所定のしきい値以上となる点に関する領域とに基づいて、変動範囲を設定することを特徴とする請求項8に記載のパターン処理装置。
  10.  前記変動局所領域生成手段は、前記入力パターンと前記登録パターンとの少なくともどちらか一つのパターンに対する推定誤差に関する情報に基づいて、変動範囲を決定することを特徴とする請求項8又は9に記載のパターン処理装置。
  11.  前記変動局所領域生成手段は、変動範囲を前記入力パターンと前記登録パターンとに係わらず予め設定された値とすることを特徴とする請求項8又は9に記載のパターン処理装置。
  12.  前記変動局所領域生成手段は、前記局所領域毎に変動範囲を設定することを特徴とする請求項8又は9に記載のパターン処理装置。
  13.  前記代表類似度算出手段は、前記局所領域毎に、前記入力パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンと、前記登録パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンとの複数の組合せに対して算出された複数の類似度の最大値を、代表類似度として求めることを特徴とする請求項1乃至12のいずれか1項に記載のパターン処理装置。
  14.  前記代表類似度算出手段は、前記局所領域毎に、前記入力パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンと、前記登録パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンとの複数の組合せに対して算出された複数の類似度の中に、所定のしきい値以上の類似度が複数ある場合、前記局所領域設定手段で設定された前記局所領域に対して最も変動の少ない変動局所領域パターンに対する類似度を代表類似度として求めることを特徴とする請求項1乃至12のいずれか1項に記載のパターン処理装置。
  15.  入力パターンと登録パターンとを局所領域で比較することにより、入力パターンの属するクラスを判別するパターン処理方法であって、
     前記入力パターン及び前記登録パターンに、局所領域を設定する局所領域設定工程と、
     前記入力パターンと前記登録パターンの少なくともいずれかに設定された前記局所領域に基づき、複数の変動局所領域パターンを生成する変動局所領域生成工程と、
     前記入力パターンに設定された前記局所領域のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンと、当該局所領域に対応する前記登録パターンに設定された前記局所領域内のパターンもしくは前記局所領域に基づく前記複数の変動局所領域パターンとの組合せに対する複数の類似度を求める類似度算出工程と、
     前記局所領域毎に、前記入力パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンと、前記登録パターンに設定された前記局所領域のパターンもしくは前記複数の変動局所領域パターンとの組合せに対する前記複数の類似度から、前記入力パターンの前記局所領域に対応する前記登録パターンの前記局所領域との類似度としての代表類似度を求める代表類似度算出工程と、
     前記代表類似度算出工程で求められた代表類似度に基づいて、入力パターンの属するクラスを判別する判別工程と
     を有することを特徴とするパターン処理方法。
  16.  コンピュータに請求項15に記載のパターン処理方法を実行させることを特徴とするプログラム。
  17.  検出対象物のパターンの複数の局所領域の各々に対応する局所領域パターンの検出結果に基づき、入力パターンの中に存在する検出対象物を検出するパターン処理方法であって、
     前記局所領域パターンのそれぞれの基準となる基準局所領域パターンの少なくとも一つに基づき、複数の変動局所領域パターンを生成する変動局所領域生成工程と、
     前記入力パターンの中から、前記基準局所領域パターンもしくは前記複数の変動局所領域パターンを検出する局所領域パターン検出工程と、
     前記局所領域パターン検出工程による複数の局所領域パターンの検出結果を統合して、入力パターンの中の検出対象物を検出する対象物検出工程と、
     を備えたことを特徴とするパターン処理方法。
  18.  コンピュータに請求項17に記載のパターン処理方法を実行させることを特徴とするプログラム。
PCT/JP2010/060181 2009-06-16 2010-06-16 パターン処理装置及びその方法、プログラム WO2010147137A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/963,568 US9117111B2 (en) 2009-06-16 2010-12-08 Pattern processing apparatus and method, and program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009143618 2009-06-16
JP2009-143618 2009-06-16
JP2010136066A JP5709410B2 (ja) 2009-06-16 2010-06-15 パターン処理装置及びその方法、プログラム
JP2010-136066 2010-06-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/963,568 Continuation US9117111B2 (en) 2009-06-16 2010-12-08 Pattern processing apparatus and method, and program

Publications (1)

Publication Number Publication Date
WO2010147137A1 true WO2010147137A1 (ja) 2010-12-23

Family

ID=43356453

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/060181 WO2010147137A1 (ja) 2009-06-16 2010-06-16 パターン処理装置及びその方法、プログラム

Country Status (3)

Country Link
US (1) US9117111B2 (ja)
JP (1) JP5709410B2 (ja)
WO (1) WO2010147137A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012036669A1 (en) * 2010-09-13 2012-03-22 Hewlett-Packard Development Company, L.P. Smile detection systems and methods
JP5791361B2 (ja) * 2011-05-09 2015-10-07 キヤノン株式会社 パターン識別装置、パターン識別方法およびプログラム
JP5791373B2 (ja) * 2011-05-24 2015-10-07 キヤノン株式会社 特徴点位置決定装置、特徴点位置決定方法及びプログラム
KR20130000828A (ko) * 2011-06-24 2013-01-03 엘지이노텍 주식회사 얼굴 피쳐 검출 방법
JP5919665B2 (ja) * 2011-07-19 2016-05-18 日本電気株式会社 情報処理装置、物体追跡方法および情報処理プログラム
JP6242563B2 (ja) * 2011-09-09 2017-12-06 株式会社メガチップス 物体検出装置
KR101130817B1 (ko) * 2011-09-27 2012-04-16 (주)올라웍스 얼굴 인식 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
JP5919955B2 (ja) * 2012-03-29 2016-05-18 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP5919963B2 (ja) * 2012-03-30 2016-05-18 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP5953614B2 (ja) * 2012-11-21 2016-07-20 旭精工株式会社 ディスク判別方法、ディスク判別装置およびディスク選別装置
US9503632B2 (en) * 2012-12-04 2016-11-22 Lg Electronics Inc. Guidance based image photographing device and method thereof for high definition imaging
JP6177541B2 (ja) * 2013-02-25 2017-08-09 三菱重工メカトロシステムズ株式会社 文字認識装置、文字認識方法及びプログラム
JP6593327B2 (ja) * 2014-05-07 2019-10-23 日本電気株式会社 画像処理装置、画像処理方法およびコンピュータ可読記録媒体
EP3149611A4 (en) 2014-05-27 2017-08-09 Beijing Kuangshi Technology Co., Ltd. Learning deep face representation
US9400918B2 (en) * 2014-05-29 2016-07-26 Beijing Kuangshi Technology Co., Ltd. Compact face representation
US10089525B1 (en) 2014-12-31 2018-10-02 Morphotrust Usa, Llc Differentiating left and right eye images
US9846807B1 (en) * 2014-12-31 2017-12-19 Morphotrust Usa, Llc Detecting eye corners
US20160350336A1 (en) * 2015-05-31 2016-12-01 Allyke, Inc. Automated image searching, exploration and discovery
WO2017018012A1 (ja) * 2015-07-28 2017-02-02 ソニー株式会社 情報処理システム、情報処理方法、および記録媒体
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
US10963063B2 (en) * 2015-12-18 2021-03-30 Sony Corporation Information processing apparatus, information processing method, and program
KR101906663B1 (ko) * 2016-02-16 2018-10-12 한국과학기술원 다양한 컬러 공간에서 협동 얼굴 컬러 특징 학습 방법 및 장치
US10198624B2 (en) * 2016-02-18 2019-02-05 Pinscreen, Inc. Segmentation-guided real-time facial performance capture
US10628734B2 (en) * 2016-04-14 2020-04-21 International Business Machines Corporation Efficient determination of optimized learning settings of neural networks
KR101873645B1 (ko) * 2016-04-25 2018-07-04 한국과학기술원 딥 러닝 구조에서 최적의 성능을 위한 다중 영상 정보 생성 및 처리에 관한 방법 및 장치
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN106780662B (zh) * 2016-11-16 2020-09-18 北京旷视科技有限公司 人脸图像生成方法、装置及设备
CN106780658B (zh) 2016-11-16 2021-03-09 北京旷视科技有限公司 人脸特征添加方法、装置及设备
US10657424B2 (en) 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
US10824942B1 (en) * 2017-04-10 2020-11-03 A9.Com, Inc. Visual similarity and attribute manipulation using deep neural networks
US10832035B2 (en) * 2017-06-22 2020-11-10 Koninklijke Philips N.V. Subject identification systems and methods
WO2019003973A1 (ja) * 2017-06-26 2019-01-03 日本電気株式会社 顔認証装置、顔認証方法およびプログラム記録媒体
US10719737B2 (en) 2018-08-23 2020-07-21 Denso International America, Inc. Image classification system for resizing images to maintain aspect ratio information
CN111340932A (zh) * 2018-12-18 2020-06-26 富士通株式会社 图像处理方法以及信息处理设备
CN109784398B (zh) * 2019-01-11 2023-12-05 广东奥普特科技股份有限公司 一种基于特征尺度和子类分裂的分类器
CN110532965B (zh) * 2019-08-30 2022-07-26 京东方科技集团股份有限公司 年龄识别方法、存储介质及电子设备
CN113569595B (zh) * 2020-04-28 2024-03-22 富泰华工业(深圳)有限公司 身份辨识装置以及身份辨识方法
US11908233B2 (en) 2020-11-02 2024-02-20 Pinscreen, Inc. Normalization of facial images using deep neural networks
US20230087476A1 (en) * 2021-09-17 2023-03-23 Kwai Inc. Methods and apparatuses for photorealistic rendering of images using machine learning
CN117196070B (zh) * 2023-11-08 2024-01-26 山东省计算中心(国家超级计算济南中心) 一种面向异构数据的双重联邦蒸馏学习方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004612A (ja) * 2003-06-13 2005-01-06 Denso Corp 画像認識装置
JP2005346425A (ja) * 2004-06-03 2005-12-15 Matsushita Electric Ind Co Ltd 自動追尾装置及び自動追尾方法
JP2006011978A (ja) * 2004-06-28 2006-01-12 Canon Inc 画像処理方法、画像処理装置
JP2008293073A (ja) * 2007-05-22 2008-12-04 Juki Corp 画像のマッチング処理方法
JP2009075868A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2990284B2 (ja) * 1988-10-27 1999-12-13 日本精化株式会社 グリコシド誘導体、グリコシド誘導体含有重合体及びそれらの製造法
US5164992A (en) * 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
JPH0935198A (ja) * 1995-07-14 1997-02-07 Mitsubishi Electric Corp 車両用走行路検出装置
JPH1153525A (ja) * 1997-08-06 1999-02-26 Matsushita Electric Ind Co Ltd 顔器官検出装置及び媒体
JP2000090191A (ja) * 1998-09-16 2000-03-31 Ntt Data Corp 顔認識装置及び方法
JP2000311248A (ja) * 1999-04-28 2000-11-07 Sharp Corp 画像処理装置
JP2002063567A (ja) * 2000-08-23 2002-02-28 Nec Corp 物体位置姿勢推定装置及びその方法並びそれを用いた特徴点位置抽出方法及び画像照合方法
JP3764364B2 (ja) * 2000-10-31 2006-04-05 株式会社東芝 画像特徴点検出方法、画像処理方法、及びプログラム
JP4846924B2 (ja) * 2001-05-31 2011-12-28 キヤノン株式会社 パターン認識装置
JP2003178304A (ja) 2001-12-12 2003-06-27 Mitsubishi Electric Corp 顔画像検索装置、顔画像検索方法、およびその方法をコンピュータに実行させるプログラム
AU2003289116A1 (en) * 2002-12-16 2004-07-09 Canon Kabushiki Kaisha Pattern identification method, device thereof, and program thereof
JP4743823B2 (ja) * 2003-07-18 2011-08-10 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法
EP2955662B1 (en) * 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
JP4569186B2 (ja) 2004-06-15 2010-10-27 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP4757559B2 (ja) * 2004-08-11 2011-08-24 富士フイルム株式会社 被写体の構成要素を検出する装置および方法
JP2006235817A (ja) * 2005-02-23 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
JP4696857B2 (ja) 2005-11-02 2011-06-08 オムロン株式会社 顔照合装置
JP4946730B2 (ja) * 2007-08-27 2012-06-06 ソニー株式会社 顔画像処理装置及び顔画像処理方法、並びにコンピュータ・プログラム
WO2009060975A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 特徴点配置照合装置及び画像照合装置、その方法及びプログラム
US20090232365A1 (en) * 2008-03-11 2009-09-17 Cognimatics Ab Method and device for face recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004612A (ja) * 2003-06-13 2005-01-06 Denso Corp 画像認識装置
JP2005346425A (ja) * 2004-06-03 2005-12-15 Matsushita Electric Ind Co Ltd 自動追尾装置及び自動追尾方法
JP2006011978A (ja) * 2004-06-28 2006-01-12 Canon Inc 画像処理方法、画像処理装置
JP2008293073A (ja) * 2007-05-22 2008-12-04 Juki Corp 画像のマッチング処理方法
JP2009075868A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム

Also Published As

Publication number Publication date
US9117111B2 (en) 2015-08-25
JP5709410B2 (ja) 2015-04-30
US20110081089A1 (en) 2011-04-07
JP2011022994A (ja) 2011-02-03

Similar Documents

Publication Publication Date Title
JP5709410B2 (ja) パターン処理装置及びその方法、プログラム
JP5545361B2 (ja) 画像分類方法、装置、プログラム製品および記憶媒体
Russ et al. 3D face recognition using 3D alignment for PCA
Mohammadzade et al. Iterative closest normal point for 3D face recognition
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
JP4318465B2 (ja) 人物検出装置および人物検出方法
Vukadinovic et al. Fully automatic facial feature point detection using Gabor feature based boosted classifiers
JP4234381B2 (ja) 顔の特徴を位置確認するための方法及びコンピュータープログラム製品
US8577099B2 (en) Method, apparatus, and program for detecting facial characteristic points
US20040161134A1 (en) Method for extracting face position, program for causing computer to execute the method for extracting face position and apparatus for extracting face position
EP2333694A1 (en) Method for Determining Frontal Face Pose
Li et al. Efficient 3D face recognition handling facial expression and hair occlusion
CN110069989B (zh) 人脸图像处理方法及装置、计算机可读存储介质
CN108446672B (zh) 一种基于由粗到细脸部形状估计的人脸对齐方法
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
US20030161537A1 (en) Three-dimensional object recognizing apparatus, method and computer program product
JP2006004003A (ja) 画像処理装置および方法、記録媒体、並びにプログラム
JP4238537B2 (ja) 画像処理装置
JP2006202276A (ja) 画像処理方法および装置並びにプログラム
Lin et al. 3D face authentication by mutual coupled 3D and 2D feature extraction
JP5625196B2 (ja) 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体
Rabba et al. Discriminative robust gaze estimation using kernel-dmcca fusion
JP3994819B2 (ja) 画像識別装置、画像識別方法、画像識別プログラム
Bolin et al. An automatic facial feature finding system for portrait images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10789511

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10789511

Country of ref document: EP

Kind code of ref document: A1