WO2012169251A1 - 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体 - Google Patents

画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体 Download PDF

Info

Publication number
WO2012169251A1
WO2012169251A1 PCT/JP2012/056516 JP2012056516W WO2012169251A1 WO 2012169251 A1 WO2012169251 A1 WO 2012169251A1 JP 2012056516 W JP2012056516 W JP 2012056516W WO 2012169251 A1 WO2012169251 A1 WO 2012169251A1
Authority
WO
WIPO (PCT)
Prior art keywords
point
image
specifying
position information
reference point
Prior art date
Application number
PCT/JP2012/056516
Other languages
English (en)
French (fr)
Inventor
淳 入江
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to CN201280025429.5A priority Critical patent/CN103562964B/zh
Priority to EP12796871.7A priority patent/EP2720194A4/en
Priority to US14/122,600 priority patent/US9607209B2/en
Priority to KR1020137030996A priority patent/KR101525133B1/ko
Publication of WO2012169251A1 publication Critical patent/WO2012169251A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Definitions

  • the present invention relates to an image processing apparatus, an information generation apparatus, an image processing method, an information generation method, a control program, and a recording medium for detecting part points such as contour points and feature points of objects such as eyes and mouths. .
  • Patent Document 1 a search range such as an eye or mouth is set around a center point such as an eye or mouth designated by the user, and the set search range is scanned, based on color components or the like.
  • a technique for extracting an eye area, a mouth area, and the like is described.
  • Patent Document 1 specifies left and right end points such as the extracted eye region and mouth region, and sets a search range for searching for upper and lower end points such as the eye region and mouth region based on the left and right end points. Is described.
  • Patent Document 2 when extracting eye contour points, the left and right end points of the eye are used as reference points, a dynamic contour model is fitted based on the reference points, and the eye contour points are extracted by energy minimization. It is described to do.
  • fitting method based on a shape model or a texture model as a method for detecting the contour points of eyes and mouth from a face image.
  • fitting techniques such as ASM (Active Shape Model), AAM (Active Appearance Model), ASAM (Active Structure Appearance Model) described in Non-Patent Documents 1 and 2 and Patent Documents 3 and 4.
  • the ASM, AAM, and ASAM shape models are models that express the shape and texture of the face with a small number of parameters. These are principal feature analysis applied to face feature point coordinate information and texture information, and the feature point coordinates of the face are expressed by only the basis vectors obtained by the basis vector having large eigenvalues. This not only represents the shape of the face with a small amount of data, but can also have a constraint condition for maintaining the shape of the face.
  • the feature point coordinates of the face are detected by fitting this model to the face image by energy minimization in ASM and AAM, and by calculating the model parameter error in ASAM.
  • the facial expression changes in various ways and there are various variations. Therefore, it is difficult to predict all the shape states of objects such as eyes and mouths that change into various shapes. Therefore, it is difficult for the above-described conventional techniques to detect the contour points of an object whose shape changes greatly, such as the contour points of eyes and mouth, with high accuracy.
  • ASM and AAM have a drawback that the search process takes a lot of calculation time.
  • AAM needs to prepare a shape model for each individual, and there is a problem that fitting accuracy with respect to another person's face is low.
  • ASAM was able to achieve high speed and high accuracy for ASM and AAM.
  • ASAM can obtain a highly accurate detection result by using the shape of the face as a constraint for a face with little change in facial expression.
  • ASAM cannot detect a facial expression whose opening / closing state and shape state such as the mouth and eyes greatly change with high accuracy. This is because the face shape model used by ASAM is a global model that expresses the shape of the entire face, and it is impossible to accurately express changes for each part such as eyes and mouth, such as opening and closing and shape change.
  • the present invention has been made in view of the above-described problems, and an object of the present invention is to detect an object shape on an image with high accuracy even if the object changes into various shapes.
  • An information generation apparatus, an image processing method, an information generation method, a control program, and a recording medium are realized.
  • An image processing apparatus is an image processing apparatus for detecting a part point of an object from an image in order to solve the above problem, and a reference point specifying unit for specifying a reference point for the part point on the image And for each of a plurality of sampling points with respect to the reference point, a feature amount is extracted from a pixel at the sampling point or a pixel group including the pixel, and is configured from a plurality of feature amounts respectively corresponding to the extracted sampling points.
  • Feature quantity extraction means for extracting a feature quantity group for the reference point; a feature quantity group for the reference point extracted from each pixel or each pixel group of the plurality of sampling points; and a relative position of the part point to the reference point
  • Position information for specifying position information corresponding to the feature quantity group extracted by the feature quantity extraction means with reference to correspondence information indicating a correspondence relation with position information indicating the position A constant section, and a position indicated by the position information identified above position information specifying means characterized by comprising a detection-side site point specifying means to the site point of the object.
  • An image processing method is an image processing method for detecting a part point of an object from an image in order to solve the above problem, and a reference point specifying step for specifying a reference point for the part point on the image And for each of a plurality of sampling points with respect to the reference point, a feature amount is extracted from a pixel at the sampling point or a pixel group including the pixel, and is configured from a plurality of feature amounts respectively corresponding to the extracted sampling points.
  • a feature amount extracting step for extracting a feature amount group with respect to the reference point; a feature amount group with respect to the reference point extracted from each pixel or each pixel group of the plurality of sampling points; and a relative of the part point with respect to the reference point
  • the position information corresponding to the feature quantity group extracted in the feature quantity extraction step is referred to by referring to the correspondence relation information indicating the correspondence relation with the position information indicating the position.
  • a position information specifying step of specifying a is the position indicated by the position information specified in the position information specifying step characterized in that it comprises a site point specifying step of the site point of the object.
  • the position information specifying means calculates a feature amount group with respect to the reference point extracted from each pixel or each pixel group of the plurality of sampling points and a relative position of the part point with respect to the reference point.
  • the position information corresponding to the feature quantity group extracted by the feature quantity extraction means is specified with reference to the correspondence relation information indicating the correspondence relation with the indicated position information, and the detection side part point specifying means is the position information specification
  • the position indicated by the position information specified by the means is set as the part point of the object.
  • the inventors of the present invention have, for example, a correlation between a feature amount group extracted from a region including an organ such as an eye and a mouth on an image and a contour position of the organ or a relative position of the feature point with respect to a reference point on the image. I found that there is a relationship. Based on this knowledge, by referring to the correspondence information indicating the correspondence between the feature quantity group and the position information, even if the object changes in shape, the part point of the object on the image can be detected with high accuracy. It was possible to do it. That is, the image processing apparatus and the image processing method have an effect that the part point of the object can be detected with high accuracy even when the shape of the object changes.
  • the image processing apparatus includes a reference point specifying unit that specifies a reference point for the part point on the image, and a pixel of the sampling point or a plurality of sampling points for the reference point.
  • a feature amount extracting unit that extracts a feature amount from the pixel group including the pixel and extracts a feature amount group with respect to the reference point, the feature amount extracting unit including a plurality of feature amounts respectively corresponding to the extracted sampling points;
  • correspondence information indicating the correspondence between the feature amount group for the reference point extracted from each pixel or each pixel group of the sampling point and the positional information indicating the relative position of the part point with respect to the reference point.
  • a position information specifying means for specifying position information corresponding to the feature quantity group extracted by the feature quantity extracting means; and a position indicated by the position information specified by the position information specifying means. It is a configuration that a detection side portion point specifying means to the site point of the object.
  • the image processing method includes a reference point specifying step for specifying a reference point for the part point on the image, and a pixel at the sampling point or the pixel for each of a plurality of sampling points with respect to the reference point.
  • a feature amount extracting step for extracting a feature amount group with respect to the reference point, wherein the feature amount is extracted from the pixel group including the plurality of feature amounts respectively corresponding to the extracted sampling points; and
  • the feature quantity A position information specifying step for specifying position information corresponding to the feature quantity group extracted in the extraction step, and a specifying in the position information specifying step. Position indicated by the positional information and a site point specifying step of the site point of the object.
  • the image processing apparatus and the image processing method have an effect of being able to detect a part point of an object with high accuracy even when the shape of the object changes.
  • FIG. 1 showing an embodiment of the present invention, is a block diagram illustrating a configuration of a main part of a part point detection device.
  • FIG. It is a schematic diagram which shows the outline
  • FIG. It is a schematic diagram which shows the outline
  • the inventors of the present invention have a correlation between a feature amount group extracted from a region including an organ such as an eye and a mouth on an image and a contour point or a feature point position of the organ with a reference point on the image as an origin. I found that there is a relationship. Based on this knowledge, a model showing the correspondence between the feature quantity group and the position was created by regression analysis, and a detection method using this model was invented.
  • LRF Local Regression Fitting
  • the present inventors have invented that using the LRF detection method in combination with the conventional global fitting that captures the general shape of the face is an optimal method that can accurately detect the face and each organ. did. Specifically, global fitting that captures the global shape of the face using a global model based on a learning method such as ASAM, and details of each organ using a local model for each facial organ based on the LRF learning method Hierarchical fitting combined with local fitting (LRF detection method) that captures various shapes was devised.
  • the hierarchical fitting is first performed by global fitting by temples (two places), the right and left eyebrows and eyebrows, the eyes and eyes of both eyes, the nostrils (two places), The mouth corners (two places) and the tip of the jaw are detected. Then, other face, eyebrow, eye, nose and mouth contour points are detected by the LRF detection method. Based on the contour points detected by the global fitting and LRF detection method, the contour of the face and each organ is detected.
  • a part point detection device image processing device
  • detects a part point such as a contour point or a feature point of an object on an image by an LRF detection method
  • a model is generated by an LRF learning method
  • the LRF learning device information generation device to be performed will be described with reference to FIGS.
  • the site point detection device and the LRF learning device are described as separate devices, but the site point detection device and the LRF learning device may be an integrated device.
  • the LRF learning device In an image acquired from another device or an image captured by a camera mounted on the own device, the LRF learning device detects the relative position of the part point of the object with respect to the reference point on the image and the image based on the part point. It is an apparatus which produces
  • the LRF learning device may be, for example, a PC, a digital camera, a mobile phone, a PDA (Personal Digital Assistant), a game machine, a device that captures and prints a photo, a device that edits an image, and the like.
  • an object having a target site point for learning the correspondence relationship is a human eye or mouth, but is not limited thereto.
  • it may be the face or organ of an animal such as a dog or cat, a mobile phone or a television, or a building or a cloud.
  • the part point of the object is a point in the region of the object on the image. Specifically, for example, when the object is an eye, it is an eye contour point or a pupil point.
  • a part point of an object for which the LRF learning device learns the correspondence relationship is referred to as a learning target point, and an object having the learning target point is referred to as a learning target object.
  • FIG. 3 is a block diagram illustrating an example of a main configuration of the LRF learning device 2.
  • the LRF learning device 2 includes a control unit 16, a storage unit 17, an image input unit 13, an operation unit (input unit) 14 and a display unit 15.
  • the LRF learning device 2 may include members such as a communication unit, a voice input unit, and a voice output unit for communicating with other devices. Not shown.
  • the image input unit 13 receives an image from an external image providing device (not shown).
  • the image providing apparatus may be anything as long as it is an apparatus that provides a held image or an acquired image to another apparatus.
  • the image providing device is a storage device such as a digital camera, a PC, a mobile phone, a PDA, a game machine, a digital TV, or a USB (Universal Serial Bus) memory.
  • the LRF learning device 2 may include a camera instead of the image input unit 13.
  • the operation unit 14 is for the user to input an instruction signal to the LRF learning device 2 and operate the LRF learning device 2.
  • the operation unit 14 may be configured with input devices such as a keyboard, a mouse, a keypad, and operation buttons. Further, a touch panel in which the operation unit 14 and the display unit 15 are integrated may be used. Further, the operation unit 14 may be a remote control device such as a remote controller separate from the LRF learning device 2.
  • the display unit 15 displays an image in accordance with an instruction from the control unit 16.
  • the display unit 15 only needs to display an image in accordance with an instruction from the control unit 16, and for example, an LCD (liquid crystal display), an organic EL display, a plasma display, or the like can be applied.
  • the control unit 16 performs various calculations by executing a program read from the storage unit 17 to a temporary storage unit (not shown), and comprehensively controls each unit included in the LRF learning device 2. is there.
  • control unit 16 includes, as functional blocks, an image acquisition unit (image acquisition unit) 21, a region cutout unit 22, a reference point specification unit (reference point specification unit) 23, a part point specification unit (learning side part point). Specifying means) 24, sampling position specifying section (sampling position specifying means) 25, feature quantity extracting section (feature quantity extracting means) 26, position information generating section (position information generating means) 27, and LRF function calculating section (corresponding relationship information generating) Means) 28 is provided.
  • Each functional block (21 to 28) of the control unit 16 includes a program stored in a storage device realized by a CPU (central processing unit), a ROM (read only memory), and the like (random access memory). This can be realized by reading out and executing the temporary storage unit realized by the above.
  • the image acquisition unit 21 acquires an image input via the image input unit 13.
  • the image acquisition unit 21 outputs the acquired image to the region cutout unit 22. Note that when an image is stored in the storage unit 17, the image acquisition unit 21 may read the image from the storage unit 17.
  • the region cutout unit 22 extracts a learning target region image, which is an image of a region including a learning target point, from the acquired image based on a predetermined learning target region image extraction method.
  • the area cutout unit 22 normalizes the extracted learning target area image based on a predetermined normalization method, and generates a normalized image.
  • the region cutout unit 22 outputs the generated normalized image to the reference point specifying unit 23, the part point specifying unit 24, and the sampling position specifying unit 25.
  • the region cutout unit 22 extracts a face image from the acquired image, and the extracted face image is, for example, 100 pixels ⁇ 100 pixels.
  • the normalized image is generated by correcting the image.
  • the learning target region image extraction method and the normalization method may be determined in advance for each part point (learning target point) of the object, and a specific method may be arbitrary.
  • an image acquired by the image acquisition unit 21 that is a source of the normalized image is referred to as an original image.
  • the reference point specifying unit 23 acquires a normalized image from the region cutout unit 22, and specifies a predetermined point on the normalized image acquired based on a predetermined reference point specifying method as a reference point.
  • the reference point specifying unit 23 outputs reference coordinates, which are coordinates on the normalized image of the specified reference point, to the position information generating unit 27.
  • the reference point specifying unit 23 specifies the center point of the eyes on the normalized image as the reference point.
  • the reference point specifying unit 23 may display the normalized image on the display unit 15 and instruct the user to specify the center point of the eyes, and specify the point specified by the user as the reference point.
  • the reference point specifying unit 23 may specify the midpoint of the eye point and the eye corner point as the reference point based on the eye eye point and the eye corner point specified when the region cutout unit 22 extracts the face image. Good.
  • the reference point specifying unit 23 refers to the metadata (reference point position information) associated with the original image, and based on the position of the center point of the eye indicated by the metadata, the reference point specifying unit 23 performs the reference by affine transformation or the like.
  • a point may be specified.
  • the LRF learning device 2 performs learning, the position of the center point of the eye on the original image is specified in advance for each original image, and information indicating the position of the specified center point of the eye is provided.
  • the included metadata is associated with the original image.
  • the metadata may include information for specifying the position of the center point of the eye (for example, the eye top point, the eye corner point) instead of the information indicating the position of the center point of the eye.
  • the reference point may be any point on the normalized image. That is, for example, when the learning object is “eyes”, the eye point or the corner of the eye may be the reference point, the center point of the face (the center point of the normalized image) may be the reference point, The upper left end point may be used as the reference point.
  • the reference point specifying method may be determined in advance for each part point (learning target point) of the object, and a specific method may be arbitrary.
  • the part point specifying unit 24 acquires a normalized image from the region cutout unit 22 and specifies a learning target point on the acquired normalized image based on a user instruction input from the operation unit 14.
  • the part point specifying unit 24 outputs part coordinates that are coordinates on the normalized image of the specified learning target point to the position information generating unit 27.
  • the part point specifying unit 24 displays a normalized image on the display unit 15 to indicate to the user the upper eye point of the eye. Is specified, and the point specified by the user is specified as a learning target point.
  • the part point specifying unit 24 refers to the metadata (part point position information) associated with the original image, and performs affine transformation or the like based on the position of the upper eyelid point indicated by the metadata.
  • a learning target point may be specified. In this case, before the LRF learning device 2 performs learning, the position of the upper eyelid point of the eye on the original image is identified in advance for each original image, and the position of the identified upper eyelid point of the eye is indicated. Assume that metadata including information is associated with an original image.
  • the lower saddle point in addition to the upper saddle point, the lower saddle point, the eye point, and the eye corner point are specified as learning target points.
  • the upper eyelid point is the apex of the upper arc formed by the contour point of the eye.
  • the lower eyelid point is the apex of the lower arc formed by the contour point of the eye.
  • the sampling position specifying unit 25 acquires a normalized image from the region cutout unit 22, and based on a predetermined sampling position specifying method, a plurality of sampling points with respect to a reference point (part point) within a predetermined range on the normalized image Is identified.
  • the predetermined range is referred to as a sampling range.
  • the sampling position specifying method may be any method as long as it is predetermined for each part point (learning target point) of the object.
  • the sampling point specified by the sampling position specifying unit 25 may be any point within the sampling range.
  • the sampling position specifying unit 25 may use all pixels in the sampling range as sampling points.
  • the sampling position specifying unit 25 may select pixels within the sampling range regularly or irregularly, and may use the selected pixels as sampling points.
  • the sampling position specifying unit 25 may divide the sampling range into a plurality of blocks and use the center point of the block as the sampling point.
  • the sampling range may be any range as long as it includes a region where the learning target point is considered to be located on the normalized image. For example, a range of n pixels ⁇ m pixels including a region where the learning target point is considered to be located may be set as the sampling range. Further, the region where the learning target point is considered to be a region having a predetermined position and size on the normalized image may be used. For example, when the upper eyelid point is a learning target point, the center point of the eye is specified from the eye point and the eye corner point, and a predetermined range above the center point of the eye may be set as a region where the learning target point is considered to be located.
  • a range including an area where the learning object is considered to be located may be set as the sampling range.
  • a range that covers an area in which the eye is considered to be present in the normalized image may be set as the sampling range, for example, as described above.
  • the center point of the eye may be specified from the point and the eye corner point, and a range of i pixels ⁇ j pixels centered on the center point of the eye may be set as the sampling range.
  • the shape of the sampling range is not limited to a rectangle such as i pixels ⁇ j pixels.
  • the shape of the sampling range may be arbitrary, and may be other polygons or circles, for example.
  • the range covering the area where the eyes are considered to be is set as the sampling range, so the shape of the sampling range is a shape in which four corners are cut off from the rectangle.
  • the feature amount extraction unit 26 extracts a feature amount from a sampling point pixel or a pixel group including a sampling point pixel for each sampling point specified by the sampling position specifying unit 25 based on a predetermined feature amount extraction method. Then, the feature amount extraction unit 26 generates a feature amount group including a plurality of feature amounts corresponding to the respective sampling points for each part point.
  • the feature amount extraction unit 26 extracts a feature amount from a pixel at the sampling point or a pixel group including the pixel for each of a plurality of sampling points with respect to the reference point corresponding to the part point, and extracts the extracted sampling points.
  • a feature quantity group for the reference point which is composed of a plurality of corresponding feature quantities, is extracted.
  • the feature amount extraction method may be any method as long as it is predetermined for each part point (learning target point) of the object.
  • the feature quantity extracted by the feature quantity extraction unit 26 may be arbitrary.
  • luminance values, edge information, frequency characteristics (Gabor, Haar, etc.), luminance gradient feature quantities (SIFT, HOG, etc.), or combinations thereof may be used as feature quantities.
  • the feature amount extracting unit 26 may extract the feature amount based on the average value or the median value of all the pixels included in the pixel group. Good. In this case, the feature amount extraction unit 26 may extract the feature amount based on one or a plurality of pixels included in the pixel group. For example, when the feature amount extraction unit 26 extracts a feature amount from a pixel group including nine pixels of 3 ⁇ 3 pixels centering on a sampling point, the feature amount extraction unit 26 performs a feature based on an average value or a median value of nine pixel values. The amount may be extracted. The feature amount extraction unit 26 may extract a feature amount based on one or a plurality of pixels among the nine pixels.
  • the feature quantity extraction unit 26 may extract a plurality of types of feature quantities from one sampling point.
  • the feature amount extraction unit 26 may extract a luminance value and a Haar value as feature amounts from a pixel or a pixel group at one sampling point.
  • the feature amount extraction unit 26 extracts a luminance value as a feature amount from a pixel group of 3 ⁇ 3 pixels centered on the sampling point, and also calculates a luminance value from a pixel group of 4 ⁇ 4 pixel centered on the same sampling point. May be extracted as feature amounts, and two types of feature amounts may be extracted.
  • the feature amount extraction unit 26 extracts Haar values as feature amounts from each pixel at the sampling points, and generates a feature amount group.
  • the sampling position specifying unit 25 sets, for example, several hundred sampling points within the sampling range. That is, the feature quantity extraction unit 26 generates a feature quantity group including, for example, several hundred feature quantities.
  • the position information generating unit 27 acquires reference coordinates from the reference point specifying unit 23 and acquires part coordinates from the part point specifying unit 24.
  • the position information generation unit 27 generates position information indicating the position of the learning target point with the reference point as the origin, based on a predetermined position information generation method. In other words, the position information generation unit 27 generates position information indicating the relative position of the learning target point with respect to the reference point based on a predetermined position information generation method.
  • the position information generation unit 27 outputs the generated position information to the LRF function calculation unit 28.
  • the position information is coordinates in the xy coordinate system or polar coordinate system. Further, the reference coordinates and the part coordinates may be either an xy coordinate system or a polar coordinate system.
  • the position information generation method may be any method as long as it is determined in advance for each part point (learning target point) of the object.
  • the position information generation unit 27 represents the reference coordinates, the part coordinates, and the position information in an xy coordinate system, calculates the difference between the part coordinates and the reference coordinates for each part coordinate, and performs each learning
  • the position information of the target point is generated. That is, if the part coordinates are (a, b) and the reference coordinates are (c, d), the position information (X, Y) is calculated as (ac, bd).
  • LeftX and “LeftY” indicate the x-coordinate and y-coordinate of the position information of the eye corner point, respectively, and “RightX” and “RightY” respectively indicate the x-coordinate and y-coordinate of the position information of the eyepoint point.
  • UpX and “UpY” indicate the x coordinate and y coordinate of the position information of the upper saddle point, respectively, and “DownX” and “DownY” indicate the x coordinate and y coordinate of the position information of the lower saddle point, respectively.
  • the LRF function calculation unit 28 acquires a feature amount group for the learning target point from the feature amount extraction unit 26 for each learning target point for one image, and acquires position information for the learning target point from the position information generation unit 27. To do. Then, the LRF function calculation unit 28 determines, for each learning target point, the correspondence relationship between the position information and the feature amount group for the learning target point based on the feature amount group and the position information generated from each of the plurality of images. The correspondence information shown is generated.
  • the LRF function calculation unit 28 generates the correspondence information with respect to the same learning target point by using the same method (learning target region image extraction method, normalization method, reference point specifying method, sampling position specifying method, It is assumed that the position information and the feature quantity group generated by the same feature quantity extraction method and position information generation method are used.
  • the LRF function calculation unit 28 plots feature amount groups and position information respectively generated from a plurality of images, and uses regression analysis to determine the position information and the feature amount group.
  • LRF function correspondence information
  • the plane is shown as a plane.
  • the correspondence between the feature quantity group and the position information, that is, the LRF function is expressed as a hyperregressive plane. Is.
  • the sampling range is set so as to include all the regions where each learning target point (eye corner point, eye point, upper saddle point, and lower saddle point) is considered to be located.
  • each learning target point eye corner point, eye point, upper saddle point, and lower saddle point
  • one feature amount group is associated with the position information of each learning target point.
  • the present invention is not limited to this, and position information and a feature amount group may be individually generated for each learning target point, and an LRF function may be obtained for each learning target point.
  • the position information Y is composed of x and y coordinates of n learning target points
  • the feature amount group X (x 1 , x 2 ,..., X m ) T
  • the position information Y (y 1 , y 2 ,..., Y 2n ) T.
  • the coefficient A is a 2n ⁇ m matrix
  • the coefficient B is represented by a 2n ⁇ 1 matrix.
  • the regression analysis used by the LRF function calculation unit 28 may be any regression analysis such as multiple regression or CCA. Further, the LRF function obtained by the LRF function calculation unit 28 may be linear as shown in FIG. 6 or non-linear.
  • the LRF function calculation unit 28 may generate a correspondence table that identifies the correspondence between both based on the correspondence between the position information and the feature amount group.
  • the LRF function calculation unit 28 stores, in the storage unit 17, LRF information in which the generated LRF function is associated with the position point indicated by the LRF function and the above-described respective methods.
  • the storage unit 17 stores programs, data, and the like referred to by the control unit 16, and stores, for example, the above LRF information 41 and the like.
  • FIG. 7 is a diagram illustrating an example of the LRF information 41 stored in the storage unit 17.
  • the LRF information 41 is information in which a part point is associated with an LRF function related to the part point.
  • the LRF information 41 is a method for generating a part point, a feature value group, and position information (learning target region image extraction method, normalization method, reference point specification method, sampling position specification method, feature value extraction). Method and position information generation method).
  • the same method is associated with each learning target point, and the other methods are the same for each learning target point for each object.
  • the method is associated, it is not limited to this. Different methods may be associated with each learning target point.
  • the LRF function is associated with each part point.
  • the present invention is not limited to this, and the LRF function may be associated with each object.
  • the learning target region image extraction method, the normalization method, the reference point identification method, the sampling position identification method, and the feature amount extraction method are the same for each object. That is, for the same object, the feature quantity group X extracted from a certain image is the same regardless of the part point.
  • the position information Y (y 1 , y 2 ,..., Y 10 ) T
  • y 1 to y 10 are respectively the x coordinate, y coordinate, and lower saddle point of the upper saddle point position information.
  • the LRF of the right eye is assumed.
  • each method is associated with the LRF function in the LRF information 41, but the present invention is not limited to this.
  • the example shown in FIG. 7 shows a case where the LRF learning apparatus appropriately selects each method and generates an LRF function during learning, but a predetermined method for each part point during learning and detection. Is used for each method, the part point detection device 1 and the LRF learning device 2 only need to store a predetermined method for each part point (for example, it may be incorporated in the learning program and the detection program). ).
  • each method does not need to be associated with the LRF function, and the LRF information 41 only needs to include information indicating the LRF function associated with the part point.
  • the site point detection device uses the LRF information generated by the LRF learning device to obtain the contour points, feature points, etc. This is a device for detecting a site point.
  • the site point detection device may be, for example, a digital camera, a PC, a mobile phone, a PDA (Personal Digital Assistant), a game machine, a device that captures and prints a photo, a device that edits an image, and the like.
  • a digital camera for example, a digital camera, a PC, a mobile phone, a PDA (Personal Digital Assistant), a game machine, a device that captures and prints a photo, a device that edits an image, and the like.
  • the object having the part point to be detected is a human eye or mouth, but is not limited thereto.
  • it may be the face or organ of an animal such as a dog or cat, a mobile phone or a television, or a building or a cloud.
  • the part point detection apparatus refers to the part point to be detected as a detection target point, and an object having the detection target point is referred to as a detection target object.
  • FIG. 1 is a block diagram illustrating an example of a configuration of a main part of the site point detection apparatus 1.
  • the part point detection apparatus 1 includes a control unit 11, a storage unit 12, an image input unit 13, an operation unit (input unit) 14 and a display unit 15.
  • the site point detection device 1 may include members such as a communication unit, a voice input unit, a voice output unit, and the like for communicating with other devices, but these members are not related to the feature points of the invention. Is not shown.
  • the storage unit 12 stores programs, data, and the like referred to by the control unit 11, and stores, for example, LRF information 41 generated by the LRF learning apparatus.
  • the LRF information 41 stored in the storage unit 12 may be data as shown in FIG. 7, for example.
  • the control unit 11 performs various calculations by executing a program read from the storage unit 12 to a temporary storage unit (not shown), and comprehensively controls each unit included in the part point detection device 1. It is.
  • control unit 11 includes, as functional blocks, an image acquisition unit 21, a region cutout unit 22, a reference point specifying unit 23, a sampling position specifying unit (sampling position specifying means) 25, a feature amount extracting unit 26, and position information.
  • the configuration includes a specifying unit (position information specifying unit) 29 and a part point specifying unit (detection side part point specifying unit) 30.
  • the CPU stores a program stored in a storage device realized by a ROM or the like temporarily by a RAM or the like. This can be realized by reading out to the unit and executing it.
  • the image acquisition unit 21 acquires an image input via the image input unit 13.
  • the image acquisition unit 21 outputs the acquired image to the region cutout unit 22.
  • the region cutout unit 22 reads the LRF information 41 from the storage unit 12 and includes the detection target point from the acquired image based on the learning target region image extraction method associated with the detection target point in the LRF information 41.
  • a detection target region image which is a region image, is extracted.
  • the region cutout unit 22 normalizes the extracted detection target region image based on the normalization method associated with the detection target point in the LRF information 41, and generates a normalized image.
  • the area cutout unit 22 outputs the generated normalized image to the reference point specifying unit 23 and the sampling position specifying unit 25.
  • the reference point specifying unit 23 reads the LRF information 41 from the storage unit 12 and acquires a normalized image from the region cutout unit 22.
  • the reference point specifying unit 23 specifies a predetermined point on the acquired normalized image as a reference point based on a reference point specifying method associated with the detection target point in the LRF information 41.
  • the reference point specifying unit 23 outputs reference coordinates that are coordinates on the normalized image of the specified reference point to the part point specifying unit 30.
  • the sampling position specifying unit 25 reads the LRF information 41 from the storage unit 12, acquires the normalized image from the region cutout unit 22, and based on the sampling position specifying method associated with the detection target point in the LRF information 41, A plurality of sampling points for the reference point (part point) are specified within a predetermined range on the normalized image.
  • the feature amount extraction unit 26 reads the LRF information 41 from the storage unit 12 and, based on the feature amount extraction method associated with the detection target point in the LRF information 41, the sampling point pixel for each sampling point with respect to the reference point. Alternatively, a feature amount is extracted from a pixel group including pixels at sampling points. Then, the feature amount extraction unit 26 generates a feature amount group including a plurality of feature amounts corresponding to the respective sampling points.
  • the position information specifying unit 29 reads the LRF information 41 from the storage unit 12 and corresponds to the feature amount group generated by the feature amount extracting unit 26 based on the LRF function associated with the detection target point in the LRF information 41. The position information is specified. The position information specifying unit 29 outputs the specified position information to the part point specifying unit 30.
  • the position information specifying unit 29 gives the feature value group generated by the feature value extracting unit 26 as an input value to the LRF function, and uses the output result as the position information.
  • the site point specifying unit 30 acquires reference coordinates from the reference point specifying unit 23 and acquires position information from the position information specifying unit 29. And the part point specific
  • FIG. 9 is a diagram illustrating an example of the LRF learning method executed by the LRF learning device 2.
  • FIG. 10 is a transition diagram schematically showing the state of each process included in the LRF learning method using an image.
  • LRF functions are generated for the contour points of both eyes and mouth of a human face. Specifically, the right and left eye corner points, head points, upper eyelid points, lower eyelid points and pupil points, as well as the right and left mouth corner points of the mouth, and the upper and lower middle points of the upper and lower lips
  • the midpoint is the learning target point.
  • the upper middle point of the upper lip (lower lip) is the upper upper contour point of the upper lip (lower lip), and the lower middle point of the upper lip (lower lip) is the lower middle of the upper lip (lower lip). Side contour points.
  • the center points of the right eye, the left eye, and the mouth are the reference points.
  • the sampling range is set to a range that covers the right eye, the left eye, and the mouth. Specifically, a predetermined range centered on the center point (reference point) of the right eye, left eye, and mouth is set as the sampling range.
  • the image acquisition unit 21 acquires an image input through the image input unit 13 (S1). This state is shown as state 1 in FIG.
  • the region cutout unit 22 extracts a face image from the image acquired by the image acquisition unit 21 based on a learning target region image extraction method “G001” (for example, a conventional face detection method or face organ point detection method).
  • G001 for example, a conventional face detection method or face organ point detection method.
  • Detect S2
  • state 2 the detected face image is surrounded by a square line, and the detected face organ points are indicated by white dots.
  • the area cutout unit 22 cuts out the detected face image based on the normalization method “H001”, normalizes the cut out face image, and generates a normalized image (S3). This state is shown as state 3 in FIG.
  • the reference point specifying unit 23 specifies the reference points for the right eye, the left eye, and the mouth on the normalized image based on the reference point specifying methods “I001”, “I002”, and “I003”, respectively (S4).
  • This state is shown as state 4 in FIG.
  • the respective reference points are set at the center of the left and right eyes and the center of the mouth.
  • the part point specifying unit 24 on the normalized image, the right and left eye corner points, eye points, upper eyelid points, lower eyelid points and pupil points, the right mouth corner point and the left mouth corner point of the mouth, and Then, the upper middle point and lower middle point of the upper lip and the lower lip are specified as learning target points (S5). This state is shown as state 5 in FIG.
  • the sampling position specifying unit 25 specifies a plurality of sampling points in each sampling range on the normalized image based on the sampling position specifying methods “J001”, “J002”, and “J003”, respectively (S6).
  • the feature quantity extraction unit 26 extracts feature quantity groups from the pixels or pixel groups at the respective sampling points of the left and right eyes and mouth based on the feature quantity extraction methods “K001”, “K002”, and “K003”, respectively. (S7).
  • This state is shown as state 6 in FIG.
  • the sampling points are set at predetermined positions with the center point of each organ as the center so as to cover the left and right eyes and mouth, respectively.
  • the feature amount group for the right eye's eye corner point, eye head point, upper eyelid point, lower eyelid point, and pupil point and the feature amount for the eye eye point, eye head point, upper eyelid point, lower eyelid point, and pupil point of the left eye
  • Three feature quantity groups are generated: a group, and a feature quantity group for the right and left mouth corner points of the mouth, and the upper and lower middle points of the upper and lower lips.
  • three feature quantity groups are generated for each reference point (center point) of the right eye, left eye, and mouth.
  • the position information generation unit 27 obtains position information indicating the position of the learning target point with the reference point as the origin for each learning target point based on the position information generation methods “L001”, “L002”, and “L003”, respectively. (S8). This state is shown as state 7 in FIG.
  • the above processing is performed on a plurality of images, and a feature amount group and position information for each learning target point are generated for each image.
  • the LRF function calculation unit 28 uses the regression analysis to generate an LRF function for each learning target point from a plurality of sets of position information and feature amount groups (S9). Then, the LRF function calculating unit 28 applies each of the methods used (learning target region image extraction method, normalization method, reference point specifying method, sampling position specifying method, feature amount) to the generated LRF function for each learning target point.
  • the LRF information 41 is generated in association with the extraction method and the position information generation method) and stored in the storage unit 12.
  • FIG. 11 is a diagram illustrating an example of the part point detection method executed by the part point detection apparatus 1.
  • FIG. 12 is a transition diagram schematically showing the state of each process included in the part point detection method using an image.
  • the LRF information 41 shown in FIG. 7 is stored in the storage unit 12 of the part point detection apparatus 1.
  • the right and left eye corner points, upper eye points, upper eyelid points, lower eyelid points and pupil points of the human face, the right and left mouth corner points of the mouth, and the upper and lower lip shall be detected.
  • the image acquisition unit 21 acquires an image input via the image input unit 13 (S11). This state is shown as state 11 in FIG.
  • the area cutout unit 22 reads the LRF information 41 from the storage unit 12.
  • each detection target point is associated with the same learning target region image extraction method “G001” and normalization method “H001”. Therefore, the region cutout unit 22 cuts out an image from the image acquired by the image acquisition unit 21 based on the learning target region image extraction method “G001” (S12).
  • state 12 This state is shown as state 12 in FIG. In state 12, a face image and facial organ points are detected, the detected facial image is surrounded by a square line, and the detected facial organ points are indicated by white dots.
  • the region cutout unit 22 cuts out the detected face image, normalizes the cut out face image based on the normalization method “H001”, and generates a normalized image (S13). This state is shown as state 13 in FIG.
  • the reference point specifying unit 23 reads the LRF information 41 from the storage unit 12.
  • the same reference point specifying methods “I001”, “I002”, and “I003” are associated with the right eye, the left eye, and the mouth, respectively. Therefore, the reference point specifying unit 23 specifies the reference point of the detection target point of the right eye on the normalized image based on the reference point specifying method “I001”, and sets the reference point of the detection target point of the left eye as the reference point specifying method.
  • the reference point of the mouth detection target point is specified based on the reference point specifying method “I003” (S14). This state is shown as state 14 in FIG. As illustrated, in the state 14, the center points of the right eye, the left eye, and the mouth are specified as the reference points.
  • the sampling position specifying unit 25 reads the LRF information 41 from the storage unit 12.
  • the same sampling position specifying methods “J001”, “J002”, and “J003” are associated with the right eye, the left eye, and the mouth, respectively. Therefore, the sampling position specifying unit 25 specifies the sampling point of the detection target point of the right eye based on the sampling position specifying method “J001” on the normalized image, and the sampling position specifying method of the sampling point of the detection target point of the left eye Based on “J002”, the sampling point of the mouth detection target point is specified based on the sampling position specifying method “J003” (S15).
  • the state at this time is shown as state 15 in FIG.
  • the sampling points are set in a predetermined range centering on the reference point of each organ so as to cover the left and right eyes and mouth, respectively.
  • the feature amount extraction unit 26 reads the LRF information 41 from the storage unit 12.
  • the same feature quantity extraction methods “K001”, “K002”, and “K003” are associated with the right eye, the left eye, and the mouth, respectively. Therefore, the feature quantity extraction unit 26 extracts the feature quantity group of the detection target point of the right eye from the sampling point pixel or pixel group of the detection target point of the right eye based on the feature quantity extraction method “K001”, and detects the left eye.
  • the feature amount group of the detection target point of the left eye is extracted based on the feature amount extraction method ⁇ K002 '', and from the pixel or pixel group of the sampling point of the mouth detection target point, The feature amount group of the mouth detection target point is extracted based on the feature amount extraction method “K003” (S16).
  • the feature amount group for the right eye's eye corner point, eye head point, upper eyelid point, lower eyelid point, and pupil point and the feature amount for the eye eye point, eye head point, upper eyelid point, lower eyelid point, and pupil point of the left eye
  • Three feature quantity groups are generated: a group, and a feature quantity group for the right and left mouth corner points of the mouth, and the upper and lower middle points of the upper and lower lips.
  • three feature quantity groups are generated for each reference point (center point) of the right eye, left eye, and mouth.
  • the position information specifying unit 29 reads the LRF information 41 from the storage unit 12. Then, the position information specifying unit 29 inputs the feature amount groups for these detection target points to the LRF functions associated with the right eye corner point, upper eye point, upper eyelid point, lower eyelid point, and pupil point, respectively. Thus, the position information of the right eye's eye corner point, eye head point, upper eyelid point, lower eyelid point, and pupil point is specified. In addition, the position information specifying unit 29 inputs the feature amount groups for these detection target points to the LRF functions associated with the eye corner point, the eye point, the upper eyelid point, the lower eyelid point, and the pupil point of the left eye, respectively.
  • the position information of the eye corner point, the eye point, the upper eyelid point, the lower eyelid point, and the pupil point of the left eye is specified.
  • the position information specifying unit 29 applies the features for these detection target points to the right and left mouth corner points of the mouth, and the LRF functions associated with the upper and lower middle points of the upper and lower lips.
  • Each of the quantity groups is input, and the right mouth corner point and the left mouth corner point of the mouth and the position information of the upper and lower middle points of the upper lip and the lower lip are specified (S17).
  • the part point specifying unit 30 reads the LRF information 41 from the storage unit 12.
  • the same position information generation methods “L001”, “L002”, and “L003” are associated with the right eye, the left eye, and the mouth, respectively. Therefore, the part point specifying unit 30 uses the position information generation method “L001” based on the position information generation method “L001” based on the position information of the right eye corner point, the top of the eye, the upper eyelid point, the lower eyelid point, and the pupil point.
  • the X coordinate value and Y coordinate value of the right eye reference point are added to the X coordinate value and the Y coordinate value difference indicated by the position information of the eye corner point, respectively.
  • the X coordinate value and the Y coordinate value which are values obtained by addition, are the coordinate values on the normalized image of the eye corner point. Similar processing is performed on other part points of the right eye and each part point of the left eye and each part point of the mouth, and the coordinates of the part points of the right eye, left eye, and mouth on the normalized image are specified.
  • state 16 The state at this time is shown as state 16 in FIG. As shown, in state 16, the right and left eye corner points, eye points, upper eyelid points, lower eyelid points and pupil points, and the right and left mouth corner points of the mouth, and the upper and lower lip
  • the positions (coordinates) of the midpoint and the lower midpoint on the normalized image are specified.
  • the coordinate value of each part point on the normalized image is calculated by, for example, affine transformation or the like, and the coordinates of each part point on the original image are specified.
  • An image processing apparatus is an image processing apparatus that detects a part point of an object from an image, and a reference point specifying unit that specifies a reference point for the part point on the image, and a plurality of reference points for the reference point For each sampling point, a feature amount is extracted from the pixel at the sampling point or a pixel group including the pixel, and a feature amount group with respect to the reference point is configured by a plurality of feature amounts respectively corresponding to the extracted sampling points.
  • Position information specifying means for specifying position information corresponding to the feature quantity group extracted by the feature quantity extracting means with reference to the correspondence information indicating the relationship, and the position information specifying Stage is a position indicated by the specified position information; and a detection-side site point specifying means to the site point of the object.
  • An image processing method is an image processing method for detecting a part point of an object from an image, a reference point specifying step for specifying a reference point for the part point on the image, and a plurality of points for the reference point For each sampling point, a feature amount is extracted from the pixel at the sampling point or a pixel group including the pixel, and a feature amount group with respect to the reference point is configured by a plurality of feature amounts respectively corresponding to the extracted sampling points.
  • the position information specifying means calculates a feature amount group with respect to the reference point extracted from each pixel or each pixel group of the plurality of sampling points and a relative position of the part point with respect to the reference point.
  • the position information corresponding to the feature quantity group extracted by the feature quantity extraction means is specified with reference to the correspondence relation information indicating the correspondence relation with the indicated position information, and the detection side part point specifying means is the position information specification
  • the position indicated by the position information specified by the means is set as the part point of the object.
  • the inventors of the present invention have, for example, a correlation between a feature amount group extracted from a region including an organ such as an eye and a mouth on an image and a contour position of the organ or a relative position of the feature point with respect to a reference point on the image. I found that there is a relationship. Based on this knowledge, by referring to the correspondence information indicating the correspondence between the feature quantity group and the position information, even if the object changes in shape, the part point of the object on the image can be detected with high accuracy. It was possible to do it. That is, the image processing apparatus and the image processing method have an effect that the part point of the object can be detected with high accuracy even when the shape of the object changes.
  • the image processing apparatus preferably further includes sampling position specifying means for specifying the position of the sampling point within a range including an area where the part point is considered to be located on the image.
  • An information generation apparatus is an information generation apparatus that generates the correspondence information referred to by the image processing apparatus, and that acquires an image in which a part point of an object is captured;
  • a reference point specifying means for specifying the reference point for the part point on the image, and for each of a plurality of sampling points for the reference point, a feature amount is extracted from a pixel of the sampling point or a pixel group including the pixel,
  • Feature quantity extraction means for extracting a feature quantity group for the reference point, which is composed of a plurality of feature quantities respectively corresponding to the extracted sampling points, and the relative of the part point to the reference point specified by the reference point specification means
  • Position information generating means for generating the position information indicating the position, a feature amount group extracted by the feature amount extracting means, and position information generated by the position information generating means Is characterized in that it comprises a correspondence information generation means for generating said correspondence relationship information indicating a response relationships.
  • An information generation method is an information generation method for generating the correspondence information referred in the image processing method, and an image acquisition step for acquiring an image in which a part point of an object is captured;
  • a reference point specifying step for specifying the reference point for the part point on the image, and extracting a feature amount from a pixel at the sampling point or a pixel group including the pixel for each of a plurality of sampling points with respect to the reference point.
  • a position information generation step for generating the position information indicating the relative position of the feature, and a feature amount extracted in the feature amount extraction step When is characterized in that it comprises a correspondence information generation step of generating said correspondence relationship information indicating a correspondence relationship between the position information generated in the positional information generating step.
  • the image acquisition unit acquires an image in which the part point of the object is captured
  • the reference point specifying unit specifies a reference point for the part point on the image
  • the feature amount extraction means extracts a feature amount from a pixel at the sampling point or a group of pixels including the pixel for each of a plurality of sampling points with respect to the reference point, and from the plurality of feature amounts respectively corresponding to the extracted sampling points.
  • the feature amount group for the reference point configured is extracted, and the position information generation unit generates position information indicating a relative position of the part point with respect to the reference point specified by the reference point specification unit, and the correspondence relationship
  • the information generation means generates correspondence information indicating a correspondence relation between the feature quantity group extracted by the feature quantity extraction means and the position information generated by the position information generation means.
  • the correspondence information generation means generates the correspondence information using regression analysis.
  • the information generation apparatus includes an input unit that receives an operation instruction from a user, and a learning side part that specifies a part point of the object on the image based on the operation instruction input to the input unit. It is preferable to further comprise point specifying means.
  • the image acquisition means acquires the part point position information indicating the position of the part point associated with the image together with the image, and the part point position information It is preferable to further include learning-side part point specifying means for specifying the part point of the object on the image based on the position indicated by.
  • the image processing apparatus and the information generation apparatus may be realized by a computer.
  • the image processing apparatus is operated by causing the computer to operate as each unit of the image processing apparatus and the information generation apparatus.
  • a control program for realizing the information generation apparatus on a computer and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
  • each block of the part point detection device 1 and the LRF learning device 2 in particular, the control unit 11 and the control unit 16 may be configured by hardware logic, or realized by software using a CPU as follows. May be.
  • the site point detection device 1 and the LRF learning device 2 develop a CPU (central processing unit) that executes instructions of a control program that realizes each function, a ROM (read memory only) that stores the program, and the program.
  • a RAM random access memory
  • a storage device such as a memory for storing the program and various data, and the like are provided.
  • the object of the present invention is to allow the computer to read the program codes (execution format program, intermediate code program, source program) of the control program of the part point detection device 1 and the LRF learning device 2 which are software that realizes the functions described above. This can also be achieved by supplying the recording medium recorded in (1) to the part point detection device 1 and the LRF learning device 2 and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU). is there.
  • Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, and disks including optical disks such as CD-ROM / MO / MD / DVD / CD-R.
  • Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.
  • the part point detection device 1 and the LRF learning device 2 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
  • the communication network is not particularly limited.
  • the Internet intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication. A net or the like is available.
  • the transmission medium constituting the communication network is not particularly limited.
  • infrared rays such as IrDA and remote control, Bluetooth ( (Registered trademark), 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like can also be used.
  • the present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
  • the present invention can be used for an image processing apparatus that detects a predetermined part point of an object on an image. More preferably, the present invention can be used in an image processing apparatus that detects a predetermined part point of an object whose shape changes variously from an image.

Abstract

 特徴量抽出部(26)は、画像上の部位点に対する基準点に対する複数のサンプリング点毎に、サンプリング点の画素または画素群から特徴量を抽出して、基準点に対する特徴量群を抽出し、位置情報特定部(29)は、基準点に対する特徴量群と、基準点に対する部位点の相対位置を示す位置情報との対応関係を示すLRF関数を参照して、特徴量抽出部(26)が抽出した特徴量群に対応する位置情報を特定し、部位点特定部(30)は、位置情報特定部(29)が特定した位置情報の示す位置を物体の部位点とする。

Description

画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体
 本発明は、目や口等の物体の輪郭点や特徴点等の部位点を検出するための画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体に関するものである。
 顔画像から、目や口の輪郭点を検出する技術は、顔認証や表情推定のための前段処理や、似顔絵生成などのアプリケーションに応用できるなどの理由から従来から盛んに研究されている。
 例えば、特許文献1には、ユーザから指定された目や口等の中心点を中心として目や口等の探索範囲を設定し、設定した探索範囲内をスキャンして、色成分等に基づいて目領域や口領域等を抽出する技術が記載されている。また、特許文献1には、抽出した目領域や口領域等の左右の端点を特定し、左右の端点に基づいて目領域や口領域等の上下の端点を探索する探索範囲を設定して上下の端点を抽出することが記載されている。
 また、特許文献2には、目の輪郭点を抽出する場合、目の左右の端点を基準点とし、基準点に基づいて動的輪郭モデルをフィッティングし、エネルギー最小化により目の輪郭点を抽出することが記載されている。
 また、顔画像から目や口の輪郭点を検出する手法として形状モデルやテクスチャモデルに基づくフィッティング手法がある。具体的には、非特許文献1、2および特許文献3、4に記載のASM(Active Shape Model)、AAM(Active Appearance Model)、ASAM(Active Structure Appearance Model)等のフィッティング手法がある。
 ASM、AAMおよびASAMの形状モデルとは、顔の形状やテクスチャを少ないパラメータで表現するモデルのことである。これらは顔特徴点座標情報やテクスチャ情報に対して主成分分析を適用し、それによって得られた基底ベクトルのうち固有値の大きいものだけで顔の特徴点座標を表現させたものである。このことは、少ないデータで顔の形状を表現するだけでなく、顔の形状を保つ拘束条件も持つことができる。このモデルをASMおよびAAMではエネルギー最小化より、ASAMではモデルパラメータ誤差算出より顔画像にフィッティングさせることで、顔の特徴点座標を検出する。
日本国公開特許公報「特開平9-6964号公報(1997年1月10日公開)」 日本国公開特許公報「特開2005-339288号公報(2005年12月8日公開)」 日本国公開特許公報「特許第4093273号公報(2008年6月4日発行)」 日本国公開特許公報「特許第4501937号公報(2010年7月14日発行)」
T.F. Cootes, et al、「Active Shape Models - Their Training and Application」、CVIU、Vol.6、No.1、p.38-59、1995年 T.F. Cootes, et al、「Active appearance models」、ECCV’98 Vol.II、Freiburg、Germany、1998年
 口の形状や目の形状、またそれらの組合せなどにより、顔の表情は多様に変化し,様々なバリエーションがある。そのため、様々な形状に変化する目や口など物体の形状状態を全て予測することは難しい。それゆえ、上述のような従来技術は、目や口の輪郭点などの形状が大きく変化する物体の輪郭点を高精度に検出することが困難である。
 具体的には、特許文献1に記載の技術では、目や口などの形状が想定している以上に変化して目や口などの輪郭点が探索範囲内に収まっていない場合、輪郭点を正しく検出することができない。一方、多様な口の形状や目の形状をカバーするために、探索範囲を広く設定した場合、特許文献1に記載の技術では探索範囲をスキャンして検出しているため、処理負荷が非常に大きくなる。そのため、特許文献1に記載の技術において、探索範囲を広く設定することは実用的でない。よって、特許文献1に記載の技術は、形状が大きく変化する物体の輪郭点を高精度に検出することが困難である。
 また、特許文献2に記載の技術では、使用する動的輪郭モデルから、物体の形状がかけ離れている場合、物体の輪郭点の抽出に非常に時間がかかる、もしくは、正しい輪郭点を抽出できない。一方、多様な口の形状や目の形状をカバーするために、様々なモデルを用意した場合、輪郭点の抽出の精度は向上するが、装置が予め記憶するデータサイズが大きくなったり、処理負荷が大きくなったりする。そのため、特許文献2に記載の技術において、様々なモデルを用意することは実用的でない。よって、特許文献2に記載の技術は、形状が大きく変化する物体の輪郭点を高精度に検出することが困難である。
 また、ASMおよびAAMは探索処理に多くの計算時間がかかるという欠点がある。またAAMは個人ごとの形状モデルを用意する必要があり、他人の顔に対するフィッティング精度が低いという問題もある。
 また、ASMおよびAAMに対し高速高精度化を実現できたのが、ASAMである。ASAMは、表情変化の少ない顔に関しては顔の形状を拘束条件とすることで高精度な検出結果を得ることができる。しかしながら、ASAMは、口や目などの開閉状態や形状状態が大きく変化する表情に対しては、高精度に検出することができない。これは、ASAMが用いる顔の形状モデルが顔全体の形状を表現したグローバルなモデルであり、目や口など各部位ごとの変化、例えば開閉や形状変化に対する表現を正確にできないためである。
 本発明は、上記の問題点に鑑みてなされたものであり、その目的は、様々な形状に変化する物体であっても、画像上における物体の形状を高精度に検出するための画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体を実現することにある。
 本発明に係る画像処理装置は、上記課題を解決するために、画像から物体の部位点を検出する画像処理装置であって、上記画像上に上記部位点に対する基準点を特定する基準点特定手段と、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定する位置情報特定手段と、上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする検出側部位点特定手段とを備えることを特徴としている。
 本発明に係る画像処理方法は、上記課題を解決するために、画像から物体の部位点を検出する画像処理方法であって、上記画像上に上記部位点に対する基準点を特定する基準点特定ステップと、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出ステップにおいて抽出された特徴量群に対応する位置情報を特定する位置情報特定ステップと、上記位置情報特定ステップにおいて特定された位置情報の示す位置を上記物体の部位点とする部位点特定ステップとを含むことを特徴としている。
 上記の構成によれば、上記位置情報特定手段は、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定し、上記検出側部位点特定手段は、上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする。
 本発明者らは、画像上において、例えば、目や口などの器官を含む領域から抽出した特徴量群と、画像上の基準点に対する器官の輪郭点や特徴点の相対位置との間に相関関係があることを見出した。この知見に基づき、上記特徴量群と上記位置情報との対応関係を示す対応関係情報を参照することにより、形状が変化する物体であっても、画像上における物体の部位点を高精度に検出できることが可能となった。すなわち、上記画像処理装置および上記画像処理方法は、物体の形状が変化した場合であっても、物体の部位点を高精度に検出できるという効果を奏する。
 以上のように、本発明に係る画像処理装置は、上記画像上に上記部位点に対する基準点を特定する基準点特定手段と、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定する位置情報特定手段と、上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする検出側部位点特定手段とを備えている構成である。
 また、本発明に係る画像処理方法は、上記画像上に上記部位点に対する基準点を特定する基準点特定ステップと、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出ステップにおいて抽出された特徴量群に対応する位置情報を特定する位置情報特定ステップと、上記位置情報特定ステップにおいて特定された位置情報の示す位置を上記物体の部位点とする部位点特定ステップとを含む。
 従って、上記画像処理装置および上記画像処理方法は、物体の形状が変化した場合であっても、物体の部位点を高精度に検出できるという効果を奏する。
本発明の実施形態を示すものであり、部位点検出装置の要部構成を示すブロック図である。 階層的フィッティングの概要を示す模式図である。 本発明の実施形態を示すものであり、LRF学習装置の要部構成を示すブロック図である。 基準点特定方法および位置情報生成方法の概要を示す模式図である。 サンプリング位置特定方法および特徴量抽出方法の概要を示す模式図である。 位置情報と特徴量群との相関関係を示すLRF関数の概要を示す模式図である。 LRF学習装置の記憶部に格納されるLRF関数を含むLRF情報の一例を示す図である。 LRF関数に対する入力データである特徴量群と出力データである位置情報との対応関係を示す図である。 LRF学習装置が実行するLRF学習方法の一例を示す図である。 LRF学習方法に含まれる各処理の状態を、画像を用いて模式的に示す遷移図である。 部位点検出装置が実行する部位点検出方法の一例を示す図である。 部位点検出方法に含まれる各処理の状態を、画像を用いて模式的に示す遷移図である。
 〔本発明の概要〕
 本発明者らは、画像上において、目や口などの器官を含む領域から抽出した特徴量群と、画像上の基準点を原点とする器官の輪郭点や特徴点の位置との間に相関関係があることを見出した。この知見に基づき、回帰分析により上記特徴量群と上記位置との対応関係を示すモデルを作成し、このモデルを使用した検出方法を発明した。
 この検出方法を用いることによって、事前に想定される表情だけでなく、目や口などが極度に開閉するような表情など、様々な条件でも顔や各器官を正確に検出することができる。以下では、本発明者らが発明した検出方法を、Local Regression Fitting(LRF)検出方法と称し、上記モデルを作成するための学習方法をLRF学習方法と称する。
 また、本発明者らは、LRF検出方法を従来の顔の大局的な形状を捉えるグローバルフィッティングと組み合わせて用いることが顔や各器官を正確に検出することができる最適な手法であることを発案した。具体的には、ASAM等の学習方法に基づくグローバルなモデルを用いて顔の大局的な形状を捉えるグローバルフィッティングと、LRF学習方法に基づく顔の器官ごとのローカルなモデルを用いて各器官の詳細な形状をそれぞれ捉えるローカルフィッティング(LRF検出方法)とを組み合わせた階層的フィッティングを発案した。
 階層的フィッティングは、より詳細には、図2に示すように、まず、グローバルフィッティングによって、こめかみ(2箇所)、左右の眉の眉頭および眉尻、両目の目頭および目尻、鼻孔(2箇所)、口角(2箇所)並びに顎先等を検出する。そして、LRF検出方法によって、その他の顔、眉、目、鼻および口の輪郭点を検出する。グローバルフィッティングおよびLRF検出方法によって検出された輪郭点に基づいて、顔および各器官の輪郭を検出する。
 これにより、グローバルモデルが表現できない表情に対しても、高精度に顔の輪郭を検出することができる。さらに、このような階層構造にすることにより、グローバルフィッティングにより大きな誤検出を減らすとともに、ローカルフィッティングにより表情変化した顔画像でも正確に顔輪郭特徴点を検出することが可能である。
 以下では、本発明の一実施形態における、LRF検出方法により画像上における物体の輪郭点や特徴点等の部位点を検出する部位点検出装置(画像処理装置)と、LRF学習手法によりモデルを生成するLRF学習装置(情報生成装置)とについて図1から図16に基づいて説明する。なお、以下では、部位点検出装置とLRF学習装置とがそれぞれ別体の装置として説明するが、部位点検出装置およびLRF学習装置は一体の装置であってもよい。
 〔LRF学習装置の構成〕
 まず、LRF学習装置について図3に基づいて説明する。LRF学習装置は、他の装置から取得した画像、または、自装置に搭載されたカメラで撮像した画像において、画像上の基準点に対する物体の部位点の相対位置と、当該部位点に基づく画像上の所定の位置から抽出した特徴量群との対応関係を示すLRF関数(対応関係情報)を生成する装置である。
 LRF学習装置は、例えば、PC、デジタルカメラ、携帯電話機、PDA(Personal Digital Assistant)、ゲーム機、写真を撮影して印刷する装置、画像を編集する装置などであってよい。
 本実施形態では、上記対応関係を学習する対象の部位点を有する物体を人間の目や口等としているがこれに限るものではない。例えば、犬や猫等の動物の顔や器官等であってもよいし、携帯電話機やテレビ等であってもよいし、建物や雲等であってもよい。
 物体の部位点とは、画像上における物体の領域内の点である。具体的には、例えば物体が目の場合、目の輪郭点や瞳点などである。ここで、LRF学習装置が上記対応関係を学習する対象である物体の部位点を学習対象点と称し、学習対象点を有する物体を学習対象物と称する。
 図3は、LRF学習装置2の要部構成の一例を示すブロック図である。図3に示すように、LRF学習装置2は、制御部16、記憶部17、画像入力部13、操作部(入力手段)14および表示部15を備えている。なお、LRF学習装置2は、他の装置と通信するための通信部、音声入力部、音声出力部等の部材を備えていてもよいが、発明の特徴点とは関係がないため当該部材を図示していない。
 画像入力部13は、外部の画像提供装置(不図示)から画像を受信するものである。画像提供装置は、保持している画像または取得した画像を他の装置に提供する装置であれば何でもよい。例えば、画像提供装置は、デジタルカメラ、PC、携帯電話機、PDA、ゲーム機、デジタルテレビ、USB(Universal Serial Bus)メモリ等の記憶装置などである。なお、LRF学習装置2は、画像入力部13の代わりに、カメラを搭載していてもよい。
 操作部14は、ユーザがLRF学習装置2に指示信号を入力し、LRF学習装置2を操作するためのものである。操作部14は、キーボード、マウス、キーパッド、操作ボタンなどの入力機器等で構成されているものであってもよい。また、操作部14と表示部15とが一体となっているタッチパネルであってもよい。また、操作部14は、LRF学習装置2と別体のリモートコントローラ等の遠隔制御装置であってもよい。
 表示部15は、制御部16の指示に従って画像を表示するものである。表示部15は、制御部16の指示に従って画像を表示するものであればよく、例えば、LCD(液晶ディスプレイ)、有機ELディスプレイ、プラズマディスプレイなどを適用することが可能である。
 制御部16は、記憶部17から一時記憶部(不図示)に読み出されたプログラムを実行することにより、各種の演算を行うと共に、LRF学習装置2が備える各部を統括的に制御するものである。
 本実施形態では、制御部16は、機能ブロックとして、画像取得部(画像取得手段)21、領域切り出し部22、基準点特定部(基準点特定手段)23、部位点特定部(学習側部位点特定手段)24、サンプリング位置特定部(サンプリング位置特定手段)25、特徴量抽出部(特徴量抽出手段)26、位置情報生成部(位置情報生成手段)27およびLRF関数算出部(対応関係情報生成手段)28を備える構成である。これらの制御部16の各機能ブロック(21~28)は、CPU(central processing unit)が、ROM(read only memory)等で実現された記憶装置に記憶されているプログラムをRAM(random access memory)等で実現された一時記憶部に読み出して実行することで実現できる。
 画像取得部21は、画像入力部13を介して入力された画像を取得するものである。画像取得部21は、取得した画像を領域切り出し部22に出力する。なお、記憶部17に画像が記憶されている場合、画像取得部21は、記憶部17から画像を読み出してもよい。
 領域切り出し部22は、取得した画像から、学習対象点が含まれる領域の画像である学習対象領域画像を所定の学習対象領域画像抽出方法に基づいて抽出するものである。また、領域切り出し部22は、抽出した学習対象領域画像を所定の正規化方法に基づいて正規化し、正規化画像を生成するものである。領域切り出し部22は、生成した正規化画像を基準点特定部23、部位点特定部24およびサンプリング位置特定部25に出力する。
 具体的には、例えば学習対象物が「目」または「口」の場合、領域切り出し部22は、取得した画像から、顔画像を抽出し、抽出した顔画像を、例えば、100画素×100画素の画像に補正して正規化画像を生成する。
 ここで、学習対象領域画像抽出方法および正規化方法は、物体の部位点(学習対象点)毎に予め定められていればよく、具体的な方法は任意でよい。また、以下では、正規化画像の元となる、画像取得部21が取得した画像を原画像と称する。
 基準点特定部23は、領域切り出し部22から正規化画像を取得し、所定の基準点特定方法に基づいて取得した正規化画像上の所定の点を基準点として特定するものである。基準点特定部23は、特定した基準点の正規化画像上における座標である基準座標を位置情報生成部27に出力する。
 具体的には、図4に示すように、例えば学習対象物が「目」の場合、基準点特定部23は、正規化画像上における目の中心点を基準点として特定する。このとき、基準点特定部23は、正規化画像を表示部15に表示して、ユーザに目の中心点を指定するように指示し、ユーザが指定した点を基準点として特定してもよい。また、基準点特定部23は、領域切り出し部22が顔画像を抽出する際に特定した目の目頭点および目尻点に基づいて、目頭点および目尻点の中点を基準点として特定してもよい。また、基準点特定部23は、原画像に対応付けられているメタデータ(基準点位置情報)を参照して、メタデータで示される目の中心点の位置に基づいて、アフィン変換等により基準点を特定してもよい。この場合、LRF学習装置2が学習を実行する前に、予め、各原画像に対して、原画像上における目の中心点の位置を特定し、特定した目の中心点の位置を示す情報を含むメタデータを原画像に対応付けておくものとする。なお、メタデータに、目の中心点の位置を示す情報に代えて、目の中心点の位置を特定するための情報(例えば、目頭点、目尻点等)が含まれていてもよい。
 なお、基準点は、正規化画像上の点であればどの点でもよい。すなわち、例えば学習対象物が「目」の場合、目頭点または目尻点を基準点としてもよいし、顔の中心点(正規化画像の中心点)を基準点としてもよいし、正規化画像の左上の端点などを基準点としてもよい。
 基準点特定方法は、物体の部位点(学習対象点)毎に予め定められていればよく、具体的な方法は任意でよい。
 部位点特定部24は、領域切り出し部22から正規化画像を取得し、取得した正規化画像上における学習対象点を、操作部14から入力されたユーザの指示に基づいて特定するものである。部位点特定部24は、特定した学習対象点の正規化画像上における座標である部位座標を位置情報生成部27に出力する。
 具体的には、例えば学習対象点が目の輪郭点である「上瞼点」の場合、部位点特定部24は、正規化画像を表示部15に表示して、ユーザに目の上瞼点を指定するように指示し、ユーザが指定した点を学習対象点として特定する。また、部位点特定部24は、原画像に対応付けられているメタデータ(部位点位置情報)を参照して、メタデータで示される目の上瞼点の位置に基づいて、アフィン変換等により学習対象点を特定してもよい。この場合、LRF学習装置2が学習を実行する前に、予め、各原画像に対して、原画像上における目の上瞼点の位置を特定し、特定した目の上瞼点の位置を示す情報を含むメタデータを原画像に対応付けておくものとする。
 図4に示す例では、学習対象点として、上瞼点以外に、下瞼点、目頭点および目尻点が特定されている。なお、上瞼点とは、目の輪郭点が形成する上側の円弧の頂点である。また、下瞼点とは、目の輪郭点が形成する下側の円弧の頂点である。
 サンプリング位置特定部25は、領域切り出し部22から正規化画像を取得し、所定のサンプリング位置特定方法に基づいて、正規化画像上の所定の範囲内に基準点(部位点)に対する複数のサンプリング点を特定する。ここで、上記所定の範囲をサンプリング範囲と称する。
 サンプリング位置特定方法は、物体の部位点(学習対象点)毎に予め定められていればよく、どのような方法であってもよい。
 具体的には、サンプリング位置特定部25が特定するサンプリング点はサンプリング範囲内であればどの点でもよい。例えば、サンプリング位置特定部25は、サンプリング範囲内の全画素をサンプリング点としてもよい。サンプリング位置特定部25は、サンプリング範囲内の画素を規則的または不規則的に選択し、選択した画素をサンプリング点としてもよい。また、サンプリング位置特定部25は、サンプリング範囲を複数のブロックに分割し、ブロックの中心点をサンプリング点としてもよい。
 ここで、上記のサンプリング範囲は、正規化画像上において、学習対象点が位置すると考えられる領域を含む範囲であればどのような範囲であってもよい。例えば、学習対象点が位置すると考えられる領域を含むn画素×m画素の範囲をサンプリング範囲としてもよい。また、学習対象点が位置すると考えられる領域は、正規化画像上における所定の位置、大きさの領域であってよい。例えば、上瞼点が学習対象点の場合、目頭点および目尻点から目の中心点を特定し、目の中心点から上方の所定の範囲を学習対象点が位置すると考えられる領域としてもよい。
 また、学習対象物が位置すると考えられる領域を含む範囲をサンプリング範囲としてもよい。具体的には、図5に示すように、学習対象物が目の場合、正規化画像において、目があると考えられる領域を覆う範囲をサンプリング範囲としてもよく、例えば、上述のように、目頭点および目尻点から目の中心点を特定し、目の中心点を中心とするi画素×j画素の範囲をサンプリング範囲としてもよい。
 なお、サンプリング範囲の形状は、i画素×j画素のような矩形に限るものではない。サンプリング範囲の形状は任意でよく、例えば、他の多角形や円形であってもよい。図5に示す例では、目があると考えられる領域を覆う範囲をサンプリング範囲としているため、サンプリング範囲の形状は、矩形から四隅が削り取られた形状となっている。
 特徴量抽出部26は、所定の特徴量抽出方法に基づいて、サンプリング位置特定部25が特定したサンプリング点毎に、サンプリング点の画素またはサンプリング点の画素を含む画素群から特徴量を抽出する。そして、特徴量抽出部26は、各サンプリング点にそれぞれ対応する複数の特徴量から構成される特徴量群を部位点毎に生成する。
 換言すると、特徴量抽出部26は、部位点に対応する基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出するものである。
 ここで、特徴量抽出方法は、物体の部位点(学習対象点)毎に予め定められていればよく、どのような方法であってもよい。
 具体的には。特徴量抽出部26が抽出する特徴量は任意でよい。例えば、輝度値、エッジ情報、周波数特性(Gabor、Haar等)、輝度勾配特徴量(SIFT、HOG等)またはそれらの組み合わせを特徴量としてもよい。
 また、特徴量抽出部26は、サンプリング点の画素を含む画素群から特徴量を抽出する場合、画素群に含まれる全画素の値の平均値または中央値に基づいて特徴量を抽出してもよい。また、この場合、特徴量抽出部26は、画素群に含まれる1または複数の画素に基づいて特徴量を抽出してもよい。例えば、特徴量抽出部26は、サンプリング点を中心とする3×3画素の9つの画素を含む画素群から特徴量を抽出する場合、9つの画素の値の平均値または中央値に基づいて特徴量を抽出してもよい。また、特徴量抽出部26は、9つの画素のうちの1または複数の画素に基づいて特徴量を抽出してもよい。
 また、特徴量抽出部26は、1つのサンプリング点から複数の種類の特徴量を抽出してもよい。例えば、特徴量抽出部26は、1つのサンプリング点の画素または画素群から、輝度値およびHaar値を特徴量としてそれぞれ抽出してもよい。また、特徴量抽出部26は、サンプリング点を中心とする3×3画素の画素群から輝度値を特徴量として抽出すると共に、同じサンプリング点を中心とする4×4画素の画素群から輝度値を特徴量として抽出し、2種類の特徴量を抽出してもよい。
 図5に示す例では、特徴量抽出部26は、サンプリング点の各画素からHaar値を特徴量として抽出し、特徴量群を生成している。なお、サンプリング位置特定部25は、例えば、サンプリング範囲内に数百個のサンプリング点を設定する。すなわち、特徴量抽出部26は、例えば、数百個の特徴量から成る特徴量群を生成する。
 位置情報生成部27は、基準点特定部23から基準座標を取得し、部位点特定部24から部位座標を取得する。そして、位置情報生成部27は、所定の位置情報生成方法に基づいて、基準点を原点とする学習対象点の位置を示す位置情報を生成するものである。換言すると、位置情報生成部27は、所定の位置情報生成方法に基づいて、基準点に対する学習対象点の相対位置を示す位置情報を生成する。位置情報生成部27は、生成した位置情報をLRF関数算出部28に出力する。
 位置情報は、xy座標系または極座標系における座標である。また、基準座標および部位座標は、xy座標系または極座標系のどちらでもよい。
 ここで、位置情報生成方法は、物体の部位点(学習対象点)毎に予め定められていればよく、どのような方法であってもよい。
 図4に示す例では、位置情報生成部27は、基準座標および部位座標、並びに、位置情報をxy座標系で表し、部位座標ごとに、部位座標と基準座標との差分を算出し、各学習対象点の位置情報を生成する。すなわち、部位座標を(a,b)、基準座標を(c,d)とすると、位置情報(X,Y)は、(a-c,b-d)で算出される。
 また、図4では、「LeftX」、「LeftY」がそれぞれ目尻点の位置情報のx座標、y座標を示し、「RightX」、「RightY」がそれぞれ目頭点の位置情報のx座標、y座標を示し、「UpX」、「UpY」がそれぞれ上瞼点の位置情報のx座標、y座標を示し、「DownX」、「DownY」がそれぞれ下瞼点の位置情報のx座標、y座標を示す。
 LRF関数算出部28は、1つの画像につき、学習対象点毎に、特徴量抽出部26から学習対象点に対する特徴量群を取得し、位置情報生成部27から当該学習対象点に対する位置情報を取得する。そして、LRF関数算出部28は、学習対象点毎に、複数の画像からそれぞれ生成された特徴量群および位置情報に基づいて、当該学習対象点に対する、位置情報と特徴量群との対応関係を示す対応関係情報を生成する。なお、LRF関数算出部28は、対応関係情報を生成する際に、同じ学習対象点に関しては、同一の方法(学習対象領域画像抽出方法、正規化方法、基準点特定方法、サンプリング位置特定方法、特徴量抽出方法および位置情報生成方法が同一)により生成された位置情報および特徴量群を使用するものとする。
 具体的には、図6に示すように、LRF関数算出部28は、複数の画像からそれぞれ生成された特徴量群および位置情報をプロットし、回帰分析を用いて、位置情報と特徴量群との相関関係を示すLRF関数(対応関係情報)を算出する。なお、図6では、説明の便宜のため、平面で示しているが、実際には、高次元であるため特徴量群と位置情報との対応関係、つまり、LRF関数は超回帰平面で表されるものである。
 また、図6に示す例では、各学習対象点(目尻点、目頭点、上瞼点および下瞼点)が位置すると考えられる領域を全て含むようにサンプリング範囲を設定し、各学習対象点に対して同じ特徴量群を生成し、同じ基準点を用いて各学習対象点の位置情報を生成しているため、各学習対象点の位置情報に対して1つの特徴量群を対応付けている。ただし、これに限るものではなく、各学習対象点に対して、個別に位置情報および特徴量群を生成し、学習対象点ごとにLRF関数を求めてもよい。
 図6に示す例では、特徴量群をXとすると、位置情報をYは、Y=AX+Bで表される。ここで、例えば、特徴量群Xがk個のサンプリング点から抽出したm個(m=k×(1つのサンプリング点から抽出される特徴量の種類数))の特徴量から構成されており、位置情報Yがn個の学習対象点のx座標、y座標で構成される場合、特徴量群X=(x,x,…,x、位置情報Y=(y,y,…,y2nで表される。この場合、係数Aは2n×mの行列であり、係数Bは2n×1の行列で表される。
 ここで、LRF関数算出部28がもちいる回帰分析は、重回帰やCCAなど回帰分析であれば何でもよい。また、LRF関数算出部28が求めるLRF関数は、図6に示すような線形でもよいし、非線形でもよい。
 また、LRF関数算出部28は、位置情報と特徴量群との対応関係に基づいて、両者の対応関係を特定する対応関係テーブルを生成してもよい。
 LRF関数算出部28は、生成したLRF関数に、LRF関数により対応関係が示される位置の部位点および上記の各方法を対応付けたLRF情報を記憶部17に格納する。
 記憶部17は、制御部16が参照するプログラムやデータ等を格納するものであり、例えば、上記のLRF情報41等を格納している。
 記憶部17に格納されているLRF情報41について図7に基づいて説明する。図7は、記憶部17に格納されているLRF情報41の一例を示す図である。
 図7に示すように、LRF情報41は、部位点と、当該部位点に関するLRF関数とが対応付けられている情報である。また、LRF情報41は、部位点と、特徴量群および位置情報をそれぞれ生成するための各方法(学習対象領域画像抽出方法、正規化方法、基準点特定方法、サンプリング位置特定方法、特徴量抽出方法および位置情報生成方法)とが対応付けられている情報である。
 図7に示す例では、学習対象領域画像抽出方法および正規化方法に関しては、各学習対象点に同じ方法が対応付けられており、その他の方法に関しては、物体毎に、各学習対象点に同じ方法が対応付けられているが、これに限るものではない。学習対象点ごとに、それぞれ異なる方法が対応付けられていてもよい。
 また、図7に示す例では、LRF関数が部位点毎に対応付けられているがこれに限るものではなく、物体毎にLRF関数が対応付けられていてもよい。例えば、図7に示す例では、物体毎に、学習対象領域画像抽出方法、正規化方法、基準点特定方法、サンプリング位置特定方法および特徴量抽出方法が同じである。つまり、同じ物体であれば、或る画像から抽出された特徴量群Xが部位点に関わらず同じである。この場合、例えば右目に関して、位置情報Y=(y,y,…,y10において、y~y10をそれぞれ上瞼点の位置情報のx座標、y座標、下瞼点の位置情報のx座標、y座標、目頭点の位置情報のx座標、y座標、目尻点の位置情報のx座標、y座標、瞳点の位置情報のx座標、y座標とすると、右目のLRF関数をY=AX+Bとして表すことができる。なお、A=(A,A,…,A、B=(B,B,…,Bである。
 また、図7に示す例では、LRF情報41において、LRF関数に各方法が対応付けられているがこれに限るものではない。図7に示す例では、学習時に、LRF学習装置が各方法を適宜選択してLRF関数を生成する場合を示しているが、学習時と検出時において、各部位点毎に、予め定めた方法を各方法に関して使用する場合、部位点検出装置1およびLRF学習装置2が各部位点毎に予め定めた方法を記憶していればよい(例えば、学習プログラムおよび検出プログラムに組み込まれていればよい)。この場合、LRF情報41において、LRF関数に各方法が対応付けられている必要はなく、LRF情報41は、部位点に対応付けられたLRF関数を示す情報が含まれていればよい。
 〔部位点検出装置の構成〕
 次に、部位点検出装置について図1に基づいて説明する。部位点検出装置は、LRF学習装置が生成したLRF情報に基づいて、他の装置から取得した画像、または、自装置に搭載されたカメラで撮像した画像から、物体の輪郭点や特徴点等の部位点を検出する装置である。
 部位点検出装置は、例えば、デジタルカメラ、PC、携帯電話機、PDA(Personal Digital Assistant)、ゲーム機、写真を撮影して印刷する装置、画像を編集する装置などであってよい。
 本実施形態では、検出対象の部位点を有する物体を人間の目や口等としているがこれに限るものではない。例えば、犬や猫等の動物の顔や器官等であってもよいし、携帯電話機やテレビ等であってもよいし、建物や雲等であってもよい。ここで、部位点検出装置が上記検出対象の部位点を検出対象点と称し、検出対象点を有する物体を検出対象物と称する。
 図1は、部位点検出装置1の要部構成の一例を示すブロック図である。図1に示すように、部位点検出装置1は、制御部11、記憶部12、画像入力部13、操作部(入力手段)14および表示部15を備えている。なお、部位点検出装置1は、他の装置と通信するための通信部、音声入力部、音声出力部等の部材を備えていてもよいが、発明の特徴点とは関係がないため当該部材を図示していない。
 なお、説明の便宜上、LRF学習装置2に含まれる部材と同一の機能を有する部材には、同一の符号を付し、その説明を一部省略する。
 記憶部12は、制御部11が参照するプログラムやデータ等を格納するものであり、例えば、LRF学習装置が生成したLRF情報41等を格納している。記憶部12に格納されているLRF情報41は、例えば、図7に示すようなデータであってよい。
 制御部11は、記憶部12から一時記憶部(不図示)に読み出されたプログラムを実行することにより、各種の演算を行うと共に、部位点検出装置1が備える各部を統括的に制御するものである。
 本実施形態では、制御部11は、機能ブロックとして、画像取得部21、領域切り出し部22、基準点特定部23、サンプリング位置特定部(サンプリング位置特定手段)25、特徴量抽出部26、位置情報特定部(位置情報特定手段)29および部位点特定部(検出側部位点特定手段)30を備える構成である。これらの制御部11の各機能ブロック(21~23、25、26、29、30)は、CPUが、ROM等で実現された記憶装置に記憶されているプログラムをRAM等で実現された一時記憶部に読み出して実行することで実現できる。
 画像取得部21は、画像入力部13を介して入力された画像を取得するものである。画像取得部21は、取得した画像を領域切り出し部22に出力する。
 領域切り出し部22は、記憶部12からLRF情報41を読み出し、LRF情報41において検出対象点に対応付けられている学習対象領域画像抽出方法に基づいて、取得した画像から、検出対象点が含まれる領域の画像である検出対象領域画像を抽出するものである。
 また、領域切り出し部22は、LRF情報41において検出対象点に対応付けられている正規化方法に基づいて、抽出した検出対象領域画像を正規化し、正規化画像を生成するものである。領域切り出し部22は、生成した正規化画像を基準点特定部23およびサンプリング位置特定部25に出力する。
 基準点特定部23は、記憶部12からLRF情報41を読み出し、領域切り出し部22から正規化画像を取得する。そして、基準点特定部23は、LRF情報41において検出対象点に対応付けられている基準点特定方法に基づいて、取得した正規化画像上の所定の点を基準点として特定するものである。基準点特定部23は、特定した基準点の正規化画像上における座標である基準座標を部位点特定部30に出力する。
 サンプリング位置特定部25は、記憶部12からLRF情報41を読み出し、領域切り出し部22から正規化画像を取得し、LRF情報41において検出対象点に対応付けられているサンプリング位置特定方法に基づいて、正規化画像上の所定の範囲内に基準点(部位点)に対する複数のサンプリング点を特定する。
 特徴量抽出部26は、記憶部12からLRF情報41を読み出し、LRF情報41において検出対象点に対応付けられている特徴量抽出方法に基づいて、基準点に対するサンプリング点毎に、サンプリング点の画素またはサンプリング点の画素を含む画素群から特徴量を抽出する。そして、特徴量抽出部26は、各サンプリング点にそれぞれ対応する複数の特徴量から構成される特徴量群を生成する。
 位置情報特定部29は、記憶部12からLRF情報41を読み出し、LRF情報41において検出対象点に対応付けられているLRF関数に基づいて、特徴量抽出部26が生成した特徴量群に対応する位置情報を特定するものである。位置情報特定部29は、特定した位置情報を部位点特定部30に出力する。
 具体的には、図8に示すように、位置情報特定部29は、特徴量抽出部26が生成した特徴量群を入力値としてLRF関数に与え、その出力結果を位置情報とする。
 部位点特定部30は、基準点特定部23から基準座標を取得し、位置情報特定部29から位置情報を取得する。そして、部位点特定部30は、正規化画像において、基準座標が示す点を原点とする位置情報が示す位置を検出対象点として特定するものである。
 〔LRF学習方法〕
 次に、LRF学習装置2が実行するLRF学習方法について、図9および図10に基づいて説明する。図9は、LRF学習装置2が実行するLRF学習方法の一例を示す図である。図10は、LRF学習方法に含まれる各処理の状態を、画像を用いて模式的に示す遷移図である。
 図9および図10に示す例では、人間の顔の両目および口の輪郭点に対するLRF関数を生成するものとする。具体的には、右目および左目の目尻点、目頭点、上瞼点、下瞼点および瞳点、並びに、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点を学習対象点とする。なお、上唇(下唇)の上中点とは、上唇(下唇)の中央の上側の輪郭点であり、上唇(下唇)の下中点とは、上唇(下唇)の中央の下側の輪郭点である。
 また、図9および図10に示す例では、右目、左目および口の中央点をそれぞれの基準点とする。また、サンプリング範囲は、右目、左目および口をそれぞれ覆う範囲に設定する。具体的には、右目、左目および口の中央点(基準点)を中心とした所定範囲をサンプリング範囲とする。
 図9に示すように、まず、画像取得部21は、画像入力部13を介して入力された画像を取得する(S1)。このときの状態を、図10の状態1に示す。
 次に、領域切り出し部22は、画像取得部21が取得した画像から、学習対象領域画像抽出方法「G001」(例えば、従来の顔検出方法または顔器官点検出方法)に基づいて、顔画像を検出する(S2)。このときの状態を、図10の状態2に示す。状態2では、検出された顔画像が四角の線で囲われており、検出された顔器官点が白点で示されている。
 そして、領域切り出し部22は、正規化方法「H001」に基づいて、検出した顔画像を切り出し、切り出した顔画像を正規化して正規化画像を生成する(S3)。このときの状態を、図10の状態3に示す。
 次に、基準点特定部23は、基準点特定方法「I001」、「I002」、「I003」にそれぞれ基づいて、正規化画像上における右目、左目および口の基準点を特定する(S4)。このときの状態を、図10の状態4に示す。上述のように、状態4では、左右の目の中心および口の中心にそれぞれの基準点が設定されている。
 次に、部位点特定部24は、正規化画像上において、右目および左目の目尻点、目頭点、上瞼点、下瞼点および瞳点、並びに、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点を学習対象点として特定する(S5)。このときの状態を、図10の状態5に示す。
 次に、サンプリング位置特定部25は、サンプリング位置特定方法「J001」、「J002」、「J003」にそれぞれ基づいて、正規化画像上の各サンプリング範囲内にそれぞれ複数のサンプリング点を特定する(S6)。そして、特徴量抽出部26は、特徴量抽出方法「K001」、「K002」、「K003」にそれぞれ基づいて、左右の目および口の各サンプリング点の画素または画素群からそれぞれ特徴量群を抽出する(S7)。このときの状態を、図10の状態6に示す。上述のように、状態6では、左右の目および口をそれぞれ覆うように、各器官の中心点を中心とする所定の位置にサンプリング点が設定されている。すなわち、ここでは、右目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対する特徴量群と、左目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対する特徴量群と、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点に対する特徴量群との3つの特徴量群が生成される。換言すると、右目、左目および口の各基準点(中心点)に対して、それぞれ3つの特徴量群が生成される。
 次に、位置情報生成部27は、位置情報生成方法「L001」、「L002」、「L003」にそれぞれ基づいて、基準点を原点とする学習対象点の位置を示す位置情報を学習対象点毎に生成する(S8)。このときの状態を、図10の状態7に示す。
 以上の処理を複数の画像に対して行い、画像毎に、各学習対象点に対する特徴量群および位置情報を生成する。
 LRF関数算出部28は、回帰分析を用いて、複数組の位置情報および特徴量群から、各学習対象点に対するLRF関数をそれぞれ生成する(S9)。そして、LRF関数算出部28は、生成した各学習対象点に対するLRF関数に、それぞれ、使用した各方法(学習対象領域画像抽出方法、正規化方法、基準点特定方法、サンプリング位置特定方法、特徴量抽出方法および位置情報生成方法)を対応付けてLRF情報41を生成し、記憶部12に格納する。
 〔部位点検出方法〕
 次に、部位点検出装置1が実行する部位点検出方法について、図11および図12に基づいて説明する。図11は、部位点検出装置1が実行する部位点検出方法の一例を示す図である。図12は、部位点検出方法に含まれる各処理の状態を、画像を用いて模式的に示す遷移図である。
 図11および図12に示す例では、部位点検出装置1の記憶部12に図7に示すLRF情報41が格納されているものとする。また、ここでは、人間の顔の右目および左目の目尻点、目頭点、上瞼点、下瞼点および瞳点、並びに、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点を検出するものとする。
 図11に示すように、まず、画像取得部21は、画像入力部13を介して入力された画像を取得する(S11)。このときの状態を、図12の状態11に示す。
 次に、領域切り出し部22は、記憶部12からLRF情報41を読み出す。ここで、LRF情報41において、各検出対象点には、全て同じ学習対象領域画像抽出方法「G001」および正規化方法「H001」が対応付けられている。そのため、領域切り出し部22は、学習対象領域画像抽出方法「G001」に基づいて、画像取得部21が取得した画像から、画像を切り出す(S12)。このときの状態を、図12の状態12に示す。状態12では、顔画像および顔器官点が検出され、検出された顔画像が四角の線で囲われており、検出された顔器官点が白点で示されている。
 そして、領域切り出し部22は、検出した顔画像を切り出し、正規化方法「H001」に基づいて切り出した顔画像を正規化して正規化画像を生成する(S13)。このときの状態を、図12の状態13に示す。
 次に、基準点特定部23は、記憶部12からLRF情報41を読み出す。ここで、LRF情報41において、右目、左目、口単位で、同じ基準点特定方法「I001」、「I002」、「I003」がそれぞれ対応付けられている。そのため、基準点特定部23は、正規化画像上に、右目の検出対象点の基準点を基準点特定方法「I001」に基づいて特定し、左目の検出対象点の基準点を基準点特定方法「I002」に基づいて特定し、口の検出対象点の基準点を基準点特定方法「I003」に基づいて特定する(S14)。このときの状態を、図12の状態14に示す。図示のように、状態14では、右目、左目、口のそれぞれ中心点が基準点として特定されている。
 次に、サンプリング位置特定部25は、記憶部12からLRF情報41を読み出す。ここで、LRF情報41において、右目、左目、口単位で、同じサンプリング位置特定方法「J001」、「J002」、「J003」がそれぞれ対応付けられている。そのため、サンプリング位置特定部25は、正規化画像上において、右目の検出対象点のサンプリング点をサンプリング位置特定方法「J001」に基づいて特定し、左目の検出対象点のサンプリング点をサンプリング位置特定方法「J002」に基づいて特定し、口の検出対象点のサンプリング点をサンプリング位置特定方法「J003」に基づいて特定する(S15)。
 このときの状態を、図12の状態15に示す。図示のように、状態15では、左右の目および口をそれぞれ覆うように、各器官の基準点を中心とする所定の範囲にサンプリング点が設定されている。
 そして、特徴量抽出部26は、記憶部12からLRF情報41を読み出す。ここで、LRF情報41において、右目、左目、口単位で、同じ特徴量抽出方法「K001」、「K002」、「K003」がそれぞれ対応付けられている。そのため、特徴量抽出部26は、右目の検出対象点のサンプリング点の画素または画素群から、右目の検出対象点の特徴量群を特徴量抽出方法「K001」に基づいて抽出し、左目の検出対象点のサンプリング点の画素または画素群から、左目の検出対象点の特徴量群を特徴量抽出方法「K002」に基づいて抽出し、口の検出対象点のサンプリング点の画素または画素群から、口の検出対象点の特徴量群を特徴量抽出方法「K003」に基づいて抽出する(S16)。
 すなわち、ここでは、右目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対する特徴量群と、左目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対する特徴量群と、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点に対する特徴量群との3つの特徴量群が生成される。換言すると、右目、左目および口の各基準点(中心点)に対して、それぞれ3つの特徴量群が生成される。
 次に、位置情報特定部29は、記憶部12からLRF情報41を読み出す。そして、位置情報特定部29は、右目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対応付けられているLRF関数に、これらの検出対象点に対する特徴量群をそれぞれ入力して、右目の目尻点、目頭点、上瞼点、下瞼点および瞳点の位置情報をそれぞれ特定する。また、位置情報特定部29は、左目の目尻点、目頭点、上瞼点、下瞼点および瞳点に対応付けられているLRF関数に、これらの検出対象点に対する特徴量群をそれぞれ入力して、左目の目尻点、目頭点、上瞼点、下瞼点および瞳点の位置情報をそれぞれ特定する。また、位置情報特定部29は、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点に対応付けられているLRF関数に、これらの検出対象点に対する特徴量群をそれぞれ入力して、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点の位置情報をそれぞれ特定する(S17)。
 最後に、部位点特定部30は、記憶部12からLRF情報41を読み出す。ここで、LRF情報41において、右目、左目、口単位で、同じ位置情報生成方法「L001」、「L002」、「L003」がそれぞれ対応付けられている。そのため、部位点特定部30は、右目の目尻点、目頭点、上瞼点、下瞼点および瞳点の位置情報から、位置情報生成方法「L001」に基づいて、これらの検出対象点の正規化画像上における座標をそれぞれ特定し、左目の目尻点、目頭点、上瞼点、下瞼点および瞳点の位置情報から、位置情報生成方法「L002」に基づいて、これらの検出対象点の正規化画像上における座標をそれぞれ特定し、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点の位置情報から、位置情報生成方法「L003」に基づいて、これらの検出対象点の正規化画像上における座標をそれぞれ特定する(S18)。
 例えば、右目の目尻点について、右目の基準点(中心点)のX座標値、Y座標値に、目尻点の位置情報の示すX座標値、Y座標値の差分値をそれぞれ加算する。この加算して求めた値であるX座標値、Y座標値が、目尻点の正規化画像上における座標値である。右目の他の部位点、並びに、左目の各部位点および口の各部位点に対しても同様の処理を行い、正規化画像上における右目、左目および口の各部位点の座標を特定する。
 このときの状態を、図12の状態16に示す。図示のように、状態16では、右目および左目の目尻点、目頭点、上瞼点、下瞼点および瞳点、並びに、口の右口角点および左口角点、並びに、上唇および下唇の上中点および下中点の正規化画像上における位置(座標)が特定されている。
 そして、正規化画像上における各部位点の座標値から、例えば、アフィン変換等により、原画像上における各部位点の座標値を算出して、原画像上における各部位点の座標を特定する。
 〔課題を解決するための手段〕
 本発明に係る画像処理装置は、画像から物体の部位点を検出する画像処理装置であって、上記画像上に上記部位点に対する基準点を特定する基準点特定手段と、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定する位置情報特定手段と、上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする検出側部位点特定手段とを備えることを特徴としている。
 本発明に係る画像処理方法は、画像から物体の部位点を検出する画像処理方法であって、上記画像上に上記部位点に対する基準点を特定する基準点特定ステップと、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出ステップにおいて抽出された特徴量群に対応する位置情報を特定する位置情報特定ステップと、上記位置情報特定ステップにおいて特定された位置情報の示す位置を上記物体の部位点とする部位点特定ステップとを含むことを特徴としている。
 上記の構成によれば、上記位置情報特定手段は、上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定し、上記検出側部位点特定手段は、上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする。
 本発明者らは、画像上において、例えば、目や口などの器官を含む領域から抽出した特徴量群と、画像上の基準点に対する器官の輪郭点や特徴点の相対位置との間に相関関係があることを見出した。この知見に基づき、上記特徴量群と上記位置情報との対応関係を示す対応関係情報を参照することにより、形状が変化する物体であっても、画像上における物体の部位点を高精度に検出できることが可能となった。すなわち、上記画像処理装置および上記画像処理方法は、物体の形状が変化した場合であっても、物体の部位点を高精度に検出できるという効果を奏する。
 また、本発明に係る画像処理装置は、上記画像上において、上記部位点が位置すると考えられる領域を含む範囲内に、上記サンプリング点の位置を特定するサンプリング位置特定手段をさらに備えることが好ましい。
 また、本発明に係る情報生成装置は、上記画像処理装置が参照する上記対応関係情報を生成する情報生成装置であって、物体の部位点が撮像されている画像を取得する画像取得手段と、上記画像上に上記部位点に対する上記基準点を特定する基準点特定手段と、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、上記基準点特定手段が特定した基準点に対する上記部位点の相対位置を示す上記位置情報を生成する位置情報生成手段と、上記特徴量抽出手段が抽出した特徴量群と、上記位置情報生成手段が生成した位置情報との対応関係を示す上記対応関係情報を生成する対応関係情報生成手段とを備えることを特徴としている。
 また、本発明に係る情報生成方法は、上記画像処理方法において参照される上記対応関係情報を生成する情報生成方法であって、物体の部位点が撮像されている画像を取得する画像取得ステップと、上記画像上に上記部位点に対する上記基準点を特定する基準点特定ステップと、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、上記基準点特定ステップにおいて特定された基準点に対する上記部位点の相対位置を示す上記位置情報を生成する位置情報生成ステップと、上記特徴量抽出ステップにおいて抽出された特徴量群と、上記位置情報生成ステップにおいて生成された位置情報との対応関係を示す上記対応関係情報を生成する対応関係情報生成ステップとを含むことを特徴としている。
 上記の構成によれば、上記画像取得手段は、上記物体の部位点が撮像されている画像を取得し、上記基準点特定手段は、上記画像上に上記部位点に対する基準点を特定し、上記特徴量抽出手段は、上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出し、上記位置情報生成手段は、上記基準点特定手段が特定した基準点に対する上記部位点の相対位置を示す位置情報を生成し、上記対応関係情報生成手段は、上記特徴量抽出手段が抽出した特徴量群と、上記位置情報生成手段が生成した位置情報との対応関係を示す対応関係情報を生成する。
 そのため、上記画像処理装置が参照する対応関係情報を生成することができるという効果を奏する。上述のように、上記特徴量群と上記位置情報との間には対応関係があるため、生成した対応関係情報を使用することにより、物体の部位点を高精度に検出することができる。
 また、本発明に係る情報生成装置は、上記対応関係情報生成手段は、回帰分析を用いて上記対応関係情報を生成することが好ましい。
 また、本発明に係る情報生成装置は、ユーザからの操作指示を受け付ける入力手段と、上記入力手段に入力された操作指示に基づいて、上記画像上における上記物体の部位点を特定する学習側部位点特定手段とをさらに備えることが好ましい。
 また、本発明に係る情報生成装置は、上記画像取得手段は、上記画像と共に、当該画像に対応付けられている、上記部位点の位置を示す部位点位置情報を取得し、上記部位点位置情報の示す位置に基づいて、上記画像上における上記物体の部位点を特定する学習側部位点特定手段とをさらに備えることが好ましい。
 なお、上記画像処理装置および上記情報生成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記画像処理装置および上記情報生成装置の各手段として動作させることにより、上記画像処理装置および上記情報生成装置をコンピュータにて実現させる制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。
 〔補足〕
 本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 最後に、部位点検出装置1およびLRF学習装置2の各ブロック、特に制御部11および制御部16は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
 すなわち、部位点検出装置1およびLRF学習装置2は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである部位点検出装置1およびLRF学習装置2の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、部位点検出装置1およびLRF学習装置2に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
 上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
 また、部位点検出装置1およびLRF学習装置2を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
 本発明は、画像上の物体の所定の部位点を検出する画像処理装置に利用することができる。より好ましくは、形状が多様に変化する物体の所定の部位点を画像から検出する画像処理装置に利用することができる。
 1  部位点検出装置(画像処理装置)
 2  LRF学習装置(情報生成装置)
14  操作部(入力手段)
21  画像取得部(画像取得手段)
23  基準点特定部(基準点特定手段)
24  部位点特定部(学習側部位点特定手段)
25  サンプリング位置特定部(サンプリング位置特定手段)
26  特徴量抽出部(特徴量抽出手段)
27  位置情報生成部(位置情報生成手段)
28  LRF関数算出部(対応関係情報生成手段)
29  位置情報特定部(位置情報特定手段)
30  部位点特定部(検出側部位点特定手段)

Claims (11)

  1.  画像から物体の部位点を検出する画像処理装置であって、
     上記画像上に上記部位点に対する基準点を特定する基準点特定手段と、
     上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、
     上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出手段が抽出した特徴量群に対応する位置情報を特定する位置情報特定手段と、
     上記位置情報特定手段が特定した位置情報の示す位置を上記物体の部位点とする検出側部位点特定手段とを備えることを特徴とする画像処理装置。
  2.  上記画像上において、上記部位点が位置すると考えられる領域を含む範囲内に、上記サンプリング点の位置を特定するサンプリング位置特定手段をさらに備えることを特徴とする請求項1に記載の画像処理装置。
  3.  請求項1または2に記載の画像処理装置が参照する上記対応関係情報を生成する情報生成装置であって、
     物体の部位点が撮像されている画像を取得する画像取得手段と、
     上記画像上に上記部位点に対する上記基準点を特定する基準点特定手段と、
     上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出手段と、
     上記基準点特定手段が特定した基準点に対する上記部位点の相対位置を示す上記位置情報を生成する位置情報生成手段と、
     上記特徴量抽出手段が抽出した特徴量群と、上記位置情報生成手段が生成した位置情報との対応関係を示す上記対応関係情報を生成する対応関係情報生成手段とを備えることを特徴とする情報生成装置。
  4.  上記対応関係情報生成手段は、回帰分析を用いて上記対応関係情報を生成することを特徴とする請求項3に記載の情報生成装置。
  5.  ユーザからの操作指示を受け付ける入力手段と、
     上記入力手段に入力された操作指示に基づいて、上記画像上における上記物体の部位点を特定する学習側部位点特定手段とをさらに備えることを特徴とする請求項3または4に記載の情報生成装置。
  6.  上記画像取得手段は、上記画像と共に、当該画像に対応付けられている、上記部位点の位置を示す部位点位置情報を取得し、
     上記部位点位置情報の示す位置に基づいて、上記画像上における上記物体の部位点を特定する学習側部位点特定手段とをさらに備えることを特徴とする請求項3または4に記載の情報生成装置。
  7.  画像から物体の部位点を検出する画像処理方法であって、
     上記画像上に上記部位点に対する基準点を特定する基準点特定ステップと、
     上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、
     上記複数のサンプリング点の各画素または各画素群から抽出された上記基準点に対する特徴量群と、上記基準点に対する上記部位点の相対位置を示す位置情報との対応関係を示す対応関係情報を参照して、上記特徴量抽出ステップにおいて抽出された特徴量群に対応する位置情報を特定する位置情報特定ステップと、
     上記位置情報特定ステップにおいて特定された位置情報の示す位置を上記物体の部位点とする部位点特定ステップとを含むことを特徴とする画像処理方法。
  8.  請求項7に記載の画像処理方法において参照される上記対応関係情報を生成する情報生成方法であって、
     物体の部位点が撮像されている画像を取得する画像取得ステップと、
     上記画像上に上記部位点に対する上記基準点を特定する基準点特定ステップと、
     上記基準点に対する複数のサンプリング点毎に、当該サンプリング点の画素または当該画素を含む画素群から特徴量を抽出し、抽出した各サンプリング点にそれぞれ対応する複数の特徴量から構成される、上記基準点に対する特徴量群を抽出する特徴量抽出ステップと、
     上記基準点特定ステップにおいて特定された基準点に対する上記部位点の相対位置を示す上記位置情報を生成する位置情報生成ステップと、
     上記特徴量抽出ステップにおいて抽出された特徴量群と、上記位置情報生成ステップにおいて生成された位置情報との対応関係を示す上記対応関係情報を生成する対応関係情報生成ステップとを含むことを特徴とする情報生成方法。
  9.  請求項1または2に記載の画像処理装置を動作させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
  10.  請求項3~6の何れか1項に記載の情報生成装置を動作させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
  11.  請求項9および10の少なくとも一方に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2012/056516 2011-06-07 2012-03-14 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体 WO2012169251A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201280025429.5A CN103562964B (zh) 2011-06-07 2012-03-14 图像处理装置、信息生成装置、图像处理方法、信息生成方法、控制程序及记录介质
EP12796871.7A EP2720194A4 (en) 2011-06-07 2012-03-14 IMAGE PROCESSING DEVICE, INFORMATION GENERATING DEVICE, IMAGE PROCESSING METHOD, INFORMATION GENERATING METHOD, CONTROL PROGRAM, AND RECORDING MEDIUM
US14/122,600 US9607209B2 (en) 2011-06-07 2012-03-14 Image processing device, information generation device, image processing method, information generation method, control program, and recording medium for identifying facial features of an image based on another image
KR1020137030996A KR101525133B1 (ko) 2011-06-07 2012-03-14 화상처리장치, 정보생성장치, 화상처리방법, 정보생성방법, 제어 프로그램 및 기록매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011127755A JP4998637B1 (ja) 2011-06-07 2011-06-07 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体
JP2011-127755 2011-06-07

Publications (1)

Publication Number Publication Date
WO2012169251A1 true WO2012169251A1 (ja) 2012-12-13

Family

ID=46793925

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/056516 WO2012169251A1 (ja) 2011-06-07 2012-03-14 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体

Country Status (6)

Country Link
US (1) US9607209B2 (ja)
EP (1) EP2720194A4 (ja)
JP (1) JP4998637B1 (ja)
KR (1) KR101525133B1 (ja)
CN (1) CN103562964B (ja)
WO (1) WO2012169251A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790127A3 (en) * 2013-04-08 2016-01-27 Omron Corporation Image processing device, image processing method, and recording medium
WO2016159255A1 (ja) * 2015-03-31 2016-10-06 国立大学法人静岡大学 口領域検出装置及び口領域検出方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015133085A (ja) * 2014-01-15 2015-07-23 キヤノン株式会社 情報処理装置およびその方法
CN104036296B (zh) * 2014-06-20 2017-10-13 深圳先进技术研究院 一种图像的表示和处理方法及装置
US9444999B2 (en) * 2014-08-05 2016-09-13 Omnivision Technologies, Inc. Feature detection in image capture
US10380414B2 (en) 2014-10-23 2019-08-13 Intel Corporation Method and system of facial expression recognition using linear relationships within landmark subsets
US9830528B2 (en) 2015-12-09 2017-11-28 Axis Ab Rotation invariant object feature recognition
JP6872742B2 (ja) * 2016-06-30 2021-05-19 学校法人明治大学 顔画像処理システム、顔画像処理方法及び顔画像処理プログラム
JP7009864B2 (ja) * 2017-09-20 2022-01-26 カシオ計算機株式会社 輪郭検出装置及び輪郭検出方法
CN108062742B (zh) * 2017-12-31 2021-05-04 广州二元科技有限公司 一种利用数字图像处理和变形的眉毛更换方法
CN110059522B (zh) * 2018-01-19 2021-06-25 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
CN109871845B (zh) * 2019-01-10 2023-10-31 平安科技(深圳)有限公司 证件图像提取方法及终端设备
US11375968B2 (en) 2020-04-06 2022-07-05 GE Precision Healthcare LLC Methods and systems for user and/or patient experience improvement in mammography
CN111553286B (zh) * 2020-04-29 2024-01-26 北京攸乐科技有限公司 用于捕捉耳朵动画特征的方法、电子设备
CN111738166B (zh) * 2020-06-24 2024-03-01 平安科技(深圳)有限公司 目标轮廓圈定方法、装置、计算机系统及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199375A (ja) * 1990-11-29 1992-07-20 Fujitsu Ltd 指紋照合装置
JPH096964A (ja) 1995-06-22 1997-01-10 Seiko Epson Corp 顔画像処理方法および顔画像処理装置
JP2000097676A (ja) * 1998-09-24 2000-04-07 Sanyo Electric Co Ltd 顔向き検出方法及びその装置
JP2001229368A (ja) * 2000-02-15 2001-08-24 Niles Parts Co Ltd 眼の状態検出装置
JP2004054442A (ja) * 2002-07-17 2004-02-19 Glory Ltd 顔検出装置、顔検出方法および顔検出プログラム
JP2005339288A (ja) 2004-05-27 2005-12-08 Toshiba Corp 画像処理装置及びその方法
JP4093273B2 (ja) 2006-03-13 2008-06-04 オムロン株式会社 特徴点検出装置、特徴点検出方法および特徴点検出プログラム
JP4501937B2 (ja) 2004-11-12 2010-07-14 オムロン株式会社 顔特徴点検出装置、特徴点検出装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8902372A (nl) 1989-09-21 1991-04-16 Imec Inter Uni Micro Electr Werkwijze voor het vervaardigen van een veldeffecttransistor en halfgeleiderelement.
JPH0493273A (ja) 1990-08-10 1992-03-26 Mitsubishi Electric Corp 用紙クランプ装置
JP3695990B2 (ja) * 1999-05-25 2005-09-14 三菱電機株式会社 顔画像処理装置
GB2384639B (en) * 2002-01-24 2005-04-13 Pixology Ltd Image processing to remove red-eye features
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
JP4449723B2 (ja) * 2004-12-08 2010-04-14 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
KR100791372B1 (ko) * 2005-10-14 2008-01-07 삼성전자주식회사 인물 이미지 보정 장치 및 방법
JP4991317B2 (ja) * 2006-02-06 2012-08-01 株式会社東芝 顔特徴点検出装置及びその方法
US8103061B2 (en) * 2006-10-02 2012-01-24 Johnson & Johnson Consumer Companies, Inc. Method and apparatus for identifying facial regions
JP2008117333A (ja) * 2006-11-08 2008-05-22 Sony Corp 情報処理装置、情報処理方法、個人識別装置、個人識別装置における辞書データ生成・更新方法および辞書データ生成・更新プログラム
WO2009131209A1 (ja) * 2008-04-24 2009-10-29 日本電気株式会社 画像照合装置、画像照合方法および画像照合用プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199375A (ja) * 1990-11-29 1992-07-20 Fujitsu Ltd 指紋照合装置
JPH096964A (ja) 1995-06-22 1997-01-10 Seiko Epson Corp 顔画像処理方法および顔画像処理装置
JP2000097676A (ja) * 1998-09-24 2000-04-07 Sanyo Electric Co Ltd 顔向き検出方法及びその装置
JP2001229368A (ja) * 2000-02-15 2001-08-24 Niles Parts Co Ltd 眼の状態検出装置
JP2004054442A (ja) * 2002-07-17 2004-02-19 Glory Ltd 顔検出装置、顔検出方法および顔検出プログラム
JP2005339288A (ja) 2004-05-27 2005-12-08 Toshiba Corp 画像処理装置及びその方法
JP4501937B2 (ja) 2004-11-12 2010-07-14 オムロン株式会社 顔特徴点検出装置、特徴点検出装置
JP4093273B2 (ja) 2006-03-13 2008-06-04 オムロン株式会社 特徴点検出装置、特徴点検出方法および特徴点検出プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP2720194A4
T.F. COOTES ET AL.: "Active appearance models", ECCV'98, vol. LL, 1998
T.F. COOTES ET AL.: "Active Shape Models - Their Training and Application", CVIU, vol. 6, no. 1, 1995, pages 38 - 59

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790127A3 (en) * 2013-04-08 2016-01-27 Omron Corporation Image processing device, image processing method, and recording medium
WO2016159255A1 (ja) * 2015-03-31 2016-10-06 国立大学法人静岡大学 口領域検出装置及び口領域検出方法

Also Published As

Publication number Publication date
US9607209B2 (en) 2017-03-28
JP2012256131A (ja) 2012-12-27
KR20140004230A (ko) 2014-01-10
EP2720194A1 (en) 2014-04-16
US20140105487A1 (en) 2014-04-17
JP4998637B1 (ja) 2012-08-15
CN103562964B (zh) 2017-02-15
KR101525133B1 (ko) 2015-06-10
EP2720194A4 (en) 2015-03-18
CN103562964A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
JP4998637B1 (ja) 画像処理装置、情報生成装置、画像処理方法、情報生成方法、制御プログラムおよび記録媒体
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
Zhang et al. Deformable part descriptors for fine-grained recognition and attribute prediction
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
US8861800B2 (en) Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction
AU2012227166B2 (en) Face feature vector construction
WO2016011834A1 (zh) 一种图像处理方法及系统
EP3992919B1 (en) Three-dimensional facial model generation method and apparatus, device, and medium
CN103425964B (zh) 图像处理设备和图像处理方法
Vretos et al. 3D facial expression recognition using Zernike moments on depth images
JP2007087345A (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2005242567A (ja) 動作評価装置及び方法
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
Mayer et al. Adjusted pixel features for robust facial component classification
WO2023273247A1 (zh) 人脸图像处理方法及装置、计算机可读存储介质、终端
Hsieh et al. Expression-invariant face recognition with constrained optical flow warping
JP7247579B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7314509B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2007026308A (ja) 画像処理方法、画像処理装置
Liu et al. Automatic facial expression recognition based on local binary patterns of local areas
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
Li et al. 3d facial expression recognition using delta faces
Wang Implementation of face cartoon maker system based on android
Hasan et al. Controlling android device with eye tracking
Chen et al. An eye location based head posture recognition method and its application in mouse operation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12796871

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20137030996

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14122600

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE