WO2011058807A1 - 映像処理装置および映像処理方法 - Google Patents

映像処理装置および映像処理方法 Download PDF

Info

Publication number
WO2011058807A1
WO2011058807A1 PCT/JP2010/065196 JP2010065196W WO2011058807A1 WO 2011058807 A1 WO2011058807 A1 WO 2011058807A1 JP 2010065196 W JP2010065196 W JP 2010065196W WO 2011058807 A1 WO2011058807 A1 WO 2011058807A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
unit
feature
image
face image
Prior art date
Application number
PCT/JP2010/065196
Other languages
English (en)
French (fr)
Inventor
康彦 寺西
Original Assignee
日本ビクター株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本ビクター株式会社 filed Critical 日本ビクター株式会社
Priority to US13/119,373 priority Critical patent/US20110199505A1/en
Priority to CN201080002809.8A priority patent/CN102172014A/zh
Publication of WO2011058807A1 publication Critical patent/WO2011058807A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof

Definitions

  • the present invention relates to an image processing apparatus and an image processing method for storing feature amounts of a face image so as to specify a subject.
  • a digital still camera or digital video camera or the like that specifies the face image (face image) of a person specified by the user from the generated video and automatically adjusts the focus and exposure to the specified face image
  • Video processing devices are in widespread use.
  • Such a video processing apparatus derives in advance the feature amount of the face image from the face image designated by the user, and stores the feature amount later for specifying the face image.
  • the feature amount of the face image is affected by the direction of the face, even if the subject is the same person, if the direction of the face is changed too much, it may be misjudged as being a different person.
  • Patent Document 1 When the technique of Patent Document 1 described above is used, a certain degree of robustness can be given to the orientation of the face when specifying the face image, but the face image whose posture (direction of the face) is changed is Since the prediction is generated, if the change in the direction or expression of the face becomes large, there is a possibility that an erroneous determination may occur in the face authentication process.
  • the video processing apparatus previously obtains a plurality of face images having different face orientations and expressions for the same person and derives and stores the feature amount, the accuracy of specifying the face image in the face authentication process is obtained. It can be improved. However, for this purpose, it is necessary to repeat the imaging and registration operations while having the person of the subject change the direction and expression of the face each time. In this case, not only the user but also the person of the subject feels bothersome. Furthermore, in this imaging and registration operation, whether or not a face image having a sufficiently different face orientation or expression can be imaged and registered can be left to the user's judgment, so a plurality of similar feature quantities can be used. It may be registered, and the accuracy at the time of specifying a face image may deteriorate.
  • the present invention provides an image processing apparatus and an image processing method capable of deriving an appropriate feature amount that can reliably specify a face image without the user having a bother.
  • the purpose is that.
  • a video processing apparatus stores a video acquisition unit for acquiring a video, a position specifying unit for specifying one face image from the video, a specified face image, and a storage unit.
  • a face associating unit for associating the extracted face information with one or more feature amounts
  • a feature amount deriving unit for deriving a feature amount of the identified face image
  • a derived feature amount and
  • a storage control unit that compares one or more feature amounts of face information associated with a face image and adds the derived feature amount to the face information and stores it in the storage unit when a predetermined condition is satisfied; It is characterized by having.
  • the predetermined condition may be that the degree of similarity between the derived feature amount and all one or more feature amounts of face information associated with the identified face image is less than a predetermined value.
  • the video processing apparatus may include a display control unit that causes the display unit to display an image indicating the number of feature amounts actually stored with respect to the upper limit number of storable feature amounts.
  • another video processing apparatus includes a video acquisition unit for acquiring a video, a position specifying unit for specifying one face image from the video, a specified face image, and a storage unit.
  • a face associating unit that associates one or more feature amounts stored in the image with face information that summarizes the face direction
  • a face direction deriving unit that derives the face direction of the identified face image
  • the feature quantity deriving unit that derives the feature quantity of the captured face image, the orientation of the derived face, and the orientation of one or more faces of face information associated with the identified face image are compared, and a predetermined condition is established.
  • a storage control unit that adds the derived feature amount and the derived face orientation to the face information and stores the face information in the storage unit.
  • the predetermined condition is one or more ranges including the face direction of the face information associated with the identified face image out of a predetermined number of ranges regarding the face direction divided based on the pitch angle and the yaw angle
  • the orientation of the derived face may not be included in any of the above.
  • the image processing apparatus is configured to calculate the number of feature amounts actually stored with respect to the upper limit number of storable feature amounts or a predetermined number of ranges regarding the face direction divided based on the pitch angle and the yaw angle.
  • a display control unit may be provided that causes the display unit to display an image indicating one or both of the range in which the stored face orientation is included.
  • the video processing method of the present invention acquires a video, identifies one face image from the video, and identifies the identified face image, and face information in which one or more feature amounts are summarized. Relating the identified face image, and comparing the derived feature with one or more feature amounts of face information associated with the identified face image, and satisfying a predetermined condition. , And adding and storing the derived feature amount to face information.
  • another video processing method of the present invention acquires a video, identifies one face image from the video, and identifies the identified face image, one or more feature quantities, and the direction of the face. And the face information associated with each other, the face direction of the identified face image is derived, and the derived face direction is compared with the face direction of the face information associated with the identified face image. When the predetermined condition is satisfied, the feature amount of the identified face image and the derived face direction are added to the face information and stored.
  • FIG. 2 is an external view showing an example of a video processing apparatus.
  • FIG. 2 is a functional block diagram showing a schematic configuration of a video processing device in the first embodiment. It is an explanatory view for explaining direction of a face. It is an explanatory view for explaining control of storage to a feature storage unit of a feature according to the first embodiment. It is a flowchart which shows the flow of a process of the video processing method in 1st Embodiment. It is a functional block diagram showing a schematic configuration of a video processing device in a second embodiment. It is an explanatory view for explaining classification of a face picture based on direction of a face in a 2nd embodiment.
  • FIG. 1 shows the flowchart which shows the flow of a process of the video processing method in 1st Embodiment.
  • It is a functional block diagram showing a schematic configuration of a video processing device in a second embodiment. It is an explanatory view for explaining classification of a face picture based on direction of a face in a
  • FIG. 6 is an explanatory diagram for describing an image indicating the number of feature amounts and an image indicating a range including the orientation of a face. It is an explanatory view for explaining processing at the time of acquiring a feature-value from an external apparatus. It is a flowchart which shows the flow of a process of the video processing method in 2nd Embodiment.
  • Feature amount storage unit storage unit 170: position specifying unit 172: face direction deriving unit 174, 474: face associating unit 176, 476: feature value deriving unit 178, 478: storage control unit 180, 480: display control unit
  • FIG. 1 is an external view showing an example of a video processing apparatus 100.
  • FIG. 1A shows a digital still camera as the video processing device 100
  • FIG. 1B shows a video camera as the video processing device 100.
  • the image processing apparatus 100 may be portable, and includes a main body 102, an imaging lens 104, an operation unit 106, and a viewfinder 108 which functions as a display unit.
  • FIG. 2 is a functional block diagram showing a schematic configuration of the video processing apparatus 100 in the first embodiment.
  • a video camera shown in FIG. 1B is given as the video processing apparatus 100.
  • the video processing apparatus 100 specifies one face image on the captured video data, newly derives and stores a feature different from the feature stored for the face image, that is, An object of the present invention is to derive and store feature amounts of various face images different in the direction and expression of the face of the same person.
  • the feature quantities of various face images derived and stored in this way can be used thereafter to authenticate any face image in the video (authentication mode).
  • the video processing apparatus 100 includes an operation unit 106, an imaging unit 120, a data processing unit 122, a video holding unit 124, a viewfinder 108, a compression / decompression unit 128, a storage reading unit 130, and an external input / output unit 132. , A feature amount storage unit 134, and a central control unit 136.
  • the operation unit 106 includes an operation key including a release switch, a cross key, and a switch such as a joystick, and receives user's operation input.
  • a touch panel may be provided on the display surface of the viewfinder 108 described later, and the operation unit 106 may be used.
  • the imaging unit 120 includes a focus lens 150 used for focus adjustment, a diaphragm 152 used for exposure adjustment, an image sensor 156 photoelectrically converting light incident through the imaging lens 104 and converting the light into image data, and a focus lens A drive circuit 158 for driving the aperture 150 and the aperture 152 functions as an image acquisition unit for acquiring an image (image data) of a subject in the imaging direction, and outputs the acquired image data to the data processing unit 122.
  • the data processing unit 122 performs predetermined processing such as white balance adjustment, noise reduction processing, level correction processing, A / D conversion processing, color correction processing (gamma correction processing, knee processing), etc. on the image data output from the imaging unit 120. Processing is performed, and the processed video data is output to the video holding unit 124.
  • predetermined processing such as white balance adjustment, noise reduction processing, level correction processing, A / D conversion processing, color correction processing (gamma correction processing, knee processing), etc.
  • the video holding unit 124 is configured by a random access memory (RAM), a flash memory, a hard disk drive (HDD) or the like, and the video data input from the data processing unit 122, the compression / decompression unit 128, and the external input / output unit 132 Hold temporarily.
  • RAM random access memory
  • HDD hard disk drive
  • the view finder 108 is composed of a liquid crystal display, an organic EL (Electro Luminescence) display, etc., and is linked to the image data output from the data processing unit 122 and the compression / decompression unit 128 and held in the image holding unit 124 or the operation unit 106 It functions as a display unit that displays instruction items.
  • the user can check the video (image) displayed on the viewfinder 108 at the time of imaging and the video of the video data stored by the storage reading unit 130 described later. Further, the user can capture the subject at a desired position and occupied area by operating the operation unit 106 while visually recognizing the image displayed in the viewfinder 108. Further, the viewfinder 108 displays an image indicating the number of feature amounts actually stored with respect to the upper limit number of storable feature amounts described later.
  • the compression / decompression unit 128 is configured to transmit video data output from the data processing unit 122 to M-JPEG (motion JPEG), MPEG (Moving Picture Experts Group) -2, H.264, and so on. Code data encoded by a predetermined coding method such as H.264 is output to the storage reading unit 130.
  • M-JPEG motion JPEG
  • MPEG Motion Picture Experts Group
  • H.264 Motion Picture Experts Group
  • the compression / decompression unit 128 outputs, to the video holding unit 124, video data obtained by decoding the code data encoded by the predetermined coding method, which the storage reading unit 130 has read from the storage medium 200.
  • the storage reading unit 130 stores the code data encoded by the compression / decompression unit 128 in an arbitrary storage medium 200.
  • an optical disc medium such as a DVD (Digital Versatile Disc) or a BD (Blu-ray Disc), or a medium such as a RAM, an EEPROM, a non-volatile RAM, a flash memory, or an HDD can be applied.
  • the storage medium 200 is removable, but may be integrated with the video processing apparatus 100.
  • the storage and reading unit 130 also reads encoded data from an arbitrary storage medium 200 storing encoded data obtained by encoding video data according to a predetermined encoding method, and outputs the encoded data to the compression / decompression unit 128.
  • the external input / output unit 132 outputs the video data held in the video holding unit 124 to, for example, the display device 204 connected to the video processing device 100. Also, the external input / output unit 132 is connected to an external video reproduction device 206 such as, for example, a DVD player, a BD player, an HDD player, receives video data output from the video reproduction device, and outputs the video data to the video holding unit 124.
  • an external video reproduction device 206 such as, for example, a DVD player, a BD player, an HDD player
  • the feature storage unit 134 is configured by a RAM, a flash memory, an HDD, etc., and according to an instruction from a storage control unit described later, the face information combining one or more feature derived from the face image of the same person is identical. It functions as a storage unit that stores only the number of people.
  • the central control unit 136 is constituted by a semiconductor integrated circuit including a central processing unit (CPU) and a signal processing unit (DSP: Digital Signal Processor), and manages and controls the entire video processing apparatus 100 using a predetermined program.
  • CPU central processing unit
  • DSP Digital Signal Processor
  • the central control unit 136 also functions as a position specifying unit 170, a face direction deriving unit 172, a face associating unit 174, a feature value deriving unit 176, a storage control unit 178, and a display control unit 180.
  • the video processing apparatus 100 In the registration mode, the video processing apparatus 100 according to the present embodiment identifies one face image on the captured video data, newly derives and stores a feature different from the feature stored for the face, In the authentication mode, this feature is used to authenticate the face in the video.
  • this feature is used to authenticate the face in the video.
  • the video processing apparatus 100 will be described separately for the registration mode and the authentication mode.
  • the position specifying unit 170 specifies (selects) one face image from the video data acquired by the imaging unit 120 and stored in the video storage unit 124 in the registration mode in accordance with the user input through the operation unit 106 , The face image is tracked using existing image processing technology. Then, the position specifying unit 170 outputs the image information related to the face image for each frame to the face direction deriving unit 172 and the feature quantity deriving unit 176. When a plurality of face images are detected, the position specifying unit 170 similarly tracks each face image, and outputs image information on all the face images to the feature amount deriving unit 176.
  • the imaging unit 120 is used as a video acquisition unit here, the storage reading unit 130 and the external input / output unit 132 function as a video acquisition unit, and the position specifying unit 170 is not limited thereto. Alternatively, one face image may be specified based on the image acquired by the external input / output unit 132.
  • Such specification of one face image is performed by displaying an image based on the image data held in the image holding unit 124 on the viewfinder 108 and allowing the user to select the one face image through the operation of the operation unit 106. Be done.
  • a touch panel is superimposed on the display surface of the viewfinder 108 as the operation unit 106, the user performs specification of the face image of the user by bringing the part corresponding to the position of the face image of 1 through the touch panel.
  • the position specifying unit 170 automatically selects all face images present in the screen, and the display control unit 180 described later displays a plurality of frames so as to surround all the selected face images. In the state, it may be displayed on the screen as “which person will you register?”, And the user may be allowed to select one of the face images.
  • the position specifying unit 170 positions the person of the subject so that the face appears in, for example, a predetermined area in the center of the screen, and an area in the image corresponding to the predetermined area at an arbitrary timing by the user's operation input.
  • the face image of may be specified.
  • the predetermined area may be arbitrarily designated by the user on the screen.
  • the display control unit 180 superimposes and displays an index such as a square frame on the boundary of the predetermined area displayed on the viewfinder 108.
  • the position specifying unit 170 scans a search area of a predetermined size in the image, and the feature points indicating features of organs constituting the face such as eyes, nose and mouth are displayed.
  • the face image is extracted by detection
  • the face image extraction means is not limited to the detection of feature points.
  • the face image may be extracted by detecting a skin color area or performing pattern matching.
  • the position specifying unit 170 instructs the face direction deriving unit 172 to obtain image information including at least coordinates of the face image and the size of the face image, and image information including at least the coordinates of the face image, the size of the face image, and the likelihood of the face image.
  • the coordinates of the face image indicate the relative coordinates of the face area to the image size
  • the size of the face image indicates the relative size of the face area to the image size
  • the likelihood of the face image indicates that the face image is It indicates the certainty of being an image of a face, and may be derived as, for example, a similarity indicating the degree of similarity to a standard face image.
  • the position specifying unit 170 may weight the similarity based on the detection result of the skin color area, and may correct the similarity to a low value, for example, if the skin color area is small.
  • FIG. 3 is an explanatory view for explaining the direction of the face.
  • the image information includes the coordinates of the face image described above, the size of the face image, and the certainty of the face image, as well as the roll angle of the face image for rotational correction of the face image.
  • the roll angle of the face image to be output to the feature quantity derivation unit 176 is the rotation angle of the face image about the roll axis defined in FIG.
  • definitions of a pitch angle (rotation angle around the pitch axis) and a yaw angle (rotation angle around the yaw axis), which will be described later, are also shown in FIGS. 3 (b) and 3 (c).
  • the position specifying unit 170 In the face direction deriving unit 172, based on the coordinates of the face image indicated by the image information output from the position specifying unit 170 and the size of the face image, the position specifying unit 170 generates image data based on the video data stored in the video storage unit 124.
  • the specified face image is read out, and the face direction other than the roll angle, that is, the pitch angle and the yaw angle of the face are derived from the eye and face of the face image that are feature points of the face image and the like. ), (C)).
  • the feature quantity deriving unit 176 reads the face image from the video data stored in the video storage unit 124 based on the coordinates of the face image indicated by the image information output from the position specifying unit 170 and the size of the face image. . Then, for the read face image, resolution conversion and rotation correction in the roll angle direction are performed based on the size of the face image indicated in the image information and the roll angle of the face image, and normalized (with a predetermined size Convert to upright) face image.
  • the feature quantity derivation unit 176 features the face image identified by the position identification unit 170 based on the face image transformed by itself and the pitch angle and the yaw angle that are the face orientation derived by the face direction derivation unit 172. Derive the quantity. Specifically, first, the feature quantity deriving unit 176 further performs affine transformation on the normalized face image from the pitch angle and the yaw angle of the face derived by the face direction deriving unit 172, and the face turned to the front Correct to the face image of.
  • the feature quantity derivation unit 176 attempts to detect feature points related to the face image after affine transformation.
  • affine-transform feature points relating to the face image before affine transformation that is detected in advance not from the face image after affine transformation
  • the feature points of the face image after affine transformation are derived.
  • the certainty of the feature points indicating the certainty that each feature point is the feature point of each part of the face is derived for each feature point.
  • the certainty of being a feature point of the eyes is lowered.
  • the feature quantity deriving unit 176 determines whether the face image is a face image worth processing, and, for example, the pitch angle of the face image is in the range of -15 ° to + 15 °, and the yaw angle of the face image is Is in the range of ⁇ 30 ° to + 30 °, and the certainty of the face image indicated in the image information and the certainty of being a feature point satisfy the predetermined conditions respectively corresponding to the preset
  • Gabor jet is derived as the feature amount of the face image.
  • the Gabor filter used to determine the Gabor jet, is a filter with both direction selectivity and frequency response.
  • the feature quantity deriving unit 176 performs convolution of the face image using a plurality of Gabor filters having different directions and frequencies.
  • the set of scalar values obtained is called Gabor jet.
  • the feature quantity deriving unit 176 obtains Gabor jet as a local feature quantity in the vicinity of the feature point on the face image.
  • the feature quantity deriving unit 176 outputs the feature quantity derived based on the feature points of the face image after affine transformation to the face associating unit 174.
  • the feature quantity is represented as a vector quantity as a set of a plurality of sets of scalar values (Gaboa-jet).
  • One vector quantity is derived from one face image.
  • the face associating unit 174 combines the face image specified by the position specifying unit 170 according to the user's input and the face information obtained by putting together the feature amounts derived from the face image of the same person (hereinafter referred to simply as the face information of the same person) Is determined based on the degree of similarity between feature amounts, for example.
  • the face associating unit 174 determines that the face image specified by the position specifying unit 170 according to the user's input and the face information of the same person are not yet stored in the feature amount storage unit 134, the feature amount is updated. It is stored in the feature storage unit 134 as face information.
  • the face associating unit 174 includes the face image identified by the position identifying unit 170 according to the user input, and the identified face image if the face information of the same person is already stored in the feature amount storage unit 134; The face information of the same person stored in the feature amount storage unit 134 is associated.
  • specific processing of the face associating unit 174 will be described.
  • the feature amount storage unit 134 stores a plurality of pieces of face information in which a plurality of feature amounts derived from a plurality of face images of one person are grouped according to the number of persons.
  • the face associating unit 174 derives the similarity for each of the feature amount derived by the feature amount deriving unit 176 and the plurality of feature amounts of the plurality of pieces of face information read out from the feature amount storage unit 134.
  • the face associating unit 174 stores the feature amount derived by the feature amount deriving unit 176 and the 1 face stored in the feature amount storage unit 134. Derivation of similarity with one feature of information. In addition, when a plurality of feature quantities are grouped and stored in one piece of face information, the face associating unit 174 stores the feature quantities derived by the feature quantity deriving unit 176 and the feature quantity storage unit 134.
  • the similarities between one or more face information and a plurality of feature quantities are derived, and the highest similarity among the derived one or more similarities is output from the feature quantity output from the feature quantity deriving unit 176, and It is assumed that the similarity of face information with a plurality of feature quantities.
  • the face associating unit 174 applies the above-described process of deriving the degree of similarity to one piece of face information to all of the plurality of pieces of face information.
  • the face associating unit 174 first performs the feature amount output from the feature amount deriving unit 176 and the one feature amount of, for example, one piece of face information read from the feature amount storage unit 134. Then, the similarity d0, d1, d2,..., Dn (n is a positive number) for each feature point is obtained by a method such as normalized correlation calculation.
  • the face associating unit 174 derives the similarity Fi as a whole face from the similarity vector D using, for example, an AdaBoost algorithm or a support vector machine (SVM). Then, the face associating unit 174 derives the similarity Fi with respect to all of a plurality of feature quantities of face information of 1, and the maximum value among them is the feature quantity output from the feature quantity deriving section 176, and It is assumed that the degree of similarity F with a plurality of feature quantities of face information.
  • AdaBoost AdaBoost algorithm
  • SVM support vector machine
  • the face associating unit 174 derives the similarity F with respect to all face information, and if the largest among the derived similarity F is smaller than a predetermined first threshold, the position identifying unit 170 It is determined that the identified face image and the face information of the same person are not stored in the feature storage unit 134 yet.
  • the face associating unit 174 stores the feature amount output from the feature amount deriving unit 176 in the feature amount storage unit 134 as a new feature amount of face information. Then, the face associating unit 174 associates the face image specified by the position specifying unit 170 with the face information newly stored in the feature storage unit 134 as the same person.
  • the face associating unit 174 determines that the face information having the largest similarity F is It is determined that the face image of the same person as that of the face image specified by the position specifying unit 170 is already stored in the feature amount storage unit 134. Then, the face associating unit 174 associates the face image identified by the position identifying unit 170 with the face information stored in the feature storage unit 134 and having the maximum similarity F as the same person.
  • the face associating unit 174 associates the face image specified by the position specifying unit 170 with the face information stored in the feature storage unit 134, for example, based on the user's operation input through the operation unit 106. It is also good. Specifically, as described above, the user specifies (selects) one face image from the video data stored in the video storage unit 124, and at the same time, the feature quantity is stored in advance in the feature storage unit 134. When face information of the person of the subject whose feature amount is to be stored is selected from among the existing face information, the face associating unit 174 executes the determination process of the same person through derivation of the similarity.
  • the face image specified by the position specifying unit 170 can be associated with the face information selected by the user in the feature storage unit 134 as the same person.
  • the face image identified by the position identification unit 170 is associated with face information without deriving the similarity, and the first image (first frame) of the face images identified and tracked by the position identification unit 170. From the face image of, it can be the target of storage of feature quantities. Furthermore, for example, even in the case of only one frame of video (in the case of photographing), the position specifying unit 170 specifies a face image but does not track the first face image as a feature amount. It can also be an object of memory.
  • the feature quantity derivation unit 176 derives feature quantities from the image information continuously captured for the face image identified by the position identification unit 170.
  • the storage control unit 178 compares the feature amount derived by the feature amount deriving unit 176 with one or more feature amounts of face information associated with the identified face image, and when the predetermined condition is satisfied, the feature is derived.
  • the feature amount is added to the face information and stored in the feature amount storage unit 134.
  • the storage control unit 178 only the feature amount of the face image that satisfies the predetermined condition among the specified face images is automatically stored in the feature amount storage unit 134. It is possible to identify and improve the operability of the user.
  • the face associating unit 174 associates the face image specified by the position specifying unit 170 with the face information in the feature storage unit 134 as the same person, next, regarding the face information of the same person, The face image not yet registered (different) is extracted, and the feature amount of the extracted face image is stored in the feature amount storage unit 134.
  • the feature amount newly derived by the feature amount deriving unit 176 and the face image identified by the position identifying unit 170 stored in the feature amount storage unit 134 are associated.
  • the predetermined condition is that the degree of similarity of the face information with one or more feature amounts is less than a predetermined value.
  • the storage control unit 178 causes the feature amount storage unit 134 to store feature amounts of face images having different face orientations and expressions.
  • the similarity F is equal to or greater than the second threshold, it is considered that the current face image and the face image registered earlier are the same face orientation and expression. In this case, even if the current face image is registered, the storage control unit 178 does not contribute much to the improvement of the accuracy of authentication in the authentication mode for determining whether or not the face in the image described later is registered. Does not store such feature amounts of face images in the feature amount storage unit 134.
  • FIG. 4 is an explanatory diagram for describing control of storage of the feature amount in the feature amount storage unit 134 in the first embodiment.
  • indices M1, M2, M3 and M4 and values m1a, m1b, ... of the respective feature points with respect to feature amounts 230a to 230d of arbitrary face information. Is stored.
  • the feature amount 230 e newly derived from the face image associated with the face information as the same person is output from the feature amount deriving unit 176.
  • the storage control unit 178 derives the similarity between each of the feature amounts 230a to 230d of the face information and the newly derived feature amount 230e, and the highest feature amount, for example, the feature amount 230d here,
  • the feature amount is not stored in the feature amount storage unit 134 when it is greater than or equal to the second threshold value in comparison with the second threshold value. If the value is less than the second threshold, as shown in FIG. 4B, the feature amount 230e is stored in the feature amount storage unit 134 as the feature amount of the face information.
  • the feature amount of the face image stored in the feature amount storage unit 134 is used in deriving the similarity with the feature amount derived from the face image included in the video generated by the imaging unit 120 in the authentication mode.
  • the video processing apparatus 100 determines whether the candidate for the feature quantity to be stored from now on is different from the feature quantity already stored based on the similarity, which is the same determination criterion as the authentication mode. A plurality of different feature quantities relating to the same person effective even in the authentication mode can be reliably extracted, and the accuracy of authentication can be improved with a small number of comparison processes.
  • the storage of the feature amount described above is executed, for example, in a registration mode for registering the feature amount of the identified face image, triggered by the user's operation input.
  • the feature quantity deriving unit 176 sequentially determines the feature quantities of the identified face images associated with the face information by the face associating section 174. Derivation is performed, and the storage control unit 178 registers feature amounts that satisfy the predetermined condition among the derived feature amounts as needed.
  • the display control unit 180 superimposes an image indicating the number of feature amounts of face information associated with the identified face image stored in the feature amount storage unit 134 on the generated image of the subject. Display on the viewfinder 108. For example, when storing up to eight feature quantities for face information of one person, it is assumed that three feature quantities are already stored for face information of a certain person. In this case, a pie chart filled with 3/8 is displayed. As described above, the display control unit 180 causes the viewfinder 108 to display an image indicating the number of feature amounts actually stored relative to the upper limit number of storable feature amounts.
  • the user can visually recognize the image indicating the number of feature amounts of the displayed face information, check the progress of storage of the feature amounts of the face image, and improve the operability of the user. It becomes possible.
  • the registration mode when the registration of the maximum number, for example, eight feature quantities is completed with respect to the face of the person to be registered, or when the registration mode is ended by the user's operation input, the registration feature of the registered feature quantities Transition to the input mode to input personal information.
  • the registration feature of the registered feature quantities Transition to the input mode to input personal information.
  • the display control unit 180 causes the viewfinder 108 to display a message such as “Please enter the name of the registered person” or “Please enter the date of birth of the registered person”. Then, the user inputs personal information such as the name and date of birth of the feature amount to be registered through the operation unit 106.
  • the storage control unit 178 causes the feature amount storage unit 134 to store the personal information and date and time information indicating date and time of registration time in association with the feature amount. In addition, the user can also input the personal information immediately and not later.
  • the mode may automatically shift to the registration mode.
  • the display control unit 180 causes the viewfinder 108 to display a message such as “Do you want to continue registering Mr. A”, and the user confirms the face information to be registered for the feature amount and transitions to the registration mode Allow the choice.
  • the feature storage unit 134 stores the feature for each face information, it may store, for example, the face image itself used when deriving the feature.
  • the face image By storing the face image as described above, the user can actually visually recognize the face image used for face authentication in the authentication mode. Therefore, the user can recognize a face image that is considered unnecessary, such as a face image of an extreme expression. , And can be deleted from the feature storage unit 134.
  • the feature storage unit 134 stores only the face image without storing the feature, and the feature derivation unit 176 reads the face image from the feature storage unit 134 based on the face image.
  • Feature quantities may be derived.
  • the feature amount stored in the feature amount storage unit 134 is used when authenticating the face of the subject in the authentication mode.
  • the display control unit 180 causes the viewfinder 108 to display one or more pieces of face information stored in the feature amount storage unit 134.
  • the position specifying unit 170 acquires the face image for all the face images included in the video data acquired by the imaging unit 120 and stored in the video storage unit 124. , And outputs image information including the coordinates of the face image for each frame to the feature quantity derivation unit 176.
  • the feature quantity deriving unit 176 derives the feature quantity of the face image identified by the position identifying unit 170 based on the coordinates of the face image output from the position identifying unit 170.
  • the storage control unit 178 derives, from the feature amounts stored in the feature amount storage unit 134, the similarity between the feature amount in the face information selected by the user and the feature amount derived by the feature amount deriving unit 176.
  • the drive circuit 158 drives the focus lens 150 and the diaphragm 152 to adjust focus and exposure in accordance with the corresponding subject.
  • the display control unit 180 superimposes and displays an index such as a square frame on the corresponding face image in the video displayed on the viewfinder 108, for example.
  • the storage control unit 178 changes the face orientation and expression for the feature amount of the face image of the subject that can be regarded as the same person as the face information, and the similarity is less than the second threshold.
  • the feature amount storage unit 134 is automatically stored. Therefore, in the registration of the feature amount, it is possible to derive an appropriate feature amount capable of reliably authenticating the face without causing the user to feel bothersome.
  • FIG. 5 is a flowchart showing the flow of processing of the video processing method in the first embodiment.
  • FIG. 5 particularly shows the flow of processing in the registration mode described above.
  • the imaging unit 120 acquires a video (S300), and the position specifying unit 170 determines whether one face image can be specified from the video data held in the video holding unit 124 (S302). If the position specifying unit 170 can not specify the face image of 1 (NO in S302), the process returns to the image acquisition step (S300).
  • the position specifying unit 170 can specify one face image (YES in S302), the face image is tracked, and image information regarding the face image for each frame is output to the feature quantity deriving unit 176 (S304).
  • the feature amount derivation unit 176 has, for example, a pitch angle in the range of -15 ° to + 15 ° and a yaw angle is in the face direction derived by the face direction derivation unit 172.
  • a feature amount when it is in the range of -30 ° to + 30 ° and the certainty of the face image indicated in the image information and the certainty of being the feature point satisfy predetermined conditions respectively set in advance Are derived (S306).
  • the face associating unit 174 determines whether the face image identified by the position identifying unit 170 is associated with the face information stored in the feature storage unit 134 (S308). If not associated (NO in S308), the face associating unit 174 sets the feature amount derived by the feature amount deriving unit 176 and one of the plurality of face information read out from the feature amount storage unit 134. The similarity is derived for one of the plurality of feature quantities (S310).
  • the face associating unit 174 compares the maximum value of the degree of similarity derived so far with the degree of similarity derived at that time with respect to the face information related to the feature amount from which the degree of similarity is derived (S312), If the degree of similarity derived at that time is larger than the maximum value of degrees of similarity derived so far (YES in S312), the maximum value of the degree of similarity for the target face information is replaced with the degree of similarity derived at that time (S314).
  • the face associating unit 174 determines whether the derivation of the similarity has been completed for all the feature amounts of one piece of face information read from the feature amount storage unit 134 (S316). If the process has not been completed (NO in S316), the process returns to the similarity derivation step (S310), and the same process is performed on feature quantities whose similarity has not yet been derived.
  • the face associating unit 174 reads the feature amounts from the feature amount storage unit 134. It is determined whether the derivation of the degree of similarity is complete for all feature amounts of face information (S318). If the process has not been completed (NO in S318), the process returns to the similarity derivation step (S310), and the same process is performed on feature quantities of other face information whose similarity has not yet been derived.
  • the face associating unit 174 determines the degree of similarity for each derived face information. Of the maximum values, it is determined whether the maximum similarity is equal to or greater than a first threshold (S320). If it is equal to or greater than the first threshold (YES in S320), the face associating unit 174 determines that the feature information storage unit 134 has already stored face information of the same person as the face image specified by the position specifying unit 170. Then, the face image identified by the position identification unit 170 is associated with the corresponding face information (S324).
  • the face associating unit 174 determines that the feature information storage unit 134 does not store face information of the same person as the face image specified by the position specifying unit 170, The derived feature quantity is stored in the feature quantity storage unit 134 as a feature quantity of new face information (S322), and the face image specified by the position specifying unit 170 is associated with the new face information (S324). Then, the process returns to the video acquisition step (S300).
  • the storage control unit 178 When the face image identified by the position identification unit 170 is associated with the face information stored in the feature storage unit 134 (YES in S308), the storage control unit 178 The similarity between the feature quantity derived by the quantity deriving unit 176 and one of the other feature quantities of the same face information is derived (S326).
  • the storage control unit 178 compares, for the other feature quantities of the same face information, the maximum value of the degree of similarity derived so far and the degree of similarity derived at that time (S 328) If the degree of similarity derived at that time is larger than the maximum value of similarity (YES in S328), the maximum value of the degree of similarity is replaced with the degree of similarity derived at that time (S330).
  • the storage control unit 178 determines whether the derivation of the similarity has been completed for other feature quantities of the same face information (S332). If the process has not been completed (NO in S332), the process returns to the similarity derivation step (S326), and the same process is performed on the feature quantities for which the similarity has not yet been derived.
  • the storage control unit 178 determines whether the maximum value of the derived similarity satisfies the predetermined condition, ie, It is determined whether it is less than the second threshold (S334). If it is less than the second threshold (YES in S334), the storage control unit 178 sets the feature quantity newly derived by the feature quantity derivation unit 176 as the feature quantity of face information of the same same person in the feature quantity storage unit 134. It memorizes (S336). Then, the central control unit 136 determines whether the number of feature amounts related to target face information stored in the feature amount storage unit 134 has already reached the maximum number (S338). If the number of feature amounts has reached the maximum number (YES in S 338), the display control unit 180 causes the viewfinder 108 to display that the maximum number of feature amounts to be stored for one face information has been reached, and the registration mode Urges the end of (S340).
  • the central control unit 136 determines whether or not there is an instruction to end the registration mode by an operation input by the user (S342). When there is no instruction to end (NO in S342), the process returns to the video acquisition step (S300). If the end instruction has been issued (YES in S342), the registration mode is ended.
  • the storage control unit 178 derives the similarity and compares it with the second threshold to determine whether to store the newly derived feature amount in the feature amount storage unit 134 or not.
  • the second embodiment an image processing apparatus 400 will be described which narrows and determines an angle of a face which has a large influence on the feature amount.
  • the components substantially the same as those of the above-described video processing apparatus 100 will be assigned the same reference numerals and descriptions thereof will be omitted.
  • FIG. 6 is a functional block diagram showing a schematic configuration of the video processing apparatus 400 in the second embodiment.
  • the video processing apparatus 400 includes an operation unit 106, an imaging unit 120, a data processing unit 122, a video holding unit 124, a viewfinder 108, a compression / decompression unit 128, a storage reading unit 130, and an external input / output unit 132. , A feature amount storage unit 134 functioning as a storage unit, and a central control unit 436.
  • the operation unit 106, the imaging unit 120, the data processing unit 122, the video holding unit 124, the view finder 108, the compression / decompression unit 128, and the storage reading unit 130 which have already been described as components in the first embodiment.
  • the functions of the external input / output unit 132 and the feature amount storage unit 134 are substantially the same, and thus redundant description will be omitted.
  • the central control unit 436 having a different configuration will be mainly described.
  • the central control unit 436 is formed of a semiconductor integrated circuit including a central processing unit (CPU) and a signal processing unit (DSP), and manages and controls the entire video processing apparatus 400 using a predetermined program.
  • the central control unit 436 also functions as a position specifying unit 170, a face direction deriving unit 172, a face associating unit 474, a feature value deriving unit 476, a storage control unit 478, and a display control unit 480.
  • the face associating unit 474 performs the same process as the face associating unit 174 of the first embodiment, and associates the identified face image with face information. At this time, since the face information stored in the feature storage unit 134 includes not only the feature but also the direction of the face, the face associating unit 474 includes one or more such features and The face information in which the face direction is summarized is associated with the identified face image.
  • the feature quantity deriving unit 476 compares the direction of the face derived by the face direction deriving unit 172 with the direction of one or more faces of the face information associated with the face image identified by the position identifying unit 170, and the predetermined condition If the above condition is satisfied, the feature amount of the identified face image is derived. In the present embodiment, the feature quantity deriving unit 476 derives the feature quantity of the identified face image only when the predetermined condition is satisfied, but the feature quantities of all the identified face images regardless of the predetermined condition May be derived.
  • the storage control unit 478 compares the direction of the face derived by the face direction deriving unit 172 with the direction of one or more faces of the face information associated with the face image identified by the position identifying unit 170, and determines a predetermined condition. If satisfied, the feature amount newly derived by the feature amount deriving unit 476 and the face direction derived by the face direction deriving unit 172 are added to the face information and stored in the feature amount storage unit 134.
  • the predetermined condition is the face information associated with the face image identified by the position identifying unit 170 within a predetermined number of ranges regarding the face direction divided based on the pitch angle and the yaw angle. It is assumed that the face orientation derived by the face orientation deriving unit 172 is not included in any one or a plurality of ranges including the face orientation.
  • FIG. 7 is an explanatory diagram for explaining classification of a face image based on the orientation of a face in the second embodiment.
  • FIG. 7 (a) is an explanatory diagram for explaining the state of storage of feature amounts for certain face information
  • FIG. 7 (b) is a diagram in which the feature amounts are newly stored in FIG. 7 (a). It is explanatory drawing for demonstrating the subsequent state.
  • the feature storage unit 134 stores face images (for example, face images 410 having different face orientations shown in FIGS. 7A and 7B) instead of the feature amount.
  • the table 412 is the face image itself recorded in the feature storage unit 134
  • the table 414 is the presence or absence of the face image included in the range of the predetermined face orientation. Indicates
  • the face direction deriving unit 172 derives the pitch angle and the yaw angle of the face image, and the feature quantity deriving unit 476 has a pitch angle of + 15 ° to -15. If the yaw angle is outside the range of + 30 ° to -30 °, the feature amount is not derived.
  • the feature amount deriving unit 476 has a pitch angle and a yaw angle, which are face orientations of the face image newly derived by the face direction deriving unit 172, in the range shown in FIG. 7A (about -15 ° to -5 of the pitch angle). Judge the range within the range of -5 ° to 5 °, 5 ° to 15 °, yaw angle of -30 ° to -10 °, -10 ° to 10 °, 10 ° to 30 °) Do. Then, the feature quantity deriving unit 476 is configured such that the flag of the table 414 shown in FIG. 7A corresponding to the range among the plurality of flags stored in association with the feature quantity for the face information of the same person is already If the feature amount is “1” indicating that the feature amount is stored, the feature amount of the face image is not derived.
  • the flag shown in FIG. 7A is “0” indicating that the feature amount is not stored yet, that is, a predetermined number of face orientations divided based on the pitch angle and the yaw angle
  • one or more ranges including the face orientation of the face information associated with the face image specified by the position specifying unit 170 stored in the feature storage unit 134 among the nine ranges in the embodiment If the face orientation of the face image newly derived by the face orientation deriving unit 172 is not included in any of the above, the feature amount deriving unit 476 derives the feature amount of the face image identified by the position identifying unit 170.
  • the storage control unit 478 adds the feature amount derived by the feature amount deriving unit 476 and the face direction derived by the face direction deriving unit 172 to the face information and stores it, and sets the corresponding flag of the table 414 to “1 Change to ".
  • the pitch angle and the yaw angle of the face direction of the face image newly derived by the face direction deriving unit 172 are the position 416 (pitch angle -15 ° to -5 ° of N7) shown in FIG. If it is 10 ° to 30 °, as shown in FIG. 7B, the feature amount is newly stored, and the flag is changed from “0” to “1”.
  • FIG. 8 is an explanatory diagram for describing an image 418a indicating the number of feature amounts and an image 418b indicating a range including the orientation of the face.
  • the display control unit 480 divides the number of feature amounts actually stored relative to the upper limit number of storable feature amounts based on the pitch angle and the yaw angle.
  • the viewfinder 108 displays an image indicating one or both of the range including the face orientation actually stored for the predetermined number of ranges regarding the face orientation to be processed.
  • the display control unit 480 when the table 412 illustrated in FIG. 7B is recorded in the feature storage unit 134, the display control unit 480, similar to the display control unit 180 according to the first embodiment, has an upper limit of storable feature amounts.
  • An image 418 a) can be displayed on the viewfinder 108.
  • the display control unit 480 sets the positions of N1, N2, N5, N6, N7, and N8 as the range of face orientations actually stored with respect to the above-described predetermined number of ranges regarding the face orientation.
  • An image (for example, an image 418b shown in FIG. 8B) of 3 ⁇ 3 squares in vertical and horizontal directions in which squares corresponding to 3 ⁇ 3 squares are filled is displayed on the viewfinder 108.
  • the number of feature quantities actually stored is 9 for the upper limit number of feature quantities that can be stored. It is shown that there are six.
  • the user can set which of the image 418a and the image 418b is to be displayed by an operation input.
  • the image is displayed so that not only an image indicating the number of feature amounts but also a range of face orientations in which the feature amounts are actually stored and a range of face orientations in which the feature amounts are not stored are known. Therefore, there is an advantage that it is easy for the user to grasp the situation such as, for example, the orientation of the face to be imaged and the orientation of the face which is less necessary to be imaged.
  • the derivation of the feature amount of the face image is largely influenced by the direction of the face.
  • the image processing apparatus 400 stores the feature amount limited to the face images having different face orientations, so that the influence of the facial expression is excluded and the face image having a difference only in the face orientations Can be stored.
  • the orientation of the face that has a large influence on the feature amount can be classified by the pitch angle and the yaw angle.
  • the face direction necessary for facilitating the authentication is determined in advance in a frame of a predetermined pitch angle and yaw angle range, and the storage control unit 478 classifies the face in the same face direction.
  • the stored feature amounts are not stored, and the stored feature amounts are classified into different face orientations. Therefore, the storage control unit 478 can refer to a feature amount of a wide range of face orientations with respect to the face orientation having a large influence in the authentication mode.
  • the feature amount of the face image generated by a device other than the video processing device 400 can also be taken inside.
  • the storage control unit 478 features the received feature amount. It is stored in the amount storage unit 134.
  • the storage control unit 478 causes the feature amount storage unit 134 to store the read feature amount.
  • FIG. 9 is an explanatory diagram for explaining processing when a feature amount is acquired from the external device 420.
  • FIG. 9 (a) is a table 414a showing the range of the orientation of the face in which the feature amount of any face information stored in the feature amount storage unit 134 is classified
  • FIG. 9 (b) is an external view
  • FIG. 9C is a table 414b showing the range of the face direction in which the feature amount of the face image of the same person as the arbitrary face information acquired from the device 420 is classified;
  • FIG. 9 is a table 414a showing the range of the orientation of the face in which the feature amount of any face information stored in the feature amount storage unit 134 is classified
  • FIG. 9 (b) is an external view
  • FIG. 9C is a table 414b showing the range of the face direction in which the feature amount of the face image of the same person as the arbitrary face information acquired from the device 420 is classified
  • FIG. 9 (a) is a table 414a showing the range of the orientation of the face
  • FIGS. 9 (a) to 9 (c) are similar to the flag on each of N1 to N9 in FIGS. 7 (a) and 7 (b). It corresponds to the presence or absence.
  • the storage control unit 478 is configured such that the feature amount received from the external device 420 (read from the storage medium 422) has a similarity to the feature amount of face information stored in the feature amount storage unit 134 equal to or higher than the first threshold.
  • the feature amount of the target face information is compared with the face direction of the face image from which the feature amount is derived.
  • the storage control unit 478 does not update the feature amount for the range of the face direction in which the flag illustrated in FIG. 9A is “1”, and the face in which the flag is “0”. If the feature amount received from the external device 420 has a feature amount of the corresponding face direction in the range of the direction of the image (N5 to N9 in FIG. 9A), the feature amount is stored in the feature amount storage unit 134 Let In FIG. 9B, since there is a feature amount of the face direction of N5, the storage control unit 478 stores this feature amount in the feature amount storage unit 134. As a result, as shown in FIG. 9C, the flag of N5 is also changed from “0” to “1” shown in FIG. 9A. Also, for example, when the feature quantity storage unit 134 stores the feature quantity derivation time as auxiliary information together and the feature quantity in the same face direction range is already stored, the storage control unit 478 May be stored in favor of the more recently derived features.
  • the storage control unit 478 is configured to determine whether or not to store the feature amount based on the face direction.
  • the feature quantities can be stored uniformly and efficiently without increasing the amount too much.
  • the image processing apparatus 400 of the present embodiment it is possible to store feature quantities of a wide range of face orientations with respect to the face orientation that has a large influence on the authentication mode. It is possible to improve the accuracy.
  • FIG. 10 is a flowchart showing a flow of processing of the video processing method in the second embodiment. Also in FIG. 10, as in FIG. 5, the flow of processing in the registration mode is particularly shown. About the process substantially equal to the image processing method of 1st Embodiment mentioned above, the same code
  • the face associating unit 174 performs the position specifying unit 170. It is determined whether the identified face image is associated with the face information stored in the feature storage unit 134 (S500).
  • the feature quantity derivation unit 476 derives the feature quantity of the face image identified by the position identification unit 170 (S502).
  • the processes from the similarity derivation step (S310) to the face information associating step (S324) are substantially the same as the image processing method described in the first embodiment, so I omit it.
  • the face direction deriving unit 172 The orientation of the face of the face image identified by the position identification unit 170 is derived (S504).
  • the feature quantity deriving unit 476 compares the direction of the face derived by the face direction deriving unit 172 with the direction of one or more faces of the face information associated with the face image identified by the position identifying unit 170, and the predetermined condition
  • the face orientation derived by the face orientation deriving unit 172 is divided into a predetermined number of face orientations based on the pitch angle and the yaw angle of face information associated with the identified face image. It is determined whether or not it is any of the above (whether the face is an unregistered face) (S506).
  • the feature quantity deriving unit 476 derives the feature quantity of the face image specified by the position specifying unit 170 (S508), and the storage control unit 478 derives the feature quantity deriving unit 476
  • the feature amount and the face orientation derived by the face direction deriving unit 172 are added to the existing face information of the same person and stored in the feature amount storage unit 134 (S336).
  • the face direction derived by the face direction deriving unit 172 is any of the predetermined number of face directions divided based on the pitch angle and the yaw angle of the face information associated with the identified face image (S506 (NO), the maximum number determination step (S338).
  • the maximum number determination step (S338) to the mode transition step (S342) are substantially the same as the image processing method described in the first embodiment, so the same reference numerals are given and the description is omitted.
  • Each step in the image processing method of the present specification does not necessarily have to be processed in chronological order according to the order described as the flowchart, and may include processing in parallel or by a subroutine.
  • the present invention can be used for a video processing apparatus and a video processing method for storing feature quantities of a face image in order to specify a subject.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

ユーザが煩わしい思いをすることなく、顔を確実に特定することができる適切な特徴量を導出する。 映像処理装置100は、映像を取得する撮像部120と、映像から1の顔画像を特定する位置特定部170と、特定された顔画像と、記憶部に記憶された、1または複数の特徴量をまとめた顔情報とを関連付ける顔関連付部174と、特定された顔画像の特徴量を導出する特徴量導出部176と、導出された特徴量と、特定された顔画像に関連付けられた顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合に、導出された特徴量を顔情報に追加して特徴量記憶部134に記憶させる記憶制御部178と、を備えることを特徴とする(図2)。

Description

映像処理装置および映像処理方法
 本発明は、被写体を特定すべく顔画像の特徴量を記憶する映像処理装置および映像処理方法に関する。
 近年、ユーザが指定した人物の顔画像(顔の画像)を、生成した映像中から特定し、特定した顔画像に対して焦点や露光を自動的に調節するデジタルスチルカメラやデジタルビデオカメラ等の映像処理装置が普及している。このような映像処理装置は、予め、ユーザが指定した顔画像から顔画像の特徴量を導出し、後に顔画像を特定するため記憶している。しかし、顔画像の特徴量は、顔の向きの影響を受けるため、被写体が同一人物であっても、顔の向きが変わり過ぎると、異なる人物であると誤判断してしまう場合がある。
 そこで、顔の代表的な特徴点を使って顔の向きを推定した後、顔の平均的な3次元モデルを用いて、人毎に違いが顕著に表れるその他の特徴位置を特定の姿勢へ変換し、かかる変換後の位置で特徴量を比較することで人物の判断を行う技術が提案されている(例えば、特許文献1)。
特開2009-53916号公報
 上述した特許文献1の技術を用いると、顔画像を特定する際にその顔の向きに対してある程度のロバスト性を持たせることができるが、姿勢(顔の向き)を変えた顔画像をあくまで予測によって生成しているため、顔の向きや表情の変化が大きくなると、顔の認証処理において誤判断が生じるおそれがある。
 また、映像処理装置が、予め、同一人物について顔の向きや表情が異なる複数の顔画像を取得し特徴量を導出および記憶しておけば、顔の認証処理において、顔画像を特定する精度を向上させることができる。しかし、そのためには、被写体の人物にその都度顔の向きや表情を変えてもらいながら、撮像および登録の操作を繰り返す必要がある。これでは、ユーザのみならず被写体の人物までもが煩わしい思いをすることとなってしまう。さらに、この撮像および登録の操作において、顔の向きや表情に十分に差異がある顔画像を、撮像および登録できているか否かは、ユーザの判断にまかせられるため、同じような特徴量を複数登録してしまい、顔画像を特定する際の精度が悪化する場合がある。
 そこで本発明は、このような課題に鑑み、ユーザが煩わしい思いをすることなく、顔画像を確実に特定することができる適切な特徴量を導出可能な、映像処理装置および映像処理方法を提供することを目的としている。
 上記課題を解決するために、本発明の映像処理装置は、映像を取得する映像取得部と、映像から1の顔画像を特定する位置特定部と、特定された顔画像と、記憶部に記憶された、1または複数の特徴量をまとめた顔情報とを関連付ける顔関連付部と、特定された顔画像の特徴量を導出する特徴量導出部と、導出された特徴量と、特定された顔画像に関連付けられた顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合に、導出された特徴量を顔情報に追加して記憶部に記憶させる記憶制御部と、を備えることを特徴とする。
 上記所定条件は、導出された特徴量と、特定された顔画像に関連付けられた顔情報の1または複数の特徴量全てとの類似度が所定値未満であってもよい。
 上記映像処理装置は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像を表示部に表示させる表示制御部を備えてもよい。
 上記課題を解決するために、本発明の他の映像処理装置は、映像を取得する映像取得部と、映像から1の顔画像を特定する位置特定部と、特定された顔画像と、記憶部に記憶された、1または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付ける顔関連付部と、特定された顔画像の顔の向きを導出する顔向き導出部と、特定された顔画像の特徴量を導出する特徴量導出部と、導出された顔の向きと、特定された顔画像に関連付けられた顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、導出された特徴量と導出された顔の向きとを顔情報に追加して記憶部に記憶させる記憶制御部と、を備えることを特徴とする。
 上記所定条件は、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、特定された顔画像に関連付けられた顔情報の顔の向きが含まれる1または複数の範囲のいずれにも導出された顔の向きが含まれないことでもよい。
 上記映像処理装置は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示部に表示させる表示制御部を備えてもよい。
 上記課題を解決するために、本発明の映像処理方法は、映像を取得し、映像から1の顔画像を特定し、特定された顔画像と、1または複数の特徴量をまとめた顔情報とを関連付け、特定された顔画像の特徴量を導出し、導出した特徴量と、特定された顔画像に関連付けられた顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合に、導出した特徴量を顔情報に追加して記憶することを特徴とする。
 上記課題を解決するために、本発明の他の映像処理方法は、映像を取得し、映像から1の顔画像を特定し、特定した顔画像と、1または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付け、特定した顔画像の顔の向きを導出し、導出した顔の向きと、特定した顔画像に関連付けられた顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、特定した顔画像の特徴量と導出した顔の向きとを顔情報に追加して記憶することを特徴とする。
 以上説明したように本発明は、ユーザが煩わしい思いをすることなく、顔画像を確実に特定することができる適切な特徴量を導出することが可能となる。
映像処理装置の一例を示した外観図である。 第1の実施形態における映像処理装置の概略的な構成を示した機能ブロック図である。 顔の向きを説明するための説明図である。 第1の実施形態における特徴量の特徴量記憶部への記憶の制御を説明するための説明図である。 第1の実施形態における映像処理方法の処理の流れを示すフローチャートである。 第2の実施形態における映像処理装置の概略的な構成を示した機能ブロック図である。 第2の実施形態における顔の向きに基づく顔画像の分類を説明するための説明図である。 特徴量の数を示す画像と顔の向きが含まれる範囲を示す画像を説明するための説明図である。 外部機器から特徴量を取得した場合の処理を説明するための説明図である。 第2の実施形態における映像処理方法の処理の流れを示すフローチャートである。
100、400  …映像処理装置
108  …ビューファインダ(表示部)
120  …撮像部(映像取得部)
130  …記憶読取部(映像取得部)
132  …外部入出力部(映像取得部)
134  …特徴量記憶部(記憶部)
170  …位置特定部
172  …顔向き導出部
174、474  …顔関連付部
176、476  …特徴量導出部
178、478  …記憶制御部
180、480  …表示制御部
 以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。かかる実施形態に示す寸法、材料、その他具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、本明細書及び図面において、実質的に同一の機能、構成を有する要素については、同一の符号を付することにより重複説明を省略し、また本発明に直接関係のない要素は図示を省略する。
(第1の実施形態:映像処理装置100)
 図1は、映像処理装置100の一例を示した外観図である。図1(a)は、映像処理装置100としてデジタルスチルカメラを、図1(b)は、映像処理装置100としてビデオカメラを示している。映像処理装置100は、携帯性を有すものもあり、本体102と、撮像レンズ104と、操作部106と、表示部として機能するビューファインダ108を含んで構成される。
 図2は、第1の実施形態における映像処理装置100の概略的な構成を示した機能ブロック図である。ここでは、映像処理装置100として図1(b)に示すビデオカメラを挙げている。本実施形態の映像処理装置100は、撮像した映像データ上の1の顔画像を特定し、その顔画像に関して記憶されている特徴量と異なる特徴量を新たに導出して記憶すること、すなわち、同一人物の顔の向きや表情の異なる様々な顔画像の特徴量を導出して記憶することを目的としている。このように導出して記憶された様々な顔画像の特徴量は、その後で、映像中の任意の顔画像を認証するため(認証モード)用いることができる。
 映像処理装置100は、操作部106と、撮像部120と、データ処理部122と、映像保持部124と、ビューファインダ108と、圧縮伸長部128と、記憶読取部130と、外部入出力部132と、特徴量記憶部134と、中央制御部136と、を含んで構成される。
 操作部106は、レリーズスイッチを含む操作キー、十字キー、ジョイスティック等のスイッチから構成され、ユーザの操作入力を受け付ける。また、後述するビューファインダ108の表示面にタッチパネルを配し、操作部106としてもよい。
 撮像部120は、焦点調整に用いられるフォーカスレンズ150と、露光調整に用いられる絞り152と、撮像レンズ104を通じて入射する光を光電変換し映像データにA/D変換する撮像素子156と、フォーカスレンズ150および絞り152を駆動させる駆動回路158とを含んで構成され、撮像方向の被写体の映像(映像データ)を取得する映像取得部として機能し、取得した映像データをデータ処理部122に出力する。
 データ処理部122は、撮像部120から出力された映像データに、ホワイトバランス調節、ノイズ軽減処理、レベル補正処理、A/D変換処理および色彩補正処理(ガンマ補正処理、ニー処理)等の所定の処理を施し、処理後の映像データを映像保持部124に出力する。
 映像保持部124は、RAM(Random Access Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等で構成され、データ処理部122、圧縮伸長部128、および外部入出力部132から入力された映像データを一時的に保持する。
 ビューファインダ108は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等で構成され、データ処理部122および圧縮伸長部128が出力し映像保持部124に保持された映像データや、操作部106と連動した指示項目を表示する表示部として機能する。ユーザは、撮像時においてビューファインダ108に表示された映像(画像)や、後述する記憶読取部130によって記憶される映像データの映像を確認することができる。また、ユーザは、ビューファインダ108に表示された映像を視認しつつ操作部106を操作することで、被写体を、所望する位置および占有面積で捉えることが可能となる。さらに、ビューファインダ108は、後述する、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像を表示する。
 圧縮伸長部128は、データ処理部122から出力された映像データを、M-JPEG(モーションJPEG)やMPEG(Moving Picture Experts Group)-2、H.264などの所定の符号化方式で符号化した符号データとし、符号データを記憶読取部130に出力する。
 また、圧縮伸長部128は、記憶読取部130が記憶媒体200から読み取った、所定の符号化方式で符号化された符号データを復号した映像データを、映像保持部124に出力する。
 記憶読取部130は、圧縮伸長部128が符号化した符号データを任意の記憶媒体200に記憶させる。任意の記憶媒体200としては、DVD(Digital Versatile Disc)やBD(Blu-ray Disc)といった光ディスク媒体や、RAM、EEPROM、不揮発性RAM、フラッシュメモリ、HDD等の媒体を適用することができる。ここで、記憶媒体200は、着脱可能とするが、映像処理装置100と一体であってもよい。また、記憶読取部130は、映像データを所定の符号化方式で符号化した符号化データが記憶された任意の記憶媒体200から符号化データを読み取り、圧縮伸長部128に出力する。
 外部入出力部132は、映像保持部124に保持された映像データを、例えば、映像処理装置100に接続された表示装置204に出力する。また、外部入出力部132は、例えば、DVDプレーヤ、BDプレーヤ、HDDプレーヤ等の外部の映像再生装置206に接続され、映像再生装置が出力した映像データを受け取り、映像保持部124に出力する。
 特徴量記憶部134は、RAM、フラッシュメモリ、HDD等で構成され、後述する記憶制御部の指示に従って、同一人物の顔画像から導出された1または複数の特徴量をまとめた顔情報を、同一人物の数だけ記憶する記憶部として機能する。
 中央制御部136は、中央処理装置(CPU)や信号処理装置(DSP:Digital Signal Processor)を含む半導体集積回路で構成され、所定のプログラムを用いて映像処理装置100全体を管理および制御する。
 また、中央制御部136は、位置特定部170、顔向き導出部172、顔関連付部174、特徴量導出部176、記憶制御部178、表示制御部180としても機能する。
 本実施形態の映像処理装置100は、登録モードにおいて、撮像した映像データ上の1の顔画像を特定し、その顔に関して記憶されている特徴量と異なる特徴量を新たに導出して記憶し、認証モードにおいて、この特徴量を映像中の顔を認証するために用いる。以下、映像処理装置100について、登録モードと認証モードに分けて説明する。
(登録モード)
 位置特定部170は、登録モードにおいて、撮像部120が取得し、映像保持部124に保持された映像データから、操作部106を通じたユーザ入力に応じて、1の顔画像を特定(選択)し、その顔画像を既存の画像処理技術を用いて追尾する。そして、位置特定部170は、フレーム毎の顔画像に関する画像情報を顔向き導出部172および特徴量導出部176に出力する。位置特定部170は、複数の顔画像が検出された場合には各顔画像について同様に追尾し、その全ての顔画像に関する画像情報を特徴量導出部176に出力する。
 また、ここでは、映像取得部として撮像部120を用いているが、それに限らず、記憶読取部130や外部入出力部132を映像取得部として機能させ、位置特定部170は、記憶読取部130や外部入出力部132が取得した映像に基づいて1の顔画像を特定してもよい。
 このような1の顔画像の特定は、映像保持部124に保持された映像データに基づく映像をビューファインダ108に表示させ、操作部106の操作を通じてユーザに1の顔画像を選択させることで遂行される。また、操作部106として、ビューファインダ108の表示面にタッチパネルが重畳されている場合、タッチパネルを通じて1の顔画像の位置に相当する部位をユーザに接触させることで、1の顔画像の特定を遂行してもよい。さらに、位置特定部170は、画面内に存在する全ての顔画像を自動的に選択し、後述する表示制御部180は、選択された全ての顔画像を囲うように複数の枠を表示させた状態で、「どの人を登録しますか?」と画面に表示させ、そのうちの1の顔画像をユーザに選択させてもよい。
 また、位置特定部170は、画面内の例えば中央部の所定領域に顔が映るように被写体の人物を位置させ、ユーザの操作入力による任意のタイミングで、その所定領域に対応する映像中の領域の顔画像を特定してもよい。かかる所定領域は、ユーザが画面内で任意に指定可能なものとしてもよい。この場合、表示制御部180は、ビューファインダ108に表示させているこの所定領域の境界線に、例えば、四角い枠等の指標を重畳して表示させる。
 本実施形態において、位置特定部170は、顔画像を追尾するため、映像中の所定の大きさの検索領域を走査し、目、鼻、口といった顔を構成する器官の特徴を示す特徴点を検出することで顔画像を抽出しているが、顔画像の抽出手段は特徴点の検出に限定されない。例えば、肌色領域を検出したり、パターンマッチングしたりして、顔画像を抽出してもよい。
 位置特定部170は、顔画像の座標、顔画像の大きさを少なくとも含む画像情報を顔向き導出部172に、顔画像の座標、顔画像の大きさ、顔画像の確からしさを少なくとも含む画像情報を特徴量導出部176にそれぞれ出力する。顔画像の座標は、映像サイズに対する顔領域の相対的な座標を示し、顔画像の大きさは、映像サイズに対する顔領域の相対的な大きさを示し、顔画像の確からしさは、顔画像が顔の映像であることの確実性を示し、例えば、標準的な顔画像との類似の度合いを示す類似度として導出してもよい。また、位置特定部170は、この類似度を肌色領域の検出結果で重み付けしてもよく、例えば、肌色領域が少なければ類似度を低い値に修正してもよい。
 図3は、顔の向きを説明するための説明図である。画像情報には、上述した顔画像の座標、顔画像の大きさ、顔画像の確からしさと共に、顔画像の回転補正のため顔画像のロール角も含んでいる。ここで、特徴量導出部176に出力する顔画像のロール角は、図3(a)で定義されるロール軸回りの顔画像の回転角である。また、後述するピッチ角(ピッチ軸回りの回転角)やヨー角(ヨー軸回りの回転角)の定義も図3(b)、図3(c)に示す。
 顔向き導出部172は、位置特定部170が出力した画像情報に示される顔画像の座標と顔画像の大きさとに基づいて、映像保持部124に保持されている映像データから位置特定部170が特定した顔画像を読み出し、顔画像の特徴点である目や口と顔の輪郭情報等から、ロール角以外の顔の向きを、すなわち顔のピッチ角とヨー角を導出する(図3(b)、(c)参照)。
 特徴量導出部176は、位置特定部170から出力された画像情報に示される顔画像の座標、顔画像の大きさに基づいて、映像保持部124に保持されている映像データから顔画像を読み出す。そして、読み出された顔画像について、画像情報に示される顔画像の大きさ、顔画像のロール角に基づき、解像度変換やロール角方向の回転補正を行い、正規化した(所定の大きさで正立した)顔画像に変換する。
 また、特徴量導出部176は、自体が変換した顔画像と、顔向き導出部172が導出した顔の向きであるピッチ角およびヨー角に基づいて、位置特定部170が特定した顔画像の特徴量を導出する。具体的に、まず、特徴量導出部176は、顔向き導出部172が導出した顔のピッチ角とヨー角から、正規化後の顔画像に対してさらにアフィン変換を施し、正面を向いた顔の顔画像に修正する。
 そして、特徴量導出部176は、アフィン変換後の顔画像に関する特徴点を検出することを試みる。ここでは、特徴点の検出に費やす処理負荷が大きくなる事態を回避するため、アフィン変換後の顔画像からではなく、事前に検出されているアフィン変換前の顔画像に関する特徴点をアフィン変換することで、アフィン変換後の顔画像の特徴点を導出する。アフィン変換後の顔画像の特徴点から、それぞれの特徴点が顔の各部分の特徴点であることの確実さを示す、特徴点であることの確からしさ、を特徴点毎にそれぞれ導出する。ここで、例えば、被写体の人物が目を閉じていた場合、目の特徴点であることの確実さは低くなる。
 さらに、特徴量導出部176は、その顔画像が処理するに値する顔画像か否かを判定し、例えば、顔画像のピッチ角が-15°~+15°の範囲であり、顔画像のヨー角が-30°~+30°の範囲であり、画像情報に示された顔画像の確からしさ、特徴点であることの確からしさが、予め設定されたそれぞれに対応する所定の条件を満たす場合に、顔画像の特徴量として、例えば、ガボア・ジェットを導出する。
 ガボア・ジェットを求めるために用いる、ガボア・フィルタは方向選択性と周波数特性の両方を持ったフィルタである。特徴量導出部176は、方向と周波数をそれぞれ異ならせた複数のガボア・フィルタを用いて顔画像の畳み込みを行う。得られた複数のスカラ値の組をガボア・ジェットと呼ぶ。特徴量導出部176は、顔画像上の特徴点の近傍で、局所的な特徴量としてガボア・ジェットを求める。
 そして、特徴量導出部176は、アフィン変換後の顔画像の特徴点に基づいて導出した特徴量を顔関連付部174に出力する。ここで、特徴量は、複数のスカラ値の組(ガボア・ジェット)の集合としてのベクトル量として表される。1枚の顔画像から1つのベクトル量が導出される。
 顔関連付部174は、まず、位置特定部170がユーザ入力に応じて特定した顔画像と、同一人物の顔画像から導出された特徴量をまとめた顔情報(以下、単に同一人物の顔情報と称する)がすでに特徴量記憶部134に記憶されているか否かを、例えば、特徴量同士の類似度に基づいて判断する。
 そして、顔関連付部174は、位置特定部170がユーザ入力に応じて特定した顔画像と、同一人物の顔情報がまだ特徴量記憶部134に記憶されていなければ、その特徴量を新たな顔情報として特徴量記憶部134に記憶させる。
 また、顔関連付部174は、位置特定部170がユーザ入力に応じて特定した顔画像と、同一人物の顔情報がすでに特徴量記憶部134に記憶されていれば、特定した顔画像と、特徴量記憶部134に記憶された、その同一人物の顔情報とを関連付ける。以下、顔関連付部174の具体的な処理を説明する。
 特徴量記憶部134には、1の人物に関する複数の顔画像から導出された複数の特徴量をまとめた顔情報が人物の数に応じて複数記憶されている。顔関連付部174は、特徴量導出部176が導出した特徴量と、特徴量記憶部134から読み出した複数の顔情報の複数の特徴量それぞれについて、類似度を導出する。
 すなわち、顔関連付部174は、1の顔情報について1つしか特徴量が記憶されていなければ、特徴量導出部176が導出した特徴量と特徴量記憶部134に記憶されている1の顔情報の1つの特徴量との類似度を導出する。また、顔関連付部174は、1の顔情報に複数の特徴量がまとめられ記憶されている場合には、特徴量導出部176が導出した特徴量と特徴量記憶部134に記憶されている1の顔情報の複数の特徴量との類似度をそれぞれ導出し、導出された1または複数の類似度のうち最も高い類似度を、特徴量導出部176が出力した特徴量と、その1の顔情報の複数の特徴量との類似度とする。特徴量記憶部134に複数の顔情報が記憶されている場合、顔関連付部174は、上述した1の顔情報に対する類似度の導出処理を複数の顔情報全てに対して施すこととなる。
 具体的な類似度の導出処理として、顔関連付部174は、まず特徴量導出部176から出力された特徴量と、特徴量記憶部134から読み出した例えば1の顔情報の1の特徴量とで、正規化相関演算等の手法によって、特徴点毎の類似度d0、d1、d2、…、dn(nは正数)を求める。
 続いて、顔関連付部174は、正規化相関演算で得られた各特徴点の類似度d0、d1、d2、…、dnを要素として類似度ベクトル(類似度の集合)D=(d0、d1、d2、…、dn)を導出する。
 顔関連付部174は、類似度ベクトルDから、例えば、アダブースト・アルゴリズムやサポート・ベクタ・マシーン(SVM)を使用して顔全体としての類似度Fiを導出する。そして、顔関連付部174は、この類似度Fiを1の顔情報の複数の特徴量全てに関して導出し、そのうちの最大値を、特徴量導出部176から出力された特徴量と、その1の顔情報の複数の特徴量との類似度Fとする。
 顔関連付部174は、このような類似度Fを全ての顔情報に関して導出し、導出した類似度Fのうちの最大のものが、所定の第1閾値よりも小さい場合、位置特定部170が特定した顔画像と、同一人物の顔情報がまだ特徴量記憶部134に記憶されていないと判断する。
 そして、顔関連付部174は、特徴量導出部176から出力された特徴量を新たな顔情報の特徴量として特徴量記憶部134に記憶させる。そして、顔関連付部174は、位置特定部170が特定した顔画像と、新たに特徴量記憶部134に記憶した顔情報とを同一人物として関連付ける。
 また、全ての顔情報に関して導出した類似度Fのうちの最大のものが、所定の第1閾値以上であった場合、顔関連付部174は、その最大の類似度Fとなった顔情報が、位置特定部170が特定した顔画像と、同一人物のものであり、同一人物の顔情報がすでに特徴量記憶部134に記憶されていると判断する。そして、顔関連付部174は、位置特定部170が特定した顔画像と特徴量記憶部134に記憶された、類似度Fが最大となった顔情報とを同一人物として関連付ける。
 さらに、顔関連付部174は、位置特定部170が特定した顔画像と特徴量記憶部134に記憶されている顔情報とを、例えば、操作部106を通じたユーザの操作入力に基づいて関連付けてもよい。具体的には、上述したように、ユーザが、映像保持部124に保持された映像データから1の顔画像を特定(選択)し、同時に、予め特徴量記憶部134に特徴量が記憶されている顔情報のうちから、これから特徴量を記憶させようとしている被写体の人物の顔情報を選択すると、顔関連付部174は、類似度の導出を通じた同一人物の判断処理を実行することなく、位置特定部170が特定した顔画像と、特徴量記憶部134におけるユーザによって選択された顔情報とを同一人物として関連付けることができる。
 この場合、位置特定部170が特定した顔画像は、類似度の導出なしに顔情報と関連付けられており、位置特定部170が特定し追尾する顔画像のうち、1枚目(1フレーム目)の顔画像から、特徴量の記憶の対象とすることができる。さらに、例えば、映像が1フレームのみの場合(写真撮影の場合)であっても、位置特定部170が顔画像を特定するが追尾をせずに、その1枚目の顔画像を特徴量の記憶の対象とすることもできる。
 そして、特徴量導出部176は、位置特定部170が特定した顔画像について、継続して取り込まれた画像情報からそれぞれ特徴量を導出する。
 記憶制御部178は、特徴量導出部176が導出した特徴量と、特定された顔画像に関連付けられた顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合、その導出された特徴量を顔情報に追加して特徴量記憶部134に記憶させる。
 かかる記憶制御部178の構成により、特定された顔画像のうちでも所定条件を満たす顔画像の特徴量のみが自動的に特徴量記憶部134に記憶されるので、認証モードにおいても適切に顔を特定することができ、ユーザの操作性が向上する。
 上述したように、顔関連付部174によって、位置特定部170が特定した顔画像と、特徴量記憶部134における顔情報とが同一人物として関連付けられた後、今度は、同一人物の顔情報に関してまだ登録されていない(異なる)顔画像を抽出して、その抽出された顔画像の特徴量を特徴量記憶部134に記憶する。
 かかる同一人物の異なる顔画像を抽出するため、特徴量導出部176が新たに導出した特徴量と、特徴量記憶部134に記憶されている、位置特定部170が特定した顔画像に関連付けられた顔情報の1または複数の特徴量との類似度が所定値未満であることを所定条件とする。
 ここで、類似度Fが所定値(第2閾値)未満となった場合、現在の顔画像と先に登録した顔画像とが、同一人物ではあるが、顔の向きが異なる、または表情が異なる場合であると考えられる。したがって、記憶制御部178は、このような顔の向きや表情が異なる顔画像の特徴量を特徴量記憶部134に記憶させる。
 一方、類似度Fが第2閾値以上である場合は、現在の顔画像と先に登録した顔画像が同じ様な顔の向き、表情であると考えられる。この場合には、現在の顔画像を登録しても、後述する映像中の顔が登録されているか否かを判断する認証モードにおいて、認証の精度の向上にあまり貢献しないため、記憶制御部178は、このような顔画像の特徴量を特徴量記憶部134に記憶させない。
 図4は、第1の実施形態における特徴量の特徴量記憶部134への記憶の制御を説明するための説明図である。図4(a)に示すように、特徴量記憶部134には、任意の顔情報の特徴量230a~230dについて、指標M1、M2、M3、M4と、各特徴点の値m1a、m1b、…が記憶されている。ここで、特徴量導出部176から新たに、同一人物として顔情報に関連付けられた顔画像から導出された特徴量230eが出力されたとする。
 この場合、記憶制御部178は、その顔情報のそれぞれの特徴量230a~230dと新たに導出された特徴量230eとの類似度を導出し、最も高い特徴量、ここでは例えば特徴量230dについて、第2閾値と比較し、第2閾値以上である場合、その特徴量を特徴量記憶部134に記憶させない。また、第2閾値未満である場合、図4(b)に示すように、その特徴量230eを、特徴量記憶部134にその顔情報の特徴量として記憶させる。
 特徴量記憶部134に記憶された顔画像の特徴量は、認証モードにおいて、撮像部120で生成された映像に含まれる顔画像から導出した特徴量との類似度を導出する際に用いられる。本実施形態の映像処理装置100は、これから記憶させる特徴量の候補が、既に記憶されている特徴量と異なるか否かを、認証モードと同一の判断基準である類似度によって判断しているため、認証モードでも有効な同一人物に関する複数の異なる特徴量を確実に抽出することができ、少ない比較処理で、認証の精度を向上させることができる。
 上述した特徴量の記憶は、例えば、ユーザの操作入力を契機に、特定された顔画像の特徴量を登録するための登録モードにおいて実行される。ユーザが登録モードを開始する操作入力を行い、登録したい顔を撮像し続けると、特徴量導出部176は、顔関連付部174が顔情報と関連付けた、特定された顔画像について順次特徴量を導出し、記憶制御部178は、導出された特徴量のうち、所定条件を満たす特徴量を随時登録していく。
 このとき、表示制御部180は、特徴量記憶部134に記憶されている、特定された顔画像と関連付けられた顔情報の特徴量の数を示す画像を、生成された被写体の映像に重畳してビューファインダ108に表示させる。例えば、一人の人物の顔情報について、特徴量を最大8つまで記憶する場合、ある人物の顔情報について、特徴量がすでに3つ記憶されているとする。この場合、3/8が塗りつぶされた円グラフを表示する。このように、表示制御部180は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数を示す画像をビューファインダ108に表示させる。
 かかる構成により、ユーザは、表示された顔情報の特徴量の数を示す画像を視認し、顔画像の特徴量の記憶の進捗具合を確認することができ、ユーザの操作性を向上することが可能となる。
 登録モードにおいて、登録の対象の人物の顔に関し、最大数、例えば8つの特徴量の登録が完了したり、ユーザの操作入力によって、登録モードが終了されたりすると、登録した特徴量の登録対象の個人情報を入力する入力モードに遷移する。
 表示制御部180は、ビューファインダ108に「登録した人の名前を入力してください」、「登録した人の生年月日を入力してください」等のメッセージを表示させる。そして、ユーザが操作部106を通じて、特徴量の登録対象の名前や生年月日等の個人情報を入力する。記憶制御部178は、これらの個人情報や登録時点の日時を示す日時情報を特徴量に関連付けて、特徴量記憶部134に記憶させる。また、ユーザは、個人情報についてすぐに入力を行わず事後的に入力することもできる。
 さらに、通常の撮影時に、被写体の人物の中で、すでに特徴量が特徴量記憶部134に記憶されており、かつ記憶済みの特徴量の数が最大数未満である場合や日時情報が示す日時から所定の時間が経過しているような場合に、自動的に登録モードに遷移してもよい。その場合、表示制御部180は「Aさんの登録を継続しますか」といったメッセージをビューファインダ108に表示させ、ユーザに特徴量の登録の対象となる顔情報の確認と登録モードへの遷移の可否を選択させる。
 また、特徴量記憶部134は、顔情報毎に特徴量を記憶するものとしたが、例えば、特徴量を導出する際に用いた顔画像自体を記憶してもよい。このように顔画像も記憶することで、認証モードにおいて、顔の認証に用いられる顔画像をユーザが実際に視認できるため、ユーザは、極端な表情の顔画像等、不要と思われる顔画像を、特徴量記憶部134から削除することができる。この場合、特徴量記憶部134は、特徴量を記憶せず、顔画像のみを記憶し、特徴量導出部176は、特徴量記憶部134から顔画像を読み出す際に、その顔画像に基づいて特徴量を導出するとしてもよい。
(認証モード)
 上述した登録モードにおいて、特徴量記憶部134に記憶された特徴量は、認証モードにおいて、被写体の顔を認証する際に用いられる。ユーザの操作入力によって認証モードに遷移する指示があると、表示制御部180は、ビューファインダ108に特徴量記憶部134に記憶されている1または複数の顔情報を表示させる。ユーザが、所望する顔情報を選択した後、撮像を開始すると、位置特定部170は、撮像部120が取得し、映像保持部124に保持された映像データに含まれる顔画像全てについて、顔画像を追尾し、フレーム毎の顔画像の座標を含む画像情報を特徴量導出部176に出力する。
 特徴量導出部176は、位置特定部170から出力された顔画像の座標に基づいて、位置特定部170が特定した顔画像の特徴量を導出する。記憶制御部178は、特徴量記憶部134に記憶された特徴量のうち、ユーザが選択した顔情報における特徴量と、特徴量導出部176が導出した特徴量との類似度を導出する。
 そして、導出された類似度が所定閾値、例えば、上述した第1閾値以上である場合、駆動回路158は、フォーカスレンズ150および絞り152を駆動させ、対応する被写体に合わせて焦点や露光を調節する。また、表示制御部180は、ビューファインダ108に表示させている映像中の、対応する顔画像に、例えば、四角い枠等の指標を重畳して表示させる。
 上述したように、本実施形態においては、記憶制御部178は、顔情報と同一人物と見なすことができる被写体の顔画像の特徴量について、顔の向きや表情が異なり類似度が第2閾値未満となる場合に、自動的に特徴量記憶部134に記憶させる。そのため、特徴量の登録において、ユーザが煩わしい思いをすることなく、顔を確実に認証することができる適切な特徴量を導出することが可能となる。
(映像処理方法)
 さらに、上述した映像処理装置100を用いた映像処理方法も提供される。図5は、第1の実施形態における映像処理方法の処理の流れを示すフローチャートである。図5においては、特に、上述した登録モードの処理の流れについて示している。
 撮像部120は、映像を取得し(S300)、位置特定部170は、映像保持部124に保持された映像データから1の顔画像を特定できたか否かを判断する(S302)。位置特定部170が1の顔画像を特定できない場合(S302のNO)、映像取得ステップ(S300)に戻る。
 位置特定部170が1の顔画像を特定できた場合(S302のYES)、その顔画像を追尾し、フレーム毎の顔画像に関する画像情報を特徴量導出部176に出力する(S304)。特徴量導出部176は、位置特定部170が追尾した顔画像について、顔向き導出部172が導出した顔の向きが、例えば、ピッチ角が-15°~+15°の範囲であり、ヨー角が-30°~+30°の範囲であり、画像情報に示された顔画像の確からしさ、特徴点であることの確からしさが予め設定されたそれぞれに対応する所定の条件を満たす場合に、特徴量を導出する(S306)。
 顔関連付部174は、位置特定部170が特定した顔画像が、特徴量記憶部134に記憶された顔情報に関連付けられているか否かを判定する(S308)。関連付けられていない場合(S308のNO)、顔関連付部174は、特徴量導出部176が導出した特徴量と、特徴量記憶部134から読み出した複数の顔情報のうちの1つの顔情報における複数の特徴量のうちの1つについて、類似度を導出する(S310)。そして、顔関連付部174は、そのとき類似度を導出した特徴量に関する顔情報について、それまでに導出された類似度の最大値と、そのとき導出した類似度とを比較し(S312)、それまでに導出された類似度の最大値よりも、そのとき導出した類似度が大きい場合(S312のYES)、対象の顔情報について、類似度の最大値を、そのとき導出した類似度に置換する(S314)。
 顔関連付部174は、特徴量記憶部134から読み出した1つの顔情報の全ての特徴量について、類似度の導出が完了しているか否かを判断する(S316)。完了していない場合(S316のNO)、類似度導出ステップ(S310)に戻ってまだ類似度を導出していない特徴量について同様の処理を行う。
 特徴量記憶部134から読み出した1つの顔情報の全ての特徴量について、類似度の導出が完了している場合(S316のYES)、顔関連付部174は、特徴量記憶部134から読み出した全ての顔情報の特徴量について、類似度の導出が完了しているか否かを判断する(S318)。完了していない場合(S318のNO)、類似度導出ステップ(S310)に戻ってまだ類似度を導出していない他の顔情報の特徴量について同様の処理を行う。
 特徴量記憶部134から読み出した全ての顔情報の特徴量について、類似度の導出が完了している場合(S318のYES)、顔関連付部174は、導出された顔情報毎の類似度の最大値のうち、最大となる類似度が第1閾値以上であるか否かを判断する(S320)。第1閾値以上である場合(S320のYES)、顔関連付部174は、位置特定部170が特定した顔画像と同一人物の顔情報がすでに特徴量記憶部134に記憶されていると判断し、位置特定部170が特定した顔画像を対応する顔情報とを関連付ける(S324)。第1閾値未満である場合(S320のNO)、顔関連付部174は、位置特定部170が特定した顔画像と同一人物の顔情報が特徴量記憶部134に記憶されていないと判断し、導出された特徴量を特徴量記憶部134に新規の顔情報の特徴量として記憶させ(S322)、位置特定部170が特定した顔画像をその新規の顔情報に関連付ける(S324)。そして、映像取得ステップ(S300)に戻る。
 関連付判定ステップ(S308)において、位置特定部170が特定した顔画像が、特徴量記憶部134に記憶された顔情報に関連付けられている場合(S308のYES)、記憶制御部178は、特徴量導出部176が導出した特徴量と、同じ顔情報の他の特徴量のうちの1つとの類似度を導出する(S326)。そして、記憶制御部178は、同じ顔情報の他の特徴量について、それまでに導出された類似度の最大値と、そのとき導出した類似度とを比較し(S328)、それまでに導出された類似度の最大値よりも、そのとき導出した類似度が大きい場合(S328のYES)、対象の顔情報について、類似度の最大値を、そのとき導出した類似度に置換する(S330)。
 記憶制御部178は、同じ顔情報の他の特徴量について、類似度の導出が完了しているか否かを判断する(S332)。完了していない場合(S332のNO)、類似度導出ステップ(S326)に戻ってまだ類似度を導出していない特徴量について同様の処理を行う。
 同じ顔情報の他の全ての特徴量について、類似度の導出が完了している場合(S332のYES)、記憶制御部178は、導出された類似度の最大値が所定条件を満たすか、すなわち、第2閾値未満であるか否かを判断する(S334)。第2閾値未満である場合(S334のYES)、記憶制御部178は、特徴量導出部176が新たに導出した特徴量を、既存の同一人物の顔情報の特徴量として特徴量記憶部134に記憶させる(S336)。そして、中央制御部136は、特徴量記憶部134に記憶されている、対象の顔情報に関する特徴量の数が、すでに最大数に達しているか否かを判断する(S338)。特徴量の数が最大数に達している場合(S338のYES)、表示制御部180は、1つの顔情報について記憶させる特徴量の最大数に到達したことをビューファインダ108に表示させ、登録モードの終了を促す(S340)。
 所定条件判定ステップ(S334)において、所定条件を満たさない場合(S334のNO)、最大数判定ステップ(S338)において、特徴量の数が最大数に達していない場合(S338のNO)、および最大数到達表示ステップ(S340)の後、中央制御部136は、ユーザによる操作入力で登録モードの終了の指示があるか否かを判断する(S342)。終了の指示が無かった場合(S342のNO)、映像取得ステップ(S300)に戻る。終了の指示があった場合(S342のYES)、登録モードを終了する。
 上述したように、映像処理装置100を用いた映像処理方法によれば、ユーザが煩わしい思いをすることなく、顔を確実に認証することができる適切な特徴量を導出することが可能となる。
(第2の実施形態)
 上述した第1の実施形態では、記憶制御部178は、新たに導出された特徴量を、特徴量記憶部134に記憶させるか否かの判断に、類似度を導出して第2閾値と比較していた。第2の実施形態では、特徴量に対して影響が大きい、顔の角度に絞って判断する映像処理装置400について説明する。なお、上述した映像処理装置100と実質的に等しい構成要素については、同一の符号を付して説明を省略する。
(映像処理装置400)
 図6は、第2の実施形態における映像処理装置400の概略的な構成を示した機能ブロック図である。映像処理装置400は、操作部106と、撮像部120と、データ処理部122と、映像保持部124と、ビューファインダ108と、圧縮伸長部128と、記憶読取部130と、外部入出力部132と、記憶部として機能する特徴量記憶部134と、中央制御部436と、を含んで構成される。第1の実施形態における構成要素として既に述べた操作部106と、撮像部120と、データ処理部122と、映像保持部124と、ビューファインダ108と、圧縮伸長部128と、記憶読取部130と、外部入出力部132と、特徴量記憶部134とは、実質的に機能が同一なので重複説明を省略し、ここでは、構成が相違する中央制御部436を主に説明する。
 中央制御部436は、中央処理装置(CPU)や信号処理装置(DSP)を含む半導体集積回路で構成され、所定のプログラムを用いて映像処理装置400全体を管理および制御する。また、中央制御部436は、位置特定部170、顔向き導出部172、顔関連付部474、特徴量導出部476、記憶制御部478、表示制御部480としても機能する。
 顔関連付部474は、第1の実施形態の顔関連付部174と同様の処理を行い、特定された顔画像と、顔情報とを関連付ける。このとき、特徴量記憶部134に記憶された顔情報には、特徴量のみならず、その顔の向きも含まれるので、顔関連付部474は、そのような1または複数の特徴量とその顔の向きとをまとめた顔情報を、特定された顔画像に関連付けている。
 特徴量導出部476は、顔向き導出部172が導出した顔の向きと、位置特定部170が特定した顔画像に関連付けられた顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、特定された顔画像の特徴量を導出する。本実施形態において、特徴量導出部476は、所定条件を満たす場合のみ、特定された顔画像の特徴量を導出することとするが、所定条件に拘らず、特定された顔画像全ての特徴量を導出してもよい。
 記憶制御部478は、顔向き導出部172が導出した顔の向きと、位置特定部170が特定した顔画像に関連付けられた顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、特徴量導出部476が新たに導出した特徴量と顔向き導出部172が導出した顔の向きとを顔情報に追加して特徴量記憶部134に記憶させる。
 また、本実施形態において、上記所定条件は、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、位置特定部170が特定した顔画像に関連付けられた顔情報の顔の向きが含まれる1または複数の範囲のいずれにも、顔向き導出部172が導出した顔の向きが含まれないこととする。
 図7は、第2の実施形態における顔の向きに基づく顔画像の分類を説明するための説明図である。図7(a)は、ある顔情報について、特徴量の記憶の状態を説明するための説明図であり、図7(b)は、図7(a)において、新たに特徴量が記憶された後の状態を説明するための説明図である。本実施形態において、特徴量記憶部134は、特徴量のかわりに顔画像(例えば、図7(a)、図7(b)に示す、顔の向きが異なる顔画像410)を記憶している。図7(a)、(b)において、テーブル412は、特徴量記憶部134に記録されている顔画像自体を、テーブル414は、所定の顔の向きの範囲に含まれる顔画像の記録の有無を示す。
 第1の実施形態と同様、第2の実施形態においても、顔向き導出部172は、顔画像のピッチ角およびヨー角を導出し、特徴量導出部476は、ピッチ角が+15°~-15°の範囲であり、ヨー角が+30°~-30°の範囲外にある場合には特徴量を導出しない。
 特徴量導出部476は、顔向き導出部172が新たに導出した顔画像の顔の向きであるピッチ角、ヨー角が、図7(a)に示す範囲(ピッチ角について-15°~-5°、-5°~5°、5°~15°、ヨー角について-30°~-10°、-10°~10°、10°~30°)のうち、どの範囲に含まれるかを判断する。そして、特徴量導出部476は、同一人物の顔情報について、特徴量に関連付けて記憶されている複数のフラグのうち、その範囲に対応する、図7(a)に示すテーブル414のフラグがすでに特徴量が記憶されていることを示す「1」である場合、その顔画像の特徴量を導出しない。
 また、図7(a)に示すフラグがまだ特徴量が記憶されていないことを示す「0」である場合、すなわち、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数(本実施形態においては9つ)の範囲のうち、特徴量記憶部134に記憶されている、位置特定部170が特定した顔画像に関連付けられた顔情報の顔の向きが含まれる1または複数の範囲のいずれにも、顔向き導出部172が新たに導出した顔画像の顔の向きが含まれない場合、特徴量導出部476は、位置特定部170が特定した顔画像の特徴量を導出する。そして、記憶制御部478は、特徴量導出部476が導出した特徴量と顔向き導出部172が導出した顔の向きとを顔情報に追加して記憶させ、テーブル414の対応するフラグを「1」に変更する。
 例えば、顔向き導出部172が新たに導出した顔画像の顔の向きのピッチ角、ヨー角が、図7(a)に示すN7の位置416(ピッチ角-15°~-5°、ヨー角10°~30°)であると、図7(b)に示すように、新たに特徴量が記憶され、フラグが「0」から「1」に変更される。
 図8は、特徴量の数を示す画像418aと顔の向きが含まれる範囲を示す画像418bを説明するための説明図である。図8(a)、(b)に示すように、表示制御部480は、記憶可能な特徴量の上限数に対する実際に記憶されている特徴量の数もしくはピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている顔の向きが含まれる範囲のいずれか一方または両方を示す画像をビューファインダ108に表示させる。
 例えば、図7(b)に示すテーブル412が特徴量記憶部134に記録されている場合、表示制御部480は、第1の実施形態の表示制御部180と同様、記憶可能な特徴量の上限数(ここでは9つ)に対する実際に記憶されている特徴量の数(ここでは6つ)を示す、6/9が塗りつぶされた(ハッチングされた)円グラフ(例えば、図8(a)に示す画像418a)をビューファインダ108に表示させることができる。
 また、本実施形態において、表示制御部480は、顔の向きに関する上述した所定数の範囲に対する実際に記憶されている顔の向きの範囲として、N1、N2、N5、N6、N7、N8の位置に相当するマス目が塗りつぶされた縦横3×3のマス目の画像(例えば図8(b)に示す画像418b)をビューファインダ108に表示させる。この場合、3×3の9つのマス目のうち6つのマス目が塗りつぶされているため、記憶可能な特徴量の上限数である9に対して、実際に記憶されている特徴量の数が6つであることが示されたこととなる。ユーザは、画像418aと画像418bのどちらの画像を表示させるかを操作入力で設定できる。
 本実施形態では、特徴量の数を示す画像のみならず、実際に特徴量が記憶されている顔の向きの範囲と記憶されていない顔の向きの範囲まで分かるように画像が表示される。したがって、ユーザは、例えば、撮像すべき顔の向きや撮像する必要性が低い顔の向きはどの向きか等の状況を把握しやすいという利点がある。
 顔画像の特徴量の導出には、顔の向きの影響が大きい。本実施形態の映像処理装置400は、顔の向きが異なる顔画像に限定して特徴量を記憶しておくため、顔の表情の影響を除外して、顔の向きについてのみ差異のある顔画像の特徴量を記憶することができる。
 また、特徴量に対して影響が大きい顔の向きは、ピッチ角とヨー角とで分類できる。本実施形態においては、所定のピッチ角とヨー角の範囲の枠で、認証を容易にするために必要な顔の向きが予め決められており、記憶制御部478は、同じ顔の向きに分類される特徴量については記憶させず、異なる顔の向きに分類される特徴量については記憶させる。そのため、記憶制御部478は、認証モードにおいて影響の大きい顔の向きに関して、幅広い顔の向きの特徴量を参照できる。
 さらに、当該映像処理装置400以外の機器で生成された顔画像の特徴量を内部に取り込むこともできる。例えば、外部入出力部132が、他の映像処理装置や、顔画像から特徴量を導出できる外部機器420から出力された特徴量を受け付けると、記憶制御部478は、受け付けた特徴量を、特徴量記憶部134に記憶させる。同様に、記憶読取部130が、特徴量が記憶された記憶媒体422から特徴量を読み出すと、記憶制御部478は、読み出された特徴量を、特徴量記憶部134に記憶させる。
 図9は、外部機器420から特徴量を取得した場合の処理を説明するための説明図である。特に、図9(a)は、特徴量記憶部134に記憶されている任意の顔情報の特徴量が分類される顔の向きの範囲を示すテーブル414aであり、図9(b)は、外部機器420から取得された任意の顔情報と同一人物の顔画像の特徴量が分類される顔の向きの範囲を示すテーブル414bであり、図9(c)は、外部機器420から取得された特徴量を反映した後の、特徴量記憶部134に記憶されている任意の顔情報の特徴量が分類される顔の向きの範囲を示すテーブル414cである。図9(a)~(c)におけるN1~N9のそれぞれのフラグは、図7(a)、(b)におけるN1~N9のそれぞれのフラグと同様、所定の顔の向きの範囲の特徴量の有無に対応しているものとする。
 記憶制御部478は、外部機器420から受け付けた(記憶媒体422から読み出された)特徴量について、特徴量記憶部134に記憶されている顔情報の特徴量との類似度が第1閾値以上であったり、ユーザの操作入力によって顔情報が選択されたりすると、対象の顔情報の特徴量と、特徴量の導出元の顔画像の顔の向きの比較を行う。
 この比較において、記憶制御部478は、図9(a)に示すフラグが「1」となっている顔の向きの範囲については特徴量を更新せず、フラグが「0」となっている顔の向きの範囲(図9(a)におけるN5~N9)について、外部機器420から受け付けた特徴量に、対応する顔の向きの特徴量があれば、その特徴量を特徴量記憶部134に記憶させる。図9(b)においては、N5の顔の向きの特徴量があるため、記憶制御部478は、この特徴量を、特徴量記憶部134に記憶させる。その結果、図9(c)に示すように、N5のフラグも図9(a)に示す「0」から「1」に変更される。また、例えば、特徴量記憶部134には、特徴量の導出の時点が補助情報として併せて記憶されており、すでに同じ顔の向きの範囲の特徴量が記憶されている場合、記憶制御部478は、より最近導出された特徴量を優先して記憶することとしてもよい。
 外部機器420から受け付けた特徴量を、特徴量記憶部134に記憶させる際に、顔の向きに基づいて、記憶させるか否かを判断する構成により、記憶制御部478は、記憶している特徴量を増やし過ぎずに、画一的かつ効率的に特徴量を記憶させることができる。
 上記のように、本実施形態の映像処理装置400によれば、認証モードに影響の大きい顔の向きに関して、幅広い顔の向きの特徴量を記憶しておくことができ、認証モードにおいて、認証の精度を向上することが可能となる。
(映像処理方法)
 さらに、上述した映像処理装置400を用いた映像処理方法も提供される。図10は、第2の実施形態における映像処理方法の処理の流れを示すフローチャートである。図10においても、図5と同様、特に、登録モードの処理の流れについて示している。上述した第1の実施形態の映像処理方法と実質的に等しい処理については、同一の符号を付して説明を省略する。
 本実施形態では、第1の実施形態と異なり、顔画像追尾ステップ(S304)の後、特徴量導出ステップ(図5のS306)を行う前に、顔関連付部174は、位置特定部170が特定した顔画像が、特徴量記憶部134に記憶された顔情報に関連付けられているか否かを判定する(S500)。
 関連付けられていない場合(S500のNO)、特徴量導出部476は、位置特定部170が特定した顔画像の特徴量を導出する(S502)。以下、類似度導出ステップ(S310)から顔情報関連付ステップ(S324)までの処理は、第1の実施形態において説明した映像処理方法と実質的に等しいため、同一の符号を付して説明を省略する。
 関連付判定ステップ(S500)において、位置特定部170が特定した顔画像が、特徴量記憶部134に記憶されている顔情報に関連付けられている場合(S500のYES)、顔向き導出部172は、位置特定部170が特定した顔画像の顔の向きを導出する(S504)。
 特徴量導出部476は、顔向き導出部172が導出した顔の向きと、位置特定部170が特定した顔画像に関連付けられた顔情報の1または複数の顔の向きとを比較し、所定条件を満たすか否か、すなわち、顔向き導出部172が導出した顔の向きが、特定された顔画像に関連付けられた顔情報のピッチ角とヨー角とに基づいて分けられる所定数の顔の向きのいずれでもないか(未登録の顔の向きか)否かを判断する(S506)。いずれでもない場合(S506のYES)、特徴量導出部476は、位置特定部170が特定した顔画像の特徴量を導出し(S508)、記憶制御部478は、特徴量導出部476が導出した特徴量と顔向き導出部172が導出した顔の向きとを、既存の同一人物の顔情報に追加して特徴量記憶部134に記憶させる(S336)。顔向き導出部172が導出した顔の向きが、特定された顔画像に関連付けられた顔情報のピッチ角とヨー角とに基づいて分けられる所定数の顔の向きのいずれかである場合(S506のNO)、最大数判定ステップ(S338)に移る。
 以下、最大数判定ステップ(S338)からモード遷移ステップ(S342)までは、第1の実施形態において説明した映像処理方法と実質的に等しいため、同一の符号を付して説明を省略する。
 上述したように、映像処理装置400を用いた映像処理方法によれば、幅広い顔の向きの特徴量を記憶しておくことができ、認証モードにおいて、認証の精度を向上することが可能となる。
 以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明はかかる実施形態に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
 なお、本明細書の映像処理方法における各工程は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいはサブルーチンによる処理を含んでもよい。
 本発明は、被写体を特定すべく顔画像の特徴量を記憶する映像処理装置および映像処理方法に利用することができる。

Claims (8)

  1.  映像を取得する映像取得部と、
     前記映像から1の顔画像を特定する位置特定部と、
     特定された前記顔画像と、記憶部に記憶された、1または複数の特徴量をまとめた顔情報とを関連付ける顔関連付部と、
     前記特定された顔画像の特徴量を導出する特徴量導出部と、
     導出された前記特徴量と、前記特定された顔画像に関連付けられた前記顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合に、導出された前記特徴量を前記顔情報に追加して前記記憶部に記憶させる記憶制御部と、
    を備えることを特徴とする映像処理装置。
  2.  前記所定条件は、前記導出された特徴量と、前記特定された顔画像に関連付けられた顔情報の1または複数の特徴量全てとの類似度が所定値未満であることを特徴とする請求項1に記載の映像処理装置。
  3.  記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数を示す画像を表示部に表示させる表示制御部を備えることを特徴とする請求項1または2に記載の映像処理装置。
  4.  映像を取得する映像取得部と、
     前記映像から1の顔画像を特定する位置特定部と、
     特定された前記顔画像と、記憶部に記憶された、1または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付ける顔関連付部と、
     前記特定された顔画像の顔の向きを導出する顔向き導出部と、
     前記特定された顔画像の特徴量を導出する特徴量導出部と、
     導出された前記顔の向きと、前記特定された顔画像に関連付けられた前記顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、導出された前記特徴量と前記導出された顔の向きとを前記顔情報に追加して前記記憶部に記憶させる記憶制御部と、
    を備えることを特徴とする映像処理装置。
  5.  前記所定条件は、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲のうち、前記特定された顔画像に関連付けられた顔情報の顔の向きが含まれる1または複数の範囲のいずれにも前記導出された顔の向きが含まれないことを特徴とする請求項4に記載の映像処理装置。
  6.  記憶可能な前記特徴量の上限数に対する実際に記憶されている前記特徴量の数、もしくは、ピッチ角とヨー角とに基づいて分けられる顔の向きに関する所定数の範囲に対する実際に記憶されている前記顔の向きが含まれる範囲、のいずれか一方または両方を示す画像を表示部に表示させる表示制御部を備えることを特徴とする請求項4または5に記載の映像処理装置。
  7.  映像を取得し、前記映像から1の顔画像を特定し、
     特定された前記顔画像と、1または複数の特徴量をまとめた顔情報とを関連付け、
     前記特定された顔画像の特徴量を導出し、
     導出した前記特徴量と、前記特定された顔画像に関連付けられた前記顔情報の1または複数の特徴量とを比較し、所定条件を満たす場合に、導出した前記特徴量を前記顔情報に追加して記憶することを特徴とする映像処理方法。
  8.  映像を取得し、前記映像から1の顔画像を特定し、
     特定した前記顔画像と、1または複数の特徴量とその顔の向きとをまとめた顔情報とを関連付け、
     前記特定した顔画像の顔の向きを導出し、
     導出した前記顔の向きと、前記特定した顔画像に関連付けられた前記顔情報の1または複数の顔の向きとを比較し、所定条件を満たす場合に、前記特定した顔画像の特徴量と前記導出した顔の向きとを前記顔情報に追加して記憶することを特徴とする映像処理方法。
PCT/JP2010/065196 2009-11-13 2010-09-06 映像処理装置および映像処理方法 WO2011058807A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/119,373 US20110199505A1 (en) 2009-11-13 2010-09-06 Image processing apparatus and image processing method
CN201080002809.8A CN102172014A (zh) 2009-11-13 2010-09-06 影像处理装置及影像处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-260364 2009-11-13
JP2009260364A JP4844670B2 (ja) 2009-11-13 2009-11-13 映像処理装置および映像処理方法

Publications (1)

Publication Number Publication Date
WO2011058807A1 true WO2011058807A1 (ja) 2011-05-19

Family

ID=43991469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/065196 WO2011058807A1 (ja) 2009-11-13 2010-09-06 映像処理装置および映像処理方法

Country Status (4)

Country Link
US (1) US20110199505A1 (ja)
JP (1) JP4844670B2 (ja)
CN (1) CN102172014A (ja)
WO (1) WO2011058807A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877764B (zh) * 2009-04-29 2012-05-30 鸿富锦精密工业(深圳)有限公司 拍摄系统及使用该拍摄系统进行辅助构图的方法
JP5918996B2 (ja) * 2011-12-27 2016-05-18 キヤノン株式会社 被写体認識装置および辞書データ登録方法
RU2543950C2 (ru) * 2011-12-28 2015-03-10 Кэнон Кабусики Кайся Устройство формирования изображения и способ управления указанным устройством
JP5899472B2 (ja) * 2012-05-23 2016-04-06 パナソニックIpマネジメント株式会社 人物属性推定システム、及び学習用データ生成装置
JP5966657B2 (ja) * 2012-06-22 2016-08-10 カシオ計算機株式会社 画像生成装置、画像生成方法及びプログラム
US8855369B2 (en) * 2012-06-22 2014-10-07 Microsoft Corporation Self learning face recognition using depth based tracking for database generation and update
JP6132490B2 (ja) * 2012-08-20 2017-05-24 キヤノン株式会社 認証装置、認証方法、およびプログラム
KR20150018264A (ko) 2013-08-09 2015-02-23 엘지전자 주식회사 안경형 단말기의 정보 제공 장치 및 그 방법
CN105282375B (zh) * 2014-07-24 2019-12-31 钰立微电子股份有限公司 附着式立体扫描模块
US9384385B2 (en) * 2014-11-06 2016-07-05 Intel Corporation Face recognition using gradient based feature analysis
JP6873639B2 (ja) * 2016-09-23 2021-05-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
CN110050276B (zh) * 2016-11-30 2023-09-29 皇家飞利浦有限公司 患者识别系统和方法
JP6691309B2 (ja) * 2017-10-31 2020-04-28 キヤノンマーケティングジャパン株式会社 情報処理装置、及びその制御方法、プログラム
JP7389997B2 (ja) * 2019-11-07 2023-12-01 シーテックドライブ株式会社 カメラを用いたマーケティングシステム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337926A (ja) * 2002-05-21 2003-11-28 Nippon Signal Co Ltd:The アクセスコントロールシステム
JP2007094637A (ja) * 2005-09-28 2007-04-12 Denso Corp 顔画像認証装置
JP2007140823A (ja) * 2005-11-17 2007-06-07 Omron Corp 顔照合装置、顔照合方法及びプログラム
JP2009252118A (ja) * 2008-04-09 2009-10-29 Sony Corp 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4314016B2 (ja) * 2002-11-01 2009-08-12 株式会社東芝 人物認識装置および通行制御装置
JP4725377B2 (ja) * 2006-03-15 2011-07-13 オムロン株式会社 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP4862447B2 (ja) * 2006-03-23 2012-01-25 沖電気工業株式会社 顔認識システム
JP5010905B2 (ja) * 2006-12-13 2012-08-29 パナソニック株式会社 顔認証装置
CN101408929A (zh) * 2007-10-10 2009-04-15 三星电子株式会社 一种用于人脸识别系统的多模板人脸注册方法和装置
JP4577410B2 (ja) * 2008-06-18 2010-11-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP4720880B2 (ja) * 2008-09-04 2011-07-13 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337926A (ja) * 2002-05-21 2003-11-28 Nippon Signal Co Ltd:The アクセスコントロールシステム
JP2007094637A (ja) * 2005-09-28 2007-04-12 Denso Corp 顔画像認証装置
JP2007140823A (ja) * 2005-11-17 2007-06-07 Omron Corp 顔照合装置、顔照合方法及びプログラム
JP2009252118A (ja) * 2008-04-09 2009-10-29 Sony Corp 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム

Also Published As

Publication number Publication date
CN102172014A (zh) 2011-08-31
JP2011109275A (ja) 2011-06-02
US20110199505A1 (en) 2011-08-18
JP4844670B2 (ja) 2011-12-28

Similar Documents

Publication Publication Date Title
WO2011058807A1 (ja) 映像処理装置および映像処理方法
JP5567853B2 (ja) 画像認識装置および方法
JP4274233B2 (ja) 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP4755490B2 (ja) ブレ補正方法および撮像装置
US9761013B2 (en) Information notification apparatus that notifies information of motion of a subject
JP6106921B2 (ja) 撮像装置、撮像方法および撮像プログラム
JP4569670B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4110178B2 (ja) 撮像装置及びその制御方法及びプログラム及び記憶媒体
US8218833B2 (en) Image capturing apparatus, method of determining presence or absence of image area, and recording medium
JP4732303B2 (ja) 撮像装置
US8400532B2 (en) Digital image capturing device providing photographing composition and method thereof
KR101661211B1 (ko) 얼굴 인식률 개선 장치 및 방법
JP2021071794A (ja) 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
JP5594157B2 (ja) 撮像装置および撮像方法
JP2008035125A (ja) 撮像装置、画像処理方法およびプログラム
US12002279B2 (en) Image processing apparatus and method, and image capturing apparatus
JP5799931B2 (ja) 撮像装置、色候補出力方法及びプログラム
JP5374612B2 (ja) 画像データの識別方法及び撮像装置、プログラム、及び記憶媒体
JP2017174094A (ja) 画像処理装置、画像処理方法及びプログラム
JP2011077753A (ja) カメラの顔検出方法及び装置
JP2010268054A (ja) 画像処理装置、その制御方法及びプログラム
JP2013142930A (ja) 画像処理装置、その制御方法、及びプログラム
JP2013157675A (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
JP5740934B2 (ja) 被写体検出装置、被写体検出方法及びプログラム
JP2010004357A (ja) 撮像装置及び撮像方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080002809.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 13119373

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10829767

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10829767

Country of ref document: EP

Kind code of ref document: A1