WO2018180666A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2018180666A1
WO2018180666A1 PCT/JP2018/010703 JP2018010703W WO2018180666A1 WO 2018180666 A1 WO2018180666 A1 WO 2018180666A1 JP 2018010703 W JP2018010703 W JP 2018010703W WO 2018180666 A1 WO2018180666 A1 WO 2018180666A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
feature amount
control unit
additional registration
feature
Prior art date
Application number
PCT/JP2018/010703
Other languages
English (en)
French (fr)
Inventor
達人 佐藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2019509328A priority Critical patent/JP7070549B2/ja
Priority to US16/489,552 priority patent/US11468592B2/en
Publication of WO2018180666A1 publication Critical patent/WO2018180666A1/ja
Priority to JP2022076465A priority patent/JP7400866B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • This technology relates to a technology for identifying a user based on the feature amount of the user acquired from an image or the like.
  • the feature amount of the user at the time of identification is registered even for the same person. It may be different from the feature amount of the already-used user. In this case, there is a problem that the user cannot be accurately identified even though they are the same person, and the identification accuracy is lowered.
  • Patent Document 2 is disclosed as a technique related to such a problem.
  • a user who has already completed new registration copes with a change in the brightness of the user's face by requesting additional registration of his / her face at an opportunity different from the new registration.
  • the degree of coincidence S between the registered face identification data and the feature amount data at the time of additional registration is determined, and the degree of coincidence S is within a predetermined range (s1 ⁇ S ⁇ s1 ′), the feature data at the time of the additional registration request is additionally registered as face identification data corresponding to the user.
  • an object of the present technology is to provide a technology capable of improving the identification accuracy of a user.
  • the information processing apparatus includes a control unit.
  • the control unit cannot identify the acquired feature amount of the user when the user cannot be identified by identification in the feature amount space based on the registered feature amount and the acquired user feature amount. Is stored in the storage unit as a unique feature amount, and a feature amount for additional registration is set based on the distribution of the unidentifiable feature amount in the feature amount space, and a user corresponding to the feature amount for the additional registration is specified. Then, the additional registration feature quantity is additionally registered as the specified user feature quantity.
  • feature quantities for additional registration are set based on the distribution of feature quantities that cannot be identified. As described above, by setting the feature quantity for additional registration based on the distribution, it is possible to set the feature quantity for additional registration appropriate for improving the identification accuracy of the user. As a result, user identification accuracy can be improved.
  • control unit identifies a region where the unidentifiable feature amounts are gathered in the feature amount space based on the distribution, and sets the additional registration feature amount in the region. It may be set.
  • control unit may specify a user corresponding to the additional registration feature amount by performing an interaction with the user.
  • the user can additionally register the feature quantity for additional registration as the feature quantity of the user by performing a simple interaction.
  • control unit may determine the density of the indistinguishable feature amount in the feature amount space and specify the region according to the density.
  • control unit determines, as the density, the number of other indistinguishable feature quantities existing within a first distance with respect to a certain particular indistinguishable feature quantity. May be.
  • control unit when the density is equal to or higher than a predetermined threshold, specifies the range within the first distance from the certain indistinguishable feature amount as the region. Also good.
  • control unit may set the certain indistinguishable feature amount as the additional registration feature amount.
  • control unit may determine whether to start the interaction based on a distance between the additional registration feature quantity and the acquired user feature quantity. .
  • the control unit starts the interaction. Also good.
  • control unit identifies a region where the unidentifiable feature amounts are gathered in the feature amount space based on the distribution, and sets the additional registration feature amount in the region. It may be set.
  • the region may have a distance from the additional registration feature amount within a first distance, and the second distance may be equal to or less than the first distance.
  • control unit may output a voice of a conversation with the user from the sound output unit and perform an interaction with the user.
  • control unit may output a voice of a question to the user from the sound output unit and perform interaction with the user.
  • control unit may be capable of changing a question format in the voice of the question.
  • control unit may change the question format according to a distance between the additional registration feature quantity and the registered feature quantity.
  • the control unit determines whether a distance between the additional registration feature quantity and the registered feature quantity is a third distance or less, and the distance is a third distance.
  • the sound output unit may output a sound in a first question format that asks the user whether or not the user corresponds to the registered feature amount.
  • the control unit when the distance exceeds the third distance, causes the sound output unit to output a voice in a second question format that asks the user to answer his / her name. May be.
  • control unit determines whether the name answered by the user is a user corresponding to the registered feature value, and the name answered by the user corresponds to the registered feature value. If the user is not a user, the additional registration feature quantity may be registered as a new user feature quantity.
  • control unit acquires information on a user's voice that is responded to the voice of the conversation output from the sound output unit, and recognizes a speaker based on the information on the user's voice. To identify the user.
  • the acquired user feature A quantity is stored in the storage unit as an indistinguishable feature quantity, a feature quantity for additional registration is set based on the distribution of the indistinguishable feature quantity in the feature quantity space, and the feature quantity for the additional registration is supported And the additional registration feature quantity is additionally registered as the specified user feature quantity.
  • the program according to the present technology fails to identify the user by the identification in the feature amount space based on the registered feature amount and the acquired user feature amount, the acquired feature amount of the user is determined.
  • Storing in the storage unit as an indistinguishable feature amount, setting a feature amount for additional registration based on the distribution of the indistinguishable feature amount in the feature amount space, and the additional registration feature amount And a step of additionally registering the additional registration feature quantity as the identified user feature quantity.
  • FIG. 3 It is a block diagram which shows the home agent apparatus which concerns on 1st Embodiment. It is a flowchart which shows a process when memorize
  • FIG. 4 It is a figure which shows a mode when the indistinguishable face feature-value shown by FIG. 3, FIG. 4 is processed by the process shown in FIG. It is a figure which shows a mode when the indistinguishable face feature-value shown by FIG. 3, FIG. 4 is processed by the process shown in FIG. It is a flowchart which shows the process at the time of additionally registering the face feature-value for additional registration. It is a figure which shows an example in case the similarity distance between the face feature-value for additional registration and the facial feature-value acquired at that time is below 2nd distance in feature-value space.
  • FIG. 1 is a block diagram showing a home agent device 10 according to the first embodiment.
  • the home agent device 10 (information processing device) includes a control unit 1, a storage unit 2, an imaging unit 3, a projection unit 4, a speaker (sound output unit) 5, and a microphone 6.
  • the communication unit 7 is provided.
  • the control unit 1 is composed of a CPU (Central Processing Unit) and the like.
  • the control unit 1 executes various calculations based on various programs stored in the storage unit 2 and controls each unit of the home agent device 10 in an integrated manner. The processing of the control unit 1 will be described later in detail in the operation description column.
  • CPU Central Processing Unit
  • the storage unit 2 includes various programs necessary for the processing of the control unit 1 and a non-volatile memory for storing various data, and a volatile memory used as a work area for the control unit 1.
  • the various programs stored in the storage unit 2 may be read from a portable recording medium such as an optical disk or a semiconductor memory, or may be downloaded from a server device on a network.
  • the imaging unit 3 includes an image sensor such as a CCD sensor (CCD: Charged Coupled Device) or a CMOS sensor (CMOS: Complementary Metal Metal Oxide Semiconductor) and an optical system such as an imaging lens.
  • the imaging unit 3 outputs an image acquired by imaging to the control unit 1.
  • the projection unit 4 includes various optical systems such as a light source, a prism, a mirror, a condenser lens, a projection lens, and a DLP (Digital Light Processing).
  • the projection unit 4 generates an image according to the image signal generated by the control unit 1 and projects the image onto a screen, a wall, or the like.
  • Speaker 5 outputs a sound corresponding to the audio signal generated by the control unit 1.
  • the microphone 6 collects the voice uttered by the user, converts the collected voice into an electrical signal, and outputs the electrical signal to the control unit 131.
  • the communication unit 7 is configured to be able to communicate with a server device on the network, a terminal device owned by the user, and the like.
  • the first type is face identification processing
  • the second type is processing for realizing various functions through interaction with the user.
  • This face identification process is performed to identify whether the user has access authority to the home agent apparatus 10 or to identify which user is the user when there are a plurality of users having access authority. Let it run.
  • the control unit 1 For the face identification process, the user first needs to cause his / her face to be captured by the imaging unit 3 and register his / her face feature quantity in the home agent device 10 in advance. At this time, the control unit 1 performs face detection based on the image picked up by the image pickup unit 3 and specifies the image of the face part. Then, the control unit 1 detects a face feature position (for example, eyes, nose, mouth, etc.) from the image of the specified face part.
  • a face feature position for example, eyes, nose, mouth, etc.
  • control unit 1 extracts a face feature value (for example, a 256-dimensional face feature value vector) from the image near the face feature position, and associates the extracted face feature value with the user ID in the storage unit 2.
  • a face feature value for example, a 256-dimensional face feature value vector
  • the face feature amount of the user is stored in the storage unit 2 as the registered face feature amount.
  • control unit 1 extracts a facial feature amount from the image captured by the imaging unit 3 in the same manner as during face registration. Then, the control unit 1 calculates a similarity distance between the registered facial feature quantity and the facial feature quantity acquired at that time by extraction in the feature quantity space.
  • the control unit 1 determines that the person shown in the image is a user having access authority. On the other hand, if the similarity distance exceeds the threshold, it is determined that the person shown in the image is a person who does not have access authority. Further, when the control unit 1 determines that the person shown in the image is a user having access authority, the control unit 1 reads out the user ID associated with the registered face feature amount from the storage unit 2 and Identify users in
  • control unit 1 identifies whether the person shown in the image at that time is a user who has access authority to the home agent device 10 or who the user is. .
  • the face identification process is performed at a predetermined cycle (several seconds), and the control unit 1 determines whether a user having access authority is shown in the image and who is the user. It is recognized with a period of about (several seconds).
  • the control unit 1 when it is determined by the face identification process that a user having access authority is included in the image, the control unit 1 outputs various sounds from the speaker 5 according to predetermined conditions. For example, when there is a new mail for the user, the control unit 1 causes the speaker 5 to output a sound “New mail exists”. Further, for example, when the user appears in the image for the first time in the morning of that day, the control unit 1 causes the speaker 5 to output a voice saying “Do you want to describe today's schedule?”
  • the control unit 1 controls the projection unit 4 based on the user's voice information acquired from the microphone 6 to project a new mail on the screen or the like.
  • the control unit 1 converts the character information of the user's schedule into voice information based on the user's voice information acquired from the microphone 6 and outputs the voice information from the speaker 5.
  • the home agent device 10 has various functions that make the life of the user convenient.
  • facial feature value additional registration process Next, the facial feature quantity additional registration process will be described.
  • the face of the user at the time of face identification changes with respect to the face of the user at the time of face registration, the user may not be accurately determined even if they are the same person.
  • the case where the user's face at the time of face identification changes with respect to the user's face at the time of face registration may be as follows.
  • the user's face at the time of face identification becomes brighter or darker than the user's face at the time of face registration due to lighting / non-lighting of the lighting, opening / closing of the curtain, and the like.
  • the face of the user at the time of face identification changes with respect to the face of the user at the time of face registration due to the removal of glasses and hats, the length of hair, the hairstyle, the presence or absence of wrinkles, the presence or absence of sunburn, and the like.
  • the direction of the user's face and facial expression (for example, laughing or sticking out tongue) at the time of face identification are different from the direction of the user's face and facial expression during registration.
  • the facial feature amount additional registration processing Execute.
  • the facial feature quantity additional registration processing is broadly classified into (1) “processing for storing unidentifiable facial feature quantities”, (2) “processing for setting facial feature quantities for additional registration”, and (3) “additional processing”.
  • the processing is classified into three types of processing “additional registration of facial feature quantity for registration”.
  • FIG. 2 is a flowchart showing a process for storing indistinguishable face feature amounts.
  • control unit 1 performs face detection based on the image picked up by the image pickup unit 3 and specifies the image of the face part (step 101).
  • control unit 1 selects an image of a face portion corresponding to any one of the detected faces (step 102).
  • control unit 1 detects a face feature position (for example, eyes, nose, mouth, etc.) from the image of the selected face part (step 103).
  • control unit 1 extracts a face feature amount (for example, a 256-dimensional face feature amount vector) from the image near the face feature position (step 104).
  • a face feature position for example, eyes, nose, mouth, etc.
  • a face feature amount for example, a 256-dimensional face feature amount vector
  • control unit 1 selects one face feature amount from the registered face feature amounts (step 105). Then, the control unit 1 calculates a similarity distance between the registered facial feature quantity and the facial feature quantity acquired at that time in the feature quantity space (step 106).
  • control unit 1 determines whether or not the similarity distance is equal to or less than a predetermined threshold (step 107). When the similarity distance exceeds a predetermined threshold (NO in step 107), that is, when it is determined that the person corresponding to the facial feature amount is not the user corresponding to the registered facial feature amount, the control unit 1 The process proceeds to the next step 108.
  • step 108 the control unit 1 determines whether all registered face feature values have already been selected. When there is a registered face feature value that has not been selected (NO in step 108), the control unit 1 returns to step 105, and a registered face feature value that is different from the registered face feature value selected earlier. A face feature amount is selected, and the processing from step 106 onward is executed again.
  • the control unit 1 when all the registered facial feature quantities have been selected (YES in step 108), that is, when the person corresponding to the facial feature quantity cannot be identified, the control unit 1
  • the face feature quantity is stored as an indistinguishable face feature quantity in an indistinguishable feature quantity DB (Data Base) (step 109).
  • the control unit 1 stores the indistinguishable face feature amount in the unidentifiable feature amount DB in association with date information, time information, and the like.
  • the indistinguishable feature amount DB is a DB that the storage unit 2 has.
  • control unit 1 When the control unit 1 stores the indistinguishable face feature amount in the indistinguishable feature amount DB, the control unit 1 proceeds to the next step 110. Similarly, in step 107, the control unit 1 can identify who is the person corresponding to the facial feature amount when the similarity distance is equal to or smaller than the predetermined threshold (YES in step 107). If the control unit 1 fails, the control unit 1 skips steps 108 and 109 and proceeds to the next step 110.
  • step 110 the control unit 1 determines whether all the faces detected by the face detection have already been selected. When the face which has not been selected remains (NO in Step 110), the control unit 1 returns to Step 102 and executes the processes after Step 102 again.
  • control unit 1 ends the process.
  • unidentifiable facial feature amounts are sequentially accumulated in the unidentifiable feature amount DB.
  • the control unit 1 cannot identify the unidentifiable facial feature quantity. You may delete from quantity DB. In addition to this, or instead of this, the control unit 1 determines that the number of indistinguishable face feature quantities recorded in the indistinguishable DB exceeds a predetermined number (for example, about several thousand to several hundred thousand). In this case, the old indistinguishable face feature quantity may be deleted from the indistinguishable feature quantity DB and replaced with a new indistinguishable face feature quantity.
  • a predetermined number for example, about several thousand to several hundred thousand
  • face feature amounts that could not be identified by the face identification processing executed in the basic processing described above may be stored in the unidentifiable feature amount DB.
  • the process may be executed as a process different from the face identification process.
  • FIG. 3 is a diagram showing a state in which distributions in a feature amount space of registered face feature amounts, identifiable face feature amounts, and unidentifiable face feature amounts are plotted on a plane.
  • the distinguishable face feature value is a face feature value identified by any user
  • the unidentifiable face feature value is a face feature value that has not been identified by any user as described above.
  • FIG. 3 also shows the user's face (registered face) at the time of registration, which is the source of the registered facial feature quantity.
  • the father, mother, The registered faces of the eldest son, the second son, and the third son are shown.
  • large ⁇ marks indicate registered face feature amounts
  • small ⁇ marks indicate identifiable face feature amounts.
  • ⁇ marks indicate face feature amounts that cannot be identified.
  • registered face feature amounts (large circles) and identifiable face feature amounts (small circles) are displayed with grayscale intensities for each corresponding user. .
  • the distribution shown in FIG. 3 is a distribution of facial feature amounts obtained in the same environment where the home agent device 10 is installed in a living room or a dining room of a house where family members frequently come and go. Has been.
  • the indistinguishable face feature amounts indicated by ⁇ in FIG. 3 are sequentially accumulated in the indistinguishable feature amount DB.
  • FIG. 4 is a diagram for explaining the distribution of face feature amounts that cannot be identified. Note that the large circles, small circles, and triangles in FIG. 4 are the same as in FIG. In FIG. 4, a broken line ⁇ indicates a region where face feature amounts that cannot be identified are gathered.
  • face feature amounts corresponding to the face of the father who is dark due to lighting not being turned on are gathered together in the upper left area as face feature amounts that cannot be identified.
  • face feature amounts corresponding to a father's face that is bright due to the curtain being opened or the like are gathered together in the lower left area as face feature amounts that cannot be identified.
  • the facial feature amounts corresponding to the face of the third son when the facial expression changes are gathered together in the lower right area as face feature amounts that cannot be identified.
  • an indistinguishable face feature amount (see ⁇ mark) based on a face image captured in the same environment is placed in a certain region (see a broken line ⁇ ) in the feature amount space. It is solid and easy to gather. Accordingly, when the indistinguishable face feature amount is accumulated in the indistinguishable feature amount DB, the distribution pattern of the indistinguishable face feature amount corresponding to the change in the illumination environment, the change in facial expression, or the like is displayed in the feature amount space. Will appear.
  • the home agent device 10 is typically fixedly installed in a place where the user stays at a certain frequency, for example, a living room or a dining room.
  • the facial feature amount for additional registration is a facial feature amount that is later additionally registered as a facial feature amount of a specific user in the “processing for additionally registering additional facial feature amount for registration”.
  • FIG. 5 is a flowchart showing a process when setting a facial feature amount for additional registration.
  • control unit 1 selects one indistinguishable face feature quantity from the indistinguishable face feature quantities stored in the indistinguishable feature quantity DB (step 201).
  • control unit 1 calculates similar distances between the selected indistinguishable face feature quantity and all the indistinguishable face feature quantities other than the selected face feature quantity in the feature quantity space. (Step 202).
  • control unit 1 counts the number of indistinguishable face feature amounts whose similarity distance is equal to or less than the first distance D1 (step 203). That is, the control unit 1 determines the number (density) of other indistinguishable face feature amounts existing in a range equal to or less than the first distance D1 with respect to a certain selected indistinguishable face feature amount. .
  • control unit 1 determines whether all indistinguishable face features have already been selected (step 204). If unselected unidentifiable facial feature quantities remain (NO in step 204), the control unit 1 returns to step 201 and cannot be identified from unselected unidentifiable facial feature quantities. One face feature is selected.
  • control unit 1 selects the indistinguishable face feature amount having the largest count (highest density) ( Step 205).
  • control unit 1 determines whether or not the count number (density) is equal to or greater than a predetermined threshold (step 206).
  • the control unit 1 sets the selected coordinates of the face feature quantity that cannot be identified as the coordinates of the face feature quantity for additional registration. Then, it is stored in the storage unit 2 (step 207).
  • control unit 1 uses the indistinguishable face feature amount (including the selected indistinguishable face feature amount) whose similarity distance from the selected indistinguishable face feature amount is equal to or less than the first distance D1.
  • the feature amount DB is removed from the indistinguishable feature amount DB (step 208). Thereafter, the process returns to step 201, and the processing after step 201 is executed again.
  • step 206 when the count number (density) is less than the predetermined threshold, the control unit 1 ends the process.
  • the control unit 1 specifies a region in which unidentifiable facial feature quantities are gathered based on the distribution of unidentifiable facial feature quantities in the feature quantity space.
  • the control unit 1 specifies the region according to the density, and when the density is equal to or higher than a predetermined threshold, a range that is equal to or less than the first distance D1 from a certain indistinguishable face feature amount. , It is specified as the region.
  • the region is a region in the feature amount space whose distance from the center (face feature amount for additional registration) is within the first distance D1. Further, in step 207, the control unit 1 sets an unidentifiable face feature amount located at the center of this region as a face feature amount for additional registration.
  • FIGS. 6 to 8 are diagrams showing a state when the unidentifiable facial feature amount shown in FIGS. 3 and 4 is processed by the process shown in FIG.
  • the indistinguishable face feature value and all other indistinguishable face features are calculated.
  • the similarity distance with the feature amount is calculated, and the number of unidentifiable facial feature amounts whose similarity distance is equal to or less than the first distance D1 is counted (steps 201 to 204).
  • the indistinguishable face feature amount having the largest count number (density) is selected (step 205). At this time, it is assumed that one indistinguishable face feature amount is selected as the indistinguishable face feature amount having the largest count among the plurality of indistinguishable face feature amounts corresponding to the dark father's face. . It is assumed that the count number (density) is equal to or greater than a predetermined threshold (YES in step 206).
  • the face feature value existing in the area that is, the indistinguishable face feature value corresponding to the dark father's face is deleted from the indistinguishable feature value DB. (Step 208). And the process after step 201 is performed again.
  • the indistinguishable face feature quantity corresponding to the dark father's face has already been deleted. Accordingly, for all remaining unidentifiable face feature values (see gray triangles), the similarity distance between each unidentifiable face feature value and all other unidentifiable face feature values is calculated. The number of indistinguishable face feature quantities whose similarity distance is equal to or less than the first distance D1 is counted (steps 201 to 204).
  • the indistinguishable face feature amount having the largest count number (density) is selected (step 205).
  • one of the indistinguishable face feature amounts corresponding to the face of the third son when the expression change is large is selected as the indistinguishable face feature amount having the largest count.
  • the count number (density) is equal to or greater than a predetermined threshold (YES in step 206).
  • the face feature value existing in the region that is, the indistinguishable face feature value corresponding to the face of the third son when the expression change is large is obtained from the indistinguishable feature value DB. It is deleted (step 208). And the process after step 201 is performed again.
  • the indistinguishable face feature amount corresponding to the dark father's face and the indistinguishable face feature amount corresponding to the third son's face when the expression change is large are Has already been deleted. Accordingly, for all remaining unidentifiable face feature values (see gray triangles), the similarity distance between each unidentifiable face feature value and all other unidentifiable face feature values is calculated. The number of indistinguishable face feature quantities whose similarity distance is equal to or less than the first distance D1 is counted (steps 201 to 204).
  • the indistinguishable face feature amount having the largest count number (density) is selected (step 205). At this time, it is assumed that one indistinguishable face feature amount is selected as the indistinguishable face feature amount having the largest count among the plurality of indistinguishable face feature amounts corresponding to the bright father's face. . It is assumed that the count number (density) is equal to or greater than a predetermined threshold (YES in step 206).
  • the face feature value existing in the region that is, the unidentifiable face feature value corresponding to the bright father's face is deleted from the unidentifiable feature value DB. (Step 208).
  • step 201 when the processing after step 201 is executed again and the count number is less than the predetermined threshold value (NO in step 206), that is, the area where the density of unidentifiable facial feature values is equal to or higher than the predetermined threshold value. If no longer exists, the process is terminated.
  • the predetermined threshold value NO in step 206
  • the imaging unit 3 captures the face of a contractor, such as electrical work or waterworks, the face of a friend who has come to play, or the face reflected on the television, or an erroneous face detection has been performed.
  • face feature amounts corresponding to these faces may be stored in the unidentifiable feature amount DB as unidentifiable face feature amounts.
  • the face feature for additional registration corresponding to such indistinguishable face feature amount. A quantity will not be generated.
  • the flowchart shown in FIG. 5 is used as an example of a method for identifying a region in which unidentifiable facial feature amounts are gathered in the feature amount space and setting a facial feature amount for additional registration in this region. I gave it as an explanation.
  • the above method is not limited to the example shown in FIG. Typically, any method can be used as long as it is possible to identify an area where unidentifiable facial feature quantities are gathered and set a facial feature quantity for additional registration in this area. Various methods may be used.
  • a general clustering technique may be used to specify a region where face feature quantities that cannot be identified are gathered, and a face feature quantity for additional registration may be set at the center of the cluster.
  • processing as shown in FIG. 5 may be executed when the processing load is in an idle state in which other processing is not executed because it is predicted that the processing load is large.
  • the processing here first, in order to identify the user corresponding to the facial feature amount for additional registration, it is determined whether or not to start an interaction with the user. When it is determined that the interaction is started, an interaction is performed with the user via the speaker 5 and the microphone 6, and the user corresponding to the facial feature amount for additional registration is specified. Then, the facial feature amount for additional registration is additionally registered as the identified facial feature amount of the user.
  • FIG. 9 is a flowchart showing a process when additionally registering a facial feature amount for additional registration.
  • control unit 1 selects one face feature value for additional registration from the face feature values for additional registration stored in the storage unit 2 (step 301). At this time, for example, the control unit 1 selects one additional facial feature quantity for additional registration from the facial feature quantities for additional registration shown in FIGS. 6 to 8 (see black triangles).
  • control unit 1 calculates a similarity distance between the selected facial feature quantity for additional registration and the facial feature quantity acquired at that time (step 302).
  • control unit 1 determines whether or not the similarity distance is equal to or less than the second distance D2 (step 303). When the similarity distance exceeds the second distance D2 (NO in step 303), the control unit 1 determines whether all the facial features for additional registration have already been selected (step 304).
  • control unit 1 When the face feature value for additional registration that has not been selected remains (NO in step 304), the control unit 1 returns to step 301 and selects one face feature value for additional registration that has not yet been selected. To do.
  • the control unit 1 ends the process. That is, when the facial feature value acquired at that time exceeds the second distance D2 with respect to any facial feature value for additional registration (not similar), the facial feature value for additional registration is used. The process ends without executing the process of additionally registering (without starting the interaction).
  • step 303 when the similarity distance is equal to or smaller than the second distance D2 (YES in step 303), that is, the facial feature amount acquired at that time is a certain additional registration facial feature amount. If it is within the range of the second distance D2 or less (similar), the control unit 1 proceeds to the next step 305. In step 305 and subsequent steps, processing for performing interaction with the user is executed.
  • the control unit 1 determines whether or not to start an interaction with the user in order to identify the user corresponding to the facial feature amount for additional registration. At this time, the control unit 1 determines whether or not to start the interaction based on the similar distance between the selected face feature value for additional registration and the face feature value acquired at that time. Moreover, the control part 1 has started interaction, when the said similar distance is below the 2nd distance D2 (YES of step 303).
  • FIG. 10 is a diagram illustrating an example in the case where the similarity distance between the face feature amount for additional registration and the face feature amount acquired at that time is equal to or less than the second distance D2 in the feature amount space. .
  • a black ⁇ mark indicates a face feature value for additional registration corresponding to the face of the father who is dark
  • a white ⁇ mark indicates the face feature value acquired at that time.
  • a broken line ⁇ indicates a range that is equal to or less than the first distance D1 from the additional registration facial feature quantity (an area in which it is determined that unidentifiable facial feature quantities are gathered).
  • a dot-and-dash line O indicates a range (a range serving as a reference for determining whether or not to start an interaction) that is less than or equal to the second distance D2 from the facial feature value for additional registration.
  • the father's face is now dark, and the facial feature amount (white ⁇ mark) acquired at that time is for additional registration corresponding to the dark father's face.
  • the facial feature amount black ⁇ mark
  • an interaction with the user is started.
  • FIG. 10 also shows the relationship between the first distance D1 and the second distance D2.
  • the second distance D2 is set to be a distance equal to or smaller than the first distance D1. That is, in the present embodiment, when the acquired facial feature amount (white ⁇ mark) is sufficiently close to the additional registration facial feature amount (black ⁇ mark), the interaction with the user is performed. Be started.
  • step 303 when the similarity distance is equal to or smaller than the second distance D ⁇ b> 2 in step 303 (YES in step 303), the control unit 1 is registered from the registered face feature amount stored in the storage unit 2. One face feature amount is selected (step 305). Next, the control unit 1 calculates a similarity distance between the registered facial feature quantity and the facial feature for additional registration (step 306).
  • control unit 1 determines whether or not the similarity distance is equal to or less than the third distance D3 (step 307).
  • the control unit 1 outputs the voice of the question (an example of conversation) in the first question format from the speaker 5.
  • interaction with the user is performed (step 308).
  • the first question format is a question format that asks the user whether or not the user corresponds to the registered facial feature quantity. For example, when the similarity distance between the facial feature amount registered by the father and the facial feature amount for additional registration is equal to or smaller than the third distance D3, for example, the control unit 1 sends “ ⁇ (Father's name)? " Further, for example, when the similarity distance between the registered facial feature quantity of the third son and the facial feature quantity for additional registration is equal to or smaller than the third distance D3, for example, the control unit 1 reads “. No name)? "
  • control unit 1 acquires information about the voice uttered by the user from the microphone 6 and determines whether the user has answered positively such as “Yes” or “Yes” to the voice of the question. Determination is made (step 309).
  • the control unit 1 determines that the registered face feature value (the similarity distance from the face feature value for additional registration is the third distance D3).
  • the registered user ID corresponding to the registered facial feature amount is read from the storage unit 2 (step 310).
  • control unit 1 stores the facial feature amount for additional registration in the storage unit 2 in association with the user ID (step 311).
  • the face feature value for additional registration associated with the user ID is used as the registered face feature value in the face identification process described in the above-mentioned “Basic process” section.
  • step 307 If the similarity distance between the registered facial feature quantity and the facial feature for additional registration exceeds the third distance D3 in step 307 (NO in step 307), the control unit 1 proceeds to the next step 312. Similarly, in step 309, when the user makes a negative response such as “No” or “No” to the voice of the question (NO in step 309), the control unit 1 proceeds to the next step 312. .
  • step 312 the control unit 1 determines whether all registered facial feature values have already been selected. When there is a registered face feature value that has not been selected (NO in step 312), the control unit 1 returns to step 305 and selects one face feature value for additional registration that has not been selected yet. .
  • control unit 1 causes the speaker 5 to output the voice of the question in the second question format, and Interaction is performed between them (step 313).
  • the second question format is a question format that asks the user to answer his / her name. For example, the control unit 1 asks “Can you tell me your name?” Via the speaker 5.
  • control unit 1 can change the question format in the question voice according to the similarity distance between the registered facial feature value and the additionally registered facial feature value.
  • control unit 1 acquires information on the voice uttered by the user from the microphone 6 and determines whether the name answered by the user is a user corresponding to any registered facial feature amount (Ste 314).
  • control unit 1 ends the process.
  • the control unit 1 reads the user ID of the user from the storage unit 2. (Step 315). Then, the control unit 1 stores the face feature amount for additional registration in the storage unit 2 in association with the user ID (step 311).
  • control unit 1 performs the interaction with the user, identifies the user corresponding to the facial feature amount for additional registration, and determines the facial feature amount for additional registration as the identified user's face. As feature quantities, additional registration will be made sequentially.
  • the control unit 1 may execute a process for registering a new user.
  • the control unit 1 When the control unit 1 is asking a question, there is a face feature amount for additional registration in which it is not known who the corresponding user is.
  • the facial feature amount for additional registration is not generated unless someone is staying at a high frequency to some extent at the installation location of the home agent device 10 such as a living room or a dining room.
  • the control unit 1 may execute a process for registering the facial feature amount for additional registration as the facial feature amount of the new user.
  • control unit 1 outputs a voice of a question such as “Would you like to register newly?” From the speaker 5 and the answer to this question is a positive answer such as “Yes”
  • the facial feature amount for additional registration is registered as the facial feature amount of the new user.
  • control unit 1 outputs the voice of the question to the user from the speaker 5 to perform the interaction with the user and specify the user corresponding to the facial feature amount for additional registration. did.
  • control unit 1 outputs a conversation voice such as “Konichiha” or “How are you?” From the speaker 5 to perform interaction with the user and perform facial registration for additional registration. You may specify the user corresponding to.
  • control unit 1 that to get the information of the voice of the user such as "I'm fine” from the microphone 6, run the speaker recognition, corresponding to the facial feature for additional registration Is identified.
  • the control unit 1 performs the processing for identifying the face of the user in the image captured by the imaging unit 3, this time, in the case of a large angle of the face of the user, a speaker sound such as "Hello" 5 And the user's face is directed toward the imaging unit 3.
  • the control unit 1 adjusts the projection direction by the projection unit 4 and directs the user's face toward the imaging unit 3.
  • the control unit 1 performs the process for identifying the face again to determine who the user is. Identify.
  • a face feature value for additional registration is set based on the distribution of face feature values that cannot be identified.
  • the facial feature amount for additional registration is set based on the indistinguishable distribution, it is possible to set the facial feature amount for additional registration appropriate for improving the face identification accuracy of the user. (See FIGS. 5 and 6-8). As a result, the user's face identification accuracy can be improved.
  • the facial feature amount for additional registration is set based on the distribution of the unidentifiable facial feature amount, the facial feature amount is separated from the registered facial feature amount in the feature amount space.
  • the face feature amount can be set as a face feature amount for additional registration (see FIGS. 5 and 6 to 8).
  • the user predicts what the cause (for example, the brightness of the face) is, and additionally registers his / her face (for example, a face when it is bright or dark) based on the predicted cause.
  • the cause for example, the brightness of the face
  • his / her face for example, a face when it is bright or dark
  • the facial feature amount for additional registration is automatically generated by the control unit 1 (see FIGS. 5 and 6 to 8). Therefore, in this embodiment, the user does not need to predict what kind of face should be additionally registered or to additionally register his / her face based on the predicted cause.
  • a region in which the face feature amounts that cannot be identified are gathered in the feature amount space is specified, and the face feature amount for additional registration in this region. Is set (see FIGS. 5 and 6 to 8). This makes it possible to set additional registration facial feature values that are more suitable for improving the user's identification accuracy.
  • the density of the unidentifiable facial feature amount is determined, the region is specified according to the density, and the facial feature for additional registration in this region.
  • the quantity is set (see FIGS. 5 and 6 to 8).
  • a facial feature amount for additional registration for an appropriate person (for example, a member of a family) to be additionally registered and to an inappropriate person (for example, an electric construction company) that should not be additionally registered. It is possible to prevent a face feature amount for additional registration from being set.
  • the user corresponding to the facial feature amount for additional registration is specified by performing interaction with the user, and the facial feature amount for additional registration is used as the identified facial feature amount of the user. Additional registration is performed (see FIG. 9).
  • the user can additionally register the facial feature amount for additional registration as the facial feature amount of the user simply by performing a simple short interaction with the home agent device 10. Therefore, it is possible to prevent the user from being forced to perform complicated work during additional registration.
  • the face feature quantities that cannot be identified are sequentially reduced and set based on the distribution of the face feature quantities that cannot be identified.
  • the facial feature amount for additional registration is also reduced sequentially. Accordingly, the interaction with the user for specifying the user corresponding to the facial feature value for additional registration is also reduced sequentially. Therefore, in the present embodiment, the number of interactions with the user can be reduced.
  • whether or not to start an interaction with the user is determined based on the similarity distance between the facial feature amount for additional registration and the acquired facial feature amount of the user ( (See FIG. 9). Thereby, the interaction with the user can be started at an appropriate timing.
  • the interaction with the user is started.
  • the second distance D2 is set to be equal to or less than the first distance D1 (see FIG. 10). That is, in the present embodiment, when the acquired facial feature value is sufficiently close to the additional registration facial feature value, the interaction with the user is started. As a result, it is possible to prevent a face feature amount for additional registration from being additionally registered as a wrong user face feature amount by mistake.
  • the voice of the question for the user is output from the speaker 5 and interaction with the user is performed. Therefore, the user can additionally register the facial feature amount for additional registration as the facial feature amount of the user by simply replying to the question.
  • the question format is changed according to the similarity distance between the facial feature value for additional registration and the registered facial feature value (see FIG. 9). Therefore, in this embodiment, it is possible to ask the user a question in an appropriate question format.
  • the face feature amount for additional registration and the similar feature distance to the registered face feature amount are equal to or smaller than the third distance D3, “ ⁇ san? A question in the first question format is asked.
  • a question in the second question format such as “Can you tell me your name?” Is performed.
  • the facial feature amount for additional registration is registered as the facial feature amount of a new user
  • the facial feature amount for additional registration is added as, for example, the facial feature amount of a family member who has not yet registered. You can register.
  • the facial feature for additional registration
  • the amount can be additionally registered as the face feature amount of the user.
  • the feature amount is the feature amount of the user's face has been described.
  • the feature amount may be any feature amount as long as the feature amount is acquired from the whole or a part of the user's body.
  • the imaging unit 3 is in the home agent device 10
  • the imaging unit 3 may be separate from the home agent device 10.
  • the home agent device 10 has been described as an example of the information processing device, but the information processing device is not limited to the home agent device 10.
  • the imaging unit 3 is arranged in an environment in which the person to be photographed and the imaging conditions are fixed to some extent, such as in a house, in an office, or in a car, Even if it exists, it is feasible.
  • the server device on the network can execute each process described above based on an image captured by the imaging unit 3 under the above environment.
  • This technology can also take the following composition.
  • (1) A feature in which the acquired feature amount of the user cannot be identified when the user cannot be identified by identification in the feature amount space based on the registered feature amount and the acquired feature amount of the user. Storing the amount as a quantity in the storage unit, setting a feature quantity for additional registration based on the distribution of the indistinguishable feature quantity in the feature quantity space, identifying a user corresponding to the feature quantity for the additional registration,
  • An information processing apparatus comprising: a control unit that additionally registers the additional registration feature quantity as the specified user feature quantity.
  • the control unit specifies an area where the indistinguishable feature quantities are gathered in the feature quantity space based on the distribution, and sets the additional registration feature quantity in the area.
  • the control unit performs an interaction with a user and specifies a user corresponding to the additional registration feature amount.
  • the control unit determines a density of the indistinguishable feature amount in a feature amount space, and specifies the region according to the density.
  • the control unit determines, as the density, the number of other indistinguishable feature amounts existing in a range within a first distance with respect to a certain indistinguishable feature amount.
  • the information processing apparatus When the density is equal to or higher than a predetermined threshold, the control unit identifies the range within the first distance from the certain indistinguishable feature amount as the region. (7) The information processing apparatus according to (6), The control unit sets the certain indistinguishable feature amount as the additional registration feature amount. (8) The information processing apparatus according to (3) above, The control unit determines whether to start the interaction based on a distance between the additional registration feature quantity and the acquired user feature quantity. (9) The information processing apparatus according to (8) above, The control unit starts the interaction when the distance between the additional registration feature quantity and the acquired user feature quantity is equal to or less than a second distance.
  • the control unit identifies a region where the indistinguishable feature amounts are gathered in the feature amount space based on the distribution, sets the additional registration feature amount in the region, The area is within a first distance within a distance from the additional registration feature amount, The information processing apparatus, wherein the second distance is equal to or less than the first distance.
  • the control unit causes a sound output unit to output a voice of a conversation with a user and performs an interaction with the user.
  • the control unit causes the sound output unit to output a voice of a question to the user, and performs an interaction with the user.
  • the information processing apparatus is capable of changing a question format in the voice of the question.
  • the information processing apparatus changes the question format according to a distance between the additional registration feature quantity and the registered feature quantity.
  • the control unit determines whether a distance between the additional registration feature quantity and the registered feature quantity is a third distance or less, and when the distance is a third distance or less, An information processing apparatus that causes the sound output unit to output sound in a first question format that asks the user whether or not the user corresponds to a registered feature amount.
  • the information processing apparatus outputs the audio
  • the information processing apparatus determines whether a name answered by the user is a user corresponding to the registered feature quantity, and if the name answered by the user is not a user corresponding to the registered feature quantity, additional registration is performed.
  • An information processing apparatus that registers a feature amount for use as a feature amount of a new user.
  • the control unit acquires information on a user's voice that is responded to the voice of the conversation output from the sound output unit, performs speaker recognition based on the information on the user's voice, and Identifying information processing device.
  • the acquired feature amount of the user cannot be identified Store it as a quantity in the storage unit, Based on the distribution of the indistinguishable feature amount in the feature amount space, set a feature amount for additional registration, Identifying a user corresponding to the additional registration feature amount; An information processing method for additionally registering the additional registration feature quantity as a specified user feature quantity.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】ユーザの識別精度を向上させることができる技術を提供すること。 【解決手段】本技術に係る情報処理装置は、制御部を具備する。前記制御部は、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する。

Description

情報処理装置、情報処理方法及びプログラム
 本技術は、画像などから取得されたユーザの特徴量に基づいてユーザを識別する技術に関する。
 近年、セキュリティーチェックや、ログイン制限等を行うための技術として、ユーザの特徴量に基づいてユーザを識別する技術が広く用いられている。
 この種の技術では、一般的に、登録済みのユーザの特徴量と、識別時におけるユーザの特徴量との類似度を計算することによって、ユーザを識別するといった方法が用いられることが多い(例えば、特許文献1参照)。
 一方、例えば、照明環境などによってユーザの顔の明るさが変わったり、メガネや帽子の脱着などによりユーザの顔が変わったりすると、同一人物であっても、識別時におけるユーザの特徴量が、登録済みのユーザの特徴量と変わってしまう場合がある。この場合、同一人物であるにもかかわらず、正確にユーザを識別することができず、識別精度が低下してしまうといった問題がある。
 このような問題に関連する技術として、下記特許文献2が開示されている。特許文献2技術では、既に新規登録を済ませたユーザが、新規登録とは別の機会に、自分の顔の追加登録を要求することによって、ユーザの顔の明るさなどの変化に対処している。具体的には、特許文献2の技術では、登録済みの顔識別用データと、追加登録要求時の特徴量データとの一致度Sが判定され、一致度Sが所定の範囲(s1≦S≦s1')にある場合に、追加登録要求時の特徴量データが、そのユーザに対応する顔識別用データとして追加登録される。
特許第4595750号公報 特許第6025690号公報
 特許文献2の技術では、登録済みの顔識別データが取得されたときの顔と、追加登録要時における特徴量データが取得されたときの顔との変化が小さい場合には追加登録が行われるが、2つの顔の変化が大きい場合には、同一人物であっても、追加登録は行われない。従って、特許文献2の技術では、未だにユーザの識別精度が低いといった問題がある。
 以上のような事情に鑑み、本技術の目的は、ユーザの識別精度を向上させることができる技術を提供することにある。
 上記目的を達成するため、本技術に係る情報処理装置は、制御部を具備する。前記制御部は、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する。
 この情報処理装置では、識別不能な特徴量の分布に基づいて、追加登録用の特徴量が設定される。このように、上記分布に基づいて、追加登録用の特徴量を設定することで、ユーザの識別精度を向上させるのに適切な追加登録用の特徴量を設定することができる。結果として、ユーザの識別精度を向上させることができる。
 上記情報処理装置において、前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定してもよい。
 これにより、ユーザの識別精度を向上させるのにさらに適した追加登録用の特徴量を設定することができる。
 上記情報処理装置において、前記制御部は、ユーザとの間でインタラクションを行って、前記追加登録用の特徴量に対応するユーザを特定してもよい。
 これにより、ユーザは、簡単なインタラクションを行うことで、追加登録用の特徴量をそのユーザの特徴量として追加登録することができる。
 上記情報処理装置において、前記制御部は、特徴量空間において、前記識別不能な特徴量の密度を判定し、前記密度に応じて、前記領域を特定してもよい。
 上記情報処理装置において、前記制御部は、或る特定の前記識別不能な特徴量に対して第1の距離以内の範囲に存在する他の前記識別不能な特徴量の数を、前記密度として判定してもよい。
 上記情報処理装置において、前記制御部は、前記密度が、所定の閾値以上である場合、前記或る特定の識別不能な特徴量から前記第1の距離以内の前記範囲を前記領域として特定してもよい。
 上記情報処理装置において、前記制御部は、前記或る特定の識別不能な特徴量を前記追加登録用の特徴量として設定してもよい。
 上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の距離に基づいて、前記インタラクションを開始するかどうかを判定してもよい。
 上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の前記距離が第2の距離以下である場合、前記インタラクションを開始してもよい。
 上記情報処理装置において、前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定してもよい。この場合、前記領域は、前記追加登録用の特徴量からの距離が第1の距離以内の範囲であり、前記第2の距離は、第1の距離以下であってもよい。
 上記情報処理装置において、前記制御部は、ユーザとの会話の音声を音出力部から出力させて、ユーザとの間でインタラクションを行ってもよい。
 上記情報処理装置において、前記制御部は、ユーザに対する質問の音声を前記音出力部から出力させて、ユーザとの間でインタラクションを行ってもよい。
 上記情報処理装置において、前記制御部は、前記質問の音声における質問形式を変更可能であってもよい。
 上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離に応じて、前記質問形式を変更してもよい。
 上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離が第3の距離以下であるかどうかを判定し、前記距離が第3の距離以下である場合、前記登録済みの特徴量に対応するユーザであるかどうかをユーザに問いかける第1の質問形式での音声を前記音出力部から出力させてもよい。
 上記情報処理装置において、前記制御部は、前記距離が前記第3の距離を超える場合、ユーザに自身の名前を答えさせるように問いかける第2の質問形式での音声を前記音出力部から出力させてもよい。
 上記情報処理装置において、前記制御部は、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザであるかどうかを判定し、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザでない場合、追加登録用の特徴量を、新規ユーザの特徴量として登録してもよい。
 上記情報処理装置において、前記制御部は、前記音出力部から出力された前記会話の音声に対して応答されたユーザの音声の情報を取得し、前記ユーザの音声の情報に基づいて話者認識を実行して、ユーザを特定してもよい。
 本技術に係る情報処理方法は、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する。
 本技術に係るプログラムは、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させるステップと、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定するステップと、前記追加登録用の特徴量に対応するユーザを特定するステップと、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録するステップとをコンピュータに実行させる。
 以上のように、本技術によれば、ユーザの識別精度を向上させることができる技術を提供することができる。
第1実施形態に係るホームエージェント装置を示すブロック図である。 識別不能な顔特徴量の記憶するときの処理を示すフローチャートである。 登録済みの顔特徴量と、識別可能な顔特徴量と、識別不能な顔特徴量との特徴量空間における分布を、平面にプロットしたときの様子を示す図である。 識別不能な顔特徴量の分布を説明するための図である。 追加登録用の顔特徴量を設定するときの処理を示すフローチャートである。 図3、図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。 図3、図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。 図3、図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。 追加登録用の顔特徴量を追加登録するときの処理を示すフローチャートである。 特徴量空間において、追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離が、第2の距離以下である場合の一例を示す図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
≪第1実施形態≫
<全体構成及び各部の構成>
 図1は、第1実施形態に係るホームエージェント装置10を示すブロック図である。
 図1に示すように、ホームエージェント装置10(情報処理装置)は、制御部1と、記憶部2と、撮像部3と、投影部4と、スピーカ(音出力部)5と、マイクロフォン6と、通信部7とを備えている。
 制御部1は、CPU(Central Processing Unit)等により構成されている。制御部1は、記憶部2に記憶された各種のプログラムに基づき種々の演算を実行し、ホームエージェント装置10の各部を統括的に制御する。なお、制御部1の処理については、動作説明の欄において後に詳述する。
 記憶部2は、制御部1の処理に必要な各種のプログラムや、各種のデータが記憶される不揮発性のメモリと、制御部1の作業領域として用いられる揮発性のメモリとを含む。なお、記憶部2に記憶される各種のプログラムは、光ディスク、半導体メモリなどの可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
 撮像部3は、CCDセンサ(CCD:Charge Coupled Device)、あるいはCMOSセンサ(CMOS:Complementary Metal Oxide Semiconductor)等の撮像素子と、結像レンズ等の光学系とを含む。撮像部3は、撮像によって取得された画像を制御部1へと出力する。
 投影部4は、光源、プリズム、ミラー、集光レンズ、投影レンズ、DLP(Digital Light Processing)等の各種の光学系を含む。投影部4は、制御部1によって生成された画像信号に応じた画像を生成して、スクリーンや壁などに向けて画像を投影する。
 スピーカ5は、制御部1によって生成された音声信号に応じた音を出力する。マイクロフォン6は、ユーザが発した声を集音して、集音された声を電気信号に変換して制御部131へと出力する。
 通信部7は、ネットワーク上のサーバ装置や、ユーザが所持する端末装置等との間で互いに通信可能に構成されている。
 <動作説明>
 [基本的な処理]
 次に、ホームエージェント装置10の基本的な処理について説明しつつ、ホームエージェント装置10が基本的にどのように使用されるかについて説明する。
 ホームエージェント装置10の基本的な処理としては、2種類存在する。1種類目は、顔識別処理であり、2種類目は、ユーザとのインタラクションにより様々な機能を実現するための処理である。
 まず、顔識別処理について説明する。この顔識別処理は、ホームエージェント装置10に対するアクセス権限を有するユーザであるかを識別したり、アクセス権限を有するユーザが複数人存在する場合には、どのユーザであるかを識別したりするために実行させる。
 顔識別処理のために、ユーザは、最初に自身の顔を撮像部3に撮像させて、自身の顔特徴量をホームエージェント装置10に予め登録しておく必要がある。このとき、制御部1は、撮像部3によって撮像された画像に基づいて、顔検出を実行して顔部分の画像を特定する。そして、制御部1は、特定された顔部分の画像から顔特徴位置(例えば、目、鼻、口等)を検出する。
 次に、制御部1は、この顔特徴位置近傍の画像から顔特徴量(例えば、256次元の顔特徴量ベクトル)を抽出し、抽出された顔特徴量を、ユーザIDに関連づけて記憶部2に記憶させる。これにより、ユーザの顔特徴量が登録済みの顔特徴量として記憶部2に記憶される。
 顔識別処理においては、制御部1は、顔登録時と同様にして、撮像部3によって撮像された画像から顔特徴量を抽出する。そして、制御部1は、特徴量空間において、登録済みの顔特徴量と、抽出によってそのとき取得された顔特徴量との類似距離を算出する。
 このとき、類似距離が所定の閾値以内であれば、制御部1は、画像内に写っている人物がアクセス権限を有するユーザであると判断する。一方、類似距離が閾値を超える場合には、画像内に写っている人物がアクセス権限を有しない人物であると判断する。また、制御部1は、画像内に写っている人物がアクセス権限を有するユーザであると判断した場合、上記登録済みの顔特徴量に関連づけられたユーザIDを記憶部2から読み出して、画像内に写っているユーザを識別する。
 このようにして、制御部1は、そのとき画像内に写った人物が、ホームエージェント装置10に対するアクセス権限があるユーザであるかを識別したり、そのユーザが誰であるかを識別したりする。
 なお、顔識別処理は、所定の周期(数秒程度)で行われており、制御部1は、画像内にアクセス権限を有するユーザが写っているかどうか、及びそのユーザが誰であるかを、所定の周期(数秒程度)で認識している。
 次に、ユーザとのインタラクションにより様々な機能を実現するための処理について説明する。
 例えば、制御部1は、顔識別処理によって、アクセス権限を有するユーザが画像内に写っていると判断した場合、所定の条件に応じて、様々な音声をからスピーカ5から出力させる。例えば、制御部1は、そのユーザに対する新着メールが存在する場合に、「新着メールが存在します」との音声をスピーカ5から出力させる。また、例えば、制御部1は、その日の朝、初めて画像内にユーザが写ったときに、「今日のスケジュールを述べますか?」との音声をスピーカ5から出力させる。
 スピーカ5からの音声に対して、ユーザが「新着メールを表示して」と言った場合、この音声の情報がマイクロフォン6を介して制御部1に出力される。この場合、制御部1は、マイクロフォン6から取得されたユーザの音声の情報に基づいて、投影部4を制御して新着メールをスクリーン上などに投影させる。
 また、スピーカ5の音声に対して、ユーザが「スケジュールを言って」と言った場合、この音声の情報がマイクロフォン6を介して制御部1に出力される。この場合、制御部1は、マイクロフォン6から取得されたユーザの音声の情報に基づいて、ユーザのスケジュールの文字情報を音声情報に変換して、この音声情報をスピーカ5から出力させる。
 このように、ホームエージェント装置10は、ユーザの生活が便利になるような様々な機能を有している。
 [顔特徴量の追加登録処理]
 次に、顔特徴量の追加登録処理について説明する。ここで、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化すると、同一人物であっても、ユーザを正確に判断することができない場合がある。
 顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化する場合とは以下の様な場合がある。照明の点灯/非点灯、カーテンの開け閉め等によって、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して、明るかったり、暗かったりする。メガネ及び帽子の脱着、髪の毛の長短、髪型、髭の有無、日焼けの有無などにより、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化している。顔識別時のユーザの顔の向いている方向、顔の表情(例えば、笑っていたり、舌を出していたり)が、登録時のユーザの顔の向いている方向、顔の表情とは異なる。
 本技術では、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化したとしても、正確にユーザを識別することができるようにするために、顔特徴量の追加登録処理を実行する。
 顔特徴量の追加登録処理は、大別して、(1)「識別不能な顔特徴量を記憶する処理」、(2)「追加登録用の顔特徴量を設定する処理」、(3)「追加登録用の顔特徴量を追加登録する処理」の3種類の処理に区分される。
 (1)「識別不能な顔特徴量を記憶する処理」
 まず、識別不能な顔特徴量の記憶するときの処理について説明する。図2は、識別不能な顔特徴量の記憶するときの処理を示すフローチャートである。
 まず、制御部1は、撮像部3によって撮像された画像に基づいて、顔検出を実行して顔部分の画像を特定する(ステップ101)。次に、制御部1は、顔検出された顔のうち、いずれか1つの顔に対応する顔部分の画像を選択する(ステップ102)。
 次に、制御部1は、選択された顔部分の画像から顔特徴位置(例えば、目、鼻、口等)を検出する(ステップ103)。次に、制御部1は、この顔特徴位置近傍の画像から顔特徴量(例えば、256次元の顔特徴量ベクトル)を抽出する(ステップ104)。
 次に、制御部1は、登録済みの顔特徴量のうち、1つの顔特徴量を選択する(ステップ105)。そして、制御部1は、特徴量空間において、登録済みの顔特徴量と、そのときに取得された顔特徴量との類似距離を算出する(ステップ106)。
 次に、制御部1は、類似距離が所定の閾値以下であるかどうかを判定する(ステップ107)。類似距離が所定の閾値を超える場合(ステップ107のNO)、つまり、顔特徴量に対応する人物が、その登録済みの顔特徴量に対応するユーザではないと判断された場合、制御部1は、次のステップ108へ進む。
 ステップ108では、制御部1は、全ての登録済み顔特徴量が既に選択済みであるかどうかを判定する。選択されていない登録済みの顔特徴量が残っている場合(ステップ108のNO)、制御部1は、ステップ105へ戻って、先ほど選択された登録済みの顔特徴量とは別の登録済みの顔特徴量を選択し、ステップ106以下の処理を再び実行する。
 一方、全ての登録済みの顔特徴量が選択済みである場合(ステップ108のYES)、つまり、顔特徴量に対応する人物が誰であるかを識別できなかった場合、制御部1は、その顔特徴量を識別不能な顔特徴量として、識別不能特徴量DB(Data Base)に記憶する(ステップ109)。このとき、制御部1は、識別不能な顔特徴量を、日付情報、時刻情報などに関連づけて識別不能特徴量DBに記憶する。なお、識別不能特徴量DBは、記憶部2が有しているDBである。
 制御部1は、識別不能な顔特徴量を識別不能特徴量DBに記憶すると、次のステップ110へ進む。同様に、制御部1は、ステップ107において、上記類似距離が所定の閾値以下である場合(ステップ107のYES)、つまり、顔特徴量に対応する人物が誰であるかを識別することができた場合、制御部1は、ステップ108、109を飛ばして、次のステップ110へ進む。
 ステップ110では、制御部1は、顔検出によって検出された全ての顔が既に選択済みであるかどうかを判定する。選択されていない顔が残っている場合(ステップ110のNO)、制御部1は、ステップ102へ戻って、再び、ステップ102以降の処理を実行する。
 一方、顔検出によって検出された全ての顔が既に選択済みである場合(ステップ110のYES)、制御部1は、処理を終了する。
 図2に示す処理は、所定の周期(例えば、数秒程度)で繰り返し実行されているため、識別不能特徴量DBには、識別不能な顔特徴量が、逐次、蓄積されていく。
 制御部1は、識別不能な顔特徴量が識別不能特徴量DBに記憶されてから所定期間(例えば、数週間から数か月程度)が経過したとき、識別不能な顔特徴量を識別不能特徴量DBから削除してもよい。これに加えて、あるいは、これに代えて、制御部1は、識別不能な顔特徴量が識別不能DBに記録されている数が、所定数(例えば、数千~数十万程度)を超えた場合、古い識別不能な顔特徴量を識別不能特徴量DBから削除して、新たな識別不能な顔特徴量に置き換えてもよい。
 なお、識別不能な顔特徴量の記憶処理は、上述の基本的な処理において実行される顔識別処理によって識別することができなかった顔特徴量が識別不能特徴量DBに記憶されてもよいし、この顔識別処理とは別の処理として実行されてもよい。
 図3は、登録済みの顔特徴量と、識別可能な顔特徴量と、識別不能な顔特徴量との特徴量空間における分布を、平面にプロットしたときの様子を示す図である。識別可能な顔特徴量は、いずれかのユーザに識別された顔特徴量であり、識別不能な顔特徴量は、上述のように、どのユーザとも識別されなかった顔特徴量である。
 図3の左側には、登録済みの顔特徴量の元となった、登録時におけるユーザの顔(登録顔)も示されおり、図3に示す例では、上から順番に、父親、母親、長男、次男、三男の登録顔が示されている。
 図3において、大きな○印は、登録済みの顔特徴量を示しており、小さな○印は、識別可能な顔特徴量を示している。また、△印は、識別不能な顔特徴量を示している。なお、図3では、登録済みの顔特徴量(大きな○印)、識別可能な顔特徴量(小さな○印)は、対応するユーザ毎に、グレースケールの濃さが分けられて表示されている。
 なお、図3に示されている分布は、ホームエージェント装置10が、家族が頻繁に出入りする家のリビングルームや、ダイニングルームなどに設置され、同じ環境で取得された顔特徴量の分布が示されている。
 ここで、上述の図2における処理では、図3において△印で示されている識別不能な顔特徴量が、識別不能特徴量DB内に、逐次、蓄積されていく。
 図4は、識別不能な顔特徴量の分布を説明するための図である。なお、図4における大きな○印、小さな○印、△印は、図3と同様である。なお、図4における破線の○は、識別不能な顔特徴量が集合している領域を示している。
 図4に示す例では、照明が点いていない等の理由で暗くなっている父親の顔に対応する顔特徴量が、識別不能な顔特徴量として、左上の領域に固まって集合している。また、カーテンが開けられているなどの理由で明るくなっている父親の顔に対応する顔特徴量が、識別不能な顔特徴量として、左下の領域に固まって集合している。また、表情が変化したときの三男の顔に対応する顔特徴量が、識別不能な顔特徴量として右下の領域に固まって集合している。
 図3、図4から理解されるように、同じ環境で撮像された顔の画像に基づく識別不能な顔特徴量(△印参照)は、特徴量空間において一定の領域(破線の○参照)に固って集合しやすい。従って、識別不能な顔特徴量が識別不能特徴量DBに蓄積されていくと、照明環境の変化や、表情の変化などに応じた、識別不能な顔特徴量の分布のパターンが特徴量空間上に現れてくる。
 なお、本実施形態においては、同じ環境で撮像された画像から、ある程度の数の識別不能な顔特徴量を蓄積する必要がある。従って、ホームエージェント装置10は、典型的には、ある程度高い頻度でユーザが滞在する場所、例えば、リビングルームや、ダイニングルーム等に固定して設置される。
(2)「追加登録用の顔特徴量を設定する処理」
 次に、追加登録用の顔特徴量を設定するときの処理について説明する。
 ここでの処理について簡単に説明すると、まず、図3、図4に示されているような、特徴量空間における識別不能な顔特徴量(△印参照)の分布に基づいて、特徴量空間において識別不能な顔特徴量が集合している領域(破線の○参照)が特定される。すなわち、照明環境の変化や、表情変化などに起因する識別不能な顔特徴量は、ある一定の領域に固まって集合しやすいので、この領域が特定される。
 そして、領域が特定されると、この領域において、追加登録用の顔特徴量が設定される。追加登録用の顔特徴量は、後に、「追加登録用の顔特徴量を追加登録する処理」において、特定のユーザの顔特徴量として追加登録される顔特徴量である。
 以下、一例を挙げて、具体的に説明する。図5は、追加登録用の顔特徴量を設定するときの処理を示すフローチャートである。
 まず、制御部1は、識別不能特徴量DBに記憶された識別不能な顔特徴量から、識別不能な顔特徴量を1つ選択する(ステップ201)。次に、制御部1は、特徴量空間において、選択された識別不能な顔特徴量と、選択された顔特徴量以外の全ての識別不能な顔特徴量との間の類似距離をそれぞれ算出する(ステップ202)。
 次に、制御部1は、類似距離が第1の距離D1以下である識別不能な顔特徴量の数をカウントする(ステップ203)。つまり、制御部1は、選択された或る特定の識別不能な顔特徴量に対して第1の距離D1以下の範囲に存在する他の識別不能な顔特徴量の数(密度)を判定する。
 次に、制御部1は、全ての識別不能な顔特徴理が既に選択済みであるかどうかを判定する(ステップ204)。選択されていない識別不能な顔特徴量が残っている場合(ステップ204のNO)、制御部1は、ステップ201へ戻って、選択されていない識別不能な顔特徴量の中から、識別不能な顔特徴量を1つ選択する。
 一方、全ての識別不能な顔特徴理が既に選択済みである場合(ステップ204のYES)、制御部1は、カウント数が最も大きい(密度が最も高い)識別不能な顔特徴量を選択する(ステップ205)。
 次に、制御部1は、カウント数(密度)が所定の閾値以上であるかどうかどうかを判定する(ステップ206)。カウント数(密度)が所定の閾値以上である場合(ステップ206のYES)、制御部1は、選択された識別不能な顔特徴量の座標を、追加登録用の顔特徴量の座標として設定し、記憶部2に記憶させる(ステップ207)。
 次に、制御部1は、選択された識別不能な顔特徴量からの類似距離が第1の距離D1以下にある識別不能な顔特徴量(選択された識別不能な顔特徴量を含む)を識別不能特徴量DBから除去し(ステップ208)、その後、ステップ201へ戻って、ステップ201以降の処理を再び実行する。
 ステップ206において、カウント数(密度)が所定の閾値未満である場合、制御部1は、処理を終了する。
 ここで、ステップ201~206において、制御部1は、特徴量空間における識別不能な顔特徴量の分布に基づいて、識別不能な顔特徴量が集合している領域を特定している。制御部1は、密度に応じて、上記領域を特定しており、密度が、所定の閾値以上である場合に、或る特定の識別不能な顔特徴量から第1の距離D1以下の範囲を、上記領域として特定している。
 なお、上記領域は、特徴量空間において、中心(追加登録用の顔特徴量)からの距離が第1の距離D1の範囲の領域である。また、制御部1は、ステップ207において、この領域の中心に位置している識別不能な顔特徴量を、追加登録用の顔特徴量として設定している。
 次に、図3、図4に示されている識別不能な顔特徴量が、図5に示す処理によってどのように処理されるかについて具体的に説明する。図6~図8は、図3、図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。
 図6を参照して、図6に示されている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
 次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、暗くなっている父親の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
 この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
 これにより、暗くなっている父親の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
 追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、暗くなっている父親の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。そして、再び、ステップ201以降の処理が実行される。
 図7を参照して、図7においては、暗くなっている父親の顔に対応する識別不能な顔特徴量は、既に削除されている。従って、残っている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
 次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、表情変化が大きいときの三男の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
 この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
 これにより、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
 追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。そして、再び、ステップ201以降の処理が実行される。
 図8を参照して、図8においては、暗くなっている父親の顔に対応する識別不能な顔特徴量、及び、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量は、既に削除されている。従って、残っている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
 次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、明るくなっている父親の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
 この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
 これにより、明るくなっている父親の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
 追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、明るくなっている父親の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。
 そして、再び、ステップ201以降の処理が実行され、カウント数が所定の閾値未満となった場合(ステップ206のNO)、つまり、識別不能な顔特徴量の密度が、所定の閾値以上である領域が存在しなくなった場合、処理が終了される。
 ここで、例えば、電気工事や、水道工事などの業者の顔、遊びに来た友人の顔、テレビに映っている顔が撮像部3によって撮像された場合や、顔の誤検出が行われた場合等に、これらの顔に対応する顔特徴量が、識別不能な顔特徴量として識別不能特徴量DBに記憶される場合がある。一方、このような識別不能な顔特徴量は、識別不能な顔特徴量の分布において、密度が低いので(ステップ206NO)、このような識別不能な顔特徴量に対応する追加登録用の顔特徴量は、生成されないことになる。
 以上の説明では、特徴量空間において識別不能な顔特徴量が集合している領域を特定し、この領域内に追加登録用の顔特徴量を設定する方法として、図5に示すフローチャートを例に挙げて説明した。一方、上記方法は、図5に示す例に限られない。典型的には、識別不能な顔特徴量が集合している領域を特定することができ、かつ、この領域内に追加登録用の顔特徴量を設定することができる方法であれば、どのような方法が用いられてもよい。
 例えば、識別不能な顔特徴量が集合している領域を特定するために、一般的なクラスタリング技術が用いられてもよく、クラスタ中心に追加登録用の顔特徴量が設定されてもよい。
 なお、図5に示すような処理は、処理の負荷が大きいことも予測されるため、他の処理が実行されていないアイドル状態であるときに実行されてもよい。
(3)「追加登録用の顔特徴量を追加登録する処理」
 次に、追加登録用の顔特徴量を追加登録するときの処理について説明する。
 ここでの処理について簡単に説明すると、まず、追加登録用の顔特徴量に対応するユーザを特定するために、ユーザとの間でインタラクションを開始するかどうかが判定される。そして、インタラクションが開始されると判定された場合、ユーザのとの間でスピーカ5及びマイクロフォン6を介したインタラクションが行われ、追加登録用の顔特徴量に対応するユーザが特定される。そして、追加登録用の顔特徴量が、特定されたユーザの顔特徴量として追加登録される。
 以下、一例を挙げて、具体的に説明する。図9は、追加登録用の顔特徴量を追加登録するときの処理を示すフローチャートである。
 まず、制御部1は、記憶部2に記憶されている追加登録用の顔特徴量から、追加登録用の顔特徴量を1つ選択する(ステップ301)。このとき、例えば、制御部1は、図6~図8にそれぞれ示した追加登録用の顔特徴量(黒の△印参照)から、追加登録用の顔特徴量を1つ選択する。
 次に、制御部1は、選択された追加登録用の顔特徴量と、そのとき取得された顔特徴量との類似距離を算出する(ステップ302)。
 次に、制御部1は、類似距離が第2の距離D2以下であるかどうかを判定する(ステップ303)。類似距離が第2の距離D2を超える場合(ステップ303のNO)、制御部1は、全ての追加登録用の顔特徴量が既に選択済みであるかどうかを判定する(ステップ304)。
 選択されていない追加登録用の顔特徴量が残っている場合(ステップ304のNO)、制御部1は、ステップ301へ戻って、まだ選択されていない追加登録用の顔特徴量を1つ選択する。
 一方、全ての追加登録用の顔特徴量が既に選択済みである場合(ステップ304のYES)、制御部1は、処理を終了する。つまり、制御部1は、そのとき取得された顔特徴量が、どの追加登録用の顔特徴量に対しても第2の距離D2を超える(似ていない)場合、追加登録用の顔特徴量を追加登録する処理を実行せず(インタラクションを開始せず)に、処理を終了する。
 ステップ303において、類似距離が第2の距離D2以下である場合(ステップ303のYES)、つまり、そのとき取得された顔特徴量が、或る特定の追加登録用の顔特徴量に対して、第2の距離D2以下の範囲内にある(似ている)場合、制御部1は、次のステップ305へ進む。ステップ305以降では、ユーザとの間のインタラクションを行う処理などが実行される。
 ここで、制御部1は、ステップ301~304において、追加登録用の顔特徴量に対応するユーザを特定するために、ユーザとの間でインタラクションを開始するかどかを判定している。このとき、制御部1は、選択された追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離に基づいて、インタラクションを開始させるかどうかを判定している。また、制御部1は、上記類似距離が、第2の距離D2以下である場合に、インタラクションを開始している(ステップ303のYES)。
 図10は、特徴量空間において、追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離が、第2の距離D2以下である場合の一例を示す図である。
 図10において、黒の△印は、暗くなっている父親の顔に対応する追加登録用の顔特徴量を示しており、白の△印は、そのとき取得された顔特徴量を示している。また、破線の○は、追加登録用顔特徴量から第1の距離D1以下の範囲(識別不能な顔特徴量が集合していると判断された領域)を示している。また、一点鎖線の○は、追加登録用の顔特徴量から第2の距離D2以下の範囲(インタラクションを開始するかどうかの基準となる範囲)を示している。
 図10に示すように、例えば、現在において父親の顔が暗くなっており、そのとき取得された顔特徴量(白の△印)が、暗くなっている父親の顔に対応する追加登録用の顔特徴量(黒の△印)から第2の距離D2以内にある場合、ユーザとの間のインタラクションが開始される。
 図10には、第1の距離D1と、第2の距離D2との関係も示されている。図10に示すように、本実施形態では、第2の距離D2は、第1の距離D1以下の距離とされている。つまり、本実施形態では、取得された顔特徴量(白の△印)が、追加登録用の顔特徴量(黒の△印)に対して十分に近い場合に、ユーザとの間のインタラクションが開始される。
 図9に戻り、ステップ303において、類似距離が第2の距離D2以下である場合(ステップ303のYES)、制御部1は、記憶部2に記憶された登録済みの顔特徴量から、登録済みの顔特徴量を1つ選択する(ステップ305)。次に、制御部1は、登録済みの顔特徴量と、追加登録用の顔特徴との類似距離を算出する(ステップ306)。
 次に、制御部1は、類似距離が第3の距離D3以下であるかどうかを判定する(ステップ307)。類似距離が、第3の距離D3以下である(似ている)場合(ステップ307のYES)、制御部1は、第1の質問形式での質問(会話の一例)の音声をスピーカ5から出力させて、ユーザとの間でインタラクションを行う(ステップ308)。
 第1の質問形式は、登録済みの顔特徴量に対応するユーザであるかどうかをユーザに問いかけ質問形式である。例えば、父親の登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離が、第3の距離D3以下である場合、例えば、制御部1は、スピーカ5を介して「・・・(父親の名前)さん、ですか?」と問いかける。また、例えば、三男の登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離が、第3の距離D3以下である場合、例えば、制御部1は、「・・・(三男の名前)さん、ですか?」と問いかける。
 次に、制御部1は、ユーザが発した音声の情報をマイクロフォン6から取得し、質問の音声に対して、ユーザが「はい」、「そうです」等の肯定的な返事をしたかどうかを判定する(ステップ309)。
 ユーザが「はい」等の肯定的な返事をした場合(ステップ309のYES)、制御部1は、登録済みの顔特徴量(追加登録用の顔特徴量からの類似距離が第3の距離D3以内である登録済みの顔特徴量)に対応するユーザIDを記憶部2から読みだす(ステップ310)。
 次に、制御部1は、追加登録用の顔特徴量を、ユーザIDに関連づけて記憶部2に記憶する(ステップ311)。ユーザIDに関連づけられた追加登録用の顔特徴量は、登録済みの顔特徴量として、上述の[基本的な処理]の欄において説明した顔識別処理で使用される。
 ステップ307において、登録済みの顔特徴量と、追加登録用の顔特徴との類似距離が、第3の距離D3を超える場合(ステップ307のNO)、制御部1は、次のステップ312へ進む。同様に、ステップ309において、質問の音声に対して、ユーザが「いいえ」、「違います」等の否定的な返事をした場合(ステップ309のNO)制御部1は、次のステップ312へ進む。
 ステップ312では、制御部1は、全ての登録済みの顔特徴量が既に選択済みであるかどうかを判定する。選択されていない登録済みの顔特徴量が残っている場合(ステップ312のNO)、制御部1は、ステップ305へ戻って、まだ選択されていない追加登録用の顔特徴量を1つ選択する。
 一方、全ての追加登録用の顔特徴量が既に選択済みである場合(ステップ312のYES)制御部1は、第2の質問形式での質問の音声をスピーカ5から出力させて、ユーザとの間でインタラクションを行う(ステップ313)。
 第2の質問形式は、ユーザに自身の名前を答えさせるように問いかける質問形式である。例えば、制御部1は、スピーカ5を介して「名前を教えていただけますか?」と問いかける。
 すなわち、制御部1は、登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離に応じて、質問の音声における質問形式を変更可能とされている。
 次に、制御部1は、ユーザが発した音声の情報をマイクロフォン6から取得し、ユーザが答えた名前が、いずれかの登録済みの顔特徴量に対応するユーザであるかどうかを判定する(ステップ314)。
 ユーザが答えた名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合(ステップ314のNO)、制御部1は、処理を終了する。
 一方、ユーザが答えた名前が、いずれかの登録済みの顔特徴量に対応するユーザの名前である場合(ステップ314のYES)、制御部1は、そのユーザのユーザIDを記憶部2から読みだす(ステップ315)。そして、制御部1は、追加登録用の顔特徴量を、ユーザIDに関連づけて記憶部2に記憶する(ステップ311)。
 このようにして、制御部1は、ユーザとの間のインタラクションを行って、追加登録用の顔特徴量に対応するユーザを特定し、追加登録用の顔特徴量を、特定されたユーザの顔特徴量として、順次、追加登録していく。
 なお、「名前を教えていただけますか?」との質問に対して答えられたユーザの名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合(ステップ314のNO)、制御部1は、新規ユーザを登録するための処理を実行してもよい。
 ここで、「名前を教えていただけますか?」との質問に対して答えられたユーザの名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合について説明する。制御部1が質問を行っているということは、対応するユーザが誰であるかが分かっていない、追加登録用の顔特徴量が存在している。この追加登録用の顔特徴量は、例えば、リビングルームや、ダイニングルームなどのホームエージェント装置10の設置場所に、誰かがある程度高い頻繁で滞在していないと生成されない。
 つまり、これは、ホームエージェント装置10の設置場所に誰かがある程度高い頻度で滞在しているが、これがどの登録済みのユーザにも対応していないことを示している。このような状況は、まだ登録を行っていない家族の一員がいる場合や、家族と新密度が非常に高い人物がいる場合などに発生しやすい。従って、このような場合には、制御部1は、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録するための処理を実行してもよい。
 この場合、例えば、制御部1は、「新規登録を希望しますか?」等の質問の音声をスピーカ5から出力させ、この質問に対する返事が「はい」などの肯定的な返事であった場合に、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録する。
 以上の説明では、制御部1が、ユーザに対する質問の音声をスピーカ5から出力することによって、ユーザとの間のインタラクションを行い、追加登録用の顔特徴量に対応するユーザを特定する場合について説明した。一方、制御部1は、「こんいちは」、「お元気ですか?」等の会話の音声をスピーカ5から出力することによって、ユーザとの間のインタラクションを行い、追加登録用の顔特徴量に対応するユーザを特定してもよい。
 この場合、例えば、スピーカ5から出力された「こんにちは」「お元気ですか?」等の会話の音声に対して、ユーザが「こんにちは」「元気ですよ」等と応答したとする。この場合、制御部1は、「こんにちは」、「元気ですよ」等のユーザの音声の情報をマイクロフォン6から取得し、話者認識を実行して、追加登録用の顔特徴量に対応するユーザを特定する。
 また、追加登録用の顔特徴量に対応するユーザを特定するための他の方法として、以下の方法が挙げられる。まず、制御部1は、撮像部3によって撮像された画像におけるユーザの顔を識別するための処理を行い、このとき、ユーザの顔の角度が大きい場合に、「こんにちは」等の音声をスピーカ5から出力させて、ユーザの顔を撮像部3の方向に向かせる。あるいは、制御部1は、投影部4による投影方向を調整して、ユーザの顔を撮像部3の方向に向かせる。そして、撮像部3によって撮像された画像におけるユーザの顔の角度が正面に近くなったときに、制御部1は、再び顔を識別するための処理を行って、そのユーザが誰であるかを特定する。
 ≪作用等≫
 本実施形態においては、識別不能な顔特徴量の分布に基づいて、追加登録用の顔特徴量が設定される。このように、識別不能な分布に基づいて、追加登録用の顔特徴量を設定することで、ユーザの顔識別精度を向上させるのに適切な追加登録用の顔特徴量を設定することができる(図5、図6~図8参照)。結果として、ユーザの顔識別精度を向上させることができる。
 また、本実施形態では、識別不能な顔特徴量の分布に基づいて、追加登録用の顔特徴量が設定されるため、特徴量空間において、顔特徴量が、登録済みの顔特徴量から離れていても、その顔特徴量を追加登録用の顔特徴量として設定することができる(図5、図6~図8参照)。
 ここで、比較として、ユーザの顔が識別されないようなことが頻繁に起こった場合を想定する。この場合、ユーザは、その原因(例えば、顔の明暗)が何であるかを予測して、予測した原因に基づいて、自己の顔(例えば、明るかったり暗かったりするときの顔)を追加登録する必要がある。
 一方、本実施形態では、追加登録用の顔特徴量は、制御部1によって自動的に生成される(図5、図6~図8参照)。従って、本実施形態では、ユーザは、どのような顔を追加登録すればよいかを予測したり、予測した原因に基づいて自己の顔を追加登録したりする必要がない。
 また、本実施形態では、識別不能な顔特徴量の分布に基づいて、特徴量空間において識別不能な顔特徴量が集合している領域が特定され、この領域内において追加登録用の顔特徴量が設定される(図5、図6~図8参照)。これにより、ユーザの識別精度を向上させるのにさらに適した追加登録用の顔特徴量を設定することができる。
 また、本実施形態では、識別不能な顔特徴量の分布において、識別不能な顔特徴量の密度が判定され、密度に応じて上記領域が特定されて、この領域内において追加登録用の顔特徴量が設定される(図5、図6~図8参照)。
 これにより、追加登録すべき適切な人物(例えば、家族の一員)に対する追加登録用の顔特徴量を適切に設定しつつ、追加登録すべきでない不適切な人物(例えば、電気工事の業者)に対する追加登録用の顔特徴量が設定されてしまうことを防止することができる。
 また、本実施形態では、ユーザとの間でインタラクションを行って、追加登録用の顔特徴量に対応するユーザが特定され、追加登録用の顔特徴量が、特定されたユーザの顔特徴量として追加登録される(図9参照)。これにより、ユーザは、ホームエージェント装置10との簡単な短いインタラクションを行うだけで、追加登録用の顔特徴量をそのユーザの顔特徴量として追加登録することができる。従って、追加登録時の煩雑な作業をユーザに強いてしまうことを防止することができる。
 なお、本実施形態では、追加登録用の顔特徴量が追加登録されると、識別不能な顔特徴量は、順次、減っていくことになり、識別不能な顔特徴量の分布に基づいて設定される追加登録用の顔特徴量も順次減っていくことになる。従って、追加登録用の顔特徴量に対応するユーザを特定するための、ユーザとの間のインタラクションも順次減っていくことになる。従って、本実施形態では、ユーザとの間のインタラクションの回数も少ない回数で済むことになる。
 また、本実施形態では、追加登録用の顔特徴量と、取得されたユーザの顔特徴量との間の類似距離に基づいて、ユーザとの間のインタラクションを開始するかどうかが判定される(図9参照)。これにより、適切なタイミングで、ユーザとの間のインタラクションを開始させることができる。
 また、本実施形態では、追加登録用の顔特徴量と、取得されたユーザの顔特徴量との間の類似距離が第2の距離D2以下である場合に、ユーザとのインタラクションが開始される。そして、第2の距離D2が第1の距離D1以下とされている(図10参照)。つまり、本実施形態では、取得された顔特徴量が、追加登録用の顔特徴量に対して十分に近い場合に、ユーザとの間のインタラクションが開始される。これにより、追加登録用の顔特徴量が、誤って、間違ったユーザの顔特徴量として追加登録されてしまうことを防止することができる。
 また、本実施形態では、ユーザに対する質問の音声がスピーカ5から出力されて、ユーザとの間でインタラクションが行われる。従って、ユーザは、質問に対して簡単な返答をするだけで、追加登録用の顔特徴量を、そのユーザの顔特徴量として追加登録することができる。
 また、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量との類似距離に応じて、質問形式が変更される(図9参照)。従って、本実施形態では、ユーザに対して、適切な質問形式での質問を問いかけることができる。
 具体的には、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量と類似距離が第3の距離D3以下である場合、「・・さん、ですか?」等の第1の質問形式での質問が行われる。一方、類似距離が第3の距離D3を超える場合、「名前を教えていただけますか?」等の第2の質問形式での質問が行われる。このように、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量との類似距離に応じて、ユーザに対して、適切な質問形式での質問を問いかけることができる。
 また、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録する形態の場合、追加登録用の顔特徴量を、例えば、まだ登録を行っていない家族の一員の顔特徴量として追加登録することができる。
 また、ユーザの「こんにちは」等の応答の音声に基づいて、話者認識を実行する形態においても、ユーザは、ホームエージェント装置10との簡単な短いインタラクションを行うだけで、追加登録用の顔特徴量をそのユーザの顔特徴量として追加登録することができる。
≪各種変形例≫
 以上の説明では、特徴量がユーザの顔の特徴量である場合について説明した。一方、この特徴量は、ユーザの身体の全体又は一部から取得される特徴量であれば、どのような特徴量であってもよい。
 以上の説明では、撮像部3がホームエージェント装置10内にある場合について説明したが、撮像部3は、ホームエージェント装置10とは別体であってもよい。
 以上の説明では、情報処理装置の一例としてホームエージェント装置10を挙げて説明したが、情報処理装置は、ホームエージェント装置10に限られない。典型的には、住宅内、オフィス内、車内など、撮影される人物や撮像条件が、ある程度固定されている環境下に撮像部3が配置されていれば、本技術は、どのような装置であっても実現可能である。
 例えば、上記環境下において撮像部3により撮像された画像に基づいて、ネットワーク上のサーバ装置が上記した各処理を実行することも可能である。また、2以上の装置に分担して処理を行わせることも可能である。
 本技術は以下の構成をとることもできる。
(1)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する制御部
 を具備する情報処理装置。
(2)上記(1)に記載の情報処理装置であって、
 前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定する
 情報処理装置。
(3)上記(1)又は(2)に記載の情報処理装置であって、
 請求項1に記載の情報処理装置であって、
 前記制御部は、ユーザとの間でインタラクションを行って、前記追加登録用の特徴量に対応するユーザを特定する
 情報処理装置。
(4) 上記(2)に記載の情報処理装置であって、
 前記制御部は、特徴量空間において、前記識別不能な特徴量の密度を判定し、前記密度に応じて、前記領域を特定する
 情報処理装置。
(5) 上記(4)に記載の情報処理装置であって、
 前記制御部は、或る特定の前記識別不能な特徴量に対して第1の距離以内の範囲に存在する他の前記識別不能な特徴量の数を、前記密度として判定する
 情報処理装置。
(6) 上記(5)に記載の情報処理装置であって、
 前記制御部は、前記密度が、所定の閾値以上である場合、前記或る特定の識別不能な特徴量から前記第1の距離以内の前記範囲を前記領域として特定する
 情報処理装置。
(7) 上記(6)に記載の情報処理装置であって、
 前記制御部は、前記或る特定の識別不能な特徴量を前記追加登録用の特徴量として設定する
 情報処理装置。
(8) 上記(3)に記載の情報処理装置であって、
 前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の距離に基づいて、前記インタラクションを開始するかどうかを判定する
 情報処理装置。
(9) 上記(8)に記載の情報処理装置であって、
 前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の前記距離が第2の距離以下である場合、前記インタラクションを開始する
 情報処理装置。
(10) 上記(9)記載の情報処理装置であって、
 前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定し、
 前記領域は、前記追加登録用の特徴量からの距離が第1の距離以内の範囲であり、
 前記第2の距離は、第1の距離以下である
 情報処理装置。
(11) 上記(3)に記載の情報処理装置であって、
 前記制御部は、ユーザとの会話の音声を音出力部から出力させて、ユーザとの間でインタラクションを行う
 情報処理装置。
(12) 上記(11)に記載の情報処理装置であって、
 前記制御部は、ユーザに対する質問の音声を前記音出力部から出力させて、ユーザとの間でインタラクションを行う
 情報処理装置。
(13) 上記(12)に記載の情報処理装置であって、
 前記制御部は、前記質問の音声における質問形式を変更可能である
 情報処理装置。
(14) 上記(13)に記載の情報処理装置であって、
 前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離に応じて、前記質問形式を変更する
 情報処理装置。
(15) 上記(14)に記載の情報処理装置であって、
 前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離が第3の距離以下であるかどうかを判定し、前記距離が第3の距離以下である場合、前記登録済みの特徴量に対応するユーザであるかどうかをユーザに問いかける第1の質問形式での音声を前記音出力部から出力させる
 情報処理装置。
(16) 上記(15)に記載の情報処理装置であって、
 前記制御部は、前記距離が前記第3の距離を超える場合、ユーザに自身の名前を答えさせるように問いかける第2の質問形式での音声を前記音出力部から出力させる
 情報処理装置。
(17) 上記(16)に記載の情報処理装置であって、
 前記制御部は、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザであるかどうかを判定し、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザでない場合、追加登録用の特徴量を、新規ユーザの特徴量として登録する
 情報処理装置。
(18) 上記(11)に記載の情報処理装置であって、
 前記制御部は、前記音出力部から出力された前記会話の音声に対して応答されたユーザの音声の情報を取得し、前記ユーザの音声の情報に基づいて話者認識を実行して、ユーザを特定する
 情報処理装置。
(19)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、
 前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、
 前記追加登録用の特徴量に対応するユーザを特定し、
 前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する
 情報処理方法。
(20)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させるステップと、
 前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定するステップと、
 前記追加登録用の特徴量に対応するユーザを特定するステップと、
 前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録するステップと
 をコンピュータに実行させるプログラム。
 1…制御部
 2…記憶部
 3…撮像部
 4…投影部
 5…スピーカ
 6…マイクロフォン
 7…通信部
 10…ホームエージェント装置

Claims (20)

  1.  登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する制御部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定する
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記制御部は、ユーザとの間でインタラクションを行って、前記追加登録用の特徴量に対応するユーザを特定する
     情報処理装置。
  4.  請求項2に記載の情報処理装置であって、
     前記制御部は、特徴量空間において、前記識別不能な特徴量の密度を判定し、前記密度に応じて、前記領域を特定する
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記制御部は、或る特定の前記識別不能な特徴量に対して第1の距離以内の範囲に存在する他の前記識別不能な特徴量の数を、前記密度として判定する
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記制御部は、前記密度が、所定の閾値以上である場合、前記或る特定の識別不能な特徴量から前記第1の距離以内の前記範囲を前記領域として特定する
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記制御部は、前記或る特定の識別不能な特徴量を前記追加登録用の特徴量として設定する
     情報処理装置。
  8.  請求項3に記載の情報処理装置であって、
     前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の距離に基づいて、前記インタラクションを開始するかどうかを判定する
     情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の前記距離が第2の距離以下である場合、前記インタラクションを開始する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定し、
     前記領域は、前記追加登録用の特徴量からの距離が第1の距離以内の範囲であり、
     前記第2の距離は、第1の距離以下である
     情報処理装置。
  11.  請求項3に記載の情報処理装置であって、
     前記制御部は、ユーザとの会話の音声を音出力部から出力させて、ユーザとの間でインタラクションを行う
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記制御部は、ユーザに対する質問の音声を前記音出力部から出力させて、ユーザとの間でインタラクションを行う
     情報処理装置。
  13.  請求項12に記載の情報処理装置であって、
     前記制御部は、前記質問の音声における質問形式を変更可能である
     情報処理装置。
  14.  請求項13に記載の情報処理装置であって、
     前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離に応じて、前記質問形式を変更する
     情報処理装置。
  15.  請求項14に記載の情報処理装置であって、
     前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離が第3の距離以下であるかどうかを判定し、前記距離が第3の距離以下である場合、前記登録済みの特徴量に対応するユーザであるかどうかをユーザに問いかける第1の質問形式での音声を前記音出力部から出力させる
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記制御部は、前記距離が前記第3の距離を超える場合、ユーザに自身の名前を答えさせるように問いかける第2の質問形式での音声を前記音出力部から出力させる
     情報処理装置。
  17.  請求項16に記載の情報処理装置であって、
     前記制御部は、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザであるかどうかを判定し、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザでない場合、追加登録用の特徴量を、新規ユーザの特徴量として登録する
     情報処理装置。
  18.  請求項11に記載の情報処理装置であって、
     前記制御部は、前記音出力部から出力された前記会話の音声に対して応答されたユーザの音声の情報を取得し、前記ユーザの音声の情報に基づいて話者認識を実行して、ユーザを特定する
     情報処理装置。
  19.  登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、
     前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、
     前記追加登録用の特徴量に対応するユーザを特定し、
     前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する
     情報処理方法。
  20.  登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させるステップと、
     前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定するステップと、
     前記追加登録用の特徴量に対応するユーザを特定するステップと、
     前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録するステップと
     をコンピュータに実行させるプログラム。
PCT/JP2018/010703 2017-03-30 2018-03-19 情報処理装置、情報処理方法及びプログラム WO2018180666A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019509328A JP7070549B2 (ja) 2017-03-30 2018-03-19 情報処理装置、情報処理方法及びプログラム
US16/489,552 US11468592B2 (en) 2017-03-30 2018-03-19 Information processing apparatus and information processing method
JP2022076465A JP7400866B2 (ja) 2017-03-30 2022-05-06 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-067321 2017-03-30
JP2017067321 2017-03-30

Publications (1)

Publication Number Publication Date
WO2018180666A1 true WO2018180666A1 (ja) 2018-10-04

Family

ID=63675704

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/010703 WO2018180666A1 (ja) 2017-03-30 2018-03-19 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US11468592B2 (ja)
JP (2) JP7070549B2 (ja)
WO (1) WO2018180666A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023189581A1 (ja) * 2022-04-01 2023-10-05 ソニーグループ株式会社 移動体、制御装置、および制御方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945806B (zh) * 2017-11-10 2022-03-08 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013195377A (ja) * 2012-03-22 2013-09-30 Zenrin Datacom Co Ltd ナビゲーション装置、ナビゲーション方法、およびプログラム
WO2017017900A1 (ja) * 2015-07-27 2017-02-02 パナソニックIpマネジメント株式会社 顔照合装置およびこれを備えた顔照合システムならびに顔照合方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4595750B2 (ja) 2005-08-29 2010-12-08 ソニー株式会社 画像処理装置および方法、並びにプログラム
US10169646B2 (en) * 2007-12-31 2019-01-01 Applied Recognition Inc. Face authentication to mitigate spoofing
JP5451302B2 (ja) * 2009-10-19 2014-03-26 キヤノン株式会社 画像処理装置及び方法、プログラム及び記憶媒体
JP6025690B2 (ja) 2013-11-01 2016-11-16 ソニー株式会社 情報処理装置および情報処理方法
JP6427973B2 (ja) * 2014-06-12 2018-11-28 オムロン株式会社 画像認識装置及び画像認識装置への特徴量データ登録方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013195377A (ja) * 2012-03-22 2013-09-30 Zenrin Datacom Co Ltd ナビゲーション装置、ナビゲーション方法、およびプログラム
WO2017017900A1 (ja) * 2015-07-27 2017-02-02 パナソニックIpマネジメント株式会社 顔照合装置およびこれを備えた顔照合システムならびに顔照合方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023189581A1 (ja) * 2022-04-01 2023-10-05 ソニーグループ株式会社 移動体、制御装置、および制御方法

Also Published As

Publication number Publication date
JPWO2018180666A1 (ja) 2020-02-06
JP7400866B2 (ja) 2023-12-19
JP2022105553A (ja) 2022-07-14
JP7070549B2 (ja) 2022-05-18
US20200051273A1 (en) 2020-02-13
US11468592B2 (en) 2022-10-11

Similar Documents

Publication Publication Date Title
JP7400866B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN101686329B (zh) 操作输入设备和操作输入方法
CN101118366B (zh) 摄像设备及其控制方法
CN105512685B (zh) 物体识别方法和装置
US10115019B2 (en) Video categorization method and apparatus, and storage medium
JP5287333B2 (ja) 年令推定装置
CN102857693B (zh) 图像处理设备及其控制方法
JP2015104016A (ja) 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体
EP3188078A1 (en) Method and device for fingerprint identification
JP2012226665A (ja) 情報処理装置、その処理方法、プログラム及び撮像装置
CN103886284B (zh) 人物属性信息识别方法、装置及电子设备
CN105426485A (zh) 图像合并方法和装置、智能终端和服务器
CN110532957A (zh) 人脸识别方法及装置、电子设备和存储介质
JP5918996B2 (ja) 被写体認識装置および辞書データ登録方法
CN108509944A (zh) 指纹识别方法及装置
JP2010113682A (ja) 来訪者情報検索方法、来訪者情報検索装置およびインターホンシステム
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
CN112133296A (zh) 全双工语音控制方法、装置、存储介质及语音设备
CN110364150A (zh) 音箱控制方法及装置
WO2021073270A1 (zh) 风险管控方法、装置、计算机装置及存储介质
JP7087804B2 (ja) コミュニケーション支援装置、コミュニケーション支援システム及び通信方法
CN106446827A (zh) 虹膜识别功能检测方法和装置
JP2008148262A (ja) 撮像装置及び撮像装置の制御方法、プログラム及び記憶媒体
WO2018122960A1 (ja) 撮影者特定システム、撮影者特定方法およびプログラム
WO2021192311A1 (ja) 判定装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18777688

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019509328

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18777688

Country of ref document: EP

Kind code of ref document: A1