WO2020166173A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2020166173A1
WO2020166173A1 PCT/JP2019/046783 JP2019046783W WO2020166173A1 WO 2020166173 A1 WO2020166173 A1 WO 2020166173A1 JP 2019046783 W JP2019046783 W JP 2019046783W WO 2020166173 A1 WO2020166173 A1 WO 2020166173A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
authentication
user
control unit
word
Prior art date
Application number
PCT/JP2019/046783
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
祐平 滝
邦仁 澤井
真里 斎藤
真一 河野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/429,010 priority Critical patent/US20220199096A1/en
Priority to DE112019006868.7T priority patent/DE112019006868T5/de
Priority to JP2020572092A priority patent/JP7487668B2/ja
Publication of WO2020166173A1 publication Critical patent/WO2020166173A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2103Challenge-response

Definitions

  • the present disclosure relates to an information processing device and an information processing method.
  • Patent Document 1 discloses a technique of executing voice authentication processing based on acoustic information of a voice uttered by a user and a feature amount of a utterance phrase registered in advance by the user.
  • Patent Document 1 does not consider the change in accessibility based on the change in security strength as described above.
  • an authentication dialogue control unit that controls a dialogue with a user and performs a voice authentication process based on a user's utterance in the dialogue
  • the authentication dialogue control unit includes a challenge utterance including a hash seed word.
  • an authentication dialogue control unit that controls a dialogue with a user and executes a voice authentication process based on the utterance of the user in the dialogue, wherein the authentication dialogue control unit recognizes the recognized
  • an information processing device that determines the security strength of the voice authentication processing to be executed based on the surrounding situation of the user.
  • a challenge utterance sentence including a hash vocabulary word is generated by controlling a dialogue with a user and executing a voice authentication process based on the utterance of the user in the dialogue, and the challenge utterance is generated. And executing the voice authentication process based on the determination whether the response utterance sentence recognized based on the response utterance from the user with respect to the output challenge utterance includes a hash value word. Further provided is the information processing method, wherein the hash value word has a predetermined relationship defined by a word relationship rule with the hash seed word.
  • controlling a dialogue with a user and performing a voice authentication process based on the utterance of the user in the dialogue, which is performed based on a recognized surrounding situation of the user.
  • An information processing method is further provided, which further comprises determining the security strength of the voice authentication process.
  • FIG. 9 is a diagram for explaining an example of the flow of a hash seed word determination process by the authentication dialogue control unit 106 according to the embodiment. It is a figure for demonstrating an example of the flow of operation
  • FIG. 3 is a block diagram showing a hardware configuration example of an information processing terminal 10 and an information processing server 20 according to an embodiment of the present disclosure.
  • the voice authentication process means an authentication process based on whether or not the user speaks a predetermined phrase.
  • voice authentication can be used as an alternative to user authentication by inputting identification information and a password when using a service on the Internet. Further, the voice authentication can be used as an alternative authentication means when the user U forgets the identification information and the password. Besides, it is used as a means of additional authentication in the two-step verification. It can also be used to verify the identity of a visually impaired user when using a service on the Internet.
  • the technical idea according to the present disclosure was conceived in view of the above points, and has a function of executing the voice authentication process with the security strength determined based on the situation of the user U. According to such a function, it is possible to execute a voice authentication process that does not impose an excessive load on the user U and secures sufficient security.
  • FIG. 1 is a diagram for explaining a system configuration example according to the present embodiment.
  • the information processing system includes an information processing terminal 10, an information processing server 20, and a network 30.
  • the information processing terminal 10 is an information processing device that controls a dialogue with a user and executes a voice authentication process based on a user's utterance in the dialogue. Specifically, the information processing terminal 10 outputs the challenge utterance CS to the user, and executes the voice authentication process based on the response utterance RS from the user to the challenge utterance CS.
  • the challenge utterance CS is an utterance output at the time of voice authentication processing by the information processing terminal 10.
  • the information processing terminal 10 may execute the generation of the challenge utterance sentence CSS related to the challenge utterance CS by the information processing terminal 10 itself, or may request the information processing server 20 described later. Details of the voice authentication processing by the information processing terminal 10 will be described later.
  • the information processing terminal 10 may be, for example, a smartphone, a tablet, a PC (Personal Computer), a smart speaker, a wearable device, a hearable device, or the like.
  • the information processing terminal 10 may be a stationary or autonomous mobile dedicated terminal.
  • the information processing terminal 10 may be an ATM (Automatic Teller Machine), a digital signage device, or the like.
  • the information processing server 20 generates an utterance sentence related to the voice authentication process based on the request from the information processing terminal 10.
  • the utterance sentence related to the voice authentication process is, for example, a challenge utterance sentence CSS corresponding to the challenge utterance CS.
  • the information processing server 20 may be a server capable of providing a general-purpose chat dialogue service.
  • the network 30 is a wired or wireless transmission path of information between the information processing terminal 10 and the information processing server 20.
  • the network 30 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), WANs (Wide Area Networks), and the like.
  • the network 30 may also include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the configuration example of the information processing system according to the present embodiment has been described.
  • the configuration described above with reference to FIG. 1 is merely an example, and the functional configuration of the information processing system according to the present embodiment is not limited to this example.
  • the functional configuration of the information processing system according to this embodiment can be flexibly modified according to specifications and operation.
  • FIG. 2 is a diagram for explaining an example of the functional configuration of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 includes a voice input unit 101, a voice recognition unit 102, a natural language processing unit 103, an image input unit 104, an image recognition unit 105, an authentication dialogue control unit 106, a voice synthesis unit 107, a voice output unit 108, and a storage unit. And a communication unit 110.
  • the voice input unit 101 has a function of collecting sound information such as an utterance by the user.
  • the sound information collected by the voice input unit 101 is used for recognition processing by the voice recognition unit 102 described later.
  • the voice input unit 101 includes a microphone for collecting sound information.
  • the voice recognition unit 102 has a function of performing automatic voice recognition processing based on the user's utterance collected by the voice input unit 101 and generating a utterance sentence as a recognition result.
  • the natural language processing unit 103 performs a natural language understanding process on the result of the automatic voice recognition process by the voice recognition unit 102, and as the analysis result, the utterance sentence generated by the voice recognition unit 102 such as the intention of the utterance, the attribute of the word, and the concept. It has a function of executing the process given to the.
  • the natural language processing unit 103 includes, with respect to the utterance sentence recognized by the voice recognition unit 102, the utterance intention by the utterance intention understanding (NLU; Natural Language Understanding) process and the utterance sentence by the morphological analysis process.
  • NLU Natural Language Understanding
  • the semantic concept of each word is extracted by referring to the word attributes and the word semantic concept dictionary.
  • the result of the natural language processing by the natural language processing unit 103 is used for the voice authentication processing by the authentication dialogue control unit 106 described later.
  • the image input unit 104 has a function of capturing images of the user and surroundings.
  • the image captured by the image input unit 104 is used for user recognition and surrounding condition recognition by the image recognition unit 105 described later.
  • the image input unit 104 according to the present embodiment includes an image pickup device capable of picking up an image.
  • the above-mentioned images include moving images as well as still images.
  • the image recognition unit 105 has a function of performing various recognition processes based on the image captured by the image input unit 104.
  • the image recognition unit 105 according to the present embodiment can recognize the user, the surrounding situation, and the like from the above image, for example.
  • the surrounding situation is, for example, another person AP who is in the same place as the user U.
  • the result of the recognition processing by the image recognition unit 105 is used for the voice authentication processing by the authentication dialogue control unit 106.
  • the authentication dialogue control unit 106 has a function of controlling a dialogue with the user and executing a voice authentication process based on the user's utterance in the dialogue. Specifically, the authentication dialogue control unit 106 generates a challenge utterance sentence CSS, causes the voice output unit 108 to output the challenge utterance sentence CSS, and performs voice authentication based on the response utterance RS from the user to the output challenge utterance CS. Execute the process. Note that, hereinafter, voice authentication based on the challenge utterance CS and the response utterance RS is also referred to as a voice authentication dialogue.
  • the authentication dialogue control unit 106 performs, as the voice authentication process, the response utterance sentence analyzed by the natural language processing unit 103 based on the response utterance RS from the user to the challenge utterance CS output by the voice output unit 108. It is determined whether the RSS contains the hash value word. The authentication dialogue control unit 106 determines that the voice authentication is successful when the response utterance sentence RSS includes the hash value word.
  • the challenge utterance sentence CSS may be a utterance of a sentence capable of interacting with the user U.
  • the challenge utterance sentence CSS may be a list of words.
  • the challenge utterance CS includes a hash seed word defined in advance.
  • the hash seed word may be determined from among a plurality of predefined words.
  • the hash value word is a word having a predetermined relationship defined by the word relationship rule with the hash type word.
  • the word relation rule means a predetermined relation defined in advance between the hash seed word and the hash value word.
  • the word relation rule is, for example, that the predetermined character or syllable of the hash seed word is the same as the predetermined character or syllable of the hash value word.
  • the word relation rule is, for example, that the hash type word and the hash value word have the same number of characters (or the hash value word has a predetermined number of characters different from the hash type word).
  • the word conversion rule is that, for example, the first or last vowel or consonant of the hash seed word and the hash value word are the same.
  • the hash seed word may have a hash seed attribute that is a predetermined attribute that is defined in advance, and the hash value word is a predetermined attribute that is defined in advance, and a combination with the hash seed attribute may be stored in advance. It may have a defined hash value attribute.
  • the hash type attribute and the hash value attribute are attributes that represent the properties and characteristics of a predetermined hash type word and a predetermined hash value word, respectively.
  • the hash seed attribute is a superordinate concept of the hash seed word.
  • the hash seed attribute of the hash seed word “apple” is “food”, and the hash seed attribute of the hash seed word “dog” is “animal”. is there.
  • the hash seed attribute is, for example, the part of speech of the hash seed word.
  • the hash seed attribute is the part of speech of the hash seed word, for example, the hash seed attribute of the hash seed word “cute” is “adjective”, and the hash seed attribute of the hash seed word “after” is “connective”. ..
  • the hash type attribute is a place name, a person's name, a content name (such as a movie, music, or a character), a katakana word or a foreign word, and a start from a predetermined character.
  • the hash type attribute may be user's personal data, for example.
  • the user's personal data is, for example, a user's contact list or a schedule stored in the storage unit 109 described later.
  • the authentication dialogue control unit 106 may execute the voice authentication process based on whether the response utterance sentence RSS complies with the word relation rule without considering the hash type attribute and the hash value attribute.
  • the authentication dialogue control unit 106 may generate a challenge utterance sentence CSS including a hash seed word having a hash seed attribute defined in advance by the user U, and cause the voice output unit 108 to output the challenge utterance sentence CSS. Further, the authentication dialogue control unit 106 determines that the response utterance sentence RSS analyzed by the natural language processing unit 103 based on the response utterance RS from the user has a hash value attribute and is a word between the hash seed word and Whether or not the hash value word conforming to the relation rule is included is determined, and if the hash value word is included, it may be determined that the voice authentication is successful.
  • the authentication dialogue control unit 106 first determines whether or not the response utterance sentence RSS includes a word having a hash value attribute, and then the authentication dialogue control unit 106 determines that the response utterance sentence RSS is When the word having the hash value attribute is included, whether or not the response utterance sentence RSS includes the hash value word may be determined based on whether or not the word satisfies the word relation rule.
  • the voice authentication dialogue by the authentication dialogue control unit 106 is started, for example, when the information processing terminal 10 detects the voice authentication start utterance USS from the user U.
  • the voice authentication start utterance USS is an utterance of a predetermined phrase.
  • the voice authentication dialogue may be started based on the detection of the user U by the information processing terminal 10. For example, when the image recognition unit 105 recognizes the user U, the authentication dialogue control unit 106 may cause the voice output unit 108 to output a voice authentication start utterance USS such as “Good morning” to start the voice authentication dialogue.
  • the authentication dialogue control unit 106 may be combined with other authentication such as voice quality authentication and gesture other than the above-described voice authentication. For example, the authentication dialogue control unit 106 may determine that the user authentication has succeeded when both the voice authentication and the other authentication succeed. Alternatively, the authentication dialogue control unit 106 may execute the above-described voice authentication as an alternative authentication method for other authentications.
  • a plurality of combinations of the above-described hash type attribute, hash value attribute, and word relation rule may be specified in advance by the user U. For example, when the voice authentication fails, the authentication interaction control unit 106 may perform the voice authentication again with another combination of the hash type attribute, the hash value attribute, and the word relation rule.
  • the authentication dialogue control unit 106 can also make an utterance other than the challenge utterance CS.
  • the authentication dialogue control unit 106 may make an utterance for chatting with the user U.
  • a specific example of the voice authentication processing by the authentication dialogue control unit 106 will be described later.
  • the voice synthesis unit 107 has a function of performing voice synthesis under the control of the authentication dialogue control unit 106.
  • the voice output unit 108 has a function of outputting various sounds including voices under the control of the authentication dialogue control unit 106.
  • the voice output unit 108 outputs a utterance related to voice authentication such as a challenge utterance CS, for example.
  • the audio output unit 108 includes an audio output device such as a speaker or an amplifier.
  • the storage unit 109 has a function of storing information related to voice authentication processing by the authentication dialogue control unit 106.
  • Examples of the information related to the voice authentication process include user personal data used for voice authentication and a hash seed word database used when generating the challenge utterance sentence CSS.
  • the user personal data is information that is unlikely to be grasped by other APs, such as the place and corresponding date entered in the user U's calendar and the last name and first name of the contact list of the user U.
  • the communication unit 110 has a function of performing communication with the information processing server 20 under the control of the authentication dialogue control unit 106. Specifically, the communication unit 110 transmits the information requesting the generation of the utterance sentence to the information processing server 20, and receives the generated utterance sentence from the information processing server 20.
  • the functional configuration example of the information processing terminal 10 according to the present embodiment has been described above.
  • the above-described configuration described with reference to FIG. 2 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to this example.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly modified according to specifications and operation.
  • the authentication dialogue control unit 106 determines the security strength of the voice authentication process based on the presence of another person recognized by the image recognition unit 105.
  • the security strength referred to here is the difficulty in allowing another person to understand the method of voice authentication by the authentication dialogue control unit 106.
  • An example of voice authentication processing based on the presence of another person by the authentication dialogue control unit 106 will be described below.
  • FIG. 3 is a diagram for explaining an example of voice authentication processing by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 3 shows the user U1, the other person AP1, and the information processing terminal 10 which are the voice authentication targets.
  • the hash type attribute is “food”
  • the hash value attribute is “animal”
  • the word relation rule is “the first character of the hash type word and the hash value word is The same is defined by the user U1. Therefore, the hash value word in the example of FIG. 3 is a word in which the first character is the same as the first character of the hash seed word whose attribute is “food” and whose attribute is “animal”. It should be noted that the specific examples shown in FIG. 4 and subsequent figures will be described assuming that similar hash type attributes, hash value attributes, and word relation rules are defined unless otherwise specified.
  • the user U performs a voice authentication start utterance USS that starts voice authentication.
  • the authentication dialogue control unit 106 starts the voice authentication process based on the voice authentication start utterance USS of the user analyzed by the natural language processing unit 103.
  • the image input unit 104 photographs the situation of the user U1, and the image recognition unit 105 recognizes another person.
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS1 including “sandwiches” whose attribute is “food” based on the presence of the other person AP1 recognized by the image recognition unit 105, and utters the challenge utterance CS1.
  • the output unit 108 outputs it.
  • the user U1 makes a response utterance RS1 including “seals” based on the challenge utterance CS1.
  • “seals” is a word uttered by the user U1 based on the word “sandwiches” heard in the challenge utterance CS1.
  • the authentication dialogue control unit 106 detects “seals” in which the attribute is “animal” and the first character is “s” from the response utterance sentence RSS1 recognized from the response utterance RS1 by the user U1.
  • the authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word based on the detection of “seals”, and determines that the voice authentication process has succeeded. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the above is an example of the voice authentication dialogue control by the authentication dialogue control unit 106 when another person exists.
  • the voice authentication information is more likely to be grasped by another person. That is, as the number of others in the same place as the user U increases, it is necessary to further increase the security strength of the voice authentication process. Therefore, when the image recognition unit 105 recognizes the existence of another person, the authentication dialogue control unit 106 may determine the length of the challenge utterance sentence CSS to be generated based on the number of recognized other people. Specifically, the authentication dialogue control unit 106 may lengthen the challenge utterance sentence CSS generated as the number of recognized others increases.
  • FIG. 4 is a diagram for explaining an example of voice authentication processing based on the number of other persons recognized by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 4 shows a user U1, who is a voice authentication target, other users AP2 and AP3, and the information processing terminal 10.
  • the user U1 performs a voice authentication start utterance USS to start voice authentication.
  • the authentication dialogue control unit 106 starts the voice authentication process based on the voice authentication start utterance USS of the user U1 analyzed by the natural language processing unit 103.
  • the image input unit 104 photographs the situation of the user U1, and the image recognition unit 105 recognizes the existence of the other parties AP2 and AP3.
  • the authentication dialogue control unit 106 recognizes that the number of other APs is two (more than one shown in FIG. 3).
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS2 including the hash seed word “sandwiches” based on the existence of the other people AP2 and AP3 recognized by the image recognition unit 105, and outputs the voice as the challenge utterance CS2. It is output to the unit 108.
  • the challenge utterance sentence CSS2 is a utterance sentence longer than the challenge utterance sentence CSS1 described in FIG.
  • the user U1 performs the response utterance RS2 of the response utterance sentence RSS2 including “seals” based on the challenge utterance CS2.
  • the authentication dialogue control unit 106 detects “seals” having the attribute “animal” from the response utterance sentence RSS2 recognized from the response utterance RS2 by the user U1 and the response utterance sentence RSS2 analyzed by the natural language processing unit 103.
  • the authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word, and determines that the voice authentication process has succeeded. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • voice authentication can be performed while maintaining security even in a situation in which the number of others increases and the possibility that voice authentication information can be grasped increases. It will be possible.
  • the user U can understand the number of others in the same place by listening to the challenge utterance CS.
  • the authentication dialogue control unit 106 may cause the voice output unit 108 to output the fake utterance FCS in addition to the challenge utterance CS during the voice authentication dialogue.
  • the fake utterance FCS is an utterance in which the corresponding fake utterance sentence FCSS does not include a hash seed word.
  • FIG. 5 is a diagram for explaining an example of voice authentication dialogue control including fake utterance FCS by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 5 shows the user U1, who is the subject of voice authentication, the others AP1, AP4, and the information processing terminal 10.
  • the other person AP1 is the other person who was in the same place at the time of the voice authentication process of the previous user U1.
  • the authentication dialogue control unit 106 generates at least one fake utterance FCSS in addition to the challenge utterance CSS when, for example, another person AP1 recognized in the same place as the user U in the previous voice authentication process exists.
  • Fake utterance FCS may be output to the voice output unit 108.
  • the authentication dialogue control unit 106 causes the voice output unit 108 to output the next fake utterance FCS or challenge utterance CS based on the recognition of the fake response utterance FRS from the user U with respect to the output fake utterance FCS.
  • the fake utterance sentence FCSS may be a utterance sentence that is naturally connected to the response utterance sentence RSS and the fake response utterance FRS from the user U with respect to another fake utterance sentence FCSS.
  • the user U1 performs a voice authentication start utterance USS for starting voice authentication.
  • the authentication dialogue control unit 106 starts the voice authentication process based on the voice authentication start utterance USS of the user U1 analyzed by the natural language processing unit 103.
  • the image input unit 104 photographs the situation of the user U1, and the image recognition unit 105 recognizes the existence of another person including the other person AP1 who was in the same place at the time of the voice authentication process of the previous user U1.
  • the authentication dialogue control unit 106 generates the fake utterance sentence FCSS1 and causes the voice output unit 108 to output it as the fake utterance FCS1.
  • the user U1 performs the fake response utterance FRS1 which utters the fake response utterance sentence FRSS1 based on the fake utterance FCS1.
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS3 including the hash seed word “tunas” based on the fake response utterance FRS1 from the user U1 and outputs it to the voice output unit 108 as the challenge utterance CS3.
  • the user U1 performs the response utterance RS3 including “tigers” based on the challenge utterance CS3.
  • the authentication dialogue control unit 106 detects “tigers” having the hash value attribute “animal” and complying with the word conversion rule from the response utterance sentence RSS3 recognized based on the response utterance RS3.
  • the authentication dialogue control unit 106 determines that the response utterance sentence RSS3 includes the hash value word based on the detection of “tigers”, and determines that the voice authentication process has succeeded.
  • the authentication dialogue control unit 106 generates a fake utterance sentence FCSS2 and causes the voice output unit 108 to output the fake utterance sentence FCS2.
  • the user U performs the fake response utterance FRS2 that utters the fake response utterance sentence FRSS2 based on the fake utterance FCS2.
  • the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the authentication dialogue control unit 106 uses the word different from the word used in the voice authentication process as the hash seed word and the challenge utterance sentence CSS. May be generated. In this way, by using a word different from that used in the previous voice authentication process as the hash seed word, it is possible to prevent the voice authentication information from being guessed from the appearance of the same word in the challenge utterance CS.
  • the authentication dialogue control unit 106 determines the length of the challenge utterance sentence CSS generated based on the number of recognized other APs. Similarly, the authentication dialogue control unit 106 determines the number of fake utterances FCSS generated based on the number of other APs recognized by the image recognition unit 105, that is, the number of fake utterance FCSs to be output to the voice output unit 108. May be.
  • FIG. 6 is a diagram for explaining an example of voice authentication dialogue control including a fake utterance FCS, the number of which is determined based on the number of other APs by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 6 shows the user U who is the target of voice authentication, the others AP1, AP4, AP5, and the information processing terminal 10.
  • the other person AP1 is the other person who was in the same place at the time of the previous voice authentication process of the user U1, as in FIG.
  • the voice authentication start utterance USS to the fake response utterance FRS2 of the user U1 is the same as the utterance shown in FIG. 5, but on the other hand, after the fake response utterance FRS2, the authentication dialogue control unit 106 , Fake Utterance FCS3. The user U performs the fake response utterance FRS3 based on the fake utterance FCS3. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the challenge utterance sentence CSS corresponding to the output challenge utterance CS is too long, or a hash seed word that is difficult to associate with the hash value word according to the word relation rule is selected. It can be due to things etc. That is, this may be due to the generation of the challenge utterance CSS that makes it difficult for the user U1 to succeed in voice authentication.
  • the authentication dialogue control unit 106 may retry the voice authentication when the user U has the hash value attribute and cannot utter a word according to the word relation rule in the response utterance RS.
  • the retry of the voice authentication is to return to a stage where the authentication dialogue control unit 106 generates the challenge utterance sentence CSS, for example.
  • the authentication dialogue control unit 106 may generate a short challenge utterance sentence CSS by comparing with the previously generated challenge utterance sentence CSS.
  • FIG. 7 is a diagram for explaining an example of voice authentication processing at the time of retry by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 7 shows the user U1, who is the subject of voice authentication, the others AP6 and AP7, and the information processing terminal 10.
  • the user U1 performs the voice authentication start utterance USS.
  • the authentication dialogue control unit 106 of the information processing terminal 10 recognizes the voice authentication start utterance USS and starts the voice authentication process.
  • the image input unit 104 photographs the situation of the user U, and the image recognition unit 105 recognizes the existence of the other people AP6 and AP7.
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS4 including “sandwiches” based on the presence of another person recognized by the image recognition unit 105, and causes the voice output unit 108 to output the challenge utterance sentence CSS4.
  • the user U performs the response utterance RS4 of the response utterance sentence RSS4 including “turtles” based on the challenge utterance CS4.
  • the authentication dialogue control unit 106 detects “turtles” whose attribute is “animal” from the response utterance sentence RSS4 recognized from the response utterance RS4 by the user U.
  • the authentication dialogue control unit 106 detects that the detected “turtles” is not a word that complies with the word relation rule.
  • the authentication dialogue control unit 106 determines that the response utterance sentence RSS does not include the hash value word, and determines that the voice authentication process has not succeeded.
  • the authentication dialogue control unit 106 retries voice authentication, generates a challenge utterance sentence CSS5 including “carbonara”, and causes the voice output unit 108 to output the challenge utterance message CS5.
  • the challenge utterance sentence CSS5 here is a utterance sentence shorter than the challenge utterance sentence CSS4.
  • the user U1 performs the response utterance RS1 including “crab” based on the challenge utterance CS5.
  • the authentication dialogue control unit 106 detects “crab” whose attribute is “animal” from the response utterance sentence RSS1 recognized from the response utterance RS1 by the user U1.
  • the authentication dialogue control unit 106 detects that the detected “crab” is a word according to the word relation rule. The authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word based on the detection of “crab”, and determines that the voice authentication process has succeeded. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the number of hash seed words included in the challenge utterance sentence CSS may be increased.
  • the number of hash seed words included in the challenge utterance sentence CSS when the user U hears the challenge utterance CS, the possibility that all the parts corresponding to the hash seed word are missed is reduced.
  • FIG. 8 is a diagram for explaining an example of voice authentication processing at the time of retry by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 8 shows the user U1, who is the voice authentication target, the others AP8 and AP9, and the information processing terminal 10.
  • the voice authentication start utterance USS to the response utterance RS6 is the same as the voice authentication start utterance USS to the response utterance RS4 shown in FIG. 7.
  • the authentication dialogue control unit 106 retries voice authentication, generates a challenge utterance sentence CSS7 including “spaghetti” and “pizza”, and causes the voice output unit 108 to output it as the challenge utterance CS7.
  • the challenge utterance sentence CSS7 here is an utterance that includes more hash seed words than the challenge utterance sentence CSS5.
  • the user U1 performs the response utterance RS1 including “penguins” based on the challenge utterance CS5.
  • the authentication dialogue control unit 106 detects “penguins” whose attribute is “animal” from the response utterance sentence RSS1 recognized from the response utterance RS1 by the user U.
  • the authentication dialogue control unit 106 detects that the detected “penguins” is a word that complies with the word relation rule. The authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word based on the detection of “penguins”, and determines that the voice authentication process has succeeded. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the number of hash seed words included in the challenge utterance sentence CSS is increased to reduce the difficulty level of the voice authentication, thereby performing the voice authentication with the security strength suitable for the user U. It will be possible.
  • the authentication dialogue control unit 106 may retry voice authentication up to a predetermined number of times, and if the number of voice authentication retries exceeds the predetermined number of times, it may determine that the voice authentication fails.
  • FIG. 9 is a diagram for explaining an example of the voice authentication process by the authentication dialogue control unit 106 according to the present embodiment when another person is not recognized.
  • FIG. 9 shows the user U1 and the information processing terminal 10 to be voice-authenticated.
  • the user U1 performs the voice authentication start utterance USS.
  • the authentication dialogue control unit 106 of the information processing terminal 10 recognizes the voice authentication start utterance USS and starts the voice authentication process.
  • the image input unit 104 photographs the situation of the user U1, and the image recognition unit 105 recognizes that there is no other person.
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS8 of only the hash seed word “Sandwich” based on the fact that there is no other person by the image recognition unit 105, and outputs it to the voice output unit 108 as the challenge utterance CS8.
  • the user U1 makes a response utterance RS8 only for "Seal” based on the challenge utterance CS8.
  • the response utterance RS8 by the user U may be an utterance by an utterance sentence including a word other than the hash value word shown in FIG.
  • the authentication dialogue control unit 106 detects “Seal” whose attribute is “animal” from the response utterance sentence RSS1 recognized from the response utterance RS1 by the user U.
  • the authentication dialogue control unit 106 detects that the detected “Seal” is a word according to the word relation rule. The authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word based on the detection of “Seal”, and determines that the voice authentication process has succeeded. Finally, the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the generated challenge utterance sentence CSS is significantly shortened, so that the user U can perform the voice authentication without an extra burden. It will be possible.
  • the challenge utterance sentence CSS generated by the authentication dialogue control unit 106 is only the hash seed word, but of course the challenge utterance sentence CSS may include a word other than the hash seed word. ..
  • Dialogue control example 5 By the way, an example in which the hash type attribute and the hash value attribute are so-called “superordinate concepts” such as “food” and “animal” has been described above. However, the hash type attribute and the hash value attribute may be determined based on the personal data of the user U stored in the storage unit 109 of the information processing terminal 10, for example.
  • the hash type attribute is determined to be “place where the user U's calendar is entered” and the hash value attribute is determined to be “date when the place is entered to the calendar” based on the personal data of the user U. Good.
  • the word-related rule is "the place and date entered in the calendar correspond to each other".
  • the hash type attribute is “last name of person recorded in contact list of user U”
  • hash value attribute is “first name of person recorded in contact list of user U”
  • the word relation rule may be “the last name of the hash seed word and the name of the hash value word correspond (the combination of the last name and the relevant name is recorded in the contact list of the user U)”.
  • the authentication dialogue control unit 106 Since the authentication dialogue control unit 106 performs the voice authentication process based on the personal data of the user U, it becomes more difficult for another person to guess the voice authentication information, and the security strength can be increased.
  • FIG. 10 is a diagram for explaining an example of a voice authentication process using the user personal data by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 10 shows a user U1, who is a voice authentication target, another person AP10, AP11, and an information processing terminal 10.
  • the user U1 performs the voice authentication start utterance USS.
  • the authentication dialogue control unit 106 starts the voice authentication process based on the voice authentication start utterance USS of the user analyzed by the natural language processing unit 103.
  • the image input unit 104 photographs the situation of the user U, and the image recognition unit 105 recognizes the existence of the other parties AP10 and AP11.
  • the authentication dialogue control unit 106 generates a challenge utterance sentence CSS based on the presence of the other people AP10 and AP11 recognized by the image recognition unit 105, and the attribute is “location written in the schedule of the user U1”.
  • the challenge utterance CS9 including "ABCeach" is output to the voice output unit 108.
  • the user U1 performs the response utterance RS9 including "August 23”, which is the date when "ABC beach” is entered in the schedule based on the challenge utterance CS9.
  • the authentication dialogue control unit 106 detects “August 23” which is “the date when the place is entered in the schedule” from the response utterance sentence RSS9 recognized from the response utterance RS9 by the user U.
  • the authentication dialogue control unit 106 detects that "August 23" complies with the word relation rule, that is, "ABC beach” is the date entered.
  • the authentication dialogue control unit 106 determines that the response utterance sentence RSS includes the hash value word based on the detection of “August 23”, and determines that the voice authentication process has succeeded.
  • the authentication dialogue control unit 106 causes the voice output unit 108 to output the voice authentication completion utterance ASE that notifies the completion of the voice authentication, and the voice authentication process ends.
  • the security strength is determined based on the number of other people and the existence of another person who was in the same place as the user U at the time of previous voice authentication, but the method of determining the security strength is not limited to this example.
  • the authentication dialogue control unit 106 may determine the security strength of voice authentication based on the attention of another person.
  • the attention of another person means the degree of interest in the user U or the information processing terminal 10 based on, for example, the line of sight or the direction of the face of the other person.
  • the authentication dialogue control unit 106 may increase the security strength of voice authentication when there is another person who is interested in the user U or the information processing terminal 10.
  • the authentication dialogue control unit 106 may change the difficulty level of the voice authentication dialogue, that is, the security strength, according to the service that the user U wants to start using.
  • the authentication interaction control unit 106 may change the quality of voice output by the voice output unit 108 according to the combination of the hash type attribute, the hash value attribute, and the word relation rule.
  • the authentication dialogue control unit 106 may realize the authentication process described above by inputting and outputting a sentence with the user U.
  • the information processing terminal 10 may perform an affirmative determination or a negative determination on the fake utterance FCS of the fake response utterance sentence FRSS recognized based on the fake response utterance FRS from the user for the output fake utterance FCS. Good.
  • the positive determination or negative determination is used to generate the challenge utterance sentence CSS and the fake utterance sentence FCSS.
  • By making an affirmative decision or a negative decision with respect to the fake utterance FCS of the fake response utterance sentence FRSS it becomes easy to predict the reaction from the user U of the challenge utterance CS or fake utterance FCS that is generated, and a more natural dialogue is performed. be able to.
  • the natural language processing unit 103 detects a positive word or a negative word or a word group included in the fake response utterance sentence FRSS recognized from the fake response utterance FRS from the user U, and performs authentication dialogue control.
  • the unit 106 may perform an affirmative determination or a negative determination based on the word or word group.
  • the natural language processing unit 103 may calculate a score of a positive word, a negative word, or a word group included in the fake response utterance sentence FRSS recognized from the fake response utterance FRS from the user U. Further, for example, the authentication dialogue control unit 106 may make a positive determination or a negative determination based on whether the score calculated by the natural language processing unit 103 is equal to or higher than a predetermined value or equal to or lower than the predetermined value. For example, the authentication dialogue control unit 106 scores the fake response utterance FRSS in the range of -1.0 to +1.0, and if the score is, for example, -0.5 or less, a negative determination, +0.5 or more. If so, a positive determination may be made.
  • FIG. 11 is a diagram for explaining an example of an affirmative determination and a negative determination with respect to the fake utterance FCS of the fake response utterance sentence FRSS by the authentication dialogue control unit 106 according to the present embodiment.
  • FIG. 11 shows the user U1, who is the other party AP1, AP12, and the information processing terminal 10 which are voice authentication targets.
  • Voice authentication start utterance USS, fake utterance FCS5 to fake response utterance FRS6, voice authentication completion utterance ASE are the same as voice authentication start utterance USS, fake utterance FCS1 to fake response utterance FRS2, and voice authentication complete utterance ASE shown in FIG. Is.
  • the authentication dialogue control unit 106 makes an affirmative determination or a negative determination based on the score calculated by the natural language processing unit 103 for the fake response utterance sentence FRSS5 in which the fake response utterance FRS5 is recognized.
  • the natural language processing unit 103 calculates a score of “+0.8” for the fake response utterance sentence FRSS5, and the authentication dialogue control unit 106 determines for the fake response utterance sentence FRSS5 based on the score. And make an affirmative decision. Further, the natural language processing unit 103 calculates a score of “ ⁇ 0.6” for the fake response utterance sentence FRSS5, and the authentication dialogue control unit 106 denies the fake response utterance sentence FRSS5 based on the score. Make a decision. The determination result may be stored in the storage unit 109 or may be transmitted to the information processing server 20.
  • the data of the affirmative determination or the negative determination of the fake utterance FCS of the fake response utterance FRSS is accumulated and used for generating the utterance sentence, so that the dialog with the user U can be more naturally performed. ..
  • the positive determination or negative determination of the fake response utterance FRS by the authentication dialogue control unit 106 when there are two other persons has been described. You can go. Also, the same determination may be performed when the number of other persons is other than two or when no other person exists.
  • FIG. 12 is a diagram for explaining an example of an operation flow of processing related to voice authentication based on the output of the challenge utterance CS and the response utterance RS by the authentication dialogue control unit 106 according to the present embodiment.
  • the authentication dialogue control unit 106 acquires a word having a hash type attribute from the storage unit 109 (S101). In step S101, the authentication dialogue control unit 106 may acquire the word having the hash type attribute from the information processing server 20. Next, the authentication dialogue control unit 106 generates a challenge utterance sentence CSS including the hash seed word acquired in step S101, and outputs the challenge utterance sentence CSS to the voice output unit 108 as the challenge utterance CS (S102).
  • the authentication dialogue control unit 106 increments the number of retries (S104).
  • the authentication dialogue control unit 106 determines that the voice authentication has failed (S106), and the authentication dialogue control unit 106 ends the operation.
  • the process returns to step S101.
  • step S104 when the response utterance sentence RSS on which the natural language processing is executed is received from the natural language processing unit 103 (S103: Yes) and the response utterance sentence RSS does not include a word having a hash value attribute (S107). : No), and proceeds to step S104.
  • the response utterance sentence RSS on which the natural language processing is executed is received from the natural language processing unit 103 (S103: Yes)
  • the response utterance sentence RSS includes a word having a hash value attribute (S107: Yes)
  • the authentication dialogue control unit 106 determines a word having a hash value attribute included in the response utterance sentence RSS as a hash value word candidate (S108).
  • step S109 if there is no word conforming to the word relation rule between the hash value word candidate determined in step S108 and the hash type word (S109: No), the process proceeds to step S104. On the other hand, if there is a word conforming to the word relation rule between the hash value word candidate determined in step S108 and the hash type word (S109: Yes), the authentication dialogue control unit 106 determines that the voice authentication is successful. (S110), the authentication dialogue control unit 106 ends the operation.
  • FIG. 13 is a diagram for explaining an example of the flow of a challenge utterance sentence CSS generation process by the authentication dialogue control unit 106 according to the present embodiment.
  • the authentication dialogue control unit 106 when another person exists in the same place as the user U (S201: Yes), the authentication dialogue control unit 106 outputs a longer challenge utterance CSS as the number of recognized other persons increases. Then, the authentication interaction control unit 106 ends the operation (S202). On the other hand, when no other person exists in the same place as the user U (S201: No), the authentication dialogue control unit 106 generates a challenge utterance sentence CSS including only the hash seed word (S203), and the authentication dialogue control unit 106 End the operation. Note that in step S203, the authentication dialogue control unit 106 may generate a challenge utterance sentence CSS that includes a word other than the hash seed word and has a smaller number of words than the challenge utterance sentence CSS generated in step S202.
  • FIG. 14 is a diagram for explaining an example of the flow of a hash seed word determination process by the authentication dialogue control unit 106 according to the present embodiment.
  • the authentication interaction control unit 106 causes the storage unit 109 to store a word having a hash type attribute.
  • the hash seed word is randomly acquired from the stored hash seed word database and determined as the hash seed word (S302).
  • the authentication dialogue control unit 106 stores the hash seed word determined in step S302 and the information relating to another person in the same place as the user U in the storage unit 109 as user personal data (S303). 106 ends the operation.
  • the authentication dialogue control unit 106 determines the hash seed word used in the most recent authentication stored in the user personal data as the hash seed word to be used this time (S305). Next, the authentication dialogue control unit 106 stores, in the storage unit 109, the hash seed word determined in step S305 and the information regarding the other person in the same place as the user U as user personal data (S303). 106 ends the operation.
  • the authentication dialogue control unit 106 exists in the hash seed word database stored in the storage unit 109. From the words having the hash seed attribute, a word that has not been heard by another person who is present in the same place as the user U this time at the time of the voice authentication of the user U is learned and determined as the hash seed word (S307). Next, the authentication dialogue control unit 106 stores the hash seed word determined in step S307 and the information relating to another person in the same place as the user U in the storage unit 109 as user personal data (S303). 106 ends the operation.
  • FIG. 15A and FIG. 15B are diagrams for explaining an example of an operation flow of a process related to voice authentication including the fake utterance FCS by the authentication dialogue control unit 106 according to the present embodiment.
  • the authentication dialogue control unit 106 causes the user U to perform the previous voice authentication.
  • the number of times of fake utterance FCS is determined based on the number of others who were in the same place as (S402).
  • the authentication dialogue control unit 106 randomly determines the order of the challenge utterance CS and the fake utterance FCS (S403).
  • the authentication dialogue control unit 106 executes the voice authentication processing (S405).
  • the voice authentication process in step S405 is a process relating to the voice authentication dialogue control, an example of which is shown in FIG.
  • step S405 the authentication dialogue control unit 106 causes the voice output unit 108 to output that the voice authentication has failed (S407), and the authentication dialogue control unit 106 operates. To finish.
  • the authentication dialogue control unit 106 if the voice authentication is successful in step S405 (S406: Yes) and the fake dialogue and voice authentication dialogue are completed the number of times determined in step S402 (S408: Yes), the authentication dialogue control unit 106.
  • the fake dialogue and voice authentication dialogue of the number of times determined in step S402 are not completed (S408: No)
  • the process returns to step S404.
  • step S404 when it is not the order of the voice authentication dialogue for performing the challenge utterance CS in the utterance order determined in step S403 (S404: No), referring to FIG.
  • the fake utterance sentence FCSS that does not include the word having the hash type attribute is acquired, and the fake utterance FCS is output to the voice output unit 108 (S409).
  • the natural language processing unit 103 calculates the score of the fake response utterance FRSS from the user U (S410).
  • step S410 when the score calculated in step S410 is equal to or higher than the predetermined value (S411: Yes), the authentication dialogue control unit 106 sends the fake response utterance FRS to the information processing server 20 as a positive example (affirmative determination). (S412), and proceeds to step S408 shown in FIG. 15A.
  • step S410 when the score calculated in step S410 is not greater than or equal to the predetermined value (S411: No) and when the score calculated in step S410 is less than or equal to the predetermined value (S413: Yes), the authentication dialogue control unit 106 , The fake response utterance FRS is transmitted to the information processing server 20 as a negative example (negative determination) (S414), and the process proceeds to step S408 shown in FIG. 15A.
  • the score calculated in step S410 is not equal to or less than the predetermined value (S413: No)
  • the process proceeds to step S408 shown in FIG. 15A.
  • the authentication dialogue control unit 106 determines not to execute the fake dialogue, that is, the fake dialogue. Is determined to be zero (S416), and the process proceeds to step S405.
  • FIG. 16 is a block diagram showing a hardware configuration example of the information processing terminal 10 and the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing terminal 10 and the information processing server 20 are, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, and an input device 878.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Moreover, you may further include components other than the components shown here.
  • the processor 871 functions as, for example, an arithmetic processing device or a control device, and controls the overall operation of each component or a part thereof based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901. ..
  • the ROM 872 is means for storing programs read by the processor 871 and data used for calculation.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the processor 871 and various parameters that appropriately change when the program is executed.
  • the functions of the authentication dialogue control unit 106, the voice recognition unit 102, the natural language processing unit 103, the image recognition unit 105, and the voice synthesis unit 107 are realized by the processor 871, the ROM 872, and the RAM 873.
  • the processor 871, the ROM 872, and the RAM 873 are connected to each other, for example, via a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to the external bus 876, which has a relatively low data transmission rate, via the bridge 875, for example.
  • the external bus 876 is also connected to various components via the interface 877.
  • Input device 878 As the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used. Furthermore, as the input device 878, a remote controller (hereinafter, remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 878 includes a voice input device such as a microphone. The functions of the voice input unit 101 and the image input unit 104 are realized by the input device 878.
  • the output device 879 is, for example, a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile, and the acquired information to the user. It is a device capable of visually or audibly notifying. Further, the output device 879 according to the present disclosure includes various vibrating devices capable of outputting tactile stimuli. The function of the audio output unit 108 is realized by the output device 879.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, or a magneto-optical storage device is used.
  • the drive 881 is a device for reading information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writing information on the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, or the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • the function of the storage unit 109 is realized by the storage 880, the drive 881, the removable recording medium 901, and the like.
  • connection port 882 is, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or a port for connecting an external connection device 902 such as an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network, and includes, for example, a wired or wireless LAN, a Bluetooth (registered trademark) or a communication card for WUSB (Wireless USB), a router for optical communication, and an ADSL (Asymmetrical Digital). It is a router for Subscriber Line) or a modem for various communications.
  • the function of the communication unit 110 is realized by the communication device 883.
  • the information processing system has a function of executing the voice authentication process with the security strength determined based on the situation of the user. According to such a function, it is possible to execute the voice authentication process which does not impose an extra load on the user and which secures sufficient security.
  • An authentication dialogue control unit which controls a dialogue with a user and executes a voice authentication process based on a user's utterance in the dialogue, Equipped with The authentication dialogue control unit generates a challenge utterance sentence including a hash seed word, outputs it as a challenge utterance, and a response utterance sentence recognized based on the response utterance from the user to the output challenge utterance is hashed. Based on the determination of whether or not to include the value word, perform the voice authentication process, The hash value word has a predetermined relation with the hash seed word, which is defined by a word relation rule.
  • Information processing device which controls a dialogue with a user and executes a voice authentication process based on a user's utterance in the dialogue.
  • the hash seed word has a hash seed attribute that is a predefined attribute.
  • the hash value word is a predetermined attribute that is defined in advance, and has a hash value attribute in which a combination with the hash type attribute is defined in advance.
  • (3) The word relation rule is that the predetermined character or syllable of the hash value word is the same as the predetermined character or syllable of the hash seed word.
  • the authentication dialogue control unit When the presence of another person is recognized, the authentication dialogue control unit generates the challenge utterance sentence based on the recognized presence of the other person, and outputs the challenge utterance sentence as the challenge utterance.
  • the information processing apparatus according to any one of (1) to (3) above.
  • the authentication dialogue control unit determines the length of the challenge utterance sentence based on the number of the recognized other persons, generates the determined challenge utterance sentence, and outputs the challenge utterance sentence as the challenge utterance.
  • the information processing device according to (4).
  • the authentication dialogue control unit generates the challenge utterance sentence that becomes longer as the number of the recognized others increases, and outputs the challenge utterance sentence as the challenge utterance.
  • the authentication dialogue control unit is different from the hash seed word included in the challenge utterance sentence generated in the previous voice authentication process when the recognized other person is recognized in the previous voice authentication process.
  • the challenge utterance sentence including the hash seed word is generated and output as the challenge utterance, The information processing apparatus according to any one of (4) to (6) above.
  • the authentication dialogue control unit includes the hash seed word included in the challenge utterance sentence generated during the previous voice authentication process.
  • a challenge utterance sentence is generated and output as the challenge utterance, The information processing apparatus according to any one of (4) to (6) above.
  • the authentication dialogue control unit further generates a fake utterance sentence that does not include the hash seed word, and outputs it as a fake utterance.
  • the information processing apparatus according to any one of (4) to (8) above.
  • the authentication dialogue control unit determines the number of the fake utterance sentences based on the number of the recognized others, generates the determined number of the fake utterance sentences, and outputs each of the fake utterance sentences as the fake utterance. , The information processing device according to (9). (11) The authentication dialogue control unit outputs the challenge utterance and the fake utterance in a random order, The information processing apparatus according to (9) or (10). (12) The authentication dialogue control unit determines the length of the challenge utterance sentence based on the retry of the voice authentication process, generates the challenge utterance sentence of the determined length, and outputs the challenge utterance sentence as the challenge utterance, The information processing apparatus according to any one of (1) to (11) above.
  • the authentication dialogue control unit determines the number of the hash seed words included in the challenge utterance sentence based on the retry of the voice authentication process, and generates the challenge utterance sentence including the determined number of the hash seed words. And output it as the challenge utterance, The information processing apparatus according to any one of (1) to (12) above.
  • the authentication dialogue control unit determines the hash seed word and the word relation rule based on user information related to the user, generates the challenge utterance sentence including the determined hash seed word, and the challenge utterance. Output as The information processing apparatus according to any one of (1) to (13) above.
  • the authentication dialogue control unit executes affirmative determination or negative determination for the fake utterance of the fake response utterance sentence recognized based on the fake response utterance from the user for the output fake utterance, The positive determination or negative determination is used to generate the challenge utterance sentence and the fake utterance sentence,
  • the information processing apparatus according to any one of (9) to (11) above.
  • An authentication dialogue control unit that controls a dialogue with a user and executes a voice authentication process based on the utterance of the user in the dialogue, Equipped with The authentication dialogue control unit determines the security strength of the voice authentication processing to be executed based on the recognized surroundings of the user. Information processing device.
  • the user's surroundings include the number of recognized others, The authentication dialogue control unit determines the security strength of the voice authentication processing to be executed, based on the number of the recognized others.
  • the user's surroundings include whether or not the other person recognized during the authentication process for the user before the user, The authentication dialogue control unit determines the security strength of the voice authentication processing to be executed, based on whether or not the other person recognized at the time of the authentication processing for the previous user of the user exists.
  • the information processing device according to (17).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力されたチャレンジ発話に対するユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、音声認証処理を実行し、ハッシュ値ワードは、ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理装置が提供される。

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 一般的に、ユーザの認証は、識別情報およびパスワードを入力する方法により実行される場合が多い。しかし、近年、上記方法の代替として、ユーザの音声に基づく音声認証を行う技術が開発されている。例えば、特許文献1には、ユーザが発話した音声の音響情報およびユーザが予め登録した発話フレーズの特徴量に基づいて、音声認証処理を実行する技術が開示されている。
特開2014-182270号公報
 ところで、ユーザが所定のフレーズを発話したか否かに基づく音声認証の場合、音声認証の際にユーザの近くに他者が存在すると、当該他者に音声認証に係る発話が聞こえる可能性がある。
 しかし、一方で、セキュリティ性を考慮して、装置の発話音量を下げたり、また音声認証に係る情報を一部読み上げなかったりする場合、ユーザによる音声認証に係る情報の聞き逃しや見落としが発生する可能性がある。しかし、特許文献1では、上記のようなセキュリティ強度の変化に基づくアクセシビリティの変化については考慮されていない。
 本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理装置が提供される。
 また、本開示によれば、ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、情報処理装置が提供される。
 また、本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、を含み、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理方法が提供される。
 また、本開示によれば、ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、を含み、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、情報処理方法が提供される。
本実施形態に係るシステム構成例について説明するための図である。 同実施形態に係る情報処理端末10の機能構成の一例について説明するための図である。 同実施形態に係る認証対話制御部106による音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。 同実施形態に係る認証対話制御部106による他者の数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。 本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.背景
 2.実施形態
  2.1.システム構成例
  2.2.情報処理端末10の機能構成例
  2.3.具体例
   2.3.1.対話制御例1
   2.3.2.対話制御例2
   2.3.3.対話制御例3
   2.3.4.対話制御例4
   2.3.5.対話制御例5
   2.3.6.肯定否定判定例
  2.4.動作例
   2.4.1.音声認証対話動作例
   2.4.2.チャレンジ発話文CSSの生成例
   2.4.3.ハッシュ種ワードの決定例
   2.4.4.フェイク発話FCSを含む音声認証処理例
 3.ハードウェア構成例
 4.まとめ
 <1.背景>
 まず、本開示に係る背景について説明する。近年、ユーザUの音声発話に基づいて音声認証処理を実行する装置が開発されている。ここでの音声認証処理とは、ユーザが所定のフレーズを発話したか否かに基づく認証処理をいう。
 音声認証は種々の用途で使用される。例えば、音声認証は、インターネット上のサービスを利用する際の識別情報とパスワードの入力によるユーザ認証の代替手段として使用され得る。また、音声認証は、ユーザUが識別情報やパスワードを失念した場合の代わりの認証手段として使用され得る。他にも、2段階認証における追加の認証の手段として使用される。また、視覚に障害を有するユーザがインターネット上のサービスを利用する際の本人確認にも使用され得る。
 ところで、音声認証の際に、ユーザUの発話が聞こえる場所に他者が存在すると、当該他者がユーザUの発話音声を聞くことにより、ユーザUの所定のフレーズ等が他者に知られてしまう可能性がある。また、視覚に障害を有するユーザUの認証において、装置が認証処理に係る情報を読み上げる際に他者がユーザUの近くに存在する場合でも、他者がユーザUの発話を聞くことにより、認証処理に係る情報が他者に知られてしまう可能性がある。
 一方で、セキュリティ強度を上げるために、装置の発話音声の音量を小さくしたり、また装置が一部の音声認証に係る情報を読み上げなかったりする場合、ユーザUは必要な情報を聞き落としたり見落としたりする可能性が想定される。
 本開示に係る技術思想は上記の点に鑑みて発想されたものであり、ユーザUの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザUに余計な負荷をかけない、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。
 <2.実施形態>
 <<2.1.システム構成例>>
 まず、図1を参照して、本実施形態に係るシステム構成例について説明する。図1は、本実施形態に係るシステム構成例について説明するための図である。情報処理システムは、情報処理端末10、情報処理サーバ20、およびネットワーク30を備える。
 (情報処理端末10)
 情報処理端末10は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する情報処理装置である。具体的には、情報処理端末10は、チャレンジ発話CSをユーザに出力し、当該チャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて音声認証処理を実行する。ここで、チャレンジ発話CSは、情報処理端末10による音声認証処理の際に出力される発話である。情報処理端末10は、チャレンジ発話CSに係るチャレンジ発話文CSSの生成を、情報処理端末10自身で実行してもよいし、または後述する情報処理サーバ20に依頼してもよい。情報処理端末10による音声認証処理の詳細については後述する。
 なお、情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、スマートスピーカ、ウェアラブル装置、ヒアラブル装置などであってもよい。また、情報処理端末10は、据え置き型または自律移動型の専用端末であってもよい。例えば、情報処理端末10は、ATM(Automatic Teller Machine)やデジタルサイネージ装置などであってもよい。
 (情報処理サーバ20)
 情報処理サーバ20は、情報処理端末10からの依頼に基づいて音声認証処理に係る発話文を生成する。音声認証処理に係る発話文は、例えばチャレンジ発話CSに対応するチャレンジ発話文CSSである。例えば、情報処理サーバ20は、汎用の雑談対話サービスの提供が可能なサーバであってよい。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20との間での情報の有線、または無線の伝送路である。例えば、ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図1を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.2.情報処理端末10の機能構成例>>
 続いて、本実施形態に係る情報処理端末10の機能構成の一例について説明する。図2は、本実施形態に係る情報処理端末10の機能構成の一例について説明するための図である。情報処理端末10は、音声入力部101、音声認識部102、自然言語処理部103、画像入力部104、画像認識部105、認証対話制御部106、音声合成部107、音声出力部108、記憶部109、および通信部110を備える。
 (音声入力部101)
 音声入力部101は、ユーザによる発話などの音情報を収集する機能を有する。音声入力部101が収集する音情報は、後述する音声認識部102による認識処理に使用される。音声入力部101は、音情報を収集するためのマイクロフォンを備える。
 (音声認識部102)
 音声認識部102は、音声入力部101が収集したユーザの発話に基づく自動音声認識処理を行い、認識結果として発話文を生成する機能を有する。
 (自然言語処理部103)
 自然言語処理部103は、音声認識部102による自動音声認識処理の結果に対する自然言語理解処理を行い、解析結果として、発話の意図やワードの属性、概念などを音声認識部102が生成した発話文に付与する処理を実行する機能を有する。具体的には、自然言語処理部103は、音声認識部102が認識した発話文に対し、発話意図理解(NLU;Natural Language Understanding)処理による発話の意図や、形態素解析処理による発話文が含むそれぞれのワードの属性および単語意味概念辞書の参照によるそれぞれのワードの意味概念の抽出などを行う。自然言語処理部103による自然言語処理の結果は、後述する認証対話制御部106による音声認証処理に使用される。
 (画像入力部104)
 画像入力部104は、ユーザや周囲状況の画像を撮像する機能を有する。画像入力部104が撮像した画像は、後述する画像認識部105によるユーザ認識や周囲状況の認識に用いられる。本実施形態に係る画像入力部104は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (画像認識部105)
 画像認識部105は、画像入力部104が撮像した画像に基づく種々の認識処理を行う機能を有する。本実施形態に係る画像認識部105は、例えば、上記の画像からユーザや周辺状況などを認識することができる。ここで、周囲状況は、例えばユーザUと同じ場にいる他者APなどである。画像認識部105による認識処理の結果は、認証対話制御部106による音声認証処理に使用される。
 (認証対話制御部106)
 認証対話制御部106は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する機能を有する。具体的には、認証対話制御部106は、チャレンジ発話文CSSを生成して、チャレンジ発話CSとして音声出力部108に出力させ、出力したチャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて音声認証処理を実行する。なお、以下、チャレンジ発話CSおよびレスポンス発話RSに基づく音声認証を音声認証対話とも称する。
 さらに具体的には、認証対話制御部106は、音声認証処理として、音声出力部108に出力させたチャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて自然言語処理部103が解析したレスポンス発話文RSSが、ハッシュ値ワードを含むか否かの判定を行う。認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含む場合、音声認証の成功と判断する。
 チャレンジ発話文CSSは、ユーザUと対話が可能な文の発話であり得る。一方で、チャレンジ発話文CSSは、単語の羅列でもよい。
 チャレンジ発話CSは、予め規定されたハッシュ種ワードを含む。ハッシュ種ワードは、予め規定された複数のワードのうちから決定されてよい。ここで、ハッシュ値ワードは、ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有するワードである。
 ここで、ワード関係ルールとは、ハッシュ種ワードとハッシュ値ワードとの間の予め規定された所定の関係をいう。ワード関係ルールは、例えば、ハッシュ種ワードの所定番目の文字もしくは音節が、ハッシュ値ワードの所定番目の文字もしくは音節と同じであることなどである。ワード関係ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの文字数が同じであること(もしくはハッシュ値ワードがハッシュ種ワードと比較して文字数が所定数異なること)などである。また、ワード変換ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの最初もしくは最後の母音もしくは子音が同じであることである。
 また、ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有してよく、ハッシュ値ワードは、予め規定された所定の属性であり、かつ、ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有してよい。ハッシュ種属性およびハッシュ値属性は、それぞれ所定のハッシュ種ワード、所定のハッシュ値ワードが備える性質や特徴を表す属性である。
 以下、具体例について、ハッシュ種属性を例に挙げて説明する。なお、ハッシュ値属性についても同様である。例えば、ハッシュ種属性は、ハッシュ種ワードの上位概念である。ハッシュ種属性がハッシュ種ワードの上位概念である場合、例えば、ハッシュ種ワード「apple」のハッシュ種属性は「食べ物」であり、また、ハッシュ種ワード「dog」のハッシュ種属性は「動物」である。
 他にも、ハッシュ種属性は、例えばハッシュ種ワードの品詞である。ハッシュ種属性がハッシュ種ワードの品詞である場合、例えば、ハッシュ種ワード「cute」のハッシュ種属性は「形容詞」であり、また、ハッシュ種ワード「after」のハッシュ種属性は「接続詞」である。
 ハッシュ種属性の他の例は、地名や人名、(映画や音楽、キャラクタなどの)コンテンツ名であることや、カタカナ語や外来語であること、所定文字から始まることなどである。また、ハッシュ種属性は、例えば、ユーザの個人データでもよい。ユーザの個人データは、例えば後述する記憶部109が記憶するユーザの連絡先リストや予定表などである。なお、認証対話制御部106は、ハッシュ種属性およびハッシュ値属性を考慮せずに、レスポンス発話文RSSがワード関係ルールに則しているか否かに基づいて音声認証処理を実行してもよい。
 認証対話制御部106は、ユーザUにより予め規定されたハッシュ種属性を有するハッシュ種ワードを含むチャレンジ発話文CSSを生成し、チャレンジ発話CSとして音声出力部108に出力させてよい。また、認証対話制御部106は、ユーザからのレスポンス発話RSに基づいて自然言語処理部103により解析されたレスポンス発話文RSSが、ハッシュ値属性を有し、かつ、ハッシュ種ワードとの間でワード関係ルールに則するハッシュ値ワードを含むか否かの判定を行い、当該ハッシュ値ワードを含む場合、音声認証の成功と判断してよい。
 認証対話制御部106は、上記の判定において、まず、レスポンス発話文RSSがハッシュ値属性を有するワードが含むか否かの判定を行い、次に、認証対話制御部106は、レスポンス発話文RSSがハッシュ値属性を有するワードを含む場合に、当該ワードにワード関係ルールを満たすワードが存在するか否かに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むか否かを判定してもよい。
 認証対話制御部106による音声認証対話は、例えば、情報処理端末10がユーザUからの音声認証開始発話USSを検出することにより開始される。ここで、音声認証開始発話USSは、所定のフレーズの発話である。なお、音声認証対話は、情報処理端末10によるユーザUの検出に基づいて開始されてもよい。例えば、認証対話制御部106は、画像認識部105がユーザUを認識した場合、「おはよう」などの音声認証開始発話USSを音声出力部108に出力させて音声認証対話を開始してもよい。
 認証対話制御部106は、上述した音声認証以外に、声質認証やジェスチャ等の他の認証と組み合わせてもよい。例えば、認証対話制御部106は、音声認証と他の認証とが共に成功した場合に、ユーザ認証が成功したと判断してもよい。あるいは、認証対話制御部106は、他の認証に対する代替の認証方法として上述した音声認証を実行してもよい。
 上述したハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせは、ユーザUにより予め複数規定されてもよい。例えば、認証対話制御部106は、音声認証に失敗した場合、他のハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせにより再び音声認証を行ってもよい。
 なお、認証対話制御部106は、勿論、チャレンジ発話CS以外の発話を行うこともできる。例えば、認証対話制御部106は、ユーザUと雑談を行うための発話を行ってもよい。認証対話制御部106による音声認証処理の具体例については後述する。
 (音声合成部107)
 音声合成部107は、認証対話制御部106による制御に基づいて、音声合成を行う機能を有する。
 (音声出力部108)
 音声出力部108は、認証対話制御部106による制御に基づいて、音声を含む種々の音を出力する機能を有する。音声出力部108は、例えば、チャレンジ発話CSなどの音声認証に係る発話を出力する。音声出力部108は、例えばスピーカやアンプなどの音声出力装置を備える。
 (記憶部109)
 記憶部109は、認証対話制御部106による音声認証処理に係る情報を記憶する機能を有する。音声認証処理に係る情報としては、例えば、音声認証に使用されるユーザ個人データやチャレンジ発話文CSSの生成の際に使用されるハッシュ種ワードデータベースなどが挙げられる。ユーザ個人データは、例えばユーザUの予定表に記入されている場所および対応する日付やユーザUの連絡先リストの苗字および名前などの、他者APが把握する可能性が低い情報である。
 (通信部110)
 通信部110は、認証対話制御部106による制御に基づいて、情報処理サーバ20との通信を実行する機能を有する。具体的には、通信部110は、発話文の生成の依頼する情報を情報処理サーバ20に送信し、生成された発話文を情報処理サーバ20から受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.3.具体例>>
 [2.3.1.対話制御例1]
 続いて、図3~図11を参照して、本実施形態に係る認証対話制御部106による対話制御の具体例について説明する。上述したように、認証対話制御部106は、画像認識部105が認識した他者の存在に基づいて、音声認証処理のセキュリティ強度を決定する。ここでいうセキュリティ強度とは、認証対話制御部106による音声認証の方法が他者に把握されることの困難さをいう。以下、認証対話制御部106による他者の存在に基づく音声認証処理の例について説明する。
 図3は、本実施形態に係る認証対話制御部106による音声認証処理の一例について説明するための図である。図3には、音声認証対象のユーザU1、他者AP1、および情報処理端末10が示されている。
 図3の一例において、情報処理端末10は、ハッシュ種属性が「食べ物」であり、ハッシュ値属性が「動物」であり、ワード関係ルールが「ハッシュ種ワードおよびハッシュ値ワードの1番目の文字が同じ」であることがユーザU1により規定されている。従って、図3の一例におけるハッシュ値ワードは、属性が「食べ物」であるハッシュ種ワードの1番目の文字と、1番目の文字が同じであり属性が「動物」であるワードである。なお、図4以降で示される具体例についても、特別に言及されない限り、同様のハッシュ種属性、ハッシュ値属性、およびワード関係ルールが規定されているものとして説明する。
 まず、ユーザUは、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザの音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が他者を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者AP1の存在に基づいて属性が「食べ物」である「sandwiches」を含むチャレンジ発話文CSS1を生成し、チャレンジ発話CS1を音声出力部108に出力させる。
 次に、ユーザU1は、チャレンジ発話CS1に基づいて「seals」を含むレスポンス発話RS1を行う。ここで、「seals」は、ユーザU1がチャレンジ発話CS1で聞いた「sandwiches」の単語に基づいて発話した単語である。認証対話制御部106は、ユーザU1によるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」であり、かつ1番目の文字が「s」である「seals」を検出する。
 次に、認証対話制御部106は、「seals」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、チャレンジ発話CSおよびレスポンス発話RSを用いて音声認証処理を行うことで、同じ場に存在する他者による音声認証情報の把握を困難とすることが可能となる。
 以上、他者が存在する場合の認証対話制御部106による音声認証対話制御の一例である。ところで、例えば、ユーザUと同じ場にいる他者の数が多くなるに従って、音声認証情報が他者に把握される可能性が高くなる状況が想定される。つまり、ユーザUと同じ場にいる他者の数が多くなるに従って、音声認証処理のセキュリティ強度をより高くする必要がある。従って、認証対話制御部106は、画像認識部105が他者の存在を認識した場合、認識された他者の数に基づいて、生成するチャレンジ発話文CSSの長さを決定してよい。具体的には、認証対話制御部106は、認識された他者の数が多くなるに従って生成するチャレンジ発話文CSSを長くしてよい。
 ここで、図4を参照して、認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明する。図4は、本実施形態に係る認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明するための図である。図4には、音声認証対象のユーザU1、他者AP2、AP3、および情報処理端末10が示されている。
 まず、ユーザU1は、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザU1の音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が他者AP2、AP3の存在を認識する。ここで、認証対話制御部106は、他者APの数が2人であること(図3に示された1人よりも多いこと)を認識する。
 次に、認証対話制御部106は、画像認識部105が認識した他者AP2、AP3の存在に基づいて、ハッシュ種ワード「sandwiches」を含むチャレンジ発話文CSS2を生成し、チャレンジ発話CS2として音声出力部108に出力させる。ここで、チャレンジ発話文CSS2は、図3で説明したチャレンジ発話文CSS1よりも長い発話文である。
 次に、ユーザU1は、チャレンジ発話CS2に基づいて「seals」を含むレスポンス発話文RSS2のレスポンス発話RS2を行う。認証対話制御部106は、ユーザU1によるレスポンス発話RS2から認識されたレスポンス発話文RSS2から自然言語処理部103が解析したレスポンス発話文RSS2から属性が「動物」である「seals」を検出する。
 次に、認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、生成されるチャレンジ発話文CSSを長くすることで、他者の数が多くなり音声認証情報が把握される可能性が高くなる状況でもセキュリティ性を保ったまま音声認証を行うことが可能となる。また、ユーザUがチャレンジ発話CSを聞くことで、同じ場にいる他者の数を把握することも可能となる。
 [2.3.2.対話制御例2]
 上記ではユーザUと同じ場に他者が存在する場合、他者の数に応じて生成されるチャレンジ発話文CSSの長さが変更される例について説明した。ところで、以前の音声認証時にもユーザUと同じ場にいた他者が存在する場合、当該他者が以前のユーザUと情報処理端末10との対話も含めて音声認証情報を推定する可能性がある。他にも、認証対話制御部106は、上記と同様の場合、音声認証対話の際にチャレンジ発話CS以外にフェイク発話FCSを音声出力部108に出力させてもよい。チャレンジ発話CSとフェイク発話FCSとを混ぜることで、他者が音声認証情報を推測することがより困難となる。ここで、フェイク発話FCSとは、対応するフェイク発話文FCSSがハッシュ種ワードを含まない発話をいう。
 ここで、図5を参照して、認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明する。図5は、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。図5には、音声認証対象のユーザU1、他者AP1、AP4、および情報処理端末10が示されている。ここで、他者AP1は、以前のユーザU1の音声認証処理時に同じ場にいた他者である。
 認証対話制御部106は、例えば以前の音声認証処理時にユーザUと同じ場で認識されていた他者AP1が存在する場合、チャレンジ発話文CSSの他に、少なくとも1のフェイク発話文FCSSを生成し、フェイク発話FCSとして音声出力部108に出力させてよい。認証対話制御部106は、出力されたフェイク発話FCSに対するユーザUからのフェイクレスポンス発話FRSを認識したことに基づいて、次のフェイク発話FCSまたはチャレンジ発話CSを音声出力部108に出力させる。なお、フェイク発話文FCSSは、レスポンス発話文RSSや他のフェイク発話文FCSSに対するユーザUからのフェイクレスポンス発話FRSと自然に繋がるような発話文であってよい。
 以下、図5の一例について説明する。まず、ユーザU1は、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザU1の音声認証開始発話USSに基づいて、音声認証処理を開始する。
 次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が以前のユーザU1の音声認証処理時に同じ場にいた他者AP1を含む他者の存在を認識する。次に、認証対話制御部106は、フェイク発話文FCSS1を生成し、フェイク発話FCS1として音声出力部108に出力させる。次に、ユーザU1は、フェイク発話FCS1に基づいてフェイクレスポンス発話文FRSS1を発話するフェイクレスポンス発話FRS1を行う。
 次に、認証対話制御部106は、ユーザU1からのフェイクレスポンス発話FRS1に基づいて、ハッシュ種ワード「tunas」を含むチャレンジ発話文CSS3を生成し、チャレンジ発話CS3として音声出力部108に出力させる。ユーザU1は、チャレンジ発話CS3に基づいて「tigers」を含むレスポンス発話RS3を行う。認証対話制御部106は、レスポンス発話RS3に基づいて認識されたレスポンス発話文RSS3からハッシュ値属性「動物」を有し、かつ、ワード変換ルールに則する「tigers」を検出する。認証対話制御部106は、「tigers」を検出したことに基づいて、レスポンス発話文RSS3がハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。
 次に、認証対話制御部106は、フェイク発話文FCSS2を生成し、フェイク発話FCS2として音声出力部108に出力させる。次に、ユーザUは、フェイク発話FCS2に基づいてフェイクレスポンス発話文FRSS2を発話するフェイクレスポンス発話FRS2を行う。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、チャレンジ発話CS以外にフェイク発話FCSを用いて音声認証処理を行うことで、ユーザUと情報処理端末10との対話においていずれの発話で音声認証を行っているかの判別を困難にすることが可能となる。
 なお、認証対話制御部106は、以前の音声認証時にユーザUと同じ場にいた他者が存在する場合、当該音声認証処理において使用されたワードとは異なるワードをハッシュ種ワードとしてチャレンジ発話文CSSを生成してもよい。このように、以前の音声認証処理時とは異なるワードをハッシュ種ワードとすることで、チャレンジ発話CSにおける同じワードの出現からの音声認証情報の推測を防止することが可能となる。
 上記では認証対話制御部106は、認識された他者APの数に基づいて生成するチャレンジ発話文CSSの長さを決定する例について説明した。同様に、認証対話制御部106は、画像認識部105が認識した他者APの数に基づいて生成するフェイク発話文FCSSの数、すなわち音声出力部108に出力させるフェイク発話FCSの数を決定してもよい。
 ここで、図6を参照して、認証対話制御部106による他者APの数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明する。図6は、本実施形態に係る認証対話制御部106による他者の数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。図6には、音声認証対象のユーザU、他者AP1、AP4、AP5および情報処理端末10が示されている。ここで、他者AP1は、図5と同様に、以前のユーザU1の音声認証処理時に同じ場にいた他者である。
 図6の一例において、ユーザU1の音声認証開始発話USSからフェイクレスポンス発話FRS2までは図5に示された発話と同様であるが、一方で、フェイクレスポンス発話FRS2の後に、認証対話制御部106は、フェイク発話FCS3を行う。ユーザUは、フェイク発話FCS3に基づいてフェイクレスポンス発話FRS3を行う。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、認識された他者APの数に基づいてフェイク発話FCSの数を決定することで、いずれの発話で音声認証を行っているかの判別をより困難にすることが可能となる。
 以上、フェイク発話FCSを含む認証対話の例を説明した。図5および図6において、以前の音声認証時にユーザUと同じ場にいた他者が認識された場合について説明したが、勿論、認証対話制御部106は、以前の音声認証時にいなかった他者のみが認識された場合でも、フェイク発話FCSによる対話制御を行ってもよい。
 [2.3.3.対話制御例3]
 ところで、上述したチャレンジ発話CSに対するユーザU1からのレスポンス発話RSに基づく音声認証は、必ずしも成功するとは限らない。例えば、ユーザU1がハッシュ種ワードおよびワード関係ルールから、ハッシュ種ワードを連想できなかった状況や、チャレンジ発話CSにおけるハッシュ種ワードに対応する箇所を聞き逃した状況が発生し得る。
 そのような状況の発生は、例えば、出力されたチャレンジ発話CSに対応するチャレンジ発話文CSSが長すぎることや、ワード関係ルールに則したハッシュ値ワードの連想が困難なハッシュ種ワードが選択されたこと等に起因し得る。すなわち、ユーザU1にとって音声認証を成功させることが困難なチャレンジ発話文CSSが生成されたことに起因し得る。
 そのため、認証対話制御部106は、ユーザUがハッシュ値属性を有し、かつ、ワード関係ルールに則するワードをレスポンス発話RSにおいて発話できなかった場合、音声認証をリトライしてもよい。ここで、音声認証のリトライは、例えば認証対話制御部106がチャレンジ発話文CSSを生成する段階まで復帰することである。認証対話制御部106は、チャレンジ発話CSの実行に際し、ひとつ前に生成したチャレンジ発話文CSSと比較して、短いチャレンジ発話文CSSを生成してもよい。
 ここで、図7を参照して、認証対話制御部106によるリトライの際の音声認証処理の一例について説明する。図7は、本実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。図7には、音声認証対象のユーザU1、他者AP6、AP7および情報処理端末10が示されている。
 まず、ユーザU1は、音声認証開始発話USSを行う。情報処理端末10の認証対話制御部106は、音声認証開始発話USSを認識し音声認証処理を開始する。次に、画像入力部104がユーザUの状況を撮影し、画像認識部105が他者AP6、AP7の存在を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者の存在に基づいて「sandwiches」を含むチャレンジ発話文CSS4を生成し、チャレンジ発話CS4として音声出力部108に出力させる。
 次に、ユーザUは、チャレンジ発話CS4に基づいて「turtles」を含むレスポンス発話文RSS4のレスポンス発話RS4を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS4から認識されたレスポンス発話文RSS4から属性が「動物」である「turtles」を検出する。次に、認証対話制御部106は、検出した「turtles」がワード関係ルールに則するワードでないことを検出する。認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含まないと判定し、音声認証処理が成功しなかったと判断する。
 次に、認証対話制御部106は、音声認証をリトライし、「carbonara」を含むチャレンジ発話文CSS5を生成し、チャレンジ発話CS5として音声出力部108に出力させる。ここでのチャレンジ発話文CSS5は、チャレンジ発話文CSS4と比較して短い発話文である。
 次に、ユーザU1は、チャレンジ発話CS5に基づいて「crab」を含むレスポンス発話RS1を行う。認証対話制御部106は、ユーザU1によるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「crab」を検出する。
 次に、認証対話制御部106は、検出した「crab」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「crab」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、音声認証をリトライする場合に、チャレンジ発話文CSSを短くして音声認証の難易度を下げることにより、ユーザUにとって適するセキュリティ強度での音声認証を行うことが可能となる。
 上記では、音声認証をリトライする場合に、生成されるチャレンジ発話文CSSを短くする例について説明したが、チャレンジ発話文CSSが含むハッシュ種ワードの数を増やしてもよい。チャレンジ発話文CSSが含むハッシュ種ワードの数を増やすことにより、ユーザUがチャレンジ発話CSを聞く際に、ハッシュ種ワードにあたる箇所を全て聞き逃す可能性が低減する。
 ここで、図8を参照して、認証対話制御部106によるリトライの際の音声認証処理の一例について説明する。図8は、本実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。図8には、音声認証対象のユーザU1、他者AP8、AP9および情報処理端末10が示されている。
 ここで、音声認証開始発話USSからレスポンス発話RS6までは、図7に示された音声認証開始発話USSからレスポンス発話RS4までと同様である。
 次に、認証対話制御部106は、音声認証をリトライし、「spaghetti」および「pizza」を含むチャレンジ発話文CSS7を生成し、チャレンジ発話CS7として音声出力部108に出力させる。ここでのチャレンジ発話文CSS7は、チャレンジ発話文CSS5と比較して多くのハッシュ種ワードを含む発話である。
 次に、ユーザU1は、チャレンジ発話CS5に基づいて「penguins」を含むレスポンス発話RS1を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「penguins」を検出する。
 次に、認証対話制御部106は、検出した「penguins」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「penguins」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、音声認証をリトライする場合に、チャレンジ発話文CSSが含むハッシュ種ワードの数を増やして音声認証の難易度を下げることにより、ユーザUにとって適するセキュリティ強度での音声認証を行うことが可能となる。
 なお、認証対話制御部106は、音声認証のリトライを所定回数まで行ってもよく、音声認証のリトライが所定回数より多くなった場合、当該音声認証は失敗と判断してもよい。
 [2.3.4.対話制御例4]
 上記まではユーザUと同じ場に他者が存在する場合について説明したが、一方で、ユーザUと同じ場に他者が存在しない場合、他者に音声認証情報を聞かれる可能性が無いため、音声認証のセキュリティ強度を下げてもよい。例えば、認証対話制御部106は、画像認識部105が他者を認識しなかった場合、ハッシュ種ワードのみを、チャレンジ発話CSとして音声出力部108に出力させてもよい。
 ここで、図9を参照して、認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明する。図9は、本実施形態に係る認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。図9には、音声認証対象のユーザU1および情報処理端末10が示されている。
 まず、ユーザU1は、音声認証開始発話USSを行う。情報処理端末10の認証対話制御部106は、音声認証開始発話USSを認識し音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105は他者が存在しないことを認識する。次に、認証対話制御部106は、画像認識部105により他者が存在しないことに基づいてハッシュ種ワード「Sandwich」のみのチャレンジ発話文CSS8を生成し、チャレンジ発話CS8として音声出力部108に出力させる。
 次に、ユーザU1は、チャレンジ発話CS8に基づいて「Seal」のみのレスポンス発話RS8を行う。なお、ユーザUによるレスポンス発話RS8は、図9に示されるハッシュ値ワード以外のワードを含む発話文による発話でもよい。認証対話制御部106は、ユーザUによるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「Seal」を検出する。
 次に、認証対話制御部106は、検出した「Seal」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「Seal」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、音声認証時に同じ場に他者が存在しない場合には、生成されるチャレンジ発話文CSSを大幅に短くすることで、ユーザUが余計な負担を負うこと無く音声認証を行うことが可能となる。
 なお、図9に示された一例においては、認証対話制御部106が生成するチャレンジ発話文CSSはハッシュ種ワードのみであったが、勿論チャレンジ発話文CSSがハッシュ種ワード以外のワードを含んでもよい。
 [2.3.5.対話制御例5]
 ところで、上記まではハッシュ種属性およびハッシュ値属性が「食べ物」や「動物」などの所謂「上位概念」である例について説明してきた。しかし、ハッシュ種属性およびハッシュ値属性は、例えば情報処理端末10の記憶部109に記憶するユーザUの個人データに基づいて決定されてもよい。
 例えば、ユーザUの個人データに基づいてハッシュ種属性が「ユーザUの予定表に記入されている場所」、またハッシュ値属性が「予定表に場所が記入されている日付」と決定されてもよい。この場合、ワード関係ルールは、「予定表に記入されている場所と日付が対応していること」である。
 なお、他の例として、ハッシュ種属性が「ユーザUの連絡先リストに記録されている人の苗字」、またハッシュ値属性が「ユーザUの連絡先リストに記録されている人の名前」、ワード関係ルールは、「ハッシュ種ワードの苗字とハッシュ値ワードの名前が対応していること(当該苗字と当該名前の組み合わせがユーザUの連絡先リストに記録されていること)」でもよい。
 認証対話制御部106がユーザUの個人データに基づく音声認証処理を行うことで、他者が音声認証情報を推測することがより困難となり、セキュリティ強度を上げることができる。
 ここで、図10を参照して、認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明する。図10は、本実施形態に係る認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。図10には、音声認証対象のユーザU1、他者AP10、AP11および情報処理端末10が示されている。
 まず、ユーザU1は、音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザの音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザUの状況を撮影し、画像認識部105が他者AP10、AP11の存在を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者AP10、AP11の存在に基づいてチャレンジ発話文CSSを生成し、属性が「ユーザU1の予定表に記入されている場所」である「ABC beach」を含むチャレンジ発話CS9を音声出力部108に出力させる。
 次に、ユーザU1は、チャレンジ発話CS9に基づいて予定表のうちの「ABC beach」が記入されている日付である「August 23」を含むレスポンス発話RS9を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS9から認識されたレスポンス発話文RSS9から「予定表に場所が記入されている日付」である「August 23」を検出する。
 次に、認証対話制御部106は、「August 23」がワード関係ルールに則すること、すなわち「ABC beach」が記入されている日付であることを検出する。認証対話制御部106は、「August 23」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
 このように、他者にとってより把握が難しいユーザU個人のデータを用いることで、よりセキュリティ強度が高い音声認証を行うことが可能となる。
 以上、認証対話制御部106によるユーザの状況に応じたセキュリティ強度による音声認証処理について説明した。上述した例では、他者の数や以前の音声認証時にユーザUと同じ場にいた他者の存在に基づいてセキュリティ強度が決定されていたが、セキュリティ強度の決定方法は係る例に限定されない。例えば、認証対話制御部106は、他者のアテンションに基づいて音声認証のセキュリティ強度を決定してもよい。ここで、他者のアテンションとは、例えば他者の視線や顔の向きに基づくユーザUや情報処理端末10に対する関心の度合いをいう。認証対話制御部106は、ユーザUや情報処理端末10に対して関心がある他者が存在する場合、音声認証のセキュリティ強度を上げてもよい。
 また、認証対話制御部106は、ユーザUが利用を開始したいサービスに応じて、音声認証対話の難易度、すなわちセキュリティ強度を変更してもよい。他にも、認証対話制御部106は、ハッシュ種属性、ハッシュ値属性、ワード関係ルールの組み合わせに応じて、音声出力部108に出力させる音声の質を変更してもよい。なお、認証対話制御部106は、上記までに説明した認証処理を文章の入出力をユーザUとの間で行うことにより実現してもよい。
 [2.3.6.肯定否定判定例]
 以上、ユーザUと同じ場にいる他者の有無に応じた音声認証処理の具体例について説明した。ところで、音声認証において、情報処理端末10とユーザUとの間で行われる対話は他者にとって自然なやり取りである方が、当該対話内のいずれのタイミングで音声認証情報のやり取りが行われているかが分かりにくくなる。
 そのため、例えば、情報処理端末10は、出力されたフェイク発話FCSに対するユーザからのフェイクレスポンス発話FRSに基づいて認識されたフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定を実行してもよい。
 ここで、肯定判定もしくは否定判定は、チャレンジ発話文CSSおよびフェイク発話文FCSSの生成に利用される。フェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定を行うことで、生成されるチャレンジ発話CSやフェイク発話FCSのユーザUからの反応を予測することが容易となり、より自然な対話を行うことができる。
 具体的には、自然言語処理部103は、ユーザUからのフェイクレスポンス発話FRSから認識されたフェイクレスポンス発話文FRSSが含む肯定的な単語や否定的な単語もしくは単語群を検出し、認証対話制御部106は、当該単語もしくは単語群に基づいて肯定判定もしくは否定判定を実行してもよい。
 例えば、自然言語処理部103は、ユーザUからのフェイクレスポンス発話FRSから認識されたフェイクレスポンス発話文FRSSが含む肯定的な単語や否定的な単語もしくは単語群のスコアを算出してよい。また、例えば認証対話制御部106は、自然言語処理部103が算出したスコアが所定値以上かもしくは所定値以下かに基づいて肯定判定もしくは否定判定を行ってもよい。例えば、認証対話制御部106は、フェイクレスポンス発話文FRSSを-1.0~+1.0までの範囲でスコア付けして、スコアが例えば-0.5以下であれば否定判定、+0.5以上であれば肯定判定をしてもよい。
 ここで、図11を参照して、本実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明する。図11は、本実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明するための図である。図11には、音声認証対象のユーザU1、他者AP1、AP12および情報処理端末10が示されている。
 音声認証開始発話USS、フェイク発話FCS5~フェイクレスポンス発話FRS6、音声認証完了発話ASEは、図5で示された音声認証開始発話USS、フェイク発話FCS1~フェイクレスポンス発話FRS2、音声認証完了発話ASEと同様である。ここで、認証対話制御部106は、フェイクレスポンス発話FRS5が認識されたフェイクレスポンス発話文FRSS5に対して自然言語処理部103が算出したスコアに基づいて、肯定判定もしくは否定判定を行う。
 具体的には、自然言語処理部103は、フェイクレスポンス発話文FRSS5に対して「+0.8」のスコアを算出し、認証対話制御部106は、当該スコアに基づいてフェイクレスポンス発話文FRSS5に対して肯定判定を行う。また、自然言語処理部103は、フェイクレスポンス発話文FRSS5に対して「-0.6」のスコアを算出し、認証対話制御部106は、当該スコアに基づいてフェイクレスポンス発話文FRSS5に対して否定判定を行う。判定結果は、記憶部109に記憶されてもよいし、情報処理サーバ20に送信されてもよい。
 このように、フェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定のデータが蓄積され発話文の生成に利用されることで、ユーザUとの対話をより自然に行うことが可能となる。
 なお、図11の一例において他者が2人いる場合の認証対話制御部106によるフェイクレスポンス発話FRSに対する肯定判定もしくは否定判定について説明したが、勿論、チャレンジ発話CSに対するレスポンス発話RSへ同様の判定を行ってよい。また、他者が2人以外の場合や他者が存在しない場合においても、同様の判定を行ってよい。
 <<2.4.動作例>>
 続いて、図12~図15を参照して、本実施形態に係る認証対話制御部106による音声認証対話制御の動作の流れの一例について説明する。
 [2.4.1.音声認証対話動作例]
 まず、図12を参照して、本実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明する。図12は、本実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。
 図12を参照すると、まず、認証対話制御部106は、ユーザUからの音声認証開始発話USSが認識された場合、ハッシュ種属性を有するワードを記憶部109から取得する(S101)。ステップS101において、認証対話制御部106は、ハッシュ種属性を有するワードを情報処理サーバ20から取得してもよい。次に、認証対話制御部106は、ステップS101で取得されたハッシュ種ワードを含むチャレンジ発話文CSSを生成し、チャレンジ発話CSとして音声出力部108に出力させる(S102)。
 次に、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信しなかった場合(S103:No)、認証対話制御部106は、リトライ回数をインクリメントする(S104)。次に、リトライ回数が所定回数以上である場合(S105:Yes)、認証対話制御部106は音声認証失敗と判断し(S106)、認証対話制御部106は動作を終了する。一方、リトライ回数が所定回数以上でない場合(S105:No)、ステップS101へ復帰する。
 一方、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信した場合で(S103:Yes)、かつ、当該レスポンス発話文RSSがハッシュ値属性を有するワードを含まない場合(S107:No)、ステップS104へ進む。一方、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信した場合で(S103:Yes)、かつ、当該レスポンス発話文RSSがハッシュ値属性を有するワードを含む場合(S107:Yes)、認証対話制御部106は、レスポンス発話文RSSが含むハッシュ値属性を有するワードをハッシュ値ワード候補と決定する(S108)。
 次に、ステップS108で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在しない場合(S109:No)、ステップS104へ進む。一方、ステップS108で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在する場合(S109:Yes)、認証対話制御部106は音声認証成功と判断し(S110)、認証対話制御部106は動作を終了する。
 [2.4.2.チャレンジ発話文CSSの生成例]
 次に、図13を参照して、本実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明する。図13は、本実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明するための図である。
 図13を参照すると、まず、ユーザUと同じ場に他者が存在する場合(S201:Yes)、認証対話制御部106は、認識された他者の数が多くなるに従って長いチャレンジ発話文CSSを生成し(S202)、認証対話制御部106は動作を終了する。一方、ユーザUと同じ場に他者が存在しない場合(S201:No)、認証対話制御部106は、ハッシュ種ワードのみを含むチャレンジ発話文CSSを生成し(S203)、認証対話制御部106は動作を終了する。なお、ステップS203において、認証対話制御部106は、ステップS202で生成されるチャレンジ発話文CSSよりもワード数が少ない、ハッシュ種ワード以外のワードを含むチャレンジ発話文CSSを生成してもよい。
 [2.4.3.ハッシュ種ワードの決定例]
 次に、図14を参照して、本実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明する。図14は、本実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。
 図14を参照すると、まず、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在しない場合(S301:No)、認証対話制御部106は、ハッシュ種属性を有するワードを記憶部109が記憶するハッシュ種ワードデータベースからランダムに習得してハッシュ種ワードと決定する(S302)。次に、認証対話制御部106は、ステップS302で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
 一方、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在し場合で(S301:Yes)、かつ、認証対象のユーザU以外に同じ場に他者が存在しない場合(S304:No)、認証対話制御部106はユーザ個人データに記憶される直近の認証時に使用されたハッシュ種ワードを今回使用するハッシュ種ワードと決定する(S305)。次に、認証対話制御部106は、ステップS305で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
 また、一方、認証対象のユーザU以外に同じ場に他者が存在する場合で(S304:Yes)、かつ、ユーザ個人データ内に今回認識された他者に係る情報が記憶されていない場合(S306:No)、ステップS305へ進む。
 また、一方、ユーザ個人データ内に今回認識された他者に係る情報が記憶されている場合(S306:Yes)、認証対話制御部106は、記憶部109が記憶するハッシュ種ワードデータベースに存在するハッシュ種属性を有するワードから、今回ユーザUと同じ場に存在する他者がユーザUの音声認証時に聞いたことが無いワードを習得してハッシュ種ワードと決定する(S307)。次に、認証対話制御部106は、ステップS307で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
 [2.4.4.フェイク発話FCSを含む音声認証処理例]
 次に、図15Aおよび図15Bを参照して、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明する。図15Aおよび図15Bは、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。
 図15Aを参照すると、まず、ユーザU以外に以前の音声認証時にユーザUと同じ場にいた他者が存在する場合(S401:Yes)、認証対話制御部106は、以前の音声認証時にユーザUと同じ場にいた他者の数に基づいてフェイク発話FCSの回数を決定する(S402)。次に、認証対話制御部106は、チャレンジ発話CSおよびフェイク発話FCSの順番をランダムに決定する(S403)。
 次に、ステップS403で決定された発話の順番においてチャレンジ発話CSを行う音声認証対話の順番である場合(S404:Yes)、認証対話制御部106は音声認証処理を実行する(S405)。ここで、ステップS405における音声認証処理は、図12で一例が示された音声認証対話制御に係る処理である。
 次に、ステップS405で音声認証が失敗した場合(S406:No)、認証対話制御部106は、音声認証に失敗したことを音声出力部108に出力させ(S407)、認証対話制御部106は動作を終了する。また、一方、ステップS405で音声認証が成功した場合で(S406:Yes)、かつ、ステップS402で決定した回数のフェイク対話および音声認証対話が完了した場合(S408:Yes)、認証対話制御部106は、音声認証に成功したことを音声出力部108に出力させ(S415)、認証対話制御部106は動作を終了する。一方、ステップS402で決定した回数のフェイク対話および音声認証対話が完了していない場合(S408:No)、ステップS404へ復帰する。
 また、一方、ステップS403で決定された発話の順番においてチャレンジ発話CSを行う音声認証対話の順番でない場合(S404:No)、図15Bを参照すると、認証対話制御部106は、情報処理サーバ20からハッシュ種属性を有するワードを含まないフェイク発話文FCSSを取得しフェイク発話FCSをして音声出力部108に出力させる(S409)。次に、自然言語処理部103はユーザUからのフェイクレスポンス発話文FRSSのスコアを算出する(S410)。
 次に、ステップS410で算出されたスコアが所定値以上である場合(S411:Yes)、認証対話制御部106は、フェイクレスポンス発話FRSを正例(肯定判定)して情報処理サーバ20へ送信し(S412)、図15Aで示されたステップS408へ進む。
 一方、ステップS410で算出されたスコアが所定値以上でない場合で(S411:No)、かつ、ステップS410で算出されたスコアが所定値以下である場合(S413:Yes)、認証対話制御部106は、フェイクレスポンス発話FRSを負例(否定判定)として情報処理サーバ20へ送信し(S414)、図15Aで示されたステップS408へ進む。一方、ステップS410で算出されたスコアが所定値以下でない場合(S413:No)、図15Aで示されたステップS408へ進む。
 なお、ユーザU以外に以前の音声認証時にユーザUと同じ場にいた他者が存在しない場合は(S401:No)、認証対話制御部106は、フェイク対話を実行しないと決定し、すなわちフェイク対話の回数をゼロ回と決定し(S416)、ステップS405へ進む。
 <3.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図16は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図16を参照すると、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。プロセッサ871、ROM872、RAM873により認証対話制御部106、音声認識部102、自然言語処理部103、画像認識部105、音声合成部107の機能は実現される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。入力装置878により音声入力部101および画像入力部104の機能は実現される。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。出力装置879により音声出力部108の機能は実現される。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。ストレージ880、ドライブ881、リムーバブル記録媒体901等により記憶部109の機能は実現される。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。通信装置883により通信部110の機能は実現される。
 <4.まとめ>
 以上、説明したように、本実施形態に係る情報処理システムは、ユーザの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザに余計な負荷をかけずに、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
 を備え、
 前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
 前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
 情報処理装置。
(2)
 前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
 前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
 前記(1)に記載の情報処理装置。
(3)
 前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(4)に記載の情報処理装置。
(6)
 前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(5)に記載の情報処理装置。
(7)
 前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(4)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(4)~(6)のいずれか1項に記載の情報処理装置。
(9)
 前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
 前記(4)~(8)のいずれか1項に記載の情報処理装置。
(10)
 前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
 前記(9)に記載の情報処理装置。
(11)
 前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
 前記(9)または(10)に記載の情報処理装置。
(12)
 前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(1)~(12)のいずれか1項に記載の情報処理装置。
(14)
 前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
 前記(1)~(13)のいずれか1項に記載の情報処理装置。
(15)
 前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文の前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
 前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
 前記(9)~(11)のいずれか1項に記載の情報処理装置。
(16)
 ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、
 を備え、
 前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、
 情報処理装置。
(17)
 前記ユーザの周囲状況は、認識された他者の数を含み、
 前記認証対話制御部は、認識された前記他者の数に基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
 前記(16)に記載の情報処理装置。
(18)
 前記ユーザの周囲状況は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かを含み、
 前記認証対話制御部は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かに基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
 前記(17)に記載の情報処理装置。
(19)
 ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
 を含み、
 ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
 前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
 情報処理方法。
(20)
 ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、
 を含み、
 認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、
 情報処理方法。
 10  情報処理端末
 101 音声入力部
 102 音声認識部
 103 自然言語処理部
 104 画像入力部
 105 画像認識部
 106 認証対話制御部
 107 音声合成部
 108 音声出力部
 109 記憶部
 110 通信部
 20  情報処理サーバ
 30  ネットワーク

Claims (20)

  1.  ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
     を備え、
     前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
     前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
     情報処理装置。
  2.  前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
     前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
     請求項1に記載の情報処理装置。
  3.  前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
     請求項1に記載の情報処理装置。
  4.  前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項1に記載の情報処理装置。
  5.  前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項4に記載の情報処理装置。
  6.  前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項5に記載の情報処理装置。
  7.  前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項4に記載の情報処理装置。
  8.  前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項4に記載の情報処理装置。
  9.  前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
     請求項4に記載の情報処理装置。
  10.  前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
     請求項9に記載の情報処理装置。
  11.  前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
     請求項9に記載の情報処理装置。
  12.  前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項1に記載の情報処理装置。
  13.  前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項1に記載の情報処理装置。
  14.  前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
     請求項1に記載の情報処理装置。
  15.  前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文に対し、前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
     前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
     請求項9に記載の情報処理装置。
  16.  ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、
     を備え、
     前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、
     情報処理装置。
  17.  前記ユーザの周囲状況は、認識された他者の数を含み、
     前記認証対話制御部は、認識された前記他者の数に基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
     請求項16に記載の情報処理装置。
  18.  前記ユーザの周囲状況は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かを含み、
     前記認証対話制御部は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かに基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
     請求項17に記載の情報処理装置。
  19.  ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
     を含み、
     ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
     前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
     情報処理方法。
  20.  ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、
     を含み、
     認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、
     情報処理方法。
PCT/JP2019/046783 2019-02-15 2019-11-29 情報処理装置及び情報処理方法 WO2020166173A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/429,010 US20220199096A1 (en) 2019-02-15 2019-11-29 Information processing apparatus and information processing method
DE112019006868.7T DE112019006868T5 (de) 2019-02-15 2019-11-29 Datenverarbeitungseinrichtung und datenverarbeitungsverfahren
JP2020572092A JP7487668B2 (ja) 2019-02-15 2019-11-29 情報処理装置及び情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-025766 2019-02-15
JP2019025766 2019-02-15

Publications (1)

Publication Number Publication Date
WO2020166173A1 true WO2020166173A1 (ja) 2020-08-20

Family

ID=72044984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/046783 WO2020166173A1 (ja) 2019-02-15 2019-11-29 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20220199096A1 (ja)
JP (1) JP7487668B2 (ja)
DE (1) DE112019006868T5 (ja)
WO (1) WO2020166173A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014695A (ja) * 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 対話型本人認証方法および装置
JP2007522551A (ja) * 2004-01-30 2007-08-09 松下電器産業株式会社 複数選択チャレンジ−レスポンスユーザ認証システムおよび方法
US20180130475A1 (en) * 2016-11-07 2018-05-10 Cirrus Logic International Semiconductor Ltd. Methods and apparatus for biometric authentication in an electronic device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130006626A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Voice-based telecommunication login
JP2013037512A (ja) 2011-08-08 2013-02-21 Ricoh Co Ltd ソーシャルネットワーキングサービスシステム、ソーシャルネットワーキングサービスサーバ及びソーシャルネットワーキングサービスプログラム
US9286899B1 (en) * 2012-09-21 2016-03-15 Amazon Technologies, Inc. User authentication for devices using voice input or audio signatures
JP5646675B2 (ja) 2013-03-19 2014-12-24 ヤフー株式会社 情報処理装置及び方法
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
US10885091B1 (en) * 2017-12-12 2021-01-05 Amazon Technologies, Inc. System and method for content playback
KR102443632B1 (ko) * 2017-12-18 2022-09-15 삼성전자주식회사 전자 장치, 전자 시스템 및 그 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014695A (ja) * 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 対話型本人認証方法および装置
JP2007522551A (ja) * 2004-01-30 2007-08-09 松下電器産業株式会社 複数選択チャレンジ−レスポンスユーザ認証システムおよび方法
US20180130475A1 (en) * 2016-11-07 2018-05-10 Cirrus Logic International Semiconductor Ltd. Methods and apparatus for biometric authentication in an electronic device

Also Published As

Publication number Publication date
JP7487668B2 (ja) 2024-05-21
DE112019006868T5 (de) 2021-11-04
JPWO2020166173A1 (ja) 2021-12-23
US20220199096A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US9053096B2 (en) Language translation based on speaker-related information
KR102210775B1 (ko) 인적 상호 증명으로서 말하는 능력을 이용하는 기법
US10650827B2 (en) Communication method, and electronic device therefor
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
US20120281885A1 (en) System and method for dynamic facial features for speaker recognition
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
JP5834291B2 (ja) 音声認識装置、自動応答方法及び、自動応答プログラム
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
JP2010034695A (ja) 音声応答装置及び方法
US10916159B2 (en) Speech translation and recognition for the deaf
Berger et al. Prototype of a smart google glass solution for deaf (and hearing impaired) people
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
JP7487668B2 (ja) 情報処理装置及び情報処理方法
US11940896B2 (en) Information processing device, information processing method, and program
WO2017029850A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2018055022A (ja) 音声認識システム、情報処理装置、プログラム
JP5907231B1 (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6112239B2 (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
TWI835304B (zh) 人工智能聲控銀行交易系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19915149

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020572092

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 19915149

Country of ref document: EP

Kind code of ref document: A1