WO2006027844A1 - 話者照合装置 - Google Patents

話者照合装置 Download PDF

Info

Publication number
WO2006027844A1
WO2006027844A1 PCT/JP2004/013197 JP2004013197W WO2006027844A1 WO 2006027844 A1 WO2006027844 A1 WO 2006027844A1 JP 2004013197 W JP2004013197 W JP 2004013197W WO 2006027844 A1 WO2006027844 A1 WO 2006027844A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
unit
requester
authentication
standard pattern
Prior art date
Application number
PCT/JP2004/013197
Other languages
English (en)
French (fr)
Inventor
Jun Ishii
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to PCT/JP2004/013197 priority Critical patent/WO2006027844A1/ja
Priority to JP2006534954A priority patent/JPWO2006027844A1/ja
Publication of WO2006027844A1 publication Critical patent/WO2006027844A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Definitions

  • the present invention relates to a speaker verification device that determines whether a user's voice is a legitimate person by determining whether the voice of the user is the voice power of the person who declared it.
  • a user utters and registers voices corresponding to a plurality of words in advance, and indexes the plurality of registered words.
  • a user power index and a personal identifier are designated, and a word corresponding to this index is uttered. It is determined whether or not the user is a valid user by collating the voice that has been uttered with the corresponding voice registered in advance.
  • Patent Document 1 JP 2000-181490 A
  • Patent Document 2 JP 2002-269047
  • Patent Document 3 JP 2000-99090
  • Patent Document 4 JP 2000-338987 A
  • Patent Document 5 Japanese Patent Laid-Open No. 11082492
  • Patent Document 6 Japanese Patent Laid-Open No. 10-214096
  • Patent Document 7 JP 2001-331196 A
  • Non-Patent Document 1 "Speech Information Processing” Sadahiro Furui Morikita Publishing Co., Ltd.
  • Non-Patent Document 2 Satoshi Nakamura, Eri Yamamoto, Ryo Nagai, Kiyohiro Shikano “Speech Recognition and Lip Image Generation by Integration of Speech and Lip Images Using HMM” Spoken Language Information Processing P15-P17 Disclosure of Invention
  • the present invention has been made to solve the above-described problems. Even if it was recorded by another person, it was a misrepresentation.
  • the speaker verification device switches the previously presented speech unit to another speech unit when presenting to the authentication requester the speech unit to be uttered by the authentication requester.
  • the voice standard pattern prepared in association with the means, the voice unit to be presented and the personal identifier is compared with the voice standard pattern prepared and the voice uttered by the authentication requester to determine the similarity of the voice.
  • the speaker verification device is configured to switch the previously presented speech unit to another speech unit when presenting to the authentication requester the speech unit to be uttered by the authentication requester. Therefore, even if the content that the requester of the authentication uttered last time is recorded by another person, the recorded content cannot be used this time, so that the spoofing by another person can be prevented.
  • FIG. 1 is a configuration diagram of a speaker verification apparatus according to Embodiment 1 of the present invention.
  • 2, 5 and 6 are diagrams showing the contents presented by the voice unit presenting means according to the first embodiment of the present invention.
  • FIG. 3 is a conceptual diagram showing how the voice standard pattern 118 is stored in the registration database according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart showing the processing contents of the speaker verification device according to Embodiment 1 of the present invention.
  • reference numeral 100 denotes user registration means.
  • the registration requester 101 previously registers the registration requester voice 102, the personal identifier 103, and the personal identification character string 104 at the time of registration, so that the voice standard pattern 118 corresponding to the personal identifier 103 is obtained. (Refer to FIG. 3) and the password 104 are stored in the registration database 106.
  • Reference numeral 101 denotes a registration requester.
  • the registration requester 101 is expected to be a resident of this building. Applicants who are allowed to enter the building.
  • [0012] 102 is the voice of the registration requester.
  • the registration requester voice 102 generates a voice standard pattern 118 described later.
  • the voice recording method is obtained when the registration requester 101 reads out the text specified by the speaker verification device. Note that the text specified by the speaker verification device includes many syllable types, so that the speech standard pattern 118 can be generated with good quality.
  • speech standard pattern 118 expresses the characteristics of registration requester speech 102 efficiently.
  • the voice standard pattern is, for example, AD converted from the speech waveform of the registration requester's voice 102, and a digital signal is generated, and a feature value analysis is performed on this signal.
  • Subword HMM Hidden Markov Model. Details of the HMM are described in Non-Patent Document 1.
  • the voice feature amount is an expression of the voice signal efficiently, and for example, a cepstrum is used.
  • the personal identifier 103 is a personal identifier.
  • the personal identifier 103 is a code assigned to the registration requester 101 in order to identify the plurality of registration requesters 101. For example, a combination of alphanumeric characters is used. If the personal identifier is composed of alphabets, the first registered “Taro Suzuki” will be “AAA”, the second registered “Jiro Suzuki” will be “AAB”, and the third registered “Saburo Suzuki” Is assigned as “AAC” t.
  • the personal identification character string 104 is a code that is kept secret in order to prove that the user is an official user, and is registered in advance. For example, a combination of alphanumeric characters is used. If the password 104 is specified as a 4-digit number string, “9768”, “4361”, etc. can be set.
  • Reference numeral 105 denotes registration means. By inputting the registration requester voice 102, the personal identifier 103, and the password character string 104 into the registration means 105, the voice standard pattern 118 and the password character string 104 corresponding to the personal identifier 103 are registered in the registration database 106 described later.
  • the registration unit 105 includes a microphone, a keyboard, and the like. Each registration requester 101 registers a registration requester voice 102 using a microphone, and registers a password character string 104 using the keyboard.
  • Reference numeral 106 denotes a registration database.
  • the registration database 106 stores the voice standard pattern 118 generated by the registration means 105, the personal identifier 103, and the password character string 104.
  • voice The standard pattern 118 is stored so as to correspond to the personal identifier 103 and the standard pattern voice unit.
  • the standard pattern speech unit is composed of syllables, it is stored so as to correspond to the personal identifier 103 and each syllable 117.
  • the voice standard pattern 118 which is the voice standard pattern “A (/ a /)” of the syllable unit of the speaker registered with the personal identifier “AAB” is stored.
  • the voice standard pattern 118 corresponding to the authentication individual identifier 109 and the voice unit 130 (see FIG. 2) presented by the voice unit presenting means 111 can be selected.
  • the user recognition means 150 is a means for determining whether or not the authentication requester 107 is a valid user at the time of authentication. The similarity between the authentication requester voice 108 and the selected voice standard pattern 118 is obtained. It is to calculate.
  • Reference numeral 107 denotes an authentication requester.
  • the authentication requester 107 corresponds to the person who intends to enter the building when the speaker verification device that works in this embodiment is used for authentication when entering the building. For example, the registration requester 101 or a person who tries to enter the building by misrepresenting it.
  • Reference numeral 108 denotes an authentication requester voice.
  • the authentication requester voice 108 is a voice uttered by the authentication requester 107 in response to a voice unit 130 (see FIG. 2) presented by the voice unit presentation unit 111 described later.
  • 109 is an authentication personal identifier.
  • the authentication individual identifier 109 is a code for identifying the speaker declared by the authentication requester 107 at the time of authentication, and matches the registered individual identifier 103! /, Must be! /, .
  • [0022] 110 is a voice unit database that stores the voice unit 130 to be presented to the authentication requester 107.
  • the voice unit presenting means 111 presents a secret character string constituent character group 121 composed of the secret character string constituent characters 120, the voice unit 130, and the correspondence between the two.
  • “password character string constituent character 120” is a character constituting the password character string 104.
  • the password character string component character 120 corresponds to “0”, “1”, “2”.
  • the “voice unit 13 0” is a character string that the authentication requester 107 should utter.
  • FIG. 2 shows a plurality of combinations in which the speech unit 130 composed of words and the character string constituting character group 121 are associated with each other. “0”, “2”, and “6” correspond to the voice unit 130 of “Hachinohe (/ hatinohe /)”, and “1”, “2”, and “6” correspond to “/ keseNnuma /”.
  • the authentication requester 107 utters the voice unit 130 corresponding to the number string of the personal identification character string 104. If the password 104 of the authentication requester 107 is “5218”, the voice unit 130 “Sapporo (/ saQporo /)” corresponding to the first number 5 is spoken, and then the second number 2 is supported. Say “Hachinohe (/ hatinohe /)”. Furthermore, “Kesenuma (/ keseNnuma /)” corresponding to the third number 1 and “Sapporo (/ saQporo /)” corresponding to the fourth number 8 are continuously uttered.
  • the voice unit presenting means 111 switches the voice unit 130 presented last time to another voice unit 130 when presenting it to the authentication requester 107 and presents it. That is, the voice unit presenting means 111 switches at regular intervals when the voice unit 130 is switched every time it is used, when it is switched every time it is used twice, when it is switched every time it is used three times, or when it is switched randomly. In some cases, the same authentication requester 107 may be switched each time it is used.
  • Reference numeral 112 denotes a voice similarity calculation unit.
  • the voice similarity calculation means 112 selects the voice standard pattern 118 from the registration database 106 based on the input of the authentication personal identifier 109 and the presentation of the voice unit presentation means 111. For example, the authentication requester 107 inputs “AAB” as the authentication individual identifier 109, and the voice unit presenting means 111 continuously utters “Sapporo, Hachinohe, Kensuma, Sapporo” by the personal identification character string 104.
  • the voice similarity calculation means 112 reads “sa (/ sa /)”, “one (/ Q /”) corresponding to the authentication individual identifier 109 “AAB” from the registration database 106.
  • the selected speech standard pattern 118 is compared with each syllable of the authentication requester speech 108 uttered by the authentication requester 107, the speech similarity is calculated, and the similarity is output.
  • the calculation of speech similarity may be judged on the whole sentence by comparing the acoustic features of each syllable.
  • the similarity is described, for example, in “Speech Information Processing” Sadaaki Furui, June 1998, Chapter 5 of Morikita Publishing Co., Ltd. (hereinafter referred to as Reference 1). It is calculated by the method.
  • 113 is a threshold value.
  • the threshold value 113 is a predetermined reference value, and the authentication requester voice 108 serves as a reference for determination of voice power rejection by a legitimate user. If the similarity in the voice similarity calculation unit 112 is greater than the threshold 113, the authentication requester 107 is determined to be a valid user.
  • Reference numeral 114 denotes determination means for determining whether or not the authentication requester 107 has a valid user power. Based on the result of the voice similarity calculation means 112, the judgment means 114 judges whether or not the authentication requester voice 108 is a sound by a proper user. If the degree of similarity is greater than or equal to the threshold value 113, it is determined that the user is a legitimate user.
  • the authentication result 115 is an authentication result.
  • the authentication result 115 is an output from the determination means 114. If the authentication requester 107 is determined to be a legitimate user, it is “accepted”, and if it is determined to be a user for the purpose of misrepresentation, “rejected”. " For example, when the speaker verification device according to the present embodiment is used for authentication when entering a building, the door is unlocked when it is accepted, and when it is rejected. It remains locked.
  • FIG. 4 is a flowchart showing the processing contents of the speaker verification apparatus according to Embodiment 1 of the present invention. The operation is described below with reference to Fig. 4.
  • Step 11 of FIG. 4 is a step of registering information of the registration requester 101. That is, the registration requester 101 inputs his information, that is, the registration requester voice 102, the personal identifier 103, and the personal identification character string 104 to the registration means 105.
  • the registration unit 105 generates a voice standard pattern 118 based on the registration requester voice 102 and stores the voice standard pattern and the password character string in the registration database 106.
  • Step 12 is a step of presenting to the authentication requestor 107 the correspondence between the voice unit uttered by the authentication requestor 107 and the authentication character (group). That is, the authentication requester 107 is made to input the authentication personal identifier 109 to the speaker verification device.
  • the voice unit presenting means 111 presents the voice unit 130 to be uttered by the authentication requester 107.
  • the voice unit presenting means 111 presents the correspondence between the password character string constituting character group 121 and the voice unit 130 as shown in FIG.
  • the speech unit presenting means 111 switches the speech unit 130 presented last time to another speech unit 130 and presents it.
  • the voice unit presenting means 111 switches at regular intervals when the voice unit 130 is switched every time it is used, when it is switched every time it is used twice, when it is switched every time it is used three times, or when it is switched randomly. In some cases, the same authentication requester 107 may be switched each time it is used. If the administrator of the verification device wants to register a new voice unit 130, the voice unit database 110 should be updated! By adding one audio unit 130 to the audio unit database 110, it is possible to obtain the effect that the audio unit 130 can be presented to each registration requester 101. In addition, once the registration requester 101 registers the registration requester voice 102, the voice standard pattern 118 is automatically generated. Therefore, even if a new voice unit 130 is added, the registration requester voice 102 is newly added. You can get the effect of not having to record.
  • Step 13 is a step of comparing the authentication requester voice 108 uttered by the authentication requester 107 and the voice standard pattern 118 corresponding thereto at the time of authentication.
  • step 14 at the time of authentication, the determination unit 114 compares the audio similarity output from the audio similarity calculation unit 112 with a predetermined threshold 113, and the audio similarity is the threshold 113. If it is above, “accept” as a legitimate user, and if the voice similarity is smaller than the threshold value 113, “reject” is output as an authentication result 115 as a user for the purpose of fraud.
  • the registration means 105, the voice unit presentation means 111, the voice similarity calculation means 112, and the determination means 114 may be configured in one piece of software, but speaker verification describing the processing contents of each means A program may be created and the computer may execute the speaker verification program.
  • a force that explains the case of accepting or rejecting with one threshold 113 is determined.
  • a value may be set. For example, two types of thresholds A and B are prepared, and if the voice similarity is larger than the threshold A, it is determined that the user is a valid user, and if the voice similarity is between A and B, clear determination is impossible. If the voice similarity is smaller than B, then the person is determined to be the person who is the objection. By setting in this way, for example, when the speaker verification device is used for authentication when entering a building, if it is determined that the user is a valid user, the door is unlocked and determination is impossible. If it is determined, the voice unit presenting means 111 is presented to the authentication requester 107 again. If it is determined that the person is an impersonator, the door is not unlocked.
  • FIG. 5 there may be a case where a plurality of combinations in which one-to-one correspondence is made in one-to-one correspondence between a speech unit 130 having one hiragana character and one character string constituent character 120. For example, if the password 104 of the authentication requester 107 is “5218”, the authentication requester 107 will say “se”, “yu”, “ke”, “no”.
  • FIG. 6 there may be a case where a plurality of combinations in which a voice unit 130 having a single hiragana character and a password character string constituent character group 121 are associated with each other are presented.
  • “0”, “2”, “6” correspond to the voice unit 130 “ha”, “1”, “9” correspond to “ke”, and “yu” “3”, “4”, and “7” correspond, and “sa” is assigned so that “5” and “8” correspond.
  • the authentication requester 107 utters the voice unit 130 corresponding to the number string of the personal identification character string 104.
  • the voice unit 130 “sa” corresponding to the first number is uttered, and then “ha” corresponding to 2 is uttered. Furthermore, “K” corresponding to the third number “1” and “Sa” corresponding to “8” corresponding to the fourth number are continuously spoken. As described above, since a plurality of numbers are assigned to the speech unit 130, even if the content of the utterance is known to another person, the number string of the personal identification character string 104 is not uniquely known.
  • FIG. 7 is a configuration diagram of a speaker verification apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a flowchart showing the processing contents of the speaker verification device according to Embodiment 2 of the present invention.
  • the configuration of the speaker verification device according to the present embodiment will be described with reference to FIG. Note that description of portions common to Embodiment 1 is omitted.
  • reference numeral 201 denotes a registration requester attribute.
  • Registration requester attribute 201 is a registration request. This is information on the attributes of the person 101, such as gender, age, zodiac, blood type, and birthplace. For example, there is information such as “male, 22 years old, mouse year, type A, from Tokyo”.
  • Reference numeral 202 denotes registration means.
  • the registration means 202 includes a microphone, a keyboard, and the like.
  • Each registration requester 101 registers the registration requester voice 102 using a microphone so as to correspond to his / her personal identifier 103, and uses the keyboard.
  • Registration requester attribute 201 is registered.
  • Reference numeral 203 denotes a registration database.
  • the registration database 203 stores the voice standard pattern 118 and the registration requester attribute 201 generated by the registration unit 202.
  • the voice unit presenting means 204 presents a question regarding the attribute to the authentication requester 107. For example, "How many years are you?", “Which are you from?”, "What is your blood type?” This question is presented by switching the voice unit 130 to which the authentication requester 107 should answer the voice unit 130 previously presented to another voice unit 130. For example, if you present a requester 107 with "How many years are you?" And then ask the requester 107 who uses this speaker verification device, "Where are you from?” May be presented.
  • the response time calculation means 205 measures the time taken for the authentication requester 107 to utter the authentication requester voice 108. For example, the time required for the authentication requester 107 to respond until the start of utterance is measured after a question is made by the voice unit presentation unit 204.
  • the determination score calculation unit 206 is a score calculation means for determination.
  • the determination score calculation unit 206 calculates a determination score S from the response time output from the response time calculation unit 205 and the speech similarity output from the speech similarity calculation unit 112.
  • the determination score S is obtained by, for example, Equation 1 when the speech similarity is L (similarity is high if it is large) and the response time is Tr.
  • Equation 1 a is a weighting factor. According to Equation 1, the longer the response time Tr, the lower the judgment score.
  • Step 21 is a step in which the registration requester 101 inputs his / her registration requester voice 102, personal identifier 103, and registration requester attribute 201 to the registration means 202.
  • the registration requester voice 102 and the registration requester attribute 201 are input so as to correspond to the personal identifier 103.
  • the registration means 202 generates a voice standard pattern 118 based on the registration requester voice 102 and stores it in the registration database 203.
  • Step 22 is a step in which the speaker verification device asks the authentication requester 107 about the attribute. For example, ask "How many years are you?" These questions are presented by the voice unit presenting means 204 by switching the content presented previously. Therefore, the same voice unit 130 is presented even if another person tries to enter the building by recording the voice uttered by the requester 107. The possibility of being misrepresented is reduced because the possibility of being spoofed is reduced.
  • Step 23 is a step of measuring the time for which the authentication requester 107 utters the authentication requester voice 108.
  • Response time calculation means 205 measures the time for which the authentication requester 107 utters the authentication requester voice 108. Since legitimate users know their attributes, response time is generally shorter. For others, it takes time to prepare the correct answer to this question, and the response time increases.
  • step 24 based on the response time of the response time calculation means 205 and the voice similarity of the voice similarity calculation means 112, the authentication score requester 107 uses the judgment score calculation means 206 to determine the valid user power.
  • This is a step of calculating a score for determining whether or not.
  • the judgment means 114 compares the output of the judgment score calculation means with a predetermined threshold 113, and “accepts” if the output is greater than or equal to the threshold 113. For example, “reject” is output as the authentication result 115 because it is another person.
  • the voice unit 130 is less likely to be spoofed by the recorded voice.
  • the authentication requester 107 only has one action of answering the question, and the authentication requester 107 is judged whether or not it is a legitimate user from the two viewpoints of voice similarity and response time.
  • the requester 107 can perform a high-accuracy voice collation without troublesome procedures.
  • FIG. 9 is a configuration diagram of a speaker verification apparatus according to Embodiment 3 of the present invention.
  • Figure 10 shows the 12 is a flowchart showing processing contents of the speaker verification device according to the third embodiment.
  • the configuration of the speaker verification device according to the present embodiment will be described with reference to FIG. Note that description of parts common to Embodiment 1 or 2 is omitted.
  • reference numeral 301 denotes a registration requester lip image.
  • the registration requester lip image 301 is created in advance by allowing the registration requester 101 to read an article in a newspaper or magazine and recording the shape and movement of the lips at this time.
  • a lip image standard pattern to be described later is generated based on the registration requester lip image 301.
  • the “lip image pattern” is a subword HMM (Hidden
  • the lip image standard pattern refers to an expression that efficiently represents the image features of the above pattern (hereinafter, the lip image standard pattern will be described as being composed of syllable units).
  • the lip image standard pattern will be described as being composed of syllable units.
  • Satoshi Nakamura, Eri Yamamoto, Ryo Nagai, Kiyohiro Shikano “Speech recognition and lip image generation by integrating speech and lip images using HMM” Spoken Language Information Processing Study Group 15-17, Prepared by the method reported in February 1997 (hereinafter referred to as Reference 2).
  • Frequency analysis is performed by 256 FFT (Fast Fourier Transform). Then, the power spectrum in the spatial frequency domain is calculated and logarithmic scale smoothing is performed. Furthermore, dynamic features are obtained by taking the difference between frames.
  • the lip image standard pattern is an HMM with a structure of 256 distributions of powers vector and 256 distributions of the difference, and is created by the power spectrum and difference obtained from the lip image as described above.
  • 302 is a registration means.
  • the voice standard pattern 118 corresponding to the personal identifier 103 is entered into a registration database 303 described later.
  • the lip image standard pattern, and the registration requester attribute 201 are stored.
  • the registration means 302 includes a microphone and a camera. Each registration requester 101 corresponds to his / her personal identifier 103, registers the registration requester voice 102 by using the microphone, and requests registration by using the camera. A person's lip image 301 is registered.
  • Reference numeral 303 denotes a registration database.
  • the registration database 303 stores the voice standard pattern 118, the lip image standard pattern, and the registration requester attribute 201 generated by the registration unit 302.
  • Reference numeral 304 denotes an authentication requester lip image.
  • the authentication requester lip image 304 is obtained by recording a lip image in a state in which the question presented by the voice unit presentation unit 204 is answered.
  • Reference numeral 305 denotes a sound and lip image similarity calculation means.
  • the voice and lip image similarity calculation means 305 selects the voice standard pattern 118 and the lip image standard pattern from the registration database 303 based on the input of the authentication personal identifier 109 and the voice unit 130 of the voice unit presentation means 204. To do. For example, the authentication requester 107 inputs “AAB” as the authentication personal identifier 109, and in response to the question “Where are you from?” In the voice unit presentation means 204, the registration database 303 has the place of origin of the authentication personal identifier 109.
  • the voice and lip image similarity calculation means 305 reads “sa (/ sa /)” and “tsu (/ Q /)” corresponding to “AAB” from the registration database 303. , “Po (/ po /)”, “ro (/ ro /)” voice standard pattern 118 and lip image standard pattern are sequentially selected. Then, the authentication requester voice 108 and the authentication requester lip image 304 corresponding to the selected voice standard pattern 118 and lip image standard pattern are compared.
  • FIG. 10 is a flowchart showing the processing contents of the speaker verification device according to Embodiment 3 of the present invention. The operation is described below with reference to Fig. 10.
  • step 31 is a step of registering information of the registration requester 101.
  • the registration requester 101 inputs the registration requester voice 102, the personal identifier 103, the registration requester attribute 201, and the registration requester lip image 301 to the registration means 302.
  • the registration unit 302 generates a voice standard pattern 118 based on the registration requester voice 102, generates a lip image standard pattern based on the registration requester lip image 301, and stores both in the registration database 303.
  • the voice standard pattern 118 and the lip image standard pattern are stored so as to correspond to the personal identifier 103 and the syllable 117. By storing in this way, the voice standard pattern 118 and the lip image standard pattern corresponding to the authentication individual identifier 109 and the voice unit presentation means 204 can be selected.
  • step 32 the authentication requester 107 inputs the authentication personal identifier 109 to the speaker verification device.
  • the voice unit presenting means 204 makes a question regarding the attribute.
  • the authentication requester 107 utters the authentication requester voice 108 corresponding to the voice unit 130 requested by the voice unit presentation means 204.
  • Step 33 is a step of comparing the authentication requester voice 108 uttered by the authentication requester 107 with the corresponding voice standard pattern 118. Also, the authentication requester lip image 304 photographed when the authentication requester 107 speaks is compared with the corresponding lip image standard pattern. Compare the requester lip image 304 with the lip image standard pattern. For example, the authentication requester 107 inputs the authentication personal identifier 109 of “AAB” and the voice unit presenting means 204 asks “Who are you from? If the user asks "?", The lip image similarity calculation means searches the registration database 303 for "sa (/ sa /)", “one (/ Q /)" corresponding to the authentication individual identifier 109 "AAB".
  • Each selected lip image standard pattern and each authentication requester lip image 304 corresponding to the selected lip image standard pattern are compared to calculate the lip image similarity and output the similarity.
  • the authentication requester lip image 304 is an image of the lips from which the authentication requester 107 uttered the authentication requester voice 108, and the power spectrum and dynamic features of the power spectrum are extracted as feature amounts. To do.
  • the similarity between the authentication requester lip image 304 and the lip image standard pattern selected from the registration database 303 is calculated by the method shown in Chapter 5 of Reference 1.
  • the similarity for determination is obtained using the similarity L by voice and the similarity M by lip image.
  • the similarity for determination is, for example, a score shown in Formula 2 in which both are weighted and added.
  • Step 34 is a step in which the speaker verification device determines whether or not the authentication requester 107 is a valid user.
  • the previously presented speech unit 130 is switched to another speech unit 130, and the lip image is input together with the speech to calculate the similarity. It is difficult for others to be spoofed by sound recorded by a tape recorder or the like.
  • the authentication requester 107 can determine whether or not the authentication requester 107 is a legitimate user from the two viewpoints of sound and lip image by only one act of answering the question.
  • FIG. 11 is a configuration diagram of a speaker verification apparatus according to Embodiment 4 of the present invention.
  • FIG. 12 is a flowchart showing the processing contents of the speaker verification apparatus according to Embodiment 4 of the present invention.
  • the configuration of the speaker verification apparatus according to the present embodiment will be described with reference to FIG. Note that description of portions common to Embodiment 1, 2, or 3 is omitted.
  • 401 is a registration means.
  • the registration requester attribute 201 corresponding to the personal identifier 103 is registered in the registration database 402 described later.
  • Reference numeral 402 denotes a registration database.
  • the registration database 402 stores the registration requester attribute 201 in association with the personal identifier.
  • Reference numeral 403 denotes a collation voice standard pattern group.
  • the collation voice standard pattern group 403 is a group of voice standard patterns depending on attributes. For example, when the attributes are age and gender, the group is divided into a group of voice standard patterns for men in their 10s, a group of voice standard patterns for men in their 20s, and so on.
  • the collation speech standard pattern group 403 is created using, for example, speech feature amounts obtained by performing feature amount analysis on a digital signal obtained by performing AD conversion on a speech waveform of a male teenager.
  • Reference numeral 404 denotes a collation voice standard pattern group set.
  • the collation voice standard pattern group set 404 is a set of the collation voice standard pattern group 403.
  • Reference numeral 405 denotes collation voice standard pattern selection means.
  • the verification voice standard pattern selection means 405 takes out the data of the registration requester attribute 201 from the registration database 402 based on the inputted authentication personal identifier 109, and based on the data, the verification voice standard pattern
  • the voice standard pattern group for verification is selected from the group group set 405. For example, if the attribute of the authentication requester declared by the personal identifier 103 is a male in their 20s, the standard pattern group for matching in the 20s is selected.
  • FIG. 12 is a flowchart showing the processing contents of the speaker verification apparatus according to Embodiment 1 of the present invention. The operation is described below with reference to Fig. 12.
  • step 41 is a step of registering information of the registration requester 101.
  • the registration requester 101 inputs his / her personal identifier 103 and registration requester attribute 201 to the registration means 401.
  • the registration requester attribute 201 is registered so as to correspond to the personal identifier 103.
  • Step 42 is a step in which the authentication requester 107 inputs the authentication personal identifier 109 to the speaker verification device.
  • the voice unit presenting means 204 presents a question related to the attribute. For example, "Where are you from?" This question is presented by switching the previously presented content by the utterance unit presenting means 204.
  • Step 43 is a step of comparing the authentication requester voice 108 uttered by the authentication requester 107 and the corresponding verification voice standard pattern 118.
  • the verification voice standard pattern selection means 405 From the collation voice standard pattern group set 405, the voice standard pattern group for verification corresponding to the attribute of the authentication personal identifier 109 “AAB” is selected, and “sa (/ sa /)”, “one (/ Q /) ",” po (/ po /) ",” ro (/ ro /) "standard voice pattern 118 for matching is selected.
  • the selected speech standard pattern 118 for verification is compared with each syllable of the authentication requester speech 108 to calculate speech similarity and output the similarity.
  • Step 44 is a step in which the speaker verification device determines whether the authentication requester 107 is a valid user.
  • the voice unit 130 since the previously presented voice unit 130 is switched to the other voice unit 130, the voice unit 130 is presented to the other person by the voice recorded by the tape recorder or the like. Hateful. Also, since speaker verification is performed using attributes, prior voice registration Speaker verification can be realized even when registration requester 101 cannot register voice.
  • FIG. 1 is a configuration diagram of a speaker verification apparatus showing Embodiment 1 of the present invention.
  • FIG. 2 is an example showing the concept of voice unit presenting means in the first embodiment of the present invention.
  • FIG. 3 is a conceptual diagram of a storage mode of a voice standard pattern in a registration database according to Embodiment 1 of the present invention.
  • FIG. 4 is a flowchart showing the processing contents of the speaker verification device in the first embodiment of the present invention.
  • FIG. 5 is an example showing the concept of voice unit presentation means in the first embodiment of the present invention.
  • FIG. 6 is an example showing the concept of voice unit presentation means in the first embodiment of the present invention.
  • FIG. 7 is a configuration diagram of a speaker verification apparatus showing Embodiment 2 of the present invention.
  • FIG. 8 is a flowchart showing the processing contents of the speaker verification device in the second embodiment of the present invention.
  • FIG. 9 is a configuration diagram of a speaker verification apparatus showing Embodiment 3 of the present invention.
  • FIG. 10 is a flowchart showing the processing contents of the speaker verification device in the third embodiment of the present invention.
  • FIG. 11 is a configuration diagram of a speaker verification apparatus showing Embodiment 4 of the present invention.
  • FIG. 12 is a flowchart showing the processing contents of the speaker verification device in the fourth embodiment of the present invention.

Abstract

課題は、従来の話者照合装置は、予め、利用者が複数の単語に対応する音声をそれぞれ発生して登録するように構成されているので、発声する内容は、利用者が登録した単語に限定されるため、利用者が当該単語を発声した音声を他人に録音された場合には、簡単に詐称されてしまう問題があった。そこで、この発明は、上記のような課題を解決するためになされたものであり、発声した内容を他人に録音されても、詐称されにくくしたものである。

Description

話者照合装置
技術分野
[0001] 本発明は、利用者の音声が、申告した本人の音声力どうかを判定することにより、利 用者が正当な者力否かを判断する話者照合装置に関するものである。
背景技術
[0002] 従来の話者照合装置においては、予め、利用者が複数の単語に対応する音声をそ れぞれ発声して登録するとともに、登録した複数の単語に対してインデックスをつける 。照合時においては、利用者力インデックス及び個人識別子を指定し、このインデッ タスに対応した単語を発声する。この発声した音声とこれに対応し予め登録された音 声とを照合することにより、利用者が正当な利用者であるか否かを判断する。
[0003] 特許文献 1 :特開 2000— 181490
特許文献 2:特開 2002— 269047
特許文献 3:特開 2000— 99090
特許文献 4:特開 2000—338987
特許文献 5:特開平 11082492
特許文献 6:特開平 10— 214096
特許文献 7 :特開 2001— 331196
非特許文献 1 :「音声情報処理」古井 貞熙 森北出版株式会社
非特許文献 2 :中村哲、山本英里、永井論、鹿野清宏「HMMを用いた音声と唇画像 の統合による音声認識と唇画像生成」音声言語情報処理研究会 P15-P17 発明の開示
発明が解決しょうとする課題
[0004] 従来の話者照合装置は、以上のように構成されているので、発声する内容は、利用 者が登録した単語に限定されるため、利用者が当該単語を発声した音声を他人に録 音された場合には、簡単に詐称されてしまう問題があった。
[0005] この発明は、上記のような課題を解決するためになされたものであり、発声した内容を 他人に録音されても、詐称されに《したものである。
課題を解決するための手段
[0006] この発明に係る話者照合装置は、認証要求者に発声させるべき音声単位を認証要 求者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示する 音声単位提示手段と、この提示する音声単位と個人識別子とに対応づけて準備され る音声標準パターンと、この準備された音声標準パターンと上記認証要求者が発声 した音声とを比較して音声の類似度を計算する音声類似度計算手段と、この音声類 似度計算手段の計算結果に基づいて上記認証要求者が正当な利用者力否かを判 定する判定手段と、を備えるものである。
発明の効果
[0007] この発明に係る話者照合装置は、認証要求者に発声させるべき音声単位を認証要 求者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示する ようにしたので、認証要求者が前回発声した内容を他人に録音されても、その録音内 容を今回は利用できなくなるため、他人による詐称を防止することができる。
発明を実施するための最良の形態
[0008] 実施の形態 1.
図 1は、本発明の実施の形態 1による話者照合装置の構成図である。図 2、図 5、図 6 は、本発明の実施の形態 1による音声単位提示手段による提示内容を示す図である 。図 3は、本発明の実施の形態 1による登録データベースにおける音声標準パターン 118の格納態様の概念図である。図 4は、本発明の実施の形態 1による話者照合装 置の処理内容を示すフローチャートである。
[0009] 次に、図 1乃至 3を用いて本実施の形態における話者照合装置の構成を説明する。
[0010] 図 1において、 100は、利用者登録手段である。利用者登録手段 100は、登録時に おいて登録要求者 101が、予め登録要求者音声 102、個人識別子 103及び暗証文 字列 104を登録することにより、個人識別子 103に対応させて音声標準パターン 118 (図 3参照)及び暗証文字列 104を登録データベース 106に格納する手段である。
[0011] 101は、登録要求者である。登録要求者 101は、例えば、本実施の形態に力かる話 者照合装置がビルに入る際の認証に使用される場合には、このビルの居住人等、予 めビルに入ることが許可されている者が該当する。
[0012] 102は、登録要求者の音声である。この登録要求者音声 102により後述する音声標 準パターン 118を生成する。音声の録音の仕方は、話者照合装置が指定した文章を 登録要求者 101が読み上げることで得る。なお、話者照合装置が指定する文章は多 くの音節の種類が含まれるようにすることで、質の良 、音声標準パターン 118を生成 することができる。
[0013] ここで「音声標準パターン 118」とは、登録要求者音声 102の特徴を効率よく表現す るものである。音声標準パターンは、例えば、登録要求者音声 102の音声波形を AD 変換してデジタル信号を生成し、この信号に対して特徴量分析を行って得られた音 声特徴量によって学習した音節単位のサブワード HMM (Hidden Markov Model)で ある。 HMMに関しては非特許文献 1に詳細が記されている。音声特徴量とは、音声 信号を効率よく表現するものであり、例えばケプストラムを用いる。
[0014] 103は、個人識別子である。個人識別子 103は、複数の登録要求者 101を識別する ために登録要求者 101に割り当てられた符号であり、例えば英数字の組合せを用い る。個人識別子がアルファベットで構成されている場合、最初に登録した「鈴木太郎」 には「AAA」、二番目に登録した「鈴木次郎」には「AAB」、三番目に登録した「鈴木 三郎」には「AAC」 t 、う様に割り当てる。
[0015] 104は、暗証文字列である。暗証文字列 104は、正式な利用者であることを証明する ために秘密にし、予め登録しておく符号であり、例えば英数字の組合せを用いる。暗 証文字列 104が 4桁の数字列と指定されている場合、「9768」「4361」などが設定可 能である。
[0016] 105は、登録手段である。登録手段 105へ登録要求者音声 102、個人識別子 103、 暗証文字列 104を入力することにより、後述する登録データベース 106へ個人識別 子 103に対応した音声標準パターン 118及び暗証文字列 104を登録する。登録手 段 105は、マイクやキーボード等を備えており、各登録要求者 101はマイクを使用し 登録要求者音声 102を登録し、キーボードを利用し暗証文字列 104を登録する。
[0017] 106は、登録データベースである。登録データベース 106は、登録手段 105により生 成した音声標準パターン 118、個人識別子 103、暗証文字列 104を格納する。音声 標準パターン 118は、個人識別子 103と標準パターン音声単位に対応するように格 納する。標準パターン音声単位が音節カゝら構成されている場合には、個人識別子 10 3及び各音節 117に対応するように格納する。例えば、図 3に示すように個人識別子 「AAB」で登録した話者の音節単位の音声標準パターン「あ (/a/)」である音声標準 パターン 118のように格納する。このように格納することにより認証個人識別子 109及 び音声単位提示手段 111で提示された音声単位 130 (図 2参照)に対応した音声標 準パターン 118を選択することができる。
[0018] 150は、利用者認識手段である。利用者認識手段 150は、認証時にぉ 、て認証要 求者 107が正当な利用者力否かを判定する手段であり、認証要求者音声 108と選択 された音声標準パターン 118との類似性を計算するものである。
[0019] 107は、認証要求者である。認証要求者 107は、本実施の形態に力かる話者照合装 置がビルに入る際の認証に使用される場合には、このビルに入ろうとする者が該当す る。例えば、登録要求者 101や詐称してビルに侵入しょうとする者が該当する。
[0020] 108は、認証要求者音声である。認証要求者音声 108は、後述する音声単位提示 手段 111で提示された音声単位 130 (図 2参照)に対応して認証要求者 107が発声 する音声である。
[0021] 109は、認証個人識別子である。認証個人識別子 109は、認証要求者 107が認証 時に申告する話者を識別するための符号であり、登録している個人識別子 103のい ずれかと一致して!/、なければならな!/、。
[0022] 110は、認証要求者 107に提示する音声単位 130を格納する音声単位データべ一 スである。
[0023] 111は、音声単位提示手段である。音声単位提示手段 111は、図 2に示すように、暗 証文字列構成文字 120からなる暗証文字列構成文字群 121、音声単位 130、及び 両者の対応関係を提示する。ここで「暗証文字列構成文字 120」とは、暗証文字列 1 04を構成する文字である。例えば暗証文字列 104が 10進数の数字列である場合に 、暗証文字列構成文字 120は「0」、「1」、「2」· · ·「9」が該当する。また、「音声単位 13 0」とは、認証要求者 107が発声させるべき文字列である。文字列が単語に該当する 場合には「はちのへ(/hatinohe/)」、「けせんぬま(/keseNnuma/)」、「ゆくはし( /yukuhasi/) J ,「さっぽろ (/saQporo/)」等がある。図 2は、単語からなる音声単位 13 0と暗証文字列構成文字群 121とを対応させた組合せを複数提示したものである。「 はちのへ(/hatinohe/)」という音声単位 130に対して「0」、 「2」、 「6」が対応し、「けせ んぬま (/keseNnuma/)」には「1」、 「9」が対応し、「ゆくはし (/yukuhasi/)」には「3」、 「 4」、 「7」が対応し、「さっぽろ (/saQporo/)」には「5」、 「8」が対応するように割り当て る。この対応表に従って、認証要求者 107は自己の暗証文字列 104の数字列に対 応した音声単位 130を発声する。認証要求者 107の暗証文字列 104が「5218」であ るならば、最初の数字 5に対応した音声単位 130「さっぽろ (/saQporo/)」を発声し、 次に二番目の数字 2に対応した「はちのへ (/hatinohe/)」を発声する。更に三番目の 数字 1に対応した「けせんぬま (/keseNnuma/)」、四番目の数字 8に対応した「さっぽ ろ (/saQporo/)」を連続して発声させる。
[0024] 音声単位提示手段 111は、認証要求者 107に提示する際に前回提示した音声単位 130を他の音声単位 130に切り替えて提示する。即ち、音声単位提示手段 111は、 利用する毎に音声単位 130が切り替わる場合、 2回利用する毎に切り替わる場合、 3 回利用する毎に切り替わる場合、ランダムに切り替わる場合、一定の時間毎に切り替 わる場合、同一の認証要求者 107が利用する毎に切り替わる場合がある。
[0025] 112は、音声類似度計算手段である。音声類似度計算手段 112は、認証個人識別 子 109の入力、及び、音声単位提示手段 111の提示に基づいて登録データベース 106から音声標準パターン 118を選択する。例えば、認証要求者 107が認証個人識 別子 109として「AAB」を入力し、音声単位提示手段 111では暗証文字列 104により 「さっぽろ、はちのへ、けせんぬま、さっぽろ」を連続して発声することを提示された場 合には、音声類似度計算手段 112は、登録データベース 106から、認証個人識別子 109「AAB」に対応した、「さ (/sa/)」、「つ(/Q/)」、「ぽ (/po/)」、「ろ (/ro/)」、「は( / /)」…の音声標準パターン 118が選択される。この選択された音声標準パターン 118と認証要求者 107が発声した認証要求者音声 108の各音節とを比較し音声類 似度を計算し類似度を出力する。音声類似度の計算は、音節ごとの音響的特徴を比 較して、文章全体で判断する場合がある。類似度に関しては例えば「音声情報処理」 古井 貞熙 1998年 6月 森北出版株式会社 (以下参考文献 1とする)の 5章に記さ れて 、る方法によって計算する。
[0026] 113は、閾値である。閾値 113は、予め定められた基準値であって、認証要求者音 声 108が正当な利用者による音声力否力の判定の基準となる。音声類似度計算手 段 112での類似度がこの閾値 113より大きければ、認証要求者 107は正当な利用者 と判定される。
[0027] 114は、認証要求者 107が、正当な利用者力否かを判定する判定手段である。判定 手段 114は、音声類似度計算手段 112での結果を基に、認証要求者音声 108が正 当な利用者による音声である力否かを判定する。類似度が閾値 113以上の場合に正 当な利用者と判断し、逆に閾値 113より小さい場合には、詐称を目的とする利用者と 判定する。
[0028] 115は、認証結果である。認証結果 115は、判定手段 114からの出力であり、認証要 求者 107が正当な利用者と判断された場合は「受理」、詐称を目的とする利用者と判 断された場合は「棄却」となる。例えば、本実施の形態にカゝかる話者照合装置がビル に入る際の認証に使用された場合、「受理」された場合にはドアのロックが解除され、 「棄却」された場合にはロックがされたままとなる。
[0029] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 4はこの発 明の実施の形態 1による話者照合装置の処理内容を示すフローチャートである。以 下、図 4にしたがって動作を説明する。
[0030] 図 4のステップ 11は、登録要求者 101の情報を登録するステップである。すなわち登 録要求者 101は登録手段 105へ自己の情報、すなわち登録要求者音声 102、個人 識別子 103、暗証文字列 104を入力する。登録手段 105は、登録要求者音声 102 に基づき音声標準パターン 118を生成するとともに、この音声標準パターン及び暗 証文字列を登録データベース 106へ格納する。
[0031] ステップ 12は、認証要求者 107に発声させる音声単位と認証文字 (群)との対応を認 証要求者 107に提示するステップである。すなわち、認証要求者 107に認証個人識 別子 109を話者照合装置に入力させる。次に、音声単位提示手段 111は、認証要 求者 107に発声させる音声単位 130を提示する。音声単位提示手段 111が、図 2に 示すように暗証文字列構成文字群 121と音声単位 130との両者の対応を提示する。 音声単位提示手段 111は、認証要求者 107に提示する際に前回提示した音声単位 130を他の音声単位 130に切り替えて提示する。即ち、音声単位提示手段 111は、 利用する毎に音声単位 130が切り替わる場合、 2回利用する毎に切り替わる場合、 3 回利用する毎に切り替わる場合、ランダムに切り替わる場合、一定の時間毎に切り替 わる場合、同一の認証要求者 107が利用する毎に切り替わる場合がある。なお、当 該照合装置の管理者は、新たな音声単位 130を登録したい場合には、音声単位デ ータベース 110を更新すればよ!、。音声単位データベース 110に音声単位 130を 1 つ増やせば、当該音声単位 130を各登録要求者 101に対して提示することができる という効果を得ることができる。また、登録要求者 101は一度登録要求者音声 102を 登録すれば、音声標準パターン 118が自動的に生成されるため、新たな音声単位 1 30が追加されても新たに登録要求者音声 102を録音しなくても良いという効果を得 ることがでさる。
[0032] ステップ 13は、認証の際に、認証要求者 107が発声した認証要求者音声 108とこれ に対応する音声標準パターン 118とを比較するステップである。
[0033] ステップ 14は、認証の際に、判定手段 114が、音声類似度計算手段 112の出力であ る音声類似度を、予め定められた閾値 113と比較して、音声類似度が閾値 113以上 であれば正当な利用者であるとして「受理」、一方、音声類似度が閾値 113より小さけ れば詐称を目的とする利用者として「棄却」を認証結果 115として出力するステップで ある。
[0034] 以上のように、この実施の形態 1によれば、前回提示した内容を他の内容に切り替え て提示するので、録音した音声によって他人に詐称されたり、暗証文字列 104を他 人に知られることで詐称されたりする可能性が低くなり安全性の高い話者照合を実現 できる。
[0035] なお、登録手段 105、音声単位提示手段 111、音声類似度計算手段 112、判定手 段 114をノ、一ドウエアで構成してもよいが、各手段の処理内容を記述した話者照合 プログラムを作成し、コンピュータが当該話者照合プログラムを実行するようにしても よい。
[0036] また、 1つの閾値 113によって受理か棄却を決定する場合を説明した力 複数の閾 値を設定してもよい。例えば閾値を A、 Bの 2種類用意して、音声類似度が閾値 Aより 大きい値ならば正当な利用者であると判定し、音声類似度が Aと Bの間なら明瞭な判 定不可能であると判定し、 Bより音声類似度が小さいならば詐称を目的とする者と判 定するようにする。このように設定することにより、例えば、当該話者照合装置がビル に入る際の認証に使用する場合には、正当な利用者と判断すればドアのロックを解 除し、判定不可能であると判断すれば再度認証要求者 107に音声単位提示手段 11 1を提示し、詐称者と判断した場合には、ドアのロックは解除しない。
[0037] また、図 5に示すように、ひらがな一文字力もなる音声単位 130と 1つの暗証文字列 構成文字 120とを 1対 1に対応させた組合せを複数提示する場合がある。例えば、認 証要求者 107の暗証文字列 104が「5218」であるなら認証要求者 107は、「せ」、「 ゆ」、「け」、「の」と発声することになる。
[0038] また、図 6に示すように、ひらがな一文字力もなる音声単位 130と暗証文字列構成文 字群 121とを対応させた組合せを複数提示する場合がある。例えば、「は」という音声 単位 130に対して、「0」、「2」、「6」が対応し、「け」には、「1」、「9」が対応し、「ゆ」に は「3」、「4」、「7」が対応し、「さ」には「5」、「8」が対応するように割り当てられる。この 対応表にしたがって認証要求者 107は自己の暗証文字列 104の数字列に対応した 音声単位 130を発声する。認証要求者 107の暗証文字列 104が「5218」であるなら ば、最初の数字に対応した音声単位 130「さ」を発声し、次に 2に対応した「は」を発 声する。さらに 3番目の数字である 1に対応した「け」、 4番目の数字に 8対応した「さ」 を連続して発声することになる。このように音声単位 130に対して複数の数字が割り 当てられているので、発声した内容を他人に知られたとしても暗証文字列 104の数字 列が一意に知られてしまうことはない。
実施の形態 2.
[0039] 図 7は、本発明の実施の形態 2による話者照合装置の構成図である。図 8は、本発明 の実施の形態 2による話者照合装置の処理内容を示すフローチャートである。図 7を 用いて本実施の形態における話者照合装置の構成を説明する。なお、実施の形態 1 と共通する部分については説明を省略する。
[0040] 図 7において、 201は、登録要求者属性である。登録要求者属性 201は、登録要求 者 101の属性に関する情報であり、性別、年齢、干支、血液型、出身地等の情報で ある。例えば「男性、 22歳、ねずみ年、 A型、東京都出身」等の情報がある。
[0041] 202は、登録手段である。登録手段 202へ登録要求者音声 102、個人識別子 103、 登録要求者属性 201を入力することにより、登録データベース 203へ音声標準バタ ーン 118を格納する。登録手段 202はマイクやキーボード等を備えており、各登録要 求者 101は自己の個人識別子 103に対応させるように、マイクを使用して登録要求 者音声 102を登録し、キーボードを使用して登録要求者属性 201を登録する。
[0042] 203は、登録データベースである。登録データベース 203は、登録手段 202により生 成した音声標準パターン 118及び登録要求者属性 201を格納する。
[0043] 204は、音声単位提示手段である。音声単位提示手段 204は、認証要求者 107〖こ 対して、属性に関する質問を提示する。例えば「あなたの年はおいくつですか?」、「 あなたの出身はどちらですか?」、「あなたの血液型はなんですか?」等がある。この 質問は、認証要求者 107が答えるべき音声単位 130を前回提示した音声単位 130 力も他の音声単位 130に切り替えて提示する。例えば、ある認証要求者 107に「あな たの年はおいくつですか?」を提示し、その次にこの話者照合装置を利用する認証 要求者 107に「あなたの出身はどちらですか?」を提示する場合がある。
[0044] 205は、応答時間計算手段である。応答時間計算手段 205は、認証要求者 107が 認証要求者音声 108を発声するのにかかった時間を計る。例えば、音声単位提示手 段 204により質問がなされて力も認証要求者 107が発声開始までの応答するのにか かった時間を計る。
[0045] 206は、判定用スコア計算手段である。判定用スコア計算手段 206は、応答時間計 算手段 205の出力である応答時間と音声類似度計算手段 112の出力である音声類 似度とから判定用スコア Sを計算する。判定用スコア Sは、音声類似度を L (大きけれ ば類似度が高い)、応答時間を Trとすれば例えば数式 1で求める。
[0046] S =L- a -Tr 数式 1
数式 1において、 aは重み係数である。数式 1によれば、応答時間 Trが長ければ判 定用スコアが低くなる。
[0047] 次に、以上の構成力もなる話者照合装置の動作を図 8を用いて説明をする。図 8に おいて、ステップ 21は、登録要求者 101は登録手段 202へ自己の登録要求者音声 102、個人識別子 103、登録要求者属性 201を入力するステップである。登録要求 者音声 102及び登録要求者属性 201は個人識別子 103に対応するように入力する 。次に登録手段 202は、登録要求者音声 102に基づき音声標準パターン 118を生 成し登録データベース 203へ格納する。
[0048] ステップ 22は、話者照合装置が認証要求者 107に、属性に関する質問をするステツ プである。例えば「あなたのお年はおいくつですか?」と質問する。これらの質問は、 音声単位提示手段 204により前回提示した内容力も切り替わって提示されるために 、他人が認証要求者 107の発声した音声を録音して、ビルに入ろうとしても同じ音声 単位 130が提示される可能性が少なくなるために詐称される可能性は低くなる。
[0049] ステップ 23は、認証要求者 107が認証要求者音声 108を発声する時間を計るステツ プである。応答時間計算手段 205は、認証要求者 107が認証要求者音声 108を発 声する時間を計る。正当な利用者であれば、自己の属性を把握しているため、一般 的に応答時間が短くなる。また他人であれば、この質問に対する正しい答えを準備 するのに時間がかかり、応答時間が長くなる。
[0050] ステップ 24は、判定用スコア計算手段 206により、応答時間計算手段 205の応答時 間及び音声類似度計算手段 112の音声の類似度に基づいて、認証要求者 107が 正当な利用者力否かの判定用スコアを算出するステップである。判定手段 114は、 判定用スコア計算手段の出力を、予め定められた閾値 113と比較して、出力が閾値 113以上であれば本人であるとして「受理」、一方、音声類似度が閾値より小さけれ ば他人であるとして「棄却」を認証結果 115として出力する。
[0051] 以上のように、この実施の形態 2によれば、前回提示した音声単位 130を他の音声 単位 130に切り替えて提示されるので、録音した音声によって他人に詐称されにくい 。また、認証要求者 107は質問に答えるという 1つの行為だけで、音声の類似度及び 応答時間の 2つの観点から、認証要求者 107が正当な利用者力否かが判断されるた め、認証要求者 107は面倒な手続きをすることなぐ精度の高い音声照合ができる。
[0052] 実施の形態 3.
[0053] 図 9は、本発明の実施の形態 3による話者照合装置の構成図である。図 10は、本発 明の実施の形態 3による話者照合装置の処理内容を示すフローチャートである。図 9 を用いて本実施の形態における話者照合装置の構成を説明する。なお、実施の形 態 1又は 2と共通する部分については説明を省略する。
[0054] 図 9において、 301は、登録要求者唇画像である。登録要求者唇画像 301は、予め 、登録要求者 101に、新聞や雑誌の記事を読ませ、この時の唇の形、動きを録画す ること〖こより作成する。この登録要求者唇画像 301に基づいて後述する唇画像標準 パターンを生成する。
[0055] ここで「唇画像パターン」は、唇の画像を音節単位のサブワード HMM (Hidden
Markov Model)を利用して作成する。
[0056] また、「唇画像標準パターン」とは、上記パターンの画像特徴を効率よく表現したもの をいう(以下、唇画像標準パターンは音節単位で構成されるとして説明する)。唇画 像標準パターンは、例えば、中村哲、山本英里、永井論、鹿野清宏「HMMを用いた 音声と唇画像の統合による音声認識と唇画像生成」音声言語情報処理研究会 15— 1 7、 1997年 2月(以下参考文献 2とする)で報告されている方法で作成する。参考文 献 2によれば唇画像の標準パターン作成は、まず 1フレーム(1フレームは 33.3m秒) あたり横 160 X縦 150= 19200画素の画像を 256階調の濃淡画像に変換し、 256 X 256の FFT(Fast Fourier Transform)によって周波数分析を行う。そして空間周波 数領域おけるパワースペクトルを計算し、対数スケールのスムージングを行う。さらに フレーム間の差分をとることで動的な特徴を求める。唇画像標準パターンはパワース ベクトル 256分布、その差分に 256分布の構造を持った HMMであり、前記のように 唇画像より求めたパワースペクトルと差分によって作成する。
[0057] 302は、登録手段である。登録手段 302へ登録要求者音声 102、個人識別子 103、 登録要求者属性 201、登録要求者唇画像 301を入力することにより、後述する登録 データベース 303へ個人識別子 103に対応するように音声標準パターン 118、唇画 像標準パターン、及び登録要求者属性 201を格納する。登録手段 302はマイク及び カメラを備えており、各登録要求者 101は自己の個人識別子 103に対応させ、マイク を使用することにより登録要求者音声 102を登録し、カメラを利用することにより登録 要求者唇画像 301を登録する。 [0058] 303は、登録データベースである。登録データベース 303は、登録手段 302により生 成した音声標準パターン 118、唇画像標準パターン、及び登録要求者属性 201を格 納する。
[0059] 304は、認証要求者唇画像である。認証要求者唇画像 304は、音声単位提示手段 2 04により提示された質問に対して答えた状態の唇画像を録画することにより得る。
[0060] 305は、音声及び唇画像類似度計算手段である。音声及び唇画像類似度計算手段 305は、認証個人識別子 109の入力、及び、音声単位提示手段 204の音声単位 13 0に基づいて登録データベース 303から音声標準パターン 118及び唇画像標準パタ ーンを選択する。例えば、認証要求者 107が認証個人識別子 109として「AAB」を 入力し、音声単位提示手段 204「あなたの出身はどこですか?」という質問に対して、 登録データベース 303において認証個人識別子 109の出身地が「札幌」に対応して いる場合には、音声及び唇画像類似度計算手段 305は登録データベース 303から「 AAB」に対応した「さ (/sa/)」、「つ (/Q/)」、「ぽ (/po/)」、「ろ (/ro/)」の音声標準パ ターン 118及び唇画像標準パターンを順次選択する。そしてこの選択された音声標 準パターン 118及び唇画像標準パターンに対応する認証要求者音声 108及び認証 要求者唇画像 304とを比較する。
[0061] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 10はこの発 明の実施の形態 3による話者照合装置の処理内容を示すフローチャートである。以 下、図 10にしたがって動作を説明する。
[0062] 図 10において、ステップ 31は、登録要求者 101の情報を登録するステップである。
すなわち登録要求者 101は登録手段 302へ自己の登録要求者音声 102、個人識別 子 103、登録要求者属性 201、登録要求者唇画像 301を入力する。登録手段 302 は、登録要求者音声 102に基づき音声標準パターン 118を生成し、登録要求者唇 画像 301に基づき唇画像標準パターンを生成し、両者を登録データベース 303へ格 納する。次に、格納の仕方は、音声標準パターン 118及び唇画像標準パターンを個 人識別子 103及び音節 117に対応するように格納する。このように格納することにより 認証個人識別子 109及び音声単位提示手段 204に対応した音声標準パターン 118 及び唇画像標準パターンを選択することができる。 [0063] ステップ 32は、認証要求者 107が認証個人識別子 109を話者照合装置に入力する ステップである。次に、音声単位提示手段 204は、属性に関する質問をする。この質 問に対して認証要求者 107は音声単位提示手段 204で要求された音声単位 130に 対応する認証要求者音声 108を発声する。
[0064] ステップ 33は、認証要求者 107が発声した認証要求者音声 108とこれに対応する音 声標準パターン 118とを比較するステップである。また、認証要求者 107が発声した 時に撮影した認証要求者唇画像 304とこれに対応する唇画像標準パターンとを比較 する。認証要求者唇画像 304と唇画像標準パターンとの比較は、例えば、認証要求 者 107が「AAB」の認証個人識別子 109を入力し、音声単位提示手段 204で「あな たの出身はどちらですか?」と質問された場合には、唇画像類似度計算手段は、登 録データベース 303から、認証個人識別子 109「AAB」に対応した「さ (/sa/)」、「つ( /Q/)」、「ぽ (/po/)」、「ろ (/ro/)」にあたる唇画像標準パターンを選択する。この選 択された各唇画像標準パターンとこれに対応した各認証要求者唇画像 304とを比較 し唇画像類似度を計算し類似度を出力する。
[0065] ここで認証要求者唇画像 304は、認証要求者 107が認証要求者音声 108を発声し た唇を撮影した画像であり、特徴量として、パワースペクトルおよびパワースペクトル の動的特徴を抽出する。この認証要求者唇画像 304と登録データベース 303から選 択した唇画像標準パターンとの類似度計算は、文献 1の 5章で示される方法で尤度 計算を行う。次に、音声による類似度 Lと唇画像による類似度 Mを用い、判定用の類 似度を求める。判定用類似度は、例えば両者を重み付け加算した数式 2に示すスコ ァとする。
[0066] [数 2]
S = L + βνί 数式 2 数式 2において |8は重み付け係数であり、高い照合精度が得られるように決定する。 判定手段 114は、音声と唇画像による類似度を音声及び唇画像類似度計算手段 30 5の出力である類似度 Sを入力し、予め定めた閾値 113と比較して、類似度が閾値以 上であれば本人であるとして「受理」、一方類似度が閾値より小さいのであるならば他 人であるとして「棄却」を認証結果 115として出力する。 [0067] ステップ 34は、話者照合装置が、認証要求者 107を正当な利用者力否かを判断す るステップである。
[0068] 以上のように、この実施の形態 3によれば、前回提示した音声単位 130を他の音声 単位 130に切り替えて提示され、音声とともに唇画像も入力して類似度を計算するの で、テープレコーダ等で録音した音声によって他人に詐称されにくい。また、認証要 求者 107は質問に答えるという 1つの行為だけで、音声及び唇画像の 2つの観点か ら、認証要求者 107が正当な利用者力否かが判断することができる。
実施の形態 4.
[0069] 図 11は、本発明の実施の形態 4による話者照合装置の構成図である。図 12は、本 発明の実施の形態 4による話者照合装置の処理内容を示すフローチャートである。 図 11を用いて本実施の形態における話者照合装置の構成を説明する。なお、実施 の形態 1、 2又は 3と共通する部分については説明を省略する。
[0070] 図 11において、 401は、登録手段である。登録手段 401へ個人識別子 103、登録要 求者属性 201を入力することにより、後述する登録データベース 402へ個人識別子 1 03に対応させた登録要求者属性 201を登録する。
[0071] 402は、登録データベースである。登録データベース 402は、個人識別子に対応さ せて登録要求者属性 201を格納する。
[0072] 403は、照合用音声標準パターン群である。照合用音声標準パターン群 403とは、 属性に依存した音声標準パターンの群である。例えば、属性が年齢と性別である場 合には、 10才代男性の音声標準パターンの群、 20才代男性の音声標準パターンの 群…というように分別して構成する。照合用音声標準パターン群 403は、例えば、 10 才代男性の音声波形を AD変換したデジタル信号に対して特徴量分析を行って得ら れる音声特徴量を用いて作成する。 404は、照合用音声標準パターン群集合である 。照合用音声標準パターン群集合 404は、照合用音声標準パターン群 403の集合 である。
[0073] 405は、照合用音声標準パターン選択手段である。照合用音声標準パターン選択 手段 405は、入力された認証個人識別子 109により登録データベース 402から登録 要求者属性 201のデータを取り出し、そのデータに基づいて照合用音声標準パター ン群集合 405から照合用音声標準パターン群を選択する。例えば、個人識別子 103 によって申告した認証要求者の属性が、 20代男性であったならば、 20代男性の照 合用標準パターン群を選択する。
[0074] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 12はこの発 明の実施の形態 1による話者照合装置の処理内容を示すフローチャートである。以 下、図 12にしたがって動作を説明する。
[0075] 図 12において、ステップ 41は、登録要求者 101の情報を登録するステップである。
すなわち登録要求者 101は登録手段 401へ自己の個人識別子 103、登録要求者属 性 201を入力する。登録要求者属性 201は個人識別子 103に対応するように登録す る。
[0076] ステップ 42は、認証要求者 107は認証個人識別子 109を話者照合装置に入力する ステップである。次に、音声単位提示手段 204は、属性に関するする質問を提示す る。例えば、「あなたの出身はどこですか?」がある。この質問は、発声単位提示手段 204により前回提示した内容を切り替えて提示する。
[0077] ステップ 43は、認証要求者 107が発声した認証要求者音声 108と、これに対応する 照合用音声標準パターン 118とを比較するステップである。例えば、認証要求者 107 が「AAB」の認証個人識別子 109を入力し、音声単位提示手段 204では「出身地は どこですか?」と質問した場合には、照合用音声標準パターン選択手段 405は、照 合用音声標準パターン群集合 405から、認証個人識別子 109「AAB」の属性に対応 した、照合用音声標準パターン群を選択し、更にその中から「さ (/sa/)」、「つ (/Q/)」 、「ぽ (/po/)」、「ろ (/ro/)」の照合用音声標準パターン 118を選択する。この選択さ れた照合用音声標準パターン 118と認証要求者音声 108の各音節とを比較し音声 類似度を計算し類似度を出力する。
[0078] ステップ 44は、話者照合装置が、認証要求者 107が正当な利用者力否かを判断す るステップである。
[0079] 以上のように、この実施の形態 4によれば、前回提示した音声単位 130を他の音声 単位 130に切り替えて提示されるので、テープレコーダ等で録音した音声によって他 人に詐称されにくい。また、属性を利用して話者照合を行うので、事前の音声登録が 不要となり、登録要求者 101が音声を登録できない場合であっても話者照合を実現 できる。
図面の簡単な説明
[0080] [図 1]この発明の実施の形態 1を示す話者照合装置の構成図である。
[図 2]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である
[図 3]この発明の実施の形態 1における登録データベースにおける音声標準パターン の格納態様の概念図である。
[図 4]この発明の実施の形態 1における話者照合装置の処理内容を示すフローチヤ ートである。
[図 5]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である
[図 6]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である
[図 7]この発明の実施の形態 2を示す話者照合装置の構成図である。
[図 8]この発明の実施の形態 2における話者照合装置の処理内容を示すフローチヤ ートである。
[図 9]この発明の実施の形態 3を示す話者照合装置の構成図である。
[図 10]この発明の実施の形態 3における話者照合装置の処理内容を示すフローチヤ ートである。
[図 11]この発明の実施の形態 4を示す話者照合装置の構成図である。
[図 12]この発明の実施の形態 4における話者照合装置の処理内容を示すフローチヤ ートである。
符号の説明
[0081] 100 利用者登録手段
101 登録要求者
102 登録要求者音声
103 個人識別子 104 暗証文字列
105 登録手段
106 登録データベース
107 認証要求者
108 認証要求者音声
109 認証個人識別子
110 音声単位データベース
111 音声単位提示手段
112 音声類似度計算手段
113 閾値
114 判定手段
115 認証結果
117 音節
118 音声標準パターン
120 暗証文字列構成文字
121 暗証文字列構成文字群
130 音声単位
201 登録要求者属性
204 音声単位提示手段
205 応答時間計算手段
206 判定用スコア計算手段
301 登録要求者唇画像
304 認証要求者唇画像
305 音声及び唇画像類似度計算手段
403 照合用音声標準パターン群
404 照合用音声標準パターン群集合
405 照合用音声標準パターン選択手段

Claims

請求の範囲
[1] 認証要求者に発声させるべき音声単位を認証要求者に提示する際に前回提示した 音声単位を他の音声単位に切り替えて提示する音声単位提示手段と、
この提示する音声単位と個人識別子とに対応づけて準備される音声標準パターンと この準備された音声標準パターンと上記認証要求者が発声した音声とを比較して音 声の類似度を計算する音声類似度計算手段と、
この音声類似度計算手段の計算結果に基づいて上記認証要求者が正当な利用者 か否かを判定する判定手段と、
を備えたことを特徴とする話者照合装置。
[2] 音声単位提示手段は、画面表示により認証要求者に発声させるべき音声単位を提 示するものとし、
この画面表示する内容には、
認証要求者に発声させるべき複数の音声単位により構成される音声単位群と、 この音声単位群の各音声単位に対応づけて配置表示されかつ個人識別子に対応し た暗証文字列を構成する文字カゝらなる文字群と、
が含まれることを特徴とする請求項 1に記載の話者照合装置。
[3] 判定手段は、
音声単位提示手段の提示内容に対して認証要求者が応答するのにかかった時間及 び音声類似度計算手段の計算結果に基づいて認証要求者が正当な利用者力否か を判断する
ことを特徴とする請求項 1に記載の話者照合装置。
[4] 音声標準パターンは、
登録利用者の属性情報に基づき作成され、かつ分別された照合用音声標準パター ン群を構成し、
音声類似度計算手段は、
個人識別子により特定される属性に基づいて照合用音声標準パターン群集合から 選択する音声標準パターンと音声とを比較して類似度を計算する、 ことを特徴とする請求項 1に記載の話者照合装置。
認証要求者に発声させるべき音声単位を認証利用者に提示する際に前回提示した 音声単位を他の音声単位に切り替えて提示する音声単位提示手段と、
この提示する音声単位と個人識別子とに対応づけて準備される音声標準パターンと この準備された音声標準パターンと上記認証要求者が発声した音声とを比較して音 声の類似度を計算する音声類似度計算手段と、
上記提示する音声単位と個人識別子とに対応づけて準備される唇画像標準パター ンと、
この準備された唇画像標準パターンと上記認証要求者を撮影した唇画像とを比較し て唇画像の類似度を計算する唇画像類似度計算手段と、
上記音声類似度計算手段の結果と上記唇画像類似度計算手段との計算結果に基 づいて上記認証要求者が正当な利用者力否かを判定する判定手段と
を備えたことを特徴とする話者照合装置。
PCT/JP2004/013197 2004-09-10 2004-09-10 話者照合装置 WO2006027844A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2004/013197 WO2006027844A1 (ja) 2004-09-10 2004-09-10 話者照合装置
JP2006534954A JPWO2006027844A1 (ja) 2004-09-10 2004-09-10 話者照合装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/013197 WO2006027844A1 (ja) 2004-09-10 2004-09-10 話者照合装置

Publications (1)

Publication Number Publication Date
WO2006027844A1 true WO2006027844A1 (ja) 2006-03-16

Family

ID=36036141

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/013197 WO2006027844A1 (ja) 2004-09-10 2004-09-10 話者照合装置

Country Status (2)

Country Link
JP (1) JPWO2006027844A1 (ja)
WO (1) WO2006027844A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191391A (ja) * 2014-03-28 2015-11-02 本田技研工業株式会社 アルコールインタロックシステム
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
JP2019028464A (ja) * 2017-07-26 2019-02-21 ネイバー コーポレーションNAVER Corporation 話者認証方法及び音声認識システム
JP2019535025A (ja) * 2017-09-11 2019-12-05 ピン・アン・テクノロジー(シェンゼン)カンパニー リミテッドPing An Technology (Shenzhen) Co., Ltd. 声紋識別によるエージェントログイン方法、電子装置及び記憶媒体
US10789960B2 (en) 2016-11-07 2020-09-29 Pw Group Method and system for user authentication by voice biometrics

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7339116B2 (ja) * 2019-10-11 2023-09-05 グローリー株式会社 音声認証装置、音声認証システム、および音声認証方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326409A (ja) * 1991-04-26 1992-11-16 Mitsubishi Electric Corp 使用者確認方式
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2002311992A (ja) * 2001-04-13 2002-10-25 Fujitsu Ltd 話者認証方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326409A (ja) * 1991-04-26 1992-11-16 Mitsubishi Electric Corp 使用者確認方式
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2002311992A (ja) * 2001-04-13 2002-10-25 Fujitsu Ltd 話者認証方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016511475A (ja) * 2013-03-05 2016-04-14 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 人間を機械から区別するための方法及びシステム
JP2015191391A (ja) * 2014-03-28 2015-11-02 本田技研工業株式会社 アルコールインタロックシステム
US10789960B2 (en) 2016-11-07 2020-09-29 Pw Group Method and system for user authentication by voice biometrics
EP3319085B1 (fr) * 2016-11-07 2022-04-13 PW Group Procédé et système d'authentification par biométrie vocale d'un utilisateur
JP2019028464A (ja) * 2017-07-26 2019-02-21 ネイバー コーポレーションNAVER Corporation 話者認証方法及び音声認識システム
JP2019535025A (ja) * 2017-09-11 2019-12-05 ピン・アン・テクノロジー(シェンゼン)カンパニー リミテッドPing An Technology (Shenzhen) Co., Ltd. 声紋識別によるエージェントログイン方法、電子装置及び記憶媒体

Also Published As

Publication number Publication date
JPWO2006027844A1 (ja) 2008-05-08

Similar Documents

Publication Publication Date Title
JP4672003B2 (ja) 音声認証システム
US10013972B2 (en) System and method for identifying speakers
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
WO2017215558A1 (zh) 一种声纹识别方法和装置
US7447632B2 (en) Voice authentication system
US9792912B2 (en) Method for verifying the identity of a speaker, system therefore and computer readable medium
Das et al. Development of multi-level speech based person authentication system
US6496800B1 (en) Speaker verification system and method using spoken continuous, random length digit string
WO2017162053A1 (zh) 一种身份认证的方法和装置
JPH06175680A (ja) 最も近い隣接距離を使用した発声者確認装置
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
US7490043B2 (en) System and method for speaker verification using short utterance enrollments
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
WO2006027844A1 (ja) 話者照合装置
Wahidah et al. Makhraj recognition using speech processing
Das et al. Multi-style speaker recognition database in practical conditions
US10957318B2 (en) Dynamic voice authentication
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
Shirali-Shahreza et al. Verifying human users in speech-based interactions
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
KR20230156145A (ko) 하이브리드 다국어 텍스트 의존형 및 텍스트 독립형 화자 검증
KR20060062287A (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
GORAI et al. A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM
JPH11344992A (ja) 音声辞書作成方法、個人認証装置および記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006534954

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase