WO2021075012A1 - 話者認証システム、方法およびプログラム - Google Patents

話者認証システム、方法およびプログラム Download PDF

Info

Publication number
WO2021075012A1
WO2021075012A1 PCT/JP2019/040805 JP2019040805W WO2021075012A1 WO 2021075012 A1 WO2021075012 A1 WO 2021075012A1 JP 2019040805 W JP2019040805 W JP 2019040805W WO 2021075012 A1 WO2021075012 A1 WO 2021075012A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
unit
speaker
feature amount
preprocessing
Prior art date
Application number
PCT/JP2019/040805
Other languages
English (en)
French (fr)
Inventor
悟至 籾山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/040805 priority Critical patent/WO2021075012A1/ja
Priority to JP2021552049A priority patent/JP7259981B2/ja
Priority to US17/764,288 priority patent/US20220375476A1/en
Publication of WO2021075012A1 publication Critical patent/WO2021075012A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a speaker authentication system, a speaker authentication method, and a speaker authentication program.
  • Human voice is a kind of biometric information and is unique to an individual. Therefore, voice can be used for biometric authentication to identify an individual. Biometric authentication using voice is called speaker authentication.
  • FIG. 11 is a block diagram showing an example of a general speaker authentication system.
  • the general speaker authentication system 40 shown in FIG. 11 includes a voice information storage device 420, a preprocessing device 410, a feature amount extraction device 430, a similarity calculation device 440, and an authentication device 450.
  • the voice information storage device 420 is a storage device for pre-registering voice information of one or more speakers.
  • the voice information storage device 420 is subjected to the same preprocessing as the preprocessing performed by the preprocessing device 410 for the input voice as the voice information of each speaker. It is assumed that the obtained voice information is registered.
  • the preprocessing device 410 preprocesses the voice input via the microphone or the like. In this preprocessing, the preprocessing device 410 converts the input voice into a format in which the feature amount extracting device 430 can easily extract the feature amount of the voice.
  • the feature amount extraction device 430 extracts the feature amount of voice from the voice information obtained by the preprocessing. It can be said that this feature amount expresses the characteristics of the speaker's voice. In addition, the feature amount extraction device 430 extracts the feature amount from the voice information of each speaker registered in the voice information storage device 420.
  • the similarity calculation device 440 determines the degree of similarity between the feature amount of each speaker extracted from each voice information registered in the voice information storage device 420 and the feature amount of the voice to be authenticated (input voice). , Calculated for each speaker.
  • the authentication device 450 compares the similarity calculated for each speaker with a predetermined threshold value, so that the input voice is the voice information is registered in the voice information storage device 420. Determine which speaker's voice is the voice of the person.
  • Non-Patent Document 1 An example of the speaker authentication system shown in FIG. 11 is described in Non-Patent Document 1. The operation of the speaker authentication system described in Non-Patent Document 1 will be described.
  • the voice information storage device 420 the voice information of each speaker obtained by performing the same preprocessing as the preprocessing performed by the preprocessing device 410 on the voice of each speaker is registered in advance. To do.
  • the voice to be authenticated is input to the speaker authentication system 40 via an input device such as a microphone.
  • the input voice may be limited to the voice that reads out a specific word or sentence.
  • the preprocessing device 410 converts the voice into a format in which the feature amount extraction device 430 can easily extract the feature amount of the voice.
  • the feature amount extraction device 430 extracts the feature amount from the voice information obtained by the preprocessing. Similarly, the feature amount extraction device 430 extracts the feature amount from the voice information registered in the voice information storage device 420 for each speaker.
  • the similarity calculation device 440 calculates the similarity between the feature amount of each speaker and the feature amount of the voice to be authenticated for each speaker. As a result, the feature amount can be obtained for each speaker.
  • the authentication device 450 determines which speaker the input voice is by comparing the similarity obtained for each speaker with the threshold value. Then, the authentication device 450 outputs the determination result (speaker authentication result) to the output device (not shown).
  • biometric authentication systems such as the above general speaker authentication system are used for personal authentication, they may play a role in ensuring the security of other systems. At that time, there may be a hostile attack that causes the biometric authentication system to be erroneously authenticated.
  • Non-Patent Document 2 describes an example of a technique for realizing a biometric authentication system that is robust against such hostile attacks.
  • the technique described in Non-Patent Document 2 is a technique for defending against an attack impersonating a specific speaker.
  • the technique described in Non-Patent Document 2 operates a plurality of different speaker authentication devices and spoofing attack detection devices in parallel, and integrates the results to make the input voice a spoofing attack. Determine if it is present or normal.
  • FIG. 12 is a schematic diagram showing a spoofing attack defense system described in Non-Patent Document 2.
  • the spoofing attack prevention system described in Non-Patent Document 2 includes a plurality of speaker authentication devices 511-1, 511-2, ..., 511-i and a plurality of spoofing attack detection devices 512-1,512. -2, ..., 512-j, an authentication result integration device 513, a detection result integration device 514, and a speaker authentication device 515 are provided.
  • the speaker authentication device is not particularly distinguished, it may be simply represented by the reference numeral "511”.
  • the spoofing attack detection device is not particularly distinguished, it may be simply represented by the reference numeral “512”.
  • FIG. 12 illustrates a case where the number of speaker authentication devices 511 is i and the number of spoofing attack detection devices 512 is j.
  • the speaker authentication device 511-1, 511-2, ..., 511-i each operates as a speaker authentication device by itself.
  • the spoofing attack detection devices 512-1, 512-2, ..., 512-j each operate as a spoofing attack detection device by themselves.
  • the authentication result integration device 513 integrates the authentication results of the plurality of speaker authentication devices 511. Further, the detection result integration device 514 integrates the output results of the plurality of spoofing attack detection devices 512. The authentication device 515 further integrates the result of the detection result integration device 514 and the result of the detection result integration device 514 to determine whether or not the input voice is a spoofing attack.
  • Non-Patent Document 2 The operation of the spoofing attack prevention system described in Non-Patent Document 2 will be described.
  • the voice to be authenticated is input in parallel to all of the plurality of speaker authentication devices 511 and the plurality of spoofing attack detection devices 512.
  • Voices of a plurality of speakers are registered in the speaker authentication device 511. Then, the speaker authentication device 511 calculates an authentication score for the input voice for each speaker in which the voice is registered, and outputs the authentication score of the finally authenticated speaker. Therefore, one authentication score is output from each speaker authentication device 511.
  • the authentication score is a score for determining whether the input voice is derived from the speaker.
  • Each spoofing attack detection device 512 outputs a detection score.
  • the detection score is a score for determining whether the input voice is a spoofing attack or a natural voice.
  • the authentication result integrated device 513 calculates the integrated authentication score by performing an operation of integrating all the authentication scores output from each speaker authentication device 511, and outputs the integrated authentication score.
  • the detection result integrated device 514 calculates the integrated detection score and outputs the integrated detection score by performing an operation of integrating all the detection scores output from each spoofing attack detection device 512.
  • the authentication device 515 performs an operation to integrate the integrated authentication score and the integrated detection score, and obtains the final score. Then, the authentication device 515 determines whether or not the input voice is a spoofing attack by comparing the final score with the threshold value, and when the input voice is a natural voice. Determines from which speaker the voice is registered in the speaker authentication device 511.
  • Patent Document 1 a technique for countering illegal voice input is also described in Patent Document 1.
  • Patent Document 3 describes a voice recognition system.
  • Patent Document 3 describes a voice recognition system including two voice recognition processing units that perform voice recognition by a unique recognition method.
  • a model learned by machine learning (hereinafter, simply referred to as a model) is increasingly used for the speaker authentication system.
  • a security issue for such a model is adversarial examples.
  • a hostile sample is data that is deliberately added with perturbations calculated so that the model derives a false positive.
  • Non-Patent Document 2 The spoofing attack defense system described in Non-Patent Document 2 is an effective system for defense against spoofing attacks, but does not consider attacks by hostile samples.
  • Patent Document 1 is a technique for countering an illegal voice input, but does not consider an attack by a hostile sample.
  • an object of the present invention is to provide a speaker authentication system, a speaker authentication method, and a speaker authentication program that can realize robustness against hostile samples.
  • the speaker authentication system has a data storage unit that stores data related to the voice of the speaker, and a plurality of voices that perform speaker authentication based on the input voice and the data stored in the data storage unit.
  • a processing unit and a post-processing unit that identifies one speaker authentication result based on the speaker authentication results obtained by each of the plurality of voice processing units are provided, and each voice processing unit has its own voice. Similarity between the preprocessing unit that performs preprocessing, the feature amount extraction unit that extracts the feature amount from the audio data obtained by the preprocessing, and the feature amount and the feature amount obtained from the data stored in the data storage unit.
  • Each voice processing unit includes a similarity calculation unit that calculates the degree and an authentication unit that performs speaker authentication based on the similarity calculated by the similarity calculation unit, and a preprocessing method or parameter is included in each voice processing unit. It is characterized in that it differs for each preprocessing unit.
  • the speaker authentication system is similar to a data storage unit that stores data related to a speaker's voice, a feature amount obtained from the input voice, and a feature amount obtained from the data stored in the data storage unit.
  • a plurality of voice processing units for calculating the degree and an authentication unit for performing speaker authentication based on the similarity obtained by each of the plurality of voice processing units are provided, and each voice processing unit has its own voice. Similarity between the preprocessing unit that performs preprocessing, the feature amount extraction unit that extracts the feature amount from the audio data obtained by the preprocessing, and the feature amount and the feature amount obtained from the data stored in the data storage unit. It includes a similarity calculation unit for calculating the degree, and is characterized in that the preprocessing method or parameter is different for each preprocessing unit included in each voice processing unit.
  • each of the plurality of voice processing units performs speaker authentication based on the input voice and the data stored in the data storage unit that stores the data related to the speaker's voice.
  • the post-processing unit identifies one speaker authentication result based on the speaker authentication results obtained by each of the plurality of voice processing units, and each voice processing unit performs preprocessing on the voice.
  • the feature amount is extracted from the audio data obtained by the preprocessing, the similarity between the feature amount and the feature amount obtained from the data stored in the data storage unit is calculated, and based on the calculated similarity degree, It is characterized in that speaker authentication is performed and the preprocessing method or parameter is different for each voice processing unit.
  • each of the plurality of voice processing units has a feature amount obtained from the input voice and a feature amount obtained from the data stored in the data storage unit that stores the data related to the speaker's voice.
  • the authentication unit performs speaker authentication based on the similarity obtained by each of the plurality of voice processing units, and each voice processing unit performs preprocessing on the voice.
  • the feature amount is extracted from the audio data obtained by the preprocessing, the similarity between the feature amount and the feature amount obtained from the data stored in the data storage unit is calculated, and the method or parameter of the preprocessing is determined. It is characterized in that it differs for each voice processing unit.
  • the speaker authentication program performs speaker authentication on a computer based on a data storage unit that stores data related to the speaker's voice, input voice, and data stored in the data storage unit.
  • a plurality of voice processing units and a post-processing unit that identifies one speaker authentication result based on the speaker authentication results obtained by each of the plurality of voice processing units are provided, and each voice processing unit has its own voice.
  • the preprocessing method or parameter includes each voice processing unit, including a similarity calculation unit that calculates the similarity with and an authentication unit that performs speaker authentication based on the similarity calculated by the similarity calculation unit. It is characterized in that it functions as a different speaker authentication system for each preprocessing unit included in.
  • the computer has a data storage unit that stores data related to the voice of the speaker, a feature amount obtained from the input voice, and a feature amount obtained from the data stored in the data storage unit. It is provided with a plurality of voice processing units for calculating the similarity with and an authentication unit for performing speaker authentication based on the similarity obtained by each of the plurality of voice processing units, and each voice processing unit has its own voice.
  • a preprocessing unit that performs preprocessing on the data, a feature amount extraction unit that extracts a feature amount from the audio data obtained by the preprocessing, the feature amount, and a feature amount obtained from the data stored in the data storage unit. It includes a similarity calculation unit for calculating the similarity with the above, and is characterized in that the preprocessing method or parameter functions as a speaker authentication system different for each preprocessing unit included in each voice processing unit.
  • a security challenge for such a model is a hostile sample.
  • the hostile sample is data with intentionally added perturbations calculated so that the model derives a false positive.
  • the hostile sample is a problem that can occur in any model learned by machine learning, and so far no model that is not affected by the hostile sample has been proposed. Therefore, especially in the image domain, a method for ensuring robustness against hostile samples has been proposed by adding a defense technique against hostile samples similar to the technique described in Non-Patent Document 2.
  • Transfer attack possibility is a property that a hostile sample generated by targeting a certain model can also attack another type of model that carries out the same task as that model.
  • transfer attack potential an attacker prepares another model that performs the same task as the model, even if the model to be attacked cannot be obtained or manipulated directly, and is hostile to that model. By generating a sample, it becomes possible to attack the model to be attacked.
  • the voice to be authenticated is not treated as the voice waveform as it is, but is processed in the form of data converted into the frequency domain by performing processing such as short-time Fourier transform in the preprocessing for the voice.
  • various filters are often applied.
  • the inventor has a high success rate of attacking hostile samples in one speaker recognition system when different preprocessing devices included in different speaker recognition systems apply mel filters of different dimensions to speech.
  • another speaker recognition system with a different number of dimensions of the Melfilter can significantly reduce the attack success rate of the hostile sample. That is, the inventor has experimentally shown that the possibility of transfer attack is significantly reduced when the number of dimensions of the mel filter in the pretreatment is different.
  • FIG. 1 is a graph showing the experimental results of an experiment for confirming the attack success rate of a hostile sample in a plurality of speaker authentication systems having different numbers of dimensions of the mel filter in the preprocessing.
  • three speaker recognition systems were used. The configurations of these three speaker authentication systems are the same, but the number of dimensions of the mel filter in the preprocessing is different from 40, 65, 90.
  • a speaker authentication system having a mel filter having 90 dimensions is used to generate a hostile sample, and the hostile sample is used for the above three speaker authentication systems.
  • the change in the attack success rate when an attack is made is shown by a solid line in FIG.
  • the success rate of this hostile sample attack on a speaker recognition system with 90 dimensions of the Melfilter is high, but as the number of dimensions departs from 90 and decreases to 65, 40, the success rate of attacks may decrease. , As can be seen from FIG.
  • a speaker authentication system having a mel filter having 40 dimensions is used to generate a hostile sample, and the hostile sample is generated for the three speaker authentication systems.
  • the change in the attack success rate when the attack is made in FIG. 1 is shown by a broken line in FIG.
  • the success rate of this hostile sample attack on a speaker recognition system with 40 dimensions of the Melfilter is high, but the success rate of attacks may decrease as the number of dimensions moves away from 40 and increases to 65 and 90. , As can be seen from FIG.
  • the inventor made the following invention based on such findings.
  • FIG. 2 is a block diagram showing a configuration example of the speaker authentication system according to the first embodiment of the present invention.
  • the speaker authentication system of the first embodiment includes a plurality of voice processing units 11-1 to 11-n, a data storage unit 112, and a post-processing unit 116.
  • the voice processing unit is simply represented by the code "11" without describing "-1", “-2", ..., "-N". .. The same applies to the reference numerals representing each element included in the voice processing unit 11.
  • the number of voice processing units 11 is n (see FIG. 2).
  • each voice processing unit 11 authenticates a speaker for the voice. Specifically, each voice processing unit 11 performs a process of determining the speaker who emitted the voice.
  • Each voice processing unit 11 includes a preprocessing unit 111, a feature amount extraction unit 113, a similarity calculation unit 114, and an authentication unit 115, respectively.
  • the voice processing unit 11-1 includes a pre-processing unit 111-1, a feature amount extraction unit 113-1, a similarity calculation unit 114-1, and an authentication unit 115-1.
  • each voice processing unit 11-1 to 11-n, data storage unit 112, and post-processing unit 116 are realized by separate computers.
  • the voice processing units 11-1 to 11-n, the data storage unit 112, and the post-processing unit 116 are communicably connected to each other.
  • the modes of the voice processing units 11-1 to 11-n, the data storage unit 112, and the post-processing unit 116 are not limited to such examples.
  • the pre-processing units 111-1 to 111-n provided in each of the voice processing units 11-1 to 11-n execute pre-processing on the voice.
  • the preprocessing method or parameter is different in each of the preprocessing units 111-1 to 111-n. That is, the preprocessing method or parameter is different for each individual preprocessing unit 111. Therefore, in this example, there are n types of preprocessing.
  • each preprocessing unit 111 applies a short-time Fourier transform to the voice (more specifically, voice waveform data) input via the microphone, and applies a mel filter to the result. Perform preprocessing. At this time, the number of dimensions of the mel filter is different for each preprocessing unit 111. Since the number of dimensions of the mel filter is different for each preprocessing unit 111, the preprocessing performed on the voice is different for each preprocessing unit 111.
  • the mode in which the preprocessing method or parameter is different for each preprocessing unit 111 is not limited to the above example. In another embodiment, the pretreatment method or parameter may be different for each pretreatment unit 111.
  • the data storage unit 112 stores voice-related data for each speaker for one or more speakers.
  • the voice-related data is data from which a feature amount expressing the characteristics of the speaker's voice can be derived.
  • the data storage unit 112 may store the voice (more specifically, the voice waveform data) input via the microphone for each speaker. Alternatively, the data storage unit 112 may store the data obtained by preprocessing the voice waveform data for each speaker. Alternatively, the data storage unit 112 stores, for each speaker, the feature amount itself extracted from the data obtained by preprocessing the voice waveform data, or data in a format in which the feature amount is calculated. May be good.
  • the data storage unit 112 stores n types of data per speaker. That is, the data storage unit 112 stores n types of data for each speaker.
  • the data storage unit 112 may store one type of voice waveform data for each speaker.
  • FIG. 2 illustrates a case where each preprocessing unit 111 acquires data from the data storage unit 112. The case where the data obtained after the preprocessing of the voice waveform data is stored in the data storage unit 112 will be described later.
  • each voice processing unit 11 performs speaker authentication for the voice. That is, each voice processing unit 11 determines which of the speakers whose data is stored in the data storage unit 112.
  • each of the preprocessing units 111-1 to 111-n executes a process of converting the input voice into a format in which the feature amount extraction unit 113 can easily extract the feature amount of the voice.
  • An example of this preprocessing is a process of applying a short-time Fourier transform to voice (voice waveform data) and applying a mel filter to the result.
  • the number of dimensions of the mel filter in the pretreatment units 111-1 to 111-n is different. That is, the number of dimensions of the mel filter is different for each preprocessing unit 111.
  • the example of pretreatment is not limited to the above example. Further, as already described, the mode in which the pretreatment method or parameter is different for each pretreatment unit 111 is not limited to the above example.
  • each preprocessing unit 111 receives the voice (voice waveform data) of each speaker stored in the data storage unit 112 when performing preprocessing on the input voice (voice waveform data). Also preprocesses. As a result, one voice processing unit 11 obtains the result of preprocessing for the input voice waveform data and the result of preprocessing for each of the voice waveform data for each speaker. The same applies to each of the other voice processing units 11.
  • Each feature amount extraction unit 113 extracts the feature amount of voice from the result of preprocessing for the input voice waveform data. Similarly, each feature amount extraction unit 113 is based on the result of preprocessing by the preprocessing unit 111 executed for each speaker whose data is stored in the data storage unit 112 (hereinafter, referred to as a registered speaker). , Extract voice features. As a result, in one voice processing unit 11, the feature amount of the input voice and the feature amount of each voice for each registered speaker can be obtained. The same applies to each of the other voice processing units 11.
  • Each feature amount extraction unit 113 may extract the feature amount using, for example, a model obtained by machine learning, or may extract the feature amount by performing statistical calculation processing.
  • the method for extracting the feature amount from the result of the pretreatment is not limited to these methods, and other methods may be used.
  • Each similarity calculation unit 114 calculates the similarity between the input voice feature amount and the registered speaker voice feature amount for each registered speaker. As a result, in one voice processing unit 11, the degree of similarity is obtained for each registered speaker. The same applies to each of the other voice processing units 11.
  • Each similarity calculation unit 114 may calculate, as the similarity, the cosine similarity between the feature amount of the input voice and the feature amount of the registered speaker's voice. Further, each similarity calculation unit 114 may calculate, as the similarity, the reciprocal of the distance between the feature amount of the input voice and the feature amount of the registered speaker's voice.
  • the method of calculating the similarity is not limited to these methods, and other methods may be used.
  • Each authentication unit 115 authenticates the speaker based on the similarity calculated for each registered speaker. That is, each authentication unit 115 determines which of the registered speakers the input voice is.
  • each authentication unit 115 compares the similarity calculated for each registered speaker with the threshold value, and identifies a speaker whose similarity is greater than the threshold value as the speaker who emitted the input voice. You may. When there are a plurality of speakers whose similarity is greater than the threshold value, each authentication unit 115 may specify the speaker with the highest similarity among the speakers as the speaker who emitted the input voice. Good.
  • the above threshold value may be a fixed value or a variable value that fluctuates according to a predetermined calculation method.
  • the authentication units 115-1 to 115-n perform speaker authentication to determine the speaker who emitted the input voice for each voice processing unit 11. The result is obtained.
  • the speaker determination results obtained for each voice processing unit 11 are not always the same.
  • the post-processing unit 116 acquires the speaker authentication result from the authentication units 115-1 to 115-n, and based on the speaker authentication result obtained by each of the authentication units 115-1 to 115-n, 1 Identify the results of one speaker authentication.
  • the post-processing unit 116 outputs the specified speaker authentication result to an output device (not shown in FIG. 2).
  • the post-processing unit 116 may determine the speaker who emitted the input voice by a majority vote based on the speaker authentication results obtained by each of the authentication units 115-1 to 115-n. That is, the post-processing unit 116 inputs the voice input to the speaker with the largest number of selected speakers among the speakers selected as a result of speaker authentication by each of the authentication units 115-1 to 115-n. You may decide as the speaker who made the call.
  • the method by which the post-processing unit 116 identifies the result of one speaker authentication is not limited to the majority vote, and may be another method.
  • the authentication units 115-1 to 115-n perform speaker authentication, respectively, and the post-processing unit 116 performs speaker authentication based on the speaker authentication results obtained by each of the authentication units 115-1 to 115-n. Identify the result of one speaker authentication.
  • the speaker authentication system includes a plurality of elements (voice processing unit 11) for performing speaker authentication, and the speaker authentication system as a whole specifies the result of one speaker authentication.
  • the speaker authentication system according to the embodiment of the present invention can also be used as a hostile sample detection system using the differences between the preprocessing units 111-1 to 111-n.
  • the speaker authentication system of the embodiment of the present invention can also be used as a system for determining whether the input voice is a hostile voice or a natural voice.
  • the post-processing unit 116 determines that the input voice is a hostile sample, for example, if the results of speaker authentication in all the voice processing units 11-1 to 11-n do not match. May be good.
  • the criteria for determining that the input voice is a hostile sample is not limited to the above example.
  • each voice processing unit 11 is realized by a computer.
  • the preprocessing unit 111, the feature amount extraction unit 113, the similarity calculation unit 114, and the authentication unit 115 are, for example, by the CPU (Central Processing Unit) of the computer operating according to the voice processing program. It will be realized.
  • the CPU reads a voice processing program from a program recording medium such as a computer program storage device, and operates as a preprocessing unit 111, a feature amount extraction unit 113, a similarity calculation unit 114, and an authentication unit 115 according to the program. Just do it.
  • FIG. 3 is a flowchart showing an example of the processing progress of the first embodiment. The matters already described will be omitted as appropriate.
  • common voice (voice waveform data) is input to the preprocessing units 111-1 to 111-n (step S1).
  • the preprocessing units 111-1 to 111-n each perform preprocessing on the input voice waveform data (step S2). Further, in step S2, the preprocessing units 111-1 to 111-n each acquire the voice waveform data stored in the data storage unit 112 for each registered speaker, and precede the acquired voice waveform data. Perform processing.
  • the preprocessing method or parameter is different for each preprocessing unit 111.
  • the number of dimensions of the mel filter used in the preprocessing is different for each preprocessing unit 111.
  • step S2 the feature amount extraction units 113-1 to 113-n each extract the voice feature amount from the result of the preprocessing in the corresponding preprocessing unit 111 (step S3).
  • the feature amount extraction unit 113-1 extracts the feature amount of the input voice from the result of the preprocessing performed by the preprocessing unit 111-1 on the input voice waveform data. Further, the feature amount extraction unit 113-1 is also based on the result of the preprocessing performed by the preprocessing unit 111-1 on the voice waveform data stored in the data storage unit 112 for each registered speaker. , Each of them extracts the feature amount of the voice.
  • the other feature amount extraction units 113 also operate in the same manner.
  • step S3 the similarity calculation units 114-1 to 114-n resemble the input voice feature amount and the registered speaker voice feature amount for each registered speaker, respectively.
  • the degree is calculated (step S4).
  • the authentication units 115-1 to 115-n perform speaker authentication based on the similarity calculated for each registered speaker (step S5). That is, each of the authentication units 115-1 to 115-n determines which of the registered speakers the input voice is.
  • the post-processing unit 116 acquires the speaker authentication result from the authentication units 115-1 to 115-n, and based on the speaker authentication result obtained by each of the authentication units 115-1 to 115-n.
  • the result of one speaker authentication is specified (step S6).
  • the post-processing unit 116 inputs the voice input to the speaker with the largest number of selected speakers among the speakers selected as a result of speaker authentication by each of the authentication units 115-1 to 115-n. You may decide as the speaker who made the call.
  • the post-processing unit 116 outputs the result of the speaker authentication specified in step S6 to the output device (not shown in FIG. 2) (step S7).
  • the output mode in step S7 is not particularly limited.
  • the post-processing unit 116 may display the result of speaker authentication specified in step S6 on a display device (not shown in FIG. 2).
  • the preprocessing method or parameter is different for each preprocessing unit 111 included in each voice processing unit 11. Therefore, even if the attack success rate of the hostile sample is high in one voice processing unit 11, the attack success rate of the hostile sample is lowered in the other voice processing unit 11. Therefore, the result of voice authentication obtained by the voice processing unit 11 having a high attack success rate of the hostile sample is not finally selected by the post-processing unit 116. Therefore, robustness against hostile samples can be achieved. Further, in the present embodiment, the attack success rate for the plurality of voice processing units 11 is different by changing the method or parameter in the preprocessing for each preprocessing unit 111. And by doing so, it increases robustness against hostile samples. Therefore, no empirical knowledge of known hostile samples is used to increase robustness to hostile samples. Therefore, according to the present embodiment, robustness can be ensured even against an unknown hostile sample.
  • the speaker authentication system of the present embodiment can also be used as a hostile sample detection system utilizing the difference between the preprocessing units 111-1 to 111-n. For example, if the post-processing unit 116 does not match the speaker authentication results of all the voice processing units 11-1 to 11-n, the input voice is determined to be a hostile sample. It can also be used as a detection system such as. As described above, the criteria for determining that the input voice is a hostile sample is not limited to the above example.
  • the data storage unit 112 stores the voice (voice waveform data) input via the microphone for each speaker has been described as an example.
  • the data storage unit 112 may store the data obtained after the preprocessing of the voice waveform data. This case will be described below.
  • the preprocessing method or parameter is different for each preprocessing unit 111. That is, there are n types of preprocessing. Therefore, when focusing on one speaker, data obtained by applying the n types of preprocessing to the voice waveform data of that one speaker (referred to as p) is prepared. Specifically, “data obtained by preprocessing the voice waveform data of the speaker p with the preprocessing unit 111-1” and “the voice waveform data of the speaker p with the preprocessing unit 111-2".
  • n kinds of data can be obtained as the data of the speaker p.
  • n types of data are prepared per person. In this way, n types of data may be prepared for each speaker, and n types of data of each speaker may be stored in the data storage unit 112.
  • the voice processing unit 11 acquires the data stored in the data storage unit 112
  • the feature amount extraction unit 113 corresponds to the feature amount extraction unit 113 for each registered speaker.
  • the data obtained by performing the preprocessing of the preprocessing unit 111 may be acquired from the data storage unit 112, and the feature amount may be extracted from the data.
  • the voice processing unit 11-1 acquires the data stored in the data storage unit 112
  • the feature amount extraction unit 113-1 performs the preprocessing of the preprocessing unit 111-1 for each registered speaker.
  • the data obtained by the application may be acquired from the data storage unit 112, and the feature amount may be extracted from the data.
  • the other voice processing unit 11 acquires the data stored in the data storage unit 112.
  • the data storage unit 112 stores the feature amount itself extracted from the data obtained by preprocessing the voice waveform data for each speaker. Also in this case, n types of data (features) per person may be prepared, and n types of data of each speaker may be stored in the data storage unit 112.
  • n types of data of the speaker p “features extracted from the result of preprocessing the voice waveform data of the speaker p by the preprocessing unit 111-1" and “the voice waveform data of the speaker p” "Features extracted from the result of preprocessing of preprocessing unit 111-2", ..., "Features extracted from the result of preprocessing of preprocessing unit 111-n on the voice waveform data of speaker p"
  • n types of data (features) are prepared per person. In this way, n types of data (features) may be prepared for each speaker, and the n types of features of each speaker may be stored in the data storage unit 112.
  • the data storage unit 112 stores data related to voice in the form of feature quantities. Therefore, when the voice processing unit 11 acquires the data stored in the data storage unit 112, the similarity calculation unit 114 of the preprocessing unit 111 corresponding to the feature amount extraction unit 113 for each registered speaker. The feature amount corresponding to the preprocessing may be acquired from the data storage unit 112. Then, the similarity calculation unit 114 may calculate the similarity between the feature amount and the feature amount of the voice input to the voice processing unit 11.
  • the similarity calculation unit 114-1 when the voice processing unit 11-1 acquires the feature amount stored in the data storage unit 112, the similarity calculation unit 114-1 "precedes the voice waveform data of the speaker" for each registered speaker.
  • the "feature amount extracted from the result of preprocessing of the processing unit 111-1" may be acquired from the data storage unit 112.
  • the similarity calculation unit 114-1 may calculate the similarity between the feature amount and the feature amount of the voice input to the voice processing unit 11-1. The same applies when the other voice processing unit 11 acquires the feature amount stored in the data storage unit 112.
  • the case where the voice processing units 11-1 to 11-n, the data storage unit 112, and the post-processing unit 116 are realized by different computers has been described as an example. ..
  • a case where a speaker authentication system including each voice processing unit 11-1 to 11-n, a data storage unit 112, and a post-processing unit 116 is realized by one computer will be described as an example.
  • FIG. 4 is a schematic block diagram showing a configuration example of one computer that realizes a speaker authentication system including each voice processing unit 11-1 to 11-n, a data storage unit 112, and a post-processing unit 116. ..
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, an interface 1004, a microphone 1005, and a display device 1006.
  • Microphone 1005 is an input device used for voice input.
  • the input device used for voice input may be a device other than the microphone 1005.
  • the display device 1006 is used to display the result of speaker authentication specified in step S6 (see FIG. 3) described above.
  • the output mode in step S7 is not particularly limited.
  • the operation of the speaker authentication system including the voice processing units 11-1 to 11-n, the data storage unit 112, and the post-processing unit 116 is stored in the auxiliary storage device 1003 in the form of a program.
  • this program will be referred to as a speaker authentication program.
  • the CPU 1001 reads the speaker authentication program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and according to the speaker authentication program, the plurality of voice processing units 11-1 to 11-n in the first embodiment, and It operates as a post-processing unit 116.
  • the data storage unit 112 may be realized by the auxiliary storage device 1003, or may be realized by another storage device included in the computer 1000.
  • Auxiliary storage 1003 is an example of a non-temporary tangible medium.
  • Other examples of non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the speaker authentication program When the speaker authentication program is distributed to the computer 1000 via a communication line, the distributed computer 1000 deploys the speaker authentication program to the main storage device 1002, and the CPU 1001 first sets the speaker authentication program according to the speaker authentication program. It may operate as a plurality of voice processing units 11-1 to 11-n and a post-processing unit 116 according to the embodiment of the above.
  • FIG. 5 is a block diagram showing a configuration example of the speaker authentication system according to the second embodiment of the present invention.
  • the same elements as those in the first embodiment are designated by the same reference numerals as those in FIG. 2, and detailed description thereof will be omitted.
  • the speaker authentication system of the second embodiment includes a plurality of voice processing units 21-1 to 21-n, a data storage unit 112, and an authentication unit 215.
  • the voice processing unit is simply represented by the code "21" without describing "-1", "-2", ..., "-N”. ..
  • the number of voice processing units 21 is n (see FIG. 5).
  • each voice processing unit 21 has a feature amount of the input voice and a feature amount of each registered speaker (stored in the data storage unit 112). The degree of similarity with the feature amount obtained from the data of each speaker is calculated.
  • each voice processing unit 21 includes a pre-processing unit 111. Then, the preprocessing method or parameter is different for each individual preprocessing unit 111.
  • the data storage unit 112 stores voice-related data for each speaker for one or more speakers.
  • the data storage unit 112 may store the voice (more specifically, the voice waveform data) input via the microphone for each speaker. Alternatively, the data storage unit 112 may store the data obtained by preprocessing the voice waveform data for each speaker. Alternatively, the data storage unit 112 stores, for each speaker, the feature amount itself extracted from the data obtained by preprocessing the voice waveform data, or data in a format in which the feature amount is calculated. May be good.
  • n types of data are prepared for each speaker, and each speaker's data can be stored.
  • Each of the n types of data may be stored in the data storage unit 112.
  • the data storage unit 112 stores the feature amount itself extracted from the data obtained by preprocessing the voice waveform data for each speaker, n types of data (feature amount) are stored for each speaker. ), And n kinds of feature quantities of each speaker may be stored in the data storage unit 112.
  • the data storage unit 112 may store one type of voice waveform data for each speaker. Good.
  • the data storage unit 112 stores the voice (voice waveform data) before the preprocessing is performed will be described as an example.
  • Each voice processing unit 21 includes a preprocessing unit 111, a feature amount extraction unit 113, and a similarity calculation unit 114, respectively.
  • the voice processing unit 21-1 includes a pre-processing unit 111-1, a feature amount extraction unit 113-1 and a similarity calculation unit 114-1.
  • the voice processing units 21-1 to 21-n, the data storage unit 112, and the authentication unit 215 are each realized by different computers.
  • the voice processing units 21-1 to 21-n, the data storage unit 112, and the authentication unit 215 are communicably connected to each other.
  • the modes of the voice processing units 21-1 to 21-n, the data storage unit 112, and the authentication unit 215 are not limited to such examples.
  • the pretreatment units 111-1 to 111-n are the same as the pretreatment units 111-1 to 111-n in the first embodiment.
  • each of the preprocessing units 111-1 to 111-n is a voice input in a format in which the feature amount extraction unit 113 can easily extract the voice feature amount as the preprocessing. Executes the process of converting.
  • An example of this preprocessing is a process of applying a short-time Fourier transform to voice (voice waveform data) and applying a mel filter to the result.
  • the preprocessing method or parameter is different for each preprocessing unit 111.
  • it is assumed that the number of dimensions of the mel filter in the preprocessing units 111-1 to 111-n is different. That is, it is assumed that the number of dimensions of the mel filter is different for each preprocessing unit 111.
  • the example of pretreatment is not limited to the above example. Further, the mode in which the pretreatment method or parameter is different for each pretreatment unit 111 is not limited to the above example.
  • each preprocessing unit 111 receives the voice (voice waveform data) of each speaker stored in the data storage unit 112 when performing preprocessing on the input voice (voice waveform data). Also preprocesses.
  • Each feature amount extraction unit 113 is the same as each feature amount extraction unit 113 in the first embodiment. Each feature amount extraction unit 113 extracts the feature amount of voice from the result of preprocessing for the input voice waveform data. Similarly, each feature amount extraction unit 113 extracts a voice feature amount from the result of preprocessing by the preprocessing unit 111 executed for each registered speaker.
  • Each feature amount extraction unit 113 may extract the feature amount using, for example, a model obtained by machine learning, or may extract the feature amount by performing statistical calculation processing.
  • the method for extracting the feature amount from the result of the pretreatment is not limited to these methods, and other methods may be used.
  • Each similarity calculation unit 114 calculates the similarity between the input voice feature amount and the registered speaker voice feature amount for each registered speaker.
  • Each similarity calculation unit 114 may calculate, as the similarity, the cosine similarity between the feature amount of the input voice and the feature amount of the registered speaker's voice. Further, each similarity calculation unit 114 may calculate, as the similarity, the reciprocal of the distance between the feature amount of the input voice and the feature amount of the registered speaker's voice.
  • the method of calculating the similarity is not limited to these methods, and other methods may be used.
  • the authentication unit 215 is based on the similarity calculated for each speaker by each voice processing unit 21-1 to 21-n (more specifically, each similarity calculation unit 114-1 to 114-n). Authenticate the speaker. That is, in the authentication unit 215, the input voice is among the registered speakers based on the similarity calculated for each speaker registered in each of the similarity calculation units 114-1 to 114-n. Determine which speaker's voice is. The authentication unit 215 outputs the result of speaker authentication (which speaker's voice is the input voice) to an output device (not shown in FIG. 5).
  • the authentication unit 215 acquires the degree of similarity for each registered speaker from each of the n similarity calculation units 114-1 to 114-n. For example, assume that there are x registered speakers. In this case, the authentication unit 215 acquires the similarity for x persons from the similarity calculation unit 114-1. Similarly, the authentication unit 215 acquires the similarity for x persons from the similarity calculation units 114-2 to 114-n, respectively.
  • the authentication unit 215 holds an individual threshold value for each of the individual preprocessing units 111-1 to 111-n. That is, the authentication unit 215 has a threshold value corresponding to the preprocessing unit 111-1 (denoted as Th1), a threshold value corresponding to the preprocessing unit 111-2 (denoted as Th2), ..., Preprocessing unit 111-. It holds a threshold value (denoted as Thn) corresponding to n.
  • the authentication unit 215 supplies the similarity for x people acquired from the similarity calculation unit 114 in the voice processing unit 21 and the preprocessing unit 111 in the voice processing unit 21 for each voice processing unit 21. Compare with the corresponding threshold. As a result, n comparison results between the similarity and the threshold value can be obtained for one speaker.
  • the authentication unit 215 may specify the number of comparison results that the similarity is larger than the threshold value for each registered speaker, and set the speaker with the maximum number as the result of speaker authentication. That is, the authentication unit 215 may determine that the input voice is the voice of the speaker having the maximum number.
  • the authentication unit 215 compares the magnitude relationship between the similarity calculated for the speaker p obtained from the similarity calculation unit 114-1 and the threshold Th1 corresponding to the preprocessing unit 111-1. Similarly, the authentication unit 215 compares the magnitude relationship between the similarity calculated for the speaker p obtained from the similarity calculation unit 114-2 and the threshold Th2 corresponding to the preprocessing unit 111-2. .. The authentication unit 215 also performs the same processing on the similarity calculated for the speaker p obtained from each of the similarity calculation units 114-3 to 114-n. As a result, n comparison results between the similarity and the threshold value are obtained for the speaker p.
  • the authentication unit 215 similarly derives n comparison results between the similarity and the threshold value for each registered speaker.
  • the authentication unit 215 specifies the number of comparison results that the similarity is larger than the threshold value for each speaker. Further, the authentication unit 215 determines that the input voice is the voice of the speaker having the maximum number.
  • the speaker authentication operation of the authentication unit 215 is not limited to the above example.
  • the case where the authentication unit 215 holds an individual threshold value for each of the individual preprocessing units 111-1 to 111-n has been described as an example.
  • the authentication unit 215 may hold one type of threshold value that does not depend on the preprocessing units 111-1 to 111-n.
  • an operation example of the authentication unit 215 when the authentication unit 215 holds one type of threshold value will be shown.
  • the authentication unit 215 acquires the degree of similarity for each registered speaker from each of the n similarity calculation units 114-1 to 114-n. This point is the same as the above-mentioned case.
  • the authentication unit 215 calculates the arithmetic mean of the similarity obtained from each of the n similarity calculation units 114-1 to 114-n for each registered speaker. For example, it is assumed that the speaker p is focused on among the plurality of registered speakers.
  • the authentication unit 215 is calculated for "similarity calculated for speaker p obtained from similarity calculation unit 114-1" and "similarity calculated for speaker p obtained from similarity calculation unit 114-2".
  • the arithmetic mean of "similarity”, ..., "Similarity calculated for speaker p obtained from the similarity calculation unit 114-n” is calculated. As a result, an arithmetic mean of similarity with respect to speaker p is obtained.
  • the authentication unit 215 calculates the arithmetic mean of the degree of similarity for each registered speaker.
  • the authentication unit 215 compares, for example, the arithmetic mean of the similarity calculated for each registered speaker with the held threshold value, and selects a speaker whose arithmetic mean of the similarity is larger than the threshold value. It may be determined as the speaker who emitted the input voice. Further, when there are a plurality of speakers whose arithmetic mean of similarity is larger than the threshold value, the authentication unit 215 emits the input voice to the speaker having the largest arithmetic mean of similarity among the speakers. It may be judged as a speaker.
  • the authentication unit 215 identifies the speaker who emitted the input voice by a more complicated calculation based on the similarity of each speaker acquired from each similarity calculation unit 114. May be good.
  • each voice processing unit 21 is realized by a computer.
  • the pre-processing unit 111, the feature amount extraction unit 113, and the similarity calculation unit 114 are realized by, for example, the CPU of a computer that operates according to the voice processing program.
  • the CPU may read the audio processing program from a program recording medium such as a program storage device of a computer, and operate as the preprocessing unit 111, the feature amount extraction unit 113, and the similarity calculation unit 114 according to the program.
  • FIG. 6 is a flowchart showing an example of the processing progress of the second embodiment. The matters already described will be omitted as appropriate. Further, the description of the same processing as that of the first embodiment will be omitted.
  • Steps S1 to S4 are the same as steps S1 to S4 in the first embodiment, and the description thereof will be omitted.
  • step S4 the authentication unit 215 performs speaker authentication based on the similarity calculated for each speaker by the similarity calculation units 114-1 to 114-n (step S11).
  • step S11 the authentication unit 215 acquires the degree of similarity for each registered speaker from each of the n similarity calculation units 114-1 to 114-n. Then, the authentication unit 215 determines which of the registered speakers the input voice is based on the similarity.
  • the authentication unit 215 outputs the result of speaker authentication in step S11 to an output device (not shown in FIG. 5) (step S12).
  • the output mode in step S12 is not particularly limited.
  • the authentication unit 215 may display the result of speaker authentication in step S11 on a display device (not shown in FIG. 5).
  • each voice processing unit 11 includes an authentication unit 115 (see FIG. 2), but in the second embodiment, each voice processing unit 21 includes such an authentication unit. Not. Therefore, in the second embodiment, each voice processing unit 21 can be simplified.
  • the authentication unit 215 can realize speaker authentication by a method different from that of the first embodiment based on the similarity for each speaker acquired from each similarity calculation unit 114.
  • each voice processing unit 21-1 to 21-n, a data storage unit 112, and an authentication unit 215 are realized by different computers.
  • a case where a speaker authentication system including each voice processing unit 21-1 to 21-n, a data storage unit 112, and an authentication unit 215 is realized by one computer will be described as an example. Since this computer can be represented in the same manner as in FIG. 4, it will be described with reference to FIG.
  • Microphone 1005 is an input device used for voice input.
  • the input device used for voice input may be a device other than the microphone 1005.
  • the display device 1006 is used to display the result of speaker authentication in step 11 described above.
  • the output mode in step S12 is not particularly limited.
  • the operation of the speaker authentication system including the voice processing units 21-1 to 21-n, the data storage unit 112, and the authentication unit 215 is stored in the auxiliary storage device 1003 in the form of a program.
  • this program is referred to as a speaker authentication program.
  • the CPU 1001 reads the speaker authentication program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and according to the speaker authentication program, the plurality of voice processing units 21-1 to 21-n in the second embodiment, and It operates as the authentication unit 215.
  • the data storage unit 112 may be realized by the auxiliary storage device 1003, or may be realized by another storage device included in the computer 1000.
  • FIG. 7 is a block diagram showing a specific example of the configuration of the speaker authentication system of the first embodiment.
  • the speaker authentication system includes a plurality of voice processing devices 31-1 to 31-n, a data storage device 312, and a post-processing device 316.
  • the voice processing device is simply represented by the code "31" without describing "-1", "-2", ..., "-N". ..
  • the plurality of voice processing devices 31-1 to 31-n and the post-processing device 316 are each realized by different computers. These computers include a CPU, a memory, a network interface, and a magnetic storage device.
  • the audio processing devices 31-1 to 31-n may each include a reading device for reading data from a computer-readable recording medium such as a CD-ROM.
  • Each voice processing device 31 includes an arithmetic unit 317.
  • the arithmetic unit 317 corresponds to, for example, a CPU.
  • Each arithmetic unit 317 expands the voice processing program stored in the magnetic storage device of the voice processing device 31 or the voice processing program received from the outside via the network interface on the memory.
  • the individual arithmetic units 317 operate as the pre-processing unit 111, the feature amount extraction unit 113, the similarity calculation unit 114, and the authentication unit 115 (see FIG. 2) in the first embodiment according to the voice processing program. Realize.
  • the preprocessing method or parameter is different for each arithmetic unit 317 (in other words, for each voice processing device 31).
  • the CPU of the post-processing device 316 expands the program stored in the magnetic storage device of the post-processing device 316 or the program received from the outside via the network interface on the memory. Then, the CPU realizes the operation as the post-processing unit 116 (see FIG. 2) in the first embodiment according to the program.
  • the data storage device 312 is, for example, a magnetic storage device or the like that stores data related to voice for each speaker for one or more speakers, and provides data to each arithmetic unit 317-1 to 317-n. Further, the data storage device 312 may be realized by a computer including a reading device for reading data from a recording medium that can be read by a computer of a flexible disk or a CD-ROM. Then, the recording medium may store data related to voice for each speaker.
  • FIG. 8 is a flowchart showing an example of the processing progress in the specific example shown in FIG. 7.
  • a common voice is input to the arithmetic units 317-1 to 317-n (step S31).
  • Step S31 corresponds to step S1 (see FIG. 3) in the first embodiment.
  • step S32 the arithmetic units 317-1 to 317-n execute the processes corresponding to steps S2 to S5 in the first embodiment.
  • the post-processing device 316 identifies one speaker authentication result based on the speaker authentication results obtained by each of the arithmetic units 317-1 to 317-n (step S33).
  • step S34 the post-processing device 316 outputs the result of the speaker authentication specified in step S33 to the output device (not shown in FIG. 7) (step S34).
  • the output mode in step S34 is not particularly limited.
  • Steps S33 and S34 correspond to steps S6 and S7 in the first embodiment.
  • FIG. 9 is a block diagram showing an example of an outline of the speaker authentication system of the present invention.
  • the speaker authentication system of the present invention includes a data storage unit 112, a plurality of voice processing units 11, and a post-processing unit 116.
  • the data storage unit 112 stores data related to the speaker's voice.
  • Each of the plurality of voice processing units 11 performs speaker authentication based on the input voice and the data stored in the data storage unit 112.
  • the post-processing unit 116 identifies one speaker authentication result based on the speaker authentication results obtained by each of the plurality of voice processing units 11.
  • Each voice processing unit 11 includes a preprocessing unit 111, a feature amount extraction unit 113, a similarity calculation unit 114, and an authentication unit 115, respectively.
  • the pre-processing unit 111 performs pre-processing on the voice.
  • the feature amount extraction unit 113 extracts the feature amount from the voice data obtained by the preprocessing.
  • the similarity calculation unit 114 calculates the degree of similarity between the feature amount and the feature amount obtained from the data stored in the data storage unit 112.
  • the authentication unit 115 performs speaker authentication based on the similarity calculated by the similarity calculation unit 114.
  • the preprocessing method or parameter is different for each preprocessing unit 111 included in each voice processing unit 11.
  • FIG. 10 is a block diagram showing another example of the outline of the speaker authentication system of the present invention.
  • the speaker authentication system of the present invention includes a data storage unit 112, a plurality of voice processing units 21, and an authentication unit 215.
  • the data storage unit 112 stores data related to the speaker's voice.
  • Each of the plurality of voice processing units 21 calculates the degree of similarity between the feature amount obtained from the input voice and the feature amount obtained from the data stored in the data storage unit 112.
  • the authentication unit 215 performs speaker authentication based on the similarity obtained by each of the plurality of voice processing units 21.
  • Each voice processing unit 21 includes a preprocessing unit 111, a feature amount extraction unit 113, and a similarity calculation unit 114.
  • the pre-processing unit 111 performs pre-processing on the voice.
  • the feature amount extraction unit 113 extracts the feature amount from the voice data obtained by the preprocessing.
  • the similarity calculation unit 114 calculates the degree of similarity between the feature amount and the feature amount obtained from the data stored in the data storage unit 112.
  • the preprocessing method or parameter is different for each preprocessing unit 111 included in each voice processing unit 21.
  • each preprocessing unit applies a short-time Fourier transform to the input voice, and then executes preprocessing to apply a mel filter to perform mel.
  • the number of dimensions of the filter may be different for each preprocessing unit.
  • the present invention is suitably applied to a speaker authentication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

敵対的サンプルに対する頑強性を実現することができる話者認証システムを提供する。データ記憶部112は、話者の音声に関するデータを記憶する。複数の音声処理部11はそれぞれ、入力された音声と、データ記憶部112に記憶されたデータとに基づいて、話者認証を行う。後処理部116は、複数の音声処理部11のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する。そして、各音声処理部11において音声に対して施される前処理の方式またはパラメータは、音声処理部11毎に異なる。

Description

話者認証システム、方法およびプログラム
 本発明は、話者認証システム、話者認証方法および話者認証プログラムに関する。
 人間の音声は、生体情報の一種であり、個人に特有のものである。そのため、音声は、個人を特定する生体認証に用いることができる。音声を用いた生体認証は、話者認証と呼ばれる。
 図11は、一般的な話者認証システムの例を示すブロック図である。図11に示す一般的な話者認証システム40は、音声情報記憶装置420と、前処理装置410と、特徴量抽出装置430と、類似度算出装置440と、認証装置450とを備える。
 音声情報記憶装置420は、一人以上の話者の音声情報を予め登録しておくための記憶装置である。ここでは、音声情報記憶装置420には、各話者の音声情報として、入力される音声に対して前処理装置410が行う前処理と同じ前処理を各話者の音声に対して行うことで得られた音声情報が登録されているものとする。
 前処理装置410は、マイクロホン等を介して入力された音声に前処理を行う。前処理装置410は、この前処理において、特徴量抽出装置430が音声の特徴量を抽出しやすい形式に、入力された音声を変換する。
 特徴量抽出装置430は、前処理によって得られた音声情報から、音声の特徴量を抽出する。この特徴量は、話者の音声の特徴を表現していると言える。また、特徴量抽出装置430は、音声情報記憶装置420に登録されている各話者の音声情報からも特徴量を抽出する。
 類似度算出装置440は、音声情報記憶装置420に登録されている各音声情報から抽出された各話者の特徴量と、認証対象の音声(入力された音声)の特徴量との類似度を、話者毎に算出する。
 認証装置450は、話者毎に算出されたそれぞれの類似度と、予め定められた閾値とを比較することによって、入力された音声が、音声情報が音声情報記憶装置420に登録されている話者のうちどの話者の音声であるのかを判定する。
 図11に示す話者認証システムの一例が非特許文献1に記載されている。非特許文献1に記載されている話者認証システムの動作について説明する。予め、音声情報記憶装置420には、前処理装置410が行う前処理と同じ前処理を各話者の音声に対して行うことで得られた各話者の音声情報が登録されているものとする。
 マイクロホン等の入力装置を介して、話者認証システム40に、認証対象の音声が入力される。入力される音声は、特定の単語や文章を読み上げた音声に限定される場合もある。前処理装置410は、その音声を、特徴量抽出装置430が音声の特徴量を抽出しやすい形式に変換する。
 次に、特徴量抽出装置430は、前処理によって得られた音声情報から特徴量を抽出する。同様に、特徴量抽出装置430は、話者毎に、音声情報記憶装置420に登録されている音声情報から特徴量を抽出する。
 次に、類似度算出装置440は、各話者の特徴量と、認証対象の音声の特徴量との類似度を、話者毎に算出する。この結果、話者毎に、特徴量が求まる。
 次に、認証装置450は、話者毎に得られたそれぞれの類似度と、閾値とを比較することによって、入力された音声がどの話者の音声であるのかを判定する。そして、認証装置450は、その判定結果(話者認証結果)を出力装置(図示略)に出力する。
 上記の一般的な話者認証システムをはじめとする生体認証システムは、個人の認証に利用されるため、他のシステムのセキュリティを担保する役割を担うことがある。その際、生体認証システムを誤認証させるような敵対的な攻撃があり得る。
 このような敵対的な攻撃に対して頑強な生体認証システムの実現するための技術の一例が、非特許文献2に記載されている。非特許文献2に記載された技術は、特定の話者になりすます攻撃に対する防御技術である。具体的には、非特許文献2に記載された技術は、複数の異なる話者認証装置およびなりすまし攻撃検知装置を並列に動作させ、その結果を統合することで、入力された音声が成りすまし攻撃であるのか、正常な音声であるのかを判定する。
 図12は、非特許文献2に記載されているなりすまし攻撃防御システムを示す模式図である。非特許文献2に記載されているなりすまし攻撃の防御システムは、複数の話者認証装置511-1,511-2,・・・,511-iと、複数のなりすまし攻撃検知装置512-1,512-2,・・・,512-jと、認証結果統合装置513と、検知結果統合装置514と、話者認証装置515とを備える。話者認証装置を特に区別しない場合には、単に符号“511”で表す場合がある。同様に、なりすまし攻撃検知装置を特に区別しない場合には、単に符号“512”で表す場合がある。図12では、話者認証装置511の数がi個であり、なりすまし攻撃検知装置512の数がj個である場合を例示している。
 話者認証装置511-1,511-2,・・・,511-iは、それぞれ、単体で話者認証装置として動作する。同様に、なりすまし攻撃検知装置512-1,512-2,・・・,512-jは、それぞれ、単体でなりすまし攻撃検知装置として動作する。
 認証結果統合装置513は、複数の話者認証装置511における認証結果を統合する。また、検知結果統合装置514は、複数のなりすまし攻撃検知装置512における出力結果を統合する。認証装置515は、検知結果統合装置514による結果と、検知結果統合装置514による結果とをさらに統合して、入力音声が成りすまし攻撃であるか否かを判定する。
 非特許文献2に記載されているなりすまし攻撃防御システムの動作について説明する。認証対象の音声が、複数の話者認証装置511および複数のなりすまし攻撃検知装置512の全てに並列に入力される。
 話者認証装置511には、複数の話者の音声が登録されている。そして、話者認証装置511は、音声が登録されている話者毎に、入力された音声に対して認証スコアを算出し、最終的に認証した話者の認証スコアを出力する。従って、各話者認証装置511から1つずつ認証スコアが出力される。認証スコアは、入力音声が話者に由来するかを判定するためのスコアである。
 なりすまし攻撃検知装置512は、それぞれ検知スコアを出力する。検知スコアは、入力された音声が、なりすまし攻撃であるか、自然な音声であるかを判定するためのスコアである。
 認証結果統合装置513は、各話者認証装置511から出力された全ての認証スコアを統合する演算を行うことによって、統合認証スコアを算出し、統合認証スコアを出力する。検知結果統合装置514は、各なりすまし攻撃検知装置512から出力された全ての検知スコアを統合する演算を行うことによって、統合検知スコアを算出し、統合検知スコアを出力する。
 認証装置515は、統合認証スコアと統合検知スコアとを統合する演算を行い、最終的なスコアを求める。そして、認証装置515は、その最終的なスコアと閾値とを比較することによって、入力された音声が、なりすまし攻撃であるか否かを判定し、入力された音声が自然な音声である場合には、その音声が、話者認証装置511に登録されているどの話者に由来する音声であるのかを判定する。
 また、不正な音声入力に対抗するための技術は、特許文献1にも記載されている。
 また、話者認証方法の例は、特許文献2にも記載されている。
 また、特許文献3には、音声認識システムが記載されている。特許文献3には、固有の認識方式で音声認識を行う音声認識処理部を2つ備えた音声認識システムが記載されている。
特開2016-197200号公報 特開2019-28464号公報 特開2003-323196号公報
Georg Heigold et al., "End-to-End Text-Dependent Speaker Verification", 2016 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Md Sahidullah et al., "Integrated Spoofing Countermeasures and Automatic Speaker Verification: an Evaluation on ASV spoof 2015", INTERSPEECH, 2016
 近年、話者認証システムには機械学習によって学習されたモデル(以下、単にモデルと記す。)が利用されることが増えてきている。このようなモデルに対するセキュリティ上の課題として、敵対的サンプル(adversarial examples)が挙げられる。敵対的サンプルは、モデルにより誤判定が導出されるように計算された摂動が意図的に加えられたデータである。
 非特許文献2に記載されたなりすまし攻撃防御システムは、なりすまし攻撃に対する防御に有効なシステムであるが、敵対的サンプルによる攻撃に関しては考慮されていない。
 また、特許文献1に記載された技術は、不正な音声入力に対抗するための技術であるが、敵対的サンプルによる攻撃に関しては考慮されていない。
 そこで、本発明は、敵対的サンプルに対する頑強性を実現することができる話者認証システム、話者認証方法および話者認証プログラムを提供することを目的とする。
 本発明による話者認証システムは、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声と、データ記憶部に記憶されたデータとに基づいて、話者認証を行う複数の音声処理部と、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する後処理部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部と、類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なることを特徴とする。
 本発明による話者認証システムは、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声から得られる特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する複数の音声処理部と、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なることを特徴とする。
 本発明による話者認証方法は、複数の音声処理部がそれぞれ、入力された音声と、話者の音声に関するデータを記憶するデータ記憶部に記憶されたデータとに基づいて、話者認証を行い、後処理部が、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定し、各音声処理部がそれぞれ、音声に対して前処理を行い、前処理によって得られた音声データから特徴量を抽出し、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、算出した類似度に基づいて、話者認証を行い、前処理の方式またはパラメータが、音声処理部毎に異なることを特徴とする。
 本発明による話者認証方法は、複数の音声処理部がそれぞれ、入力された音声から得られる特徴量と、話者の音声に関するデータを記憶するデータ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、認証部が、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行い、各音声処理部がそれぞれ、音声に対して前処理を行い、前処理によって得られた音声データから特徴量を抽出し、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、前処理の方式またはパラメータが、音声処理部毎に異なることを特徴とする。
 本発明による話者認証プログラムは、コンピュータを、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声と、データ記憶部に記憶されたデータとに基づいて、話者認証を行う複数の音声処理部と、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する後処理部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部と、類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なる話者認証システムとして機能させることを特徴とする。
 本発明による話者認証プログラムは、コンピュータを、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声から得られる特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する複数の音声処理部と、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なる話者認証システムとして機能させることを特徴とする。
 本発明によれば、敵対的サンプルに対する頑強性を実現することができる。
前処理でのメルフィルタの次元数が異なる複数の話者認証システムにおける敵対的サンプルの攻撃成功率を確認する実験の実験結果を示すグラフである。 本発明の第1の実施形態の話者認証システムの構成例を示すブロック図である。 第1の実施形態の処理経過の例を示すフローチャートである。 各音声処理部、データ記憶部、および、後処理部を備える話者認証システムを実現する1台のコンピュータの構成例を示す概略ブロック図である。 本発明の第2の実施形態の話者認証システムの構成例を示すブロック図である。 第2の実施形態の処理経過の例を示すフローチャートである。 第1の実施形態の話者認証システムの構成の具体例を示すブロック図である。 図7に示す具体例における処理経過の例を示すフローチャートである。 本発明の話者認証システムの概要の例を示すブロック図である。 本発明の話者認証システムの概要の他の例を示すブロック図である。 一般的な話者認証システムの例を示すブロック図である。 非特許文献2に記載されているなりすまし攻撃防御システムを示す模式図である。
 まず、本発明の発明者(以下、単に発明者と記す。)が行った検討について説明する。
 前述のように、近年、話者認証システムには機械学習によって学習されたモデルが利用されることが増えてきている。このようなモデルに対するセキュリティ上の課題として、敵対的サンプルが挙げられる。既に説明したように、敵対的サンプルは、モデルにより誤判定が導出されるように計算された摂動が意図的に加えられたデータである。敵対的サンプルは、機械学習によって学習される任意のモデルで生じ得る問題であり、現在までのところ、敵対的サンプルの影響を受けないモデルは提案されていない。そのため、特に画像ドメインで、非特許文献2に記載された技術に類似した敵対的サンプルに対する防御技術を付加することで、敵対的サンプルに対する頑強性を確保する手法が提案されている。しかし、防御技術において、敵対的サンプルの生成手法等に関する経験的な知識を利用した場合、別の生成手法で生成された敵対的サンプルには容易に攻撃を成功させてしまう例が報告されている。このため、敵対的サンプルに対する防御技術では、敵対的サンプルに関する経験的な知識を利用しないことが強く望まれる。
 敵対的サンプルが持つ性質の一つとして、転移攻撃可能性(transferability )が挙げられる。転移攻撃可能性とは、あるモデルを攻撃対象として生成した敵対的サンプルが、そのモデルと同一のタスクを担う別種のモデルも攻撃できるという性質である。転移攻撃可能性を利用すると、攻撃者は、攻撃対象のモデルを直接入手したり、操作したりできなくても、そのモデルと同一のタスクを担う別のモデルを用意し、そのモデルに対する敵対的サンプルを生成することで、攻撃対象のモデルを攻撃できるようになる。
 ここで、話者認証システムでは、認証対象の音声を、音声波形のまま扱わず、音声に対する前処理において、短時間フーリエ変換等の処理を行い、周波数領域に変換されたデータの形式で扱うことが多い。さらに、各種フィルタが適用されることが多い。フィルタの一種にメルフィルタがある。発明者は、別々の話者認証システムに含まれる別々の前処理装置が、それぞれ異なる次元数のメルフィルタを音声に適用する場合に、ある話者認証システムで敵対的サンプルの攻撃成功率が高くても、メルフィルタの次元数が異なる別の話者認証システムでは、その敵対的サンプルの攻撃成功率を大幅に低下させることができることを実験的に明らかにした。すなわち、発明者は、前処理におけるメルフィルタの次元数が異なる場合に、転移攻撃可能性が有意に低下することを実験的に明らかにした。
 図1は、前処理でのメルフィルタの次元数が異なる複数の話者認証システムにおける敵対的サンプルの攻撃成功率を確認する実験の実験結果を示すグラフである。この実験では、3つの話者認証システムを用いた。この3つの話者認証システムの構成は同一であるが、前処理におけるメルフィルタの次元数は40,65,90と異なっている。
 この3つの話者認証システムのうち、メルフィルタの次元数が90である話者認証システムを用いて敵対的サンプルを生成し、上記の3つの話者認証システムに対して、その敵対的サンプルで攻撃を行った場合の攻撃成功率の変化を、図1では実線で示している。メルフィルタの次元数が90である話者認証システムへのこの敵対的サンプルによる攻撃成功率は高いが、次元数が90から離れ、65、40と減少するにつれて、攻撃成功率が低下することが、図1から分かる。
 また、この3つの話者認証システムのうち、メルフィルタの次元数が40である話者認証システムを用いて敵対的サンプルを生成し、その3つの話者認証システムに対して、その敵対的サンプルで攻撃を行った場合の攻撃成功率の変化を、図1では破線で示している。メルフィルタの次元数が40である話者認証システムへのこの敵対的サンプルによる攻撃成功率は高いが、次元数が40から離れ、65、90と増加するにつれて、攻撃成功率が低下することが、図1から分かる。
 発明者は、このような知見に基づいて、以下に示す発明をした。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図2は、本発明の第1の実施形態の話者認証システムの構成例を示すブロック図である。第1の実施形態の話者認証システムは、複数の音声処理部11-1~11-nと、データ記憶部112と、後処理部116とを備える。なお、個々の音声処理部を特に区別しない場合には、“-1”、“-2”、・・・、“-n”を記載せずに、単に符号“11”で音声処理部を表わす。音声処理部11に含まれる各要素を表わす符号についても同様である。
 本例では、音声処理部11の数は、n個である(図2参照)。
 各音声処理部11には共通の音声が入力され、各音声処理部11は、それぞれ、その音声に対して話者認証を行う。具体的には、各音声処理部11は、その音声を発した話者を判定する処理を行う。
 個々の音声処理部11はそれぞれ、前処理部111と、特徴量抽出部113と、類似度算出部114と、認証部115とを備える。例えば、音声処理部11-1は、前処理部111-1と、特徴量抽出部113-1と、類似度算出部114-1と、認証部115-1とを備える。
 本例では、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116がそれぞれ、別々のコンピュータによって実現されているものとする。そして、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116は、通信可能に接続されている。ただし、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116の態様は、そのような例に限定されるわけではない。
 音声処理部11-1~11-nそれぞれに設けられている前処理部111-1~111-nは、音声に対して前処理を実行する。ただし、それぞれの前処理部111-1~111-nにおいて、前処理の方式またはパラメータが異なる。すなわち、個々の前処理部111毎に、前処理の方式またはパラメータが異なる。従って、本例では、n種類の前処理が存在することになる。
 例えば、各前処理部111は、マイクロホンを介して入力される音声(より具体的には音声波形データ)に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する前処理を実行する。このとき、前処理部111毎にメルフィルタの次元数が異なる。前処理部111毎にメルフィルタの次元数が異なることで、前処理部111毎に、音声に対して行われる前処理が異なる。
 前処理部111毎に前処理の方式またはパラメータを異ならせる態様は、上記の例に限定されない。他の態様で、前処理部111毎に前処理の方式またはパラメータを異ならせてもよい。
 データ記憶部112は、一人以上の話者について、話者毎に、音声に関するデータを記憶する。ここで、音声に関するデータとは、話者の音声の特徴を表現した特徴量を導出可能なデータである。
 データ記憶部112は、話者毎に、マイクロホンを介して入力された音声(より具体的には音声波形データ)を記憶していてもよい。あるいは、データ記憶部112は、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶していてもよい。あるいは、データ記憶部112は、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものや、特徴量に演算を施した形式のデータを記憶していてもよい。
 前述のように、n種類の前処理が存在する。従って、音声波形データに対する前処理以降に得られるデータを記憶させる場合には、データ記憶部112には、一人の話者当たり、n種類のデータを記憶させておく。すなわち、データ記憶部112に、話者毎に、n種類のデータを記憶させておく。
 前処理が行われる前の音声(音声波形データ)をデータ記憶部112に記憶させておく場合には、前処理に依存しないデータを記憶させることになる。従って、この場合には、データ記憶部112に、話者毎に1種類の音声波形データを記憶させておけばよい。以下の説明では、説明を簡単にするために、まず、データ記憶部112に、話者毎に1種類の音声波形データを記憶させておく場合を例にして説明する。図2では、この場合において、各前処理部111が、データ記憶部112からデータを取得する場合を図示している。音声波形データに対する前処理以降に得られるデータをデータ記憶部112に記憶させる場合については後述する。
 前述のように、各音声処理部11には共通の音声が入力され、各音声処理部11は、それぞれ、その音声に対して話者認証を行う。すなわち、各音声処理部11は、その音声が、データがデータ記憶部112に記憶されている話者のうちどの話者の音声であるのかを判定する。
 それぞれの前処理部111-1~111-nは、前処理として、特徴量抽出部113が音声の特徴量を抽出しやすい形式に、入力された音声を変換する処理を実行する。この前処理の例として、例えば、音声(音声波形データ)に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する処理が挙げられる。ただし、本実施形態では、前処理部111-1~111-nにおけるメルフィルタの次元数はそれぞれ異なる。すなわち、前処理部111毎にメルフィルタの次元数が異なる。
 前処理の例は上記の例に限定されない。また、既に説明したように、前処理部111毎に前処理の方式またはパラメータを異ならせる態様も、上記の例に限定されない。
 また、各前処理部111は、入力された音声(音声波形データ)に対して前処理を行うときに、データ記憶部112に記憶されている各話者の音声(音声波形データ)に対しても前処理を行う。この結果、1つの音声処理部11において、入力された音声波形データに対する前処理の結果と、話者毎の音声波形データそれぞれに対する前処理の結果とが得られる。他の各音声処理部11においても同様である。
 各特徴量抽出部113は、入力された音声波形データに対する前処理の結果から、音声の特徴量を抽出する。同様に、各特徴量抽出部113は、データがデータ記憶部112に記憶された話者(以下、登録された話者と記す。)毎に実行された前処理部111による前処理の結果から、音声の特徴量を抽出する。この結果、1つの音声処理部11において、入力された音声の特徴量と、登録された話者毎のそれぞれの音声の特徴量とが得られる。他の各音声処理部11においても同様である。
 各特徴量抽出部113は、例えば、機械学習によって得られたモデルを用いて特徴量を抽出してもよく、また、統計的な演算処理を行うことによって特徴量を抽出してもよい。ただし、前処理の結果から特徴量を抽出する方法は、これらの方法に限定されず、他の方法であってもよい。
 各類似度算出部114は、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する。この結果、1つの音声処理部11において、登録された話者毎に類似度が得られる。他の各音声処理部11においても同様である。
 各類似度算出部114は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量とのコサイン類似度を算出してもよい。また、各類似度算出部114は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量との距離の逆数を算出してもよい。ただし、類似度の算出方法は、これらの方法に限定されず、他の方法であってもよい。
 各認証部115は、登録された話者毎に算出された類似度に基づいて、話者認証を行う。すなわち、各認証部115は、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。
 各認証部115は、例えば、登録された話者毎に算出された類似度と、閾値とを比較し、類似度が閾値よりも大きい話者を、入力された音声を発した話者として特定してもよい。各認証部115は、類似度が閾値よりも大きい話者が複数存在する場合、その話者の中で類似度が最も大きい話者を、入力された音声を発した話者として特定してもよい。
 また、上記の閾値は、固定値であっても、所定の計算法に従って変動する変動値であってもよい。
 それぞれの音声処理部11-1~11-nにおいて、認証部115-1~115-nが話者認証を行うことによって、音声処理部11毎に、入力された音声を発した話者の判定結果が得られる。ここで、音声処理部11毎に前処理が異なっているので、音声処理部11毎に得られる話者の判定結果が共通になるとは限らない。
 後処理部116は、認証部115-1~115-nから話者認証の結果を取得し、認証部115-1~115-nのそれぞれで得られた話者認証の結果に基づいて、1つの話者認証の結果を特定する。なお、後処理部116は、特定した話者認証の結果を、出力装置(図2において図示略)に出力する。
 例えば、後処理部116は、認証部115-1~115-nのそれぞれで得られた話者認証の結果に基づいて多数決によって、入力された音声を発した話者を決定してもよい。すなわち、後処理部116は、認証部115-1~115-nのそれぞれで話者認証の結果として選ばれた話者のうち、選ばれた数が最も多い話者を、入力された音声を発した話者として決定してよい。ただし、後処理部116が1つの話者認証の結果を特定する方法は多数決に限定されず、他の方法であってもよい。
 本例では、認証部115-1~115-nがそれぞれ話者認証を行い、後処理部116が、認証部115-1~115-nのそれぞれで得られた話者認証の結果に基づいて、1つの話者認証の結果を特定する。この例では、話者認証システムが、話者認証を行う要素(音声処理部11)を複数個含み、話者認証システム全体として、1つの話者認証の結果を特定する。
 また、本発明の実施形態の話者認証システムを、前処理部111-1~111-nの違いを利用した、敵対的サンプルの検知システムとして用いることもできる。換言すれば、本発明の実施形態の話者認証システムを、入力された音声が敵対的音声か、自然な音声であるのかを判定するシステムとして用いることもできる。この場合、後処理部116は、例えば、全ての音声処理部11-1~11-nでの話者認証の結果が一致しなければ、入力された音声が敵対的サンプルであると判定してもよい。ただし、入力された音声が敵対的サンプルであると判定する基準は上記の例に限定されない。
 本例では、各音声処理部11はそれぞれ、コンピュータによって実現されている。この場合、個々の音声処理部11において、前処理部111、特徴量抽出部113、類似度算出部114および認証部115は、例えば、音声処理プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。この場合、CPUは、コンピュータのプログラム記憶装置等のプログラム記録媒体から音声処理プログラムを読み込み、そのプログラムに従って、前処理部111、特徴量抽出部113、類似度算出部114および認証部115として動作すればよい。
 次に、第1の実施形態の処理経過について説明する。図3は、第1の実施形態の処理経過の例を示すフローチャートである。なお、既に説明した事項については、適宜、説明を省略する。
 まず、前処理部111-1~111-nに、共通の音声(音声波形データ)が入力される(ステップS1)。
 次に、前処理部111-1~111-nはそれぞれ、入力された音声波形データに前処理を行う(ステップS2)。また、ステップS2において、前処理部111-1~111-nはそれぞれ、登録された話者毎に、データ記憶部112に記憶されている音声波形データを取得し、取得した音声波形データに前処理を行う。
 前述のように、個々の前処理部111毎に、前処理の方式またはパラメータが異なる。例えば、前処理部111毎に、前処理で用いるメルフィルタの次元数が異なる。
 ステップS2の次に、特徴量抽出部113-1~113-nはそれぞれ、対応する前処理部111における前処理の結果から、音声の特徴量を抽出する(ステップS3)。
 例えば、特徴量抽出部113-1は、入力された音声波形データに対して前処理部111-1が行った前処理の結果から、入力された音声の特徴量を抽出する。また、特徴量抽出部113-1は、前処理部111-1が、登録された話者毎に、データ記憶部112に記憶されている音声波形データに対して行った前処理の結果からも、それぞれ、音声の特徴量を抽出する。他のそれぞれの特徴量抽出部113も同様に動作する。
 ステップS3の次に、類似度算出部114-1~114-nはそれぞれ、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する(ステップS4)。
 次に、認証部115-1~115-nはそれぞれ、登録された話者毎に算出された類似度に基づいて、話者認証を行う(ステップS5)。すなわち、認証部115-1~115-nはそれぞれ、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。
 次に、後処理部116は、認証部115-1~115-nから話者認証の結果を取得し、認証部115-1~115-nのそれぞれで得られた話者認証の結果に基づいて、1つの話者認証の結果を特定する(ステップS6)。例えば、後処理部116は、認証部115-1~115-nのそれぞれで話者認証の結果として選ばれた話者のうち、選ばれた数が最も多い話者を、入力された音声を発した話者として決定してよい。
 次に、後処理部116は、ステップS6で特定した話者認証の結果を出力装置(図2において図示略)に出力する(ステップS7)。ステップS7での出力態様は、特に限定されない。例えば、後処理部116は、ステップS6で特定した話者認証の結果を、ディスプレイ装置(図2において図示略)に表示させてもよい。
 第1の実施形態では、それぞれの音声処理部11に含まれている前処理部111毎に、前処理の方式またはパラメータが異なっている。そのため、ある音声処理部11において、敵対的サンプルの攻撃成功率が高くても、他の音声処理部11では、その敵対的サンプルの攻撃成功率は低下する。従って、その敵対的サンプルの攻撃成功率が高い音声処理部11で得られた音声認証の結果は、最終的に、後処理部116では選ばれない。従って、敵対的サンプルに対する頑強性を実現することができる。また、本実施形態では、前処理部111毎に、前処理における方式またはパラメータを変えることによって、複数の音声処理部11に対する攻撃成功率に差を生じさせている。そして、そのことによって、敵対的サンプルに対する頑強性を高めている。従って、敵対的サンプルに対する頑強性を高めるために、既知の敵対的サンプルに関する経験的な知識は一切用いていない。よって、本実施形態によれば、未知の敵対的サンプルに対しても頑強性を確保することができる。
 また、前述のように、本実施形態の話者認証システムを、前処理部111-1~111-nの違いを利用した敵対的サンプルの検知システムとして用いることもできる。例えば、後処理部116が、全ての音声処理部11-1~11-nでの話者認証の結果が一致しなければ、入力された音声が敵対的サンプルであると判定することによって、そのような検知システムとして用いることもできる。既に説明したように、入力された音声が敵対的サンプルであると判定する基準は上記の例に限定されない。
 上記の説明では、データ記憶部112が、話者毎に、マイクロホンを介して入力された音声(音声波形データ)を記憶する場合を例にして説明した。既に説明したように、データ記憶部112は、音声波形データに対する前処理以降に得られるデータを記憶してもよい。以下、この場合について説明する。
 データ記憶部112が、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶する場合について説明する。前処理部111毎に、前処理の方式またはパラメータが異なる。すなわち、n種類の前処理が存在する。そのため、一人の話者に着目した場合、その一人の話者(pとする)の音声波形データに、そのn種類の前処理をそれぞれ施すことによって得られるデータを用意しておく。具体的には、「話者pの音声波形データに、前処理部111-1の前処理を施すことで得られたデータ」、「話者pの音声波形データに、前処理部111-2の前処理を施すことで得られたデータ」、・・・、「話者pの音声波形データに、前処理部111-nの前処理を施すことで得られたデータ」を用意しておく。この結果、話者pのデータとしてn種類のデータが得られる。話者p以外の話者についても同様に、一人当たりn種類のデータを用意しておく。このように、話者毎に、n種類のデータを用意しておき、個々の話者のn種類のデータをそれぞれデータ記憶部112に記憶させておけばよい。
 また、上記の例では、音声処理部11がデータ記憶部112に記憶されたデータを取得する場合、特徴量抽出部113が、登録された話者毎に、その特徴量抽出部113に対応する前処理部111の前処理を施すことで得られたデータをデータ記憶部112から取得し、そのデータから特徴量を抽出すればよい。
 例えば、音声処理部11-1がデータ記憶部112に記憶されたデータを取得する場合、特徴量抽出部113-1が、登録された話者毎に、前処理部111-1の前処理を施すことで得られたデータをデータ記憶部112から取得し、そのデータから特徴量を抽出すればよい。他の音声処理部11がデータ記憶部112に記憶されたデータを取得する場合も同様である。
 次に、データ記憶部112が、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものを記憶する場合について説明する。この場合にも、一人当たりn種類のデータ(特徴量)を用意しておき、個々の話者のn種類のデータをそれぞれデータ記憶部112に記憶させておけばよい。例えば、話者pのn種類のデータとして、「話者pの音声波形データに前処理部111-1の前処理を施した結果から抽出した特徴量」、「話者pの音声波形データに前処理部111-2の前処理を施した結果から抽出した特徴量」、・・・、「話者pの音声波形データに前処理部111-nの前処理を施した結果から抽出した特徴量」を用意しておく。話者p以外の話者についても同様に、一人当たりn種類のデータ(特徴量)を用意しておく。このように、話者毎に、n種類のデータ(特徴量)を用意しておき、個々の話者のn種類の特徴量をそれぞれデータ記憶部112に記憶させておけばよい。
 上記の例では、データ記憶部112は、音声に関するデータを、特徴量の形式で記憶している。そのため、音声処理部11がデータ記憶部112に記憶されたデータを取得する場合、類似度算出部114が、登録された話者毎に、その特徴量抽出部113に対応する前処理部111の前処理に応じた特徴量をデータ記憶部112から取得すればよい。そして、その類似度算出部114は、その特徴量と、音声処理部11に入力された音声の特徴量との類似度を算出すればよい。
 例えば、音声処理部11-1がデータ記憶部112に記憶された特徴量を取得する場合、類似度算出部114-1が、登録された話者毎に、「話者の音声波形データに前処理部111-1の前処理を施した結果から抽出した特徴量」をデータ記憶部112から取得すればよい。そして、類似度算出部114-1は、その特徴量と、声処理部11-1に入力された音声の特徴量との類似度を算出すればよい。他の音声処理部11がデータ記憶部112に記憶された特徴量を取得する場合も同様である。
 上記の第1の実施形態では、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116がそれぞれ、別々のコンピュータによって実現されている場合を例にして説明した。以下では、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116を備える話者認証システムが1台のコンピュータによって実現される場合を例にして説明する。
 図4は、各音声処理部11-1~11-n、データ記憶部112、および、後処理部116を備える話者認証システムを実現する1台のコンピュータの構成例を示す概略ブロック図である。このコンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、マイクロホン1005と、ディスプレイ装置1006とを備える。
 マイクロホン1005は、音声の入力に用いられる入力デバイスである。音声の入力に用いられる入力デバイスは、マイクロホン1005以外のデバイスであってもよい。
 ディスプレイ装置1006は、前述のステップS6(図3参照)で特定した話者認証の結果を表示するために用いられる。ただし、前述のように、ステップS7(図3参照)での出力態様は、特に限定されない。
 各音声処理部11-1~11-n、データ記憶部112、および、後処理部116を備える話者認証システムの動作は、プログラムの形式で、補助記憶装置1003に記憶されている。以下、このプログラムを話者認証プログラムと記す。CPU1001は、話者認証プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、話者認証プログラムに従って、第1の実施形態における複数の音声処理部11-1~11-n、および、後処理部116として動作する。また、データ記憶部112は、補助記憶装置1003によって実現されてもよく、あるいは、コンピュータ1000が備える他の記憶装置によって実現されてもよい。
 補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、話者認証プログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が話者認証プログラムを主記憶装置1002に展開し、その話者認証プログラムに従って、CPU1001が、第1の実施形態における複数の音声処理部11-1~11-n、および、後処理部116として動作してもよい。
実施形態2.
 図5は、本発明の第2の実施形態の話者認証システムの構成例を示すブロック図である。第1の実施形態と同様の要素については、図2と同一の符号を付し、詳細な説明を省略する。第2の実施形態の話者認証システムは、複数の音声処理部21-1~21-nと、データ記憶部112と、認証部215とを備える。なお、個々の音声処理部を特に区別しない場合には、“-1”、“-2”、・・・、“-n”を記載せずに、単に符号“21”で音声処理部を表わす。音声処理部21に含まれる各要素を表わす符号についても同様である。
 本例では、音声処理部21の数は、n個である(図5参照)。
 各音声処理部21には共通の音声が入力され、各音声処理部21は、それぞれ、入力された音声の特徴量と、登録された各話者の特徴量(データ記憶部112に記憶された各話者のデータから得られる特徴量)との類似度を算出する。
 後述するように、各音声処理部21はそれぞれ、前処理部111を備える。そして、個々の前処理部111毎に、前処理の方式またはパラメータが異なる。
 データ記憶部112は、第1の実施形態におけるデータ記憶部112と同様に、一人以上の話者について、話者毎に、音声に関するデータを記憶する。
 データ記憶部112は、話者毎に、マイクロホンを介して入力された音声(より具体的には音声波形データ)を記憶していてもよい。あるいは、データ記憶部112は、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶していてもよい。あるいは、データ記憶部112は、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものや、特徴量に演算を施した形式のデータを記憶していてもよい。
 データ記憶部112が、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶する場合、話者毎に、n種類のデータを用意しておき、個々の話者のn種類のデータをそれぞれデータ記憶部112に記憶させておけばよい。
 また、データ記憶部112が、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものを記憶する場合、話者毎に、n種類のデータ(特徴量)を用意しておき、個々の話者のn種類の特徴量をそれぞれデータ記憶部112に記憶させておけばよい。
 また、データ記憶部112が、前処理が行われる前の音声(音声波形データ)を記憶する場合には、データ記憶部112に、話者毎に1種類の音声波形データを記憶させておけばよい。
 これらのデータ記憶部112に関する事項については、第1の実施形態で説明したので、ここでは詳細な説明を省略する。
 以下、データ記憶部112が、前処理が行われる前の音声(音声波形データ)を記憶する場合を例にして説明する。
 個々の音声処理部21はそれぞれ、前処理部111と、特徴量抽出部113と、類似度算出部114とを備える。例えば、音声処理部21-1は、前処理部111-1と、特徴量抽出部113-1と、類似度算出部114-1とを備える。
 また、本例では、各音声処理部21-1~21-n、データ記憶部112、および、認証部215がそれぞれ、別々のコンピュータによって実現されているものとする。そして、各音声処理部21-1~21-n、データ記憶部112、および、認証部215は、通信可能に接続されている。ただし、各音声処理部21-1~21-n、データ記憶部112、および、認証部215の態様は、そのような例に限定されるわけではない。
 前処理部111-1~111-nは、第1の実施形態における前処理部111-1~111-nと同様である。第1の実施形態で説明したように、それぞれの前処理部111-1~111-nは、前処理として、特徴量抽出部113が音声の特徴量を抽出しやすい形式に、入力された音声を変換する処理を実行する。この前処理の例として、例えば、音声(音声波形データ)に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する処理が挙げられる。ここで、前処理部111毎に、前処理の方式またはパラメータが異なる。本例では、前処理部111-1~111-nにおけるメルフィルタの次元数はそれぞれ異なるものとする。すなわち、前処理部111毎にメルフィルタの次元数が異なるものとする。
 前処理の例は上記の例に限定されない。また、前処理部111毎に前処理の方式またはパラメータを異ならせる態様も、上記の例に限定されない。
 また、各前処理部111は、入力された音声(音声波形データ)に対して前処理を行うときに、データ記憶部112に記憶されている各話者の音声(音声波形データ)に対しても前処理を行う。
 各特徴量抽出部113は、第1の実施形態における各特徴量抽出部113と同様である。各特徴量抽出部113は、入力された音声波形データに対する前処理の結果から、音声の特徴量を抽出する。同様に、各特徴量抽出部113は、登録された話者毎に実行された前処理部111による前処理の結果から、音声の特徴量を抽出する。
 各特徴量抽出部113は、例えば、機械学習によって得られたモデルを用いて特徴量を抽出してもよく、また、統計的な演算処理を行うことによって特徴量を抽出してもよい。ただし、前処理の結果から特徴量を抽出する方法は、これらの方法に限定されず、他の方法であってもよい。
 各類似度算出部114は、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する。
 各類似度算出部114は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量とのコサイン類似度を算出してもよい。また、各類似度算出部114は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量との距離の逆数を算出してもよい。ただし、類似度の算出方法は、これらの方法に限定されず、他の方法であってもよい。
 認証部215は、各音声処理部21-1~21-n(より具体的には、各類似度算出部114-1~114-n)によって話者毎に算出された類似度に基づいて、話者認証を行う。すなわち、認証部215は、各類似度算出部114-1~114-nそれぞれにおいて登録された話者毎に算出された類似度に基づいて、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。なお、認証部215は、話者認証の結果(入力された音声がどの話者の音声であるか)を、出力装置(図5において図示略)に出力する。
 以下、認証部215が行う話者認証動作の例を説明する。
 認証部215は、n個の類似度算出部114-1~114-nそれぞれから、登録された話者毎の類似度を取得する。例えば、登録された話者がx人であるとする。この場合、認証部215は、類似度算出部114-1からx人分の類似度を取得する。同様に、認証部215は、類似度算出部114-2~114-nからもそれぞれ、x人分の類似度を取得する。
 認証部215は、個々の前処理部111-1~111-n毎に個別の閾値を保持する。すなわち、認証部215は、前処理部111-1に対応する閾値(Th1と記す。)、前処理部111-2に対応する閾値(Th2と記す。)、・・・、前処理部111-nに対応する閾値(Thnと記す。)を保持する。
 そして、認証部215は、音声処理部21毎に、音声処理部21内の類似度算出部114から取得したx人分の類似度のそれぞれと、その音声処理部21内の前処理部111に対応する閾値とを比較する。この結果、一人の話者に関して、類似度と閾値との比較結果がn個得られる。認証部215は、登録された話者毎に、類似度が閾値よりも大きいという比較結果の数を特定し、その数が最大となる話者を、話者認証の結果とすればよい。すなわち、認証部215は、入力音声が、その数が最大となる話者の音声であると判定すればよい。
 例えば、登録された複数の話者のうち、話者pに着目するものとする。認証部215は、類似度算出部114-1から取得した、話者pに対して算出された類似度と、前処理部111-1に対応する閾値Th1との大小関係を比較する。同様に、認証部215は、類似度算出部114-2から取得した、話者pに対して算出された類似度と、前処理部111-2に対応する閾値Th2との大小関係を比較する。認証部215は、同様の処理を、類似度算出部114-3~114-nそれぞれから取得した、話者pに対して算出された類似度に対しても行う。この結果、話者pに関して、類似度と閾値との比較結果がn個得られる。
 ここでは、話者pに着目した場合について説明したが、認証部215は、登録された話者毎に、同様に、類似度と閾値との比較結果をn個導出する。
 そして、認証部215は、話者毎に、類似度が閾値よりも大きいという比較結果の数を特定する。さらに、認証部215は、入力音声が、その数が最大となる話者の音声であると判定する。
 認証部215の話者認証動作は、上記の例に限定されない。例えば、上記の例では、認証部215が、個々の前処理部111-1~111-n毎に個別の閾値を保持する場合を例にして説明した。認証部215は、前処理部111-1~111-nに依存しない1種類の閾値を保持していてもよい。以下、認証部215が1種類の閾値を保持する場合における認証部215の動作例を示す。
 認証部215は、n個の類似度算出部114-1~114-nそれぞれから、登録された話者毎の類似度を取得する。この点は、前述の場合と同様である。
 そして、認証部215は、登録された話者毎に、n個の類似度算出部114-1~114-nそれぞれから取得した類似度の算術平均を算出する。例えば、登録された複数の話者のうち、話者pに着目するものとする。認証部215は、「類似度算出部114-1から取得した、話者pに対して算出された類似度」、「類似度算出部114-2から取得した、話者pに対して算出された類似度」、・・・、「類似度算出部114-nから取得した、話者pに対して算出された類似度」の算術平均を算出する。この結果、話者pに関する類似度の算術平均が得られる。
 認証部215は、同様に、登録された話者毎に、類似度の算術平均を算出する。
 そして、認証部215は、例えば、登録された話者毎に算出された類似度の算術平均と、保持している閾値とを比較し、類似度の算術平均が閾値よりも大きい話者を、入力された音声を発した話者として判定してもよい。また、類似度の算術平均が閾値よりも大きい話者が複数存在する場合、認証部215は、その話者の中で類似度の算術平均が最も大きい話者を、入力された音声を発した話者として判定してもよい。
 ここでは、認証部215がn種類の閾値を保持する場合の話者認証の動作、および、認証部215が1種類の閾値を保持する場合の話者認証の動作を説明した。第2の実施形態において、認証部215は、各類似度算出部114から取得した話者毎の類似度に基づいて、より複雑な演算によって、入力された音声を発した話者を特定してもよい。
 本例では、各音声処理部21はそれぞれ、コンピュータによって実現されている。この場合、個々の音声処理部21において、前処理部111、特徴量抽出部113および類似度算出部114は、例えば、音声処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、コンピュータのプログラム記憶装置等のプログラム記録媒体から音声処理プログラムを読み込み、そのプログラムに従って、前処理部111、特徴量抽出部113および類似度算出部114として動作すればよい。
 次に、第2の実施形態の処理経過について説明する。図6は、第2の実施形態の処理経過の例を示すフローチャートである。なお、既に説明した事項については、適宜、説明を省略する。また、第1の実施形態と同様の処理についても、説明を省略する。
 ステップS1~S4は、第1の実施形態におけるステップS1~S4と同様であり、説明を省略する。
 ステップS4の後、認証部215は、各類似度算出部114-1~114-nによって話者毎に算出された類似度に基づいて、話者認証を行う(ステップS11)。ステップS11において、認証部215は、n個の類似度算出部114-1~114-nそれぞれから、登録された話者毎の類似度を取得する。そして、認証部215は、その類似度に基づいて、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。
 この認証部215の動作の例については、既に説明したので、ここでは説明を省略する。
 次に、認証部215は、ステップS11における話者認証の結果を出力装置(図5において図示略)に出力する(ステップS12)。ステップS12での出力態様は、特に限定されない。例えば、認証部215は、ステップS11における話者認証の結果を、ディスプレイ装置(図5において図示略)に表示させてもよい。
 第2の実施形態においても、第1の実施形態と同様に、敵対的サンプルに対して頑強な話者認証システムを実現することができる。また、第1の実施形態では、各音声処理部11が認証部115を備えている(図2参照)が、第2の実施形態では、各音声処理部21は、そのような認証部を備えていない。よって、第2の実施形態では、各音声処理部21を簡素化することができる。
 また、認証部215は、各類似度算出部114から取得した話者毎の類似度に基づいて、第1の実施形態とは異なる方法で、話者認証を実現することが可能となる。
 上記の第2の実施形態では、各音声処理部21-1~21-n、データ記憶部112、および、認証部215がそれぞれ、別々のコンピュータによって実現されている場合を例にして説明した。以下では、各音声処理部21-1~21-n、データ記憶部112、および、認証部215を備える話者認証システムが1台のコンピュータによって実現される場合を例にして説明する。このコンピュータは、図4と同様に表すことができるので、図4を参照して説明する。
 マイクロホン1005は、音声の入力に用いられる入力デバイスである。音声の入力に用いられる入力デバイスは、マイクロホン1005以外のデバイスであってもよい。
 ディスプレイ装置1006は、前述のステップ11における話者認証の結果を表示するために用いられる。ただし、前述のように、ステップS12(図6参照)での出力態様は、特に限定されない。
 各音声処理部21-1~21-n、データ記憶部112、および、認証部215を備える話者認証システムの動作は、プログラムの形式で、補助記憶装置1003に記憶されている。本例では、このプログラムを話者認証プログラムと記す。CPU1001は、話者認証プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、話者認証プログラムに従って、第2の実施形態における複数の音声処理部21-1~21-n、および、認証部215として動作する。また、データ記憶部112は、補助記憶装置1003によって実現されてもよく、あるいは、コンピュータ1000が備える他の記憶装置によって実現されてもよい。
[具体例]
 次に、話者認証システムの構成の具体例を、第1の実施形態を例にして説明する。ただし、第1の実施形態で説明した事項については、適宜、説明を省略する。図7は、第1の実施形態の話者認証システムの構成の具体例を示すブロック図である。図7に示す例では、話者認証システムは、複数の音声処理装置31-1~31-nと、データ記憶装置312と、後処理装置316とを備える。なお、個々の音声処理装置を特に区別しない場合には、“-1”、“-2”、・・・、“-n”を記載せずに、単に符号“31”で音声処理装置を表わす。音声処理装置31に含まれる演算装置を表わす符号“317”についても同様である。
 本例では、複数の音声処理装置31-1~31-n、および、後処理装置316がそれぞれ、別々のコンピュータによって実現されているものとする。これらのコンピュータは、CPUと、メモリと、ネットワークインタフェースと、磁気記憶装置とを備える。例えば、音声処理装置31-1~31-nは、それぞれ、CD-ROM等のコンピュータで読み取り可能な記録媒体からデータを読み取るための読み取り装置を備えていてもよい。
 音声処理装置31はそれぞれ、演算装置317を備える。演算装置317は、例えば、CPUに相当する。個々の演算装置317は、音声処理装置31の磁気記憶装置に記憶された音声処理プログラム、または、ネットワークインタフェースを介して外部から受信した音声処理プログラムをメモリ上に展開する。そして、個々の演算装置317は、その音声処理プログラムに従って、第1の実施形態における前処理部111、特徴量抽出部113、類似度算出部114および認証部115(図2参照)としての動作を実現する。ただし、演算部317毎に(換言すれば、音声処理装置31毎に)、前処理の方式またはパラメータが異なる。
 後処理装置316のCPUは、後処理装置316の磁気記憶装置に記憶されたプログラム、または、ネットワークインタフェースを介して外部から受信したプログラムをメモリ上に展開する。そして、そのCPUは、そのプログラムに従って、第1の実施形態における後処理部116(図2参照)としての動作を実現する。
 データ記憶装置312は、例えば、一人以上の話者について、話者毎に、音声に関するデータを記憶する磁気記憶装置等であり、各演算装置317-1~317-nにデータを提供する。また、データ記憶装置312は、フレキシブルディスクやCD-ROMのコンピュータで読み取り可能な記録媒体からデータを読み取るための読み取り装置を含むコンピュータで実現されていてもよい。そして、その記録媒体が、話者毎に、音声に関するデータを記憶していてもよい。
 図8は、図7に示す具体例における処理経過の例を示すフローチャートである。まず、演算装置317-1~317-nに、共通の音声が入力される(ステップS31)。ステップS31は、第1の実施形態におけるステップS1(図3参照)に相当する。
 そして、演算装置317-1~317-nが、第1の実施形態におけるステップS2~S5に該当する処理を実行する(ステップS32)。
 後処理装置316は、演算装置317-1~317-nのそれぞれで得られた話者認証の結果に基づいて、1つの話者認証の結果を特定する(ステップS33)。
 そして、後処理装置316は、ステップS33で特定した話者認証の結果を出力装置(図7において図示略)に出力する(ステップS34)。ステップS34での出力態様は、特に限定されない。
 ステップS33,S34は、第1の実施形態におけるステップS6,S7に相当する。
 次に、本発明の概要を説明する。図9は、本発明の話者認証システムの概要の例を示すブロック図である。
 本発明の話者認証システムは、データ記憶部112と、複数の音声処理部11と、後処理部116とを備える。
 データ記憶部112は、話者の音声に関するデータを記憶する。
 複数の音声処理部11はそれぞれ、入力された音声と、データ記憶部112に記憶されたデータとに基づいて、話者認証を行う。
 後処理部116は、複数の音声処理部11のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する。
 各音声処理部11はそれぞれ、前処理部111と、特徴量抽出部113と、類似度算出部114と、認証部115とを備える。
 前処理部111は、音声に対して前処理を行う。
 特徴量抽出部113は、前処理によって得られた音声データから特徴量を抽出する。
 類似度算出部114は、その特徴量と、データ記憶部112に記憶されたデータから得られる特徴量との類似度を算出する。
 認証部115は、類似度算出部114によって算出された類似度に基づいて、話者認証を行う。
 そして、前処理の方式またはパラメータは、各音声処理部11に含まれる前処理部111毎に異なる。
 そのような構成によって、敵対的サンプルに対する頑強性を実現することができる。
 図10は、本発明の話者認証システムの概要の他の例を示すブロック図である。
 本発明の話者認証システムは、データ記憶部112と、複数の音声処理部21と、認証部215とを備える。
 データ記憶部112は、話者の音声に関するデータを記憶する。
 複数の音声処理部21はそれぞれ、入力された音声から得られる特徴量と、データ記憶部112に記憶されたデータから得られる特徴量との類似度を算出する。
 認証部215は、複数の音声処理部21のそれぞれで得られた類似度に基づいて、話者認証を行う。
 各音声処理部21はそれぞれ、前処理部111と、特徴量抽出部113と、類似度算出部114とを備える。
 前処理部111は、音声に対して前処理を行う。
 特徴量抽出部113は、前処理によって得られた音声データから特徴量を抽出する。
 類似度算出部114は、その特徴量と、データ記憶部112に記憶されたデータから得られる特徴量との類似度を算出する。
 そして、前処理の方式またはパラメータは、各音声処理部21に含まれる前処理部111毎に異なる。
 そのような構成によっても、敵対的サンプルに対する頑強性を実現することができる。
 また、図9や図10に概要を示した話者認証システムにおいて、各前処理部が、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、メルフィルタの次元数が、前処理部毎に異なっていてもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、話者認証システムに好適に適用される。
 11-1~11-n 音声処理部
 111-1~111-n 前処理部
 112 データ記憶部
 113-1~113-n 特徴量抽出部
 114-1~114-n 類似度算出部
 115-1~115-n 認証部
 116 後処理部
 21-1~21-n 音声処理部
 215 認証部

Claims (9)

  1.  話者の音声に関するデータを記憶するデータ記憶部と、
     入力された音声と、前記データ記憶部に記憶された前記データとに基づいて、話者認証を行う複数の音声処理部と、
     前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する後処理部とを備え、
     各音声処理部はそれぞれ、
     音声に対して前処理を行う前処理部と、
     前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部と、
     前記類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、
     前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
     ことを特徴とする話者認証システム。
  2.  話者の音声に関するデータを記憶するデータ記憶部と、
     入力された音声から得られる特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する複数の音声処理部と、
     前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、
     各音声処理部はそれぞれ、
     音声に対して前処理を行う前処理部と、
     前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部とを含み、
     前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
     ことを特徴とする話者認証システム。
  3.  各前処理部は、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、
     メルフィルタの次元数が、前処理部毎に異なる
     請求項1または請求項2に記載の話者認証システム。
  4.  複数の音声処理部がそれぞれ、入力された音声と、話者の音声に関するデータを記憶するデータ記憶部に記憶された前記データとに基づいて、話者認証を行い、
     後処理部が、前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定し、
     各音声処理部がそれぞれ、
     音声に対して前処理を行い、
     前記前処理によって得られた音声データから特徴量を抽出し、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
     算出した類似度に基づいて、話者認証を行い、
     前記前処理の方式またはパラメータが、音声処理部毎に異なる
     ことを特徴とする話者認証方法。
  5.  複数の音声処理部がそれぞれ、入力された音声から得られる特徴量と、話者の音声に関するデータを記憶するデータ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
     認証部が、前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行い、
     各音声処理部がそれぞれ、
     音声に対して前処理を行い、
     前記前処理によって得られた音声データから特徴量を抽出し、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
     前記前処理の方式またはパラメータが、音声処理部毎に異なる
     ことを特徴とする話者認証方法。
  6.  各音声処理部が、
     前処理として、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する処理を実行し、
     メルフィルタの次元数が、音声処理部毎に異なる
     請求項4または請求項5に記載の話者認証方法。
  7.  コンピュータを、
     話者の音声に関するデータを記憶するデータ記憶部と、
     入力された音声と、前記データ記憶部に記憶された前記データとに基づいて、話者認証を行う複数の音声処理部と、
     前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、1つの話者認証結果を特定する後処理部とを備え、
     各音声処理部はそれぞれ、
     音声に対して前処理を行う前処理部と、
     前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部と、
     前記類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、
     前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
     話者認証システムとして機能させるための話者認証プログラム。
  8.  コンピュータを、
     話者の音声に関するデータを記憶するデータ記憶部と、
     入力された音声から得られる特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する複数の音声処理部と、
     前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、
     各音声処理部はそれぞれ、
     音声に対して前処理を行う前処理部と、
     前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
     前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部とを含み、
     前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
     話者認証システムとして機能させるための話者認証プログラム。
  9.  コンピュータを、
     各前処理部が、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、
     メルフィルタの次元数が、前処理部毎に異なる
     話者認証システムとして機能させる請求項7または請求項8に記載の話者認証プログラム。
PCT/JP2019/040805 2019-10-17 2019-10-17 話者認証システム、方法およびプログラム WO2021075012A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/040805 WO2021075012A1 (ja) 2019-10-17 2019-10-17 話者認証システム、方法およびプログラム
JP2021552049A JP7259981B2 (ja) 2019-10-17 2019-10-17 話者認証システム、方法およびプログラム
US17/764,288 US20220375476A1 (en) 2019-10-17 2019-10-17 Speaker authentication system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/040805 WO2021075012A1 (ja) 2019-10-17 2019-10-17 話者認証システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021075012A1 true WO2021075012A1 (ja) 2021-04-22

Family

ID=75537575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/040805 WO2021075012A1 (ja) 2019-10-17 2019-10-17 話者認証システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US20220375476A1 (ja)
JP (1) JP7259981B2 (ja)
WO (1) WO2021075012A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7015408B1 (ja) 2021-10-07 2022-02-02 真旭 徳山 端末装置、情報処理方法、及びプログラム
JP7453944B2 (ja) 2021-08-17 2024-03-21 Kddi株式会社 検知装置、検知方法及び検知プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012204B (zh) * 2023-07-25 2024-04-09 贵州师范大学 一种针对说话人识别系统对抗样本的防御方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US20080177684A1 (en) * 2007-01-19 2008-07-24 Microsoft Corporation Combining resilient classifiers

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
CN105096121B (zh) * 2015-06-25 2017-07-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US10580414B2 (en) * 2018-05-07 2020-03-03 Microsoft Technology Licensing, Llc Speaker recognition/location using neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US20080177684A1 (en) * 2007-01-19 2008-07-24 Microsoft Corporation Combining resilient classifiers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU WEILIN, EVANS DAVID, QI YANJUN: "Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks", NDSS 2018, 4 April 2017 (2017-04-04), pages 1 - 15, XP080760758 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453944B2 (ja) 2021-08-17 2024-03-21 Kddi株式会社 検知装置、検知方法及び検知プログラム
JP7015408B1 (ja) 2021-10-07 2022-02-02 真旭 徳山 端末装置、情報処理方法、及びプログラム
WO2023058424A1 (ja) * 2021-10-07 2023-04-13 真旭 徳山 端末装置、情報処理方法、及びプログラム
JP2023056179A (ja) * 2021-10-07 2023-04-19 真旭 徳山 端末装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP7259981B2 (ja) 2023-04-18
US20220375476A1 (en) 2022-11-24
JPWO2021075012A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
JP7109634B2 (ja) アイデンティティ認証方法及び装置
US11663307B2 (en) RtCaptcha: a real-time captcha based liveness detection system
Lavrentyeva et al. STC antispoofing systems for the ASVspoof2019 challenge
Chen et al. Who is real bob? adversarial attacks on speaker recognition systems
Chen et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge
WO2017215558A1 (zh) 一种声纹识别方法和装置
Gałka et al. Playback attack detection for text-dependent speaker verification over telephone channels
WO2021075012A1 (ja) 話者認証システム、方法およびプログラム
JP2019532354A (ja) ディープニューラルネットワークを使用する端末間話者認識
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
WO2017162053A1 (zh) 一种身份认证的方法和装置
Hassanat Visual passwords using automatic lip reading
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
Saranya et al. Decision-level Feature Switching as a Paradigm for Replay Attack Detection.
Williams et al. Speech replay detection with x-vector attack embeddings and spectral features
Sukhwal et al. Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment
KR101805437B1 (ko) 배경 화자 데이터를 이용한 화자 인증 방법 및 화자 인증 시스템
Gofman et al. Hidden markov models for feature-level fusion of biometrics on mobile devices
Nykytyuk et al. The Method of User Identification by Speech Signal.
Shayamunda et al. Biometric authentication system for industrial applications using speaker recognition
Shenai et al. Fast biometric authentication system based on audio-visual fusion
Bredin et al. The biosecure talking-face reference system
Nhan Nguyen et al. Fuzzy logic weight estimation in biometric-enabled co-authentication systems
Ramya et al. Enhanced Speaker Verification Incorporated with Face Recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19949247

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021552049

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19949247

Country of ref document: EP

Kind code of ref document: A1