WO2022034630A1 - 音声処理装置、音声処理方法、記録媒体、および音声認証システム - Google Patents

音声処理装置、音声処理方法、記録媒体、および音声認証システム Download PDF

Info

Publication number
WO2022034630A1
WO2022034630A1 PCT/JP2020/030542 JP2020030542W WO2022034630A1 WO 2022034630 A1 WO2022034630 A1 WO 2022034630A1 JP 2020030542 W JP2020030542 W JP 2020030542W WO 2022034630 A1 WO2022034630 A1 WO 2022034630A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
feature
voice data
speaker identification
phonemes
Prior art date
Application number
PCT/JP2020/030542
Other languages
English (en)
French (fr)
Inventor
仁 山本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022542518A priority Critical patent/JPWO2022034630A5/ja
Priority to PCT/JP2020/030542 priority patent/WO2022034630A1/ja
Priority to US18/019,126 priority patent/US20230317085A1/en
Publication of WO2022034630A1 publication Critical patent/WO2022034630A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Definitions

  • the present invention relates to a voice processing device, a voice processing method, a recording medium, and a voice authentication system, and in particular, a voice processing device, a voice processing method, which collates a speaker based on voice data input via an input device. Concerning recording media and voice authentication devices.
  • the speaker is identified by collating the characteristics of the voice included in the first voice data (also called the acoustic characteristics) with the characteristics of the voice included in the second voice data.
  • Such related techniques are called identity verification or speaker verification by voice authentication.
  • Non-Patent Document 1 the acoustic features extracted from the first and second voice data are used as the first input to the DNN (Deep Neural Network), and the first and second voice data are recognized by voice. It is described that the speaker identification information extracted from the obtained speech is used as the second input to the DNN to extract the speaker identification feature for speaker matching from the intermediate layer of the DNN.
  • DNN Deep Neural Network
  • Non-Patent Document 1 the speaker of each voice data utters a partially different phrase between the time of registration of the first voice data and the time of collation of the first and second voice data. If so, there is a high possibility that speaker verification will fail. In particular, if the speaker omits some words and phrases of the utterance at the time of registration at the time of collation, there is a possibility that the speaker cannot be collated.
  • the present invention has been made in view of the above problems, and an object of the present invention is to realize highly accurate speaker matching even when words and phrases are partially different between the speech data to be matched. To do.
  • the voice processing device identifies an acoustic feature extraction means that extracts an acoustic feature indicating a feature related to speech from voice data, and a phonetic element included in the voice data based on the acoustic feature.
  • a first speaker identification feature indicating the speech characteristics of each speech element is generated based on the phonetic element identification means, the acoustic features, and the phonetic element identification information indicating the identification result of the phonemes included in the voice data.
  • a second speaker identification feature showing the characteristics of the entire speech is generated.
  • the second speaker identification feature generating means is provided.
  • the voice processing device is an acoustic feature extraction means for extracting acoustic features indicating features related to speech from voice data, and phonemes for identifying phonemes included in the voice data based on the acoustic features.
  • a speaker identification feature generation means for generating a speaker identification feature indicating a speech feature based on selection information indicating a phoneme selected according to the given condition.
  • an acoustic feature indicating a feature related to utterance is extracted from the voice data, and a phonetic element included in the voice data is identified based on the acoustic feature. Then, based on the phonetic element identification information indicating the phonetic element identification result included in the voice data, a first speaker identification feature indicating the utterance characteristic of each phonetic element is generated, and each of the two or more phonetic elements is generated. By synthesizing the first speaker identification feature, it is included to generate a second speaker identification feature showing the characteristics of the entire speech.
  • the voice processing method extracts an acoustic feature indicating a characteristic related to speech from the voice data, identifies a phoneme included in the voice data based on the acoustic feature, and converts the phoneme into the voice data.
  • a phoneme according to a given selection condition was selected, and the phoneme identification information indicating the identification result of the phoneme included in the voice data, the phoneme identification information, and the phoneme identification information according to the given condition were selected. It involves generating speaker identification features that indicate speech characteristics based on selection information that indicates phonemes.
  • the recording medium is to extract an acoustic feature indicating a characteristic related to speech from the voice data, to identify a phoneme included in the voice data based on the acoustic feature, and to identify the phoneme included in the voice data. Based on the acoustic features and the phoneme identification information indicating the phoneme identification result included in the voice data, the generation of the first speaker identification feature indicating the speech characteristics of each phoneme and the generation of two or more speaker identification features. Stores a program for causing a computer to generate a second speaker identification feature indicating the characteristics of the entire speech by synthesizing the first speaker identification feature for each phoneme. ing.
  • the recording medium comprises extracting acoustic features indicating characteristics related to speech from voice data, identifying phonemes contained in the voice data based on the acoustic features, and the above-mentioned.
  • acoustic features indicating characteristics related to speech from voice data
  • identifying phonemes contained in the voice data based on the acoustic features, and the above-mentioned.
  • a program for causing a computer to generate a speaker identification feature indicating a speech feature based on selection information indicating a phoneme selected according to the speech is stored.
  • the voice recognition system is a person whose speaker is registered based on the voice processing device according to one aspect of the present invention and the speaker identification feature output from the voice processing device. It is equipped with a collation device to confirm whether or not.
  • highly accurate speaker matching can be realized even when words and phrases are partially different between the voice data to be matched.
  • FIG. 1 shows the structure of the voice authentication system common to all embodiments. It is a block diagram which shows the structure of the voice processing apparatus which concerns on Embodiment 1.
  • FIG. It is a figure explaining the 1st speaker identification feature and the 2nd speaker identification feature output by the voice processing apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the voice processing apparatus which concerns on Embodiment 1.
  • It is a block diagram which shows the structure of the voice processing apparatus which concerns on one modification of Embodiment 1.
  • It is a figure explaining the speaker identification feature output by the voice processing apparatus which concerns on Embodiment 2.
  • FIG. 1 is a block diagram showing an example of the configuration of the voice authentication system 1.
  • the voice authentication system 1 includes a voice processing device 100 (100A, 200, 300, 400) and a collation device 10 according to any one of the first to fourth embodiments described later. Further, the voice authentication system 1 may include one or a plurality of input devices.
  • the "voice processing device 100 (100A, 200, 300, 400)" represents any one of the voice processing device 100, the voice processing device 100A, the voice processing device 200, the voice processing device 300, and the voice processing device 400. ..
  • the processes and operations executed by the voice processing device 100 (100A, 200, 300, 400) will be described in detail in the first to fourth embodiments described later.
  • the voice processing device 100 (100A, 200, 300, 400) is registered in advance from a DB (DataBase) on the network or from a DB connected to the voice processing device 100 (100A, 200, 300, 400).
  • the voice data of the speaker (person A) (hereinafter referred to as registered voice data) is acquired.
  • the voice processing device 100 (100A, 200, 300, 400) acquires voice data (hereinafter referred to as collation voice data) of the target (person B) to be collated from the input device.
  • the input device is used to input voice to the voice processing device 100 (100A, 200, 300, 400).
  • the input device is a microphone for calling or a headset microphone provided on the smartphone.
  • the voice processing device 100 (100A, 200, 300, 400) generates a speaker identification feature A for speaker matching based on the registered voice data. Further, the voice processing device 100 (100A, 200, 300, 400) generates a speaker identification feature B for speaker matching based on the matching voice data. A specific method for generating the speaker identification features A and B will be described later in the first to fourth embodiments.
  • the voice processing device 100 (100A, 200, 300, 400) transmits the data of the speaker identification feature A and the speaker identification feature B to the collation device 10.
  • the collation device 10 receives the data of the speaker identification feature A and the speaker identification feature B from the voice processing device 100 (100A, 200, 300, 400). The collation device 10 determines whether or not the speaker is a registered person based on the speaker identification feature A and the speaker identification feature B output from the voice processing device 100 (100A, 200, 300, 400). confirm. More specifically, the collation device 10 collates the speaker identification feature A with the speaker identification feature B, and outputs the identity verification result. That is, the collation device 10 outputs information indicating whether or not the person A and the person B are the same person.
  • the voice authentication system 1 controls the electronic lock of the door for entering the office based on the identity verification result output by the verification device 10, automatically activates or logs on the information terminal, and is on the intra-network. It may be provided with a control device (control function) that permits access to the information of.
  • the voice authentication system 1 may be realized as a network service.
  • the voice processing device 100 (100A, 200, 300, 400) and the collating device 10 may be on the network and may be able to communicate with one or more input devices via the wireless network.
  • the voice processing device 100 (100A, 200, 300, 400) provided in the voice authentication system 1 will be described.
  • the "voice data” refers to one or both of the above-mentioned “registered voice data” and "matched voice data”.
  • FIG. 2 is a block diagram showing the configuration of the voice processing device 100.
  • the voice processing device 100 includes a phoneme identification unit 110, an acoustic feature extraction unit 130, a first speaker identification feature generation unit 140, and a second speaker identification feature generation unit 150. ..
  • the acoustic feature extraction unit 130 extracts acoustic features indicating the features related to the utterance from the voice data.
  • the acoustic feature extraction unit 130 is an example of an acoustic feature extraction means.
  • the acoustic feature extraction unit 130 acquires voice data (corresponding to the collated voice data or registered voice data in FIG. 1) from the input device.
  • the acoustic feature extraction unit 130 performs a high-speed Fourier transform on the audio data, and then extracts the acoustic features from the obtained power spectrum data.
  • the acoustic features are, for example, a formant frequency, a mel frequency cepstrum coefficient, and an LPC (Linear Predictive Coding) coefficient.
  • each acoustic feature is an N-dimensional vector.
  • each element of the N-dimensional vector represents the mean square of the time waveform for each frequency bin for a single phone element (ie, voice intensity), and the number of dimensions N is the voice data of the acoustic feature extraction unit 130. It is determined based on the bandwidth of the frequency bin used when extracting acoustic features from.
  • the acoustic feature may be an N-dimensional feature vector (hereinafter referred to as an acoustic vector) composed of feature quantities obtained by frequency analysis of the voice data.
  • the acoustic vector indicates the frequency characteristics of the audio data input from the input device.
  • the acoustic feature extraction unit 130 extracts the acoustic features of two or more phonemes by the above-mentioned method.
  • the acoustic feature extraction unit 130 outputs the acoustic feature data thus extracted from the voice data to each of the phoneme identification unit 110 and the first speaker identification feature generation unit 140.
  • the phoneme identification unit 110 identifies phonemes included in the voice data based on the acoustic characteristics.
  • the phoneme identification unit 110 is an example of a phoneme identification means.
  • the phoneme identification unit 110 uses a well-known hidden Markov model or neural network to identify the corresponding phoneme using the data of the acoustic characteristics for each unit time. Then, the phoneme identification unit 110 combines the likelihoods or posterior probabilities of M phoneme identification results to generate an M-dimensional phoneme vector.
  • M corresponds to the number of phonemes contained in a particular language (the language that is supposed to be spoken), or a portion thereof (eg, only vowels).
  • the phoneme identification unit 110 repeats generating a phoneme vector pointing to a single phoneme every unit time as described above. As a result, the phoneme identification unit 110 obtains time-series data (P1, P2, ... PL) having a length L (L is an integer of 2 or more) including a phoneme vector (P1 to PL) indicating the identified phoneme. Generate.
  • the time series data (P1, P2, ... PL) of length L indicate the phonemes identified by the phoneme identification unit 110.
  • the phoneme vectors (P1 to PL) are hereinafter referred to as phoneme identification information.
  • the phoneme identification information P1 to PL each indicate one of n phonemes (n is an integer of 2 or more) in a specific language.
  • the phoneme identification unit 110 outputs phoneme identification information indicating two or more phonemes identified based on the acoustic characteristics to the first speaker identification feature generation unit 140.
  • the first speaker identification feature generation unit 140 receives phoneme identification information indicating two or more identified phonemes from the phoneme identification unit 110. Specifically, when the first speaker identification feature generation unit 140 has a length L indicating L phonemes identified from voice data in a specific language (a language that is assumed to be spoken). Receives series data (P1, P2, ... PL). Further, the first speaker identification feature generation unit 140 receives acoustic feature data (F1, F2, ... FL) for two or more phonemes extracted from voice data from the acoustic feature extraction unit 130. do.
  • the first speaker identification feature generation unit 140 is for first speaker identification showing the characteristics of the utterance of each phoneme based on the acoustic features and the phoneme identification information indicating the identification result of the phonemes contained in the voice data. Generate features.
  • the first speaker identification feature generation unit 140 is an example of the first speaker identification feature generation means.
  • the first speaker identification feature shows the utterance feature for each phoneme. A specific example in which the first speaker identification feature generation unit 140 generates the first speaker identification feature by using the classifier (FIG. 3) will be described later.
  • the first speaker identification feature generation unit 140 transfers the first speaker identification feature data generated for each of the two or more phonemes included in the voice data to the second speaker identification feature generation unit 150. Output. That is, the first speaker identification feature generation unit 140 collects the data of the first speaker identification features for two or more phonemes and outputs the data to the second speaker identification feature generation unit 150.
  • the second speaker identification feature generation unit 150 generates a second speaker identification feature indicating the characteristics of the entire utterance by synthesizing the first speaker identification features for two or more phonemes. ..
  • the second speaker identification feature generation unit 150 is an example of the second speaker identification feature generation means.
  • the second speaker identification feature indicates the overall feature of the speaker's utterance. In one example, the sum of the first speaker identification features for two or more phonemes is the second speaker identification feature.
  • the second speaker identification feature generation unit 150 outputs the data of the second speaker identification feature generated in this way to the collation device 10 (FIG. 1). Further, the second speaker identification feature generation unit 150 may output the data of the second speaker identification feature to a device other than the collation device 10.
  • the first speaker identification feature generation unit 140 uses the classifier to generate the first speaker identification feature, and the second speaker identification feature generation unit 150 generates the entire utterance. It is explanatory drawing which shows the outline of the process which generates the 2nd speaker identification feature which shows a feature.
  • the classifier includes DNN (Deep Neural Network) (1) to DNN (n). As mentioned above, n corresponds to the number of phonemes in a particular language.
  • the first input data, the acoustic features (F1, F2, ... FL) and The deep learning of DNN (1) to (n) is completed so that the speaker can be identified based on the phoneme identification information (P1, P2, ... PL) which is the second input data.
  • the first speaker identification feature generation unit 140 inputs the first input data and the second input data to the DNNs (1) to (n) in the deep learning phase.
  • the phoneme indicated by the phoneme identification information P1 is a (a is any one of 1 to n).
  • the first speaker identification feature generation unit 140 sends the first input data F1 and the second input data P1 to the DNN (a) corresponding to the phoneme a among the DNNs (1) to (n). Enter together.
  • the first speaker identification feature generation unit 140 brings the output result from the DNN (a) closer to the correct answer of the identification result of the teacher data (that is, improves the correct answer rate). Update each parameter of.
  • the first speaker identification feature generation unit 140 sets each parameter of DNN (a) a predetermined number of times or until the index value indicating the difference between the output result from DNN (a) and the correct answer falls below the threshold value. Repeat the update process. This completes the learning of DNN (a). Similarly, the first speaker identification feature generation unit 140 trains each of DNN (1) to (n).
  • the first speaker identification feature generation unit 140 has learned DNN (1).
  • DNN (1)-(n) (hereinafter, simply referred to as DNN (1)-(n))
  • the acoustic feature (any of F1 to FL) is input as the first input
  • the second input is The phoneme identification information (any of P1 to Pn) extracted from a single phoneme is input.
  • the acoustic feature F is an N-dimensional feature vector
  • the phoneme identification information (P1, P2, ... PL) is an M-dimensional feature vector.
  • the N dimension and the M dimension may be the same or different.
  • the first speaker identification feature generation unit 140 combines the acoustic feature F with one phoneme identification information (any of P1 to PL), and the obtained M + N-dimensional feature vector is DNN. Of (1) to (n), it is input to one DNN (b) corresponding to the phoneme (here, b) pointed to by one phoneme identification information (any of P1 to PL).
  • the combination here means that the dimension of the acoustic feature F, which is an N-dimensional feature vector, is expanded by M, and the element of the phoneme identification information P, which is an M-dimensional feature vector, is blanked in the M + N-dimensional acoustic feature F'. It means that it is an element of the M dimension of.
  • the first speaker identification feature generation unit 140 extracts the first speaker identification feature from the intermediate layer of DNN (b). Similarly, the first speaker identification feature generation unit 140 extracts features for each set of the first input data and the second input data ((P1, F1) to (PL, FL)). The features extracted from the intermediate layer of DNN (1) to (n) in this way are described below as the first speaker identification features S1 to Sn (initial values are 0 or zero vector). However, when two or more sets of the first input data and the second input data are input to the same DNN (m) (m is any of 1 to n), the first speaker identification feature.
  • the generation unit 140 uses the feature extracted from the intermediate layer (for example, the pooling layer) of the DNN (m) at the time of the first input as the first speaker identification feature Sm.
  • the first speaker identification feature generation unit 140 may use the average of the features extracted from each of the two or more sets as the first speaker identification feature.
  • the first speaker identification feature generation when neither the set of the first input data and the second input data is input to DNN (m') (m'is any of 1 to n), the first speaker identification feature generation.
  • the unit 140 leaves the first speaker identification feature Sm'as an initial value of 0 or a zero vector.
  • the first speaker identification feature generation unit 140 uses the data of the n first speaker identification features (S1, S2, ... Sn) generated in this way as the second speaker identification features. Output to the generation unit 150.
  • the second speaker identification feature generation unit 150 receives data of n first speaker identification features (S1, S2, ... Sn) from the first speaker identification feature generation unit 140. ..
  • the second speaker identification feature generation unit 150 obtains a second speaker identification feature by synthesizing n first speaker identification features (S1, S2, ... Sn).
  • the second speaker identification feature generation unit 150 adds all n first speaker identification features (S1, S2, ... Sn) to identify the second speaker. Get the feature.
  • the second speaker identification feature is (S1 + S2 + ... + Sn).
  • the second speaker identification feature generation unit 150 combines n first speaker identification features (S1, S2, ... Sn) into one feature vector for speaker identification. Input the synthesized feature vector to the trained classifier (for example, neural network). Then, the second speaker identification feature generation unit 150 may obtain the second speaker identification feature from the classifier that inputs the synthesized feature vector.
  • the first speaker identification feature generation unit 140 and the second speaker identification feature generation unit 150 have the above-mentioned first speaker identification feature and the above-mentioned second speaker identification. Get the features for.
  • FIG. 4 is a flowchart showing a flow of processing executed by each part of the voice processing device 100.
  • the acoustic feature extraction unit 130 extracts the acoustic feature indicating the feature related to the utterance from the voice data (S101).
  • the acoustic feature extraction unit 130 outputs the extracted acoustic feature data to each of the phoneme identification unit 110 and the first speaker identification feature generation unit 140.
  • the phoneme identification unit 110 identifies phonemes included in the voice data based on the acoustic characteristics (S102).
  • the phoneme identification unit 110 outputs phoneme identification information indicating the phoneme identification result included in the voice data to the first speaker identification feature generation unit 140.
  • the first speaker identification feature generation unit 140 receives data of acoustic features (F1, F2, ... FL in FIG. 3) from the acoustic feature extraction unit 130. Further, the first speaker identification feature generation unit 140 receives data of phoneme identification information (P1, P2, ... PL in FIG. 3) from the phoneme identification unit 110.
  • the first speaker identification feature generation unit 140 speaks for each phoneme based on the received acoustic features (F1, F2, ... FL) and phoneme identification information (P1, P2, ... PL).
  • a first speaker identification feature (S1, S2, ... Sn in FIG. 3) is generated (S103).
  • the first speaker identification feature generation unit 140 generates the data of the first speaker identification feature (S1, S2, ... Sn) generated for two or more phonemes to generate the second speaker identification feature. Output to unit 150.
  • the second speaker identification feature generation unit 150 receives the data of the first speaker identification feature (S1, S2, ... Sn) from the first speaker identification feature generation unit 140.
  • the second speaker identification feature generation unit 150 shows the characteristics of the entire utterance by synthesizing the first speaker identification features (S1, S2, ... Sn) for two or more phonemes.
  • the speaker identification feature of 2 is generated (S104).
  • the second speaker identification feature generation unit 150 obtains the total (S1 + S2 + ... Sn) from S1 to Sn as the second speaker identification feature.
  • the second speaker identification feature generation unit 150 may obtain the second speaker identification feature from the first speaker identification feature by any method other than that described here.
  • the voice processing device 100 uses the registered voice data shown in FIG. 1 as the speaker identification feature A as the first speaker identification feature or the second speaker identification feature in the above procedure.
  • a speaker identification feature is generated and output to the collation device 10.
  • the voice processing device 100 generates a first speaker identification feature or a second speaker identification feature as the speaker identification feature B from the collated voice data shown in FIG. 1 in the same procedure.
  • the collation device 10 collates the speaker identification feature A based on the registered voice data with the speaker identification feature B based on the collation voice data, and outputs an identity verification result (that is, whether it is the same person or not). do.
  • FIG. 5 is a block diagram showing a configuration of the voice processing device 100A according to the present modification.
  • the voice processing device 100A includes a phoneme identification unit 110, a phoneme selection unit 120, an acoustic feature extraction unit 130, a first speaker identification feature generation unit 140, and a second speaker identification feature generation unit. It has 150.
  • the phoneme selection unit 120 selects two or more phonemes among the phonemes included in the voice data according to a given condition.
  • the phoneme selection unit 120 is an example of a phoneme selection means. When the number of phonemes included in the voice data is one or less according to a given condition, the process described below is not performed, and the voice processing device 100A ends the operation. A case where there are two or more phonemes according to a given condition among the phonemes included in the voice data will be described subsequently.
  • the phoneme selection unit 120 outputs selection information indicating two or more selected phonemes to the first speaker identification feature generation unit 140.
  • the first speaker identification feature generation unit 140 has acoustic features, phoneme identification information indicating the identification result of phonemes contained in voice data, and two or more selected according to a given condition. Based on the selection information indicating a phoneme, a first speaker identification feature indicating the characteristics of the speech for each phoneme is generated.
  • the processing performed by the other components of the voice processing device 100A other than the phoneme selection unit 120 and the phoneme identification unit 110 is the same as the above-mentioned voice processing device 100.
  • the phoneme selection unit 120 sets, among the phonemes included in the voice data, two or more phonemes for which the phoneme identification information is extracted by the phoneme identification unit 110 under a given condition. Select based on. By doing so, when collating the registered voice data and the collation voice data, a common phoneme is selected from both voice data according to a given selection condition, and a phoneme identification indicating the characteristics of the common phoneme is performed. From the information, speaker identification features are generated. As a result, even if the words and phrases are partially different between the voice data to be collated, the speaker can be collated with high accuracy based on the speaker identification feature.
  • the acoustic feature extraction unit 130 extracts an acoustic feature indicating a feature related to speech from the voice data
  • the phoneme identification unit 110 extracts a phoneme included in the voice data based on the acoustic feature.
  • the first speaker identification feature generation unit 140 indicates the characteristics of speech for each phoneme based on the acoustic features and the phoneme identification information indicating the identification result of the phonemes contained in the voice data.
  • the second speaker identification feature generation unit 150 generates the speaker identification feature, and the second speaker identification feature generation unit 150 shows the feature of the entire speech by synthesizing the first speaker identification feature for two or more phonemes. Generates speaker identification features.
  • the first speaker identification feature is extracted for each phoneme.
  • the second speaker identification feature is obtained by synthesizing those first speaker identification features. Therefore, even if the words and phrases are partially different between the voice data to be collated, the speaker collation can be performed with high accuracy based on the first speaker identification feature.
  • FIG. 6 is a block diagram showing the configuration of the voice processing device 200.
  • the voice processing device 200 includes a phoneme identification unit 210, a phoneme selection unit 220, an acoustic feature extraction unit 230, and a speaker identification feature generation unit 240.
  • the acoustic feature extraction unit 230 extracts the acoustic feature indicating the feature related to the utterance from the voice data.
  • the acoustic feature extraction unit 230 is an example of a phoneme identification information generation means.
  • the acoustic feature extraction unit 230 acquires voice data (matched voice data or registered voice data in FIG. 1) from an input device.
  • the acoustic feature extraction unit 230 performs a high-speed Fourier transform on the voice data, and then extracts the acoustic features from the obtained voice data portion.
  • Each acoustic feature is an N-dimensional vector.
  • the acoustic feature may be an MFCC (Mel-Frequency Cepstrum Coefficients) or an LPC (linear predictive coding) coefficient, and their primary / secondary regression coefficients, or may be a formant frequency or a fundamental frequency.
  • the acoustic feature may be an N-dimensional feature vector (hereinafter referred to as an acoustic vector) composed of feature quantities obtained by frequency analysis of the voice data.
  • the acoustic vector indicates the frequency characteristics of the audio data input from the input device.
  • the acoustic feature extraction unit 230 outputs the acoustic feature data extracted from the voice data in this way to each of the phoneme identification unit 210 and the speaker identification feature generation unit 240.
  • the phoneme identification unit 210 identifies phonemes included in the voice data based on the acoustic characteristics.
  • the phoneme identification unit 210 is an example of a phoneme identification means.
  • the phoneme identification unit 210 uses a well-known hidden Markov model or neural network to identify the corresponding phoneme using the data of the acoustic characteristics for each unit time. Then, the phoneme identification unit 210 combines the likelihoods or posterior probabilities of M phoneme identification results to generate an M-dimensional phoneme vector.
  • M corresponds to the number of phonemes contained in a particular language (the language that is supposed to be spoken), or a portion thereof (eg, only vowels).
  • the phoneme identification unit 210 repeats generating a phoneme vector pointing to a single phoneme every unit time.
  • the phoneme identification unit 210 obtains time-series data (P1, P2, ... PL) having a length L (L is an integer of 2 or more) including a phoneme vector (P1 to PL) indicating the identified phoneme.
  • the time-series data (P1, P2, ... PL) of length L indicates the phonemes identified by the phoneme identification unit 210.
  • the phoneme vectors (P1 to PL) are hereinafter referred to as phoneme identification information.
  • the phoneme identification information P1 to PL each indicate one of n phonemes (n is an integer of 2 or more) in a specific language.
  • the phoneme identification unit 210 outputs the phoneme identification information for identifying the phoneme identified by the phoneme identification unit 210 to the phoneme selection unit 220 and the speaker identification feature generation unit 240.
  • the phoneme selection unit 220 selects a phoneme according to a given selection condition from the phonemes included in the voice data.
  • the phoneme selection unit 220 is an example of a phoneme selection means. A specific example of the given selection condition will be described later in the embodiment. Then, the phoneme selection unit 220 outputs selection information indicating the phonemes selected according to a given condition to the speaker identification feature generation unit 240.
  • the speaker identification feature generation unit 240 is based on the acoustic feature, the phoneme identification information indicating the identification result of the phoneme contained in the voice data, and the selection information indicating the phoneme selected according to a given condition. Generates speaker identification features that indicate the characteristics of the speech.
  • the speaker identification feature generation unit 240 is an example of the speaker identification feature generation means.
  • the speaker identification feature generation unit 240 includes phoneme identification information (P'1, ... P'K in FIG. 7) for each of the selected K (K is 1 or more and L or less) phonemes, and acoustics.
  • a speaker identification feature (S in FIG. 7) is generated based on the feature ((F'1 ... F'K) in FIG. 7).
  • the speaker identification feature generation unit 240 combines the phoneme identification information and the acoustic feature by using the method described in Non-Patent Document 1 and inputs the speaker identification feature to the classifier to obtain the speaker identification feature. Can be generated.
  • the speaker identification feature indicates the feature of the speaker's utterance.
  • FIG. 7 A specific example in which the speaker identification feature generation unit 240 generates the speaker identification feature by using the classifier (FIG. 7) will be described later.
  • the speaker identification feature generation unit 240 outputs the speaker identification feature data generated in this way to the collation device 10 (FIG. 1). Further, the speaker identification feature generation unit 240 may transmit the speaker identification feature data to a device other than the collation device 10.
  • FIG. 7 is an explanatory diagram showing an outline of a process in which the speaker identification feature generation unit 240 generates a speaker identification feature using the classifier. As shown in FIG. 7, the classifier includes a DNN.
  • the DNN is the first input acoustic feature (F'1 to F'K in FIG. 7), and the first. Deep learning is completed so that the speaker can be identified based on the phoneme identification information (P'1 to P'K in FIG. 7) which is the input of 2.
  • the speaker identification feature generation unit 240 inputs the teacher data to the DNN in the deep learning phase, and brings the output result from the DNN closer to the correct answer of the identification result of the teacher data (that is, the correct answer rate). Update each parameter of DNN so as to improve). The speaker identification feature generation unit 240 repeats the process of updating each parameter of the DNN a predetermined number of times or until the index value representing the difference between the output result from the DNN and the correct answer falls below the threshold value. This completes the learning of DNN.
  • the speaker identification feature generation unit 240 uses one acoustic feature (any of F'1 to F'K) as the first input data for the trained DNN (hereinafter, simply referred to as DNN). At the same time as inputting, one phoneme identification information (any of P'1 to P'K) is input as the second input data.
  • the K acoustic features are N-dimensional feature vectors
  • the K phoneme identification information are M-dimensional, respectively. It is a feature vector of.
  • the N dimension and the M dimension may be the same or different.
  • the speaker identification feature generation unit 240 generates an M + N-dimensional acoustic feature F'k by expanding one acoustic feature F'k (k is 1 or more and K or less) by the M dimension. And empty all the expanded M-dimensional elements. Then, the speaker identification feature generation unit 240 uses the element of the phoneme identification information P'k as an M-dimensional element in the acoustic feature F'k. In this case, the first input data and the second input data are combined, and the M + N-dimensional acoustic feature F ′ ′ k is input to the DNN. Then, the speaker identification feature generation unit 240 extracts the speaker identification feature S from the intermediate layer of the DNN to which the first input data and the second input data are input.
  • the speaker identification feature generation unit 240 obtains the speaker identification feature S indicating the characteristics of the speaker's utterance.
  • FIG. 8 is a flowchart showing a flow of processing executed by each part of the voice processing device 200.
  • the acoustic feature extraction unit 230 extracts the acoustic feature indicating the feature related to the utterance from the voice data (S201).
  • the acoustic feature extraction unit 230 outputs the extracted acoustic feature data to each of the phoneme identification unit 210 and the speaker identification feature generation unit 240.
  • the phoneme identification unit 210 identifies the phonemes included in the voice data based on the acoustic characteristics (S202).
  • the phoneme identification unit 210 outputs the phoneme identification result included in the voice data to the phoneme selection unit 220 and the speaker identification feature generation unit 240.
  • the phoneme selection unit 220 selects a phoneme according to a given selection condition from the phonemes included in the voice data (S203).
  • the phoneme selection unit 220 outputs selection information indicating the selected phoneme to the speaker identification feature generation unit 240.
  • the speaker identification feature generation unit 240 receives data of acoustic features (F'1 to F'K in FIG. 7) from the acoustic feature extraction unit 230. Further, the speaker identification feature generation unit 240 receives phoneme identification information (P'1 to P'K in FIG. 7) for identifying phonemes included in the voice data from the phoneme identification unit 210. In addition, the speaker identification feature generation unit 240 receives selection information indicating the selected phoneme from the phoneme selection unit 220.
  • the speaker identification feature generation unit 240 is based on the acoustic feature, the phoneme identification information indicating the identification result of the phoneme contained in the voice data, and the selection information indicating the phoneme selected according to a given condition.
  • a speaker identification feature (S in FIG. 7) indicating the characteristics of the speech of the above is generated (S204).
  • the speaker identification feature generation unit 240 outputs the generated speaker identification feature data to the collation device 10 (FIG. 1).
  • the voice processing device 200 has a speaker identification feature (speaker identification feature in FIG. 1) from the registered voice data and the collated voice data shown in FIG. 1 by the above procedure. (A, B)) is generated and output to the collation device 10.
  • the collation device 10 collates the speaker identification feature A based on the registered voice data with the speaker identification feature B based on the collation voice data, and outputs an identity verification result (that is, whether it is the same person or not). do.
  • the acoustic feature extraction unit 230 extracts the acoustic feature indicating the feature related to the utterance from the voice data.
  • the phoneme identification unit 210 identifies phonemes included in the voice data based on the acoustic characteristics.
  • the phoneme selection unit 220 selects a phoneme according to a given selection condition from among the phonemes included in the voice data.
  • the speaker identification feature generation unit 240 is based on the acoustic feature, the phoneme identification information indicating the identification result of the phoneme contained in the voice data, and the selection information indicating the phoneme selected according to a given condition. Generates speaker identification features that indicate the characteristics of the speech.
  • a common phoneme is selected from both voice data according to a given selection condition, and in addition to the acoustic characteristics and the phoneme identification information, a given phoneme is given.
  • Speaker identification features are generated based on the selection information indicating the phonemes selected according to the conditions.
  • the voice processing apparatus 300 will be described as the third embodiment with reference to FIG. 9.
  • the phoneme selection unit 220 selects two or more phonemes that are the same as the two or more phonemes included in the registered voice data among the phonemes included in the voice data.
  • FIG. 9 is a block diagram showing the configuration of the voice processing device 300.
  • the voice processing device 300 includes a phoneme identification unit 210, a phoneme selection unit 220, an acoustic feature extraction unit 230, and a speaker identification feature generation unit 240.
  • the voice processing device 300 further includes a text acquisition unit 350.
  • the text acquisition unit 350 acquires data of a predetermined text prepared in advance.
  • the text acquisition unit 350 is an example of a text acquisition means.
  • the data of the predetermined text may be stored in a text DB (not shown). Alternatively, the data of the predetermined text may be input by the input device and stored in a temporary storage unit (not shown).
  • the text acquisition unit 350 outputs predetermined text data to the phoneme selection unit 220.
  • the phoneme selection unit 220 receives predetermined text data from the text acquisition unit 350. Then, the phoneme selection unit 220 selects a phoneme corresponding to one or more characters included in a predetermined text among the phonemes included in the voice data. In one example, the phoneme selection unit 220 selects phonemes based on a table showing the correspondence between phonemes and characters.
  • the description of the second embodiment will be quoted, and the description in the third embodiment will be omitted.
  • the acoustic feature extraction unit 230 extracts the acoustic feature indicating the feature related to the utterance from the voice data.
  • the phoneme identification unit 210 identifies phonemes included in the voice data based on the acoustic characteristics.
  • the phoneme selection unit 220 selects a phoneme according to a given selection condition from among the phonemes included in the voice data.
  • the speaker identification feature generation unit 240 is based on the acoustic feature, the phoneme identification information indicating the identification result of the phoneme contained in the voice data, and the selection information indicating the phoneme selected according to a given condition. Generates speaker identification features that indicate the characteristics of the speech.
  • a common phoneme is selected from both voice data according to a given selection condition, and in addition to the acoustic characteristics and the phoneme identification information, a given phoneme is given.
  • Speaker identification features are generated based on the selection information indicating the phonemes selected according to the conditions.
  • the text acquisition unit 350 acquires data of a predetermined text prepared in advance.
  • the phoneme selection unit 220 selects a phoneme corresponding to one or more characters included in a predetermined text from among the phonemes included in the voice data. Therefore, by having the speaker read out all or part of the predetermined text, the speaker matching can be easily performed with high accuracy.
  • the phoneme selection unit 220 selects two or more phonemes corresponding to two or more characters included in a predetermined text among the phonemes included in the voice data.
  • FIG. 10 is a block diagram showing the configuration of the voice processing device 400.
  • the voice processing device 400 includes a phoneme identification unit 210, a phoneme selection unit 220, an acoustic feature extraction unit 230, and a speaker identification feature generation unit 240.
  • the voice processing device 400 further includes a registration data acquisition unit 450.
  • the registration data acquisition unit 450 acquires the registered voice data.
  • the registration data acquisition unit 450 is an example of registration data acquisition means.
  • the registration data acquisition unit 450 acquires the registered voice data (registered voice data in FIG. 1) from the DB (FIG. 1).
  • the registration data acquisition unit 450 outputs the registered voice data to the phoneme selection unit 220.
  • the phoneme selection unit 220 receives the registered voice data from the registration data acquisition unit 450. Then, the phoneme selection unit 220 selects the same phoneme as one or more phonemes included in the registered voice data among the phonemes included in the voice data.
  • the description of the second embodiment will be quoted, and the description in the fourth embodiment will be omitted.
  • the acoustic feature extraction unit 230 extracts the acoustic feature indicating the feature related to the utterance from the voice data.
  • the phoneme identification unit 210 identifies phonemes included in the voice data based on the acoustic characteristics.
  • the phoneme selection unit 220 selects a phoneme according to a given selection condition from among the phonemes included in the voice data.
  • the speaker identification feature generation unit 240 is based on the acoustic feature, the phoneme identification information indicating the identification result of the phoneme contained in the voice data, and the selection information indicating the phoneme selected according to a given condition. Generates speaker identification features that indicate the characteristics of the speech.
  • a common phoneme is selected from both voice data according to a given selection condition, and in addition to the acoustic characteristics and the phoneme identification information, a given phoneme is given.
  • Speaker identification features are generated based on the selection information indicating the phonemes selected according to the conditions.
  • the registration data acquisition unit 450 acquires the registered voice data.
  • the phoneme selection unit 220 selects the same phoneme as one or more phonemes included in the registered voice data among the phonemes included in the voice data. Therefore, by having the speaker utter the same or partially equal phrase or sentence between the time of registration and the time of collation, the speaker collation can be easily performed with high accuracy.
  • Each component of the voice processing apparatus 100 (100A), 200, 300, and 400 described in the first to fourth embodiments shows a block of functional units. Some or all of these components are realized by, for example, the information processing apparatus 900 as shown in FIG.
  • FIG. 11 is a block diagram showing an example of the hardware configuration of the information processing apparatus 900.
  • the information processing apparatus 900 includes the following configuration as an example.
  • -CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • -Program 904 loaded into RAM 903
  • a storage device 905 that stores the program 904.
  • Drive device 907 that reads and writes the recording medium 906.
  • -Communication interface 908 for connecting to the communication network 909 -I / O interface 910 for inputting / outputting data -Bus 911 connecting each component
  • Each component of the voice processing apparatus 100 (100A), 200, 300, and 400 described in the first to fourth embodiments is realized by the CPU 901 reading and executing the program 904 that realizes these functions.
  • the program 904 that realizes the functions of each component is stored in, for example, a storage device 905 or ROM 902 in advance, and the CPU 901 is loaded into the RAM 903 and executed as needed.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply the program to the CPU 901.
  • the voice processing devices 100 (100A), 200, 300, and 400 described in the first to fourth embodiments are realized as hardware. Therefore, the same effects as those described in the first to fourth embodiments can be obtained.
  • Audio feature extraction means for extracting acoustic features that indicate utterance-related features from voice data
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means For the first speaker identification, which generates the first speaker identification feature showing the utterance feature for each phoneme, based on the acoustic feature and the phoneme identification information indicating the phoneme identification result included in the voice data.
  • Feature generation means and A second speaker identification feature generation means that generates a second speaker identification feature that indicates the characteristics of the entire utterance by synthesizing the first speaker identification feature for each of the two or more phonemes.
  • the first speaker identification feature generation means includes the acoustic feature, phoneme identification information indicating the identification result of two or more phonemes included in the voice data, and two selected according to the given conditions.
  • the voice processing device according to Appendix 1, wherein a speaker identification feature indicating a speech feature is generated based on the selection information indicating the phoneme described above.
  • Appendix 3 The description in Appendix 2, wherein the phoneme selection means selects two or more phonemes that are the same as the two or more phonemes included in the registered voice data among the phonemes included in the voice data.
  • Voice processing device The description in Appendix 2, wherein the phoneme selection means selects two or more phonemes that are the same as the two or more phonemes included in the registered voice data among the phonemes included in the voice data.
  • Appendix 4 The speech processing according to Appendix 2, wherein the phoneme selection means selects two or more phonemes corresponding to two or more characters included in a predetermined text from among the phonemes included in the speech data. Device.
  • the first speaker identification feature generation means is The first speaker identification feature is generated for each pair of the acoustic feature and the phoneme identification information extracted from a single phoneme.
  • the second speaker identification feature generation means is Addendum 1 to 4 characterized in that a second speaker identification feature indicating the characteristics of the entire utterance is generated by adding the first speaker identification features generated for the plurality of the sets.
  • the voice processing apparatus according to any one of the above items.
  • Acoustic feature extraction means for extracting acoustic features that indicate utterance-related features from voice data
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means for identifying a phoneme contained in the voice data based on the acoustic characteristics
  • a phoneme identification means for selecting a phoneme according to a given selection condition
  • a phoneme selection means for speaker identification indicating the characteristics of speech based on the acoustic characteristics
  • phoneme identification information indicating the identification result of the phonemes included in the voice data
  • selection information indicating the phonemes selected according to the given conditions.
  • a voice processing device equipped with a speaker identification feature generation means for generating features.
  • Appendix 8 Further equipped with a registration data acquisition means for acquiring registered voice data, The voice processing apparatus according to Appendix 6, wherein the phoneme selection means selects the same phoneme as one or more phonemes included in the registered voice data among the phonemes included in the voice data. ..
  • acoustic features that indicate the features related to the utterance are extracted. Based on the acoustic characteristics, the phonemes contained in the voice data are identified, and the phonemes are identified. Based on the acoustic feature and the phoneme identification information indicating the phoneme identification result included in the voice data, a first speaker identification feature indicating the utterance feature of each phoneme is generated.
  • a speech processing method comprising synthesizing the first speaker identification feature for each of two or more phonemes to generate a second speaker identification feature indicating the characteristics of the entire utterance.
  • the acoustic features that indicate the features related to the utterance are extracted. Identify the phonemes contained in the voice data based on the early acoustic characteristics. Among the phonemes included in the voice data, a phoneme according to a given selection condition is selected, and the phoneme is selected. For speaker identification indicating the characteristics of utterance based on the acoustic characteristics, phoneme identification information indicating the identification result of the phonemes included in the voice data, and selection information indicating the phonemes selected according to the given conditions.
  • a speech processing method that involves generating features.
  • Appendix 12 Extracting acoustic features that indicate utterance-related features from voice data, Identifying phonemes contained in the voice data based on the acoustic characteristics, From among the phonemes included in the voice data, selecting a phoneme according to a given selection condition and For speaker identification indicating the characteristics of utterance based on the acoustic characteristics, phoneme identification information indicating the identification result of the phonemes included in the voice data, and selection information indicating the phonemes selected according to the given conditions.
  • a non-temporary recording medium that contains a program that causes a computer to generate features and execute.
  • the present invention in one example, can be used in a voice authentication system for verifying identity by analyzing voice data input using an input device.
  • Voice authentication system 10 Verification device 100 Voice processing device 100A Voice processing device 110 Speech identification unit 120 Speech selection unit 130 Acoustic feature extraction unit 140 1st speaker identification feature generation unit 150 2nd speaker identification feature generation unit 200 Voice Processing device 210 Sound element identification unit 220 Sound element selection unit 230 Acoustic feature extraction unit 240 Speaker identification feature generation unit 300 Voice processing device 350 Text acquisition unit 400 Voice processing device 450 Registration data acquisition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

照合される音声データ同士の間で語句が部分的に相違する場合であっても、高精度に話者照合することを実現する。音響特徴抽出部(130)は、音声データから、発話に係る特徴を示す音響特徴を抽出し、音素識別部(110)は、音響特徴に基づいて、音声データに含まれる音素を識別し、第1話者識別用特徴生成部(140)は、音響特徴、および、音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成し、第2話者識別用特徴生成部(150)は、2つ以上の音素についての第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する。

Description

音声処理装置、音声処理方法、記録媒体、および音声認証システム
 本発明は、音声処理装置、音声処理方法、記録媒体、および音声認証システムに関し、特に、入力デバイスを介して入力された音声データに基づいて、話者を照合する音声処理装置、音声処理方法、記録媒体、および音声認証装置に関する。
 関連する技術では、第1の音声データに含まれる音声の特徴(音響特徴とも呼ぶ)と、第2の音声データに含まれる音声の特徴とを照合することによって、話者を識別する。このような関連する技術は、音声認証による本人確認あるいは話者照合と呼ばれる。
 非特許文献1には、第1及び第2の音声データから抽出した音響特徴を、DNN(Deep Neural Network)への第1の入力とし、第1及び第2の音声データを音声認識することによって得られた音素から抽出した音素識別情報を、DNNへの第2の入力として、DNNの中間層から、話者照合のための話者識別用特徴を抽出することが記載されている。
Ignatio Vinals 他 , Phonetically aware embeddings, Wide Residual Networks with Time Delay Neural Networks and Self Attention models for the 2018 NIST Speaker Recognition Evaluation " Interspeech 2019)
 非特許文献1に記載の方法では、第1の音声データの登録時と第1及び第2の音声データの照合時との間で、それぞれの音声データの話者が部分的に異なる語句を発話した場合、話者照合に失敗する可能性が高くなる。特に、照合時に、話者が、登録時の発話の一部の語句を省略して発話した場合、話者照合できない可能性がある。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、照合される音声データ同士の間で語句が部分的に相違する場合であっても、高精度な話者照合を実現することにある。
 本発明の一態様に係わる音声処理装置は、音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成する第1話者識別用特徴生成手段と、2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する第2話者識別用特徴生成手段とを備えている。
 本発明の一態様に係わる音声処理装置は、音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、前記音響特徴に基づいて、音声データに含まれる音素を識別する音素識別手段と、前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する音素選択手段と、前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する話者識別用特徴生成手段とを備えている。
 本発明の一態様に係わる音声処理方法は、音声データから、発話に係る特徴を示す音響特徴を抽出し、前記音響特徴に基づいて、前記音声データに含まれる音素を識別し、前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成し、2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成することを含む。
 本発明の一態様に係わる音声処理方法は、音声データから、発話に係る特徴を示す音響特徴を抽出し、前記音響特徴に基づいて、前記音声データに含まれる音素を識別し、前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択し、前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成することを含む。
 本発明の一態様に係わる記録媒体は、音声データから、発話に係る特徴を示す音響特徴を抽出することと、前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成することと、2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成することとをコンピュータに実行させるためのプログラムを格納している。
 本発明の一態様に係わる記録媒体は、音声データから、発話に係る特徴を示す音響特徴を抽出することと、前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択することと、前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成することとをコンピュータに実行させるためのプログラムを格納している。
 本発明の一態様に係わる音声認証システムは、本発明の一態様に係わる音声処理装置と、前記音声処理装置から出力される話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置とを備えている。
 本発明の一態様によれば、照合される音声データ同士の間で語句が部分的に相違する場合であっても、高精度な話者照合を実現できる。
すべての実施形態に共通する音声認証システムの構成を示すブロック図である。 実施形態1に係わる音声処理装置の構成を示すブロック図である。 実施形態1に係わる音声処理装置が出力する第1の話者識別用特徴および第2の話者識別用特徴について説明する図である。 実施形態1に係わる音声処理装置の動作を示すフローチャートである。 実施形態1の一変形例に係わる音声処理装置の構成を示すブロック図である。 実施形態2に係わる音声処理装置の構成を示すブロック図である。 実施形態2に係わる音声処理装置が出力する話者識別用特徴について説明する図である。 実施形態2に係わる音声処理装置の動作を示すフローチャートである。 実施形態3に係わる音声処理装置の構成を示すブロック図である。 実施形態4に係わる音声処理装置の構成を示すブロック図である。 実施形態1から4のいずれかに係わる音声処理装置のハードウェア構成を示す図である。
 〔すべての実施形態に共通〕
 まず、後で説明する実施形態1~4に共通して適用される音声認証システムの構成の一例を説明する。
 (音声認証システム1)
 図1を参照して、音声認証システム1の構成の一例を説明する。図1は、音声認証システム1の構成の一例を示すブロック図である。
 図1に示すように、音声認証システム1は、後述する実施形態1~4のいずれかに係わる音声処理装置100(100A、200、300、400)および照合装置10を備えている。また、音声認証システム1は、1または複数の入力デバイスを備えていてもよい。ここで、「音声処理装置100(100A、200、300、400)」は、音声処理装置100、音声処理装置100A、音声処理装置200、音声処理装置300、および音声処理装置400のいずれかを表す。音声処理装置100(100A、200、300、400)が実行する処理及び動作については、後述する実施形態1~4において、詳細に説明する。
 音声処理装置100(100A、200、300、400)は、ネットワーク上にあるDB(Data Base)から、あるいは音声処理装置100(100A、200、300、400)と接続されたDBから、予め登録された話者(人物A)の音声データ(以下では、登録音声データと呼ぶ)を取得する。また、音声処理装置100(100A、200、300、400)は、入力デバイスから、照合される対象(人物B)の音声データ(以下では、照合音声データと呼ぶ)を取得する。入力デバイスは、音声処理装置100(100A、200、300、400)へ音声を入力するために用いられる。一例では、入力デバイスは、スマートフォンが具備した通話用のマイクロフォンまたはヘッドセットマイクである。
 音声処理装置100(100A、200、300、400)は、登録音声データに基づいて、話者照合のための話者識別用特徴Aを生成する。また、音声処理装置100(100A、200、300、400)は、照合音声データに基づいて、話者照合のための話者識別用特徴Bを生成する。なお、話者識別用特徴AおよびBの具体的な生成方法については、のちの実施形態1~4において説明する。音声処理装置100(100A、200、300、400)は、照合装置10へ、話者識別用特徴Aおよび話者識別用特徴Bのデータを送信する。
 照合装置10は、音声処理装置100(100A、200、300、400)から、話者識別用特徴Aおよび話者識別用特徴Bのデータを受信する。照合装置10は、音声処理装置100(100A、200、300、400)から出力される話者識別用特徴Aおよび話者識別用特徴Bに基づいて、話者が登録済みの人物本人かどうかを確認する。より詳細には、照合装置10は、話者識別用特徴Aと話者識別用特徴Bとを照合し、本人確認結果を出力する。すなわち、照合装置10は、人物Aと人物Bとが同一人物か否かを示す情報を出力する。
 なお、音声認証システム1は、照合装置10が出力する本人確認結果に基づいて、オフィスへ入室するためのドアの電子錠を制御したり、情報端末を自動で起動またはログオンしたり、イントラネットワーク上の情報へのアクセスを許可する制御装置(制御機能)を備えていてもよい。
 音声認証システム1は、ネットワークサービスとして実現されてもよい。この場合、音声処理装置100(100A、200、300、400)および照合装置10は、ネットワーク上にあって、1または複数の入力デバイスと無線ネットワークを介して通信可能であってよい。
 以下において、音声認証システム1が備えた音声処理装置100(100A、200、300、400)の一具体例について説明する。なお、以下の説明で「音声データ」とは、上述の「登録音声データ」および「照合音声データ」の一方又は両方を指す。
 〔実施形態1〕
 図2~図4を参照して、音声処理装置100に関し、実施形態1として説明する。
 (音声処理装置100)
 図2を参照して、本実施形態1に係わる音声処理装置100の構成を説明する。図2は、音声処理装置100の構成を示すブロック図である。図2に示すように、音声処理装置100は、音素識別部110、音響特徴抽出部130、第1話者識別用特徴生成部140、および第2話者識別用特徴生成部150を備えている。
 音響特徴抽出部130は、音声データから、発話に係る特徴を示す音響特徴を抽出する。音響特徴抽出部130は、音響特徴抽出手段の一例である。
 一例では、音響特徴抽出部130は、入力デバイスから、音声データ(図1における照合音声データまたは登録音声データに相当)を取得する。
 音響特徴抽出部130は、音声データを高速フーリエ変換したのち、得られたパワースペクトルデータから、音響特徴を抽出する。音響特徴は、例えば、フォルマント周波数、メル周波数ケプストラム係数、LPC(Linear Predictive Coding)係数である。音響特徴は、それぞれN次元のベクトルであるとする。一例では、N次元のベクトルの各要素は、単一の音素についての周波数ビンごとの時間波形の平均の自乗(すなわち音声の強度)を表し、次元数Nは、音響特徴抽出部130が音声データから音響特徴を抽出する際に用いる周波数ビンの帯域幅に基づいて決まる。
 あるいは、音響特徴は、音声データを周波数分析することによって得られる特徴量で構成された、N次元の特徴ベクトル(以下では、音響ベクトルと呼ぶ)であってよい。一例では、音響ベクトルは、入力デバイスから入力された音声データの周波数特性を示す。
 音響特徴抽出部130は、2つ以上の音素についての音響特徴を、上述した方法によりそれぞれ抽出する。音響特徴抽出部130は、このようにして音声データから抽出した音響特徴のデータを、音素識別部110および第1話者識別用特徴生成部140のそれぞれへ出力する。
 音素識別部110は、音響特徴に基づいて、音声データに含まれる音素を識別する。音素識別部110は、音素識別手段の一例である。一例では、音素識別部110は、周知の隠れマルコフモデルまたはニューラルネットワークを用いて、単位時間ごとの音響特徴のデータを用いて、対応する音素を識別する。そして、音素識別部110は、音素の識別結果であるM個の尤度または事後確率を組み合わせて、M次元の音素ベクトルを生成する。一例では、Mは、特定の言語(発話されたことが想定される言語)に含まれる音素の数、またはその一部(例えば母音のみ)の音素の数と一致する。
 音素識別部110は、上述のようにして、単位時間ごとに、単一の音素を指し示す音素ベクトルを生成することを繰り返す。これにより、音素識別部110は、識別された音素を指し示す音素ベクトル(P1~PL)を含む長さL(Lは2以上の整数)の時系列データ(P1,P2,...PL)を生成する。長さLの時系列データ(P1,P2,...PL)は、音素識別部110が識別した音素を示す。音素ベクトル(P1~PL)を、以下では音素識別情報と呼ぶ。音素識別情報P1~PLは、それぞれ、特定の言語におけるn個の音素(nは2以上の整数)のいずれかを指し示す。
 音素識別部110は、音響特徴に基づいて識別した2つ以上の音素を示す音素識別情報を、第1話者識別用特徴生成部140へ出力する。
 第1話者識別用特徴生成部140は、音素識別部110から、識別された2つ以上の音素を示す音素識別情報を受信する。具体的には、第1話者識別用特徴生成部140は、特定の言語(発話されたことが想定される言語)において、音声データから識別されたL個の音素を示す長さLの時系列データ(P1,P2,...PL)を受信する。また、第1話者識別用特徴生成部140は、音響特徴抽出部130から、音声データから抽出された2つ以上の音素についての音響特徴のデータ(F1,F2,...FL)を受信する。
 第1話者識別用特徴生成部140は、音響特徴、および、音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成する。第1話者識別用特徴生成部140は、第1話者識別用特徴生成手段の一例である。第1の話者識別用特徴は、音素ごとの発話の特徴を示す。第1話者識別用特徴生成部140が、識別器(図3)を用いて、第1の話者識別用特徴を生成する具体例を、後で説明する。
 第1話者識別用特徴生成部140は、音声データに含まれる2つ以上の音素のそれぞれについて生成した第1の話者識別用特徴のデータを、第2話者識別用特徴生成部150へ出力する。すなわち、第1話者識別用特徴生成部140は、2つ以上の音素についての第1の話者識別用特徴のデータをまとめて、第2話者識別用特徴生成部150へ出力する。
 第2話者識別用特徴生成部150は、2つ以上の音素についての第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する。第2話者識別用特徴生成部150は、第2話者識別用特徴生成手段の一例である。第2の話者識別用特徴は、話者の発話の全体の特徴を示す。一例では、2つ以上の音素についての第1の話者識別用特徴の総和が、第2の話者識別用特徴である。第2の話者識別用特徴を用いることにより、照合される音声データ同士の間で語句が部分的に相違する場合であっても、高精度な話者照合を実現できる。なお、第2話者識別用特徴生成部150が、識別器(図3)を用いて、発話全体の特徴を示す第2の話者識別用特徴を生成する具体例を、後で説明する。
 第2話者識別用特徴生成部150は、このように生成した第2の話者識別用特徴のデータを、照合装置10(図1)へ出力する。さらに、第2話者識別用特徴生成部150は、第2の話者識別用特徴のデータを、照合装置10以外の機器へ出力してもよい。
 (第1の話者識別用特徴および第2の話者識別用特徴)
 図3は、第1話者識別用特徴生成部140が、識別器を用いて、第1の話者識別用特徴を生成し、また第2話者識別用特徴生成部150が、発話全体の特徴を示す第2の話者識別用特徴を生成する処理の概要を示す説明図である。図3に示すように、識別器は、DNN(Deep Neural Network:深層ニューラルネットワーク)(1)からDNN(n)までを含んでいる。上述したように、nは、特定の言語における音素の数と対応している。
 第1話者識別用特徴生成部140が、第1の話者識別用特徴を生成するためのフェーズの前に、第1の入力データである音響特徴(F1,F2,...FL)および第2の入力データである音素識別情報(P1,P2,...PL)に基づいて、話者を識別できるように、DNN(1)~(n)の深層学習を完了している。
 具体的に、第1話者識別用特徴生成部140は、深層学習のフェーズにおいて、第1の入力データおよび第2の入力データをDNN(1)~(n)へ入力する。例えば、音素識別情報P1によって示される音素をa(aは1~nのいずれか)とする。この場合、第1話者識別用特徴生成部140は、DNN(1)~(n)のうち、音素aと対応するDNN(a)へ、第1の入力データF1および第2の入力データP1をともに入力する。続いて、第1話者識別用特徴生成部140は、DNN(a)からの出力結果と、教師データの識別結果の正解とを近づける(すなわち正答率を向上させる)ように、DNN(a)の各パラメータをそれぞれ更新する。第1話者識別用特徴生成部140は、所定の回数、あるいは、DNN(a)からの出力結果と正解との差分を表す指標値が閾値を下回るまで、DNN(a)の各パラメータをそれぞれ更新する処理を繰り返す。これで、DNN(a)の学習が完了する。同様にして、第1話者識別用特徴生成部140は、DNN(1)~(n)のそれぞれを学習させる。
 続いて、第1話者識別用特徴生成部140が、第1の話者識別用特徴を生成するためのフェーズにおいて、第1話者識別用特徴生成部140は、学習済のDNN(1)~(n)(以下、単にDNN(1)~(n)と記載する)に対し、第1の入力として、音響特徴(F1~FLのいずれか)を入力するとともに、第2の入力として、単一の音素から抽出された音素識別情報(P1~Pnのいずれか)を入力する。
 一例では、音響特徴Fは、N次元の特徴ベクトルであり、音素識別情報(P1,P2,...PL)は、M次元の特徴ベクトルである。N次元とM次元とは、同一であってもよいし、異なっていてもよい。この場合、第1話者識別用特徴生成部140は、音響特徴Fと、1つの音素識別情報(P1~PLのいずれか)とを結合して、得られたM+N次元の特徴ベクトルが、DNN(1)~(n)のうち、1つの音素識別情報(P1~PLのいずれか)が指し示す音素(ここではbとする)と対応する1つのDNN(b)に対して入力される。ここでの結合とは、N次元の特徴ベクトルである音響特徴Fの次元をMだけ拡張して、M次元の特徴ベクトルである音素識別情報Pの要素を、M+N次元の音響特徴F´における空白のM次元の要素とすることを意味する。
 第1話者識別用特徴生成部140は、DNN(b)の中間層から、第1の話者識別用特徴を抽出する。同様にして、第1話者識別用特徴生成部140は、第1の入力データおよび第2の入力データの各組((P1,F1)~(PL,FL))について、特徴を抽出する。このようにしてDNN(1)~(n)の中間層から抽出される特徴を、以下では、第1の話者識別用特徴S1~Sn(初期値は0あるいはゼロベクトル)と記載する。ただし、第1の入力データおよび第2の入力データの2つ以上の組が、同じDNN(m)(mは1からnのいずれか)へそれぞれ入力された場合、第1話者識別用特徴生成部140は、最初の入力時にDNN(m)の中間層(例えばプーリング層)から抽出した特徴を、第1の話者識別用特徴Smとする。あるいは、第1話者識別用特徴生成部140は、2つ以上の組のそれぞれから抽出された特徴の平均を、第1の話者識別用特徴としてもよい。一方、第1の入力データおよび第2の入力データのいずれの組も、DNN(m´)(m´は1からnのいずれか)へ入力されなかった場合、第1話者識別用特徴生成部140は、第1の話者識別用特徴Sm´を初期値0あるいはゼロベクトルのままとする。
 第1話者識別用特徴生成部140は、このようにして生成したn個の第1の話者識別用特徴(S1,S2,...Sn)のデータを、第2話者識別用特徴生成部150へ出力する。
 第2話者識別用特徴生成部150は、第1話者識別用特徴生成部140から、n個の第1の話者識別用特徴(S1,S2,...Sn)のデータを受信する。第2話者識別用特徴生成部150は、n個の第1の話者識別用特徴(S1,S2,...Sn)を合成することによって、第2の話者識別用特徴を得る。一例では、第2話者識別用特徴生成部150は、n個の第1の話者識別用特徴(S1,S2,...Sn)をすべて加算することによって、第2の話者識別用特徴を得る。この場合、第2の話者識別用特徴は、(S1+S2+・・・+Sn)となる。あるいは、第2話者識別用特徴生成部150は、n個の第1の話者識別用特徴(S1,S2,...Sn)を合成することによって一つの特徴ベクトルとし、話者の識別を学習済の識別器(例えばニューラルネットワーク)に対し、合成された特徴ベクトルを入力する。そして、第2話者識別用特徴生成部150は、合成された特徴ベクトルを入力した識別器から、第2の話者識別用特徴を得てもよい。
 以上のようにして、第1話者識別用特徴生成部140および第2話者識別用特徴生成部150は、上述の第1の話者識別用特徴、および、上述の第2の話者識別用特徴を得る。
 (音声処理装置100の動作)
 図4を参照して、本実施形態1に係わる音声処理装置100の動作を説明する。図4は、音声処理装置100の各部が実行する処理の流れを示すフローチャートである。
 図4に示すように、音響特徴抽出部130は、音声データから、発話に係る特徴を示す音響特徴を抽出する(S101)。音響特徴抽出部130は、音素識別部110および第1話者識別用特徴生成部140のそれぞれに対し、抽出した音響特徴のデータを出力する。
 音素識別部110は、音響特徴に基づいて、音声データに含まれる音素を識別する(S102)。音素識別部110は、音声データに含まれる音素の識別結果を示す音素識別情報を、第1話者識別用特徴生成部140へ出力する。
 第1話者識別用特徴生成部140は、音響特徴抽出部130から、音響特徴(図3ではF1,F2,...FL)のデータを受信する。また、第1話者識別用特徴生成部140は、音素識別部110から、音素識別情報(図3ではP1,P2,...PL)のデータを受信する。
 そして、第1話者識別用特徴生成部140は、受信した音響特徴(F1,F2,...FL)および音素識別情報(P1,P2,...PL)に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴(図3ではS1,S2,...Sn)を生成する(S103)。
 第1話者識別用特徴生成部140は、2つ以上の音素について生成した第1の話者識別用特徴(S1,S2,...Sn)のデータを、第2話者識別用特徴生成部150へ出力する。
 第2話者識別用特徴生成部150は、第1話者識別用特徴生成部140から、第1の話者識別用特徴(S1,S2,...Sn)のデータを受信する。第2話者識別用特徴生成部150は、2つ以上の音素についての第1の話者識別用特徴(S1,S2,...Sn)を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する(S104)。一例では、第2話者識別用特徴生成部150は、S1からSnまでの合計(S1+S2+・・・Sn)を、第2の話者識別用特徴として得る。なお、第2話者識別用特徴生成部150は、ここで説明した以外の任意の方法で、第1の話者識別用特徴から、第2の話者識別用特徴を得てもよい。
 以上で、本実施形態1に係わる音声処理装置100の動作は終了する。
 図1に示す音声認証システム1において、音声処理装置100は、上述した手順で、図1に示す登録音声データから、話者識別用特徴Aとして、第1の話者識別用特徴あるいは第2の話者識別用特徴を生成して、照合装置10へ出力する。また、音声処理装置100は、同様の手順で、図1に示す照合音声データから、話者識別用特徴Bとして、第1の話者識別用特徴あるいは第2の話者識別用特徴を生成して、照合装置10へ出力する。照合装置10は、登録音声データに基づく話者識別用特徴Aと、照合音声データに基づく話者識別用特徴Bとを照合して、本人確認結果(すなわち同一人物かそうではないか)を出力する。
 (変形例)
 図5を参照して、本実施形態1に係わる音声処理装置100の一変形例について説明する。図5は、本変形例に係わる音声処理装置100Aの構成を示すブロック図である。図5に示すように、音声処理装置100Aは、音素識別部110、音素選択部120、音響特徴抽出部130、第1話者識別用特徴生成部140、および第2話者識別用特徴生成部150を備えている。
 音素選択部120は、音声データに含まれる音素のうちの2つ以上の音素を、所与の条件にしたがい選択する。音素選択部120は、音素選択手段の一例である。音声データに含まれる音素のうち、所与の条件にしたがう音素が1つ以下である場合、以下で説明する処理は行われず、音声処理装置100Aは、動作を終了する。音声データに含まれる音素のうち、所与の条件にしたがう音素が2つ以上ある場合を、続いて説明する。
 音素選択部120は、選択した2つ以上の音素を示す選択情報を、第1話者識別用特徴生成部140へ出力する。
 本変形例では、第1話者識別用特徴生成部140は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された2つ以上の音素を示す選択情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成する。
 なお、音素選択部120および音素識別部110以外の音声処理装置100Aの他の構成要素が行う処理は、上述した音声処理装置100と共通である。
 本変形例の構成によれば、音素選択部120は、音声データに含まれる音素のうち、音素識別部110によって音素識別情報を抽出される対象となる2つ以上の音素を、所与の条件に基づいて選択する。そうすることで、登録音声データと照合音声データとを照合する際に、どちらの音声データからも、所与の選択条件にしたがい共通の音素が選択され、また共通の音素の特徴を示す音素識別情報から、話者識別用特徴が生成される。これにより、照合される音声データ同士の間で語句が部分的に相違する場合であっても、話者識別用特徴に基づいて、高精度に話者照合することができる。
 (本実施形態の効果)
 本実施形態の構成によれば、音響特徴抽出部130は、音声データから、発話に係る特徴を示す音響特徴を抽出し、音素識別部110は、音響特徴に基づいて、音声データに含まれる音素を識別し、第1話者識別用特徴生成部140は、音響特徴、および、音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成し、第2話者識別用特徴生成部150は、2つ以上の音素についての第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する。このように、第1の話者識別用特徴は、音素ごとに抽出される。そして、第2の話者識別用特徴は、それらの第1の話者識別用特徴を合成することによって得られる。したがって、照合される音声データ同士の間で語句が部分的に相違する場合であっても、第1の話者識別用特徴に基づいて、高精度に話者照合することができる。
 〔実施形態2〕
 図6~図8を参照して、音声処理装置200に関し、実施形態2として説明する。
 (音声処理装置200)
 図6を参照して、本実施形態2に係わる音声処理装置200の構成を説明する。図6は、音声処理装置200の構成を示すブロック図である。図6に示すように、音声処理装置200は、音素識別部210、音素選択部220、音響特徴抽出部230、および話者識別用特徴生成部240を備えている。
 音響特徴抽出部230は、音声データから、発話に係る特徴を示す音響特徴を抽出する。音響特徴抽出部230は、音素識別情報生成手段の一例である。
 一例では、音響特徴抽出部230は、入力デバイスから、音声データ(図1における照合音声データまたは登録音声データ)を取得する。
 音響特徴抽出部230は、音声データを高速フーリエ変換したのち、得られた音声データの部分から、音響特徴を抽出する。音響特徴は、それぞれN次元のベクトルである。
 例えば、音響特徴は、MFCC(Mel-Frequency Cepstrum Coefficients)またはLPC(linear predictive coding)係数、およびそれらの一次・二次回帰係数であってもよいし、フォルマント周波数または基本周波数であってもよい。あるいは、音響特徴は、音声データを周波数分析することによって得られる特徴量で構成された、N次元の特徴ベクトル(以下では、音響ベクトルと呼ぶ)であってよい。一例では、音響ベクトルは、入力デバイスから入力された音声データの周波数特性を示す。
 音響特徴抽出部230は、このようにして音声データから抽出した音響特徴のデータを、音素識別部210および話者識別用特徴生成部240のそれぞれへ出力する。
 音素識別部210は、音響特徴に基づいて、音声データに含まれる音素を識別する。音素識別部210は、音素識別手段の一例である。一例では、音素識別部210は、周知の隠れマルコフモデルまたはニューラルネットワークを用いて、単位時間ごとの音響特徴のデータを用いて、対応する音素を識別する。そして、音素識別部210は、音素の識別結果であるM個の尤度または事後確率を組み合わせて、M次元の音素ベクトルを生成する。一例では、Mは、特定の言語(発話されたことが想定される言語)に含まれる音素の数、またはその一部(例えば母音のみ)の音素の数と一致する。
 音素識別部210は、上述のようにして、単位時間ごとに、単一の音素を指し示す音素ベクトルを生成することを繰り返す。これにより、音素識別部210は、識別された音素を指し示す音素ベクトル(P1~PL)を含む長さL(Lは2以上の整数)の時系列データ(P1,P2,...PL)を生成する。長さLの時系列データ(P1,P2,...PL)は、音素識別部210が識別した音素を示す。音素ベクトル(P1~PL)を、以下では音素識別情報と呼ぶ。音素識別情報P1~PLは、それぞれ、特定の言語におけるn個の音素(nは2以上の整数)のいずれかを指し示す。
 音素識別部210は、音素識別部210が識別した音素を識別するための音素識別情報を、音素選択部220および話者識別用特徴生成部240へ出力する。
 音素選択部220は、音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する。音素選択部220は、音素選択手段の一例である。なお、所与の選択条件の具体例を、のちの実施形態において説明する。そして、音素選択部220は、所与の条件にしたがい選択された音素を示す選択情報を、話者識別用特徴生成部240へ出力する。
 話者識別用特徴生成部240は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者の発話の特徴を示す話者識別用特徴を生成する。話者識別用特徴生成部240は、話者識別用特徴生成手段の一例である。
 一例では、話者識別用特徴生成部240は、選択情報に基づいて、音声データに含まれる音素の中から、所与の条件にしたがい選択された音素を抽出する。具体的には、話者識別用特徴生成部240は、音素識別情報P1~PLによって識別されるL個の音素のうち、音素選択部220により選択されたK(Kは0以上L以下)個の音素(以下、P´1~P´Kと記載する)を選択する。なお、K=0の場合、話者識別用特徴生成部240は、話者識別用特徴を生成しない。あるいは、話者識別用特徴生成部240は、音響特徴のみを、DNNへ入力する。以下では、Kは1以上L以下である場合について説明する。
 話者識別用特徴生成部240は、選択されたK(Kは1以上L以下)個の音素についての音素識別情報(図7ではP´1,...P´K)の各々と、音響特徴(図7では(F´1...F´K))とに基づいて、話者識別用特徴(図7ではS)を生成する。
 例えば、話者識別用特徴生成部240は、非特許文献1に記載の方法を用いて、音素識別情報と、音響特徴とを結合し、識別器へ入力することによって、話者識別用特徴を生成することができる。話者識別用特徴は、話者の発話の特徴を示す。なお、話者識別用特徴生成部240が、識別器(図7)を用いて、話者識別用特徴を生成する具体例を、後で説明する。
 話者識別用特徴生成部240は、このように生成した話者識別用特徴のデータを、照合装置10(図1)へ出力する。さらに、話者識別用特徴生成部240は、話者識別用特徴のデータを、照合装置10以外の機器へ送信してもよい。
 (話者識別用特徴)
 図7は、話者識別用特徴生成部240が、識別器を用いて、話者識別用特徴を生成する処理の概要を示す説明図である。図7に示すように、識別器は、DNNを含んでいる。
 話者識別用特徴生成部240が話者識別用特徴を生成するためのフェーズの前に、DNNは、第1の入力である音響特徴(図7ではF´1~F´K)、および第2の入力である音素識別情報(図7ではP´1~P´K)に基づいて、話者を識別できるように、深層学習を完了している。
 具体的に、話者識別用特徴生成部240は、深層学習のフェーズにおいて、DNNへ教師データを入力し、DNNからの出力結果と、教師データの識別結果の正解とを近づける(すなわち正答率を向上させる)ように、DNNの各パラメータを更新する。話者識別用特徴生成部240は、所定の回数、あるいは、DNNからの出力結果と正解との差分を表す指標値が閾値を下回るまで、DNNの各パラメータを更新する処理を繰り返す。これで、DNNの学習が完了する。
 話者識別用特徴生成部240は、学習済のDNN(以下、単にDNNと記載する)に対し、第1の入力データとして、1つの音響特徴(F´1~F´Kのいずれか)を入力するとともに、第2の入力データとして、1つの音素識別情報(P´1~P´Kのいずれか)を入力する。
 一例では、K個の音響特徴(F´1~F´K)は、それぞれ、N次元の特徴ベクトルであり、K個の音素識別情報(P´1~P´K)は、それぞれ、M次元の特徴ベクトルである。N次元とM次元とは、同一であってもよいし、異なっていてもよい。
 より詳細には、話者識別用特徴生成部240は、1つの音響特徴F´k(kは1以上K以下)をM次元だけ拡張することによって、M+N次元の音響特徴F´´kを生成し、拡張したM次元の要素をすべて空とする。そして、話者識別用特徴生成部240は、音素識別情報P´kの要素を、音響特徴F´´kにおけるM次元の要素とする。この場合、第1の入力データと、第2の入力データとが結合されて、M+N次元の音響特徴F´´kが、DNNに対して入力される。そして、話者識別用特徴生成部240は、第1の入力データおよび第2の入力データを入力されたDNNの中間層から、話者識別用特徴Sを抽出する。
 以上のようにして、話者識別用特徴生成部240は、話者の発話の特徴を示す話者識別用特徴Sを得る。
 (音声処理装置200の動作)
 図8を参照して、本実施形態2に係わる音声処理装置200の動作を説明する。図8は、音声処理装置200の各部が実行する処理の流れを示すフローチャートである。
 図8に示すように、音響特徴抽出部230は、音声データから、発話に係る特徴を示す音響特徴を抽出する(S201)。音響特徴抽出部230は、音素識別部210および話者識別用特徴生成部240のそれぞれに対し、抽出した音響特徴のデータを出力する。
 音素識別部210は、音響特徴に基づいて、音声データに含まれる音素を識別する(S202)。音素識別部210は、音声データに含まれる音素の識別結果を、音素選択部220および話者識別用特徴生成部240へ出力する。
 音素選択部220は、音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する(S203)。音素選択部220は、選択された音素を示す選択情報を、話者識別用特徴生成部240へ出力する。
 話者識別用特徴生成部240は、音響特徴抽出部230から、音響特徴(図7ではF´1~F´K)のデータを受信する。また、話者識別用特徴生成部240は、音素識別部210から、音声データに含まれる音素を識別するための音素識別情報(図7ではP´1~P´K)を受信する。加えて、話者識別用特徴生成部240は、音素選択部220から、選択された音素を示す選択情報を受信する。
 話者識別用特徴生成部240は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者の発話の特徴を示す話者識別用特徴(図7ではS)を生成する(S204)。
 話者識別用特徴生成部240は、生成した話者識別用特徴のデータを、照合装置10(図1)へ出力する。
 以上で、本実施形態2に係わる音声処理装置200の動作は終了する。
 図1に示す音声認証システム1において、音声処理装置200は、上述した手順で、図1に示す登録音声データおよび照合音声データから、それぞれ、話者識別用特徴(図1では話者識別用特徴(A,B))を生成して、照合装置10へ出力する。照合装置10は、登録音声データに基づく話者識別用特徴Aと、照合音声データに基づく話者識別用特徴Bとを照合して、本人確認結果(すなわち同一人物かそうではないか)を出力する。
 (本実施形態の効果)
 本実施形態の構成によれば、音響特徴抽出部230は、音声データから、発話に係る特徴を示す音響特徴を抽出する。音素識別部210は、音響特徴に基づいて、音声データに含まれる音素を識別する。音素選択部220は、音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する。話者識別用特徴生成部240は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者の発話の特徴を示す話者識別用特徴を生成する。したがって、登録音声データと照合音声データとを照合する際に、どちらの音声データからも、所与の選択条件にしたがい共通の音素が選択され、また音響特徴および音素識別情報に加え、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者識別用特徴が生成される。これにより、照合される音声データ同士の間で語句が部分的に相違する場合であっても、話者識別用特徴に基づいて、高精度に話者照合することができる。
 〔実施形態3〕
 図9を参照して、音声処理装置300に関し、実施形態3として説明する。本実施形態3では、音素選択部220は、音声データに含まれる音素のうち、登録された音声データに含まれる2つ以上の音素と同一の2つ以上の音素を選択する。
 (音声処理装置300)
 図9を参照して、本実施形態3に係わる音声処理装置300の構成を説明する。図9は、音声処理装置300の構成を示すブロック図である。図9に示すように、音声処理装置300は、音素識別部210、音素選択部220、音響特徴抽出部230、および話者識別用特徴生成部240を備えている。加えて、音声処理装置300は、テキスト取得部350をさらに備えている。
 テキスト取得部350は、予め準備された所定のテキストのデータを取得する。テキスト取得部350は、テキスト取得手段の一例である。所定のテキストのデータは、図示しないテキストDBに格納されていてよい。あるいは、所定のテキストのデータは、入力デバイスによって入力され、図示しない一時記憶部に格納されてもよい。テキスト取得部350は、所定のテキストのデータを、音素選択部220へ出力する。
 本実施形態3では、音素選択部220は、テキスト取得部350から、所定のテキストのデータを受信する。そして、音素選択部220は、音声データに含まれる音素のうち、所定のテキストに含まれる1つ以上の文字と対応する音素を選択する。一例では、音素選択部220は、音素と文字との対応関係を示すテーブルに基づいて、音素を選択する。
 なお、音素選択部220およびテキスト取得部350以外の音声処理装置300の構成要素については、前記実施形態2の説明を引用することとし、本実施形態3での説明を省略する。
 (本実施形態の効果)
 本実施形態の構成によれば、音響特徴抽出部230は、音声データから、発話に係る特徴を示す音響特徴を抽出する。音素識別部210は、音響特徴に基づいて、音声データに含まれる音素を識別する。音素選択部220は、音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する。話者識別用特徴生成部240は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者の発話の特徴を示す話者識別用特徴を生成する。したがって、登録音声データと照合音声データとを照合する際に、どちらの音声データからも、所与の選択条件にしたがい共通の音素が選択され、また音響特徴および音素識別情報に加え、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者識別用特徴が生成される。これにより、照合される音声データ同士の間で語句が部分的に相違する場合であっても、話者識別用特徴に基づいて、高精度に話者照合することができる。
 さらに、本実施形態の構成によれば、テキスト取得部350は、予め準備された所定のテキストのデータを取得する。音素選択部220は、音声データに含まれる音素のうち、所定のテキストに含まれる1つ以上の文字と対応する音素を選択する。そのため、話者に所定のテキストの全部または一部を読み上げさせることで、話者照合を容易に高精度に行うことができる。
 〔実施形態4〕
 図10を参照して、音声処理装置400に関し、実施形態4として説明する。本実施形態4では、音素選択部220は、音声データに含まれる音素のうち、所定のテキストに含まれる2つ以上の文字と対応する2つ以上の音素を選択する。
 (音声処理装置400)
 図10を参照して、本実施形態4に係わる音声処理装置400の構成を説明する。図10は、音声処理装置400の構成を示すブロック図である。図10に示すように、音声処理装置400は、音素識別部210、音素選択部220、音響特徴抽出部230、および話者識別用特徴生成部240を備えている。加えて、音声処理装置400は、登録データ取得部450をさらに備えている。
 登録データ取得部450は、登録された音声データを取得する。登録データ取得部450は、登録データ取得手段の一例である。一例では、登録データ取得部450は、DB(図1)から、登録された音声データ(図1では登録音声データ)を取得する。登録データ取得部450は、登録された音声データを、音素選択部220へ出力する。
 本実施形態4では、音素選択部220は、登録データ取得部450から、登録された音声データを受信する。そして、音素選択部220は、音声データに含まれる音素のうち、登録された音声データに含まれる1つ以上の音素と同一の音素を選択する。
 なお、音素選択部220および登録データ取得部450以外の音声処理装置400の構成要素については、前記実施形態2の説明を引用することとし、本実施形態4での説明を省略する。
 (本実施形態の効果)
 本実施形態の構成によれば、音響特徴抽出部230は、音声データから、発話に係る特徴を示す音響特徴を抽出する。音素識別部210は、音響特徴に基づいて、音声データに含まれる音素を識別する。音素選択部220は、音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する。話者識別用特徴生成部240は、音響特徴、音声データに含まれる音素の識別結果を示す音素識別情報、および、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者の発話の特徴を示す話者識別用特徴を生成する。したがって、登録音声データと照合音声データとを照合する際に、どちらの音声データからも、所与の選択条件にしたがい共通の音素が選択され、また音響特徴および音素識別情報に加え、所与の条件にしたがい選択された音素を示す選択情報に基づいて、話者識別用特徴が生成される。これにより、照合される音声データ同士の間で語句が部分的に相違する場合であっても、話者識別用特徴に基づいて、高精度に話者照合することができる。
 さらに、本実施形態の構成によれば、登録データ取得部450は、登録された音声データを取得する。音素選択部220は、音声データに含まれる音素のうち、登録された音声データに含まれる1つ以上の音素と同一の音素を選択する。そのため、登録時と照合時との間で、話者に同じまたは部分的に等しいフレーズあるいは文章を発話させることで、話者照合を容易に高精度に行うことができる。
 〔ハードウェア構成〕
 前記実施形態1~4で説明した音声処理装置100(100A)、200、300、400の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図11に示すような情報処理装置900により実現される。図11は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
 図11に示すように、情報処理装置900は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)901
  ・ROM(Read Only Memory)902
  ・RAM(Random Access Memory)903
  ・RAM903にロードされるプログラム904
  ・プログラム904を格納する記憶装置905
  ・記録媒体906の読み書きを行うドライブ装置907
  ・通信ネットワーク909と接続する通信インタフェース908
  ・データの入出力を行う入出力インタフェース910
  ・各構成要素を接続するバス911
 前記実施形態1~4で説明した音声処理装置100(100A)、200、300、400の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
 上記の構成によれば、前記実施形態1~4において説明した音声処理装置100(100A)、200、300、400が、ハードウェアとして実現される。したがって、前記実施形態1~4において説明した効果と同様の効果を奏することができる。
 〔付記〕
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
 前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
 前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成する第1話者識別用特徴生成手段と、
 2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する第2話者識別用特徴生成手段と
 を備えた音声処理装置。
 (付記2)
 前記音声データに含まれる音素のうちの2つ以上の音素を、所与の条件にしたがい選択する音素選択手段をさらに備え、
 前記第1話者識別用特徴生成手段は、前記音響特徴、前記音声データに含まれる2つ以上の音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された2つ以上の音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する
 ことを特徴とする付記1に記載の音声処理装置。
 (付記3)
 前記音素選択手段は、前記音声データに含まれる音素のうち、登録された音声データに含まれる2つ以上の音素と同一の2つ以上の音素を選択する
 ことを特徴とする付記2に記載の音声処理装置。
 (付記4)
 前記音素選択手段は、前記音声データに含まれる音素のうち、所定のテキストに含まれる2つ以上の文字と対応する2つ以上の音素を選択する
 ことを特徴とする付記2に記載の音声処理装置。
 (付記5)
 前記第1話者識別用特徴生成手段は、
 前記音響特徴と、単一の音素から抽出された音素識別情報との組ごとに、前記第1の話者識別用特徴を生成し、
 前記第2話者識別用特徴生成手段は、
 複数の前記組について生成した前記第1の話者識別用特徴同士を加算することによって、前記発話全体の特徴を示す第2の話者識別用特徴を生成する
 ことを特徴とする付記1から4のいずれか1項に記載の音声処理装置。
 (付記6)
 音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
 前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
 前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する音素選択手段と、
 前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する話者識別用特徴生成手段と
 を備えた音声処理装置。
 (付記7)
 予め準備された所定のテキストのデータを取得するテキスト取得手段をさらに備え、
 前記音素選択手段は、前記音声データに含まれる音素のうち、前記所定のテキストに含まれる1つ以上の文字と対応する音素を選択する
 ことを特徴とする付記6に記載の音声処理装置。
 (付記8)
 登録された音声データを取得する登録データ取得手段をさらに備え、
 前記音素選択手段は、前記音声データに含まれる音素のうち、前記登録された音声データに含まれる1つ以上の音素と同一の音素を選択する
 ことを特徴とする付記6に記載の音声処理装置。
 (付記9)
 音声データから、発話に係る特徴を示す音響特徴を抽出し、
 前記音響特徴に基づいて、前記音声データに含まれる音素を識別し、
 前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成し、
 2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する
 ことを含む音声処理方法。
 (付記10)
 音声データから、発話に係る特徴を示す音響特徴を抽出することと、
 前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、
 前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成することと、
 2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成することと
 をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
 (付記11)
 音声データから、発話に係る特徴を示す音響特徴を抽出し、
 前期音響特徴に基づいて、前記音声データに含まれる音素を識別し、
 前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択し、
 前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する
 ことを含む音声処理方法。
 (付記12)
 音声データから、発話に係る特徴を示す音響特徴を抽出することと、
 前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、
 前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択することと、
 前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成することと
 をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
 (付記13)
 付記1から5のいずれか1項に記載の音声処理装置と、
 前記音声処理装置が生成した前記第1の話者識別用特徴または前記第2の話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置と
 を備えた音声認証システム。
 (付記14)
 付記5から8のいずれか1項に記載の音声処理装置と、
 前記音声処理装置が生成した前記話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置と
 を備えた音声認証システム。
 本発明は、一例では、入力デバイスを用いて入力された音声データを分析することによって、本人確認を行う音声認証システムに利用することができる。
   1 音声認証システム
  10 照合装置
 100 音声処理装置
100A 音声処理装置
 110 音素識別部
 120 音素選択部
 130 音響特徴抽出部
 140 第1話者識別用特徴生成部
 150 第2話者識別用特徴生成部
 200 音声処理装置
 210 音素識別部
 220 音素選択部
 230 音響特徴抽出部
 240 話者識別用特徴生成部
 300 音声処理装置
 350 テキスト取得部
 400 音声処理装置
 450 登録データ取得部

Claims (14)

  1.  音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
     前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
     前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成する第1話者識別用特徴生成手段と、
     2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する第2話者識別用特徴生成手段と
     を備えた音声処理装置。
  2.  前記音声データに含まれる音素のうちの2つ以上の音素を、所与の条件にしたがい選択する音素選択手段をさらに備え、
     前記第1話者識別用特徴生成手段は、前記音響特徴、前記音声データに含まれる2つ以上の音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された2つ以上の音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する
     ことを特徴とする請求項1に記載の音声処理装置。
  3.  前記音素選択手段は、前記音声データに含まれる音素のうち、登録された音声データに含まれる2つ以上の音素と同一の2つ以上の音素を選択する
     ことを特徴とする請求項2に記載の音声処理装置。
  4.  前記音素選択手段は、前記音声データに含まれる音素のうち、所定のテキストに含まれる2つ以上の文字と対応する2つ以上の音素を選択する
     ことを特徴とする請求項2に記載の音声処理装置。
  5.  前記第1話者識別用特徴生成手段は、
     前記音響特徴と、単一の音素から抽出された音素識別情報との組ごとに、前記第1の話者識別用特徴を生成し、
     前記第2話者識別用特徴生成手段は、
     複数の前記組について生成した前記第1の話者識別用特徴同士を加算することによって、前記発話全体の特徴を示す第2の話者識別用特徴を生成する
     ことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6.  音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
     前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
     前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する音素選択手段と、
     前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する話者識別用特徴生成手段と
     を備えた音声処理装置。
  7.  予め準備された所定のテキストのデータを取得するテキスト取得手段をさらに備え、
     前記音素選択手段は、前記音声データに含まれる音素のうち、前記所定のテキストに含まれる1つ以上の文字と対応する音素を選択する
     ことを特徴とする請求項6に記載の音声処理装置。
  8.  登録された音声データを取得する登録データ取得手段をさらに備え、
     前記音素選択手段は、前記音声データに含まれる音素のうち、前記登録された音声データに含まれる1つ以上の音素と同一の音素を選択する
     ことを特徴とする請求項6に記載の音声処理装置。
  9.  音声データから、発話に係る特徴を示す音響特徴を抽出し、
     前記音響特徴に基づいて、音声データに含まれる音素を識別し、 前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成し、
     2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成する
     ことを含む音声処理方法。
  10.  音声データから、発話に係る特徴を示す音響特徴を抽出することと、
     前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、
     前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第1の話者識別用特徴を生成することと、
     2つ以上の音素のそれぞれについての前記第1の話者識別用特徴を合成することにより、発話全体の特徴を示す第2の話者識別用特徴を生成することと
     をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
  11.  音声データから、発話に係る特徴を示す音響特徴を抽出し、
     前記音響特徴に基づいて、前記音声データに含まれる音素を識別し、
     前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択し、
     前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する
     ことを含む音声処理方法。
  12.  音声データから、発話に係る特徴を示す音響特徴を抽出することと、
     前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、
     前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択することと、
     
     前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成することと
     をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
  13.  請求項1から5のいずれか1項に記載の音声処理装置と、
     前記音声処理装置が生成した前記第1の話者識別用特徴または前記第2の話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置と
     を備えた音声認証システム。
  14.  請求項6から8のいずれか1項に記載の音声処理装置と、
     前記音声処理装置が生成した前記話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置と
     を備えた音声認証システム。
PCT/JP2020/030542 2020-08-11 2020-08-11 音声処理装置、音声処理方法、記録媒体、および音声認証システム WO2022034630A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022542518A JPWO2022034630A5 (ja) 2020-08-11 音声処理装置、音声処理方法、プログラム、および音声認証システム
PCT/JP2020/030542 WO2022034630A1 (ja) 2020-08-11 2020-08-11 音声処理装置、音声処理方法、記録媒体、および音声認証システム
US18/019,126 US20230317085A1 (en) 2020-08-11 2020-08-11 Audio processing device, audio processing method, recording medium, and audio authentication system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/030542 WO2022034630A1 (ja) 2020-08-11 2020-08-11 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Publications (1)

Publication Number Publication Date
WO2022034630A1 true WO2022034630A1 (ja) 2022-02-17

Family

ID=80247784

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/030542 WO2022034630A1 (ja) 2020-08-11 2020-08-11 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Country Status (2)

Country Link
US (1) US20230317085A1 (ja)
WO (1) WO2022034630A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61180297A (ja) * 1985-02-06 1986-08-12 株式会社東芝 話者照合装置
JPH11184492A (ja) * 1997-12-22 1999-07-09 Toshiba Corp 話者認識装置及びその方法
JP2006017936A (ja) * 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61180297A (ja) * 1985-02-06 1986-08-12 株式会社東芝 話者照合装置
JPH11184492A (ja) * 1997-12-22 1999-07-09 Toshiba Corp 話者認識装置及びその方法
JP2006017936A (ja) * 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム

Also Published As

Publication number Publication date
JPWO2022034630A1 (ja) 2022-02-17
US20230317085A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
JP6437581B2 (ja) 話者適応型の音声認識
JP5768093B2 (ja) 音声処理システム
JP5106371B2 (ja) 話認認証の検証のための方法および装置、話者認証システム
CN110706714B (zh) 说话者模型制作系统
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
WO2007117814A2 (en) Voice signal perturbation for speech recognition
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
Asda et al. Development of Quran reciter identification system using MFCC and neural network
Kadyan et al. In domain training data augmentation on noise robust Punjabi Children speech recognition
Erokyar Age and gender recognition for speech applications based on support vector machines
Ozaydin Design of a text independent speaker recognition system
Shahamiri et al. An investigation towards speaker identification using a single-sound-frame
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
WO2022034630A1 (ja) 音声処理装置、音声処理方法、記録媒体、および音声認証システム
Dong et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion
Das et al. Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions.
Su Combining speech and speaker recognition: A joint modeling approach
GB2558629B (en) Speaker-adaptive speech recognition
Raab et al. Multilingual weighted codebooks for non-native speech recognition
Tang et al. Deep neural network trained with speaker representation for speaker normalization
Samarakoon et al. Multi-Attribute Factorized Hidden Layer Adaptation for DNN Acoustic Models.
Yogapriya et al. Speech Based Access for Agricultural Commodity Prices in Tamil

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20949492

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022542518

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20949492

Country of ref document: EP

Kind code of ref document: A1