WO2021171956A1 - 話者識別装置、話者識別方法、及び、プログラム - Google Patents

話者識別装置、話者識別方法、及び、プログラム Download PDF

Info

Publication number
WO2021171956A1
WO2021171956A1 PCT/JP2021/004224 JP2021004224W WO2021171956A1 WO 2021171956 A1 WO2021171956 A1 WO 2021171956A1 JP 2021004224 W JP2021004224 W JP 2021004224W WO 2021171956 A1 WO2021171956 A1 WO 2021171956A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
utterance
emotion
unit
feature amount
Prior art date
Application number
PCT/JP2021/004224
Other languages
English (en)
French (fr)
Inventor
勝統 大毛
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2022503218A priority Critical patent/JPWO2021171956A1/ja
Priority to CN202180013727.1A priority patent/CN115104152A/zh
Publication of WO2021171956A1 publication Critical patent/WO2021171956A1/ja
Priority to US17/883,972 priority patent/US20220383880A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • This disclosure relates to a speaker identification device, a speaker identification method, and a program.
  • the speaker identification technology is based on the similarity between the feature amount calculated from the registered utterance, which is the utterance of each speaker to be registered, and the feature amount calculated from the evaluation utterance, which is the utterance of the unknown speaker to be identified. , It is a technique for estimating which speaker's registered utterance is the evaluation utterance (for example, Patent Document 1).
  • Patent Document 1 as a speaker identification technique, the speaker of the evaluation utterance is identified by using the vector similarity between the speaker feature vector in the registered utterance and the speaker feature vector in the evaluation utterance for each registered speaker.
  • the technology to be used is disclosed.
  • the identification accuracy will be affected. Specifically, if the emotions included in the registered utterance and the emotions included in the evaluation utterance are different, the accuracy of speaker identification is lowered due to the intonation fluctuation associated with the emotions included in the evaluation utterance.
  • the conventional speaker identification technique as disclosed in Patent Document 1, the similarity between the registered utterance and the evaluation utterance is calculated and evaluated without considering the emotions included in the evaluation utterance. Identify the speaker of the utterance. Therefore, the conventional speaker identification technique may not have sufficient accuracy to identify the speaker of the evaluation utterance.
  • the present disclosure has been made in view of the above circumstances, and is a speaker identification device that can improve the accuracy of speaker identification even if the evaluation utterance, that is, the utterance to be identified includes the emotion of the speaker.
  • the purpose is to provide a person identification method and a program.
  • the speaker identification device is a speaker identification device that identifies a speaker of utterance data indicating the voice of the utterance to be identified, and uses a learned DNN (Deep Neural Network). Calculated from the utterance data using an emotion estimator that estimates the emotion contained in the voice of the utterance indicated by the utterance data and the estimation result of the emotion estimator from the acoustic feature amount calculated from the utterance data. It is provided with a speaker identification processing unit that outputs a score for identifying the speaker of the utterance data from the acoustic feature amount.
  • a learned DNN Deep Neural Network
  • the speaker identification device and the like of the present disclosure it is possible to improve the accuracy of speaker identification even if the utterance of the identification target includes the emotion of the speaker.
  • FIG. 1 is a block diagram showing an example of the configuration of the speaker identification system according to the embodiment.
  • FIG. 2 is a block diagram showing another example of the configuration of the speaker identification system according to the embodiment.
  • FIG. 3 is a block diagram showing an example of a detailed configuration of the pretreatment unit according to the embodiment.
  • FIG. 4 is a block diagram showing an example of a detailed configuration of the speaker identification device according to the embodiment.
  • FIG. 5 is a diagram showing an example of the configuration of the emotion estimator according to the embodiment.
  • FIG. 6 is a diagram showing an example of the configuration of the speaker classifier according to the embodiment.
  • FIG. 7 is a diagram showing an example of the configuration of the speaker feature amount extraction unit included in the speaker classifier according to the embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of the speaker identification system according to the embodiment.
  • FIG. 2 is a block diagram showing another example of the configuration of the speaker identification system according to the embodiment.
  • FIG. 3 is a block diagram showing an example
  • FIG. 8 is a flowchart showing an outline of the operation of the speaker identification device according to the embodiment.
  • FIG. 9 is a block diagram showing an example of a detailed configuration of the speaker identification device according to the first modification of the embodiment.
  • FIG. 10 is a block diagram showing an example of a detailed configuration of the speaker identification device according to the second modification of the embodiment.
  • FIG. 11 is a diagram showing an example of processing of the speaker identification device according to the second modification of the embodiment.
  • FIG. 12 is a block diagram showing an example of a detailed configuration of the speaker identification device according to the third modification of the embodiment.
  • the speaker identification device is a speaker identification device that identifies a speaker of utterance data indicating the voice of the utterance to be identified, and uses a learned DNN (Deep Neural Network). Calculated from the utterance data using an emotion estimator that estimates the emotion contained in the voice of the utterance indicated by the utterance data and the estimation result of the emotion estimator from the acoustic feature amount calculated from the utterance data. It is provided with a speaker identification processing unit that outputs a score for identifying the speaker of the utterance data from the acoustic feature amount.
  • a learned DNN Deep Neural Network
  • the accuracy of speaker identification can be improved even if the utterance of the identification target includes the emotion of the speaker.
  • the speaker identification processing unit can identify the speaker of the voice of the speech indicated by the speech data from the input acoustic feature amount.
  • the speaker feature amount extraction unit that extracts the speaker feature amount, the first speaker feature amount extracted by the speaker feature amount extraction unit, and the second speaker feature amount stored in the storage unit.
  • a plurality of speaker classifiers having a similarity calculation unit for calculating the similarity of the second speaker feature amount capable of identifying each voice including one emotion of the registered speaker to be identified, and the plurality of speakers.
  • a second speaker feature amount that is one of the speaker classifiers of the above and can identify each voice including one emotion of the registered speaker according to the emotion indicated by the estimation result.
  • the speaker discriminator selected by the discriminator selection unit is provided with a discriminator selection unit for selecting a speaker discriminator that stores By inputting, the similarity may be calculated and output as the score.
  • the speaker identification processing unit includes a speaker feature amount extraction unit that extracts a first speaker feature amount capable of identifying the speaker of the voice of the speech indicated by the speech data from the acoustic feature amount.
  • the second speaker feature amount stored in the storage unit and capable of identifying each voice including the emotion of one of the registered speakers to be identified is indicated by the estimation result.
  • a correction unit that corrects to a third speaker feature amount that can identify each voice containing the one emotion according to the emotion, the extracted first speaker feature amount, and a third corrected by the correction unit.
  • a similarity calculation unit that calculates the similarity with the speaker feature amount and outputs the calculated similarity as the score may be provided.
  • the speaker identification processing unit extracts a speaker feature amount extraction unit that extracts a first speaker feature amount capable of identifying the speaker of the voice of the speech indicated by the speech data from the acoustic feature amount, and an extraction unit.
  • a second speaker who can identify each of the first speaker feature amount and the second speaker feature amount stored in the storage unit and the voice including one emotion of the registered speaker to be identified.
  • a similarity calculation unit that calculates the similarity with the feature amount, and a reliability imparting unit that weights the calculated similarity according to the emotion indicated by the estimation result and outputs it as the score.
  • the reliability-imparting unit may give the largest weight to the similarity calculated when the one emotion and the emotion indicated by the estimation result match.
  • the acoustic feature amount is a plurality of utterance data acquired by the preprocessing unit by dividing the entire utterance data indicating the voice of one speaker's utterance in a predetermined period into time series for each identification unit.
  • Each of the plurality of utterance data estimated by the emotion estimator has the same degree of similarity to each of the plurality of utterance data calculated by the similarity calculation unit.
  • the score may be output as the score by giving a weight to the data according to the emotion indicated by the estimation result.
  • the speaker identification device further uses an overall score, which is an arithmetic mean score of the scores for each of the plurality of utterance data output by the reliability imparting unit, to obtain the overall utterance data.
  • an overall score which is an arithmetic mean score of the scores for each of the plurality of utterance data output by the reliability imparting unit, to obtain the overall utterance data.
  • a speaker identification unit for identifying a speaker may be provided, and the speaker identification unit may identify the speaker of the overall utterance by using an overall score equal to or higher than a threshold value among the overall scores.
  • the speaker identification processing unit extracts a speaker feature amount extraction unit that extracts a first speaker feature amount capable of identifying the speaker of the voice of the speech indicated by the speech data from the acoustic feature amount, and an extraction unit.
  • a second speaker who can identify each of the first speaker feature amount and the second speaker feature amount stored in the storage unit and the voice including one emotion of the registered speaker to be identified.
  • a similarity calculation unit that calculates the similarity with the feature amount, and a reliability imparting unit that assigns the calculated similarity according to the emotion indicated by the estimation result and outputs it as the score. You may prepare.
  • the speaker identification device may further include a speaker identification unit that identifies the speaker of the utterance data by using the score whose reliability is equal to or higher than the threshold value.
  • the speaker feature amount extraction unit may extract the first speaker feature amount from the acoustic feature amount by using the learned DNN.
  • the speaker identification method is a speaker identification method for identifying the speaker of the utterance data indicating the voice of the utterance to be identified, and is calculated from the utterance data using the learned DNN.
  • the acoustic feature amount calculated from the utterance data using the emotion estimation step for estimating the emotion included in the voice of the utterance indicated by the utterance data and the estimation result in the emotion estimation step from the calculated acoustic feature amount. Includes a speaker identification processing step that outputs a score for identifying the speaker of the utterance data.
  • the program according to one aspect of the present disclosure is a program that causes a computer to execute a speaker identification method for identifying a speaker of utterance data indicating the utterance of the utterance to be identified, and uses a learned DNN. Calculated from the utterance data using the emotion estimation step for estimating the emotion included in the utterance voice indicated by the utterance data and the estimation result in the emotion estimation step from the acoustic feature amount calculated from the utterance data.
  • a computer is made to execute a speaker identification processing step of outputting a score for identifying a speaker of the utterance data from the acoustic feature amount.
  • FIG. 1 is a block diagram showing an example of the configuration of the speaker identification system 1 according to the present embodiment.
  • FIG. 2 is a block diagram showing another example of the configuration of the speaker identification system 1 according to the present embodiment.
  • the speaker identification system 1 is used to identify the speaker of the utterance data indicating the voice of the utterance that is the utterance to be identified and includes the emotion of the speaker.
  • the speaker identification system 1 includes a preprocessing unit 10 and a speaker identification device 11. As shown in FIG. 2, the speaker identification system 1 may further include a speaker identification unit 14, but this is not an essential configuration. Hereinafter, each component will be described.
  • FIG. 3 is a block diagram showing an example of a detailed configuration of the pretreatment unit 10 according to the present embodiment.
  • the preprocessing unit 10 acquires utterance data indicating the voice of the utterance to be identified, and outputs the acoustic feature amount calculated from the acquired utterance data to the speaker identification device 11.
  • the preprocessing unit 10 includes a voice acquisition unit 101 and an acoustic feature amount calculation unit 102, as shown in FIG.
  • the voice acquisition unit 101 is composed of, for example, a microphone, and acquires the voice of the speaker's utterance.
  • the voice acquisition unit 101 converts the acquired voice into a voice signal, detects the utterance section which is the uttered section, cuts out the utterance section, and calculates the utterance data indicating the utterance voice obtained by the acoustic feature amount calculation unit 102. Output to.
  • the voice acquisition unit 101 acquires a plurality of utterance data by dividing the entire utterance data indicating the utterance of one speaker in a predetermined period into time series for each identification unit, and the acoustic feature amount calculation unit 102. It may be output to.
  • the identification unit is, for example, 3 to 4 seconds, and may be the above-mentioned utterance section.
  • the acoustic feature amount calculation unit 102 calculates the acoustic feature amount for the spoken voice from the voice signal of the utterance section, that is, the utterance data output by the voice acquisition unit 101.
  • the acoustic feature amount calculation unit 102 calculates MFCC (Mel Frequency Cepstral Coefficient), which is the feature amount of the spoken voice, as the acoustic feature amount from the utterance data output by the voice acquisition unit 101.
  • MFCC is a feature quantity that represents the vocal tract characteristics of the speaker, and is also commonly used in speech recognition. More specifically, MFCC is an acoustic feature amount obtained by analyzing the frequency spectrum of speech based on human auditory characteristics.
  • the acoustic feature amount calculation unit 102 is not limited to the case of calculating the MFCC as the acoustic feature amount from the utterance data, and may calculate the utterance voice signal obtained by applying the mel filter bank as the acoustic feature amount. , The spectrogram of the spoken voice signal may be calculated as an acoustic feature amount.
  • the speaker identification device 11 is realized by, for example, a computer including a processor (microprocessor), a memory, a communication interface, and the like.
  • the speaker identification device 11 may be included in the server and operated, or a part of the configuration of the speaker identification device 11 may be included in the cloud server and operated.
  • the speaker identification device 11 performs a process for identifying the speaker of the utterance data indicating the voice of the evaluation utterance, that is, the utterance to be identified. More specifically, the speaker identification device 11 outputs a score indicating the degree of similarity between the first speaker feature amount of the evaluation utterance and the second speaker feature amount of the registered utterance for each registered speaker as the identification result. do.
  • the evaluation utterance that is, the utterance to be identified according to the present embodiment, includes the emotion of the speaker.
  • FIG. 4 is a block diagram showing an example of a detailed configuration of the speaker identification device 11 according to the present embodiment.
  • the speaker identification device 11 includes an emotion estimator 12 and a speaker identification processing unit 13 as shown in FIGS. 1 and 4.
  • the emotion estimator 12 estimates the emotion included in the utterance voice indicated by the utterance data from the acoustic features calculated from the utterance data using the learned DNN (Deep Neural Network).
  • DNN Deep Neural Network
  • CNN Convolution Neural Networks
  • a fully coupled NN Neral Network
  • TDNN Time Delay Neural Network
  • FIG. 5 is a diagram showing an example of the configuration of the emotion estimator 12 according to the present embodiment.
  • the emotion estimator 12 includes, for example, a frame connection processing unit 121 and a DNN 122, as shown in FIG.
  • the frame connection processing unit 121 connects a plurality of frames of MFCC, which are acoustic features output from the preprocessing unit 10, and outputs them to the input layer of the DNN 122.
  • the MFCC is composed of a plurality of frames having x (x is a positive integer) -dimensional feature quantity for one frame.
  • the frame connection processing unit 121 connects 50 frames of MFCC parameters composed of 24-dimensional / frame features to generate a 1200-dimensional vector, and outputs the vector to the input layer of the DNN 122.
  • the DNN 122 When a plurality of frames of connected MFCCs are input, the DNN 122 outputs the emotion label having the highest probability as the estimation result of the emotion estimator 12.
  • the DNN 122 is a neural network including an input layer, a plurality of intermediate layers, and an output layer, and stores teacher data stored in the storage unit 123, that is, teacher voice data including emotions to be estimated. Learned using.
  • the input layer is composed of, for example, 1200 nodes, and a 1200-dimensional vector generated by connecting 50 frames of MFCC parameters consisting of 24-dimensional / frame features is input.
  • the output layer consists of nodes that output emotion labels such as calm, anger, laughter, and sadness, and outputs the emotion label with the highest probability.
  • the plurality of intermediate layers are composed of, for example, two or three intermediate layers.
  • the speaker identification processing unit 13 uses the estimation result of the emotion estimator 12 to output a score for identifying the speaker of the utterance data from the acoustic features calculated from the utterance data.
  • the speaker identification processing unit 13 includes a classifier selection unit 131 and a plurality of speaker classifiers 132, as shown in FIG.
  • Each of the plurality of speaker classifiers 132 is a speaker classifier 132k (k is a natural number) corresponding to one emotion.
  • One emotion is one of, for example, calmness, anger, laughter, sadness, and so on.
  • the plurality of speaker classifiers 132 are composed of the speaker classifier 132a, the speaker classifier 132b, and so on.
  • the speaker classifier 132a corresponds calmly as one emotion
  • the speaker classifier 132b corresponds to laughter as one emotion.
  • the speaker classifier 132k selected by the classifier selection unit 131 calculates the similarity by inputting the acoustic feature amount calculated from the utterance data, and uses it as a score. Output. It should be noted that none of the plurality of speaker classifiers 132 may be selected by the classifier selection unit 131, and in FIG. 4, it is expressed that "no selection" may be selected by the classifier selection unit 131. ..
  • the speaker classifier 132k As an example of the configuration of the speaker classifier 132k, the speaker classifier 132b corresponding to laughter will be described with reference to FIG.
  • FIG. 6 is a diagram showing an example of the configuration of the speaker classifier 132b according to the present embodiment.
  • FIG. 7 is a diagram showing an example of the configuration of the speaker feature amount extraction unit 133b included in the speaker classifier 132b according to the present embodiment.
  • the speaker classifier 132b includes a speaker feature amount extraction unit 133b, a storage unit 134b, and a similarity calculation unit 135b.
  • Speaker feature amount extraction unit 133b When the acoustic feature amount calculated from the utterance data is input, the speaker feature amount extraction unit 133b can identify the speaker of the voice of the utterance indicated by the utterance data from the input acoustic feature amount. Extract features. More specifically, the speaker feature amount extraction unit 133b extracts the first speaker feature amount from the acoustic feature amount using the learned DNN.
  • the speaker feature amount extraction unit 133b extracts the first speaker feature amount by using, for example, the x-vector method.
  • the x-Vector method is a method for calculating a speaker feature amount, which is a speaker-specific feature called x-Vector.
  • the speaker feature amount extraction unit 133b includes a frame connection processing unit 1331 and a DNN 1332b, as shown in FIG. 7, for example.
  • the frame connection processing unit 1331 performs the same processing as the frame connection processing unit 121. That is, the frame connection processing unit 1331 connects a plurality of frames of the MFCC, which is the acoustic feature amount output from the preprocessing unit 10, and outputs the frames to the input layer of the DNN 1332b. In the example shown in FIG. 7, the frame connection processing unit 1331 connects 50 frames of MFCC parameters composed of 24-dimensional / frame features to generate a 1200-dimensional vector, and outputs the vector to the input layer of the DNN 1332b.
  • the DNN 1332b outputs the first speaker feature amount when a plurality of frames are input from the frame connection processing unit 1331.
  • the DNN1332b is a neural network including an input layer, a plurality of intermediate layers, and an output layer, and is learned by using teacher voice data which is teacher data stored in the storage unit 1333b.
  • the storage unit 1333b stores teacher voice data composed of voices of each of a plurality of speakers including laughter as one emotion.
  • the input layer is composed of, for example, 1200 nodes, and a 1200-dimensional vector generated by connecting 50 frames of MFCC parameters consisting of 24-dimensional / frame features is input.
  • the output layer consists of nodes that output speaker labels for the number of speakers included in the teacher data.
  • the plurality of intermediate layers are composed of, for example, two or three intermediate layers, and have an intermediate layer for calculating the first speaker feature amount.
  • the intermediate layer for calculating the first speaker feature amount outputs the calculated first speaker feature amount as the output of DNN1332b.
  • the storage unit 134b is composed of, for example, a rewritable non-volatile memory such as a hard disk drive or a solid state drive, and is registered as a second speaker feature amount which is a unique feature amount of a pre-registered registered speaker.
  • the second speaker feature amount calculated from the registered speech of the speaker is stored.
  • the storage unit 134b stores the second speaker feature amount, which is the second speaker feature amount and can identify each voice including one emotion of the registered speaker. More specifically, as shown in FIG. 6, the storage unit 134b stores the second speaker feature amount of the registered utterance including the feeling of laughter of the registered speaker.
  • Similarity calculation unit 135b calculates the degree of similarity between the first speaker feature amount extracted by the speaker feature amount extraction unit 133b and the pre-registered second speaker feature amount stored in the storage unit 134b. ..
  • the similarity calculation unit 135b includes the first speaker feature amount extracted by the speaker feature amount extraction unit 133b and the second episode of one or more registered speakers stored in the storage unit 134b. Calculate the degree of similarity with each person feature quantity.
  • the similarity calculation unit 135b outputs a score representing the calculated similarity.
  • the similarity calculation unit 135b calculates the cosine using the inner product in the vector space model, thereby indicating the cosine distance (cosine similarity) indicating the angle between the vectors of the first speaker feature amount and the second speaker feature amount. Also referred to as) may be calculated as the degree of similarity. In this case, the larger the value of the inter-vector angle, the lower the similarity.
  • the similarity calculation unit 135b uses the inner product of the vector indicating the first speaker feature amount and the vector indicating the second speaker feature amount as the similarity to obtain a cosine distance of -1 to 1. You may calculate. In this case, the larger the numerical value indicating the cosine distance, the higher the similarity.
  • speaker classifier 132a and the like corresponding to calmness are the same as the speaker classifier 132b corresponding to laughter, so the description thereof will be omitted.
  • the discriminator selection unit 131 selects one of the plurality of speaker classifiers 132, the speaker classifier 132k, according to the emotion indicated by the estimation result of the emotion estimator 12. More specifically, the classifier selection unit 131 determines a second speaker feature amount capable of identifying each voice including one emotion of the registered speaker according to the emotion indicated by the estimation result of the emotion estimator 12. Select the speaker identifier 132k stored in the storage unit. If there is no speaker classifier 132 corresponding to the emotion indicated by the estimation result of the emotion estimator 12, the classifier selection unit 131 may not use any speaker classifier 132 (no selection). good.
  • the classifier selection unit 131 can switch the speaker classifier 132 according to the estimation result of the emotion estimator 12.
  • Speaker identification unit 14 When the speaker identification system 1 is provided with the speaker identification system 1 as shown in FIG. 2, for example, the speaker identification unit 14 identifies the speaker of the utterance data by using the score output by the speaker identification device 11.
  • the speaker identification unit 14 identifies the speaker of the utterance data based on the score representing the similarity calculated by the similarity calculation unit 135b. For example, the speaker identification unit 14 uses such a score to output the registered speaker corresponding to the second speaker feature amount, which is considered to be the closest to the first speaker feature amount, as the identification result.
  • FIG. 8 is a flowchart showing an outline of the operation of the speaker identification device 11 according to the present embodiment.
  • the speaker identification device 11 estimates the emotion included in the voice of the utterance indicated by the utterance data from the acoustic features calculated from the utterance data using the learned DNN (S11).
  • the speaker identification device 11 outputs a score for identifying the speaker of the utterance data from the acoustic features calculated from the utterance data using the estimation result estimated in step S11 (S12). ).
  • the emotion estimator 12 for estimating the emotion of the evaluation utterance is placed in front of the plurality of speaker identification devices 132 corresponding to one emotion.
  • the speaker classifier 132 is switched according to the emotion shown in the estimation result of the emotion estimator 12.
  • the speaker classifier 132 corresponding to the emotion of the evaluation utterance can be used, so that the speaker of the evaluation utterance can be identified in a state where the emotion included in the registered utterance and the emotion included in the evaluation utterance match. Can be done.
  • the accuracy of speaker identification can be improved even if the utterance of the identification target includes the emotion of the speaker.
  • utterances such as free utterances, that is, conversations other than reading sentences, such as a meeting minutes system and a communication visualization system, are targeted.
  • the speaker of the utterance can be identified.
  • Modification example 1 The method of identifying the speaker of the utterance data indicating the voice of the utterance that is the utterance to be identified and includes the emotion of the speaker is the method described in the above embodiment, that is, the latter part of the emotion estimator 12.
  • the method is not limited to the method of configuring the plurality of speaker classifiers 132.
  • an example of a method different from the method described in the above-described embodiment will be described as a modification 1, focusing on points different from the above-described embodiment.
  • FIG. 9 is a block diagram showing an example of a detailed configuration of the speaker identification device 11A according to the first modification of the present embodiment.
  • the same elements as those in FIG. 4 and the like are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the speaker identification device 11A performs a process for identifying the speaker of the utterance data indicating the voice of the utterance to be identified. More specifically, the speaker identification device 11A has a first speaker feature amount of the evaluation utterance and a third speaker feature amount in which the second speaker feature amount of the registered utterance for each registered speaker is corrected. The score indicating the degree of similarity is output as the identification result.
  • the speaker identification device 11A As shown in FIG. 9, the speaker identification device 11A according to the modified example has a different configuration of the speaker identification processing unit 13A from the speaker identification device 11 shown in FIG.
  • the speaker identification processing unit 13A uses the estimation result of the emotion estimator 12 to output a score for identifying the speaker of the utterance data from the acoustic features calculated from the utterance data.
  • the speaker identification processing unit 13A includes the speaker feature amount extraction unit 133A, the storage unit 134A, the similarity calculation unit 135A, the storage unit 136A, and the correction unit 137A. To be equipped.
  • the speaker feature amount extraction unit 133A extracts the first speaker feature amount capable of identifying the speaker of the voice of the utterance indicated by the utterance data from the acoustic feature amount calculated from the utterance data.
  • the speaker feature amount extraction unit 133A extracts the first speaker feature amount using, for example, the x-vector method. Therefore, the speaker feature amount extraction unit 133A may include a frame connection processing unit and a DNN, similarly to the speaker feature amount extraction unit 133b.
  • learning is performed using teacher voice data composed of voices of each of a plurality of speakers to be identified, for example, including calmness as one emotion. Note that calmness is an example of one emotion, and may be another emotion such as laughter. Others are as described in the above-described embodiment, and thus the description thereof will be omitted here.
  • the storage unit 134A is composed of, for example, a rewritable non-volatile memory such as a hard disk drive or a solid state drive, and is a pre-registered second speaker feature amount and includes one emotion of the registered speaker.
  • the second speaker feature amount that can identify each voice is stored.
  • the storage unit 134A stores the second speaker feature amount of the registered utterance including the feeling of calmness of the registered speaker.
  • the feeling of calmness is an example, and may be other feelings such as laughter.
  • the storage unit 136A is composed of, for example, a rewritable non-volatile memory such as a hard disk drive or a solid state drive, and stores learning data for correcting emotions included in the registered utterance.
  • the learning data stored in the storage unit 136A is the second speaker feature amount in the calm emotion stored in the storage unit 134A, and the emotion corresponding to the emotion indicated by the estimation result of the emotion estimator 12. It is used to correct the speaker feature amount of the third speaker, which is the speaker feature amount of the speech.
  • the correction unit 137A can identify each voice including one emotion corresponding to the emotion indicated by the estimation result of the emotion estimator 12 from the second speaker feature amount stored in the storage unit 134A. Correct to the person's feature amount.
  • the correction unit 137A uses the learning data stored in the storage unit 136A, and the second speaker characteristic of the registered speech including the feeling of "calmness" of the registered speaker stored in the storage unit 134A.
  • the amount is corrected to, for example, a third speaker feature amount that can identify each voice containing the feeling of "laughing". That is, the correction unit 137A uses the learning data stored in the storage unit 136A to determine the second speaker feature amount in the “calm” emotion stored in the storage unit 134A based on the estimation result of the emotion estimator 12. It is corrected to the third speaker feature amount in the shown emotion.
  • Similarity calculation unit 135A calculates the similarity between the first speaker feature amount extracted by the speaker feature amount extraction unit 133A and the third speaker feature amount corrected by the correction unit 137A, and calculates it as a score. Outputs the similarities.
  • the similarity calculation unit 135A has the first speaker feature amount extracted by the speaker feature amount extraction unit 133A and the second speaker of one or more registered speakers stored in the storage unit 134A. The degree of similarity with each of the third speaker features whose features have been corrected is calculated. The similarity calculation unit 135A outputs a score representing the calculated similarity.
  • the speaker identification unit 14 identifies the speaker of the utterance data based on the score indicated by the similarity calculated by the similarity calculation unit 135A. For example, the speaker identification unit 14 uses the score to output the registered speaker of the second speaker feature amount corresponding to the third speaker feature amount closest to the first speaker feature amount as the identification result. do.
  • the emotion of the registered utterance is sent to the speaker identification processing unit 13A arranged in the rear stage according to the estimation result of the emotion estimator 12 arranged in the front stage. Is corrected to the emotion of the evaluation utterance, and then the speaker of the evaluation utterance is identified.
  • the emotions included in the registered utterance and the emotions contained in the evaluation utterance are matched, that is, the emotions between the registered utterance and the evaluation utterance, that is, the difference in intonation is corrected and matched.
  • the accuracy of speaker identification can be improved even if the utterance of the identification target includes the emotion of the speaker.
  • Modification 2 The method described in the above embodiment is not limited to the case described in the embodiment and the first modification. Hereinafter, a case where the configuration is different from that of the speaker identification device described in the embodiment and the first modification will be described.
  • FIG. 10 is a block diagram showing an example of a detailed configuration of the speaker identification device 11B according to the second modification of the present embodiment.
  • the same elements as those in FIGS. 4 and 9 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the speaker identification device 11B performs a process for identifying the speaker of the utterance data indicating the voice of the utterance to be identified. More specifically, the speaker identification device 11B calculates the degree of similarity between the first speaker feature amount of the evaluation utterance and the second speaker feature amount of the registered utterance for each registered speaker. Then, the speaker identification device 11B outputs the score obtained by imparting reliability to the calculated similarity as the identification result. In this modification, a case where weighting is given as reliability will be described.
  • the speaker identification device 11B according to this modification has a different configuration of the speaker identification processing unit 13B from the speaker identification device 11 shown in FIG. Further, the speaker identification device 11B according to the present modification has a different configuration of the speaker identification processing unit 13B from the speaker identification device 11A shown in FIG.
  • the speaker identification processing unit 13B uses the estimation result of the emotion estimator 12 to output a score for identifying the speaker of the utterance data from the acoustic features calculated from the utterance data.
  • the acoustic feature amount acquired by the speaker identification processing unit 13B is such that the preprocessing unit 10 divides the entire utterance data indicating the voice of one speaker's utterance in a predetermined period into time series for each identification unit. It is calculated from each of the plurality of utterance data obtained in.
  • the speaker identification processing unit 13B includes a speaker feature amount extraction unit 133A, a storage unit 134A, a similarity calculation unit 135B, and a reliability imparting unit 138B, as shown in FIG.
  • the similarity calculation unit 135B is a first speaker feature amount extracted by the speaker feature amount extraction unit 133A and a pre-registered second speaker feature amount stored in the storage unit 134A and is an identification target. The degree of similarity with the second speaker feature amount that can identify each voice including one emotion of the registered speaker is calculated.
  • the similarity calculation unit 135B is of the first speaker feature amount extracted by the speaker feature amount extraction unit 133A and the "calmness" of one or more registered speakers stored in the storage unit 134A. The degree of similarity with the second speaker feature amount in the registered utterance including emotions is calculated.
  • the reliability imparting unit 138B adds weighting according to the emotion indicated by the estimation result of the emotion estimator 12 to the similarity calculated by the similarity calculation unit 135B, and outputs the score as a score.
  • the reliability imparting unit 138B assigns the largest weight to the calculated similarity when one emotion and the emotion indicated by the estimation result match.
  • the reliability imparting unit 138B is based on the similarity to each of the plurality of utterance data calculated by the similarity calculation unit 135B, and the estimation result for each of the plurality of utterance data estimated by the emotion estimator 12. Weighting is given according to the emotions shown.
  • the reliability imparting unit 138B outputs the weighted similarity in each of the plurality of utterance data to the speaker identification unit 14 as a score for each of the plurality of utterance data.
  • the speaker identification unit 14 identifies the speaker of the utterance data by using the score output by the speaker identification device 11B.
  • the speaker identification unit 14 identifies the speaker of the utterance data based on the score representing the weighted similarity output by the similarity calculation unit 135B. More specifically, the speaker identification unit 14 identifies the speaker of the entire utterance data by using the overall score, which is the arithmetic mean score of the scores for each of the plurality of utterance data output by the reliability imparting unit 138B. do. Here, the speaker identification unit 14 identifies the speaker of the total utterance by using the total score equal to or higher than the threshold value among the total scores. Then, the speaker identification unit 14 outputs the identified speaker of the entire utterance as the identification result. As a result, the speaker identification unit 14 can accurately identify the speaker of the overall utterance data corresponding to the overall score by using only the highly reliable overall score.
  • the overall score which is the arithmetic mean score of the scores for each of the plurality of utterance data output by the reliability imparting unit 138B. do.
  • the speaker identification unit 14 identifies the speaker of
  • FIG. 11 is a diagram showing an example of processing of the speaker identification device 11B according to the second modification of the present embodiment.
  • the entire utterance data acquired by the speaker identification device 11B is shown.
  • the overall utterance data is a voice signal obtained by converting the voice of one speaker's utterance in a predetermined period, and is composed of utterance data divided for each identification unit.
  • the identification unit is, for example, an interval of 3 to 4 seconds
  • the entire utterance data is a voice signal of voice for 12 to 16 seconds, and is divided into four identification unit voice signals.
  • the utterance data described above corresponds to the whole utterance data divided by the identification unit.
  • the score before weighting represents the similarity in each of the plurality of utterance data calculated by the speaker identification device 11B.
  • the estimation result is an emotion included in the voice of the utterance indicated by the utterance data, which is estimated by the speaker identification device 11B for each of the plurality of utterance data constituting the entire utterance data.
  • (score, emotion) is (50, calm), (50, anger), (50, whispering), (50, anger). Is shown.
  • the score weighted based on the estimation result is shown.
  • This score is a similarity weighted based on the estimation result in each of the plurality of utterance data, and represents the degree of similarity in each of the plurality of utterance data.
  • the emotion indicated by the estimation result is calm, the largest weighting is given, and the weighting is 75, 25, 5, 25 for each identification unit (for each utterance data) of the entire utterance data. It has become.
  • the emotion indicated by the estimation result is "calm"
  • the largest weighting is given.
  • the speaker identification device 11B calculates the similarity in each of a plurality of utterance data using the second speaker feature of the registered utterance including the feeling of "calmness" of the registered speaker. be. That is, the more the speaker identification device 11B matches the emotions that can be included in the registered utterance used to obtain the second speaker feature amount used when calculating the similarity, the higher the reliability of the calculated similarity is assumed. , Great weighting is given.
  • the overall score is shown in the fourth row of FIG.
  • the overall score is a score for the entire utterance data, and is an arithmetic mean of the scores for each of the plurality of utterance data as described above. In the example shown in FIG. 11, it is calculated as 32.5.
  • the speaker identification processing unit 13B weights the similarity calculated for the evaluation utterance and the registered utterance based on the estimation result of the emotion of the evaluation utterance.
  • the score obtained by giving is output.
  • the speaker identification processing unit 13B gives a large weighting to the calculated similarity so that the emotion included in the evaluation utterance indicated by the estimation result matches the emotion included in the registered utterance. ..
  • the accuracy of speaker identification can be improved even if the utterance of the identification target includes the emotion of the speaker.
  • the reliability of the speaker identification result may be confirmed.
  • the speaker identification device 11B has described a case where the calculated similarity is output with a score obtained by giving a weight as reliability based on the estimation result of the emotion included in the evaluation utterance.
  • the speaker identification device 11C adds reliability (specifically, additional information indicating reliability) based on the estimation result of emotions included in the evaluation utterance to the calculated similarity and outputs the calculated similarity. Will be described.
  • the speaker identification device 11C according to the modification 3 will be described focusing on the differences from the speaker identification device 11B described in the modification 2.
  • FIG. 12 is a block diagram showing an example of a detailed configuration of the speaker identification device 11C according to the third modification of the present embodiment.
  • the same elements as those in FIGS. 4, 9, 9 and 10 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the speaker identification device 11C performs a process for identifying the speaker of the utterance data indicating the voice of the utterance to be identified. More specifically, the speaker identification device 11C calculates a score representing the degree of similarity between the first speaker feature amount of the evaluation utterance and the second speaker feature amount of the registered utterance for each registered speaker. Then, the speaker identification device 11B outputs a score obtained by adding reliability (or additional information indicating reliability) to the calculated similarity as an identification result.
  • the speaker identification device 11C according to this modification has a different configuration of the speaker identification processing unit 13C from the speaker identification device 11B shown in FIG. More specifically, the speaker identification device 11C according to the present modification is configured in that the speaker identification device 11B shown in FIG. 10 does not have the reliability imparting unit 138B but includes the reliability imparting unit 138C. different.
  • the reliability imparting unit 138C adds a reliability corresponding to the emotion indicated by the estimation result of the emotion estimator 12 to the similarity calculated by the similarity calculation unit 135B, and outputs the score as a score.
  • the reliability imparting unit 138C imparts the highest reliability to the calculated similarity when one emotion and the emotion indicated by the estimation result match.
  • the speaker identification unit 14 identifies the speaker of the utterance data by using the score output by the speaker identification device 11C.
  • the speaker identification unit 14 identifies the speaker of the utterance data based on the score indicating the similarity to which the reliability is given, which is output by the similarity calculation unit 135B. For example, the speaker identification unit 14 identifies the speaker of the utterance data by using the score to which the reliability equal to or higher than the threshold value is given. Then, the speaker identification unit 14 outputs the speaker of the identified utterance as the identification result. As a result, the speaker identification unit 14 can accurately identify the speaker of the utterance data corresponding to the score by using only the highly reliable score.
  • the speaker identification processing unit 13C relies on the calculated similarity between the evaluation utterance and the registered utterance based on the estimation result of the emotion of the evaluation utterance.
  • the score obtained by adding additional information indicating the degree is output.
  • the speaker identification processing unit 13C adds additional information such that the more the emotions included in the evaluation utterance indicated by the estimation result match the emotions included in the registered utterance, the higher the reliability of the calculated similarity is. do.
  • the accuracy of speaker identification can be improved even if the utterance of the identification target includes the emotion of the speaker.
  • the reliability of the speaker identification result may be confirmed by confirming the reliability of the score.
  • each processing unit included in the speaker identification device is typically realized as an LSI which is an integrated circuit. These may be individually integrated into one chip, or may be integrated into one chip so as to include a part or all of them.
  • the integrated circuit is not limited to the LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI may be used.
  • the present disclosure may be realized as a speaker identification method executed by the speaker identification device.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the division of the functional block in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, one functional block can be divided into a plurality of functional blocks, and some functions can be transferred to other functional blocks. You may.
  • the functions of a plurality of functional blocks having similar functions may be processed by a single hardware or software in parallel or in a time division manner.
  • each step in the flowchart is executed is for exemplifying in order to specifically explain the present disclosure, and may be an order other than the above. Further, a part of the above steps may be executed at the same time (parallel) as other steps.
  • the speaker identification device has been described above based on the embodiment and the modified examples, but the present disclosure is not limited to the embodiment and the modified example. As long as the purpose of the present disclosure is not deviated, various modifications that can be conceived by those skilled in the art are applied to the present embodiment and the modified examples, and a form constructed by combining components in different embodiments and the modified examples is also available. It may be included within the scope of one or more embodiments.
  • This disclosure can be used for speaker identification devices, speaker identification methods, and programs, and targets free utterances including emotions, such as conference minutes systems and communication visualization systems. It can be used for a speaker identification device for identification, a speaker identification method, and a program.
  • Speaker identification system 10 Pre-processing unit 11, 11A, 11B, 11C Speaker identification device 12 Emotion estimator 13, 13A, 13B, 13C Speaker identification processing unit 14 Speaker identification unit 101
  • Voice acquisition unit 102 Acoustic feature amount calculation Unit 121, 1331 Frame connection processing unit 122, 1332b DNN 123, 134A, 134b, 136A, 1333b Storage unit 131 Discriminator selection unit 132, 132a, 132b Speaker discriminator 133A, 133b Speaker feature amount extraction unit 135A, 135B, 135b Similarity calculation unit 137A Correction unit 138B, 138C Reliability Gender

Abstract

本開示の話者識別装置は、識別対象の発話の音声を示す発話データの話者を識別する話者識別装置(11)であって、学習済のDNN(Deep Neural Network)を用いて、発話データから算出された音響特徴量から、発話データが示す発話の音声に含まれる感情を推定する感情推定器(12)と、感情推定器(12)の推定結果を用いて、発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する話者識別処理部(13)とを備える。

Description

話者識別装置、話者識別方法、及び、プログラム
 本開示は、話者識別装置、話者識別方法、及び、プログラムに関する。
 話者識別技術は、登録対象の話者ごとの発話である登録発話から算出した特徴量と、識別対象の未知の話者の発話である評価発話から算出した特徴量との類似度に基づいて、評価発話がどの話者の登録発話であるかを推定する技術である(例えば特許文献1)。
 例えば、特許文献1には、話者識別技術として、登録話者ごとの登録発話における話者特徴ベクトルと評価発話における話者特徴ベクトルとのベクトル類似度を用いて、評価発話の話者を識別する技術が開示されている。
特開2017-187642号公報
 しかしながら、笑い声や怒鳴り声などの感情音声を評価音声とした場合には、識別精度に影響を与えてしまう。具体的には、登録発話に含まれる感情と評価発話に含まれる感情とが異なると、評価発話に含まれる感情に伴う抑揚変動によって、話者識別の精度が低下する。
 つまり、特許文献1に開示されるような従来の話者識別技術では、評価発話に含まれる感情を考慮しないで、登録発話と評価発話との話者特徴ベクトルの類似度を計算して、評価発話の話者を識別する。このため、従来の話者識別技術では、評価発話の話者を識別する精度が十分ではない場合がある。
 本開示は、上述の事情を鑑みてなされたもので、評価発話すなわち識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる話者識別装置、話者識別方法、及び、プログラムを提供することを目的とする。
 本開示の一態様に係る話者識別装置は、識別対象の発話の音声を示す発話データの話者を識別する話者識別装置であって、学習済のDNN(Deep Neural Network)を用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定器と、前記感情推定器の推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理部とを備える。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本開示の話者識別装置等によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
図1は、実施の形態に係る話者識別システムの構成の一例を示すブロック図である。 図2は、実施の形態に係る話者識別システムの構成の別の一例を示すブロック図である。 図3は、実施の形態に係る前処理部の詳細構成の一例を示すブロック図である。 図4は、実施の形態に係る話者識別装置の詳細構成の一例を示すブロック図である。 図5は、実施の形態に係る感情推定器の構成の一例を示す図である。 図6は、実施の形態に係る話者識別器の構成の一例を示す図である。 図7は、実施の形態に係る話者識別器が有する話者特徴量抽出部の構成の一例を示す図である。 図8は、実施の形態に係る話者識別装置の動作の概要を示すフローチャートである。 図9は、実施の形態の変形例1に係る話者識別装置の詳細構成の一例を示すブロック図である。 図10は、実施の形態の変形例2に係る話者識別装置の詳細構成の一例を示すブロック図である。 図11は、実施の形態の変形例2に係る話者識別装置の処理の一例を示す図である。 図12は、実施の形態の変形例3に係る話者識別装置の詳細構成の一例を示すブロック図である。
 (本開示の概要)
 本開示の一形態の概要は、以下の通りである。
 本開示の一態様に係る話者識別装置は、識別対象の発話の音声を示す発話データの話者を識別する話者識別装置であって、学習済のDNN(Deep Neural Network)を用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定器と、前記感情推定器の推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理部とを備える。
 本態様によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
 また、例えば、前記話者識別処理部は、それぞれ、前記音響特徴量が入力された場合に、入力された前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量抽出部が抽出した前記第1話者特徴量、及び、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量の類似度を計算する類似度計算部とを有する複数の話者識別器と、前記複数の話者識別器のうちの一の話者識別器であって前記推定結果により示される感情に応じた前記登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を前記記憶部に記憶している話者識別器を選択する識別器選択部とを備え、前記識別器選択部により選択された話者識別器は、前記発話データから算出された音響特徴量が入力されることで、前記類似度を計算し、前記スコアとして出力してもよい。
 また、例えば、前記話者識別処理部は、前記音響特徴量から、前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を、前記推定結果により示される感情に応じた前記一の感情が含まれた音声それぞれを特定できる第3話者特徴量に補正する補正部と、抽出した前記第1話者特徴量と、前記補正部により補正された第3話者特徴量との類似度を計算し、前記スコアとして、計算した類似度を出力する類似度計算部とを備えてもよい。
 また、例えば、前記話者識別処理部は、前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、抽出した前記第1話者特徴量と、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量との類似度を計算する類似度計算部と、計算された前記類似度に、前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する信頼性付与部とを備え、前記信頼性付与部は、前記一の感情と前記推定結果により示される感情とが一致する場合に計算された前記類似度に、最も大きい重み付けを付与してもよい。
 また、例えば、前記音響特徴量は、前処理部により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで取得された複数の発話データのそれぞれから算出され、前記信頼性付与部は、前記類似度計算部により計算された、前記複数の発話データそれぞれに対する前記類似度に、前記感情推定器により推定された、前記複数の発話データそれぞれに対する前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力してもよい。
 また、例えば、前記話者識別装置は、さらに、前記信頼性付与部により出力された、前記複数の発話データそれぞれに対する前記スコアを算術平均したスコアである全体スコアを用いて、前記全体発話データの話者を識別する話者識別部とを備え、前記話者識別部は、前記全体スコアのうち閾値以上の全体スコアを用いて、前記全体発話の話者を識別してもよい。
 また、例えば、前記話者識別処理部は、前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、抽出した前記第1話者特徴量と、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量との類似度を計算する類似度計算部と、計算された前記類似度に、前記推定結果により示される感情に応じた信頼度を付与し、前記スコアとして出力する信頼度付与部とを備えてもよい。
 また、例えば、前記話者識別装置は、さらに、前記信頼度が閾値以上の前記スコアを用いて、前記発話データの話者を識別する話者識別部をさらに備えてもよい。
 また、例えば、前記話者特徴量抽出部は、学習済のDNNを用いて、前記音響特徴量から前記第1話者特徴量を抽出してもよい。
 本開示の一態様に係る話者識別方法は、識別対象の発話の音声を示す発話データの話者を識別する話者識別方法であって、学習済のDNNを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップとを含む。
 また、本開示の一態様に係るプログラムは、識別対象の発話の音声を示す発話データの話者を識別する話者識別方法をコンピュータに実行させるプログラムであって、学習済のDNNを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップと、をコンピュータに実行させる。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態)
 以下では、図面を参照しながら、本実施の形態に係る話者識別装置等の説明を行う。
 [話者識別システム1]
 図1は、本実施の形態に係る話者識別システム1の構成の一例を示すブロック図である。図2は、本実施の形態に係る話者識別システム1の構成の別の一例を示すブロック図である。
 本実施の形態に係る話者識別システム1は、識別対象の発話であって話者の感情が含まれた発話の音声を示す発話データの話者を識別するために用いられる。
 話者識別システム1は、図1に示すように、前処理部10と、話者識別装置11とを備える。なお、話者識別システム1は、図2に示すように、話者識別部14をさらに備えるとしてもよいが、必須の構成でない。以下、各構成要素について説明する。
 [1. 前処理部10]
 図3は、本実施の形態に係る前処理部10の詳細構成の一例を示すブロック図である。
 前処理部10は、識別対象の発話の音声を示す発話データを取得し、取得した発話データから算出された音響特徴量を、話者識別装置11に出力する。本実施の形態では、前処理部10は、図3に示すように、音声取得部101と、音響特徴量算出部102とを備える。
 [1.1 音声取得部101]
 音声取得部101は、例えばマイクロフォンからなり、話者の発話の音声を取得する。音声取得部101は、取得した音声を音声信号に変換して、発話された区間である発話区間を検出し、発話区間を切り出して得た発話の音声を示す発話データを音響特徴量算出部102に出力する。
 なお、音声取得部101は、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで複数の発話データを取得し、音響特徴量算出部102に出力してもよい。識別単位は、例えば3~4秒間であり、上記の発話区間であってもよい。
 [1.2 音響特徴量算出部102]
 音響特徴量算出部102は、音声取得部101により出力された発話区間の音声信号すなわち発話データから、発話の音声についての音響特徴量を計算する。本実施の形態では、音響特徴量算出部102は、音声取得部101により出力された発話データから、発話の音声の特徴量であるMFCC(Mel Frequency Cepstral Coefficient)を、音響特徴量として算出する。MFCCは、発話者の声道特性を表す特徴量であり、音声認識でも一般的に使用される。より具体的には、MFCCは、音声の周波数スペクトルを人間の聴覚特性に基づいて分析した音響特徴量である。なお、音響特徴量算出部102は、発話データから音響特徴量として、MFCCを算出する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを音響特徴量として算出してもよいし、発話の音声信号のスペクトログラムを音響特徴量として算出してもよい。
 [2. 話者識別装置11]
 話者識別装置11は、例えば、プロセッサ(マイクロプロセッサ)、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者識別装置11は、サーバに含まれて動作するとしてもよいし、話者識別装置11の一部構成がクラウドサーバに含まれて動作するとしてもよい。話者識別装置11は、評価発話すなわち識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置11は、評価発話の第1話者特徴量と登録話者ごとの登録発話の第2話者特徴量との類似度を表すスコアを、識別結果として出力する。本実施の形態に係る評価発話すなわち識別対象の発話には、話者の感情が含まれる。
 図4は、本実施の形態に係る話者識別装置11の詳細構成の一例を示すブロック図である。
 話者識別装置11は、図1及び図4に示すように感情推定器12と、話者識別処理部13とを備える。
 [2.1 感情推定器12]
 感情推定器12は、学習済のDNN(Deep Neural Network)を用いて、発話データから算出された音響特徴量から、当該発話データが示す発話の音声に含まれる感情を推定する。なお、DNNには、例えばCNN(Convolution Neural Networks)が用いられてもよいし、全結合型のNN(Neural Network)が用いられてもよいし、TDNN(Time Delay Neural Network)が用いられてもよい。
 ここで、感情推定器12の構成の一例について、図5を用いて説明する。
 図5は、本実施の形態に係る感情推定器12の構成の一例を示す図である。
 感情推定器12は、例えば図5に示すように、フレーム接続処理部121と、DNN122とを備える。
 [2.1.1 フレーム接続処理部121]
 フレーム接続処理部121は、前処理部10から出力された音響特徴量であるMFCCの複数フレームを接続して、DNN122の入力層に出力する。MFCCは、1つのフレームについてx(xは正の整数)次元の特徴量を持つような複数フレームで構成される。図5に示す例では、フレーム接続処理部121は、24次元/フレームの特徴量からなるMFCCパラメータを50フレーム接続して1200次元のベクトルを生成し、DNN122の入力層に出力する。
 [2.1.2 DNN122]
 DNN122は、接続されたMFCCの複数フレームが入力されると、最も確率が高い感情ラベルを、感情推定器12の推定結果として出力する。図5に示す例では、DNN122は、入力層と、複数の中間層と、出力層とからなるニューラルネットワークであり、記憶部123に記憶された教師データすなわち推定対象の感情を含む教師音声データを用いて学習されている。入力層は、例えば1200ノードからなり、24次元/フレームの特徴量からなるMFCCパラメータを50フレーム接続して生成された1200次元のベクトルが入力される。出力層は、例えば平静、怒り、笑い、悲しみといった感情ラベルを出力するノードからなり、最も確率が高い感情ラベルを出力する。なお、複数の中間層は、例えば2~3層の中間層からなる。
 [2.2 話者識別処理部13]
 話者識別処理部13は、感情推定器12の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。
 本実施の形態では、話者識別処理部13は、図4に示すように、識別器選択部131と、複数の話者識別器132とを備える。
 [2.2.1 複数の話者識別器132]
 複数の話者識別器132のそれぞれは、一の感情に対応した話者識別器132k(kは自然数)である。一の感情とは、例えば平静、怒り、笑い、悲しみ、…、のうちの一つである。図4に示す例では、複数の話者識別器132は、話者識別器132aと、話者識別器132bと、・・・で構成される。例えば話者識別器132aは、一の感情として平静に対応しており、話者識別器132bは、一の感情として笑いに対応している。なお、話者識別器132aと、話者識別器132bと、・・・と、のうちの一つを話者識別器132kと表現している。
 複数の話者識別器132のうち、識別器選択部131により選択された話者識別器132kは、発話データから算出された音響特徴量が入力されることで、類似度を計算し、スコアとして出力する。なお、複数の話者識別器132のいずれも識別器選択部131により選択されない場合もあり、図4では、識別器選択部131により「選択なし」が選択された場合があるとして表現されている。
 ここで、話者識別器132kの構成の一例として、笑いに対応している話者識別器132bについて、図6を用いて説明する。
 図6は、本実施の形態に係る話者識別器132bの構成の一例を示す図である。図7は、本実施の形態に係る話者識別器132bが有する話者特徴量抽出部133bの構成の一例を示す図である。
 話者識別器132bは、例えば図6に示すように、話者特徴量抽出部133bと、記憶部134bと、類似度計算部135bとを備える。
 [2.2.1.1 話者特徴量抽出部133b]
 話者特徴量抽出部133bは、発話データから算出された音響特徴量が入力された場合に、入力された音響特徴量から当該発話データが示す発話の音声の話者を特定できる第1話者特徴量を抽出する。より具体的には、話者特徴量抽出部133bは、学習済のDNNを用いて、音響特徴量から第1話者特徴量を抽出する。
 本実施の形態では、話者特徴量抽出部133bは、例えば、x-vector方式を用いて第1話者特徴量を抽出する。ここで、x-Vector方式とは、x-Vectorと呼ばれる話者固有の特徴である話者特徴量を算出する方法である。より具体的には、話者特徴量抽出部133bは、例えば図7に示すように、フレーム接続処理部1331と、DNN1332bとを備える。
 [2.2.1.1-1 フレーム接続処理部1331]
 フレーム接続処理部1331は、フレーム接続処理部121と同様の処理を行う。すなわち、フレーム接続処理部1331は、前処理部10から出力された音響特徴量であるMFCCの複数フレームを接続して、DNN1332bの入力層に出力する。図7に示す例では、フレーム接続処理部1331は、24次元/フレームの特徴量からなるMFCCパラメータを50フレーム接続して1200次元のベクトルを生成し、DNN1332bの入力層に出力する。
 [2.2.1.1-2 DNN1332b]
 DNN1332bは、フレーム接続処理部1331から複数フレームが入力されると、第1話者特徴量を出力する。図7に示す例では、DNN1332bは、入力層と、複数の中間層と、出力層とからなるニューラルネットワークであり、記憶部1333bに格納された教師データである教師音声データを用いて学習されている。図7に示す例では、記憶部1333bには、一の感情としての笑いが含まれた複数の話者それぞれの音声で構成された教師音声データが記憶されている。
 図7に示す例では、入力層は、例えば1200ノードからなり、24次元/フレームの特徴量からなるMFCCパラメータを50フレーム接続して生成された1200次元のベクトルが入力される。出力層は、教師データに含まれる話者数分の話者ラベルを出力するノードからなる。なお、複数の中間層は、例えば2~3層の中間層からなり、第1話者特徴量を算出する中間層を有する。第1話者特徴量を算出する中間層は、DNN1332bの出力として、算出した第1話者特徴量を出力する。
 [2.2.1.2 記憶部134b]
 記憶部134bは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、事前登録された登録話者の固有の特徴量である第2話者特徴量であって登録話者の登録発話から算出された第2話者特徴量を記憶する。換言すると、記憶部134bは、第2話者特徴量であって登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を記憶する。より具体的には、記憶部134bは、図6に示すように、登録話者の笑いの感情が含まれた登録発話の第2話者特徴量を記憶する。
 [2.2.1.3 類似度計算部135b]
 類似度計算部135bは、話者特徴量抽出部133bが抽出した第1話者特徴量と、記憶部134bに記憶されている事前登録された第2話者特徴量との類似度を計算する。
 本実施の形態では、類似度計算部135bは、話者特徴量抽出部133bにより抽出された第1話者特徴量と、記憶部134bに記憶されている1以上の登録話者の第2話者特徴量それぞれとの類似度を計算する。類似度計算部135bは、計算した類似度を表すスコアを出力する。
 例えば、類似度計算部135bは、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第1話者特徴量と第2話者特徴量とのベクトル間角度を示すコサイン距離(コサイン類似度とも称される)を、類似度として計算してもよい。この場合、ベクトル間角度の数値が大きくなるほど類似度が低いことを示す。なお、類似度計算部135bは、類似度として、第1話者特徴量を示すベクトルと第2話者特徴量を示すベクトルとの内積を用いて-1から1までの値をとるコサイン距離を計算してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを示す。
 なお、平静に対応している話者識別器132a等も、笑いに対応している話者識別器132bと同様であるので、説明を省略する。
 [2.2.2 識別器選択部131]
 識別器選択部131は、感情推定器12の推定結果により示される感情に応じて、複数の話者識別器132のうち一の話者識別器132kを選択する。より具体的には、識別器選択部131は、感情推定器12の推定結果により示される感情に応じた登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を記憶部に保存している話者識別器132kを選択する。なお、識別器選択部131は、感情推定器12の推定結果により示される感情に対応する話者識別器132がない場合には、いずれの話者識別器132も用いない(選択なし)としてもよい。
 このように、識別器選択部131は、感情推定器12の推定結果に応じて、話者識別器132を切り替えることができる。
 [3. 話者識別部14]
 話者識別部14は、例えば図2に示されているように話者識別システム1に備えられる場合、話者識別装置11により出力されたスコアを用いて、発話データの話者を識別する。
 本実施の形態では、話者識別部14は、類似度計算部135bにより計算された類似度を表すスコアに基づいて、発話データの話者を識別する。例えば、話者識別部14は、このようなスコアを用いることで、第1話者特徴量に最も近いとされる第2話者特徴量に対応する登録話者を識別結果として出力する。
 [話者識別システム1の動作]
 次に、以上のように構成された話者識別システム1の動作について説明する。以下では、話者識別システム1の動作として、特徴的な動作である話者識別装置11の動作について説明する。
 図8は、本実施の形態に係る話者識別装置11の動作の概要を示すフローチャートである。
 まず、話者識別装置11は、学習済のDNNを用いて、発話データから算出された音響特徴量から、当該発話データが示す発話の音声に含まれる感情を推定する(S11)。
 次に、話者識別装置11は、ステップS11において推定された推定結果を用いて、発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する(S12)。
 [効果等]
 以上のように、本実施の形態に係る話者識別装置11によれば、評価発話の感情を推定する感情推定器12を、それぞれ一の感情に対応した複数の話者識別器132の前段に配置し、感情推定器12の推定結果に示される感情に応じて、話者識別器132を切り替える。
 これにより、評価発話の感情に対応した話者識別器132を用いることができるので、登録発話に含まれる感情と評価発話に含まれる感情とが一致した状態で評価発話の話者を識別することができる。
 したがって、本実施の形態に係る話者識別装置11によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
 また、本実施の形態の話者識別装置11を備える話者識別システム1によれば、会議議事録システム、コミュニケーション可視化システムなど、自由発話すなわち文章の朗読などではない会話などの発話を対象にして、当該発話の発話者を識別することができる。
 (変形例1)
 なお、識別対象の発話であって話者の感情が含まれた発話の音声を示す発話データの話者を識別する方法は、上記の実施の形態で説明した方法、すなわち感情推定器12の後段に、複数の話者識別器132を構成する方法に限らない。以下、上記の実施の形態で説明した方法とは別の方法の一例を変形例1として、上記の実施の形態と異なる点を中心に説明する。
 [4. 話者識別装置11A]
 図9は、本実施の形態の変形例1に係る話者識別装置11Aの詳細構成の一例を示すブロック図である。なお、図4等と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 話者識別装置11Aは、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置11Aは、評価発話の第1話者特徴量と、登録話者ごとの登録発話の第2話者特徴量が補正された第3話者特徴量との類似度を表すスコアを、識別結果として出力する。
 図9に示すように、本変形例に係る話者識別装置11Aは、図4に示す話者識別装置11に対して、話者識別処理部13Aの構成が異なる。
 [4.1 話者識別処理部13A]
 話者識別処理部13Aは、感情推定器12の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。
 本変形例では、話者識別処理部13Aは、図9に示すように、話者特徴量抽出部133Aと、記憶部134Aと、類似度計算部135Aと、記憶部136Aと、補正部137Aとを備える。
 [4.1.1 話者特徴量抽出部133A]
 話者特徴量抽出部133Aは、発話データから算出された音響特徴量から、当該発話データが示す発話の音声の話者を特定できる第1話者特徴量を抽出する。
 本変形例でも、話者特徴量抽出部133Aは、例えば、x-vector方式を用いて第1話者特徴量を抽出する。このため、話者特徴量抽出部133Aは、話者特徴量抽出部133bと同様に、フレーム接続処理部と、DNNとを備えればよい。本変形例では、一の感情として例えば平静が含まれた識別対象の複数の話者それぞれの音声で構成された教師音声データを用いて学習されている。なお、平静は、一の感情の一例であり、笑いなどその他の感情であってもよい。その他については、上記の実施の形態で説明した通りであるので、ここでの説明は省略する。
 [4.1.2 記憶部134A]
 記憶部134Aは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、事前登録された第2話者特徴量であって登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を記憶する。本変形例では、記憶部134Aには、図9に示すように、登録話者の平静の感情が含まれた登録発話の第2話者特徴量を記憶する。なお、平静の感情は、一例であり、笑いなどその他の感情であってもよい。
 [4.1.3 記憶部136A]
 記憶部136Aは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録発話に含まれる感情を補正するための学習データを記憶する。本変形例では、記憶部136Aに記憶される学習データは、記憶部134Aに記憶される平静の感情における第2話者特徴量を、感情推定器12の推定結果により示される感情に応じた感情の発話の話者特徴量である第3話者特徴量に補正するために用いられる。
 [4.1.4 補正部137A]
 補正部137Aは、記憶部134Aに記憶されている第2話者特徴量を、感情推定器12の推定結果により示される感情に応じた一の感情が含まれた音声それぞれを特定できる第3話者特徴量に補正する。
 例えば、感情推定器12の推定結果により示される感情が「笑い」であるとする。この場合、補正部137Aは、記憶部136Aに記憶される学習データを用いて、記憶部134Aに記憶されている登録話者の「平静」の感情が含まれた登録発話の第2話者特徴量を、例えば「笑い」の感情が含まれた音声それぞれを特定できる第3話者特徴量に補正する。つまり、補正部137Aは、記憶部136Aに記憶される学習データを用いて、記憶部134Aに記憶されている「平静」の感情における第2話者特徴量を、感情推定器12の推定結果により示される感情における第3話者特徴量に補正する。
 [4.1.5 類似度計算部135A]
 類似度計算部135Aは、話者特徴量抽出部133Aが抽出した第1話者特徴量と、補正部137Aにより補正された第3話者特徴量との類似度を計算し、スコアとして、計算した類似度を出力する。
 本変形例では、類似度計算部135Aは、話者特徴量抽出部133Aにより抽出された第1話者特徴量と、記憶部134Aに記憶されている1以上の登録話者の第2話者特徴量が補正された第3話者特徴量それぞれとの類似度を計算する。類似度計算部135Aは、計算した類似度を表すスコアを出力する。
 [5. 話者識別部14]
 話者識別部14は、話者識別装置11Aにより出力されたスコアを用いて、発話データの話者を識別する。
 本変形例では、話者識別部14は、類似度計算部135Aにより計算された類似度で示されるスコアに基づいて、発話データの話者を識別する。例えば、話者識別部14は、スコアを用いて、第1話者特徴量に最も近いとされる第3話者特徴量に対応する第2話者特徴量の登録話者を識別結果として出力する。
 [効果等]
 以上のように、本変形例に係る話者識別装置11Aによれば、前段に配置した感情推定器12の推定結果に応じて、後段に配置した話者識別処理部13Aに、登録発話の感情を評価発話の感情に補正させた上で評価発話の話者を識別させる。
 これにより、登録発話に含まれる感情と評価発話に含まれる感情とを一致させた状態で、すなわち、登録発話と評価発話との感情すなわち抑揚の違いを補正して一致させた状態で、評価発話の話者を識別することができる。
 したがって、本変形例に係る話者識別装置11Aによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
 (変形例2)
 上記の実施の形態で説明した方法は、実施の形態及び変形例1で説明した場合に限らない。以下、実施の形態及び変形例1で説明した話者識別装置と異なる構成の場合について説明する。
 [6. 話者識別装置11B]
 図10は、本実施の形態の変形例2に係る話者識別装置11Bの詳細構成の一例を示すブロック図である。なお、図4及び図9等と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 話者識別装置11Bは、話者識別装置11と同様に、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置11Bは、評価発話の第1話者特徴量と登録話者ごとの登録発話の第2話者特徴量との類似度を計算する。そして、話者識別装置11Bは、計算した類似度に信頼性を付与させて得たスコアを、識別結果として出力する。本変形例では、信頼性として、重み付けを付与する場合について説明する。
 図10に示すように、本変形例に係る話者識別装置11Bは、図4に示す話者識別装置11に対して、話者識別処理部13Bの構成が異なる。また、本変形例に係る話者識別装置11Bは、図9に示す話者識別装置11Aに対して、話者識別処理部13Bの構成が異なる。
 [6.1 話者識別処理部13B]
 話者識別処理部13Bは、感情推定器12の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。
 ここで、話者識別処理部13Bが取得する音響特徴量は、前処理部10により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで得た複数の発話データのそれぞれから算出されている。
 本変形例では、話者識別処理部13Bは、図10に示すように、話者特徴量抽出部133Aと、記憶部134Aと、類似度計算部135Bと、信頼性付与部138Bとを備える。
 [6.1.1 類似度計算部135B]
 類似度計算部135Bは、話者特徴量抽出部133Aが抽出した第1話者特徴量と、記憶部134Aに記憶されている事前登録された第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量との類似度を計算する。
 本変形例では、類似度計算部135Bは、話者特徴量抽出部133Aにより抽出された第1話者特徴量と、記憶部134Aに記憶されている1以上の登録話者の「平静」の感情が含まれた登録発話における第2話者特徴量との類似度を計算する。
 [6.1.2 信頼性付与部138B]
 信頼性付与部138Bは、類似度計算部135Bにより計算された類似度に、感情推定器12の推定結果により示される感情に応じた重み付けを付与して、スコアとして出力する。ここで、信頼性付与部138Bは、一の感情と推定結果により示される感情とが一致する場合、計算された類似度に、最も大きい重み付けを付与する。
 本変形例では、信頼性付与部138Bは、類似度計算部135Bにより計算された、複数の発話データそれぞれに対する類似度に、感情推定器12により推定された、複数の発話データそれぞれに対する推定結果により示される感情に応じた重み付けを付与する。信頼性付与部138Bは、複数の発話データそれぞれにおける重み付けが付与された類似度を、複数の発話データそれぞれに対するスコアとして、話者識別部14に出力する。
 [7. 話者識別部14]
 話者識別部14は、例えば図2に示されているように話者識別システム1に備えられる場合、話者識別装置11Bにより出力されたスコアを用いて、発話データの話者を識別する。
 本変形例では、話者識別部14は、類似度計算部135Bにより出力された、重みが付与された類似度を表すスコアに基づいて、発話データの話者を識別する。より詳細には、話者識別部14は、信頼性付与部138Bにより出力された、複数の発話データそれぞれに対するスコアを算術平均したスコアである全体スコアを用いて、全体発話データの話者を識別する。ここで、話者識別部14は、全体スコアのうち閾値以上の全体スコアを用いて、全体発話の話者を識別する。そして、話者識別部14は、識別した全体発話の話者を識別結果として出力する。これにより、話者識別部14は、信頼性の高い全体スコアのみを用いて、全体スコアに対応する全体発話データの話者を精度よく識別することができる。
 [話者識別装置11Bの処理例]
 次に、以上のように構成された話者識別装置11Bの処理の一例について図11を用いて説明する。
 図11は、本実施の形態の変形例2に係る話者識別装置11Bの処理の一例を示す図である。図11の最上段には、話者識別装置11Bが取得する全体発話データが示されている。なお、全体発話データは、上述したように、所定期間における一の話者の発話の音声が変換された音声信号であり、識別単位ごとに分割された発話データで構成される。図11に示す例では、識別単位は、例えば3~4秒間隔であり、全体発話データは、12~16秒間の音声の音声信号であり、4つの識別単位の音声信号に分割されている。全体発話データを識別単位ごと分割したものが、上述した発話データに該当する。
 図11の2段目には、複数の発話データそれぞれにおける重み付与前のスコアと推定結果とが示されている。重み付与前のスコアは、話者識別装置11Bにより計算される、複数の発話データそれぞれにおける類似度を表している。推定結果は、話者識別装置11Bが全体発話データを構成する複数の発話データそれぞれに対して推定した、当該発話データが示す発話の音声に含まれる感情である。図11に示す例では、発話全体データの識別単位ごと(発話データごと)に、(スコア、感情)が(50、平静)、(50、怒り)、(50、ささやき声)、(50、怒り)と示されている。
 また、図11の3段目には、推定結果に基づき重み付与されたスコアが示されている。このスコアは、複数の発話データそれぞれにおける推定結果に基づき重み付与された類似度であって複数の発話データそれぞれにおける類似度を表している。図11に示す例では、推定結果により示される感情が平静のときに、最も大きな重み付けが付与されており、発話全体データの識別単位ごと(発話データごと)に、75、25、5、25となっている。なお、推定結果により示される感情が「平静」のときに、最も大きな重み付けが付与されている。これは、話者識別装置11Bが、登録話者の「平静」の感情が含まれた登録発話の第2話者特徴量を用いて複数の発話データそれぞれにおける類似度を計算しているからである。つまり、話者識別装置11Bが類似度を計算する際に用いる第2話者特徴量を得るために用いた登録発話に含まれ得る感情と一致するほど、計算した類似度に対する信頼性が高いとして、大きな重み付けが付与される。
 図11の4段目には、全体スコアが示されている。全体スコアは、発話全体データに対するスコアであり、上述したように複数の発話データそれぞれに対するスコアを算術平均したものである。図11に示す例では、32.5と算出されている。
 [効果等]
 以上のように、本変形例に係る話者識別装置11Bでは、話者識別処理部13Bは、評価発話と登録発話とに対して計算した類似度に、評価発話の感情の推定結果に基づく重みを付与させることで得たスコアを出力する。なお、話者識別処理部13Bは、推定結果により示される評価発話に含まれる感情が、登録発話に含まれる感情と一致するほど、計算した類似度に対する信頼性が高いとして、大きな重み付けを付与する。
 これにより、信頼性の高いスコアを用いることで、登録発話に含まれる感情と評価発話に含まれる感情とが近い(類似する)状態で評価発話の話者を識別することができる。
 したがって、本変形例に係る話者識別装置11Bによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
 なお、スコアの信頼性を確認することで、話者識別の結果の信頼性を確認してもよい。
 (変形例3)
 変形例2では、話者識別装置11Bは、計算した類似度に、評価発話に含まれる感情の推定結果に基づき重みを信頼性として付与させることで得たスコアを出力させる場合について説明した。変形例3では、話者識別装置11Cが、計算した類似度に、評価発話に含まれる感情の推定結果に基づく信頼度(具体的には信頼度を表す付加情報)を付与させて出力させる場合について説明する。以下、変形例3に係る話者識別装置11Cについて、変形例2で説明した話者識別装置11Bと異なる点を中心に説明する。
 [8. 話者識別装置11C]
 図12は、本実施の形態の変形例3に係る話者識別装置11Cの詳細構成の一例を示すブロック図である。なお、図4、図9及び図10等と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 話者識別装置11Cは、話者識別装置11Bと同様に、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置11Cは、評価発話の第1話者特徴量と登録話者ごとの登録発話の第2話者特徴量との類似度を表すスコアを計算する。そして、話者識別装置11Bは、計算した類似度に信頼度(信頼度を表す付加情報でもよい)を付与させて得たスコアを、識別結果として出力する。
 図12に示すように、本変形例に係る話者識別装置11Cは、図10に示す話者識別装置11Bに対して、話者識別処理部13Cの構成が異なる。より具体的には、本変形例に係る話者識別装置11Cは、図10に示す話者識別装置11Bに対して、信頼性付与部138Bがなく、信頼度付与部138Cを備える点で構成が異なる。
 [8.1 信頼度付与部138C]
 信頼度付与部138Cは、類似度計算部135Bにより計算された類似度に、感情推定器12の推定結果により示される感情に応じた信頼度を付与し、スコアとして出力する。ここで、信頼度付与部138Cは、一の感情と推定結果により示される感情とが一致する場合、計算された類似度に、最も高い信頼度を付与する。
 [9. 話者識別部14]
 話者識別部14は、話者識別装置11Cにより出力されたスコアを用いて、発話データの話者を識別する。
 本変形例では、話者識別部14は、類似度計算部135Bにより出力された、信頼度が付与された類似度を示すスコアに基づいて、発話データの話者を識別する。例えば、話者識別部14は、閾値以上の信頼度が付与されたスコアを用いて、発話データの話者を識別する。そして、話者識別部14は、識別した発話の話者を識別結果として出力する。これにより、話者識別部14は、信頼性の高いスコアのみを用いて、スコアに対応する発話データの話者を精度よく識別することができる。
 [効果等]
 以上のように、本変形例に係る話者識別装置11Cでは、話者識別処理部13Cは、評価発話と登録発話とに対して計算した類似度に、評価発話の感情の推定結果に基づく信頼度を表す付加情報を付与させることで得たスコアを出力する。例えば、話者識別処理部13Cは、推定結果により示される評価発話に含まれる感情が、登録発話に含まれる感情と一致するほど、計算した類似度に対する信頼度が高くなるような付加情報を付与する。
 これにより、信頼性の高いスコアを用いることで、登録発話に含まれる感情と評価発話に含まれる感情とが近い(類似する)状態で評価発話の話者を識別することができる。
 したがって、本変形例に係る話者識別装置11Cによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。
 なお、スコアの信頼度を確認することで、話者識別の結果の信頼性を確認してもよい。
 (他の実施態様の可能性)
 以上、実施の形態及び変形例等に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。
 例えば、上記実施の形態及び変形例等に係る話者識別装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
 また、集積回路化はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、またはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 また、本開示は、話者識別装置により実行される話者識別方法として実現されてもよい。
 また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。
 また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 以上、一つまたは複数の態様に係る話者識別装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本開示は、話者識別装置、話者識別方法、及び、プログラムに利用でき、例えば、会議議事録システム、コミュニケーション可視化システムなど、感情を含む自由発話を対象にして、当該自由発話の発話者を識別する話者識別装置、話者識別方法、及び、プログラムに利用できる。
 1 話者識別システム
 10 前処理部
 11、11A、11B、11C 話者識別装置
 12 感情推定器
 13、13A、13B、13C 話者識別処理部
 14 話者識別部
 101 音声取得部
 102 音響特徴量算出部
 121、1331 フレーム接続処理部
 122、1332b DNN
 123、134A、134b、136A、1333b 記憶部
 131 識別器選択部
 132、132a、132b 話者識別器
 133A、133b 話者特徴量抽出部
 135A、135B、135b 類似度計算部
 137A 補正部
 138B、138C 信頼性付与部

Claims (11)

  1.  識別対象の発話の音声を示す発話データの話者を識別する話者識別装置であって、
     学習済のDNN(Deep Neural Network)を用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定器と、
     前記感情推定器の推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理部とを備える、
     話者識別装置。
  2.  前記話者識別処理部は、
     それぞれ、前記音響特徴量が入力された場合に、入力された前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量抽出部が抽出した前記第1話者特徴量、及び、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量の類似度を計算する類似度計算部とを有する複数の話者識別器と、
     前記複数の話者識別器のうちの一の話者識別器であって前記推定結果により示される感情に応じた前記登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を前記記憶部に記憶している話者識別器を選択する識別器選択部とを備え、
     前記識別器選択部により選択された話者識別器は、前記発話データから算出された音響特徴量が入力されることで、前記類似度を計算し、前記スコアとして出力する、
     請求項1に記載の話者識別装置。
  3.  前記話者識別処理部は、
     前記音響特徴量から、前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、
     記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量を、前記推定結果により示される感情に応じた前記一の感情が含まれた音声それぞれを特定できる第3話者特徴量に補正する補正部と、
     抽出した前記第1話者特徴量と、前記補正部により補正された第3話者特徴量との類似度を計算し、前記スコアとして、計算した類似度を出力する類似度計算部とを備える、
     請求項1に記載の話者識別装置。
  4.  前記話者識別処理部は、
     前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、
     抽出した前記第1話者特徴量と、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量との類似度を計算する類似度計算部と、
     計算された前記類似度に、前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する信頼性付与部とを備え、
     前記信頼性付与部は、前記一の感情と前記推定結果により示される感情とが一致する場合に計算された前記類似度に、最も大きい重み付けを付与する、
     請求項1に記載の話者識別装置。
  5.  前記音響特徴量は、前処理部により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで取得された複数の発話データのそれぞれから算出され、
     前記信頼性付与部は、前記類似度計算部により計算された、前記複数の発話データそれぞれに対する前記類似度に、前記感情推定器により推定された、前記複数の発話データそれぞれに対する前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する、
     請求項4に記載の話者識別装置。
  6.  前記話者識別装置は、さらに、
     前記信頼性付与部により出力された、前記複数の発話データそれぞれに対する前記スコアを算術平均したスコアである全体スコアを用いて、前記全体発話データの話者を識別する話者識別部とを備え、
     前記話者識別部は、前記全体スコアのうち閾値以上の全体スコアを用いて、前記全体発話の話者を識別する、
     請求項5に記載の話者識別装置。
  7.  前記話者識別処理部は、
     前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第1話者特徴量を抽出する話者特徴量抽出部と、
     抽出した前記第1話者特徴量と、記憶部に記憶されている第2話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第2話者特徴量との類似度を計算する類似度計算部と、
     計算された前記類似度に、前記推定結果により示される感情に応じた信頼度を付与し、前記スコアとして出力する信頼度付与部とを備える、
     請求項1に記載の話者識別装置。
  8.  前記話者識別装置は、さらに、
     前記信頼度が閾値以上の前記スコアを用いて、前記発話データの話者を識別する話者識別部をさらに備える、
     請求項7に記載の話者識別装置。
  9.  前記話者特徴量抽出部は、学習済のDNNを用いて、前記音響特徴量から前記第1話者特徴量を抽出する、
     請求項2~8のいずれか1項に記載の話者識別装置。
  10.  識別対象の発話の音声を示す発話データの話者を識別する話者識別方法であって、
     学習済のDNNを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、
     前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップとを含む、
     話者識別方法。
  11.  識別対象の発話の音声を示す発話データの話者を識別する話者識別方法をコンピュータに実行させるプログラムであって、
     学習済のDNNを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、
     前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップと、をコンピュータに実行させる、
     プログラム。
PCT/JP2021/004224 2020-02-25 2021-02-05 話者識別装置、話者識別方法、及び、プログラム WO2021171956A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022503218A JPWO2021171956A1 (ja) 2020-02-25 2021-02-05
CN202180013727.1A CN115104152A (zh) 2020-02-25 2021-02-05 讲话者识别装置、讲话者识别方法以及程序
US17/883,972 US20220383880A1 (en) 2020-02-25 2022-08-09 Speaker identification apparatus, speaker identification method, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062981235P 2020-02-25 2020-02-25
US62/981,235 2020-02-25
JP2020146245 2020-08-31
JP2020-146245 2020-08-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/883,972 Continuation US20220383880A1 (en) 2020-02-25 2022-08-09 Speaker identification apparatus, speaker identification method, and recording medium

Publications (1)

Publication Number Publication Date
WO2021171956A1 true WO2021171956A1 (ja) 2021-09-02

Family

ID=77490407

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004224 WO2021171956A1 (ja) 2020-02-25 2021-02-05 話者識別装置、話者識別方法、及び、プログラム

Country Status (4)

Country Link
US (1) US20220383880A1 (ja)
JP (1) JPWO2021171956A1 (ja)
CN (1) CN115104152A (ja)
WO (1) WO2021171956A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100998A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 音声登録装置および音声登録方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862675B (zh) * 2023-02-10 2023-05-05 之江实验室 一种情感识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置
JP2020126125A (ja) * 2019-02-04 2020-08-20 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126125A (ja) * 2019-02-04 2020-08-20 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAHIN, ISMAIL: "Identifying speakers using their emotion cues", INTERNATIONAL JOURNAL OF SPEECH TECHNOLOGY, vol. 14, no. 2, 2011, pages 89 - 98, XP055851006, ISSN: 1381-2416, DOI: 10.1007/s10772-011-9089-1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100998A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 音声登録装置および音声登録方法

Also Published As

Publication number Publication date
US20220383880A1 (en) 2022-12-01
CN115104152A (zh) 2022-09-23
JPWO2021171956A1 (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
JP6437581B2 (ja) 話者適応型の音声認識
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
CN111640456B (zh) 叠音检测方法、装置和设备
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
Tsenov et al. Speech recognition using neural networks
Suresh et al. Phoneme State Posteriorgram Features for Speech Based Automatic Classification of Speakers in Cold and Healthy Condition.
Hadjadji et al. Emotion recognition in Arabic speech
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Chakroun et al. An improved approach for text-independent speaker recognition
Nguyen et al. Resident identification in smart home by voice biometrics
Afshan et al. Attention-based conditioning methods using variable frame rate for style-robust speaker verification
Lin et al. A Noise Robust Method for Word-Level Pronunciation Assessment.
CN107924677A (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
JP4391179B2 (ja) 話者認識システム及び方法
Hmich et al. Automatic speaker identification by using the neural network
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Baidwan et al. Comparative analysis of prosodic features and linear predictive coefficients for speaker recognition using machine learning technique

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21760742

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022503218

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21760742

Country of ref document: EP

Kind code of ref document: A1