WO2020049687A1 - 音声処理装置、音声処理方法、およびプログラム記録媒体 - Google Patents

音声処理装置、音声処理方法、およびプログラム記録媒体 Download PDF

Info

Publication number
WO2020049687A1
WO2020049687A1 PCT/JP2018/033027 JP2018033027W WO2020049687A1 WO 2020049687 A1 WO2020049687 A1 WO 2020049687A1 JP 2018033027 W JP2018033027 W JP 2018033027W WO 2020049687 A1 WO2020049687 A1 WO 2020049687A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
audio
statistic
feature
processing device
Prior art date
Application number
PCT/JP2018/033027
Other languages
English (en)
French (fr)
Inventor
山本 仁
孝文 越仲
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020540946A priority Critical patent/JP7107377B2/ja
Priority to PCT/JP2018/033027 priority patent/WO2020049687A1/ja
Priority to US17/273,360 priority patent/US20210327435A1/en
Publication of WO2020049687A1 publication Critical patent/WO2020049687A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Definitions

  • the present disclosure relates to an audio processing device, an audio processing method, and a program recording medium.
  • a speaker recognition device using this type of speech processing device includes a first speaker feature extracted from a first speech signal and a second speech feature extracted from a second speech signal. Evaluate the degree of similarity with the user characteristics Then, the speaker recognition device determines whether the speakers of the two audio signals are the same based on the evaluation result of the similarity.
  • Non-Patent Document 1 describes a technique for extracting speaker characteristics from a voice signal.
  • the speaker feature extraction technique described in Non-Patent Document 1 calculates speech statistics using a speech model. Then, the speaker feature extraction technique described in Non-Patent Document 1 processes the speech statistic based on a factor analysis technique, and calculates a vector represented by a predetermined number of elements. That is, in Non-Patent Document 1, a speaker feature vector is used as a speaker feature indicating the individuality of the speaker.
  • Non-Patent Document 1 has a problem that the accuracy of speaker recognition using the extracted speaker characteristics is not sufficient.
  • the technique described in Non-Patent Document 1 performs predetermined statistical processing on a speech signal input to a speaker feature extraction device to calculate a speaker feature vector. Specifically, the technique described in Non-Patent Document 1 performs an acoustic analysis process on a speech signal input to the speaker feature extraction device in units of subsections, so that the speaker can recognize individual sounds. The personality features representing the voice quality to be emitted are calculated, and statistical processing is performed on them to calculate the speaker feature vector of the entire voice signal. Therefore, the technique described in Non-Patent Document 1 cannot capture the individuality of a speaker appearing in a wider range than the above-described partial section of the audio signal. Therefore, the accuracy of speaker recognition may be impaired.
  • the present disclosure has been made in view of the above problems, and one example of an object thereof is to provide a voice processing device, a voice processing method, and a program recording medium with improved speaker recognition accuracy.
  • An audio processing device includes an audio statistic calculation unit configured to calculate an audio statistic that indicates a degree of appearance of each of the types of sounds included in an audio signal that represents audio.
  • a second feature value calculating unit configured to calculate a second feature value for recognizing specific attribute information based on a temporal change of the voice statistic.
  • the sound processing method calculates a sound statistic representing an appearance degree of each of the types of sounds included in a sound signal representing a sound, and specifies a specific statistic based on a time change of the sound statistic.
  • a second feature value for recognizing the attribute information is calculated.
  • a program recording medium is configured to calculate a sound statistic representing a frequency of appearance of each type of sound included in a sound signal representing a sound, and based on a time change of the sound statistic, A program for causing a computer to execute a process of calculating a second feature amount for recognizing specific attribute information is recorded.
  • FIG. 3 is a block diagram illustrating a hardware configuration of a computer device that implements the device according to each embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration of the audio processing device according to the first embodiment.
  • FIG. 4 is a diagram schematically illustrating a method in which a second feature value calculation unit of the audio processing device according to the first embodiment calculates a second feature value.
  • FIG. 4 is a diagram schematically illustrating a method in which a second feature value calculation unit of the audio processing device according to the first embodiment calculates a second feature value.
  • FIG. 4 is a diagram schematically illustrating a method in which a second feature value calculation unit of the audio processing device according to the first embodiment calculates a second feature value.
  • FIG. 5 is a flowchart illustrating an example of an operation of the audio processing device according to the first embodiment.
  • FIG. 9 is a block diagram illustrating a configuration of an audio processing device 200 according to a second embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration of the audio processing device according to the embodiment having the minimum configuration.
  • FIG. 1 is a block diagram illustrating a hardware configuration of a computer device 10 that implements the audio processing device and the audio processing method according to each embodiment. Note that, in each embodiment, each component of the audio processing device described below indicates a block of a functional unit. Each component of the audio processing device can be realized by, for example, an arbitrary combination of a computer device 10 and software as shown in FIG.
  • the computer device 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, a storage device 14, an input / output interface 15, and a bus 16.
  • a processor 11 a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, a storage device 14, an input / output interface 15, and a bus 16.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the storage device 14 stores the program 18.
  • the processor 11 uses the RAM 12 to execute a program 18 relating to the audio processing device or the audio processing method.
  • the program 18 may be stored in the ROM 13. Further, the program 18 may be recorded on the recording medium 20 and read by the drive device 17, or may be transmitted from an external device via a network.
  • the input / output interface 15 exchanges data with peripheral devices (keyboard, mouse, display device, etc.) 19.
  • the input / output interface 15 can function as a unit for acquiring or outputting data.
  • the bus 16 connects the components.
  • each unit of the audio processing device can be realized as hardware (dedicated circuit).
  • the voice processing device can be realized by a combination of a plurality of devices.
  • a program that causes the configuration of each embodiment to operate so as to realize the functions of the present embodiment and other embodiments (more specifically, a program that causes a computer to execute the processing illustrated in FIG. 4 and the like) is recorded on a recording medium.
  • a processing method of reading a program recorded on the recording medium as a code and executing the program on a computer is also included in the scope of each embodiment. That is, a computer-readable recording medium is also included in the scope of each embodiment.
  • not only a recording medium on which the above-described program is recorded, but also the program itself is included in each embodiment.
  • a floppy (registered trademark) disk for example, a hard disk, an optical disk, a magneto-optical disk, a CD (Compact @ Disc) -ROM, a magnetic tape, a nonvolatile memory card, and a ROM can be used.
  • a program that executes processing by the program recorded on the recording medium alone but also a program that operates on an OS (Operating @ System) and executes processing in cooperation with other software and functions of an extension board. Is also included in the category of each embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration of the audio processing device 100 according to the first embodiment.
  • the voice processing device 100 includes a voice section detection unit 110, a voice statistic calculation unit 120, a first feature value calculation unit 130, a second feature value calculation unit 140, and a voice model storage unit 150. Prepare.
  • the voice section detection unit 110 receives a voice signal from the outside.
  • the voice signal is a signal representing a voice based on the utterance of the speaker.
  • the voice section detection unit 110 detects and segments voice sections included in the received voice signal.
  • the voice section detection unit 110 may partition the voice signal into a certain length or into different lengths. For example, the voice section detection unit 110 may determine a section in which the volume of the voice signal is smaller than a predetermined value continuously for a certain period of time as silence, and determine the preceding and following sections as different voice sections to classify. Then, the speech section detection unit 110 outputs the segmented speech signal that is the segmentation result (the processing result of the speech section detection unit 110) to the speech statistic calculation unit 120.
  • the reception of the audio signal is, for example, reception of an audio signal from an external device or another processing device, or delivery of a processing result of the audio signal processing from another program.
  • the output is, for example, transmission to an external device or another processing device, or delivery of a processing result of the voice section detection unit 110 to another program.
  • the voice statistic calculation unit 120 receives the segmented voice signal from the voice section detection unit 110.
  • the speech statistic calculation unit 120 calculates an acoustic feature based on the received segmented speech signal, and uses the calculated acoustic feature and one or more speech models (details will be described later) to generate the segmented speech.
  • the type of sound is, for example, a group determined by linguistic knowledge such as phonemes.
  • the type of sound may be a group of sounds obtained by clustering audio signals based on similarity.
  • the audio statistic calculation unit 120 outputs the calculated audio statistic (the processing result of the audio statistic calculation unit 120).
  • the voice statistic calculation unit 120 serves as a voice statistic calculation unit that calculates a voice statistic indicating the appearance of each of the types of sounds included in the voice signal indicating the voice.
  • the audio statistic calculation unit 120 first calculates an acoustic feature by performing frequency analysis processing on the received audio signal. A procedure in which the audio statistic calculation unit 120 calculates the acoustic feature will be described.
  • the audio statistic calculation unit 120 converts the segmented audio signal received from the audio section detection unit 110 into a short-time frame time series by cutting out and arranging the frame as a frame for each short time. Then, the voice statistic calculation unit 120 performs frequency analysis on each frame of the short-time frame time series, and calculates an acoustic feature as a processing result.
  • the voice statistic calculation unit 120 generates, for example, a frame of a 25-ms section every 10 ms as a short-time frame time series.
  • the voice statistic calculation unit 120 calculates a frequency filter bank feature which is an acoustic feature by performing, for example, a fast Fourier transform (FFT) and a filter bank process as a frequency analysis process.
  • FFT fast Fourier transform
  • the speech statistic calculation unit 120 performs a discrete cosine transform process in addition to the FFT and the filter bank process, thereby calculating a mel frequency cepstrum coefficient (Mel-Frequency Cepstrum Coefficients: MFCC) which is an acoustic feature.
  • MFCC mel frequency cepstrum coefficient
  • the voice statistic calculation unit 120 calculates the voice statistic using the calculated acoustic feature and one or more voice models stored in the voice model storage unit 150.
  • the voice model storage unit 150 stores one or more voice models.
  • the audio model is configured to identify the type of sound represented by the audio signal.
  • the speech model stores the correspondence between acoustic features and types of sounds.
  • the speech statistic calculation unit 120 calculates a time series of numerical information indicating a type of sound using the time series of the acoustic feature and the speech model.
  • the speech model is a model that has been trained in advance according to a general optimization criterion using a speech signal prepared for training (training speech signal).
  • the voice model storage unit 150 stores, for example, two or more voice models trained for each of a plurality of training voice signals, such as gender of a speaker (male or female) and recording environment (indoor or outdoor). May be.
  • the audio processing device 100 includes the audio model storage unit 150.
  • the audio model storage unit 150 may be realized by a storage device separate from the audio processing device 100. Good.
  • the speech statistic calculation unit 120 extracts the parameters (average, variance) of each of the plurality of element distributions and the mixing coefficient of each of the element distributions from the speech model (GMM), and calculates the calculated acoustic feature and the extracted parameter of the element distribution.
  • the posterior probability of each element distribution is calculated based on (mean, variance) and the mixing coefficient of each element distribution.
  • the posterior probability of each element distribution is the appearance frequency of each type of sound included in the audio signal.
  • the posterior probability P i (x) of the i-th element distribution of the Gaussian mixture model can be calculated by the following equation (1).
  • the function N () denotes the probability density function of Gaussian distribution
  • theta i represents the mixing coefficient parameters (mean and variance)
  • w i is the i-th element distribution of GMM of i-th element distribution of GMM .
  • the speech statistic calculation unit 120 extracts the parameters (weight coefficients and bias coefficients) of each element from the speech model (neural network), and calculates the calculated acoustic features and the parameters (weight coefficients and bias coefficients) of the extracted elements. Based on this, the appearance degree of each type of sound included in the audio signal is calculated.
  • the appearance rates of the types of sounds included in the audio signal calculated as described above are audio statistics.
  • the first feature amount calculation unit 130 receives the audio statistic output from the audio statistic calculation unit 120.
  • the first feature value calculation unit 130 calculates a first feature value using the audio statistic.
  • the first feature amount is information for recognizing specific attribute information from an audio signal.
  • the first feature amount calculation unit 130 includes a first feature amount calculation unit that calculates a first feature amount for recognizing specific attribute information indicating a voice quality feature of the speaker based on the voice statistics. Carry.
  • the first feature value calculation unit 130 calculates a feature vector F (x) based on i-vector as the first feature value of the audio signal x.
  • the first feature value F (x) calculated by the first feature value calculation unit 130 is a vector that can be calculated by performing a predetermined operation on the audio signal x, and is a feature representing the voice quality of the speaker. I-vector is one example.
  • the first feature value calculation unit 130 outputs, for example, the posterior probability calculated for each short-time frame (hereinafter, also referred to as “sound posterior probability”) as the voice statistic of the voice signal x from the voice statistic calculation unit 120. It receives P t (x) and an acoustic feature A t (x) (t is a natural number of 1 or more and L or less, and L is a natural number of 1 or more). P t (x) is a vector having the number of elements C.
  • the first feature amount calculation unit 130 uses the acoustic posterior probability P t (x) and the acoustic feature A t (x) to calculate the zero-order statistic S 0 (0) of the audio signal x based on the following equation (2). x) is calculated. Then, the first feature quantity calculation unit 130 calculates the primary statistic S 1 (x) based on the equation (3).
  • the first feature amount calculation unit 130 calculates F (x), which is the i-vector of the audio signal x, based on the following equation (4).
  • P t, c (x) is the value of the c-th element of P t (x)
  • L is the number of frames obtained from the audio signal x
  • S 0, c the value of c-th element of the statistic S 0 (x)
  • C is the statistic S 0 (x) and S 1 the number of elements (x)
  • D is the number of elements of the acoustic feature a t (x) (dimension Number)
  • mc is an average vector of the acoustic feature of the c-th region in the acoustic feature space
  • ID is a unit matrix (the number of elements is D ⁇ D)
  • 0 is a zero matrix (the number of elements is D ⁇ D).
  • the superscript T represents a transposed matrix
  • the non-superscript T is a parameter for i-vector calculation.
  • is a covariance matrix of acoustic features in the acoustic feature space.
  • the first feature value calculation unit 130 calculates the feature vector F (x) based on i-vector as the first feature value F (x).
  • the second feature value calculation unit 140 serves as a second feature value calculation unit that calculates a second feature value for recognizing specific attribute information based on a time change of the audio statistic.
  • the second feature value calculation unit 140 outputs, for example, the acoustic posterior probability P t (x) (t is 1 or more) calculated for each short-time frame from the voice statistic calculation unit 120 as the voice statistic of the voice signal x.
  • T is a natural number equal to or less than T, and T is a natural number equal to or greater than 1.
  • Second feature quantity calculation unit 140 uses an acoustic posterior probability P t (x), calculates the acoustic posterior probability difference ⁇ P t (x).
  • the second feature amount calculation unit 140 calculates the acoustic posterior probability difference ⁇ P t (x) using, for example, the following equation (5).
  • ⁇ P t (x) P t (x) ⁇ P t ⁇ 1 (x) (5) It is calculated by: That is, the second feature amount calculation unit 140 calculates a difference between adjacent (at least two) acoustic posterior probabilities of the index as an acoustic posterior probability difference ⁇ P t (x). Then, the second feature amount calculation unit 140 converts the speaker feature vector calculated by replacing A t (x) in the above equations (2) to (4) with ⁇ P t (x) to the second feature It is calculated as the quantity F2 (x).
  • the second feature amount calculating unit 140 may use some of the indices, such as only the even number or only the odd number.
  • the second feature amount calculation unit 140 determines, with respect to the audio signal x, the time change of the appearance frequency (speech statistic) of each type of sound included in the audio signal x.
  • the feature vector F2 (x) is calculated using the acoustic posterior probability difference ⁇ P t (x) as the information (statistical quantity) representing.
  • the information indicating the temporal change of the voice statistic indicates the individuality of the speaker's way of speaking. That is, the voice processing device 100 can output a feature amount representing the individuality of the speaker's way of speaking.
  • the second feature amount calculation unit 140 externally outputs text information L n (x) (n is a natural number of 1 or more and N or less, and N is 1 or more) which is a symbol string representing the reading (speech content) of the audio signal x. Natural numbers).
  • the text information is, for example, a phoneme string.
  • 3A to 3C are diagrams schematically illustrating a method in which the second feature amount calculation unit 140 calculates F2 (x).
  • the second feature amount calculation unit 140 receives the acoustic posterior probability P t (x) as the voice statistic from the voice statistic calculation unit 120, as in the above example.
  • P t (x) is a 40-dimensional vector.
  • the second feature amount calculation unit 140 associates each element of the text information L n (x) with each element of the acoustic posterior probability P t (x). For example, it is assumed that the element of the text information L n (x) is a phoneme, and the type of sound corresponding to the element of the acoustic posterior probability P t (x) is a phoneme. At this time, the second feature amount calculation unit 140 uses, for example, a matching algorithm based on dynamic programming by using the appearance probability value of each phoneme at each index t of the acoustic posterior probability P t (x) as a score, Each element of the text information L n (x) is associated with each element of the acoustic posterior probability P t (x).
  • the maximum score for each frame is underlined.
  • the score is higher when associated with “/ a /” than when associated with “/ k /”.
  • a pattern that maximizes the total score of each phoneme is selected from a large number of patterns such as “akaaaaa”, “akaaaa”, and “akkaaaa”.
  • aaakkaa is the pattern with the largest total score, that is, the result of association.
  • Second feature quantity calculation unit 140 calculates the index number O n acoustic posterior probability P t (x) which can be associated to each element of text information L n (x).
  • the index number O n of the text information "/ a / / k / / a / ", the first "/ a /” acoustic post it was to be associated with the probability P t (x) " 3 ".
  • "/ k /" index number O n of the associated it can sound posterior probability P t (x) is "2”
  • the acoustic posterior probability P t which can be associated to the next "/ a /” index number O n of (x) is "2".
  • Second feature quantity calculation unit 140 the vector index number O n text information L n (x) of the acoustic posterior probability could be associated with each element P t (x) and the element, the second It is calculated as a feature value F2 (x).
  • Each value of the index number O n represents the utterance time length of each phoneme (symbol) of the text information L n (x).
  • the second feature amount calculation unit 140 further uses the text information representing the reading of the voice signal x for the voice signal x, thereby uttering each element of the text information.
  • the feature vector F2 (x) is calculated using the time length.
  • the voice processing device 100 can output a feature amount representing the individuality of the speaker's way of speaking.
  • the first feature amount calculation unit 130 can calculate the feature vector representing the voice quality of the speaker.
  • the second feature amount calculation unit 140 can calculate a feature vector representing the individuality of the speaker's way of speaking.
  • a feature vector can be output to the speech signal in consideration of the voice quality and the way of speaking of the speaker. That is, since the speech processing apparatus 100 according to the present embodiment can calculate at least a feature vector representing the individuality of the speaker's way of speaking, it can calculate a speaker feature suitable for improving the accuracy of speaker recognition.
  • FIG. 4 is a flowchart illustrating an example of the operation of the audio processing device 100.
  • the voice processing device 100 receives one or more voice signals from the outside and provides it to the voice section detection unit 110.
  • the voice section detection unit 110 partitions the received voice signal, and outputs the partitioned voice signal to the voice statistic calculation unit 120 (step S101).
  • the audio statistic calculation unit 120 performs a short-time frame analysis process on each of the received one or more segmented audio signals, and calculates a time series of the audio feature and the audio statistic (step S102).
  • the first feature value calculation unit 130 calculates and outputs a first feature value based on the time series of the received one or more acoustic features and the voice statistics. (Step S103).
  • the second feature amount calculation unit 140 calculates and outputs a second feature amount based on the time series of the received one or more acoustic features and the audio statistics. (Step S104). When the reception of the audio signal from the outside ends, the sound processing device 100 ends a series of processing.
  • the accuracy of speaker recognition using the speaker characteristics calculated by the speech processing device 100 can be improved.
  • the first feature value calculation unit 130 calculates the first feature value representing the voice quality of the speaker
  • the second feature value calculation unit 140 calculates the second feature value representing the speaker's speech style. This is because, by calculating the feature amount, a feature vector considering both the voice quality and the way of speaking of the speaker is output as the feature amount.
  • a feature vector is calculated for a speech signal in consideration of a speaker's voice quality and a way of speaking.
  • features suitable for speaker recognition are based on differences in how to speak, for example, differences in the speed of speaking words and the timing of sound switching in words. The quantity can be determined.
  • FIG. 5 is a block diagram illustrating a configuration of an audio processing device 200 according to a second embodiment.
  • the voice processing device 200 further includes an attribute recognition unit 160 in addition to the voice processing device 100 described in the first embodiment.
  • the attribute recognition unit 160 may be provided in another device that can communicate with the voice processing device 100.
  • the attribute recognizing unit 160 serves as an attribute recognizing unit that recognizes specific attribute information included in the audio signal based on the second feature amount.
  • the attribute recognition unit 160 can perform speaker recognition for estimating the speaker of the audio signal. it can.
  • the attribute recognizing unit 160 determines the similarity between the two second feature amounts from the second feature amount calculated from the first audio signal and the second feature amount calculated from the second audio signal.
  • the cosine similarity is calculated as an index to be expressed. For example, when the purpose is speaker verification, it is possible to output determination information on whether or not verification is possible based on the similarity.
  • a plurality of second audio signals are prepared for the first audio signal, and for example, a second feature amount calculated from the first audio signal, The similarity of each of the second feature amounts calculated from each of the plurality of second audio signals may be obtained, and a set having a large similarity value may be output.
  • the speech processing device 200 allows the attribute recognizing unit 160 to estimate the speaker based on the similarity between the feature amounts calculated from the plurality of speech signals. The effect that person recognition can be performed is obtained.
  • the attribute recognizing unit 160 uses the second feature amount calculated by the second feature amount calculating unit 140 and the first feature amount calculated by the first feature amount calculating unit 130 to generate a voice. Speaker recognition for estimating the speaker of the signal may be performed. Thereby, the attribute recognition unit 160 can further improve the accuracy of speaker recognition.
  • FIG. 6 is a block diagram illustrating a functional configuration of the audio processing device 100 according to the embodiment having the minimum configuration of the present disclosure. As shown in FIG. 6, the audio processing device 100 includes an audio statistic calculation unit 120 and a second feature amount calculation unit 140.
  • the voice statistic calculation unit 120 calculates voice statistic representing the appearance of each type of sound included in the voice signal representing voice.
  • the second feature value calculation unit 140 calculates a second feature value for recognizing specific attribute information based on a temporal change of the audio statistic.
  • the voice processing device 100 is an example of a feature value calculation device that calculates a feature value for recognizing specific attribute information from a voice signal.
  • the voice processing device 100 can be used as a speaker feature extracting device when a specific attribute is a speaker that has emitted a voice signal.
  • the speech processing apparatus 100 includes, for example, a speech recognition device having a mechanism for adapting to a feature of the speaker's way of speaking based on speaker information estimated using the speaker feature for a speech signal of a sentence utterance. It can also be used as part of the device.
  • the information indicating the speaker may be information indicating the gender of the speaker, or information indicating the age or age group of the speaker.
  • the audio processing device 100 can be used as a language feature calculation device when a specific attribute is information indicating a language transmitted by the audio signal (a language constituting the audio signal).
  • the speech processing apparatus 100 is also used as a part of a speech translation apparatus having a mechanism for selecting a language to be translated based on language information estimated using the language feature, for example, for a speech signal of a sentence utterance. It is possible.
  • the voice processing device 100 can be used as an emotion feature calculation device when the specific attribute is information indicating the emotion of the speaker when speaking.
  • the voice processing device 100 includes, for example, a mechanism that specifies a voice signal corresponding to a specific emotion based on emotion information estimated using the emotion feature with respect to the stored voice signals of a large number of utterances. It can also be used as a part of a voice search device or a voice display device.
  • the emotion information includes, for example, information indicating an emotional expression, information indicating the character of the speaker, and the like.
  • the specific attribute information in the present embodiment includes the speaker emitting the audio signal, the language constituting the audio signal, the emotional expression included in the audio signal, and the character of the speaker estimated from the audio signal. This is information indicating at least one of them.
  • the speech processing device and the like have an effect of extracting a feature vector in consideration of a way of speaking a phrase in addition to a speaker's voice quality, and improving the accuracy of speaker recognition. This is useful as a voice processing device or the like and a speaker recognition device.
  • REFERENCE SIGNS LIST 100 voice processing device 110 voice section detection unit 120 voice statistic calculation unit 130 first feature value calculation unit 140 second feature value calculation unit 150 voice model storage unit 160 attribute recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

話者認識の精度を高めた音声処理装置、音声処理方法およびプログラム記録媒体を提供する。 音声処理装置100は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出部120と、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出部140と、を備える。

Description

音声処理装置、音声処理方法、およびプログラム記録媒体
 本開示は、音声処理装置、音声処理方法、およびプログラム記録媒体に関する。
 音声信号から、音声を発した話者を特定するための個人性を表す話者特徴を算出する音声処理装置が知られている。また、この話者特徴を用いて、音声信号を発した話者を推定する話者認識装置が知られている。
 この種の音声処理装置を用いる話者認識装置は、話者を特定するために、第1の音声信号から抽出した第1の話者特徴と、第2の音声信号から抽出した第2の話者特徴との類似度を評価する。そして、話者認識装置は、類似度の評価結果に基づいて2つの音声信号の話者が同一か判定する。
 非特許文献1には、音声信号から話者特徴を抽出する技術が記載されている。非特許文献1に記載の話者特徴抽出技術は、音声モデルを用いて音声統計量を算出する。そして、非特許文献1に記載の話者特徴抽出技術は、因子分析技術に基づいてその音声統計量を処理し、所定の要素数で表現されるベクトルとして算出する。すなわち、非特許文献1においては、話者特徴ベクトルを話者の個人性を表す話者特徴として利用する。
Najim Dehak, Patrick Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech and Language Processing, Vol. 19, No. 4, pp. 788-798, 2011.
 しかしながら、非特許文献1に記載の技術には、抽出した話者特徴を用いる話者認識の精度が十分でないという問題があった。
 非特許文献1に記載の技術は、話者特徴抽出装置に入力された音声信号に対して所定の統計処理を行い、話者特徴ベクトルを算出する。具体的には、非特許文献1に記載の技術は、話者特徴抽出装置に入力された音声信号について、部分区間の単位で音響的な分析処理を行うことで、話者が個々の音を発する声質を表す個人性特徴を算出し、それらに対して統計処理を行うことにより、音声信号全体の話者特徴ベクトルを算出している。そのため、非特許文献1に記載の技術は、音声信号の上記の部分区間よりも広い範囲で現れる話者の個人性を捉えることができない。よって、話者認識の精度を損なうおそれがある。
 本開示は、上記問題に鑑みてなされたものであり、その目的の一例は、話者認識の精度を高めた音声処理装置、音声処理方法およびプログラム記録媒体を提供することにある。
 本開示の一態様にかかる音声処理装置は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段と、
 前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段と、を備える。
 本開示の一態様にかかる音声処理方法は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出し、前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する。
 本開示の一態様にかかるプログラム記録媒体は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する処理と、前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する処理とを、コンピュータに実行させるプログラムを記録する。
 本開示によれば、話者認識の精度を高めた音声処理装置、音声処理方法、およびプログラム記録媒体を提供することができる。
各実施形態における装置を実現するコンピュータ装置のハードウェア構成を示すブロック図である。 第1の実施形態における音声処理装置の機能構成を示すブロック図である。 第1の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。 第1の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。 第1の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。 第1の実施形態における音声処理装置の動作の一例を示すフローチャートである。 第2の実施形態に係る音声処理装置200の構成を示すブロック図である。 最小構成の実施形態にかかる音声処理装置の機能構成を示すブロック図である。
 以下、実施形態について、図面を参照して説明する。なお、実施形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。また、図面における矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
 第1の実施形態
 第1の実施形態および他の実施形態にかかる音声処理装置を構成するハードウェアについて説明する。図1は、各実施形態における音声処理装置および音声処理方法を実現するコンピュータ装置10のハードウェア構成を示すブロック図である。なお、各実施形態において、以下に示す音声処理装置の各構成要素は、機能単位のブロックを示している。音声処理装置の各構成要素は、例えば図1に示すようなコンピュータ装置10とソフトウェアとの任意の組み合わせにより実現することができる。
 図1に示すように、コンピュータ装置10は、プロセッサ11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、記憶装置14、入出力インタフェース15およびバス16を備える。
 記憶装置14は、プログラム18を格納する。プロセッサ11は、RAM12を用いて音声処理装置または音声処理方法にかかるプログラム18を実行する。プログラム18は、ROM13に記憶されていてもよい。また、プログラム18は、記録媒体20に記録され、ドライブ装置17によって読み出されてもよいし、外部装置からネットワークを介して送信されてもよい。
 入出力インタフェース15は、周辺機器(キーボード、マウス、表示装置など)19とデータをやり取りする。入出力インタフェース15は、データを取得または出力する手段として機能することができる。バス16は、各構成要素を接続する。
 なお、音声処理装置の実現方法には様々な変形例がある。例えば、音声処理装置の各部は、ハードウェア(専用回路)として実現することができる。また、音声処理装置は、複数の装置の組み合わせにより実現することができる。
 本実施形態および他の実施形態の機能を実現するように各実施形態の構成を動作させるプログラム(より具体的には、図4等に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 図2は、第1の実施形態における音声処理装置100の機能構成を示すブロック図である。図2に示すように、音声処理装置100は、音声区間検出部110、音声統計量算出部120、第一の特徴量算出部130、第二の特徴量算出部140および音声モデル記憶部150を備える。
 音声区間検出部110は、外部から音声信号を受け取る。音声信号は、話者の発声に基づく音声を表す信号である。音声区間検出部110は、受け取った音声信号に含まれる音声区間を検出して区分化する。このとき、音声区間検出部110は、音声信号を一定の長さに区分化してもよいし、異なる長さに区分化してもよい。例えば、音声区間検出部110は、音声信号のうち音量が一定時間継続して所定値より小さい区間を無音と判定し、その区間の前後を、異なる音声区間と判定して区分化してもよい。そして、音声区間検出部110は、区分化した結果(音声区間検出部110の処理結果)である区分化音声信号を音声統計量算出部120に出力する。ここで、音声信号の受け取りとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの音声信号処理の処理結果の引き渡しのことである。また、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへの音声区間検出部110の処理結果の引き渡しのことである。
 音声統計量算出部120は、音声区間検出部110から区分化音声信号を受け取る。音声統計量算出部120は、受け取った区分化音声信号に基づいて、音響特徴を算出し、算出した音響特徴と1つ以上の音声モデル(詳細は後述する)とを用いて、該区分化音声信号に含まれる音の種類に関する音声統計量を算出する。ここで、音の種類とは、例えば、音素等の言語知識により定まるグループである。音の種類は、また、音声信号を類似度に基づいてクラスタリングして得られる音のグループであってもよい。そして、音声統計量算出部120は、算出した音声統計量(音声統計量算出部120の処理結果)を出力する。以降、ある音声信号に対して算出された音声統計量を、該音声信号の音声統計量と呼ぶ。音声統計量算出部120は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段を担う。
 音声統計量算出部120が、音声統計量を算出する方法の一例について説明する。音声統計量算出部120は、まず、受け取った音声信号を周波数分析処理することにより音響特徴を算出する。音声統計量算出部120が音響特徴を算出する手順について説明する。
 音声統計量算出部120は、例えば、音声区間検出部110から受け取った区分化音声信号を、短時間毎にフレームとして切り出して配列することにより短時間フレーム時系列に変換する。そして、音声統計量算出部120は、短時間フレーム時系列のそれぞれのフレームを周波数分析し、その処理結果として音響特徴を算出する。音声統計量算出部120は、例えば、短時間フレーム時系列として、25ミリ秒区間のフレームを10ミリ秒ごとに生成する。
 音声統計量算出部120は、例えば、周波数分析処理として、高速フーリエ変換処理(Fast Fourier Transform:FFT)およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、音声統計量算出部120は、FFTおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients:MFCC)などを算出する。
 次に、音声統計量算出部120が、算出した音響特徴と音声モデル記憶部150に記憶されている1つ以上の音声モデルとを用いて、音声統計量を算出する手順について説明する。
 音声モデル記憶部150は、1つ以上の音声モデルを記憶する。音声モデルは、音声信号が表す音の種類を識別するように構成される。音声モデルは、音響特徴と音の種類との対応関係を格納する。音声統計量算出部120は、音響特徴の時系列と、音声モデルとを用いて、音の種類を表す数値情報の時系列を算出する。音声モデルは、訓練用に用意された音声信号(訓練用音声信号)を用いて、一般的な最適化基準に従って予め訓練されたモデルである。音声モデル記憶部150は、例えば、話者の性別(男性または女性)、録音環境別(屋内または屋外)等のように複数の訓練用音声信号毎に訓練された2つ以上の音声モデルを記憶してもよい。なお、図2の例では、音声処理装置100が音声モデル記憶部150を備えているが、音声モデル記憶部150は、音声処理装置100とは別個の記憶装置で実現されるものであってもよい。
 例えば、用いる音声モデルがガウス混合モデル(Gaussian Mixture Model:GMM)であるとき、GMMが有する複数の要素分布はそれぞれ異なる音の種類に対応する。そこで、音声統計量算出部120は、音声モデル(GMM)から複数の要素分布それぞれのパラメタ(平均、分散)および各要素分布の混合係数を取り出し、算出した音響特徴と、取り出した要素分布のパラメタ(平均、分散)および各要素分布の混合係数に基づいて、各要素分布の事後確率を算出する。ここで、各要素分布の事後確率は、音声信号に含まれる音の種類のそれぞれの出現度である。音声信号xについて、ガウス混合モデルのi番目の要素分布の事後確率P(x)は、以下の式(1)で計算できる。
Figure JPOXMLDOC01-appb-I000001
 ここで、関数N()はガウス分布の確率密度関数を表し、θはGMMのi番目の要素分布のパラメタ(平均と分散)、wはGMMのi番目の要素分布の混合係数を示す。
 また、例えば、用いる音声モデルがニューラルネットワーク(Neural Network)であるとき、ニューラルネットワークが有する出力層の各要素がそれぞれ異なる音の種類に対応する。そこで、音声統計量算出部120は、音声モデル(ニューラルネットワーク)から各要素のパラメタ(重み係数、バイアス係数)を取り出し、算出した音響特徴と、取り出した要素のパラメタ(重み係数、バイアス係数)に基づいて、音声信号に含まれる音の種類のそれぞれの出現度を算出する。
 以上のように算出した、音声信号に含まれる音の種類のそれぞれの出現度が、音声統計量である。第一の特徴量算出部130は、音声統計量算出部120が出力した音声統計量を受け取る。第一の特徴量算出部130は、音声統計量を用いて、第一の特徴量を算出する。第一の特徴量とは、音声信号から特定の属性情報を認識するための情報である。第一の特徴量算出部130は、音声統計量に基づいて、話者の声質特徴を示す、特定の属性情報を認識するための第一の特徴量を算出する第一の特徴量算出手段を担う。
 第一の特徴量算出部130が第一の特徴量を算出する手順の一例を説明する。ここでは、第一の特徴量算出部130は、音声信号xの第一の特徴量として、i-vectorに基づく特徴ベクトルF(x)を算出する例を説明する。なお、第一の特徴量算出部130が算出する第一の特徴量F(x)は、音声信号xに対して所定の演算を施して算出できるベクトルであって、話者の声質を表す特徴であればよく、i-vectorはその一例である。
 第一の特徴量算出部130は、音声統計量算出部120から、音声信号xの音声統計量として、例えば、短時間フレームごとに算出された事後確率(以降、「音響事後確率」とも称する)P(x)および音響特徴A(x)(tは1以上L以下の自然数、Lは1以上の自然数)を受け取る。P(x)は、要素数Cのベクトルである。第一の特徴量算出部130は、音響事後確率P(x)および音響特徴A(x)を用いて、以下の式(2)に基づいて音声信号xの0次統計量S(x)を算出する。そして、第一の特徴量算出部130は、式(3)に基づいて1次統計量S(x)を算出する。

Figure JPOXMLDOC01-appb-I000002

Figure JPOXMLDOC01-appb-I000003
 第一の特徴量算出部130は、続いて、以下の式(4)に基づいて、音声信号xのi-vectorであるF(x)を算出する。
Figure JPOXMLDOC01-appb-I000004
 上記の式(2)~(4)において、Pt,c(x)は、P(x)のc番目の要素の値、Lは、音声信号xから得たフレーム数、S0,cは、統計量S(x)のc番目の要素の値、Cは統計量S(x)およびS(x)の要素数、Dは音響特徴A(x)の要素数(次元数)、mは音響特徴空間におけるc番目の領域の音響特徴の平均ベクトル、Iは単位行列(要素数はD×D)、0は零行列(要素数はD×D)を表す。上付き文字のTは、転置行列を表し、上付き文字でないTはi-vector計算用のパラメータである。Σは音響特徴空間における音響特徴の共分散行列である。
 以上のように、第一の特徴量算出部130は、第一の特徴量F(x)としてi-vectorに基づく特徴ベクトルF(x)を算出する。
 次に、第二の特徴量算出部140により、音声信号から特定の属性情報を認識するための第二の特徴量を算出する手順について説明する。第二の特徴量算出部140は、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段を担う。
 まず、第二の特徴量算出部140が音声信号xの第二の特徴量としてF2(x)を算出する方法の一例について説明する。第二の特徴量算出部140は、音声統計量算出部120から、音声信号xの音声統計量として、例えば、短時間フレームごとに算出された音響事後確率P(x)(tは1以上T以下の自然数、Tは1以上の自然数)を受け取る。第二の特徴量算出部140は、音響事後確率P(x)を用いて、音響事後確率差分ΔP(x)を算出する。第二の特徴量算出部140は、音響事後確率差分ΔP(x)を、例えば、以下の式(5)
 ΔP(x)=P(x)-Pt-1(x)・・・(5)
により算出する。すなわち、第二の特徴量算出部140は、インデックスの隣り合う(少なくとも2つの時点の)音響事後確率間の差分を、音響事後確率差分ΔP(x)として算出する。そして、第二の特徴量算出部140は、上記の式(2)~(4)におけるA(x)をΔP(x)に置き替えて算出した話者特徴ベクトルを、第二の特徴量F2(x)として算出する。ここで、第二の特徴量算出部140は、音響特徴のインデックスtのすべてを用いる代わりに、偶数番号のみや奇数番号のみのように、一部のインデックスを用いるようにしてもよい。
 このように、音声処理装置100において、第二の特徴量算出部140が、音声信号xに対して、該音声信号内に含まれる音の種類のそれぞれの出現度(音声統計量)の時間変化を表す情報(統計量)として、音響事後確率差分ΔP(x)を用いて特徴ベクトルF2(x)を算出する。音声統計量の時間変化を表す情報は、話者の話し方の個人性を表す。すなわち、音声処理装置100は、話者の話し方の個人性を表す特徴量を出力することができる。
 次に、第二の特徴量算出部140が音声信号xの第二の特徴量としてF2(x)を算出する方法の他の一例について説明する。第二の特徴量算出部140は、外部から、音声信号xの読み(発話内容)を表す記号列であるテキスト情報L(x)(nは1以上N以下の自然数、Nは1以上の自然数)を受け取る。テキスト情報は、例えば音素列である。
 図3A乃至図3Cは、第二の特徴量算出部140がF2(x)を算出する方法を模式的に説明する図である。第二の特徴量算出部140は、上記の例と同様に、音声統計量算出部120から音声統計量として音響事後確率P(x)を受け取る。音の種類の数が、例えば「40」であるとき、P(x)は、40次元のベクトルとなる。
 第二の特徴量算出部140は、テキスト情報L(x)のそれぞれの要素と、音響事後確率P(x)のそれぞれの要素とを対応付ける。例えば、テキスト情報L(x)の要素が音素、音響事後確率P(x)の要素に対応する音の種類が音素であるとする。このとき、第二の特徴量算出部140は、例えば、音響事後確率P(x)の各インデックスtにおける各音素の出現確率値をスコアとして、動的プログラミングに基づくマッチングアルゴリズムを用いることにより、テキスト情報L(x)のそれぞれの要素と音響事後確率P(x)のそれぞれの要素とを対応付ける。
 図3A乃至図3Cを参照して、具体的に説明する。第二の特徴量算出部140が取得したテキスト情報L(x)が、「赤」の音素列、すなわち、音素「/a/」、「/k/」、「/a/」である例について説明する。図3Aには、時刻t=1からt=7までの各フレームの音響事後確率P(x)を例示している。例えば、時刻t=1のフレームの音響事後確率P(x)における1番目の要素の値「0.7」は、音素「/a/」の出現確率値を表す。同様に、2番目の要素の値「0.0」は、音素「/k/」の出現確率値、3番目の要素の値「0.1」は、音素「/e/」の出現確率値をそれぞれ表す。このように、第二の特徴量算出部140は、時刻t=1からt=7までのフレームについて、すべての音素の出現確率値を求める。
 第二の特徴量算出部140は、上記出現確率値をスコアとして動的プログラミングに基づくマッチングアルゴリズムを用いて、音響事後確率P(x)と音素の対応付けを行う。例えば、時刻t=1の音響事後確率P(x)と、順番n=1のテキスト情報「/a/」の「類似度」を、「0.7」と設定する。同様に、音響事後確率P(x)の全要素と、テキスト情報の全要素との間の類似度を設定する。そして、テキスト情報「/a//k//a/」の並びの制約に基づいて、類似度が最も大きくなるように、各々のフレームと音素とを対応付ける。
 図3Bでは、フレーム毎の最大スコアに下線を付している。例えば、t=3の音響事後確率P(x)は、「/a/」に対応付ける方が、「/k/」に対応付けるよりもスコアが大きくなる。このように、例えば「akaaaaa」、「aakaaaa」、「akkaaaa」など多数のパターンから、各音素のスコアの合計スコアが最大となるパターンを選ぶ。ここでは、「aaakkaa」が、合計スコアが最大となるパターン、すなわち、対応付けの結果とする。
 第二の特徴量算出部140は、テキスト情報L(x)のそれぞれの要素に対応付けることができた音響事後確率P(x)のインデックス数Oを計算する。
 図3Cに示すように、テキスト情報「/a/ /k/ /a/」の、最初の「/a/」に対応付けることができた音響事後確率P(x)のインデックス数Oは「3」である。同様に、「/k/」に対応付けることができた音響事後確率P(x)のインデックス数Oは「2」、次の「/a/」に対応付けることができた音響事後確率P(x)のインデックス数Oは「2」である。
 第二の特徴量算出部140は、テキスト情報L(x)のそれぞれの要素に対応付けることができた音響事後確率P(x)のインデックス数Oを要素とするベクトルを、第二の特徴量F2(x)として算出する。インデックス数Oのそれぞれの値は、テキスト情報L(x)のそれぞれの音素(記号)の発話時間長を表す。
 このように、音声処理装置100において、第二の特徴量算出部140は、音声信号xに対して、該音声信号xの読みを表すテキスト情報をさらに用いることによって、テキスト情報の各要素の発話時間長を用いて特徴ベクトルF2(x)を算出する。これにより、音声処理装置100は、話者の話し方の個人性を表す特徴量を出力することができる。
 以上述べたように、本実施形態にかかる音声処理装置100において、第一の特徴量算出部130は話者の声質を表す特徴ベクトルを算出できる。また、第二の特徴量算出部140は話者の話し方の個人性を表す特徴ベクトルを算出できる。これにより、音声信号に対して、話者の声質と話し方のそれぞれを考慮した特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置100は、少なくとも話者の話し方の個人性を表す特徴ベクトルを算出できるので、話者認識の精度を高めるのに適した話者特徴を算出できる。
 第1の実施形態の動作
 次に、第1の実施形態における音声処理装置100の動作について、図4のフローチャートを用いて説明する。図4は、音声処理装置100の動作の一例を示すフローチャートである。
 音声処理装置100は、外部から1つ以上の音声信号を受け取り、音声区間検出部110に提供する。音声区間検出部110は、受け取った音声信号を区分化し、区分化音声信号を音声統計量算出部120に出力する(ステップS101)。
 音声統計量算出部120は、受け取った1つ以上の区分化音声信号それぞれについて、短時間フレーム分析処理を行い、音響特徴と音声統計量の時系列を算出する(ステップS102)。
 第一の特徴量算出部130は、受け取った1つ以上の音響特徴と音声統計量の時系列に基づいて、第一の特徴量を算出して出力する。(ステップS103)。
 第二の特徴量算出部140は、受け取った1つ以上の音響特徴と音声統計量の時系列に基づいて、第二の特徴量を算出して出力する。(ステップS104)。音声処理装置100は、外部からの音声信号の受理が終了したら、一連の処理を終了する。
 第1の実施形態の効果
 以上、説明したように、本実施形態にかかる音声処理装置100によれば、音声処理装置100が算出した話者特徴を用いる話者認識の精度を高めることができる。なぜならば、音声処理装置100は、第一の特徴量算出部130が話者の声質を表す第一の特徴量を算出し、第二の特徴量算出部140が話者の話し方を表す第二の特徴量を算出することで、話者の声質と話し方の双方を考慮した特徴ベクトルを特徴量として出力するからである。
 このように、本実施形態にかかる音声処理装置100によれば、音声信号に対して、話者の声質と話し方を考慮した特徴ベクトルを算出する。これにより、声質が似通っている話者がいる場合にも、話し方の差異、例えば、語句を話す速さや語句の中における音の切り替わりのタイミングの差などに基づいて、話者認識に適した特徴量を求めることができる。
 第2の実施形態
 図5は、第2の実施形態に係る音声処理装置200の構成を示すブロック図である。図5に示すように、音声処理装置200は、第1の実施形態で説明した音声処理装置100に加えて、さらに属性認識部160を備える。属性認識部160は、音声処理装置100と通信可能な別の装置に設けられていてもよい。属性認識部160は、第二の特徴量に基づいて、音声信号に含まれる特定の属性情報を認識する属性認識手段を担う。
 第1の実施形態において説明した第二の特徴量算出部140により算出された第二の特徴量を用いて、属性認識部160は、音声信号の話者を推定する話者認識を行うことができる。
 例えば、属性認識部160は、第1の音声信号から算出した第二の特徴量と、第2の音声信号から算出した第二の特徴量とから、2つの第二の特徴量の類似性を現す指標として、コサイン類似度を算出する。例えば、話者照合することを目的とする場合は、上記の類似度に基づく照合可否の判定情報を出力してもよい。
 また、話者識別することを目的とする場合は、第1の音声信号に対して複数の第2の音声信号を用意し、例えば第1の音声信号から算出された第二の特徴量と、複数の第2の音声信号のそれぞれから算出された第二の特徴量の各々の類似度を求め、類似度の値の大きい組を出力してもよい。
 以上のように、第2の実施形態によれば、音声処理装置200は、属性認識部160において、複数の音声信号からそれぞれ算出された特徴量の類似度に基づいて、話者を推定する話者認識を行うことができるという効果が得られる。
 また、属性認識部160は、第二の特徴量算出部140により算出された第二の特徴量と、第一の特徴量算出部130により算出された第一の特徴量とを用いて、音声信号の話者を推定する話者認識を行ってもよい。これにより、属性認識部160は、話者認識の精度をより高めることができる。
 第3の実施形態
 本開示の最小構成の実施形態について説明する。
 図6は、本開示の最小構成の実施形態に係る音声処理装置100の機能構成を示すブロック図である。図6に示すように、音声処理装置100は、音声統計量算出部120および第二の特徴量算出部140を備える。
 音声統計量算出部120は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する。第二の特徴量算出部140は、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する。
 上記構成を採用することにより、本第3の実施形態によれば、話者の話し方の個人性を表す特徴ベクトルを算出できるので、話者認識の精度を高めることができるという効果が得られる。
 上記音声処理装置100は、音声信号から特定の属性情報を認識するための特徴量を算出する特徴量算出装置の一例である。音声処理装置100は、特定の属性が音声信号を発した話者であるとき、話者特徴抽出装置として利用可能である。また、音声処理装置100は、例えば文発話の音声信号に対して、当該話者特徴を用いて推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても利用可能である。また、ここで、話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。
 音声処理装置100は、特定の属性を音声信号が伝える言語(音声信号を構成する言語)を示す情報とするとき、言語特徴算出装置として利用可能である。また、音声処理装置100は、例えば文発話の音声信号に対して、当該言語特徴を用いて推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても利用可能である。
 音声処理装置100は、特定の属性が話者の発話時の感情を示す情報であるとき、感情特徴算出装置として利用可能である。また、音声処理装置100は、例えば蓄積された多数の発話の音声信号に対して、当該感情特徴を用いて推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部としても利用可能である。この感情情報には、例えば、感情表現を示す情報、発話者の性格を示す情報等が含まれる。
 以上のように、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される発話者の性格、の少なくともいずれか一つを表す情報である。
 以上、実施形態を用いて本開示を説明したが、本開示は、上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本開示は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本開示の範囲内に包含されるものであることは言うまでもない。
 以上のように、本開示の一態様における音声処理装置等は、話者の声質に加えて語句の話し方を考慮した特徴ベクトルを抽出し、話者認識の精度を高めることができるという効果を有しており、音声処理装置等および話者認識装置として有用である。
 100 音声処理装置
 110 音声区間検出部
 120 音声統計量算出部
 130 第一の特徴量算出部
 140 第二の特徴量算出部
 150 音声モデル記憶部
 160 属性認識部

Claims (8)

  1.  音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段と、
     前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段と、
     を備える、音声処理装置。
  2.  前記音声統計量に基づいて、話者の声質特徴を示す、特定の属性情報を認識するための第一の特徴量を算出する第一の特徴量算出手段をさらに備える、
     請求項1記載の音声処理装置。
  3.  前記第二の特徴量算出手段は、
     前記第二の特徴量として、少なくとも2つの時点の前記音声統計量を用いて、前記音声統計量の時間変化を算出する
     請求項1または2記載の音声処理装置。
  4.  前記第二の特徴量算出手段は、
     前記音声信号の発話内容を表す記号列であるテキスト情報と、前記音声統計量との対応付けを行い、
     前記第二の特徴量として、発話内容を表す各記号の発話時間長を表す値を算出する
     請求項1または2記載の音声処理装置。
  5.  前記第二の特徴量に基づいて、前記音声信号に含まれる特定の属性情報を認識する属性認識手段を、さらに備える、
     請求項1乃至4のいずれか1項記載の音声処理装置。
  6.  前記特定の属性情報は、
     前記音声信号を発した話者、前記音声信号を発した話者の性別、前記音声信号を発した話者の年齢、前記音声信号を構成する言語、前記音声信号に含まれる感情表現、前記音声信号から推定される話者の性格、の少なくともいずれかひとつを表す情報である、
     請求項1乃至5のいずれか1項記載の音声処理装置。
  7.  音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出し、
     前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する
     音声処理方法。
  8.  音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する処理と、
     前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する処理と
     を、コンピュータに実行させるプログラムを記録するプログラム記録媒体。
PCT/JP2018/033027 2018-09-06 2018-09-06 音声処理装置、音声処理方法、およびプログラム記録媒体 WO2020049687A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020540946A JP7107377B2 (ja) 2018-09-06 2018-09-06 音声処理装置、音声処理方法、およびプログラム
PCT/JP2018/033027 WO2020049687A1 (ja) 2018-09-06 2018-09-06 音声処理装置、音声処理方法、およびプログラム記録媒体
US17/273,360 US20210327435A1 (en) 2018-09-06 2018-09-06 Voice processing device, voice processing method, and program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/033027 WO2020049687A1 (ja) 2018-09-06 2018-09-06 音声処理装置、音声処理方法、およびプログラム記録媒体

Publications (1)

Publication Number Publication Date
WO2020049687A1 true WO2020049687A1 (ja) 2020-03-12

Family

ID=69721918

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/033027 WO2020049687A1 (ja) 2018-09-06 2018-09-06 音声処理装置、音声処理方法、およびプログラム記録媒体

Country Status (3)

Country Link
US (1) US20210327435A1 (ja)
JP (1) JP7107377B2 (ja)
WO (1) WO2020049687A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974268B (zh) * 2022-06-08 2023-09-05 江苏麦克马尼生态科技有限公司 一种基于物联网的鸟类鸣声识别监测系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP2011059500A (ja) * 2009-09-11 2011-03-24 Yahoo Japan Corp 話者クラスタリング装置および話者クラスタリング方法
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP2017138509A (ja) * 2016-02-04 2017-08-10 カシオ計算機株式会社 感情推定器の個人適応方法、感情推定装置及びプログラム
WO2018051945A1 (ja) * 2016-09-14 2018-03-22 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6350536B2 (ja) * 2013-10-22 2018-07-04 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
JP6306071B2 (ja) * 2016-02-09 2018-04-04 Pst株式会社 推定装置、推定プログラム、推定装置の作動方法および推定システム
KR102394912B1 (ko) * 2017-06-09 2022-05-06 현대자동차주식회사 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP2011059500A (ja) * 2009-09-11 2011-03-24 Yahoo Japan Corp 話者クラスタリング装置および話者クラスタリング方法
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP2017138509A (ja) * 2016-02-04 2017-08-10 カシオ計算機株式会社 感情推定器の個人適応方法、感情推定装置及びプログラム
WO2018051945A1 (ja) * 2016-09-14 2018-03-22 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体

Also Published As

Publication number Publication date
US20210327435A1 (en) 2021-10-21
JPWO2020049687A1 (ja) 2021-08-12
JP7107377B2 (ja) 2022-07-27

Similar Documents

Publication Publication Date Title
Hasan et al. A study on universal background model training in speaker verification
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Beigi Speaker recognition: Advancements and challenges
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
Besbes et al. Multi-class SVM for stressed speech recognition
KR100682909B1 (ko) 음성 인식 방법 및 장치
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
Yanagisawa et al. Noise robustness in HMM-TTS speaker adaptation
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Alkhatib et al. Voice identification using MFCC and vector quantization
Mandel et al. Learning a concatenative resynthesis system for noise suppression
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method
Komlen et al. Text independent speaker recognition using LBG vector quantization
Musaev et al. Advanced feature extraction method for speaker identification using a classification algorithm
Fennir et al. Acoustic scene classification for speaker diarization
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
Sinha et al. Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR
Viana et al. Self-organizing speech recognition that processes acoustic and articulatory features

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18932403

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020540946

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18932403

Country of ref document: EP

Kind code of ref document: A1