WO2018159612A1 - 声質変換装置、声質変換方法およびプログラム - Google Patents

声質変換装置、声質変換方法およびプログラム Download PDF

Info

Publication number
WO2018159612A1
WO2018159612A1 PCT/JP2018/007268 JP2018007268W WO2018159612A1 WO 2018159612 A1 WO2018159612 A1 WO 2018159612A1 JP 2018007268 W JP2018007268 W JP 2018007268W WO 2018159612 A1 WO2018159612 A1 WO 2018159612A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
information
voice
parameter
quality conversion
Prior art date
Application number
PCT/JP2018/007268
Other languages
English (en)
French (fr)
Inventor
亘 中鹿
Original Assignee
国立大学法人電気通信大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人電気通信大学 filed Critical 国立大学法人電気通信大学
Priority to JP2019503021A priority Critical patent/JP7018659B2/ja
Priority to US16/489,513 priority patent/US20190385628A1/en
Publication of WO2018159612A1 publication Critical patent/WO2018159612A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to a voice quality conversion apparatus, a voice quality conversion method, and a program that enable arbitrary speaker voice quality conversion.
  • Non-Patent Document 1 by learning individual parameters in advance using the voice of the input speaker and the voice of the output speaker, the speaker included in the learning data is designated as the input speaker or the target speaker. A technique that enables voice quality conversion is described.
  • Non-Patent Document 1 is a voice quality based on a voice quality conversion based on an adaptive RBM (ARBM) in which a restricted Boltzmann machine (hereinafter referred to as RBM) is applied as a statistical non-parallel voice quality conversion approach. Perform conversion.
  • RBM restricted Boltzmann machine
  • the speaker-specific adaptation matrix and the speaker-independent latent features (hereinafter referred to as potential phonemes or Projection matrix to (simply called phoneme) is estimated simultaneously. This makes it possible to obtain speech close to the target speaker by calculating the acoustic features using the target speaker's adaptation matrix and the potential phoneme calculated from the input speaker's speech and the input speaker's adaptation matrix. I have to.
  • the transformation is performed by estimating only the adaptation matrix for each new input speaker / target speaker (this step is called adaptation).
  • adaptation since the speaker-specific adaptation matrix includes square parameters of the acoustic feature quantity, the number of parameters becomes enormous as the number of dimensions of the acoustic feature quantity and the number of speakers increase, which increases learning costs. And the number of data required at the time of adaptation increases, and the problem that conversion on the spot of the speaker who has not learned beforehand will become difficult will occur.
  • voice quality conversion there may be a case where it is desired to record the voice on the spot and immediately convert it, but with the conventional technology, it is difficult to convert immediately.
  • an object of the present invention is to provide a voice quality conversion apparatus, a voice quality conversion method, and a program that can easily convert voice quality of each speaker's utterance with a small number of data.
  • a voice quality conversion apparatus is a voice quality conversion apparatus that converts voice of an input speaker into voice of a target speaker, and includes a parameter learning unit, a parameter storage unit, a voice quality conversion processing unit, Is provided.
  • the parameter learning unit determines parameters for voice quality conversion from voice information based on learning voice and speaker information corresponding to the voice information.
  • the parameter storage unit stores parameters determined by the parameter learning unit.
  • the voice quality conversion processing unit performs voice quality conversion processing of voice information based on the voice of the input speaker based on the parameters stored in the parameter storage unit and the speaker information of the target speaker.
  • the parameter learning unit uses the speech information based on speech, the speaker information corresponding to the speech information, and the phoneme information representing the phoneme in the speech as variables, so that the speech information, the speaker information, and the phoneme information A probability model that represents the relationship between the binding energies between each parameter is obtained, and a plurality of speaker clusters with unique adaptation matrices are defined as the probability model.
  • the voice quality conversion method of the present invention is a method for voice quality conversion of an input speaker's voice to a target speaker's voice, and includes a parameter learning step and a voice quality conversion processing step.
  • the parameter learning step uses speech information based on speech, speaker information corresponding to speech information, and phonological information representing phonemes in speech as variables, so that each of speech information, speaker information, and phonological information
  • a stochastic model that represents the relationship between the binding energies of the two is prepared.
  • the probability model a plurality of speaker clusters having unique adaptation matrices are defined, and the weights for the plurality of speaker clusters are estimated for each speaker, and the parameters for the speech for learning are estimated.
  • the voice quality conversion processing step is performed based on the parameter obtained in the parameter learning step, or the parameter after adaptation in which the parameter is adapted to the voice of the input speaker, and the speaker information of the target speaker.
  • the program of the present invention causes a computer to execute the parameter learning step and the voice quality conversion processing step of the voice quality conversion method described above.
  • the target speaker can be set by the speaker cluster, the voice quality of the input speaker voice can be converted into the target speaker voice with a much smaller number of data than in the past.
  • FIG. 1 It is a block diagram which shows the structural example (example 1) of the voice quality conversion apparatus which concerns on the example of 1 embodiment of this invention. It is a block diagram which shows the structural example (example 2) of the voice quality conversion apparatus which concerns on one embodiment of this invention. It is a block diagram which shows the hardware structural example of a voice quality conversion apparatus. It is explanatory drawing which shows the conventional probability model typically. It is explanatory drawing which shows typically the probability model with which the parameter estimation part of a voice quality conversion apparatus is provided. It is a flowchart which shows the flow of the whole process which concerns on one embodiment of this invention. It is a flowchart which shows the detailed example of learning of step S3 of FIG.
  • FIG. 1 is a diagram illustrating a configuration example (example 1) of a voice quality conversion device according to an embodiment of the present invention.
  • the voice quality conversion apparatus 1 configured by a PC or the like in FIG. 1 performs learning in advance based on learning speech signals and speaker information (corresponding speaker information) corresponding to the learning speech signals.
  • the voice signal for conversion by any speaker is converted into the voice quality of the target speaker and output as a converted voice signal.
  • the learning voice signal may be a voice signal based on previously recorded voice data, or may be a voice (sound wave) spoken by a speaker directly converted into an electric signal using a microphone or the like.
  • the corresponding speaker information only needs to be able to distinguish whether a certain learning speech signal and another learning speech signal are speech signals from the same speaker or speech signals from different speakers.
  • the voice quality conversion device 1 includes a parameter learning unit 11, a voice quality conversion processing unit 12, and a parameter storage unit 13.
  • the parameter learning unit 11 determines a parameter for voice quality conversion by a learning process based on the learning speech signal and the corresponding speaker information.
  • the parameters determined by the parameter learning unit 11 are stored in the parameter storage unit 13.
  • the parameters stored in the parameter storage unit 13 are converted into parameters after adaptation of the input speaker by the parameter learning unit 11 by an adaptation process.
  • the voice quality conversion processing unit 12 determines the voice quality of the conversion voice signal based on the determined parameters and target speaker information (target speaker information). Is converted to the voice quality of the target speaker and output as a converted voice signal.
  • target speaker information target speaker information
  • the parameter learning unit 11 includes an audio signal acquisition unit 111, a preprocessing unit 112, a speaker information acquisition unit 113, and a parameter estimation unit 114.
  • the audio signal acquisition unit 111 is connected to the preprocessing unit 112, and the preprocessing unit 112 and the speaker information acquisition unit 113 are each connected to the parameter estimation unit 114.
  • the audio signal acquisition unit 111 acquires a learning audio signal from a connected external device.
  • the learning audio signal is acquired based on a user operation from an input unit (not shown) such as a mouse or a keyboard.
  • the audio signal acquisition unit 111 may capture a speaker's utterance in real time from a connected microphone (not shown).
  • a process in which the parameter learning unit 11 acquires a learning speech signal and obtains a parameter will be described, but each parameter learning unit 11 also performs an adaptive process in which a parameter adapted to the adaptive speaker speech signal is obtained.
  • the processing unit performs similar processing.
  • an adaptation process is performed in which the parameters stored in the parameter storage unit 13 in the learning process are parameters adapted to the adaptive speaker voice signal.
  • the preprocessing unit 112 cuts out the learning audio signal acquired by the audio signal acquisition unit 111 for each unit time (hereinafter referred to as a frame), and performs MFCC (Mel-Frequency Cepstrum Coefficients) and mel cepstrum feature quantities. After the spectral feature amount of the audio signal for each frame is calculated, learning audio information is generated by performing normalization.
  • MFCC Mel-Frequency Cepstrum Coefficients
  • the corresponding speaker information acquisition unit 113 acquires the corresponding speaker information associated with the acquisition of the learning audio signal by the audio signal acquisition unit 111.
  • the corresponding speaker information only needs to be able to distinguish between a speaker of a certain learning speech signal and a speaker of another learning speech signal, and is acquired by, for example, a user input from an input unit (not shown). If it is clear that the speakers are different from each other for the plurality of learning speech signals, the corresponding speaker information acquisition unit 113 may automatically provide the corresponding speaker information when acquiring the learning speech signal. . For example, if it is assumed that the parameter learning unit 11 learns 10 spoken voices, the corresponding speaker information acquisition unit 113 has any of the 10 speakers whose learning audio signals being input to the audio signal acquisition unit 111 are input.
  • the information (corresponding speaker information) for discriminating whether the voice signal is the voice signal is acquired automatically or by input from the user.
  • the number of people who learn the spoken voice is 10 is merely an example.
  • the parameter learning unit 11 can perform learning if at least two voices are input, but more accurate learning can be performed with a larger number of people.
  • the parameter estimation unit 114 has an adaptive RBM (ARBM) probabilistic model to which an RBM (restricted Boltzmann machine) configured by the speech information estimation unit 1141, the speaker information estimation unit 1142, and the phoneme information estimation unit 1143 is applied. Then, the parameter is estimated based on the learning speech signal.
  • the parameters estimated by the parameter estimation unit 114 through the learning process are stored in the parameter storage unit 13.
  • the parameters obtained by this learning process are read out from the parameter storage unit 13 to the parameter learning unit 11 when the voice signal of the adaptive speaker is input to the parameter learning unit 11, and are converted into the voice signal of the adaptive speaker at that time. It is considered as an adapted parameter.
  • the parameter estimation unit 114 estimates the parameters, in addition to the speech information, speaker information, and phonological information that each estimation unit 1141, 1142, 1143 has, It has information of multiple speaker clusters obtained from features. That is, the parameter estimation unit 114 includes a speaker cluster calculation unit 1144 that calculates the speaker cluster. Furthermore, the probability model of the present embodiment example has a parameter representing the relationship of the binding energy between each piece of information. In the following description, the probability model of the present embodiment is referred to as speaker cluster adaptive RBM. Details of the speaker cluster adaptive RBM will be described later.
  • the speech information estimation unit 1141 acquires speech information using phonological information, speaker information, and various parameters.
  • the speech information means an acoustic vector (a spectrum feature amount, a cepstrum feature amount, etc.) of each speaker's speech signal.
  • the speaker information estimation unit 1142 estimates speaker information using speech information, phonological information, and various parameters.
  • the speaker information is information for specifying a speaker, and is acoustic vector information possessed by each speaker's voice. That is, this speaker information (speaker vector) identifies the speaker of the speech signal that is common to all the speech signals of the same speaker and different from each other for the speech signals of different speakers. It means a vector to be made.
  • the phoneme information estimation unit 1143 estimates phoneme information based on voice information, speaker information, and various parameters.
  • the phonological information is information that is common to all speakers who learn from the information included in the speech information. For example, training speech signal input, when the "hi" and a spoken voice signal, phoneme information obtained from the audio signal corresponds to the information words uttered as its "Hello".
  • the phonological information in this embodiment is not so-called text information, even information corresponding to words, and is phonological information that is not limited to the type of language. It is a vector that represents information other than speaker information that is potentially included in an audio signal that is common even when speaking.
  • the speaker cluster calculation unit 1144 calculates a cluster corresponding to the speaker information obtained from the learning speech signal being input. That is, the speaker cluster adaptive RBM included in the parameter estimation unit 114 has a plurality of clusters indicating speaker information, and the speaker cluster calculation unit 1144 corresponds to the speaker information obtained from the learning speech signal being input. Calculate the cluster.
  • the speaker cluster adaptive RBM included in the parameter estimation unit 114 not only has speech information, speaker information, phonological information, and speaker cluster information, but also shows the relationship of the binding energy between each piece of information. It is expressed by parameters.
  • the voice quality conversion processing unit 12 includes a voice signal acquisition unit 121, a preprocessing unit 122, a speaker information setting unit 123, a voice quality conversion unit 124, a post-processing unit 125, and a voice signal output unit 126.
  • the voice signal input 121, the preprocessing unit 122, the voice quality conversion unit 124, the post-processing unit 125, and the voice signal output unit 126 are sequentially connected, and the parameter estimation unit 114 of the parameter learning unit 11 is further connected to the voice quality conversion unit 124.
  • the audio signal acquisition unit 121 acquires a conversion audio signal, and the preprocessing unit 122 generates conversion audio information based on the conversion audio signal.
  • the conversion audio signal acquired by the audio signal acquisition unit 121 may be a conversion audio signal by an arbitrary speaker.
  • the audio signal acquisition unit 121 and the preprocessing unit 122 are the same as the configuration of the audio signal acquisition unit 111 and the preprocessing unit 112 of the parameter learning unit 11 described above, and may be combined without being separately installed.
  • Speaker information setting unit 123 sets a target speaker that is a voice quality conversion destination and outputs target speaker information.
  • the target speaker set by the speaker information setting unit 123 is selected from speakers whose parameter information is acquired by the parameter estimation unit 114 of the parameter learning unit 11 in advance.
  • the speaker information setting unit 123 uses an input unit (not shown) from a plurality of target speaker options (such as a list of speakers learned in advance by the parameter estimation unit 114) displayed on a display (not shown).
  • a target speaker may be selected, and at that time, the target speaker's voice may be confirmed by a speaker (not shown).
  • the voice quality conversion unit 124 performs voice quality conversion on the conversion voice information based on the target speaker information, and outputs the converted voice information.
  • the voice quality conversion unit 124 includes a voice information setting unit 1241, a speaker information setting unit 1242, a phonological information setting unit 1243, and a speaker cluster calculation unit 1244.
  • the speech information setting unit 1241, the speaker information setting unit 1242, the phonological information setting unit 1243, and the speaker cluster calculation unit 1244 are, in the above-described parameter estimation unit 114, speech information possessed by the probability model of the speaker cluster adaptive RBM.
  • the estimation unit 1141, the speaker information estimation unit 1142, the phoneme information estimation unit 1143, and the speaker cluster calculation unit 1144 have the same functions.
  • the speech information setting unit 1241, the speaker information setting unit 1242, and the phonological information setting unit 1243 are set with speech information, speaker information, and phonological information, respectively, but the phonological information that is set in the phonological information setting unit 1243 is set. Is information obtained based on audio information supplied from the preprocessing unit 122.
  • the speaker information set in the speaker information setting unit 1242 is speaker information (speaker vector) about the target speaker acquired from the estimation result of the speaker information estimation unit 1142 in the parameter learning unit 11. is there.
  • the voice information set in the voice information setting unit 1241 is obtained from the speaker information and phoneme information set in the speaker information setting unit 1242 and the phoneme information setting unit 1243 and various parameters.
  • the speaker cluster calculation unit 1244 calculates speaker cluster information of the target speaker.
  • FIG. 1 shows a configuration in which the voice quality conversion unit 124 is provided, the parameter estimation unit 114 performs processing for voice quality conversion by fixing various parameters of the parameter estimation unit 114 without installing the voice quality conversion unit 124 separately. It is good also as a structure which performs.
  • the post-processing unit 125 performs inverse normalization processing on the converted speech information obtained by the voice quality conversion unit 124, and further performs inverse FFT processing to return the spectrum information to the speech signal for each frame, and then combine and convert Generate an audio signal.
  • the audio signal output unit 126 outputs the converted audio signal to the connected external device. Examples of the external device to be connected include a speaker.
  • FIG. 2 is a diagram illustrating another configuration example (example 2) of the voice quality conversion device according to the embodiment of the present invention.
  • the voice quality conversion apparatus 1 shown in FIG. 2 is different from the voice quality conversion apparatus 1 shown in FIG. 1 in that the voice quality conversion apparatus 1 includes an adaptation unit 14 that performs parameter adaptation processing using an adaptive speaker voice signal. That is, in the voice quality conversion apparatus 1 shown in FIG. 1, the parameter learning unit 11 performs both learning processing and adaptation processing, whereas in the voice quality conversion apparatus 1 shown in FIG. The difference is that processing is performed.
  • the adaptation unit 14 includes an audio signal acquisition unit 141, a preprocessing unit 142, an adaptive speaker information acquisition unit 143, and a parameter estimation unit 144.
  • the audio signal acquisition unit 141 acquires an adaptive speaker audio signal, and outputs the acquired audio signal to the preprocessing unit 142.
  • the preprocessing unit 142 performs preprocessing of the audio signal to obtain adaptation audio information, and supplies the obtained adaptation audio information to the parameter estimation unit 144.
  • the adaptive speaker information acquisition unit 143 acquires speaker information about the adaptive speaker and supplies the acquired adaptive speaker information to the parameter estimation unit 144.
  • the parameter estimation unit 144 includes a speech information estimation unit 1441, a speaker information estimation unit 1442, a phoneme information estimation unit 1443, and a speaker cluster calculation unit 1444, and includes speech information, speaker information, phoneme information, and speaker cluster. Have information.
  • the applied parameters obtained by the adaptation unit 14 are stored in the parameter storage unit 13 and then supplied to the voice quality conversion processing unit 12. Alternatively, the applied parameters obtained by the adaptation unit 14 may be directly supplied to the voice quality conversion processing unit 12.
  • the other parts of the voice quality conversion apparatus 1 shown in FIG. 2 are configured in the same manner as the voice quality conversion apparatus 1 shown in FIG.
  • FIG. 3 is a diagram illustrating a hardware configuration example of the voice quality conversion device 1.
  • the voice quality conversion apparatus 1 includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, and a RAM (Random Access Memory) 103 connected to each other via a bus 107.
  • the voice quality conversion apparatus 1 includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, and a RAM (Random Access Memory) 103 connected to each other via a bus 107.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • connection I / F Interface
  • communication I / F 106 communication I / F
  • the CPU 101 performs overall control of the operation of the voice quality conversion apparatus 1 by executing a program stored in the ROM 102 or the HDD / SSD 104 or the like using the RAM 103 as a work area.
  • the connection I / F 105 is an interface with a device connected to the voice quality conversion apparatus 1.
  • the communication I / F is an interface for performing communication with other information processing devices via a network.
  • the input / output and setting of the learning audio signal, the conversion audio signal, and the converted audio signal are performed via the connection I / F 105 or the communication I / F 106.
  • Parameters are stored in the parameter storage unit 13 by the RAM 103 or the HDD / SSD 104.
  • the function of the voice quality conversion device 1 described in FIG. 1 is realized by executing a predetermined program in the CPU 101.
  • the program may be acquired via a recording medium, may be acquired via a network, or may be used by being incorporated in a ROM.
  • hardware for realizing the configuration of the voice quality conversion device 1 by assembling a logic circuit such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array) instead of a general computer and program combination. It may be configured.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • FIG. 4 is a diagram schematically illustrating a graph structure of the adaptive RBM.
  • the adaptive RBM probability model has parameters indicating the relationship between speech information v, speaker information s and phoneme information h, and the binding energy of each information.
  • the adaptive RBM probability model is expressed by the conditional probability density function expressed by the following [Expression 1] to [Expression 3].
  • Shiguma ⁇ R I is a parameter representing a deviation of the acoustic features
  • B ⁇ R I and D ⁇ R J acoustic features are dependent on the speaker's feature quantity s respectively represent the bias of the phoneme feature quantity.
  • " ⁇ " Added on the symbol in the formula indicates that the corresponding information is speaker-dependent information.
  • W ( ⁇ ) cannot be given on the symbol, and is shown in parentheses after the symbol, for example, W ( ⁇ ).
  • Other symbols, such as “ ⁇ ”, shown above the symbol are also indicated in the same manner.
  • the parenthesis on the right side of the formula [2] and “ ⁇ 2 ” represent division for each element and square for each element.
  • the speaker-dependent terms W ( ⁇ ), b ( ⁇ ), and d ( ⁇ ) are expressed by the following [Equation 4] to [Equation 6] using speaker-independent parameters and speaker-dependent parameters. Defined in
  • W ⁇ R I ⁇ J , b ⁇ R I , d ⁇ R J represent speaker-independent parameters
  • b r ⁇ R I (B [b 1 ,..., B R ])
  • O i j represents an inner product operation along the mode t of the left tensor and the mode j of the right tensor.
  • the acoustic feature quantity is a clean speech mel cepstrum
  • parameter variation due to the difference of the speakers is a speaker-dependent term defined by the speaker feature quantity s ([Equation 4], [Equation 5], [ Absorb by the equation (6). Therefore, the phoneme feature quantity includes phoneme information, which is an unobservable feature quantity in which only one of the elements independent of the speaker is active.
  • the acoustic feature value and the phoneme feature value can be obtained by the adaptive RBM.
  • the number of speaker-dependent parameters is proportional to (I 2 R), and the square of the acoustic feature value (I Since 2 ) is relatively large, the number of parameters to be estimated becomes enormous as the number of speakers increases, and the cost required for calculation increases. Further, even when a certain speaker r is adapted, the number of parameters to be estimated is (I 2 + I + J), and there is a problem that a correspondingly large amount of data is required to avoid overlearning.
  • FIG. 5 is a diagram schematically illustrating a graph structure of the speaker cluster adaptive RBM.
  • the probability model of the speaker cluster adaptive RBM has a speaker cluster c ⁇ R K in addition to parameters indicating the relationship between the speech information v, the speaker information s and the phoneme information h, and the binding energy of each information. .
  • the speaker cluster c is expressed as the following [Expression 7].
  • 1 1 , ⁇ r constraints.
  • an adaptive matrix is prepared for each speaker.
  • the speaker cluster adaptive RBM of the present invention an adaptive matrix is prepared for each cluster.
  • the bias of the acoustic feature amount and the phoneme feature amount is expressed by adding a speaker-independent term, a cluster-dependent term, and a speaker-dependent term. That is, the speaker-dependent terms W ( ⁇ ), b ( ⁇ ), and d ( ⁇ ) are defined as the following [Expression 8] to [Expression 10].
  • the bias parameter of the cluster-dependent term of the feature amount of the acoustic information is U ⁇ R I ⁇ K
  • s) is defined by the formulas [1] to [3] described above.
  • v, s) are as shown in the following [Equation 11] and [Equation 12], respectively.
  • N (•) on the right side of [Formula 11] is a dimension-independent multivariate normal distribution
  • B (•) on the right side of [Formula 12] is a multidimensional Bernoulli distribution
  • f (•) is softmax for each element. Represents a function.
  • Phoneme feature quantity h is known, given the mean vector mu r of acoustic features of a speaker r, from Equation 11] where the average vector is as shown in [Expression 13] expression.
  • each column vector of M [ ⁇ 1 ,..., ⁇ K + 1 ] is defined by the formula [14]. .
  • speaker cluster adaptive RBM there is a speaker dependent term b r and a speaker independent average vector ⁇ k is structured as shown in [Formula 14]. .
  • potential phoneme features are explicitly defined as random variables.
  • the speaker independent parameter and the speaker cluster weight can be estimated simultaneously.
  • all of the probabilistic gradient methods are used to maximize the log likelihood (Equation 15) for N frames of speech data ⁇ v n
  • s n ⁇ n 1 N by R speakers.
  • the parameter ⁇ ⁇ W, U, V, A, L, B, D, b, d, ⁇ can be updated and estimated simultaneously.
  • the gradient of each parameter is omitted.
  • the cluster weight is regularized so as to satisfy
  • 1 1 after updating the parameters.
  • h ( ⁇ ) is a conditional expectation value of h when the acoustic feature amount and the speaker feature amount of the input speaker are given, and is expressed by the formula [17].
  • FIG. 6 is a flowchart showing the voice quality conversion processing operation according to the embodiment of the present invention.
  • the voice signal acquisition unit 111 and the speaker information acquisition unit 113 of the parameter learning unit 11 of the voice quality conversion device 1 are for learning based on a user instruction from an input unit (not shown).
  • the voice signal and the corresponding speaker information are acquired (step S1).
  • the preprocessing unit 112 generates learning speech information to be supplied to the parameter estimation unit 114 from the learning speech signal acquired by the speech signal acquisition unit 111 (step S2).
  • the learning speech signal is cut out for each frame (for example, every 5 msec), and the spectral feature amount (for example, MFCC or mel cepstrum feature amount) is calculated by performing FFT processing or the like on the extracted learning speech signal. To do. Then, the learning speech information v is generated by performing normalization processing (for example, normalization using the average and variance of each dimension) of the calculated spectral feature amount. The generated learning voice information v is output to the parameter estimation unit 114 together with the corresponding speaker information s acquired by the speaker information acquisition unit 113.
  • the spectral feature amount for example, MFCC or mel cepstrum feature amount
  • the parameter estimation unit 114 performs a speaker cluster adaptive RBM learning process (step S3).
  • learning for estimating various parameters is performed using the speaker cluster c corresponding to the learning speaker information s and the learning speech information v.
  • step S3 details of step S3 will be described with reference to FIG.
  • arbitrary values are input to all parameters (step S11), and the acquired learning speech information v is input to the speech information estimation unit 1141.
  • the acquired corresponding speaker information s is input to the speaker information estimation unit 1142 (step S12).
  • the speaker cluster calculation unit 1144 calculates a speaker cluster c from the corresponding speaker information s acquired by the speaker information estimation unit 1142, and the speaker cluster c and the voice information estimation unit 1141 acquire the calculated speaker cluster c.
  • Learning voice information v is input (step S13).
  • a conditional probability density function of the phoneme information h is determined using the speaker cluster c and the learning speech information v input in step S13, and the phoneme information h is sampled based on the probability density function (Ste S14).
  • sample means to randomly generate one piece of data according to the conditional probability density function, and hereinafter, it is used in the same meaning.
  • a conditional probability density function of the speech information v is determined using the phoneme information h and the speaker cluster c sampled in step S14, and the learning speech information v is sampled based on the probability density function (step S14). S15).
  • a conditional probability density function of the phoneme information h is determined using the phoneme information h sampled in step S14 and the learning speech information v sampled in step S15, and the phoneme information is based on the probability density function.
  • Information h is resampled (step S16).
  • the log likelihood L shown in the above [Expression 15] is partially differentiated with respect to each parameter, and all parameters are updated by the gradient method (step S17).
  • a stochastic gradient method is used, and an expected value for the model can be approximately calculated using the sampled learning speech information v, phoneme information h, and corresponding speaker information s.
  • the predetermined end condition includes, for example, the number of repetitions of a series of these steps.
  • the parameter estimation unit 114 stores the parameter estimated by the above-described series of steps in the parameter storage unit 13 as a parameter determined by learning. Then, an application process is performed in which the stored parameters are used as parameters after adaptation based on the input adaptive speaker voice signal.
  • the parameters after adaptation obtained by this adaptation processing are delivered to the voice quality conversion unit 124 of the voice quality conversion unit 12 (step S4).
  • an arbitrary value is input as a speaker-specific parameter (step S21), the acquired adaptive speaker voice information v is input to the voice information estimation unit 1441, and the speaker information estimation unit 1442 is input.
  • the acquired adaptive speaker information s is input (step S22).
  • the speaker cluster calculation unit 1444 calculates the speaker cluster c from the adaptive speaker information s acquired by the speaker information estimation unit 1442, and the speaker cluster c and the speech information estimation unit 1441 acquire the calculated speaker cluster c.
  • the adaptive speaker voice information v is input (step S23).
  • a conditional probability density function of the phoneme information h is determined using the speaker cluster c and the adaptive speaker voice information v input in step S23, and the phoneme information h is sampled based on the probability density function.
  • Step S24 a conditional probability density function of the speech information v is determined using the phoneme information h and the speaker cluster c sampled in step S24, and the adaptive speaker speech information v is sampled based on the probability density function
  • a conditional probability density function of the phoneme information h is determined using the phoneme information h sampled in step S24 and the adaptive speaker voice information v sampled in step S25, and based on the probability density function.
  • the phoneme information h is resampled (step S26).
  • step S28 After updating the parameters specific to the adaptive speaker, if the predetermined termination condition is satisfied (YES in step S28), the process proceeds to the next step. If not satisfied (NO in step S28), the process returns to step S21, and thereafter These steps are repeated (step S28).
  • the user operates an input unit (not shown) to set target speaker information s (o) as a voice quality conversion target in the speaker information setting unit 123 of the voice quality conversion unit 12 (step S5).
  • the audio signal acquisition unit 121 acquires the conversion audio signal (step S6).
  • the preprocessing unit 122 generates voice information based on the conversion voice signal, and outputs the voice information to the voice quality conversion unit 124 together with the corresponding speaker information s acquired by the speaker information acquisition unit 123.
  • the voice quality conversion unit 124 performs voice quality conversion to convert the voice of the adaptive speaker into the voice of the target speaker by applying the speaker cluster adaptive RBM (step S8).
  • step S8 details of step S8 will be described with reference to FIG.
  • the speaker cluster adaptive RBM probability model all the determined parameters are input (step S31), the speech information v is input to the speech information setting unit 1241, and the speaker information setting is performed.
  • the input speaker information s is input to the unit 1242, and the speaker cluster calculation unit 1244 calculates the speaker cluster c of the input speaker (step S32).
  • the phoneme information h is estimated using the speaker cluster c and the voice information v calculated in step S32 (step S33).
  • the voice quality conversion unit 124 acquires the speaker information s of the target speaker that has been learned by the parameter learning process, and the speaker cluster calculation unit 1244 calculates the speaker cluster c of the target speaker (step S34). .
  • the speech information setting unit 1241 estimates the converted speech information v using the speaker cluster c of the target speaker calculated in step S34 and the phoneme information h estimated in step S33 (step S35).
  • the estimated converted voice information v (o) is output to the post-processing unit 125.
  • the post-processing unit 125 generates a converted audio signal using the converted audio information v (step S9). Specifically, the normalized speech signal v is subjected to a denormalization process (a process for applying the inverse function of the function used in the normalization process described in step S2), and the spectrum subjected to the denormalization process A converted audio signal for each frame is generated by inversely converting the feature amount, and the converted audio signal is generated by combining the converted audio signals for each frame in time order.
  • the converted audio signal generated by the post-processing unit 125 is output to the outside from the audio signal output unit 126 (step S10). By playing the converted voice signal through a speaker connected to the outside, the input voice converted to the voice of the target speaker can be heard.
  • v o , v i , and v o ( ⁇ ) are a mel cepstrum feature amount of the target speaker voice aligned with the input speaker, and a mel cepstrum feature amount of the input speaker voice having the same alignment, respectively.
  • V i represents the mel cepstrum feature quantity of the voice subjected to voice quality conversion.
  • MDIR represents an improvement rate, and a larger value indicates higher conversion accuracy.
  • the male voice indicated by a circle is at a position (cluster weight) close to (Cluster 1)
  • the female voice indicated by an x is at a position close to (Cluster 2).
  • a male cluster (Cluster 1) and a female cluster (Cluster ⁇ ⁇ 2) are automatically formed despite being learned and not given gender teachers.
  • learning is performed so that the two clusters are farthest apart. That is, the speaker pairs that are farthest from each other are set at positions that overlap with the respective clusters (Cluster 1 and Cluster 2).
  • the position of the weight to a speaker cluster is set among the several clusters learned so that each cluster may be most distant.
  • the property of learning such that a plurality of clusters are separated from each other in this way is preferable because the range of adjustment becomes wide when converting to an arbitrary voice by freely adjusting the points that internally divide each cluster (representative speaker). .
  • the conventional adaptive RBM shows high accuracy when the number of speakers is small, but it can be seen that the accuracy decreases when the number of speakers is increased.
  • the probability model (CAB) based on speaker cluster adaptive RBM in which the number of parameters for each speaker is suppressed, there is little change in accuracy even when the number of speakers is increased.
  • [Table 2] is an example in which conversion accuracy based on the number of sentences is compared between a probability model based on speaker cluster adaptive RBM according to the present invention and a probability model based on conventional adaptive RBM (ARBM).
  • the speaker cluster is obtained from the speaker information and the probability model is obtained using the speaker cluster, the input speaker voice can be obtained with a much smaller number of data than in the past. Can be converted to the target speaker voice.
  • the target speaker's voice information v and phoneme information n are obtained from the parameters A, V, and U by calculation.
  • the speaker information s of the target speaker is obtained from the parameters A, V, and U of the speaker cluster c, and the speaker information s obtained is used to obtain the speaker information.
  • these parameters D, A, and B may be obtained.
  • the processing described in the graph structure of the adaptive RBM in FIG. 4 can be applied to the processing for obtaining the speech information v and phoneme information n of the target speaker from the parameters D, A, and B depending on the speaker.
  • the target speaker's voice information v and phonological information n can also be obtained. Similar to the example, the voice information v and phonological information n of the appropriate target speaker can be obtained.
  • the processing shown in FIG. 11 is performed, since the target speaker's voice information v and phonological information n are obtained from the target speaker's speaker information s, the accuracy of each information is improved. However, the amount of data increases compared to the example of FIG.
  • the learning parameters are applied to the adaptive speaker voice signal after input of the adaptive speaker voice signal after learning the parameters for voice quality conversion by learning with the voice signal for learning.
  • the voice quality of the target speaker is converted using the adapted parameters.
  • the voice quality conversion apparatus 1 has, for example, the configuration shown in FIG. 1, the parameter storage unit 13 stores parameters obtained by learning in the parameter learning unit 11, and the voice quality conversion processing unit 12 The input speech may be converted into the speech of the target speaker by applying the parameters stored in FIG.
  • speech of human speech is processed as input speech for learning (input speaker's speech) and input speech for adaptation.
  • various sounds other than human speech may be used as a speech signal (input signal) for learning or adaptation, and the speech signal may be learned or adapted.
  • sounds such as siren sounds and animal calls may be learned or adapted.
  • phonological information estimating unit 1144, 1444 ... speaker cluster calculating unit, 123 ... speaker information setting unit, 124 ... voice quality converting unit, 1241 ... Voice information setting unit, 1242 ... speaker information setting unit, 1243 ... phoneme information setting unit, 1244 ... speaker cluster calculation unit, 125 ... post-processing unit, 125 ... audio signal output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを用意する。その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、パラメータを決定する。パラメータ記憶ユニットは、パラメータを記憶する。声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。

Description

声質変換装置、声質変換方法およびプログラム
 本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。
 従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
 パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。
 これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1には、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とする技術が記載されている。
特開2008-58696号公報
T. Nakashika, T. Takiguchi, and Y. Ariki: "Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine," Proceedings of Machine Learning in Spoken Language Processing  (MLSLP) 2015, 6 pages, 2015.
 非特許文献1に記載の技術は、統計的な非パラレル声質変換アプローチとして、制限ボルツマンマシン(Restricted Boltzmann Machine:以下RBMと称する)を適用した、適応型RBM(ARBM)に基づく声質変換に基づく声質変換を行う。このアプローチでは、複数の話者による音声データから自動的にそれぞれの話者固有の適応行列と、音響特徴量(メルケプストラム)から話者に依存しない潜在特徴(以下、これらを潜在的な音韻または単に音韻と呼ぶ)への射影行列を同時に推定する。これにより、入力話者の音声および入力話者の適応行列から計算した潜在的な音韻と、目標話者の適応行列を用いて音響特徴量を計算することで目標話者に近い音声を得るようにしている。
 一度学習によって潜在的な音韻を得るための射影行列が推定されれば、新たな入力話者・目標話者に対してそれぞれの適応行列のみを推定(このステップを適応と呼ぶ)することで変換が可能となる。しかし、話者固有の適応行列は音響特徴量の二乗個のパラメータを含むため、音響特徴量の次元数や話者数が増えるほどパラメータ数が膨大となり、学習コストが掛かってしまう。そして、適応時に必要となるデータ数が多くなり、事前に学習していない話者のその場での変換が困難となってしまうといった問題が発生する。また、声質変換を利用する場面では、その場で音声を収録し、即座に変換を行いたいケースが考えられるが、従来の技術では、即座に変換することは困難であった。
 本発明はかかる点に鑑み、各話者の発話について少ないデータ数で簡単に声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。
 上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
 パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
 パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
 声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
 ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした。
 また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
 パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
 声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
 また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。
 本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
本発明の一実施の形態例に係る声質変換装置の構成例(例1)を示すブロック図である。 本発明の一実施の形態例に係る声質変換装置の構成例(例2)を示すブロック図である。 声質変換装置のハードウェア構成例を示すブロック図である。 従来の確率モデルを模式的に示す説明図である。 声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。 本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。 図6のステップS3の学習の詳細例を示すフローチャートである。 図6のステップS4の適応の詳細例を示すフローチャートである。 図6のステップS8の声質変換の詳細例を示すフローチャートである。 本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。 声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。
 以下、本発明の好適な一実施形態例について説明する。
[1.構成]
 図1は、本発明の一実施形態例にかかる声質変換装置の構成例(例1)を示す図である。図1においてPC等により構成される声質変換装置1は、事前に、学習用音声信号と学習用音声信号に対応する話者の情報(対応話者情報)に基づいて学習を行っておくことで、任意の話者による変換用音声信号(適応話者音声信号)を、目標話者の声質に変換し、変換済み音声信号として出力する。
 学習用音声信号は、予め記録された音声データに基づく音声信号でもよく、また、マイクロフォン等により話者が話す音声(音波)を直接電気信号に変換したものでもよい。また、対応話者情報は、ある学習用音声信号と他の学習用音声信号とが同じ話者による音声信号か異なる話者による音声信号かを区別できるものであればよい。
 声質変換装置1は、パラメータ学習ユニット11と声質変換処理ユニット12とパラメータ記憶ユニット13とを備える。パラメータ学習ユニット11は、学習用音声信号と対応話者情報とに基づいた学習処理により声質変換のためのパラメータを決定する。パラメータ学習ユニット11が決定したパラメータは、パラメータ記憶ユニット13に記憶される。パラメータ記憶ユニット13に記憶されたパラメータは、適応処理によって、パラメータ学習ユニット11が入力話者の適応後のパラメータに変換する。声質変換処理ユニット12は、上述の学習処理および適応処理によりパラメータが決定された後、決定されたパラメータと目標とする話者の情報(目標話者情報)とに基づいて変換用音声信号の声質を目標話者の声質に変換し、変換済み音声信号として出力する。なお、パラメータ学習ユニット11が学習処理と適応処理の双方を行うのは一例であり、後述する図2に示すように、パラメータ学習ユニット11と別に適応ユニット14を備えるようにしてもよい。
 パラメータ学習ユニット11は、音声信号取得部111と前処理部112と話者情報取得部113とパラメータ推定部114を備える。音声信号取得部111は、前処理部112に接続され、前処理部112および話者情報取得部113は、それぞれパラメータ推定部114に接続される。
 音声信号取得部111は、接続された外部機器から学習用音声信号を取得するものであり、例えば、マウスやキーボード等の図示しない入力部からのユーザの操作に基づいて学習用音声信号が取得される。また、音声信号取得部111は、接続される不図示のマイクロフォンから、話者の発話をリアルタイムに取り込むようにしてもよい。なお、以下の説明では、パラメータ学習ユニット11が学習用音声信号を取得してパラメータを得る処理を述べるが、パラメータ学習ユニット11が適応話者音声信号に適応したパラメータを得る適応処理時にも、各処理部は同様の処理が行われる。適応処理の詳細については後述するが、適応処理時には、学習処理でパラメータ記憶ユニット13に記憶されたパラメータを、適応話者音声信号に適応したパラメータとする適応化処理が行われる。
 前処理部112は、音声信号取得部111で取得された学習用音声信号を単位時間ごと(以下、フレームという)に切り出し、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算した後、正規化を行うことで学習用音声情報を生成する。
 対応話者情報取得部113は、音声信号取得部111による学習用音声信号の取得に紐付けられた対応話者情報を取得する。対応話者情報は、ある学習用音声信号の話者と他の学習用音声信号の話者とを区別できるものであればよく、例えば、図示しない入力部からのユーザの入力によって取得される。また、複数の学習用音声信号のそれぞれについて互いに話者が異なることが明らかであれば、学習用音声信号の取得に際して対応話者情報取得部113が自動で対応話者情報を付与してもよい。例えば、パラメータ学習ユニット11が10人の話し声の学習を行うと仮定すると、対応話者情報取得部113は、音声信号取得部111に入力中の学習用音声信号が10人の内のどの話者の話し声の音声信号であるかを区別する情報(対応話者情報)を、自動的にまたはユーザからの入力により取得する。なお、ここで話し声の学習を行う人数を10人としたのは、あくまでも一例である。パラメータ学習ユニット11は、最低でも2人の音声が入力されれば学習が可能であるが、人数が多い方がより精度の高い学習ができることになる。
 パラメータ推定部114は、音声情報推定部1141と話者情報推定部1142と音韻情報推定部1143とによって構成されるRBM(制限ボルツマンマシン)を適用した、適応型RBM(ARBM)の確率モデルを持ち、学習用音声信号に基づいてパラメータの推定を行う。パラメータ推定部114が学習処理によって推定したパラメータは、パラメータ記憶ユニット13に記憶される。この学習処理で得たパラメータは、適応話者の音声信号がパラメータ学習ユニット11に入力されたとき、パラメータ記憶ユニット13からパラメータ学習ユニット11に読み出され、そのときの適応話者の音声信号に適応したパラメータとされる。
 パラメータ推定部114がパラメータを推定する際に適用される本実施形態例の確率モデルでは、各推定部1141,1142,1143が持つ音声情報、話者情報、および音韻情報の他に、話者の特徴から得た複数の話者クラスタの情報を持つ。すなわち、パラメータ推定部114は、この話者クラスタを計算する話者クラスタ計算部1144を有する。さらに、本実施形態例の確率モデルでは、各情報のそれぞれの間の結合エネルギーの関係性を表すパラメータを持つ。なお、以下の説明では、本実施形態例の確率モデルを、話者クラスタ適応型RBMと称する。話者クラスタ適応型RBMの詳細については後述する。
 音声情報推定部1141は、音韻情報および話者情報ならびに各種パラメータを用いて音声情報を取得する。ここで、音声情報とは、それぞれの話者の音声信号の音響ベクトル(スペクトル特徴量やケプストラム特徴量など)を意味する。
 話者情報推定部1142は、音声情報および音韻情報ならびに各種パラメータを用いて話者情報を推定する。ここで、話者情報とは、話者を特定するための情報であり、それぞれの話者の音声が持つ音響ベクトル情報である。すなわち、この話者情報(話者ベクトル)は、同じ話者の音声信号に対しては全て共通であり、異なる話者の音声信号に対しては互いに異なるような、音声信号の発話者を特定させるベクトルを意味している。
 音韻情報推定部1143は、音声情報および話者情報ならびに各種パラメータにより音韻情報を推定する。ここで音韻情報とは、音声情報に含まれる情報の中から、学習を行う全ての話者に共通となる情報である。例えば、入力した学習用音声信号が、「こんにちは」と発話した音声の信号であるとき、この音声信号から得られる音韻情報は、その「こんにちは」と発話した言葉の情報に相当する。但し、本実施の形態例での音韻情報は、言葉に相当する情報であっても、いわゆるテキストの情報ではなく、言語の種類に限定されない音韻の情報であり、どのような言語で話者が話した場合にも共通となる、音声信号の中で潜在的に含まれる、話者情報以外の情報を表すベクトルである。
 話者クラスタ計算部1144は、入力中の学習用音声信号から得た話者情報に対応したクラスタを計算する。すなわち、パラメータ推定部114が備える話者クラスタ適応型RBMは、話者情報を示すクラスタを複数持ち、話者クラスタ計算部1144は、入力中の学習用音声信号から得た話者情報に対応するクラスタを計算する。
 また、パラメータ推定部114が備える話者クラスタ適応型RBMは、音声情報、話者情報、音韻情報および話者クラスタの情報を持つだけでなく、各情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表すようにしている。
 声質変換処理ユニット12は、音声信号取得部121と前処理部122と話者情報設定部123と声質変換部124と後処理部125と音声信号出力部126とを備える。音声信号入力121、前処理部122、声質変換部124、後処理部125および音声信号出力部126は順次接続され、声質変換部124には、更にパラメータ学習ユニット11のパラメータ推定部114が接続される。
 音声信号取得部121は、変換用音声信号を取得し、前処理部122は、変換用音声信号に基づき変換用音声情報を生成する。本実施の形態例では、音声信号取得部121が取得する変換用音声信号は、任意の話者による変換用音声信号でよい。
 音声信号取得部121および前処理部122は、上述したパラメータ学習ユニット11の音声信号取得部111および前処理部112の構成と同じであり、別途設置することなくこれらを兼用してもよい。
 話者情報設定部123は、声質変換先である目標話者を設定し目標話者情報を出力する。話者情報設定部123で設定される目標話者は、ここでは、パラメータ学習ユニット11のパラメータ推定部114が事前に学習処理して話者情報を取得した話者の中から選ばれる。話者情報設定部123は、例えば、図示しないディスプレイ等に表示された複数の目標話者の選択肢(パラメータ推定部114が事前に学習処理した話者の一覧など)からユーザが図示しない入力部によって1つの目標話者を選択するものであってもよく、また、その際に、図示しないスピーカにより目標話者の音声を確認できるようにしてもよい。
 声質変換部124は、目標話者情報に基づいて変換用音声情報に声質変換を施し、変換済み音声情報を出力する。声質変換部124は、音声情報設定部1241、話者情報設定部1242、音韻情報設定部1243、および話者クラスタ計算部1244を持つ。この音声情報設定部1241、話者情報設定部1242、音韻情報設定部1243、および話者クラスタ計算部1244は、上述のパラメータ推定部114において、話者クラスタ適応型RBMの確率モデルが持つ音声情報推定部1141、話者情報推定部1142、音韻情報推定部1143、および話者クラスタ計算部1144と同等の機能を持つ。
 すなわち、音声情報設定部1241、話者情報設定部1242および音韻情報設定部1243には、それぞれ音声情報、話者情報および音韻情報が設定されるが、音韻情報設定部1243に設定される音韻情報は、前処理部122から供給される音声情報に基づいて得た情報である。一方、話者情報設定部1242に設定される話者情報は、パラメータ学習ユニット11内の話者情報推定部1142での推定結果から取得した目標話者についての話者情報(話者ベクトル)である。音声情報設定部1241に設定される音声情報は、これら話者情報設定部1242および音韻情報設定部1243に設定された話者情報および音韻情報と各種パラメータとから得られる。話者クラスタ計算部1244は、目標話者の話者クラスタ情報を計算する。
 なお、図1では声質変換部124を設ける構成を示したが、声質変換部124を別途設置することなく、パラメータ推定部114の各種パラメータを固定することで、パラメータ推定部114が声質変換の処理を実行する構成としてもよい。
 後処理部125は、声質変換部124で得られた変換済み音声情報に逆正規化処理を施し、更に逆FFT処理することでスペクトル情報をフレームごとの音声信号へ戻した後に結合し、変換済み音声信号を生成する。
 音声信号出力部126は、接続される外部機器に対して変換済み音声信号を出力する。接続される外部機器としては、例えば、スピーカなどが挙げられる。
 図2は、本発明の一実施形態例にかかる声質変換装置の別の構成例(例2)を示す図である。
 図2に示す声質変換装置1は、適応話者音声信号によりパラメータの適応処理を行う適応ユニット14を備える点が、図1に示す声質変換装置1と異なる。すなわち、図1に示す声質変換装置1では、パラメータ学習ユニット11が、学習処理と適応処理の双方を行うようにしたのに対して、図2に示す声質変換装置1では、適応ユニット14が適応処理を行うようにした点が異なる。
 適応ユニット14は、音声信号取得部141と前処理部142と適応話者情報取得部143とパラメータ推定部144を備える。音声信号取得部141は、適応話者音声信号を取得し、取得した音声信号を前処理部142に出力する。前処理部142は、音声信号の前処理を行って適応用音声情報を得、得られた適応用音声情報をパラメータ推定部144に供給する。適応話者情報取得部143は、適応話者についての話者情報を取得し、取得した適応話者情報をパラメータ推定部144に供給する。
 パラメータ推定部144は、音声情報推定部1441と話者情報推定部1442と音韻情報推定部1443と話者クラスタ計算部1444を有し、音声情報、話者情報、音韻情報、および話者クラスタの情報を持つ。
 適応ユニット14で得られた適用後のパラメータは、パラメータ記憶ユニット13に記憶した後、声質変換処理ユニット12に供給される。あるいは、適応ユニット14で得られた適用後のパラメータを、直接、声質変換処理ユニット12に供給するようにしてもよい。
 図2に示す声質変換装置1のその他の部分については、図1に示す声質変換装置1と同様に構成する。
 図3は、声質変換装置1のハードウェア構成例を示す図である。ここでは、声質変換装置1をコンピュータ(PC)で構成した例を示す。
 図3に示すように、声質変換装置1は、バス107を介して相互に接続されたCPU(中央制御ユニット:Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、声質変換装置1の動作を統括的に制御する。接続I/F105は、声質変換装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
 学習用音声信号、変換用音声信号、および変換済み音声信号の入出力および設定は、接続I/F105または通信I/F106を介して行われる。パラメータ記憶ユニット13でのパラメータの記憶は、RAM103またはHDD/SSD104により行われる。図1で説明した声質変換装置1の機能は、CPU101において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ROMに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの論理回路を組むことで、声質変換装置1の構成を実現するためのハードウェア構成にしてもよい。
[2.話者クラスタ適応型RBMの定義]
 次に、パラメータ推定部113および符号化部123が持つ確率モデルである、話者クラスタ適応型RBMについて説明する。
 まず、本発明に適用される話者クラスタ適応型RBMを説明する前に、既に提案した確率モデルである、適応型RBMについて説明する。
 図4は、適応型RBMのグラフ構造を模式的に示す図である。
 適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータを持つ。ここでは、音響(メルケプストラム)情報の特徴量v=[v,・・・,v]∈Rと、音韻情報の特徴量h=[h,・・・,h]∈{0,1},Σ=1との間に、話者特徴量s=[s1,・・・,sR]∈{0,1}R,Σrsr=1に依存した双方向な結合重みW∈RI×Jが存在すると仮定したとき、適応型RBMの確率モデルは、次の[数1]式~[数3]式で示される条件付き確率密度関数で示される。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 但し、σ∈Rは音響特徴量の偏差を表すパラメータであり、b∈Rおよびd∈Rはそれぞれ話者特徴量sに依存した音響特徴量、音韻特徴量のバイアスを表す。式の中の記号の上に付けられた「~」は、該当する情報が話者に依存した情報であることを示す。なお、明細書の中では、表記上の制約のため、「~」を記号の上に付与できないので、例えばW(~)のように、記号の後に括弧で示す。「^」などの、記号の上に付与して示す他の記号についても、同様に表記する。
 また、[数2]式の右辺の括線および「・」は、それぞれ要素ごとの除算、要素ごとの二乗を表す。話者依存の項W(~),b(~),d(~)は、話者非依存パラメータと話者依存パラメータを用いて、下記の[数4]式~[数6]式のように定義される。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 ここで、W∈RI×J,b∈R,d∈Rは話者非依存パラメータを表し、A∈RI×I(A={Ar=1 ),b∈R(B=[b,・・・,b]),d∈R(D=[d,・・・,d])は、話者rに依存したパラメータを表す。また、○ は左テンソルのモードi、右テンソルのモードjに沿った内積演算を表す。
 ここでは、音響特徴量はクリーン音声のメルケプストラムとし、発話者の違いによるパラメータ変動は、話者特徴量sによって規定される話者依存項([数4]式,[数5]式,[数6]式)で吸収する。したがって、音韻特徴量は話者に依存しないいずれかの要素のみがアクティブとなる観測不可能な特徴量である、音韻の情報が含まれることになる。
 このように、適応型RBMによって音響特徴量と音韻特徴量を得ることができるが、適応型RBMでは、話者依存パラメータの数は(IR)に比例し、音響特徴量の二乗(I)が比較的大きいため、話者数が増加するほど推定するパラメータ数が膨大となり、計算に要するコストが増加してしまう。また、ある話者rの適応時においても、推定すべきパラメータ数が(I+I+J)となり、過学習を避けるために相応に多くのデータを必要とする問題があった。
 ここで、本発明では、これらの問題を解決するために、話者クラスタ適応型RBMを適用する。
 図5は、話者クラスタ適応型RBMのグラフ構造を模式的に示す図である。
 話者クラスタ適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータの他に、話者クラスタc∈Rを持つ。話者クラスタcは、次の[数7]式と恒等的に表現される。
Figure JPOXMLDOC01-appb-M000009
 但し、L∈RK×R=[λ・・・λ]の各列ベクトルλは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ||=1,∀rの制約を課す。
 先に説明した適応型RBM(図4)では、話者ごとに適応行列を用意したが、本発明の話者クラスタ適応型RBMではクラスタごとに適応行列を用意する。また、音響特徴量、音韻特徴量のバイアスは、話者非依存項、クラスタ依存項、話者依存項の加算で表現される。すなわち、話者依存の項W(~),b(~),d(~)は、下記の[数8]式~[数10]式のように定義される。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 ここで、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×Kとする。
 [数8]式で示されるA={Ak}k=1 と、先に説明した適応型RBMでの[数4]式におけるAを比較すると、適応型RBMでは(IR)個のパラメータが含まれていたのに対して、話者クラスタ適応型RBMでは(IK)個となり、大幅にパラメータ数を削減することができる。例えば、一例としては、R=58、I=32、K=8に設定した場合、先に説明した適応型RBMではパラメータ数59392個になるが、話者クラスタ適応型RBMでは8192個になり、大幅にパラメータ数を削減できる。
 また、先に説明した適応型RBMでは、話者一人につきI+I+J(=1072)個のパラメータ(H=16の場合)であったのに対して、話者クラスタ適応型RBMでは、話者一人につきK+I+J(=56)個のパラメータでよい。したがって、話者クラスタ適応型RBMによると、大幅にパラメータ数を削減することができ、少ないデータで適応が可能になる。
 話者クラスタ適応型RBMにおいても、条件付き確率p(v,h|s)を、先に説明した[数1]式~[数3]式で定義する。このとき、条件付き確率p(v|h,s),p(h|v,s)は、それぞれ次の[数11]式および[数12]式に示すようになる。
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 但し、[数11]式の右辺のN(・)は次元独立の多変量正規分布、[数12]式の右辺のB(・)は多次元ベルヌーイ分布、f(・)は要素ごとのsoftmax関数を表す。
 音韻特徴量hは既知であり、ある話者rの音響特徴量の平均ベクトルμを考えると、[数11]式より、平均ベクトルは[数13]式に示すようになる。
Figure JPOXMLDOC01-appb-M000015
 但し、λ′=[λ  1]は、λrの拡張ベクトルであり、M=[μ,・・・,μK+1]の各列ベクトルは、[数14]式で定義される。
Figure JPOXMLDOC01-appb-M000016
 本発明の一実施形態例による話者クラスタ適応型RBMでは、話者依存項bが存在し、話者非依存平均ベクトルμが[数14]式のように構造化される特徴を持つ。また、潜在的な音韻特徴量を陽に確率変数として定義している。
 また、本発明の一実施形態例による話者クラスタ適応型RBMでは、話者非依存パラメータと話者クラスタ重みを同時に推定することができる。すなわち、R人の話者によるNフレームの音声データ{v|sn=1 に対する対数尤度([数15]式)を最大化するように、確率的勾配法を用いて全てのパラメータΘ={W,U,V,A,L,B,D,b,d,σ}を同時に更新し推定することが可能である。ここでは、それぞれのパラメータの勾配は省略する。
Figure JPOXMLDOC01-appb-M000017
 各勾配には計算困難なモデルに対する期待値が出現するが、通常のRBMの確率モデルと同様に、CD法(Contrastive Divergence法)を用いることで、効率よく近似することができる。
 また、クラスタ重みの非負条件を満たすために、λ=ezrと置き換えて、zでパラメータ更新を行う。クラスタ重みはパラメータ更新後、||λ||=1を満たすように正則化する。
 さらに、モデルの学習が行われれば、音韻特徴量およびクラスタの形成が完了したとみなし、新たな話者r′について、Θr′={λr′,br′,dr′}のみを更新し推定し、他のパラメータは固定する。
 この話者クラスタ適応型RBMを声質変換に適用する際には、ある入力話者の音声の音響特徴量v(i)および話者特徴量s(i)、目標話者の話者特徴量s(o)が与えられたとき、最も確率の高い音響特徴量v(o)が目標話者の音響特徴量であるとして、[数16]式に示すように定式化される。
Figure JPOXMLDOC01-appb-M000018
 但し、h(^)は、入力話者の音響特徴量および話者特徴量が与えられたときのhの条件付き期待値であり、[数17]式で表される。
Figure JPOXMLDOC01-appb-M000019
[3.声質変換動作]
 図6は、本発明の実施形態例による声質変換処理動作を示すフローチャートである。図6に示すように、パラメータ学習処理として、声質変換装置1のパラメータ学習ユニット11の音声信号取得部111と話者情報取得部113とは、図示しない入力部によるユーザの指示に基づいて学習用音声信号とその対応話者情報とをそれぞれ取得する(ステップS1)。
 前処理部112は、音声信号取得部111が取得した学習用音声信号からパラメータ推定部114に供給する学習用音声情報を生成する(ステップS2)。ここでは、例えば学習用音声信号をフレームごと(例えば、5msecごと)に切り出し、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する。そして、算出したスペクトル特徴量の正規化処理(例えば、各次元の平均と分散を用いて正規化)を行うことで学習用音声情報vを生成する。
 生成された学習用音声情報vは、話者情報取得部113によって取得された対応話者情報sとともにパラメータ推定部114へ出力される。
 パラメータ推定部114は、話者クラスタ適応型RBMの学習処理を行う(ステップS3)。ここでは、学習用話者情報sに対応した話者クラスタcと、学習用音声情報vを用いて各種パラメータの推定のための学習を行う。
 次に、ステップS3の詳細について、図7を参照して説明する。まず、図7に示すように、話者クラスタ適応型RBMの確率モデルにおいて、全パラメータに任意の値を入力し(ステップS11)、音声情報推定部1141に取得した学習用音声情報vを入力し、話者情報推定部1142に取得した対応話者情報sを入力する(ステップS12)。
 そして、話者情報推定部1142が取得した対応話者情報sから、話者クラスタ計算部1144が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1141に取得した学習用音声情報vを入力とする(ステップS13)。
 次に、ステップS13で入力された話者クラスタcと学習用音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hをサンプルする(ステップS14)。ここで「サンプルする」とは、条件付き確率密度関数に従うデータをランダムに1つ生成することをいい、以下、同じ意味で用いる。
 さらに、ステップS14でサンプルされた音韻情報hと話者クラスタcとを用いて音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて学習用音声情報vをサンプルする(ステップS15)。
 次に、ステップS14でサンプルされた音韻情報hと、ステップS15でサンプルされた学習用音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hを再サンプルする(ステップS16)。
 そして、上述の[数15]式で示される対数尤度Lをそれぞれのパラメータで偏微分し、勾配法により全パラメータを更新する(ステップS17)。具体的には、確率的勾配法が用いられ、サンプルされた学習用音声情報v、音韻情報h、および対応話者情報sを用いてモデルに対する期待値を近似計算することができる。
 全パラメータを更新した後、所定の終了条件を満たしていれば(ステップS18のYES)、次のステップに進み、満たしていなければ(ステップS18のNO)ステップS11に戻り、以降の各ステップを繰り返す(ステップS18)。なお、所定の終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。
 再び、図6に戻り、説明を続ける。パラメータ推定部114は、上述の一連のステップにより推定されたパラメータを学習により決定されたパラメータとして、パラメータ記憶ユニット13に記憶する。そして、その記憶したパラメータを、入力した適応話者音声信号に基づいて、適応後のパラメータとする適用処理を行う。この適応処理で得られた適応後のパラメータを、声質変換ユニット12の声質変換部124へ引き渡す(ステップS4)。
 次に、ステップS4での適応処理の詳細について、図8を参照して説明する。まず、図8に示すように、話者固有パラメータとして任意の値を入力し(ステップS21)、音声情報推定部1441に取得した適応話者音声情報vを入力し、話者情報推定部1442に取得した適応話者情報sを入力する(ステップS22)。
 そして、話者情報推定部1442が取得した適応話者情報sから、話者クラスタ計算部1444が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1441に取得した適応話者音声情報vを入力とする(ステップS23)。
 次に、ステップS23で入力された話者クラスタcと適応話者音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hをサンプルする(ステップS24)。
 さらに、ステップS24でサンプルされた音韻情報hと話者クラスタcとを用いて音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて適応話者音声情報vをサンプルする(ステップS25)。
 次に、ステップS24でサンプルされた音韻情報hと、ステップS25でサンプルされた適応話者音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hを再サンプルする(ステップS26)。
 そして、上述の[数15]式で示される対数尤度Lをそれぞれのパラメータで偏微分し、勾配法により適応話者に固有のパラメータを更新する(ステップS27)。
 適応話者に固有のパラメータを更新した後、所定の終了条件を満たしていれば(ステップS28のYES)、次のステップに進み、満たしていなければ(ステップS28のNO)ステップS21に戻り、以降の各ステップを繰り返す(ステップS28)。
 再び、図6に戻り、説明を続ける。
 声質変換処理として、ユーザは、図示しない入力部を操作して声質変換ユニット12の話者情報設定部123において声質変換の目標となる目標話者の情報s(o)を設定する(ステップS5)。そして、音声信号取得部121により変換用音声信号を取得する(ステップS6)。
 前処理部122は、パラメータ学習処理の場合と同じく変換用音声信号に基づいて音声情報を生成し、話者情報取得部123によって取得された対応話者情報sとともに声質変換部124へ出力される(ステップS7)。
 声質変換部124は、話者クラスタ適応型RBMを適用して、適応話者の音声を目標話者の音声に変換する声質変換を行う(ステップS8)。
 次に、ステップS8の詳細について、図9を参照して説明する。まず、図9に示すように、話者クラスタ適応型RBMの確率モデルにおいて、決定された全パラメータを入力し(ステップS31)、音声情報設定部1241に音声情報vを入力し、話者情報設定部1242に入力話者情報sを入力し、話者クラスタ計算部1244が入力話者の話者クラスタcを計算する(ステップS32)。
 そして、ステップS32で計算された話者クラスタcと音声情報vとを用いて、音韻情報hを推定する(ステップS33)。
 次に、声質変換部124は、パラメータ学習処理で学習済みの目標話者の話者情報sを取得し、話者クラスタ計算部1244が目標話者の話者クラスタcを計算する(ステップS34)。そして、ステップS34で計算された目標話者の話者クラスタcとステップS33で推定した音韻情報hとを用いて、音声情報設定部1241が変換済み音声情報vを推定する(ステップS35)。推定された変換済み音声情報v(o)は、後処理部125へ出力される。
 再び、図6に戻り、説明を続ける。後処理部125は、変換済み音声情報vを用いて変換済み音声信号を生成する(ステップS9)。具体的には、正規化されている変換済み音声信号vに非正規化処理(ステップS2で説明した正規化処理に用いる関数の逆関数を施す処理)を施し、非正規化処理のなされたスペクトル特徴量を逆変換することでフレームごとの変換済み音声信号を生成し、これらフレームごとの変換済み音声信号を時刻順に結合することで変換済み音声信号を生成する。
 後処理部125により生成された変換済み音声信号は、音声信号出力部126より外部へ出力される(ステップS10)。変換済み音声信号を外部に接続されたスピーカで再生することにより、目標話者の音声に変換された入力音声を聞くことができる。
[4.評価実験例]
 次に、本発明による話者クラスタ適応型RBMの効果を実証するため、声質変換実験を行った例について説明する。
 確率モデルの学習には日本音響学会研究用連続音声データベース(ASJ-JIPDEC)の中からランダムにR=8;16;58名の話者を選び、40センテンスの音声データを用いた。学習話者の評価には、男性1名(ECL0001)を入力話者、女性1名(ECL1003)を目標話者とし、学習データとは別の10センテンスの音声データを用いた。確率モデルの適応には、学習時に含まれない女性話者(ECL1004)、男性話者(ECL0002)をそれぞれ入力話者、目標話者とし、適応データのセンテンス数を0.2から40まで変えて評価を行った。適応話者の評価についても適応データに含まれない10センテンスの音声データを用いた。分析合成ツール(WORLD:URL http://ml.cs.yamanashi.ac.jp/world/index.html)によって得られたスペクトルから計算した32次元のメルケプストラムを入力特徴量に用いた(I=32)。また、潜在音韻特徴量の数をJ=8;16;24、クラスタの数をK=2;3;4;6;8とし、最も高い精度となるものを採用した。学習率0:01、モーメント係数0:9、バッチサイズ100×R、繰り返し回数100の確率的勾配法を用いて確率モデルを学習した。
 声質変換の精度を測る指標として、以下の[数18]式で定義されるMDIR(mel-cepstral distortion improvement ratio)の平均値を用いた。
Figure JPOXMLDOC01-appb-M000020
 ここで、v、vi、v(^)は、それぞれ、入力話者とアライメントをとった目標話者音声のメルケプストラム特徴量、同アライメントをとった入力話者音声のメルケプストラム特徴量、viに対して声質変換を施した音声のメルケプストラム特徴量を示す。MDIRは改善率を表し、値が大きいほど高い変換精度を示す。
 まず、K=2;R=8およびK=3;R=16としたとき、推定された各話者のクラスタ重みλの分布を図10Aおよび図10Bに示す。図10Aの例は、K=2であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)との2つのクラスタが自動的に形成されている。図10Bの例は、K=3であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)の他に、さらに男女が混ざった別のクラスタ(Cluster 3)が自動的に形成されている。この図10Aおよび図10Bにおいて、各学習者の話者クラスタの位置R11~R18およびR21~R30を示し、○印で示す音声は男性の音声であり、×印で示す音声は女性の音声である。
 図10Aおよび図10Bから分かるように、○印で示す男性の音声は、(Cluster 1)に近い位置(クラスタ重み)になり、×印で示す女性の音声は、(Cluster 2)に近い位置に学習されており、性別の教師を与えていないにも関わらず、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)が自動的に形成されていることが分かる。また、図10Aおよび図10Bに示すように、学習データでは、二つのクラスタが最も離れるように学習されている。すなわち、互いに最も離れている話者ペアが、それぞれのクラスタ(Cluster 1及びCluster 2)と重なる位置に設定されている。そして、各クラスタが最も離れるように学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する。このように複数のクラスタが最も離れるように学習する性質は、各クラスタ(代表話者)を内分する点を自由に調節することで任意の声へ変換する際、調節の幅が広くなり好ましい。
 次に、本発明による話者クラスタ適応型RBMによる確率モデル(CABと示す)と、従来の非パラレル声質変換手法である適応型RBM(ARBMと示す)の学習話者の変換精度を比較した例を、[表1]に示す。ここでは、学習人数が8人、16人、58人の例を示し、値が高いほど精度が高いことを示す。
Figure JPOXMLDOC01-appb-T000021
 従来の適応型RBM(ARBM)では、話者数の少ない場合では高い精度を示すが、話者数を増加させると精度が低下することが分かる。一方、話者ごとのパラメータ数を抑えた話者クラスタ適応型RBMによる確率モデル(CAB)では、話者数を増加させても精度に変化はあまり見られない。
 [表2]は、本発明による話者クラスタ適応型RBMによる確率モデルと、従来の適応型RBM(ARBM)による確率モデルとの、センテンス数による変換精度を比較した例である。
Figure JPOXMLDOC01-appb-T000022
 [表2]から明らかなように、適応に用いるセンテンス数が1以下のとき、従来モデルでは精度の低下が見られるが、話者クラスタ適応型RBMによる確率モデル(CAB)では、0.5センテンス程度で、10センテンス以上の場合と同等のパフォーマンスが得られる。
 以上、本発明によれば、話者情報から話者クラスタを取得して、その話者クラスタを使って確率モデルを得るようにしたので、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
[5.変形例]
 なお、ここまで説明した実施形態例では、目標話者の音声情報vと音韻情報nとを得る処理として、図5の話者クラスタ適応型RBMのグラフ構造に示すように、話者クラスタcが持つパラメータA,V,Uから、演算で目標話者の音声情報vと音韻情報nを得るようにした。
 これに対して、図11に示すように、話者クラスタcが持つパラメータA,V,Uから、目標話者の話者情報sを得、得られた話者情報sを使って、話者に依存したパラメータD,A,Bを得た後、これらのパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得るようにしてもよい。話者に依存したパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得る処理については、例えば図4の適応型RBMのグラフ構造で説明した処理が適用可能である。
 この図11に示すように、話者クラスタcを使って目標話者の話者情報sを得た後、目標話者の音声情報vと音韻情報nを得るようにすることでも、図5の例と同様に、適切な目標話者の音声情報vと音韻情報nを得ることができる。この図11に示す処理を行う場合には、目標話者の音声情報vと音韻情報nが、目標話者の話者情報sから得られるため、それぞれの情報の精度が向上する効果を有する。但し、データ量については、図5の例よりも増加する。
 また、ここまで説明した実施形態例では、学習用の音声信号による学習で、声質変換のためのパラメータを学習処理した後、適応話者音声信号の入力で、パラメータを適応話者音声信号に適応した後、適応されたパラメータを使って、目標話者の音声信号に声質変換するようにした。このようにすることで、事前に学習されていない音声信号(適応話者音声信号)を、目標話者の音声信号に声質変換することができる。これに対して、適応話者音声信号の入力を省略して、学習用の音声信号で得たパラメータを使って、学習用の音声信号を目標話者の音声信号に声質変換してもよい。
 この場合には、声質変換装置1は、例えば図1に示す構成として、パラメータ学習ユニット11での学習で得られたパラメータをパラメータ記憶ユニット13が記憶し、声質変換処理ユニット12は、パラメータ記憶ユニット13が記憶したパラメータを適用して、入力音声を目標話者の音声に変換処理すればよい。
 また、ここまで説明した実施形態例では、学習を行う入力音声(入力話者の音声)や適応を行う入力音声として、人間の話し声の音声を処理する例について説明したが、実施形態例で説明した各情報を得る学習が可能であれば、学習用や適応を行う音声信号(入力信号)として、人間の話し声以外の様々な音とし、その音声信号を学習又は適応するようにしてもよい。例えば、サイレンの音や動物の鳴き声などのような音を学習又は適応するようにしてもよい。
 1・・・声質変換装置、11・・・パラメータ学習ユニット、12・・・声質変換処理ユニット、13・・・パラメータ記憶ユニット、14・・・適応ユニット、101・・・CPU、102・・・ROM、103・・・RAM、104・・・HDD/SDD、105・・・接続I/F、106・・・通信I/F、111,121,141・・・音声信号取得部、112,122,142・・・前処理部、113・・・対応話者情報取得部、114,144・・・パラメータ推定部、1141,1441・・・音声情報推定部、1142,1442・・・話者情報推定部、1143,1443・・・音韻情報推定部、1144,1444・・・話者クラスタ計算部、123・・・話者情報設定部、124・・・声質変換部、1241・・・音声情報設定部、1242・・・話者情報設定部、1243・・・音韻情報設定部、1244・・・話者クラスタ計算部、125・・・後処理部、125・・・音声信号出力部

Claims (8)

  1.  入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
     学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
     前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
     前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
     前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
     声質変換装置。
  2.  さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
     前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
     請求項1に記載の声質変換装置。
  3.  前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
     前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
     請求項2に記載の声質変換装置。
  4.  前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
     請求項1に記載の声質変換装置。
  5.  前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
     請求項1に記載の声質変換装置。
  6.  音声情報の特徴量v=[v,・・・,v]∈Rと、音韻情報の特徴量h=[h,・・・,h]∈{0,1},Σ=1との間に、話者情報の特徴量s=[s,・・・,s]∈{0,1},Σ=1に依存した双方な結合重みW∈RI×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈Rを導入し、話者クラスタcを、
    Figure JPOXMLDOC01-appb-I000001
    (但し、L∈RK×R=[λ・・・λ]の各列ベクトルλは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ||=1,∀の制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
    Figure JPOXMLDOC01-appb-I000002
    として示す
     請求項1に記載の声質変換装置。
  7.  入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
     音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
     前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
     を含む、声質変換方法。
  8.  音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
     前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
    をコンピュータに実行させるプログラム。
PCT/JP2018/007268 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム WO2018159612A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019503021A JP7018659B2 (ja) 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム
US16/489,513 US20190385628A1 (en) 2017-02-28 2018-02-27 Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017036109 2017-02-28
JP2017-036109 2017-02-28

Publications (1)

Publication Number Publication Date
WO2018159612A1 true WO2018159612A1 (ja) 2018-09-07

Family

ID=63370773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/007268 WO2018159612A1 (ja) 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム

Country Status (3)

Country Link
US (1) US20190385628A1 (ja)
JP (1) JP7018659B2 (ja)
WO (1) WO2018159612A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085209A (zh) * 2019-04-11 2019-08-02 广州多益网络股份有限公司 一种音色筛选方法及装置
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
WO2022101967A1 (ja) * 2020-11-10 2022-05-19 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP2023511604A (ja) * 2020-02-13 2023-03-20 テンセント・アメリカ・エルエルシー 歌声変換

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102818B (zh) * 2018-08-29 2022-10-21 昆明理工大学 一种基于信号频率概率密度函数分布的去噪音频采样算法
CN111247584B (zh) * 2019-12-24 2023-05-23 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111599368B (zh) * 2020-05-18 2022-10-18 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
US11532313B2 (en) * 2020-08-27 2022-12-20 Google Llc Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data
EP4030421A4 (en) * 2020-11-18 2023-07-12 Minds Lab Inc. METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム
CN113450759A (zh) * 2021-06-22 2021-09-28 北京百度网讯科技有限公司 语音生成方法、装置、电子设备以及存储介质
CN115171648A (zh) * 2022-07-07 2022-10-11 云知声智能科技股份有限公司 一种语音克隆方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612840B1 (ko) 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAKASHIKA, TORU ET AL.: "Simultaneous Modelling of Acoustic, Phonetic, Speaker Features Using Improved Three- Way Restricted Boltzmann MachineIEICE technical report", IEICE TECHNICAL REPORT, vol. 115, no. 346, 25 November 2015 (2015-11-25), pages 7 - 12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085209A (zh) * 2019-04-11 2019-08-02 广州多益网络股份有限公司 一种音色筛选方法及装置
CN110085209B (zh) * 2019-04-11 2021-07-23 广州多益网络股份有限公司 一种音色筛选方法及装置
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
JP2023511604A (ja) * 2020-02-13 2023-03-20 テンセント・アメリカ・エルエルシー 歌声変換
JP7356597B2 (ja) 2020-02-13 2023-10-04 テンセント・アメリカ・エルエルシー 歌声変換
WO2022101967A1 (ja) * 2020-11-10 2022-05-19 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7498408B2 (ja) 2020-11-10 2024-06-12 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Also Published As

Publication number Publication date
JP7018659B2 (ja) 2022-02-15
US20190385628A1 (en) 2019-12-19
JPWO2018159612A1 (ja) 2020-01-09

Similar Documents

Publication Publication Date Title
WO2018159612A1 (ja) 声質変換装置、声質変換方法およびプログラム
US10573304B2 (en) Speech recognition system and method using an adaptive incremental learning approach
Helander et al. Voice conversion using partial least squares regression
JP6783475B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP6543820B2 (ja) 声質変換方法および声質変換装置
Jokinen et al. Vocal effort compensation for MFCC feature extraction in a shouted versus normal speaker recognition task
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Seshadri et al. Vocal effort based speaking style conversion using vocoder features and parallel learning
Vignolo et al. Feature optimisation for stress recognition in speech
Kadyan et al. In domain training data augmentation on noise robust Punjabi Children speech recognition
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Purohit et al. Intelligibility improvement of dysarthric speech using mmse discogan
WO2020136948A1 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
Aihara et al. Multiple non-negative matrix factorization for many-to-many voice conversion
Deka et al. Development of assamese text-to-speech system using deep neural network
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
WO2021033629A1 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
Kotani et al. Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations
Laskar et al. Filterbank Optimization for Text-Dependent Speaker Verification by Evolutionary Algorithm Using Spline-Defined Design Parameters
WO2024038560A1 (ja) 学習装置、推定装置、学習方法、及びプログラム
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
WO2021199446A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Hariharan et al. An integrated study of speaker normalisation and HMM adaptation for noise robust speaker-independent speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18761545

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2019503021

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18761545

Country of ref document: EP

Kind code of ref document: A1