WO2022085197A1 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDF

Info

Publication number
WO2022085197A1
WO2022085197A1 PCT/JP2020/039975 JP2020039975W WO2022085197A1 WO 2022085197 A1 WO2022085197 A1 WO 2022085197A1 JP 2020039975 W JP2020039975 W JP 2020039975W WO 2022085197 A1 WO2022085197 A1 WO 2022085197A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
conversion
input data
data
model
Prior art date
Application number
PCT/JP2020/039975
Other languages
English (en)
French (fr)
Inventor
卓弘 金子
弘和 亀岡
宏 田中
伸克 北条
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US18/032,529 priority Critical patent/US20230386489A1/en
Priority to JP2022556363A priority patent/JP7518429B2/ja
Priority to PCT/JP2020/039975 priority patent/WO2022085197A1/ja
Publication of WO2022085197A1 publication Critical patent/WO2022085197A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to an audio signal conversion model learning device, an audio signal conversion device, an audio signal conversion model learning method, and a program.
  • Voice quality conversion is a technology that converts only non-language and paralanguage (speaker, speech style, etc.) while retaining the linguistic information (speech sentence) of the input speech. It is expected to be applied to support, voice enhancement, pronunciation conversion, etc. As one of the techniques for voice quality conversion, for example, it has been proposed to use machine learning (Patent Documents 1 to 4).
  • Japanese Unexamined Patent Publication No. 2019-035902 Japanese Unexamined Patent Publication No. 2019-144402 Japanese Unexamined Patent Publication No. 2019-101391 Japanese Unexamined Patent Publication No. 2020-140244
  • a part of the information contained in the audio signal before extraction may be lost in the process of extracting the feature amount of the audio signal to be converted.
  • a process of extracting a feature amount from a part of input data is repeatedly executed using a filter. Since this process is a contraction process using a filter, a part of the information is lost due to the contraction.
  • information indicating the structure of the input data such as information on the correlation between a part of the input data and another part, is lost.
  • an object of the present invention is to provide a technique for reducing the loss of information of a voice signal to be converted in a technique for voice quality conversion using machine learning.
  • One aspect of the present invention is a learning data acquisition unit that acquires learning input data that is an input voice signal, and learning that converts the learning input data into learning stage conversion destination data that is a conversion destination voice signal.
  • the learning stage conversion process includes a learning stage conversion unit that executes a conversion learning model that is a machine learning model including a stage conversion process, and the learning stage conversion process is based on the processing target input data that is the processing target data, and the processing target input data.
  • the transformation learning model includes a local feature amount acquisition process that acquires a feature amount for each learning input side subset that is a subset of the input data to be processed having the above as a population, and the transformation learning model is a statistical value of the distribution of the feature amount.
  • an adjustment parameter value acquisition process for acquiring an adjustment parameter value, which is a value of a parameter for adjusting, based on the learning input data, and the learning stage conversion process obtains the result of a predetermined calculation based on the adjustment parameter value. It is a voice signal conversion model learning device that converts the learning input data into the learning stage conversion destination data by using the data.
  • FIG. 1 is an explanatory diagram illustrating an outline of the audio signal conversion system 100 of the embodiment.
  • the audio signal conversion system 100 converts the conversion source audio signal into an audio signal having the sound attribute indicated by the conversion destination sound attribute information based on the conversion destination sound attribute information.
  • a voice signal is a signal representing voice.
  • the conversion source audio signal is an audio signal to be converted by the audio signal conversion system 100.
  • the audio signal of the conversion destination of the conversion source audio signal by the audio signal conversion system 100 is referred to as a conversion destination audio signal.
  • the conversion destination sound attribute information is information indicating the sound attribute (hereinafter referred to as “conversion destination sound attribute”) possessed by the conversion destination audio signal.
  • the sound attribute is an attribute related to sound.
  • the sound attribute is, for example, the gender of the speaker.
  • the sound attribute may be, for example, an identifier that identifies the speaker.
  • the audio signal conversion system 100 for example, when the conversion destination sound attribute is the attribute of the sound emitted by the woman and the conversion source sound attribute is the attribute of the sound emitted by the man, the audio signal of the male voice is input. Converts to a female voice signal.
  • the conversion source sound attribute is the sound attribute of the conversion source audio signal.
  • the audio signal conversion process is a process of executing an audio signal conversion model.
  • the voice signal conversion model is a machine learning model that has been learned in advance, and is a machine learning model that converts the conversion source voice signal into a voice signal having the sound attribute indicated by the conversion destination sound attribute information based on the conversion destination sound attribute information. be. Therefore, the audio signal conversion model is a result obtained by machine learning, and is a learning result by machine learning.
  • the audio signal conversion system 100 includes an audio signal conversion model learning device 1 and an audio signal conversion device 2.
  • the voice signal conversion model learning device 1 updates a predetermined machine learning model by machine learning until a predetermined end condition is satisfied.
  • a predetermined machine learning model at a time when a predetermined end condition is satisfied is a voice signal conversion model. Therefore, the audio signal conversion model learning device 1 acquires the audio signal conversion model by updating the predetermined machine learning model by machine learning until the predetermined end condition is satisfied.
  • machine learning model For the sake of simplicity of the explanation below, performing machine learning is also called learning. Further, updating a machine learning model (hereinafter referred to as "machine learning model") by machine learning means that the values of parameters in the machine learning model are appropriately adjusted.
  • learning to be A means that the value of the parameter in the machine learning model is adjusted to satisfy A.
  • A represents a condition.
  • for learning means that it is used for updating a machine learning model.
  • the machine learning model is a set including one or a plurality of processes in which the conditions to be executed and the order are predetermined.
  • a predetermined machine learning model (hereinafter referred to as “conversion learning model”) converts an input audio signal.
  • a voice signal for learning and a voice signal to be converted (hereinafter referred to as “learning input data”) is input to the conversion learning model.
  • a voice signal for learning and used for comparison with the learning input data after conversion by the conversion learning model (hereinafter referred to as “learning reference data”) is input to the conversion learning model. .. That is, the reference data for learning is so-called correct answer data in machine learning.
  • learning data when the input data for learning and the reference data for learning are not distinguished, they are referred to as learning data.
  • the conversion learning model converts the input learning input data into the learning stage conversion destination data based on the conversion destination sound attribute information.
  • the learning stage conversion destination data is a voice signal whose sound attribute is closer to the sound attribute indicated by the conversion destination sound attribute information than the learning input data.
  • the audio signal conversion model learning device 1 updates the conversion learning model based on the difference between the learning stage conversion destination data and the learning reference data (hereinafter referred to as “loss”).
  • the learned conversion learning model is the audio signal conversion model. That is, the conversion learning model at the time when a predetermined end condition is satisfied is the audio signal conversion model.
  • FIG. 2 is a first explanatory diagram illustrating the transformation learning model in the embodiment.
  • the transformation learning model may be any machine learning model as long as it is a machine learning model that satisfies the model conditions.
  • the model condition includes at least three conditions, a first network condition, a second network condition, and a third network condition.
  • the first network condition is a feature amount (hereinafter referred to as "local feature amount") for each learning input side subset based on the input data (hereinafter referred to as "process target input data") which is the data to be processed. ) Is included.
  • the learning input side subset is a subset of the processing target input data whose population is the processing target input data. It is desirable that the learning input side subset is a true subset of the input data to be processed.
  • the process of acquiring the local feature amount for each learning input side subset based on the input data to be processed is referred to as the local feature amount acquisition process.
  • the local feature amount is a value obtained for each learning input side subset and is a feature amount of each learning input side subset.
  • One local feature is, for example, the value of one element of a tensor representing the output value of a convolutional neural network.
  • the local feature amount is, for example, an acoustic feature amount.
  • the acoustic feature quantity is a feature quantity related to speech such as a mel cepstrum coefficient, a power spectrum, and a mel spectrum.
  • the input data to be processed is, for example, learning input data.
  • the input data to be processed may be, for example, a set of local features obtained by executing a local feature acquisition process on the input data for learning (hereinafter referred to as a “local feature set”).
  • the input data to be processed may be, for example, a local feature set obtained by executing a local feature acquisition process for the local feature set.
  • the input data to be processed may be any quantity as long as it is a set of quantities obtained based on the input data for learning.
  • the input data for learning is represented by X.
  • the input data for learning is X in the equation (1) described later.
  • the local feature amount acquisition process may be executed only once or a plurality of times in the transformation learning model.
  • the second network condition is a condition that includes a process of acquiring an adjustment parameter value (hereinafter referred to as “adjustment parameter value”) (hereinafter referred to as “adjustment parameter value acquisition process”).
  • the adjustment parameter is a parameter for adjusting the statistical value of the distribution of the local feature amount (hereinafter referred to as “global statistical value”).
  • the global statistic may be, for example, a mean, a median, or a full width at half maximum of the distribution.
  • the adjustment parameter value acquisition process is a process executed for the input data for learning.
  • the adjustment parameter value acquisition process is, for example, a process executed by a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the adjustment parameter value is a value output by the CNN as a result of the learning input data being input to the CNN.
  • a CNN that outputs such an adjustment parameter value has a limited conversion range of input data as compared with a CNN that does not output an adjustment parameter value, and can maintain the global structure of the input data. It differs in that. Because of such a difference, the CNN that outputs the adjustment parameter value can output the adjustment parameter value unlike the CNN that does not output the adjustment parameter value. This applies not only to CNN but also to other neural networks. That is, there are neural networks that can output adjustment parameter values and neural networks that cannot output adjustment parameter values because of the above-mentioned differences.
  • adjustment means the process of converting statistics such as the size of the target data or deviation from the reference value by using four arithmetic operations.
  • the adjustment parameters are, for example, ⁇ (X) and ⁇ (X) in the equation (1). Therefore, for example, the values of ⁇ (X) and ⁇ (X) of the equation (1) are acquired by executing the adjustment parameter value acquisition process for X of the equation (1) described later.
  • the third network condition is a condition that the learning input data is converted into the learning stage conversion destination data by using the result of a predetermined operation based on the adjustment parameter value. Specifically, the third network condition is set as an adjustment parameter value for the result of the local feature amount acquisition process executed at a predetermined stage among the execution results of the local feature amount acquisition process executed in the transformation learning model. It is a condition that the conversion by the corresponding mapping is executed.
  • the third network condition corresponds to the adjustment parameter value for each local feature amount of the local feature amount set obtained at a predetermined stage among the local feature amount sets obtained by executing the transformation learning model.
  • the condition is that the mapping transformation is performed.
  • feature amount conversion mapping the conversion by the mapping according to the adjustment parameter value (hereinafter referred to as “feature amount conversion mapping”) is referred to as a mapping conversion process.
  • the target set is a local feature set obtained by processing at a predetermined stage during execution of the transformation learning model among the local feature sets obtained by executing the transformation learning model. More specifically, the target set is a local feature set obtained by executing the learning stage conversion process, and is a local feature set obtained by the target step process.
  • the target stage process is a predetermined process for obtaining a target set among the processes included in the learning stage conversion process.
  • the learning stage conversion process is a process other than the two types of processes, the adjustment parameter value acquisition process and the map conversion process, among the processes represented by the transformation learning model. That is, the learning stage conversion process is a process in which the learning input data is input and the learning stage conversion destination data is output.
  • the learning stage conversion process may be any process as long as it includes the local feature amount acquisition process.
  • the learning stage conversion process may include, for example, a downsampling process, an upsampling process, or a process of replacing a feature quantity tensor. Further, the learning stage conversion process may include, for example, a process of adding the value when the convolution process is skipped and the value after the application of the convolution process.
  • the local feature quantity is a quantity represented by a tensor, and it is desirable that the conversion of the local feature quantity by the feature quantity conversion mapping is executed for each element of the local feature quantity. By executing it for each element, it has the effect of making it possible to deal with the difference in the value of the statistic that differs for each element. For example, in the unvoiced section, the fluctuation of the signal is small, and in the voiced section, the fluctuation of the signal is large, but it is possible to deal with the difference in such fluctuation.
  • the feature amount conversion map is, for example, an affine transformation.
  • the affine transformation is expressed by, for example, the equation (1). More specifically, the affine transformation of the equation (1) is an example of the feature transformation mapping used when the input data to be processed is the output result of the convolution layer. That is, the affine transformation of the equation (1) is an example of the feature transformation mapping used when the target step processing is the processing of the convolution layer.
  • X is the input data to be processed.
  • X is a tensor whose elements are real numbers and is at least a third-order tensor.
  • H in the equation (1) represents a feature amount to be a map conversion process.
  • H in equation (1) is a tensor whose elements are real numbers and is at least a third-order tensor.
  • H in the formula (1) is, for example, a third-order tensor of q ⁇ t ⁇ c.
  • q represents the number of feature dimensions
  • t represents the series length
  • c represents the number of channels.
  • the feature quantity dimension number means the dimension number of the feature quantity H in the frequency direction.
  • " ⁇ " represents the element product and "+” represents the element sum.
  • H'in the equation (1) is the result of converting H in the equation (1) by the transformation of the right side of the equation (1).
  • is an adjustment parameter and a scale parameter in affine transformation.
  • is a tensor whose elements are real numbers and is a third-order tensor of q ⁇ t ⁇ c.
  • is an adjustment parameter and a bias parameter in the affine transformation.
  • is a tensor whose elements are real numbers and is a third-order tensor of q ⁇ t ⁇ c.
  • the scale parameter ⁇ and the bias parameter ⁇ are examples of adjustment parameters.
  • the process executed in the map conversion process is, for example, a process of converting the feature amount H into the feature amount H'by the equation (1). Therefore, the set based on the feature quantity H in the equation (1) is an example of the target set.
  • the parameters of the neural network that executes the learning stage conversion process and the parameters of the neural network that executes the adjustment parameter value acquisition process are suitably adjusted based on the loss.
  • the neural network that executes the learning stage conversion process is referred to as a learning stage conversion processing network.
  • the neural network that executes the adjustment parameter value acquisition process is referred to as an adjustment parameter value acquisition network.
  • a neural network is a circuit such as an electronic circuit, an electric circuit, an optical circuit, an integrated circuit, etc., which expresses a machine learning model.
  • the network parameters that are suitably adjusted based on the loss are the parameters of the machine learning model to be expressed.
  • the network parameters are the parameters of the circuits constituting the network.
  • the learning stage conversion processing network may be any neural network as long as it is a neural network that executes the learning stage conversion processing.
  • the learning stage conversion processing network may be, for example, a fully connected neural network, a convolutional neural network (CNN), or an autoencoder.
  • CNN convolutional neural network
  • the local feature amount set obtained at a predetermined stage during execution of the learning stage conversion process means a local feature amount set output by a predetermined layer of the learning stage conversion processing network. That is, a stage means a layer of a neural network.
  • the adjustment parameter value acquisition network may be any neural network as long as it is a neural network that executes the adjustment parameter value acquisition process.
  • the adjustment parameter value acquisition neural network may be, for example, CNN.
  • the size of the data as a result of the adjustment parameter value acquisition process may be a size depending on the size of the input data for learning.
  • it is desirable that the size of the data as a result of the adjustment parameter value acquisition process is the same as the size of the local feature amount of the target of the map conversion process.
  • the adjustment parameter ⁇ and the adjustment parameter ⁇ are multiplied by the feature amount H, which is the target of the mapping conversion process, for each element, as shown in the equation (1). Therefore, it is desirable that the size of the data as a result of the adjustment parameter value acquisition process is the same as the size of the local feature amount of the target of the map conversion process.
  • the size of the data means the number of channels and the height of the data when the data is represented in a three-dimensional space stretched by three axes orthogonal to each other, the axis of the number of channels, the axis of height, and the axis of width. And width.
  • the learning stage conversion processing network and the adjustment parameter value acquisition network do not necessarily have to be configured by different neural networks, and the learning stage conversion processing network and the adjustment parameter value acquisition network are configured as a neural network that shares a part. You may.
  • the learning stage conversion processing network and the adjustment parameter value acquisition network may be a neural network that shares a part of the layer of the neural network that acquires each value.
  • the neural network that calculates the scale parameter and the neural network that calculates the bias parameter may be a neural network that shares a part of the layers.
  • the audio signal conversion system 100 will be described below by taking as an example a case where the learning stage conversion processing network and the adjustment parameter value acquisition network are configured as different neural networks for the sake of simplicity.
  • the audio signal conversion device 2 executes the audio signal conversion process.
  • FIG. 3 is a second explanatory diagram illustrating the transformation learning model in the embodiment. More specifically, FIG. 3 is an explanatory diagram illustrating an example of a neural network (hereinafter referred to as “explanatory network”) representing the transformation learning model described with reference to FIG.
  • the explanatory network includes a neural network W1, a neural network W2, and a neural network W3.
  • the neural network W1 is a neural network that executes a process of outputting ⁇ (X) and ⁇ (X) of the equation (1) based on the learning input data X when the learning input data X is input.
  • the neural network W1 executes a size conversion process for converting Qx ⁇ Tx ⁇ 1 size learning input data into Qf ⁇ Tf ⁇ 1 size data.
  • the neural network W1 executes a process of executing two-dimensional convolution and a non-linear process using the activation function ReLU N times for data having a size of Qf ⁇ Tf ⁇ Cf.
  • the neural network W1 executes a two-dimensional convolution process on the result of the process of executing the two-dimensional convolution and the nonlinear process using the activation function ReLU N times. As a result, the neural network W1 obtains the values of the adjustment parameter ⁇ and the adjustment parameter ⁇ .
  • the neural network W2 is a neural network that executes a process of acquiring the feature amount H of the equation (1) based on the learning input data X when the learning input data X is input.
  • the neural network W3 converts the feature amount H acquired by the neural network W2 into the feature amount H'in the equation (1) by using the adjustment parameters ⁇ and ⁇ acquired by the neural network W1.
  • the neural network W3 executes a process of normalizing the feature amount H.
  • the normalization process is a process represented by the following equation (2).
  • ⁇ (H) represents the average value of H for each channel.
  • ⁇ (H) represents the standard deviation for each channel.
  • the process represented by the equation (2) is the adjustment of the standard deviation and the average value of the distribution of the feature amount H.
  • the data output as a result of the normalization process is data having a size of Qf ⁇ Tf ⁇ Cf.
  • the neural network W3 calculates the element product of H after normalization using the adjustment parameter ⁇ acquired by the neural network W1.
  • the neural network W3 adds the adjustment parameter ⁇ to the calculated element product using the adjustment parameter ⁇ acquired by the neural network W1.
  • the result of the addition is the feature amount H'.
  • the neural network W3 acquires the feature amount H'based on the feature amount H.
  • the process of adding ⁇ is the process of adjusting the average position of the distribution of the feature amount H.
  • ⁇ (H) and ⁇ (H) After normalizing the feature amount H using ⁇ (H) and ⁇ (H), by applying ⁇ and ⁇ , the average and standard deviation of the converted feature amount H'are ⁇ , respectively. It is possible to convert to the value of and the value of ⁇ .
  • An example of adjustment is a process of converting the value of the feature amount H into another value such as the feature amount H'by executing the process of converting the statistical value of the distribution of the feature amount H.
  • the (M-1) -dimensional CNN may be applied to any M-th floor tensor.
  • a one-dimensional CNN may be applied to a second-order tensor.
  • FIG. 4 is a diagram showing an example of the hardware configuration of the audio signal conversion model learning device 1 in the embodiment.
  • the audio signal conversion model learning device 1 includes a control unit 11 including a processor 91 such as a CPU connected by a bus and a memory 92, and executes a program.
  • the audio signal conversion model learning device 1 functions as a device including a control unit 11, an input unit 12, a communication unit 13, a storage unit 14, and an output unit 15 by executing a program.
  • the processor 91 reads out the program stored in the storage unit 14, and stores the read program in the memory 92.
  • the voice signal conversion model learning device 1 functions as a device including a control unit 11, an input unit 12, a communication unit 13, a storage unit 14, and an output unit 15. do.
  • the control unit 11 controls the operation of various functional units included in the audio signal conversion model learning device 1.
  • the control unit 11 executes the transformation learning model.
  • Executing the transformation learning model means executing the learning stage conversion process, the adjustment parameter value acquisition process, and the map conversion process.
  • the control unit 11 controls, for example, the operation of the output unit 15, and causes the output unit 15 to output the execution result of the conversion learning model.
  • the control unit 11 records, for example, various information generated by the execution of the conversion learning model in the storage unit 14.
  • the various information stored in the storage unit 14 includes, for example, the learning result of the conversion learning model.
  • the input unit 12 includes an input device such as a mouse, a keyboard, and a touch panel.
  • the input unit 12 may be configured as an interface for connecting these input devices to the audio signal conversion model learning device 1.
  • the input unit 12 receives input of various information to the audio signal conversion model learning device 1. For example, learning data is input to the input unit 12.
  • the communication unit 13 includes a communication interface for connecting the audio signal conversion model learning device 1 to an external device.
  • the communication unit 13 communicates with an external device via wired or wireless.
  • the external device is, for example, a device that is a source of learning data.
  • the storage unit 14 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
  • the storage unit 14 stores various information about the audio signal conversion model learning device 1.
  • the storage unit 14 stores information input via, for example, the input unit 12 or the communication unit 13.
  • the storage unit 14 stores, for example, a conversion learning model.
  • the storage unit 14 stores various information generated by, for example, executing a conversion learning model.
  • the learning data does not necessarily have to be input only to the input unit 12, and does not have to be input only to the communication unit 13.
  • the learning data may be input from either the input unit 12 or the communication unit 13.
  • the learning reference data may be input to the input unit 12, and the learning input data corresponding to the learning reference data input to the input unit 12 may be input to the communication unit 13.
  • the learning data does not necessarily have to be acquired from the input unit 12 or the communication unit 13, and the storage unit 14 may be stored in advance.
  • the output unit 15 outputs various information.
  • the output unit 15 includes, for example, a display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display, or an organic EL (Electro-Luminence) display.
  • the output unit 15 may be configured as an interface for connecting these display devices to the audio signal conversion model learning device 1.
  • the output unit 15 outputs, for example, the information input to the input unit 12.
  • the output unit 15 may display, for example, learning data input to the input unit 12 or the communication unit 13.
  • the output unit 15 may display, for example, the execution result of the transformation learning model.
  • FIG. 5 is a diagram showing an example of the functional configuration of the control unit 11 in the embodiment.
  • the control unit 11 includes a learning data acquisition unit 111, a learning stage conversion unit 112, a recording unit 113, an output control unit 114, and an end determination unit 115.
  • the learning data acquisition unit 111 acquires the learning data input to the input unit 12 or the communication unit 13. If the learning data has been recorded in the storage unit 14 in advance, the learning data acquisition unit 111 may read the learning data from the storage unit 14.
  • the learning stage conversion unit 112 executes the execution of the conversion learning model and the process of learning the conversion learning model based on the loss obtained based on the execution result of the conversion learning model.
  • the learning stage conversion unit 112 includes a learning stage conversion processing execution unit 121, an adjustment parameter value acquisition unit 122, a mapping conversion unit 123, and a loss acquisition unit 124.
  • the learning stage conversion process execution unit 121 executes the learning stage conversion process. Therefore, the learning stage conversion processing execution unit 121 is, for example, a learning stage conversion processing network.
  • the neural network forming the learning stage conversion process execution unit 121 includes, for example, the neural network W2 in FIG.
  • the adjustment parameter value acquisition unit 122 executes the adjustment parameter value acquisition process. Therefore, the adjustment parameter value acquisition unit 122 is, for example, an adjustment parameter value acquisition network.
  • the adjustment parameter value acquisition unit 122 is, for example, the neural network W1 in FIG.
  • the map conversion unit 123 corresponds to the adjustment parameter value obtained by executing the adjustment parameter value acquisition process for each local feature amount of the target set among the local feature amount sets obtained by executing the learning stage conversion process. Performs mapping conversion processing using feature conversion mapping.
  • the mapping conversion unit 123 is, for example, the neural network W3 in FIG.
  • the loss acquisition unit 124 acquires the loss based on the learning stage conversion destination data and the learning reference data obtained by executing the learning stage conversion process.
  • the loss acquisition unit 124 updates the conversion learning model based on the loss.
  • the update of the conversion learning model based on the loss is specifically a process in which the loss acquisition unit 124 updates the parameter values of the learning stage conversion processing network and the adjustment parameter value acquisition network according to a predetermined rule based on the loss. For example, the loss acquisition unit 124 updates the parameter values of the learning stage conversion processing network and the adjustment parameter value acquisition network so as to reduce the loss.
  • the learning stage conversion process execution unit 121, the adjustment parameter value acquisition unit 122, the mapping conversion unit 123, and the loss acquisition unit 124 can form a neural network capable of executing and updating the conversion learning model by cooperating with each other. If so, it may be anything.
  • the learning stage conversion process execution unit 121 and the loss acquisition unit 124 may be a circuit that forms a neural network that operates as a GAN (Generative Adversarial Networks) by operating in cooperation with each other.
  • the adjustment parameter value acquisition unit 122 acquires the adjustment parameter value
  • the mapping conversion unit 123 executes the mapping conversion processing for each local feature amount of the target set obtained by the target stage processing of GAN.
  • GAN uses the result of the mapping conversion process to execute the next step of the target step process.
  • the processing of the next stage of the target stage processing means the processing executed in the layer next to the layer in which the target stage processing is executed in the neural network.
  • the learning stage conversion processing execution unit 121 and the loss acquisition unit 124 may be a circuit that forms a neural network that operates as a CycleGAN by operating in cooperation with each other.
  • the adjustment parameter value acquisition unit 122 acquires the adjustment parameter value
  • the mapping conversion unit 123 performs mapping conversion for each local feature amount of the target set obtained by the target stage processing of CycleGAN. Execute the process. CycleGAN executes the next stage processing of the target stage processing using the result of the mapping conversion processing.
  • the learning stage conversion processing execution unit 121 and the loss acquisition unit 124 are circuits that form a neural network that operates as a conditional variational autoencoder (CVAE) by operating in cooperation with each other. You may.
  • CVAE conditional variational autoencoder
  • the learning stage conversion processing execution unit 121 and the loss acquisition unit 124 may be a circuit that forms a neural network that performs parallel voice quality conversion, for example, by operating in cooperation with each other.
  • the recording unit 113 records various information in the storage unit 14.
  • the output control unit 114 controls the operation of the output unit 15.
  • the end determination unit 115 determines whether or not a predetermined end condition is satisfied.
  • the conversion learning model at the time when a predetermined end condition is satisfied is a trained conversion learning model, and is an audio signal conversion model.
  • FIG. 6 is a flowchart showing an example of the flow of processing executed by the audio signal conversion model learning device 1 in the embodiment.
  • an example of the flow of processing executed by the audio signal conversion model learning device 1 will be described by taking as an example the case where the target stage processing including the learning stage conversion processing is one. If there are a plurality of target stage processes, the adjustment parameter value acquisition process and the map conversion process are executed for each target stage process.
  • the learning data acquisition unit 111 acquires the learning data (step S101).
  • the learning stage conversion processing execution unit 121 executes the processing up to the target stage processing (step S102).
  • the adjustment parameter value acquisition unit 122 acquires the adjustment parameter value (step S103).
  • the mapping conversion unit 123 performs mapping conversion processing according to the adjustment parameter value obtained in step S103 for each local feature amount of the local feature amount set (that is, the target set) obtained by the processing of step S102. Is executed (step S104).
  • step S105 the learning stage conversion processing execution unit 121 executes from the next processing of the target stage processing to the final processing of the learning stage conversion processing using the converted local features obtained by the processing of step S104 (step S105). ).
  • step S105 the learning stage conversion destination data is obtained.
  • the loss acquisition unit 124 acquires the loss based on the learning stage conversion destination data and the learning reference data (step S106).
  • step S107 the loss acquisition unit 124 updates the conversion learning model based on the loss (step S107).
  • the end determination unit 115 determines whether or not the predetermined end condition is satisfied (step S108). If the predetermined end condition is not satisfied (step S108: NO), the process returns to the process of step S101. On the other hand, when a predetermined end condition is satisfied (step S108: YES), the process ends.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the audio signal conversion device 2 in the embodiment.
  • the audio signal conversion device 2 includes a control unit 21 including a processor 93 such as a CPU connected by a bus and a memory 94, and executes a program.
  • the audio signal conversion device 2 functions as a device including a control unit 21, an input unit 22, a communication unit 23, a storage unit 24, and an output unit 25 by executing a program.
  • the processor 93 reads out the program stored in the storage unit 24, and stores the read program in the memory 94.
  • the audio signal conversion device 2 functions as a device including a control unit 21, an input unit 22, a communication unit 23, a storage unit 24, and an output unit 25.
  • the control unit 21 controls the operation of various functional units included in the audio signal conversion device 2.
  • the control unit 21 converts the conversion source audio signal into the conversion destination audio signal by using, for example, the learned conversion learning model (that is, the audio signal conversion model) obtained by the audio signal conversion model learning device 1.
  • the input unit 22 includes an input device such as a mouse, a keyboard, and a touch panel.
  • the input unit 22 may be configured as an interface for connecting these input devices to the own device.
  • the input unit 22 receives input of various information to its own device.
  • the input unit 22 receives, for example, an input instructing the start of a process of converting a conversion source audio signal into a conversion destination audio signal.
  • the input unit 22 receives, for example, an input of a conversion source audio signal.
  • the communication unit 23 includes a communication interface for connecting the own device to an external device.
  • the communication unit 23 communicates with an external device via wired or wireless.
  • the external device is, for example, the output destination of the conversion destination audio signal.
  • the communication unit 23 outputs the conversion destination audio signal to the external device by communicating with the external device.
  • the external device for outputting the conversion destination audio signal is, for example, an audio output device such as a speaker.
  • the external device of the communication destination of the communication unit 23 is, for example, an audio signal conversion model learning device 1.
  • the communication unit 23 acquires, for example, the trained conversion learning model obtained by the voice signal conversion model learning device 1.
  • the communication destination external device of the communication unit 23 may be, for example, a storage device such as a USB memory that stores an audio signal conversion model.
  • the communication unit 23 acquires the audio signal conversion model by communicating with the external device.
  • the communication destination external device of the communication unit 23 is, for example, an output source of a conversion source audio signal. In such a case, the communication unit 23 acquires the conversion source audio signal from the external device by communicating with the external device.
  • the storage unit 24 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
  • the storage unit 24 stores various information about the audio signal conversion device 2.
  • the storage unit 24 stores, for example, an audio signal conversion model acquired via the communication unit 23.
  • the output unit 25 outputs various information.
  • the output unit 25 includes display devices such as a CRT display, a liquid crystal display, and an organic EL display.
  • the output unit 25 may be configured as an interface for connecting these display devices to its own device.
  • the output unit 25 outputs, for example, the information input to the input unit 22.
  • FIG. 8 is a diagram showing an example of the functional configuration of the control unit 21 in the embodiment.
  • the control unit 21 includes a conversion target acquisition unit 211, a conversion unit 212, and an audio signal output control unit 213.
  • the conversion target acquisition unit 211 acquires the conversion source audio signal to be converted.
  • the conversion target acquisition unit 211 acquires, for example, the conversion source audio signal input to the input unit 22.
  • the conversion target acquisition unit 211 acquires, for example, the conversion source audio signal input to the communication unit 23.
  • the conversion unit 212 converts the conversion target acquired by the conversion target acquisition unit 211 into a conversion destination audio signal using the audio signal conversion model.
  • the obtained conversion destination audio signal is output to the audio signal output control unit 213.
  • the audio signal output control unit 213 controls the operation of the communication unit 23.
  • the audio signal output control unit 213 controls the operation of the communication unit 23 to cause the communication unit 23 to output the conversion destination audio signal.
  • FIG. 9 is a flowchart showing an example of the flow of processing executed by the audio signal conversion device 2 in the embodiment.
  • the conversion target acquisition unit 211 acquires the conversion source audio signal (step S201).
  • the conversion unit 212 converts the conversion source audio signal into the conversion destination audio signal using the audio signal conversion model (step S202).
  • the audio signal output control unit 213 controls the operation of the communication unit 23 to cause the communication unit 23 to output the conversion destination audio signal (step S203).
  • the experiment was a speaker conversion.
  • SF and SM were used as the voice represented by the conversion source voice signal (hereinafter referred to as "conversion source voice”).
  • TF and TM were used as the voice represented by the voice signal to be compared with the conversion destination voice signal (hereinafter referred to as "conversion target voice").
  • conversion target voice the conversion destination voice signal
  • an experiment was conducted for each pair of the conversion source voice and the conversion target voice. That is, in the experiment, four sets were tested. Specifically, the four sets are a total of four sets, that is, a set of SF and TF, a set of SM and TM, a set of SF and TM, and a set of SM and TF.
  • a short-time Fourier transform was performed for each utterance with a window length of 1024 samples and a hop length of 256 samples.
  • an 80-dimensional mel spectrogram was then extracted.
  • this mel spectrogram was used as an acoustic feature series, and the mel spectrogram transducer was trained.
  • the converter is a learning stage conversion unit 112.
  • the acoustic feature quantity series is a quantity corresponding to the above-mentioned x. That is, the acoustic feature series is a local feature of the input data to be processed.
  • a waveform generator composed of a neural network was used to generate a waveform (that is, voice) from a mel spectrogram.
  • CycleGAN-VC2 described in Reference 1 was used as the technique to be compared, which is a conventional conversion technique described later.
  • a standard combining equations (4) and (5) in the conventional conversion technique described later was used as a learning standard.
  • the transducers G and F and the classifiers Dx, Dy, D'x, and D'y were modeled by CNN. More specifically, the converters G and F are neural networks having the following seven processing units from the first processing unit to the seventh processing unit.
  • the first processing unit is an input processing unit by 2D CNN and is composed of one convolutional block. Note that 2D means two dimensions.
  • the second processing unit is a 2D CNN downsampling processing unit and is composed of two convolutional blocks.
  • the third processing unit is a conversion processing unit from 2D to 1D and is composed of one convolution block. Note that 1D means one dimension.
  • the fourth processing unit is a difference conversion processing unit using 1D CNN and is composed of six difference conversion blocks including two convolutional blocks.
  • the fifth processing unit is a conversion processing unit from 1D to 2D and is composed of one convolution block.
  • the sixth processing unit is an upsampling processing unit by 2D CNN and is composed of two convolutional blocks.
  • the seventh processing unit is a 2D CNN output processing unit and is composed of one convolutional block.
  • the conversion learning model of the audio signal conversion model learning device 1 includes a first processing unit, a second processing unit, a third processing unit, a fourth processing unit, a seventh processing unit, and a fifth. It was represented by a neural network having a'processing unit and a sixth'processing unit.
  • the 5th processing unit is a neural network in which a neural network that executes a mapping conversion process is connected to the 5th processing unit.
  • the 6th processing unit is a neural network in which a neural network that executes a mapping conversion process is connected to the 6th processing unit.
  • the map conversion process executed by the 5th'processing unit and the 6th'processing unit was specifically a conversion by the affine transformation represented by the equation (1).
  • the experiment was an experiment in which the sound quality of voice conversion and the evaluation of the conversion effect were evaluated by a subjective evaluation experiment.
  • a MOS Mel Opinion Score
  • FIG. 10 is the first diagram showing an example of the experimental result in the embodiment.
  • the "conventional method” line shows the result of the conversion by the above-mentioned CycleGAN-VC2.
  • the “method of the present invention” shows the result of conversion by the audio signal conversion system 100.
  • “SF-TF” indicates a pair of SF and TF.
  • “SM-TM” indicates a pair of SM and TM.
  • “SF-TM” indicates a pair of SF and TM.
  • SF-TF indicates a pair of SM and TF.
  • MOS "5" represents the highest evaluation and "1" represents the lowest evaluation.
  • FIG. 10 shows that in all conversion patterns, the voice converted using the voice signal conversion system 100 has higher naturalness than the voice converted using the conventional conversion technique. In all patterns, it means all four sets of SF and TF, SM and TM, SF and TM, and SM and TF. be.
  • FIG. 11 is a second diagram showing an example of the experimental result in the embodiment.
  • the “conventional method” line shows the result of the conversion by the above-mentioned CycleGAN-VC2.
  • the “method of the present invention” shows the result of conversion by the audio signal conversion system 100.
  • “SF-TF” indicates a pair of SF and TF.
  • “SM-TM” indicates a pair of SM and TM.
  • “SF-TM” indicates a pair of SF and TM.
  • SF-TF indicates a pair of SM and TF.
  • MOS "5" represents the highest evaluation and "1" represents the lowest evaluation.
  • FIG. 11 shows that in all conversion patterns, the voice converted using the voice signal conversion system 100 has a higher speaker similarity or comparable speaker similarity than the voice converted using the conventional conversion technique.
  • Comparable speaker similarity means comparable speaker similarity. To be comparable means that the evaluation results of speaker similarity are equivalent.
  • the audio signal conversion model learning device 1 of the embodiment configured in this way is a device that uses a machine learning technique and includes a learning stage conversion unit 112.
  • the learning stage conversion unit 112 acquires the adjustment parameter value by executing the adjustment parameter value acquisition process, and learns the conversion learning model using the acquired adjustment parameter value. Since the adjustment parameter value is a statistical value of the distribution of the local feature amount, it is information indicating the structure of the input data (that is, the data to be processed in the adjustment parameter value acquisition process). Therefore, the audio signal conversion model learning device 1 can reduce the loss of the information of the audio signal to be converted in the technique of voice quality conversion using machine learning.
  • the audio signal conversion system 100 of the embodiment configured as described above includes the audio signal conversion model learning device 1. Therefore, it is possible to reduce the loss of the information of the audio signal to be converted in the voice quality conversion technique using machine learning.
  • the audio signal conversion model learning device 1 may be implemented by using a plurality of information processing devices connected so as to be communicable via a network.
  • each functional unit included in the audio signal conversion model learning device 1 may be distributed and mounted in a plurality of information processing devices.
  • the audio signal conversion device 2 may be mounted by using a plurality of information processing devices connected so as to be able to communicate via a network.
  • each functional unit included in the audio signal conversion device 2 may be distributed and mounted in a plurality of information processing devices.
  • the program may be recorded on a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a storage device such as a hard disk built in a computer system.
  • the program may be transmitted over a telecommunication line.
  • the conventional conversion technique is specifically a technique for non-parallel voice quality conversion using CyCleGAN.
  • y be the tensor x on the second floor of Q ⁇ N where the element is a real number and the tensor on the second floor of Q ⁇ M where the element is a real number.
  • x is a tensor representing the acoustic feature sequence of the voice of the attribute c.
  • y is a tensor representing the acoustic feature sequence of the voice of the attribute c'.
  • the acoustic feature series is a series of acoustic features.
  • Q represents the number of dimensions of the acoustic feature quantity
  • N and M represent the series lengths of x and y, respectively.
  • the purpose of the conventional conversion technique is to learn the converter G that converts x into the attribute c'and the converter F that converts y into the attribute c by using the non-parallel learning samples x and y.
  • the converter G converts a Q ⁇ N second-order tensor whose element is a real number tensor into a Q ⁇ N second-order tensor whose element is a real number tensor.
  • the converter F converts a Q ⁇ M second-order tensor whose element is a real number tensor into a Q ⁇ M second-order tensor whose element is a real number tensor.
  • a discriminator Dx that discriminates whether the input voice is the real voice of the attribute c or not
  • a discriminator Dy that discriminates whether the input voice is the real voice of the attribute c'or not.
  • E represents the expected value for the distribution represented by the subscript.
  • x to px (x) and y to py (y) represent a process of sampling a training sample from a training data group.
  • Dx can correctly identify x as a real voice and F (y) as a synthetic voice
  • Dy can correctly distinguish y as a real voice and an identifier G (x) as a synthetic voice. It takes a large value for cases and cases.
  • the discriminator Dx and the discriminator Dy are learned so that the Ladv becomes large, and the converter G and the converter F are learned so that the Ladv becomes small.
  • Such a learning method is one of the keys to obtain high quality converted voice in the conventional conversion technique.
  • learning may be further performed using the circular consistency standard L cyc defined by the equation (5), or the identity conversion standard Lid defined by the equation (6) may be used. Learning may take place.
  • L cyc the case where x is converted by G and then further converted by F matches x as before, and the case where y is converted by F and then further converted by G matches y as before. Is the smallest.
  • Lid is the minimum in the case where the output does not change from y when y is the input of G and the case where the output does not change from x when x is the input of F.
  • the criteria used for learning G, F, Dx and Dy in the conventional conversion technique are, for example, the criteria expressed by the following equation (7).
  • the classifier D'x identifies whether or not the input voice is the actual voice of the attribute c.
  • the classifier D'y identifies whether or not the input voice is the actual voice of the attribute c'.
  • the converter G, the converter F, the discriminator Dx, the discriminator Dy, the discriminator D'x and the discriminator D'y are modeled by a neural network.
  • a specific neural network CNN is used. More specifically, an example of the converter G and the converter F is, for example, the neural network shown in FIG.
  • FIG. 12 is an explanatory diagram illustrating an example of the configuration of the neural network of the converter G and the converter F in the conventional conversion technique.
  • the converter G and the converter F are neural networks having a multi-layered convolution block (ConvBlock) composed of three layers of a convolution layer (Convolution), a normalization layer (Normalization), and an activation layer (Activation).
  • ConvBlock multi-layered convolution block
  • Convolution convolution
  • Normalization normalization
  • Activation activation layer
  • the downsampling process may be used, or the upsampling process may be used.
  • a process of replacing the tensor of the feature amount or a process of adding the value when the convolution block is skipped and the value after the application of the convolution block may be used.
  • the convolution block may be one obtained by removing any one or more of the convolution layer, the normalization layer, and the activation layer. Further, in the convolution block, a process in which the order of the processes of the convolution layer, the normalization layer, and the activation layer is changed may be executed.
  • the conventional conversion technique may not be able to retain the information that should be originally retained before and after the conversion.
  • the conventional conversion technique has been described by taking the case where CNN is used as a neural network as an example, but in the conventional conversion technique, another neural network may be used.
  • FNN Field Neural Network
  • RNN Recurrent Neural Network
  • the conventional conversion technique causes the same problem as in the case of CNN.
  • CycleGAN-VC2 described in Reference 1. This is the end of the explanation of the conventional conversion technique.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置。

Description

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
 本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。
 入力された音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。声質変換の技術の1つとして、例えば機械学習を用いることが提案されている(特許文献1~4)。
特開2019-035902号公報 特開2019-144402号公報 特開2019-101391号公報 特開2020-140244号公報
 しかしながら、これまで提案されてきた機械学習を用いる場合、変換対象の音声信号の特徴量を抽出する過程で、抽出前の音声信号が有する情報の一部が失われる場合があった。例えば、畳み込みニューラルネットワークであれば、入力されたデータの一部から特徴量を抽出する処理がフィルタを用いて繰り返し実行される。この処理はフィルタを用いた縮約の処理であるため、縮約により情報の一部が失われる。特に、入力されたデータの一部と他の一部との間の相関の情報等の入力されたデータの構造を示す情報が失われる。
 例えば「おはよう」と発せられた音声に対して適用された場合に、出力の音声では「おはうう」等のように音の一部が欠落してしまう場合があった。これは、入力されたデータでの一部である「よ」が前後の「は」と「う」の間にあるという順序の情報が失われてしまったために生じた現象である。
 このように、従来の技術では、変換に際して入力されたデータの情報の一部が失われてしまうために、学習が適切に行われず声質変換が適切に行われない場合があった。
 上記事情に鑑み、本発明は、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減する技術を提供することを目的としている。
 本発明の一態様は、入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置である。
 本発明により、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減する技術を提供することが可能となる。
実施形態の音声信号変換システム100の概要を説明する説明図。 実施形態における変換学習モデルを説明する第1の説明図。 実施形態における変換学習モデルを説明する第2の説明図。 実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図。 実施形態における制御部11の機能構成の一例を示す図。 実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャート。 実施形態における音声信号変換装置2のハードウェア構成の一例を示す図。 実施形態における制御部21の機能構成の一例を示す図。 実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャート。 実施形態における実験結果の一例を示す第1の図。 実施形態における実験結果の一例を示す第2の図。 従来技術における変換器G及び変換器Fのニューラルネットワークの構成の一例を説明する説明図。
(実施形態)
 図1は、実施形態の音声信号変換システム100の概要を説明する説明図である。音声信号変換システム100は、変換先音属性情報に基づき、変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する。音声信号は音声を表す信号である。変換元音声信号は、音声信号変換システム100による変換対象の音声信号である。以下、音声信号変換システム100による変換元音声信号の変換先の音声信号を変換先音声信号という。変換先音属性情報は、変換先の音声信号が有する音属性(以下「変換先音属性」という。)を示す情報である。音属性は、音に関する属性である。音属性は、例えば話者の性別である。音属性は、例えば話者を識別する識別子であってもよい。
 そのため音声信号変換システム100は、例えば変換先音属性は女性が発した音という属性である場合であって変換元音属性は男性が発した音という属性である場合、男性の声の音声信号を女性の声の音声信号に変換する。変換元音属性とは、変換元音声信号の音属性である。
 以下、変換先音属性情報に基づき、変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する処理を、音声信号変換処理という。音声信号変換処理は、具体的には、音声信号変換モデルを実行する処理である。音声信号変換モデルは、予め学習済みの機械学習のモデルであって変換先音属性情報に基づき変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する機械学習のモデルである。そのため、音声信号変換モデルは、機械学習によって得られた結果であり、機械学習による学習結果である。
 音声信号変換システム100は、音声信号変換モデル学習装置1及び音声信号変換装置2を備える。音声信号変換モデル学習装置1は、所定の機械学習のモデルを所定の終了条件が満たされるまで機械学習によって更新する。所定の終了条件が満たされた時点の所定の機械学習のモデルが音声信号変換モデルである。そのため、音声信号変換モデル学習装置1は、所定の終了条件が満たされるまで所定の機械学習のモデルを機械学習によって更新することで、音声信号変換モデルを取得する。
 以下説明の簡単のため、機械学習を行うことを学習ともいう。また、機械学習のモデル(以下「機械学習モデル」という。)を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習のモデルとは、実行される条件と順番とが予め定められた1又は複数の処理を含む集合である。
 所定の機械学習のモデル(以下「変換学習モデル」という。)は、入力された音声信号を変換する。変換学習モデルには、学習用の音声信号であって変換対象の音声信号(以下「学習用入力データ」という。)が入力される。また、変換学習モデルには、学習用の音声信号であって変換学習モデルによる変換後の学習用入力データとの比較に用いられる音声信号(以下「学習用参照データ」という。)が入力される。すなわち、学習用参照データは、機械学習におけるいわゆる正解データである。なお、以下学習用入力データと学習用参照データとを区別しない場合、それらを学習用データという。
 変換学習モデルは、変換先音属性情報に基づき、入力された学習用入力データを学習段階変換先データに変換する。学習段階変換先データは、音属性が変換先音属性情報の示す音属性に学習用入力データよりも近い音声信号である。音声信号変換モデル学習装置1は、学習段階変換先データと学習用参照データとの違い(以下「損失」という。)に基づき、変換学習モデルを更新する。
 なお、学習済みの変換学習モデルが音声信号変換モデルである。すなわち、所定の終了条件が満たされた時点における変換学習モデルが音声信号変換モデルである。
 図2は、実施形態における変換学習モデルを説明する第1の説明図である。
 変換学習モデルは、モデル条件を満たす機械学習モデルであればどのような機械学習モデルであってもよい。モデル条件は第1ネットワーク条件、第2ネットワーク条件及び第3ネットワーク条件の少なくとも3つの条件を含む。
 第1ネットワーク条件は、処理対象のデータであって入力されたデータ(以下「処理対象入力データ」という。)に基づき、学習用入力側部分集合ごとに特徴量(以下「局所特徴量」という。)を取得する処理を含む、という条件である。学習用入力側部分集合は、処理対象入力データを母集合とする処理対象入力データの部分集合である。なお、学習用入力側部分集合は、処理対象入力データの真部分集合であることが望ましい。以下、処理対象入力データに基づき各学習用入力側部分集合について局所特徴量を取得する処理を局所特徴量取得処理という。
 局所特徴量は、より具体的には、学習用入力側部分集合ごとに得られる値であって各学習用入力側部分集合の特徴量である。1つの局所特徴量は、例えば畳み込みニューラルネットワークの出力値を表すテンソルの1つの要素の値である。局所特徴量は、例えば音響特徴量である。音響特徴量は、メルケプストラム係数やパワースペクトルやメルスペクトル等の音声に関する特徴量である。
 処理対象入力データは、例えば学習用入力データである。処理対象入力データは、例えば学習用入力データに対する局所特徴量取得処理の実行により得られた局所特徴量の集合(以下「局所特徴量集合」という。)であってもよい。処理対象入力データは、例えば局所特徴量集合に対する局所特徴量取得処理の実行により得られた局所特徴量集合であってもよい。このように、処理対象入力データは、学習用入力データに基づいて得られた量の集合であればどのような量であってもよい。なお、図2において学習用入力データはXと表されている。学習用入力データは後述する式(1)におけるXである。
 局所特徴量取得処理は、変換学習モデルにおいて1回だけ実行されてもよいし複数回実行されてもよい。
 第2ネットワーク条件は、調整パラメータの値(以下「調整パラメータ値」という。)を取得する処理(以下「調整パラメータ値取得処理」という。)を含む、という条件である。調整パラメータは、局所特徴量の分布の統計値(以下「大域的統計値」という。)を調整するパラメータである。大域的統計値は例えば平均であってもよいし、中央値であってもよいし、分布の半値全幅であってもよい。調整パラメータ値取得処理は学習用入力データに対して実行される処理である。
 調整パラメータ値取得処理は、例えば畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)が実行する処理である。このような場合、調整パラメータ値は、学習用入力データがCNNに入力された結果、CNNが出力する値である。このような調整パラメータ値を出力するCNNは、調整パラメータ値を出力しないCNNと比較して入力データの変換範囲が限定されていて、入力データの大域的な構造を保持することが可能であるという点で異なる。このような違いがあるために、調整パラメータ値を出力するCNNは、調整パラメータ値を出力しないCNNと異なり、調整パラメータ値を出力することができる。このことはCNNに限らず他のニューラルネットワークについても同様である。すなわち、上述の違いを有するために調整パラメータ値を出力することができるニューラルネットワークと調整パラメータ値を出力できないニューラルネットワークとが存在する。
 なお調整とは、四則演算を用いて、対象となるデータの大きさ、または、基準値からのずれ、などの統計量を変換する処理を意味する。
 調整パラメータは例えば式(1)のβ(X)とγ(X)とである。そのため、例えば、後述する式(1)のXに対する調整パラメータ値取得処理の実行により、式(1)のβ(X)とγ(X)との値が取得される。
 第3ネットワーク条件は、調整パラメータ値に基づく所定の演算の結果を用いて学習用入力データを学習段階変換先データに変換する、という条件である。第3ネットワーク条件は、具体的には例えば、変換学習モデルにおいて実行される局所特徴量取得処理の実行結果のうち所定の段階で実行される局所特徴量取得処理の結果に対して調整パラメータ値に応じた写像による変換が実行される、という条件である。
 より具体的には、第3ネットワーク条件は、変換学習モデルの実行により得られる局所特徴量集合のうち所定の段階で得られる局所特徴量集合の各局所特徴量に対して調整パラメータ値に応じた写像による変換が実行される、という条件である。以下、対象集合の各局所特徴量に対して実行される処理で、調整パラメータ値に応じた写像(以下「特徴量変換写像」という。)による変換を写像変換処理という。
 対象集合は、変換学習モデルの実行により得られる局所特徴量集合のうち変換学習モデルの実行中の所定の段階の処理で得られる局所特徴量集合である。対象集合は、より具体的には学習段階変換処理の実行によって得られる局所特徴量集合であって対象段階処理によって得られる局所特徴量集合である。対象段階処理は、学習段階変換処理が含む各処理のうち対象集合を得る所定の処理である。
 学習段階変換処理は、変換学習モデルが表す処理のうち、調整パラメータ値取得処理と写像変換処理との2種類の処理以外の処理である。すなわち、学習段階変換処理は、学習用入力データを入力とし学習段階変換先データを出力とする処理である。
 学習段階変換処理は、局所特徴量取得処理を含んでいればどのような処理であってもよい。学習段階変換処理は、例えば、ダウンサンプリング処理を含んでもよいし、アップサンプリング処理を含んでもよいし、特徴量のテンソルを入れ替える処理を含んでもよい。また、学習段階変換処理は、例えば、畳み込みの処理をスキップした時の値と畳み込みの処理の適用後の値を加算する処理を含んでもよい。
 なお、局所特徴量はテンソルで表される量であり、局所特徴量に対する特徴量変換写像による変換は局所特徴量の要素毎に実行されることが望ましい。要素毎に実行されることで、要素ごとに異なる統計量の値の差異への対応を可能にするという効果を奏する。例えば、無声区間では、信号の変動は小さく、有声区間では、信号の変動は大きいが、そのような変動の差異に対応が可能である。
 特徴量変換写像は、例えばアフィン変換である。アフィン変換は例えば式(1)で表される。より具体的には式(1)のアフィン変換は処理対象の入力データが畳み込み層の出力結果である場合に用いられる特徴量変換写像の一例である。すなわち、式(1)のアフィン変換は対象段階処理が畳み込み層の処理である場合に用いられる特徴量変換写像の一例である。
Figure JPOXMLDOC01-appb-M000001
 式(1)で表されるアフィン変換においてXは処理対象の入力データである。Xは、要素が実数のテンソルであって少なくとも3階のテンソルである。式(1)におけるHは写像変換処理の対象となる特徴量を表す。式(1)におけるHは、要素が実数のテンソルであって少なくとも3階のテンソルである。式(1)におけるHは、例えばq×t×cの3階のテンソルである。qは特徴量次元数を表し、tは系列長をあらわし、cはチャネル数を表す。特徴量次元数とは、特徴量Hの周波数方向の次元数を意味する。式(1)において“・”は要素積を表し、“+”は要素和を表す。式(1)におけるH´は式(1)の右辺の変換によって式(1)におけるHが変換された結果である。
 γは調整パラメータであり、アフィン変換におけるスケールパラメータである。γは、要素が実数のテンソルであってq×t×cの3階のテンソルである。βは調整パラメータであり、アフィン変換におけるバイアスパラメータである。βは、要素が実数のテンソルであってq×t×cの3階のテンソルである。スケールパラメータγとバイアスパラメータβとは、調整パラメータの一例である。
 写像変換処理において実行される処理は、例えば式(1)により特徴量Hを特徴量H´に変換する処理である。そのため、式(1)における特徴量Hを元にもつ集合が対象集合の一例である。
 変換学習モデルでは損失に基づき、学習段階変換処理を実行するニューラルネットワークのパラメータと、調整パラメータ値取得処理を実行するニューラルネットワークのパラメータとが好適に調整される。以下、学習段階変換処理を実行するニューラルネットワークを学習段階変換処理ネットワークという。以下、調整パラメータ値取得処理を実行するニューラルネットワークを調整パラメータ値取得ネットワークという。
 なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。なお、損失に基づいて好適に調整される、ネットワークのパラメータは、表現する機械学習モデルのパラメータである。またネットワークのパラメータは、ネットワークを構成する回路のパラメータである。
 学習段階変換処理ネットワークは、学習段階変換処理を実行するニューラルネットワークであればどのようなニューラルネットワークであってもよい。学習段階変換処理ネットワークは、例えば全結合ニューラルネットワークであってもよいし、畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)であってもよいし、オートエンコーダであってもよい。
 なお、学習段階変換処理の実行中の所定の段階で得られる局所特徴量集合とは、学習段階変換処理ネットワークが有する所定の層が出力する局所特徴量集合を意味する。すなわち段階とはニューラルネットワークの層を意味する。
 調整パラメータ値取得ネットワークは、調整パラメータ値取得処理を実行するニューラルネットワークであればどのようなニューラルネットワークであってもよい。調整パラメータ値取得ニューラルネットワークは、例えばCNNであってもよい。
 なお、調整パラメータ値取得処理の結果のデータのサイズは、学習用入力データのサイズに依存したサイズであってもよい。特に、調整パラメータ値取得処理の結果のデータのサイズは、写像変換処理の対象の局所特徴量のサイズに同一ことが望ましい。例えば、調整パラメータβと調整パラメータγとは、式(1)に示すように、写像変換処理の対象となる特徴量Hと要素ごとに掛け合わされる。そのため、調整パラメータ値取得処理の結果のデータのサイズは、写像変換処理の対象の局所特徴量のサイズと同じサイズであることが望ましい。なお、データのサイズとは、データがチャネル数の軸、高さの軸、幅の軸の直交する3軸で張られる3次元空間において表現されるデータである場合、データのチャネル数、高さ及び幅を意味する。
 なお、学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは必ずしも異なるニューラルネットワークによって構成される必要は無く、学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは一部を共有するニューラルネットワークとして構成されてもよい。
 学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは、複数の調整パラメータ値を取得する場合、それぞれの値を取得するニューラルネットワークの一部の層を共有するニューラルネットワークであってもよい。例えば、スケールパラメータを算出するニューラルネットワークとバイアスパラメータを算出するニューラルネットワークとは一部の層を共有するニューラルネットワークであってもよい。以下説明の簡単のため学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとが異なるニューラルネットワークとして構成される場合を例に音声信号変換システム100を説明する。
 音声信号変換装置2は、音声信号変換処理を実行する。
 図3は、実施形態における変換学習モデルを説明する第2の説明図である。より具体的には、図3は、図2で説明した変換学習モデルを表すニューラルネットワーク(以下「説明ネットワーク」という。)の一例を説明する説明図である。説明ネットワークは、ニューラルネットワークW1と、ニューラルネットワークW2と、ニューラルネットワークW3とを備える。
 ニューラルネットワークW1は、学習用入力データXが入力されると、学習用入力データXに基づき式(1)のβ(X)とγ(X)とを出力する処理を実行するニューラルネットワークである。
 ニューラルネットワークW1は、Qx×Tx×1サイズの学習用入力データをQf×Tf×1サイズのデータに変換するサイズの変換の処理を実行する。次にニューラルネットワークW1は、2次元の畳み込みと活性化関数ReLUを用いた非線形処理とをN回実行する処理を、Qf×Tf×Cfサイズのデータに対して実行する。次にニューラルネットワークW1は、2次元の畳み込みと活性化関数ReLUを用いた非線形処理とをN回実行する処理の結果に対して2次元の畳み込みの処理を実行する。その結果、ニューラルネットワークW1は、調整パラメータβと調整パラメータγとの値を得る。
 ニューラルネットワークW2は、学習用入力データXが入力されると、学習用入力データXに基づき式(1)の特徴量Hを取得する処理を実行するニューラルネットワークである。
 ニューラルネットワークW3は、ニューラルネットワークW2によって取得された特徴量HをニューラルネットワークW1によって取得された調整パラメータβ及びγを用いて、式(1)における特徴量H´に変換する。
 ニューラルネットワークW3は、特徴量Hを正規化する処理を実行する。正規化する処理は、具体的には以下の式(2)で表される処理である。
Figure JPOXMLDOC01-appb-M000002
 式(2)においてμ(H)は、Hのチャネル毎の平均値を表す。式(2)においてσ(H)はチャネル毎の標準偏差を表す。式(2)で表される処理は、特徴量Hの分布の標準偏差と平均値の調整である。正規化の処理の結果として出力されるデータは、Qf×Tf×Cfのサイズのデータである。
 ニューラルネットワークW3は次に、ニューラルネットワークW1が取得した調整パラメータγを用いて正規化後のHの要素積を算出する。ニューラルネットワークW3は次に、ニューラルネットワークW1が取得した調整パラメータβを用いて、算出された要素積に調整パラメータβを足し算する。足し算の結果が、特徴量H´である。このようにしてニューラルネットワークW3は、特徴量Hに基づき特徴量H´を取得する。ニューラルネットワークW3が実行した処理、まとめると、は以下の式(3)で表現される。
Figure JPOXMLDOC01-appb-M000003
 なお、βを足し算する処理は特徴量Hの分布の平均の位置を調整する処理である。このように、特徴量Hをμ(H)とσ(H)とを使って正規化した後にβとγとを適用することで変換後の特徴量H´の平均と標準偏差とをそれぞれβの値とγの値とに変換することが可能である。このような特徴量Hの分布の統計値を変換する処理の実行により特徴量Hの値を特徴量H´等の他の値に変換する処理が調整の一例である。
 なお、上記では、3階のテンソルに2次元のCNNを適用する例を説明したが、任意のM階のテンソルに(M-1)次元のCNNを適用してもよい。例えば、2階のテンソルに1次元のCNNを適用してもよい。
 図4は、実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置1は、バスで接続されたCPU等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。音声信号変換モデル学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 制御部11は、音声信号変換モデル学習装置1が備える各種機能部の動作を制御する。制御部11は、変換学習モデルを実行する。変換学習モデルを実行するとは学習段階変換処理、調整パラメータ値取得処理及び写像変換処理を実行することを意味する。制御部11は、例えば出力部15の動作を制御し、出力部15に変換学習モデルの実行結果を出力させる。制御部11は、例えば変換学習モデルの実行により生じた各種情報を記憶部14に記録する。記憶部14が記憶する各種情報は、例えば変換学習モデルの学習結果を含む。
 入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を音声信号変換モデル学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、音声信号変換モデル学習装置1に対する各種情報の入力を受け付ける。入力部12には、例えば学習用データが入力される。
 通信部13は、音声信号変換モデル学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習用データの送信元の装置である。
 記憶部14は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は音声信号変換モデル学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えば変換学習モデルを記憶する。記憶部14は、例えば変換学習モデルの実行により生じた各種情報を記憶する。
 なお、学習用データは、必ずしも入力部12だけに入力される必要もないし、通信部13だけに入力される必要もない。学習用データは、入力部12と通信部13とのどちらから入力されてもよい。例えば学習用参照データは入力部12に入力され、入力部12に入力された学習用参照データに対応する学習用入力データは通信部13に入力されてもよい。また、学習用データは必ずしも入力部12又は通信部13から取得される必要はなく、予め記憶部14が記憶済みであってもよい。
 出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を音声信号変換モデル学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば入力部12又は通信部13に入力された学習用データを表示してもよい。出力部15は、例えば変換学習モデルの実行結果を表示してもよい。
 図5は、実施形態における制御部11の機能構成の一例を示す図である。制御部11は学習用データ取得部111、学習段階変換部112、記録部113、出力制御部114及び終了判定部115を備える。
 学習用データ取得部111は、入力部12又は通信部13に入力された学習用データを取得する。学習用データ取得部111は、予め記憶部14に学習用データが記録済みの場合には、記憶部14から学習用データを読み出してもよい。
 学習段階変換部112は、変換学習モデルの実行と変換学習モデルの実行結果に基づいて得られた損失に基づき変換学習モデルの学習を行う処理とを実行する。学習段階変換部112は、学習段階変換処理実行部121、調整パラメータ値取得部122、写像変換部123及び損失取得部124を備える。
 学習段階変換処理実行部121は、学習段階変換処理を実行する。そのため、学習段階変換処理実行部121は、例えば学習段階変換処理ネットワークである。学習段階変換処理実行部121を形成するニューラルネットワークは、例えば図3におけるニューラルネットワークW2を含む。
 調整パラメータ値取得部122は、調整パラメータ値取得処理を実行する。そのため調整パラメータ値取得部122は、例えば調整パラメータ値取得ネットワークである。調整パラメータ値取得部122は、例えば図3におけるニューラルネットワークW1である。
 写像変換部123は、学習段階変換処理の実行により得られる局所特徴量集合のうちの対象集合の各局所特徴量に対して、調整パラメータ値取得処理の実行により得られた調整パラメータ値に応じた特徴量変換写像による写像変換処理を実行する。写像変換部123は、例えば図3におけるニューラルネットワークW3である。
 損失取得部124は、学習段階変換処理の実行により得られた学習段階変換先データと学習用参照データとに基づいて損失を取得する。損失取得部124は、損失に基づいて変換学習モデルを更新する。損失に基づく変換学習モデルの更新は、具体的には、損失取得部124が損失に基づき所定の規則にしたがって学習段階変換処理ネットワーク及び調整パラメータ値取得ネットワークのパラメータの値を更新する処理である。例えば損失取得部124は、損失を小さくするように学習段階変換処理ネットワーク及び調整パラメータ値取得ネットワークのパラメータの値を更新する。
 学習段階変換処理実行部121と調整パラメータ値取得部122と写像変換部123と損失取得部124とは、お互いが協働することで変換学習モデルの実行と更新とが可能なニューラルネットワークを形成可能であれば、どのようなものであってもよい。
 例えば学習段階変換処理実行部121と損失取得部124とは、協働して動作することでGAN(Genera tive Adversarial Networks)として動作するニューラルネットワークを形成する回路であってもよい。このような場合、調整パラメータ値取得部122は調整パラメータ値を取得し、写像変換部123がGANの対象段階処理により得られた対象集合の各局所特徴量に対して写像変換処理を実行する。GANは、写像変換処理の結果を用いて対象段階処理の次の段階の処理を実行する。対象段階処理の次の段階の処理とは、ニューラルネットワークにおける対象段階処理が実行される層の次の層で実行される処理を意味する。
 例えば学習段階変換処理実行部121と損失取得部124とは、協働して動作することでCycleGANとして動作するニューラルネットワークを形成する回路であってもよい。このような場合、このような場合、調整パラメータ値取得部122は調整パラメータ値を取得し、写像変換部123がCycleGANの対象段階処理により得られた対象集合の各局所特徴量に対して写像変換処理を実行する。CycleGANは、写像変換処理の結果を用いて対象段階処理の次の段階の処理を実行する。
 例えば学習段階変換処理実行部121と損失取得部124とは、協働して動作することで条件付変分自己符号化器(Conditional Variational Autoencoder;CVAE)として動作するニューラルネットワークを形成する回路であってもよい。
 例えば学習段階変換処理実行部121と損失取得部124とは、協働して動作することで、例えばパラレル声質変換を行うニューラルネットワークを形成する回路であってもよい。
 記録部113は各種情報を記憶部14に記録する。出力制御部114は出力部15の動作を制御する。終了判定部115は、所定の終了条件が満たされたか否かを判定する。所定の終了条件が満たされた時点の変換学習モデルが学習済みの変換学習モデルであり、音声信号変換モデルである。
 図6は、実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため学習段階変換処理の含む対象段階処理が1つの場合を例に音声信号変換モデル学習装置1が実行する処理の流れの一例を説明する。なお、対象段階処理が複数存在する場合には、対象段階処理ごとに調整パラメータ値取得処理と写像変換処理が実行される。
 学習用データ取得部111が学習用データを取得する(ステップS101)。次に学習段階変換処理実行部121が、対象段階処理までの処理を実行する(ステップS102)。次に、調整パラメータ値取得部122が調整パラメータ値を取得する(ステップS103)。次に、写像変換部123が、ステップS102の処理により得られた局所特徴量集合(すなわち対象集合)の各局所特徴量に対して、ステップS103で得られた調整パラメータ値に応じた写像変換処理を実行する(ステップS104)。
 次に、学習段階変換処理実行部121がステップS104の処理により得られた変換後の局所特徴量を用いて対象段階処理の次の処理から学習段階変換処理の最後の処理まで実行する(ステップS105)。ステップS105の処理により、学習段階変換先データが得られる。ステップS105の次に、損失取得部124が、学習段階変換先データと学習用参照データとに基づき損失を取得する(ステップS106)。次に、損失取得部124が、損失に基づき、変換学習モデルを更新する(ステップS107)。次に、終了判定部115は、所定の終了条件が満たされたか否かを判定する(ステップS108)。所定の終了条件が満たされない場合(ステップS108:NO)、ステップS101の処理に戻る。一方、所定の終了条件が満たされる場合(ステップS108:YES)、処理が終了する。
 図7は、実施形態における音声信号変換装置2のハードウェア構成の一例を示す図である。音声信号変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。音声信号変換装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音声信号変換装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 制御部21は、音声信号変換装置2が備える各種機能部の動作を制御する。制御部21は、例えば音声信号変換モデル学習装置1が得た学習済みの変換学習モデル(すなわち音声信号変換モデル)を用いて、変換元音声信号を変換先音声信号に変換する。
 入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部22は、自装置に対する各種情報の入力を受け付ける。入力部22は、例えば変換元音声信号を変換先音声信号に変換する処理の開始を指示する入力を受け付ける。入力部22は、例えば変換元音声信号の入力を受け付ける。
 通信部23は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換先音声信号の出力先である。このような場合、通信部23は、外部装置との通信によって外部装置に変換先音声信号を出力する。変換先音声信号の出力の際の外部装置は、例えばスピーカー等の音声出力装置である。
 通信部23の通信先の外部装置は、例えば音声信号変換モデル学習装置1である。このような場合、通信部23は、例えば音声信号変換モデル学習装置1が得た学習済みの変換学習モデルを取得する。
 通信部23の通信先の外部装置は、例えば音声信号変換モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、通信部23は外部装置との通信によって音声信号変換モデルを取得する。
 通信部23の通信先の外部装置は、例えば変換元音声信号の出力元である。このような場合、通信部23は、外部装置との通信によって外部装置から変換元音声信号を取得する。
 記憶部24は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は音声信号変換装置2に関する各種情報を記憶する。記憶部24は、例えば通信部23を介して取得した音声信号変換モデルを記憶する。
 出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。
 図8は、実施形態における制御部21の機能構成の一例を示す図である。制御部21は、変換対象取得部211、変換部212及び音声信号出力制御部213を備える。
 変換対象取得部211は、変換対象となる変換元音声信号を取得する。変換対象取得部211は、例えば入力部22に入力された変換元音声信号を取得する。変換対象取得部211は、例えば通信部23に入力された変換元音声信号を取得する。
 変換部212は、変換対象取得部211が取得した変換対象を、音声信号変換モデルを用いて変換先音声信号に変換する。得られた変換先音声信号は音声信号出力制御部213に出力される。
 音声信号出力制御部213は、通信部23の動作を制御する。音声信号出力制御部213は、通信部23の動作を制御することで通信部23に変換先音声信号を出力させる。
 図9は、実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャートである。変換対象取得部211が変換元音声信号を取得する(ステップS201)。次に、変換部212が音声信号変換モデルを用いて変換元音声信号を変換先音声信号に変換する(ステップS202)。次に、音声信号出力制御部213が通信部23の動作を制御することで通信部23に変換先音声信号を出力させる(ステップS203)。
(実験結果)
 実施形態の音声信号変換システム100を用いた音声信号の変換の実験結果の一例を説明する。実験では、Voice Conversion Challenge(VCC)2018の4話者の音声データが用いられた。具体的には、実験では、女性話者VCC2SF3(SF)、男性話者VCC2SM3(SM)、女性話者VCC2TF1(TF)及び男性話者VCC2TM1(TM))が用いられた。
 実験は、話者性変換であった。実験においてSFとSMとは変換元音声信号が表す音声(以下「変換元音声」という。)として用いられた。実験では、TFとTMとは変換先音声信号の比較対象の音声信号が表す音声(以下「変換目標音声」という。)として用いられた。実験では、変換元音声と変換目標音声との組それぞれについて実験が行われた。すなわち、実験では4組について実験が行われた。4組とは具体的には、SFとTFとの組と、SMとTMとの組と、SFとTMとの組と、SMとTFとの組との合計4組である。
 実験では、各話者につき81文が学習データとして用いられ35文がテストデータとして用いられた。実験において、全音声信号のサンプリング周波数は22050Hzであった。学習データにおいて、変換元音声と変換目標音声との間に同一発話音声は存在しなかった。そのため、実験は、非パラレル設定での評価が可能な実験であった。
 実験では、各発話に対し、窓長が1024サンプルであってホップ長が256サンプルである短時間フーリエ変換が行われた。実験では次に、80次元のメルスペクトログラムの抽出が行われた。実験では、このメルスペクトログラムが音響特徴量系列として用いられ、メルスペクトログラムの変換器の学習が行われた。変換器は、具体的には学習段階変換部112である。なお、音響特徴量系列とは、上述のxに対応する量である。すなわち、音響特徴量系列とは、処理対象入力データの局所特徴量である。実験において、メルスペクトログラムから波形(すなわち音声)を生成する際は、ニューラルネットワークで構成された波形生成器が用いられた。
 実験において、比較対象の技術として後述する従来変換技術であって参考文献1に記載のCycleGAN-VC2が用いられた。具体的には、比較対象の技術では、後述する従来変換技術における式(4)と式(5)とを組み合わせた基準が学習基準として用いられた。
 参考文献1:T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC2: Improved CycleGAN-Based Non-Parallel Voice Conversion,” in Proc. ICASSP, 2019.
 変換器GとFと、識別器Dx、Dy、D´x、及びD´yとは、CNNによってモデル化された。より具体的には、変換器G及びFは、以下の第1処理部から第7処理部までの7つの処理部を有するニューラルネットワークであった。第1処理部は、2D CNNによる入力処理部であって畳み込みブロック1つで構成される。なお2Dは、2次元を意味する。第2処理部は、2D CNNによるダウンサンプリング処理部であって畳み込みブロック2つで構成される。第3処理部は、2Dから1Dへの変換処理部であって畳み込みブロック1つで構成される。なお1Dは、1次元を意味する。
 第4処理部は、1D CNNによる差分変換処理部であって畳み込みブロック2つを含む差分変換ブロック6つで構成される。第5処理部は、1Dから2Dへの変換処理部であって畳み込みブロック1つで構成される。第6処理部は、2D CNNによるアップサンプリング処理部であって畳み込みブロック2つで構成される。第7処理部は、2D CNNによる出力処理部であって畳み込みブロック1つで構成される。このようなニューラルネットワークが実験で用いられた従来変換技術であった。
 実験において音声信号変換システム100は、音声信号変換モデル学習装置1の変換学習モデルが、第1処理部、第2処理部、第3処理部、第4処理部、第7処理部と、第5´処理部と第6´処理部とを有するニューラルネットワークで表現された。第5´処理部は、第5処理部に写像変換処理を実行するニューラルネットワークが接続されたニューラルネットワークである。第6´処理部は、第6処理部に写像変換処理を実行するニューラルネットワークが接続されたニューラルネットワークである。第5´処理部及び第6´処理部が実行する写像変換処理は、具体的には式(1)に示すアフィン変換による変換であった。
 実験は、具体的には音声変換の音質と変換効果の評価とを主観評価実験にて行う実験であった。音質の評価については、音声の自然性に関するMOS(Mean Opinion Score)テストが行われた。
 図10は、実施形態における実験結果の一例を示す第1の図である。図10において、“従来手法”の行は、上述したCycleGAN-VC2による変換の結果を示す。図10において、“本発明手法”は、音声信号変換システム100による変換の結果を示す。図10において“SF-TF”は、SFとTFとの組を示す。図10において“SM-TM”は、SMとTMとの組を示す。図10において“SF-TM”は、SFとTMとの組を示す。図10において“SF-TF”は、SMとTFとの組を示す。なお、MOSでは、“5”が最高評価を表し、“1”が最低評価を表す。
 図10は、全ての変換パターンにおいて、音声信号変換システム100を用いて変換した音声が従来変換技術を用いて変換した音声より高い自然性を有することを示す。なお、全てのパターンにおいてとは、SFとTFとの組と、SMとTMとの組と、SFとTMとの組と、SMとTFとの組との合計4組全てについて、という意味である。
 実験では、変換効果の評価については、話者性の類似度に関するMOSテストが行われた。変換効果の評価のMOSテストでは、具体的には、変換目標音声と変換された音声との比較が行われ、同一話者から発声された音声かどうかが5段階で評価された。
 図11は、実施形態における実験結果の一例を示す第2の図である。図11において、“従来手法”の行は、上述したCycleGAN-VC2による変換の結果を示す。図11において、“本発明手法”は、音声信号変換システム100による変換の結果を示す。図11において“SF-TF”は、SFとTFとの組を示す。図11において“SM-TM”は、SMとTMとの組を示す。図11において“SF-TM”は、SFとTMとの組を示す。図11において“SF-TF”は、SMとTFとの組を示す。なお、MOSでは、“5”が最高評価を表し、“1”が最低評価を表す。
 図11は、全ての変換パターンにおいて、音声信号変換システム100を用いて変換した音声が従来変換技術を用いて変換した音声より高い話者類似度又は匹敵話者類似度を有することを示す。匹敵話者類似度とは、匹敵する話者類似度を意味する。匹敵するとは、話者類似度の評価結果が同等であることを意味する。
 このように構成された実施形態の音声信号変換モデル学習装置1は、機械学習の技術を用いる装置であって、学習段階変換部112を備える装置である。学習段階変換部112は、調整パラメータ値取得処理を実行することで調整パラメータ値を取得し、取得した調整パラメータ値を用いて変換学習モデルの学習を行う。調整パラメータ値は、局所特徴量の分布の統計値であるため、入力されたデータ(すなわち調整パラメータ値取得処理の処理対象のデータ)の構造を示す情報である。そのため、音声信号変換モデル学習装置1は、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減することができる。
 また、このように構成された実施形態の音声信号変換システム100は、音声信号変換モデル学習装置1を備える。そのため、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減することができる。
 (変形例)
 音声信号変換モデル学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 音声信号変換装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 なお、音声信号変換システム100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
(従来変換技術の説明)
 ここで、従来変換技術を説明する。従来変換技術は、具体的にはCyCleGANを用いた非パラレル声質変換の技術である。
 要素が実数でありQ×Nの2階のテンソルxと、要素が実数でありQ×Mの2階のテンソルをyとする。xは、属性cの音声の音響特徴量系列を表すテンソルである。yは、属性c´の音声の音響特徴量系列を表すテンソルである。なお、音響特徴量系列とは、音響特徴量の系列である。
 Qは、音響特徴量の次元数を表し、NとMとはそれぞれxとyの系列長を表す。従来変換技術では、非パラレル学習サンプルx及びyを用いて、xを属性c´に変換する変換器Gと、yを属性cに変換する変換器Fとを学習することが目的である。
 変換器Gは、具体的には、要素が実数のテンソルであってQ×Nの2階のテンソルを要素が実数のテンソルであってQ×Nの2階のテンソルに変換する。変換器Fは、具体的には、要素が実数のテンソルであってQ×Mの2階のテンソルを要素が実数のテンソルであってQ×Mの2階のテンソルに変換する。
 従来変換技術では、入力された音声が属性cの実音声かそうでないかを識別する識別器Dxと、入力された音声が属性c´の実音声かそうでないかを識別する識別器Dyと、が用いられる。従来変換技術では、式(4)で定義される敵対的学習基準Ladvに基づいて、変換器G、変換器F、識別器Dx及び識別器Dyを学習することが行われる。
Figure JPOXMLDOC01-appb-M000004
 式(4)においてEは、下付きで表される分布に対する期待値を表す。x~px(x)とy~py(y)とは、学習データ群から学習サンプルをサンプリングする処理を表す。
 Ladvは、Dxが正しくxを実音声と識別しF(y)を合成音声と識別できている場合と、Dyが正しくyを実音声と識別子G(x)を合成音声と識別できている場合と、に大きい値をとる。
 識別器Dxと識別器Dyとについては、Ladvが大きくなるよう学習が行われ、変換器Gと変換器FとについてはLadvが小さくなるよう学習が行われる。このように学習が行われることで,変換器Gと変換器Fとによって変換された音響特徴量が、識別器Dxと識別器Dyとによって実音声であると識別される確率を下げることができる。このような学習の方法が従来変換技術において品質の高い変換音声を得るための鍵の1つである。
 従来変換技術では、さらに、式(5)で定義される循環無矛盾性基準Lcycを用いて学習が行われてもよいし、式(6)で定義される恒等変換基準Lidを用いて学習が行われてもよい。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 Lcycは、xをGで変換した後にさらにFで変換したものが元通りxと一致する場合と、yをFで変換した後にさらにGで変換したものが元通りyと一致する場合と、に最小である。一方Lidは、yをGの入力とした場合の出力がyから変化がない場合と、xをFの入力とした場合の出力がxから変化がない場合と、に最小である。GとFとをこれらが小さくなるように学習することで,GとFがいずれも一対一変換となるように、変換器G及び変換器Fを学習させることができる。このことは、非パラレル声質変換法を実現する上での鍵の1つである。
 式(5)及び式(6)の基準も用いられる場合、従来変換技術においてG、F、Dx及びDyの学習に用いられる基準は、例えば以下の式(7)で表される基準である。
Figure JPOXMLDOC01-appb-M000007
 Lfullが小さくなるようにG及びFのパラメータを反復更新し、Lfullが大きくなるようにDx及びDyのパラメータを反復更新することで、属性cの音声の音響特徴量と続c´の音声の音響特徴量とを相互変換する変換器Gと変換器Fとが得られる。
 従来変換技術では、式(7)にくわえてさらに式(8)で表される第2種敵対的学習基準Ladv2が用いられてもよい。
Figure JPOXMLDOC01-appb-M000008
 識別器D´xは入力された音声が属性cの実音声か否かを識別する。識別器D´yは入力された音声が属性c´の実音声か否かを識別する。
 Ladv2は、D´xが正しくxを実音声と識別しF(G(x))を合成音声と識別できている場合と、D´yが正しくyを実音声と識別子、G(F(y))を合成音声と識別できている場合とに値が大きい。
 従来変換技術では、D´xとD´yとについてLadv2が大きくなるように学習が行われ、G及びFについてLadv2が小さくなるように学習が行われる。これにより、G及びFによって循環変換された音響特徴量が、D´xとD´yとによって実音声であると識別される確率を下げることができる。
 なお、式(4)及び式(8)では、実音声と合成音声とを識別する際の基準としてクロスエントロピーを用いる例を説明した。しかしながら、実音声と合成音声とを識別する際の基準としては、ワッサーステイン距離やL2距離などの任意の距離基準が用いられてもよい。
 また、式(4)及び式(5)では、実音声と合成音声とを識別する際の基準としてL1距離を用いる例を説明した。しかしながら、実音声と合成音声とを識別する際の基準としては、ワッサーステイン距離やL2距離などの任意の距離基準が用いられてもよい。
 従来変換技術において、変換器G、変換器F、識別器Dx、識別器Dy、識別器D´x及び識別器D´yはニューラルネットワークでモデル化される。具体的なニューラルネットワークとしては、CNNが用いられる。より具体的には、変換器G及び変換器Fの一例は、例えば図12に記載するニューラルネットワークである。
 図12は、従来変換技術における変換器G及び変換器Fのニューラルネットワークの構成の一例を説明する説明図である。変換器G及び変換器Fは、畳み込み層(Convolution)、正規化層(Normalization)、活性化層(Activation)の3層で構成される畳み込みブロック(ConvBlock)を多層にもつニューラルネットワークである。例えばxからyの変換器Gでは、変換元音声の音響特徴量(Source;x)が入力として与えられた時、畳み込みブロックが多層にわたって適用されることで音響特徴量(Target;y)を出力できるように学習が行われる。
 なお、畳み込みブロックが実行する処理としては、ダウンサンプリング処理が用いられることもあるし、アップサンプリング処理が用いられることもある。畳み込みブロックが実行する処理としては、特徴量のテンソルの入れ替え処理や、畳み込みブロックをスキップした時の値と畳み込みブロックの適用後の値を加算する処理が用いられることもある。
畳み込みブロックとしては、畳み込み層、正規化層又は活性化層のいずれか一つ以上が除いたものである場合もある。また、畳み込みブロックでは、畳み込み層、正規化層及び活性化層の処理の順番を入れ替えた処理が実行される場合もある。
 このような従来変換技術では、変換元音声の音響特徴量が各層で逐次変換されてしまうため、後段の層では、変換元音声の音響特徴量の元々の情報は失われていく。そのため、従来変換技術では、変換前後で本来保持すべき情報を保てないことがあった。
 特に、声質変換では、変換元音声の言語情報を保持しながら非言語・パラ言語を変換することが重要である。つまり、保持すべき情報と変換すべき情報の取捨選択が重要である。しかしながら、上述したように従来変換技術では、二つの情報は共通するニューラルネットワーク内で同時に逐次変換されてしまう。そのため従来変換技術では、非言語・パラ言語を変換する過程で言語情報が毀損したり、言語情報の保持を強めようとした結果、非言語・パラ言語の変換が難しくなったりする。
 ここまでニューラルネットワークとしてCNNが用いられる場合を例に従来変換技術を説明したが、従来変換技術では、他のニューラルネットワークが用いられることもある。例えば、CNNに代えてFNN(Feedforward Neural Network)やRNN(Recurrent Neural Network)が用いられることがある。しかしながら、いずれのニューラルネットワークが用いられても従来変換技術ではCNNの場合と同様の問題が生じる。
 なお、このような従来変換技術の1つは参考文献1に記載のCycleGAN-VC2である。ここまでで従来変換技術の説明を終了する。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 100…音声信号変換システム、 1…音声信号変換モデル学習装置、 2…音声信号変換装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 111…学習用データ取得部、 112…学習段階変換部、 121…学習段階変換処理実行部、 122…調整パラメータ値取得部、 123…写像変換部、 124…損失取得部、 113…記録部、 114…出力制御部、 115…終了判定部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 211…変換対象取得部、 212…変換部、 213…音声信号出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ

Claims (7)

  1.  入力された音声信号である学習用入力データを取得する学習用データ取得部と、
     前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、
     を備え、
     前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、
     前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、
     前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、
     音声信号変換モデル学習装置。
  2.  前記所定の演算は、前記調整パラメータ値に応じた写像により前記特徴量を変換する処理である、
     請求項1に記載の音声信号変換モデル学習装置。
  3.  前記特徴量を変換する処理は、前記特徴量の要素毎に実行される、
     請求項2に記載の音声信号変換モデル学習装置。
  4.  前記特徴量を変換する処理は、アフィン変換である、
     請求項2に記載の音声信号変換モデル学習装置。
  5.  変換対象の音声信号を取得する変換対象取得部と、
     入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置によって得られた学習済みの変換学習モデル、を用いて前記変換対象を変換する変換部と、
     を備える音声信号変換装置。
  6.  入力された音声信号である学習用入力データを取得する学習用データ取得ステップと、
     前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換ステップと、
     を有し、
     前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、
     前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、
     前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、
     音声信号変換モデル学習方法。
  7.  請求項1から4のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/039975 2020-10-23 2020-10-23 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム WO2022085197A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/032,529 US20230386489A1 (en) 2020-10-23 2020-10-23 Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program
JP2022556363A JP7518429B2 (ja) 2020-10-23 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
PCT/JP2020/039975 WO2022085197A1 (ja) 2020-10-23 2020-10-23 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/039975 WO2022085197A1 (ja) 2020-10-23 2020-10-23 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022085197A1 true WO2022085197A1 (ja) 2022-04-28

Family

ID=81290326

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/039975 WO2022085197A1 (ja) 2020-10-23 2020-10-23 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Country Status (2)

Country Link
US (1) US20230386489A1 (ja)
WO (1) WO2022085197A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342256A1 (en) * 2017-05-24 2018-11-29 Modulate, LLC System and Method for Voice-to-Voice Conversion
JP2019101391A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 系列データ変換装置、学習装置、及びプログラム
JP2020140244A (ja) * 2019-02-26 2020-09-03 日本電信電話株式会社 データ変換学習装置、データ変換装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342256A1 (en) * 2017-05-24 2018-11-29 Modulate, LLC System and Method for Voice-to-Voice Conversion
JP2019101391A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 系列データ変換装置、学習装置、及びプログラム
JP2020140244A (ja) * 2019-02-26 2020-09-03 日本電信電話株式会社 データ変換学習装置、データ変換装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKUHIRO KANEKO; HIROKAZU KAMEOKA; KOU TANAKA; NOBUKATSU HOJO: "CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 October 2020 (2020-10-22), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081793283 *
TAKUHIRO KANEKO; HIROKAZU KAMEOKA; KOU TANAKA; NOBUKATSU HOJO: "StarGAN-VC2: Rethinking Conditional Methods for StarGAN-Based Voice Conversion", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 July 2019 (2019-07-29), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081450863 *

Also Published As

Publication number Publication date
US20230386489A1 (en) 2023-11-30
JPWO2022085197A1 (ja) 2022-04-28

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
KR101197407B1 (ko) 음성 신호 분리 장치 및 방법
US11031028B2 (en) Information processing apparatus, information processing method, and recording medium
JP6976804B2 (ja) 音源分離方法および音源分離装置
WO2018159403A1 (ja) 学習装置、音声合成システムおよび音声合成方法
US10311888B2 (en) Voice quality conversion device, voice quality conversion method and program
JP2006243290A (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP7388495B2 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JP6453681B2 (ja) 演算装置、演算方法およびプログラム
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
JP7423056B2 (ja) 推論器および推論器の学習方法
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
WO2022085197A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024183A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
JP7518429B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP2019132948A (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JPH10133688A (ja) 音声認識装置
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
WO2022101967A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024187A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP3091648B2 (ja) 隠れマルコフモデルの学習方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20958745

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022556363

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18032529

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20958745

Country of ref document: EP

Kind code of ref document: A1