WO2023168813A1 - 音色模型构建方法、音色转换方法、装置、设备及介质 - Google Patents

音色模型构建方法、音色转换方法、装置、设备及介质 Download PDF

Info

Publication number
WO2023168813A1
WO2023168813A1 PCT/CN2022/089770 CN2022089770W WO2023168813A1 WO 2023168813 A1 WO2023168813 A1 WO 2023168813A1 CN 2022089770 W CN2022089770 W CN 2022089770W WO 2023168813 A1 WO2023168813 A1 WO 2023168813A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample audio
vector sequence
audio data
musical instrument
model
Prior art date
Application number
PCT/CN2022/089770
Other languages
English (en)
French (fr)
Inventor
张剑
蒋慧军
徐伟
陈又新
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023168813A1 publication Critical patent/WO2023168813A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • Embodiments of the present application relate to the field of artificial intelligence technology, and in particular to a timbre model construction method, timbre conversion method, device, equipment and medium.
  • Embodiments of the present application provide a timbre model construction method, timbre conversion method, device, equipment and medium, which are used to solve the problem of poor instrument timbre conversion effect of models trained with existing audio training data.
  • the embodiment of the present application provides a method for constructing a musical instrument timbre conversion model, which includes:
  • the plurality of first sample audio vector sequences are converted into a second sample audio vector sequence through the to-be-trained model, where the second sample audio vector sequence is a vector corresponding to audio data obtained based on simulating the performance of a second type of musical instrument. sequence;
  • each second sample audio vector sequence to a corresponding input sample audio vector sequence, wherein the input sample audio vector sequence is a vector sequence corresponding to audio data obtained based on simulating the performance of the first type of musical instrument;
  • the musical instrument timbre conversion model is obtained based on the updated model parameters.
  • An embodiment of the present application provides a device for constructing a musical instrument timbre conversion model, which includes:
  • a collection module configured to collect a plurality of first sample audio data, where the first sample audio data is audio data obtained based on the performance of a first type of musical instrument;
  • a vector conversion module used to convert the plurality of first sample audio data into a plurality of first sample audio vector sequences, and input the plurality of first sample audio vector sequences into the model to be trained,
  • a conversion module configured to convert the plurality of first sample audio vector sequences into a second sample audio vector sequence through the model to be trained, wherein the second sample audio vector sequence is obtained based on simulating the performance of a second type of musical instrument.
  • Restoration module configured to restore each second sample audio vector sequence to a corresponding input sample audio vector sequence, wherein the input sample audio vector sequence is a vector corresponding to audio data obtained based on simulating the performance of the first type of musical instrument. sequence;
  • a comparison module configured to compare the input sample audio vector sequence with the corresponding first sample audio vector sequence, and obtain a first loss value
  • An acquisition module configured to obtain the first score corresponding to each second sample audio vector sequence based on multiple second sample audio vector sequences
  • An update module configured to update the model parameters of the model to be trained based on the first score and the first loss value
  • the generation module is used to obtain the musical instrument timbre conversion model based on the updated model parameters.
  • An embodiment of the present application provides a computer device, which includes a memory, a processor, and computer readable instructions stored on the memory and executable on the processor, wherein the processor executes the Implement the following steps when using computer-readable instructions:
  • the plurality of first sample audio vector sequences are converted into a second sample audio vector sequence through the to-be-trained model, where the second sample audio vector sequence is a vector corresponding to audio data obtained based on simulating the performance of a second type of musical instrument. sequence;
  • each second sample audio vector sequence to a corresponding input sample audio vector sequence, wherein the input sample audio vector sequence is a vector sequence corresponding to audio data obtained based on simulating the performance of the first type of musical instrument;
  • the musical instrument timbre conversion model is obtained based on the updated model parameters.
  • Embodiments of the present application provide one or more non-volatile readable storage media storing computer-readable instructions, wherein when the computer-readable instructions are executed by one or more processors, the one or more The processor performs the following steps:
  • the plurality of first sample audio vector sequences are converted into a second sample audio vector sequence through the to-be-trained model, where the second sample audio vector sequence is a vector corresponding to audio data obtained based on simulating the performance of a second type of musical instrument. sequence;
  • each second sample audio vector sequence to a corresponding input sample audio vector sequence, wherein the input sample audio vector sequence is a vector sequence corresponding to audio data obtained based on simulating the performance of the first type of musical instrument;
  • the musical instrument timbre conversion model is obtained based on the updated model parameters.
  • An embodiment of the present application provides a musical instrument timbre conversion method, which includes:
  • the plurality of first target audio vector sequences are converted into corresponding plurality of second target audio vector sequences through the musical instrument timbre conversion model, wherein the second target audio vector sequence is audio obtained based on simulating the performance of a second type of musical instrument.
  • An embodiment of the present application provides a computer device, which includes a memory, a processor, and computer readable instructions stored on the memory and executable on the processor, wherein the processor executes the Implement the following steps when using computer-readable instructions:
  • the plurality of first target audio vector sequences are converted into corresponding plurality of second target audio vector sequences through the musical instrument timbre conversion model, wherein the second target audio vector sequence is audio obtained based on simulating the performance of a second type of musical instrument.
  • Embodiments of the present application provide one or more non-volatile readable storage media storing computer-readable instructions, wherein when the computer-readable instructions are executed by one or more processors, the one or more The processor performs the following steps:
  • the plurality of first target audio vector sequences are converted into corresponding plurality of second target audio vector sequences through the musical instrument timbre conversion model, wherein the second target audio vector sequence is audio obtained based on simulating the performance of a second type of musical instrument.
  • the first sample audio vector sequence is converted into a second sample audio vector sequence, and then the second sample audio vector sequence is converted into Input the sample audio vector sequence; update the model parameters of the model to be trained through the calculated first loss value and first score to train the musical instrument timbre conversion model; the embodiment of the present application uses the first loss value and the first branch pair
  • the model is trained with high training efficiency; and the conversion effect of the musical instrument timbre conversion model trained by the above method is improved.
  • Figure 1 is a step flow chart of a method for constructing a musical instrument timbre conversion model according to Embodiment 1 of the present application;
  • Figure 2 is a flowchart of steps for obtaining a first sample audio vector sequence in the musical instrument timbre conversion model construction method according to Embodiment 1 of the present application;
  • Figure 3 is a flow chart of steps for updating model parameters in the musical instrument timbre conversion model construction method according to Embodiment 1 of the present application;
  • Figure 4 is a flow chart of the steps of model training in the method for constructing a musical instrument timbre conversion model according to Embodiment 1 of the present application;
  • Figure 5 is a flow chart of steps for updating model parameters in the musical instrument timbre conversion model construction method according to Embodiment 1 of the present application;
  • Figure 6 is a schematic diagram of the program module of the musical instrument timbre conversion model construction device in Embodiment 2 of the present application;
  • Figure 7 is a step flow chart of a musical instrument timbre conversion method in Embodiment 3 of the present application.
  • FIG. 8 is a schematic diagram of the hardware structure of a computer device according to Embodiment 4 of the present application.
  • FIG. 1 shows a flow chart of a method for constructing a musical instrument timbre conversion model according to an embodiment of the present application. It can be understood that the flow chart in this method embodiment is not used to limit the order of execution steps.
  • the following is an exemplary description using computer equipment as the execution subject, as follows:
  • the musical instrument timbre conversion model building method may include steps S100-S114, wherein:
  • Step S100 Collect a plurality of first sample audio data, where the first sample audio data is audio data based on the performance of a first type of musical instrument.
  • a plurality of first sample audio data are obtained as a training set to train the model to be trained.
  • the method described in this embodiment can significantly reduce the cost of data acquisition, and can have more training data to train the model to be trained, which provides good basic conditions for improving model performance.
  • Step S102 Convert the plurality of first sample audio data into a plurality of first sample audio vector sequences, and input the plurality of first sample audio vector sequences into the model to be trained.
  • the step S102 of converting the plurality of first sample audio data into a plurality of first sample audio vector sequences may further include steps S200- S206, wherein: step S200, perform frame processing on each first sample audio data, and obtain multiple frames of first sub-sample audio data; step S202, perform Fourier transform on the first sub-sample audio data of each frame, Obtain the amplitude corresponding to the first sub-sample audio data of each frame; step S204, obtain a linear spectrum according to the amplitude of the first sub-sample audio data of each frame; and step S206, perform a weighted calculation of the linear spectrum and, obtain the first sample audio vector sequence corresponding to the first sample audio data.
  • the audio data is transformed into vectors to facilitate data processing of the model to be trained and effectively improve data processing efficiency.
  • Step S104 Convert the plurality of first sample audio vector sequences into a second sample audio vector sequence through the model to be trained, where the second sample audio vector sequence is audio data obtained based on simulating the performance of a second type of musical instrument. the corresponding vector sequence.
  • the first type of musical instrument and the second type of musical instrument are different musical instruments.
  • the model to be trained involves four groups of neural networks, which are respectively used to represent the first converter, the second converter, the first discriminator, the second discriminator, the encoder (encoder) and decoding of the transformer (self-attention) layer. device; wherein, the first converter and the first discriminator are used to convert the audio of the first type of musical instrument into the audio of the second type of musical instrument; the second converter and the second discriminator are used to convert the audio of the second type of musical instrument into the audio of the second type of musical instrument. Audio of a type of musical instrument; encoders and decoders are used to convert between audio data and sequences of audio vectors.
  • the first converter receives a first sequence of sample audio vectors from a first type of musical instrument, and uses the encoder in the transformer layer to convert the first sequence of sample audio vectors into a second sample audio vector of the same length for a second type of musical instrument. sequence.
  • Step S106 Restore each second sample audio vector sequence to a corresponding input sample audio vector sequence, where the input sample audio vector sequence is a vector sequence corresponding to audio data obtained based on simulating the performance of the first type of musical instrument.
  • the converted second sample audio vector sequence is received through the second converter, and the decoder in the transformer layer is used to restore the second sample audio vector sequence to the input audio vector sequence.
  • Step S108 Compare the input sample audio vector sequence with the corresponding first sample audio vector sequence, and obtain a first loss value.
  • the input sample audio vector sequence and the corresponding first sample audio vector sequence are compared to form a supervision signal, which is used to update the model parameters of the first converter and the first discriminator. Calculate the minimum square error between the input audio vector sequence at each moment and the corresponding first sample audio vector sequence, that is, the minimum reconstruction error.
  • Step S110 Based on multiple second sample audio vector sequences, obtain the first score corresponding to each second sample audio vector sequence.
  • the first discriminator identifies the second sample audio vector sequence as audio data from actual performance of the second type of musical instrument or converted audio data that simulates the performance of the second type of musical instrument, and outputs score; compare the score with the preset score to determine the second sample audio vector sequence. If the score is greater than the preset score, it is determined that the second sample audio vector sequence comes from the audio data actually played by the second type of musical instrument; if the score is less than the preset score, it is determined that the second sample audio vector sequence is a classic Converted audio data that simulates the performance of the second type of musical instrument.
  • Step S112 Update the model parameters of the model to be trained based on the first score and the first loss value.
  • the model to be trained includes a first converter, a second converter, a first discriminator and a second discriminator, the first converter is used to convert the first sample audio vector The sequence is converted into the second sample audio vector sequence; the second converter is used to convert the third sample audio vector sequence into a fourth sample audio vector sequence, wherein the third sample audio data is based on the second sample audio vector sequence.
  • the fourth sample audio vector sequence is a vector sequence corresponding to the audio data obtained by simulating the performance of the first type of musical instrument; the first discriminator is used to identify whether the audio data is Data obtained by simulating the performance of the first type of musical instrument; the second discriminator is used to identify whether the audio data is data obtained by simulating the performance of the second type of musical instrument; in order to improve model training efficiency and conversion effect,
  • updating the model parameters of the model to be trained based on the first score and the first loss value may also include the following steps S300 to S302, wherein: step S300, in the second When the model parameters of the converter and the second discriminator remain unchanged, the first error of each neuron in the first converter is obtained through the back propagation algorithm according to the first loss value; step S302, According to each first error in the first converter, update the model parameters of the first converter; and step S304, based on the updated model parameters of the first converter and the first score, update Model parameters of the first discriminator.
  • two sets of neural network parameters are updated simultaneously during unidirectional training, that is, when training the model's ability to convert the audio data of the first type of musical instrument into the audio data of the second type of musical instrument, the first converter and the first The model parameters of the discriminator.
  • the first loss value is calculated through forward propagation; then the first error of each neuron in the first converter is calculated through the back propagation algorithm; and then the model parameters of the first converter are calculated based on each first error and the gradient descent algorithm.
  • the derivatives of , and the model parameters of the first converter are updated based on each derivative.
  • the goal is to generate audio data that simulates the performance of the second type of musical instrument so that the first discriminator can output a higher first score.
  • the goal of the first discriminator is to improve the accuracy of audio data discrimination, giving high scores to audio data from real performances of second-type instruments, and low scores to audio data from converted simulated performances of second-type instruments.
  • the update of the model parameters of the first converter depends on the first loss function.
  • the first loss function can be seen in the following formula 1:
  • E represents the error
  • d ⁇ M 1 represents sampling from the data set M 1
  • w 1 represents the first converter represented by w 1 as a function of the neural network parameters
  • w 2 represents the second converter represented by w 2 as a function of the neural network parameters
  • the first discriminator given by As a function of neural network parameter representation.
  • the update of the model parameters of the first discriminator depends on the second loss function.
  • the second loss function can be seen in the following formula 2:
  • E represents the error
  • d ⁇ M 1 represents sampling from the data set M 1
  • d ⁇ M 2 represents sampling from the data set M 2
  • Step S114 Obtain the musical instrument timbre conversion model based on the updated model parameters.
  • the step S114 of obtaining the musical instrument timbre conversion model based on the updated model parameters may also include the following operations: obtaining an updated model to be trained based on the updated model parameters; After the model parameters in the training model are updated a preset number of times, the musical instrument timbre conversion model is obtained.
  • the model parameters in the training model are updated a preset number of times, the musical instrument timbre conversion model is obtained.
  • the method also includes two-way training; for improvement, please refer to Figure 4.
  • the method also includes steps S400-S414, wherein: step S400 collects a plurality of third sample audio data, wherein the The three-sample audio data is audio data obtained based on the performance of the second type of musical instrument; step S402, convert the plurality of third sample audio data into a plurality of third sample audio vector sequences, and convert the plurality of third sample audio data into a plurality of third sample audio vector sequences.
  • the sample audio vector sequence is input into the model to be trained; step S404, convert the plurality of third sample audio vector sequences into a fourth sample audio vector sequence through the model to be trained, wherein the fourth sample audio vector sequence is based on Simulate the vector sequence corresponding to the audio data obtained by playing the first type of musical instrument; step S406, restore each fourth sample audio vector sequence to the corresponding fifth sample audio vector sequence, wherein the fifth sample audio vector sequence is a vector sequence corresponding to the audio data obtained based on simulating the performance of the second type of musical instrument; step S408, compare the fifth sample audio vector sequence with the corresponding third sample audio vector sequence, and obtain a second loss value ; Step S410, based on a plurality of fourth sample audio vector sequences, obtain the second score corresponding to each fourth sample audio vector sequence; Step S412, based on the second score and the second loss value, update the Describe the model parameters of the model to be trained; and step S414, obtain the musical instrument timbre conversion model according to the updated model parameters.
  • the update of the model parameters of the second converter depends on the third loss function.
  • the third loss function can be seen in the following formula 3:
  • E represents the error
  • d ⁇ M 2 represents sampling from the data set M 2
  • w 1 represents a function of the neural network parameters
  • w 2 represents the second converter represented by w 2 as a function of the neural network parameters
  • the second discriminator given by As a function of neural network parameter representation.
  • the update of the model parameters of the second discriminator depends on the fourth loss function.
  • the fourth loss function can be seen in the following formula 4:
  • E represents the error
  • d ⁇ M 1 represents sampling from the data set M 1
  • d ⁇ M 2 represents sampling from the data set M 2
  • updating the model parameters of the model to be trained can also be obtained by the following operations, wherein: step S500, when the model parameters of the first converter and the first discriminator remain unchanged, update the model parameters of the second converter according to the second loss value; and step S502, based on the The updated model parameters of the second converter and the second score are used to update the model parameters of the second discriminator.
  • the embodiment of the present application does not require paired audio training data of the source instrument and the target conversion instrument.
  • the processing of the training data only needs to classify the training data according to the instrument type, overcoming the problem of high cost of obtaining pairwise aligned training data, so that the data It can be used for training models without extensive processing.
  • it saves a lot of time and cost in data preparation and improves the applicability of the method; so that the musical instrument timbre conversion model can Convert timbres between many different types of instruments.
  • the model to be trained is trained, effectively improving the training efficiency and accuracy of the model.
  • the instrument timbre conversion model building device may include or be divided into one or more program modules.
  • the one or more program modules are stored in a storage medium and executed by one or more processors to After completing this application, the above-mentioned musical instrument timbre conversion model construction method can be implemented.
  • the program module referred to in the embodiment of this application refers to a series of computer-readable instruction segments capable of completing specific functions, and is more suitable for describing the execution process of the musical instrument timbre conversion model construction device in the storage medium than the program itself. The following description will specifically introduce the functions of each program module in this embodiment:
  • the musical instrument timbre conversion model construction device includes: collection module 600, vector conversion module 602, conversion module 604, recovery module 606, comparison module 608, acquisition module 610, update module 612 and generation module 614; wherein:
  • the collection module 600 is used to collect a plurality of first sample audio data, where the first sample audio data is audio data obtained based on the performance of a first type of musical instrument;
  • the vector conversion module 602 is used to convert the plurality of first sample audio data into a plurality of first sample audio vector sequences, and input the plurality of first sample audio vector sequences into the model to be trained,
  • Conversion module 604 configured to convert the plurality of first sample audio vector sequences into a second sample audio vector sequence through the model to be trained, wherein the second sample audio vector sequence is obtained based on simulating the performance of a second type of musical instrument.
  • Restoration module 606 configured to restore each second sample audio vector sequence to a corresponding input sample audio vector sequence, wherein the input sample audio vector sequence is based on audio data obtained by simulating the performance of the first type of musical instrument. vector sequence;
  • Comparison module 608 used to compare the input sample audio vector sequence with the corresponding first sample audio vector sequence, and obtain the first loss value
  • the obtaining module 610 is configured to obtain the first score corresponding to each second sample audio vector sequence based on the plurality of second sample audio vector sequences;
  • Update module 612 configured to update the model parameters of the model to be trained based on the first score and the first loss value
  • the generation module 614 is used to obtain the musical instrument timbre conversion model according to the updated model parameters.
  • FIG. 7 shows a step flow chart of the musical instrument timbre conversion method according to the embodiment of the present application. It can be understood that the flow chart in this method embodiment is not used to limit the order of execution steps.
  • the following is an exemplary description using computer equipment as the execution subject, as follows:
  • the musical instrument timbre conversion method may include steps S700-S706, wherein:
  • Step S700 collect a plurality of first target audio data, wherein the first target audio data is audio data obtained based on the performance of the first type of musical instrument;
  • Step S702 convert the plurality of first target audio data into a plurality of first target audio vector sequences, and input the plurality of first target audio vector sequences into the musical instrument timbre conversion model of the above embodiment;
  • Step S704 Convert the plurality of first target audio vector sequences into corresponding plurality of second target audio vector sequences through the musical instrument timbre conversion model, wherein the second target audio vector sequence is based on simulating the performance of a second type of musical instrument.
  • Step S706 Convert multiple second target audio vector sequences into corresponding multiple second target audio data.
  • the computer device 2 is a device that can automatically perform numerical calculations and/or information processing according to preset or stored instructions.
  • the computer device 2 may be a rack server, a blade server, a tower server or a cabinet server (including an independent server or a server cluster composed of multiple servers), etc.
  • the computer device 2 at least includes, but is not limited to, a memory 21, a processor 22, a network interface 23, and a musical instrument timbre conversion model building device that can communicate with each other through a system bus. in:
  • the memory 21 includes at least one type of computer-readable storage medium.
  • the readable storage medium includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory ( RAM), static random access memory (SRAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), programmable read-only memory (PROM), magnetic memory, magnetic disks, optical disks, etc.
  • the memory 21 may be an internal storage unit of the computer device 2 , such as a hard disk or memory of the computer device 2 .
  • the memory 21 may also be an external storage device of the computer device 2, such as a plug-in hard disk, a smart memory card (Smart Media Card, SMC), or a secure digital (Secure Digital) device equipped on the computer device 2. SD) card, Flash Card, etc.
  • the memory 21 may also include both the internal storage unit of the computer device 2 and its external storage device.
  • the memory 21 is usually used to store the operating system and various application software installed on the computer device 2, such as the program code of the musical instrument conversion model building device in the above embodiment.
  • the memory 21 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 22 may be a central processing unit (CPU), a controller, a microcontroller, a microprocessor, or other data processing chips.
  • the processor 22 is generally used to control the overall operation of the computer device 2 .
  • the processor 22 is used to run the program code or process data stored in the memory 21, for example, run the musical instrument conversion model building device to implement the musical instrument conversion model building method in the above embodiment.
  • the network interface 23 may include a wireless network interface or a wired network interface.
  • the network interface 23 is generally used to establish a communication connection between the computer device 2 and other electronic devices.
  • the network interface 23 is used to connect the computer device 2 with an external terminal through a network, establish a data transmission channel and a communication connection between the computer device 2 and the external terminal, etc.
  • the network may be an intranet, Internet, Global System of Mobile communication (GSM), Wideband Code Division Multiple Access (WCDMA), 4G network, 5G Network, Bluetooth, Wi-Fi and other wireless or wired networks.
  • FIG. 8 only shows the computer device 2 having components 21-23, but it should be understood that implementation of all the components shown is not required, and more or less components may be implemented instead.
  • the musical instrument conversion model building device stored in the memory 21 can also be divided into one or more program modules.
  • the one or more program modules are stored in the memory 21 and composed of one or more program modules. It is executed by multiple processors (processor 22 in this embodiment) to complete this application.
  • Figure 6 shows a schematic diagram of the program module for implementing the musical instrument conversion model construction device embodiment er.
  • the musical instrument conversion model construction device can be divided into an acquisition module 600, a vector conversion module 602, and a conversion module 600.
  • the program module referred to in this application refers to an instruction segment of a series of computer-readable instructions capable of completing specific functions, and is more suitable than a program for describing the execution process of the musical instrument conversion model building device in the computer device 2 .
  • the specific functions of the program modules 600-614 have been described in detail in the second embodiment and will not be described again here.
  • This embodiment also provides a computer-readable storage medium, such as flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), Read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), programmable read-only memory (PROM), magnetic memory, magnetic disks, optical disks, servers, App application malls, etc., which store computer-readable Instructions, programs implement corresponding functions when executed by the processor.
  • the computer-readable storage medium of this embodiment is used to store a musical instrument conversion model construction device, and when executed by a processor, implements the musical instrument conversion model construction method of the above embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

一种乐器音色转换模型构建方法及装置、乐器音色转换方法、计算机设备及介质。该乐器音色转换模型构建方法包括:通过将第一样本音频向量序列转换为第二样本音频向量序列(S102),再将第二样本音频向量序列转换为输入样本音频向量序列(S106);并通过计算得到的第一损失值和第一分值,更新待训练模型的模型参数(S112),以训练得到乐器音色转换模型。该方法通过第一损失值和第一分支对模型进行训练,训练效率高;且提高了乐器音色转换模型的准确率。

Description

音色模型构建方法、音色转换方法、装置、设备及介质
本申请以2022年3月9日提交的申请号为202210225202.0,名称为“乐器音色转换模型构建方法以及乐器音色转换方法”的中国专利申请为基础,并要求其优先权。
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种音色模型构建方法、音色转换方法、装置、设备及介质。
背景技术
目前,基于神经网络的乐器音色转换模型的训练主要依赖于监督方法,该模型训练方法需要采集大量的源乐器和目标转换乐器的成对音频训练数据,且数据需要在时间维度上对齐。发明人意识到在实际应用过程中,获取成对对齐的训练数据成本高,无法保证采集训练数据的数量和质量,导致通过监督方法采集的训练数据训练得到的模型的乐器音色转换效果差。
发明内容
本申请实施例提供了一种音色模型构建方法、音色转换方法、装置、设备及介质,用于解决现有音频训练数据训练得到的模型的乐器音色转换效果差的问题。
本申请实施例提供一种乐器音色转换模型构建方法,其中,包括:
采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
根据更新后的模型参数得到乐器音色转换模型。
本申请实施例提供一种乐器音色转换模型构建装置,其中,包括:
采集模块,用于采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
向量转化模块,用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中,
转换模块,用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
恢复模块,用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列, 其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
比对模块,用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
获取模块,用于基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
更新模块,用于基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;及
生成模块,用于根据更新后的模型参数得到乐器音色转换模型。
本申请实施例提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现如下步骤:
采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
根据更新后的模型参数得到乐器音色转换模型。
本申请实施例提供一个或多个存储有计算机可读指令的非易失性可读存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
根据更新后的模型参数得到乐器音色转换模型。
本申请实施例提供一种乐器音色转换方法,其中,包括:
采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
本申请实施例提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现如下步骤:
采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
本申请实施例提供一个或多个存储有计算机可读指令的非易失性可读存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
本申请实施例提供的音色模型构建方法、音色转换方法、装置、设备及介质中,通过将第一样本音频向量序列转换为第二样本音频向量序列,再将第二样本音频向量序列转换为输入样本音频向量序列;通过计算得到的第一损失值和第一分值,更新待训练模型的模型参数,以训练得到乐器音色转换模型;本申请实施例通过第一损失值和第一分支对模型进行训练,训练效率高;且提高了通过上述方法训练得到的乐器音色转换模型的转换效果。
以下结合附图和具体实施例对本申请进行详细描述,但不作为对本申请的限定。
附图说明
图1为本申请实施例一之乐器音色转换模型构建方法的步骤流程图;
图2为本申请实施例一之乐器音色转换模型构建方法中获取第一样本音频向量序列的步骤流程图;
图3为本申请实施例一之乐器音色转换模型构建方法中更新模型参数的步骤流程图;
图4为本申请实施例一之乐器音色转换模型构建方法中模型训练的步骤流程图;
图5为本申请实施例一之乐器音色转换模型构建方法中更新模型参数的步骤流程图;
图6为本申请实施例二之乐器音色转换模型构建装置的程序模块示意图;
图7为本申请实施例三之乐器音色转换方法的步骤流程图;
图8为本申请实施例四之计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
实施例一
请参阅图1,示出了本申请实施例之乐器音色转换模型构建方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
如图1所示,所述乐器音色转换模型构建方法可以包括步骤S100-S114,其中:
步骤S100,采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据。
在本实施例中,获取多个第一样本音频数据作为训练集对待训练模型进行训练。相比于有监督学习方法,无需对第一样本音频数据在时间维度上进行标注,只需要根据音频数据对应的乐器类型对音频数据进行归类。因此,本实施例的所述方法能够大幅度降低数据的获取成本,能够拥有更多的训练数据对待训练模型进行训练,给模型性能的提升提供了良好的基础条件。
步骤S102,将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中。
为了方便所述待训练模型进行数据处理,请参阅图2,所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列的步骤S102还可以进一步包括步骤S200-S206,其中:步骤S200,对每个第一样本音频数据进行分帧处理,并得到多帧第一子样本音频数据;步骤S202,对每帧第一子样本音频数据进行傅里叶变换,得到所述每帧第一子样本音频数据对应的幅值;步骤S204,根据所述每帧第一子样本音频数据的幅值,得到线性谱;及步骤S206,对所述线性谱进行加权求和,得到第一样本音频数据对应的第一样本音频向量序列。在本实施例中,将音频数据进行向量转化,以方便所述待训练模型进行数据处理,有效提高数据处理效率。
步骤S104,通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列。
其中,第一类型乐器和第二类型乐器为不同乐器。所述待训练模型涉及四组神经网络,分别用于表征第一转换器、第二转换器、第一辨别器、第二辨别器、transformer(自注意力)层的encoder(编码器)和解码器;其中,第一转换器和第一辨别器用于将第一类型乐器的音频转化为第二类型乐器的音频;第二转换器和第二辨别器用于将第二类型乐器的音频转化为第一类型乐器的音频;编码器和解码器用于音频数据和音频向量序列之间的转化。
第一转换器接收来自于第一类型乐器的第一样本音频向量序列,使用transformer层中的编码器将第一样本音频向量序列转换为相同长度的第二类型乐器的第二样本音频向量序列。
步骤S106,将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列。
其中,通过第二转换器接收转换后的第二样本音频向量序列,并使用transformer层中解码器将第二样本音频向量序列恢复为输入音频向量序列。
步骤S108,将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值。
在本实施例中,将输入样本音频向量序列和对应的第一样本音频向量序列进行对比形成监督信号,用于更新第一转换器和第一辨别器的模型参数。对每一个时刻的输入音频向量序列计算其与对应的第一样本音频向量序列的最小平方误差,即最小重构误差。
步骤S110,基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值。
在本实施例中,通过第一辨别器识别所述第二样本音频向量序列为来自于第二类型乐器实际演奏的音频数据或者为经转换后的模拟第二类型乐器演奏的音频数据,并输出分值;根据分值与预设分值进行比对,以判断第二样本音频向量序列。若分值大于预设分值,则确定第二样本音频向量序列来自于第二类型乐器实际演奏的音频数据;若分值小于所述预设分值,则确定第二样本音频向量序列为经转换后的模拟第二类型乐器演奏的音频数据。
步骤S112,基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数。
在示例性的实施例中,所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器,所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列;所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列,其中,所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列,所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据;所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据;为了提高模型训练效率和转换效果,
请参阅图3,所述基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参 数还可以包括以下步骤S300~S302,其中:步骤S300,在所述第二转换器和所述第二辨别器的模型参数不变的情形下,根据所述第一损失值,通过反向传播算法获取所述第一转换器中各个神经元的第一误差;步骤S302,根据所述第一转换器中的各个第一误差,更新所述第一转换器的模型参数;及步骤S304,基于所述第一转换器更新后的模型参数和所述第一分值,更新所述第一辨别器的模型参数。在本实施例中,单方向训练时同时更新两组神经网络参数,即训练模型将第一类型乐器的音频数据转换为第二类型乐器的音频数据的能力时,更新第一转换器和第一辨别器的模型参数。通过正向传播计算得到第一损失值;再通过反向传播算法计算得到第一转换器中各个神经元的第一误差;再基于各个第一误差和梯度下降算法计算第一转换器的模型参数的导数,并基于各个导数更新第一转换器的模型参数。
对于第一转换器,其目标是生成模拟第二类型乐器演奏的音频数据使得第一辨别器能够输出更高的第一分值。第一辨别器的目标是提升音频数据辨别的准确性,对来自第二类型乐器真实演奏的音频数据给出高分,对来自转换后的模拟第二类型乐器演奏的音频数据给出低分。
对于第一转换器的模型参数的更新依赖于第一损失函数,第一损失函数可以参见以下公式1:
Figure PCTCN2022089770-appb-000001
其中,E代表误差,d~M 1表示从数据集M 1中抽样,
Figure PCTCN2022089770-appb-000002
表示第一转换器由w 1作为神经网络参数表征的函数,
Figure PCTCN2022089770-appb-000003
表示第二转换器由w 2作为神经网络参数表示的函数,
Figure PCTCN2022089770-appb-000004
表示第一辨别器由
Figure PCTCN2022089770-appb-000005
作为神经网络参数表征的函数。
对于第一辨别器的模型参数的更新依赖于第二损失函数,第二损失函数可以参见以下公式2:
Figure PCTCN2022089770-appb-000006
其中,E代表误差,d~M 1表示从数据集M 1中抽样,d~M 2表示从数据集M 2中抽样,
Figure PCTCN2022089770-appb-000007
表示第一转换器由w 1作为神经网络参数表征的函数,
Figure PCTCN2022089770-appb-000008
表示第一辨别器由
Figure PCTCN2022089770-appb-000009
作为神经网络参数表征的函数。
步骤S114,根据更新后的模型参数得到乐器音色转换模型。
在示例性的实施例中,所述根据更新后的模型参数得到乐器音色转换模型的步骤S114还可以包括以下操作:根据更新后的模型参数,得到更新后的待训练模型;对更新后的待训练模型中的模型参数进行预设次数更新后,得到所述乐器音色转换模型。通过预设次数的迭代训练使模型收敛,能够提高所述模型数据处理的准确率。
为了提高所述模型的适用性,所述方法还包括双向训练;提高请参阅图4,所述方法还包括步骤S400-S414,其中:步骤S400,采集多个第三样本音频数据,其中,第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据;步骤S402,将所述多个第三样本音频数据转化为多个第三样本音频向量序列,并将所述多个第三样本音频向量序列输入至待训练模型中;步骤S404,通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列,其中,第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;步骤S406,将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列,其中,所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列;步骤S408,将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对,并得到第二损失值;步骤S410,基于多个第四样本音频向量序列,获取每个第四样本音频向量序列对应的第二分值;步骤S412,基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数;及步骤S414,根据更新后的模型参数得到乐器音色转换模型。
对于第二转换器的模型参数的更新依赖于第三损失函数,第三损失函数可以参见以下 公式3:
Figure PCTCN2022089770-appb-000010
其中,E代表误差,d~M 2表示从数据集M 2中抽样,
Figure PCTCN2022089770-appb-000011
表示第一转换器由w 1作为神经网络参数表征的函数,
Figure PCTCN2022089770-appb-000012
表示第二转换器由w 2作为神经网络参数表示的函数,
Figure PCTCN2022089770-appb-000013
表示第二辨别器由
Figure PCTCN2022089770-appb-000014
作为神经网络参数表征的函数。
对于第二辨别器的模型参数的更新依赖于第四损失函数,第四损失函数可以参见以下公式4:
Figure PCTCN2022089770-appb-000015
其中,E代表误差,d~M 1表示从数据集M 1中抽样,d~M 2表示从数据集M 2中抽样,
Figure PCTCN2022089770-appb-000016
表示第二转换器由w 2作为神经网络参数表示的函数,
Figure PCTCN2022089770-appb-000017
表示第二辨别器由
Figure PCTCN2022089770-appb-000018
作为神经网络参数表征的函数。
为了提高模型训练效率和准确率,请参阅图5,所述基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数还可以通过以下操作得到,其中:步骤S500,在所述第一转换器和所述第一辨别器的模型参数不变的情形下,根据所述第二损失值,更新所述第二转换器的模型参数;及步骤S502,基于所述第二转换器更新后的模型参数和所述第二分值,更新所述第二辨别器的模型参数。
本申请实施例无需源乐器和目标转换乐器的成对音频训练数据,对训练数据的处理仅需按照乐器类型对训练数据进行归类,克服了获取成对对齐训练数据成本高的问题,使得数据在无需大量加工的前提下即能为训练模型所使用,相对于传统训练数据的获取方法在数据准备上节省了大量时间和成本,提高所述方法的适用性;使得所述乐器音色转换模型能够在多种不同类型的乐器之间实现音色转换。且通过第一损失函数、第二损失函数、第三损失函数和第四损失函数,对待训练模型进行训练,有效提高模型的训练效率和准确率。
实施例二
请继续参阅图6,示出了本申请乐器音色转换模型构建装置的程序模块示意图。在本实施例中,乐器音色转换模型构建装置可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述乐器音色转换模型构建方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令的指令段,比程序本身更适合于描述乐器音色转换模型构建装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
所述乐器音色转换模型构建装置,包括:采集模块600、向量转化模块602、转换模块604、恢复模块606、比对模块608、获取模块610、更新模块612以及生成模块614;其中:
采集模块600,用于采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
向量转化模块602,用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中,
转换模块604,用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
恢复模块606,用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
比对模块608,用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
获取模块610,用于基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
更新模块612,用于基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;及
生成模块614,用于根据更新后的模型参数得到乐器音色转换模型。
实施例三
请参阅图7,示出了本申请实施例之乐器音色转换方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
如图7所示,所述乐器音色转换方法可以包括步骤S700-S706,其中:
步骤S700,采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
步骤S702,将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至上述实施例的乐器音色转换模型中;
步骤S704,通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
步骤S706,将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
实施例四
参阅图8,是本申请实施例四之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及乐器音色转换模型构建装置。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如上述实施例的乐器转换模型构建装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行乐器转换模型构建装置,以实现上述实施例的乐器转换模型构建方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输 通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述乐器转换模型构建装置还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本申请。
例如,图6示出了所述实现乐器转换模型构建装置实施例er的程序模块示意图,该实施例中,所述基于乐器转换模型构建装置可以被划分为采集模块600、向量转化模块602、转换模块604、恢复模块606、比对模块608、获取模块610、更新模块612以及生成模块614。其中,本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令的指令段,比程序更适合于描述所述乐器转换模型构建装置在所述计算机设备2中的执行过程。所述程序模块600-614的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例五
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机可读指令,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储乐器转换模型构建装置,被处理器执行时实现上述实施例的乐器转换模型构建方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种乐器音色转换模型构建方法,其中,包括:
    采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
    将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
    基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
    基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到乐器音色转换模型。
  2. 根据权利要求1所述的乐器音色转换模型构建方法,其中,所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器,所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列;所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列,其中,所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列,所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据;所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据;
    所述基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数,还包括:
    在所述第二转换器和所述第二辨别器的模型参数不变的情形下,根据所述第一损失值,通过反向传播算法获取所述第一转换器中各个神经元的第一误差;
    根据所述第一转换器中的各个第一误差,更新所述第一转换器的模型参数;
    基于所述第一转换器更新后的模型参数和所述第一分值,更新所述第一辨别器的模型参数。
  3. 根据权利要求2所述的乐器音色转换模型构建方法,其中,所述根据更新后的模型参数得到乐器音色转换模型,还包括:
    根据更新后的模型参数,得到更新后的待训练模型;
    对更新后的待训练模型中的模型参数进行预设次数更新后,得到所述乐器音色转换模型。
  4. 根据权利要求2所述的乐器音色转换模型构建方法,其中,所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列,还包括:
    对每个第一样本音频数据进行分帧处理,并得到多帧第一子样本音频数据;
    对每帧第一子样本音频数据进行傅里叶变换,得到所述每帧第一子样本音频数据对应的幅值;
    根据所述每帧第一子样本音频数据的幅值,得到线性谱;及
    对所述线性谱进行加权求和,得到第一样本音频数据对应的第一样本音频向量序列。
  5. 根据权利要求3所述的乐器音色转换模型构建方法,其中,所述方法还包括:
    采集多个第三样本音频数据,其中,第三样本音频数据为基于所述第二类型乐器演奏 得到的音频数据;
    将所述多个第三样本音频数据转化为多个第三样本音频向量序列,并将所述多个第三样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列,其中,第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列,其中,所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列;
    将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对,并得到第二损失值;
    基于多个第四样本音频向量序列,获取每个第四样本音频向量序列对应的第二分值;
    基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到所述乐器音色转换模型。
  6. 根据权利要求5所述的乐器音色转换模型构建方法,其中,所述基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数,还包括:
    在所述第一转换器和所述第一辨别器的模型参数不变的情形下,根据所述第二损失值,更新所述第二转换器的模型参数;及
    基于所述第二转换器更新后的模型参数和所述第二分值,更新所述第二辨别器的模型参数。
  7. 一种乐器音色转换模型构建装置,其中,包括:
    采集模块,用于采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
    向量转化模块,用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中,
    转换模块,用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
    恢复模块,用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    比对模块,用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
    获取模块,用于基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
    更新模块,用于基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;及
    生成模块,用于根据更新后的模型参数得到乐器音色转换模型。
  8. 一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现如下步骤:
    采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量 序列;
    将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
    基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
    基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到乐器音色转换模型。
  9. 根据权利要求8所述的计算机设备,其中,所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器,所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列;所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列,其中,所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列,所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据;所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据;
    所述基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数,还包括:
    在所述第二转换器和所述第二辨别器的模型参数不变的情形下,根据所述第一损失值,通过反向传播算法获取所述第一转换器中各个神经元的第一误差;
    根据所述第一转换器中的各个第一误差,更新所述第一转换器的模型参数;
    基于所述第一转换器更新后的模型参数和所述第一分值,更新所述第一辨别器的模型参数。
  10. 根据权利要求9所述的计算机设备,其中,所述根据更新后的模型参数得到乐器音色转换模型,还包括:
    根据更新后的模型参数,得到更新后的待训练模型;
    对更新后的待训练模型中的模型参数进行预设次数更新后,得到所述乐器音色转换模型。
  11. 根据权利要求9所述的计算机设备,其中,所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列,还包括:
    对每个第一样本音频数据进行分帧处理,并得到多帧第一子样本音频数据;
    对每帧第一子样本音频数据进行傅里叶变换,得到所述每帧第一子样本音频数据对应的幅值;
    根据所述每帧第一子样本音频数据的幅值,得到线性谱;及
    对所述线性谱进行加权求和,得到第一样本音频数据对应的第一样本音频向量序列。
  12. 根据权利要求11所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还实现如下步骤:
    采集多个第三样本音频数据,其中,第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据;
    将所述多个第三样本音频数据转化为多个第三样本音频向量序列,并将所述多个第三样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列,其中,第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列,其中,所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列;
    将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对,并得到第二 损失值;
    基于多个第四样本音频向量序列,获取每个第四样本音频向量序列对应的第二分值;
    基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到所述乐器音色转换模型。
  13. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    采集多个第一样本音频数据,其中,第一样本音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一样本音频数据转化为多个第一样本音频向量序列,并将所述多个第一样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列,其中,第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;
    将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列,其中,所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对,并得到第一损失值;
    基于多个第二样本音频向量序列,获取每个第二样本音频向量序列对应的第一分值;
    基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到乐器音色转换模型。
  14. 根据权利要求13所述的非易失性可读存储介质,其中,所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器,所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列;所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列,其中,所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列,所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据;所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据;
    所述基于所述第一分值和所述第一损失值,更新所述待训练模型的模型参数,还包括:
    在所述第二转换器和所述第二辨别器的模型参数不变的情形下,根据所述第一损失值,通过反向传播算法获取所述第一转换器中各个神经元的第一误差;
    根据所述第一转换器中的各个第一误差,更新所述第一转换器的模型参数;
    基于所述第一转换器更新后的模型参数和所述第一分值,更新所述第一辨别器的模型参数。
  15. 根据权利要求14所述的非易失性可读存储介质,其中,所述根据更新后的模型参数得到乐器音色转换模型,还包括:
    根据更新后的模型参数,得到更新后的待训练模型;
    对更新后的待训练模型中的模型参数进行预设次数更新后,得到所述乐器音色转换模型。
  16. 根据权利要求14所述的非易失性可读存储介质,其中,所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列,还包括:
    对每个第一样本音频数据进行分帧处理,并得到多帧第一子样本音频数据;
    对每帧第一子样本音频数据进行傅里叶变换,得到所述每帧第一子样本音频数据对应的幅值;
    根据所述每帧第一子样本音频数据的幅值,得到线性谱;及
    对所述线性谱进行加权求和,得到第一样本音频数据对应的第一样本音频向量序列。
  17. 根据权利要求16所述的非易失性可读存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器还执行如下步骤:
    采集多个第三样本音频数据,其中,第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据;
    将所述多个第三样本音频数据转化为多个第三样本音频向量序列,并将所述多个第三样本音频向量序列输入至待训练模型中;
    通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列,其中,第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列;
    将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列,其中,所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列;
    将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对,并得到第二损失值;
    基于多个第四样本音频向量序列,获取每个第四样本音频向量序列对应的第二分值;
    基于所述第二分值和所述第二损失值,更新所述待训练模型的模型参数;
    根据更新后的模型参数得到所述乐器音色转换模型。
  18. 一种乐器音色转换方法,其中,包括:
    采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
    通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
    将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
  19. 一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现如下步骤:
    采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
    通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
    将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
  20. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其中,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    采集多个第一目标音频数据,其中,第一目标音频数据为基于第一类型乐器演奏得到的音频数据;
    将所述多个第一目标音频数据转化为多个第一目标音频向量序列,并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中;
    通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列,其中,第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列;及
    将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
PCT/CN2022/089770 2022-03-09 2022-04-28 音色模型构建方法、音色转换方法、装置、设备及介质 WO2023168813A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210225202.0 2022-03-09
CN202210225202.0A CN114550735A (zh) 2022-03-09 2022-03-09 乐器音色转换模型构建方法以及乐器音色转换方法

Publications (1)

Publication Number Publication Date
WO2023168813A1 true WO2023168813A1 (zh) 2023-09-14

Family

ID=81664266

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/089770 WO2023168813A1 (zh) 2022-03-09 2022-04-28 音色模型构建方法、音色转换方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN114550735A (zh)
WO (1) WO2023168813A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177386A (ja) * 1997-11-04 1998-06-30 Yamaha Corp 音色データ変換方法及び装置
CN111261177A (zh) * 2020-01-19 2020-06-09 平安科技(深圳)有限公司 语音转换方法、电子装置及计算机可读存储介质
CN112037766A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音音色转换方法及相关设备
CN112164407A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音色转换方法及装置
CN112331222A (zh) * 2020-09-23 2021-02-05 北京捷通华声科技股份有限公司 一种转换歌曲音色的方法、系统、设备及存储介质
CN113782052A (zh) * 2021-11-15 2021-12-10 北京远鉴信息技术有限公司 一种音色转换方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177386A (ja) * 1997-11-04 1998-06-30 Yamaha Corp 音色データ変換方法及び装置
CN111261177A (zh) * 2020-01-19 2020-06-09 平安科技(深圳)有限公司 语音转换方法、电子装置及计算机可读存储介质
CN112037766A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音音色转换方法及相关设备
CN112164407A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音色转换方法及装置
CN112331222A (zh) * 2020-09-23 2021-02-05 北京捷通华声科技股份有限公司 一种转换歌曲音色的方法、系统、设备及存储介质
CN113782052A (zh) * 2021-11-15 2021-12-10 北京远鉴信息技术有限公司 一种音色转换方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Master's Thesis", 1 May 2021, UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA, CN, article ZHANG, HAO: "Research on Intelligent Mutimedia Information Generation of Musics and Images", pages: 1 - 78, XP009548922, DOI: 10.27005/d.cnki.gdzku.2021.003946 *
ZOU, YI ET AL.: "Non-parallel and Many-to-One Musical Timbre Morphing using DDSP-Autoencoder and Spectral Feature Interpolation", 2021 INTERNATIONAL CONFERENCE ON CULTURE-ORIENTED SCIENCE & TECHNOLOGY (ICCST), 21 November 2021 (2021-11-21), pages 144 - 148, XP034049587, DOI: 10.1109/ICCST53801.2021.00040 *

Also Published As

Publication number Publication date
CN114550735A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112966712B (zh) 语言模型训练方法、装置、电子设备和计算机可读介质
CN106157979B (zh) 一种获取人声音高数据的方法和装置
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN113723618B (zh) 一种shap的优化方法、设备及介质
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN111639766A (zh) 样本数据的生成方法以及装置
WO2021047184A1 (zh) 系统故障分析处理方法、装置、存储介质及电子设备
CN111104964B (zh) 音乐与动作的匹配方法、设备及计算机存储介质
CN110675879B (zh) 基于大数据的音频评估方法、系统、设备及存储介质
CN110232130B (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN111310918A (zh) 一种数据处理方法、装置、计算机设备及存储介质
US10628541B2 (en) Method and apparatus for selecting integrated circuit device neural network modeling sample
WO2023168813A1 (zh) 音色模型构建方法、音色转换方法、装置、设备及介质
CN116051699B (zh) 动捕数据的处理方法、装置、设备及存储介质
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
CN110442714B (zh) Poi名称规范性评估方法、装置、设备和存储介质
CN113420733A (zh) 一种高效分布式大数据数据采集实现方法及系统
CN112580885A (zh) 一种配件合格率的预测方法、装置、设备及存储介质
WO2020232899A1 (zh) 数据分析系统会诊方法及相关装置
CN113869516B (zh) 知识图谱嵌入模型训练方法、装置、电子设备及介质
CN114399355B (zh) 基于用户转化率的信息推送方法、装置和电子设备
CN114722061B (zh) 数据处理方法及装置、设备、计算机可读存储介质
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN118053049A (zh) 一种图像评价方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22930442

Country of ref document: EP

Kind code of ref document: A1