WO2021151344A1 - 歌声合成方法、装置及计算机可读存储介质 - Google Patents

歌声合成方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2021151344A1
WO2021151344A1 PCT/CN2020/131972 CN2020131972W WO2021151344A1 WO 2021151344 A1 WO2021151344 A1 WO 2021151344A1 CN 2020131972 W CN2020131972 W CN 2020131972W WO 2021151344 A1 WO2021151344 A1 WO 2021151344A1
Authority
WO
WIPO (PCT)
Prior art keywords
duration
score
matrix
test score
information
Prior art date
Application number
PCT/CN2020/131972
Other languages
English (en)
French (fr)
Inventor
刘书君
敬大彦
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021151344A1 publication Critical patent/WO2021151344A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods

Definitions

  • This application relates to the field of artificial intelligence, and in particular to a method, device, electronic device, and computer-readable storage medium for singing voice synthesis.
  • the current singing voice synthesis method requires the establishment of a huge singing voice unit database, which can only synthesize the existing singing voice units in the database, and this method requires a large amount of singing voice data.
  • a method for synthesizing singing voice includes:
  • duration model to perform duration analysis on the score unit matrix to obtain a score duration matrix
  • a preset vocoder is used to perform voice synthesis processing on the spectrum characteristic information to generate a synthesized singing voice.
  • the present application also provides a singing voice synthesis device, which includes:
  • the duration analysis module is used to obtain music score information, perform modeling extraction and coding processing on the music score information to obtain a score unit matrix; acquire a test score information set, and use the test score information set to train a pre-built first neural network model , Obtain a duration model; use the duration model to perform duration analysis on the score unit matrix to obtain a score duration matrix;
  • a spectrum information module configured to use the test score information set to train a pre-built second neural network model to obtain an acoustic model; use the acoustic model to perform spectrum feature extraction on the music score duration matrix to obtain spectrum feature information;
  • the synthetic singing voice module is used to perform voice synthesis processing on the spectrum characteristic information by using a preset vocoder to generate a synthetic singing voice.
  • This application also provides an electronic device, which includes:
  • Memory storing at least one instruction
  • the processor executes the instructions stored in the memory to implement the singing voice synthesis method as described below:
  • duration model to perform duration analysis on the score unit matrix to obtain a score duration matrix
  • a preset vocoder is used to perform voice synthesis processing on the spectrum characteristic information to generate a synthesized singing voice.
  • the present application also provides a computer-readable storage medium in which at least one instruction is stored, and the at least one instruction is executed by a processor in an electronic device to implement the singing voice synthesis method as described below:
  • duration model to perform duration analysis on the score unit matrix to obtain a score duration matrix
  • a preset vocoder is used to perform voice synthesis processing on the spectrum characteristic information to generate a synthesized singing voice.
  • FIG. 1 is a schematic flowchart of a singing voice synthesis method provided by an embodiment of the application
  • FIG. 2 is a schematic diagram of modules of a singing voice synthesis device provided by an embodiment of the application.
  • FIG. 3 is a schematic diagram of the internal structure of an electronic device for implementing a singing voice synthesis method provided by an embodiment of the application;
  • This application provides a singing voice synthesis method.
  • FIG. 1 it is a schematic flowchart of a singing voice synthesis method provided by an embodiment of this application.
  • the method can be executed by a device, and the device can be implemented by software and/or hardware.
  • the singing voice synthesis method includes:
  • the music score information includes lyric text and music attributes of the lyric text, wherein the music attribute is the lyric text music information, such as: musical note, time signature, clef, key signature, vibrato mark, Reliance marks, etc.; the lyrics text is Chinese text or foreign words.
  • the music score information can be obtained from the lyrics and music library of a certain music company.
  • modeling extraction and encoding processing are performed on the music score information.
  • modeling extraction and encoding processing includes:
  • the lyric text vectors are spliced in the order of corresponding lyric texts to obtain a score unit matrix, wherein the score unit matrix is a matrix of T*N, and T is the number of lyric texts of the lyrics in the score information.
  • the lyrics text vector is a column vector with a dimension of 400, and the lyrics text vectors are spliced in the order of the corresponding lyrics text to obtain a 400*1000 matrix, namely Is the matrix of score units.
  • the test score information set is a collection of multiple test score information
  • the test score information is score information with corresponding songs
  • the test score information set can be obtained from a music company’s lyrics and music library .
  • test score duration label vector set is used as a label set to train the first neural network model to obtain the duration model.
  • the neural network model can be constructed using a transformer model.
  • the duration model in order to analyze the pronunciation duration of the lyrics text, is used to perform duration analysis on the score matrix to obtain a lyrics duration vector, where the lyrics duration vector is a row vector of dimension T, T is the number of lyric texts of the lyrics in the music score information, each value in the lyric duration vector represents the pronunciation duration of the lyric texts in a corresponding order, and the lyric duration vector and the music score unit matrix are further longitudinally combined. Splicing to obtain the score duration matrix, wherein the score duration matrix is a matrix vector of T*(N+1).
  • the second neural network model pre-built is trained using the test score information set to obtain the acoustic model.
  • the second neural network model can be constructed using a transformer model.
  • the embodiment of the present application performs modeling extraction and encoding processing on the test score information to obtain a test score matrix, and combines the durations of the lyrics text contained in the test score information in a preset order to obtain a test score duration vector, for example, :
  • the lyrics in the test score information are "Why can't be said", the preset order is the sequence of the lyrics in the lyrics, the corresponding lyrics text "Say” is 1.1s in duration, and "No” is 1.0s in duration ,
  • the duration of " ⁇ ” is 1.3s, the duration of " ⁇ ” is 1.2s, the duration of "W” is 1.4s, and the duration of "Me” is 1.5s, then the test score duration vector is [1.1,1.0,1.3, 1.2, 1.4, 1.5]; longitudinally splicing the test score matrix and the test score duration vector to obtain a test score duration matrix.
  • the embodiment of the present application summarizes the test score duration matrix to obtain a test score duration matrix set, determines the test score duration matrix set as the second training set, and the test score information is score information with corresponding songs.
  • the acoustic characteristics of the test score information can be known, so that the spectrum feature information is marked on the test score duration matrix set to obtain a second label set, and the second neural network model is trained to obtain an acoustic model, wherein the frequency spectrum
  • the characteristic information includes three parts: fundamental frequency, spectrum envelope, and non-periodic signal parameters.
  • training the second convolutional neural network model by using the second training set and the second label set includes:
  • X Perform a convolution pooling operation on the second training set according to the preset number of convolution pooling to obtain a second dimensionality reduction data set;
  • Y Use a preset second activation function to calculate the second dimensionality reduction data set to obtain a second predicted value, and use the second predicted value and the second label value as a pre-built second loss function
  • the second loss value is calculated from the input parameters of.
  • the performing a convolution pooling operation on the second training set to obtain a second dimensionality reduction data set includes:
  • the data required for the training of the duration model may be stored in the blockchain.
  • the musical score duration matrix is input to the acoustic model to obtain spectral feature information.
  • the frequency spectrum feature information in the embodiment of the present application is a collection of the sound features of each lyrics text in the music score information obtained by analysis.
  • a preset vocoder is used to perform voice synthesis processing on the spectrum characteristic information to generate a synthesized singing voice.
  • the vocoder may be a WORLD vocoder.
  • the score information is modeled, extracted and encoded to obtain a score unit matrix, and the score information is vectorized to facilitate digital processing;
  • the test score information set is used to train the pre-built first neural network
  • the model obtains a duration model, uses the duration model to perform duration analysis on the score matrix to obtain duration information corresponding to the lyrics text in the score information; uses the test score information set to train a pre-built second neural network model to obtain an acoustic model,
  • the acoustic model is used to process the music score matrix to obtain spectral characteristic information, and the acoustic characteristic of the musical score information is obtained, and the spectral characteristic information of the preset vocoder is used to perform sound synthesis processing to generate the final singing voice.
  • the present application does not need to construct a singing voice database, thus reducing the occupation of singing voice data storage resources, and at the same time, singing voice synthesis is no longer limited to a pre-built singing voice database, which improves the flexibility of singing voice synthesis.
  • FIG. 2 it is a functional block diagram of the singing voice synthesis device of the present application.
  • the singing voice synthesis device 100 described in this application can be installed in an electronic device.
  • the singing voice synthesis device may include a duration analysis module 101, a frequency spectrum information module 102, and a synthetic singing voice module 103.
  • the module described in the present invention can also be called a unit, which refers to a series of computer program segments that can be executed by the processor of an electronic device and can complete fixed functions, and are stored in the memory of the electronic device.
  • each module/unit is as follows:
  • the duration analysis module 101 is used to obtain music score information, perform modeling, extraction and encoding processing on the music score information to obtain a score unit matrix; acquire a test score information set, and use the test score information set to train the pre-built first nerve
  • a network model is used to obtain a time length model; the time length model is used to perform a time length analysis on the score unit matrix to obtain a score time length matrix.
  • the music score information includes lyric text and music attributes of the lyric text, wherein the music attribute is the lyric text music information, such as: musical note, time signature, clef, key signature, vibrato mark, Reliance marks, etc.; the lyrics text is Chinese text or foreign words.
  • the music score information can be obtained from the lyrics and music library of a certain music company.
  • the duration analysis module 101 performs modeling extraction and encoding processing on the music score information.
  • the duration analysis module 101 uses the following methods to perform modeling extraction and encoding processing:
  • the lyric text is converted into a modeling unit, for example: "I” is converted into a consonant and vowel format "wo3".
  • the onehot encoding is used to convert the modeling unit corresponding to the lyric text and the musical attributes of the lyric text into a lyric text vector, where the lyric text vector is a column vector with a dimension of N.
  • the lyric text vectors are spliced in the order of corresponding lyric texts to obtain a score unit matrix, where the score unit matrix is a matrix of T*N, and T is the number of lyrics texts of the lyrics in the score information, for example: There are 1000 lyric texts of the lyrics in the music score information.
  • the lyric text vector is a column vector with a dimension of 400.
  • the lyric text vector is spliced in the order of the corresponding lyric text to obtain a 400*1000 matrix. Describe the matrix of score units.
  • the test score information set is a collection of multiple test score information
  • the test score information is score information with corresponding songs
  • the test score information set can be obtained from a music company’s lyrics and music library .
  • the duration analysis module 101 performs modeling extraction and encoding processing on the test score information to obtain a test score matrix, wherein the modeling extraction and encoding processing are consistent with the above method.
  • the duration analysis module 101 uses the following means to train to obtain the duration model:
  • test score matrix set is determined as a training set, and the test score duration label vector set is used as a label set to train the first neural network model to obtain the duration model.
  • the neural network model can be constructed using a transformer model.
  • the time length analysis module 101 uses the time length model to perform a time length analysis on the music score matrix to obtain a lyric time length vector, where the lyric time length vector is a dimension Is the row vector of T, and T is the number of lyrics text of the lyrics in the music score information, each value in the lyrics duration vector represents the pronunciation time length of the lyrics text in the corresponding order, and then the duration analysis module 101 will
  • the lyrics duration vector and the score unit matrix are longitudinally spliced to obtain the score duration matrix, wherein the score duration matrix is a matrix vector of T*(N+1).
  • the frequency spectrum information module 102 is used to train a pre-built second neural network model using the test score information set to obtain an acoustic model; use the acoustic model to extract frequency spectrum characteristics of the music score duration matrix to obtain frequency spectrum characteristic information.
  • the frequency spectrum information module 102 uses the test score information set to train a pre-built second neural network model to obtain an acoustic model.
  • the second neural network model can be constructed using a transformer model.
  • the spectrum information module 102 described in the embodiment of the present application performs modeling extraction and encoding processing on the test score information to obtain a test score matrix; the spectrum information module 102 calculates the duration of the lyrics text contained in the test score information Combine in a preset order to obtain the test score duration vector, for example: the lyrics in the test score information are "Why can't be said", the preset order is the sequence of the lyrics in the lyrics, and the duration of the corresponding lyrics text "Say” Is 1.1s, the duration of “no” is 1.0s, the duration of “up” is 1.3s, the duration of “being” is 1.2s, the duration of “what” is 1.4s, and the duration of “what” is 1.5s, then
  • the test score duration vector is [1.1, 1.0, 1.3, 1.2, 1.4, 1.5]; the spectrum information module 102 longitudinally splices the test score matrix and the test score duration vector to obtain a test score duration matrix.
  • the spectrum information module 102 of the embodiment of the present application summarizes the test score duration matrix to obtain a test score duration matrix set, determines the test score duration matrix set as the second training set, and the test score information has a corresponding The music score information of the song, therefore, the acoustic characteristics of the test score information can be known, so that the spectrum information module 102 marks the test score duration matrix set with spectrum feature information to obtain a second tag set, and then the spectrum information module 102 uses the second training set and the second label set to train the second neural network model to obtain the acoustic model.
  • the spectrum feature information includes three parts: fundamental frequency, spectrum envelope, and non-periodic signal parameters.
  • the frequency spectrum information module 102 uses the second training set and the second label set to train the second convolutional neural network model, including:
  • X Perform a convolution pooling operation on the second training set according to the preset number of convolution pooling to obtain a second dimensionality reduction data set;
  • Y Use a preset second activation function to calculate the second dimensionality reduction data set to obtain a second predicted value, and use the second predicted value and the second label value as a pre-built second loss function
  • the second loss value is calculated from the input parameters of.
  • the spectrum information module 102 performs a convolution pooling operation on the second training set to obtain a second dimensionality reduction data set, including:
  • the data required for the training of the duration model may be stored in the blockchain.
  • the spectrum information module 102 inputs the musical score duration matrix into the acoustic model to obtain spectrum characteristic information.
  • the synthetic singing voice module 103 is configured to use a preset vocoder to perform voice synthesis processing on the spectrum characteristic information to generate a synthetic singing voice.
  • the frequency spectrum feature information in the embodiment is a collection of the sound features of each lyrics text in the music score information obtained by analysis.
  • the synthetic singing voice module 103 uses a preset vocoder to perform voice synthesis processing on the spectrum characteristic information to generate a synthetic singing voice.
  • the vocoder may be a WORLD vocoder.
  • FIG. 3 it is a schematic diagram of the structure of an electronic device implementing the singing voice synthesis method of the present application.
  • the electronic device 1 may include a processor 10, a memory 11, and a bus, and may also include a computer program stored in the memory 11 and running on the processor 10, such as a singing voice synthesis program.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium may be volatile or nonvolatile.
  • the readable storage medium includes flash memory, mobile hard disk, multimedia card, card-type memory (for example: SD or DX memory, etc.), magnetic memory, magnetic disk, optical disk, etc.
  • the memory 11 may be an internal storage unit of the electronic device 1 in some embodiments, for example, a mobile hard disk of the electronic device 1.
  • the memory 11 may also be an external storage device of the electronic device 1, such as a plug-in mobile hard disk, a smart memory card (SmartMediaCard, SMC), and a secure digital (SecureDigital, SD) equipped on the electronic device 1. Card, flash card (FlashCard), etc.
  • the memory 11 may also include both an internal storage unit of the electronic device 1 and an external storage device.
  • the memory 11 can be used not only to store application software and various data installed in the electronic device 1, such as codes of a singing voice synthesis program, etc., but also to temporarily store data that has been output or will be output.
  • the processor 10 may be composed of integrated circuits in some embodiments, for example, may be composed of a single packaged integrated circuit, or may be composed of multiple integrated circuits with the same function or different functions, including one or more Combinations of central processing unit (CentralProcessingunit, CPU), microprocessor, digital processing chip, graphics processor and various control chips, etc.
  • the processor 10 is the control core (ControlUnit) of the electronic device, which uses various interfaces and lines to connect the various components of the entire electronic device, and runs or executes programs or modules (such as singing voice synthesis) stored in the memory 11 Programs, etc.), and call data stored in the memory 11 to execute various functions of the electronic device 1 and process data.
  • ControlUnit ControlUnit
  • the bus may be a peripheral component interconnection standard (peripheral component interconnect, PCI for short) bus or an extended industry standard architecture (EISA for short) bus, etc.
  • PCI peripheral component interconnect
  • EISA extended industry standard architecture
  • the bus can be divided into address bus, data bus, control bus and so on.
  • the bus is configured to implement connection and communication between the memory 11 and at least one processor 10 and the like.
  • FIG. 3 only shows an electronic device with components. Those skilled in the art can understand that the structure shown in FIG. 3 does not constitute a limitation on the electronic device 1, and may include fewer or more components than shown in the figure. Components, or combinations of certain components, or different component arrangements.
  • the electronic device 1 may also include a power source (such as a battery) for supplying power to various components.
  • the power source may be logically connected to the at least one processor 10 through a power management device, thereby controlling power
  • the device implements functions such as charge management, discharge management, and power consumption management.
  • the power supply may also include any components such as one or more DC or AC power supplies, recharging devices, power failure detection circuits, power converters or inverters, and power status indicators.
  • the electronic device 1 may also include various sensors, Bluetooth modules, Wi-Fi modules, etc., which will not be repeated here.
  • the electronic device 1 may also include a network interface.
  • the network interface may include a wired interface and/or a wireless interface (such as a Wi-Fi interface, a Bluetooth interface, etc.), which is usually used in the electronic device 1 Establish a communication connection with other electronic devices.
  • the electronic device 1 may also include a user interface.
  • the user interface may be a display (Display) and an input unit (such as a keyboard (Keyboard)).
  • the user interface may also be a standard wired interface or a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light-emitting diode) touch device, etc.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the electronic device 1 and to display a visualized user interface.
  • the singing voice synthesis program 12 stored in the memory 11 in the electronic device 1 is a combination of multiple instructions. When running in the processor 10, it can realize:
  • duration model to perform duration analysis on the score unit matrix to obtain a score duration matrix
  • a preset vocoder is used to perform voice synthesis processing on the spectrum characteristic information to generate a synthesized singing voice.
  • the integrated module/unit of the electronic device 1 is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a computer readable storage medium.
  • the computer-readable storage medium may be volatile or non-volatile.
  • the computer-readable storage medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read -OnlyMemory).
  • modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the modules can be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • the functional modules in the various embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit may be implemented in the form of hardware, or may be implemented in the form of hardware plus software functional modules.

Abstract

一种歌声合成方法、一种歌声合成装置(100)、电子设备(1)以及一种计算机可读存储介质,方法包括:对乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵(S1);训练预构建的第一神经网络模型,得到时长模型(S2);利用时长模型对乐谱单元矩阵进行时长分析,得到乐谱时长矩阵(S3);训练预构建的第二神经网络模型,得到声学模型(S4);利用声学模型对乐谱时长矩阵进行频谱特征提取,得到频谱特征信息(S5);对频谱特征信息进行声音合成处理,生成合成歌声(S6)。还涉及区块链技术,模型训练所需的数据可存储在区块链中,能够降低歌声数据存储资源的占用,提升歌声合成的灵活性。

Description

歌声合成方法、装置及计算机可读存储介质
本申请要求于2020年07月23日提交中国专利局、申请号为202010719140.X,发明名称为“歌声合成方法、装置及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能领域,尤其涉及一种歌声合成的方法、装置、电子设备及计算机可读存储介质。
背景技术
发明人意识到,随着人们生活水平的不断提高,对音乐的需求也日趋高涨,但传统的音乐需要人工将乐谱的信息转换成歌声,效率较低,因此歌声合成技术应运而生,歌声合成技术是一门将乐谱转换为歌声的技术,达到机器替代人唱歌的目的。由于相比人唱歌,机器不会疲惫并且能够精准演唱,因此该技术被广泛应用于泛娱乐、教育、游戏和相关智能领域。
但目前的歌声合成方法需要建立庞大的歌声发音单元数据库,只能合成该数据库已有的歌声发音单元,并且该方法需要大量的歌声数据。
技术解决方案
本申请提供的一种歌声合成方法,包括:
获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
本申请还提供一种歌声合成装置,所述装置包括:
时长分析模块,用于获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
频谱信息模块,用于利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
合成歌声模块,用于利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
本申请还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如下所述的歌声合成方法:
获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如下所述的歌声合成方法:
获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
附图说明
图1为本申请一实施例提供的歌声合成方法的流程示意图;
图2为本申请一实施例提供的歌声合成装置的模块示意图;
图3为本申请一实施例提供的实现歌声合成方法的电子设备的内部结构示意图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种歌声合成方法。参照图1所示,为本申请一实施例提供的歌声合成方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,歌声合成方法包括:
S1、获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理得到乐谱单元矩阵。
本申请实施例中,所述乐谱信息包括歌词文字和歌词文字的音乐属性,其中,所述音乐属性为所述歌词文字音乐信息,例如:音符、拍号、谱号、调号、颤音标记、倚音标记等;所述歌词文字为中文文字或外文单词。所述乐谱信息可以从某音乐公司的词曲库中获取。
进一步地,本申请实施例为了便于对乐谱信息进行数字化处理,对所述乐谱信息进行建模抽取及编码处理。
详细地,所述建模抽取及编码处理包括:
S11、将所述歌词文字转换为建模单元,例如:将“我”转换为声韵母格式“wo3”。
S12、利用onehot编码将所述歌词文字对应的建模单元及所述歌词文字的音乐属性转换为歌词文字向量,其中,所述歌词文字向量为维度为N的列向量。
S13、将所述歌词文字向量按照对应歌词文字的顺序进行拼接,得到乐谱单元矩阵,其中,所述乐谱单元矩阵为T*N的矩阵,T为所述乐谱信息中歌词的歌词文字的数目,例如:所述乐谱信息中歌词的歌词文字共有1000个,所述歌词文字向量为维度为400的列向量,将所述歌词文字向量按照对应歌词文字的顺序进行拼接,得到400*1000的矩阵即为所述乐谱单元矩阵。
S2、获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型得到时长模型;
本申请实施例,所述测试乐谱信息集为多个测试乐谱信息的集合,所述测试乐谱信息为具有对应歌曲的乐谱信息,所述测试乐谱信息集可以从某音乐公司的词曲库中进行获取。
进一步地,对所述测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵,其中,所述建模抽取及编码处理与上述方法一致,对所述测试乐谱矩阵的每一列进行时长标记得到测试乐谱时长标记向量,汇总所述测试乐谱矩阵得到测试乐谱矩阵集合,汇总所述测试乐谱时长标记向量,得到所述测试乐谱时长标记向量集合,将所述测试乐谱矩阵集合作为训练集及将所述测试乐谱时长标记向量集合作为标签集对所述第一神经网络模型进行训练得到所述时长模型。
较佳地,所述神经网络模型可利用transformer模型进行构建。
S3、利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
本申请实施例中,为了分析所述歌词文字的发音时长,利用所述时长模型对所述乐谱矩阵进行时长分析,得到歌词时长向量,其中,所述歌词时长向量为维度为T的行向量,T为所述乐谱信息中歌词的歌词文字的数目,所述歌词时长向量中的每一个值表示对应顺序的所述歌词文字的发音时长,进而将所述歌词时长向量与所述乐谱单元矩阵纵向拼接,得到所述乐谱时长矩阵,其中,所述乐谱时长矩阵为T*(N+1)的矩阵向量。
S4、利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型;
本申请实施例中,为了分析所述歌词中歌词文字对应的声音特征,利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型。
较佳地,所述第二神经网络模型可利用transformer模型进行构建。
进一步地,本申请实施例对所述测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵,将所述测试乐谱信息包含的歌词文字的时长按预设顺序组合得到测试乐谱时长向量,例如:所述测试乐谱信息中的歌词为“说不上为什么”,所述预设顺序为歌词中歌词文字的先后顺序,对应的歌词文字“说”的时长为1.1s,“不”的时长为1.0s,“上”的时长为1.3s,“为”的时长为1.2s,“什”的时长为1.4s,“么”的时长为1.5s,那么测试乐谱时长向量为[1.1,1.0,1.3,1.2,1.4,1.5];将所述测试乐谱矩阵与所述测试乐谱时长向量纵向拼接得到测试乐谱时长矩阵。
详细地,本申请实施例汇总所述测试乐谱时长矩阵得到测试乐谱时长矩阵集,将所述测试乐谱时长矩阵集确定为第二训练集,所述测试乐谱信息为具有对应歌曲的乐谱信息,因此可以得知所述测试乐谱信息的声学特征,从而对所述测试乐谱时长矩阵集进行频谱特征信息标记得到第二标签集对所述第二神经网络模型进行训练得到声学模型,其中,所述频谱特征信息包括:基频、频谱包络、非周期信号参数三部分。
可选地,利用所述第二训练集及所述第二标签集训练所述第二卷积神经网络模型,包括:
X:根据预设的卷积池化次数,对所述第二训练集进行卷积池化操作,得到第二降维数据集;
Y:利用预设的第二激活函数对所述第二降维数据集进行计算,得到第二预测值,将所述第二预测值和所述第二标签值作为预构建的第二损失函数的输入参数计算得到第二损失值。
Z:对比所述第二损失值与预设的第二损失阈值的大小,若所述第二损失值大于或等于所述第二损失阈值,返回X;若所述第二损失值小于所述第二损失阈值,得到所述声学模型。
可选地,所述对所述第二训练集进行卷积池化操作,得到第二降维数据集,包括:
对所述第二训练集进行卷积运算得到卷积数据集;
对所述卷积数据集进行平均池化操作得到所述第二降维数据集。
本申请的另一个实施例中,所述时长模型训练所需的数据可以存储在区块链中。
S5、利用所述声学模型对所述乐谱矩阵进行频谱特征提取,得到频谱特征信息;
本申请实施例中,将所述乐谱时长矩阵输入至所述声学模型得到频谱特征信息。
S6、利用预设的声码器对所述频谱特征信息进行声音合成处理,生成最终的歌声。
本申请实施例中所述频谱特征信息为分析得到的所述乐谱信息中每个歌词文字的声音特征的集合。
进一步地,利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
较佳地,所述声码器可以为WORLD声码器。
本申请实施例中,对所述乐谱信息进行建模抽取及编码处理得到乐谱单元矩阵,将所述乐谱信息进行向量化便于数字化处理;利用所述测试乐谱信息集训练预构建的第一神经网络模型得到时长模型,利用所述时长模型对所述乐谱矩阵进行时长分析,得到乐谱信息中歌词文字对应的时长信息;利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型,利用所述声学模型对所述乐谱矩阵进行处理得到频谱特征信息,得到乐谱信息的声学特征,利用预设的声码器所述频谱特征信息进行声音合成处理,生成最终的歌声。本申请不需要构建歌声数据库,因此降低了歌声数据存储资源的占用,同时,歌声合成也不再局限于预构建的歌声数据库,提升了歌声合成的灵活性。
如图2所示,是本申请歌声合成装置的功能模块图。
本申请所述歌声合成装置100可以安装于电子设备中。根据实现的功能,所述歌声合成装置可以包括时长分析模块101、频谱信息模块102、合成歌声模块103。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述时长分析模块101用于获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵。
本申请实施例中,所述乐谱信息包括歌词文字和歌词文字的音乐属性,其中,所述音乐属性为所述歌词文字音乐信息,例如:音符、拍号、谱号、调号、颤音标记、倚音标记等;所述歌词文字为中文文字或外文单词。所述乐谱信息可以从某音乐公司的词曲库中获取。
进一步地,本申请实施例为了便于对乐谱信息进行数字化处理,所述时长分析模块101对所述乐谱信息进行建模抽取及编码处理。
详细地,所述时长分析模块101利用下述手段进行建模抽取及编码处理:
将所述歌词文字转换为建模单元,例如:将“我”转换为声韵母格式“wo3”。
利用onehot编码将所述歌词文字对应的建模单元及所述歌词文字的音乐属性转换为歌词文字向量,其中,所述歌词文字向量为维度为N的列向量。
将所述歌词文字向量按照对应歌词文字的顺序进行拼接,得到乐谱单元矩阵,其中,所述乐谱单元矩阵为T*N的矩阵,T为所述乐谱信息中歌词的歌词文字的数目,例如:所述乐谱信息中歌词的歌词文字共有1000个,所述歌词文字向量为维度为400的列向量,将所述歌词文字向量按照对应歌词文字的顺序进行拼接,得到400*1000的矩阵即为所述乐谱单元矩阵。
本申请实施例,所述测试乐谱信息集为多个测试乐谱信息的集合,所述测试乐谱信息为具有对应歌曲的乐谱信息,所述测试乐谱信息集可以从某音乐公司的词曲库中进行获取。
进一步地,所述时长分析模块101对所述测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵,其中,所述建模抽取及编码处理与上述方法一致。
详细地,所述时长分析模块101利用下述手段训练得到所述时长模型:
对所述测试乐谱矩阵的每一列进行时长标记得到测试乐谱时长标记向量;
汇总所述测试乐谱矩阵得到测试乐谱矩阵集合;
汇总所述测试乐谱时长标记向量,得到所述测试乐谱时长标记向量集合;
将所述测试乐谱矩阵集合确定为训练集及将所述测试乐谱时长标记向量集合作为标签集对所述第一神经网络模型进行训练得到所述时长模型。
较佳地,所述神经网络模型可利用transformer模型进行构建。
本申请实施例中,为了分析所述歌词文字的发音时长,所述时长分析模块101利用所述时长模型对所述乐谱矩阵进行时长分析,得到歌词时长向量,其中,所述歌词时长向量为维度为T的行向量,T为所述乐谱信息中歌词的歌词文字的数目,所述歌词时长向量中的每一个值表示对应顺序的所述歌词文字的发音时长,进而所述时长分析模块101将所述歌词时长向量与所述乐谱单元矩阵纵向拼接得到所述乐谱时长矩阵,其中,所述乐谱时长矩阵为T*(N+1)的矩阵向量。
所述频谱信息模块102用于利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息。
本申请实施例中,为了分析所述歌词中歌词文字对应的声音特征,所述频谱信息模块102利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型。
较佳地,所述第二神经网络模型可利用transformer模型进行构建。
进一步地,本申请实施例所述频谱信息模块102对所述测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵;所述频谱信息模块102将所述测试乐谱信息包含的歌词文字的时长按预设顺序组合得到测试乐谱时长向量,例如:所述测试乐谱信息中的歌词为“说不上为什么”,所述预设顺序为歌词中歌词文字的先后顺序,对应的歌词文字“说”的时长为1.1s,“不”的时长为1.0s,“上”的时长为1.3s,“为”的时长为1.2s,“什”的时长为1.4s,“么”的时长为1.5s,那么测试乐谱时长向量为[1.1,1.0,1.3,1.2,1.4,1.5];所述频谱信息模块102将所述测试乐谱矩阵与所述测试乐谱时长向量纵向拼接得到测试乐谱时长矩阵。
详细地,本申请实施例所述频谱信息模块102汇总所述测试乐谱时长矩阵得到测试乐谱时长矩阵集,将所述测试乐谱时长矩阵集确定为第二训练集,所述测试乐谱信息为具有对应歌曲的乐谱信息,因此可以得知所述测试乐谱信息的声学特征,从而所述频谱信息模块102对所述测试乐谱时长矩阵集进行频谱特征信息标记得到第二标签集,进而所述频谱信息模块102利用所述第二训练集及所述第二标签集对所述第二神经网络模型进行训练,得到所述声学模型。其中,所述频谱特征信息包括:基频、频谱包络、非周期信号参数三部分。
可选地,所述频谱信息模块102利用所述第二训练集及所述第二标签集训练所述第二卷积神经网络模型,包括:
X:根据预设的卷积池化次数,对所述第二训练集进行卷积池化操作,得到第二降维数据集;
Y:利用预设的第二激活函数对所述第二降维数据集进行计算,得到第二预测值,将所述第二预测值和所述第二标签值作为预构建的第二损失函数的输入参数计算得到第二损失值。
Z:对比所述第二损失值与预设的第二损失阈值的大小,若所述第二损失值大于或等于所述第二损失阈值,返回X;若所述第二损失值小于所述第二损失阈值,得到所述声学模型。
可选地,所述频谱信息模块102对所述第二训练集进行卷积池化操作,得到第二降维数据集,包括:
对所述第二训练集进行卷积运算得到卷积数据集;
对所述卷积数据集进行平均池化操作得到所述第二降维数据集。
本申请的另一个实施例中,所述时长模型训练所需的数据可以存储在区块链中。
本申请实施例中,所述频谱信息模块102将所述乐谱时长矩阵输入至所述声学模型得到频谱特征信息。
所述合成歌声模块103用于利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
本申请是实施例中所述频谱特征信息为分析得到的所述乐谱信息中每个歌词文字的声音特征的集合。
进一步地,所述合成歌声模块103利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
较佳地,所述声码器可以为WORLD声码器。
如图3所示,是本申请实现歌声合成方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如歌声合成程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质可以是易失性的,也可以是非易失性的。具体的,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(SmartMediaCard, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(FlashCard)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如歌声合成程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如歌声合成程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-EmittingDiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的歌声合成程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。具体的,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种歌声合成方法,其中,所述方法包括:
    获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
    获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
    利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
    利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
    利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
    利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
  2. 如权利要求1所述的歌声合成方法,其中,所述乐谱信息包括歌词文字和歌词文字的音乐属性。
  3. 如权利要求1所述的歌声合成方法,其中,所述获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理得到乐谱单元矩阵,包括:
    将所述歌词文字转换为建模单元;
    利用onehot编码将所述建模单元及所述歌词文字的音乐属性转换为歌词文字向量;
    将所述歌词文字向量按照对应歌词文字的顺序进行横向拼接,得到所述乐谱单元矩阵。
  4. 如权利要求1所述的歌声合成方法,其中,所述获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型得到时长模型,包括:
    对所述测试乐谱信息集中的每个测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵;
    汇总所述测试乐谱矩阵,得到测试乐谱矩阵集合;
    对所述测试乐谱矩阵的每一列进行时长标记,得到测试乐谱时长标记向量;
    汇总所述测试乐谱时长标记向量,得到测试乐谱时长标记向量集合;
    将所述测试乐谱矩阵集合作为训练集及将所述测试乐谱时长标记向量集合作为标签集对所述第一神经网络模型进行训练,得到所述时长模型。
  5. 如权利要求1所述的歌声合成方法,其中,所述利用所述时长模型对所述乐谱矩阵进行时长分析,得到乐谱时长矩阵,包括:
    利用所述时长模型对所述乐谱矩阵进行时长分析,得到歌词时长向量;
    将所述歌词时长向量与所述乐谱单元矩阵纵向拼接得到所述乐谱时长矩阵。
  6. 如权利要求4所述的歌声合成方法,其中,所述利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型,包括:
    将所述测试乐谱信息包含的歌词文字的时长按预设顺序组合得到测试乐谱时长向量;
    将所述测试乐谱矩阵与所述测试乐谱时长向量纵向拼接得到测试乐谱时长矩阵;
    汇总所述测试乐谱时长矩阵得到测试乐谱时长矩阵集;
    将所述测试乐谱时长矩阵集确定为第二训练集;
    对所述测试乐谱时长矩阵集进行频谱特征信息标记,得到第二标签集;
    利用所述第二训练集及所述第二标签集对所述第二神经网络模型进行训练,得到所述声学模型。
  7. 一种歌声合成装置,其中,所述装置包括:
    时长分析模块,用于获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
    频谱信息模块,用于利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
    合成歌声模块,用于利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
  8. 如权利要求7所述的歌声合成装置,其中,所述时长分析模块利用如下手段得到乐谱单元矩阵,包括:
    将所述歌词文字转换为建模单元;
    利用onehot编码将所述建模单元及所述歌词文字的音乐属性转换为歌词文字向量;
    将所述歌词文字向量按照对应歌词文字的顺序进行横向拼接,得到所述乐谱单元矩阵。
  9. 一种电子设备,其中,所述电子设备包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下所述的歌声合成方法:
    获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
    获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
    利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
    利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
    利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
    利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
  10. 如权利要求9所述的电子设备,其中,所述乐谱信息包括歌词文字和歌词文字的音乐属性。
  11. 如权利要求9所述的电子设备,其中,所述获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理得到乐谱单元矩阵,包括:
    将所述歌词文字转换为建模单元;
    利用onehot编码将所述建模单元及所述歌词文字的音乐属性转换为歌词文字向量;
    将所述歌词文字向量按照对应歌词文字的顺序进行横向拼接,得到所述乐谱单元矩阵。
  12. 如权利要求9所述的电子设备,其中,所述获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型得到时长模型,包括:
    对所述测试乐谱信息集中的每个测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵;
    汇总所述测试乐谱矩阵,得到测试乐谱矩阵集合;
    对所述测试乐谱矩阵的每一列进行时长标记,得到测试乐谱时长标记向量;
    汇总所述测试乐谱时长标记向量,得到测试乐谱时长标记向量集合;
    将所述测试乐谱矩阵集合作为训练集及将所述测试乐谱时长标记向量集合作为标签集对所述第一神经网络模型进行训练,得到所述时长模型。
  13. 如权利要求9所述的电子设备,其中,所述利用所述时长模型对所述乐谱矩阵进行时长分析,得到乐谱时长矩阵,包括:
    利用所述时长模型对所述乐谱矩阵进行时长分析,得到歌词时长向量;
    将所述歌词时长向量与所述乐谱单元矩阵纵向拼接得到所述乐谱时长矩阵。
  14. 如权利要求12所述的电子设备,其中,所述利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型,包括:
    将所述测试乐谱信息包含的歌词文字的时长按预设顺序组合得到测试乐谱时长向量;
    将所述测试乐谱矩阵与所述测试乐谱时长向量纵向拼接得到测试乐谱时长矩阵;
    汇总所述测试乐谱时长矩阵得到测试乐谱时长矩阵集;
    将所述测试乐谱时长矩阵集确定为第二训练集;
    对所述测试乐谱时长矩阵集进行频谱特征信息标记,得到第二标签集;
    利用所述第二训练集及所述第二标签集对所述第二神经网络模型进行训练,得到所述声学模型。
  15. 一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被处理器执行时实现如下所述的歌声合成方法:
    获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理,得到乐谱单元矩阵;
    获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型,得到时长模型;
    利用所述时长模型对所述乐谱单元矩阵进行时长分析,得到乐谱时长矩阵;
    利用所述测试乐谱信息集训练预构建的第二神经网络模型,得到声学模型;
    利用所述声学模型对所述乐谱时长矩阵进行频谱特征提取,得到频谱特征信息;
    利用预设的声码器对所述频谱特征信息进行声音合成处理,生成合成歌声。
  16. 如权利要求15所述的计算机可读存储介质,其中,所述乐谱信息包括歌词文字和歌词文字的音乐属性。
  17. 如权利要求15所述的计算机可读存储介质,其中,所述获取乐谱信息,对所述乐谱信息进行建模抽取及编码处理得到乐谱单元矩阵,包括:
    将所述歌词文字转换为建模单元;
    利用onehot编码将所述建模单元及所述歌词文字的音乐属性转换为歌词文字向量;
    将所述歌词文字向量按照对应歌词文字的顺序进行横向拼接,得到所述乐谱单元矩阵。
  18. 如权利要求15所述的计算机可读存储介质,其中,所述获取测试乐谱信息集,利用所述测试乐谱信息集训练预构建的第一神经网络模型得到时长模型,包括:
    对所述测试乐谱信息集中的每个测试乐谱信息进行建模抽取及编码处理,得到测试乐谱矩阵;
    汇总所述测试乐谱矩阵,得到测试乐谱矩阵集合;
    对所述测试乐谱矩阵的每一列进行时长标记,得到测试乐谱时长标记向量;
    汇总所述测试乐谱时长标记向量,得到测试乐谱时长标记向量集合;
    将所述测试乐谱矩阵集合作为训练集及将所述测试乐谱时长标记向量集合作为标签集对所述第一神经网络模型进行训练,得到所述时长模型。
  19. 如权利要求15所述的计算机可读存储介质,其中,所述利用所述时长模型对所述乐谱矩阵进行时长分析,得到乐谱时长矩阵,包括:
    利用所述时长模型对所述乐谱矩阵进行时长分析,得到歌词时长向量;
    将所述歌词时长向量与所述乐谱单元矩阵纵向拼接得到所述乐谱时长矩阵。
  20. 如权利要求18所述的计算机可读存储介质,其中,所述利用所述测试乐谱信息集训练预构建的第二神经网络模型得到声学模型,包括:
    将所述测试乐谱信息包含的歌词文字的时长按预设顺序组合得到测试乐谱时长向量;
    将所述测试乐谱矩阵与所述测试乐谱时长向量纵向拼接得到测试乐谱时长矩阵;
    汇总所述测试乐谱时长矩阵得到测试乐谱时长矩阵集;
    将所述测试乐谱时长矩阵集确定为第二训练集;
    对所述测试乐谱时长矩阵集进行频谱特征信息标记,得到第二标签集;
    利用所述第二训练集及所述第二标签集对所述第二神经网络模型进行训练,得到所述声学模型。
PCT/CN2020/131972 2020-07-23 2020-11-26 歌声合成方法、装置及计算机可读存储介质 WO2021151344A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010719140.XA CN111862937A (zh) 2020-07-23 2020-07-23 歌声合成方法、装置及计算机可读存储介质
CN202010719140.X 2020-07-23

Publications (1)

Publication Number Publication Date
WO2021151344A1 true WO2021151344A1 (zh) 2021-08-05

Family

ID=72949876

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/131972 WO2021151344A1 (zh) 2020-07-23 2020-11-26 歌声合成方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111862937A (zh)
WO (1) WO2021151344A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537177A (zh) * 2021-09-16 2021-10-22 南京信息工程大学 一种基于视觉Transformer的洪涝灾害监测与灾情分析方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862937A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 歌声合成方法、装置及计算机可读存储介质
CN112542155B (zh) * 2020-11-27 2021-09-21 北京百度网讯科技有限公司 歌曲合成方法及模型训练方法、装置、设备与存储介质
CN112885315B (zh) * 2020-12-24 2024-01-02 携程旅游信息技术(上海)有限公司 模型的生成方法、音乐合成的方法、系统、设备及介质
CN113781993A (zh) * 2021-01-20 2021-12-10 北京沃东天骏信息技术有限公司 定制音色歌声的合成方法、装置、电子设备和存储介质
CN112906872B (zh) * 2021-03-26 2023-08-15 平安科技(深圳)有限公司 乐谱转化为声谱的生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120097013A1 (en) * 2010-10-21 2012-04-26 Seoul National University Industry Foundation Method and apparatus for generating singing voice
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN109326280A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种歌唱合成方法及装置、电子设备
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
CN110570876A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备和存储介质
CN111862937A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 歌声合成方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120097013A1 (en) * 2010-10-21 2012-04-26 Seoul National University Industry Foundation Method and apparatus for generating singing voice
CN106373580A (zh) * 2016-09-05 2017-02-01 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN109326280A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种歌唱合成方法及装置、电子设备
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
CN110570876A (zh) * 2019-07-30 2019-12-13 平安科技(深圳)有限公司 歌声合成方法、装置、计算机设备和存储介质
CN111862937A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 歌声合成方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537177A (zh) * 2021-09-16 2021-10-22 南京信息工程大学 一种基于视觉Transformer的洪涝灾害监测与灾情分析方法

Also Published As

Publication number Publication date
CN111862937A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
WO2021151344A1 (zh) 歌声合成方法、装置及计算机可读存储介质
WO2021189984A1 (zh) 语音合成方法、装置、设备及计算机可读存储介质
US10891928B2 (en) Automatic song generation
CN103902642B (zh) 利用歌词与旋律之间的相关性的音乐作曲系统
WO2022121176A1 (zh) 语音合成方法、装置、电子设备及可读存储介质
WO2022116420A1 (zh) 语音事件检测方法、装置、电子设备及计算机存储介质
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
WO2022121158A1 (zh) 语音合成方法、装置、电子设备及存储介质
WO2022142105A1 (zh) 文本转语音方法、装置、电子设备及存储介质
CN109829482A (zh) 歌曲训练数据处理方法、装置及计算机可读存储介质
WO2022121157A1 (zh) 语音合成方法、装置、电子设备及存储介质
CN113420556B (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN109858009A (zh) 根据文本产生控制指令的装置、方法及其电脑存储介质
CN108257588A (zh) 一种谱曲方法及装置
CN112035699A (zh) 音乐合成方法、装置、设备和计算机可读介质
CN114863945A (zh) 基于文本的语音变声方法、装置、电子设备及存储介质
CN113205814B (zh) 语音数据标注方法、装置、电子设备及存储介质
TWI574254B (zh) 用於電子系統的語音合成方法及裝置
US20190189100A1 (en) Method and apparatus for analyzing characteristics of music information
WO2022143679A1 (zh) 谱面分析和标注方法、装置及电子设备
CN112735379B (zh) 语音合成方法、装置、电子设备和可读存储介质
CN112669796A (zh) 基于人工智能的音乐转乐谱的方法及装置
CN112989109A (zh) 一种音乐结构分析方法、电子设备及存储介质
TW200926085A (en) Intelligent conversion method with system for Chinese and the international phonetic alphabet (IPA)
CN113223486B (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20916566

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20916566

Country of ref document: EP

Kind code of ref document: A1