WO2020082573A1

WO2020082573A1 - 基于长短时神经网络的多声部音乐生成方法及装置

Info

Publication number: WO2020082573A1
Application number: PCT/CN2018/123549
Authority: WO
Inventors: 刘奡智; 王义文; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-10-26
Filing date: 2018-12-25
Publication date: 2020-04-30
Also published as: CN109346045A; CN109346045B

Abstract

基于长短时神经网络的多声部音乐生成方法及装置，该方法包括：构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络（S101）；通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布（S102）；获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列（S103）；向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐（S104）。

Description

基于长短时神经网络的多声部音乐生成方法及装置

本申请要求于2018年10月26日提交中国专利局、申请号为201811257165.1、申请名称为“基于长短时神经网络的多声部音乐生成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于长短时神经网络的多声部音乐生成方法及装置。

背景技术

音乐通常由多个音轨组成，并具有各自的时间动态，音乐会随着时间的推移而相互依存地展开。自然语言生成和单音音乐生成的成功不容易普及到多音轨的音乐。现有的音乐生成方法通常是单旋律音乐，因为多个旋律之间的复杂的相互影响，很难生成多旋律的音乐。

因此，如何生成多个声部之间协调的音乐成为目前亟待解决的问题。

申请内容

有鉴于此，本申请实施例提供了一种基于长短时神经网络的多声部音乐生成方法及装置，用以解决现有技术中难以生成多个声部之间协调的音乐的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于长短时神经网络的多声部音乐生成方法，所述方法包括：构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

为了实现上述目的，根据本申请的一个方面，提供了一种基于长短时神经网络的多声部音乐生成装置，所述装置包括：构建单元，用于构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；第一获取单元，用于通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；第二获取单元，用于获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；生成单元，用于向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。

为了实现上述目的，根据本申请的一个方面，提供了一种计算机非易失性存储介质，所述存储介质包括存储的程序，在所述程序运行时控制所述存储介质所在设备执行上述的基于长短时神经网络的多声部音乐生成方法的步骤。

为了实现上述目的，根据本申请的一个方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于长短时神经网络的多声部音乐生成方法的步骤。

在本方案中，通过构建包括长短时神经网络的音乐生成模型，利用长短时神经网络直接对音符序列进行处理，同时能够利用序列时间前后之间的相关性，得到音符概率密度分布；从而调整多个声部的音符序列，生成多声部之间协调的音乐，从而解决现有技术中难以生成多个声部之间协调的音乐的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本申请实施例的一种基于长短时神经网络的多声部音乐生成方法的流程图；

图2是根据本申请实施例的一种音乐生成模型的示意图；

图3是根据本申请实施例的一种基于长短时神经网络的多声部音乐生成装置的示意图；

图4是根据本申请实施例的一种计算机设备的示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1是根据本申请实施例的一种基于长短时神经网络的多声部音乐生成方法的流程图，如图1所示，该方法包括：

步骤S101，构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

步骤S102，通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；

步骤S103，获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

步骤S104，向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，在通过包括多个声部的音乐样本数据训练音乐生成模型之前，方法还包括：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：

t∈[T]，T为音乐训练样本的时长，是十六分音符的整数倍；i为声部；

为当前时刻t的音符；将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可以理解地，每首曲子包括多个声部的音符序列、这个曲子的节奏序列及延音序列。将每首曲子随时间序列化处理，有利于长短时神经网络学习音符之间随时间尺度的依赖关系。

例如，收集389首众赞歌的midi数据，其中，每首曲子包含四个声部：女高音、女低音、男高音和男低音。相对音高较低的女低音、男高音和男低音给音高最高的女高音作伴奏。将其中80％的midi数据用于音乐训练样本，其中20％的midi数据用于音乐评估样本。

可选地，获取多个音乐训练样本之后，方法还包括：剔除在一个声部内，有两个及以上的音符同时出现的曲子。

可选地，音符序列中用音符代码来表示音符，例如“C4，E5，C5”，音符序列中用“-”来表示音符的持续。延音序列M中，用“0”表示该处没有延音记号，用“1”则表示该处有延音记号。节奏序列S中，用“1，2，3，4”中的任意一个值来表示音符在这一拍中的位置。

可选地，通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布，包括：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：

其中，

为当前时刻t的音符，

为音符序列中除去当前音符剩下的所有音符；

为节奏序列及延音序列；θ _i为依赖网络的参数；训练音乐生成模型使以下公式的值最大化：

获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

长短时神经网络为循环神经网络，能够利用其内部的记忆来处理任意时序的输入序列。初始地，可以直接初始化音乐生成模型的各个网络参数，例如，随机生成并采集大数量的音乐样本数据，以对音乐生成模型进行训练。其后，可以通过随机梯度下降算法，使得其中的长短时神经网络的网络参数随之更新，如：层与层之间的连接权值和神经元偏置等，以达到音乐生成模型的音乐生成效果不断逼近最优的效果。

在训练期间，系统对长短时神经网络的参数值赋予约束条件，从而使其继续满足对神经网路的参数的要求。从而通过多次迭代，调节长短时神经网络的参数的值来对目标函数进行优化。

图2是根据本申请实施例的一种音乐生成模型的示意图，如图2所示，训练过程中，向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的16个时间节点的第一音符序列，第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的16个时间节点的第二音符序列。

具体地，每个声部的音符序列先通过嵌入层进行向量转换后输出至第一长短时神经网络或第二长短时神经网络；第一长短时神经网络输出的第一参数、第二长短时神经网络输出的第二参数及单隐藏层神经网络输出的当前时刻音符通过融合层进行融合后输入依赖网络中。

可选地，向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐，包括：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

可选地，用户输入的预设音乐时长与预设节奏序列及预设延音序列的序列时长相同，例如为40个十六音符的时长。

本申请实施例提供了一种基于长短时神经网络的多声部音乐生成装置，该装置用于执行上述基于长短时神经网络的多声部音乐生成方法，如图3所示，该装置包括：构建单元10、第一获取单元20、第二获取单元30、生成单元40。

构建单元10，用于构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

第一获取单元20，用于通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；

第二获取单元30，用于获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

生成单元40，用于向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，装置还包括：第三获取单元、提取单元、处理单元。

第三获取单元，用于获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取单元，用于提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：

为当前时刻t的音符；处理单元，用于将多个声部的音符序列、音乐训练样本的节奏序列及延音序列作为音乐样本数据。

可以理解地，每首曲子包括多个声部的音符序列、这个曲子的节奏序列及延音序列。将每首曲子随时间序列处理，有利于长短时神经网络学习音符之间随时间尺度的依赖关系。

可选地，第一获取单元20，包括输入子单元、第一获取子单元、训练子单元、第二获取子单元。

输入子单元，用于向音乐生成模型中输入音乐样本数据；第一获取子单元，用于获取音乐生成模型输出的每个声部的音符概率密度函数：

其中，

为当前时刻t的音符，

为音符序列中除去当前音符剩下的所有音符；

为节奏序列及延音序列；θ _i为依赖网络的参数；训练子单元，用于训练音乐生成模型使以下公式的值最大化：

第二获取子单元，用于获取当公式的值最大时音乐生成模型的网络参数及多个声部的音符概率密度分布。

可选地，音乐生成模型如图2所示，训练过程中，向音乐生成模型中输入音乐样本数据之后，音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

具体地，生成新音乐过程中，生成单元40包括输入子单元，用于向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

本申请实施例提供了一种计算机非易失性存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：

构建音乐生成模型，音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；通过包括多个声部的音乐样本数据训练音乐生成模型，得到训练好的音乐生成模型的网络参数及多个声部的音符概率密度分布；获取用户输入的用于预生成多声部音乐的特征参数，特征参数包括预设音乐时长、预设节奏序列及预设延音序列；向训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使音乐生成模型根据音符随机序列、网络参数及多个声部的音符概率密度分布生成匹配特征参数的多声部音乐。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：

其中，

为当前时刻t的音符，

为音符序列中除去当前音符剩下的所有音符；

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

如图4所示，本申请实施例提供了一种计算机设备100，包括存储器102、处理器101以及存储在所述存储器102中并可在所述处理器101上运行的计算机程序103，处理器执行计算机程序时实现以下步骤：

可选地，处理器执行计算机程序时还实现以下步骤：获取多个音乐训练样本，其中，音乐训练样本包括多个声部信息；提取每个声部的音符序列、音乐训练样本的节奏序列及延音序列；其中，每个声部的音符序列表示为：

可选地，处理器执行计算机程序时还实现以下步骤：向音乐生成模型中输入音乐样本数据；获取音乐生成模型输出的每个声部的音符概率密度函数：

其中，

为当前时刻t的音符，

为音符序列中除去当前音符剩下的所有音符；

可选地，处理器执行计算机程序时还实现以下步骤：音乐生成模型的第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据第一音符序列输出第一参数至依赖网络；第二长短时神经网络接收每个声部的音符序列中当前时刻音符后的预设时长的第二音符序列，并根据第二音符序列输出第二参数至依赖网络；单隐藏层神经网络接收每个声部的音符序列中当前时刻音符并传递至依赖网络；依赖网络根据第一参数、第二参数及当前时刻音符输出每个声部的音符概率密度函数。

可选地，处理器执行计算机程序时还实现以下步骤：向训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；音乐生成模型基于第i声部的音符随机序列、网络参数、特征参数及第i声部的音符概率密度分布生成第i声部的多个音符，i依次取一、二、三、四；根据第i声部的多个音符生成第i声部的音符新序列；将第一声部的音符新序列、第二声部的音符新序列、第三声部的音符新序列、第四声部的音符新序列组合形成多声部音乐。

需要说明的是，本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本申请实施例对此不进行限定。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种基于长短时神经网络的多声部音乐生成方法，其特征在于，所述方法包括：

构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。
根据权利要求1所述的方法，其特征在于，在所述通过包括多个声部的音乐样本数据训练所述音乐生成模型之前，所述方法还包括：

获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：
t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；
为当前时刻t的音符；

将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。
根据权利要求2所述的方法，其特征在于，所述通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布，包括：

向所述音乐生成模型中输入所述音乐样本数据；

获取所述音乐生成模型输出的每个声部的音符概率密度函数：
其中，
为当前时刻t的音符，
为音符序列中除去当前音符剩下的所有音符；
为所述节奏序列及延音序列；θ _i为所述依赖网络的参数；

训练所述音乐生成模型使以下公式的值最大化：

获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。
根据权利要求3所述的方法，其特征在于：

所述向所述音乐生成模型中输入所述音乐样本数据之后，所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；

所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；

所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；

所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。
根据权利要求1所述的方法，其特征在于，所述向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐，包括：

向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；

所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；

根据所述第i声部的多个音符生成所述第i声部的音符新序列；

将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。
一种基于长短时神经网络的多声部音乐生成装置，其特征在于，所述装置包括：

构建单元，用于构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

第一获取单元，用于通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

第二获取单元，用于获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

生成单元，用于向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取单元，用于提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：
t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；
为当前时刻t的音符；

处理单元，用于将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。
根据权利要求7所述的装置，其特征在于，所述第一获取单元，包括：

输入子单元，用于向所述音乐生成模型中输入所述音乐样本数据；

第一获取子单元，用于获取所述音乐生成模型输出的每个声部的音符概率密度函数：
其中，
为当前时刻t的音符，
为音符序列中除去当前音符剩下的所有音符；
为所述节奏序列及延音序列；θ _i为所述依赖网络的参数；

训练子单元，用于训练所述音乐生成模型使以下公式的值最大化：

第二获取子单元，用于获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。
根据权利要求8所述的装置，其特征在于：所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；

所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；

所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；

所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。
根据权利要求6所述的装置，其特征在于，所述生成单元包括：

输入子单元，用于向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；

所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；

根据所述第i声部的多个音符生成所述第i声部的音符新序列；

将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：
t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；
为当前时刻t的音符；

将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

向所述音乐生成模型中输入所述音乐样本数据；

获取所述音乐生成模型输出的每个声部的音符概率密度函数：
其中，
为当前时刻t的音符，
为音符序列中除去当前音符剩下的所有音符；
为所述节奏序列及延音序列；θ _i为所述依赖网络的参数；

训练所述音乐生成模型使以下公式的值最大化：

获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；

所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；

所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；

所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；

所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；

根据所述第i声部的多个音符生成所述第i声部的音符新序列；

将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。
一种计算机非易失性可读存储介质，所述存储介质包括存储的程序，其特征在于，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

构建音乐生成模型，所述音乐生成模型包括一个第一长短时神经网络、一个第二长短时神经网络、一个单隐藏层神经网络及一个依赖网络；

通过包括多个声部的音乐样本数据训练所述音乐生成模型，得到训练好的所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布；

获取用户输入的用于预生成多声部音乐的特征参数，所述特征参数包括预设音乐时长、预设节奏序列及预设延音序列；

向所述训练好的音乐生成模型中依次输入多个声部的音符随机序列，以使所述音乐生成模型根据所述音符随机序列、所述网络参数及所述多个声部的音符概率密度分布生成匹配所述特征参数的多声部音乐。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

获取多个音乐训练样本，其中，所述音乐训练样本包括多个声部信息；

提取每个声部的音符序列、所述音乐训练样本的节奏序列及延音序列；其中，所述每个声部的音符序列表示为：
t∈[T]，T为所述音乐训练样本的时长，是十六分音符的整数倍；i为声部；
为当前时刻t的音符；

将所述多个声部的音符序列、所述音乐训练样本的节奏序列及延音序列作为所述音乐样本数据。
根据权利要求17所述的计算机非易失性可读存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

向所述音乐生成模型中输入所述音乐样本数据；

获取所述音乐生成模型输出的每个声部的音符概率密度函数：
其中，
为当前时刻t的音符，
为音符序列中除去当前音符剩下的所有音符；
为所述节奏序列及延音序列；θ _i为所述依赖网络的参数；

训练所述音乐生成模型使以下公式的值最大化：

获取当所述公式的值最大时所述音乐生成模型的网络参数及所述多个声部的音符概率密度分布。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

所述音乐生成模型的所述第一长短时神经网络接收每个声部的音符序列中当前时刻音符前的预设时长的第一音符序列，并根据所述第一音符序列输出第一参数至所述依赖网络；

所述第二长短时神经网络接收每个声部的音符序列中所述当前时刻音符后的预设时长的第二音符序列，并根据所述第二音符序列输出第二参数至所述依赖网络；

所述单隐藏层神经网络接收每个声部的音符序列中所述当前时刻音符并传递至所述依赖网络；

所述依赖网络根据所述第一参数、所述第二参数及所述当前时刻音符输出所述每个声部的音符概率密度函数。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，在所述程序运行时控制所述存储介质所在设备执行以下步骤：

向所述训练好的音乐生成模型中依次输入第一声部、第二声部、第三声部、第四声部的音符随机序列；

所述音乐生成模型基于第i声部的音符随机序列、所述网络参数、所述特征参数及所述第i声部的音符概率密度分布生成所述第i声部的多个音符，i依次取一、二、三、四；

根据所述第i声部的多个音符生成所述第i声部的音符新序列；

将所述第一声部的音符新序列、所述第二声部的音符新序列、所述第三声部的音符新序列、所述第四声部的音符新序列组合形成所述多声部音乐。