WO2020206975A1

WO2020206975A1 - 单位时间内音节数量的计算方法及相关装置

Info

Publication number: WO2020206975A1
Application number: PCT/CN2019/112242
Authority: WO
Inventors: 王征韬
Original assignee: 腾讯音乐娱乐科技（深圳）有限公司
Priority date: 2019-04-11
Filing date: 2019-10-21
Publication date: 2020-10-15
Also published as: CN110033782B; CN110033782A

Abstract

一种单位时间内音节数量的计算方法及相关装置，方法包括：获取包括人声和背景音乐的第一音频段，对第一音频段进行人声分离，得到只包括人声的第二音频段；将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，训练好的神经网络模型用于提取人声的音频段的特征向量（101）；基于第一特征向量确定第二音频段对应的目标音节数量，以及确定第二音频段对应的目标唱歌时间（102）；基于目标音节数量和目标唱歌时间确定第二音频段对应的目标单位时间内音节数量（103）。可实现计算无歌词文本的歌曲的单位时间内音节数量。

Description

单位时间内音节数量的计算方法及相关装置

技术领域

本申请涉及音频处理技术领域，具体涉及一种单位时间内音节数量的计算方法及相关装置。

背景技术

目前，确定单位时间内音节数量的方式为：对具有歌词文本的歌曲进行音节数量和唱歌时间的统计，进而计算具有歌词文本的歌曲的单位时间内音节数量。由于该方式需要有时间戳的歌词文本，因此无法适用于各种音频段，适应性较差，因此需要一种提升适用性的单位时间内音节数量的计算方法。

发明内容

本申请实施例提供一种单位时间内音节数量的计算方法及相关装置，用于计算无歌词文本的歌曲的单位时间内音节数量。

第一方面，本申请实施例提供一种单位时间内音节数量的计算方法，所述方法包括：

获取包括人声和背景音乐的第一音频段，对所述第一音频段进行人声分离，得到只包括人声的第二音频段；将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量；

基于所述第一特征向量确定所述第二音频段对应的目标音节数量，以及确定所述第二音频段对应的目标唱歌时间；

基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。

第二方面，本申请实施例提供一种单位时间内音节数量的计算装置，所述装置包括：

获取单元，用于获取包括人声和背景音乐的第一音频段；

执行单元，用于对所述第一音频段进行人声分离，得到只包括人声的第二音频段；

处理单元，用于将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量；

第一确定单元，用于基于所述第一特征向量确定所述第二音频段对应的目标音节数量；

第二确定单元，用于确定所述第二音频段对应的目标唱歌时间；

第三确定单元，用于基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面所述的方法中的部分或全部步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质用于存储计算机程序，上述计算机程序被处理器执行，以实现如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。

可以看出，在本申请实施例中，电子设备获取包括人声和背景音乐的第一音频段，对第一音频段进行人声分离，得到只包括人声的第二音频段，将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，基于第一特征向量确定第二音频段对应的目标音节数量，确定第二音频段对应的目标唱歌时间，基于目标音节数量和目标唱歌时间确定第二音频段对应的目标单位时间内音节数量。相较于对具有歌词文本的歌曲进行音节数量和唱歌时间的统计，进而计算具有歌词文本的歌曲的单位时间内音节数量，在本申请实施例中，基于只包括人声的第二音频段确定第二音频段对应的目标音节数量和目标唱歌时间，进而计算第二音频段对应的目标单位时间内音节数量，由于第二音频段不包括歌词文本，这样实现了计算无歌词文本的歌曲的单位时间内音节数量。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的第一种单位时间内音节数量的计算方法的流程示意图；

图2是本申请实施例提供的第二种单位时间内音节数量的计算方法的流程示意图；

图3是本申请实施例提供的第三种单位时间内音节数量的计算方法的流程示意图；

图4是本申请实施例提供的一种单位时间内音节数量的计算装置的功能单元组成框图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

以下分别进行详细说明。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的单位时间内音节数量的计算装置可集成在电子设备中，电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(Terminal Device，TD)，等等。

下面对本申请实施例进行详细介绍。

请参阅图1，图1是本申请实施例提供的第一种单位时间内音节数量的计算方法的流程示意图，该单位时间内音节数量的计算方法应用于单位时间内音节数量的计算装置，该单位时间内音节数量的计算方法包括步骤101-104，具体如下：

101：单位时间内音节数量的计算装置获取包括人声和背景音乐的第一音频段，对所述第一音频段进行人声分离，得到只包括人声的第二音频段；将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量。

其中，音节是音位组合构成的最小的语音结构单位，第二音频段的时长小于第一音频段的时长。

其中，对第一音频段进行人声分离，得到只包括人声的第二音频段采用现有技术，在此不再叙述。

在一个可能的示例中，单位时间内音节数量的计算装置将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量之前，所述方法还包括：

单位时间内音节数量的计算装置确定第二音频段的时长，以及判断第二音频段的时长是否大于或等于目标时长；

若是，则单位时间内音节数量的计算装置触发所述将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量的操作。

其中，目标时长可以为用户自定义的，比如目标时长为10s。

在一个可能的示例中，单位时间内音节数量的计算装置将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量之前，所述方法还包括：

单位时间内音节数量的计算装置获取N个训练样本数据，所述N为大于1的整数；

单位时间内音节数量的计算装置将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个；

单位时间内音节数量的计算装置对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型；

单位时间内音节数量的计算装置将所述N次训练后的神经网络模型作为所述训练好的神经网络模型。

其中，训练样本数据为无歌词文本的歌曲，无歌词文本的歌曲中的一个字对应一个音节，一个音节对应一个时刻。

其中，初始的神经网络模型为未训练的神经网络模型。

在一个可能的示例中，训练好的神经网络模型包括M个网络层，所述M个网络层包括全连接层，所述M为大于1的整数，单位时间内音节数量的计算装置将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，包括：

单位时间内音节数量的计算装置对所述第二音频段进行音频特征提取，得到目标音频特征；

单位时间内音节数量的计算装置将所述目标音频特征输入第i个网络层进行处理，输出所述第i个网络层对应的输出数据集合；

单位时间内音节数量的计算装置将所述第i个网络层对应的输出数据集合输入第(i+1)个网络层进行处理，输出所述第(i+1)个网络层对应的输出数据集合；

直到i＝(M-1)，单位时间内音节数量的计算装置得到第(M-1)个网络层对应的输出数据集合，所述i是初始值为1，以1为间隔的递增整数；

单位时间内音节数量的计算装置将所述第(M-1)个网络层对应的输出数据集合输入所述全连接层进行处理，输出所述第一特征向量。

其中，(M-1)个网络层中的第1个网络层至第(M-1)个网络层是相同的。

具体地，单位时间内音节数量的计算装置对第二音频段进行音频特征提取，得到目标音频特征的实施方式可以为：

单位时间内音节数量的计算装置对第二音频段进行降采样，得到降采样后的第二音频段，降采样后的第二音频段对应设定采样率；

单位时间内音节数量的计算装置基于离散时间傅里叶变换参数对降采样后的第二音频段进行离散时间短时傅里叶变换，得到降采样后的第二音频段对应的多个第一离散频谱图，每个第一离散频谱图对应一帧；

单位时间内音节数量的计算装置将每个第一离散频谱图进行梅尔频谱转换，得到多个第一离散频谱图对应的多个第二离散频谱图；

单位时间内音节数量的计算装置基于多个第二离散频谱图生成目标声谱图；

单位时间内音节数量的计算装置确定目标声谱图对应的第一矩阵，基于第一矩阵生成第二矩阵，第二矩阵中的第j列等于第一矩阵中的第(j+1)列与第j列的差值；

单位时间内音节数量的计算装置对第一矩阵和第二矩阵进行叠加，得到第三矩阵，以及将第三矩阵作为目标音频特征。

其中，设定采样率可以为8000Hz，离散时间短时傅里叶变换参数包括帧长和步长，帧长可以为256个采样点，步长可以为80个采样点，在此不作限定。

其中，目标声谱图为一个随时间变化的频谱图。

其中，第一矩阵的最后一列和第二矩阵的最后一列相同。

具体地，单位时间内音节数量的计算装置将第i个网络层对应的输出数据集合输入第(i+1)个网络层进行处理，输出第(i+1)个网络层对应的输出数据集合的实施方式可以为：

单位时间内音节数量的计算装置将第i个网络层对应的输出数据集合输入第(i+1)个网络层，第(i+1)个网络层包括卷积矩阵(i+1)-1、卷积矩阵(i+1)-2和激活矩阵(i+1)-3；

单位时间内音节数量的计算装置将第i个网络层对应的输出数据集合与卷积矩阵(i+1)-1进行相乘运算，得到第一输出矩阵(i+1)-4；

单位时间内音节数量的计算装置将第i个网络层对应的输出数据集合与卷积矩阵(i+1)-2进行相乘运算，得到第二输出矩阵(i+1)-5，以及将第二输出矩阵(i+1)-5与激活矩阵(i+1)-3进行相乘运算，得到第三输出矩阵(i+1)-6；

单位时间内音节数量的计算装置将第一输出矩阵(i+1)-4与第三输出矩阵(i+1)-6进行相乘运算，得到第四输出矩阵(i+1)-7；

单位时间内音节数量的计算装置对第四输出矩阵(i+1)-7和第i个网络层对应的输出数据集合进行叠加，得到第(i+1)个网络层对应的输出数据集合。

102：单位时间内音节数量的计算装置基于所述第一特征向量确定所述第二音频段对应的目标音节数量，以及确定所述第二音频段对应的目标唱歌时间。

在一个可能的示例中，单位时间内音节数量的计算装置基于所述第一特征向量确定所述第二音频段对应的目标音节数量，包括：

单位时间内音节数量的计算装置对所述第一特征向量进行二值化处理，得到第二特征向量，所述第二特征向量中各值的大小为第一阈值或第二阈值，所述第一阈值小于所述第二阈值；

若所述第二特征向量中存在至少一个第一目标值，则单位时间内音节数量的计算装置将所述至少一个第一目标值的大小均设置为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值；

若所述第三特征向量中存在至少一个目标数值组，每个目标数值组包括相邻的两个第三目标值，每个第三目标值的大小为所述第二阈值，每个第三目标值对应一个时刻，则单位时间内音节数量的计算装置确定每个目标数值组对应的时差；

若目标数值组对应的时差小于或等于设定时长，则单位时间内音节数量的计算装置将所述目标数值组中的任意一个第三目标值的大小设置为所述第一阈值，得到第四特征向量；

单位时间内音节数量的计算装置确定所述第四特征向量中各值的大小为所述第二阈值的第二值数量，以及将所述第二值数量作为所述第二音频段对应的所述目标音节数量。

其中，第一特征向量包括多个值，每个值的大小介于0-1之间，每个值的大小表示音节的概率。

具体地，单位时间内音节数量的计算装置对第一特征向量进行二值化处理，得到第二特征向量的实施方式可以为：单位时间内音节数量的计算装置判断第一特征向量中各值的大小是否大于或等于固定值；若值的大小小于固定值，则单位时间内音节数量的计算装置将该值设置为第一阈值；或者，若值的大小大于或等于固定值，则单位时间内音节数量的计算装置将该值设置为第二阈值。

其中，固定值可以为用户自定义的，比如固定值为0.5。

其中，第一阈值可以为0，第二阈值可以为1。

其中，第三阈值和设定时长可以是用户自定义的，在此不作限定。

在一个可能的示例中，单位时间内音节数量的计算装置确定所述第二音频段对应的目标唱歌时间，包括：

单位时间内音节数量的计算装置对所述第二音频段进行静音检测，得到所述第二音频段包括的至少一个静音段和至少一个非静音段；

单位时间内音节数量的计算装置确定所述至少一个非静音段对应的目标时长；

单位时间内音节数量的计算装置将所述目标时长作为所述第二音频段对应的所述目标唱歌时间。

其中，单位时间内音节数量的计算装置对第二音频段进行静音检测，得到第二音频段包括的至少一个静音段和至少一个非静音段采用现有技术，在此不再叙述。

103：单位时间内音节数量的计算装置基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。

在一个可能的示例中，单位时间内音节数量的计算装置基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量，包括：

单位时间内音节数量的计算装置确定所述目标音节数量与所述目标歌唱时间的目标比值；

单位时间内音节数量的计算装置判断所述目标比值是否处于设定范围；

若是，则单位时间内音节数量的计算装置将所述目标比值作为所述第二音频段对应的所述目标单位时间内音节数量。

其中，设定范围可以是用户自定义的，在此不作限定。

进一步地，所述方法还包括：

若目标比值未处于设定范围，则单位时间内音节数量的计算装置判断目标比值是否大于设定范围的最大值；

若是，则单位时间内音节数量的计算装置将设定范围的最大值作为第二音频段对应的目标单位时间内音节数量；

若否，则单位时间内音节数量的计算装置将设定范围的最小值作为第二音频段对应的目标单位时间内音节数量。

与上述图1所示的实施例一致的，请参阅图2，图2是本申请实施例提供的第二种单位时间内音节数量的计算方法的流程示意图，该单位时间内音节数量的计算方法应用于单位时间内音节数量的计算装置，该单位时间内音节数量的计算方法包括步骤201-210，具体如下：

201：单位时间内音节数量的计算装置获取包括人声和背景音乐的第一音频段，对所述第一音频段进行人声分离，得到只包括人声的第二音频段；将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量。

202：单位时间内音节数量的计算装置对所述第一特征向量进行二值化处理，得到第二特征向量，所述第二特征向量中各值的大小为第一阈值或第二阈值，所述第一阈值小于所述第二阈值。

203：若所述第二特征向量中存在至少一个第一目标值，则单位时间内音节数量的计算装置将所述至少一个第一目标值的大小均设置为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值。

204：若所述第三特征向量中存在至少一个目标数值组，每个目标数值组包括相邻的两个第三目标值，每个第三目标值的大小为所述第二阈值，每个第三目标值对应一个时刻，则单位时间内音节数量的计算装置确定每个目标数值组对应的时差。

205：若目标数值组对应的时差小于或等于设定时长，则单位时间内音节数量的计算装置将所述目标数值组中的任意一个第三目标值的大小设置为所述第一阈值，得到第四特征向量。

206：单位时间内音节数量的计算装置确定所述第四特征向量中各值的大小为所述第二阈值的第二值数量，以及将所述第二值数量作为所述第二音频段对应的目标音节数量。

207：单位时间内音节数量的计算装置确定所述第二音频段对应的目标唱歌时间。

208：单位时间内音节数量的计算装置确定所述目标音节数量与所述目标歌唱时间的目标比值。

209：单位时间内音节数量的计算装置判断所述目标比值是否处于设定范围。

210：若是，则单位时间内音节数量的计算装置将所述目标比值作为所述第二音频段对应的目标单位时间内音节数量。

需要说明的是，图2所示的方法的各个步骤的具体实现过程可参见上述方法所述的具体实现过程，在此不再叙述。

与上述图1和图2所示的实施例一致的，请参阅图3，图3是本申请实施例提供的第三种单位时间内音节数量的计算方法的流程示意图，该单位时间内音节数量的计算方法应用于单位时间内音节数量的计算装置，该单位时间内音节数量的计算方法包括步骤301-313，具体如下：

301：单位时间内音节数量的计算装置获取包括人声和背景音乐的第一音频段，对所述第一音频段进行人声分离，得到只包括人声的第二音频段。

302：单位时间内音节数量的计算装置获取N个训练样本数据，所述N为大于1的整数；

303：单位时间内音节数量的计算装置将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个。

304：单位时间内音节数量的计算装置对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型。

305：单位时间内音节数量的计算装置将所述N次训练后的神经网络模型作为训练好的神经网络模型。

306：单位时间内音节数量的计算装置将所述第二音频段输入所述训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量。

307：单位时间内音节数量的计算装置基于所述第一特征向量确定所述第二音频段对应的目标音节数量。

308：单位时间内音节数量的计算装置对所述第二音频段进行静音检测，得到所述第二音频段包括的至少一个静音段和至少一个非静音段。

309：单位时间内音节数量的计算装置确定所述至少一个非静音段对应的目标时长。

310：单位时间内音节数量的计算装置将所述目标时长作为所述第二音频段对应的目标唱歌时间。

311：单位时间内音节数量的计算装置确定所述目标音节数量与所述目标歌唱时间的目标比值。

312：单位时间内音节数量的计算装置判断所述目标比值是否处于设定范围。

313：若是，则单位时间内音节数量的计算装置将所述目标比值作为所述第二音频段对应的目标单位时间内音节数量。

需要说明的是，图3所示的方法的各个步骤的具体实现过程可参见上述方法所述的具体实现过程，在此不再叙述。

请参阅图4，图4是本申请实施例提供的一种单位时间内音节数量的计算装置的功能单元组成框图，该单位时间内音节数量的计算装置400包括：

获取单元401，用于获取包括人声和背景音乐的第一音频段；

执行单元402，用于对所述第一音频段进行人声分离，得到只包括人声的第二音频段；

处理单元403，用于将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量；

第一确定单元404，用于基于所述第一特征向量确定所述第二音频段对应的目标音节数量；

第二确定单元405，用于确定所述第二音频段对应的目标唱歌时间；

第三确定单元406，用于基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。

可以看出，在本申请实施例中，获取包括人声和背景音乐的第一音频段，对第一音频段进行人声分离，得到只包括人声的第二音频段，将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，基于第一特征向量确定第二音频段对应的目标音节数量，确定第二音频段对应的目标唱歌时间，基于目标音节数量和目标唱歌时间确定第二音频段对应的目标单位时间内音节数量。相较于对具有歌词文本的歌曲进行音节数量和唱歌时间的统计，进而计算具有歌词文本的歌曲的单位时间内音节数量，在本申请实施例中，基于只包括人声的第二音频段确定第二音频段对应的目标音节数量和目标唱歌时间，进而计算第二音频段对应的目标单位时间内音节数量，由于第二音频段不包括歌词文本，这样实现了计算无歌词文本的歌曲的单位时间内音节数量。

在一个可能的示例中，上述单位时间内音节数量的计算装置400还包括训练单元407，

训练单元407，用于获取N个训练样本数据，所述N为大于1的整数；将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个；对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型；将所述N次训练后的神经网络模型作为所述训练好的神经网络模型。

在一个可能的示例中，训练好的神经网络模型包括M个网络层，M个网络层包括全连接层，M为大于1的整数，在将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量方面，上述处理单元403具体用于：

对所述第二音频段进行音频特征提取，得到目标音频特征；

将所述目标音频特征输入第i个网络层进行处理，输出所述第i个网络层对应的输出数据集合；

将所述第i个网络层对应的输出数据集合输入第(i+1)个网络层进行处理，输出所述第(i+1)个网络层对应的输出数据集合；

直到i＝(M-1)，得到第(M-1)个网络层对应的输出数据集合，所述i是初始值为1，以1为间隔的递增整数；

将所述第(M-1)个网络层对应的输出数据集合输入所述全连接层进行处理，输出所述第一特征向量。

在一个可能的示例中，在基于所述第一特征向量确定所述第二音频段对应的目标音节数量方面，上述第一确定单元404具体用于：

对所述第一特征向量进行二值化处理，得到第二特征向量，所述第二特征向量中各值的大小为第一阈值或第二阈值，所述第一阈值小于所述第二阈值；

若所述第二特征向量中存在至少一个第一目标值，则将所述至少一个第一目标值的大小设置均为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值；

若所述第三特征向量中存在至少一个目标数值组，每个目标数值组包括相邻的两个第三目标值，每个第三目标值的大小为所述第二阈值，每个第三目标值对应一个时刻，则确定每个目标数值组对应的时差；

若目标数值组对应的时差小于或等于设定时长，则将所述目标数值组中的任意一个第三目标值的大小设置为所述第一阈值，得到第四特征向量；

确定所述第四特征向量中各值的大小为所述第二阈值的第二值数量，以及将所述第二值数量作为所述第二音频段对应的所述目标音节数量。

在一个可能的示例中，在确定所述第二音频段对应的目标唱歌时间方面，上述第二确定单元405具体用于：

对所述第二音频段进行静音检测，得到所述第二音频段包括的至少一个静音段和至少一个非静音段；

确定所述至少一个非静音段对应的目标时长；

将所述目标时长作为所述第二音频段对应的所述目标唱歌时间。

在一个可能的示例中，在基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量方面，上述第三确定单元406具体用于：

确定所述目标音节数量与所述目标歌唱时间的目标比值；

判断所述目标比值是否处于设定范围；

若是，则将所述目标比值作为所述第二音频段对应的所述目标单位时间内音节数量。

与上述图1、图2和图3所示的实施例一致的，请参阅图5，图5是本申请实施例提供的一种电子设备的结构示意图，该电子设备500包括处理器、存储器、通信接口，以及一个或多个程序，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

可以看出，在本申请实施例中，获取包括人声和背景音乐的第一音频段，对第一音频段进行人声分离，得到只包括人声的第二音频段，将第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，基于第一特征向量确定第二音频段对应的目标音节数量，确定第二音频段对应的目标唱歌时间，基于目标音节数量和目标唱歌时间确定第二音频段对应的目标单位时间内音节数量。相较于对具有歌词文本的歌曲进行音节数量和歌唱时间的统计，进而计算具有歌词文本的歌曲的单位时间内音节数量，在本申请实施例中，基于只包括人声的第二音频段确定第二音频段对应的目标音节数量和目标唱歌时间，进而计算第二音频段对应的目标单位时间内音节数量，由于第二音频段不包括歌词文本，这样实现了计算无歌词文本的歌曲的单位时间内音节数量。

在一个可能的示例中，上述程序还包括用于执行以下步骤的指令：

获取N个训练样本数据，所述N为大于1的整数；

将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个；

对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型；

将所述N次训练后的神经网络模型作为所述训练好的神经网络模型。

在一个可能的示例中，训练好的神经网络模型包括M个网络层，M个网络层包括全连接层，M为大于1的整数，在将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量方面，上述程序包括具体用于执行以下步骤的指令：

对所述第二音频段进行音频特征提取，得到目标音频特征；

在一个可能的示例中，在基于所述第一特征向量确定所述第二音频段对应的目标音节数量方面，上述程序包括具体用于执行以下步骤的指令：

若所述第二特征向量中存在至少一个第一目标值，则将所述至少一个第一目标值的大小均设置为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值；

在一个可能的示例中，在确定所述第二音频段对应的目标唱歌时间方面，上述程序包括具体用于执行以下步骤的指令：

确定所述至少一个非静音段对应的目标时长；

在一个可能的示例中，在基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量方面，上述程序包括具体用于执行以下步骤的指令：

确定所述目标音节数量与所述目标歌唱时间的目标比值；

判断所述目标比值是否处于设定范围；

本申请实施例还提供一种计算机存储介质，该计算机存储介质用于存储计算机程序，上述计算机程序被处理器执行，以实现如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实现方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本申请的限制。

Claims

一种单位时间内音节数量的计算方法，其特征在于，所述方法包括：

获取包括人声和背景音乐的第一音频段，对所述第一音频段进行人声分离，得到只包括人声的第二音频段；将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量；

基于所述第一特征向量确定所述第二音频段对应的目标音节数量，以及确定所述第二音频段对应的目标唱歌时间；

基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。
根据权利要求1所述的方法，其特征在于，所述将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量之前，所述方法还包括：

获取N个训练样本数据，所述N为大于1的整数；

将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个；

对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型；

将所述N次训练后的神经网络模型作为所述训练好的神经网络模型。
根据权利要求1所述的方法，其特征在于，所述将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量之前，所述方法还包括：

确定所述第二音频段的时长，以及判断所述第二音频段的时长是否大于或等于目标时长；

若是，则触发所述将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量的操作。
根据权利要求2或3所述的方法，其特征在于，所述训练好的神经网络模型包括M个网络层，所述M个网络层包括全连接层，所述M为大于1的整数，所述将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，包括：

对所述第二音频段进行音频特征提取，得到目标音频特征；

将所述目标音频特征输入第i个网络层进行处理，输出所述第i个网络层对应的输出数据集合；

将所述第i个网络层对应的输出数据集合输入第(i+1)个网络层进行处理，输出所述第(i+1)个网络层对应的输出数据集合；

直到i＝(M-1)，得到第(M-1)个网络层对应的输出数据集合，所述i是初始值为1，以1为间隔的递增整数；

将所述第(M-1)个网络层对应的输出数据集合输入所述全连接层进行处理，输出所述第一特征向量。
根据权利要求4所述的方法，其特征在于，所述基于所述第一特征向量确定所述第二音频段对应的目标音节数量，包括：

对所述第一特征向量进行二值化处理，得到第二特征向量，所述第二特征向量中各值的大小为第一阈值或第二阈值，所述第一阈值小于所述第二阈值；

若所述第二特征向量中存在至少一个第一目标值，则将所述至少一个第一目标值的大小均设置为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值；

若所述第三特征向量中存在至少一个目标数值组，每个目标数值组包括相邻的两个第三目标值，每个第三目标值的大小为所述第二阈值，每个第三目标值对应一个时刻，则确定每个目标数值组对应的时差；

若目标数值组对应的时差小于或等于设定时长，则将所述目标数值组中的任意一个第三目标值的大小设置为所述第一阈值，得到第四特征向量；

确定所述第四特征向量中各值的大小为所述第二阈值的第二值数量，以及将所述第二值数量作为所述第二音频段对应的所述目标音节数量。
根据权利要求5所述的方法，其特征在于，所述确定所述第二音频段对应的目标唱歌时间，包括：

对所述第二音频段进行静音检测，得到所述第二音频段包括的至少一个静音段和至少一个非静音段；

确定所述至少一个非静音段对应的目标时长；

将所述目标时长作为所述第二音频段对应的所述目标唱歌时间。
根据权利要求6所述的方法，所述基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量，包括：

确定所述目标音节数量与所述目标歌唱时间的目标比值；

判断所述目标比值是否处于设定范围；

若是，则将所述目标比值作为所述第二音频段对应的所述目标单位时间内音节数量。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

若所述目标比值未处于所述设定范围，则判断所述目标比值是否大于所述设定范围的最大值；

若是，则将所述设定范围的最大值作为所述第二音频段对应的所述目标单位时间内音节数量。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

若所述目标比值未处于所述设定范围，则判断所述目标比值是否小于所述设定范围的最小值；

若是，则将所述设定范围的最小值作为所述第二音频段对应的所述目标单位时间内音节数量。
一种单位时间内音节数量的计算装置，其特征在于，所述装置包括：

获取单元，用于获取包括人声和背景音乐的第一音频段；

执行单元，用于对所述第一音频段进行人声分离，得到只包括人声的第二音频段；

处理单元，用于将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量，所述训练好的神经网络模型用于提取人声的音频段的特征向量；

第一确定单元，用于基于所述第一特征向量确定所述第二音频段对应的目标音节数量；

第二确定单元，用于确定所述第二音频段对应的目标唱歌时间；

第三确定单元，用于基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

训练单元，用于获取N个训练样本数据，所述N为大于1的整数；将第i个训练样本数据输入初始的神经网络模型进行正向训练，输出预测结果，基于所述预测结果构造神经网络损失函数，基于所述神经网络损失函数对所述初始的神经网络模型进行反向训练，得到一次训练后的神经网络模型，所述第i个训练样本数据为所述N个训练样本数据中的任意一个；对所述N个训练样本数据中除所述第i个训练样本数据之外的(N-1)个训练样本数据执行相同操作，得到N次训练后的神经网络模型；将所述N次训练后的神经网络模型作为所述训练好的神经网络模型。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

第四确定单元，用于确定所述第二音频段的时长；

判断单元，用于判断所述第二音频段的时长是否大于或等于目标时长；

触发单元，用于若所述判断单元判断出所述第二音频段的时长大于或等于所述目标时长，则触发所述将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量的操作。
根据权利要求11或12所述的装置，其特征在于，所述训练好的神经网络模型包括M个网络层，所述M个网络层包括全连接层，所述M为大于1的整数，在将所述第二音频段输入训练好的神经网络模型进行处理，输出第一特征向量方面，所述处理单元具体用于：

对所述第二音频段进行音频特征提取，得到目标音频特征；

将所述目标音频特征输入第i个网络层进行处理，输出所述第i个网络层对应的输出数据集合；

将所述第i个网络层对应的输出数据集合输入第(i+1)个网络层进行处理，输出所述第(i+1)个网络层对应的输出数据集合；

直到i＝(M-1)，得到第(M-1)个网络层对应的输出数据集合，所述i是初始值为1，以1为间隔的递增整数；

将所述第(M-1)个网络层对应的输出数据集合输入所述全连接层进行处理，输出所述第一特征向量。
根据权利要求13所述的装置，其特征在于，在基于所述第一特征向量确定所述第二音频段对应的目标音节数量方面，所述第一确定单元具体用于：

对所述第一特征向量进行二值化处理，得到第二特征向量，所述第二特征向量中各值的大小为第一阈值或第二阈值，所述第一阈值小于所述第二阈值；

若所述第二特征向量中存在至少一个第一目标值，则将所述至少一个第一目标值的大小均设置为所述第一阈值，得到第三特征向量，每个第一目标值与其最近的第二目标值之间的第一值数量大于或等于第三阈值，所述第一目标值和所述第二目标值的大小均为所述第二阈值；

若所述第三特征向量中存在至少一个目标数值组，每个目标数值组包括相邻的两个第三目标值，每个第三目标值的大小为所述第二阈值，每个第三目标值对应一个时刻，则确定每个目标数值组对应的时差；

若目标数值组对应的时差小于或等于设定时长，则将所述目标数值组中的任意一个第三目标值的大小设置为所述第一阈值，得到第四特征向量；

确定所述第四特征向量中各值的大小为所述第二阈值的第二值数量，以及将所述第二值数量作为所述第二音频段对应的所述目标音节数量。
根据权利要求14所述的装置，其特征在于，在确定所述第二音频段对应的目标唱歌时间方面，所述第二确定单元具体用于：

对所述第二音频段进行静音检测，得到所述第二音频段包括的至少一个静音段和至少一个非静音段；

确定所述至少一个非静音段对应的目标时长；

将所述目标时长作为所述第二音频段对应的所述目标唱歌时间。
根据权利要求15所述的装置，其特征在于，在基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量方面，所述第三确定单元具体用于：

确定所述目标音节数量与所述目标歌唱时间的目标比值；

判断所述目标比值是否处于设定范围；

若是，则将所述目标比值作为所述第二音频段对应的所述目标单位时间内音节数量。
根据权利要求16所述的装置，其特征在于，在基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量方面，所述第三确定单元具体用于：

若所述目标比值未处于所述设定范围，则判断所述目标比值是否大于所述设定范围的最大值；

若是，则将所述设定范围的最大值作为所述第二音频段对应的所述目标单位时间内音节数量。
根据权利要求16所述的装置，其特征在于，在基于所述目标音节数量和所述目标唱歌时间确定所述第二音频段对应的目标单位时间内音节数量方面，所述第三确定单元具体用于：

若所述目标比值未处于所述设定范围，则判断所述目标比值是否小于所述设定范围的最小值；

若是，则将所述设定范围的最小值作为所述第二音频段对应的所述目标单位时间内音节数量。
一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-9任一项所述的方法中的部分或全部步骤的指令。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如权利要求1-9任一项所述的方法。