WO2014101168A1

WO2014101168A1 - 一种实现语音歌唱化的方法和装置

Info

Publication number: WO2014101168A1
Application number: PCT/CN2012/087999
Authority: WO
Inventors: 孙见青; 凌震华; 江源; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: 安徽科大讯飞信息科技股份有限公司
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2014-07-03
Also published as: CN103915093B; CN103915093A

Abstract

一种实现语音歌唱化的方法和装置，所述方法包括：接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失，实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

Description

一种实现语音歌唱化的方法和装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种实现语音歌唱化的方法和装置。

背景技术

近年来，歌唱合成系统，即将用户输入的文本数据转换为歌唱语音的方法以及得到了广泛的研究和应用。歌唱合成系统的实现首先要求录制大量的歌曲数据，包括语音数据和筒谱数据等，以提供合成系统所需的语音片段或训练可靠的模型参数。然后，由于歌曲数据录制的代价较大，歌唱合成系统通常只能选择录制某个特定发音人的数据，相应的提供的歌唱合成效果限定为特定发音人的音色，不适合个性化定制，无法实现到特定音色的演绎，特别是用户自身音色的重现。

针对上述问题，现有技术中开发了一种歌唱合成方法，允许设备接收用户以说话风格方式输入的语音数据，系统按照预设的筒谱对语音数据进行优化实现歌曲合成。这种方式保留了用户语音数据的音色，实现个性化合成。具体操作包括：（1 )系统接收用户说话风格的歌词语音输入；（2 )通过人工切分的方式将语音信号切分为各个独立的基于音素单元的语音片段； ( 3 )并根据筒谱标注确定各音素单元和筒谱音符的对应关系；（4 )系统从各音素单元的语音片段中提取声学频谱特征，基频特征等；（5 )系统根据筒谱标注信息确定目标歌曲的基频 F0特征参数和时长特征，并据此调整各音素单元的基频特征和时长； ( 6 ) 系统根据各音素单元的声学频谱特征，以及韵律特征（如：基频特征及时长特征等），合成歌唱语音输出。

该现有技术虽然实现了从说话风格语音信号到歌唱风格的转换，但具有如下问题：

一方面，该方案只能实现筒谱对应的歌词的说话风格语音输入的转换。也就是说用户只能输入指定歌曲的歌词，无法实现对任意长度的，任意内容的歌曲合成效果转换，应用方法受限，同时也降低了娱乐效果；

进一步，该方案通过人工切分方式，实现了说话风格的连续语音信号的切分，以及筒谱音符的对应。对人工要求较高，受到语种的限制，无法普适推广。而且，该方案采用的是参数合成方式，即首先将语音信号转换为声学特征，随后在特征层面上按照歌唱标准进行优化，最后按照合成方式从优化特征中合成得到连续语音信号。显然从语音信号到特征参数的转换，以及特征参数到语音信号的合成中均存在信号的损失，音质有明显的下降。

发明内容

本发明实施例提供了一种实现语音歌唱化的方法和装置，能够自动对语音进行切分，而且可以将任意长度和任意内容的说话语音转换为用户需要的歌曲。

本发明实施例提供了一种实现语音歌唱化的方法，所述方法包括：接收用户输入的语音信号；

将所述语音信号切分获得各基本考察单元的语音片断；

根据预置的筒谱，确定筒谱中的各音符与所述各基本考察单元的对应关系；

根据筒谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

根据筒谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

本发明实施例还提供了一种实现语音歌唱化的装置，该装置包括：接收单元，切分单元，获取对应关系单元，获取基频单元，获取时长单元，和调整单元；

所述接收单元，用于接收用户输入的语音信号；

所述切分单元，用于将所述语音信号切分获得各基本考察单元的语音片断；

所述获取对应关系单元，用于确定简谱中的各音符与所述各基本考察单元的对应关系；

所述获取基频单元，用于根据筒谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

所述获取时长单元，用于根据筒谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

所述调整单元，用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

从以上技术方案可以看出，本发明实施例具有以下优点：可以将输入的语音信号波形直接进行调整，通过对波形的直接优化，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例提供的一种实现语音歌唱化的方法流程示意筒图；图 2 为本发明实施例提供的另一种实现语音歌唱化的方法流程示意筒图；

图 3为本发明实施例中将语音信号切分为基本考察单元的语音片段的流程示意筒图；

图 4为预先定义的搜索网络示例；图 5 为本发明实施例中获取筒谱中的音符与基本考察单元的对应关系流程示意筒图；

图 6为本发明实施例中实现可根据不同发音人的音域特点对获取的目标基频值进行优化的操作流程示意筒图；图 7a 为本发明实施例中获取每个基本考察单元的目标时长操作流程示意筒图；图 7b所示获取音符的节拍数的举例；图 8为本发明实施例提供的一种实现语音歌唱化的装置示意筒图；图 9为本发明实施例提供的切分单元示意筒图；图 10为本发明实施例提供的获取对应关系单元示意筒图；图 11为本发明实施例提供的调整基调单元示意筒图；图 12为本发明实施例提供的获取时长单元示意筒图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种实现语音歌唱化的方法和装置，可以对用户任意语音输入，通过对该语音输入自动切分为基本考察单元的语音片段，再对划分的各基本考察单元进行语音片断的歌唱化调整，实现将用户语音转换为歌唱语音输出。实施例一如图 1所示本发明实施例提供的一种实现语音歌唱化的方法流程示意图。步骤 101 , 接收用户输入的语音信号；步骤 102, 将所述语音信号切分获得各基本考察单元的语音片断；其中，所述基本考察单元为单个音符所对应的最小的发音单元，如中文歌曲的字符，英文歌曲的音节等。步骤 103, 根据预置的筒谱，确定筒谱中的各音符与所述各基本考察单元的对应关系；步骤 104, 根据筒谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；步骤 105 , 根据筒谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；步骤 106, 根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。本发明实施例提供的一种实现语音歌唱化的方法，在确定筒谱中的音符与基本考察单元的对应关系后，可以根据筒谱中各音符的音高，和筒谱中各音符的节拍数，确定每个基本考察单元的目标基频值，和每个基本考察单元的目标时长；随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值，调整后的语音的时长为确定的目标时长。因此，该方法通过对输入的语音信号波形直接进行调整，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换；也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。实施例二如图 2所示，本发明实施例提供的一种实现语音歌唱化的方法流程示意图。

步骤 S10, 接收用户输入的语音信号。步骤 S11 , 将语音信号切分为基本考察单元的语音片断。在本发明实施例中将语音信号切分为基本考察单元的语音片断，具体的操作如图 3所示，包括：步骤 S111 , 对语音信号进行预处理，该预处理操作具体可以是对语音信号进行降噪处理；具体可以是通过维纳滤波等技术对语音片断进行语音增强，提高后续系统对该信号的处理能力。步骤 S112, 从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

其中，语音信号中逐帧提取语音声学特征矢量具体可以：是提取语音的 Mel频率倒谱系数（MFCC, Mel Frequency Cepstrum Coefficient )特征，对窗长 25ms帧移 10ms的每帧语音数据做短时分析得到 MFCC参数及其一阶二阶差分，共计 39维度。因此，在设备的緩沖区的语音段表征为一 39维特征序列。步骤 S113 , 对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段。其中，基本语音识别模型，可以包括：静音识别模型，浊音识别模型和清音识别模型三种。

需要理解的是，人的发音过程可以看作是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和语言需要（不可观测的状态）发出的音素的参数流。现有技术中，通过隐马尔可夫模型（HMM, Hidden Markov Model )可以合理地模仿了这一过程， 4艮好地描述了语音信号的整体非平稳性和局部平稳性，是一种理想的语音信号模型。在本发明实施例采用 HMM来模拟静音片段，浊音片段以及清音片段的发音特点。对每个模型分别定义从左到右不可跳转的 N (本方案中可以采用 N=3 )状态 HMM模型，且可以确定每个状态的高斯分量为确定的 K个 (K=8)。为了准确模拟静音片断，浊音片段以及清音片段的发音特点，系统预先收集语音数据并对模型参数进行训练。具体可以是：通过对训练语音数据集的人工切分和标注，确定静音（silence ), 浊音 ( voiced )和清音 ( unvoiced ) 的训练数据集；随后从所述各对应训练数据集中提取声学特征，如 MFCC特征；接着系统在预设的如最大似然估计（ MLE , Maximum Likelihood Estimation ) 训练准则下训练得到静音片断，浊音片断以及清音片断的模型参数。当在步骤 S112 中从语音信号中提取声学特征矢量之后，具体可以是 MFCC参数，根据所述 MFCC参数和预设 HMM模型可以识别得到静音片段段，浊音片段以及清音片段的模型序列，并且，将所述语音信号切片为：静音片段，浊音片段，和清音片段。如图 4所示预先定义的搜索网络示例，其中，每条路径都表示一种可能的静音片段，浊音片断，清音片断的组合方式。优选的，为了得到更好的切分效果，本发明实施例中可以采用对语音信号切分两遍，即：将上述步骤 S113中切分确定的语音片段作为自适应数据，更新其相应的模型参数得到新的模型；根据新的模型再次执行步骤 S113 , 从而将语音信号切分为语音片段。步骤 S114, 合并基本语音识别单元对应的语音片段得到基本考察单元的语音片段。当基本语音识别模型包括：静音识别模型，浊音识别模型和清音识别模型三种；则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，具体包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。由于步骤 S113中确定的语音片段的单元相应于音符往往过小，因而不能和筒谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并，构成基本考察单元。具体操作可以是：将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。例如： "本" 的发音 "ben" , 可以划分为清音片段 "b" 和浊音片段 "en" , "本" 字可以作为基本考察单元。或者，基本语音识别模型，包括：各音素识别模型或音节识别模型；因此，合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括：将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。通过执行上述步骤 S111~S114 实现了将语音信号切分为基本考察单元的一种具体操作。步骤 S12,根据预置的筒谱，确定筒谱中的音符与基本考察单元的对应关系。其中，对步骤 S12—种具体实现方式，如图 5所示：步骤 S121 , 获取用户输入的语音信号所对应的基本考察单元的个数 K; 步骤 S122, 获得筒谱子片断序列；

系统预先在歌曲库制作时根据原歌曲的歌词将筒谱划分为多个筒谱子片段，每个子片段可以表达完整歌词意义，例如，将《爱你一万年》这首歌中的每句歌词，作为子片段。该子片段可以是划分好存储在设备中。步骤 S123, 依次统计每个子片段中音符的个数 M;

步骤 S 124 ,判断当前子片段中音符的个数 M是否大于基本考察单元的个数 K, 步骤 S125, 如果 M大于 K, 具体可以是根据如下式子（ 1 )获得参数 r, 即对 M与 K的比值下取整，即

Γ = Μ /^ί：」（丄）步骤 S126, 将基本考察单元序列复制 r遍顺序拼接，其中，复制后的总的基本考察单元个数为 rK, 满足 rK<=M;

步骤 S127, 将复制后的 rK个基本考察单元，与筒谱子片段中的 M个音符的线性对齐方法可以参考如下式子（2 ),

NotIdxj = [j * rK / M] (2) 其中， Notldx」表示筒谱子片段组合中第 j个音符所对应基本考察单元的序号，即 r /M四舍五入取整。若步骤 S124中判断出当前音符子片段中音符个数 M是小于基本考察单元个数 K, 即 M<K时，执行步骤 S128, 判断该筒谱是否结束，如果该筒语还未结束，则执行步骤 S129, 将筒谱中后一个子片段与当前的子片段联合，与基本考察单元序列进行对应。具体的对应的方法与上述步骤 S124~S127相同。通过执行步骤 S128与 S129,使得当筒谱子片段中的音符个数小于基本考察单元的个数时，考虑将下一个子片段中音符合并，使得合并后的子片段中音符个数大于基本考察单元的个数，进行对应。若步骤 S128中判断出该筒谱结束，且此时子片段中的音符的个数小于基本考察单元的个数，执行步骤 S130, 将当前音符子片段中的音符与基本考察单元——对应后，删除未对应上的基本考察单元。对于一整首歌，设备可以以筒谱中的子片段为单位，重复上述步骤 S121-S130将整首歌中的筒谱音符与基本考察单元进行对齐。步骤 S13,根据筒谱中音符的音高，和步骤 S12中确定的筒谱中的音符与基本考察单元的对应关系，确定每个基本考察单元的目标基频值。其中，确定每个基本考察单元的目标基频值的具体操作可以是参考如下式（1 ):

^0_ ΓΜ/£? = 440* 2^{(ρ_69) 12} ( 1 )

其中， F0_mle为目标基频值， 440表示中央 C上 A音符发出的频率（单位为 HZ ), p为基本考察单元所对应的音符的音高与中央 C上 A音符的距离，单位为半音。优选的，考虑到不同发音人音域上存在差异，在演唱相同歌曲时选择的基调也往往并不一致，如果直接根据目标基频值对基本考察单元进行优化，容易导致发音变声等现象，影响合成效果。因此，本发明实施例还提供如下操作，可以根据不同发音人的音域特点对确定的目标基频值进行优化，使其自适应于发音人的发音特点。

步骤 S14, 根据发音人的音域特点，对所述基本考察单元的目标基频值进行调整。

其中，对步骤 S14—种具体实现方式，如图 6所示：步骤 S141 , 对确定的每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的对应基频值；其中，步骤 S141中对确定的每个基本考察单元的目标基频值进行升降调处理，是为了获取更广音域的基频序列。具体的升降调处理可以包括：遍历 -N-+N (单位为半音）基调，结合之前生成的 F0_mle, 参考如下式（2 ), 得到新的基频 F0_new_bt:

F0 _ new_bt = F0 _ rule * 2^b"^w ( 2 )

因此，进行升降调处理后的每个基本考察单元都得到了 2N+1个调整基频值，其中， bt的取值为（-N~+N )。考虑计算量和计算效果，本实施例中优选的设置参数 N为 15, 但是不应该理解为对本发明实施例的限制。步骤 S142, 获取不同基调下的基本考察单元序列的调整基频值序列；步骤 S143, 提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值 F0_ nat；步骤 S144, 获取基本考察单元序列的语音片段的基频特征值序列；步骤 S145, 计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；即参考式 (3 )所示，

RMSEbt =∑ [F0 _ new_bti -F0_ nat] ( 3 )

^¾^^表示在确定基调 bt 下的调整基频值序列和基频特征值序列的差值，其中 K表示基本考察单元的个数， F0_new_bt, ,是第 i个基本考察单元的调整基频值， i是第 i个基本考察单元的语音片段的基频特征值。 bt的取值为（-N~+N)。步骤 S146,根据步骤 S145中计算出的差值，选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值，记为 F0_use。通过执行上述步骤 S141至步骤 S146,使得本发明实施例提供的方法可以根据不同发音人的音域特点对确定的目标基频值进行优化，使其自适应于发音人的发音特点，从而提供更好的用户体验。步骤 S15,根据筒谱中音符的节拍数，和步骤 S12中确定的筒谱中的音符与基本考察单元的对应关系，确定每个基本考察单元的目标时长。其中，步骤 S15的具体操作参考图 7a所示，可以包括：步骤 S151, 根据筒谱中音符的节拍数，和步骤 S12中获取的筒谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数。需要理解的是，计算每个基本考察单元对应的节拍数，可以是根据基本考察单元和筒谱中音符的对应关系，和筒谱中音符的节拍数，统计获得每个基本考察单元对应的节拍数。如图 7b所示，例如：假设 "雪"音节对应音符 "2", 则 "雪" 对应的节拍数为 1/2拍。步骤 S152, 根据确定的每个基本考察单元对应的节拍数，和筒谱中描述的节奏，获取每个基本考察单元的目标时长。

其中，获取每个基本考察单元的目标时长的具体操作，可以参考式（4 ) 所示，计算获得。 d _ use = 60/ tempo * d _ note ( 4 ) 其中， d_use为基本考察单元的目标时长，单位为秒， tempo为筒谱中描述的节奏，即每分钟含有的拍数， d_note为步一统计得到的所述基本考察单元对应的节拍数。步骤 S16,对输入的语音进行调整，使得调整后的语音的基频为获取的目标基频，调整后的语音的时长为目标时长。其中，步骤 S16的具体操作可以是采用 PSOLA算法对输入的语音进行时长和基频的调整，使各基本考察单元的语音片段均满足各自对应的所述的目标时长 d_use和目标基频 F0 _use的调整目标。若未对获取的目标基频值进行优化，也可将未优化的目标基频值作为调整的标准。

本发明实施例提供的一种实现语音歌唱化的方法，在确定筒谱中的音符与基本考察单元的对应关系后，可以根据筒谱中各音符的音高，和筒谱中各音符的节拍数，确定每个基本考察单元的目标基频值，和每个基本考察单元的目标时长；随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值，调整后的语音的时长为确定的目标时长。因此，该方法通过对输入的语音信号波形直接进行调整，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换；也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。进一步，本发明实施例提供的技术方案，可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。

再次，本发明实施例提供的技术方案，可以实现自动语音切分，避免了传统人工切分的负担，不受语种的限制，具有更普遍的娱乐效果。实施例三如图 8所示，一种实现语音歌唱化的装置示意筒图，该装置可以包括：接收单元 801 , 切分单元 802, 获取对应关系单元 803 , 获取基频单元 804, 获取时长单元 805 , 和调整单元 806; 接收单元 801 , 用于接收用户输入的语音信号；

所述切分单元 802, 用于将所述语音信号切分获得各基本考察单元的语音片断；

所述获取对应关系单元 803 , 用于确定筒谱中的各音符与所述各基本考察单元的对应关系；

所述获取基频单元 804,用于根据筒谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；

所述获取时长单元 805 , 用于根据筒谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；

所述调整单元 806, 用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

本发明实施例提供的一种实现语音歌唱化的装置，在确定筒谱中的音符与基本考察单元的对应关系后，可以根据筒谱中各音符的音高，和筒谱中各音符的节拍数，确定每个基本考察单元的目标基频值，和每个基本考察单元的目标时长；随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值，调整后的语音的时长为确定的目标时长。因此，该方法通过对输入的语音信号波形直接进行调整，避免了多次信号转换的损失；且本发明实施例提供的技术方案，可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换；也就是说本案不局限于对特定歌曲的歌词输入，而是允许用户输入任意内容，实现任意歌曲的转换。进一步，如图 9所示，所述切分单元 802还可以包括：

提取单元 8021 , 确定单元 8022, 和合并单元 8023;

所述提取单元 8021 , 用于从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

其中，语音信号中逐帧提取语音声学特征矢量具体可以：是提取语音的

Mel频率倒谱系数（MFCC, Mel Frequency Cepstrum Coefficient )特征，对窗长 25ms帧移 10ms的每帧语音数据做短时分析得到 MFCC参数及其一阶二阶差分，共计 39维度。因此，在设备的緩沖区的语音段表征为一 39维特征序列。所述确定单元 8022, 用于对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段；

需要理解的是，人的发音过程可以看作是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和语言需要（不可观测的状态）发出的音素的参数流。现有技术中，通过隐马尔可夫模型（ HMM, Hidden Markov Model )可以合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是一种理想的语音信号模型。在本发明实施例采用 HMM来模拟静音片段，浊音片段以及清音片段的发音特点。对每个模型分别定义从左到右不可跳转的 N (本方案中可以采用 N=3 )状态 HMM模型，且可以确定每个状态的高斯分量为确定的 K个 (K=8)。为了准确模拟静音片断，浊音片段以及清音片段的发音特点，系统预先收集语音数据并对模型参数进行训练。具体可以是：通过对训练语音数据集的人工切分和标注，确定静音（silence ), 浊音（voiced )和清音（unvoiced ) 的训练数据集；随后从所述各对应训练数据集中提取声学特征，如 MFCC特征；接着系统在预设的如最大似然估计（ MLE , Maximum Likelihood Estimation ) 训练准则下训练得到静音片断，浊音片断以及清音片断的模型参数。当在从语音信号中提取声学特征矢量之后，具体可以是 MFCC参数，根据所述 MFCC参数和预设 HMM模型可以识别得到静音片段段，浊音片段以及清音片段的模型序列，并且，将所述语音信号切片为：静音片段，浊音片段, 和清音片段。

如图 4所示预先定义的搜索网络示例，其中，每条路径都表示一种可能的静音片段，浊音片断，清音片断的组合方式。

所述合并单元 8023; 用于合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。

当基本语音识别模型包括：静音识别模型，浊音识别模型和清音识别模型三种；则合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，具体包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。

由于确定的语音片段的单元相应于音符往往过小，因而不能和筒谱的音符很好的对应。本发明实施例还考虑根据实际需要对模型语音片断进行合并，构成基本考察单元。具体操作可以是：将每个浊音片断和其之前的清音片断合并构成新的基本考察单元。

例如： "本"的发音 "ben", 可以划分为清音片段 "b"和浊音片段" en", "本" 字可以作为基本考察单元。或者，基本语音识别模型，包括：各音素识别模型或音节识别模型；因此，合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括：将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。

进一步，如图 10所示，所述获取对应关系单元 803具体包括：第一统计单元 8031 , 第一获取单元 8032, 第二统计单元 8033 , 第一判断单元 8034, 第二获取单元 8035 , 复制单元 8036, 对齐单元 8037; 所述第一统计单元 8031 , 用于获取用户输入的语音信号所对应的基本考察单元的个数 K;

所述第一获取单元 8032, 用于获得筒谱子片断序列；

所述第二统计单元 8033 , 用于依次统计每个子片段中音符的个数 M; 所述第一判断单元 8034 , 用于判断当前子片段中音符的个数 M是否大于所述基本考察单元个数 K;

所述第二获取单元 8035 , 用于如果 M大于 K, 根据如下式子获取参数 r,

r = LM / _JS：」所述复制单元 8036, 用于将基本考察单元序列复制 r遍顺序拼接，其中，复制后的总的基本考察单元个数为 rK, 满足 rK<=M;

所述对齐单元 8037, 用于将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符进行线性对齐。优选的，所述对齐单元 8037, 具体用于根据公式： NotId_Xj =、j K IM , 将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符，进行线性对齐；

所述 NotldX j表示筒谱子片段中第 j个音符所对应基本考察单元的序号。优选的，所述装置还包括：第二判断单元，

所述第二判断单元，用于判断所述筒谱是否结束；所述对齐单元 8037 , 具体用于若所述筒谱未结束，将所示筒谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；若判断所述筒谱结束，将当前音符子片段中的音符与基本考察单元——对应后删除未对应上的基本考察单元。优选的，所述获取基频单元：具体用于根据公式

^0_ m/_e = 440* 2^(p-^69)/12 , 计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中 F0_mle为目标基频值， 440表示中央 C上 A音符发出的频率， p为当前筒谱中标注的音高与中央 C上 A音符的距离。优选的，如图 11所示，所述装置还包括：调整基调单元 807, 用于根据发音人的音域特点，对所述获取的目标基频值进行调整；

所述调整基调单元 807具体包括：第三获取单元 8071 ,第四获取单元 8072, 生成单元 8073 , 第五获取单元 8074, 第六获取单元 8075 , 选择单元 8076; 第三获取单元 8071 , 用于对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；第四获取单元 8072, 用于获取在不同基调下的基本考察单元序列的调整基频值序列；生成单元 8073 , 用于提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；第五获取单元 8074, 用于获取基本考察单元序列的语音片段的基频特征值序列；第六获取单元 8075 , 用于计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；

选择单元 8076, 用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

优选的，如图 12所示，所述获取时长单元 805具体包括：获取节拍数单元 8051 , 和获取目标单元 8052,

所述获取节拍数单元 8051 , 用于根据筒谱中音符的节拍数，和所述筒谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，所述获取目标单元 8052, 用于根据获取的每个基本考察单元对应的节拍数，和所述筒谱中描述的节奏，获取每个基本考察单元的目标时长。

再次，本发明实施例提供的技术方案，可以实现自动语音切分，避免了传统人工切分的负担，不受语种的限制，具有更普遍的娱乐效果。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括： ROM、 RAM, 磁盘或光盘等。

以上对本发明实施例所提供的种实现语音歌唱化的方法和装置，进行了详实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种实现语音歌唱化的方法，其特征在于，所述方法包括：

接收用户输入的语音信号；

将所述语音信号切分获得各基本考察单元的语音片断；

2、根据权利要求 1所述的方法，其特征在于，所述将所述语音信号切分获得各基本考察单元的语音片断，具体包括：

从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段；

合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。

3、根据权利要求 2所述的方法，其特征在于，

所述基本语音识别模型，包括：静音识别模型，浊音识别模型和清音识别模型三种；

所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括：将浊音片断和清音片断合并构成基本考察单元的语音片断。

4、根据权利要求 2所述的方法，其特征在于，

所述基本语音识别模型，包括：各音素识别模型或音节识别模型；所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括：将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。

5、根据权利要求 1所述的方法，其特征在于，所述根据预置的筒谱，确定筒谱中的音符与基本考察单元的对应关系，具体包括：

获取用户输入的语音信号所对应的基本考察单元的个数 K;

获得筒谱子片断序列；

依次统计每个子片段中音符的个数 M;

判断当前子片段中音符的个数 M是否大于所述基本考察单元个数 K, 如果 M大于 K, 根据如下式子获取参数 r,

r = LM / _JS：」

将基本考察单元序列复制 r遍顺序拼接，其中，复制后的总的基本考察单元个数为 rK, 满足 rK<=M;

将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符进行线性对齐。

6、根据权利要求 5所述的方法，其特征在于，所述将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符，进行线性对齐，具体包括：根据公式： Nothhj =、j * ^rK l ^M , 将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符，进行线性对齐；

所述 NotldX j表示筒谱子片段中第 j个音符所对应基本考察单元的序号。

7、根据权利要求 5所述的方法，其特征在于，当判断当前音符子片段中音符总个数 M小于基本考察单元个数 K, 即 M<K时，所述方法还包括：

判断所述筒谱是否结束，如果未结束，将所示筒谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；

若判断所述筒谱结束，将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单元。

8、根据权利要求 1所述的方法，其特征在于，所述根据筒谱中各音符的音高，和所述对应关系，确定其所对应的基本考察单元的目标基频值，包括：根据公式^- ^^ ^{= 44()}* ²^⁶⁹)^/12 , 计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中 F0_mle为目标基频值， 440 表示中央 C上 A音符发出的频率， p为当前筒谱中标注的音高与中央 C上 A 音符的距离。

9、根据权利要 8所述的方法，其特征在于，在获取基本考察单元的目标基频值后，还包括：

根据发音人的音域特点，对所述基本考察单元的目标基频值进行调整；在获取基本考察单元的目标基频值后，还根据发音人的音域特点，对所述基本考察单元的目标基频值进行优化，具体包括：

对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；获取在不同基调下的基本考察单元序列的调整基频值序列；

提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；

获取基本考察单元序列的语音片段的基频特征值序列；计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

10、根据权利要求 1所述的方法，其特征在于，所述根据筒谱中音符的节拍数，和所述对应关系，确定其所对应的基本考察单元的目标时长，具体包括：根据筒谱中音符的节拍数，和所述筒谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，根据获取的每个基本考察单元对应的节拍数，和所述筒谱中描述的节奏，获取每个基本考察单元的目标时长。

11、一种实现语音歌唱化的装置，其特征在于，该装置包括：接收单元，切分单元，获取对应关系单元，获取基频单元，获取时长单元，和调整单元；所述接收单元，用于接收用户输入的语音信号；

所述切分单元，用于将所述语音信号切分获得各基本考察单元的语音片断；所述获取对应关系单元，用于确定筒谱中的各音符与所述各基本考察单元的对应关系；

12、根据权利要求 11所述的装置，其特征在于，所述切分单元包括：提取单元，确定单元，和合并单元；

所述提取单元，用于从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；

所述确定单元，用于对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段；

所述合并单元；用于合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。

13、根据权利要求 12所述装置，其特征在于，

14、根据权利要求 12所述装置，其特征在于，

15、根据权利要求 11所述的装置，其特征在于，所述获取对应关系单元具体包括：第一统计单元，第一获取单元，第二统计单元，第一判断单元，第二获取单元，复制单元，对齐单元；所述第一统计单元，用于获取用户输入的语音信号所对应的基本考察单元的个数 K;

所述第一获取单元，用于获得筒谱子片断序列；

所述第二统计单元，用于依次统计每个子片段中音符的个数 M;

所述第一判断单元，用于判断当前子片段中音符的个数 M是否大于所述基本考察单元个数 K;

所述第二获取单元，用于如果 M大于 K, 根据如下式子获取参数 r, r = LM / _JS：」

所述复制单元，用于将基本考察单元序列复制 r遍顺序拼接，其中，复制后的总的基本考察单元个数为 rK, 满足 rK<=M;

所述对齐单元，用于将所述复制后的 rK个基本考察单元，与所述筒谱子片段中的 M个音符进行线性对齐。

16、根据权利要求 15所述装置，其特征在于，所述对齐单元，具体用于根据公式： Notldxj ^ rK /M , 将所述复制后的 _rK个基本考察单元，与所述筒谱子片段中的 M个音符，进行线性对齐；

17、根据权利要求 15所述装置，其特征在于，所述装置还包括：第二判断单元，

所述第二判断单元，用于判断所述筒谱是否结束；所述对齐单元，具体用于若所述筒谱未结束，将所示筒谱中后一个子片段与当前的子片段联合，与基本考察单元进行对应；若判断所述筒谱结束，将当前音符子片段中的音符与基本考察单元——对应后删除未对应上的基本考察单元。

18、根据权利要求 11所述装置，其特征在于，所述获取基频单元：具体用于根据公式^- ^^{/£? = 44()}* ²^⁶⁹)^/12 ,计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中 F0_mle为目标基频值， 440表示中央 C上 A音符发出的频率， p为当前筒语中标注的音高与中央 C上 A音符的距离。

19、根据权利要求 18所述装置，其特征在于，所述装置还包括：调整基调单元，用于根据发音人的音域特点，对所述获取的目标基频值进行调整；所述调整基调单元具体包括：第三获取单元，第四获取单元，生成单元，第五获取单元，第六获取单元，选择单元；

第三获取单元，用于对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；

第四获取单元，用于获取在不同基调下的基本考察单元序列的调整基频值序列；

生成单元，用于提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；

第五获取单元，用于获取基本考察单元序列的语音片段的基频特征值序列；

第六获取单元，用于计算不同基调下的基本考察单元序列的调整基频值序列，与提取的基本考察单元序列的语音片断的基频特征值序列之间的差值；选择单元，用于选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。

20、根据权利要求 11所述的装置，其特征在于，所述获取时长单元具体包括：获取节拍数单元，和获取目标单元，

所述获取节拍数单元，用于根据筒谱中音符的节拍数，和所述筒谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，

所述获取目标单元，用于根据获取的每个基本考察单元对应的节拍数，和所述筒谱中描述的节奏，获取每个基本考察单元的目标时长。