WO2022227208A1

WO2022227208A1 - 模型训练方法、动作姿态生成方法、装置、设备及介质

Info

Publication number: WO2022227208A1
Application number: PCT/CN2021/097207
Authority: WO
Inventors: 亢祖衡; 彭俊清; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-04-26
Filing date: 2021-05-31
Publication date: 2022-11-03
Also published as: CN113221681A; CN113221681B

Abstract

一种模型训练方法、动作姿态生成方法、装置、设备及介质，涉及人工智能中的机器学习技术领域。所述方法包括：训练动作姿态生成模型，获取机器人生成动作姿态所对应的语音信息并进行特征提取及特征融合以生成多个融合特征向量；对每个融合特征向量与机器人初始姿态自回归向量进行特征融合以生成控制输入向量；将随机生成的潜在输入向量及控制输入向量输入动作姿态生成模型以生成机器人姿态动作向量；更新预设初始姿态动作向量集中的机器人姿态动作向量，并将预设初始姿态动作向量集作为目标姿态动作向量集，根据目标姿态动作向量集生成机器人动作姿态。

Description

模型训练方法、动作姿态生成方法、装置、设备及介质

本申请要求于2021年04月26日提交中国专利局、申请号为CN202110455733.4、申请名称为“模型训练方法、动作姿态生成方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能中的机器学习技术领域，尤其涉及一种模型训练方法、动作姿态生成方法、装置、设备及介质。

背景技术

生物学家在大量的观察和实验基础上发现人们通过对肢体动作的控制会影响着人类传达出的喜怒哀乐等感情，并且每一个表情的细节都在传达具有个人特色的隐含信息，与此同时，每个人的肢体动作与说话人使用的语言和语音特点的个性有极强的关联性和共性。目前，驱动机器人或动画人物模拟人体的动作姿态仍旧有诸多不足，例如，需要使用专业设备采集现有说话人的动作姿态，或者是基于历史存取的肢体动作姿态仓库相互进行生硬拼接，这使得动作姿态的生成不仅成本高，而且生成效果较差。

发明内容

本申请实施例提供了一种模型训练方法、动作姿态生成方法、装置、设备及介质，旨在解决现有肢体动作姿态生成成本高且效果不佳的问题。

第一方面，本申请实施例提供了一种模型训练方法，其包括：获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。

第二方面，本申请实施例提供了一种动作姿态生成方法，其包括：获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。

第三方面，本申请实施例还提供了一种模型训练装置，其包括：第一特征融合单元，用于获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；第二特征融合单元，用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；输入单元，用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；训练单元，用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。

第四方面，本申请实施例还提供了一种动作姿态生成装置，其包括：第一特征提取融合单元，用于获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；第二特征提取融合单元，用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；第一生成单元，用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求7所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；更新返回单元，用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；第二生成单元，用于将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。

第五方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的模型训练方法。

第六方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述第二方面所述的动作姿态生成方法。

第七方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述第一方面所述的模型训练方法。

第八方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述第二方面所述的动作姿态生成方法。

本申请实施例提供了一种模型训练及动作姿态生成方法、装置、计算机设备及存储介质。本申请实施例的技术方案，在整个动作姿态的生成中，因无需专用的动作姿态采集设备，而是直接将语音信息进行一系列处理之后输入训练好的动作姿态生成模型生成姿态动作向量，因此可节约动作姿态生成的成本及提高动作姿态生成的效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种模型训练方法的流程示意图；

图2为本申请实施例提供的一种模型训练方法的子流程示意图；

图3为本申请实施例提供的一种模型训练方法的子流程示意图；

图4为本申请一实施例提供的一种动作姿态生成方法的流程示意图；

图5为本申请实施例提供的一种模型训练装置的示意性框图；

图6为本申请实施例提供的模型训练装置的第一特征提取融合单元的示意性框图；

图7为本申请实施例提供的模型训练装置的第一特征提取单元的示意性框图；

图8为本申请实施例提供的模型训练装置的训练单元的示意性框图；

图9为本申请一实施例提供的一种动作姿态生成装置的示意性框图；

图10为本申请一实施例提供的一种动作姿态生成装置的第二生成单元的示意性框图；以及

图11为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本申请实施例提供的一种模型训练方法的流程示意图。本申请实施例的模型训练方法可应用于服务器中，例如可通过配置于服务器上的软件程序来实现该模型训练方法。下面对所述模型训练方法进行详细说明。如图1所示，该方法包括以下步骤S100-S130。

S100、获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量。

在本申请实施例中，对动作姿态生成模型的训练，首先需要获取训练动作姿态生成模型所需的训练数据集，其中，所述训练数据集为开源的Trinity数据集或Ted数据集，Trinity数据集或Ted数据集中均包括语音数据及文字数据；获取所述开源的Trinity数据集或Ted数据集之后，将所述开源的Trinity数据集或Ted数据集转换为多个预设时间长度的数据片段，对每个所述数据片段中的语音数据进行特征提取以分别得到语音特征向量及声纹特征向量，对每个所述数据片段中的文字数据进行特征提取得到文本特征向量，之后再将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。在实际应用中，假设在时间t下，所述语音特征向量为a _t＝{a _t,1,a _t,2,...}，所述文本特征向量为w _t＝{w _t,1,w _t,2,...}，所述声纹特征向量为p，进行拼合操作后，所述融合特征向量为c _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p}。

需要说明的是，在本申请实施例中，每个所述数据片段中除了包括语音数据和文字数据，还包括姿态动作数据，所述姿态动作数据为姿态动作向量，所述姿态动作向量与所述融合特征向量进行特征融合后可生成控制输入向量以供后续步骤使用。

请参阅图2，在一实施例中，例如在本实施例中，所述步骤S100包括如下步骤S101-S105。

S101、获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段；

S102、对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；

S103、对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；

S104、通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量；

S105、将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。

在本申请实施例中，获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量。具体地，先从开源的Trinity数据集或Ted数据集中获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段，其中，每个数据片段中均包含有语音数据及带有时间戳的文字数据；然后对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量；最后将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。可理解地，之所以将所述训练数据集转换为多个预设时间长度的数据片段是为方便动作姿态模型的训练。

S110、提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量。

在本申请实施例中，对所述训练数据集中的训练数据进行特征提取及第一次特征融合生成融合特征向量之后，会提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，具体地，是提取每个所述数据片段中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行拼合操作以生成控制输入向量。在实际应用中，假设在时间t下，所述融合特征向量为c _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p}，在时间t-τ到时间t-1这一预设时间段内的姿态动作向量为reg _{(t-τ)～(t-1)}＝{x _t-τ,...,x _t-1}，则经过拼合操作之后，所述控制输入向量为cond _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p,x _t-τ,...,x _t-1}。

S120、提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻。

在本申请实施例中，对所述姿态自回归向量及所述融合特征向量进行第二次特征融合生成控制输入向量之后，将所述训练数据中预设时间对应的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量一起输入流模型以得到输出向量。其中，流模型是一个可微且可逆的模型，该模型可训练出与所述姿态输入向量及所述控制输入向量较为接近的数据分布。在实际应用中，假设所述预设时刻为t，则所述预设时间段为t-τ至t-1，将所述训练数据中预设时刻t对应的所述姿态动作向量作为姿态输入向量x _t，并将所述姿态输入向量x _t及所述控制输入向量cond _t一起输入流模型生成输出向量Z，该输出向量Z呈高斯分布，在后续步骤中，基于生成的输出向量Z对流模型经过预设次数的训练后可得到动作姿态生成模型。

S130、基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。

在本申请实施例中，将所述姿态输入向量及所述控制输入向量输入流模型得到输出向量之后，基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。具体地，首先计算所述输出向量的负对数似然概率，用负对数似然概率来评价输出向量是否呈高斯分布，并将计算出的所述负对数似然概率作为所述流模型的损失函数，根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。在实际应用中，经过预设训练次数后才生成动作姿态生成模型，并且随着预设训练次数的增多，损失函数越来越小，表明动作姿态生成模型越来越好。

请参阅图3，在一实施例中，例如在本实施例中，所述步骤S130包括如下步骤S131-S132。

S131、计算所述输出向量的负对数似然概率，并将所述负对数似然概率作为所述流模型的损失函数；

S132、根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。

在本申请实施例中，基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型，具体地，首先计算所述输出向量的负对数似然概率，通过负对数似然概率来评价输出向量是否呈高斯分布，然后将所述负对数似然概率作为所述流模型的损失函数，根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。之所以根据损失函数对流模型流模型进行训练是因为损失函数可评价模型性能的好坏，损失函数的值越小，代表该模型性能越好，即生成的动作姿态生成模型越好。

请参阅图4，图4是本申请实施例提供的一种动作姿态生成方法的流程示意图。本申请实施例的动作姿态生成方法可应用于机器人终端中，例如可通过配置于机器人终端上的软件程序来实现该动作姿态生成方法，从而可节约动作姿态生成的成本及提高动作姿态生成的效果。下面对所述动作姿态生成方法进行详细说明。如图4所示，该方法包括以下步骤S200-S240。

S200、获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量。

在本申请实施例中，当动作姿态模型训练好之后，会基于该模型进行机器人动作姿态的生成，具体为，首先获取机器人生成动作姿态所对应的语音信息；然后将所述语音信息经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；通过语音识别模型将所述语音信息转换为文字，使用Gentle工具将所述文字打上时间戳，将含有时间戳的所述文字使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；通过TDNN模型对所述语音信息进行提取以得到声纹特征向量；最后根据所述语音特征向量、所述文本特征向量以及所述声纹特征向量生成多个逐帧对齐的融合特征向量。在实际应用中，是通过拼合操作将所述语音特征向量、所述文本特征向量以及所述声纹特征向量拼合成多个逐帧对齐的融合特征向量。假设在时间t下，所述语音特征向量为a _t＝{a _t,1,a _t,2,...}，所述文本特征向量为w _t＝{w _t,1,w _t,2,...}，所述声纹特征向量为p，进行拼合操作后，所述融合特征向量为c _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p}。

S210、对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量。

在本申请实施例中，对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量之后，对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量，特征融合为拼合操作，即将所述姿态自回归向量与所述融合特征向量之进行拼接，例如，在时间t下，若所述融合特征向量为c _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p}，在时间t-τ到时间t-1这一预设时间段内的机器人姿态动作向量为reg _{(t-τ)～(t-1)}＝{x _t-τ,...,x _t-1}，则经过拼合操作之后，所述控制输入向量为cond _t＝{a _t,1,a _t,2,...,w _t,1,w _t,2,...,p,x _t-τ,...,x _t-1}。

S220、随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入动作姿态生成模型以生成当前时间的机器人姿态动作向量。

S230、更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止。

在本申请实施例中，生成所述控制输入向量cond _t之后，随机生成一个呈高斯分布潜在输入向量Z，并将所述控制输入向量cond _t及所述潜在输入向量Z输入动作姿态生成模型以生成当前时间t的机器人姿态动作向量x _t。更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量x _t，并将下一时间t+1作为所述当前时间t，返回执行步骤S210直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止，此时的所述预设初始姿态动作向量集即为所求的姿态动作向量集。在具体的生成过程中，我们将机器人姿态动作的生成过程定义为函数f，它可将呈高斯分布的潜在输入向量Z通过不断的迭代映射转换为一个呈高斯分布的动作姿态向量X，动作姿态向量X为机器人的肢体动作。

S240、将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。

在本申请实施例中，将所述预设初始姿态动作向量集作为目标姿态动作向量集，并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。在实际应用中，机器人自己说话，即发出语音信息，然后机器人自身获取该语音信息并经过一系列的处理之后生成所述目标姿态动作向量集，通过所述目标姿态动作向量集驱动机器人的骨骼节点，其中，骨骼节点包括脊椎、颈部、鼻子、头部、右肩、左肩、右肘、左肘、右手腕、左手腕等，从而生成与所述语音信息相应的动作姿态。例如，迎宾机器人说：欢迎光临，即发出语音信息，同时采集该条语音信息，经过一系列处理之后，同时做出请的姿势，即生成相应的动作姿态。

图5是本申请实施例提供的一种模型训练装置200的示意性框图。如图5所示，对应于以上模型训练方法，本申请还提供一种模型训练装置200。该模型训练装置200包括用于执行上述模型训练方法的单元，该装置可以被配置于服务器中。具体地，请参阅图5，该模型训练装置200包括第一特征融合单元201、第二特征融合单元202、输入单元203以及训练单元204。

其中，所述第一特征融合单元201用于获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；所述第二特征融合单元202用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；所述输入单元203用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；所述训练单元204用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。

在某些实施例，例如本实施例中，如图6所示，所述第一特征融合单元201包括转换单元2011、第一特征提取单元2012以及融合单元2013。

其中，所述转换单元2011用于获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段；所述第一特征提取单元2012用于对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量；所述融合单元2013用于将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。

在某些实施例，例如本实施例中，如图7所示，所述第一特征提取单元2012包括第二特征提取单元20121、第三特征提取单元20122以及第四特征提取单元20123。

其中，所述第二特征提取单元20121用于对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；所述第三特征提取单元20122用于对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；所述第四特征提取单元20123用于通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。

在某些实施例，例如本实施例中，如图8所示，所述训练单元204包括计算单元2041及训练子单元2042。

其中，所述计算单元2041用于计算所述输出向量的负对数似然概率，并将所述负对数似然概率作为所述流模型的损失函数；所述训练子单元2042用于根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。

图9是本申请实施例提供的一种动作姿态生成装置300的示意性框图。如图9所示，对应于以上动作姿态生成方法，本申请还提供一种动作姿态生成装置300。该动作姿态生成装置300包括用于执行上述动作姿态生成方法的单元，该装置可以被配置于机器人终端中。具体地，请参阅图9，该动作姿态生成装置300包括第一特征提取融合单元301、第二特征提取融合单元302、第一生成单元303、更新返回单元304以及第二生成单元305。

其中，所述第一特征提取融合单元301用于获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；所述第二特征提取融合单元302用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；所述第一生成单元303用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入动作姿态生成模型以生成当前时间的机器人姿态动作向量；所述更新返回单元304用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；所述第二生成单元305用于将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。

在某些实施例，例如本实施例中，如图10所示，所述第二生成单元305包括生成子单元3051。

其中，所述生成子单元3051用于将所述预设初始姿态动作向量集作为目标姿态动作向量集，并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。

上述模型训练和动作姿态生成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为服务器或者机器人终端，具体地，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括存储介质303和内存储器304。

该存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时，可使得处理器302执行一种模型训练方法，基于该模型训练方法训练的动作姿态模型，也可使得处理器302执行一种动作姿态生成方法。

该处理器302用于提供计算和控制能力，以支撑整个计算机设备300的运行。

该内存储器304为存储介质303中的计算机程序3032的运行提供环境，该计算机程序3032被处理器302执行时，以实现本申请实施例的模型训练方法，基于该模型训练方法训练的动作姿态模型，以实现本申请实施例的动作姿态生成方法。

该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体的计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(Central Processing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行以实现本申请实施例的模型训练方法，基于该模型训练方法训练的动作姿态模型，以实现本申请实施例的动作姿态生成方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种模型训练方法，包括：

获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；

提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；

提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；

基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
根据权利要求1所述的方法，其中，所述获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量，包括：

获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段；

对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量；

将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
根据权利要求2所述的方法，其中，所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量，包括：

对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；

对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；

通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
根据权利要求1所述的方法，其中，所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型，包括：

计算所述输出向量的负对数似然概率，并将所述负对数似然概率作为所述流模型的损失函数；

根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
一种动作姿态生成方法，包括：

获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；

对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；

随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；

更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；

将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
根据权利要求5所述的方法，其中，所述将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态，包括：

将所述预设初始姿态动作向量集作为目标姿态动作向量集，并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
一种模型训练装置，包括：

第一特征融合单元，用于获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；

第二特征融合单元，用于提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；

输入单元，用于提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；

训练单元，用于基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
一种动作姿态生成装置，包括：

第一特征提取融合单元，用于获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；

第二特征提取融合单元，用于对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；

第一生成单元，用于随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求7所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；

更新返回单元，用于更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；

第二生成单元，用于将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
一种计算机设备，包括存储器以及与所述存储器相连的处理器；其中，所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如下步骤：

获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；

提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；

提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；

基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
根据权利要求9所述的计算机设备，其中，所述获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量，包括：

获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段；

对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量；

将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
根据权利要求10所述的计算机设备，其中，所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量，包括：

对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；

对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；

通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
根据权利要求9所述的计算机设备，其中，所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型，包括：

计算所述输出向量的负对数似然概率，并将所述负对数似然概率作为所述流模型的损失函数；

根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
一种计算机设备，包括存储器以及与所述存储器相连的处理器；其中，所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如下步骤：

获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；

对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；

随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；

更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；

将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
根据权利要求13所述的计算机设备，其中，所述将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态，包括：

将所述预设初始姿态动作向量集作为目标姿态动作向量集，并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量；

提取所述训练数据中预设时间段内的姿态动作向量作为姿态自回归向量，并对所述姿态自回归向量及所述融合特征向量进行第二次特征融合以生成控制输入向量；

提取所述训练数据中预设时刻的所述姿态动作向量作为姿态输入向量，并将所述姿态输入向量及所述控制输入向量输入流模型以得到输出向量，其中，所述预设时刻为所述预设时间段中结束时刻的下一时刻；

基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型。
根据权利要求15所述的计算机可读存储介质，其中，所述获取训练动作姿态生成模型所需的训练数据集，并对所述训练数据集中的训练数据进行特征提取及第一次特征融合以生成融合特征向量，包括：

获取训练动作姿态生成模型所需的训练数据集，并将所述训练数据集转换为多个预设时间长度的数据片段；

对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量；

将所述语音特征向量、所述文本特征向量以及所述声纹特征向量进行拼合操作以生成融合特征向量。
根据权利要求16所述的计算机可读存储介质，其中，所述对每个所述数据片段中的训练数据进行特征提取以得到语音特征向量、文本特征向量以及声纹特征向量，包括：

对每个所述数据片段中的语音数据经过分帧加窗后提取梅尔频谱，并将所述梅尔频谱作为语音特征向量；

对每个所述数据片段中的文字数据使用Fasttext工具逐帧对文本的词向量进行提取以得到文本特征向量；

通过TDNN模型对每个所述数据片段中的所述语音数据进行提取以得到声纹特征向量。
根据权利要求15所述的计算机可读存储介质，其中，所述基于所述输出向量对所述流模型进行训练以得到所述动作姿态生成模型，包括：

计算所述输出向量的负对数似然概率，并将所述负对数似然概率作为所述流模型的损失函数；

根据所述损失函数对所述流模型进行训练以得到所述动作姿态生成模型。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

获取机器人生成动作姿态所对应的语音信息，并对所述语音信息进行特征提取及第一次特征融合以生成多个逐帧对齐的融合特征向量；

对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量，其中，所述机器人初始姿态自回归向量为从预设初始姿态动作向量集中提取的预设时间段内的机器人姿态动作向量；

随机生成一个呈高斯分布的潜在输入向量并将所述潜在输入向量及所述控制输入向量输入如权利要求1-4任一项所述的动作姿态生成模型以生成当前时间的机器人姿态动作向量；

更新所述预设初始姿态动作向量集中所述当前时间对应的机器人姿态动作向量，并将下一时间作为所述当前时间，返回执行对每个所述融合特征向量与机器人初始姿态自回归向量进行第二次特征融合以生成控制输入向量的步骤，直至所有所述融合特征向量与所述机器人初始姿态自回归向量进行第二次特征融合为止；

将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态。
根据权利要求19所述的计算机可读存储介质，其中，所述将所述预设初始姿态动作向量集作为目标姿态动作向量集，根据所述目标姿态动作向量集生成与所述语音信息相对应的机器人动作姿态，包括：

将所述预设初始姿态动作向量集作为目标姿态动作向量集，并将所述目标姿态动作向量集中的所述动作姿态向量与所述预设的骨骼节点坐标向量一一映射以生成与所述语音信息相对应的机器人动作姿态。