WO2021057424A1

WO2021057424A1 - 基于文本的虚拟形象行为控制方法、设备和介质

Info

Publication number: WO2021057424A1
Application number: PCT/CN2020/113147
Authority: WO
Inventors: 解静; 李丕绩; 段弘
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-09-23
Filing date: 2020-09-03
Publication date: 2021-04-01
Also published as: EP3926525A4; US11714879B2; JP7210774B2; EP3926525A1; US20220004825A1; CN110598671B; CN110598671A; JP2022531855A

Abstract

公开了基于文本的虚拟形象行为控制方法、设备和介质。所述方法包括：在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量；将所述多个输入向量分别输入至第一编码网络，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置；基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容；以及播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。

Description

基于文本的虚拟形象行为控制方法、设备和介质

本申请要求于2019年9月23日提交中国专利局、申请号为201910898521.6，发明名称为“基于文本的虚拟形象行为控制方法、设备和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及人工智能的技术领域，更具体地说，涉及基于文本的虚拟形象行为控制方法、设备和介质。

背景技术

随着人工智能(Artificial Intelligence，AI)各方向不同能力的发展，大众已渐渐不满足于在实际场景中只应用某个AI能力，因此对于AI综合能力应用场景的探索也在不断推进。近些年，虚拟形象作为AI综合能力的一种展示方式，不断被大众提及。虚拟形象是指通过计算机技术，将人体结构数字化，在电脑屏幕上出现看得见的、能够调控的虚拟形象体形态。虚拟形象可以是基于真实人得到的形象，也可以是基于卡通人物得到的形象。学术界和工业界都在尝试用不同的方式构造一个能够24小时服务大众和娱乐大众的虚拟形象。

技术内容

本申请实施例提供了一种基于文本的虚拟形象行为控制方法、设备和介质，其能够在无真人驱动的情况下，控制虚拟形象做出与文本相适应的、类似真人的表情和动作。

根据本公开的一个方面，提供了一种基于文本的虚拟形象行为控制方法，包括：在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量；所述特定符号为用于表示文本分类的符号；将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置，其中，所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重；基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容；以及播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。

根据本公开的另一方面，提供了一种基于文本的虚拟形象行为控制设备，包括：向量化装置，用于在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量，所述特定符号为用于表示文本分类的符号；行为触发位置确定装置，用于将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置，其中，所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重；行为内容确定装置，用于基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容；以及行为呈现装置，用于播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。

另外，在根据本公开的设备中，所述行为触发位置确定装置进一步被配置为：针对所述第一编码网络的每一层，计算该层中与所述特定符号对应的节点的注意力向量，确定所有层的注意力向量的平均值，以得到平均注意力向量；以及基于所述平均注意力向量中数值最大的元素的索引位置，确定所述行为触发位置。

另外，在根据本公开的设备中，所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量，并且其中所述行为内容确定装置进一步被配置为：将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络；基于所述第一分类网络的输出，确定所述文本对应的行为类别；以及至少基于所述行为类别，通过特定的行为映射，确定所述行为内容。

另外，在根据本公开的设备中，所述特定的行为映射包括行为映射表，并且其中至少基于所述行为类别，通过特定的行为映射，确定所述行为内容进一步包括：在所述行为映射表中，查找与所述行为类别对应的行为内容，并将其确定为所述行为内容。

另外，在根据本公开的设备中，针对所述虚拟形象的不同应用场景，所述特定的行为映射是不同的。

另外，在根据本公开的设备中，所述第一分类网络的输出为行为预测向量，所述行为预测向量的维度与行为类别的数目相同，其中所述行为预测向量的每一个元素表示所述文本对应于相应的行为类别的概率值。

另外，在根据本公开的设备中，所述行为内容确定装置进一步被配置为通过执行以下处理来实现基于所述第一分类网络的输出，确定所述文本对应的行为类别：确定所述行为预测向量中的最大概率值；以及当所述最大概率值大于预定阈值时，将所述最大概率值对应的行为类别作为与所述文本对应的行为类别，否则，将与所述最大概率值对应的行为类别不同的特定类别确定为与所述文本对应的行为类别。

另外，在根据本公开的设备中，所述行为内容确定装置进一步被配置为：将所述多个输入向量分别输入至第二编码网络；将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络；以及基于所述第二分类网络的输出，确定所述文本对应的情感类别，其中所述行为内容确定装置进一步被配置为通过执行以下处理来实现至少基于所述行为类别，通过特定的行为映射，确定所述行为内容：基于所述行为类别和所述情感类别，通过特定的行为映射，确定所述行为内容。

另外，在根据本公开的设备中，所述行为内容包括动作内容和表情内容中的至少一个。

另外，在根据本公开的设备中，当所述行为内容包括动作内容和表情内容二者时，所述第一编码网络包括第三编码子网络和第四编码子网络，并且其中所述行为触发位置确定装置进一步被配置为：将所述多个输入向量分别输入至第三编码子网络，其中所述第三编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量，确定所述文本中的表情触发位置；以及将所述多个输入向量分别输入至第四编码子网络，其中所述第四编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量，确定所述文本中的动作触发位置。

另外，在根据本公开的设备中，所述行为呈现装置进一步被配置为：基于所述行为内容，调整所述虚拟形象的行为变化参数，使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。

另外，在根据本公开的设备中，所述行为变化参数至少包括以下之一：行为出现时间、行为结束时间、行为变化系数。

根据本公开的再一方面，公开了一种计算机设备，包括：

处理器；

与所述处理器相连接的存储器；所述存储器中存储有机器可读指令；所述机器可读指令在被处理器执行时，使得所述处理器执行如上文中所述的方法。

根据本公开的再一方面，公开了一种计算机可读存储介质，其上存储有机器可读指令，所述机器可读指令在被处理器执行时，使得所述处理器执行如上文中所述的方法。

附图简要说明

图1是图示根据本公开实施例的、基于文本的虚拟形象行为控制方法的具体过程的流程图；

图2是本申请一些实施例中所述第一编码网络的内部结构的示意图；

图3是本申请一些实施例中注意力机制的示意图；

图4示出了本申请一些实施例中第一编码网络和第一分类网络的输入输出示意图；

图5是示出了图1中的S103的具体过程的流程图；

图6是示出了根据本公开的一种实施例的虚拟形象行为控制的产品流程图；

图7示出了本申请一些实施例中表情映射表的一种示例；

图8示出了根据本公开的一种实施例的行为生成流程的示意图；

图9是图示根据本公开的实施例的基于文本的虚拟形象行为控制设备的配置的功能性框图；以及

图10是示出了根据本公开实施例的一种示例性的计算设备的架构的示意图。

具体实施方式

下面将参照附图对本申请的各个实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本申请的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本申请的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过以下实施例进行说明。

通常，构造虚拟形象的技术方案主要分为两大类。一类是真人驱动的方法。具体来说，通过动作捕获设备，捕捉真人演员的身体和表情的数据，然后使用该数据去驱动一个3D或2D虚拟形象对这些动作和表情进行展示。第二类是数据驱动的方法。具体来说，通过TTS(Text To Speech)的方式，使虚拟形象朗读输入的文本内容。然而，虚拟形象并没有任何的表情和动作展示，这仅能适用于新闻主持等极少需要表情和动作的场景。

这些虚拟形象驱动方式或者是有明显的人为驱动痕迹，或者避免动作表情等较为个性化的行为部分，都难以达到在背后无人驱动的情况下，基于文本控制虚拟形象呈现类似真人的行为。

在根据本公开的虚拟形象行为控制方法和设备中，通过数据驱动而非真人来驱动虚拟形象呈现相应的行为，因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据，再映射到虚拟形象的行为上，使得触发的行为是适合当前文本的，且与其他技术相比，该行为是丰富的。此外，由于基于预定的映射规则来确定虚拟形象呈现的行为，因此可拓展性强，可以不断地丰富行为内容，同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。

将参照图1描述根据本公开的实施例的、基于文本的虚拟形象行为控制方法的具体过程。例如，虚拟形象的具体表现形式可以是与真人相同的替身形象，也可以是完全虚拟的卡通形象。举例而言，在新闻播报的应用场景中，虚拟形象是与真实播音员相同的替身形象。作为新闻主播的虚拟形象不仅可以基于文本在短时间内生成新闻播报视频，并且能保证播报新闻内容的“零失误”，无论各种场景都能快速上岗，还能24小时不间断播报，助力媒体行业效率提升。或者，在虚拟游戏的应用场景中，作为不同游戏角色的卡通形象可以基于文本而展现丰富的行为，并且能够24小时不间断地执行其角色任务，如24小时的游戏讲解、24小时的陪聊等。

如图1所示，所述方法可以由电子设备执行，包括以下操作。

S101，在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量。

这里，文本通常为一句话。在一些实施例中，所述特定符号可以是用于表示文本分类的CLS(Classification)符号，这里，S101中插入的特定符号可以是CLS符号对应的原始向量。并且，所述特定符号在所述文本中的插入位置可以是任意的。例如，可以将所述特定符号插入在所述文本之前，也可以将所述特定符号插入在所述文本之后，或者也可以将所述特定符号插入在所述文本的中间。

在插入特定符号之后，分割所述文本中包含的各个元素。例如，所述元素可以是字，也可以是词。也就是说，可以以字为单位，对文本进行分割。或者，也可以以词为单位，对文本进行分割。然后，所述特定符号和文本中的各个元素转换为一系列能够表达文本语义的向量，即：将所述特定符号和文本中的各个元素映射或嵌入到另一个数值向量空间，从而生成对应的多个输入向量。

S102，将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。其中，与所述特定符号对应的网络节点的所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到同一层中的每一个网络节点的注意力权重。

图2示出了本申请一些实施例中所述第一编码网络的内部结构的示意图。所述第一编码网络的输入是在S101中得到的各个字/词/特定符号的原始向量，输出是各个字/词/特定符号融合了全文语义信息后的向量表示。例如，对于第一层中的第一个网络节点而言，计算与该网络节点对应的第一个元素的输入向量与其上下文各个元素的输入向量的加权和，作为该网络节点的编码向量，并且将该编码向量作为输入提供至第二层中的第一个网络节点，直至最后一层的第一个网络节点，以得到最终的融合了全文语义信息后的第一编码输出。在图2中，所述第一编码网络包括多层网络节点。当然，本公开并不仅限于此。所述第一编码网络也可以仅包括一层网络节点。

例如，作为一种可能的实施方式，所述第一编码网络可以通过BERT(Bidirectional Encoder Representations from Transformer)模型来实现。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(Representation)，然后将文本的语义表示在特定自然语言处理(Natural Language Processing，NLP)任务中作微调，最终应用于该NLP任务。

因此，BERT模型的输入是在S101中得到的文本中各个字/词的原始词向量，输出是文本中的各个字/词融合了全文语义信息后的向量表示。

BERT模型是基于注意力(attention)机制的模型。注意力机制的主要作用是让神经网络把“注意力”放在一部分输入上，即：区分输入的不同部分对输出的影响。这里，将从增强字/词的语义表示的角度来理解注意力机制。

一个字/词在一句文本中表达的意思通常与它的上下文有关。比如：光看“鹄”字，我们可能会觉得很陌生，而看到它的上下文“鸿鹄之志”后，就对它马上熟悉了起来。因此，字/词的上下文信息有助于增强其语义表示。同时，上下文中的不同字/词对增强语义表示所起的作用往往不同。比如在上面这个例子中，“鸿”字对理解“鹄”字的作用最大，而“之”字的作用则相对较小。为了有区分地利用上下文的字/词信息增强目标字/词的语义表示，就可以用到注意力机制。

图3示出了本申请一些实施例中注意力机制的示意图。在图3中，以输入的第一个元素(字、词、或特定符号)为例，描述注意力机制的计算过程。

如图3所示，将输入的第一个元素作为目标元素，并且将与第一个元素对应的第一层编码网络中的第一个网络节点作为目标网络节点。注意力机制将目标元素和上下文各个元素的语义向量表示作为输入，首先通过特定的矩阵变换获得目标元素的Query向量、上下文各个元素的Key向量以及目标元素与上下文各个元素的原始Value。具体来说，对于目标元素，基于训练后的变换矩阵W ^Q创建Query向量，并且对于目标元素与上下文各个元素，分别基于训练后的变换矩阵W ^K和W ^V创建Key向量和Value向量。例如，这些向量是通过将输入向量与3个训练后的变换矩阵W ^Q、W ^K、W ^V相乘得到的。假设提供至第一编码网络的输入为X＝(x ₁，x ₂，……，x _n)，其中第一个元素的向量为x ₁，那么与x ₁对应的Query向量q ₁、上下文各个元素的Key向量k _i以及目标元素与上下文各个元素的原始Value向量v _i可以按照以下公式来计算：

q ₁＝x ₁×W ^Q，

k _i＝x _i×W ^K，

v _i＝x _i×W ^V，

其中i为从1到n的整数。

然后，基于Query向量和Key向量，计算第一层编码网络中的第一个网络节点(即，目标网络节点)的注意力向量

其中，目标网络节点的注意力向量

中的每一个元素分别指示从目标网络节点到上下文各个网络节点(即，同一层中的每一个网络节点)的注意力权重。例如，

表示在第一层编码网络中从第一个网络节点到同一层中第i个网络节点的注意力权重。

可以通过将q ₁乘以k _i，然后再通过softmax函数归一化而得到。最后，基于注意力向量

与Value 向量V，得到目标元素的注意力输出。例如，目标网络节点的注意力输出可以按照以下公式计算：

也就是说，以与目标网络节点对应的注意力向量作为权重，加权融合向所述目标网络节点输入的目标元素的Value向量和上下文各个元素的Value向量，作为目标网络节点的编码输出，即：目标元素的增强语义向量表示。

图3中所示的注意力输出对应于图2中的第一层编码网络中的第一个网络节点的编码输出。在所述第一编码网络仅具有一层网络节点的情况下，图3中所示的注意力输出即为与输入的第一个元素对应的最终编码输出。在所述第一编码网络具有多层网络节点的情况下，将图3中所示的第一层的第一个网络节点的注意力输出作为输入提供至第二层编码网络的第一个网络节点，并且按照类似的方法，得到第二层编码网络的第一个网络节点的编码输出。然后，逐层地重复类似的处理，直至最后一层。在最后一层编码网络中的第一个网络节点的编码输出即为与输入的第一个元素对应的最终编码输出。

可见，在所述第一编码网络具有多层网络节点的情况下，对于输入的目标元素，在每一层中都计算与目标元素对应的网络节点的注意力向量。在当前层中，以与目标元素对应的网络节点的注意力向量作为权重，对输入到该层的所有向量进行加权求和，并将得到的加权和作为融合了上下文语义的、当前层的输出编码向量。然后，当前层的输出进一步作为下一层的输入，并重复相同的处理。也就是说，假设第一编码网络共有L层，且目标元素为输入的第一个元素，那么将得到与目标元素对应的L个注意力向量

所述L个注意力向量分别对应于 L层编码网络。

然后，基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。其中，与所述特定符号对应的网络节点的所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到同一层中的每一个网络节点的注意力权重。

例如，假设将所述特定符号插入在所述文本之前，那么与所述特定符号对应的网络节点即为每一层编码网络中的第一个网络节点，并且与所述特定符号对应的网络节点的注意力向量包括每一层中第一个网络节点的注意力向量。

这里，需要说明的是，如将要在下文中描述的那样，行为可以包括动作和表情中的至少一个。由于虚拟形象是基于文本来做出对应的表情或动作，因此不仅需要基于文本，确定虚拟形象应该呈现的行为的具体内容，而且还需要确定虚拟形象应该在播放至文本的哪一个元素(字/词)所对应的音频时呈现相应的行为。与虚拟形象呈现相应行为的时刻对应的、文本中的元素位置就是行为触发位置。

如上文中所述，在BERT模型中，基于注意力机制，利用上下文的字/词信息增强目标字/词的语义表示。并且，在根据本公开的BERT模型中，还进一步插入了用于表示文本分类的CLS(Classification)符号。与文本中包括的其他字/词相比，插入的CLS符号不具有明显的语义信息。从而，这个无明显语义信息的符号将会更“公平”地融合文本中各个字/词的语义信息。因此，与CLS符号对应的网络节点的注意力向量中各元素的权重值可以体现文本中各个字/词的重要性。如果注意力权重值越大，则表明对应的字/词的重要性越高。

在根据本公开的方法中，认为在文本中重要性最高的字/词位置处，控制虚拟形象呈现相应的行为是合适的。因此，将文本中重要性最高的字/词位置作为行为触发位置。由于与所述特定符号对应的网络节点的注意力向量能够体现文本中各个字/词的重要性，因此可以基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。

具体来说，当第一编码网络仅具有一层网络节点时，基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。假设所述特定符号对应于第一个输入向量，因此与所述特定符号对应的网络节点为第一个网络节点。并且，假设第一个网络节点的注意力向量A ₁＝(a ₁₁，a ₁₂，……，a _1n)，那么可以按照以下公式计算行为触发位置p：

p＝argmax _i(a _1i)

其中，该公式表示将a _1i取得最大值时的索引i赋予p。

当第一编码网络具有多层网络节点时，S102中基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置进一步包括：计算所述第一编码网络的所有层中与所述特定符号对应的节点到每一个节点的注意力向量的平均值，以得到平均注意力向量；以及基于所述平均注意力向量中数值最大的元素的索引位置，确定所述行为触发位置。

具体来说，如上文中所述，当第一编码网络具有多层网络节点时，在每一层中都存在一个与所述特定符号对应的网络节点，并且在每一层中都计算与所述特定符号对应的网络节点的注意力向量。假设第一编码网络共有L层，那么将得到与所述特定符号对应的L个网络节点的L个注意力向量

在这种情况下，首先对这L个注意力向量求平均，以获得平均注意力向量

然后，按照如下公式确定行为触发位置：

其中，该公式表示将

取得最大值时的索引i赋予p。

在上文中描述了如何基于第一编码网络确定虚拟形象的行为触发位置。在确定出虚拟形象的行为触发位置之后，还需要确定虚拟形象需要呈现的行为内容。

在S103，基于从所述第一编码网络输出的、与所述特定符号对应的编码向量，确定所述文本对应的行为内容。

如上文中所述，所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量。由于在提供至第一编码网络的输入中插入了无明显语义信息的特定符号CLS，并且这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息，因此将与该特定符号对应的第一编码向量作为整句文本的语义表示，以便用于文本分类。

图4示出了本申请一些实施例中第一编码网络和第一分类网络的输入输出示意图。并且，图5示出了图1中的S103的具体过程。

如图5所示，基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容进一步包括以下操作。

S501，如图4所示，将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量h ^CLS输入至第一分类网络(前馈神经网络+softmax)。所述第一分类网络可以是单层的神经网络，也可以是多层的神经网络。并且，当需要分类的类别有多种时，可以调整第一分类网络，使其具有更多的输出神经元，然后通过softmax函数归一化为取值范围从0到1的数值。具体地，所述第一分类网络的输出

为与行为的类别数目相同维度的行为预测向量，其中每一个元素表示所述文本对应于相应的行为类别的概率值。

假设文本序列为X＝(x ₁,x ₂,…,x _n)，其中x _i为句子X中的第i个元素(字/词)，并且在文本之前插入CLS符号，那么将CLS符号和文本所对应的向量输入到BERT模型中，可以获得与CLS符号对应的输出向量：

h ^CLS＝BERT(X)[0]

S502，基于所述第一分类网络的输出

确定行为类别。具体地，将h ^CLS作为输入向量提供至第一分类网络，并且第一分类网络可以输出文本对应于每一类行为类别的概率值：

其中，W表示第一分类网络中的网络节点权重，b为偏移常数。

中最大概率对应的类别i即为文本所属的行为类别。在图4中，示出了第5个元素的概率值最大的情况，即：i＝5。

或者，作为另一种可能的实施方式，基于所述第一分类网络的输出，确定行为类别可以包括：确定所述行为预测向量中的最大概率值；当所述最大概率值大于预定阈值时，将所述最大概率值对应的行为类别作为与所述文本对应的行为类别，否则，将与所述最大概率值对应的行为类别不同的特定类别确定为与所述文本对应的行为类别。

也就是说，在确定文本所属的行为类别时，进一步判断第一分类网络的行为预测结果的置信度。如果最大概率值

小于预定阈值，则认为第一分类网络输出的行为预测结果的置信度低。在这种情况下，不采用第一分类网络的预测结果，而是将文本所属的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。例如，所述特定类别可以是中性类别。另一方面，如果最大概率值

大于预定阈值，则认为第一分类网络输出的行为预测结果的置信度高。在这种情况下，采用第一分类网络的预测结果。

S503，至少基于所述行为类别，通过特定的行为映射，确定所述行为内容。例如，所述特定的行为映射包括行为映射表。可以通过查找预先设置的映射表，基于行为类别，确定所述行为内容。具体来说，至少基于所述行为类别，通过特定的行为映射，确定所述行为内容进一步包括：在所述行为映射表中，查找与所述行为类别对应的行为内容，并将其确定为所述行为内容。

其中，针对所述虚拟形象的不同应用场景，所述特定的行为映射是不同的。例如，与新闻场景对应的映射表将不会触发较为夸张的行为内容。

在上文中，详细描述了将文本提供至第一编码网络，并且基于第一编码网络的注意力机制，估计行为触发位置。同时，进一步将第一编码网络的输出向量输入至第一分类网络，并从第一分类网络得到文本所属的行为类别的预测结果。例如，可以采用BERT模型来实现所述第一编码网络。

上述第一编码网络、第一分类网络都是需要训练的。

对于BERT模型而言，通常采用大规模、与特定NLP任务无关的文本语料进行预训，其目标是学习语言本身应该是什么样的。这就好比我们学习语文、英语等语言课程时，都需要学习如何选择并组合我们已经掌握的词汇来生成一篇通顺的文本。回到BERT模型上，其预训过程就是逐渐调整模型参数，使得模型输出的文本语义表示能够刻画语言的本质，便于后续针对具体NLP任务作微调。例如，可以采用200G左右的中文新闻语料进行基于字的中文BERT模型的预训。

在本公开中，具体NLP任务为文本分类任务。在这种情况下，完成预训的BERT模型和第一分类网络进行联合训练。在该联合训练阶段，重点在于第一分类网络的训练，而对BERT模型的改动非常小，这种训练过程成为微调(fine-tuning)。在第一分类网络的训练过程中，涉及到的是机器学习中的监督学习。这意味着需要一个标记好的数据集来训练这样的模型。作为一种可能的实施方式，可以抓取带有Emoji标记的微博数据作为标记好的数据集。具体来说，在微博数据中，用户发布的文本中通常会带有对应的Emoji表情。例如，如果一句文本中带有微笑的Emoji表情，那么可以将微笑的Emoji表情类别作为该文本的正解表情类别。又如，如果一句文本中带有抱拳的Emoji动作，那么可以将抱拳的Emoji动作类别作为该文本的正解表情类别。此外，与其他分类网络的训练类似地，第一分类网络的优化可以通过最小化交叉熵损失函数获得。

这里，需要指出的是，所述行为内容可以包括动作内容和表情内容中的至少一个。例如，所述行为内容可以仅包括动作内容，也可以仅包括表情内容，或者可以既包括动作内容也包括表情内容。例如，动作内容可以包括但不限于：比心、作揖、撇嘴、打哈欠、挖鼻等。表情内容可以包括但不限于：微笑、皱眉、不屑、大笑等。

在所述行为内容既包括动作内容也包括表情内容的情况下，上文中所述的第一编码网络可以进一步包括对应于动作的第三编码子网络和对应于表情的第四编码子网络。将所述多个输入向量分别输入至第一编码网络，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置进一步包括：将所述多个输入向量分别输入至第三编码子网络，其中所述第三编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量，确定所述文本中的动作触发位置；以及将所述多个输入向量分别输入至第四编码子网络，其中所述第四编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量，确定所述文本中的表情触发位置。

这两个编码子网络的参数数量相同，但参数的值不同。具体结构和配置与上文中描述的第一编码网络类似，这里不再赘述。因此，对于同一个文本，基于不同的编码子网络，得到的动作触发位置和表情触发位置是不同的。相应的，第一分类网络也进一步包括对应于动作的第三分类子网络和对应于表情的第四分类子网络。这两个分类子网络的参数数量相同，但参数的值不同。具体结构和配置与上文中描述的第一分类网络类似，这里不再赘述。

并且，在所述行为内容既包括动作内容也包括表情内容的情况下，可以预先设置表情映射表和动作映射表，然后基于表情类别和行为类别，查找表情映射表以确定对应的表情内容，并且基于表情类别和行为类别，查找动作映射表以确定对应的动作内容。

此外，除了行为类别之外，还可以进一步基于文本确定所属的情感类别。在这种情况下，根据本公开的方法可以进一步包括以下操作：将所述多个输入向量分别输入至第二编码网络；将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络；以及基于所述第二分类网络的输出，确定情感类别。例如，情感类别可以包括但不限于：生气、开心等。这里，第二编码网络与第一编码网络是类似的，且两个网络的参数数量相同，但参数值根据情况可以相同，也可以不同。例如，当行为内容仅包括表情内容时，第一编码网络与第二编码网络的参数可以相同。或者，当行为内容仅包括动作内容时，第一编码网络与第二编码网络的参数可以不同。

与上文中所述的第一编码网络和第一分类网络类似地，所述第二编码网络和第二分类网络也是需要训练的，且训练方法与与上文中所述的训练方法类似。可以使用带有Emoji表情的微博数据作为用于训练情绪类别的标记数据。

在这种情况下，至少基于所述行为类别，通过特定的行为映射，确定所述行为内容进一步包括：基于所述行为类别和所述情感类别，通过特定的行为映射，确定所述行为内容。

如果将行为类别看作是自变量，行为内容看作是因变量，那么情感类别可以看作是在行为类别的基础上，进一步增加了一个维度的自变量，用于确定最终的行为内容。

图6示出了根据本公开的一种实施例的虚拟形象行为控制的产品流程图。在图6中，示出了这样的实施例：其中，行为内容可以包括动作内容和表情内容二者，并且基于文本分别提取动作类别、表情类别和情感类别以及相应的动作触发位置和表情触发位置。

首先，将文本经过算法处理得到每一句文本对应的表情、动作和情感。例如，表情和动作可以选择目前应用广泛的Emoji表情和动作。当然，也可以增加更多常见的表情和动作，使得输出的表情和动作更加精细化。情感为文本所包含的情感分类，如生气、开心等。表情和动作的触发精确到字或词，即：文本中的某一个字或词将触发规定的动作和表情。

然后，在基于算法确定出初步的表情和动作后，分别通过动作映射表和表情映射表来确定当前文本应触发的表情和动作内容。由于每一句文本未必都能得到动作、表情和情绪这三个参数，因此可能会出现只有动作、只有表情、只有情感、有动作和表情、有动作和情感、有表情和情感、三个参数都有这7种情况。图7示出了表情映射表的一种示例。图7所示的示例对应于具有动作、表情和情绪这三个参数的情况。其中，对应已有直播表情ID表示虚拟形象所要呈现的表情，动作ID、表情ID和情感ID分别对应于基于文本确定的表情、动作和情感。

图8示出了根据本公开的一种实施例的行为生成流程的示意图。在图8所示的实施例中，行为包括动作和表情二者，并且，基于文本分别提取动作类别、表情类别和情感类别以及相应的动作触发位置和表情触发位置。然后，基于动作类别、表情类别和情感类别，通过特定的映射规则，确定虚拟形象应该呈现的动作内容和表情内容。图8中的动作模型和表情模型都可以通过上文中所述的第一编码网络和第一分类网络来实现，只不过取决于具体的动作模型、表情模型和情感模型，对应的具体网络参数有所不同。

需要指出的是，这里的映射规则可以结合虚拟形象所处的当前场景进行进一步的筛选。例如，与新闻场景对应的映射规则将不会触发较为夸张的动作和表情。

此外，尽管图8示出了动作模型、表情模型和情感模型，但是如上文中所述，本公开并不限于此。例如，基于文本仅提取动作类别、仅提取表情类别、提取动作类别和情感类别、提取表情类别和情感类别、提取动作类别和表情类别等组合变体也都包括在本公开的范围内。

返回参照图1，最后，在确定出行为内容以及行为触发位置之后，在S104，播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。

这里，考虑到真实的人在说话时进行的行为(如，表情)是连续自然变化的，因此在控制所述虚拟形象呈现所述行为内容时，可以进一步对触发的行为进行细微调节。

具体地，控制所述虚拟形象呈现所述行为内容进一步包括：基于所述行为内容，调整所述虚拟形象的行为变化参数，使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。例如，可以调节每一个行为变化参数，可调节的行为变化参数包括但不限于行为出现时间、行为结束时间、行为变化系数等，从而保证每一个行为的变化都是自然连贯拟人的。下面是用于实现行为变化参数调节的程序代码示例。在该段代码中，以表情为例，示出了具体的调节参数设置，包括在做出表情之前等待预定时段、表情淡入、表情保持时间段、表情淡出等，以保证每一个表情的变化都是自然连贯拟人的。

private static readonly double[]DefaultRandomRanges＝{

0,0.5 /*等待0秒到0.5秒后开始做表情*/,

0.3,0.5 /*表情淡入(从无到有)跨度在0.3秒到0.5秒之间*/,

0.75,1 /*表情最终的程度占所捏表情系数的比例在0.75到1之间*/,

0.5,1 /*表情保持的时间在0.5秒到1秒之间*/,

0.3,0.5 /*表情淡出(从有到无)跨度在0.15秒到0.3秒之间*/,

0.1,0.25 /*表情恢复的程度占所捏表情系数的比例在0.1到0.3之间*/,

2,4 /*下一段微表情(如果有)之前的保持时间在2秒到4秒之间*/

}；

private static readonly double[]BlinkEyesDefaultRandomRanges＝{

0,0.5 /*等待0秒到0.5秒后开始做表情*/,

0.167,0.167 /*表情淡入(从无到有)为0.167秒*/,

1,1 /*表情淡入程度100％*/,

0,0 /*表情不保持*/,

0.167,0.167 /*表情淡出(从有到无)为0.167秒*/,

0,0 /*表情淡出至完全消失*/,

2,4 /*下一段微表情(如果有)之前的保持时间在2秒到4秒之间*/

}；

在上文中，参照图1到图8详细地描述了根据本公开的基于文本的虚拟形象行为控制方法。可以看出，在根据本公开的方法中，通过数据驱动而非真人来驱动虚拟形象呈现相应的行为，因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据，再映射到虚拟形象的行为上，使得触发的行为是适合当前文本的，且与其他技术相比，该行为是丰富的。此外，由于基于预定的映射规则来确定虚拟形象呈现的行为，因此可拓展性强，可以不断地丰富行为内容，同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。

此外，在本公开中，使用BERT模型来实现第一编码网络，不仅能够基于注意力机制估计行为触发位置，还能够在文本分类的准确率上有所提升。下表一分别示出了基于BERT模型的文本分类模型和基于CNN的文本分类模型在动作、表情和情感分类的准确度。

表一

方法\任务	动作	表情	情感
CNN	82.53％	74.38％	65.69％
BERT	87.23％	85.40％	77.14％

接下来，将参照图9描述根据本公开的实施例的基于文本的虚拟形象行为控制设备。如图9所示，所述设备1000包括：向量化装置1001、行为触发位置确定装置1002、行为内容确定装置1003和行为呈现装置1004。

向量化装置1001用于在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量，所述特定符号为用于表示文本分类的符号。

这里，文本通常为一句话。并且，例如，所述特定符号可以是用于表示文本分类的CLS(Classification)符号。并且，所述特定符号在所述文本中的插入位置可以是任意的。例如，可以将所述特定符号插入在所述文本之前，也可以将所述特定符号插入在所述文本之后，或者也可以将所述特定符号插入在所述文本的中间。

在插入特定符号之后，向量化装置1001分割所述文本中包含的各个元素。例如，所述元素可以是字，也可以是词。也就是说，可以以字为单位，对文本进行分割。或者，也可以以词为单位，对文本进行分割。然后，向量化装置1001将所述特定符号和文本中的各个元素转换为一系列能够表达文本语义的向量，即：将所述特定符号和文本中的各个元素映射或嵌入到另一个数值向量空间，从而生成对应的多个输入向量。

行为触发位置确定装置1002用于将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置，其中，所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重。例如，第一编码网络可以通过BERT模型来实现。

如上文中所述，由于虚拟形象是基于文本来做出对应的表情或动作，因此不仅需要基于文本，确定虚拟形象应该呈现的行为的具体内容，而且还需要确定虚拟形象应该在播放至文本的哪一个元素(字/词)所对应的音频时呈现相应的行为。与虚拟形象呈现相应行为的时刻对应的、文本中的元素位置就是行为触发位置。

在BERT模型中，基于注意力机制，利用上下文的字/词信息增强目标字/词的语义表示。并且，在根据本公开的BERT模型中，还进一步插入了用于表示文本分类的CLS(Classification)符号。与文本中包括的其他字/词相比，插入的CLS符号不具有明显的语义信息。从而，这个无明显语义信息的符号将会更“公平”地融合文本中各个字/词的语义信息。因此，与CLS符号对应的网络节点的注意力向量中各元素的权重值可以体现文本中各个字/词的重要性。如果注意力权重值越大，则表明对应的字/词的重要性越高。

在根据本公开的设备中，认为在文本中重要性最高的字/词位置处，控制虚拟形象呈现相应的行为是合适的。因此，行为触发位置确定装置1002将文本中重要性最高的字/词位置作为行为触发位置。由于与所述特定符号对应的网络节点的注意力向量能够体现文本中各个字/词的重要性，因此行为触发位置确定装置1002可以基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。

具体来说，当第一编码网络仅具有一层网络节点时，所述行为触发位置确定装置1002进一步被配置为：基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置。

当第一编码网络具有多层网络节点时，所述行为触发位置确定装置1002进一步被配置为：针对所述第一编码网络的每一层，计算该层中与所述特定符号对应的节点的注意力向量，确定所有层的注意力向量的平均值，以得到平均注意力向量；以及基于所述平均注意力向量中数值最大的元素的索引位置，确定所述行为触发位置。

行为内容确定装置1003用于基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容。

如上文中所述，所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量。由于在提供至第一编码网络的输入中插入了无明显语义信息的特定符号CLS，并且这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息，因此将与该特定符号对应的输出的第一编码向量作为整句文本的语义表示，以便用于文本分类。

所述行为内容确定装置1003进一步被配置为：将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络；基于所述第一分类网络的输出，确定所述文本对应的行为类别；以及至少基于所述行为类别，通过特定的行为映射，确定所述行为内容。

所述第一分类网络可以是单层的神经网络，也可以是多层的神经网络。并且，当需要分类的类别有多种时，可以调整第一分类网络，使其具有更多的输出神经元，然后通过softmax函数归一化为取值范围从0到1的数值。具体地，所述第一分类网络的输出为与行为的类别数目相同维度的行为预测向量，其中每一个元素表示所述文本对应于相应的行为类别的概率值。所述行为内容确定装置1003将行为预测向量中最大概率对应的类别作为文本所属的行为类别。

或者，作为另一种可能的实施方式，所述行为内容确定装置1003进一步被配置为通过执行以下处理来实现基于所述第一分类网络的输出，确定行为类别：确定所述行为预测向量中的最大概率值；以及当所述最大概率值大于预定阈值时，将所述最大概率值对应的行为类别作为与所述文本对应的行为类别，否则，将与所述最大概率值对应的行为类别不同的特定类别确定为与所述文本对应的行为类别。

也就是说，在确定文本所属的行为类别时，所述行为内容确定装置1003进一步判断第一分类网络的行为预测结果的置信度。如果最大概率值小于预定阈值，则所述行为内容确定装置1003认为第一分类网络输出的行为预测结果的置信度低。在这种情况下，所述行为内容确定装置1003不采用第一分类网络的预测结果，而是将文本所属的行为类别确定为与所述最大概率值对应的行为类别不同的特定类别。例如，所述特定类别可以是中性类别。另一方面，如果最大概率值大于预定阈值，则所述行为内容确定装置1003认为第一分类网络输出的行为预测结果的置信度高。在这种情况下，所述行为内容确定装置1003采用第一分类网络的预测结果。

最后，所述行为内容确定装置1003至少基于所述行为类别，通过特定的行为映射，确定所述行为内容。例如，可以通过查找预先设置的映射表，基于行为类别，确定所述行为内容。

如上文中所述，所述行为内容可以包括动作内容和表情内容中的至少一个。例如，所述行为内容可以仅包括动作内容，也可以仅包括表情内容，或者可以既包括动作内容也包括表情内容。例如，动作内容可以包括但不限于：比心、作揖、撇嘴、打哈欠、挖鼻等。表情内容可以包括但不限于：微笑、皱眉、不屑、大笑等。

在所述行为内容既包括动作内容也包括表情内容的情况下，上文中所述的第一编码网络可以进一步包括对应于动作的第三编码子网络和对应于表情的第四编码子网络。这两个编码子网络的参数数量相同，但参数的值不同。具体结构和配置与上文中描述的编码网络类似，这里不再赘述。因此，对于同一个文本，基于不同的编码子网络，得到的动作触发位置和表情触发位置是不同的。相应的，第一分类网络也进一步包括对应于动作的第三分类子网络和对应于表情的第四分类子网络。这两个分类子网络的参数数量相同，但参数的值不同。具体结构和配置与上文中描述的第一分类网络类似，这里不再赘述。

并且，在所述行为内容既包括动作内容也包括表情内容的情况下，可以预先设置表情映射表和动作映射表，然后所述行为内容确定装置1003基于表情类别和行为类别，查找表情映射表以确定对应的表情内容，并且基于表情类别和行为类别，查找动作映射表以确定对应的动作内容。

此外，除了行为类别之外，还可以进一步基于文本确定所述文本所属的情感类别。在这种情况下，所述行为内容确定装置1003进一步被配置为：将所述多个输入向量分别输入至第二编码网络；将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络；以及基于所述第二分类网络的输出，确定所述文本所属的情感类别。

其中，所述行为内容确定装置1003进一步被配置为通过执行以下处理来实现至少基于所述行为类别，通过特定的行为映射，确定所述行为内容：基于所述行为类别和所述情感类别，通过特定的行为映射，确定所述行为内容。

最后，在所述行为触发位置确定装置1002确定出行为触发位置且所述行为内容确定装置1003确定出行为内容之后，所述行为呈现装置1004用于播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。

这里，考虑到真实的人在说话时进行的行为(如，表情)是连续自然变化的，因此在控制所述虚拟形象呈现所述行为内容时，所述行为呈现装置1004可以进一步对触发的行为进行细微调节。

具体地，所述行为呈现装置1004可以进一步被配置为：基于所述行为内容，调整所述虚拟形象的行为变化参数，使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。例如，可调节的行为变化参数包括但不限于行为出现时间、行为结束时间、行为变化系数等，从而保证每一个行为的变化都是自然连贯拟人的。

可以看出，在根据本公开的设备中，通过数据驱动而非真人来驱动虚拟形象呈现相应的行为，因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据，再映射到虚拟形象的行为上，使得触发的行为是适合当前文本的，且与其他技术相比，该行为是丰富的。此外，由于基于预定的映射规则来确定虚拟形象呈现的行为，因此可拓展性强，可以不断地丰富行为内容，同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。

此外，在本公开中，使用BERT模型来实现编码网络，不仅能够基于注意力机制估计行为触发位置，还能够在文本分类的准确率上有所提升。

由于根据本公开的实施例的虚拟形象行为控制设备与上文中所述的虚拟形象行为控制方法是完全对应的，因此在关于虚拟形象行为控制设备的描述中，并未对展开很多细节内容。本领域的技术人员可以理解，在上文中所述的虚拟形象行为控制方法的所有细节内容都可以类似地应用于虚拟形象行为控制设备中。

此外，根据本公开实施例的方法或设备也可以借助于图10所示的计算设备1100的架构来实现。如图10所示，计算设备1100可以包括总线1110、一个或多个CPU 1120、只读存储器(ROM)1130、随机存取存储器(RAM)1140、连接到网络的通信端口1150、输入/输出组件1160、硬盘1170等。计算设备1100中的存储设备，例如ROM 1130或硬盘1170可以存储本公开提供的虚拟形象行为控制方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然，图10所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图10示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的虚拟形象行为控制方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

迄今为止，已经参照图1到图10详细描述了根据本公开的各实施例的虚拟形象行为控制方法和设备。在根据本公开的各实施例的虚拟形象行为控制方法设备中，通过数据驱动而非真人来驱动虚拟形象呈现相应的行为，因此可不间断运行且做到千人千面。并且基于文本提取不同的类别数据，再映射到虚拟形象的行为上，使得触发的行为是适合当前文本的，且与其他技术相比，该行为是丰富的。此外，由于基于预定的映射规则来确定虚拟形象呈现的行为，因此可拓展性强，可以不断地丰富行为内容，同时只需要更新映射规则就能使得虚拟形象呈现新增的行为。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种基于文本的虚拟形象行为控制方法，由电子设备执行，包括：

在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量；所述特定符号为用于表示文本分类的符号；

将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置，其中，所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重；

基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容；以及

播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。
根据权利要求1所述的方法，其中，基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置包括：

针对所述第一编码网络的每一层，计算该层中与所述特定符号对应的网络节点的注意力向量，确定所有层的注意力向量的平均值，以得到平均注意力向量；以及

基于所述平均注意力向量中数值最大的元素的索引位置，确定所述行为触发位置。
根据权利要求1所述的方法，其中所述第一编码网络输出与各输入向量对应的、融合了上下文各个元素的语义的多个第一编码向量，并且

其中基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容包括：

将从所述第一编码网络输出的、与所述特定符号对应的第一编码向量输入至第一分类网络；

基于所述第一分类网络的输出，确定所述文本对应的行为类别；以及

至少基于所述行为类别，通过特定的行为映射，确定所述行为内容。
根据权利要求3所述的方法，其中所述特定的行为映射包括行为映射表，并且

其中至少基于所述行为类别，通过特定的行为映射，确定所述行为内容进一步包括：

在所述行为映射表中，查找与所述行为类别对应的行为内容，并将其确定为所述行为内容。
根据权利要求3所述的方法，其中针对所述虚拟形象的不同应用场景，所述特定的行为映射是不同的。
根据权利要求3所述的方法，其中所述第一分类网络的输出为行为预测向量，所述行为预测向量的维度与行为类别的数目相同，其中所述行为预测向量的每一个元素表示所述文本对应于相应的行为类别的概率值。
根据权利要求6所述的方法，其中基于所述第一分类网络的输出，确定所述文本对应的行为类别包括：

确定所述行为预测向量中的最大概率值；以及

当所述最大概率值大于预定阈值时，将所述最大概率值对应的行为类别作为与所述文本对应的行为类别；否则，将与所述最大概率值对应的行为类别不同的特定类别确定为所述文本对应的行为类别。
根据权利要求3所述的方法，进一步包括：

将所述多个输入向量分别输入至第二编码网络；

将从所述第二编码网络输出的、与所述特定符号对应的第二编码向量输入至第二分类网络；以及

基于所述第二分类网络的输出，确定所述文本对应的情感类别，

其中至少基于所述行为类别，通过特定的行为映射，确定所述行为内容进一步包括：

基于所述行为类别和所述情感类别，通过特定的行为映射，确定所述行为内容。
根据权利要求1至8任一项所述的方法，其中所述行为内容包括动作内容和表情内容中的至少一个。
根据权利要求9所述的方法，其中当所述行为内容包括动作内容和表情内容二者时，所述第一编码网络包括第三编码子网络和第四编码子网络，并且

其中将所述多个输入向量分别输入至第一编码网络，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置进一步包括：

将所述多个输入向量分别输入至第三编码子网络，其中所述第三编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第三编码子网络中的网络节点的注意力向量，确定所述文本中的动作触发位置；以及

将所述多个输入向量分别输入至第四编码子网络，其中所述第四编码子网络包括至少一层网络节点，并且基于与所述特定符号对应的、所述第四编码子网络中的网络节点的注意力向量，确定所述文本中的表情触发位置。
根据权利要求1至10任一项所述的方法，其中控制所述虚拟形象呈现所述行为内容进一步包括：

基于所述行为内容，调整所述虚拟形象的行为变化参数，使得所述虚拟形象从不呈现行为内容连贯地变化到呈现所述行为内容。
根据权利要求11所述的方法，其中所述行为变化参数至少包括以下之一：行为出现时间、行为结束时间、行为变化系数。
一种基于文本的虚拟形象行为控制设备，包括：

向量化装置，用于在文本中插入特定符号，并生成与所述特定符号和文本中的各个元素对应的多个输入向量；所述特定符号为用于表示文本分类的符号；

行为触发位置确定装置，用于将所述多个输入向量分别输入至第一编码网络，其中所述第一编码网络包括至少一层网络节点，并且基于与所述特定符号对应的网络节点的注意力向量，确定所述文本中的行为触发位置，其中，所述注意力向量中的每一个元素分别指示从与所述特定符号对应的网络节点到与该网络节点同一层中的每一个网络节点的注意力权重；

行为内容确定装置，用于基于从所述第一编码网络输出的、与所述特定符号对应的第一编码向量，确定行为内容；以及

行为呈现装置，用于播放与所述文本对应的音频，并且当播放到所述行为触发位置时，控制所述虚拟形象呈现所述行为内容。
一种计算机设备，包括：

处理器；

与所述处理器相连接的存储器；所述存储器中存储有机器可读指令；所述机器可读指令在被处理器执行时，使得所述处理器执行如权利要求1-12中任一项所述的方法。
一种计算机可读记录介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-12中任一项所述的方法。