WO2021134417A1

WO2021134417A1 - 交互行为预测方法、智能装置和计算机可读存储介质

Info

Publication number: WO2021134417A1
Application number: PCT/CN2019/130367
Authority: WO
Inventors: 丁万; 黄东延; 李柏; 邵池; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: CN111344717B; CN111344717A

Abstract

一种交互行为预测方法，包括：获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据（S101）；提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列（S102）；将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为（S103）。还公开了智能装置（20）和计算机可读存储介质（30）。可以有效提升预测的准确性。

Description

交互行为预测方法、智能装置和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及交互行为预测方法、智能装置和计算机可读存储介质。

背景技术

现有的情感交互行为理论表明交互过程中情感状态的变化与交互行为的类别有着较高的相关度，现有技术基于语音来识别情感并进行行为预测，然而实际场景中交互中的情感是通过多模态(如脸部、语音、文本)协同进行表达的。基于语音的情感交互行为预测忽略了其他模态信息所包含的重要特征，会导致预测结果不准确。

申请内容

基于此，有必要针对上述问题，提出了交互行为预测方法、智能装置和计算机可读存储介质。

一种交互行为预测方法，所述方法包括：获取多轮对话数据，提取所述多轮对话数据中指定说话人的至少一段发言数据；提取每段所述发言数据中的多模态特征数据，根据所述多模态特征数据生成多模态特征序列；将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络，获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为

一种智能装置，包括：获取模块，用于获取多轮对话数据，提取所述多轮对话数据中指定说话人的至少一段发言数据；提取模块，用于提取每段所述发言数据中的多模态特征数据，根据所述多模态特征数据生成多模态特征序列；交互模块，用于将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络，获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

本发明在提取到多轮对话数据中指定说话人的至少一段发言数据后，提取每段所述发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据的多模态特征序列输入预训练的分类神经网络，获取预测指定说话人的交互行为，通过多模态的特征进行情感识别，然后根据交互过程中的情感变化来预测行为类型，可以有效提升预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明一个实施例中脸部情感识别方法应用环境图；

图2是本发明提供的交互行为预测方法的第一实施例的流程示意图；

图3是本发明提供的交互行为预测方法的第二实施例的流程示意图；

图4是本发明提供的交互行为预测方法的第三实施例的流程示意图；

图5是本发明提供的交互行为预测方法中获取每段发言数据的多模态特征数据的方法的一实施例的流程示意图；

图6是本发明提供的智能装置的第一实施例的结构示意图；

图7是本发明提供的智能装置的第二实施例的结构示意图；

图8是本发明提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术基于语音来识别情感并进行行为预测，然而实际场景中交互中的情感是通过多模态(如脸部、语音、文本)协同进行表达的。基于语音的情感交互行为预测忽略了其他模态信息所包含的重要特征，会导致预测结果不准确。

在本实施例中，为了解决上述问题，提供了一种交互行为预测方法，能够提升对交互行为预测的准确性。

请参阅图1，图1是本发明一个实施例中交互行为预测方法应用环境图。参照图1，该脸部情感识别方法应用于交互行为预测系统。该交互行为预测系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取多轮对话数据，服务器120用于提取多轮对话数据中指定说话人的至少一段发言数据，提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为。

请参阅图2，图2是本发明提供的交互行为的预测方法的第一实施例的流程示意图。本发明提供的交互行为的预测方法包括如下步骤：

S101：获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据。

在一个具体的实施场景中，获取多轮对话的数据，该对话可以包括两个或两个以上说话人，可以根据说话人的声音不同，分别识别出不同的说话人。用户可以从不同的说话人中选择一个人作为指定说话人，也可以选择多个说话人作为指定说话人，后续可以分别对每个说话人进行分析。

在获取到指定说话人后，提取该指定说话人在多轮对话数据中的至少一段发言数据，在本实施场景中，获取该指定说话人的全部发言数据，在其他实施场景中，还可以指定说话人的获取语音长度超过预设阈值的发言数据，或者指定说话人的其他满足预设条件的发言数据。

在本实施场景中，在获取该指定说话人的全部发言数据之后，将这些发言数据根据指定说话人的说话的顺序对这些发言数据排序。

S102：提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列。

在本实施场景中，提取每段发言数据中的多模态特征数据，多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。将每段发言数据的多模态特征数据依据时间顺序排列，生成多模态特征序列。例如，每段发言的多模态特征数据为一多维向量，指定说话人的多段发言数据分别对应一多维向量，将这些多维向量根据其对应的一段发言数据的时间顺序进行排列，生成多模态特征序列。

在本实施场景中，可以通过将每段发言数据输入预训练的特征提取神经网络，获取每段发言的多模态特征数据。可以输入多个不同的特征提取神经网络，分别提取每段发言数据的视频特征数据、音频特征数据和文本特征数据，或者输入一个特征提取神经网络，提取每段发言数据的视频特征数据、音频特征数据和文本特征数据。

S103：将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为。

在本实施场景中，将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为。

在本实施场景中，需要对分类神经网络进行训练，在训练前准备好多个训练多模态特征序列，为每个训练多模态特征序列标注其标注交互行为，定义分类神经网络的网络结构，可以定义分类神经网络的层数，例如，19层。还可以定义神经分类网络的类型，例如卷积神经网络，或者全连接神经网络等等。定义分类神经网络的损失函数，以及定义分类神经网络的训练终止的条件，例如训练2000次后停止。在训练成功后，将至少一段发言数据对应的多模态特征序列输入分类神经网络，分类神经网络将会输出多模态特征序列对应的预测交互行为。

通过上述描述可知，在本实施例中在提取到多轮对话数据中指定说话人的至少一段发言数据后，提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据的多模态特征序列输入预训练的分类神经网络，获取预测指定说话人的交互行为，通过多模态的特征进行情感识别，然后根据交互过程中的情感变化来来获取预测交互行为，可以有效提升预测的准确性。

请参阅图3，图3是本发明提供的交互行为预测方法的第二实施例的流程示意图。本发明提供的交互行为预测方法包括如下步骤：

S201：获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据。

S202：提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列。

在一个具体的实施场景中，步骤S201-S202与本发明提供的交互行为预测方法的的第一实施例中的步骤S101-S102基本一致，此处不再进行赘述。

S203：将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，获取情感识别神经网络的输出结果作为每段发言数据的情感数据。

在本实施场景中，将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，将情感识别神经网络的输出结果作为每段发言数据的情感数据。情感数据可以是多模态特征数据对应的情感类别，或者情感组合。

在本实施场景中，需要对情感识别神经网络进行训练，可以预先准备多个训练多模态特征数据，并标注每个多模态特征数据的情感数据。获取每个训练多模态特征数据的不同模态的语义特征，例如可以通过将每个多模态特征数据输入预训练的语义特征提取神经网络，获取该多模态特征数据的不同模态的语义特征。或者可以预先准备多组不同模态的语义特征，每组不同模态的语义特征对应一个训练多模态特征数据。

还可以定义情感识别神经网络的网络结构，可以定义情感识别神经网络的层数，例如，19层。还可以定义情感识别神经网络的类型，例如卷积神经网络，或者全连接神经网络等等。定义情感识别神经网络的损失函数，以及定义情感识别神经网络的训练终止的条件，例如训练2000次后停止。在训练成功后，将每段发言数据对应的多模态特征数据输入情感识别神经网络，情感识别神经网络将会输出多模态特征序列对应的情感数据。

在本实施场景中，情感识别神经网络包括卷积网络层和长短期记忆网络层。采用两层结构的神经网络，可以进一步提升输出的情感数据的准确性，在其他实施场景中，情感识别神经网络可以只包括一层结构，例如情感识别神经网络为长短期记忆网络。

S204：将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将发言情感序列输入预训练的行为预测神经网络，获取行为预测神经网络的输出结果作为预测交互行为。

在本实施场景中，将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，例如，有三段发言数据，分别对应的情感数据为A、B、B，则按照这三段发言数据的时间顺序组成的发言情感序列为ABB。将发言情感序列输入预训练的行为预测神经网络，将行为预测神经网络的输出结果作为预测交互行为。例如，ABB对应的预测交互行为为沮丧。

在本实施场景中，需要对行为预测神经网络进行训练。可预先准备多个训练发言情感序列，为每个训练发言情感序列标注其标注交互行为，定义行为预测神经网络的网络结构，可以行为预测神经网络的层数，例如，19层。还可以定义行为预测神经网络的类型，例如卷积神经网络，或者全连接神经网络等等。定义行为预测神经网络的损失函数，以及定义行为预测神经网络的训练终止的条件，例如训练2000次后停止。在训练成功后，将至少一段发言数据对应的多模态特征序列输入行为预测神经网络，行为预测神经网络将会输出多模态特征序列对应的预测交互行为。

在本实施场景中，交互行为包括接纳、责备、积极、消极和沮丧中的至少一项。行为预测神经网络为全连接神经网络。

通过上述描述可知，在本实施例中，通过将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，获取每段发言数据的情感数据，将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将发言情感序列输入预训练的行为预测神经网络，获取预测交互行为，可以根据交互过程中的情感变化来获取预测交互行为，可以有效提升预测的准确性。

请参阅图4，图4是本发明提供的交互行为预测方法的第三实施例的流程示意图。本发明提供的交互行为预测方法包括如下步骤：

S301：获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据。

S302：提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列。

S303：将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，获取情感识别神经网络的输出结果作为每段发言数据的情感数据。

在一个具体的实施场景中，步骤S301-S303与本发明提供的交互行为预测方法的的第二实施例中的步骤S201-S203基本一致，此处不再进行赘述。

S304：获取发言情感序列中每个情感数据的权重，将每个情感数据与其对应的权重点乘运算，将运算后的发言情感序列输入预训练的行为预测神经网络。

在本实施场景中，获取发言情感序列中每个情感数据的权重，将每个情感数据与其对应的权重点乘运算。因为至少一段发言数据中，各段发言数据之间相互影响，例如，某些发言数据是指定说话人表达自己观点的语句，某些发言数据是指定说话人应付性的回答，则不同的发言数据对至少一段发言数据的预测交互行为的影响能力大小不同。

在本实施场景中，通过进行注意力运算获取每个情感数据的权重。在本实施场景中，注意力运算的方法为：

其中，a为每个情感数据的权重，

为发言情感序列，softmax函数的运算公式为：

S305：将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将发言情感序列输入预训练的行为预测神经网络，获取行为预测神经网络的输出结果作为预测交互行为。

在本实施场景中，本步骤与本发明提供的交互行为预测方法的的第二实施例中的步骤S204基本一致，此处不再进行赘述。

通过上述描述可知，在本实施例中，通过获取每个情感数据的权重，并将每个情感数据与其对应的权重点乘后的组成发言情感序列，可以结合不同段的发言数据的情感数据对预测交互行为的影响的大小，对交互行为进行预测，从而有效提升预测的准确性。

请参阅图5，图5是本发明提供的交互行为预测方法中获取每段发言数据的多模态特征数据的方法的一实施例的流程示意图。获取每段发言数据的多模态特征数据的方法包括如下步骤：

S401：将每段发言数据输入预训练的特征提取神经网络，分别获取每段发言数据的视频特征数据、音频特征数据和文本特征数据。

在一个具体的实施场景中，将每段发言数据输入预训练的视频特征提取神经网络，获取每段发言数据的视频特征数据；将每段发言数据输入预训练的音频特征提取神经网络，获取每段发言数据的音频特征数据；将每段发言数据输入预训练的文本特征提取神经网络，获取每段发言数据的文本特征数据。上述步骤可以先后进行或者同步进行，在此不做限定。

S402：将每段发言数据的视频特征数据、音频特征数据和文本特征数据融合，获取每段发言数据的多模态特征数据。

在本实施场景中，将每段发言数据的视频特征数据、音频特征数据和文本特征数据串联，获取每段发言数据的多模态特征数据。例如视频特征数据、音频特征数据和文本特征数据均为一2维向量，则串联后获取的多模态特征数据为一6维向量。

通过上述描述可知，在本实施例中，通过将发言数据输入预训练的特征提取神经网络，分别获取每段发言数据的视频特征数据、音频特征数据和文本特征数据，将这些特征数据串联，获取多模态特征数据，提升提取的特征数据的准确性，从而有效提升预测的准确性。

请参阅图6，图6是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11、提取模块12和交互模块13。

获取模块11用于获取多轮对话数据，提取多轮对话数据中指定说话人的至少一段发言数据。提取模块12用于提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列。交互模块13用于将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络，获取分类神经网络的输出结果作为指定说话人的预测交互行为。

其中，交互行为包括接纳、责备、积极、消极和沮丧中的至少一项。多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。

通过上述描述可知，在本实施例中智能装置在提取到多轮对话数据中指定说话人的至少一段发言数据后，提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据的多模态特征序列输入预训练的分类神经网络，获取预测指定说话人的交互行为，通过多模态的特征进行情感识别，然后根据交互过程中的情感变化来来获取预测交互行为，可以有效提升预测的准确性。

请继续参阅图6，交互模块13包括情感数据子模块131和交互子模块132。情感数据子模块131用于将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，获取情感识别神经网络的输出结果作为每段发言数据的情感数据。交互子模块132用于将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将发言情感序列输入预训练的行为预测神经网络，获取行为预测神经网络的输出结果作为预测交互行为。

情感数据子模块131包括权重单元1311。权重单元1311用于获取发言情感序列中每个情感数据的权重，将每个情感数据与其对应的权重点乘运算，将运算后的发言情感序列输入预训练的行为预测神经网络。

具体地说，权重单元1311用于对发言情感序列进行注意力运算，获取发言情感序列中每个情感数据的权重。

其中，情感识别神经网络包括卷积网络层和长短期记忆网络层。行为预测神经网络为全连接神经网络。

获取模块11包括特征提取子模块111，特征提取子模块111用于将每段发言数据输入预训练的特征提取神经网络，获取每段发言数据的多模态特征数据。

特征提取子模块111包括特征提取单元1111和融合单元1112。特征提取单元1111用于将每段发言数据输入预训练的视频特征提取神经网络，获取每段发言数据的视频特征数据；将每段发言数据输入预训练的音频特征提取神经网络，获取每段发言数据的音频特征数据；将每段发言数据输入预训练的文本特征提取神经网络，获取每段发言数据的文本特征数据。融合单元1112用于将每段发言数据的视频特征数据、音频特征数据和文本特征数据融合，获取每段发言数据的多模态特征数据。

智能装置10还包括训练模块14，训练模块14用于对分类神经网络进行训练。

训练模块14包括准备子模块141、定义子模块142和输入子模块143。准备子模块141用于准备多个训练多模态特征序列，标注每个训练多模态特征序列的标注交互行为。定义子模块142用于定义训练的分类神经网络的结构、损失函数和终止条件。输入子模块143用于将多个多模态特征序列及其对应的标注交互行为输入分类神经网络进行训练。

通过上述描述可知，本实施例中智能装置过将每段发言数据的多模态特征数据输入预训练的情感识别神经网络，获取每段发言数据的情感数据，将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将发言情感序列输入预训练的行为预测神经网络，结合不同段的发言数据的情感数据对预测交互行为的影响的大小，对交互行为进行预测，从而有效提升预测的准确性。

请参阅图7，图7是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括处理器21、存储器22和获取电路23。处理器21耦接存储器22和获取电路23。存储器22中存储有计算机程序，处理器21在工作时执行该计算机程序以实现如图2-图5所示的方法。详细的方法可参见上述，在此不再赘述。

通过上述描述可知，在本实施例中智能装置提取到多轮对话数据中指定说话人的至少一段发言数据后，提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据的多模态特征序列输入预训练的分类神经网络，获取预测指定说话人的交互行为，通过多模态的特征进行情感识别，然后根据交互过程中的情感变化来来获取预测交互行为，可以有效提升预测的准确性。

请参阅图8，图8是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图2-图5所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中存储介质中存储的计算机程序可以用于在提取到多轮对话数据中指定说话人的至少一段发言数据后，提取每段发言数据中的多模态特征数据，根据多模态特征数据生成多模态特征序列，将至少一段发言数据的多模态特征序列输入预训练的分类神经网络，获取预测指定说话人的交互行为，通过多模态的特征数据进行情感识别，然后根据交互过程中的情感变化来来获取预测交互行为，可以有效提升预测的准确性。

区别于现有技术，本发明通过获取指定说话人的发言数据的多模态特征数据，通过多模态的特征进行情感识别，然后根据交互过程中的情感变化来来获取预测交互行为，可以有效提升预测的准确性。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种交互行为预测方法，其特征在于，包括：

获取多轮对话数据，提取所述多轮对话数据中指定说话人的至少一段发言数据；

提取每段所述发言数据中的多模态特征数据，根据所述多模态特征数据生成多模态特征序列；

将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络，获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。
根据权利要求1所述的交互行为预测方法，其特征在于，所述将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络，获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为的步骤，包括：

将每段所述发言数据的多模态特征数据输入预训练的情感识别神经网络，获取所述情感识别神经网络的输出结果作为每段所述发言数据的情感数据；

将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将所述发言情感序列输入预训练的行为预测神经网络，获取所述行为预测神经网络的输出结果作为预测交互行为。
根据权利要求2所述的交互行为预测方法，其特征在于，所述将所述发言情感序列输入预训练的行为预测神经网络的步骤，包括：

获取所述发言情感序列中每个所述情感数据的权重，将每个所述情感数据与其对应的权重点乘运算，将运算后的所述发言情感序列输入所述预训练的行为预测神经网络。
根据权利要求3所述的交互行为预测方法，其特征在于，所述获取所述发言情感序列中每个所述情感数据的权重的步骤，包括：

对所述发言情感序列进行注意力运算，获取所述发言情感序列中每个所述情感数据的权重。
根据权利要求2所述的交互行为预测方法，其特征在于，所述情感识别神经网络包括卷积网络层和长短期记忆网络层；

所述行为预测神经网络为全连接神经网络。
根据权利要求1所述的交互行为预测方法，其特征在于，

所述预测交互行为包括接纳、责备、积极、消极和沮丧中的至少一项；

所述多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。
根据权利要求1所述的交互行为预测方法，其特征在于，所述提取每段所述发言数据中的多模态特征数据的步骤，包括：

将每段所述发言数据输入预训练的特征提取神经网络，分别获取每段所述发言数据的所述多模态特征数据。
根据权利要求7所述的交互行为预测方法，其特征在于，所述将每段所述发言数据输入预训练的特征提取神经网络，分别获取每段所述发言数据的所述多模态特征数据的步骤，包括：

将每段所述发言数据输入预训练的视频特征提取神经网络，获取每段所述发言数据的视频特征数据；将每段所述发言数据输入预训练的音频特征提取神经网络，获取每段所述发言数据的音频特征数据；将每段所述发言数据输入预训练的文本特征提取神经网络，获取每段所述发言数据的文本特征数据；

将每段所述发言数据的所述视频特征数据、所述音频特征数据和所述文本特征数据融合，获取每段所述发言数据的多模态特征数据。
根据权利要求1所述的交互行为预测方法，其特征在于，所述将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络的步骤之前，包括：

对所述分类神经网络进行训练；

所述对所述分类神经网络进行训练的步骤，包括：

准备多个训练多模态特征序列，标注每个所述训练多模态特征序列的标注交互行为；

定义训练的所述分类神经网络的结构、损失函数和终止条件；

将所述多个多模态特征序列及其对应的标注交互行为输入所述分类神经网络进行训练。
一种智能装置，其特征在于，包括：

获取模块，用于获取多轮对话数据，提取所述多轮对话数据中指定说话人的至少一段发言数据；

提取模块，用于提取每段所述发言数据中的多模态特征数据，根据所述多模态特征数据生成多模态特征序列；

交互模块，用于将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络，获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。
根据权利要求10所述的智能装置，其特征在于，所述交互模块包括：

情感数据子模块，用于将每段所述发言数据的多模态特征数据输入预训练的情感识别神经网络，获取所述情感识别神经网络的输出结果作为每段所述发言数据的情感数据；

交互子模块，用于将至少一段发言数据的情感数据按照时间顺序组成发言情感序列，将所述发言情感序列输入预训练的行为预测神经网络，获取所述行为预测神经网络的输出结果作为预测交互行为。
根据权利要求11所述的智能装置，其特征在于，所述情感数据子模块包括：

权重单元，用于获取所述发言情感序列中每个所述情感数据的权重，将每个所述情感数据与其对应的权重点乘运算，将运算后的所述发言情感序列输入所述预训练的行为预测神经网络。
根据权利要求12所述的智能装置，其特征在于，

所述权重单元用于对所述发言情感序列进行注意力运算，获取所述发言情感序列中每个所述情感数据的权重。
根据权利要求11所述的智能装置，其特征在于，

所述情感识别神经网络包括卷积网络层和长短期记忆网络层；

所述行为预测神经网络为全连接神经网络。
根据权利要求10所述的智能装置，其特征在于，

所述预测交互行为包括接纳、责备、积极、消极和沮丧中的至少一项；

所述多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。
根据权利要求10所述的智能装置，其特征在于，所述获取模块包括：

特征提取子模块，用于将每段所述发言数据输入预训练的特征提取神经网络，获取每段所述发言数据的所述多模态特征数据。
根据权利要求16所述的智能装置，其特征在于，所述特征提取子模块包括：

特征提取单元，用于将每段所述发言数据输入预训练的视频特征提取神经网络，获取每段所述发言数据的视频特征数据；将每段所述发言数据输入预训练的音频特征提取神经网络，获取每段所述发言数据的音频特征数据；将每段所述发言数据输入预训练的文本特征提取神经网络，获取每段所述发言数据的文本特征数据；

融合单元，用于将每段所述发言数据的所述视频特征数据、所述音频特征数据和所述文本特征数据融合，获取每段所述发言数据的多模态特征数据。
根据权利要求10所述的智能装置，其特征在于，所述智能装置还包括：

训练模块，用于对所述分类神经网络进行训练；

所述训练模块包括：

准备子模块，用于准备多个训练多模态特征序列，标注每个所述训练多模态特征序列的标注交互行为；

定义子模块，用于定义训练的所述分类神经网络的结构、损失函数和终止条件；

输入子模块，用于将所述多个多模态特征序列及其对应的标注交互行为输入所述分类神经网络进行训练。
一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-9任一项所述的方法。