WO2022156084A1

WO2022156084A1 - 基于人脸和交互文本的目标对象行为预测方法及相关设备

Info

Publication number: WO2022156084A1
Application number: PCT/CN2021/090147
Authority: WO
Inventors: 南海顺
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-01-22
Filing date: 2021-04-27
Publication date: 2022-07-28
Also published as: CN112861662A; CN112861662B

Abstract

一种基于人脸和交互文本的目标对象行为预测方法及相关设备，属于人工智能领域，所述方法包括：获取历史交互文本和历史视频并处理，得到包含历史行为的历史结构化数据和人脸图片，基于历史行为生成人脸图片标签；根据历史结构化数据得到第一模型和第一模型输出值，根据人脸图片和标签得到第二模型和第二模型输出值；根据第一模型输出值和第二模型输出值得到LR模型；当获取到实时交互文本和实时视频时，对应获得实时结构化数据和实时人脸图片分别输入第一模型和第二模型，将模型输出同时输入LR模型进行行为预测。还涉及区块链技术，历史交互文本中的隐私数据可存储于区块链中，可在大数据集场景中提高预测结果的准确性。

Description

基于人脸和交互文本的目标对象行为预测方法及相关设备

本申请要求于2021年01月22日提交中国专利局、申请号为202110090632.1，发明名称为“基于人脸和交互文本的目标对象行为预测方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于人脸和交互文本的目标对象行为预测方法、装置、计算机设备及存储介质。

背景技术

面谈审批是信贷业务的重要环节，客户在面谈审批环节中的表现会作为能否通过审批放款的参考，以往面谈审批为人工审批，可以相对简单地通过客户的表情结合客户的意图来给出是否能通过审批的意见。然而对于AI审批机器人，在审批环节往往只能通过客户的语音文本来识别客户的意图，对于客户在审批过程中是否存在异常行为表现，例如表情的变化等，将无法识别。

发明人意识到，现有根据人脸特征来预测个人行为表现的方案中，仅根据客户的人脸landmark(特征点)来预测个人的行为，在小数据集样本(几千量级)上能达到较高准确率，但是对于样本集达到几十万量级的大数据集场景，采用人脸landmark所得到的预测结果准确率将大幅降低，导致使用人脸landmark进行行为预测变得不可用。

发明内容

本申请实施例的目的在于提出一种基于人脸和交互文本的目标对象行为预测方法、装置、计算机设备及存储介质，以解决现有技术中大数据集场景中采用人脸landmark所得到的预测结果准确率将大幅降低的问题。

为了解决上述技术问题，本申请实施例提供一种基于人脸和交互文本的目标对象行为预测方法，采用了如下所述的技术方案：

一种基于人脸和交互文本的目标对象行为预测方法，包括下述步骤：

获取多个样本对象的历史交互文本和历史视频；

对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；

根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

当获取到目标对象的实时交互文本和实时视频时，根据所述实时交互文本获取对应的实时结构化数据，并根据所述实时视频获取实时人脸图片并处理，将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。

为了解决上述技术问题，本申请实施例还提供一种基于人脸和交互文本的目标对象行为预测装置，采用了如下所述的技术方案：

数据获取模块，用于获取多个样本对象的历史交互文本和历史视频；

数据处理模块，用于对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

模型构建模块，用于根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；以及根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

预测模块，用于当获取到目标对象的实时交互文本和实时视频时，使所述数据处理模块根据所述实时交互文本获取对应的实时结构化数据，并使所述数据处理模块根据所述实时视频获取实时人脸图片并处理，再将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下的步骤：

获取多个样本对象的历史交互文本和历史视频；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

获取多个样本对象的历史交互文本和历史视频；

与现有技术相比，本申请实施例提供的基于人脸和交互文本的目标对象行为预测方法、装置、计算机设备及存储介质主要有以下有益效果：

本方案通过分别获取人脸图片和交互文本分别训练对应的模型，输出基于人脸图片和交互文本得到历史行为的概率，再采用联合概率建立LR模型，之后再通过建立的LR模型进行预测，可以在大数据集场景中大大提高预测结果的准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，下面描述中的附图对应于本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于人脸和交互文本的目标对象行为预测方法的一个实施例的流程图；

图3是根据本申请的基于人脸和交互文本的目标对象行为预测装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于人脸和交互文本的目标对象行为预测方法一般由服务器执行，相应地，基于人脸和交互文本的目标对象行为预测装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的基于人脸和交互文本的目标对象行为预测方法的一个实施例的流程图。所述的基于人脸和交互文本的目标对象行为预测方法包括以下步骤：

S201，获取多个样本对象的历史交互文本和历史视频；

S202，对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

S203，根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；

S204，根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

S205，当获取到目标对象的实时交互文本和实时视频时，根据所述实时交互文本获取对应的实时结构化数据，并根据所述实时视频获取实时人脸图片并处理，将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。

下面对上述步骤进行展开说明。

对于步骤S201，在一些基于终端交互的业务场景中，需要对用户的行为进行预测，根据预测的行为执行特定操作，此处的用户即为样本对象，也是需要进行行为预测的目标对象。

在进行终端交互时，可以进行文本交互、语音交互或视频交互，比如与机器人客服的问答形成的文本交互，智能语音对话机器人的问答形成的语音交互，AI审批机器人的面审形成的视频交互等，可以是在不同终端实现不同的交互类型，也可以是在同一个终端实现前述所有的交互类型。其中基于文本交互可以直接获得交互文本，基于语音交互和视频交互通过对录制的语音和视频进行语音识别和转换可以间接获得交互文本，这些直接或间接得到交互文本组成所述历史交互文本；而基于视频交互通过对交互过程的录制则可直接得到历史视频。

本实施例具体以信贷业务场景为例进行说明，在信贷业务场景中产生的数据可分为贷前数据、贷中数据和贷后数据，本步骤获取样本对象的历史交互文本和历史视频时，可根据实际情况仅获取贷前数据、贷中数据和贷后数据中的至少一种，这些贷前数据、贷中数据和贷后数据中包含交互文本和视频。

对于步骤S202，本实施例对所述历史交互文本进行处理得到对应的历史结构化数据具体为针对样本对象的每一条历史交互文本提取目标字段对应的数据，由此每个样本对象对应至少一条具有多个维度的初始的结构化数据。在一些实施例中，所述对所述历史交互文本进行处理得到对应的历史结构化数据包括：对所述历史交互文本进行处理得到至少一条结构化数据，并在得到多条结构化数据时，将所述多条结构化数据进行合并处理，再对合并处理后的结构化数据进行数据处理得到历史行为，并将所述历史行为作为一个字段添加至合并处理后的结构化数据，生成所述历史结构化数据。其中数据处理包括无用数据剔除、数据转换和数据计算等，在进行数据处理后，最终的历史结构化数据相比于最初得到的历史结构化数据，其字段和维度将发生变化。

以信贷业务场景为例，样本对象为已贷款的客户，目标字段可为客户的I D、贷款本金(Loan_amount)、逾期/提前天数(DAY)、应还日期、实际还款日期等，每个目标字段代表结构化数据的一个维度，假如从客户的历史贷前数据、历史贷中数据和历史贷后数据中获取所述历史交互文本，得到如下初始的数据结构为：

表一

ID	Loan_amount	DAY	应还日期	实际还款日期
1	3*****.00		10月1日	10月3日
1		二
2	客户说有2***.0	1.0	11月11日	11月10日

从上表一中可知ID为1的用户对应两条数据，将该两条数据的相同特征合并，得到合并后的结构化数据如下表二：

表二

ID	Loan_amount	DAY	应还日期	实际还款日期
1	3*****.00	二	10月1日	10月3日
2	客户说有2***.0	1.0	11月11日	11月10日

进一步对上述表二中合并后的结构化数据进行数据处理，例如将“客户说有”去除，将“二”转换为“2.0”，并基于“应还日期”和“实际还款日期”两个字段的数据计算得到客户的历史行为“当月是否逾期”这一字段的数据，得到最终的历史结构化数据如下表三：

表三

ID	Loan_amount	DAY	当月是否逾期
1	3*****.00	2.O	1
2	2*****.00	1.0	0

后续步骤将使用最终的历史结构化数据进行建模，建立结构化数据模型，即后续的第一模型，后文中将展开说明。需要说明的是，上述数据合并和数据处理的过程可以同步进行。

进一步地，在本实施例中，所述从所述历史视频中提取人脸图片并处理的步骤包括：采用逐帧截取的方式从历史视频中截取的样本对象的人脸图片并添加时间戳，对按照所述时间戳对各所述人脸图片进行排序，计算相邻的人脸图片的相似度，基于得到相似度对截取的人脸图片进行筛选，得到若干待标记的人脸图片；对所述人脸图片进行人脸关键点检测，从所述人脸关键点中选取眼部关键点，基于所述眼部关键点计算两眼的中心坐标，再基于所述中心坐标结合所述眼部关键点旋转所述人脸图片使人脸对齐，得到处理后的人脸图片。

具体的，进行相似图片剔除时，对每幅人脸图片按照其在历史视频的时间轴上所处的时间位置添加时间戳，排序计算相邻的人脸图片的相似度后，将排序最前的三幅图作为一组，这一组人脸图片可以得到两个相似度，比如五幅图排序为A、B、C、D、E，取最前三幅图A、B、C，可得到A和B的相似度、以及B和C的相似度，当两个相似度值均大于预设阈值时，则将位这一组人脸图片中位于中间的人脸图片剔除，比如A和B的相似度、以及B和C的相似度均大于预设阈值，则将B剔除，得到新的排序A、C、D、E,再取新的排序最前的三幅图，即A、C、D，若A和C的相似度、C和D的相似度两个中任意一个相似度小于预设设置，则保留最前的人脸图片A，再延后一位获取之后的三幅图C、D、E进行相似度判断，以此类推完成剩余人脸图片的筛选。其中，在进行相似度计算时，可通过获取待进行相似计算的两幅人脸图像的灰度像素的比较数组，通过比较数组获取两附图的汉明距离，进而通过汉明距离计算两幅图的相似度。当然，也可采用其他现有的方式计算两幅图的相似度。本实施例当得到的两个相似度值均大于预设阈值时才将人脸图片剔除，可以保留相似度接近的两幅人脸图片，在剔除相似图片的同时可以保证训练数据更加丰富，提高后续模型训练的准确度。

在本实施例中，上述实施例得到若干待标记的人脸图片中的人脸的往往角度不一，大部分人脸都是有不同程度的角度倾斜，故在标记之前要对待标记的人脸图片进行处理，具体为进行数据清洗和人脸角度倾斜的矫正，将所有人脸图片中的人脸截取出来，处理成统一的像素，并且使人脸角度统一。其中，具体人脸矫正的过程如下：

首先，检测人脸关键点；比如本实施例提取68个关键点。

其次，从所述人脸关键点中选取眼部关键点，所述眼部关键点用于作为旋转图片做人脸对齐的参照点；

记左眼关键点坐标：L＝(x _iL,y _iL),…,i＝1,2…6, (1)

右眼关键点坐标：R＝(x _iR,y _iR),…,i＝1,2…6, (2)

则由式(1)和式(2)计算得到左眼右眼的中心坐标分别如下：

然后根据式(3)计算所，可以得到的两眼眼中心坐标连线与水平方向的夹角θ表示为：

其中

两眼中心坐标可由(3)计算得到：

最后，根据式(1)至(4)得到的结果，以两眼中心坐标e _center为基准，将整个人脸图片逆时针旋转θ，则得到了人脸角度矫正后的像素统一的人脸图片。

在进一步的实施例中，所述基于所述历史行为生成处理后的所述人脸图片的标签的步骤包括：根据所述人脸图片对应的历史视频确定所关联的样本对象，再根据所述关联的样本对象从对应的历史结构化数据中读取相应的历史行为生成所述人脸图片的标签，即此处人脸图片的标签是根据样本对象的历史结构化数据确定。以信贷业务场景为例，样本对象为已贷款的客户，根据历史视频对应的已经过审批的客户，可以将历史视频通过客户信息(比如客户ID)关联到其对应的历史结构化数据，则可基于历史结构化数据中历史行为对应的字段得到对应的人脸图片的标签，例如根据客户贷后历史结构化数据，可以针对人脸图片生成高风险客户标签，中风险逾期客户标签，低风险逾期客户标签和无风险逾期客户标签等。

对于步骤S203，在本实施例中，基于步骤S202得到的历史结构化数据和被标记的人脸图片分别构建模型。其中，根据所述历史结构化数据对预设的第一预测模型进行训练包括，从所述历史结构化数据中提取第一预测模型的输入变量和输出目标，例如信贷业务场景样本对象为已贷款的客户时，输入变量可为历史结构化数据中的字段“Loan_amount”、“DAY”等，输出目标为历史结构化数据中的字段“当月是否逾期”，之后基于所述输入变量和输出目标进行模型训练。

其中，获取输入变量的过程包括变量筛选和重构，具体过程包括：利用决策树分箱，通过计算信息增益，对每个单个自变量划分生成决策树，根据分箱结果，将变量IV值做降序排序，从IV值最大的自变量开始训练第一预测模型，每次加入一个新的自变量训练模型，直到模型的AUC值达到最大值不再变化，则此时的自变量即为输入变量。例如，第一次取IV值最大的自变量x ₁训练模型，AUC值是0.8，第二次选择IV值最大的前两个自变量x ₁和x ₂训练模型，AUC值是0.81,以此类推，当选择前m个自变量x ₁,…,x _m训练模型，AUC值为0.9，选择前m+1个自变量x ₁,…,x _m+1训练模型，AUC值为0.8999，则选择自变量x1,…,x _m作为输入变量。

在本实施例中所述第一预测模型为分类模型，具体为xgboost模型，在基于所述输入变量和输出目标进行模型训练的过程中，首先将输入变量对应的数据切分为训练集和验证集，将训练集输入xgboost模型进行训练，再通过验证集验证训练后的模型效果，当模型效果达到预设条件时完成模型训练，得到所述第一模型，根据xgboost模型最后一步sigmoid可将当前样本对象对应的输出转为概率值，该概率值是指模型输出为历史行为的概率值，即所述第一模型输出值。

进一步地，本实施例的第二预测模型采用Resnet_100模型，根据所述人脸图片和所述标签对预设的第二预测模型进行训练包括，将处理好的人脸图片的人脸关键点数据和对应的标签数据切分为训练集和验证集，之后将训练集输入Resnet_100模型，再通过验证集验证训练后的模型效果，当模型效果达到预设条件时完成模型训练，得到所述第二模型，所述第二模型最后输出层接入softmax输出其对应的概率值，即所述第二模型输出值。

对于步骤S204，在本实施例中，将所述第一模型输出值和所述第二模型输出值作为预测的两个维度进行模型构建，例如信贷业务场景样本对象为已贷款的客户时，这两个维度一个为历史结构化数据逾期概率值，另一个为人脸特征逾期概率值，基于两种概率值建立LR模型拟合客户是否逾期标签，通过选取的十折交叉验证集合，得到两种概率值的权重，完成LR模型的构建。例如：记某一客户的历史结构化数据逾期概率值为x，其人脸特征逾期概率值为y，其对应的逾期标签L，则建模的方式是通过LR模型找到历史结构化数据逾期概率值的权重w1和人脸特征逾期概率值的权重w2使得f(w1*x+w2*y)＝L，具体通过使LR模型的损失函数最小化，得到对应的权重w1和w2，完成模型构建。

对于步骤S205，上述步骤S201至S204为构建预测模型的过程。在本步骤基于构建的预测模型对目标对象的行为进行预测，执行本步骤的触发点为目标对象进行文本和视频交互，如客户在进行视频审批面谈期间使用。当获取到目标对象的实时交互文本和实时视频时，根据实时交互文本获取对应的实时结构化数据，并根据实时视频获取实时人脸图片并处理的过程与步骤S202的历史结构化数据和人脸图片的获取处理过程相同。

具体的，以信贷业务场景为例，目标对象为已贷款的客户或申请贷款的客户，以申请贷款的客户为例，预测申请贷款的客户在申请成功后是否会发生逾期行为的过程如下：根据客户在申请贷款时候填写的当前贷前数据(实时交互文本)以及面谈时的实时视频，由实时视频截图可得到人脸图片数据，将数据处理成所述第一模型和第二模型的输入格式之后，分别输入到第一模型和第二模型，分别得到对应的两个逾期概率值，最后将两种概率值输入训练好的LR模型得出客户后期是否有逾期倾向。

进一步地，在得到所述训练后的LR模型后，所述训练后的LR模型将输出所述第一模型输出值和所述第二模型输出值的权重。在所述对所述目标对象的行为进行预测后，所述方法还包括：使所述训练后的LR模型输出所述第一模型输出值和所述第二模型输出值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的实时文本交互和/或实时视频交互，通过获取新的实时交互文本和/或实时视频来更新所述目标对象的行为预测结果。

具体的，以信贷业务场景为例，预测申请贷款的客户在申请成功后是否会发生逾期行为，当通过训练好的LR模型得出客户后期是否有逾期倾向之后，还可输出上述两种概率值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的文本交互和视频交互，通过获取新的交互文本和视频来更新预测。具体的，在信贷业务场景中，将两种概率值输入训练好的LR模型得出客户后期是否有逾期倾向的同时，还会得到两种概率值的更新权重，比如预测客户存在逾期风险，AI审批机器人基于该预期风险给出有针对性的话术和对话流程(即所述预设信息)，采用指定的话术进一步预测此类客户的表现，如进一步询问更细节的问题等。假如根据历史数据训练好模型f(w1*x+w2*y)＝L，可以得到W1＝0.4，W2＝0.6，将两种概率值输入LR模型后，得到该客户会发生逾期，则可以得出此客户逾期的行为，该逾期行为40％的原因与交互文本中的数据相关，60％的原因与人脸视频审批过程客户的脸部特征相关，在选择后续审批的话术时，会认为客户在审批面谈过程中，由于脸部特征对后续逾期的影响更大，因此后续审批流程会选择60％风险客户对应的审批话术A，主要考虑客户对一些随机应变的问题。另一种情况是交互文本导致的原因权重过大时，可能由于客户资质问题，因此在后续审批流程后会选择对应的审批话术B。以此来更精准根据客户多模态行为实现灵活的审批话术和流程，进而进行预测更新，预测实时性和准确度更高。

进一步地，在所述得到所述训练后的LR模型的步骤后，所述方法还包括：记录已有的对象和新增对象的新的交互文本、视频以及行为，根据所述新交互文本、视频以及行为更新历史数据，将更新的历史数据处理成对应的数据格式后对所述第一模型、所述第二模型和所述训练后的LR模型进行训练优化。具体的，本实施例可对上述构建的模型进行优化，具体通过记录已有对象和新增对象面谈审批后的新的交互文本、视频、行为来更新历史数据，并将更新的历史数据处理成对应的数据格式后作为优化算法的输入数据，以优化模型。这些新增的历史数据一部分是已有对象的结构化数据，比如信贷业务中客户的贷前行为数据，另一部分是增量对象的数据，所以基于结构化数据的所述第一模型输出的概率值分布可能会随着时间变化的，随着新增数据的变化可能会导致一些旧变量失效，同时会有新变量加入，在加入新数据不断优化模型时，需要重新筛选变量来执行以上模型训练过程。

本申请提供的基于人脸和交互文本的目标对象行为预测方法，通过分别获取人脸图片和交互文本分别训练对应的模型，输出基于人脸图片和交互文本得到历史行为的概率，再采用联合概率建立LR模型，之后再通过建立的LR模型进行预测，可以在大数据集场景中大大提高预测结果的准确性。

需要强调的是，为进一步保证信息的私密和安全性，在所述获取多个样本对象的历史交互文本和历史视频的步骤中，将从区块链的节点中读取所述历史交互文本中的隐私数据。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、计算机可读指令来指令、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令来指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于人脸和交互文本的目标对象行为预测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于人脸和交互文本的目标对象行为预测装置包括：数据获取模块301、数据处理模块302、模型构建模块303以及预测模块304。

其中，所述数据获取模块301用于获取多个样本对象的历史交互文本和历史视频。

所述数据处理模块302用于对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签。

所述模型构建模块303用于根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；以及根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型。

所述预测模块304用于当获取到目标对象的实时交互文本和实时视频时，使所述数据处理模块301根据所述实时交互文本获取对应的实时结构化数据，并使所述数据处理模块302根据所述实时视频获取实时人脸图片并处理，再将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。

在一些基于终端交互的业务场景中，需要对用户的行为进行预测，根据预测的行为执行特定操作，此处的用户即为样本对象，也是需要进行行为预测的目标对象。在进行终端交互时，可以进行文本交互、语音交互或视频交互，比如与机器人客服的问答形成的文本交互，智能语音对话机器人的问答形成的语音交互，AI审批机器人的面审形成的视频交互等，可以是在不同终端实现不同的交互类型，也可以是在同一个终端实现前述所有的交互类型。其中基于文本交互可以直接获得交互文本，基于语音交互和视频交互通过对录制的语音和视频进行语音识别和转换可以间接获得交互文本，这些直接或间接得到交互文本组成所述历史交互文本；而基于视频交互通过对交互过程的录制则可直接得到历史视频。

本实施例所述数据处理模块302对所述历史交互文本进行处理得到对应的历史结构化数据具体为针对样本对象的每一条历史交互文本提取目标字段对应的数据，由此每个样本对象对应至少一条具有多个维度的初始的结构化数据。在一些实施例中，所述数据处理模块302对所述历史交互文本进行处理得到对应的历史结构化数据时，具体用于：对所述历史交互文本进行处理得到至少一条结构化数据，并在得到多条结构化数据时，将所述多条结构化数据进行合并处理，再对合并处理后的结构化数据进行数据处理得到历史行为，并将所述历史行为作为一个字段添加至合并处理后的结构化数据，生成所述历史结构化数据。其中数据处理包括无用数据剔除、数据转换和数据计算等，在进行数据处理后，最终的历史结构化数据相比于最初得到的历史结构化数据，其字段和维度将发生变化。具体可参考上述方法实施例，此处不作展开。

进一步地，在本实施例中，所述数据处理模块302从所述历史视频中提取人脸图片并处理时，具体用于：采用逐帧截取的方式从历史视频中截取的样本对象的人脸图片并添加时间戳，对按照所述时间戳对各所述人脸图片进行排序，计算相邻的人脸图片的相似度，基于得到相似度对截取的人脸图片进行筛选，得到若干待标记的人脸图片；对所述人脸图片进行人脸关键点检测，从所述人脸关键点中选取眼部关键点，基于所述眼部关键点计算两眼的中心坐标，再基于所述中心坐标结合所述眼部关键点旋转所述人脸图片使人脸对齐，得到处理后的人脸图片。具体可参考上述方法实施例，此处不作展开。

在进一步的实施例中，所述数据处理模块302在基于所述历史行为生成处理后的所述人脸图片的标签时，具体用于：根据所述人脸图片对应的历史视频确定所关联的样本对象，再根据所述关联的样本对象从对应的历史结构化数据中读取相应的历史行为生成所述人脸图片的标签，即此处人脸图片的标签是根据样本对象的历史结构化数据确定。具体可参考上述方法实施例，此处不作展开。

在本实施例中，所述模型构建模块303根据所述历史结构化数据对预设的第一预测模型进行训练包括，从所述历史结构化数据中提取第一预测模型的输入变量和输出目标，之后基于所述输入变量和输出目标进行模型训练。其中，获取输入变量的过程包括变量筛选和重构，具体可参考上述方法实施例，此处不作展开。

在本实施例中所述第一预测模型为分类模型，具体为xgboost模型，本实施例的第二预测模型采用Resnet_100模型，具体可参考上述方法实施例，此处不作展开。

进一步地，在所述模型构建模块303得到所述训练后的LR模型后，所述训练后的LR模型将输出所述第一模型输出值和所述第二模型输出值的权重。所述预测模块304在对所述目标对象的行为进行预测后，还用于使所述训练后的LR模型输出所述第一模型输出值和所述第二模型输出值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的实时文本交互和/或实时视频交互，通过获取新的实时交互文本和/或实时视频来更新所述目标对象的行为预测结果。具体可参考上述方法实施例，此处不作展开。

所述模型构建模块303还用于在得到所述训练后的LR模型后，记录已有的对象和新增对象的新的交互文本、视频以及行为，根据所述新交互文本、视频以及行为更新历史数据，将更新的历史数据处理成对应的数据格式后对所述第一模型、所述第二模型和所述训练后的LR模型进行训练优化。具体可参考上述方法实施例，此处不作展开。

本申请提供的基于人脸和交互文本的目标对象行为预测装置，通过分别获取人脸图片和交互文本分别训练对应的模型，输出基于人脸图片和交互文本得到历史行为的概率，再采用联合概率建立LR模型，之后再通过建立的LR模型进行预测，可以在大数据集场景中大大提高预测结果的准确性。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43，所述存储器41中存储有计算机可读指令，所述处理器42执行所述计算机可读指令时实现上述方法实施例中所述的基于人脸和交互文本的目标对象行为预测方法的步骤，并具有与上述基于人脸和交互文本的目标对象行为预测方法相对应的有益效果，在此不作展开。

需要指出的是，图中仅示出了具有存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中，所述存储器41至少包括一种类型的可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，具体的，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如对应于上述基于人脸和交互文本的目标对象行为预测方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行对应于所述基于人脸和交互文本的目标对象行为预测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于人脸和交互文本的目标对象行为预测方法的步骤，并具有与上述基于人脸和交互文本的目标对象行为预测方法相对应的有益效果，在此不作展开。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术实施例进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种基于人脸和交互文本的目标对象行为预测方法，包括下述步骤：

获取多个样本对象的历史交互文本和历史视频；

对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；

根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

当获取到目标对象的实时交互文本和实时视频时，根据所述实时交互文本获取对应的实时结构化数据，并根据所述实时视频获取实时人脸图片并处理，将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。
根据权利要求1所述的基于人脸和交互文本的目标对象行为预测方法，其中，所述对所述历史交互文本进行处理得到对应的历史结构化数据包括：

对所述历史交互文本进行处理得到至少一条结构化数据，并在得到多条结构化数据时，将所述多条结构化数据进行合并处理，再对合并处理后的结构化数据进行数据处理得到历史行为，并将所述历史行为作为一个字段添加至合并处理后的结构化数据，生成所述历史结构化数据。
根据权利要求2所述的基于人脸和交互文本的目标对象行为预测方法，其中，所述基于所述历史行为生成处理后的所述人脸图片的标签的步骤包括：

根据所述人脸图片对应的历史视频确定所关联的样本对象，再根据所述关联的样本对象从对应的历史结构化数据中读取相应的历史行为生成所述人脸图片的标签。
根据权利要求3所述的基于人脸和交互文本的目标对象行为预测方法，其中，所述从所述历史视频中提取人脸图片并处理的步骤包括：

采用逐帧截取的方式从历史视频中截取的样本对象的人脸图片并添加时间戳，对按照所述时间戳对各所述人脸图片进行排序，计算相邻的人脸图片的相似度，基于得到相似度对截取的人脸图片进行筛选，得到若干待标记的人脸图片；对所述人脸图片进行人脸关键点检测，从所述人脸关键点中选取眼部关键点，基于所述眼部关键点计算两眼的中心坐标，再基于所述中心坐标结合所述眼部关键点旋转所述人脸图片使人脸对齐，得到处理后的人脸图片。
根据权利要求1至4任一项所述的基于人脸和交互文本的目标对象行为预测方法，其中，在得到所述训练后的LR模型后，所述训练后的LR模型将输出所述第一模型输出值和所述第二模型输出值的权重；

在所述对所述目标对象的行为进行预测后，所述方法还包括：

使所述训练后的LR模型输出所述第一模型输出值和所述第二模型输出值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的实时文本交互和/或实时视频交互，通过获取新的实时交互文本和/或实时视频来更新所述目标对象的行为预测结果。
根据权利要求1至4任一项所述的基于人脸和交互文本的目标对象行为预测方法，其中，在所述得到所述训练后的LR模型的步骤后，所述方法还包括：

记录已有的对象和新增对象的新的交互文本、视频以及行为，根据所述新交互文本、视频以及行为更新历史数据，将更新的历史数据处理成对应的数据格式后对所述第一模型、所述第二模型和所述训练后的LR模型进行训练优化。
根据权利要求1至4任一项所述的基于人脸和交互文本的目标对象行为预测方法，其中，在所述获取多个样本对象的历史交互文本和历史视频的步骤中，所述方法还包括：

将从区块链中读取所述历史交互文本中的隐私数据。
一种基于人脸和交互文本的目标对象行为预测装置，包括：

数据获取模块，用于获取多个样本对象的历史交互文本和历史视频；

数据处理模块，用于对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

模型构建模块，用于根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；以及根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

预测模块，用于当获取到目标对象的实时交互文本和实时视频时，使所述数据处理模块根据所述实时交互文本获取对应的实时结构化数据，并使所述数据处理模块根据所述实时视频获取实时人脸图片并处理，再将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下的步骤：

获取多个样本对象的历史交互文本和历史视频；

对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；

根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

当获取到目标对象的实时交互文本和实时视频时，根据所述实时交互文本获取对应的实时结构化数据，并根据所述实时视频获取实时人脸图片并处理，将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令实现所述对所述历史交互文本进行处理得到对应的历史结构化数据的步骤时，具体实现如下步骤：

对所述历史交互文本进行处理得到至少一条结构化数据，并在得到多条结构化数据时，将所述多条结构化数据进行合并处理，再对合并处理后的结构化数据进行数据处理得到历史行为，并将所述历史行为作为一个字段添加至合并处理后的结构化数据，生成所述历史结构化数据。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令实现所述基于所述历史行为生成处理后的所述人脸图片的标签的步骤时，具体实现如下步骤：

根据所述人脸图片对应的历史视频确定所关联的样本对象，再根据所述关联的样本对象从对应的历史结构化数据中读取相应的历史行为生成所述人脸图片的标签。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令实现所述从所述历史视频中提取人脸图片并处理的步骤时，具体实现如下步骤：

采用逐帧截取的方式从历史视频中截取的样本对象的人脸图片并添加时间戳，对按照所述时间戳对各所述人脸图片进行排序，计算相邻的人脸图片的相似度，基于得到相似度对截取的人脸图片进行筛选，得到若干待标记的人脸图片；对所述人脸图片进行人脸关键点检测，从所述人脸关键点中选取眼部关键点，基于所述眼部关键点计算两眼的中心坐标，再基于所述中心坐标结合所述眼部关键点旋转所述人脸图片使人脸对齐，得到处理后的人脸图片。
根据权利要求9至12任一项所述的计算机设备，其中，在得到所述训练后的LR模型后，所述训练后的LR模型将输出所述第一模型输出值和所述第二模型输出值的权重；

在所述对所述目标对象的行为进行预测后，所述处理器执行所述计算机可读指令时还实现如下的步骤：

使所述训练后的LR模型输出所述第一模型输出值和所述第二模型输出值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的实时文本交互和/或实时视频交互，通过获取新的实时交互文本和/或实时视频来更新所述目标对象的行为预测结果。
根据权利要求9至12任一项所述的计算机设备，其中，在所述处理器执行所述计算机可读指令实现所述得到所述训练后的LR模型的步骤后，所述处理器执行所述计算机可读指令时还实现如下的步骤：

记录已有的对象和新增对象的新的交互文本、视频以及行为，根据所述新交互文本、视频以及行为更新历史数据，将更新的历史数据处理成对应的数据格式后对所述第一模型、所述第二模型和所述训练后的LR模型进行训练优化。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

获取多个样本对象的历史交互文本和历史视频；

对所述历史交互文本进行处理得到对应的历史结构化数据，所述历史结构化数据包含所述样本对象的历史行为，从所述历史视频中提取人脸图片并处理，基于所述历史行为生成处理后的人脸图片的标签；

根据所述历史结构化数据对预设的第一预测模型进行训练，得到第一模型和第一模型输出值，并根据所述处理后的人脸图片和所述标签对预设的第二预测模型进行训练，得到第二模型和第二模型输出值；其中所述第一模型输出值和所述第二模型输出值分别为对应的模型输出所述历史行为的概率值；

根据所述第一模型输出值和所述第二模型输出值建立LR模型拟合所述历史行为，得到训练后的LR模型；

当获取到目标对象的实时交互文本和实时视频时，根据所述实时交互文本获取对应的实时结构化数据，并根据所述实时视频获取实时人脸图片并处理，将所述实时结构化数据输入所述第一模型，同时将处理后的所述实时人脸图片输入所述第二模型，将所述第一模型和所述第二模型的输出同时输入至所述训练后的LR模型，对所述目标对象的行为进行预测。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器执行所述对所述历史交互文本进行处理得到对应的历史结构化数据的步骤时，具体执行如下步骤：

对所述历史交互文本进行处理得到至少一条结构化数据，并在得到多条结构化数据时，将所述多条结构化数据进行合并处理，再对合并处理后的结构化数据进行数据处理得到历史行为，并将所述历史行为作为一个字段添加至合并处理后的结构化数据，生成所述历史结构化数据。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器执行所述基于所述历史行为生成处理后的所述人脸图片的标签的步骤时，具体执行如下步骤：

根据所述人脸图片对应的历史视频确定所关联的样本对象，再根据所述关联的样本对象从对应的历史结构化数据中读取相应的历史行为生成所述人脸图片的标签。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行，使得所述处理器执行所述从所述历史视频中提取人脸图片并处理的步骤时，具体执行如下步骤：

采用逐帧截取的方式从历史视频中截取的样本对象的人脸图片并添加时间戳，对按照所述时间戳对各所述人脸图片进行排序，计算相邻的人脸图片的相似度，基于得到相似度对截取的人脸图片进行筛选，得到若干待标记的人脸图片；对所述人脸图片进行人脸关键点检测，从所述人脸关键点中选取眼部关键点，基于所述眼部关键点计算两眼的中心坐标，再基于所述中心坐标结合所述眼部关键点旋转所述人脸图片使人脸对齐，得到处理后的人脸图片。
根据权利要求15至18任一项所述的计算机可读存储介质，其中，在得到所述训练后的LR模型后，所述训练后的LR模型将输出所述第一模型输出值和所述第二模型输出值的权重；

在所述对所述目标对象的行为进行预测后，所述计算机可读指令被所述处理器执行，使得所述处理器还执行如下步骤：

使所述训练后的LR模型输出所述第一模型输出值和所述第二模型输出值的更新权重，基于所述更新权重获取预设信息，将预设信息发送至目标对象，以使目标对象根据所述预设信息进行新的实时文本交互和/或实时视频交互，通过获取新的实时交互文本和/或实时视频来更新所述目标对象的行为预测结果。
根据权利要求15至18任一项所述的计算机可读存储介质，其中，在所述得到所述训练后的LR模型的步骤后，所述计算机可读指令被所述处理器执行，使得所述处理器还执行如下步骤：

记录已有的对象和新增对象的新的交互文本、视频以及行为，根据所述新交互文本、视频以及行为更新历史数据，将更新的历史数据处理成对应的数据格式后对所述第一模型、所述第二模型和所述训练后的LR模型进行训练优化。