WO2021189922A1

WO2021189922A1 - 用户画像生成方法、装置、设备及介质

Info

Publication number: WO2021189922A1
Application number: PCT/CN2020/132601
Authority: WO
Inventors: 夏婧; 吴振宇; 王建明
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-19
Filing date: 2020-11-30
Publication date: 2021-09-30
Also published as: CN112256961A; CN112256961B

Abstract

本申请涉及人工智能技术领域，揭示了一种用户画像生成方法、装置、设备及介质，其中方法包括：获取目标用户的状态特征时间序列及购买行为时间序列，购买行为时间序列携带有目标用户购买产品的产品标识；从预设的模型库中查找与产品标识对应的行为预测模型，其中，行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；将状态特征时间序列及购买行为时间序列输入到与产品标识对应的行为预测模型进行概率预测得到目标用户的行为预测数据；根据行为预测数据，确定目标用户的画像。在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高用户画像的准确性，提高用户画像颗粒度的精细度。

Description

用户画像生成方法、装置、设备及介质

本申请要求于2020年10月19日提交中国专利局、申请号为202011118110X，发明名称为“用户画像生成方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种用户画像生成方法、装置、设备及介质。

背景技术

用户画像是用户角色的数字化抽象，是分析挖掘用户行为的模型，构建精准的用户画像，可以帮助企业拓展新兴产品的销售，通过了解用户所处环境、所需产品进行针对性的销售。发明人意识到传统用户画像模型采用羊群模型或人像模型，只能对用户在单一场景下进行分析，不能跟随用户的人生阶段、人生状态、消费场景等改变；现有用户画像描述内容缺乏个性化，用户画像颗粒度较粗，难以满足多个营销场景的需要，难以满足多种角色化要求，难以追踪用户行为培养长期客户。在上述诸多困难的情况下，用户画像帮助业务进行精准营销所得到的提升有局限，既不能实时满足营销端业务人员的需要，也不能高颗粒度地区分不同类型用户的特征差异及需求差异。

技术问题

旨在解决现有技术用户画像帮助业务进行精准营销所得到的提升有局限、不能实时满足营销端业务人员的需要、不能高颗粒度地区分不同类型用户的特征差异及需求差异的技术问题。

技术解决方案

本申请的主要目的为提供一种用户画像生成方法、装置、设备及介质，旨在解决现有技术用户画像帮助业务进行精准营销所得到的提升有局限、不能实时满足营销端业务人员的需要、不能高颗粒度地区分不同类型用户的特征差异及需求差异的技术问题。

为了实现上述发明目的，本申请提出一种用户画像生成方法，所述方法包括：

获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。

本申请还提出了一种用户画像生成装置，所述装置包括：

数据获取模块，用于获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

模型获取模块，用于从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

预测模块，用于将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；

画像模块，用于根据所述行为预测数据，确定所述目标用户的画像。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如下方法步骤：

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

有益效果

本申请的用户画像生成方法、装置、设备及介质，通过获取目标用户的状态特征时间序列及购买行为时间序列，实现了对用户的人生阶段、人生状态、消费场景的描述，从而有利于构建多视角的用户画像，满足了复杂场景的用户画像需求；因为针对不同产品采用不同的购买行为时间序列，每个行为预测模型对应一个产品，所以提高了用户画像颗粒度的精细度；因为行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高了用户画像的准确性，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

附图说明

图1为本申请一实施例的用户画像生成方法的流程示意图；

图2为本申请一实施例的用户画像生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术用户画像帮助业务进行精准营销所得到的提升有局限、不能实时满足营销端业务人员的需要、不能高颗粒度地区分不同类型用户的特征差异及需求差异的技术问题，提出了一种用户画像生成方法，所述方法应用于人工智能技术领域。所述方法通过基于马尔科夫决策过程及最大似然逆强化学习得到的模型得到行为预测模型，再采用行为预测模型进行概率预测，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高了用户画像的准确性，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

参照图1，所述用户画像生成方法包括：

S1：获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

S2：从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

S3：将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；

S4：根据所述行为预测数据，确定所述目标用户的画像。

本实施例通过获取目标用户的状态特征时间序列及购买行为时间序列，实现了对用户的人生阶段、人生状态、消费场景的描述，从而有利于构建多视角的用户画像，满足了复杂场景的用户画像需求；因为针对不同产品采用不同的购买行为时间序列，每个行为预测模型对应一个产品，所以提高了用户画像颗粒度的精细度；因为行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高了用户画像的准确性，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

对于S1，可以从数据库中获取目标用户的状态特征时间序列及购买行为时间序列。

所述目标用户的状态特征时间序列及购买行为时间序列，是指同一个待画像的用户的状态特征时间序列及购买行为时间序列。

所述状态特征时间序列，是指待画像用户的状态特征向量的时间序列。每个状态特征向量表述多个用户信息。也就是说，所述状态特征时间序列包括多个状态特征向量，所述多个状态特征向量中的状态特征向量按时间进行排列。用户信息包括但不限于：个人信息、财务状况、购买产品信息、贷款记录、信息浏览记录。比如，状态特征时间序列可以表述为{x ₁,x ₂,x ₃,……x _n}，{x ₁,x ₂,x ₃,……x _n}中每个状态特征向量包括6个向量元素，6个向量元素分别代表述数据产生时间、个人信息、财务状况、购买产品信息、贷款记录、信息浏览记录，也就是说，x _i包括6个向量元素，x _i的6个向量元素分别代表述数据产生时间、个人信息、财务状况、购买产品信息、贷款记录、信息浏览记录，x _i是{x ₁,x ₂,x ₃,……x _n}中第i个值(也就是第i个时间的状态特征向量)，在此举例不做具体限定。

所述购买行为时间序列，是指待画像用户对某一产品的购买行为特征的时间序列。所述购买行为时间序列包括多个所述购买行为特征，每个所述购买行为特征包括一个值，比如，当购买行为特征为1时表示购买该产品，当购买行为特征为0时表示未购买该产品，在此举例不做具体限定。比如，购买行为时间序列可以表述为{a ₁,a ₂,a ₃,……a _n}，{a ₁,a ₂,a ₃,……a _n}为同一个产品的购买行为，a _i有一个值(0或1)，当a _i是0是表示购买该产品，当a _i是1是表示未购买该产品，a _i是{a ₁,a ₂,a ₃,……a _n}中第i个值(也就是第i个时间的购买行为特征)，在此举例不做具体限定。

优选的，所述状态特征时间序列中状态特征向量的个数与所述购买行为时间序列中购买行为特征的个数相同。

对于S2，从预设的模型库的产品标识中，找出与所述购买行为时间序列携带的所述目标用户购买产品的产品标识相同的标识，将找出的产品标识对应的行为预测模型作为与所述产品标识对应的行为预测模型。

所述预设的模型库中包括至少一个行为预测模型，每个行为预测模型携带有产品标识。所述行为预测模型是对目标用的购买行为进行概率预测的模型。

采用多个典型用户的样本数据，基于马尔科夫决策过程及最大似然逆强化学习进行建模和自主学习，得到行为预测模型。也就是说，所述行为预测模型携带的产品标识与建模和自主学习采用的多个典型用户的样本数据的产品标识相同。

对于S3，将所述状态特征时间序列及所述购买行为时间序列输入与输入的所述购买行为时间序列携带的产品标识对应的行为预测模型进行概率预测，获取所述购买行为时间序列携带的产品标识对应的行为预测模型输出的所述目标用户的行为预测数据，也就是说，所述行为预测数据对应的所述产品标识与用于预测的所述购买行为时间携带的产品标识相同。

所述行为预测数据，是指目标用户对一种产品的购买行为的概率预测值。

重复步骤S2至步骤S3，可以完成对状态特征时间序列及多个购买行为时间序列的概率预测。也就是说，步骤S2至步骤S3每次只预测目标用户对一个产品的购买行为的概率预测值。

对于S4，所述目标用户的画像，用于描述目标用户对产品是否购买。

比如，目标用户的画像可以表述为[1 0 1 1]，第一个向量元素代表产品一，第二个向量元素代表产品二，第三个向量元素代表产品三，第四个向量元素代表产品四，向量元素值0代表不购买，向量元素值1代表购买，则目标用户的画像[1 0 1 1]表示目标用户购买产品一、产品三、产品四，目标用户不购买产品二，在此举例不做具体限定。

又比如，目标用户的画像还可以表述为{产品一：1，产品二：0，产品三：1，产品四：1}，集合元素值0代表不购买，集合元素值1代表购买，目标用户的画像{产品一：1，产品二：0，产品三：1，产品四：1}表示目标用户购买产品一、产品三、产品四，目标用户不购买产品二，在此举例不做具体限定。

在一个实施例中，上述从预设的模型库中查找与所述产品标识对应的行为预测模型的步骤之前，还包括：

S021：获取多个典型用户的样本数据，其中，所述样本数据携带有所述典型用户购买产品的产品标识；

S022：基于马尔可夫决策过程确定所述样本数据的效用函数集合；

S023：对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型，所述行为预测模型携带有所述产品标识。

本实施例实现了采用多个典型用户的样本数据，基于马尔可夫决策过程和最大似然逆强化学习确定所述行为预测模型，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高了用户画像的准确性，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

对于S021，可以从数据库中获取多个典型用户的样本数据。

所述典型用户的样本数据，是指具有代表性的客户的数据，根据历史客户数据确定。代表性的客户是指某类客户中购买产品的意愿和行为处于本类客户的平均水平的客户。其中，将相似收入水平、相似教育程度、相似家庭成员组成、相似工作经历的客户划分为同一类客户。可以理解的是，划分客户类别的方式还有其他方式，比如，将相似教育程度、相似家庭成员组成的客户划分为同一类客户，在此举例不做具体限定。

所述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识。

所述典型用户的状态特征时间序列，是指典型用户的状态特征向量的时间序列。

所述典型用户的购买行为时间序列，是指典型用户对某一产品的购买行为特征的时间序列。

优选的，所述典型用户的状态特征时间序列中状态特征向量的个数与所述典型用户的购买行为时间序列中购买行为特征的个数相同。

对于S022，根据所有所述典型用户的状态特征时间序列和所述产品标识相同的所有所述典型用户的购买行为时间序列，基于马尔可夫决策过程建立状态、行为、效用函数的关系。然后对效用函数进行优化求解，根据优化求解结果确定所述效用函数集合。其中，从优化求解结果中提取效用函数，并将提取的效用函数组合成一个集合，组成的集合就是效用函数集合。

优选的，所述效用函数集合中效用函数的数量与所述典型用户的状态特征时间序列中状态特征向量的个数相同。

对于S023，根据所述效用函数集合进行最大似然逆强化学习时，采用线性叠加的方式将效用函数集合中的效用函数进行整合，采用最大熵逆强化学习对整合结果进行参数估计，参数估计完成得到所述行为预测模型，从而拟合出了个人效用函数和购买行为特征。

所述行为预测模型携带的所述产品标识与步骤S022中所述典型用户的购买行为时间序列对应的所述产品标识相同。

在一个实施例中，上述获取多个典型用户的样本数据，包括：

S0211：获取多个典型用户的历史数据，所述历史数据包括：典型用户的状态特征数据、典型用户的购买行为数据，所述典型用户的购买行为数据携带有所述典型用户购买产品的产品标识；

S0212：对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据；

S0213：按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。

本实施例实现了对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据，按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据，从而使典型用户的样本数据实现了对用户的人生阶段、人生状态、消费场景的描述，有利于构建多视角的用户画像，满足了复杂场景的用户画像需求。

对于S0211，获取待处理的历史客户数据；根据所述待处理的历史客户数据进行典型用户特征提取，得到所述多个典型用户的历史数据。

每个所述典型用户的历史数据对应一个典型用户。

所述状态特征数据是数据集合。

优选的，所述典型用户的状态特征数据中状态特征数据的个数与所述典型用户的购买行为数据中购买行为数据的个数相同。

对于S0212，从所述典型用户的状态特征数据中提取出状态特征数据；将提取出的所述状态特征数据进行时间序列构建，得到所述典型用户状态特征时间序列的样本数据。

对于S0213，从所述典型用户的购买行为数据中按所述产品标识提取出购买行为数据，将提取出的所述购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。也就是说，每次提取出一个产品标识的所述典型用户的购买行为时间序列，经过多次提取，即可确定同一典型用户对应的多个所述典型用户的购买行为时间序列。

在一个实施例中，上述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识；所述基于马尔可夫决策过程，根据所有所述典型用户的状态特征时间序列和所述产品标识相同的所有所述典型用户的购买行为时间序列，确定效用函数集合的步骤，包括：

S0221：获取由所述典型用户的状态特征时间序列和购买行为时间序列确定得到的最大价值行为计算公式；

S0222：采用动态规划方法迭代对所述最大价值行为计算公式进行优化求解，得到目标最大价值行为计算公式；

S0223：从所述目标最大价值行为计算公式中提取效用函数并将提取的多个效用函数组合为所述效用函数集合。

本实施例实现了采用多个典型用户的样本数据，基于马尔可夫决策过程确定所述效用函数集合，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为。

对于S0221，最大价值行为计算公式A表述如下：

其中，p(a|x)即在状态x时采取动作a的概率，U(x,a)是效用函数；x是所述典型用户的状态特征时间序列中的值，所述典型用户的状态特征时间序列表述为{x ₁,x ₂,x ₃,……x _n}；a为所述典型用户的购买行为时间序列中的值，所述典型用户的购买行为时间序列表述为{a ₁,a ₂,a ₃,……a _n}。

对于S0222，对所述最大价值行为计算公式采用动态规划方法迭代进行优化求解，得到所述目标最大价值行为计算公式。

优化求解是寻找一个最优的策略让典型用户在与状态特征时间序列中各个状态特征的交互过程中获得始终比其它策略都要多的收获。优化求解就是使

的值最大，

的值最大时提取的效用函数U(x,a)是最有价值的效用函数。

意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获，这个最优策略我们可以用ππ表示。一旦找到这个最优策略ππ，那么我们就解决了这个强化学习问题。一般来说，比较难去找到一个最优策略，但是可以通过比较若干不同策略的优劣来确定一个较好的策略，也就是局部最优解。

优选的，采用贝尔曼方程V对所述最大价值行为计算公式采用动态规划方法迭代进行优化求解。

其中，V(x _t)表示基于状态x _t，对效用函数U的期望；U(x _t,a _t)表示在x _t(t时刻)和a _t(t时刻)时刻的效用函数值；β是衰减因子，衰减因子的取值为0-1(可以包括0，也可以包括1)；x是所述典型用户的状态特征时间序列中的值，a为所述典型用户的购买行为时间序列中的值。

优选的，衰减因子取值为0.9，避免过度衰减；t是时间；U是效用函数U(x,a)。

对于S0223，从所述目标最大价值行为计算公式中提取出效用函数，将提取出的效用函数放入所述效用函数集合。

在一个实施例中，上述对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型的步骤，包括：

S0231：对所述效用函数集合中的效用函数进行线性叠加，得到待估计个人效用函数；

S0232：采用softmax函数对所述待估计个人效用函数进行归一化处理，得到归一化个人效用函数；

S0233：采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型。

本实施例实现了线性叠加和归一化处理，以实现最大似然逆强化学习，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

对于S0231，将所述效用函数集合表述为{U ₁,U ₂,U ₃,……U _n}，将对所述效用函数集合中的效用函数进行线性叠加，得到所述待估计个人效用函数U _agent，具体表述为：

U _agent＝w ₁U ₁+w ₂U ₂+w ₃U ₃+……+w _nU _n

其中，w ₁,w ₂,w ₃,……w _n是需要估计的参数。

对于S0232，优选的，将所述待估计个人效用函数通过softmax函数进行归一化处理。

Softmax函数是归一化指数函数，将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

其中，U(x,a) _j是指步骤S0231中U _agent的w _jU _j；U(x,a) _i是指步骤S0231中U _agent的w _iU _i；e是自然常数，为数学中一个常数，是一个无限不循环小数，且为超越数，其值约为2.718281828459。

在一个实施例中，上述采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型的步骤，包括：

假设存在一个潜在概率分布，在该概率分布下，产生专家轨迹，已知条件为：

其中，f表示特征期望(在这里指每一种产品给客户带来的期望效用值，也就是所述待估计个人效用函数U _agent)，

是专家特征期望(多种产品给客户带来的加权效用值)，为每种产品被选中的概率(也就是所述待估计个人效用函数U _agent中的w ₁,w ₂,w ₃,……w _n)；将问题转化为标准型，成为求解熵最大时的最优问题：

s.t.∑w＝1

其中，plogp表示一个随机变量的熵；

是求最大值；S.t.后面是计算

的限制条件；

通过拉格朗日乘子法：

求解后，对概率w进行微分计算，得到最大熵概率为：

其中，exp()高等数学里以自然常数e为底的指数函数；参数λ _j对应着拉格朗日乘子，该参数可以利用最大似然法求解；f _j指每j种产品给客户带来的期望效用值。

在一个实施例中，所述根据所述行为预测数据，确定所述目标用户的画像的步骤，包括：

S61：将所述行为预测数据与预设阈值进行对比，并将对比的结果作为预测结果；

当所述行为预测数据高于所述预设阈值时确定与产品标识对应的预测结果为购买，否则确定与产品标识对应的预测结果为不购买；

S62：将与产品标识对应的预测结果组合成向量作为所述目标用户的画像。

对于S61，所述预设阈值可以选择0.5、0.55、0.6、0.65、0.7、0.75、0.8，在此举例不做具体限定。预设阈值高得到的预测结果相对预设阈值低得到的预测结果准确度高，范围降低，其中，范围降低是指部分具有购买意愿的用户的预测结果被确定为不购买。

对于S62，可以将所有所述与产品标识对应的预测结果组合成向量，将组合得到的向量作为所述目标用户的画像。

可以理解的是，还可以将所有所述与产品标识对应的预测结果组合成集合，将组合得到的集合作为所述目标用户的画像。

参照图2，本申请还提出了一种用户画像生成装置，所述装置包括：

数据获取模块100，用于获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

模型获取模块200，用于从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

预测模块300，用于将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；

画像模块400，用于根据所述行为预测数据，确定所述目标用户的画像。

在一个实施例中，所述装置包括：模型训练模块；

所述模型训练模块，用于获取多个典型用户的样本数据，其中，所述样本数据携带有所述典型用户购买产品的产品标识；基于马尔可夫决策过程确定所述样本数据的效用函数集合；对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型，所述行为预测模型携带有所述产品标识。

在一个实施例中，所述模型训练模块包括：样本获取子模块；

所述样本获取子模块，用于获取多个典型用户的历史数据，所述历史数据包括：典型用户的状态特征数据、典型用户的购买行为数据，所述典型用户的购买行为数据携带有所述典型用户购买产品的产品标识；对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据；按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。

在一个实施例中，所述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识；

所述模型训练模块还包括：效用函数确定子模块；

所述效用函数确定子模块，用于获取由所述典型用户的状态特征时间序列和购买行为时间序列确定得到的最大价值行为计算公式；采用动态规划方法迭代对所述最大价值行为计算公式进行优化求解，得到目标最大价值行为计算公式；从所述目标最大价值行为计算公式中提取效用函数并将提取的多个效用函数组合为所述效用函数集合。

在一个实施例中，所述模型训练模块还包括：最大似然逆强化学习子模块；

所述最大似然逆强化学习子模块，用于对所述效用函数集合中的效用函数进行线性叠加，得到待估计个人效用函数；采用softmax函数对所述待估计个人效用函数进行归一化处理，得到归一化个人效用函数；采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型。

在一个实施例中，所述最大似然逆强化学习子模块包括：参数估计单元；

所述参数估计单元，用于假设存在一个潜在概率分布，在该概率分布下，产生专家轨迹，已知条件为：

是专家特征期望(多种产品给客户带来的加权效用值)，为每种产品被选中的概率(也就是所述待估计个人效用函数U _agent中的w ₁,w ₂,w ₃,……w _n)，将问题转化为标准型，成为求解熵最大时的最优问题：

s.t.∑w＝1

其中，plogp表示一个随机变量的熵；

是求最大值；S.t.后面是计算

的限制条件；

通过拉格朗日乘子法：

求解后，对概率w进行微分计算，得到最大熵概率为：

在一个实施例中，所述画像模块400包括：预测结果确定子模块、画像确定子模块；

所述预测结果确定子模块，用于将所述目标行为预测数据与预设阈值进行对比，并将对比的结果作为预测结果；

所述画像确定子模块，用于将与产品标识对应的预测结果组合成向量作为所述目标用户的画像。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存用户画像生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像生成方法。所述用户画像生成方法，包括：获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种用户画像生成方法，包括步骤：获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。

上述执行的用户画像生成方法，通过获取目标用户的状态特征时间序列及购买行为时间序列，实现了对用户的人生阶段、人生状态、消费场景的描述，从而有利于构建多视角的用户画像，满足了复杂场景的用户画像需求；因为针对不同产品采用不同的购买行为时间序列，每个行为预测模型对应一个产品，所以提高了用户画像颗粒度的精细度；因为行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型，马尔科夫决策过程能在人生阶段、人生状态、消费场景发生变化时充分挖掘用户行为，提高了用户画像的准确性，通过最大似然逆强化学习实现了自主学习，提高了泛化能力。

所述计算机存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种用户画像生成方法，其中，所述方法包括：

获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。
根据权利要求1所述的用户画像生成方法，其中，所述从预设的模型库中查找与所述产品标识对应的行为预测模型的步骤之前，还包括：

获取多个典型用户的样本数据，其中，所述样本数据携带有所述典型用户购买产品的产品标识；

基于马尔可夫决策过程确定所述样本数据的效用函数集合；

对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型，所述行为预测模型携带有所述产品标识。
根据权利要求2所述的用户画像生成方法，其中，所述获取多个典型用户的样本数据，包括：

获取多个典型用户的历史数据，所述历史数据包括：典型用户的状态特征数据、典型用户的购买行为数据，所述典型用户的购买行为数据携带有所述典型用户购买产品的产品标识；

对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据；

按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。
根据权利要求2所述的用户画像生成方法，其中，所述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识；所述基于马尔可夫决策过程确定所述样本数据的效用函数集合的步骤，包括：

获取由所述典型用户的状态特征时间序列和购买行为时间序列确定得到的最大价值行为计算公式；

采用动态规划方法迭代对所述最大价值行为计算公式进行优化求解，得到目标最大价值行为计算公式；

从所述目标最大价值行为计算公式中提取效用函数并将提取的多个效用函数组合为所述效用函数集合。
根据权利要求2所述的用户画像生成方法，其中，所述对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型的步骤，包括：

对所述效用函数集合中的效用函数进行线性叠加，得到待估计个人效用函数；

采用softmax函数对所述待估计个人效用函数进行归一化处理，得到归一化个人效用函数；

采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型。
根据权利要求5所述的用户画像生成方法，其中，所述采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型的步骤，包括：

假设存在一个潜在概率分布，在该概率分布下，产生专家轨迹，已知条件为：

其中，f表示特征期望(在这里指每一种产品给客户带来的期望效用值，也就是所述待估计个人效用函数U _agent)，
是专家特征期望(多种产品给客户带来的加权效用值)，为每种产品被选中的概率(也就是所述待估计个人效用函数U _agent中的w ₁,w ₂,w ₃,……w _n)，将问题转化为标准型，成为求解熵最大时的最优问题：

s.t.∑w＝1

其中，plogp表示一个随机变量的熵；
是求最大值；S.t.后面是计算
的限制条件；

通过拉格朗日乘子法：

求解后，对概率w进行微分计算，得到最大熵概率为：

其中，exp()高等数学里以自然常数e为底的指数函数；参数λ _j对应着拉格朗日乘子，该参数可以利用最大似然法求解；f _j指每j种产品给客户带来的期望效用值。
根据权利要求1所述的用户画像生成方法，其中，所述根据所述行为预测数据，确定所述目标用户的画像的步骤，包括：

将所述行为预测数据与预设阈值进行对比，并将对比的结果作为预测结果；

将与产品标识对应的预测结果组合成向量作为所述目标用户的画像。
一种用户画像生成装置，其中，所述装置包括：

数据获取模块，用于获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

模型获取模块，用于从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

预测模块，用于将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；

画像模块，用于根据所述行为预测数据，确定所述目标用户的画像。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现如下方法步骤：

获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。
根据权利要求9所述的计算机设备，其中，所述从预设的模型库中查找与所述产品标识对应的行为预测模型的步骤之前，还包括：

获取多个典型用户的样本数据，其中，所述样本数据携带有所述典型用户购买产品的产品标识；

基于马尔可夫决策过程确定所述样本数据的效用函数集合；

对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型，所述行为预测模型携带有所述产品标识。
根据权利要求10所述的计算机设备，其中，所述获取多个典型用户的样本数据，包括：

获取多个典型用户的历史数据，所述历史数据包括：典型用户的状态特征数据、典型用户的购买行为数据，所述典型用户的购买行为数据携带有所述典型用户购买产品的产品标识；

对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据；

按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。
根据权利要求10所述的计算机设备，其中，所述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识；所述基于马尔可夫决策过程确定所述样本数据的效用函数集合的步骤，包括：

获取由所述典型用户的状态特征时间序列和购买行为时间序列确定得到的最大价值行为计算公式；

采用动态规划方法迭代对所述最大价值行为计算公式进行优化求解，得到目标最大价值行为计算公式；

从所述目标最大价值行为计算公式中提取效用函数并将提取的多个效用函数组合为所述效用函数集合。
根据权利要求10所述的计算机设备，其中，所述对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型的步骤，包括：

对所述效用函数集合中的效用函数进行线性叠加，得到待估计个人效用函数；

采用softmax函数对所述待估计个人效用函数进行归一化处理，得到归一化个人效用函数；

采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型。
根据权利要求13所述的计算机设备，其中，所述采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型的步骤，包括：

假设存在一个潜在概率分布，在该概率分布下，产生专家轨迹，已知条件为：

其中，f表示特征期望(在这里指每一种产品给客户带来的期望效用值，也就是所述待估计个人效用函数U _agent)，
是专家特征期望(多种产品给客户带来的加权效用值)，为每种产品被选中的概率(也就是所述待估计个人效用函数U _agent中的w ₁,w ₂,w ₃,……w _n)，将问题转化为标准型，成为求解熵最大时的最优问题：

s.t.∑w＝1

其中，plogp表示一个随机变量的熵；
是求最大值；S.t.后面是计算
的限制条件；

通过拉格朗日乘子法：

求解后，对概率w进行微分计算，得到最大熵概率为：

其中，exp()高等数学里以自然常数e为底的指数函数；参数λ _j对应着拉格朗日乘子，该参数可以利用最大似然法求解；f _j指每j种产品给客户带来的期望效用值。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下方法步骤：

获取目标用户的状态特征时间序列及购买行为时间序列，所述购买行为时间序列携带有所述目标用户购买产品的产品标识；

从预设的模型库中查找与所述产品标识对应的行为预测模型，其中，所述行为预测模型是基于马尔科夫决策过程及最大似然逆强化学习得到的模型；

将所述状态特征时间序列及所述购买行为时间序列输入到所述与所述产品标识对应的行为预测模型进行概率预测得到所述目标用户的行为预测数据；根据所述行为预测数据，确定所述目标用户的画像。
根据权利要求15所述的计算机可读存储介质，其中，所述从预设的模型库中查找与所述产品标识对应的行为预测模型的步骤之前，还包括：

获取多个典型用户的样本数据，其中，所述样本数据携带有所述典型用户购买产品的产品标识；

基于马尔可夫决策过程确定所述样本数据的效用函数集合；

对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型，所述行为预测模型携带有所述产品标识。
根据权利要求16所述的计算机可读存储介质，其中，所述获取多个典型用户的样本数据，包括：

获取多个典型用户的历史数据，所述历史数据包括：典型用户的状态特征数据、典型用户的购买行为数据，所述典型用户的购买行为数据携带有所述典型用户购买产品的产品标识；

对所述典型用户的状态特征数据进行时间序列构建得到所述典型用户状态特征时间序列的样本数据；

按所述产品标识对所述典型用户购买行为数据进行时间序列构建，得到所述典型用户购买行为时间序列的样本数据。
根据权利要求16所述的计算机可读存储介质，其中，所述样本数据包括：典型用户的状态特征时间序列和购买行为时间序列，所述典型用户的购买行为时间序列携带有所述典型用户购买产品的产品标识；所述基于马尔可夫决策过程确定所述样本数据的效用函数集合的步骤，包括：

获取由所述典型用户的状态特征时间序列和购买行为时间序列确定得到的最大价值行为计算公式；

采用动态规划方法迭代对所述最大价值行为计算公式进行优化求解，得到目标最大价值行为计算公式；

从所述目标最大价值行为计算公式中提取效用函数并将提取的多个效用函数组合为所述效用函数集合。
根据权利要求16所述的计算机可读存储介质，其中，所述对所述效用函数集合进行最大似然逆强化学习得到所述行为预测模型的步骤，包括：

对所述效用函数集合中的效用函数进行线性叠加，得到待估计个人效用函数；

采用softmax函数对所述待估计个人效用函数进行归一化处理，得到归一化个人效用函数；

采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型。
根据权利要求19所述的计算机可读存储介质，其中，所述采用最大熵逆强化学习方法对所述归一化个人效用函数进行参数估计，得到所述行为预测模型的步骤，包括：

假设存在一个潜在概率分布，在该概率分布下，产生专家轨迹，已知条件为：

其中，f表示特征期望(在这里指每一种产品给客户带来的期望效用值，也就是所述待估计个人效用函数U _agent)，
是专家特征期望(多种产品给客户带来的加权效用值)，为每种产品被选中的概率(也就是所述待估计个人效用函数U _agent中的w ₁,w ₂,w ₃,……w _n)，将问题转化为标准型，成为求解熵最大时的最优问题：

s.t.∑w＝1

其中，plogp表示一个随机变量的熵；
是求最大值；S.t.后面是计算
的限制条件；

通过拉格朗日乘子法：

求解后，对概率w进行微分计算，得到最大熵概率为：

其中，exp()高等数学里以自然常数e为底的指数函数；参数λ _j对应着拉格朗日乘子，该参数可以利用最大似然法求解；f _j指每j种产品给客户带来的期望效用值。