WO2015139559A1

WO2015139559A1 - 生成数字人的方法及系统

Info

Publication number: WO2015139559A1
Application number: PCT/CN2015/073658
Authority: WO
Inventors: 李英涛; 钱莉; 黄茂胜; 黄康敏
Original assignee: 华为技术有限公司
Priority date: 2014-03-17
Filing date: 2015-03-04
Publication date: 2015-09-24
Also published as: US20150262066A1; CN104933049B; CN104933049A; US10607133B2

Abstract

本发明公开了一种生成数字人的方法及系统，该方法包括：定义数字人模型，该数字人模型包括多个维度的用户画像模型；获取特定用户的来自多个数据源的多个维度的数据；基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，特定用户的多个维度的用户画像组成了与特定用户对应的数字人。本发明实施例的生成数字人的方法及系统，通过获取来自多个数据源的用户的多个维度的数据，对数据进行处理，基于数字人模型生成包含多个维度的用户画像的数字人。

Description

生成数字人的方法及系统

本申请要求于2014年3月17日提交中国专利局、申请号为201410099095.7、发明名称为“生成数字人的方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及通信领域中生成数字人的方法及系统。

背景技术

随着信息通信技术(Information Communication Technology,ICT)的不断发展，物理世界中的人类活动越来越多的深入到数字世界中来。人们通过社交网络交朋友，建立朋友圈；通过微博发布对社会事件的个人观点，形成自媒体，建立个人公众形象；通过网络购物，获得各种商品与服务；通过网络银行参与管理个人资产；通过个人手机终端随时随地拍摄照片、视频，记录分享人生喜怒哀乐；人们通过穿戴式终端感测自身体征数据，监控健康。移动终端和移动互联网的进一步普及，用户在各种数据平台活动产生的数据呈现爆炸式增长，海量的数据分散在用户数字化生活的个个角落。

这些用户数据的背后，隐藏着用户的兴趣、爱好、观点、习惯、家庭、健康等各种表征物理世界个人特征的信息。但是，各种数据源产生的各个维度的用户数据是分散的，不能得到充分地挖掘。

发明内容

本发明实施例提供了一种生成数字人的方法及系统，能够获取来自多个数据源的用户的多个维度的数据，对数据进行挖掘并生成数字人。

第一方面，提供了一种生成数字人的方法，该方法包括：定义数字人模型，该数字人模型包括多个维度的用户画像模型；获取特定用户的来自多个数据源的多个维度的数据；基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，特定用户的多个维度的用户画像组成了与特定用户对应的数字人。

结合第一方面，在第一方面的第一种可能的实现方式中，获取特定用户的来自多个数据源的多个维度的数据，包括：获取多个用户的来自多个数据源的多个维度的数据；根据数据与用户的归属关系，在多个用户的来自多个数据源的多个维度的数据中，确定归属于特定用户的来自多个数据源的多个维度的数据。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，获取多个用户的来自多个数据源的多个维度的数据，包括：通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。

结合第一方面或第一方面的第一种至第二种可能的实现方式中的任一种可能的实现方式，在第一方面的第三种可能的实现方式中，多个维度的用户画像包括以下至少两种：用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像。

结合第一方面或第一方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第四种可能的实现方式中，该方法还包括：对特定用户的来自多个数据源的多个维度的数据进行数据清洗；提取清洗后的数据的内容所对应的时间和关键词；将时间和关键词作为标注信息，对清洗后的数据进行标注；其中，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，包括：基于数字人模型所包括的多个维度的用户画像模型，对标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

结合第一方面或第一方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第五种可能的实现方式中，该方法还包括：对特定用户的来自多个数据源的多个维度的数据进行数据清洗；提取清洗后的数据的内容所对应的时间、位置和关键词；将时间、位置和关键词作为标注信息，对清洗后的数据进行标注；其中，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，包括：基于数字人模型所包括的多个维度的用户画像模型，对标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

结合第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，该方法还包括：存储标注后的数据。

结合第一方面或第一方面的第一种至第六种可能的实现方式中的任一种可能的实现方式，在第一方面的第七种可能的实现方式中，在基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像之后，该方法还包括：根据客户端输入的查询条件，向客户端提供与查询条件相应的数字人的用户画像。

结合第一方面或第一方面的第一种至第七种可能的实现方式中的任一种可能的实现方式，在第一方面的第八种可能的实现方式中，在定义数字人模型之前，该方法还包括：根据客户端的需求，创建与需求对应的用于生成用户画像的用户画像模型。

结合第一方面或第一方面的第一种至第八种可能的实现方式中的任一种可能的实现方式，在第一方面的第九种可能的实现方式中，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，包括：基于数字人模型所包括的多个维度的用户画像模型，通过以下至少一种算法对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像：分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法。

第二方面，提供了一种生成数字人的系统，该系统包括：定义模块，用于定义数字人模型，该数字人模型包括多个维度的用户画像模型；获取模块，用于获取特定用户的来自多个数据源的多个维度的数据；生成模块，用于基于定义模块定义的数字人模型所包括的多个维度的用户画像模型，对获取模块获取的特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，特定用户的多个维度的用户画像组成了与特定用户对应的数字人。

结合第二方面，在第二方面的第一种可能的实现方式中，获取模块包括：获取单元，用于获取多个用户的来自多个数据源的多个维度的数据；确定单元，用于根据数据与用户的归属关系，在获取单元获取的多个用户的来自多个数据源的多个维度的数据中，确定归属于特定用户的来自多个数据源的多个维度的数据。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，该获取单元具体用于：通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。

结合第二方面或第二方面的第一种至第二种可能的实现方式中的任一种可能的实现方式，在第二方面的第三种可能的实现方式中，多个维度的用户画像包括以下至少两种：用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像。

结合第二方面或第二方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第二方面的第四种可能的实现方式中，该系统还包括：清洗模块，用于对获取模块获取的特定用户的来自多个数据源的多个维度的数据进行数据清洗；提取模块，用于提取清洗模块清洗获得的数据的内容所对应的时间和关键词；标注模块，用于将时间和关键词作为标注信息，对清洗模块清洗获得的数据进行标注；其中，生成模块具体用于：基于数字人模型所包括的多个维度的用户画像模型，对标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

结合第二方面或第二方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第二方面的第五种可能的实现方式中，该系统还包括：清洗模块，用于对获取模块获取的特定用户的来自多个数据源的多个维度的数据进行数据清洗；提取模块，用于提取清洗模块清洗获得的数据的内容所对应的时间、位置和关键词；标注模块，用于将时间、位置和关键词作为标注信息，对清洗模块清洗获得的数据进行标注；其中，生成模块具体用于：基于数字人模型所包括的多个维度的用户画像模型，对标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

结合第二方面的第四种可能的实现方式或第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，该系统还包括：存储模块，用于存储标注模块标注后的数据。

结合第二方面或第二方面的第一种至第六种可能的实现方式中的任一种可能的实现方式，在第二方面的第七种可能的实现方式中，该系统还包括：查询模块，用于根据客户端输入的查询条件，向客户端提供与查询条件相应的数字人的用户画像。

结合第二方面或第二方面的第一种至第七种可能的实现方式中的任一种可能的实现方式，在第二方面的第八种可能的实现方式中，该系统还包括：创建模块，用于根据客户端的需求，创建与需求对应的用于生成用户画像的用户画像模型。

结合第二方面或第二方面的第一种至第八种可能的实现方式中的任一种可能的实现方式，在第二方面的第九种可能的实现方式中，该生成模块具体用于：基于数字人模型所包括的多个维度的用户画像模型，通过以下至少一种算法对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像：分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法。

第三方面，提供了一种生成数字人的系统，该系统包括：接收模块，用于接收多个用户的来自多个数据源的多个维度的数据；数据预处理模块，用于确定接收模块接收的数据所归属的用户，并且对数据进行数据清洗和标注；数据存储模块，用于存储数据预处理模块预处理后的数据；用户身份管理模块，用于管理用户在多个数据源中的账户，以便于确定存储模块中存储的多个用户的数据与用户的归属关系；用户画像模型配置库，用于定义生成用户画像的用户画像模型；算法库，用于存储并更新多个用于生成用户画像的算法；数字人生成维护模块，用于基于用户画像模型配置库中的用户画像模型，根据算法库中的算法，对存储模块中存储的数据进行处理，生成对应的用户画像，用户画像组成了与用户对应的数字人；数字人应用程序编程接口API，用于与客户端进行交互，以便于客户端查询数字人生成维护模块生成数字人的用户画像或接受客户端提出的创建用户画像模型的需求。

基于上述技术方案，本发明实施例的生成数字人的方法及系统，通过获取来自多个数据源的用户的多个维度的数据，对数据进行处理，基于数字人模型，生成包含多个维度的用户画像的数字人。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的生成数字人的方法的示意性流程图。

图2是根据本发明另一实施例的生成数字人的方法的示意性流程图。

图3是根据本发明实施例的生成数字人的系统的示意性框图。

图4是根据本发明实施例的获取模块的示意性框图。

图5是根据本发明另一实施例的生成数字人的系统的示意性框图。

图6是根据本发明又一实施例的生成数字人的系统的示意性框图。

图7是根据本发明又一实施例的生成数字人的系统的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1示出了根据本发明实施例的生成数字人的方法100的示意性流程图，该方法100可以由生成数字人的系统执行。如图1所示，方法100包括：

S110，定义数字人模型，该数字人模型包括多个维度的用户画像模型；

S120，获取特定用户的来自多个数据源的多个维度的数据；

S130，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，该特定用户的多个维度的用户画像组成了与特定用户对应的数字人。

因此，本发明实施例的生成数字人的方法，通过获取来自多个数据源的用户的多个维度的数据，对数据进行处理，基于数字人模型，生成包含多个维度的用户画像的数字人。

应理解，一个维度的用户画像是对用户于物理世界中在该一维度特征的展现，是在深刻理解真实数据的基础上得出的在该一维度的一个虚拟画像。多个维度的用户画像组合在一起，就可以组成一个与物理世界中的用户对应的数字人，该数字人可以从多个维度刻画物理世界中的用户的特征。一个维度的用户画像是根据对应的维度的用户画像模型，通过对数据进行挖掘后生成的。上述维度可以涉及形象、健康、行为习惯、社交模式、消费习惯、兴趣爱好等，还可以包括与物理世界个人对应的其它多个维度，本发明实施例并不仅限于此。

在S110中，系统定义数字人模型，该数字人模型包括多个维度的用户画像模型。其中，某一维度的用户画像模型用于表征从相关采集数据中抽取出的用户在该维度的特征和知识类别。而包含多个维度用户画像模型的数字人模型，则基于可获取的多个维度的数据源，从多个不同的维度定义了一个立体的数字人。数字人模型中所包含的不同维度的用户画像模型的确定，至少应考虑如下几个要素：可使用的数据源及能够挖掘到的特征类型、系统的基本需求和第三方客户新定义的可更新的数字人特征需求等。

具体而言，系统可以设置一个画像模型配置库，以维护生成数字人所需要的数字人模型中包含的多个维度的用户画像模型。这些用户画像模型可以通过系统预定义并周期性地更新，进行增加、删除或修改。例如，平台中维护的数字人模型可以对应定义如下一些用户画像模型：用户形象维度画像模型、用户健康维度画像模型、用户行为习惯维度画像模型、用户社交模式维度画像模型、用户消费习惯维度画像模型和用户兴趣爱好维度画像模型等，但本发明实施例并不仅限于此。

应理解，系统可以根据用户的属性，为不同属性的用户群体确定包括不同用户画像模型的数字人模型。本发明实施例中，用户的属性可以用来刻画用户信息的类型。以用户职业为例，对于医生群体和教师群体，为这两个群体确定的用户画像模型，除了包含所有用户通用的用户形象维度画像模型、用户健康维度画像模型等用户画像模型，医生群体还可能包括与其职业为医生这一属性对应的相应维度的用户画像模型；教师群体还可能包括与其职业为教师这一属性对应的相应维度的用户画像模型，但本发明实施例并不限于此。

可选地，作为一个实施例，系统还可以通过接收客户端的定制需求，创建或修改对应的用户画像模型。例如，本系统可以包括数字人应用程序编程接口(Application Programming Interface，API)，以完成系统与第三方客户端的交互。当客户端对某一特定维度的用户画像有需求，而当前系统的画像模型配置库中没有相对应的用户画像模型时，客户端可以通过API将定制需求反馈给系统，以便于系统创建新的用户画像模型。相应地，方法100还可以包括：

根据客户端的需求，创建与该需求对应的用于生成用户画像的用户画像模型。

在S120中，获取特定用户的来自多个数据源的多个维度的数据。应理解，物理世界的个人在数字世界环境中各种数据平台产生的数据，经过挖掘可以综合刻画对应物理世界个人的各维度特征。用户的数据可以是来自多个数据源的，例如，可以来自手机业务平台，QQ、微信、来往等实时聊天平台，微博、论坛、人人网等社交平台，淘宝、当当、京东等购物平台，此外，数据还可以包括其他用户在通信时产生的与该用户相关的数据，本发明实施例对此不做限定。

从多种数据源收集的数据可以是多个维度的，例如用户的形象维度、健康维度、行为习惯维度、社交维度、消费习惯维度、兴趣爱好维度等，本发明实施例对此不做限定。

系统可以通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。

可选地，作为一个实施例，可以通过终端获取各个用户的数据。通过智能终端、车载终端等终端以及终端上的各类传感器装置，如GPS、运动传感器、光线传感器、麦克风、摄像头等，可以采集获取用户所处的环境信息和用户的行为等信息。通过终端上运行的各类应用软件的运行数据及记录的应用轨迹，如社交软件、运动监测软件、健康监控软件等获取用户在某个领域上的轨迹数据。此外，终端还可能记录用户产生的各类自媒体内容，如照片、音视频媒体、文本日记等。终端可以周期或不定期地向生成数字人的系统上报用户的相关数据，也可以由生成数字人的系统周期或不定期地从终端获取用户的相关数据。

可选地，作为另一个实施例，可以通过通信网元获取各个用户的数据。例如，无线网络控制器(Radio Network Controller,RNC)、归属位置寄存器(Home Location Register,HLR)等通信网元上包含大量的用户在通信时产生的相关数据，生成数字人的系统可以从该通信网元捕获多个用户的相关数据。

可选地，作为另一个实施例，可以通过数据收集代理获取多个用户的数据。具体地，数据收集代理通过网络爬虫方式，捕获用户在网络上的言论、上网痕迹等。例如捕获用户在社交网络、网购平台、网络搜索平台、网络服务平台等留下的记录日志。再如，捕获通过各种渠道发布的与该用户相关的信息，如该用户社交圈内好友的社交媒体内容、日志中与用户相关的信息等。数据收集代理可以周期或不定期地向生成数字人的系统上报所捕获的内容，也可以由生成数字人的系统周期或不定期地从数据收集代理获取用户的相关数据。

一般地，通过终端可以获取信息较密集、范围较集中的用户数据，通过通信网元、数据收集代理可以获取较分散的用户数据。此外，还可以通过其它手段或方式获取用户的数据，本发明实施例对此不作限定。

应理解，系统可以通过自身的设备或模块获取数据，也可以通过接口接收系统以外的设备或模块收集的数据，本发明实施例对此不作限定。

还应理解，通过上述方法从多种数据源获取的大量数据可以是归属于多个用户的。在该种情况下，需要确定这些数据归属于哪个用户。相应地，方法100中从多个数据源获取特定用户的多个维度的数据，包括：

获取多个用户的来自多个数据源的多个维度的数据；

根据数据与用户的归属关系，在多个用户的来自多个数据源的多个维度的数据中，确定归属于特定用户的来自多个数据源的多个维度的数据。

具体地，生成数字人的系统获取到来自多个数据源大量数据后，根据数据与数字人对应的用户的归属关系来确定归属于特定用户的多个维度的数据。例如，可以根据数据来源和内容与系统中已经存在的数字人对应的用户的信息进行匹配。当匹配到某一数据为已经存在的数字人对应的用户的相关数据时，系统可以将该数据存储或更新至该数字人对应的用户的账户下，或者直接对数据进行挖掘或分析，将得到的结果存储或更新至该数字人对应的用户的账户下。当确定某一数据不归属于当前已经存在的数字人对应的用户时，则系统可以重新建立一个用户账户，用于存储该数据或由该数据挖掘出的信息。

可选地，作为一个实施例，为了便于确定数据和数字人对应用户的归属关系，系统可以记录并维护数字人用户ID和该用户在物理世界中的其他身份ID之间的对应关系。例如，可以维护并实时更新一个表，该表用于记录数字人用户ID以及相对应的物理世界个人的手机号、微信号、QQ号、微博账号、论坛账号等信息。根据此表，系统可以很方便地辨识出数据与用户的归属关系，也可以方便对各用户的数据的查询。例如，根据表内记录的信息，可以辨识出，微信号为“aaa111”的用户和微博账号为“ccc222”的用户对应的是同一用户，则从微信号“aaa111”获取的数据和微博账号“ccc222”获取的数据均归属于该用户。此外，还可以根据数据的内容确定数据与用户的归属关系。例如，一条数据是一则新闻，该新闻报道了与该用户相关的事迹，则可以确定该新闻是归属于该用户的数据。

可选地，作为一个实施例，如图2所示，方法100还包括：

S140，对特定用户的来自多个数据源的多个维度的数据进行数据清洗；

S150，提取清洗后的数据的内容所对应的时间和关键词；

S160，将时间和关键词作为标注信息，对该清洗后的数据进行标注；

其中，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，包括：

基于数字人模型所包括的多个维度的用户画像模型，对标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

具体而言，在S140中，对获取的特定用户的来自多个数据源的多个维度的数据进行数据清洗，过滤噪声数据。其中，由于数据可能是来自多种数据源的，因此数据可能是异构的，例如可以是结构化的数据、半结构化的数据或非结构化的数据，即用户数据可以是文本、表格，也可以是图片、音频或视频。对于结构化的数据，来自不同数据源的数据结构也可能是不同的。例如，同样都是购买记录，来自淘宝的数据和来自京东的数据，结构可能是不同的。此时，需对这些数据进行处理，使得数据结构一致，这样不仅方便数据管理，在后续进行挖掘运算时，可以加速收敛。

经数据清洗后的数据，可以是文本、表格，也可以是图片、音频或视频，不易于管理和分析。可选地，作为一个实施例，可以对各类异构的清洗后的数据进行标注。具体地，可以提取清洗后的数据所包含的内容对应的时间和关键词，将时间和关键词作为标注信息，对该清洗后的数据进行标注，以便于根据标注信息生成数字人或查询数字人的信息。例如，对于一张在天安门观看升国旗的张片，其标注信息可以为，时间：2014年1月1日；关键词：升国旗。标注的信息还可以包括数据所包含的内容对应的位置信息，以便于辨识数据所包含的内容所在的位置或事件发生的位置。此外，标注的信息还可以包括指示数据特征的其它信息，本发明实施例对此不作限定。

经过标注后的数据便于管理和分析，在后续基于多个维度的用户画像模型，生成特定用户的多个维度的用户画像时，可以基于多个维度的用户画像模型，对标注后的数据进行处理，生成特定用户的多个维度的用户画像。

可选地，作为一个实施例，可以存储标注后的数据，以方便后续管理及数字人的生产和查询。数据存储管理可以基于Hadoop分布式平台来实现，并且考虑到平台存储和管理的数据包括各种结构化、半结构化以及非结构化数据，其存储管理涉及动态增删的可能性，因此可采用非关系型数据库，例如NoSQL等来存储管理数据。具体地，如表1所示，可以按照数字人对应的用户标识(Identity,ID)进行分类存储和管理，存储项可以包括：数据所归属的用户ID和数据相应的标注信息、数据文件名称、数据文件的存储位置链接和数据文件的类型等。

表1

在S130中，基于数字人模型所包括的多个维度的用户画像模型，对特定用户的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，该特定用户的多个维度的用户画像组成了与特定用户对应的数字人。基于上文中提及的多个维度的用户画像模型，可以生成相对应维度的用户画像。这些用户画像可以包括用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像等，但本发明实施例并不仅限于此。对特定用户的多个维度的数据进行处理可以调用合适的数据挖掘算法，挖掘提取出特定用户的多个维度的用户画像。可选地，作为一个实施例，数据挖掘算法可以包括以下至少一种：分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法，但本发明实施例并不仅限于此。数据挖掘算法可以配置在算法库中，由系统定义并周期性维护更新该算法库。

下面以基于用户消费习惯维度画像模型生成用户消费习惯维度画像为例来进行说明。例如，在一个用户消费习惯维度画像模型的示例中，该模型至少包括如下数据项：用户ID，用户偏好消费品牌，用户可承受消费金额，用户经常消费的时间、用户经常消费的地点，用户偏好的支付方式等。

系统通过终端、通信网元和数据收集代理等收集了某用户消费相关的数据。这些数据可以来源于购物平台的消费记录、信用卡账户的消费明细记录等。表2所示为用户的历史消费记录，其内容包括支付账号、消费时间、消费地点、购买品牌、消费金额、支付方式等。提取支付账号对应的用户为用户ID对应的用户的数据，调用相应的数据挖掘算法，如分类算法、聚类算法、回归算法等，从表2所示的用户历史消费行为记录中，可以分析获得用户消费习惯维度画像模型的相关统计数据，生成该用户的用户消费习惯维度画像。

例如，表2中所示的支付账号为“支付账号A”和“支付账号1”的用户，均与用户ID为“第一数字人”的用户对应。可以根据用户消费习惯维度画像模型，通过对上述支付账号为“支付账号A”和“支付账号1”的数据进行数据挖掘，分析得到该用户的用户消费习惯维度画像。用户消费习惯维度画像为：用户ID为“第一数字人”，偏好消费品牌为“运动户外品牌”，用户可承受消费金额为“2000-5000元”，用户经常消费的时间为“周六或周日等休息日”、用户经常消费的地点为“北京市海淀区各大商场”，用户偏好的支付方式为“信用卡支付”。

表2

支付账号	购买品牌	消费金额	消费时间	消费地点	支付方式
支付账号	购买品牌	消费金额	消费时间	消费地点	支付方式	支付账号A	耐克	1299	20140104	北京中关村	信用卡
支付账号1	哥伦比亚	3499	20140105	北京五道口	信用卡	支付账号A	耐克	1299	20140104	北京中关村	信用卡
支付账号1	哥伦比亚	3499	20140105	北京五道口	信用卡	支付账号A	阿迪达斯	1399	20140119	北京中关村	信用卡

支付账号1	北面	2499	20140125	北京五道口	信用卡
支付账号1	北面	2499	20140125	北京五道口	信用卡	…	…	…	…	…	…

特定用户的多个维度的用户画像就组成了与特定用户对应的数字人。一个维度的用户画像是对用户于物理世界中在该一维度特征的展现，是在深刻理解真实数据的基础上得出的在该一维度的一个虚拟画像。可以根据数字人模型中定义的用户画像模型，将多个维度的用户画像组成一个与物理世界中的用户对应的数字人，该数字人可以从多个维度刻画物理世界中的用户的特征。在系统新获取到与该特定用户相关的数据时，还可以根据用户画像模型对已有的用户画像进行更新。应理解，更新可以用新获取的数据生成新的用户画像对原用户画像进行替换，也可以保留原用户画像，并生成新的用户画像，以原用户画像和新的用户画像分别刻画用户在不同的时间阶段在该维度的特征。

可选地，作为一个实施例，在生产数字人之后，方法100还可以包括：

根据客户端输入的查询条件，向客户端提供与查询条件相应的数字人的用户画像。

具体而言，客户端可以通过API实现对一定用户群体的数字人的用户画像的查询。例如，客户端输入物理世界个人的手机号或微博账号作为检索条件，则可以检索出相应的数字人对应的用户的用户画像。再如，输入健康状况为“患有高血压”，并且消费能力为“较高的消费能力”，可以查询出用户健康维度画像表明该用户患有高血压，并且用户消费习惯维度画像表明该用户具有较高的消费能力的所有用户，从而向这些用户推荐相关药物或治疗设备。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上文中结合图1和图2，详细描述了根据本发明实施例的生成数字人的方法，下面将结合图3至图5，详细描述根据本发明实施例的生成数字人的系统。

图3示出了根据本发明实施例的生成数字人的系统200的示意性框图。如图3所示，该系统200包括：

定义模块210，用于定义数字人模型，数字人模型包括多个维度的用户画像模型；

获取模块220，用于获取特定用户的来自多个数据源的多个维度的数据；

生成模块230，用于基于定义模块210定义的数字人模型所包括的多个维度的用户画像模型，对获取模块220获取的特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，特定用户的多个维度的用户画像组成了与特定用户对应的数字人。

因此，本发明实施例的生成数字人的系统，通过获取来自多个数据源的用户的多个维度的数据，对数据进行处理，基于数字人模型，生成包含多个维度的用户画像的数字人。

可选地，作为一个实施例，如图4所示，获取模块220包括：

获取单元221，用于获取多个用户的来自多个数据源的多个维度的数据；

确定单元222，用于根据数据与用户的归属关系，在获取单元211获取的多个用户的来自多个数据源的多个维度的数据中，确定归属于特定用户的来自多个数据源的多个维度的数据。

可选地，作为一个实施例，获取单元211具体用于：

通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。

可选地，作为一个实施例，多个维度的用户画像包括以下至少两种：用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像。

可选地，作为一个实施例，如图5所示，系统200还包括：

清洗模块240，用于对获取模块220获取的特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取模块250，用于提取清洗模块240清洗获得的数据的内容所对应的时间和关键词；

标注模块260，用于将时间和关键词作为标注信息，对清洗模块240清洗获得的数据进行标注。

其中，确定单元222具体用于：

基于确定模块210确定的数字人模型所包括的多个维度的用户画像模型，对经过标注模块260标注后的数据进行处理，生成对应于特定用户的多个维度的用户画像。

可选地，作为一个实施例，如图5所示，系统200还包括：

提取模块250，用于提取清洗模块240清洗获得的数据的内容所对应的时间、位置和关键词；

标注模块260，用于将时间、位置和关键词作为标注信息，对清洗模块260清洗获得的数据进行标注。

其中，确定单元222具体用于：

可选地，作为一个实施例，如图5所示，系统200还包括：

存储模块270，用于存储标注后的数据。

可选地，作为一个实施例，如图5所示，系统200还包括：

查询模块280，用于根据客户端输入的查询条件，向客户端提供与查询条件相应的数字人的用户画像。

可选地，作为一个实施例，如图5所示，系统200还包括：

创建模块290，用于根据客户端的需求，创建与需求对应的用于生成用户画像的用户画像模型。

可选地，作为一个实施例，生成模块230具体用于：

基于确定模块210确定的数字人模型所包括的多个维度的用户画像模型，通过以下至少一种算法对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像：

分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法。

应理解，在本发明实施例中，根据本发明实施例的生成数字人的系统200可对应于根据本发明实施例的生成数字人的方法100的执行主体，并且系统200中的各个模块的上述和其它操作和/或功能分别为了实现图1和图2中的方法的相应流程，为了简洁，在此不再赘述。

如图6所示，本发明实施例还提供了一种生成数字人的系统300，该系统300包括接收器310、处理器320、存储器330和总线系统340，接收器310、处理器320和存储器330通过总线系统340相连。存储器330用于存储指令，接收器310和处理器320用于执行存储器330存储的指令。其中，接收器310用于：

获取特定用户的来自多个数据源的多个维度的数据。

处理器320用于：

定义数字人模型，该数字人模型包括多个维度的用户画像模型；

基于数字人模型所包括的多个维度的用户画像模型，对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像，特定用户的多个维度的用户画像组成了与特定用户对应的数字人。

应理解，在本发明实施例中，该处理器320可以是中央处理单元(Central Processing Unit，CPU)，该处理器320还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器330可以包括只读存储器和随机存取存储器，并向处理器320提供指令和数据。存储器330的一部分还可以包括非易失性随机存取存储器。例如，存储器330还可以存储设备类型的信息。

该总线系统340除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统340。

在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330，处理器320读取存储器330中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

可选地，作为一个实施例，接收器310具体可用于：

获取多个用户的来自多个数据源的多个维度的数据；

处理器320具体可用于：

可选地，作为一个实施例，接收器310可以通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。

可选地，作为一个实施例，处理器320还可用于：

对接收器310获取的特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取清洗后的数据的内容所对应的时间和关键词；

将时间和关键词作为标注信息，对清洗后的数据进行标注。

其中，处理器320具体还用于：

可选地，作为一个实施例，处理器320还可用于：

提取清洗后的数据的内容所对应的时间、位置和关键词；

将时间、位置和关键词作为标注信息，对清洗后的数据进行标注。

其中，处理器320具体还用于：

可选地，作为一个实施例，存储器330还可用于：

存储标注后的数据。

可选地，作为一个实施例，在处理器320生产数字人之后，处理器320还可用于：

可选地，作为一个实施例，在处理器320定义数字人模型之前，处理器320还可用于：

根据客户端的需求，创建与需求对应的用于生成用户画像的用户画像模型。

可选地，作为一个实施例，处理器320生成用户画像具体可以包括：

基于数字人模型所包括的多个维度的用户画像模型，通过以下至少一种算法对特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于特定用户的多个维度的用户画像：

应理解，根据本发明实施例的生成数字人的系统300可对应于执行本发明实施例中的方法的主体，还可以对应于根据本发明实施例的生成数字人的系统200，并且系统300中的各个模块的上述和其它操作和/或功能是为了实现图1和图2的方法的相应流程，为了简洁，在此不再赘述。

如图7所示，本发明实施例还提供了一种生成数字人的系统400。在本发明实施例中，数字世界600中包括多个数据源500，系统400从数据源500获取数据生成数字人，并通过API与数字世界600交互。该系统400包括：

接收模块410，用于接收来自多个数据源的多个用户的多个维度的数据；

数据预处理模块420，用于确定接收模块410接收的数据所归属的用户，并且对数据进行数据清洗和标注；

数据存储模块430，用于存储数据预处理模块420预处理后的数据；

用户身份管理模块440，用于管理用户在多个数据源中的账户，以便于确定数据存储模块430中存储的多个用户的数据与用户的归属关系；

用户画像模型配置库450，用于定义生成用户画像的用户画像模型；

算法库460，用于存储并更新多个用于生成用户画像的算法；

数字人生成维护模块470，用于基于用户画像模型配置库450中的用户画像模型，根据算法库460中的算法，对数据存储模块430中存储的数据进行处理，生成对应的用户画像，该用户画像组成了与用户对应的数字人；

数字人应用程序编程接口API 480，用于与客户端进行交互，以便于客户端查询数字人生成维护模块470生成的数字人的用户画像或接受所述客户端提出的创建用户画像模型的需求。

应理解，根据本发明实施例的生成数字人的系统400可对应于执行本发明实施例中的方法的主体，还可以对应于根据本发明实施例的生成数字人的系统200和系统300，并且系统400中的各个模块的上述和其它操作和/或功能是为了实现图1和图2的方法的相应流程，为了简洁，在此不再赘述。

因此，本发明实施例的生成数字人的系统，通过获取来自多个数据源的用户的多个维度的数据，对数据进行处理，基于数字人模型，生成包含多个维度的用户画像的数字人，并且可以进行用户信息、算法库和用户画像模型的更新和维护，还可与第三方客户端进行交互。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种生成数字人的方法，其特征在于，包括：

定义数字人模型，所述数字人模型包括多个维度的用户画像模型；

获取特定用户的来自多个数据源的多个维度的数据；

基于所述数字人模型所包括的所述多个维度的用户画像模型，对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像，所述特定用户的多个维度的用户画像组成了与所述特定用户对应的数字人。
根据权利要求1所述的方法，其特征在于，所述获取特定用户的来自多个数据源的多个维度的数据，包括：

获取多个用户的来自多个数据源的多个维度的数据；

根据数据与用户的归属关系，在所述多个用户的来自多个数据源的多个维度的数据中，确定归属于所述特定用户的来自多个数据源的多个维度的数据。
根据权利要求2所述的方法，其特征在于，所述获取多个用户的来自多个数据源的多个维度的数据，包括：

通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。
根据权利要求1至3中任一项所述的方法，其特征在于，所述多个维度的用户画像包括以下至少两种：用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像。
根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

对所述特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取清洗后的数据的内容所对应的时间和关键词；

将所述时间和关键词作为标注信息，对所述清洗后的数据进行标注；

其中，所述基于所述数字人模型所包括的所述多个维度的用户画像模型，对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像，包括：

基于所述数字人模型所包括的所述多个维度的用户画像模型，对标注后的数据进行处理，生成对应于所述特定用户的多个维度的用户画像。
根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

对所述特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取清洗后的数据的内容所对应的时间、位置和关键词；

将所述时间、位置和关键词作为标注信息，对所述清洗后的数据进行标注；

其中，所述基于所述数字人模型所包括的所述多个维度的用户画像模型，对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像，包括：

基于所述数字人模型所包括的所述多个维度的用户画像模型，对标注后的数据进行处理，生成对应于所述特定用户的多个维度的用户画像。
根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

存储所述标注后的数据。
根据权利要求1至7中任一项所述的方法，其特征在于，在所述基于所述数字人模型所包括的所述多个维度的用户画像模型，对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像之后，所述方法还包括：

根据客户端输入的查询条件，向所述客户端提供与查询条件相应的数字人的用户画像。
根据权利要求1至8中任一项所述的方法，其特征在于，在所述定义数字人模型之前，所述方法还包括：

根据客户端的需求，创建与所述需求对应的用于生成用户画像的用户画像模型。
根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述数字人模型所包括的所述多个维度的用户画像模型，对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像，包括：

基于所述数字人模型所包括的所述多个维度的用户画像模型，通过以下至少一种算法对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像：

分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法。
一种生成数字人的系统，其特征在于，包括：

定义模块，用于定义数字人模型，所述数字人模型包括多个维度的用户画像模型；

获取模块，用于获取特定用户的来自多个数据源的多个维度的数据；

生成模块，用于基于所述定义模块定义的所述数字人模型所包括的所述多个维度的用户画像模型，对所述获取模块获取的所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像，所述特定用户的多个维度的用户画像组成了与所述特定用户对应的数字人。
根据权利要求11所述的系统，其特征在于，所述获取模块包括：

获取单元，用于获取多个用户的来自多个数据源的多个维度的数据；

确定单元，用于根据数据与用户的归属关系，在所述获取单元获取的所述多个用户的来自多个数据源的多个维度的数据中，确定归属于所述特定用户的来自多个数据源的多个维度的数据。
根据权利要求12所述的系统，其特征在于，所述获取单元具体用于：

通过终端、通信网元和数据收集代理中的至少一种设备，获取多个用户的来自多个数据源的多个维度的数据。
根据权利要求11至13中任一项所述的系统，其特征在于，所述多个维度的用户画像包括以下至少两种：用户形象维度画像、用户健康维度画像、用户行为习惯维度画像、用户社交模式维度画像、用户消费习惯维度画像和用户兴趣爱好维度画像。
根据权利要求11至14中任一项所述的系统，其特征在于，所述系统还包括：

清洗模块，用于对所述获取模块获取的所述特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取模块，用于提取所述清洗模块清洗获得的数据的内容所对应的时间和关键词；

标注模块，用于将所述时间和关键词作为标注信息，对所述清洗模块清洗获得的数据进行标注；

其中，所述生成模块具体用于：

基于所述数字人模型所包括的所述多个维度的用户画像模型，对标注后的数据进行处理，生成对应于所述特定用户的多个维度的用户画像。
根据权利要求11至14中任一项所述的系统，其特征在于，所述系统还包括：

清洗模块，用于对所述获取模块获取的所述特定用户的来自多个数据源的多个维度的数据进行数据清洗；

提取模块，用于提取所述清洗模块清洗获得的数据的内容所对应的时间、位置和关键词；

标注模块，用于将所述时间、位置和关键词作为标注信息，对所述清洗模块清洗获得的数据进行标注；

其中，所述生成模块具体用于：

基于所述数字人模型所包括的所述多个维度的用户画像模型，对标注后的数据进行处理，生成对应于所述特定用户的多个维度的用户画像。
根据权利要求15或16所述的系统，其特征在于，所述系统还包括：

存储模块，用于存储所述标注模块标注后的数据。
根据权利要求11至17中任一项所述的系统，其特征在于，所述系统还包括：

查询模块，用于根据客户端输入的查询条件，向所述客户端提供与查询条件相应的数字人的用户画像。
根据权利要求11至18中任一项所述的系统，其特征在于，所述系统还包括：

创建模块，用于根据客户端的需求，创建与所述需求对应的用于生成用户画像的用户画像模型。
根据权利要求11至19中任一项所述的系统，其特征在于，所述生成模块具体用于：

基于所述数字人模型所包括的所述多个维度的用户画像模型，通过以下至少一种算法对所述特定用户的来自多个数据源的多个维度的数据进行处理，生成对应于所述特定用户的多个维度的用户画像：

分类算法、聚类算法、回归算法、增强学习算法、迁移学习算法、深度学习算法和主动学习算法。
一种生成数字人的系统，其特征在于，包括：

接收模块，用于接收多个用户的来自多个数据源的多个维度的数据；

数据预处理模块，用于确定所述接收模块接收的数据所归属的用户，并且对所述数据进行数据清洗和标注；

数据存储模块，用于存储所述数据预处理模块预处理后的数据；

用户身份管理模块，用于管理所述用户在所述多个数据源中的账户，以便于确定所述存储模块中存储的多个用户的数据与用户的归属关系；

用户画像模型配置库，用于定义生成用户画像的用户画像模型；

算法库，用于存储并更新多个用于生成用户画像的算法；

数字人生成维护模块，用于基于所述用户画像模型配置库中的用户画像模型，根据所述算法库中的算法，对所述存储模块中存储的数据进行处理，生成对应的用户画像，所述用户画像组成了与用户对应的数字人；

数字人应用程序编程接口API，用于与客户端进行交互，以便于客户端查询所述数字人生成维护模块生成数字人的用户画像或接受所述客户端提出的创建用户画像模型的需求。