WO2023051085A1

WO2023051085A1 - 对象识别方法、装置、设备、存储介质和程序产品

Info

Publication number: WO2023051085A1
Application number: PCT/CN2022/113686
Authority: WO
Inventors: 樊鹏
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-09-30
Filing date: 2022-08-19
Publication date: 2023-04-06
Also published as: US20230326185A1; CN115937556A

Abstract

一种对象识别方法，包括：对候选对象在多个维度的多个候选对象信息进行提取得到候选对象特征，对融合各候选对象特征得到的对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率(S204)；对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合(S206)；对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象(S208)；选取得到的代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。

Description

对象识别方法、装置、设备、存储介质和程序产品

本申请要求于2021年09月30日提交中国专利局，申请号为202111161862.9，申请名称为“对象识别方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种对象识别方法、装置、计算机设备、存储介质和程序产品。

背景技术

在人工智能时代，通过人工智能的方式从海量的数据中挖掘出有价值的信息，以实现信息的有效传递，是当前研究热点之一；例如，通过挖掘不同对象的信息，利用挖掘的信息构建并训练人工智能模型，使用该人工智能模型预测对象所属的类别，该预测结果可以应用于多种场景，比如可以基于该预测结果为对象生成相关的推送信息，实现信息的有效传递，又比如可以基于该预测结果为不同类别的对象分配相应份额的网络资源，等等。

训练样本的选取对于人工智能模型的训练效果起到非常重要的作用，如果训练样本选取不合适或不准确，则会影响模型训练效果，导致后续的模型预测准确性较低。

发明内容

一种对象识别方法，包括：

获取候选对象集合；候选对象集合包括多个候选对象；

获取候选对象在多个维度的多个候选对象信息，对各候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率；

对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合；

对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象；选取得到的所述代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。

一种对象识别装置，包括：

候选对象集合获取模块，用于获取候选对象集合；候选对象集合包括多个候选对象；

概率识别模块，用于获取候选对象在多个维度的多个候选对象信息，对各候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率；

聚类模块，用于对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合；

代表对象选取模块，用于对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象；选取得到的所述代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。

一种计算机设备，包括处理器、存储器；所述存储器用于存储计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器实现本申请实施例中的对象识别方法。

一种非易失性的计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，该计算机可读指令被处理器执行时，使得该处理器实现本申请实施例中的对象识别方法。

一种计算机程序产品，包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备实现本申请实施例中的对象识别方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)为一个实施例中对象识别方法的应用环境图；

图1(b)为一个实施例中对象识别方法的处理过程示意图；

图1(c)为另一个实施例中对象识别方法的处理过程示意图；

图2为又一个实施例中对象识别方法的流程示意图；

图3为再一个实施例中对象识别方法的流程示意图；

图4为一个实施例中对象识别方法的处理架构图；

图5为一个实施例中对象识别方法的离线处理流程示意图；

图6为一个实施例中对象识别方法的在线处理流程示意图；

图7为一个实施例中用不同模型进行用户房产状态识别的模型效果比对图；

图8为本申请实施例提供的一种用不同模型进行对象房产状态识别的业务效果比对图；

图9为本申请实施例提供的一种对象识别装置的结构框图；

图10为本申请实施例提供的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一些实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

随着深度学习技术研究和进步，深度学习技术在许多领域展开研究和应用，其中一个应用领域是基于深度学习模型对对象进行分群分类；例如，基于深度学习模型对对象房产状态的预测结果，智能判断是否向对象推送与买房有关的内容；又例如，基于深度学习模型对对象购车状态的预测结果，智能判断是否向对象推送与买车有关的内容；再例如，基于深度学习模型对对象租房状态的预测结果，智能判断是否向对象推送与租房有关的内容。

其中，对象房产状态是指对象当前是否拥有房产，即对象是否已买房；在通过深度学习模型预测对象房产状态的场景中，深度学习模型输出的预测概率越大，该对象拥有房产的概率越大，此时可以不向该对象推送与买房有关的内容，深度学习模型输出的预测概率越小，该对象拥有房产的概率越小，此时可以向该对象推送与买房有关的内容。

对象购车状态是指对象当前是否已拥有车辆，即对象是否已购车；在通过深度学习模型预测对象购车状态的场景中，深度学习模型输出的预测概率越大，该对象拥有车辆的概率越大，此时可以不向该对象推送与买车有关的内容，深度学习模型输出的预测概率越小，该对象拥有车辆的概率越小，此时可以向该对象推送与买车有关的内容。

对象租房状态是指对象当前是否已经租房；在通过深度学习模型预测对象租房状态的场景中，深度学习模型输出的预测概率越大，该对象已经租房的概率越大，此时可以不向该对象推送与租房有关的内容，深度学习模型输出的预测概率越小，该对象已经租房的概率越小，此时可以向该对象推送与租房有关的内容。

本申请实施例提供的方案涉及人工智能的深度学习的技术，可以应用于云技术、云安全、人工智能和智慧交通等场景；本申请所涉及的对象信息(包括但不限于对象设备信息、对象行为信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经对象授权或者经过各方充分授权的信息和数据；对应的，本申请还提供有相应的对象授权入口，供对象选择授权或者选择拒绝。

本申请提供的对象识别方法，可以由本地计算设备/本地计算系统执行，也可以由分布式计算系统执行；分布式计算系统例如是多个物理服务器构成的服务器集群、或者终端设备和服务器构成的系统。

图1(a)为一个实施例中对象识别方法的应用环境图。其中，终端102与服务器104通过通信网络进行通信。其中，终端102可以通过通信网络与服务器104进行交互；终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。服务器104可以通过数据存储系统存储对象识别方法所涉及的数据，该数据存储系统可以集成在服务器104中，也可以与服务器104分开设置。

本申请提供的对象识别方法，可以由终端102和服务器104协同执行，可以由终端102单独执行，也可以由服务器104单独执行。以服务器104单独执行为例，服务器104可以获取候选对象集合，该候选对象集合包括多个候选对象，服务器104获取候选对象在多个维度的多个候选对象信息，对各候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率，随后，服务器104对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合，继而服务器104对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象，选取得到的代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。

本申请提供的对象识别方法中，所谓的目标对象类别可以是不同应用场景下的类别，例如，通过该对象识别方法，可以预测对象是否属于拥有房产状态的对象类别，还可以预测对象是否属于拥有车辆的对象类别，还可以预测对象是否属于租房状态的对象类别，实现对对象是否拥有房产、是否拥有车辆、是否租房的精准预测，从而准确确定对房产信息、购车信息、租房信息有潜在需要的对象，为这类对象推送相关信息，不仅可以提高信息传递的有效性，还可以避免生成大量无效相关信息推送至不匹配的对象带来的计算机资源与网络资源的占用与浪费，节约计算机资源与网络资源。

如图1(b)所示，本申请提供的对象识别方法主要包括：对多个对象进行特征提取，例如对对象A、B、C、D和E进行特征提取，将提取得到的特征称为对象提取特征，进而得到各对象的对象提取特征，例如，对象A的特征a、对象B的特征b、对象C的特征c、对象D的特征d和对象E的特征e；接着，基于各对象的对象提取特征，识别对象属于目标对象类别的概率，将识别到的概率称为识别概率，进而得到各对象属于目标对象类别的识别概率P，如对象A属于目标对象类别的识别概率为P _A，对象B属于目标对象类别的识别概率为P _B，对象C属于目标对象类别的识别概率为P _C，对象D属于目标对象类别的识别概率为P _D，以及对象E属于目标对象类别的识别概率为P _E。并且，基于各对象的对象提取特征对对象进行聚类，得到多个对象集合；按照对象属于目标对象类别的识别概率，分别从每一对象集合选取对应的代表对象，将代表对象加入训练样本集合，利用该训练样本集合构建目标对象识别模型，利用该目标对象识别模型预测对象是否属于目标对象类别。

上述对象识别方法，通过对候选对象信息进行特征提取得到对象提取特征，由于根据候选对象的对象提取特征对各候选对象进行聚类，因此可以将属于同一类别的候选对象划分在同一个子对象集合中。由于候选对象属于目标对象类别的识别概率是根据候选对象的对象提取特征得到的，因此，根据候选对象的识别概率分别从各子对象集合中选取得到的代表对象，可以从属于同一类别的子对象集合中选取出具有代表性的代表对象，选出的代表对象既能覆盖所有类别的候选对象，又具备每个类别的代表性特点，使得利用代表对象的候选对象信息训练得到的目标对象识别模型，能够挖掘出不同类别的差异性与每个类别的代表性特点，进行提高预测对象是否属于目标对象类别的准确度。在信息推送场景下，可以提高推送信息传递的有效性，避免将大量相关信息推送至不匹配的对象，节约计算机资源。

本申请还提供一种对象识别方法，如图1(c)所示，该方法主要包括：基于人工标注和业务的逻辑方式，获取少量的种子对象，在少量的种子对象基础上，构建对象筛选模型，经过对象筛选模型，对其他对象进行多轮迭代处理，得到大量对象的对象提取特征和属于目标对像类别的识别概率；接着，基于对象的对象提取特征，对大量对象进行聚类，得到多个对象集合，并根据对象属于目标对像类别的识别概率，从各对象集合中选取代表对象，将代表对象加入训练样本集合中；利用训练样本集合进行模型训练，得到目标对象识别模型，利用该目标对象识别模型预测对象是否属于目标对象类别。

如图2所示，为一个实施例中对象识别方法的流程示意图。以下结合图1(b)、图1(c)和图2介绍本申请提供的对象识别方法，该方法可以应用于计算机设备例如图1(a)所示的服务器104中，主要包括如下步骤：

步骤S202，获取候选对象集合。

其中，对象是具有所属类别的对象，在预测对象是否拥有房产的场景中，对象所属的类别可以是“处于拥有房产状态”或是“不处于拥有房产状态”；在预测对象是否拥有车辆的场景中，对象所属的类别可以是“处于拥有车辆状态”或是“不处于拥有车辆状态”。候选对象是等待被挑选以用于模型训练的对象，可以从候选对象集合中，挑选出有代表性的对象，用于进行模型训练。例如图1所示的对象A、B、C、D和E；其中，多个候选对象形成候选对象集合，也即候选对象集合包括多个候选对象，多个是指至少两个。

本申请实施例中，计算机设备可以响应于样本选取指令时，获取候选对象集合。该候选对象集合可以是样本选取指令中携带的，也可以是预先存储的。

步骤S204，获取候选对象在多个维度的多个候选对象信息，对各候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率。

其中，对象信息是与对象相关的信息，例如对象性别信息、对象设备信息、或对象设备所连接的网络的信息的至少一种。对象设备可以包括对象使用的智能手表、手机或笔记本电脑等，设备信息可以包括设备分辨率，或设备的中心处理器(central processing unit，CPU)的内核数量的至少一种。如果对象设备具有上网功能，那么该对象设备所连接的网络可以包括WiFi(Wireless Fidelity)、移动网络；如果对象设备连接的网络是WiFi，那么与对象设备所连接的网络的信息可以包括每天连接WiFi的最早时间，或连接到的不同WiFi的数量的至少一种。当对象待被挑选以用于模型训练时，该对象为候选对象，那么可以将该对象的信息称为候选对象信息。

候选对象特征是对候选对象信息进行特征提取得到的特征；由于候选对象信息可以分为多个维度，例如候选对象的性别信息、候选对象的设备信息和候选对象的设备所连接的网络信息，因此，对不同候选对象信息进行特征提取，可以得到不同的候选对象特征，例如，对候选对象的性别信息进行特征提取得到的特征，又例如，对候选对象的设备信息进行特征提取得到的特征。

对象提取特征是对同一候选对象的多个维度的候选对象特征进行融合后得到的特征，示例性地，针对属于候选对象的对象A，对对象A的性别信息、设备信息和设备所连接的网络信息分别进行特征提取，得到多个维度的候选对象特征，这些维度的候选对象特征分别记为a ^x、a ^y和a ^z，接着，可以对a ^x、a ^y和a ^z进行融合，得到a ^r，基于a ^r得到对象A的对象提取特征。

其中，融合候选对象特征的方式可以是对a ^x、a ^y和a ^z进行求和取平均值，也可以是对a ^x、a ^y和a ^z进行求和，还可以是对a ^x、a ^y和a ^z进行加权求和后取平均值，还可以是将这些特征进一步输入到全连接层中进行处理，得到一个融合后的特征。

被融合的候选对象特征可以是全部维度的候选对象特征，对应地，所得到的对象提取特征包括的特征值的数量为一个；示例性地，若候选对象具有p维的候选对象特征(a ¹，a ²，a ³，…，a ^p)，那么可以对这p维的候选对象特征进行融合，将得到的a ^r作为对象提取特征的特征值，该对象提取特征所包括的特征值的数量为一个。

被融合的候选对象特征也可以是部分维度的候选对象特征，对应地，所得到的对象提取特征包括的特征值的数量大于一个；示例性地，若候选对象具有q维的候选对象特征(a ¹， a ²，a ³，…，a ^q)，那么可以仅对候选对象特征a ¹，a ²和a ³进行融合，将得到的a ^r和其他未进行融合的候选对象特征进行拼接，得到对象提取特征的特征值，该对象提取特征所包括的特征值的数量为至少一个。

本步骤中，计算机设备可以获取候选对象的多个候选对象信息，并对各个候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，并融合各个候选对象特征得到候选对象的对象提取特征，如图1所示的对象A的对象提取特征a、对象B的对象提取特征b、对象C的对象提取特征c、对象D的对象提取特征d、对象E的对象提取特征e，并且各对象提取特征包括至少一个特征值，分别表示为[a ¹，a ²，a ³，…，a ⁿ]、[b ¹，b ²，b ³，…，b ⁿ]、[c ¹，c ²，c ³，…，c ⁿ]、[d ¹，d ²，d ³，…，d ⁿ]、[e ¹，e ²，e ³，…，e ⁿ]。

其中，对象所属的类别可以称为对象类别；目标对象类别是对象识别模型所要识别的对象类别。例如，在预测对象是否拥有房产的场景中，对象识别模型所要识别的对象类别是“处于拥有房产状态”和“不处于拥有房产状态”，此时，“处于拥有房产状态”或“不处于拥有房产状态”为目标对象类别；又例如，在预测对象是否拥有车辆的场景中，对象识别模型所要识别的对象类别是“处于拥有车辆状态”和“不处于拥有房产状态”，此时，“处于拥有车辆状态”或“不处于拥有房产状态”为目标对象类别。

对象属于目标对象类别的识别概率是对象属于目标对象类别的可能性大小。对象属于目标对象类别的识别概率越大，该对象属于目标对象类别的可能性越大；对象属于目标对象类别的识别概率越小，该对象属于目标对象类别的可能性越小。

示例性地，计算机设备得到对象A的特征a、对象B的特征b、对象C的特征c、对象D的特征d和对象E的特征e，由于各特征是描述对应对象的，因此，计算机设备分别对特征a、对象B的特征b、对象C的特征c、对象D的特征d和对象E的特征e进行分析，可以确定对象A属于目标对象类别的识别概率为P _A，对象B属于目标对象类别的识别概率为P _B，对象C属于目标对象类别的识别概率为P _C，对象D属于目标对象类别的识别概率为P _D，以及对象E属于目标对象类别的识别概率为P _E。例如，计算机设备可以将各个候选对象的对象提取特征分别输入到对象筛选模型的分类层中，分类层可以输出候选对象属于目标对象类别的识别概率。

步骤S206，对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合。

对各候选对象对应的对象提取特征进行聚类，可以将相似的候选对象划分在一起，将不相似的候选对象分开；由于候选对象是通过对象提取特征描述，因此，该聚类是对各候选对象的对象提取特征的聚类，其中，被划分在一起的多个候选对象对应的对象提取特征形成的集合，可以看成是一个子提取特征集合，同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合，示例性地，对象A、E和C的对象提取特征被划分至同一个子提取特征集合中，对象A、E和C组成子对象集合。聚类后可以得到多个子对象集合，子对象集合的数量与聚类类别的数量一致。

另外，属于同一子对象集合的候选对象对应的对象提取特征间的相似度，大于属于不同子对象集合的候选对象对应的对象提取特征间的相似度；示例性地，对象A、E和C属于同一子对象集合，对象B和D属于同一个子对象集合，那么对象A和对象E各自的对象提取特征之间的相似度，大于对象A和对象B各自的对象提取特征之间的相似度，对象E和对象C各自的对象提取特征之间的相似度，大于对象E和对象D各自的对象提取特征之间的相似度。

上述聚类可以通过K均值算法(k-means算法)或密度峰值聚类算法(clustering by fast search and find of density peaks，DPC)实现。

步骤S208，对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象。

其中，与子对象集合对应的代表对象是该子对象集合的各候选对象中具代表性的候选对象，该代表对象能代表该子对象集合中的候选对象；从一个子对象集合中选取得到的代表对象的数量可以是一个也可以是多个，选取得到的代表对象的数量根据设定的第一预设条件确定。选取得到的代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。

例如，计算机设备在得到包括对象A、C和E的子对象集合后，根据各对象对应的识别概率，将对象A作为代表对象；又如，在得到包括对象B和D的子对象集合后，根据各对象对应的识别概率，将对象D作为代表对象。再如，在得到包括对象A、C和E的子对象集合后，根据各对象对应的识别概率，将对象A和E作为代表对象。

在一些实施例中，步骤S208可以具体包括如下步骤：对于按各子提取特征集合组成的各个子对象集合，计算机设备分别从子对象集合中，获取识别概率满足第一预设条件的候选对象，作为子对象集合中对应的代表对象。其中，第一预设条件包括识别概率大于概率阈值，与，识别概率排序在第一排序阈值之前这两者中的至少一个，以下具体介绍这两个第一预设条件：

(1)第一预设条件：识别概率大于概率阈值：

在该第一预设条件下，计算机设备可以将子对象集合中候选对象的识别概率大于该概率阈值的候选对象作为代表对象。

该实施例中，通过概率阈值的方式确定各子对象集合的代表对象，保证代表对象的选取的准确性，得到用于构建目标对象识别模型的训练样本集合，从而证目标对象识别模型的预测准确性。

在一些场景中，可以通过相同的概率阈值，分别从各子对象集合中选取对应的候选对象；但是，在一些场景中，某些子对象集合包括的全部候选对象的识别概率阈值均小于该概率阈值，此时无法用该概率阈值选取该子对象集合的代表对象，导致该子对象集合被遗漏。

为避免无法为某些子对象集合选取代表对象导致遗漏的问题，在一些实施例中，计算机设备可以将设置多个等级的概率阈值，例如高等级的概率阈值、中等级的概率阈值和低等级的概率阈值，当按照当前等级的概率阈值不能选取到子对象集合中的代表对象时，可以利用低于当前等级的概率阈值，再次选取该子对象集合中的代表对象。

示例性地，当利用高等级的概率阈值不能选取到包括对象A、C和E的子对象集合的代表对象时，利用中等级的概率阈值再次选取该子对象集合的代表对象；当利用中等级的概率阈值仍无法选取到该子对象集合的代表对象时，利用低等级的概率阈值选取该子对象集合的代表对象。

在上述场景中，若利用设定的各等级的概率阈值都无法选取到包括对象A、C和E的子对象集合的代表对象，那么为保证该子对象集合不被遗漏，可以将该子对象集合中识别概率最大的候选对象作为该子对象集合的代表对象，也可以按照识别概率由大到小的顺序，将该子对象集合中识别概率排在前几个(如前3个、前5个)的候选对象作为代表对象。

(2)第一预设条件：概率排序在第一排序阈值之前：

其中，概率排序是识别概率从大到小的排序；第一排序阈值可以是3、5或其他数值。

示例性地，针对包括对象A、C和E的子对象集合，计算机设备按照各候选对象的识别概率从大到小的排序，可以得到对象A的识别概率>对象E的识别概率>对象C的识别概率。若第一排序阈值为2，那么可以将对象A和对象E作为该子对象集合的代表对象。

该实施例中，通过概率排序的方式确定各子对象集合的代表对象，保证代表对象的准确性，得到用于构建目标对象识别模型的训练样本集合，从而保证目标对象识别模型的预测准确性。

在一些实施例中，计算机设备在得到上述代表对象后，可以将代表对象加入到训练样本集合中；该训练样本集合用于进行模型训练，以训练得到识别目标对象类别的目标对象识别模型。

训练样本集合中的样本是用于进行模型训练的样本，例如在训练时，可以获取训练样本中对象对应的对象信息，作为对象特征，获取训练样本中对象对应的对象类别，作为对象标签，基于对象特征以及对象标签进行有监督的训练，得到目标对象识别模型。

其中，目标对象识别模型可以包括支持向量机(support vector machines,SVM)、卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short Term Memroy,LSTM)、或者Real-time Attention based Look-alike Model(RALM，基于实时注意的相似性模型)等模型。

Real-time Attention based Look-alike Model(RALM)模型是一个基于相似性的look-alike模型，包含“对象表示学习”和“look-alike模型学习”两部分。

1)RALM模型采用双塔的结构，左侧的输入是种子对象的Embedding(Embedding，嵌入表示)，右侧的输入是目标对象的Embedding，两侧的Embedding经过一层FC(Fullconnection，全连接层)完成到低维空间的映射。由于右侧的目标对象的Embedding是经过对象表征学习得到的，为了防止过拟合，双塔的第一层FC是共享的。在经过FC层之后，左侧的塔可以得到各个簇对应的Embedding，然后将各个簇的Embedding和目标对象的Embedding分别输入给Global Attention Unit(全局注意力单元)和Local Attention Unit(局部注意力单元)就可以得到Global Embedding(全局嵌入表示)和Local Embedding(局部嵌入表示)。

2)RALM模型的迭代训练阶段。在反向传播的过程中，因为User Embedding(对象嵌入表示)的值可能会发生改变，所以为了保证种子对象簇的Embedding和User Embedding保持同步，在每一轮迭代之后，都必须重新进行聚类操作。

3)RALM相比其它模型，有两个效果：

a)优化了“对象表示学习”的效果。针对多域(Multi-Fields)对象兴趣表示学习问题，RALM引入了“注意力融合层(Attention Merge Layer)”的深度兴趣网络，它解决了由强相关特征和弱相关特征分别带来的过拟合和噪音问题

b)提高了种子对象在表示学习的鲁棒性和适应性。利用全局注意单元来学习种子对象的全局表示，全局注意单元对单个对象的表示进行加权，并且惩罚噪音对象，这比所有对象权重一样更具有鲁棒性。利用局部注意单元来学习种子对象的局部表示，它对种子对象与目标对象的相关性进行加权。局部注意单元动态地基于目标对象来学习种子对象的表示，对于不同的目标对象，学习到的种子对象表示也不一样，这极大地提升了种子对象表示的表达能力。

4)训练RALM：RALM模型涉及聚类过程，聚类过程需要迭代且比较耗时，聚类中心数直接影响聚类效果。在对象房产状态预测的场景，线上的聚类中心数选择50-80较优。

本步骤中，可以并行训练多个模型，从中选出分类效果最好的模型，对效果最好的模型，进行参数调优。模型分类效果的评价指标可以包括AUC(Area under Curve，曲线下的面积)，AUC值越大，当前模型越有可能将正样本排在负样本前面，得到更好的分类结果。参数调优是指对选择模型的超参数进行网格寻优，以期待评价指标AUC能获得提升。

上述对象识别方法中，通过对候选对象信息进行特征提取得到对象提取特征，由于根据候选对象的对象提取特征对各候选对象进行聚类，因此可以将属于同一类别的候选对象划分在同一个子对象集合中。由于候选对象属于目标对象类别的识别概率是根据候选对象的对象提取特征得到的，因此，根据候选对象的识别概率分别从各子对象集合中选取得到的代表对象，可以从属于同一类别的子对象集合中选取出具有代表性的代表对象，选出的代表对象既能覆盖所有类别的候选对象，又具备每个类别的代表性特点，

在后续进行目标对象识别模型的训练时，可以将代表对象作为训练样本，从海量的样本中挖掘出更多的用于模型训练的样本，使得利用代表对象的候选对象信息训练得到的目标对象识别模型，能够挖掘出不同类别的差异性与每个类别的代表性特点，进而提高预测对象是否属于目标对象类别的准确度。

在一些实施例中，对象提取特征是通过对象筛选模型进行特征提取得到的，得到对象筛选模型的步骤包括：获取目标对象类别对应的种子对象；获取种子对象对应的种子对象信息，将种子对象信息作为训练样本中的训练特征，将目标对象类别作为训练样本中的标签，组成训练样本；基于训练样本进行模型训练，得到对象筛选模型。

其中，针对类别未标注的对象，可以通过人工标注或自动标注的方式对这些对象进行类别标注，当人工标注和自动标注的准确性较高时，标注结果较为可信，此时可以将类别已标注的对象作为置信度较高的对象，该置信度较高的对象可以称为种子对象。

在一些场景中，负样本较为容易获取，正样本较难获取，此时，该种子对象可以是上述置信度较高的对象中，类别标注为属于目标对象类别的对象；其中，负样本为不属于目标对象类别的对象，正样本为属于目标对象类别的对象。

该种子对象的对象信息可以称为种子对象信息，对象信息的具体介绍可以参照对应于步骤S204的对象信息的介绍。

其中，对象筛选模型用于预测类别未标注的对象属于目标对象类别的概率，这一处理过程可以看作是对类别未标注的对象进行标注的过程；该对象筛选模型可以是DeepFM(Deep Factorization Machine)模型或FM(Factorization Machine)模型。

本步骤中，利用置信度较高的种子对象构建对象筛选模型，当种子对象为正样本时，可以将种子对象信息作为训练样本的特征，将种子对象属于目标对象类别作为该训练样本的标签，组成训练样本，并利用该训练样本进行模型训练，得到对象筛选模型。

该实施例中，利用种子对象构建对象筛选模型，由于种子对象属于目标对象类别的置信度较高，因此，在对象筛选模型预测其他对象是否属于目标对象类别的时候，可以提高预测准确性。

在一些实施例中，上述获取候选对象的多个候选对象信息，提取得到各个候选对象信息对应的候选对象特征的步骤，具体可以包括：计算机设备将候选对象在多个维度的多个候选对象信息输入到对象筛选模型的特征提取层中进行特征提取，得到各个候选对象信息对应的候选对象特征。

上述融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率的步骤，具体可以包括：计算机设备将各个候选对象特征输入到对象筛选模型的分类层，以使分类层融合各个候选对象特征得到对象提取特征；获取分类层对对象提取特征进行对象类别概率识别后输出的候选对象属于目标对象类别的识别概率。

其中，对象筛选模型可以包括特征提取层和分类层。其中，特征提取层用于提取用于描述对象的深层次特征，特征提取层可以是卷积层，特征提取层提取到的特征可以称为对象特征；输入到特征提取层的对象信息是候选对象信息时，特征提取层提取到的特征可以称为候选对象特征，也可以称为深度特征。分类层主要是对特征提取层提取到的深层次的特征进行融合，得到对象提取特征，并根据对象提取特征确定对象所属的类别，确定该对象属于目标对象类别的识别概率，分类层可以是全连接层。

示例性地，计算机设备可以将对象A的性别信息、设备信息和设备所连接的网络信息输入到对象筛选模型的特征提取层中进行特征提取，进而得到各个候选对象信息对应的候选对象特征；接着，计算机设备将各个候选对象特征输入到对象筛选模型的分类层中，以使分类层对各候选对象特征进行融合得到对象A的对象提取特征，使分类层基于对象A的对象提取特征进行对象类别概率识别，得到对象A属于目标对象类别的识别概率。

本实施例中，针对类别未标注的候选对象，利用基于种子对象构建的对象筛选模型对这些候选对象是否属于目标对象类别进行预测，得到更多目标对象识别模型进行训练时所需的样本，提高目标对象识别模型的预测准确性。

在一些实施例中，上述对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合的步骤，具体包括：获取对应于不同候选对象的对象提取特征之间的特征距离；对于各个对象提取特征，基于各特征距离，确定位于各个对象提取特征所在的区域内的对象提取特征的数量，基于数量，得到各个对象提取特征的区域对象密度；基于各个对象提取特征的区域对象密度选取聚类中心，基于聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合；同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合。

其中，特征距离是不同候选对象的对象提取特征之间的距离，例如，候选对象A和B的对象提取特征[a ¹，a ²，a ³，…，a ⁿ]和[b ¹，b ²，b ³，…，b ⁿ]之间的特征距离，可以是

对象提取特征所在的区域是对象提取特征周围的区域，对象提取特征周围的区域可以是以对象提取特征为中心的预设半径内的区域。

本实施例计算各个候选对象的对象提取特征的区域对象密度，以计算对象A的对象提取特征的区域对象密度为例进行介绍：

计算机设备在得到对象A的对象提取特征与其他各个对象的对象提取特征之间的特征距离后，当确定对象C的对象提取特征与对象A的对象提取特征之间的特征距离小于该预设半径时，认为对象C的对象提取特征位于以对象A的对象提取特征为中心的预设半径的区域内；按照上述方式，可以确定其他对象的对象提取特征是否位于以对象A的对象提取特征为中心的预设半径的区域内；接着，当确定对象C的对象提取特征和对象D的对象提取特征均位于以对象A的对象提取特征为中心的预设半径的区域内时，可以确定位于以对象A的对象提取特征为中心的预设半径的区域内的对象提取特征的数量为2，将该数量作为对象A的对象提取特征的区域对象密度。

同样地，按照上述方式，计算机设备可以确定对象B、C、D和E的对象提取特征的区域对象密度；在进行聚类前，当对象A和对象E二者的对象提取特征的区域对象密度较大，可以将对象A的对象提取特征和对象E的对象提取特征作为聚类中心，并基于这两个聚类中心对对象B、C和D的对象提取特征进行聚类；当在得到的聚类结果中，对象A的对象提取特征、对象C的对象提取特征和对象D的对象提取特征被划分至一起并形成对应的子提取特征集合，对象B的对象提取特征和对象E的对象提取特征被划分至一起并形成对应的子提取特征集合，那么可以将对象A、对象C和对象D划分至一起并形成对应的子对象集合，将对象B和对象E划分至一起并形成对应的子对象集合。

该实施例中，基于不同候选对象的对象提取特征之间的特征距离，确定各个对象提取特征的区域对象密度，并按照区域对象密度选取聚类中心，可以提升将对象提取特征进行聚类的准确性，进而可以将相应的对象提取特征较为相似的候选对象分到同一类，而将相应的对象提取特征不那么相似的候选对象分到不同的类，提升将相应的候选对象进行分类的准确性，后续从每个类别的子对象集合中选取的代表对象，能够较为全面覆盖对象提取特征差异性较大的候选对象，减少选取的代表对象差异性较小、覆盖面较窄的情况，从而避免代表对象选取的片面性带来的目标对象识别模型训练效果差的问题，提升训练得到的目标对象识别模型识别对象类别的准确性。

在一些实施例中，上述基于各个对象提取特征的区域对象密度选取聚类中心，基于聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合的步骤，可以包括：在区域对象密度大于对象提取特征的区域对象密度的特征中，确定对象提取特征的邻近提取特征；将对象提取特征与邻近提取特征之间的特征距离，作为对象提取特征对应的目标距离；基于对象提取特征的区域对象密度以及对象提取特征对应的目标距离，选取聚类中心。

区域对象密度大于对象提取特征的区域对象密度的特征是：针对目标对象提取特征而言，区域对象密度大于该目标对象提取特征的区域对象密度的其他对象提取特征。邻近提取特征是：在区域对象密度大于该目标对象提取特征的区域对象密度的其他对象提取特征中，与该目标对象提取特征之间的特征距离最小的对象提取特征。

本申请实施例可以结合对象提取特征的区域对象密度和目标距离，选取聚类中心；其中，以计算对象C的对象提取特征的目标距离为例介绍：

当对象A的对象提取特征的区域对象密度和对象E的对象提取特征的区域对象密度大于对象C的对象提取特征的区域对象密度，且对象A的对象提取特征与对象C的对象提取特征之间的特征距离|AC|小于对象E的对象提取特征与对象C的对象提取特征之间的特征距离|EC|时，计算机设备可以将对象A的对象提取特征作为与对象C的对象提取特征邻近的对象提取特征，并将对象A的对象提取特征与对象C的对象提取特征之间的特征距离|AC|作为对象C的目标距离。

计算机设备在按照上述方式得到各对象的对象提取特征的目标距离后，可以将具有较大区域对象密度和目标距离的对象提取特征作为聚类中心。

上述实施例中，基于与候选对象的对象提取特征邻近的对象提取特征确定对应的目标距离，并结合目标距离和区域对象密度选取聚类中心，可以提高对象提取特征聚类的准确性，后续从每个类别的子对象集合中选取的代表对象，能够较为全面覆盖对象提取特征差异性较大的候选对象，从而避免代表对象选取的片面性带来的目标对象识别模型训练效果差的问题，提升训练得到的目标对象识别模型识别对象类别的准确性进而提升对象识别的准确度。

在一些实施例中，上述基于聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合的步骤，可以包括：计算机设备获取待确定聚类类别的当前对象提取特征；获取区域对象密度大于当前对象提取特征的区域对象密度的聚类中心，作为当前对象提取特征对应的候选聚类中心；基于当前对象提取特征与候选聚类中心的距离，从候选中心集合中选取当前对象提取特征对应的邻近聚类中心，将当前对象提取特征加入到将邻近聚类中心所对应的子提取特征集合中。

其中，计算机设备可以根据当前对象提取特征对应的候选聚类中心，组成候选中心集合，例如，当前对象提取特征是对象F的对象提取特征，且聚类中心包括对象G的对象提取特征、对象I的对象提取特征、对象K的对象提取特征和对象J的对象提取特征，在聚类中心包括的各对象的对象提取特征中，对象I的对象提取特征的区域对象密度和对象K的对象提取特征的区域对象密度均大于对象F的对象提取特征的区域对象密度，对象G的对象提取特征的区域对象密度和对象J的对象提取特征的区域对象密度均小于对象F的对象提取特征的区域对象密度，那么可以将对象I的对象提取特征和对象K的对象提取特征作为与对象F的对象提取特征对应的候选聚类中心，并组成候选中心集合。

邻近聚类中心是：在当前对象提取特征对应的候选中心集合中，与当前对象提取特征之间的特征距离最小的聚类中心。

在对象I的对象提取特征和对象K的对象提取特征这两个候选聚类中心中，当对象F的对象提取特征与对象I的对象提取特征之间的特征距离小于对象F的对象提取特征与对象K的对象提取特之间的特征距离时，计算机设备可以将对象I的对象提取特征作为对象F的对象提取特征的邻近聚类中心，并将对象F的对象提取特征划分至对象I对应的子提取特征集合中。

该实施例中，针对待确定聚类类别的当前对象提取特征，基于区域对象密度确定该当前对象提取特征的候选聚类中心，并基于该当前对象提取特征与候选聚类中心的距离确定邻近的聚类中心，进而将当前对象提取特征划分至对应的子提取特征集合中，提高聚类划分的准确性。

在一些实施例中，本申请提供的对象识别方法还包括：基于候选对象属于目标对象类别的识别概率，确定各个候选对象对于目标对象识别模型的训练梯度变化的影响权重；基于各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，从候选对象集合中选取满足第二预设条件的候选对象，将满足第二预设条件的候选对象加入到训练样本集合中。

其中，目标对象识别模型可采用梯度下降的训练方式，每轮训练使用的训练样本将对模型的梯度变化产生影响。候选对象对于目标对象识别模型的训练梯度变化的影响权重，反应了候选对象对目标对象识别模型训练过程中的梯度变化的影响程度，训练梯度变化的影响权重与识别概率成正相关关系，也即，候选对象属于目标对象类别的识别概率越大，那么利用该候选对象对目标对象识别模型进行训练，梯度变化也越大。

第二预设条件包括训练梯度变化的影响权重大于影响权重阈值，或者影响权重排序在第二排序阈值之前的至少一个，以下介绍这两个第二预设条件：

(1)第二预设条件：训练梯度变化的影响权重大于影响权重阈值：

针对候选对象集合包括的全部候选对象，计算机设备基于各候选对象的识别概率确定各候选对象对对象识别模型的训练梯度变化的影响权重，将训练梯度变化的影响权重大于影响权重阈值的候选对象加入训练样本集合中。

(2)第二预设条件：训练梯度变化的影响权重排序在第二排序阈值之前：

针对候选对象集合包括的全部候选对象，计算机设备基于各候选对象的识别概率确定各候选对象对对象识别模型的训练梯度变化的影响权重；按照训练梯度变化的影响权重由大到小的顺序，对各候选对象进行排序，并将训练梯度变化的影响权重处于前几名的候选对象加入到训练样本集合中。

该实施例中，在从各子对象集合中选取代表对象的基础上，结合各候选对象属于目标对象类别的识别概率确定对应的训练梯度变化的影响权重，并选取出满足第二预设条件的候选对象作为训练样本，实现“最具代表性”和“最具识别力”的双策略进行训练样本的选取，选出的代表对象既能覆盖所有类别的候选对象，又具备每个类别的代表性特点，使得利用代表对象的候选对象信息训练得到的目标对象识别模型，能够挖掘出不同类别的差异性与每个类别的代表性特点，进而提高预测对象是否属于目标对象类别的准确度。

在一些实施例中，训练目标对象识别模型的步骤，包括：从训练样本集合中选取相似的第一训练对象以及第二训练对象，将第一训练对象以及第二训练对象组成对象组；将对象组中各个训练对象对应的训练对象信息输入到同一个特征提取层中，提取得到各个训练对象分别对应的训练对象特征；基于训练对象特征，得到对象组中的训练对象之间的对象相似度；基于对象相似度得到模型损失值；模型损失值与对象相似度成负相关关系；基于模型损失值对对象识别模型进行训练，得到目标对象识别模型。

其中，训练对象的对象信息可以称为训练对象信息，关于对象信息的介绍可以参照上述步骤S204的内容。模型损失值与对象相似度成负相关关系，例如，模型损失值越大，对象相似度越大，模型损失值越小，对象相似度越小。

当目标对象识别模型是RALM模型时，由于该RALM模型采用双塔结构，可以在训练样本集合中选取相似的第一训练对象和第二训练对象，并形成对象组；接着，将第一训练对象的对象信息和第二训练对象的对象信息输入同一特征提取层，以完成高维空间到低维空间的映射，并将该特征提取层提取到的特征(如Embedding特征)作为训练对象特征，基于第一训练对象的训练对象特征和第二训练对象的训练对象特征，得到第一训练对象和第二训练对象之间的对象相似度；基于对象相似度得到与对象相似度成负相关关系的RALM模型的损失值；基于模型损失值对对象识别模型进行训练，完成对RALM模型的构建，得到目标对象识别模型。

上述实施例中，将相似的训练对象输入同一特征提取层中得到对应的训练对象特征，并根据训练对象之间的相似度得到的模型损失值进行模型训练，保证构建得到的目标对象识别模型的预测准确性。

在一些实施例中，得到训练对象对应的训练对象信息的步骤，包括：计算机设备获取对象信息类别；获取训练对象在对象信息类别对应的时间维度集合以及信息统计角度；获取各个信息统计时间维度中，基于信息统计角度统计得到的训练对象对应的对象信息统计值；对象信息统计值为对象信息类别对应的信息统计值；对时间维度集合中，各个信息统计时间维度对应的对象信息统计值进行信息聚合，将聚合得到对象信息作为训练对象对应的训练对象信息。

其中，用于描述对象的对象信息具有不同的类别，该类别可以称为对象信息类别，例如玩游戏的时长或者浏览商品的时长。信息统计时间维度是统计对象信息的时间维度，代表的是统计的信息所对应的时间长度；时间维度集合包括多个信息统计时间维度，例如一天、一周、三个月和六个月等。信息统计角度是统计的时间单位，如以天为单位，又如以一周为单位。

其中，训练对象对应的对象信息统计值是根据各个信息统计时间维度中，基于信息统计角度统计得到的；示例性地，若信息统计时间维度是一周，信息统计角度是一天，在得到一周内对象玩游戏的时长后，则可以确定每天该对象玩游戏的时长，将该对象每天玩游戏的时长作为对象信息统计值，且该对象信息统计值对应玩游戏时长这一对象信息类别。

同样地，针对其他信息统计时间维度，也可以确定该信息统计角度下的对象信息统计值，例如在该对象三个月玩游戏的时长这一信息统计时间维度下，可以确定对象每天玩游戏的时长。

上述方式中，计算机设备在得到训练对象在对象信息类别对应的时间维度集合以及信息统计角度后，确定各个信息统计时间维度中，基于信息统计角度统计得到的训练对象对应的对象信息统计值，将在不同时间维度下同一对象信息类别的对象信息统计值进行聚合，聚合方式可以是求平均值、求方差、求标准差或者求和等的至少一种，接着将聚合得到对象信息作为训练对象对应的训练对象信息以用于模型训练。

该实施例中，由于用于模型训练的训练对象信息是对不同信息统计时间维度下的同一对象信息类别进行聚合得到的，因此，可以避免将同类对象信息在不同时间维度下的值全部塞入模型引起的共线性，导致模型效果差的情况，提高模型预测效果，提高了对象识别的准确度，提高信息传递的有效性，避免将大量信息推送至不匹配的对象，节约计算机资源。

在一些实施例中，上述对时间维度集合中，各个信息统计时间维度对应的对象信息统计值进行信息聚合，将聚合得到对象信息作为训练对象对应的训练对象信息的步骤，可以包括：计算机设备基于时间维度集合中，各个信息统计时间维度对应的对象信息统计值得到综合信息统计值；确定各个对象信息统计值与综合信息统计值的统计值差异；基于统计值差异得到时间维度集合对应的统计值离散度，将统计值离散度作为训练对象对应的训练对象信息。

其中，综合信息统计值是对对象信息统计值进行统计得到的，例如多个对象信息统计值的平均值。统计值差异代表任一对象信息统计值与综合信息统计值之间的差异，例如可以是差值或者是比例。统计值离散度表征各个对象信息统计值的离散程度，与统计值差异成正相关关系。基于统计值差异获取统计值离散度的方式可以是：计算机设备对各统计值差异进行相加，将相加结果作为得到统计值离散度。基于统计值差异获取统计值离散度的方式还可以是：对各统计值差异进行平方求和，并将平方求和的结果作为统计值离散度。基于统计值差异获取统计值离散度的方式还可以是：对各统计值差异进行平方求和，并对平方求和得到的结果进行开方根处理，将开方根处理得到的结果作为统计值离散度。

举个例子，假设有3个信息统计时间维度，则每个信息统计时间维度有对应的对象信息统计值；接着，确定各信息统计时间维度的对象信息统计值与综合信息统计值的统计值差异，得到3个统计值差异，对3个统计值差异进行平方求和，并对平方求和得到的结果进行开方根处理，将开方根处理得到的结果作为统计值离散度，将统计值离散度作为训练对象对应的训练对象信息。

示例性地，若在对象三个月玩游戏的时长这一信息统计时间维度下确定的每天玩游戏的时长是3小时，在对象一个月玩游戏的时长这一信息统计时间维度下确定的每天玩游戏的时长是3.5小时，在对象一周玩游戏的时长这一信息统计时间维度下确定的每天玩游戏的时长是2.5小时，那么可以将3小时、3.5小时和2.5小时的平均值3小时作为综合信息统计值，并分别确定3小时、3.5小时和2.5小时这几个时长与综合信息统计值的差值(即统计值差异)分别为0小时、0.5小时和0.5小时；根据0小时、0.5小时和0.5小时这几个差值，可以确定3小时、3.5小时和2.5小时呈现出的统计值离散度，将统计值离散度作为训练对象信息进行模型训练。

上述实施例中，由于离散程度能够代表一个对象在一段时间的行为变化的幅度，因此使得模型能够学习到对象行为变化的幅度对对象类别的影响，因此根据对象信息统计值的离散程度得到用于模型训练的训练对象信息，提高目标对象识别模型的预测准确性，。

本申请实施例还提供一种对象识别方法，可以应用于云技术、云安全、人工智能、智慧交通等场景；本实施例可以由计算机设备执行，包括图3所示的步骤：

步骤S302，获取目标对象类别对应的种子对象。

对象所属类别可以称为对象类别；目标对象类别是对象识别模型所要识别的对象类别。例如，在预测对象是否拥有房产的场景中，对象识别模型所要识别的对象类别是“处于拥有房产状态”和“不处于拥有房产状态”，此时，“处于拥有房产状态”和“不处于拥有房产状态”为目标对象类别；又例如，在预测对象是否拥有车辆的场景中，对象识别模型所要识别的对象类别是“处于拥有车辆状态”和“不处于拥有房产状态”，此时，“处于拥有车辆状态”和“不处于拥有房产状态”为目标对象类别。针对类别未标注的对象，可以通过人工标注或自动标注的方式对这些对象进行类别标注，若人工标注和自动标注的准确性较高，标注结果较为可信，此时可以将类别已标注的对象作为置信度较高的对象，该置信度较高的对象可以称为种子对象。

步骤S304，获取种子对象对应的种子对象信息，将种子对象信息作为训练样本中的训练特征，将目标对象类别作为训练样本中的标签，组成训练样本。

该种子对象的对象信息可以称为种子对象信息，例如种子对象的性别信息、候选对象的设备信息和候选对象的设备所连接的网络信息，将该种子对象信息作为描述该种子对象的特征，得到训练样本的训练特征，将上述步骤S302的目标对象作为训练样本的标签；将训练样本的训练特征和训练标签组成训练样本。

步骤S306，基于训练样本进行模型训练，得到对象筛选模型。

该对象筛选模型主要用于预测类别未标注的对象属于目标对象类别的概率，也即对类别未标注的对象进行标注。该对象筛选模型可以是DeepFM模型或FM模型；对象筛选模型可以包括特征提取层和分类层，特征提取层主要是提取用于描述对象的深层次特征，分类层主要是对特征提取层提取到的深层次的特征进行融合得到对象提取特征，并根据对象提取特征确定该对象所属的类别，确定该对象属于目标对象类别的识别概率。

步骤S308，获取候选对象集合。

该候选对象集合包括的候选对象是未经标注的对象，也即所属类别未定的对象；计算机设备可以响应于样本选取指令时，从未经标注的多个候选对象中任选预设数量的候选对象，并形成候选对象集合。

步骤S310，将候选对象在多个维度的多个候选对象信息输入到对象筛选模型的特征提取层中进行特征提取，得到各个候选对象信息对应的候选对象特征。

候选对象特征是对候选对象信息进行特征提取得到的特征，可以分为多个维度；该特征提取层可以是卷积层，用于从候选对象的多个候选对象信息中分别提取出对应的特征，得到各个候选对象信息的候选对象特征。

步骤S312，将各个候选对象特征输入到对象筛选模型的分类层，以使分类层融合各个候选对象特征得到对象提取特征。

对象提取特征是对部分维度或者全部维度的候选对象特征进行融合后得到的特征；该分类层可以是全连接层，用于对各候选对象特征进行融合得到候选对象对应的对象提取特征。

步骤S314，获取分类层对对象提取特征进行对象类别概率识别后输出的候选对象属于目标对象类别的识别概率。

识别概率是对象属于目标对象类别的可能性大小，例如是概率。识别概率越大，对象属于目标对象类别的可能性越大，识别概率越大，对象属于目标对象类别的可能性越小。

上述分类层得到对象提取特征后，基于对对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率。

步骤S316，获取对应于不同候选对象的对象提取特征之间的特征距离。

特征距离是不同候选对象的对象提取特征之间的距离，例如，若计算对象A和B这两个对象提取特征[a ¹，a ²，a ³，…，a ⁿ]和[b ¹，b ²，b ³，…，b ⁿ]之间的距离，那么可以该特征距离可以是

针对候选对象集合中的任两个候选对象，计算机设备可以按照上述公式确定任两个候选对象之间的特征距离。

步骤S318，对于各个对象提取特征，基于各特征距离，确定位于各个对象提取特征所在的区域内的对象提取特征的数量，基于数量，得到各个对象提取特征的区域对象密度。

对象提取特征所在的区域是对象提取特征周围的区域，对象提取特征周围的区域可以是以对象提取特征为中心的预设半径内的区域。示例性地，在计算对象A的对象提取特征的区域对象密度的场景中，计算机设备在得到对象A的对象提取特征与其他各个对象的对象提取特征之间的特征距离后，当确定对象C的对象提取特征与对象A的对象提取特征之间的特征距离小于该预设半径时，可以认为对象C的对象提取特征位于以对象A的对象提取特征为中心的预设半径的区域内；按照上述方式，可以确定其他对象的对象提取特征是否位于以对象A的对象提取特征为中心的预设半径的区域内；接着，当确定对象C的对象提取特征和对象D的对象提取特征位于以对象A的对象提取特征为中心的预设半径的区域内时，位于以对象A的对象提取特征为中心的预设半径的区域内的对象提取特征的数量为2，将该数量作为对象A的对象提取特征的区域对象密度。

同样地，按照上述方式可以确定对象B、C、D和E的对象提取特征的区域对象密度。

步骤S320，在区域对象密度大于对象提取特征的区域对象密度的特征中，确定对象提取特征的邻近提取特征。

区域对象密度大于对象提取特征的区域对象密度的特征是指针对目标对象提取特征而言，区域对象密度大于该目标对象提取特征的区域对象密度的其他对象提取特征。

邻近提取特征是指区域对象密度大于该目标对象提取特征的区域对象密度的其他对象提取特征中，与该目标对象提取特征之间的特征距离最小的对象提取特征。

示例性地，当对象A的对象提取特征的区域对象密度和对象E的对象提取特征的区域对象密度大于对象C的对象提取特征的区域对象密度，且对象A的对象提取特征与对象C的对象提取特征之间的特征距离|AC|小于对象E的对象提取特征与对象C的对象提取特征之间的特征距离|EC|时，可以将对象A的对象提取特征，作为与对象C的对象提取特征邻近的对象提取特征，也即将对象A的对象提取特征作为对象C的邻近提取特征。

步骤S322，将对象提取特征与邻近提取特征之间的特征距离，作为对象提取特征对应的目标距离。

示例性地，以计算对象C的对象提取特征的目标距离为例介绍：计算机设备还可以将对象A的对象提取特征与对象C的对象提取特征之间的特征距离|AC|作为对象C的目标距离。

步骤S324，基于对象提取特征的区域对象密度以及对象提取特征对应的目标距离，选取聚类中心。

步骤S326，获取待确定聚类类别的当前对象提取特征。

计算机设备在选取聚类中心后，可以确定候选对象集合中其他候选对象的对象提取特征所属的聚类类别，可以从其他候选对象的对象提取特征中选取任一个对象提取特征作为当前提取特征。

步骤S328，获取区域对象密度大于当前对象提取特征的区域对象密度的聚类中心，作为当前对象提取特征对应的候选聚类中心；当前对象提取特征对应的候选聚类中心组成候选中心集合；

当前对象提取特征对应的候选聚类中心组成候选中心集合，例如，当前对象提取特征是对象F的对象提取特征，且聚类中心包括对象G的对象提取特征、对象I的对象提取特征、对象K的对象提取特征和对象J的对象提取特征，在聚类中心包括的各对象的对象提取特征中，对象I的对象提取特征的区域对象密度和对象K的对象提取特征的区域对象密度均大于对象F的对象提取特征的区域对象密度，对象G的对象提取特征的区域对象密度和对象J的对象提取特征的区域对象密度均小于对象F的对象提取特征的区域对象密度，那么可以将对象I的对象提取特征和对象K的对象提取特征作为与对象F的对象提取特征对应的候选聚类中心，并组成候选中心集合。

步骤S330，基于当前对象提取特征与候选聚类中心的距离，从候选中心集合中选取当前对象提取特征对应的邻近聚类中心，将当前对象提取特征加入到将邻近聚类中心所对应的子提取特征集合中。

邻近聚类中心是指当前对象提取特征对应的候选中心集合中，与当前对象提取特征之间的特征距离最小的聚类中心。

示例性地，在对象I的对象提取特征和对象K的对象提取特征这两个候选聚类中心中，若对象F的对象提取特征与对象I的对象提取特征之间的特征距离小于对象F的对象提取特征与对象K的对象提取特之间的特征距离，那么可以将对象I的对象提取特征作为对象F的对象提取特征的邻近聚类中心，并将对象F的对象提取特征划分至对象I对应的子提取特征集合中。

步骤S332，将子提取特征集合中的对象提取特征对应的候选对象组成子对象集合。

例如，对象A、E和C的对象提取特征被划分至同一个子提取特征集合中，计算机设备可以将对象A、E和C组成子对象集合。

步骤S334，从子对象集合中，获取识别概率满足第一预设条件的候选对象，作为子对象集合中对应的代表对象。

例如，计算机设备在得到包括对象A、C和E的子对象集合后，根据各对象的识别概率，将对象A作为代表对象；又如，计算机设备在得到包括对象B和D的子对象集合后，根据各对象的识别概率，将对象D作为代表对象。

步骤S336，将代表对象加入到训练样本集合中。

训练样本集合中的样本是用于进行模型训练的样本，例如在训练时，可以获取训练样本中对象对应的对象信息，作为对象特征，获取训练样本中对象对应的对象类别，作为对象标签。

步骤S338，基于候选对象属于目标对象类别的识别概率，确定各个候选对象对于目标对象识别模型的训练梯度变化的影响权重。

训练梯度变化的影响权重是对象识别模型训练过程中的梯度变化程度，训练梯度变化的影响权重与识别概率成正相关关系，也即，候选对象属于目标对象类别的识别概率越大，那么利用该候选对象对对象识别模型进行训练，梯度变化也越大。

计算机设备可以将候选对象属于目标对象类别的识别概率以及识别概率与训练梯度变化的影响权重成正相关关系，得到各候选对象对于目标对象识别模型的训练梯度变化的影响权重。

步骤S340，基于各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，从候选对象集合中选取满足第二预设条件的候选对象，将满足第二预设条件的候选对象加入到训练样本集合中。

其中，第二预设条件包括训练梯度变化的影响权重大于影响权重阈值或者影响权重排序在第二排序阈值之前的至少一个，以下介绍这两个第二预设条件：

针对候选对象集合包括的全部候选对象，基于各候选对象的识别概率确定各候选对象对对象识别模型的训练梯度变化的影响权重，将训练梯度变化的影响权重大于影响权重阈值的候选对象加入训练样本集合中。

(2)第二预设条件：影响权重排序在第二排序阈值之前：

针对候选对象集合包括的全部候选对象，基于各候选对象的识别概率确定各候选对象对对象识别模型的训练梯度变化的影响权重；按照训练梯度变化的影响权重由大到小的顺序，对各候选对象进行排序，并将训练梯度变化的影响权重处于前几名的候选对象加入到训练样本集合中。

步骤S342，利用训练样本集合进行模型训练，得到用于识别目标对象类别的目标对象识别模型。

计算机设备基于训练样本集合中各训练样本的对象特征以及对象标签进行有监督的训练，得到目标对象识别模型；该目标对象识别模型可以包括支持向量机(support vector machines,SVM)、卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short Term Memroy,LSTM)、或者Real-time Attention based Look-alike Model(RALM，基于实时注意的相似性模型)等模型。

上述实施例中，对候选对象信息进行特征提取得到对象提取特征，由于根据候选对象的对象提取特征对各候选对象进行聚类，因此可以保证同一子对象集合中的候选对象是较为相似的；接着，由于候选对象属于目标对象类别的识别概率是根据候选对象的对象提取特征得到的，因此，根据候选对象的识别概率分别从各子对象集合中选取得到的代表对象，可以最大程度地代表各代表对象所在的子对象集合中的其他候选对象；将代表对象作为模型训练的训练样本，提高目标对象识别模型的预测准确性，实现信息的有效传递；并且，利用种子对象构建对象筛选模型，由于种子对象属于目标对象类别的置信度较高，因此，可以提高对象筛选模型对其他对象属于目标对象进行预测的准确性；另外，融合“最具代表性”和“最具识别力”的这两个策略进行训练样本的选取，提高模型预测的准确性，提高了对象识别的准确度，提高信息传递的有效性，避免将大量信息推送至不匹配的对象，节约计算机资源。

为了更好地理解上述方法，以下结合图4至图6详细阐述一个本申请对象识别方法的应用实例；图4示出的技术架构图中，主要包括5个部分，其中，样本准备和持续学习框架这两个部分可以看成是离线数据准备。图5示出离线模型构建的过程，主要对应于图4的样本准备、持续学习框架、离线特征处理和离线模型训练这4个部分；图6示出在线调用过程，主要对应于图4的在线模型调用这个部分。在该应用实例中，可以将“处于拥有房产状态”和“未处于拥有房产状态”视为目标对象类别。

本应用实例可以由计算机设备执行，主要包括：通过基于人工标注和业务的逻辑的方式，获取种子对象群，生成种子对象画像特征，包括：对象基础属性(比如性别等)、设备基础属性(比如设备机型等)、网络连接属性(比如近1个月连接家庭Wi-Fi的次数)。然后，基于画像对异常对象进行过滤，比如：过滤使用特定应用程序的时长超过24小时的对象等。由于在大多数业务场景，能够通过人工标注和业务经验直接获取到的正负样本数量非常少(一般低于1万)，达不到训练模型的最低样本要求。本应用实例基于持续学习框架，在少量初始种子对象的基础上，在DeepFM模型上经过多轮迭代，结合“最具代表性策略”和“最具识别力策略”双策略融合方式，获得更多模型训练所需的正负样本。接着，为捕捉对象在不同时间窗口的画像信息，结合时间维度，选择不同的“池化操作”，生成经过卷积处理后的特征向量。然后，将特征工程的结果，输入到多个机器学习模型进行Baseline训练，基于模型评价指标AUC初筛出最好的模型，对最佳模型进行最优参数寻优，获得最终的效果最佳的模型。最后，固化模型训练流程，定时离线训练、验证、告警、固化。在线工作包括：首先，定时从线上存储引擎，拉取对象最新的特征集合。接着，业务方设置特有特征计算逻辑，从线上实时日志，导出原数据，基于线上计算引擎，完成特征计算。然后，拼接特征、输入到模型、输出当前对象当前已购房的概率。

本应用实例可以提升对已购房对象识别的准确率，尤其是当种子对象量级较少的场景，持续学习框架和深度学习模型仍能保证较高的预测准确率和效果稳定性。本应用实例对于产品运营、广告投放等常见业务场景，提供了更为精准的对象分群方案，提高信息传递的有效性，避免将大量信息推送至不匹配的对象，节约计算机资源。

以下介绍更为具体的内容：

1)离线数据准备：

a)基于人工标注和业务经验，找出与业务强相关、数据分布正常、对象画像合理的正负训练样本；

b)基于持续学习框架，在a)的基础上，产出更多的高质量正负样本；

2)离线特征处理：构建训练样本的画像特征，并基于特征的垂直特性，结合时间维度、不同特征处理方法，产出高维特征向量。

3)离线模型训练：基于训练样本和特征向量，寻找分类效果佳且稳定的模型。

4)在线模型调用：基于离线训练模型和线上实时特征，对线上对象是否已购房的标签进行实时预测。

更具体地，上述离线数据准备包括样本准备和持续学习框架这两个部分；其中，样本准备这个部分主要包括以下步骤：

步骤S502，获取人工标注得到的种子对象。

具体来说，基于人工标注、业务逻辑，获取带有label信息(该label信息是指对象是否处于拥有房产状态的标签)的种子对象。基于规则粗召回一批种子对象，然后基于人工筛查的方式进行过滤，最后基于业务逻辑进行验证。

步骤S504，获取种子对象的基础画像。

其中，基础画像包括对象在应用程序的一些非隐私行为数据，比如是否安装某个特定应用程序、是否使用该应用程序提供的骚扰拦截功能、是否使用该应用程序提供的接听助理功能等。

步骤S506，获取异常对象类型评价指标在各个种子对象下的指标值。

在真实业务场景，会存在虚假对象、电脑操控手机的情况。为了剔除非真实对象对建模分析的影响，会基于业务经验设置异常对象类型评价指标；异常类型评价指标包括但不限于对象在应用程序的流量使用情况、流量产生的时间分布等；计算机设备可以根据每个种子对象在应用程序的流量使用情况和流量产生的时间分布，可以得到每个种子对象对应的指标值。

步骤S508，基于异常类型评价指标在各种子对象的指标值的分布，将指标值分布在正常区间的种子对象作为正常种子对象，将指标值分布在异常区间的种子对象作为异常种子对象，并过滤异常种子对象。

其中，可以使用“拉依达准则”进行异常区间的判断，具体来说，假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。

步骤S510，存储正常种子对象。

具体来说，存储方式可以是离线存储，存储所用的服务器可以是HDFS(The Hadoop Distributed File System，Hadoop分布式文件系统)，便于后续流程的快速访问。

其中，持续学习框架是为了增加高质量的正负样本，该部分主要包括以下步骤：

步骤S512，利用上述少量的正常种子对象进行模型训练，得到对象筛选模型，此时得到的对象筛选模型可以记为M0；该对象筛选识别模型可以是DeepFM模型。

步骤S514，将未标注的样本，输入到对象筛选模型中进行特征提取并预测样本属于目标对象类别的概率，以对样本进行标注。

步骤S516，保存各样本属于目标对象类别的概率和对象筛选模型输出的各样本的对象提取特征。

步骤S518，从各样本中选择代表性较高的样本和识别力较高的样本；

其中，代表性较高的样本的选择过程主要包括：对各样本进行聚类得到各样本簇中，针对任一样本簇，将该任一样本簇中样本属于目标对象类别概率较高的样本作为代表性较高的样本；

识别力较高的样本的选择过程主要包括：基于最大梯度长度(Expected Gradient Length)的思想，在全部样本中，将样本属于目标对象类别概率较高的样本作为识别力较高的样本。

步骤S520，若对象筛选模型还需调整，则可以利用代表性较高的样本和识别力较高的样本对对象筛选模型进行微调，直至调整后的对象筛选模型达到性能阈值。

步骤S522，确定代表性较高的样本和识别力较高的样本的总数量。

步骤S524，判断总数量是否大于或等于数量阈值；若是则进入步骤S526，若否则返回步骤S514，继续迭代得到更多代表性较高的样本和识别力较高的样本。其中，数量阈值是根据进行针对目标对象识别模型的训练时所需的训练样本数量确定的。

上述离线特征处理这个部分，主要包括以下步骤：

步骤S526，构建对象的画像特征和业务垂直类型特征。

其中，基础画像特征主要是基于对象历史行为数据构建的，包括：对象基础属性、设备基础属性、网络连接属性等；对象基础属性但不限于：性别、籍贯、居住城市等；设备基础属性包括但不限于：手机分辨率、API_Level(接口等级)、CPU内核数等；网络连接属性包括但不限于：连接Wi-Fi的个数、每天连接Wi-Fi的最早时间等。

基于业务特性，构建业务垂直类型特征：垂直类型特征，包括对象对特定类型广告的点击率、转化率等。在一些场景，特定类型广告为：购房类广告、租房类广告、装修类广告等。

步骤S528，对不同时间维度下的同类画像特征或业务垂直类型特征进行聚合。其中，时间维度可以是近半年/近3个月/近1个月/近1周；针对同一类特征，可以将不同时间维度下的特征值进行聚合，得到聚合后的特征值；聚合可以是求和、中位数、标准差等多种方式。

步骤S530，对聚合后的特征进行归一化处理或者离散化处理，该处理包括对数值型特征进行归一化以及对非数值型特征进行离散化；其中，归一化方法可以是高斯归一化；离散化处理包括以下方法：

i.One-Hot Encoding(独热编码)：例如对于对象性别等特征。

ii.Count Encoding(频数编码)：例如对于对象的WiFi POI(point of interest，兴趣点)特征，会用Count Encoding来标识对象和这个POI的兴趣程度。比如对象当周去了“美食-中国菜-粤菜”这个POI共3次。

iii.Category Embedding(类别嵌入)：若许多类目特征都存在较强的稀疏性，为了避免模型过拟合和提高模型稳定性，引入神经网络将高维稀疏分类变量转换为低维稠密的Embedding变量。

iv.NaN Embedding：对于特征的缺失值处理，可以使用“剔除”、“平均值填充”和“缺失标记”等方法，其中，将缺失值转为Embedding表达的方式，对模型的效果具有最大的正向收益。

v.Consolidation Encoding(合并编码)：某些类目变量下的多个取值，可以将其归纳成同一个信息。比如安卓手机的系统版本特征的多个取值里包括“4.2”、“4.4”和“5.0”三个，基于经验可以将这三个值归纳为“低版本安卓系统”。其中，Consolidation Encoding处理方式，比直接将“安卓系统版本”特征one-hot能带来更大的正向收益。

上述iii主要是将Category特征(类别特征)输入到DNN模型(Deep Neural Networks,深度神经网络模型)，训练Embedding特征，具体来说，可以包括如下内容：

①WiFi Trajectory Embedding(WiFi轨迹嵌入表示)。基于MST-CNN(Masked Self-Supervised Transformer-Convolution neural networ)深度学习网络，对对象的WiFi连接轨迹数据进行Embedding，捕捉对象Wi-Fi行为模式信息。

②App Traffic Embedding(APP流量嵌入表示)。基于List-Embedding方式，对对象使用不同类目App(application，应用程序)的流量使用行为序列进行Embedding提取，比如使用社交类型App的Traffic Embedding，获得低维稠密的对象行为特征。

步骤S532，将归一化后的数值型特征和离散化后的非数值型特征合并和存储。存储方式可以是离线存储在HDFS中，便于后续流程的快速访问。

其中，计算机设备还可以固化上述步骤S526至S532的特征处理逻辑，定时离线自动化计算，将离线计算得到的特征上传到线上存储引擎进行存储。

另外，在步骤S528之前，计算机设备还可以对对象的画像特征和业务垂直类型特征进行清洗、过滤、验证。由于特征通过多个策略逻辑通路产生，特征的数据质量难以保证，故需要进行特征数据质量监控。具体做法如下：

a)基于业务经验，制定特征质量标准，对计算好的特征进行清洗、过滤、验证。质量标准包括但不限于：每天使用特定App的时长低于16小时等；

b)按照预设策略，验证已有特征，对无效、异常特征进行剔除。比如对象使用某个App的时长不能大于24小时等；

c)拼接符合业务要求的特征，对不符合要求的特征进行缺失标记，最后实现入模向量拼接，拼接后的向量可能是(0.2,0.1,1,…,-1,…,0)。

上述离线模型训练这个部分，主要包括以下步骤：

步骤S534，对训练样本集合进行随机划分，得到训练集和测试集。

其中，可以按照样本所属的时间窗口进行划分，将时间较早的训练样本作为训练集(比如5月份的样本作为训练集)，时间较晚的训练样本作为验证集(比如6月份的样本作为验证集)；其中，训练集和验证集的比例可以是5:1。

步骤S536，基于预设参数，并行训练多个模型，将并行训练后的多个模型中预测效果最好的模型作为目标对象识别模型。并行训练所用的模型包括但不限于：支持向量机(support vector machines,SVM)、卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short Term Memroy,LSTM)、Real-time Attention based Look-alike Model(RALM)等。

步骤S538，对目标对象识别模型进行参数寻优以提升目标对象识别模型的预测效果。预测效果最好的评价指标可以是AUC；参数调优是指对选择模型的超参数进行网格寻优，以期待评价指标AUC能获得提升。

步骤S540，获取参数寻优后的目标对象识别模型，并在多份验证集上验证该参数寻优后的目标对象识别模型的预测效果以及预测效果的稳定性，判断参数寻优后的目标对象识别模型的预测效果是否达标，若是则进入步骤S542，若否则返回步骤S538。

其中，目标对象识别模型的预测效果的评价指标可以是AUC。AUC有如下优势：a)

AUC指标本身和模型预测score绝对值无关，只关注排序效果，更加贴近实际业务的需要；b)AUC的计算方法同时考虑了学习器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器做出合理的评价。

步骤S542，对参数寻优后的目标对象识别模型进行固化；该固化后的目标对象识别模型可以用于广告推送，例如房产类广告或教育类广告的推送；基于TensorFlow(一个端到端开源机器学习平台)的Saver()方法固化训练好的模型，共产生4个文件：a)checkpoint文本文件，记录了模型文件的路径信息列表；b)model.ckpt.data，记录网络权重信息；c)model.ckpt.index.data和.index是二进制文件，保存模型中的变量权重信息。

其中，还可以固化上述步骤S534至步骤S542的模型训练流程，定时离线训练、验证、告警、固化。

更具体地，上述在线模型调用这个部分的目的是使用离线固化的模型完成线上实时预测，主要包括以下步骤：

步骤S602，获取上述参数寻优后的目标对象识别模型。

具体来说，本步骤包括如下部分：

a)目标对象识别模型在线下训练好后，基于TensorFlow的Saver()方法固化训练好的模型；

b)将目标对象识别模型的模型文件存储在云端；

c)客户端基于调用服务接口的方式，从云端拉取最新的模型文件。

步骤S604，获取待识别对象的画像特征和业务垂直类型特征。

其中，按照特征稳定性，可以将画像特征和业务垂直类型特征分为实时特征和离线特征；实时特征是指稳定性低于阈值的特征，该实时特征可以随着时间的变化而变化，实时特征主要反映对象当天在应用程序内产生的实时行为，粒度可以是小时级，例如是当天内对象使用特定应用程序的总时长；离线特征是指稳定性高于阈值的特征，该离线特征较不可能随着时间的变化而变化，例如对象的性别、对象使用的设备等。

计算机设备可以对待识别对象的数据进行定时计算得到的离线特征(也可以称为通用特征)，如对象的性别等基础属性特征、对象所用设备的品牌等设备属性特征和设备当天所连接的Wi-Fi个数等网络属性特征。

计算机设备可以基于Spark和TensorFlow计算引擎，基于不同的特征处理规则，对待识别对象的数据进行定时计算得到的离线特征；特征处理规则包括：One-Hot Encoding，Count Encoding，Category Embedding，NaN Embedding，Consolidation Encoding，WiFi Trajectory Embedding，App Traffic Embedding。

计算机设备还可以从对象实时日志中获取对象实时数据，并按照预设的特征处理规则对对象实时数据进行计算，得到对象实时特征，例如对象当天使用特定应用程序的总时长和当天首次打开时间等。

步骤S606，拼接待识别对象的画像特征和和业务垂直类型特征。

其中，拼接后得到的特征可以称为拼接特征，属于高维度的向量，例如(1,0,2,1.1,41,…,3,1,14)。

步骤S608，将拼接特征输入到目标对象识别模型中，以使目标对象识别模型基于拼接特征预测待识别对象属于目标对象类别的概率；

步骤S610，获取目标对象识别模型输出的待识别对象属于目标对象类别的概率。

步骤S612，若待识别对象属于目标对象类别的概率大于或等于概率阈值，则确定待识别对象属于目标对象类别。

本应用实例的目标对象识别模型是RALM模型，离线实验的评估RALM模型的预测效果主要包括：

1)数学指标评估：

a)AUC(Area under Curve)：AUC值越大，当前分类算法越有可能将正样本排在负样本前面，得到更好的分类结果；

2)线上实验评估：

a)基于A/B Test的线上流量，对模型的效果进行评估；

b)评估的指标有：广告点击率、对象实名登记率。

图7为使用不同模型进行对象房产状态预测的模型效果比对图，其中RALM模型是本应用实例所用的模型，可以看出：

a)从线下AUC效果来看，RALM方案相比基于人工强规则的方案或非深度学习的方案，平均提高29.24％；

b)从线上AUC效果来看，RALM方案相比基于人工强规则的方案或非深度学习的方案，平均提高28.18％；

图8为使用不同模型进行对象房产状态预测的业务效果比对图，其中RALM模型是本应用实例所用的模型，可以看出：

a)从广告点击率来看，RALM方案相比基于人工强规则的方案或非深度学习的方案，平均提高441.93％；

b)从对象实名登记率来看，RALM方案相比基于人工强规则的方案或非深度学习的方案，平均提高309.54％。

本应用实例具备很强的复用性，更换正例样本所属对象类别，即可预测相应场景的对象类别，无需修改其他内容，节约计算机设备的处理时间，具体地，更换正例样本所属对象类别，比如“对象购车状态的群体识别”，然后服务端累计对应日志数据，最后使用相同的特征拼接、特征处理、模型训练的方法产出结果。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图9所示，提供了一种对象识别装置，包括：

候选对象集合获取模块902，用于获取候选对象集合；候选对象集合包括多个候选对象；

概率识别模块904，用于获取候选对象在多个维度的多个候选对象信息，对各候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到候选对象对应的对象提取特征，基于对象提取特征进行对象类别概率识别，得到候选对象属于目标对象类别的识别概率；

聚类模块906，用于对候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合；

代表对象选取模块908，用于对于按各子提取特征集合组成的各个子对象集合，分别基于子对象集合中各个候选对象对应的识别概率，从子对象集合中选取得到代表对象。

在一些实施例中，对象提取特征是通过对象筛选模型进行特征提取得到的；装置还包括：对象筛选模型构建模块，用于获取目标对象类别对应的种子对象；获取种子对象对应的种子对象信息，将种子对象信息作为训练样本中的训练特征，将目标对象类别作为训练样本中的标签，组成训练样本；基于训练样本进行模型训练，得到对象筛选模型。

在一些实施例中，概率识别模块904，还用于将候选对象在多个维度的多个候选对象信息输入到对象筛选模型的特征提取层中进行特征提取，得到各个候选对象信息对应的候选对象特征；将各个候选对象特征输入到对象筛选模型的分类层，以使分类层融合各个候选对象特征得到对象提取特征；获取分类层对对象提取特征进行对象类别概率识别后输出的候选对象属于目标对象类别的识别概率。

在一些实施例中，聚类模块906，还用于获取对应于不同候选对象的对象提取特征之间的特征距离；对于各个对象提取特征，基于各特征距离，确定位于各个对象提取特征所在的区域内的对象提取特征的数量，基于数量，得到各个对象提取特征的区域对象密度；基于各个对象提取特征的区域对象密度选取聚类中心，基于聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合；同一个子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合。

在一些实施例中，聚类模块906，还用于在区域对象密度大于对象提取特征的区域对象密度的特征中，确定对象提取特征的邻近提取特征；将对象提取特征与邻近提取特征之间的特征距离，作为对象提取特征对应的目标距离；基于对象提取特征的区域对象密度以及对象提取特征对应的目标距离，选取聚类中心。

在一些实施例中，聚类模块906，还用于在区域对象密度大于对象提取特征的区域对象密度的特征中，确定与对象提取特征间的特征距离最小的对象提取特征；将与对象提取特征间的特征距离最小的对象提取特征，作为对象提取特征的邻近提取特征。

在一些实施例中，聚类模块906，还用于获取待确定聚类类别的当前对象提取特征；获取区域对象密度大于当前对象提取特征的区域对象密度的聚类中心，作为当前对象提取特征对应的候选聚类中心；当前对象提取特征对应的候选聚类中心组成候选中心集合；基于当前对象提取特征与候选聚类中心的距离，从候选中心集合中选取当前对象提取特征对应的邻近聚类中心，将当前对象提取特征加入到将邻近聚类中心所对应的子提取特征集合中。

在一些实施例中，聚类模块906，还用于在候选中心集合中，确定与当前对象提取特征间的特征距离最小的聚类中心；将与当前对象提取特征间的特征距离最小的聚类中心，作为当前对象提取特征对应的邻近聚类中心。

在一些实施例中，装置还包括区域确定模块，用于，在将其中一个对象作为目标对象时，获取其他对象的对象提取特征与目标对象的对象提取特征间的特征距离；当其中一个其他对象对应的特征距离小于预设半径时，确定其中一个其他对象的对象提取特征位于目标对象的对象提取特征所在的区域内。

在一些实施例中，代表对象选取模块908，还用于对于按各子提取特征集合组成的各个子对象集合，分别从子对象集合中，获取识别概率满足第一预设条件的候选对象，作为子对象集合中对应的代表对象；第一预设条件包括识别概率大于概率阈值或者概率排序在第一排序阈值之前的至少一个。

在一些实施例中，装置还包括第二集合处理模块，用于基于候选对象属于目标对象类别的识别概率，确定各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，训练梯度变化的影响权重与识别概率成正相关关系；基于各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，从候选对象集合中选取满足第二预设条件的候选对象，将满足第二预设条件的候选对象加入到训练样本集合中；第二预设条件包括训练梯度变化的影响权重大于影响权重阈值或者影响权重排序在第二排序阈值之前的至少一个。

在一些实施例中，对象类别识别概率是通过目标对象识别模型进行的，装置还包括目标对象识别模型构建模块，用于从训练样本集合中选取相似的第一训练对象以及第二训练对象，将第一训练对象以及第二训练对象组成对象组；将对象组中各个训练对象对应的训练对象信息输入到同一个特征提取层中，提取得到各个训练对象分别对应的训练对象特征；基于训练对象特征，得到对象组中的训练对象之间的对象相似度；基于对象相似度得到模型损失值；模型损失值与对象相似度成负相关关系；基于模型损失值对对象识别模型进行训练，得到目标对象识别模型。

在一些实施例中，装置还包括对象信息处理模块，用于获取对象信息类别；获取训练对象在对象信息类别对应的时间维度集合以及信息统计角度，时间维度集合包括多个信息统计时间维度；获取各个信息统计时间维度中，基于信息统计角度统计得到的训练对象对应的对象信息统计值；对象信息统计值为对象信息类别对应的信息统计值；对时间维度集合中，各个信息统计时间维度对应的对象信息统计值进行信息聚合，将聚合得到对象信息作为训练对象对应的训练对象信息。

在一些实施例中，对象信息处理模块，还用于基于时间维度集合中，各个信息统计时间维度对应的对象信息统计值得到综合信息统计值；确定各个对象信息统计值与综合信息统计值的统计值差异；基于统计值差异得到时间维度集合对应的统计值离散度，将统计值离散度作为训练对象对应的训练对象信息；统计值离散度与统计值差异成正相关关系。

上述对象识别装置中，对候选对象信息进行特征提取得到对象提取特征，由于根据候选对象的对象提取特征对各候选对象进行聚类，因此可以将属于同一类别的对象划分在同一个子对象集合中；由于候选对象属于目标对象类别的识别概率是根据候选对象的对象提取特征得到的，因此，根据候选对象的识别概率分别从各子对象集合中选取得到的代表对象，可以从属于同一类别的子对象集合中选取出具有代表性的对象，提高了对象识别的准确度，提高信息传递的有效性，避免将大量信息推送至不匹配的对象，节约计算机资源。

关于对象识别装置的具体限定可以参见上文中对于对象识别方法的限定。上述对象识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器。该计算机设备还可以包括网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储对象识别的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种对象识别方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，包括存储器、处理器，该存储器存储有计算机可读指令，该计算机可读指令被该处理器执行时，使得该处理器实现本申请实施例中的方法。

在一些实施例中，提供了一种非易失性的计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，该计算机可读指令被处理器执行时，使得该处理器实现本申请实施例中的方法。

在一些实施例中，提供了一种计算机程序产品，包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行本申请实施例中的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，上述的计算机可读指令可存储于一非易失性的计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器 (Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上的实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种对象识别方法，由计算机设备执行，所述方法包括：

获取候选对象集合；所述候选对象集合包括多个候选对象；

获取所述候选对象在多个维度的多个候选对象信息，对各所述候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到所述候选对象对应的对象提取特征，基于所述对象提取特征进行对象类别概率识别，得到所述候选对象属于目标对象类别的识别概率；

对所述候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个所述子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合；

对于按各所述子提取特征集合组成的各个子对象集合，分别基于所述子对象集合中各个所述候选对象对应的识别概率，从所述子对象集合中选取得到代表对象；选取得到的所述代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。
根据权利要求1所述的方法，其特征在于，所述对象提取特征是通过对象筛选模型进行特征提取得到的，所述对象筛选模型的确定步骤包括：

获取所述目标对象类别对应的种子对象；

获取所述种子对象对应的种子对象信息，将所述种子对象信息作为训练样本中的训练特征，将所述目标对象类别作为所述训练样本中的标签，组成所述训练样本；

基于所述训练样本进行模型训练，得到所述对象筛选模型。
根据权利要求2所述的方法，其特征在于，所述获取所述候选对象在多个维度的多个候选对象信息，对各所述候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，包括：

将所述候选对象在多个维度的多个多个候选对象信息，输入到所述对象筛选模型的特征提取层中进行特征提取，得到各个候选对象信息对应的候选对象特征；

所述融合各个候选对象特征得到所述候选对象对应的对象提取特征，基于所述对象提取特征进行对象类别概率识别，得到所述候选对象属于目标对象类别的识别概率，包括：

将各个候选对象特征输入到所述对象筛选模型的分类层，以使所述分类层融合各个候选对象特征得到对象提取特征；

获取所述分类层对所述对象提取特征进行对象类别概率识别后输出的所述候选对象属于目标对象类别的识别概率。
根据权利要求1所述的方法，其特征在于，所述对所述候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个所述子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合，包括：

获取对应于不同候选对象的对象提取特征之间的特征距离；

对于各个对象提取特征，基于各特征距离，确定位于所述各个对象提取特征所在的区域内的对象提取特征的数量，基于所述数量，得到所述各个对象提取特征的区域对象密度；

基于所述各个对象提取特征的区域对象密度选取聚类中心，基于所述聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合；同一个所述子提取特征集合中的对象提取特征对应的候选对象组成一个所述子对象集合。
根据权利要求4所述的方法，其特征在于，所述基于所述各个对象提取特征的区域对象密度选取聚类中心，包括：

在区域对象密度大于所述对象提取特征的区域对象密度的特征中，确定所述对象提取特征的邻近提取特征；

将所述对象提取特征与所述邻近提取特征之间的特征距离，作为所述对象提取特征对应的目标距离；

基于所述对象提取特征的区域对象密度以及所述对象提取特征对应的目标距离，选取聚类中心。
根据权利要求5所述的方法，其特征在于，所述在区域对象密度大于所述对象提取特征的区域对象密度的特征中，确定所述对象提取特征的邻近提取特征，包括：

在区域对象密度大于所述对象提取特征的区域对象密度的特征中，确定与所述对象提取特征间的特征距离最小的对象提取特征；

将与所述对象提取特征间的特征距离最小的对象提取特征，作为所述对象提取特征的邻近提取特征。
根据权利要求4所述的方法，其特征在于，所述基于所述聚类中心对对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，包括：

获取待确定聚类类别的当前对象提取特征；

获取区域对象密度大于所述当前对象提取特征的区域对象密度的聚类中心，作为所述当前对象提取特征对应的候选聚类中心；所述当前对象提取特征对应的候选聚类中心组成候选中心集合；

基于所述当前对象提取特征与候选聚类中心的距离，从所述候选中心集合中选取所述当前对象提取特征对应的邻近聚类中心，将所述当前对象提取特征加入到将所述邻近聚类中心所对应的子提取特征集合中。
根据权利要求7所述的方法，其特征在于，所述从所述候选中心集合中选取所述当前对象提取特征对应的邻近聚类中心，包括：

在所述候选中心集合中，确定与当前对象提取特征间的特征距离最小的聚类中心；

将与所述当前对象提取特征间的特征距离最小的聚类中心，作为所述当前对象提取特征对应的邻近聚类中心。
根据权利要求4所述的方法，其特征在于，确定位于各个对象提取特征所在的区域内的对象提取特征的步骤包括：

对于任一对象提取特征，获取与任一其它对象提取特征间的特征距离；

当所述特征距离小于预设半径时，确定所述其它对象提取特征位于所述对象提取特征所在的区域内。
根据权利要求1所述的方法，其特征在于，所述对于按各所述子提取特征集合组成的各个子对象集合，分别基于所述子对象集合中各个所述候选对象对应的识别概率，从所述子对象集合中选取得到代表对象，包括：

对于按各所述子提取特征集合组成的各个子对象集合，分别从所述子对象集合中，获取识别概率满足第一预设条件的候选对象，作为所述子对象集合中对应的代表对象；

所述第一预设条件包括识别概率大于概率阈值或者概率排序在第一排序阈值之前的至少一个。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于候选对象属于目标对象类别的识别概率，确定各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，所述训练梯度变化的影响权重与所述识别概率成正相关关系；

基于各个候选对象对于目标对象识别模型的训练梯度变化的影响权重，从所述候选对象集合中选取满足第二预设条件的候选对象，将满足第二预设条件的候选对象加入到训练样本集合中；

所述第二预设条件包括训练梯度变化的影响权重大于影响权重阈值与训练梯度变化的影响权重排序在第二排序阈值之前中的至少一个。
根据权利要求1至11任一项所述的方法，其特征在于，所述目标对象识别模型的训练步骤，包括：

将选取的所述代表对象加入目标对象识别模型的训练样本集合中；

根据所述目标对象识别模型的训练样本集合，对目标对象识别模型进行模型训练；

通过训练好的目标对象识别模型，预测对象是否属于目标对象类别。
根据权利要求12所述的方法，其特征在于，得到所述目标对象识别模型的步骤，包括：

从训练样本集合中选取相似的第一训练对象以及第二训练对象，将所述第一训练对象以及所述第二训练对象组成对象组；

将所述对象组中各个训练对象对应的训练对象信息输入到同一个特征提取层中，提取得到各个训练对象分别对应的训练对象特征；

基于所述训练对象特征，得到所述对象组中的训练对象之间的对象相似度；

基于所述对象相似度得到模型损失值；所述模型损失值与所述对象相似度成负相关关系；

基于所述模型损失值对对象识别模型进行训练，得到所述目标对象识别模型。
根据权利要求13所述的方法，其特征在于，得到训练对象对应的训练对象信息的步骤，包括：

获取对象信息类别；

获取所述训练对象在所述对象信息类别对应的时间维度集合以及信息统计角度，所述时间维度集合包括多个信息统计时间维度；

获取各个所述信息统计时间维度中，基于所述信息统计角度统计得到的所述训练对象对应的对象信息统计值；所述对象信息统计值为所述对象信息类别对应的信息统计值；

对所述时间维度集合中，各个所述信息统计时间维度对应的对象信息统计值进行信息聚合，将聚合得到对象信息作为所述训练对象对应的训练对象信息。
根据权利要求14所述的方法，其特征在于，所述对所述时间维度集合中，各个所述信息统计时间维度对应的对象信息统计值进行信息聚合，将聚合得到对象信息作为所述训练对象对应的训练对象信息，包括：

基于所述时间维度集合中，各个所述信息统计时间维度对应的对象信息统计值得到综合信息统计值；

确定各个所述对象信息统计值与所述综合信息统计值的统计值差异；

基于所述统计值差异得到所述时间维度集合对应的统计值离散度，将所述统计值离散度作为所述训练对象对应的训练对象信息；所述统计值离散度与所述统计值差异成正相关关系。
一种对象识别装置，其特征在于，所述装置包括：

候选对象集合获取模块，用于获取候选对象集合；所述候选对象集合包括多个候选对象；

概率识别模块，用于获取所述候选对象在多个维度的多个候选对象信息，对各所述候选对象信息进行特征提取，得到各个候选对象信息对应的候选对象特征，融合各个候选对象特征得到所述候选对象对应的对象提取特征，基于所述对象提取特征进行对象类别概率识别，得到所述候选对象属于目标对象类别的识别概率；

聚类模块，用于对所述候选对象对应的对象提取特征进行聚类，得到各个聚类类别对应的子提取特征集合，将同一个所述子提取特征集合中的对象提取特征对应的候选对象组成一个子对象集合；

代表对象选取模块，用于对于按各所述子提取特征集合组成的各个子对象集合，分别基于所述子对象集合中各个所述候选对象对应的识别概率，从所述子对象集合中选取得到代表对象；选取得到的所述代表对象的候选对象信息用于训练目标对象识别模型，训练好的目标对象识别模型用于识别对象是否属于目标对象类别。
根据权利要求16所述的装置，其特征在于，所述对象提取特征是通过对象筛选模型进行特征提取得到的；所述装置还包括：

对象筛选模型构建模块，用于获取所述目标对象类别对应的种子对象；获取所述种子对象对应的种子对象信息，将所述种子对象信息作为训练样本中的训练特征，将所述目标对象类别作为所述训练样本中的标签，组成所述训练样本；基于所述训练样本进行模型训练，得到所述对象筛选模型。
一种计算机设备，其特征在于，包括处理器、存储器；所述存储器用于存储计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器实现如权利要求1至15任一项所述的方法。
一种非易失性的计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器实现如权利要求1至15任一项所述的方法。
一种计算机程序产品，包括计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器实现如权利要求1至15任一项所述的方法。