WO2023246641A1

WO2023246641A1 - 识别对象的方法、装置及存储介质

Info

Publication number: WO2023246641A1
Application number: PCT/CN2023/100703
Authority: WO
Inventors: 田奇; 唐楚峰; 谢凌曦; 张晓鹏
Original assignee: 华为云计算技术有限公司
Priority date: 2022-06-24
Filing date: 2023-06-16
Publication date: 2023-12-28
Also published as: CN117333868A

Abstract

本申请公开了一种识别对象的方法、装置及存储介质，属于计算机视觉领域。所述方法包括：获取待处理的视觉数据和待识别的至少一个目标对象的指示信息；基于所述至少一个目标对象的指示信息获取语义信息，所述语义信息是用于描述所述至少一个目标对象的语义；基于对象识别模型和所述语义信息，识别所述视觉数据中的所述目标对象。本申请能够提高识别对象的灵活性。

Description

识别对象的方法、装置及存储介质

本申请要求于2022年6月24日提交的申请号为202210727401.1、发明名称为“一种按需视觉识别的方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。以及，本申请还要求于2022年7月19日提交的申请号为202210851482.6、发明名称为“识别对象的方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉领域，特别涉及一种识别对象的方法、装置及存储介质。

背景技术

视觉数据可以是图像或视频等数据，通过对视觉数据进行处理，得到视觉数据中的对象。然后可以对该对象进行不同的应用，例如基于该对象进行定位，对该对象进行分类或对该对象进行分割等应用。

对视觉数据进行处理时需要使用到对象识别模型，对象识别模型与至少一个对象类别相对应，对象识别模型用于从视觉数据中识别属于该至少一个对象类别的对象。例如，假设对象识别模型对应的对象类别包括苹果、桃子和香蕉，需要处理的视觉数据为图片。如果该图片中包括苹果、桃子和香蕉，则通过对象识别模型从该图片中识别出的对象包括苹果、桃子和香蕉。

目前在视觉数据包括对象识别模型对应的对象类别的对象时，则从该视觉数据中识别出属于该对象类别的所有对象，对象识别的灵活性差。

发明内容

本申请提供了一种识别对象的方法、装置及存储介质，以提高识别对象的灵活性。所述技术方案如下：

第一方面，本申请提供了一种识别对象的方法，在所述方法中，获取待处理的视觉数据和待识别的至少一个目标对象的指示信息。基于该至少一个目标对象的指示信息获取语义信息，该语义信息是用于描述该至少一个目标对象的语义。基于对象识别模型和该语义信息，识别视觉数据中的目标对象。

由于基于该至少一个目标对象的指示信息获取语义信息，该语义信息是用于描述该至少一个目标对象的语义，这样设备通过该语义信息，能够理解该至少一个目标对象的语义，从而能够基于对象识别模型和该语义信息，识别视觉数据中的目标对象。待识别的至少一个目标对象是需要识别的对象，这样实现按需识别该视觉数据中的对象，提高识别对象的灵活性。

在一种可能的实现方式中，该至少一个目标对象的指示信息包括该至少一个目标对象的文本描述信息。基于该至少一个目标对象的文本描述信息与语义特征的对应关系，分别获取该每个目标对象的文本描述信息对应的语义特征，该语义信息包括该每个目标对象的文本描述信息对应的语义特征。

这样通过该对应关系对每个目标对象的文本描述信息进行转换，得到该每个目标对象的文本描述信息对应的语义特征。通过对应关系的方式实现简单，可以快速转换出每个目标对象的文本描述信息对应的语义特征。

在另一种可能的实现方式中，基于对象识别模型和视觉数据获取至少一个视觉特征向量，该至少一个视觉特征向量用于指示视觉数据的编码语义。基于该至少一个视觉特征向量和该语义信息，识别该视觉数据中的目标对象。

由于该至少一个视觉特征向量用于指示视觉数据的编码语义，这样设备通过该至少一个视觉特征向量能够理解该视觉数据的编码语义，以及通过语义信息理解该至少一个目标对象的语义，从而能够从该视觉数据中准确地识别出需要识别的目标对象。

在另一种可能的实现方式中，至少一个目标对象的指示信息包括第一对象的指示信息，第一对象的指示信息用于指示第一对象和第一对象的至少一个组成部件。基于对象识别模型和该语义信息，识别视觉数据中的第一对象；以及，基于对象识别模型和该语义信息，从第一对象中识别至少一个组成部件。这样可以先识别出对象，再从对象中识别对象的组成部件，实现层次化识别，且从对象中识别组成部件，可以减少需要处理的数据量，提高识别组成部件的效率。

在另一种可能的实现方式中，至少一个目标对象的指示信息还包括用于指示目标对象在该视觉数据中的位置范围的位置信息。基于该位置信息获取目标对象的位置特征，该置特征用于指示目标对象的空间方位。基于对象识别模型、该语义信息和该位置特征，识别视觉数据中的目标对象。这样该位置信息可能是用户在视觉数据中点击的位置，如此从该视觉数据中识别出位于用户点击位置处的目标对象的轮廓，实现按需识别，提高识别的灵活性。

在另一种可能的实现方式中，视觉数据包括图像或视频，该至少一个视觉特征向量包括视觉数据中的每个像素点的视觉特征向量。基于第一像素点的视觉特征向量和该语义信息，分别获取第一像素点与每个待识别的目标对象之间的评分，该视觉数据包括第一像素点，第一像素点与待识别的目标对象之间的评分用于反映第一像素点属于待识别的目标对象的概率。从每个待识别的目标对象中，选择与第一像素点之间的评分满足指定条件的目标对象，第一像素点是选择的目标对象中的像素点。

由于基于第一像素点的视觉特征向量和该语义信息，分别获取第一像素点与每个待识别的目标对象之间的评分，这样通过该评分可以准确地识别出第一像素点属于的对象，能够提高识别对象的精度。

在另一种可能的实现方式中，对象识别模型是基于至少一个训练样本和待标注的至少一个对象的指示信息对应的语义信息进行模型训练得到的，该训练样本包括该指示信息指示的至少一个对象，该至少一个对象中的部分或全部对象被标注。这样待标注的至少一个对象是需要标注的对象，这样可以实现按需要标注对象。且该至少一个对象中的部分或全部对象被标注，这样可以提高标注对象的灵活性。

在另一种可能的实现方式中，被标注的对象包括第二对象，第二对象的图像清晰度超过清晰度阈值，第二对象的组成部件被标注。也就是说，对于图像清晰度超过清晰度阈值的对象，才标注该对象的组成部件，避免标注出错。

在另一种可能的实现方式中，文本描述信息与语义特征的对应关系能够转换的文本描述信息多于待标注的至少一个对象的文本描述信息。例如，文本描述信息与语义特征的对应关系能够转换的文本描述信息包括第一文本描述信息，待标注的至少一个对象的文本信息不包括第一文本描述信息，也就是说，通过该对应关系和对象识别模型可以识别第一文本描述信息指示的对象，能够识别出超出该对象识别模型对应的对象类别的对象。

在另一种可能的实现方式中，视觉数据包括被标注的对象，基于被标注的对象和目标对象获取对象识别模型识别对象的精度。这样可以基于该精度来评测该对象识别模型识别对象的情况。

第二方面，本申请提供了一种识别对象的装置，用于执行第一方面或第一方面的任意一种可能的实现方式中的方法。具体地，所述装置包括用于执行第一方面或第一方面的任意一种可能的实现方式中的方法的单元。

第三方面，本申请提供了一种识别对象的设备，包括处理器和存储器；所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，本申请提供了一种包含指令的计算机程序产品，当所述指令被设备运行时，使得所述设备执行上述第一方面或第一方面任意可能的实现方式的方法。

第五方面，本申请提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序被设备执行时，所述设备执行上述第一方面或第一方面任意可能的实现方式的方法。

第六方面，本申请提供了一种芯片，包括存储器和处理器，存储器用于存储计算机指令，处理器用于从存储器中调用并运行该计算机指令，以执行上述第一方面或第一方面任意可能的实现方式的方法。

附图说明

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的一种视觉数据的示意图；

图3是本申请实施例提供的一种训练样本的示意图；

图4是本申请实施例提供的另一种训练样本的示意图；

图5是本申请实施例提供的一种知识库的示意图；

图6是本申请实施例提供的一种模型训练的方法流程图；

图7是本申请实施例提供的一种识别对象的方法流程图；

图8是本申请实施例提供的一种用户点击对象的示意图；

图9是本申请实施例提供的一种识别对象的装置结构示意图；

图10是本申请实施例提供的一种识别对象的设备结构示意图；

图11是本申请实施例提供的一种识别对象的集群的结构示意图；

图12是本申请实施例提供的另一种识别对象的集群的结构示意图。

具体实施方式

下面将结合附图对本申请实施方式作进一步地详细描述。

视觉识别(visual recognition)技术是指利用计算机来预测和分析视觉数据中各类重要信息的一种技术，是计算机视觉领域的核心研究内容。近年来，得益于深度学习、卷积神经网络等理论和技术的快速发展，视觉识别技术在生产生活的各个方面都得到了广泛应用，例如智慧城市、智慧医疗、自动驾驶等新兴行业都离不开视觉识别技术。

视觉识别技术使用到对象识别模型，对象识别模型是用于识别对象的智能模型。这样视觉识别技术能够基于该对象识别模型，从待处理的视觉数据中识别出目标对像。该目标对象可以用于实现不同的任务。可选地，视觉数据包括图像和/或视频等数据。

在一些实施例中，目标对象用于实现对象分类、对象定位和/或对象分割等诸多任务。例如，以对象分割任务为例进行说明，对象分割任务的目的是从图像中识别出若干个具有特定特征的目标对象(又可称为目标区域)，并从图像中分割识别出的目标对象。也就是说，对象分割任务用于将图像分成若干个具有特定特征的目标区域。根据目标对象的不同定义方式又可以细分为不同的对象分割任务，例如可以细分为语义分割(semantic segmentation)，实例分割(instance segmentation)和/或部件分割(part segmentation)。

语义分割是指将图像中的每个像素分类到对应的语义概念上；实例分割是指在图像中划分出某些具体实例所对应的区域；部件分割是指将某些实例进一步划分成不同部件所对应的区域。语义分割对应的目标区域为语义概念，语义概念可能是对象类别(例如为道路、汽车、建筑物等类别)，实例分割对应的目标区域为对象(例如某个具体的车或某栋具体的建筑物)，部件分割对应的目标区域为对象部件(例如车的车门、车身、轮子等)。上述对图像分割任务进行了说明，对视觉识别的其他任务不再一一列举说明。

视觉识别技术包括标注过程、识别过程和评测过程等组成部分，其中，标注过程用于对视觉数据中的对象进行标注得到训练样本。在得到训练样本之后，使用标注的训练样本进行模型训练，得到对象识别模型，标注过程为视觉识别技术提供数据基础。识别过程用于基于对象识别模型从待处理的视觉数据中识别目标对象，识别过程是指具体的执行或运行过程。评测过程用于对识别的结果给出评分和反馈，评测过程用于获取识别对象的精度。

参见图1，本申请实施例提供了一种网络架构100，该网络架构100包括第一设备101和第二设备102，第一设备101与第二设备102通信。可选地，该网络架构100包括一个或多个第二设备102，第一设备101与每个第二设备102通信。

对于视觉识别技术包括的标注过程，第一设备101可用于执行该标注过程，第一设备101用于协助标注员标注视觉数据中的对象得到训练样本，使用该训练样本进行模型训练，得到对象识别模型。

由于第一设备101与每个第二设备102通信，第一设备101可以在每个第二设备102上部署该对象识别模型。

对于视觉识别技术包括的识别过程和评测过程，第二设备102用于基于该对象识别模型执行识别过程和/或评测过程，第二设备102用于获取待处理的视觉数据，基于该对象识别模型从待处理的视觉数据中识别出目标对象，和/或，对识别出的目标对象进行评分和反馈。

例如，上述第一设备101为计算机，上述每个第二设备102为摄像机，摄像机可以部署在道路等场所，计算机训练出对象识别模型后，将对象识别模型部署在摄像机上。摄像机拍摄得到待处理的视觉数据，基于该对象识别模型识别待处理的视觉数据中的目标对象。

在一些实施例中，对于上述标注过程，第一设备101显示需要标注的视觉数据，标注员对视觉数据中的对象进行标注，得到训练样本。在实现时，第一设备101获取至少一个视觉数据，对于任一个视觉数据，该视觉数据包括至少一个对象，显示该视觉数据。然后，标注员对该视觉数据中的该至少一个对象进行标注，第一设备101将标注后的视觉数据作为训练样本。所谓标注视觉数据中的对象是指使用一种或多种颜色来填充该对象。

目前在对视觉数据中的对象进行标注时，往往标注视觉数据中的各对象，标注的工作量很大。例如，参见图2，该图片中的汽车、建筑物和道路，标注员标注该图片中的各对象，即标注该图片中的汽车、建筑物和道路。然后，第一设备101将该图片作为训练样本，该训练样本中的各对象被标注。

由于训练样本中的各对象被标注，第一设备101基于此训练样本进行模型训练得到对象识别模型，该对象识别模型与该各对象的文本描述信息相对应的，对象识别模型能够识别较多的对象。这样第二设备102在使用该对象识别模型识别待处理的视觉数据中的对象时，往往识别待处理的视觉数据中的该各对象。识别出的对象中可能包括用户不需要识别的对象，不仅导致识别对象的灵活性低，也浪费了大量的计算资源。

为了减小标注的工作量，本申请实施例采用按需标注对象；和/或，为了提高识别对象的灵活性以及避免计算资源浪费，本申请实施例采用按需识别对象。

本申请实施例定义了需要标注的至少一个对象的指示信息，第一设备101获取至少一个视觉数据，对于任一个视觉数据，该视觉数据包括该指示信息指示的至少一个对象，该至少一个对象为待标注的对象。标注员标注该至少一个对象中的部分对象或全部对象，第一设备101将该被标注的视觉数据作为训练样本。即该训练样本包括该指示信息指示的至少一个对象，该至少一个对象中的部分对象或全部对象被标注，如此实现按需标注对象。

在一些实施例中，该指示信息包括该至少一个对象中的每个对象的文本描述信息。对象的文本描述信息用于描述该对象。可选地，对象的文本描述信息包括该对象的对象类别等，假设该对象为汽车，该对象的文本描述信息为“汽车”。

在一些实施例中，标注员还向第一设备101输入被标注的每个对象的文本描述信息，第一设备101关联该训练样本和该被标注的每个对象的文本描述信息。可选地，对于该关联操作，第一设备101在该训练样本中的被标注的对象上标记该被标注的对象对应的文本描述信息，所以该训练样本包括被标注的对象对应的文本描述信息。

例如，假设需要标注的至少一个对象包括建筑物，对于图2所示的视觉数据，该视觉数据中包括建筑物、汽车和道路，标注员使用黑色填充该图2所示的视觉数据中的建筑物，以实现标注该视觉数据中的建筑物。参见图3，第一设备101将被标注的视觉数据作为训练样本。

在一些实施例中，对于该训练样本中被标注的任一个对象，如果该对象的图像清晰度超过清晰度阈值，标注员还可能继续标注该对象包括的组成部件。即该训练样本中的图像清晰度超过清晰度阈值的被标注的对象，该对象的组成部件也被标注。可选地，可以标注该对象的每个组成部件，或者，标注该对象中的部分组成部件。可选地，在该对象的图像清晰度未超过清晰度阈值，不标注该对象包括的组成部件，但可以标注该对象，这样避免标注该对象的组成部件时出现标注错误的情况。

在一些实施例中，标注员还向第一设备101输入该对象中被标注的组成部件的文本描述信息。可选地，第一设备101在该训练样本中标记该对象中被标注的组成部件的文本描述信息，所以该训练样本包括该对象中被标注的组成部件的文本描述信息。可选地，组成部件的文本描述信息用于描述该组成部件。例如，该组成部件的文本描述信息可以包括该组成部件的名称等。

例如，汽车的组成部件包括车门、车轮和车身等，对于图2所示视觉数据中的图像清晰度超过清晰度阈值的汽车图像，假设需要标注汽车的车轮，参见图4，假设标注员使用黑色填充车轮。

在一些实施例中，对于该对象包括的任一个组成部件，该组成部件包括至少一个子部件，还可以继续标注该组成部件包括的至少一个子部件。例如，对于汽车的车轮，车轮包括轮胎和轮毂，还可以标注该车轮的轮胎和轮毂。

在一些实施例中，第一设备101在得到至少一个训练样本后，还基于该至少一个训练样本建立知识库，该知识库可能是一个图谱，包括多个节点。对于该知识库中的一个节点，该节点表示被标注的对象的文本描述信息，该节点的每个子节点表示该对象的不同组成部件，可选地，该节点保存有该节点表示的对象的文本描述信息，子节点保存有该子节点表示的组成部件的文本描述信息。或者，该节点表示一个对象的组成部件，该节点的每个子节点表示该组成部件的不同子部件，可选地，该节点保存有该节点表示的组成部件的文本描述信息，子节点保存有该子节点表示的子部件的文本描述信息。

在一些实施例中，建立该知识库的操作为：对于任一个训练样本，从该训练样本中获取被标注的对象的文本描述信息，在知识库中建立一个用于保存该文本描述信息的节点；从该训练样本中获取该被标注的对象中的组成部件的文本描述信息，在知识库中建立该节点的子节点，该子节点用于保存该组成部件的文本描述信息。其中，通过知识库可以清晰地得出任一对象类别的对象包括的各组成部件。

在一些实施例中，在知识库中，各对象对应的节点具有相同的父节点，该父节点是一个虚拟节点，是知识库的根节点。例如，对于图4所示的训练样本，基于该训练样本建立如图5所示的知识库，该知识库包括汽车对应的节点1，道路对应的节点2和建筑物对应的节点3等，节点1、节点2和节点3的父节点均为虚拟节点“Root”。节点1的子节点包括车门对应的子节点11，车轮对应的子节点12。对于其他节点的子节点的含义，不再一一列举。

参见图6，本申请实施例提供了一种模型训练的方法600，所述方法600应用于图1所示的网络架构100，所述方法600由该网络架构100中的第一设备101来执行。参见图6，该模型训练的方法600包括如下步骤601-605的流程。

步骤601：第一设备获取至少一个训练样本和待标注的至少一个对象的指示信息，该训练样本包括该指示信息指示的至少一个对象，该至少一个对象中的部分或全部对象被标注。

待标注的至少一个对象为需要标注的对象，第一设备中可能保存有需要标注的对象的指示信息，该指示信息用于指导标注员标注视觉数据中的对象，得到训练样本。

该指示信息包括该至少一个对象的文本描述信息。即该指示信息包括该至少一个对象中的每个对象的文本描述信息，对象的文本描述信息用于描述该对象。例如，该对象的文本描述信息包括该对象的对象类别，通过该对象类别可以描述该对象。

在步骤601中，第一设备获取至少一个视觉数据，对于该视觉数据中的任一个视觉数据，该视觉数据包括该指示信息指示的待标注的至少一个对象，显示该视觉数据。标注员在显示的该视觉数据中标注该至少一个对象中的全部或部分对象。第一设备再将该视觉数据作为训练样本。第一设备可以一一显示该至少一个视觉数据中的每个视觉数据，标注员标注每个视觉数据中的待标注的至少一个对象中的部分或全部对象，第一设备将被标注的每个视觉数据作为训练样本。

步骤602：第一设备基于待标注的至少一个对象的指示信息，获取第一语义信息，第一语义信息是用于描述待标注的至少一个对象的语义。

在一些实施例中，该指示信息包括每个对象的文本描述信息，第一语义信息包括每个对象的文本描述信息对应的语义特征。对象的文本描述信息对应的语义特征用于描述该对象的语义。可选地，该对象的语义特征是一个特征向量。

在步骤602中，基于文本描述信息与语义特征的对应关系，分别获取每个对象的文本描述信息对应的语义特征。

在一些实施例中，文本描述信息与语义特征的对应关系可能是一个对应关系表，该对应关系表中的每条记录包括一个对象的文本描述信息和与该一个文本描述信息相对应的语义特征。这样在步骤602中，基于每个对象的文本对象信息，从该对应关系表中查询每个对象的文本描述信息对应的语义特征。

在一些实施例中，文本描述信息与语义特征的对应关系可能是一个文本描述信息转换模型，该文本描述信息转换模型用于基于待转换的文本描述信息获取与该文本描述信息相对应的语义特征，例如，该文本描述信息转换模型为文本编码器等。这样在步骤602中，将每个对象的文本描述信息输入到该文本描述信息转换模型，使该文本描述信息转换模型对每个对象的文本描述信息进行转换，分别得到每个对象的文本描述信息对应的语义特征，获取该文本描述信息转换模型输出的每个对象的文本描述信息对应的语义特征。

在一些实施例中，该文本描述信息转换模型是对智能模型进行训练得到的，技术人员创建多个第一样本，每个第一样本包括一个对象的文本描述信息和与该文本描述信息相对应的语义特征，使用该多个第一样本训练智能模型，得到文本描述信息转换模型。

在一些实施例中，该至少一个对象包括第一对象，第一对象的文本描述信息用于指示第一对象和第一对象的至少一个组成部件。所以第一对象的文本描述信息的语义特征包括第一对象的语义特征和该至少一个组成部件中的每个组成部件的语义特征。

接下来，第一设备基于至少一个训练样本和第一语义信息进行模型训练，详细实现过程见如下步骤603-605。

步骤603：第一设备基于至少一个训练样本、第一语义信息和待训练对象识别模型，识别每个训练样本中的对象。

待训练对象识别模型具有视觉特征提取功能，包括卷积神经网络、视觉变压器模型(vision transformer，ViT)或任意具有视觉特征提取功能的网络等。可选地，具有视觉特征提取功能的网络包括深度残差网络(deep residual network，ResNet)等网络。

步骤603可以通过如下6031-6032的操作来实现。

6031：对于该至少一个训练样本中的任一个训练样本，第一设备基于待训练对象识别模型和该训练样本获取至少一个视觉特征向量，该至少一个视觉特征向量用于指示该训练样本的编码语义。

其中，该训练样本包括图片和/或视频等，该训练样本包括多个像素点，该训练样本的编码语义包括该训练样本中的每个像素点的编码语义。该至少一个视觉特征向量包括该训练样本中的每个像素点的视觉特征向量，像素点的视觉特征向量包括至少一个视觉特征，用于指示该像素点的编码语义。

在6031中，第一设备将该训练样本输入到待训练对象识别模型，使待训练对象识别模型对该训练样本进行处理并得到该训练样本中的每个像素点的视觉特征向量，获取待训练对象识别模型输出的该每个像素点的视觉特征向量。

6032：第一设备基于该至少一个视觉特征向量和第一语义信息，识别该训练样本中的对象。

对于待标注的至少一个对象，第一语义信息包括每个待标注的对象的文本描述信息对应的语义特征。

在一些实施例中，该训练样本包括图像或视频，该至少一个视觉特征向量包括该训练样本中的每个像素点的视觉特征向量。在6032，可以通过如下(1)至(2)的操作，识别该训练样本中的对象。

(1)：基于第一像素点的视觉特征向量和每个待标注的对象的文本描述信息对应的语义特征，分别获取第一像素点与每个待标注的对象之间的评分。

其中，该训练样本包括第一像素点，第一像素点与待标注的对象之间的评分用于反映第一像素点属于待标注的对象的概率。

任一个待标注的对象的文本描述信息对应的语义特征也是一个向量，基于第一像素点的视觉特征向量和待标注的对象的文本描述信息对应的语义特征，按如下第一公式获取第一像素点与该待标注的对象之间的评分。

第一公式为：u＝E^T·f_(w,h)，

在第一公式中，u为第一像素点与该待标注的对象之间的评分，E是一个向量，该向量包括该待标注的对象的文本描述信息对应的语义特征，E^T为该向量的转置向量，f_(w,h)为第一像素点，(w,h)为第一像素点在该视觉数据中的坐标。

在操作(1)中，按上述第一公式计算出第一像素点与每个待标注的对象之间的评分。

(2)：从每个待标注的对象中，选择与第一像素点之间的评分满足指定条件的对象，第一像素点是选择的对象中的像素点。

在一些实施例中，该指定条件是指选择与第一像素点之间的评分大于评分阈值的任一个对象，或者，该指定条件是指选择与第一像素点之间的评分大于评分阈值且与第一像素点之间的评分最大的对象。

也就是说，在操作(2)中，从每个待标注的对象中，选择与第一像素点之间的评分大于评分阈值的任一个对象。或者，从每个待标注的对象中，选择与第一像素点之间的评分大于评分阈值的每个对象，从该每个对象中选择与第一像素点之间的评分最大的一个对象。将第一像素点作为选择的一个对象的像素点。

重复上述(1)-(2)的操作，可以从该训练样本中得到属于该对象的所有像素点，从而识别出该训练样本中的对象。

在一些实施例中，当识别出的对象是上述第一对象，在识别出第一对象后，还基于对象识别模型和第一对象的文本描述信息对应的语义特征，从第一对象中识别至少一个组成部件。在实现时，

第一对象的文本描述信息对应的语义特征包括该至少一个组成部件中的每个组成部件的语义特征，基于第二像素点的视觉特征向量和每个组成部件的语义特征，按上述第一公式获取第二像素点与每个组成部件之间的评分。第一对象包括第二像素点，第二像素点与任一个组成部件之间的评分用于反映第二像素点属于该组成部件的概率。从该每个组成部件中选择与第二像素点之间的评分满足指定条件的组成部件，第二像素点是选择的组成部件中的像素点。重复上述过程，可以从第一对象中识别出属于该选择的组成部件的所有像素点，从而从第一对象中识别出该选择的组成部件。

对于第一对象的任一个组成部件，该组成部件包括至少一个子部件，按上述方式可以从该组成部件中识别出该至少一个子部件，在此不再详细说明。

步骤604：第一设备基于每个训练样本中被标注的对象和每个训练样本中被识别出的对象，通过损失函数计算损失值，基于该损失值调整待训练对象识别模型的参数。

步骤605：第一设备确定是否继续训练待训练对象识别模型，如果确定继续训练待训练对象识别模型，返回步骤603，如果确定不继续训练待训练对象识别模型，将待训练对象识别模型作为对象识别模型。

在一些实施例中，当对待训练对象识别模型进行训练的次数达到指定次数时，确定不继续对待训练对象识别模型进行训练。或者，

使用多个校验样本获取待训练对象识别模型识别对象的精度，在该精度超过指定阈值，确定不继续对待训练对象识别模型进行训练。在实现时：

获取多个校验样本，每个校验样本包括被标注的对象。基于待训练对象识别模型和被标注的对象的文本描述信息对应的语义特征，识别每个校验样本中的对象。基于每个校验样本中被标注的对象和每个校验样本中被识别出的对象，计算识别对象的精度。在该精度未超过指定阈值，确定继续对待训练对象识别模型进行训练，在该精度超过指定阈值，确定不继续对待训练对象识别模型进行训练。

第一设备训练出对象识别模型后，可以向第二设备发送该对象识别模型。第二设备接收该对象识别模型后，获取待处理的视觉数据，基于该对象识别模型，识别待处理的视觉数据中的目标对象。

本申请实施例定义需求信息，该需求信息用于指示需要识别的至少一个对象，该至少一个对象为待识别的对象。第二设备基于该需求信息和该对象识别模型，识别待处理的视觉数据中的目标对象，目标对象是该需求信息指示的对象，如此实现按需识别对象。按需识别对象的详细实现过程，见如下任一实施例。

参见图7，本申请实施例提供了一种识别对象的方法700，所述方法700应用于图1所示的网络架构100，所述方法700由该网络架构100中的第二设备102来执行，第二设备102包括对象识别模型，该对象识别模型可能是图6所示的方法600训练出的对象识别模型。该方法700包括如下步骤701-步骤704的流程。

步骤701：第二设备获取待处理的视觉数据和待识别的至少一个目标对象的指示信息。

上述需求信息包括待识别的至少一个目标对象的指示信息，该指示信息包括每个待识别的目标对象的文本描述信息。待识别的至少一个目标对象是该需求信息指示的需要识别的对象。

在一些实施例中，待处理的视觉数据包括图片和/或视频等。可选地，第二设备可能保存有至少一个需要识别对象的视觉数据，可以从该至少一个视觉数据中选择一个视觉数据作为待处理的视觉数据。或者，第二设备为摄像机等设备，第二设备拍摄得到待处理的视觉数据。当然，第二设备还可能采用其他方式获取待处理的视觉数据，在此不再一一列举。

在一些实施例中，待识别的至少一个目标对象包括第二对象，该指示信息用于指示需要识别第二对象和第二对象的至少一个组成部件。在实现时，

该指示信息包括第二对象的文本描述信息，该文本描述信息用于指示的第二对象和第二对象的至少一个组成部件。例如，第二对象的文本描述信息包括第二对象的对象类别和第二对象的至少一个组成部件的名称，使得第二对象的文本描述信息表示需要识别的第二对象和第二对象的至少一个组成部件。

在一些实施例中，第二设备本地保存有待识别的至少一个目标对象的指示信息，在步骤701中，第二设备获取本地保存的待识别的至少一个目标对象的指示信息。或者，在步骤701中，用户向第二设备输入待识别的至少一个目标对象的指示信息，第二设备接收待识别的至少一个目标对象的指示信息。或者，在步骤701中，用户向第一设备输入待识别的至少一个目标对象的指示信息，第一设备向第二设备发送待识别的至少一个目标对象的指示信息，第二设备接收待识别的至少一个目标对象的指示信息。当然，第二设备还可能采用其他方式获取待识别的至少一个目标对象的指示信息，在此不再一一列举。

在一些实施例中，对于用户输入的待识别的至少一个目标对象的指示信息，该指示信息包括每个待识别的目标对象的文本描述信息，用户可以参照知识库确定每个待识别的目标对象的文本描述信息。可选的，对于任一个待识别的目标对象，该目标对象可能是一个对象或是对象的一个组成部件，该目标对象的文本描述信息包括该目标对象的对象类别和/或该目标对象的组成部件的名称等。

例如，用户参照图5所示的知识库，选择需要识别建筑物和汽车，以及选择需要识别汽车的车轮和车门。用户向第二设备输入文本描述信息1和文本描述信息2，文本描述信息1 包括对象类别“建筑物”，文本描述信息2包括对象类别“汽车”、组成部件的名称“车轮”和“车门”。或者，用户选择需要识别车门，用户向第二设备输入文本描述信息3，文本描述信息3包括组成部件的名称“车门”。

在一些实施例中，待识别的至少一个目标对象的指示信息还包括目标对象在该视觉数据中的位置范围的位置信息。可选地，用户在输入目标对象的文本描述信息时还输入目标对象在该视觉数据中的位置范围的位置信息。该位置信息表示用户需要识别视觉数据中位于该位置信息处的目标对象。

例如，假设待处理的视觉数据为如图2所示的街景图片，假设用户输入的目标对象的文本描述信息包括对象类别“汽车”，参见图8，在显示该街景图片后，用户可以点击该街景图片中的某一个汽车图像。第二设备获取被点击的位置，该位置是一个二维坐标，并将该位置作为目标对象在该视觉数据中的位置范围中的位置信息。

接下来，可以基于对象识别模型和该指示信息，识别待处理的视觉数据中的目标对象，以实现按需识别对象。详细实现过程见如下步骤702-704。

步骤702：第二设备基于待识别的至少一个目标对象的指示信息获取第二语义信息，第二语义信息是用于描述待识别的至少一个目标对象的语义。

第二语义信息包括每个待识别的目标对象的文本描述信息对应的语义特征，每个目标对象的文本描述信息对应的语义特征分别用于反映每个目标对象的语义。

在步骤702中，基于文本描述信息与语义特征的对应关系和每个待识别的目标对象的文本描述信息，分别获取每个待识别的目标对象的文本描述信息对应的语义特征。

对于任一个目标对象的文本描述信息对应的语义特征，该语义特征可能是一个向量，语义特征是使用数学方式来描述该目标对象的语义。

在一些实施例中，文本描述信息与语义特征的对应关系可能是一个对应关系表，该对应关系表中的每条记录包括一个文本描述信息和与该一个文本描述信息相对应的语义特征。这样在步骤702中，基于每个待识别的目标对象的文本描述信息，从该对应关系表中分别查询每个待识别的目标对象的文本描述信息对应的语义特征。

在一些实施例中，文本描述信息与语义特征的对应关系可能是一个文本描述信息转换模型，这样在步骤702中，将每个待识别的目标对象的文本描述信息输入到该文本描述信息转换模型，使该文本描述信息转换模型对每个待识别的目标对象的文本描述信息进行转换，分别得到每个待识别的目标对象的文本描述信息对应的语义特征，获取该文本描述信息转换模型输出的每个待识别的目标对象的文本描述信息对应的语义特征。

在一些实施例中，该指示信息包括第二对象的文本描述信息，第二对象的文本描述信息用于指示需要识别的第二对象和第二对象的至少一个组成部件。所以第二对象的文本描述信息对应的语义特征包括用于描述第二对象的语义特征和用于描述该至少一个组成部件中的每个组成部件的语义特征。

在一些实施例中，该指示信息还包括目标对象在该视觉数据中的位置范围的位置信息，在步骤702中，还可能基于目标对象的位置信息获取目标对象的位置特征，该位置特征用于指示目标对象的空间方位。

在一些实施例中，目标对象的位置特征可能是一个向量，该位置特征是使用数学方式来描述目标对象的空间方位。

在一些实施例中，将目标对象的位置信息输入到位置转换模型，使该位置转换模型基于目标对象的位置获取目标对象的位置特征，获取该位置转换模型输出的目标对象的位置特征。

在一些实施例中，该位置转换模型是对智能模型进行训练得到的，技术人员创建多个第二样本，每个第二样本包括一个对象的位置信息和与该位置信息相对应的位置特征，使用该多个第二样本训练智能模型，得到位置转换模型。可选地，该位置转换模型为坐标编码器等。

步骤703：第二设备基于对象识别模型和该视觉数据获取至少一个视觉特征向量，该至少一个视觉特征向量用于指示该视觉数据的编码语义。

其中，视觉数据包括图片和/或视频等，视觉数据包括多个像素点，该视觉数据的编码语义包括该视觉数据中的每个像素点的编码语义。该至少一个视觉特征向量包括该视觉数据中的每个像素点的视觉特征向量，像素点的视觉特征向量包括至少一个视觉特征，用于指示该像素点的编码语义。

在步骤703中，第二设备将该视觉数据输入到对象识别模型，使该对象识别模型对该视觉数据进行处理并得到该视觉数据中的每个像素点的视觉特征向量，获取该对象识别模型输出的该每个像素点的视觉特征向量。

步骤704：第二设备基于该至少一个视觉特征向量和第二语义信息，识别该视觉数据中的目标对象。

在一些实施例中，在得到目标对象的位置特征的情况，还能够基于该至少一个视觉特征向量、第二语义信息和该位置特征，识别该视觉数据中的目标对象。从而从该视觉数据中识别出位于用户点击位置处的目标对象，即识别出位于该位置处的目标对象的轮廓，实现按需识别，提高识别的灵活性。

在一些实施例中，视觉数据包括图像或视频，至少一个视觉特征向量包括视觉数据中的每个像素点的视觉特征向量。在步骤704，可以通过如下7041至7042的操作，识别该视觉数据中的目标对象。

7041：第二设备基于第三像素点的视觉特征向量和第二语义信息，分别获取第一像素点与每个待识别的目标对象之间的评分。

其中，视觉数据包括第三像素点，第三像素点与待识别的目标对象之间的评分用于反映第三像素点属于待识别的目标对象的概率。

对于每个待识别的目标对象，第一语义信息包括每个待识别的目标对象的文本描述信息对应的语义特征。在7041中，基于第三像素点的视觉特征向量和任一个待识别的目标对象的文本描述信息对应的语义特征，按如下第二公式获取第三像素点与该待识别的目标对象之间的评分。

第二公式为：U＝E^T·F_(x,y)，

在第二公式中，U为第三像素点与该待识别的目标对象之间的评分，E是一个向量，该向量包括该待识别的目标对象的文本描述信息对应的语义特征，E^T为该向量的转置向量，F_(x,y)为第三像素点，(x,y)为第三像素点在该视觉数据中的坐标。

在一些实施例中，如果还获取到该待识别的目标对象的位置特征，该向量E还包括该待识别的目标对象的位置特征，即该向量E包括该待识别的目标对象的文本描述信息对应的语义特征和该待识别的目标对象的位置特征。

在7041中，按上述第二公式计算出第三像素点与该每个待识别的目标对象之间的评分。

7042：第二设备从每个待识别的目标对象中，选择与第三像素点之间的评分满足指定条件的目标对象，第三像素点是选择的目标对象中的像素点。

在7042中，从每个待识别的目标对象中，选择与第三像素点之间的评分大于评分阈值的任一个目标对象。或者，从每个待识别的目标对象中，选择与第三像素点之间的评分大于评分阈值的每个对象，从该每个对象中选择与第三像素点之间的评分最大的一个目标对象。将第三像素点作为选择的目标对象的像素点。

重复上述7041-7042的操作，可以从视觉数据中得到属于该选择的目标对象的所有像素点，从而识别出视觉数据中的该选择的目标对象。

在一些实施例中，当目标对象是上述第二对象，第二对象的文本描述信息对应的语义特征包括用于描述第二对象的语义特征和用于描述第二对象的至少一个组成部件的语义特征。在识别出第二对象后，还基于对象识别模型和第二对象的文本描述信息对应的语义特征，从第二对象中识别至少一个组成部件。在实现时，

基于第四像素点的视觉特征向量和每个组成部件的语义特征，按上述第二公式获取第四像素点与每个组成部件之间的评分。第二对象包括第四像素点，第四像素点与每个组成部件之间的评分分别用于反映第四像素点属于每个组成部件的概率。从该每个组成部件中选择与第四像素点之间的评分满足指定条件的组成部件，第四像素点是选择的组成部件中的像素点。重复上述过程，可以从第二对象中识别出属于该选择的组成部件的所有像素点，从而在第二对象中识别出至少一个组成部件。

这样实现层次化识别，即先识别出粗粒度的对象，在从该对象中识别细粒度的组成部件。由于从该对象中识别组成部件，相比从整个视觉数据中识别该组成部件，可以减小要处理的数据量，提高识别效率。

对于第二对象的任一个组成部件，该组成部件包括至少一个子部件，按上述方式可以从该组成部件中识别出该至少一个子部件，在此不再详细说明。

在一些实施例中，文本描述信息与语义特征的对应关系能够转换的文本描述信息包括待标注的每个对象的文本描述信息，这样待识别的每个目标对象的文本描述信息能够多于待标注的每个对象的文本描述信息。例如，假设该待识别的目标对象的文本描述信息包括第三对象的文本描述信息，而该待标注的每个对象的文本描述信息不包括第三对象的文本描述信息，也就是说，在没有训练对象识别模型识别第三对象的情况下，也可以基于第三对象的文本描述信息对应的语义特征和对象识别模型，识别视觉数据中的第三对象。

在一些实施例中，待处理的视觉数据包括被标注的对象。可选地，待处理的视觉数据可能是上述校验样本。基于该被标注的对象和目标对象获取对象识别模型识别对象的精度。在实现时，

确定每个目标对象对应的被标注的对象，对于任一个目标对象，如果识别出该目标对象的至少一个组成部件，基于该被标注的对象和该目标对象，按如下第三公式获取该目标对象的识别精度。

第三公式为：

在第三公式中，t_l为该目标对象，HPQ(t_l)为该目标对象的识别精度，u_l为该目标对象中被识别出的各组成部件，|u_l|为该目标对象包括的组成部件的个数，t_l'为该目标对象中的某个组成部件，HPQ(t_l')为该组成部件的识别精度。

其中，该组成部件与被标注的对象中的一个被标注的组成部件相对应，在该组成部件中的子部件没有被识别的情况下，获取该组成部件与该被标注的组成部件之间的交集，以及获取该组成部件与该被标注的组成部件之间的并集，HPQ(t_l')等于该交集中的像素点个数与该并集中的像素点个数之间的比值，HPQ(t_l')是该组成部件的识别精度。在该组成部件中的子部件被识别的情况下，迭代上述第三公式先计算出该组成部件的识别精度，即在上述第三公式中，t_l为该组成部件，HPQ(t_l)为该组件部件的识别精度，u_l为该组成部件中被识别出的各子部件，|u_l|为该组成部件包括的子部件的个数_，t_l'为该组成部件中的某个子部件，HPQ(t_l')为该子部件的识别精度。

如果没有识别出该目标对象的至少一个组成部件，获取该目标对象与该目标对象对应的被标注的对象之间的交集，以及获取该目标对象与该目标对象对应的被标注的对象之间的并集，该目标对象的识别精度等于该交集中的像素点个数与该并集中的像素点个数之间的比值。

在得到该视觉数据中的每个目标对象的识别精度后，基于该每个目标对象的识别精度，迭代上述第三公式先计算出该对象识别模型识别对象的精度，即在上述第三公式中，t_l为该视觉数据，HPQ(t_l)为对象识别模型在该视觉数据中识别对象的精度，u_l为从该视觉数据中识别出的各目标对象，|u_l|为识别出的目标对象的个数，t_l'为识别出的某个目标对象，HPQ(t_l')为该目标对象的识别精度。

在一些实施例中，当该对象识别模型识别对象的精度小于指定的精度阈值时，还可以继续基于至少一个训练样本，训练该对象识别模型。

在本申请实施例中，由于获取待识别的至少一个目标对象的指示信息，基于该指示信息获取第二语义信息，第二语义信息是用于描述待识别的至少一个目标对象的语义，这样基于第二语义信息和对象识别模型，从视觉数据中识别目标对象，从而实现基于需求来识别对象，提高识别对象的灵活性。对于该指示信息用于指示第一对象和第一对象的至少一个组成部件，这样基于第一语义信息和对象识别模型，识别视觉数据中的第一对象，以及从第一对象中识别该至少一个组成部件，这样能够层次化识别对象，更能提高识别的灵活性。由于先识别出第一对象，在从第一对象中识别至少一个组成部件，相比从整个视觉数据中识别该至少一个组成部件，可以减小需要处理的数据量，减小对计算资源的占用，以及提高识别该至少一个组成部件的效率。

参见图9，本申请实施例提供了一种识别对象的装置900，所述装置900部署在图1所示的网络架构100中的第二设备上或图7所示方法700中的第二设备上，包括：

获取单元901，用于获取待处理的视觉数据和待识别的至少一个目标对象的指示信息；

获取单元901，还用于基于该至少一个目标对象的指示信息获取语义信息，该语义信息是用于描述该至少一个目标对象的语义；

识别单元902，用于基于对象识别模型和该语义信息，识别该视觉数据中的目标对象。

可选地，获取单元901获取该视觉数据和该指示信息的详细实现过程，参见图7所示的方法700的步骤701中的相关内容，在此不再详细说明。

可选地，获取单元901获取语义信息的详细实现过程，参见图7所示的方法700的步骤702中的相关内容，在此不再详细说明。

可选地，识别单元902识别目标对象的详细实现过程，参见图7所示的方法700的步骤703和704中的相关内容，在此不再详细说明。

可选地，该至少一个目标对象的指示信息包括该至少一个目标对象的文本描述信息；

获取单元901，用于基于该至少一个目标对象的文本描述信息与语义特征的对应关系，分别获取每个目标对象的文本描述信息对应的语义特征，该语义信息包括每个目标对象的文本描述信息对应的语义特征。

可选地，获取单元901获取每个目标对象的文本描述信息对应的语义特征的详细实现过程，参见图7所示的方法700的步骤702中的相关内容，在此不再详细说明。

可选地，识别单元902，用于：

基于对象识别模型和视觉数据获取至少一个视觉特征向量，该至少一个视觉特征向量用于指示视觉数据的编码语义；

基于至少一个视觉特征向量和该语义信息，识别视觉数据中的目标对象。

可选地，识别单元902获取至少一个视觉特征向量的详细实现过程，参见图7所示的方法700的步骤703中的相关内容，在此不再详细说明。

可选地，识别单元902识别视觉数据中的目标对象的详细实现过程，参见图7所示的方法700的步骤704中的相关内容，在此不再详细说明。

可选的，该至少一个目标对象的指示信息包括第一对象的指示信息，第一对象的指示信息用于指示第一对象和第一对象的至少一个组成部件；

识别单元902，用于：

基于对象识别模型和该语义信息，识别视觉数据中的第一对象；以及，

基于对象识别模型和该语义信息，从第一对象中识别至少一个组成部件。

可选地，识别单元902识别第一对象和第一对象的至少一个组成部件的详细实现过程，参见图7所示的方法700的7041-7042中的相关内容，在此不再详细说明。

可选地，该至少一个目标对象的指示信息还包括用于指示目标对象在视觉数据中的位置范围的位置信息，

获取单元901，还用于基于该位置信息获取目标对象的位置特征，该位置特征用于指示目标对象的空间方位；

识别单元902，用于基于该对象识别模型、该语义信息和该位置特征，识别视觉数据中的目标对象。

可选地，识别单元902识别视觉数据中的目标对象的详细实现过程，参见图7所示的方法700的步骤7041-7042中的相关内容，在此不再详细说明。

可选地，该视觉数据包括图像或视频，该至少一个视觉特征向量包括视觉数据中的每个像素点的视觉特征向量；

识别单元902，用于：

基于第一像素点的视觉特征向量和该语义信息，分别获取第一像素点与每个待识别的目标对象之间的评分，视觉数据包括第一像素点，第一像素点与待识别的目标对象之间的评分用于反映第一像素点属于待识别的目标对象的概率；

从每个待识别的目标对象中，选择与第一像素点之间的评分满足指定条件的目标对象，第一像素点是选择的目标对象中的像素点。

可选地，识别单元902获取评分的详细实现过程，参见图7所示的方法700的7041中的相关内容，在此不再详细说明。

可选地，识别单元902选择目标对象的详细实现过程，参见图7所示的方法700的7042中的相关内容，在此不再详细说明。

可选地，对象识别模型是基于至少一个训练样本和待标注的至少一个对象的指示信息对应的语义信息进行模型训练得到的，训练样本包括该指示信息指示的至少一个对象，至少一个对象中的部分或全部对象被标注。

可选地，被标注的对象包括第二对象，第二对象的图像清晰度超过清晰度阈值，第二对象的组成部件被标注。

可选地，该视觉数据包括被标注的对象，获取单元901，还用于基于被标注的对象和目标对象获取对象识别模型识别对象的精度。

可选地，获取单元901获取精度的详细实现过程，参见图7所示的方法700的步骤704中的相关内容，在此不再详细说明。

在本申请实施例中，由于获取单元获取待识别的至少一个目标对象的指示信息，基于该指示信息获取第二语义信息，第二语义信息是用于描述待识别的至少一个目标对象的语义，这样识别单元基于第二语义信息和对象识别模型，从视觉数据中识别目标对象，从而实现基于需求来识别对象，提高识别对象的灵活性。对于该指示信息用于指示第一对象和第一对象的至少一个组成部件，这样基于第一语义信息和对象识别模型，识别视觉数据中的第一对象，以及从第一对象中识别该至少一个组成部件，这样能够层次化识别对象，更能提高识别的灵活性。

参见图10，本申请实施例提供了一种识别对象的设备1000。如图10所示，该设备1000包括：总线1002、处理器1004、存储器1006和通信接口1008。处理器1004、存储器1006和通信接口1008之间通过总线1002通信。该设备1000可以是服务器或终端设备。应理解，本申请不限定该设备1000中的处理器、存储器的个数。

总线1002可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线1002可包括在计算设备1000各个部件(例如，存储器1006、处理器1004、通信接口1008)之间传送信息的通路。

处理器1004可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器1006可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。处理器1004还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。

参见图10，存储器1006中存储有可执行的程序代码，处理器1004执行该可执行的程序代码以分别实现图9所示的装置900中的获取单元901和识别单元902的功能，从而实现识别对象的方法。也即，存储器1006上存有用于执行识别对象的方法的指令。

通信接口1008使用例如但不限于网络接口卡、收发器一类的收发模块，来实现计算设备1000与其他设备或通信网络之间的通信。

本申请实施例还提供了一种识别对象的集群。该识别对象的集群包括至少一台设备1000。该设备1000可以是服务器，例如是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。

如图11所示，所述识别对象的集群包括至少一个设备1000。识别对象的集群中的一个或多个设备1000中的存储器1006中可以存有相同的用于执行上述任意实施例提供的方法的指令。

在一些可能的实现方式中，该识别对象的集群中的一个或多个设备1000的存储器1006中也可以分别存有用于执行上述识别对象的方法的部分指令。换言之，一个或多个计算设备1000的组合可以共同执行用于执行上述任意实施例提供的方法的指令。

在一些可能的实现方式中，识别对象的集群中的一个或多个计算设备可以通过网络连接。其中，所述网络可以是广域网或局域网等等。图11示出了一种可能的实现方式。如图12所示，两个设备1000A和1000B之间通过网络进行连接。具体地，通过各个设备1000中的通信接口与所述网络进行连接。

在这一类可能的实现方式中，设备1000A中的存储器1006中存有执行如图9所示实施例中的获取单元901功能的指令。同时，设备1000B中的存储器1006中存有执行如图9所示实施例中的识别单元902的功能的指令。

应理解，图12中示出的设备1000A的功能也可以由多个设备1000完成。同样，设备1000B的功能也可以由多个设备1000完成。

本申请实施例还提供了另一种识别对象的集群。该识别对象的集群中各计算设备之间的连接关系可以类似的参考图12所述处理源代码的集群的连接方式。不同的是，该识别对象的集群中的一个或多个设备1000中的存储器1006中可以存有相同的用于执行上述任意实施例提供的方法的指令。

在一些可能的实现方式中，该识别对象的集群中的一个或多个设备1000的存储器1006中也可以分别存有用于执行上述任意实施例提供的方法的部分指令。换言之，一个或多个设备1000的组合可以共同执行用于执行上述任意实施例提供的方法的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种识别对象的方法，其特征在于，所述方法包括：

获取待处理的视觉数据和待识别的至少一个目标对象的指示信息；

基于所述至少一个目标对象的指示信息获取语义信息，所述语义信息是用于描述所述至少一个目标对象的语义；

基于对象识别模型和所述语义信息，识别所述视觉数据中的所述目标对象。
如权利要求1所述的方法，其特征在于，所述至少一个目标对象的指示信息包括所述至少一个目标对象的文本描述信息；

所述基于所述至少一个目标对象的指示信息获取语义信息，包括：

基于所述至少一个目标对象的文本描述信息与语义特征的对应关系，分别获取每个目标对象的文本描述信息对应的语义特征，所述语义信息包括所述每个目标对象的文本描述信息对应的语义特征。
如权利要求1或2所述的方法，其特征在于，所述基于对象识别模型和所述语义信息，识别所述视觉数据中的目标对象，包括：

基于所述对象识别模型和所述视觉数据获取至少一个视觉特征向量，所述至少一个视觉特征向量用于指示所述视觉数据的编码语义；

基于所述至少一个视觉特征向量和所述语义信息，识别所述视觉数据中的所述目标对象。
如权利要求1-3任一项所述的方法，其特征在于，所述至少一个目标对象的指示信息包括第一对象的指示信息，所述第一对象的指示信息用于指示所述第一对象和所述第一对象的至少一个组成部件；

所述基于对象识别模型和所述语义信息，识别所述视觉数据中的所述目标对象，包括：

基于所述对象识别模型和所述语义信息，识别所述视觉数据中的所述第一对象；以及，

基于所述对象识别模型和所述语义信息，从所述第一对象中识别所述至少一个组成部件。
如权利要求1-3任一项所述的方法，其特征在于，所述至少一个目标对象的指示信息还包括用于指示所述目标对象在所述视觉数据中的位置范围的位置信息，所述方法还包括：

基于所述位置信息获取所述目标对象的位置特征，所述位置特征用于指示所述目标对象的空间方位；

所述基于对象识别模型和所述语义信息，识别所述视觉数据中的所述目标对象，包括：

基于所述对象识别模型、所述语义信息和所述位置特征，识别所述视觉数据中的所述目标对象。
如权利要求3所述的方法，其特征在于，所述视觉数据包括图像或视频，所述至少一个视觉特征向量包括所述视觉数据中的每个像素点的视觉特征向量；

所述基于所述至少一个视觉特征向量和所述语义信息，识别所述视觉数据中的所述目标对象，包括：

基于第一像素点的视觉特征向量和所述语义信息，分别获取所述第一像素点与每个待识别的目标对象之间的评分，所述视觉数据包括所述第一像素点，所述第一像素点与所述待识别的目标对象之间的评分用于反映所述第一像素点属于所述待识别的目标对象的概率；

从所述每个待识别的目标对象中，选择与所述第一像素点之间的评分满足指定条件的目标对象，所述第一像素点是所述选择的目标对象中的像素点。
如权利要求1-6任一项所述的方法，其特征在于，

所述对象识别模型是基于至少一个训练样本和待标注的至少一个对象的指示信息对应的语义信息进行模型训练得到的，所述训练样本包括所述指示信息指示的至少一个对象，所述至少一个对象中的部分或全部对象被标注。
如权利要求7所述的方法，其特征在于，所述被标注的对象包括第二对象，所述第二对象的图像清晰度超过清晰度阈值，所述第二对象的组成部件被标注。
如权利要求1-8任一项所述的方法，其特征在于，所述视觉数据包括被标注的对象，所述方法还包括：

基于所述被标注的对象和所述目标对象获取所述对象识别模型识别对象的精度。
一种识别对象的装置，其特征在于，所述装置包括：

获取单元，用于获取待处理的视觉数据和待识别的至少一个目标对象的指示信息；

所述获取单元，还用于基于所述至少一个目标对象的指示信息获取语义信息，所述语义信息是用于描述所述至少一个目标对象的语义；

识别单元，用于基于对象识别模型和所述语义信息，识别所述视觉数据中的所述目标对象。
如权利要求10所述的装置，其特征在于，所述至少一个目标对象的指示信息包括所述至少一个目标对象的文本描述信息；

所述获取单元，用于基于所述至少一个目标对象的文本描述信息与语义特征的对应关系，分别获取每个目标对象的文本描述信息对应的语义特征，所述语义信息包括所述每个目标对象的文本描述信息对应的语义特征。
如权利要求10或11所述的装置，其特征在于，所述识别单元，用于：

基于所述对象识别模型和所述视觉数据获取至少一个视觉特征向量，所述至少一个视觉特征向量用于指示所述视觉数据的编码语义；

基于所述至少一个视觉特征向量和所述语义信息，识别所述视觉数据中的所述目标对象。
如权利要求10-12任一项所述的装置，其特征在于，所述至少一个目标对象的指示信息包括第一对象的指示信息，所述第一对象的指示信息用于指示所述第一对象和所述第一对象的至少一个组成部件；

所述识别单元，用于：

基于所述对象识别模型和所述语义信息，识别所述视觉数据中的所述第一对象；以及，

基于所述对象识别模型和所述语义信息，从所述第一对象中识别所述至少一个组成部件。
如权利要求10-12任一项所述的装置，其特征在于，所述至少一个目标对象的指示信息还包括用于指示所述目标对象在所述视觉数据中的位置范围的位置信息，

所述获取单元，还用于基于所述位置信息获取所述目标对象的位置特征，所述位置特征用于指示所述目标对象的空间方位；

所述识别单元，用于基于所述对象识别模型、所述语义信息和所述位置特征，识别所述视觉数据中的所述目标对象。
如权利要求12所述的装置，其特征在于，所述视觉数据包括图像或视频，所述至少一个视觉特征向量包括所述视觉数据中的每个像素点的视觉特征向量；

所述识别单元，用于：

基于第一像素点的视觉特征向量和所述语义信息，分别获取所述第一像素点与每个待识别的目标对象之间的评分，所述视觉数据包括所述第一像素点，所述第一像素点与所述待识别的目标对象之间的评分用于反映所述第一像素点属于所述待识别的目标对象的概率；

从所述每个待识别的目标对象中，选择与所述第一像素点之间的评分满足指定条件的目标对象，所述第一像素点是所述选择的目标对象中的像素点。
如权利要求10-15任一项所述的装置，其特征在于，

所述对象识别模型是基于至少一个训练样本和待标注的至少一个对象的指示信息对应的语义信息进行模型训练得到的，所述训练样本包括所述指示信息指示的至少一个对象，所述至少一个对象中的部分或全部对象被标注。
如权利要求16所述的装置，其特征在于，所述被标注的对象包括第二对象，所述第二对象的图像清晰度超过清晰度阈值，所述第二对象的组成部件被标注。
如权利要求10-17任一项所述的装置，其特征在于，所述视觉数据包括被标注的对象，所述获取单元，还用于基于所述被标注的对象和所述目标对象获取所述对象识别模型识别对象的精度。
一种设备，其特征在于，包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被设备执行时，所述设备执行如权利要求1-9任一项所述的方法。