WO2022166706A1

WO2022166706A1 - 用于对象识别的方法、计算机系统及电子设备

Info

Publication number: WO2022166706A1
Application number: PCT/CN2022/073987
Authority: WO
Inventors: 徐青松; 李青
Original assignee: 杭州睿胜软件有限公司
Priority date: 2021-02-08
Filing date: 2022-01-26
Publication date: 2022-08-11
Also published as: CN112784925A

Abstract

用于对象识别的方法、计算机系统和电子设备，涉及计算机技术领域。所述方法包括：从预先建立的对象识别模型接收被识别对象的第一分类；响应于所述第一分类属于第一群组，显示第一画面，其中，所述第一画面包括所述第一分类；以及响应于所述第一分类属于第二群组，显示第二画面，其中，所述第二画面不包括所述第一分类并且包括请求用户输入关于所述被识别对象的附加信息的提示，其中，所述第一群组的第一条件为对个体分类的分类单位为种的识别准确率为第一等级，所述第二群组的第二条件为对个体分类的分类单位为属的识别准确率为第二等级，所述第一等级高于第二等级。

Description

用于对象识别的方法、计算机系统及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及用于对象识别的方法、计算机系统及电子设备。

背景技术

计算机技术领域中，存在多种对待识别对象进行识别的应用(APP)，例如用于识别植物的应用等。这些应用通常接收来自用户的影像(包括静态图像、动态图像、以及视频等)，并基于由人工智能技术建立的对象识别模型对影像中的待识别对象进行识别，以得到识别结果。例如，对象为生物时得到的识别结果可以是对象识别模型所识别出的待识别对象生物学分类，例如分类单位可以为科(Family)、属(Genus)或种(Species)等。对象识别模型输出的识别结果可以包括一个或多个分类，通常按置信度从高到底排序，置信度最高的分类可以被认为是与影像中呈现出的待识别对象的特征匹配程度最高的分类。此外，对象识别模型输出的识别结果还可以包括与置信度最高的分类相似的分类。来自用户的影像通常包括待识别对象的至少一部分，例如，用户拍摄的影像中包括待识别植物的茎、叶、和花。

发明内容

本公开的一个目的是提供用于对象识别的方法、计算机系统及电子设备。

根据本公开的第一方面，提供了一种用于对象识别的方法，包括：从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；响应于所述第一分类属于第一群组，显示第一画面，其中，所述第一画面包括所述第一分类；以及响应于所述第一分类属于第二群组，显示第二画面，其中，所述第二画面不包括所述第一分类并且包括请求用户输入关于所述被识别对象的附加信息的提示，其中，所述第一群组和第二群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述第一群组包括对其的识别准确率满足第一条件的个体分类，所述第二群组包括对其的识别准确率满足第二条件的个体分类，其中，所述第一条件为对个体分类的分类单位为种的识别准确率为第一等级，所述第二条件为对个体分类的分类单位为属的识别准确率为第二等级，所述第一等级高于第二等级。

根据本公开的第二方面，提供了一种用于对象识别的方法，包括：从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；响应于所述第一分类属于第一群组，显示第一画面，其中，所述第一画面包括所述第一分类；以及响应于所述第一分类属于第二群组，显示第二画面，其中，所述第二画面不包括所述第一分类并且包括请求用户输入关于所述被识别对象的附加信息的提示，其中，所述第一群组和第二群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述第一群组包括对其的识别准确率满足第一条件的个体分类，所述第二群组包括对其的识别准确率满足第二条件的个体分类，其中，所述第一条件为对个体分类的分类单位为种的识别准确率高于第一阈值，所述第二条件为对个体分类的分类单位为种的识别准确率低于第二阈值，并且其中，所述第一阈值高于第二阈值。

根据本公开的第三方面，提供了一种用于对象识别的方法，包括：从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；响应于所述第一分类属于预先建立的群组，显示关于与所述第一分类对应的分类单位为属的分类的信息，其中，所述群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述群组包括对其的分类单位为种的识别准确率低于第一阈值并且对其的分类单位为属的识别准确率高于第二阈值的个体分类。

根据本公开的第四方面，提供了一种用于对象识别的方法，包括：从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；响应于所述第一分类属于预先建立的群组，不显示所述第一分类并且显示请求用户输入关于所述被识别对象的附加信息的提示，其中，所述群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述群组包括对其的识别准确率低于阈值的个体分类。

根据本公开的第五方面，提供了一种电子设备，包括：一个或多个处理器，被配置为使得所述电子设备进行如上所述的任一方法。

根据本公开的第六方面，提供了一种用于操作电子设备的装置，包括：一个或多个处理器，被配置为使得所述电子设备进行如上所述的任一方法。

根据本公开的第七方面，提供了一种用于对象识别的计算机系统，包括：一个或多个处理器；以及一个或多个存储器，所述一个或多个存储器被配置为存储计算机可执行的指令以及与所述计算机可执行的指令相关联的计算机可访问的数据，其中，当所述计算机可执行的指令被所述一个或多个处理器执行时，使得所述计算机系统进行如上所述的任一方法。

根据本公开的第八方面，提供了一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质上存储有计算机可执行的指令，当所述计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如上所述的任一方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示意性地示出根据本公开的实施例的用于对象识别的方法的至少一部分的流程图。

图2至图8是示意性地示出根据本公开的实施例的方法显示画面的示意图。

图9是示意性地示出根据本公开的实施例的用于对象识别的计算机系统的至少一部分的结构图。

图10是示意性地示出根据本公开的实施例的用于对象识别的计算机系统的至少一部分的结构图。

注意，在以下说明的实施方式中，有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分，而省略其重复说明。在本说明书中，使用相似的标号和字母表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

具体实施方式

以下将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。在下面描述中，为了更好地解释本公开，阐述了许多细节，然而可以理解的是，在没有这些细节的情况下也可以实践本公开。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1是示意性地示出根据本公开的实施例的用于对象识别的方法100的至少一部分的流程图。方法100包括：从对象识别模型接收被识别对象的分类(步骤S110)；判断该分类指示被识别对象属于哪个群组(步骤S120)；响应于该分类指示被识别对象属于第一群组，显示包括该分类的画面(步骤S130)；以及响应于该分类指示被识别对象属于第二群组，显示不包括该分类并且包括请求用户输入关于被识别对象的附加信息的提示的画面(步骤S140)。

在一些情况下，用户将被识别对象的全部或一部分的影像(在本文中也被称为“第一影像”)输入到可以进行对象识别的应用，以期获得关于该被识别对象的信息。例如在被识别对象为植物时，影像可以包括待识别植物的根、茎、叶、花、果实、以及种子等各项的中的任意一项或多项的组合，其中所包括的每一项可以是这项的整体或部分。该影像可以是用户先前存储的、实时拍摄的、或者从网络上下载的。影像可以包括任何形式的视觉呈现，例如静态图像、动态图像、以及视频等。影像可以利用包括摄像头的设备进行拍摄，如手机、平板电脑等。

能够实施方法100的应用可以接收来自用户的该影像，并基于影像进行对象识别。识别可以包括任何已知的基于影像进行对象识别的方法。例如，可以通过计算装置和预先训练的(或称为“已训练的”)对象识别模型对影像中的被识别对象进行识别，以得到识别结果(例如，包括识别出的一个或多个分类)。可以基于神经网络(例如深度卷积神经网络(CNN)或深度残差网络(Resnet)等)来建立识别模型。例如，为每个植物的分类获取一定数量的标注有该植物的分类名称的影像样本，即训练样本集，利用这些影像样本对神经网络进行训练，直至神经网络的输出准确率满足要求。在基于影像进行对象识别之前，还可以对影像进行预处理。预处理可以包括归一化、明亮度调整、或降噪等。降噪处理可以凸显对影像中特征部分的描述，使特征更为鲜明。

如上所述，对象识别模型提供的识别结果通常包括被识别对象的一个或多个分类。一个或多个分类按置信度(该分类接近真实分类的可信程度)由高到低排列。排在第一位的为置信度最高的分类，在本文也被称为“Top 1的识别结果”，在至少部分权利要求里可以被描述为“第一分类”。排在第二位的为置信度仅次于Top 1的识别结果的分类，在本文也被称为“Top 2的识别结果”。排在第三位的称为“Top 3的识别结果”，依此类推。在一个实施例中，对象识别模型提供的识别结果所包括的一个或多个分类的分类单位为种。可以根据种与属的对应关系获知各个识别结果的分类单位为属的分类。在一个实施例中，对象识别模型提供的识别结果所包括的一个或多个分类的分类单位为种和属。为简便起见，下文将分类单位为种的分类简称为“种分类”，将分类单位为属的分类简称为“属分类”。

现实中常存在多种形态相似的对象，包括局部形态相似和整体形态相似。互相相似的对象可以具有相同的分类也可以具有不同的分类。例如，植物一与植物二互为相似植物，则植物一与植物二可以具有相同的属分类并具有不同的种分类，也可以具有不同的属分类。在一些实施例中，可以根据各个识别结果来得到与上述一个或多个分类中的至少一个分类所指示的个体具有相似形态的个体的分类，在本文也被称为“相似结果”。例如，可以根据预先建立的规则数据库来得到各个识别结果的相似结果。相似结果可以由对象识别模型提供，也可以根据从对象识别模型获取的识别结果来得到。

下面对本文使用到的术语“对象识别模型所针对的对象群体”、对象群体中的“个体”、“个体分类”以及“群组”进行说明。在一个示例中，如果对象识别模型是用来识别植物的，则其所针对的对象群体是植物，对象群体中的个体是指各个种类的植物，个体分类是指各个种类的植物的分类(例如种分类)。在本文中，除另有说明，用于定义个体的“种类”通常是指分类单位为种的分类。当对象识别模型是用来识别动物时也是类似的。此外，对象识别模型还可以是用来识别特定的一些植物(或动物)。在一个示例中，如果对象识别模型是用来识别蕨类植物的，则其所针对的对象群体是蕨类植物，对象群体中的个体是指各个种类的蕨类植物。群组是个体分类的集合，其基于对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率而建立，包括的个体分类的识别准确率满足特定条件。

下面以一个具体的示例对本文所称的群组进行说明。在本例中，对象识别模型所针对的对象群体是植物。使用大量测试数据(例如10000组数据)对对象识别模型针对各个种类的植物的识别准确率进行统计，统计结果如表1所示。对某个种类的植物的识别准确率是指，对于该种类的植物的测试数据集，对象识别模型正确识别出其分类的样本数与该种类的植物的测试数据集中总样本数之比。

根据统计结果，对于一些种类的植物，该对象识别模型提供的Top 1的识别结果所对应的种分类的准确率高于85％，这意味着该对象识别模型对于这些植物在分类单位为种的级别上的识别几乎是正确的。可以将这些种类的植物划归到群组一，群组一的形式例如可以是这些植物的种分类的集合。对于一些种类的植物，该对象识别模型提供的Top 1的识别结果所对应的种分类的准确率约为51％，但所对应的属分类的准确率约为93％，这意味着该对象识别模型对于这些植物在分类单位为属的级别上的识别几乎是正确的，但在分类单位为种的级别上的识别可能不正确。这通常是由于在该属分类下有2个或更多个较为相似的种分类，该对象识别模型无法在这些较为相似的种分类之间进行准确的区分。可以将这些种类的植物划归到群组二，群组二的形式例如可以是这些植物的种分类的集合。对于一些种类的植物，该对象识别模型提供的Top 1的识别结果所对应的种分类的准确率约为51％，说明种分类的识别结果可能不正确，但属分类的准确率约为66％，说明属分类的识别结果可能可以接受但不是很理想。可以将这些种类的植物划归到群组三，群组三的形式例如可以是这些植物的种分类的集合。对于另一些种类的植物，该对象识别模型提供的Top 1的识别结果所对应的种分类的准确率约为22％并且属分类的准确率约为29％，这意味着识别结果几乎是错误的。可以将这些种类的植物划归到群组四，群组四的形式例如可以是这些植物的种分类的集合。可见，以这种方式建立的群组之间无交集。

表1 群组及识别准确率

在上述方法100中，在步骤S110从对象识别模型接收被识别对象的分类，即Top 1的识别结果。在步骤S120判断该Top 1的识别结果属于哪个群组。例如，如果在步骤S120中判断为该Top 1的识别结果的种分类被包括在群组一中，可以认为该识别结果是准确的，则在步骤S130可以显示包括该Top 1的识别结果的画面。如果在步骤S120中判断为该Top 1的识别结果的种分类被包括在群组四中，可以认为该识别结果是不可靠的，因此可以不将该结果显示给用户，例如，在步骤S140中显示不包括该Top 1的识别结果并且包括请求用户输入关于被识别对象的附加信息的提示的画面。

关于被识别对象的附加信息可以包括被识别对象的形态信息、生长环境信息、识别环境信息等。在步骤S140中显示的画面可以包括请求用户输入这些信息的提示。这些信息可以以各种形式输入，例如文字、语音、影像等。在一个实施例中，请求用户输入关于被识别对象的附加信息的提示可以包括：请求用户输入一个或多个附加影像的提示区域；和/或告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。用户可以以影像的形式输入关于被识别对象的附加信息(这些影像在本文中被称为“附加影像”)，根据该实施例的方法可以驱动对象识别模型基于前述第一影像和该附加影像、或仅基于该附加影像重新识别被识别对象的分类，并从对象识别模型获取重新识别的结果。重新识别的结果可以不进行区分群组(即不执行步骤S120或与其类似的操作)而直接显示给用户，也可以针对重新识别的结果进行上述步骤S130至S140。

本领域技术人员应理解，表1所示的群组的划分只是示意性的，在其他的实施例中，可以根据其他的划分条件将对象群体中的个体所对应的个体分类划分为更少个或更多个的群组。本领域技术人员应理解，图1针对每个群组所进行的与用户的交互(包括所显示的画面)也只是示意性的，在其他的实施例中，可以根据其他的划分条件为每个群组设计适当的交互方式。

下面结合图2至图9的具体示例说明根据本公开的实施例的方法针对不同的群组所进行的交互。

情况一：Top 1的识别结果属于群组一

在情况一中，从对象识别模型接收的Top 1的识别结果属于群组一，即可以认为此时该对象识别模型的种分类的识别结果是正确的，则可以显示图2所示的画面10。画面10可以包括Top 1的识别结果。在该具体的示例中，Top 1的识别结果为对象识别模型识别出的被识别对象的置信度最高的种分类“Baby rubber plant”。

在显示画面10时，可以接收用户的操作，例如点击、滑动等。响应于在显示画面10时用户的特定操作(例如，向右滑动)，可以显示针对情况一的附加页面。附加页面可以包括以下各项中的一个或多个：拍摄指导；更改方法所输出的识别结果(即画面10所显示的Top 1的识别结果)的提示；以及与Top 1的识别结果所指示的个体具有相似形态的个体的分类(即相似结果)。

图3所示为附加页面20。附加页面20包括对用户的拍摄指导(在画面 20中显示为“Tips for taking pictures”，也可称为拍摄技巧、拍摄方法等)，例如，“将植物聚焦在取景框的中部，并避免暗的或被污染的图像”。附加页面20在拍摄指导的下方还包括更改Top 1的识别结果的提示(在画面20中显示为“Change the result”)，以便用户在认为对象识别模型提供的Top 1的识别结果错误时，可以自行更正。

在一个实施例中，尽管未在附图中示出，附加页面还可以包括Top 1的识别结果的相似结果。例如，在画面10中显示对象识别模型提供的Top 1的识别结果为迎春花，在附加页面中还可以显示连翘花、桃花和樱花等与迎春花具有相似形态的个体的分类。

情况二：Top 1的识别结果属于群组二

在情况二中，从对象识别模型接收的Top 1的识别结果属于群组二，即可以认为此时该对象识别模型的种分类的识别结果不太准确，但其所对应的属分类是正确的，则可以显示图4所示的画面30。画面30包括关于与Top 1的识别结果对应的属分类的信息，在画面30中为区域31所显示的内容。在关于与Top 1的识别结果对应的属分类的信息之后，画面30还可以包括Top 1的识别结果，在画面30中为区域32所显示的内容。

在Top 1的识别结果之后，画面30还可以包括，例如在区域33中，从对象识别模型接收的置信度低于Top 1的识别结果的一个或多个分类，例如Top 2、Top 3等的识别结果(在一个实施例中，只有在Top 2、Top 3等的识别结果所对应的属分类与Top 1的识别结果所对应的属分类相同的情况下才会被显示在区域33中)；和/或Top 1的识别结果的相似结果。需要注意的是，在前述二者都被显示的情况下，不重复显示Top 2、Top 3等的识别结果与相似结果中的相同的分类。例如，Top 2的识别结果与相似结果中的一个相同，则在Top 1的识别结果之后，画面30还可以依序包括Top 2的识别结果、Top 3的识别结果、以及除去Top 2的识别结果的相似结果。

情况三：Top 1的识别结果属于群组三

在情况三中，从对象识别模型接收的Top 1的识别结果属于群组三，即可以认为此时该对象识别模型的种分类和属分类的识别结果都不太准确，则可以显示图5所示的画面40。画面40可以包括Top 1的识别结果(例如在区域 41中显示)和从对象识别模型接收的置信度低于Top 1的识别结果的一个或多个分类(例如在区域42中显示)，例如Top 2、Top 3等的识别结果(在一个实施例中，只有在Top 2、Top 3等的识别结果所对应的属分类与Top 1的识别结果所对应的属分类相同的情况下才会被显示在区域42中)。在这些信息之后，画面40还可以包括Top 1的识别结果的相似结果(例如在区域43中显示)。需要注意的是，不重复显示Top 2、Top 3等的识别结果与相似结果中的相同的分类。画面40还可以包括请求用户输入关于被识别对象的附加信息的提示(例如在区域44中显示)。请求用户输入关于被识别对象的附加信息的提示可以包括：请求用户输入一个或多个附加影像的提示区域；和/或告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。请求用户输入关于被识别对象的附加信息的提示的更多信息可以参考下文中关于图6至图8的描述。

情况四：Top 1的识别结果属于群组四

在情况四中，从对象识别模型接收的Top 1的识别结果属于群组四，即可以认为此时该对象识别模型的识别结果不正确，则可以显示图6所示的画面50。画面50不显示Top 1的识别结果但显示请求用户输入关于被识别对象的附加信息的提示，例如可以包括请求用户输入一个或多个附加影像的提示区域；和/或告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。在图6所示的例子中，画面50显示提示语“Could you please try‘Multi-image’identification？”以请求用户输入关于被识别对象的一个或多个附加影像。由于此次Top 1的识别结果是不正确的，所以不在画面50中显示给用户，并且也可以不保存在成功识别的历史记录中。

用户可以响应于该提示进行操作，例如点击画面50中的按钮“Multi-image identification”以便通过输入一个或多个附加影像来输入关于被识别对象的附加信息。在一个示例中，响应于画面50中的按钮“Multi-image identification”被点击，显示画面61。在图示的例子中，画面61包括告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。画面61的区域63位于拍摄的取景框下方并包括3个小方框，其请求用户输入关于被识别对象的3个附加影像，以重新识别该对象。用户可以操作按钮64以拍摄所请求的3个附加影像中的一个或多个影像。影像被拍摄后，其缩略图被显示在区域63的小方框内，其间可以呈现影像被缩小到小方框内的动画效果。例如，第一个附加影像被拍摄后，可以显示画面62。此外，用户还可以操作按钮65以从相册中选择所请求的3个附加影像中的一个或多个影像。与被拍摄的影像类似，被选择的影像的缩略图也被显示在区域63的小方框内。这些附加影像可以按照输入的顺序从左到右依次显示。

当输入的附加影像达到预定个数(例如所请求的个数，在该示例中为3个)时，可以自动开始重新识别该被识别对象，也可以通过用户操作按钮66(即指示开始重新识别的操作)以人工启动重新识别。若输入的附加影像未达到预定个数，用户可以通过操作按钮66以人工启动重新识别。重新识别可以仅基于本次输入一个或多个附加影像，也可以基于之前输入的第一影像和本次输入一个或多个附加影像。每个附加影像的缩略图包括删除操作区域(例如在其右上角的“×”符号)，用户可以在重新识别开始之前删除任意一个附加影像。重新识别可以通过前述对象识别模型来进行。对象识别模型基于一个或多个附加影像、或基于一个或多个附加影像和第一影像，重新识别被识别对象，并提供重新识别的结果(例如可以仅包括一个置信度最高的分类)。获取该重新识别的结果之后，可以显示画面以将该结果显示给用户。附加影像中的一个或多个可以被保存在成功识别的历史记录中。

图9是示意性地示出根据本公开的实施例的用于对象识别的计算机系统700的至少一部分的结构图。本领域技术人员可以理解，系统700只是一个示例，不应将其视为限制本公开的范围或本文所描述的特征。在该示例中，系统700可以包括一个或多个存储装置710、一个或多个电子设备720、以及一个或多个计算装置730，其可以通过网络或总线740互相通信连接。一个或多个存储装置710为一个或多个电子设备720、以及一个或多个计算装置730提供存储服务。虽然一个或多个存储装置710在系统700中以独立于一个或多个电子设备720、以及一个或多个计算装置730之外的单独的框示出，应当理解，一个或多个存储装置710可以实际存储在系统700所包括的其他实体720、730中的任何一个上。一个或多个电子设备720以及一个或多个计算装置730中的每一个可以位于网络或总线740的不同节点处，并且能够直接地或间接地与网络或总线740的其他节点通信。本领域技术人员可以理解，系统700 还可以包括图9未示出的其他装置，其中每个不同的装置均位于网络或总线740的不同节点处。

一个或多个存储装置710可以被配置为存储上文所述的任何数据，包括但不限于：第一影像、附加影像、对象识别模型、各样本集/测试数据集、识别结果、各个群组、应用的程序文件等数据。一个或多个计算装置730可以被配置为执行上述根据实施例的方法中的一个或多个，和/或一个或多个根据实施例的方法中的一个或多个步骤。一个或多个电子设备720可以被配置为为用户提供服务，其可以显示如上所述的画面10至50和61、62。一个或多个电子设备720还可以被配置为执行根据实施例的方法中的一个或多个步骤。

网络或总线740可以是任何有线或无线的网络，也可以包括线缆。网络或总线740可以是互联网、万维网、特定内联网、广域网或局域网的一部分。网络或总线740可以利用诸如以太网、WiFi和HTTP等标准通信协议、对于一个或多个公司来说是专有的协议、以及前述协议的各种组合。网络或总线740还可以包括但不限于工业标准体系结构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线、和外围部件互连(PCI)总线。

一个或多个电子设备720和一个或多个计算装置730中的每一个可以被配置为与图10所示的系统800类似，即具有一个或多个处理器810、一个或多个存储器820、以及指令和数据。一个或多个电子设备720和一个或多个计算装置730中的每一个可以是意在由用户使用的个人计算装置或者由企业使用的商业计算机装置，并且具有通常与个人计算装置或商业计算机装置结合使用的所有组件，诸如中央处理单元(CPU)、存储数据和指令的存储器(例如，RAM和内部硬盘驱动器)、诸如显示器(例如，具有屏幕的监视器、触摸屏、投影仪、电视或可操作来显示信息的其他装置)、鼠标、键盘、触摸屏、麦克风、扬声器、和/或网络接口装置等的一个或多个I/O设备。

一个或多个电子设备720还可以包括用于捕获静态图像或记录视频流的一个或多个相机、以及用于将这些元件彼此连接的所有组件。虽然一个或多个电子设备720可以各自包括全尺寸的个人计算装置，但是它们可能可选地包括能够通过诸如互联网等网络与服务器无线地交换数据的移动计算装置。举例来说，一个或多个电子设备720可以是移动电话，或者是诸如带无线支持的PDA、平板PC或能够经由互联网获得信息的上网本等装置。在另一个示例中，一个或多个电子设备720可以是可穿戴式计算系统。

图10是示意性地示出根据本公开的一个实施例的用于对象识别的计算机系统800的至少一部分的结构图。系统800包括一个或多个处理器810、一个或多个存储器820、以及通常存在于计算机等装置中的其他组件(未示出)。一个或多个存储器820中的每一个可以存储可由一个或多个处理器810访问的内容，包括可以由一个或多个处理器810执行的指令821、以及可以由一个或多个处理器810来检索、操纵或存储的数据822。

指令821可以是将由一个或多个处理器810直接地执行的任何指令集，诸如机器代码，或者间接地执行的任何指令集，诸如脚本。本文中的术语“指令”、“应用”、“过程”、“步骤”和“程序”在本文中可以互换使用。指令821可以存储为目标代码格式以便由一个或多个处理器810直接处理，或者存储为任何其他计算机语言，包括按需解释或提前编译的独立源代码模块的脚本或集合。指令821可以包括引起诸如一个或多个处理器810来充当本文中的各神经网络的指令。本文其他部分更加详细地解释了指令821的功能、方法和例程。

一个或多个存储器820可以是能够存储可由一个或多个处理器810访问的内容的任何临时性或非临时性计算机可读存储介质，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD、USB存储器、能写存储器和只读存储器等。一个或多个存储器820中的一个或多个可以包括分布式存储系统，其中指令821和/或数据822可以存储在可以物理地位于相同或不同的地理位置处的多个不同的存储装置上。一个或多个存储器820中的一个或多个可以经由网络连接至一个或多个处理器810，和/或可以直接地连接至或并入一个或多个处理器810中的任何一个中。

一个或多个处理器810可以根据指令821来检索、存储或修改数据822。存储在一个或多个存储器820中的数据822可以包括上文所述的一个或多个存储装置710中存储的各项中一项或多项的至少部分。举例来说，虽然本文所描述的主题不受任何特定数据结构限制，但是数据822还可能存储在计算机寄存器(未示出)中，作为具有许多不同的字段和记录的表格或XML文档存储在关系型数据库中。数据822可以被格式化为任何计算装置可读格式，诸如但不限于二进制值、ASCII或统一代码。此外，数据822可以包括足以识别相关信息的任何信息，诸如编号、描述性文本、专有代码、指针、对存储在诸如其他网络位置处等其他存储器中的数据的引用或者被函数用于计算相关数据的信息。

一个或多个处理器810可以是任何常规处理器，诸如市场上可购得的中央处理单元(CPU)、图形处理单元(GPU)等。可替换地，一个或多个处理器810还可以是专用组件，诸如专用集成电路(ASIC)或其他基于硬件的处理器。虽然不是必需的，但是一个或多个处理器810可以包括专门的硬件组件来更快或更有效地执行特定的计算过程，诸如对影像进行图像处理等。

虽然图10中示意性地将一个或多个处理器810以及一个或多个存储器820示出在同一个框内，但是系统800可以实际上包括可能存在于同一个物理壳体内或不同的多个物理壳体内的多个处理器或存储器。例如，一个或多个存储器820中的一个可以是位于与上文所述的一个或多个计算装置(未示出)中的每一个的壳体不同的壳体中的硬盘驱动器或其他存储介质。因此，引用处理器、计算机、计算装置或存储器应被理解成包括引用可能并行操作或可能非并行操作的处理器、计算机、计算装置或存储器的集合。

在说明书及权利要求中的词语“A或B”包括“A和B”以及“A或B”，而不是排他地仅包括“A”或者仅包括“B”，除非另有特别说明。

在本公开中，对“一个实施例”、“一些实施例”的提及意味着结合该实施例描述的特征、结构或特性包含在本公开的至少一个实施例、至少一些实施例中。因此，短语“在一个实施例中”、“在一些实施例中”在本公开的各处的出现未必是指同一个或同一些实施例。此外，在一个或多个实施例中，可以任何合适的组合和/或子组合来组合特征、结构或特性。

如在此所使用的，词语“示例性的”意指“用作示例、实例或说明”，而不是作为将被精确复制的“模型”。在此示例性描述的任意实现方式并不一定要被解释为比其它实现方式优选的或有利的。而且，本公开不受在上述技术领域、背景技术、发明内容或具体实施方式中所给出的任何所表述的或所暗示的理论所限定。

另外，仅仅为了参考的目的，还可以在下面描述中使用某种术语，并且因而并非意图限定。例如，除非上下文明确指出，否则涉及结构或元件的词语“第一”、“第二”和其它此类数字词语并没有暗示顺序或次序。还应理解，“包括/包含”一词在本文中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件以及/或者它们的组合。

在本公开中，术语“部件”和“系统”意图是涉及一个与计算机有关的实体，或者硬件、硬件和软件的组合、软件、或执行中的软件。例如，一个部件可以是，但是不局限于，在处理器上运行的进程、对象、可执行态、执行线程、和/或程序等。通过举例说明，在一个服务器上运行的应用程序和所述服务器两者都可以是一个部件。一个或多个部件可以存在于一个执行的进程和/或线程的内部，并且一个部件可以被定位于一台计算机上和/或被分布在两台或更多计算机之间。

本领域技术人员应当意识到，在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作，单个操作可以分布于附加的操作中，并且操作可以在时间上至少部分重叠地执行。而且，另选的实施例可以包括特定操作的多个实例，并且在其他各种实施例中可以改变操作顺序。但是，其它的修改、变化和替换同样是可能的。因此，本说明书和附图应当被看作是说明性的，而非限制性的。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。在此公开的各实施例可以任意组合，而不脱离本公开的精神和范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本公开的范围和精神。本公开的范围由所附权利要求来限定。

Claims

一种用于对象识别的方法，其特征在于，包括：

从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；

响应于所述第一分类属于第一群组，显示第一画面，其中，所述第一画面包括所述第一分类；以及

响应于所述第一分类属于第二群组，显示第二画面，其中，所述第二画面不包括所述第一分类并且包括请求用户输入关于所述被识别对象的附加信息的提示，其中，

所述第一群组和所述第二群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述第一群组包括对其的识别准确率满足第一条件的个体分类，所述第二群组包括对其的识别准确率满足第二条件的个体分类，其中，

所述第一条件为对个体分类的分类单位为种的识别准确率为第一等级，所述第二条件为对个体分类的分类单位为属的识别准确率为第二等级，所述第一等级高于所述第二等级。
根据权利要求1所述的方法，其特征在于，所述第一分类的分类单位为种。
根据权利要求1所述的方法，其特征在于，所述对象识别模型提供被识别对象的一个或多个分类，其中所述第一分类为所述一个或多个分类中置信度最高的分类。
根据权利要求1所述的方法，其特征在于，还包括：

响应于在显示所述第一画面时用户的第一操作，显示第一附加页面，所述第一附加页面包括以下各项中的一个或多个：

拍摄指导；

更改所述第一分类的提示；以及

与所述第一分类所指示的个体具有相似形态的个体的分类。
根据权利要求1所述的方法，其特征在于，请求用户输入关于所述被识别对象的附加信息的提示包括：

请求用户输入一个或多个附加影像的提示区域；和/或

告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。
根据权利要求1所述的方法，其特征在于，还包括：

响应于在显示所述第二画面时所述附加信息的输入，驱动所述对象识别模型基于所述第一影像和所述附加信息、或基于所述附加信息重新识别所述被识别对象的分类；

从所述对象识别模型接收重新识别的所述被识别对象的第二分类；以及

显示所述第二分类。
根据权利要求1所述的方法，其特征在于，还包括：

响应于所述第一分类属于第三群组，显示第三画面，其中，

所述第三群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，所述第三群组包括对其的识别准确率满足第三条件的个体分类，其中，所述第三条件为对个体分类的分类单位为种的识别准确率为第三等级并且对个体分类的分类单位为属的识别准确率为第一等级，所述第三等级低于所述第一等级并且高于所述第二等级，其中，

所述第三画面包括关于与所述第一分类对应的分类单位为属的分类的信息。
根据权利要求7所述的方法，其特征在于，在所述关于分类单位为属的分类的信息之后，所述第三画面还包括所述第一分类。
根据权利要求8所述的方法，其特征在于，在所述第一分类之后，所述第三画面还包括：

从所述对象识别模型接收的置信度低于所述第一分类的一个或多个分类，其中所述一个或多个分类所对应的分类单位为属的分类与所述第一分类所对应的分类单位为属的分类相同；和/或

与所述第一分类所指示的个体具有相似形态的个体的分类。
根据权利要求1所述的方法，其特征在于，还包括：

响应于所述第一分类属于第四群组，显示第四画面，其中，

所述第四群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，所述第四群组包括对其的识别准确率满足第四条件的个体分类，所述第四条件为对个体分类的分类单位为种的识别准确率为第三等级并且对个体分类的分类单位为属的识别准确率为第三等级，所述第三等级低于所述第一等级并且高于所述第二等级，其中，

所述第四画面包括所述第一分类、以及以下各项中的至少一项：

从所述对象识别模型接收的置信度低于所述第一分类的一个或多个分类，其中所述一个或多个分类所对应的分类单位为属的分类与所述第一分类所对应的分类单位为属的分类相同；和

与所述第一分类所指示的个体具有相似形态的个体的分类。
根据权利要求10所述的方法，其特征在于，所述第四画面还包括请求用户输入关于所述被识别对象的附加信息的提示。
一种用于对象识别的方法，其特征在于，包括：

从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；

响应于所述第一分类属于第一群组，显示第一画面，其中，所述第一画面包括所述第一分类；以及

响应于所述第一分类属于第二群组，显示第二画面，其中，所述第二画面不包括所述第一分类并且包括请求用户输入关于所述被识别对象的附加信息的提示，其中，

所述第一群组和所述第二群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述第一群组包括对其的识别准确率满足第一条件的个体分类，所述第二群组包括对其的识别准确率满足第二条件的个体分类，其中，

所述第一条件为对个体分类的分类单位为种的识别准确率高于第一阈值，所述第二条件为对个体分类的分类单位为种的识别准确率低于第二阈值，并且其中，所述第一阈值高于所述第二阈值。
根据权利要求12所述的方法，其特征在于，还包括：

响应于所述第一分类属于第三群组，显示第三画面，其中，

所述第三群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，所述第三群组包括对其的识别准确率满足第三条件的个体分类，其中，

所述第三条件为对个体分类的分类单位为种的识别准确率落入第一范围，所述第一范围的上限低于所述第一阈值并且下限高于所述第二阈值，

所述第三画面包括所述第一分类、以及：

与所述第一分类所指示的个体具有相似形态的个体的分类；和/或

从所述对象识别模型接收的置信度低于所述第一分类的一个或多个分类，其中所述一个或多个分类所对应的分类单位为属的分类与所述第一分类所对应的分类单位为属的分类相同。
根据权利要求13所述的方法，其特征在于，所述第三群组包括第一子组和第二子组，所述方法还包括：

响应于所述第一分类属于第一子组，显示第一子画面，并且响应于所述第一分类属于第二子组，显示第二子画面，其中，

所述第一子组包括对其的识别准确率还满足第一子条件的个体分类，所述第二子组包括对其的识别准确率还满足第二子条件的个体分类，

所述第一子条件为对个体分类的分类单位为属的识别准确率高于第一阈值，所述第二子条件为对个体分类的分类单位为属的识别准确率落入第一范围，

所述第一子画面包括关于与所述第一分类对应的分类单位为属的分类的信息，所述第二子画面不包括关于与所述第一分类对应的分类单位为属的分类的信息。
根据权利要求12所述的方法，其特征在于，所述第一阈值的取值范围为大于或等于80％。
根据权利要求12所述的方法，其特征在于，所述第二阈值的取值范围为小于或等于35％。
根据权利要求13所述的方法，其特征在于，所述第一范围包括45％到65％的数值区间。
一种用于对象识别的方法，其特征在于，包括：

从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；

响应于所述第一分类属于预先建立的群组，显示关于与所述第一分类对应的分类单位为属的分类的信息，其中，

所述群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述群组包括对其的分类单位为种的识别准确率低于第一阈值并且对其的分类单位为属的识别准确率高于第二阈值的个体分类。
根据权利要求18所述的方法，其特征在于，还包括：在所述关于分类单位为属的分类的信息之后，显示所述第一分类。
根据权利要求19所述的方法，其特征在于，还包括：在所述第一分类之后显示：

从所述对象识别模型接收的置信度低于所述第一分类的一个或多个分类，其中所述一个或多个分类所对应的分类单位为属的分类与所述第一分类所对应的分类单位为属的分类相同；和/或

与所述第一分类所指示的个体具有相似形态的个体的分类。
一种用于对象识别的方法，其特征在于，包括：

从预先建立的对象识别模型接收被识别对象的第一分类，所述对象识别模型基于呈现所述被识别对象的至少一部分的第一影像识别所述被识别对象的分类；

响应于所述第一分类属于预先建立的群组，不显示所述第一分类并且显示请求用户输入关于所述被识别对象的附加信息的提示，其中，

所述群组是基于所述对象识别模型对所针对的对象群体中的个体分类在统计学上的识别准确率建立的，其中，所述群组包括对其的识别准确率低于阈值的个体分类。
根据权利要求21所述的方法，其特征在于，请求用户输入关于所述被识别对象的附加信息的提示包括：

请求用户输入一个或多个附加影像的提示区域；和/或

告诉用户从不同角度和/或距离进行影像拍摄的拍摄指导。
根据权利要求22所述的方法，其特征在于，所述方法还包括：

响应于预定个数的附加影像的输入、或响应于不足预定个数的附加影像的输入和指示开始重新识别的操作，驱动所述对象识别模型基于所述第一影像和所述附加影像、或基于所述附加影像重新识别所述被识别对象的分类；

从所述对象识别模型接收重新识别的所述被识别对象的第二分类；以及

显示所述第二分类。
一种电子设备，其特征在于，包括：

一个或多个处理器，被配置为使得所述电子设备进行如权利要求1-23中任一项所述的方法。
一种用于操作电子设备的装置，其特征在于，包括：

一个或多个处理器，被配置为使得所述电子设备进行如权利要求1-23中任一项所述的方法。
一种用于对象识别的计算机系统，其特征在于，包括：

一个或多个处理器；以及

一个或多个存储器，所述一个或多个存储器被配置为存储计算机可执行的指令以及与所述计算机可执行的指令相关联的计算机可访问的数据，

其中，当所述计算机可执行的指令被所述一个或多个处理器执行时，使得所述计算机系统进行如权利要求1-23中任一项所述的方法。
一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有计算机可执行的指令，当所述计算机可执行的指令被一个或多个计算机系统执行时，使得所述一个或多个计算机系统进行如权利要求1-23中任一项所述的方法。