WO2022252908A1

WO2022252908A1 - 对象识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2022252908A1
Application number: PCT/CN2022/091089
Authority: WO
Inventors: 何楠君; 卢东焕; 李悦翔; 林一; 马锴; 郑冶枫
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-06-03
Filing date: 2022-05-06
Publication date: 2022-12-08
Also published as: CN113610750B; US20230080098A1; CN113610750A

Abstract

本申请实施例公开了一种对象识别方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：计算机设备分别提取多个医学图像的空间特征(201)，所述多个医学图像为同一目标对象在不同时刻的图像；计算机设备融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征(202)；计算机设备基于所述第一融合空间特征，提取所述目标对象的时空特征(203)；计算机设备基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果(204)。该方法提取得到的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征识别目标对象时，也提高了识别结果的准确率。

Description

对象识别方法、装置、计算机设备及存储介质

本申请要求于2021年06月03日提交、申请号为202110617124.4、发明名称为“对象识别方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种对象识别方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，采用图像处理技术辅助进行对象识别已成为一种常用手段。例如，在医学领域中，通过对采集的目标对象的医学图像进行识别，得到目标对象的识别结果，根据该识别结果确定目标对象的状态，或者根据该识别结果对医学图像进行分割。

发明内容

本申请实施例提供了一种对象识别方法、装置、计算机设备及存储介质，提高了识别准确率。所述技术方案如下：

一方面，提供了一种对象识别方法，所述方法包括：

计算机设备分别提取多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

所述计算机设备融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征；

所述计算机设备基于所述第一融合空间特征，提取所述目标对象的时空特征，所述时空特征表征所述多个医学图像在不同时刻的空间信息的变化；

所述计算机设备基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果。

另一方面，提供了一种对象识别装置，所述装置包括：

空间特征提取模块，用于分别提取多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

空间特征融合模块，用于融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征；

时空特征提取模块，用于基于所述第一融合空间特征，提取所述目标对象的时空特征，所述时空特征表征所述多个医学图像在不同时刻的空间信息的变化；

对象识别模块，用于基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的对象识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的对象识别方法所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的对象识别方法所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，融合多个空间特征，并基于得到的第一融合空间特征，提取目标对象的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征识别目标对象时，也提高了识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种对象识别方法的流程图；

图3是本申请实施例提供的另一种对象识别方法的流程图；

图4是本申请实施例提供的一种图像识别模型的结构示意图；

图5是本申请实施例提供的另一种图像识别模型的结构示意图；

图6是本申请实施例提供的另一种图像识别模型的结构示意图；

图7是本申请实施例提供的一种第一提取网络的结构示意图；

图8是本申请实施例提供的另一种第一提取网络的结构示意图；

图9是本申请实施例提供的另一种对象识别方法的流程图；

图10是本申请实施例提供的另一种图像识别网络的结构示意图；

图11是本申请实施例提供的一种热力图的示意图；

图12是本申请实施例提供的一种相关技术中图像识别模型的结构示意图；

图13是本申请实施例提供的一种图像分割方法的流程图；

图14是本申请实施例提供的一种对象识别装置的结构示意图；

图15是本申请实施例提供的另一种对象识别装置的结构示意图；

图16是本申请实施例提供的一种终端的结构示意图；

图17是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一图像特征称为第二图像特征，将第二图像特征称为第一图像特征。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个医学图像包括3个医学图像，而每个医学图像是指这3个医学图像中的每一个医学图像，任一是指这3个医学图像中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习等技术，通过调用图像识别模型，提取目标对象的空间特征和时空特征，并基于时空特征识别目标对象，以得到识别结果。

本申请实施例提供的对象识别方法，由计算机设备执行。可选地，该计算机设备为终端或服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备组成区块链系统。

在一种可能实现方式中，本申请实施例中用于识别对象的计算机设备是区块链系统中的节点，该节点提取目标对象的多个医学图像的空间特征，以及基于多个医学图像的空间特征，提取目标对象的时空特征，并基于该时空特征识别目标对象，得到识别结果，之后该节点或者该区块链中的其他设备对应的节点还能够存储该目标对象的识别结果。

为了便于理解本申请实施例，先对本申请实施例涉及到的关键词进行解释：

Transformer：一种深度学习网络结构，该网络结构包括多头自注意力模块(Multi-head Self-attention)、多层感知机(MLP，Multi-Layer Perceptron)以及正则化层，且该网络结构中采用了残差结构。其中，多头自注意力模块是由多个自注意力模块级联得到的，多个自注意力模块的输出结果级联，即可得到多头自注意力模块的输出结果。

CNN(Convolutional Neural Network，卷积神经网络)：一种广泛应用于图像分类任务的深度学习网络，至少包含卷积层、池化层或其他处理层。

ResNet(Residual Network，残差网络)：一种CNN网络结构，ResNet容易进行优化，且缓解了深度神经网络中增加深度带来的梯度消失问题。

CT(Computed Tomography，电子计算机断层扫描)图像：CT图像是采用X射线对人体或物体中具有一定厚度的层面进行扫描，并接收透过该层面的X射线，对接收到的X射线进行处理后得到的图像。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括至少一个终端101(图1中以1个终端101为例)和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如图像识别、图像传输等功能。可选地，终端101为电脑、手机、平板电脑或者其他终端。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。例如，目标应用为医疗应用，该医疗识别应用具有识别医学图像的功能，另外还具有其他功能，例如，生成病历、显示医学图像等功能。可选地，服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。

在图1所示的实施环境的基础上，本申请实施例提供了一种宫颈状态识别场景。在此场景中，终端每隔30秒采集同一个对象的宫颈图像，得到了5个CT图像，将5个CT图像发送给服务器，服务器分别提取5个CT图像的空间特征，再基于5个空间特征提取该对象宫颈的时空特征，基于该时空特征进行识别，得到该对象的宫颈识别结果，并将该宫颈识别结果返回给终端，后续即可将该宫颈识别结果作为一种辅助判断的依据，并结合该对象的其他信息，确定该对象的宫颈的状态。

在图1所示的实施环境的基础上，本申请实施例还提供了一种CT图像分割场景。在此场景下，终端每隔30秒采集同一个对象的宫颈图像，得到了5个CT图像，将5个CT图像发送给服务器，服务器分别提取5个CT图像的空间特征，再基于5个空间特征提取该对象宫颈的时空特征，基于该时空特征进行识别，得到该对象的宫颈识别结果，并将该宫颈识别结果返回给终端，终端根据该识别结果，确定每个CT图像中的病灶区域，对每个CT图像进行分割，得到每个CT图像中的病灶区域，以便对病灶区域进行进一步处理。

图2是本申请实施例提供的一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图2，该方法包括以下步骤：

201、计算机设备分别提取多个医学图像的空间特征。

其中，多个医学图像为同一目标对象在不同时刻的图像，该目标对象为任一对象，例如该目标对象是指一个人或者是身体中的某个部位。空间特征表征对应的医学图像的空间信息，例如空间信息至少包括医学图像的尺寸信息、医学图像中像素点的像素值或位置信息。且计算机设备在提取多个医学图像的空间特征时，该多个医学图像的空间特征提取过程独立执行，互不干扰。

202、计算机设备融合所提取的多个空间特征，得到目标对象的第一融合空间特征。

本申请实施例中，计算机设备先分别提取每个医学图像的空间特征，之后基于提取的多个空间特征进一步提取时空特征，由于后续提取特征时，需要考虑多个医学图像之间的时间关系，因此，先对提取得到的多个空间特征进行融合，得到第一融合空间特征。

203、计算机设备基于第一融合空间特征，提取目标对象的时空特征。

本申请实施例中，由于时空特征是在第一融合空间特征的基础上，进行时序特征提取得到的，因此提取的时空特征中包含每个医学图像的空间信息以及多个医学图像的时序信息，该多个医学图像的时序信息是指多个医学图像对应的时间先后顺序以及不同时刻的医学图像的变化情况，即时空特征表征多个医学图像在不同时刻的空间信息的变化。

204、计算机设备基于时空特征识别目标对象，得到目标对象的识别结果。

其中，识别结果用于指示目标对象的状态，可选地，目标对象的状态包括正常状态和异常状态。或者，识别结果用于指示每个医学图像中的异常区域。

本申请实施例提供的方法，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，融合多个空间特征，并基于融合得到的第一融合空间特征提取目标对象的时空特征，该时空特征表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征识别目标对象时，也提高了识别结果的准确率。

图3是本申请实施例提供的另一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图3，该方法包括以下步骤：

301、计算机设备分别提取目标对象的多个医学图像的第一图像特征。

其中，目标对象为任一对象，该目标对象是指人体或者人体中的某个部位，例如，目标对象为肺部、胃部、子宫等任一部位。多个医学图像为同一目标对象在不同时刻的图像，即多个医学图像是在不同时刻对目标对象进行采集得到的图像。该医学图像为CT图像、通过X光照射拍摄的图像或采用其他方式采集的图像。可选地，该多个医学图像为该计算机设备采集的，或者是由其他设备采集之后发送给该计算机设备的，本申请对此不做限制。

可选地，任两个相邻的医学图像的采集时间之间间隔相同的时长或者不同的时长。例如，间隔的时长为30秒、60秒或其他时长。例如，对于四个医学图像，第一个医学图像的采集时间与第二个医学图像的采集时间之间间隔30秒，第二个医学图像的采集时间与第三个医学图像的采集时间之间间隔30秒，第三个医学图像的采集时间与第四个医学图像的采集时间之间间隔30秒。

其中，第一图像特征用于描述对应的医学图像，该第一图像特征为向量、矩阵或其他形式。在一种可能实现方式中，计算机设备分别对多个医学图像进行编码，得到每个医学图像的第一图像特征。

302、计算机设备分别基于多个医学图像的第一图像特征，提取多个医学图像的空间特征。

其中，空间特征表征对应的医学图像的空间信息，例如空间信息至少包括医学图像的尺寸信息、医学图像中像素点的像素值、位置信息。该空间特征为向量、矩阵或其他形式。

计算机设备在提取多个医学图像的空间特征时，该多个医学图像的空间特征提取过程独立执行，互不干扰，下面以提取任一医学图像的空间特征为例，对提取空间特征的过程进行说明。

在一种可能实现方式中，医学图像被划分为多个图像区域，即医学图像包括多个图像区域，对应地，计算机设备将医学图像的第一图像特征划分为多个区域特征，每个区域特征对应医学图像中的一个图像区域，并且，分别获取多个区域特征对应的第一注意力参数，基于多个第一注意力参数，对多个区域特征进行加权融合，得到医学图像对应的第二图像特征；基于第二图像特征，提取医学图像的空间特征。

其中，第一注意力参数表征对应的区域特征在第一图像特征中的重要程度，该第二图像特征也用于描述对应的医学图像，该第一图像特征与该第二图像特征的区别在于：第二图像特征是在第一图像特征的基础上，根据不同的区域特征的重要程度对第一图像特征进行调整后得到的，第二图像特征与第一图像特征相比能够更加准确地表征医学图像中较为重要的图像区域。

对于第一注意力参数的确定，在一种可能实现方式中，计算机设备将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中，该至少两个特征空间表征对应图像区域中的不同像素点在对应的维度上的相似度；基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

在一种可能实现方式中，计算机设备基于第二图像特征，提取医学图像的空间特征，包括：计算机设备直接对第二图像特征进行空间特征提取，得到医学图像的空间特征。

在另一种可能实现方式中，为了避免在对第一图像特征进行处理，得到第二图像特征的过程中丢失第一图像特征中的信息，导致提取的空间特征不准确，计算机设备融合第二图像特征与第一图像特征，得到医学图像对应的第三图像特征；基于第三图像特征，提取医学图像的空间特征。其中，第三图像特征中包含第一图像特征和第二图像特征，因此该第三图像特征包含医学图像完整的信息的同时，又能够凸显医学图像中较为重要的图像区域的信息。

另外，在一种可能实现方式中，计算机设备为了减小处理过程中的计算量，提高处理速度，先对第一图像特征进行归一化处理，得到处理后的第一图像特征，之后针对归一化处理后的第一图像特征执行确定第一注意力参数的步骤。同理，对第三图像特征进行归一化处理，得到处理后的第三图像特征，之后针对归一化处理后的第三图像特征执行提取空间特征的步骤。其中，归一化处理可将图像特征中包含的数值限定在0到1的范围内，从而避免图像特征中包含的各个数值之间相差较大，导致处理过程复杂。

上述提取空间特征的过程是以一个医学图像为例进行说明的，本申请中的每个医学图像均能够采用上述实施方式来提取对应的空间特征。

需要说明的是，本申请实施例对多个医学图像提取空间特征的先后顺序不做限制，可选地，同时分别提取多个医学图像的空间特征，或者，按照医学图像对应的采集时间，依次提取每个医学图像的空间特征。

303、计算机设备融合所提取的多个空间特征，得到目标对象的第一融合空间特征。

本申请实施例中，计算机设备先提取每个医学图像的空间特征，然后在提取的多个空间特征的基础上进行时序特征提取，由于进行时序特征提取时，需要考虑多个医学图像之间的时间关系，而不是分别针对每个空间特征进行时序特征提取，因此，需要先融合多个空间特征，得到第一融合空间特征。

其中，融合多个空间特征可以是拼接该多个空间特征，使得到的第一融合空间特征包含多个医学图像的空间特征。

304、计算机设备基于第一融合空间特征，提取目标对象的时空特征。

由于时空特征是在第一融合空间特征的基础上，进行时序特征提取得到的，因此提取的时空特征包含每个医学图像的空间信息以及多个医学图像的时序信息，该多个医学图像的时序信息是指多个医学图像对应的时间先后顺序以及不同时刻的医学图像的变化情况，即时空特征表征多个医学图像在不同时刻的空间信息的变化。也就是说，时空特征表征多个医学图像的变化情况。

在一种可能实现方式中，计算机设备按照医学图像，将第一融合空间特征划分为多个空间子特征，每个空间子特征对应一个医学图像，分别获取多个空间子特征对应的第二注意力参数；基于多个第二注意力参数，融合多个空间子特征，得到多个医学图像对应的第二融合空间特征；基于第二融合空间特征，提取时空特征。其中，第二注意力参数表征对应的空间子特征在第一融合空间特征中的重要程度。

对于第二注意力参数的确定，在一种可能实现方式中，计算机设备将每个空间子特征分别映射到至少两个特征空间中，得到每个空间子特征对应的至少两个映射特征，其中至少两个特征空间表征对应医学图像中的不同像素点在对应的维度上的相似度；基于每个空间子特征对应的至少两个映射特征，获取每个空间子特征对应的第二注意力参数。

在一种可能实现方式中，计算机设备基于第二融合空间特征，提取医学图像的空间特征，包括：计算机设备直接对第二融合空间进行时序特征提取，得到时空特征。

在另一种可能实现方式中，为了避免在对第一融合空间特征进行处理，得到第二融合空间特征的过程中丢失第一融合空间特征中的信息，导致提取的空间特征不准确，计算机设备融合第二融合空间特征与第一融合空间特征，得到目标对象的第三融合空间特征；基于第三融合空间特征，提取时空特征。其中，第三融合空间特征中包含第一融合空间特征和第二融合空间特征，因此该第三融合空间特征中在包含全部医学图像的空间信息的同时，又能够凸显多个医学图像中较为重要的医学图像的信息。

另外，在一种可能实现方式中，计算机设备为了减小处理过程中的计算量，提高处理速度，先对第一融合空间特征进行归一化处理，得到处理后的第一融合空间特征，之后针对归一化处理后的第一融合空间特征执行确定第二注意力参数的步骤。同理，对第三融合空间特征进行归一化处理，得到处理后的第三融合空间特征，之后针对归一化处理后的第三融合空间特征执行提取时空特征的步骤。

305、计算机设备基于时空特征识别目标对象，得到目标对象的识别结果。

其中，识别结果用于指示目标对象的状态，或者识别结果用于指示每个医学图像中的异常区域。

在一种可能实现方式中，目标对象的状态包括正常状态和异常状态，正常状态指示目标对象未发生变化，异常状态指示目标对象相对于正常状态下的目标对象发生了变化。例如，在对目标对象进行疾病识别的场景下，正常状态表示目标对象没有发生病变，异常状态表示目标对象发生了病变。可选地，识别结果包括第一类别和第二类别，其中，第一类别表示目标对象处于正常状态，第二类别表示目标对象处于异常状态。例如，第一类别为阴性，第二类别为阳性。

在一种可能实现方式中，医学图像中的异常区域是指医学图像中发生病变的区域，例如，异常区域为病灶区域；对应地，医学图像中的正常区域是指医学图像中未发生病变的区域。计算机设备基于识别结果，分别对每个医学图像进行分割，得到每个医学图像中的异常区域，即将每个医学图像中的异常区域分割出来，便于对分割出的异常区域进行进一步的处理。例如，计算机设备对宫颈的CT图像进行分割，分割出CT图像中的病灶区域，对该病灶区域进行进一步识别，以确定该病灶区域的尺寸、形状等，得到该病灶区域更准确的信息。

需要说明的是，在医学领域中，本申请实施例中得到的识别结果仅是一种辅助医生对疾病进行识别的依据。例如，在癌症识别场景下，医生需要结合目标对象的识别结果、癌症相关的其他信息以及目标对象的身体状况，来识别目标对象是否患有癌症。

本申请实施例提供的方法，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，融合多个空间特征，并基于得到的第一融合空间特征，提取目标对象的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征识别目标对象时，也提高了识别结果的准确率。

并且，本申请实施例中在提取空间特征时，融合第一图像特征与第二图像特征，对融合得到的第三图像特征进行空间特征提取，使提取空间特征时，能够利用更多的信息，进一步提高了空间特征的准确率，避免了获取第二图像特征的过程中丢失第一图像特征中的信息，导致提取的空间特征不准确。同理，在提取时空特征时，将融合第一融合空间特征与第二融合空间特征，对融合得到的第三融合空间特征进行时序特征提取，使提取时空特征时，能够利用更多的信息，进一步提高了时空特征的准确率，避免了获取第二融合空间特征的过程中丢失第一融合空间特征中的信息，导致提取的时空特征不准确。

并且，本申请实施例中，利用第一图像特征中每个区域特征对应的第一注意力参数，获取第一图像特征对应的第二图像特征，使第二图像特征中能够凸显出更加重要的图像区域的区域特征；同理，利用第一融合空间特征中每个空间子特征对应的第二注意力参数，获取第一融合空间特征对应的第二融合空间特征，使第二融合空间特征能够凸显出更加重要的医学图像的空间特征。

上述图3所示的实施例是以计算机设备直接对多个医学图像进行处理，实现对象识别为例进行说明，在另一实施例中，计算机设备调用图像识别模型对多个医学图像进行处理，实现对象识别。下面先对图像识别模型的结构进行介绍：

参见图4，该图像识别模型400包括第一提取网络401、第二提取网络402和识别网络403。其中，第一提取网络401与第二提取网络402连接，第二提取网络402还与识别网络403连接，第一提取网络401用于提取医学图像的空间特征，第二提取网络402用于提取目标对象的时空特征，识别网络403用于识别目标对象。

在一种可能实现方式中，图像识别模型400为TiT(Transformer in Transformer)，即图像识别模型400为级联Transformer，TiT由至少两个Transformer级联得到。其中，第一提取网络和第二提取网络均为一个Transformer。

可选地，对于每个医学图像，分别采用不同的第一提取网络401来提取空间特征，这种情况下，参见图5，该图像识别模型400包括多个第一提取网络401(图5中以3个为例)，每个第一提取网络401用于基于一个医学图像提取空间特征，该多个第一提取网络401分别与第二提取网络402连接。

可选地，参见图6，该图像识别模型4001还包括第三提取网络404，该第三提取网络404与第一提取网络401连接，该第三提取网络404用于提取医学图像的图像特征，即将医学图像转换为计算机设备能够处理的形式。在图像识别模型400包括多个第一提取网络401的情况下，第三提取网络404分别与每个第一提取网络401连接。

在一种可能实现方式中，第一提取网络401和第二提取网络402具有类似的网络结构，以第一提取网络401的网络结构为例，参见图7，该第一提取网络401包括第一正则化层411、第一注意力层421、第一提取层431。其中，第一正则化层411与第一注意力层421连接，第一注意力层421还与第一提取层431连接。

可选地，参见图8，第一提取层431包括第一融合层、第二正则化层和多层感知机，第一提取网络401还包括第二融合层441。其中，第一融合层与上一个网络的最后一层、第一注意力层421及第二正则化层连接，第二正则化层还与多层感知机连接，多层感知机还与第二融合层441连接，第二融合层还与第一融合层连接。

下面对调用上述所示的图像识别模型进行对象识别的过程进行详细说明。图9是本申请实施例提供的另一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图9，该方法包括以下步骤：

901、计算机设备调用第三提取网络，分别提取多个医学图像的第一图像特征。

其中，第三提取网络用于对医学图像进行编码，以获取医学图像的第一图像特征。

可选地，图像识别模型包括一个第三提取网络，该第三提取网络依次提取多个医学图像的第一图像特征；或者图像识别模型包括多个第三提取网络，每个第三提取网络提取一个医学图像的第一图像特征。

例如，第三提取网络采用下述公式提取多个医学图像的第一图像特征：

M＝Encoder(x)

其中，M表示提取得到的第一图像特征，x表示输入的医学图像，Encoder(·)表示采用CNN进行提取。

其中，任一医学图像的分辨率(长×宽)为H×W，任一医学图像的通道数量为C，医学图像的个数为T，C和T均为正整数。

902、计算机设备调用第一提取网络，分别基于多个医学图像的第一图像特征，提取多个医学图像的空间特征。

本申请实施例中，图像识别模型中仅包括一个第一提取网络的情况下，计算机设备调用该第一提取网络，依次基于多个医学图像的第一图像特征提取空间特征，从而得到多个空间特征；图像识别模型包括多个第一提取网络的情况下，计算机设备分别调用一个第一提取网络，基于一个医学图像的第一图像特征提取空间特征，得到该医学图像的空间特征。

任一第一提取网络对医学图像的空间特征的提取过程是相同的。下面以任一第一提取网络为例，对空间特征的提取过程进行说明：

在一种可能实现方式中，第一提取网络包括第一注意力层和第一提取层，对于每个医学图像，计算机设备调用第一注意力层，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，按照多个第一注意力参数，对多个区域特征进行融合，得到医学图像对应的第二图像特征；调用第一提取层，基于第二图像特征，提取医学图像的空间特征。其中，第一注意力参数表征对应的区域特征在第一图像特征中的重要程度，每个区域特征对应医学图像中的一个图像区域，医学图像包括多个图像区域。

对于第一注意力参数的确定，在一种可能实现方式中，计算机设备调用第一注意力层，将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征；基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

例如，计算机设备调用第一注意力层，将每个区域特征分别映射至三个特征空间中，该三个特征空间分别对应的查询(query)维度、键(key)维度以及值(value)特征维度，采用下述公式，确定每个区域特征对应的第一注意力参数：

[q,k,v]＝yU _qkv

其中，q表示查询维度的映射特征，k表示键维度的映射特征，v表示值特征维度的映射特征，y表示任一区域特征，U _qkv表示训练得到的模型参数，A表示该任一区域特征对应的第一注意力参数，softmax(·)表示进行归一化处理，D _h表示第一注意力层中的隐藏层的维度个数。

对应地，采用下述公式，确定医学图像对应的第二图像特征：

SA(y)＝Av

MSA(y)＝[SA ₁(y)；SA ₂(y)；…；SA _k(y)]U _mas

其中，SA(y)表示对任一区域特征进行加权后的区域特征，MSA(y)表示第二图像特征，k表示将医学图像划分为了k个图像区域，U _mas表示训练得到的模型参数。

在一种可能实现方式中，第一提取网络包括残差网络结构，即第一提取网络还包括第一融合层，计算机设备调用第一融合层，融合第二图像特征与第一图像特征，得到医学图像对应的第三图像特征；调用第一提取层，基于第三图像特征，提取医学图像的空间特征。

另外，在一种可能实现方式中，为了减小处理过程中的计算量，提高处理速度，第一提取网络还包括第一正则化层和第二正则化层，计算机设备调用第一正则化层，对第一图像特征进行归一化处理，得到处理后的第一图像特征。同理，计算机设备调用第二正则化层，对第三图像特征进行归一化处理，得到处理后的第三图像特征。

可选地，第一提取层包括多层感知机，计算机设备调用多层感知机基于第三图像特征，提取空间特征。

在一种可能实现方式中，为了避免在对第三图像特征进行处理得到空间特征的过程中丢失第三图像特征中的信息，导致后续提取的时空特征不准确，计算机设备融合第三图像特征与空间特征，得到融合后的空间特征，后续对该融合后的空间特征进行处理。

903、计算机设备调用第二提取网络，融合所提取的多个空间特征，得到第一融合空间特征，基于第一融合空间特征，提取时空特征。

在一种可能实现方式中，第二提取网络包括第三融合层，计算机设备调用该第三融合层融合多个空间特征，得到第一融合空间特征。例如，在第三融合层中采用下述公式，得到第一融合空间特征：

其中，z表示第一融合空间特征，

表示输入的医学图像的空间特征，T表示共T个医学图像。其中，

与上述步骤902中得到的输出MSA(y)相比，

是在MSA(y)中拼接了一行或者一列进行训练得到的模型参数后得到的。

在一种可能实现方式中，第二提取网络的网络结构与第一提取网络的网络结构类似，第二提取网络包括第二注意力层和第二提取层，计算机设备调用第二注意力层，将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，基于多个第二注意力参数，融合多个空间子特征，得到多个医学图像对应的第二融合空间特征；调用第二提取层，基于第二融合空间特征，提取时空特征。

对于第二注意力参数的确定，在一种可能实现方式中，计算机设备调用第二注意力层，将每个空间子特征分别映射到至少两个特征空间中，得到每个空间子特征对应的至少两个映射特征；基于每个空间子特征对应的至少两个映射特征，获取每个空间子特征对应的第二注意力参数。

在一种可能实现方式中，第二提取网络包括残差网络结构，即第二提取网络还包括第四融合层，计算机设备调用第四融合层，融合第二融合空间特征与第一融合空间特征，得到目标对象的第三融合空间特征；调用第二提取层，基于第三融合空间特征，提取时空特征。

另外，在一种可能实现方式中，为了减小处理过程中的计算量，提高处理速度，第二提取网络还包括第三正则化层和第四正则化层，计算机设备调用第三正则化层，对第一融合空间特征进行归一化处理，得到处理后的第一融合空间特征。同理，计算机设备调用第四正则化层，对第三融合空间特征进行归一化处理，得到处理后的第三融合空间特征。

可选地，第二提取层包括多层感知机，计算机设备调用多层感知机对第三融合空间特征进行时序特征提取，得到时空特征。

例如，在第二提取网络中采用下述公式提取时空特征：

其中，f表示时空特征，TT(·)表示进行时序特征提取，

表示第一融合空间特征。其中，

与上述融合得到的z相比，

是在z中拼接了一行或一列进行训练得到的模型参数后得到的。

需要说明的是，本申请实施例仅是以一个第二提取层为例进行说明，在另一实施例中，图像识别模型包括多个第二提取层，将当前第二提取层输出的时空特征，输入至下一个第二提取层，直至得到最后一个第二提取层输出的时空特征，将最后一个第二提取层输出的时空特征确定为目标对象的时空特征。

904、计算机设备调用识别网络，基于时空特征识别目标对象，得到目标对象的识别结果。

其中，识别网络用于识别目标对象，得到目标对象的识别结果。

在一种可能实现方式中，识别网络包括MLP和激活函数Softmax，计算机设备调用该MLP和激活函数Softmax，识别目标对象，得到识别结果。

在一种可能实现方式中，识别网络的输出为0或1，输出为1时，表示目标对象为正常状态，输出为0时，表示目标对象为异常状态。或者，识别网络的输出为概率，输出的概率大于参考概率时，表示目标对象为正常状态，输出的概率不大于参考概率时，表示目标对象为异常状态。

例如，参见图10，以目标对象的三个医学图像为例，首先经过第三提取网络1001，提取三个医学图像对应的第一图像特征，将得到的三个第一图像特征分别输入至对应的第一提取网络1002，经过第一提取网络1002输出空间特征，再将三个空间特征输入至第二提取网络1003，经过第二提取网络1003输出目标对象的时空特征，再将时空特征输入至识别网络1004，得到目标对象的识别结果。其中，在任一第一提取网络1002中，经过正则化层对第一图像特征进行归一化处理，将处理后的第一图像特征分别映射至三个特征空间，再经过多头注意力层对映射到的三个映射特征进行处理，输出第二图像特征，融合第一图像特征与第二图像特征，得到第三图像特征，将第三图像特征再经过一个正则化层进行归一化处理，得到处理后的第三图像特征，将处理后的第三图像特征输入至多层感知机，经过多层感知机的处理，得到对应的空间特征，再经过一个融合层，融合该空间特征与第三图像特征，得到融合后的空间特征。

在另一种可能实现方式中，计算机设备调用识别网络，分别对目标对象的每个医学图像进行识别，识别出每个医学图像中的异常区域之后，在医学图像中标记出异常区域，输出标记后的医学图像。例如，采用彩色的实线圈出医学图像中的异常区域，或者在异常区域填充医学图像中没有的颜色，或者采用其他方式标记，本申请实施例对此不做限制。

另外，相关技术中提供了一种图像识别模型的结构，参见图11，也以目标对象的三个医学图像为例，这三个医学图像分别由对应的卷积神经网络1101进行特征提取，将提取得到的三个特征均输入至图卷积网络1102，由图卷积网络1102融合三个特征，对融合后的特征进行识别，得到识别结果。其中，图卷积网络1102中的一个圆表示提取得到的一个特征。

本申请与相关技术相比：

相关技术中针对每个医学图像需要分别训练对应的卷积神经网络，导致训练量大，模型训练困难，识别效率低，且由于是针对不同的医学图像分别提取特征，没有充分考虑不同医学图像之间的关系，因此，对多个医学图像的空间信息和时序信息利用不充分，导致识别准确率较低。

另外，相关技术中的图像识别模型包括Early fusion(早期融合)模型、Voting(投票)模型、MLP、LSTM(Long Short-Term Memory，长短期记忆网络)和GCN(Graph Convolutional Networks，图卷积网络)，对比本申请中的图像识别模型TiT的识别结果与相关技术中的图像识别模型的识别结果，采用精确率(Precision)、召回率(Recall)、准确率(Accuracy)、和模型中的参数数量对识别结果进行评估，可以看出本申请中的图像识别模型的识别准确率更高，且训练过程更加简单。对比结果参见下述表1，从表1中可看出，本申请中的图像识别模型得到的识别结果的精确率、召回率和准确率均是最大的，且与GCN相比，本申请中的图像识别模型需要学习的参数数量较少。

表1

另外，参见图12所示的医学图像及热力图，该热力图中指示了对应的医学图像中的病灶区域，通过对比本申请的识别结果及对应的热力图，可以确定本申请实施例提供的方法能够准确识别出医学图像中的病灶区域，得到的识别结果的准确率较高。

本申请实施例提供的方法，调用图像识别模型识别目标对象，先调用第一提取网络分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，调用第二提取网络，融合多个空间特征，并基于得到的第一融合空间特征，提取目标对象的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而调用识别网络，基于该时空特征识别目标对象时，也提高了识别结果的准确率。

并且，本申请实施例中的第一提取网络和第二提取网络中采用了残差网络结构，缓解了深度神经网络中增加深度带来的梯度消失问题，使提取空间特征或者提取时空特征时，能够利用更多的信息，进一步提高空间特征或时空特征的准确率。

并且，本申请实施例中，第一提取网络和第二提取网络均采用了注意力层，利用注意力层能够对第一图像特征进行进一步处理，使处理后的第二图像特征中能够凸显出更加重要的图像区域的区域特征；同理，利用注意力层能够对第一融合空间特征进行进一步处理，使处理后的第二融合空间特征能够凸显出更加重要的医学图像的空间特征。

本申请实施例中，计算机设备调用图像识别模型识别对象之前需要先训练图像识别模型。训练过程包括：

计算机设备获取多个样本图像及多个样本图像所属的样本识别结果；调用图像识别模型，对多个样本图像进行处理，得到样本对象的预测识别结果；根据样本识别结果和预测识别结果，训练图像识别模型。其中，多个样本图像为同一样本对象在不同时刻的图像。计算机设备对图像识别模型进行多次迭代训练，图像识别模型的训练次数达到参考次数，或者图像识别模型的训练时长达到参考时长时结束迭代训练。

可选地，采用已知的阴道镜数据集Time-lapsed Colposcopic Images(TCI，时序阴道镜图像)作为图像识别模型的样本数据集，该样本数据集中包含7668个病人的时序阴道镜图像，病人的年龄分布在24岁到49岁之间。这些病人被划分为4类，分别是non-cancerous(没有癌症)、Cervical Intraepithelial Neoplasia1(CIN1，宫颈上皮内瘤变1)、CIN2～3以及Cancer(癌症)。将CIN1、CIN2～3以及Cancer合并成1类，统称为低度鳞状上皮内病变或更严重。将样本数据集中80％的样本用于训练图像识别模型，20％的样本用于测试图像识别模型。其中，每个病人的样本数据均包含5个时间节点的图像(初始图像，60秒后的图像，90秒的图像，120秒的图像以及150秒的图像)。

在一种可能实现方式中，输出的识别结果为概率的情况下，计算机设备采用交叉熵损失函数或者其他损失函数，对输出的概率进行处理，根据损失函数的输出结果训练图像识别模型。

需要说明的是，上述图9中调用图像识别模型识别对象的计算机设备，与训练图像识别模型的计算机设备可以是同一个计算机设备，也可以是不同的计算机设备。例如，上述图9所示实施例中的计算机设备是服务器，或者是用户的终端，训练图像识别模型的计算机设备是开发人员的终端或服务器。或者，上述图9所示实施例中的计算机设备和训练图像识别模型的计算机设备是同一个服务器。

本申请实施例中的图像识别模型中包含残差网络结构，因此该图像识别模型的模型训练过程更加简单，计算量小，明显提高了图像识别模型的训练速度。

本申请实施例提供的方法可应用于多种场景下，以下将通过图13所示的实施例，对本申请的图像分割场景进行说明：

1301、计算机设备采集宫颈在不同时刻的多个CT图像。

1302、计算机设备分别提取每个CT图像的第一图像特征。

1303、计算机设备分别基于提取的多个第一图像特征，提取每个CT图像的空间特征。

1304、计算机设备融合所提取的多个空间特征，得到宫颈的第一融合空间特征。

1305、计算机设备基于第一融合空间特征，提取宫颈的时空特征。

1306、计算机设备基于时空特征，确定宫颈的识别结果，该识别结果用于指示每个CT图像中的异常区域。

1307、计算机设备基于宫颈的识别结果，分别对每个CT图像进行分割，得到每个CT图像中的病灶区域。

图14是本申请实施例提供的一种对象识别装置的结构示意图。参见图14，该装置包括：

空间特征提取模块1401，用于分别提取多个医学图像的空间特征，多个医学图像为同一目标对象在不同时刻的图像；

空间特征融合模块1402，用于融合所提取的多个空间特征，得到目标对象的第一融合空间特征；

时空特征提取模块1403，用于基于第一融合空间特征，提取目标对象的时空特征，时空特征表征多个医学图像在不同时刻的空间信息的变化；

对象识别模块1404，用于基于时空特征识别目标对象，得到目标对象的识别结果。

本申请实施例提供的装置，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，融合多个空间特征，并基于得到的第一融合空间特征，提取目标对象的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征识别目标对象时，也提高了识别结果的准确率。

在一种可能实现方式中，参见图15，该装置还包括：

图像特征提取模块1405，用于分别提取多个医学图像的第一图像特征；

空间特征提取模块1401，用于分别基于多个医学图像的第一图像特征，提取多个医学图像的空间特征。

在一种可能实现方式中，参见图15，空间特征提取模块1401，包括：

第一注意力确定单元1411，用于对于每个医学图像，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，第一注意力参数表征对应的区域特征在第一图像特征中的重要程度，医学图像包括多个图像区域，每个区域特征对应医学图像中的一个图像区域；

第一特征融合单元1421，用于基于多个第一注意力参数，对多个区域特征进行加权融合，得到医学图像对应的第二图像特征；

空间特征提取单元1431，用于基于第二图像特征，提取医学图像的空间特征。

在一种可能实现方式中，第一注意力确定单元1411，用于：

将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中至少两个特征空间表征对应图像区域中的不同像素点在对应的维度上的相似度；

基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

在一种可能实现方式中，空间特征提取单元1431，用于：

融合第二图像特征与第一图像特征，得到医学图像对应的第三图像特征；

基于第三图像特征，提取医学图像的空间特征。

在一种可能实现方式中，参见图15，空间特征提取模块1401，还包括：

第一归一化单元1441，用于对第三图像特征进行归一化处理，得到处理后的第三图像特征。

第二归一化单元1451，用于分别对每个医学图像的第一图像特征进行归一化处理，得到每个医学图像处理后的第一图像特征。

在一种可能实现方式中，参见图15，时空特征提取模块1403，包括：

第二注意力确定单元1413，用于将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，第二注意力参数表征对应的空间子特征在第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元1423，用于基于多个第二注意力参数，融合多个空间子特征，得到多个医学图像对应的第二融合空间特征；

时空特征提取单元1433，用于基于第二融合空间特征，提取时空特征。

在一种可能实现方式中，参见图15，时空特征提取单元1433，用于：

融合第二融合空间特征与第一融合空间特征，得到目标对象的第三融合空间特征；

基于第三融合空间特征，提取时空特征。

在一种可能实现方式中，识别结果用于指示目标对象的状态，参见图15，该装置还包括：

状态确定模块1406，用于基于识别结果，确定目标对象的状态。

在一种可能实现方式中，识别结果用于指示每个医学图像中的异常区域，参见图15，该装置还包括：

图像分割模块1407，用于基于识别结果，分别对每个医学图像进行分割，得到每个医学图像中的异常区域。

在一种可能实现方式中，图像识别模型包括第一提取网络、第二提取网络和识别网络，空间特征提取模块1401，用于调用第一提取网络，分别提取多个医学图像的空间特征；

空间特征融合模块1402，用于调用第二提取网络，融合所提取的多个空间特征，得到第一融合空间特征；

时空特征提取模块1403，用于调用第二提取网络，基于第一融合空间特征，提取时空特征；

对象识别模块1404，用于调用识别网络，基于时空特征识别目标对象，得到目标对象的识别结果。

在一种可能实现方式中，图像识别模型还包括第三提取网络，参见图15，装置还包括：

图像特征提取模块1405，用于调用第三提取网络，分别提取多个医学图像的第一图像特征；

空间特征提取模块1401，用于调用第一提取网络，分别基于多个医学图像的第一图像特征，提取多个医学图像的空间特征。

在一种可能实现方式中，第一提取网络包括第一注意力层和第一提取层，参见图14，空间特征提取模块1401，包括：

第一注意力确定单元1411，用于对于每个医学图像，调用第一注意力层，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，第一注意力参数表征对应的区域特征在图像特征中的重要程度，每个区域特征对应医学图像中的一个图像区域，医学图像包括多个图像区域；

第一特征融合单元1421，用于调用第一注意力层，按照多个第一注意力参数，对多个区域特征进行融合，得到医学图像对应的第二图像特征；

空间特征提取单元1431，用于调用第一提取层，基于第二图像特征，提取医学图像的空间特征。

在一种可能实现方式中，第二提取网络包括第二注意力层和第二提取层，参见图14，时空特征提取模块1403，包括：

第二注意力确定单元1413，用于调用第二注意力层，将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，第二注意力参数表征对应的空间子特征在第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元1423，用于调用第二注意力层，基于多个第二注意力参数，融合多个空间子特征，得到多个医学图像对应的第二融合空间特征；

时空特征提取单元1433，用于调用第二提取层，基于第二融合空间特征，提取时空特征。

在一种可能实现方式中，图像识别模型的训练过程包括：

获取多个样本图像及多个样本图像所属的样本识别结果，多个样本图像为同一样本对象在不同时刻的图像；

调用图像识别模型，对多个样本图像进行处理，得到样本对象的预测识别结果；

根据样本识别结果和预测识别结果，训练图像识别模型。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的对象识别装置在识别对象时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对象识别装置与对象识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的对象识别方法所执行的操作。

可选地，该计算机设备提供为终端。图16是本申请实施例提供的一种终端1600的结构示意图。该终端1600可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，该终端1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1601所执行以实现本申请中方法实施例提供的对象识别方法。

在一些实施例中，终端1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：显示屏1604、摄像头组件1605中的至少一种。

外围设备接口1603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

显示屏1604用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1604是触摸显示屏时，显示屏1604还具有采集在显示屏1604的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。

摄像头组件1605用于采集图像或视频。可选地，摄像头组件1605包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

在一些实施例中，终端1600还包括有一个或多个传感器1606。该一个或多个传感器1606包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、光学传感器1614以及接近传感器1615。

本领域技术人员可以理解，图16中示出的结构并不构成对终端1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图17是本申请实施例提供的一种服务器的结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1701和一个或一个以上的存储器1702，其中，存储器1702中存储有至少一条计算机程序，该至少一条计算机程序由处理器1701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的对象识别方法所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得计算机设备实现上述实施例的对象识别方法所执行的操作。

需要说明的是，在本申请实施例中，涉及到对象特征、对象图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种对象识别方法，所述方法包括：

计算机设备分别提取多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

所述计算机设备融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征；

所述计算机设备基于所述第一融合空间特征，提取所述目标对象的时空特征，所述时空特征表征所述多个医学图像在不同时刻的空间信息的变化；

所述计算机设备基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果。
根据权利要求1所述的方法，其中，所述计算机设备分别提取多个医学图像的空间特征之前，所述方法还包括：

所述计算机设备分别提取所述多个医学图像的第一图像特征；

所述计算机设备分别提取多个医学图像的空间特征，包括：

所述计算机设备分别基于所述多个医学图像的第一图像特征，提取所述多个医学图像的空间特征。
根据权利要求2所述的方法，其中，所述计算机设备分别基于所述多个医学图像的第一图像特征，提取所述多个医学图像的空间特征，包括：

对于每个医学图像，所述计算机设备将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数表征对应的区域特征在所述图像特征中的重要程度，所述医学图像包括多个图像区域，每个区域特征对应所述医学图像中的一个图像区域；

所述计算机设备基于多个第一注意力参数，对所述多个区域特征进行加权融合，得到所述医学图像对应的第二图像特征；

所述计算机设备基于所述第二图像特征，提取所述医学图像的空间特征。
根据权利要求3所述的方法，其中，所述分别获取所述多个区域特征对应的第一注意力参数，包括：

将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中所述至少两个特征空间表征对应图像区域中的不同像素点在对应的维度上的相似度；

基于所述每个区域特征对应的至少两个映射特征，获取所述每个区域特征对应的第一注意力参数。
根据权利要求3所述的方法，其中，所述计算机设备基于所述第二图像特征，提取所述医学图像的空间特征，包括：

所述计算机设备融合所述第二图像特征与所述第一图像特征，得到所述医学图像对应的第三图像特征；

所述计算机设备基于所述第三图像特征，提取所述医学图像的空间特征。
根据权利要求5所述的方法，其中，所述基于所述第三图像特征，提取所述医学图像的空间特征之前，所述方法还包括：

对所述第三图像特征进行归一化处理，得到处理后的所述第三图像特征。
根据权利要求3所述的方法，其中，所述对于每个医学图像，所述计算机设备将所述医学图像的第一图像特征划分为多个区域特征之前，所述方法还包括：

所述计算机设备分别对所述每个医学图像的第一图像特征进行归一化处理，得到所述每个医学图像处理后的所述第一图像特征。
根据权利要求1所述的方法，其中，所述计算机设备基于所述第一融合空间特征，提取所述目标对象的时空特征，包括：

所述计算机设备将所述第一融合空间特征划分为多个空间子特征，分别获取所述多个空间子特征对应的第二注意力参数，所述第二注意力参数表征对应的空间子特征在所述第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

所述计算机设备基于多个第二注意力参数，融合所述多个空间子特征，得到所述多个医学图像对应的第二融合空间特征；

所述计算机设备基于所述第二融合空间特征，提取所述时空特征。
根据权利要求8所述的方法，其中，所述计算机设备基于所述第二融合空间特征，提取所述时空特征，包括：

所述计算机设备融合所述第二融合空间特征与所述第一融合空间特征，得到所述目标对象的第三融合空间特征；

所述计算机设备基于所述第三融合空间特征，提取所述时空特征。
根据权利要求1所述的方法，其中，所述方法基于图像识别模型执行，所述图像识别模型包括第一提取网络、第二提取网络和识别网络，所述计算机设备分别提取多个医学图像的空间特征，包括：

所述计算机设备调用所述第一提取网络，分别提取多个医学图像的空间特征；

所述计算机设备融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征，包括：

所述计算机设备调用所述第二提取网络，融合所提取的多个空间特征，得到所述第一融合空间特征；

所述计算机设备基于所述第一融合空间特征，提取所述目标对象的时空特征，包括：

所述计算机设备调用所述第二提取网络，基于所述第一融合空间特征，提取所述时空特征；

所述计算机设备基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果，包括：

所述计算机设备调用所述识别网络，基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果。
根据权利要求10所述的方法，其中，所述图像识别模型还包括第三提取网络，所述计算机设备调用所述第一提取网络，分别提取多个医学图像的空间特征之前，所述方法还包括：

所述计算机设备调用所述第三提取网络，分别提取所述多个医学图像的第一图像特征；

所述计算机设备调用所述第一提取网络，分别提取多个医学图像的空间特征，包括：

所述计算机设备调用所述第一提取网络，分别基于所述多个医学图像的第一图像特征，提取所述多个医学图像的空间特征。
根据权利要求11所述的方法，其中，所述第一提取网络包括第一注意力层和第一提取层，所述计算机设备调用所述第一提取网络，分别提取多个医学图像的空间特征，包括：

对于每个医学图像，所述计算机设备调用所述第一注意力层，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数表征对应的区域特征在所述第一图像特征中的重要程度，每个区域特征对应所述医学图像中的一个图像区域，所述医学图像包括多个图像区域；

所述计算机设备调用所述第一注意力层，按照多个第一注意力参数，对所述多个区域特征进行融合，得到所述医学图像对应的第二图像特征；

所述计算机设备调用所述第一提取层，基于所述第二图像特征，提取所述医学图像的空间特征。
一种对象识别装置，所述装置包括：

空间特征提取模块，用于分别提取多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

空间特征融合模块，用于融合所提取的多个空间特征，得到所述目标对象的第一融合空间特征；

时空特征提取模块，用于基于所述第一融合空间特征，提取所述目标对象的时空特征，所述时空特征表征所述多个医学图像在不同时刻的空间信息的变化；

对象识别模块，用于基于所述时空特征识别所述目标对象，得到所述目标对象的识别结果。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至12任一权利要求所述的对象识别方法所执行的操作。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至12任一权利要求所述的对象识别方法所执行的操作。
一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述计算机设备实现如权利要求1至12任一权利要求所述的对象识别方法所执行的操作。