WO2022023806A1

WO2022023806A1 - 程序场景信息的检测方法、装置、电子设备、介质和程序

Info

Publication number: WO2022023806A1
Application number: PCT/IB2020/059587
Authority: WO
Inventors: 张明远; 吴金易; 金代圣; 赵海宇; 伊帅
Original assignee: 商汤国际私人有限公司
Priority date: 2020-07-28
Filing date: 2020-10-13
Publication date: 2022-02-03
Also published as: JP2023504387A; TWI748720B; TW202205144A; CN111860403B; CN111860403A; KR20220075442A

Abstract

本申请实施例提供了一种场景信息的检测方法和装置、电子设备，其中，该方法可以包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的特征维度是Cy*1的汇聚特征，其中，Cy是汇聚特征的通道维度，且Cy与目标节点的节点特征的通道维度相同；其中，场景异构图包括至少两种异质节点：辅助节点以及基于场景图像得到的目标节点；基于汇聚特征更新目标节点的节点特征；根据更新后的目标节点的节点特征，获得场景图像的场景信息。

Description

程序场景信息的检测方法、装置、电子设备、介质和程序相关申请的交叉引用本申请基于申请号为 202010739363.2、申请日为 2020年 7月 28日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。技术领域本申请涉及计算机视觉技术，涉及但不限于一种场景信息的检测方法、装置、电子设备、计算机可读存储介质和计算机程序。背景技术随着深度学习技术的不断发展，场景理解算法可以获取场景图像中包含的场景信息，例如，该场景信息可以是场景图像中包含哪些物体，或者场景图像中的各个物体之间具有怎样的关系，即理解这个场景图像中正在发生什么事件。而由于场景图像中包含的信息复杂多样，出于计算量大等多种因素的考虑，现有的场景理解算法往往只能利用场景图像中的一种类型的信息来辅助场景的理解，使得最终获得的场景信息的检测精度有待提高。发明内容有鉴于此，本申请实施例至少提供一种场景信息的检测方法、装置、电子设备、计算机可读存储介质和计算机程序。本申请实施例提供一种场景信息的检测方法，所述方法包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，所述汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同；其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及基于所述场景图像得到的所述目标节点；基于所述汇聚特征，更新所述目标节点的节点特征；根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息。在一些实施例中，所述基于所述汇聚特征，更新所述目标节点的节点特征，包括：才艮据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应所述每个通道的所有特征位置利用所述通道特征进行特征更新处理。在一些实施例中，所述根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征；所述基于所述汇聚特征，更新所述目标节点的节点特征，包括：基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理，和成，通过所述残差向量对目标节点的节点特征的各通道进行相加处理。在一些实施例中，所述得到重加权向量和残差向量中的至少一种作为所述汇聚特征，包括：通过激活函数、以及所述目标节点的节点特征的标准差，将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。在一些实施例中，所述目标节点包括：对象组节点，所述对象组包括所述场景图像中的两个对象；所述根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息，包括： 4艮据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果。在一些实施例中，所述场景异构图中包括：以其中一个对象组节点作为终点的信息传输链，所述信息传输链包括至少两个有向边组，每个有向边组包括由多个起点指向同一终点的多个有向边；所述信息传输链中的各个起点和终点中包括至少两种所述异质节点；所述根据与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，基于所述汇聚特征，更新所述目标节点的节点特征，包括：对于所述至少两个有向边组中的第一有向边组，以所述第一有向边组指向的同一个第一终点作为所述目标节点， 4艮据连接所述第一终点的各个起点的节点特征得到汇聚特征，基于所述汇聚特征更新所述第一终点的节点特征；所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点；对于所述第二有向边组，以所述第二有向边组指向的同一个第二终点作为所述目标节点，根据连接所述第二终点的各个起点的节点特征得到汇聚特征，基于所述汇聚特征更新所述第二终点的节点特征。在一些实施例中，所述至少两个有向边组的一个所述有向边组的起点和终点，包括如下其中一项：所述起点包括：由所述场景图像提取特征得到的各个像素节点，所述终点是由所述场景图像提取到的物体节点；或者，所述起点和终点均包括：由所述场景图像提取到的物体节点；或者，所述起点包括由所述场景图像提取到的物体节点，所述终点包括所述对象组节点；或者，所述起点包括所述对象组节点，所述终点包括所述物体节点。在一些实施例中，所述各辅助节点包括：多个像素节点；所述方法还包括：根据所述场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；将所述多个特征图缩放到同一尺寸后进行融合，得到融合特征图；根据所述融合特征图，得到多个所述像素节点的节点特征。在一些实施例中，所述 4艮据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果，包括：根据所述对象组节点的节点特征，得到预测的初始分类置信度，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的初始分类置信度；根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度，得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度；若所述置信度大于或等于预设的置信度阈值，则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。本申请实施例提供一种场景信息的检测方法，所述方法由图像处理设备执行；所述方法包括：获取图像采集设备采集到的场景图像；根据本申请任一实施例提供的检测方法，对所述场景图像进行处理，输出所述场景图像中的场景信息。本申请实施例提供一种场景信息的检测装置，所述装置包括：特征处理模块，配置为根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，所述汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同；其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及基于所述场景图像得到的所述目标节点；特征更新模块，配置为基于所述汇聚特征，更新所述目标节点的节点特征；信息确定模块，配置为根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息。在一些实施例中，所述特征更新模块，在配置为基于所述汇聚特征更新所述目标节点的节点特征时，包括： 4艮据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应每个通道的所有特征位置利用所述通道特征进行特征更新处理。在一些实施例中，所述特征处理模块，具体配置为根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征；所述特征更新模块，具体配置为基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理，和成，通过所述残差向量对目标节点的节点特征的各通道进行相加处理。在一些实施例中，所述特征处理模块，在配置为得到重加权向量和残差向量中的至少一种作为所述汇聚特征时，包括：通过激活函数、以及所述目标节点的节点特征的标准差，将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。在一些实施例中，所述目标节点包括：对象组节点，所述对象组包括所述场景图像中的两个对象；所述信息确定模块，具体配置为根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果。在一些实施例中，所述场景异构图包括：以其中一个对象组节点作为终点的信息传输链，所述信息传输链包括至少两个有向边组，每个有向边组包括由多个起点指向同一终点的多个有向边；所述信息传输链中的各个起点和终点中包括至少两种所述异质节点；所述特征处理模块，配置为：对于所述至少两个有向边组中的第一有向边组，以所述第一有向边组指向的同一个第一终点作为所述目标节点，根据连接所述第一终点的各个起点的节点特征得到汇聚特征；所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点；对于所述第二有向边组，以所述第二有向边组指向的同一个第二终点作为所述目标节点，根据连接所述第二终点的各个起点的节点特征得到汇聚特征; 所述特征更新模块，配置为：基于连接所述第一终点的各个起点的节点特征得到的汇聚特征更新所述第一终点的节点特征；以及基于连接所述第二终点的各个起点的节点特征得到的汇聚特征更新所述第二终点的节点特征。在一些实施例中，所述至少两个有向边组的一个所述有向边组的起点和终点，包括如下其中一项：所述起点包括：由所述场景图像提取特征得到的各个像素节点，所述终点是由所述场景图像提取到的物体节点；或者，所述起点和终点均包括：由所述场景图像提取到的物体节点；或者，所述起点包括由所述场景图像提取到的物体节点，所述终点包括所述对象组 k 者，所述起点包括所述对象组节点，所述终点包括所述物体节点。在一些实施例中，所述各辅助节点包括：多个像素节点；所述特征处理模块，还配置为：根据所述场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；将所述多个特征图缩放到同一尺寸后进行融合，得到融合特征图；根据所述融合特征图，得到多个所述像素节点的节点特征。在一些实施例中，所述信息确定模块，在配置为 4艮据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果时，包括：根据所述对象组节点的节点特征，得到预测的初始分类置信度，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的初始分类置信度；根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度，得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度；若所述置信度大于或等于预设的置信度阈值，则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。本申请实施例提供一种场景信息的检测装置，所述装置应用于图像处理设备，所述装置包括：图像获取模块，配置为获取图像采集设备采集到的场景图像；信息输出模块，配置为根据本申请任一实施例的检测方法，对所述场景图像进行处理，输出所述场景图像中的场景信息。本申请实施例提供一种电子设备，包括：存储器、处理器，所述存储器配置为存储计算机可读指令，所述处理器配置为调用所述计算机指令，实现本申请任一实施例的检测方法。本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本申请任一实施例的检测方法。本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现本申请任一实施例的检测方法。本申请实施例提供的场景信息的检测方法、装置、电子设备、计算机可读存储介质和计算机程序，通过在更新节点特征时，在不同节点间传输通道级别的信息，使得可以在异质节点间传递信息，这样就能够融合多种类型的信息进行场景信息的检测，从而使得场景信息检测更力 P准确。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。附图说明为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图 1示出了本申请至少一个实施例提供的一种场景信息的检测方法；图 2示出了本申请至少一个实施例提供的一种特征更新的原理示意图；图 3示出了本申请至少一个实施例提供的另一种场景信息的检测方法；图 4示出了本申请至少一个实施例提供的场景异构图的示意图；图 5示出了本申请至少一个实施例提供的场景信息的检测装置；图 6示出了本申请至少一个实施例提供的另一种场景信息的检测装置。具体实施方式为了使本技术领域的人员更好地理解本申请一个或多个实施例中的技术方案，下面将结合本申请一个或多个实施例中的附图，对本申请一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。计算机视觉技术可以通过对某个场景的场景图像进行图像处理，进而获得关于对该场景内容的理解信息，可称为场景信息。该场景信息包括但不限于：例如，识别场景图像中包含的目标对象、检测场景图像中的对象在做的事情、检测场景图像中的不同对象之间的关系、根据场景图像的内容识别图像中蕴含的信息，等。在一些实施例中，可以由图像采集设备采集场景图像。其中，所述的场景可以是存在自动分析场景信息的需求的地方，例如，经常发生暴力斗殴等城市安全隐患的场所，可以安装监控摄像头等图像采集设备；又例如，如果一个超市等购物场所想要自动采集顾客购物的图像，并分析顾客对哪些商品的兴趣较高，也可以在超市内安装监控摄像头等图像采集设备。其中，所述的场景图像既可以是单帧图像，也可以是视频流中的其中部分图像帧。在采集到场景图像以后，可以将该场景图像传输至用于进行图像分析处理的图像处理设备，该图像处理设备可以按照本申请实施例后续提供的场景信息的检测方法，对图像采集设备采集到的图像进行分析，最终输出场景图像中的场景信息，例如，该场景信息可以是图像中的某些人正在打架。当然，这些都是示例而已，实际实施中不局限于上述列举的情况。而在对场景图像进行处理以获得场景信息的过程中，通常会依据场景中的部分信息作为辅助来获得要识别和检测的目标场景内容，这个过程就涉及到融合辅助信息的特征更新的过程，通过特征更新将多种辅助信息融合起来共同预测识别目标。本申请实施例提供一种场景信息的检测方法，该方法提供了一种特征更新的方式，通过该方法提供的方式更新特征，并根据更新特征检测场景信息。首先，通过对待识别的场景图像 (例如，采集的网球场的图像)进行特征提取等图像处理，可以得到多个节点，这些节点可以构成一个图网络，本实施例将该图网络称为场景异构图。该场景异构图中的所述多个节点至少包括两种类型的异质节点，所述的异质节点是指节点在节点特征维度 ( feature shapes )和节点特征分布 ( feature distributions )等方面都存在不同。上述的场景异构图中具体包括哪些异质节点，可以根据实际处理目标来确定，本实施例不做限制。需要注意的是，本实施例中的场景异构图中允许包括多种类型的异质节点，以融合更为丰富的信息来进行场景理解，并且，图中的各个节点之间可以建立有向边的连接，将有向边起点的特征融合进有向边终点的特征，以实现对有向边终点的特征优化更新。例如，如果要获得的场景信息是图像中的人和物体之间的关系，那么图中节点可以包括对象节点 (对象，可以是人或者物)、像素节点等不同节点。例如，在另一个场景理解任务中，图中节点除了包括人体节点、像素节点，还可以包括人体关键点对应的节点。既可以将同一个人的关键点之间连边，也可以在不同人的同一个关键点之间连边，这些关键点可以连接到人体检测框对应的节点上。通过具有连接边的节点之间的信息传递，能够优化更新人体特征，使得依据更新的人体特征更好的捕捉到人的动作姿态。例如，在又一个场景理解任务中，图中节点可以包括像素节点、对象节点，还可以将一个时刻的场景凝缩成一个对应该时刻的时刻节点。该时刻节点可以通过连接到像素节点上，来优化每个时刻中每个像素位置的特征表示，也可以将该时刻节点连接到具体的某个对象节点进行优化。此外，如果该场景理解任务还期望依据一些更整体性的环境因素进去，比如整体光照条件、天气等因素和特征，也可以在图中加入对应这些整体性因素的节点。总之，可以根据具体的场景理解任务，确定场景异构图中包括的节点，本实施例允许图中包括多种异质节点。如下的图 1将描述根据该场景异构图进行场景信息检测的处理，可以包括：步骤 100: 根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征。这里，汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同。其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及对场景图像进行特征提取得到的所述目标节点。其中，目标节点和辅助节点都可以是基于场景图像得到，比如，可以是对场景图像进行图像中的目标检测，检测到图像中的某个对象（如，人，或者物体），由此生成一个对应该对象的节点，可以是辅助节点。又比如，还可以是将场景图像中的两个对象组成一个对象组（如，一个人和一个网球），并生成一个对应该对象组的节点，可以是目标节点。其中的部分辅助节点还可以是以其他方式得到，比如，场景图像采集时的时间信息、光照条件信息等，这些信息也可以对应一个节点，可以是辅助节点，当然后续这些信息都可以编码融合进该辅助节点对应的节点特征中。由此可见，当得到一张场景图像后，可以基于该场景图像生成上述的目标节点、辅助节点，这些节点进而又构成了场景异构图。例如，该至少两种异质节点可以包括节点 A、节点 B、节点 C和节点 D四种类型的节点，每一种类型的节点数量可以是多个。并且，在该场景异构图中可以包括如下的节点连接关系：例如，多个节点 A连接到其中一个节点 B, 并且节点 A作为有向边的起点，节点 B 作为有向边的终点，那么，本步骤中的目标节点和各个辅助节点可以是，所述的多个节点 A为各个辅助节点，节点 B是目标节点。本步骤中，可以根据各个辅助节点的节点特征，得到待传播的汇聚特征，并且，汇聚特征的特征维度是 Cy*l，其中，所述 Cy是汇聚特征的通道维度，且 Cy与目标节点的节点特征的通道维度相同。示例性的，目标节点的节点特征有 256个通道，那么汇聚特征可以是一个 256维的向量。其中，上述提到的目标节点的节点特征，该节点特征可以是基于场景图像的至少一部分图像内容得到的一种信息，该节点特征中融合了目标节点对应的对象在场景图像中的图像信息。也正是由于该节点特征中融合了图像信息，使得能够根据该节点特征进行场景信息的预测，得到场景图像中藍含的场景信息。步骤 102: 基于所述汇聚特征，更新所述目标节点的节点特征。其中，所述的汇聚特征是综合了目标节点对应的各个辅助节点的节点特征得到的，该汇聚特征用于表示各辅助节点对目标节点的节点特征更新的影响，相当于将各辅助节点对应的图像内容的信息传输至目标节点对应的对象，以使得目标节点的节点特征融合进辅助节点对应的图像内容。本步骤中，汇聚特征和节点特征的通道维度相同，在更新目标节点的节点特征时，更新方式也是进行通道级（ channel -wise）的信息更新。具体可以是，根据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应所述通道的所有特征位置利用所述通道特征进行特征更新处理。例如，仍以上述的目标节点的节点特征有 256个通道，汇聚特征可以是一个 256维的向量为例。请结合参见图 2所示，根据多个辅助节点 A的节点特征可以计算得到一个汇聚特征 {pl,p2,p3...... p256} , 该汇聚特征是一个 256维的向量。目标节点 B的节点特征中每个通道有 7*7=49个特征位置，在对节点特征更新时，可以逐个通道进行更新。比如，如图 2所示，对目标节点的第一个通道进行更新时，可以由汇聚特征的向量中取出第一个向量元素 pi , 对目标节点的第一个通道中的所有特征位置都加上这个向量元素（这里以 “加”为例，在一些实施例中，还可以是“乘”等其他操作），实现对该第一个通道中所有特征位置的特征更新处理，图 2在部分特征位置处示出了 +pl 的操作。同理，对目标节点的第二个通道更新时，使用汇聚特征的向量中的第二个向量元素，将第二个通道中的所有特征位置都力 P上该第二个向量元素。步骤 104:根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息如上的步骤 100和步骤 102中，以其中一次目标节点的更新为例，实际实施中，由场景图像检测获得场景信息的过程中可以涉及到多次这样的特征更新。比如，在根据多个节点 A的特征更新了共同指向的一个节点 B的特征之后，该节点 B可以与其他的节点 B 一起，基于这些节点 B的节点特征去更新共同指向的节点 C的特征，更新方式与图 2 相同。在经过至少一次本实施例的特征更新后，可以利用更新后的目标节点的节点特征，最终获得所述场景图像中的场景信息。其中，在上述包括多次的特征更新的情况下，这里的更新后的目标节点的节点特征可以是最终得到更新的目标节点 (即最后的有向边终点，不再作为起点继续指向其他节点)，或者，也可以是场景异构图中选择的部分节点，本实施例不限制。此外，获得场景信息的方式以及具体的场景信息，可以根据实际业务需求确定，例如，若实际业务目标是预测场景中的对象间的关系，那么可以通过多层感知机根据更新节点特征预测对象间的关系类别。本实施例的场景信息检测方法，通过在更新节点特征时，在不同节点间传输通道级别的信息，使得可以在异质节点间传递信息，这样就能够融合多种类型的信息进行场景信息的检测，从而使得场景信息检测更加准确。图 3示例了另一种场景信息的检测方法，该方法在图 1 方法的基础上，示例了一种具体的通道信息的形式。如图 3所示，该方法可以包括如下处理：步骤 300: 根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征。本步骤中，根据多个辅助节点的节点特征得到的汇聚特征，可以是重加权向量和残差向量中的至少一种。例如，可以只有一个重加权向量，也可以只有一个残差向量，或者计算重加权向量和残差向量两种向量。通过表示重加权向量 ( channel -wise re-weighting vector ) , 表示残差向量 ( channel -wise residual vector )_» 这两个向量在计算时，可以先通过一个函数得到辅助节点的节点特征对目标节点的节点特征的影响参数，再将不同辅助节点的影响参数汇合起来，汇合的方式也可以有多种，例如，可以通过力口权求和，或者也可以通过多层感知机。如下示例两种重加权向量和残差向量的计算方式，但是可以理解的是，具体计算方式不限制于此：在一些实施例中，可以根据以下公式计算得出重加权向量和残差向量：

其中， H_w和 H_b为两个线性变换矩阵，可以用于将辅助节点的维度 C' * L' L'的节点特征变为通道维度是 C_y 的特征， /_x表示辅助节点的节点特征。为注意力权重，可以通过如下公式计算得出：

其中，和为两个线性变换矩阵，可以用于将辅助节点的节点特征 /_x和目标节点的节点特征 /_y变成同样维度 4的特征。这里 d_k 为一个超参数，可以根据情况做具体的设置。 <., > A两个向量的内积的计算函数 _^ 在一些实施例中，还可以根据以下公式计算得出重加权向量和残差向量：其中，和 //y 的作用类似于上一个计算方式中的和 y 可以用于将 /x和 /y 变成同样维度 4。这里［;］表示拼接，即将两个向量直接拼接在一起。 ML尸为多层感知机，具体的参数设定可以比较灵活。如上两种方式示例了重加权向量 W_y和残差向量 fr_y的计算获得，这两个向量的维度均为 Cy * 1。步骤 302: 基于所述汇聚特征，更新所述目标节点的节点特征，包括如下至少一项：基于重加权向量对目标节点的节点特征的各通道进行相乘处理，或者，通过残差向量向目标节点的节点特征的各通道进行相加处理。本步骤中，才艮据汇聚特征更新目标节点的节点特征时，也可以有多种方式。示例如下的一种更新公式： f_y = Conv_{UUC C} (sigmoid(w_y)0(f_y + a(f_y)® tanh(&_y))) (7) 其中，目标节点是 y, 维度是 Cy是通道维度， L₎；是目标节点的每个通道的特征尺寸；该目标节点的更新前的特征是 /_y, 更新后的新特征为 //，并假设共有 M条有向边指向该目标节点 y，这 M条有向边的起点即 M个辅助节点，这些 M个辅助节点组成的集合是 N(y), 且每个辅助节点的特征维度为 C'*L'。通过上述公式由 M个辅助节点的节点特征得到汇聚特征后传递至目标节点 y, 以得到更新后的新特征 /_y’。首先， W_y和可以按照步骤 300中示例的两种方式得到，并且这两个向量的维度为 Cy *l。请继续参见上述公式，该公式代表的操作包括：

1)、通过 Sigmoid激活函数，将映射至 (0,1) 区间；并且，通过激活函数 Tanh、以及目标节点的更新前的节点特征 /_y 标准差 c(f_y), 将残差向量 fr_y的取值映射到预定的数值区间［-stand, +stand］。其中， G(/_y) 的含义是求 /_y每个通道的标准差，是一个长度为 Cy * 1 的向量，每一位表示 /_y在对应通道上的 L>>这些位置数据的标准差。 Conv是一个 1维的卷积操作，卷积核大小为 1，输入的通道数和输出的通道数均为 Cy。

2 )、对于残差向量，该残差向量 crC/^Otanhf^)被“广播”到 /_y的每个通道的所有特征位置上，即 /_y +cr(/：_y)®tanh(fe_y)。然后， /_y的每个通道的数再乘以重加权向量，具体到公式中，可以是每个通道上的所有特征位置的数乘以通过 sigmoid激活函数变换后的重加权向量。最后，通过卷积操作对各个通道的信息进行融合，得到更新后的特征。上述公式是以同时计算了重加权向量和残差向量为例进行说明，实际实施中可以有多种变形形式。例如，不使用重加权向量 W_y, 或者不使用残差向量 fr_y, 或者不使用卷积操作 Conv等等。又例如，还可以是改变卷积操作的卷积核大小，或者还可以是先对重加权向量和残差向量做卷积再传播到 /_y的各个通道。再例如，在将汇聚特征融入目标节点的节点特征时，除了上述公式示例的乘和加的操作，还可以是其他形式，比如，除法，减法，或者多个嵌套 (例如，先加后乘等 X 本实施例的场景信息检测方法，具有如下效果：第一、通过在更新节点特征时在不同节点间传输通道级别的信息，使得可以在异质节点间传递信息，这样就能够融合多种类型的信息进行场景信息的检测，从而使得场景信息检测更加准确；并且，只传输通道级别的信息也使得信息传输量减小，能够快速的在异质节点间的信息传输；还能使得不用对不同异质节点的节点特征的信息进行预压缩，从而充分保留节点特征的原始内容，并由于不需要对原始特征做不可逆压缩，从而可以容易地应用于不同框架，具有广泛的适用性。第二、通过获取通道级别的重加权向量和残差向量传播到目标节点，使得目标节点的优化效果更好，依据目标节点的最终场景信息检测更加准确。第三、此外，本实施例中，还通过目标节点特征的标准差来约束残差向量的取值范围，使得更新后的新特征不会与更新前特征的特征分布发生较大的偏移，从而减轻异质节点的特征分布的差异对目标节点更新的影响。如上几点，本实施例提供的这种异质节点间的信息传输机制，通过通道级别信息的传输实现了不同特征维度的异质节点间的信息传递，通过标准差限制残差向量的取值范围降低不同特征分布的异质节点对目标节点特征分布的影响，从而该机制实现了异质节点间的信息传递，使得能够通过多种更为丰富的节点特征对目标节点特征进行优化，进而使得基于优化后的目标节点特征进行场景信息检测时更为准确。如下将以场景图像中的对象关系检测为例，来描述场景信息的检测方法，在下面的实施例中，检测的场景信息将是场景图像中的两个对象之间到的关系，并且，以这两个对象分别是人和物体为例，识别人和物体之间的关系 ( Human-object Interaction Detection, 筒称 HOI检测)，比如，人打球。请参见图 4的示例，该图 4示例了 HOI检测时根据场景图像构建的场景异构图。本实施例以场景异构图中包括三种节点为例：像素节点、物体节点和对象组节点；在其他的可选实施例中，该异构图中也可以包括其他类型的节点。如下示例一种上述三类型节点的节点特征的获得方式，但是实际实施中并不局限于此，也可以通过其他方式获得节点特征。像素节点 V_pix：其中一种具体的实现方式可以是利用 FPN对场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；然后，将所述多个特征图缩放到同一尺寸后，通过一个卷积层进行融合，得到融合特征图；最后，根据所述融合特征图，得到多个所述像素节点的节点特征。比如，融合特征图的特征维度为 256 * 7 * 7，其中 256是通道维数， H和 W分别表示特征图的高和宽。因此，场景异构图中可以包含 H * W 个用于表示像素的节点即像素节点，并且每个像素节点的维度为 256。上述方式中，通过将不同尺寸的特征图进行融合，可以使得融合特征图中既包含了很多低语义特征和局部特征 (来自高分辨率图 )，也包含了很多高语义信息和全局特征 (来自低分辨率图 )，使得像素节点中能够融合更加丰富的图像内容，有助于提高后续的场景信息的检测精度。物体节点 V_inst: 例如，可以利用 Faster R-CNN对场景图像进行处理，检测出场景图像中所有物体的类别和位置，并使用 Rol Align 算法来提取出每个物体的特征。假设检测算法检测出这个场景里有 N个物体，那么场景异构图中将会有 N个物体节点用于表示不同物体，并且每个物体节点的特征维度为 256 * 7 * 7。该物体节点例如可以是人、球、马等。或者，在其他的例子中，还可以是对物体检测框中的内容通过一个深度卷积神经网络如 ResNet50来提取特征。对象组节点 V_pair：假设场景图像中有 N个物体，那可以组成 N * ( N - 1 )个对象组节点。其中，对于 01和 02两个物体节点， “01-02”是一个对象组节点，该对象组节点的主体是 01，客体是 02; 而 “02-01”是另一个对象组节点，该对象组节点的主体是 02, 客体是 01。每个对象组节点的特征由三个区域的特征来决定。具体地，设对象组节点包括的两个物体节点对应物体的位置分别为 (ax 1, ay 1, ax², ay²)和 (bxl, byl, bx², by²),其中 axl 为第一个物体的检测框左上角的横坐标， ayl 为第一个物体的检测框左上角的纵坐标， ax2 为第一个物体的检测框右下角的横坐标， ay2 为第一个物体的检测框右下角的纵坐标， bxl 为第二个物体的检测框左上角的横坐标， byl 为第二个物体的检测框左上角的纵坐标， bx2 为第二个物体的检测框右下角的横坐标， by2 为第二个物体的检测框右下角的纵坐标。之后将会对三个区域利用 Rol Align 算法提取特征: (axl, ay2, ax2, ay²), (bxl, byl, bx2, by2), (min(axl, bxl), min(ayl, byl), max(ax2, bx2), max(ay2, by2))。每个区域经过 Rol Align 算法之后得到的 4征维度都为 256 * 7 * 7, 因此将会得到 3 个 256 * 7 * 7 的特征图。拼接后可以得到一个维度为 768 * 7 * 7 的特征图，这个将作为对象组节点的节点特征。因此场景异构图中将会包含这 N * ( N - 1 ) 个对象组节点，且每个对象组节点的特征维度是 768 * 7 * 7„ 在确定了图中的三种节点的节点特征后，还需要在各种节点之间建立连接的有向边。不同的异质节点之间建边的方式也可以有多种灵活的方式，如下示例两种方式：

【建边方式一 1 将所有像素节点向所有对象组节点连边，即会得到 H * W * N * (N - 1) 条有向边。将所有物体节点之间两两连边，即会得到 N * (N - 1) 条有向边。将所有物体节点和其对应的对象组节点 (即这个对象组节点中的主体 i者客体为该物体)连边，即会得到 2 * N * (N-1)条有向边。

【建边方式二】：将所有像素节点向所有物体节点连边，即会得到 H * W * N条有向边。将所有物体节点之间两两连边，即会得到 N * (N 1) 条有向边。将所有物体节点和其对应的对象组节点 (即这个对象组节点中的主体或者客体为该物体)连边，即会得到 2 * N * (N-1) 条有向边。上述建图方式中，像素节点的节点特征并没有直接传输给对象组节点，而是先传输给物体节点，再由物体节点传输给对象组节点，这种方式将物体节点作为桥梁，由于物体节点的数量比较少，能够降低信息传输量，提高传输效率。如上述两种方式中所述的，在节点之间连接的边是有向边，比如，将其中一个像素节点 Vpix向一个物体节点 Vinst连边，则该有向边是由像素节点 Vpix指向物体节点 Vinst, 起点是像素节点 Vpix, 终点是物体节点 Vinst。像素节点、物体节点和对象组节点的数量都可以是多个，相应的，上述三种类型的有向边的数量也可以是多个。这三种有向边的集合可以表示如下：

此外，在建立有向边时，不局限于上述列举的两种方式，可以有所调整。例如，可以删去物体节点之间的连边，或者当有人体关键点的节点时，可以增加人体关键点的节点到物体节点 (人体检测框)之间的连边。又例如，还可以将对象组节点再连接回物体节点，做多轮次的优化。比如，某个对象组节点 Vpair 的节点特征更新后，再作为起点继续更新连接的物体节点，然后该物体节点更新后又返回来再更新所述的对象组节点 Vpair。不论如何建立有向边，该场景异构图更新节点特征时，最终要获取的节点特征是对象组节点的特征，以根据该对象组节点的节点特征得到对象关系的预测结果。因此，场景异构图中存在以对象组节点为最终的终点的信息传输链。如图 4所示 (图 4仅是筒单示意，实际实施中的节点数量会较多 )，以对象组节点 41 为例，所述的信息传输链上包括三个有向边组：

(第一有向边组)：以物体节点 42为目标节点，以像素节点 43、 44和 45为各个辅助节点，根据各辅助节点的节点特征更新物体节点 42的节点特征。更新方式可以按照前述的公式，比如，计算获得重加权向量和残差向量，这些向量的通道维度与物体节点 42 的通道维度相同，对物体节点 42进行通道级更新。

(第二有向边组)：以物体节点 46为目标节点，以像素节点 47和 48为各个辅助节点，根据各辅助节点的节点特征更新物体节点 46的节点特征。更新方式可以按照前述的公式，不再许述。

(第三有向边组)：以对象组节点 41为目标节点，以物体节点 42和 46为各个辅助节点，根据各辅助节点的节点特征更新对象组节点 41的节点特征。如上，在包括很多异质节点的场景异构图中，可以依序逐个更新各个有向边组中的终点的节点特征，每个有向边组都是由起点向终点汇聚，直至最终更新对象组节点的节点特征。在得到对象组节点的节点特征后，可以根据该更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果，即 HOI的关系预测。例如，可以根据如下公式获得初始分类置信度。 = sigmoid(MLP(f_y))yy G V_pair (ii) 如上， MLP是多层感知机，是根据更新后的对象组节点的节点特征 /_y得到的初始分类置信度的向量，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的置信度，该向量的维度是 C_cia_SS+l , 其中的 C_cia_SS是预定关系类别的数量， 1是 “no action”。比如，对象组节点对应的两个对象一个是人，一个是网球，这两个之间的关系是“打”，即人打网球， “打” ( hit )就是一个预定关系类别，同理还可以有其他的关系， sy 包括了各个关系的置信度。接着，还可以基于所述初始分类置信度以及对象检测置信度，得到所述两个对象之间关系的预测结果。参见如下公式： score； = s_h -s_o -s_y ^c (12) 其中， c表示某一种预定的关系类别，表示某个对象组节点，

即该对象组节点在所述预定关系类别 c上的置信度，相当于对象组节点中的两个对象之间的关系是所述预定关系类别 c的概率。而 <可以是 ^向量中对应 c这种预定关系类别的置信度数值， A 和 \分别是对象组节点中两个对象分别对应的对象检测置信度，比如，是人体框的检测置信度，是物体框的检测置信度。在实际情况中，可以通过一个对象检测器

( object detector ) 由场景图像中检测对象，例如检测人体或者物体，将会得到一个对应的人体框或物体框，同时该对象检测器也会输出一个检测分 ( detection scores ), 可以称为对象检测置信度。由于检测框不是完美的，也会有误检或者不准的情况，因此检测框也有一个置信度即上述的对象检测置信度。实际实施中，可以设定一个对象关系的预测结果的阈值，对于某个对象组节点而言，若最终的预测结果达到这个阈值，才会确认该对象组节点的两个对象之间具有这种关系。以一个场景图像为例，可以遍历该场景图像中所有的 pair, 比如将所有人和物体都进行配对生成对象组节点。并对每一个对象组节点，按照上述方式获得该对象组节点分别对应每一个预定关系类别的置信度，并将具有高于阈值的置信度的对象组节点确认为由场景图像中识别到的 HOI关系。上述各个实施例中的 HOI关系的检测，可以具有多种应用：例如，在智慧城市中进行异常行为检测，通过该方法可以更好地判断是否发生人与人之间的暴力事件，或者有人在打砸店铺的行为等。又例如，在超市购物的场景中，通过该方法可以通过对超市采集图像的处理，自动分析每个人的购买内容，以及对什么物品比较关注。图 5提供了一示例性的场景信息的检测装置，如图 5所示，该装置可以包括：特征处理模块 51、特征更新模块 52和信息确定模块 53。特征处理模块 51，配置为根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，所述汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同；其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及基于所述场景图像得到的所述目标节点。特征更新模块 52，配置为基于所述汇聚特征，更新所述目标节点的节点特征。信息确定模块 53，配置为根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息。在一些实施例中，所述特征更新模块 52，在配置为基于所述汇聚特征更新所述目标节点的节点特征时，包括：根据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应每个通道的所有特征位置利用所述通道特征进行特征更新处理。在一些实施例中，所述特征处理模块 51，具体配置为相 4居场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征。所述特征更新模块 52，具体配置为基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理，和 /或，通过所述残差向量对目标节点的节点特征的各通道进行相加处理。在一些实施例中，所述特征处理模块 51，在配置为得到重加权向量和残差向量中的至少一种作为所述汇聚特征时，包括：通过激活函数、以及所述目标节点的节点特征的标准差，将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。在一些实施例中，所述目标节点包括：对象组节点，所述对象组包括所述场景图像中的两个对象；所述信息确定模块 53 ,具体配置为根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果。在一些实施例中，所述场景异构图中包括：以其中一个对象组节点作为终点的信息传输链，所述信息传输链包括至少两个有向边组，每个有向边组包括由多个起点指向同一终点的多个有向边；所述信息传输链中的各个起点和终点中包括至少两种所述异质节点。所述特征处理模块 51，配置为：对于所述至少两个有向边组中的第一有向边组，以所述第一有向边组指向的同一个第一终点作为所述目标节点， 4艮据连接所述第一终点的各个起点的节点特征得到汇聚特征；所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点；对于所述第二有向边组，以所述第二有向边组指向的同一个第二终点作为所述目标节点，根据连接所述第二终点的各个起点的节点特征得到汇聚特征。所述特征更新模块 52，配置为：基于连接所述第一终点的各个起点的节点特征得到的汇聚特征更新所述第一终点的节点特征；以及基于连接所述第二终点的各个起点的节点特征得到的汇聚特征更新所述第二终点的节点特征。在一些实施例中，所述至少两个有向边组的一个所述有向边组的起点和终点，包括如下其中一项：所述起点包括：由所述场景图像提取特征得到的各个像素节点，所述终点是由所述场景图像提取到的物体节点；或者，所述起点和终点均包括：由所述场景图像提取到的物体节点；或者，所述起点包括由所述场景图像提取到的物体节点，所述终点包括所述对象组 k 者，所述起点包括所述对象组节点，所述终点包括所述物体节点。在一些实施例中，所述各辅助节点包括：多个像素节点；所述特征处理模块 51，还配置为：根据所述场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；将所述多个特征图缩放到同一尺寸后进行融合，得到融合特征图；根据所述融合特征图，得到多个所述像素节点的节点特征。在一些实施例中，信息确定模块 53 , 在配置为 4艮据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果时，包括：根据所述对象组节点的节点特征，得到预测的初始分类置信度，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的初始分类置信度；根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度，得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度；若所述置信度大于或等于预设的置信度阈值，则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。图 6提供了一示例性的另一种场景信息的检测装置，该装置应用于图像处理设备，如图 6所示，所述装置包括：图像获取模块 61和信息输出模块 62。图像获取模块 61，配置为获取图像采集设备采集到的场景图像；信息输出模块 62，配置为根据本申请任一实施例的检测方法，对所述场景图像进行处理，输出所述场景图像中的场景信息。本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、 CD-ROM 、光学存储器等）上实施的计算机程序产品的形式。本申请实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本申请任一实施例描述的场景信息的检测方法。本申请实施例还提供一种电子设备，该电子设备包括：存储器、处理器，所述存储器配置为存储计算机可读指令，所述处理器配置为调用所述计算机指令，实现本申请任一实施例所述的场景信息的检测方法。其中，本申请实施例所述的 “和 /或”表示至少具有两者中的其中一个，例如， “A1和 / 或 A2”包括三种方案： Al、 A2、以及 “A1和 A2”。本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较筒单，相关之处参见方法实施例的部分说明即可。上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路一例如现场可编程门阵列 ( Field Programmable Gate Array, FPGA ) 或专用集成电路 ( Application Specific Integrated Circuit, ASIC ) 来执行，并且装置也可以实现为专用逻辑电路。适合用于执行计算机程序的计算机包括，例如通用和 /或专用彳敖处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和 /或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备接接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理 ( Personal Digital Assistant, PDA )、移动音频或视频播放器、游戏操纵台、全球定位系统 ( Global Positioning System, GPS )接收机、或例如通用串行总线 ( Universal Serial Bus, USB ) 闪存驱动器的便携式存储设备，仅举几例。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备、磁盘 (例如内部硬盘或可移动盘)、磁光盘以及 CD ROM和 DVD-ROM盘，这里，半导体存储设备可以是可擦除可编程只读存储器 ( Erasable Programmable Read-Only Memory, EPROM )、带电可擦可编程只读存储器 ( Electrically Erasable Programmable Read Only Memory, EEPROM )和闪存设备。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。以上所述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。工业实用性本申请实施例提供了一种场景信息的检测方法、装置、电子设备、计算机可读存储介质和计算机程序；该方法可以包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的特征维度是 Cy * 1的汇聚特征，其中， Cy是汇聚特征的通道维度，且 Cy与目标节点的节点特征的通道维度相同；其中，场景异构图包括至少两种异质节点：辅助节点以及基于场景图像得到的目标节点；基于汇聚特征更新目标节点的节点特征；根据更新后的目标节点的节点特征，获得场景图像的场景信息。

Claims

权利要求书

1、一种场景信息的检测方法，其中，所述方法包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，所述汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同；其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及基于所述场景图像得到的所述目标节点；基于所述汇聚特征，更新所述目标节点的节点特征；根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息。

2、根据权利要求 1所述的方法，所述基于所述汇聚特征，更新所述目标节点的节点特征，包括：才艮据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应所述每个通道的所有特征位置利用所述通道特征进行特征更新处理。

3、根据权利要求 1所述的方法，所述根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，包括：根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征；所述基于所述汇聚特征，更新所述目标节点的节点特征，包括：基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理，和成，通过所述残差向量对目标节点的节点特征的各通道进行相加处理。

4、根据权利要求 3所述的方法，所述得到重加权向量和残差向量中的至少一种作为所述汇聚特征，包括：通过激活函数、以及所述目标节点的节点特征的标准差，将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。

5、根据权利要求 1〜 4任一所述的方法，所述目标节点包括：对象组节点，所述对象组包括所述场景图像中的两个对象；所述根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息，包括：根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果；所述场景信息包括所述预测结果。

6、根据权利要求 5所述的方法，所述场景异构图包括：以其中一个对象组节点作为终点的信息传输链，所述信息传输链包括至少两个有向边组，每个有向边组包括由多个起点指向同一终点的多个有向边；所述信息传输链中的各个起点和终点中包括至少两种所述异质节点；所述根据与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，基于所述汇聚特征，更新所述目标节点的节点特征，包括：对于所述至少两个有向边组中的第一有向边组，以所述第一有向边组指向的同一个第一终点作为所述目标节点，根据连接所述第一终点的各个起点的节点特征得到汇聚特征，基于所述汇聚特征更新所述第一终点的节点特征；所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点；对于所述第二有向边组，以所述第二有向边组指向的同一个第二终点作为所述目标节点，根据连接所述第二终点的各个起点的节点特征得到汇聚特征，基于所述汇聚特征更新所述第二终点的节点特征。

7、根据权利要求 6所述的方法，所述至少两个有向边组的一个所述有向边组的起点和终点，包括如下其中一项：所述起点包括：由所述场景图像提取特征得到的各个像素节点，所述终点是由所述场景图像提取到的物体节点；或者，所述起点和终点均包括：由所述场景图像提取到的物体节点；或者，所述起点包括由所述场景图像提取到的物体节点，所述终点包括所述对象组 k 者，所述起点包括所述对象组节点，所述终点包括所述物体节点。

8、根据权利要求 1所述的方法，所述各辅助节点包括：多个像素节点；所述方法还包括：根据所述场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；将所述多个特征图缩放到同一尺寸后进行融合，得到融合特征图；根据所述融合特征图，得到多个所述像素节点的节点特征。

9、根据权利要求 5所述的方法，所述根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果，包括：根据所述对象组节点的节点特征，得到预测的初始分类置信度，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的初始分类置信度；才艮据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度，得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度；若所述置信度大于或等于预设的置信度阈值，则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。

10、一种场景信息的检测方法，所述方法由图像处理设备执行；所述方法包括：获取图像采集设备采集到的场景图像；根据权利要求 1〜9任一所述的检测方法，对所述场景图像进行处理，输出所述场景图像中的场景信息。

11、一种场景信息的检测装置，其中，所述装置包括：特征处理模块，配置为根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到待传播的汇聚特征，所述汇聚特征的特征维度是 Cy*l , 其中，所述 Cy是所述汇聚特征的通道维度，且所述 Cy与目标节点的节点特征的通道维度相同；其中，所述场景异构图包括至少两种异质节点，所述至少两种异质节点包括：所述辅助节点以及基于所述场景图像得到的所述目标节点；特征更新模块，配置为基于所述汇聚特征，更新所述目标节点的节点特征；信息确定模块，配置为根据更新后的所述目标节点的节点特征，获得所述场景图像中的场景信息。

12、根据权利要求 11所述的装置，所述特征更新模块，在配置为基于所述汇聚特征更新所述目标节点的节点特征时，包括：根据所述汇聚特征的每个通道的通道特征，对所述目标节点的节点特征中对应每个通道的所有特征位置利用所述通道特征进行特征更新处理。

13、根据权利要求 11所述的装置，所述特征处理模块，具体配置为根据场景异构图中与目标节点连接的各辅助节点的节点特征，得到重加权向量和残差向量中的至少一种作为所述汇聚特征；所述特征更新模块，具体配置为基于所述重加权向量对目标节点的节点特征的各通道进行相乘处理，和成，通过所述残差向量对目标节点的节点特征的各通道进行相加处理。

14、根据权利要求 13所述的装置，所述特征处理模块，在配置为得到重加权向量和残差向量中的至少一种作为所述汇聚特征时，包括：通过激活函数、以及所述目标节点的节点特征的标准差，将所述残差向量的取值映射到预定的数值区间作为所述汇聚特征。

15、根据权利要求 11至 14任一所述的装置，所述目标节点包括：对象组节点，所述对象组包括所述场景图像中的两个对象；所述信息确定模块，具体配置为根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果。

16、根据权利要求 15所述的装置，所述场景异构图包括：以其中一个对象组节点作为终点的信息传输链，所述信息传输链包括至少两个有向边组，每个有向边组包括由多个起点指向同一终点的多个有向边；所述信息传输链中的各个起点和终点中包括至少两种所述异质节点；所述特征处理模块，配置为：对于所述至少两个有向边组中的第一有向边组，以所述第一有向边组指向的同一个第一终点作为所述目标节点，根据连接所述第一终点的各个起点的节点特征得到汇聚特征；所述第一终点同时作为所述至少两个有向边组中的第二有向边组的其中一个起点；对于所述第二有向边组，以所述第二有向边组指向的同一个第二终点作为所述目标节点，根据连接所述第二终点的各个起点的节点特征得到汇聚特征；所述特征更新模块，配置为：基于连接所述第一终点的各个起点的节点特征得到的汇聚特征更新所述第一终点的节点特征；以及基于连接所述第二终点的各个起点的节点特征得到的汇聚特征更新所述第二终点的节点特征。

17、根据权利要求 16所述的装置，所述至少两个有向边组的一个所述有向边组的起点和终点，包括如下其中一项：所述起点包括：由所述场景图像提取特征得到的各个像素节点，所述终点是由所述场景图像提取到的物体节点；或者，所述起点和终点均包括：由所述场景图像提取到的物体节点；或者，所述起点包括由所述场景图像提取到的物体节点，所述终点包括所述对象组 k 者，所述起点包括所述对象组节点，所述终点包括所述物体节点。

18、根据权利要求 11所述的装置，所述各辅助节点包括：多个像素节点；所述特征处理模块，还配置为：根据所述场景图像进行特征提取，得到多个特征图，所述多个特征图分别具有不同尺寸；将所述多个特征图缩放到同一尺寸后进行融合，得到融合特征图；根据所述融合特征图，得到多个所述像素节点的节点特征。

19、根据权利要求 15所述的装置，所述信息确定模块，在配置为根据更新后的对象组节点的节点特征，得到所述对象组节点中两个对象之间关系的预测结果时，包括：根据所述对象组节点的节点特征，得到预测的初始分类置信度，所述初始分类置信度中包括：所述对象组节点对应各个预定关系类别的初始分类置信度；根据所述对象组节点在所述各个预定关系类别中的其中一种目标预定关系类别对应的初始分类置信度、以及所述对象组节点中两个对象分别对应的对象检测置信度，得到所述对象组节点中的两个对象对应所述目标预定关系类别的置信度；若所述置信度大于或等于预设的置信度阈值，则确认所述对象组节点中的两个对象之间的关系的预测结果是所述目标预定关系类别。

20、一种场景信息的检测装置，其中，所述装置应用于图像处理设备，所述装置包括：图像获取模块，配置为获取图像采集设备采集到的场景图像；信息输出模块，配置为根据权利要求 1〜9任一所述的检测方法，对所述场景图像进行处理，输出所述场景图像中的场景信息。

21、一种电子设备，其中，包括：存储器、处理器，所述存储器配置为存储计算机可读指令，所述处理器配置为调用所述计算机指令，实现权利要求 1至 9任一所述的方法，或者实现权利要求 10所述的方法。

22、一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现权利要求 1至 9任一所述的方法，或者实现权利要求 10所述的方法。

23、一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求 1至 9任一所述的方法，或者实现权利要求 10所述的方法。