WO2020151247A1

WO2020151247A1 - 图像分析方法以及系统

Info

Publication number: WO2020151247A1
Application number: PCT/CN2019/107126
Authority: WO
Inventors: 郑鹏鹏; 李嘉豪; 金鑫; 涂丹丹
Original assignee: 华为技术有限公司
Priority date: 2019-01-23
Filing date: 2019-09-21
Publication date: 2020-07-30
Also published as: EP3893197A4; EP3893197A1; CN111476838A; US20210326634A1

Abstract

本申请提供了一种图像分析方法，包括：获取t帧图像的影响因素，其中，影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；根据影响因素获得全景语义描述，全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

Description

图像分析方法以及系统

技术领域

本申请涉及图像处理领域，尤其涉及一种图像分析方法以及系统。

背景技术

图像描述的任务是：为给定的图像生成对应的文字描述。图像描述可以从图像中自动提取信息，并根据自动提取到的信息生成对应的文字描述，从而实现了从图像向知识的转化。例如，图片描述可以为图1A所示的图像生成“一个男人在海上冲浪”这样的文字描述。

目前，图像描述只能对图像进行低层语义描述，即，只能对单主体单动作(例如图1A中一个男人在海上冲浪)或多主体单动作(例如图1B中一群学生在做早操)进行描述，但是，不能对图像进行全景语义描述，即，不能对多个主体和主体之间，主体和动作之间，动作和动作之间的关系(例如图1C中一个男人看到一个女人被车子撞倒了)进行描述。

发明内容

本申请提供了一种图像分析方法以及系统，能够对图像进行全景语义描述。

第一方面，提供了一种图像分析方法，包括：

获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征表示对应的目标主体在所述图像中的位置，所述属性特征表示对应的目标主体的属性，所述姿态特征表示对应的目标主体的动作，所述关系向量特征表示目标主体和目标主体之间的关系；

根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

上述方案能够根据多帧图像中的多个目标主体的位置特征、属性特征、姿态特征以及多帧图像中的多个目标主体之间的关系向量特征得到更高层次的全景语义描述，从而更好地体现图像中多个主体和主体之间，主体和动作之间，动作和动作之间的关系。

在一些可能的设计中，获取全景语义描述的影响因素包括：

对所述t帧图像进行特征提取，从而得到t个特征向量；

对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在一些可能的设计中，采用同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。

上述方案中，通过同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取中，所以，在进行所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取时，都可以使用之前提取得到的特征向量，避免多次对特征向量进行提取，从而减少计算量。即，不需要在进行所述位置特征的提取时，进行一次特征向量提取，在进行所述属性特征的提取时，进行一次特征向量提取，在进行所述姿态特征的提取时，进行一次特征向量提取，以及，在进行所述关系向量特征的提取时，进行一次特征向量提取。

在一些可能的设计中，根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v _a,b，i，a和b均为自然数，并且，0＜i≤t，1≤a,b≤h，所述特征向量i根据所述图像i提取；

根据目标主体a进行感兴趣区域池化，从而获得与目标主体a对应的特征向量v _a,a；

根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征

其中，w _a,b＝sigmoid(w(v _a,b,v _a,a))，sigmoid()为S型的函数，v _a,b为目标主体a和目标主体b对应的特征向量，v _a,a为目标主体a对应的特征向量，w()为内积函数。

在一些可能的设计中，所述根据所述影响因素获得全景语义描述包括：

根据所述位置特征提取第一语义描述；

根据所述属性特征以及所述第一语义描述提取第二语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在一些可能的设计中，采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。

第二方面，提供了一种图像分析系统，包括特征提取模块以及全景语义模型，

所述特征提取模块用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

所述全景语义模型，用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系的描述。

在一些可能的设计中，所述特征提取模块包括：特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元，

所述特征向量提取单元，用于对所述t帧图像进行特征提取，从而得到t个特征向量；

所述位置特征提取单元，用于对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

所述属性特征提取单元，用于对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

所述姿态特征提取单元，用于对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

所述关系向量特征单元，用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在一些可能的设计中，所述特征提取模块包括卷积神经网络，所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。

在一些可能的设计中，所述关系向量特征提取单元，用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v _a,b，i，a和b均为自然数，并且，0＜i≤t，1≤a,b≤h；

在一些可能的设计中，所述全景语义模型包括：第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元，

所述第一时序特征提取单元用于根据所述位置特征提取第一语义描述；

所述第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述；

所述第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述；

所述第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在一些可能的设计中，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。

第三方面，提供了一种计算节点，包括：处理器和存储器，所述处理器执行：

在一些可能的设计中，所述处理器用于执行：

对所述t帧图像进行特征提取，从而得到t个特征向量；

在一些可能的设计中，所述处理器用于执行：

根据所述位置特征提取第一语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

第四方面，提供了一种计算节点集群，包括：至少一个计算节点，每个计算节点包括处理器和存储器，所述处理器执行所述存储器中的代码执行如第一方面任一项所述的方法。

第五方面，提供了一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，如第一方面任一项所述的方法将被执行。

第六方面，提供了一种计算机非瞬态存储介质，包括指令，当所述指令在计算节点集群中的至少一个计算节点上运行时，使得所述计算节点集群执行如第一方面任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1A至图1C为一些用于进行图像描述的图像的示意图；

图2为本申请涉及的一实施例的用于进行全景语义描述的单帧图像的示意图；

图3为本申请涉及的一实施例的用于进行全景语义描述的多帧图像的示意图；

图4为本申请涉及的位置特征、属性特征、姿态特征以及关系向量特征的特征提取示意图；

图5为本申请涉及的一实施例的全景语义模型的示意图；

图6为本申请涉及的另一实施例的全景语义模型的示意图；

图7为本申请涉及的一实施例的语义描述方法的流程图；

图8是本申请中提供的一实施方式的语义描述系统的结构示意图；

图9为本申请涉及的一实施例的计算节点的结构示意图；

图10是本申请涉及的一实施例的云服务集群的结构示意图；

图11是本申请中提供的另一实施方式的语义描述系统的结构示意图；

图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。

具体实施方式

本申请的实施例部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

首先对本申请的实施例涉及的用于进行全景语义描述的单幅图像进行详细的描述。

图2示出了适用于本申请实施例的一实施方式的用于进行全景语义描述的单帧图像的示意图。本实施例中用于进行全景语义描述的单帧图像通常包括多个目标主体，其中，目标主体可以是人、动物或者物体等等中的一种或者多种。以图2为例，图2所示的图像中的目标主体包括男子、女子以及车辆。不同目标主体可以执行不同的动作，其中，动作可以是喝水、看书、做操、打篮球、踢球、跑步、游泳等等中的一种或者多种。以图2为例，图中的男子的动作为看向女子，图中的女子的动作为摔倒了，图中的车辆的动作为撞向女子。可以理解，上述图2仅仅是作为一种示例，在实际应用中，目标主体还可以是其他主体，目标主体的数量还可以是更多，目标主体的动作也可以是其他动作等等，此处不作具体限定。

在本申请具体的实施例中，如图3所示，图像分析系统可以按照时间顺序从视频中截取出t帧用于进行全景语义描述的图像I ₁，I ₂，…，I _t，其中，t为自然数。其中，图像I ₁，I ₂，…，I _t均包括相同的目标主体，例如，图像I ₁包括目标主体1、目标主体2以及目标主体3；图像I ₂包括目标主体1、目标主体2以及目标主体3；…；图像I _t也包括目标主体1、目标主体2以及目标主体3。可以理解，上述t帧图像中相邻两帧图像之间的时间间隔可以是相等的，也可以是不相等的，此处不作具体限定。

在本申请具体的实施例中，图像分析系统可以通过全景语义模型对图像I _t进行全景语义描述。其中，全景语义模型的输入变量为全景语义描述的影响因素。所述全景语义描述的影响因素包括图像I ₁至I _t中各个目标主体的自有特征(包括位置特征、属性特征以及姿态特征)以及各个目标主体之间的关系向量特征。

位置特征用于表示对应的目标主体在对应图像中的位置。位置特征可以表示为(x，y，w，h)，其中，x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标，w为目标主体在图像中的宽度，h为目标主体在图像中的高度。属性特征用于表示对应的目标主体的属性。属性特征可以包括很多种，目标主体不同，属性特征通常也不相同，以目标主体为人类为例，目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。目标主体的姿态特征用于表示对应的目标主体的动作。目标主体的姿态特征同样包括很多种，目标主体不同，姿态特征通常也不相同，以目标主体为人类为例，目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。关系特征向量为表示两个目标主体之间的之间的关系的向量。

以图像I ₁，I ₂，…，I _t中每帧图像均包括h个目标主体为例，所述全景语义描述的影响因素具体包括：

从图像I ₁中获取得到的全景语义描述的影响因素：图像I ₁中h个目标主体的自有特征以及图像I ₁中h个目标主体之间的关系向量特征。

图像I ₁中h个目标主体的自有特征包括：

这里，位置特征P ₁ ¹，属性特征

姿态特征

为图像I ₁中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I ₁中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I ₁中的目标主体h的自有特征。

图像I ₁中h个目标主体之间的关系向量特征包括：

这里，

为图像I ₁中的目标主体1和目标主体2之间的关系向量特征，

为图像I ₁中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I ₁中的目标主体1和目标主体h之间的关系向量特征，

为图像I ₁中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I ₁中的目标主体2和目标主体h之间的关系向量特征…，

为图像I ₁中的目标主体h-1和目标主体h之间的关系向量特征。

从图像I ₂中获取得到的全景语义描述的影响因素：图像I ₂中h个目标主体的自有特征以及图像I ₂中h个目标主体之间的关系向量特征。

图像I ₂中h个目标主体的自有特征包括：

这里，位置特征P ₁ ²，属性特征

姿态特征

为图像I ₂中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I ₂中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I ₂中的目标主体h的自有特征。

图像I ₂中h个目标主体之间的关系向量特征包括：

这里，

为图像I ₂中的目标主体1和目标主体2之间的关系向量特征，

为图像I ₂中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I ₂中的目标主体1和目标主体h之间的关系向量特征，

为图像I ₂中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I ₂中的目标主体2和目标主体h之间的关系向量特征…，

为图像I ₂中的目标主体h-1和目标主体h之间的关系向量特征。

……；

从图像I _t中获取得到的全景语义描述的影响因素：图像I _t中h个目标主体的自有特征以及图像I _t中h个目标主体之间的关系向量特征。

图像I _t中h个目标主体的自有特征包括：

这里，位置特征P ₁ ^t，属性特征

姿态特征

为图像I _t中的目标主体1的自有特征，位置特征

属性特征

姿态特征

为图像I _t中的目标主体2的自有特征，…，位置特征

属性特征

姿态特征

为图像I _t中的目标主体h的自有特征。

图像I _t中h个目标主体之间的关系向量特征包括：

这里，

为图像I _t中的目标主体1和目标主体2之间的关系向量特征，

为图像I _t中的目标主体1和目标主体3之间的关系向量特征，…，

为图像I _t中的目标主体1和目标主体h之间的关系向量特征，

为图像I _t中的目标主体2和目标主体3之间的关系向量特征，…，

为图像I _t中的目标主体2和目标主体h之间的关系向量特征…，

为图像I _t中的目标主体h-1和目标主体h之间的关系向量特征。

应理解，上述全景语义描述的影响因素的示例仅仅用于进行举例，在实际应用中，全景语义描述的影响因素还可以包括其他的影响因素，此处不作具体限定。

在本申请具体的实施例中，图像I ₁，I ₂，…，I _t中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以分别根据图像I ₁，I ₂，…，I _t的特征向量V ₁，V ₂，…，V _t计算得到。也就是说，图像I ₁中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I ₁的特征向量V ₁计算得到，图像I ₂中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征V ₂可以根据图像I ₂的特征向量计算得到，…，图像I _t中各目标主体的位置特征、属性特征、姿态特征以及各目标主体之间的关系向量特征可以根据图像I _t的特征向量V _t计算得到。

如图4所示，图像I ₁，I ₂，…，I _t的特征向量V ₁，V ₂，…，V _t可以是这样得到的。以图像I _i为例，图像I _i的特征向量V _i可以是将图像I _i输入至特征向量提取单元中得到的。其中，i为自然数，并且，1≤i≤t。特征向量提取单元可以依次包括：输入层、卷积计算层、池化层以及全连接层。

输入层：

假设输入层的输入为图像I _i，输出和输入相等，即，不对输入进行任何处理。为了陈述简便，此处假设输入层不作任何处理，但是，在实际应用中，可以对输入层进行归一化等等处理，此处不作具体限定。

卷积计算层：

将输入层输出的图像I _i作为卷积计算层的输入，经过n个卷积核K _l(l＝1,2,…，n)的卷积生成n个特征图像a _l(l＝1,2,…，n)，其中，每个特征图像a _l的生成过程具体如下：

C _l＝conv2(I,K _l,'valid',)+b _l

u _l＝C _l

a _l＝f(u _l)

其中，conv表示为使用卷积核K _l对图像I进行卷积运算、valid表示为padding的方式，b _l表示为偏置值，u _l表示为卷积计算的结果，f()表示为激活函数，本发明采用relu函数。

池化层：

将卷积计算层输出的n个特征图像a _l作为池化层的输入，经过池化窗口进行池化之后，生成n个池化图像b _l(l＝1,2,…，n)，其中，每个池化图像b _l的生成过程具体如下：

b _l＝max Pool(a _l)

其中，maxPool表示为均值池化。

全连接层：

将n个池化图像b _l(l＝1,2,…，n)顺序展开成向量，并有序连接成一个长向量，作为全连接层网络的输入，全连接层的输出即为图像I _i的特征向量V _i。

上述特征向量提取单元的各个参数中，卷积核K _l(包括元素、大小、步长等等)、偏置值b _l、f()以及β _l可以是人为根据需要提取的特征(位置特征、属性特征、姿态特征以及关系向量特征)、图像I _i的大小等等设置的。以卷积核K _l为例，当需要提取的特征为位置特征时，卷积核K _l的元素可以采用sobel算子的元素，又例如，当图像I _i比较大时，卷积核K _l的大小也可以比较大，反之，当图像I _i比较小时，卷积核K _l的大小也可以比较小，又例如，当图像I _i比较大时，卷积核K _l的步长也可以比较大，反之，当图像I _i比较小时，卷积核K _l的步长也可以比较小。

应理解，上述特征向量提取单元仅仅作为一种举例，在实际应用中，特征向量提取单元还可以是其他的形式，例如，可以包括更多的卷积计算层、更多的池化层，可以对图像I _i进行填充等等，此处不作具体限定。

为了简便起见，上面只陈述了图像I _i的特征向量V _i的提取，实际上，图像I ₁，I ₂，…，I _t各自的特征向量V ₁，V ₂，…，V _t的提取方式均与图像I _i的特征向量V _i的提取方式相类似，此处不再展开赘述。

如图4所示，图像I ₁，I ₂，…，I _t中各目标主体的位置特征可以是这样得到的：以图像I _i为例，假设图像I _i中包括h个目标主体，则图像I _i中h个目标主体的位置特征

可以通过将特征向量V _i输入位置特征提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。特征提取单元可以表示为：

y ₁＝g ₁(x ₁)；

这里，x ₁可以是图像I _i的特征向量V _i，y ₁可以是图像I _i中h个目标主体的位置特征

g ₁()为特征向量V _i与位置特征

之间的映射关系，其中，g ₁()可以通过大量的已知图像以及已知目标主体的位置特征进行训练得到。为了简便起见，上面只陈述了图像I _i中h个目标主体的位置特征

的提取，实际上，图像I ₁，I ₂，…，I _t各自的h个目标主体的位置特征

的提取方式均与图像I _i的h个目标主体的位置特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I ₁，I ₂，…，I _t中各目标主体的属性特征可以是这样得到的：以图像I _i为例，假设图像I _i中包括h个目标主体，则图像I _i中h个目标主体的属性特征

可以通过将特征向量V _i输入位置属性提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。属性提取单元可以表示为：

y ₂＝g ₂(x ₁)；

这里，x ₁可以是图像I _i的特征向量V _i，y ₂可以是图像I _i中h个目标主体的属性特征

g ₂()为特征向量V _i与属性特征

之间的映射关系，其中，g ₂()可以通过大量的已知图像以及已知目标主体的属性特征进行训练得到。为了简便起见，上面只陈述了图像I _i中h个目标主体的属性特征

的提取，实际上，图像I ₁，I ₂，…，I _t各自的h个目标主体的属性特征

的提取方式均与图像I _i的h个目标主体的属性特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I ₁，I ₂，…，I _t中各目标主体的姿态特征可以是这样得到的：以图像I _i为例，假设图像I _i中包括h个目标主体，则图像I _i中h个目标主体的姿态特征

可以通过将特征向量V _i输入位置姿态提取单元进行提取得到的。其中，i为自然数，并且，1≤i≤t。姿态提取单元可以表示为：

y ₃＝g ₃(x ₁)；

这里，x ₁可以是图像I _i的特征向量V _i，y ₃可以是图像I _i中h个目标主体的姿态特征

g ₃()为特征向量V _i与姿态特征

之间的映射关系，其中，g ₂()可以通过大量的已知图像以及已知目标主体的姿态特征进行训练得到。为了简便起见，上面只陈述了图像I _i中h个目标主体的姿态特征

的提取，实际上，图像I ₁，I ₂，…，I _t各自的h个目标主体的姿态特征

的提取方式均与图像I _i的h个目标主体的姿态特征

的提取方式相类似，此处不再展开赘述。

如图4所示，图像I ₁，I ₂，…，I _t中各目标主体之间的关系向量特征可以是这样得到的：以图像I _i为例，假设图像I _i中包括h个目标主体，则图像I _i中h个目标主体之间的关系向量特征包括：

其中，关系特征向量

可以通过关系向量特征提取单元计算得到，其中，i，a，b为自然数，并且，1≤i≤t，1≤a,b≤h：

关系向量特征提取单元用于根据目标主体a和目标主体b进行感兴趣区域池化(ROI pooling)(region of interest，ROI)，从而获得与目标主体a和目标主体b对应的特征向量v _a,b；

关系向量特征提取单元用于根据目标主体a进行ROI pooling，从而获得与目标主体a对应的特征向量v _a,a；

关系向量特征提取单元用于根据以下公式计算得到关系向量特征

其中，w _a,b＝sigmoid(w(v _a,b,v _a,a))，sigmoid()为S型的函数，v _a,b为目标主体a和目标主体b对应的特征向量，v _a,a为目标主体a对应的特征向量，w()为内积函数。w _a,b可以通过大量的已知目标主体和已知特征向量进行训练得到。

为了简便起见，上面只陈述了图像I _i中h个目标主体之间的关系向量特征

的提取，实际上，图像I ₁，I ₂，…，I _t各自的h个目标主体之间的关系向量特征

的提取方式均与图像I _i的h个目标主体的姿态特征

的提取方式相类似，此处不再展开赘述。

上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(Convolutional Neural Networks，CNN)实现的，也可以集成在同一个卷积神经网络中实现的，此处不作具体限定。其中，卷积神经网络可以包括VGGNet、ResNet、FPNet等等，此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络中完成时，特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中不同层分别实现的。

在本申请具体的实施例中，全景语义描述的影响因素(图像I ₁，I ₂，…，I _t中各目标主体的位置特征、图像I ₁，I ₂，…，I _t中各目标主体的属性特征、图像I ₁，I ₂，…，I _t中各目标主体的姿态特征以及图像I ₁，I ₂，…，I _t中各目标主体的之间的关系向量特征)对全景语义描述存在这样的影响：图像I ₁，I ₂，…，I _t中各目标主体的位置特征可以提供关于各个目标主体之间的位置的第一语义描述，图像I ₁，I ₂，…，I _t中各目标主体的属性特征结合上述第一语义描述，可以得到结合各个目标主体的属性的第二语义描述，之后，图像I ₁，I ₂，…，I _t的各目标主体的姿态特征结合上述第二语义描述可以得到第三语义描述；最后，图像I ₁，I ₂，…，I _t的各目标主体之间的关系向量特征结合第三语义描述，可以得到全景语义描述。

以图3所示的例子为例，全景语义描述的影响因素对全景语义描述的影响可以如下所述：首先，通过图3中的图像I ₁，I ₂，…，I _t的男子、女子以及车辆三者的位置特征，可以得到“物体A和物体B在物体C的左侧”的第一语义描述；然后，通过图3中的图像I ₁，I ₂，…，I _t的男子、女子和车辆三者的属性特征结合第一语义描述，可以得到“女子和汽车在男子左侧”的第二语义描述，之后，通过图3中图像I ₁，I ₂，…，I _t的男子、女子和车辆三者的姿态特征结合第二语义描述，可以得到第三语义描述，最后，通过图3中图像I ₁，I ₂，…，I _t的关系向量特征结合第三语义描述，可以得到“右边的男子看到左边的女子被汽车撞倒”的全景语义描述。

应理解，上述图3所示的例子仅仅作为一种具体的示例，在其他的实施例子，还可以对其他的图像进行全景语义描述，此处不作具体限定，

在本申请具体的实施例中，全景语义模型可以表示为：

y＝Panorama(x)

其中，x为全景语义描述的影响因素，y为全景语义描述，Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。在一具体的实施例中，全景语义模型可以如图5所示，

将图像I ₁，I ₂，…，I _t中的h个目标主体的位置特征

输入时序特征提取单元1，从而得到第一语义描述；

将图像I ₁，I ₂，…，I _t中的h个目标主体的属性特征

结合第一语义描述输入时序特征提取单元2，从而得到第二语义描述；

将图像I ₁，I ₂，…，I _t中的h个目标主体的姿态特征

结合第二语义描述输入时序特征提取单元3，从而得到第三语义描述；

将图像I ₁，I ₂，…，I _t中的h个目标主体的关系向量特征

结合第三语义描述输入时序特征提取单元4，从而得到全景语义描述。

可以理解，第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)实现的，也可以是同一个循环神经网络实现的，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(Bi Long short-term memory，BiLSTM)等等，此处不作具体限定。当第一语义描述、第二语义描述、第三语义描述以及全景语义描述的提取在同一个循环神经网络中实现时，可以分别是循环神经网络中的不同层分别实现的。

以时序特征提取单元1至4均为LSTM为例，在一具体的实施例中，全景语义模型可以如图6所示：

以下为第一时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I ₁中的h个目标主体的位置特征

以及初始输出值h ₁₀计算得到遗忘值f ₁₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₁中的h个目标主体的位置特征

初始输入值C ₁₀，初始输出值h ₁₀以及遗忘值f ₁₀计算得到输入值C ₁₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₁中的h个目标主体的位置特征

初始输出值h ₁₀以及输入值C ₁₁：

h ₁₁＝o ₁₀tanh(C ₁₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I ₂中的h个目标主体的位置特征

以及输出值h ₁₁计算得到遗忘值f ₁₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₂中的h个目标主体的位置特征

输入值C ₁₁，输出值h ₁₁以及遗忘值f ₁₁计算得到输入值C ₁₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₂中的h个目标主体的位置特征

输出值h ₁₁以及输入值C ₁₂：

h ₁₂＝o ₁₁tanh(C ₁₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I _t中的h个目标主体的位置特征

以及输出值h _1t-1计算得到遗忘值f _1t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I _t中的h个目标主体的位置特征

输入值C _1t-1，输出值h _1t-1以及遗忘值f _1t-1计算得到输入值C _1t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I _t中的h个目标主体的位置特征

输出值h _1t-1以及输入值C _1t：

h _1t＝o _1t-1tanh(C _1t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h ₁₁至h _1t即可构成第一语义描述。

可以理解，上述初始输出值h ₁₀，初始输出值h ₁₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第一语义描述与已知目标主体的位置特征进行训练得到的。

以下为第二时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I ₁中的h个目标主体的属性特征

以及初始输出值h ₂₀计算得到遗忘值f ₂₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₁中的h个目标主体的属性特征

初始输入值C ₂₀，初始输出值h ₂₀以及遗忘值f ₂₀计算得到输入值C ₂₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₁中的h个目标主体的属性特征

初始输出值h ₂₀以及输入值C ₂₁：

h ₂₁＝o ₂₀tanh(C ₂₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I ₂中的h个目标主体的属性特征

以及输出值h ₂₁计算得到遗忘值f ₂₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₂中的h个目标主体的属性特征

输入值C ₂₁，输出值h ₂₁以及遗忘值f ₂₁计算得到输入值C ₂₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₂中的h个目标主体的属性特征

输出值h ₂₁以及输入值C ₂₂：

h ₁₂＝o ₁₁tanh(C ₁₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I _t中的h个目标主体的位置特征

以及输出值h _2t-1计算得到遗忘值f _2t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I _t中的h个目标主体的位置特征

输入值C _2t-1，输出值h _2t-1以及遗忘值f _2t-1计算得到输入值C _2t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I _t中的h个目标主体的位置特征

输出值h _2t-1以及输入值C _2t：

h _2t＝o _2t-1tanh(C _2t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h ₂₁至h _2t即可构成第二语义描述。

可以理解，上述初始输出值h ₂₀，初始输出值h ₂₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征进行训练得到的。

以下为第三时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I ₁中的h个目标主体的姿态特征

以及初始输出值h ₃₀计算得到遗忘值f ₃₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₁中的h个目标主体的姿态特征

初始输入值C ₃₀，初始输出值h ₃₀以及遗忘值f ₃₀计算得到输入值C ₃₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₁中的h个目标主体的姿态特征

初始输出值h ₃₀以及输入值C ₃₁：

h ₃₁＝o ₃₀tanh(C ₃₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I ₂中的h个目标主体的姿态特征

以及输出值h ₃₁计算得到遗忘值f ₃₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₂中的h个目标主体的姿态特征

输入值C ₃₁，输出值h ₃₁以及遗忘值f ₃₁计算得到输入值C ₃₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₂中的h个目标主体的姿态特征

输出值h ₃₁以及输入值C ₃₂：

h ₃₂＝o ₃₁tanh(C ₃₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I _t中的h个目标主体的姿态特征

以及输出值h _3t-1计算得到遗忘值f _3t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I _t中的h个目标主体的姿态特征

输入值C _3t-1，输出值h _3t-1以及遗忘值f _3t-1计算得到输入值C _3t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I _t中的h个目标主体的姿态特征

输出值h _3t-1以及输入值C _3t：

h _3t＝o _3t-1tanh(C _3t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h ₃₁至h _3t即可构成第三语义描述。

可以理解，上述初始输出值h ₃₀，初始输出值h ₃₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征进行训练得到的。

以下为第四时序特征提取单元中的神经元1，神经元2至神经元t中的计算过程：

在神经元1中：

首先，根据图像I ₁中的h个目标主体的之间的关系向量特征

以及初始输出值h ₄₀计算得到遗忘值f ₄₀：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₁中的h个目标主体的之间的关系向量特征

初始输入值C ₄₀，初始输出值h ₄₀以及遗忘值f ₄₀计算得到输入值C ₄₁：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₁中的h个目标主体的之间的关系向量特征

初始输出值h ₄₀以及输入值C ₄₁：

h ₄₁＝o ₄₀tanh(C ₄₁)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

在神经元2中：

首先，根据图像I ₂中的h个目标主体之间的关系向量特征

以及输出值h ₄₁计算得到遗忘值f ₄₁：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I ₂中的h个目标主体之间的关系向量特征

输入值C ₄₁，输出值h ₄₁以及遗忘值f ₄₁计算得到输入值C ₄₂：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I ₂中的h个目标主体之间的关系向量特征

输出值h ₄₁以及输入值C ₄₂：

h ₄₂＝o ₄₁tanh(C ₄₂)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

……；

在神经元t中：

首先，根据图像I _t中的h个目标主体之间的关系向量特征

以及输出值h _4t-1计算得到遗忘值f _4t-1：

其中，σ()为sigmoid函数，

为偏置值，

为权值矩阵。

然后，根据图像I _t中的h个目标主体之间的关系向量特征

输入值C _4t-1，输出值h _4t-1以及遗忘值f _4t-1计算得到输入值C _4t：

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

最后，根据图像I _t中的h个目标主体之间的关系向量特征

输出值h _4t-1以及输入值C _4t：

h _4t＝o _4t-1tanh(C _4t)

其中，σ()为sigmoid函数，tanh为激活函数，

均为权值矩阵，

均为偏置值。

上述h ₄₁至h _4t即可构成全景语义描述。

可以理解，上述初始输出值h ₄₀，初始输出值h ₄₀，偏置值

至

偏置值

至

偏置值

至

偏置值

至

可以是人工设置的，权值矩阵

至

权值矩阵

至

权值矩阵

至

均是通过大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征进行训练得到的。

如图7所示，图7是本申请提供了一种图像分析方法的流程示意图。本实施方式的图像分析方法，包括如下步骤：

S101：图像分析系统获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数。

在本申请具体的实施例中，位置特征用于表示对应的目标主体在图像中的位置。位置特征可以表示为(x，y，w，h)，其中，x和y分别为目标主体的中心点的在图像中的横坐标和纵坐标，w为目标主体在图像中的宽度，h为目标主体在图像中的高度。

在本申请具体的实施例中，属性特征可以包括很多种，目标主体不同，属性特征通常也不相同，以目标主体为人类为例，目标主体的属性特征可以包括性别、发型、衣服类型、衣服颜色、身高以及体型等等中的一种或者多种。

在本申请具体的实施例中，目标主体的姿态特征同样包括很多种，目标主体不同，姿态特征通常也不相同，以目标主体为人类为例，目标主体的姿态特征可以包括跌倒、躺下、步行、跑步以及跳跃等等中的一种或者多种。

在本申请具体的实施例中，关系特征向量为表示两个目标主体之间的之间的关系的向量。

S102：图像分析系统根据所述影响因素获得全景语义描述。

在本申请具体的实施例中，所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系。全景语义模型可以表示为：

y＝Panorama(x)

其中，x为全景语义描述的影响因素，y为全景语义描述，Panorama()为全景语义描述的影响因素与全景语义描述的映射关系。Panorama()可以是通过大量的已知全景语义描述的影响因素和已知全景语义描述进行训练得到的。

在本申请具体的实施例中，所述全景语义描述能够对目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系进行描述。

在本申请具体的实施例中，对所述t帧图像进行特征提取，从而得到t个特征向量；对所述t个特征向量进行位置特征提取，从而得到所述位置特征；对所述t个特征向量进行属性特征提取，从而得到所述属性特征；对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在本申请具体的实施例中，上述特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以分别是不同的卷积神经网络(Convolutional Neural Networks，CNN)，也可以集成在同一个卷积神经网络中，此处不作具体限定。当特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取集成在同一个卷积神经网络，特征向量提取、位置特征提取、属性特征提取、姿态特征提取以及关系向量特征提取可以是卷积神经网络中的一个层。

在本申请具体的实施例中，根据所述位置特征提取第一语义描述；根据所述属性特征以及所述第一语义描述提取第二语义描述；根据所述姿态特征以及所述第二语义提取第三语义描述；根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在本申请具体的实施例中，上述第一语义描述至第三语义以及全景语义描述描述可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)进行提取，也可以集成在同一个循环神经网络中进行提取，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(Bi Long short-term memory，BiLSTM)等等，此处不作具体限定。当上述第一语义描述至第三语义描述以及全景语义描述集成在同一个循环神经网络中进行提取时，可以分别通过循环神经网络中的不同层进行提取。

为了简便陈述，本实施例并没有对图像、目标主体、全景语义描述等等的定义进行展开描述，具体请参见图2以及图3以及相关的图像、目标主体、全景语义模型、全景语义描述的定义等等的描述。本实施例也没有对特征向量、位置特征、属性特征、姿态特征以及关系向量特征以及它们的提取方式进行介绍，具体请参见图4以及相关描述。另外，本申请实施例也没有对全景语义模型以及如何使用全景语义模型对图像进行全景语义描述进行详细的介绍，具体请参见图5、图6以及相关描述。

参见图8，图8是本申请中提供的一实施方式的图像分析系统的结构示意图。本申请实施例的图像分析系统包括特征提取模块510以及全景语义描述模块520。其中，特征提取模块510包括：特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征单元515。全景语义描述模块520包括第一时序特征提取单元522、第二时序特征提取单元523、第三时序特征提取单元524以及第四时序特征提取单元525。

所述特征提取510用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

所述全景语义描述模块520用于将所述影响因素输入全景语义模型，从而得到全景语义描述，其中，所述全景语义模型反应了所述影响因素和所述全景语义描述之间的映射关系，所述全景语义描述能够对目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系进行描述。

y＝Panorama(x)

在本申请具体的实施例中，所述特征向量提取单元511用于对所述t帧图像进行特征提取，从而得到t个特征向量；所述位置特征提取单元512用于对所述t个特征向量进行位置特征提取，从而得到所述位置特征；所述属性特征提取单元513用于对所述t个特征向量进行属性特征提取，从而得到所述属性特征；所述姿态特征提取单元514用于对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；所述关系向量特征单元515用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。

在本申请具体的实施例中，所述特征提取模块510包括卷积神经网络，所述特征向量提取单元511、所述位置特征提取单元512、所述属性特征提取单元513、所述姿态特征提取单元514以及所述关系向量特征提取单元515集成于所述卷积神经网络。上述特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515可以分别是不同的卷积神经网络(Convolutional Neural Networks，CNN)，也可以集成在同一个卷积神经网络中，此处不作具体限定。其中，卷积神经网络可以包括VGGNet、ResNet、FPNet等等，此处不作具体限定。当特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征提取单元515集成在同一个卷积神经网络，特征向量提取单元511、位置特征提取单元512、属性特征提取单元513、姿态特征提取单元514以及关系向量特征515可以是卷积神经网络中的一个层。

在本申请具体的实施例中，第一时序特征提取单元522用于根据所述位置特征提取第一语义描述；第二时序特征提取单元用于根据所述属性特征以及所述第一语义描述提取第二语义描述；第三时序特征提取单元用于根据所述姿态特征以及所述第二语义提取第三语义描述；第四时序特征提取单元用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。

在本申请具体的实施例中，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。上述第一时序特征提取单元至第四时序特征提取单元可以分别是不同的循环神经网络(Recurrent Neural Networks，RNN)，也可以集成在同一个循环神经网络中，此处不作具体限定。其中，循环神经网络可以包括长短时记忆模型模型(Long short-term memory，LSTM)、双向长短时记忆模型模型(Bi Long short-term memory，BiLSTM)等等，此处不作具体限定。当第一时序特征提取单元至第四时序特征提取单元集成在同一个循环神经网络，第一时序特征提取单元至第四时序特征提取单元可以分别是循环神经网络中的一个层。

本申请的图像分析系统可以在计算节点中实现，也可以在云计算基础设施上实现，此处不做具体限定。下面将分别介绍如何在计算节点和云计算基础设施上实现图像分析系统。

如图9所示，计算节点100可以包括包括处理器110以及存储器120。其中，处理器用于运行特征提取模块111以及全景语义模型112。存储器120用于存储语义描述、特征以及图像121等等。计算节点100还提供了两种对外的接口界面，分别是面向语义描述系统的维护人员的管理界面140以及面向用户的用户界面150。其中，接口界面的形态可以是多样的，例如web界面、命令行工具、REST接口等。

在本申请具体的实施例中，管理界面用于供维护人员可以通过输入大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

在本申请具体的实施例中，用户界面用于供用户输入需要被提取全景语义描述的图像，并且，通过用户界面向用户输出全景语义描述。

应当理解，计算节点100仅为本申请实施例提供的一个例子，并且，计算节点100可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

如图10所示，云计算基础设施可以是云服务集群200。所述云服务集群200是由节点，以及节点之间的通信网络构成。上述节点可以是计算节点，也可以是运行在计算节点上的虚拟机。节点按功能可分为两类：计算节点210和存储节点220。计算节点210用于运行特征提取模块211以及全景语义模型212。存储节点220用于存储语义描述、特征以及图像等等221。云服务集群200还提供了两种对外的接口界面，分别是面向问答引擎的维护人员的管理界面240以及面向用户的用户界面250。其中，接口界面的形态可以是多样的，例如web界面、命令行工具、REST接口等。

应当理解，云服务集群200仅为本申请实施例提供的一个例子，并且，云服务集群200可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

参见图11，图11是本申请中提供的另一实施方式的语义描述系统的结构示意图。图8所示的语义描述系统可以在如图9所示的计算节点300中实现。本实施方式的计算节点300包括一个或多个处理器311、通信接口312和存储器313。其中，处理器311、通信接口312和存储器313之间可以通过总线324连接。

处理器311包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit，CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit，专用集成电路)等等。处理器311执行各种类型的数字存储指令，例如存储在存储器313中的软件或者固件程序，它能使计算节点300提供较宽的多种服务。例如，处理器311能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。处理器311中可以运行如图8所示的特征提取模块以及全景语义模型。

通信接口312可以为有线接口(例如以太网接口)，用于与其他计算节点或用户进行通信。

存储器313可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)存储器还可以包括上述种类的存储器的组合。存储器313可以存储有程序代码以及程序数据。其中，程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括：大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

其中，所述处理器311通过调用存储器313中的程序代码，用于执行以下步骤：

处理器311用于获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；

处理器311用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

参见图12，图12是本申请中提供的又一实施方式的语义描述系统的结构示意图。本实施方式的语义描述系统可以在如图10所示的云服务集群中实现。云服务集群包括包括至少一个计算节点410以及至少一个存储节点420。

计算节点410包括一个或多个处理器411、通信接口412和存储器413。其中，处理器411、通信接口412和存储器413之间可以通过总线424连接。

处理器411包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(Central Processing Unit，CPU)、微处理器、微控制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit，专用集成电路)等等。它能够是仅用于计算节点410的专用处理器或者能够与其它计算节点410共享。处理器411执行各种类型的数字存储指令，例如存储在存储器413中的软件或者固件程序，它能使计算节点410提供较宽的多种服务。例如，处理器411能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。处理器411中可以运行如图8所示的特征提取模块以及全景语义模型。

通信接口412可以为有线接口(例如以太网接口)，用于与其他计算节点或用户进行通信。当通信接口412为有线接口时，通信接口412可以采用TCP/IP之上的协议族，例如，RAAS协议、远程函数调用(Remote Function Call，RFC)协议、简单对象访问协议(Simple Object Access Protocol，SOAP)协议、简单网络管理协议(Simple Network Management Protocol，SNMP)协议、公共对象请求代理体系结构(Common Object Request Broker Architecture，CORBA)协议以及分布式协议等等。

存储器413可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)存储器还可以包括上述种类的存储器的组合。

存储节点420包括一个或多个处理器421、通信接口422和存储器423。其中，处理器421、通信接口422和存储器423之间可以通过总线424连接。

处理器421包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于存储节点420的专用处理器或者能够与其它存储节点420共享。处理器421执行各种类型的数字存储指令，例如存储在存储器223中的软件或者固件程序，它能使存储节点420提供较宽的多种服务。例如，处理器221能够执行程序或者处理数据，以执行本文讨论的方法的至少一部分。

通信接口422可以为有线接口(例如以太网接口)，用于与其他计算设备或用户进行通信。

存储节点420包括一个或多个存储控制器421和存储阵列425。其中，存储控制器421和存储阵列425之间可以通过总线426连接。

存储控制器421包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括CPU、微处理器、微控制器、主处理器、控制器以及ASIC等等。它能够是仅用于单个存储节点420的专用处理器或者能够与计算节点40或者其它存储节点420共享。可以理解，在本实施例中，每个存储节点包括一个存储控制器，在其他的实施例中，也可以多个存储节点共享一个存储控制器，此处不作具体限定。

存储器阵列425可以包括多个存储器。存储器可以是非易失性存储器，例如ROM、快闪存储器、HDD或SSD存储器还可以包括上述种类的存储器的组合。例如，存储阵列可以是由多个HDD或者多个SDD组成，或者，存储阵列可以是由HDD以及SDD组成。其中，多个存储器在存储控制器321将的协助下按不同的方式组合起来形成存储器组，从而提供比单个存储器更高的存储性能和提供数据备份技术。可选地，存储器阵列425可以包括一个或者多个数据中心。多个数据中心可以设置在同一个地点，或者，分别在不同的地点，此处不作具体限定。存储器阵列425可以存储有程序代码以及程序数据。其中，程序代码包括特征提取模块代码以及全景语义模型代码。程序数据包括：大量用于进行全景语义描述的图像；大量已知全景语义描述、已知第三语义描述以及已知目标主体的关系向量特征；大量已知第三语义描述、已知第二语义描述与已知目标主体的姿态特征；大量已知第二语义描述、已知第一语义描述与已知目标主体的属性特征；大量已知第一语义描述与已知目标主体的位置特征，以用于对全景语义模型进行训练。

其中，所述计算节点411通过调用存储节点413中的程序代码，用于执行以下步骤：

计算节点411用于获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数；

计算节点411用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

Claims

一种图像分析方法，其特征在于，包括：

获取t帧图像的影响因素，其中，所述影响因素包括所述t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，每个目标主体的自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征表示对应的目标主体在所述图像中的位置，所述属性特征表示对应的目标主体的属性，所述姿态特征表示对应的目标主体的动作，所述关系向量特征表示目标主体和目标主体之间的关系；

根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和目标主体的动作之间以及目标主体的动作与目标主体的动作之间的关系的描述。
根据权利要求1所述的方法，其特征在于，所述获取t帧图像的全景语义描述的影响因素包括：

对所述t帧图像进行特征提取，从而得到t个特征向量；

对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。
根据权利要求2所述的方法，其特征在于，采用同一个卷积神经网络执行对所述位置特征的提取，所述属性特征的提取、所述姿态特征的提取和所述关系向量特征的提取。
根据权利要求2或3所述的方法，其特征在于，所述对所述t个特征向量进行关系向量特征提取，从而得到关系向量特征包括：

根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v _a,b，i，a和b均为自然数，并且，0＜i≤t，1≤a,b≤h，所述特征向量i根据所述图像i提取；

根据目标主体a进行感兴趣区域池化，从而获得与目标主体a对应的特征向量v _a,a；

根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征

其中，w _a,b＝sigmoid(w(v _a,b,v _a,a))，sigmoid()为S型的函数，v _a,b为目标主体a和目标主体b对应的特征向量，v _a,a为目标主体a对应的特征向量，w()为内积函数。
根据权利要求1至4任一权利要求所述的方法，其特征在于，所述根据所述影响因素获得全景语义描述包括：

根据所述位置特征提取第一语义描述；

根据所述属性特征以及所述第一语义描述提取第二语义描述；

根据所述姿态特征以及所述第二语义提取第三语义描述；

根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
根据权利要求5所述的方法，其特征在于，

采用同一循环神经网络执行所述第一语义描述、所述第二语义描述和所述第三语义描述的提取。
一种图像分析系统，其特征在于，包括特征提取模块以及全景语义模型，

所述特征提取模块，用于获取全景语义描述的影响因素，其中，所述影响因素包括t帧图像中的每帧图像中h个目标主体的自有特征以及h个目标主体之间的关系向量特征，所述自有特征包括位置特征、属性特征以及姿态特征，其中，t，h为大于1的自然数，所述位置特征用于表示对应的目标主体在图像中的位置，所述属性特征用于表示对应的目标主体的属性，所述姿态特征用于表示对应的目标主体的动作，所述关系向量特征用于表示目标主体和目标主体之间的关系；

所述全景语义模型，用于根据所述影响因素获得全景语义描述，所述全景语义描述包括目标主体和目标主体之间，目标主体和动作之间以及动作与动作之间的关系的描述。
根据权利要求7所述的系统，其特征在于，所述特征提取模块包括：特征向量提取单元、位置特征提取单元、属性特征提取单元、姿态特征提取单元以及关系向量特征单元，

所述特征向量提取单元，用于对所述t帧图像进行特征提取，从而得到t个特征向量；

所述位置特征提取单元，用于对所述t个特征向量进行位置特征提取，从而得到所述位置特征；

所述属性特征提取单元，用于对所述t个特征向量进行属性特征提取，从而得到所述属性特征；

所述姿态特征提取单元，用于对所述t个特征向量进行姿态特征提取，从而得到所述姿态特征；

所述关系向量特征单元模块，用于对所述t个特征向量进行关系向量特征提取，从而得到所述关系向量特征。
根据权利要求8所述的系统，其特征在于，所述特征提取模块包括卷积神经网络，所述特征向量提取单元、所述位置特征提取单元、所述属性特征提取单元、所述姿态特征提取单元以及所述关系向量特征提取单元集成于所述卷积神经网络。
根据权利要求8或9所述的系统，其特征在于，

所述关系向量特征提取单元，用于根据图像i中的目标主体a和目标主体b对特征向量i进行感兴趣区域池化，从而获得与目标主体a和目标主体b对应的特征向量v _a,b，i，a和b均为自然数，并且，0＜i≤t，1≤a,b≤h；根据目标主体a进行感兴趣区域池化，从而获得与目标主体a对应的特征向量v _a,a；并根据以下公式计算得到图像i中的目标主体a和目标主体b之间的关系向量特征

其中，w _a,b＝sigmoid(w(v _a,b,v _a,a))，sigmoid()为S型的函数，v _a,b为目标主体a和目标主体b对应的特征向量，v _a,a为目标主体a对应的特征向量，w()为内积函数。
根据权利要求7至10任一权利要求所述的系统，其特征在于，所述全景语义模型包括：第一时序特征提取单元、第二时序特征提取单元、第三时序特征提取单元以及第四时序特征提取单元，

所述第一时序特征提取单元，用于根据所述位置特征提取第一语义描述；

所述第二时序特征提取单元，用于根据所述属性特征以及所述第一语义描述提取第二语义描述；

所述第三时序特征提取单元，用于根据所述姿态特征以及所述第二语义提取第三语义描述；

所述第四时序特征提取单元，用于根据所述关系向量特征以及所述第三语义描述提取所述全景语义描述。
根据权利要求11所述的系统，其特征在于，所述全景语义模型包括循环神经网络，所述第一时序特征提取单元、所述第二时序特征提取单元、所述第三时序特征提取单元和所述第四时序特征提取单元分别是所述循环神经网络中的一个层。
一种计算节点集群，其特征在于，包括：至少一个计算节点，每个计算节点包括处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至6任一权利要求所述的方法。
一种计算机非瞬态存储介质，其特征在于，包括指令，当所述指令在计算节点集群中的至少一个计算节点上运行时，使得所述计算节点集群执行如权利要求1至6任一权利要求所述的方法。