WO2022156317A1 - 视频帧处理方法及装置、电子设备和存储介质 - Google Patents

视频帧处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
WO2022156317A1
WO2022156317A1 PCT/CN2021/129686 CN2021129686W WO2022156317A1 WO 2022156317 A1 WO2022156317 A1 WO 2022156317A1 CN 2021129686 W CN2021129686 W CN 2021129686W WO 2022156317 A1 WO2022156317 A1 WO 2022156317A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
nodes
target person
features
characteristic
Prior art date
Application number
PCT/CN2021/129686
Other languages
English (en)
French (fr)
Inventor
王浩然
纪德益
甘伟豪
Original Assignee
北京市商汤科技开发有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京市商汤科技开发有限公司 filed Critical 北京市商汤科技开发有限公司
Publication of WO2022156317A1 publication Critical patent/WO2022156317A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种视频帧处理方法及装置、电子设备和存储介质,所述方法包括:确定目标视频的多个视频帧中的多个目标人物;确定所述多个目标人物的运动行为特征和特性特征;根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。

Description

视频帧处理方法及装置、电子设备和存储介质
相关申请交叉引用
本申请主张申请号为202110098786.5、申请日为2021年1月25日的中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频帧处理方法及装置、电子设备和存储介质。
背景技术
人与人之间的社会关系是日常生活中社会结构的基础,社会关系例如可以包括朋友关系、配偶关系、家人关系等。视频中的人与人之间也是存在社会关系的,从视频中识别人与人之间的关系在很多领域中有着重要应用,目前,从视频中识别社会关系的准确率有待提高。
发明内容
本公开提出了一种视频帧处理的技术方案。
根据本公开的一方面,提供了一种视频帧处理方法,包括:确定目标视频的多个视频帧中的多个目标人物;确定所述多个目标人物的运动行为特征和特性特征;根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
根据本公开的一方面,提供了一种视频帧处理装置,包括:目标人物确定模块,用于确定目标视频的多个视频帧中的多个目标人物;特征确定模块,用于确定所述多个目标人物的运动行为特征和特性特征;社会关系确定模块,用于根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
根据本公开的一方面,提供了一种计算机程序产品,包括存储于存储器中的计算机程序,所述计算机程序指令被处理器执行时实现上述方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的一种视频帧处理方法的流程图。
图2示出根据本公开实施例的一种连通图的结构示意图。
图3示出根据本公开实施例的一种预测网络的结构示意图。
图4示出根据本公开实施例的一种视频帧处理方法的具体应用场景示意图。
图5示出根据本公开实施例的一种视频帧处理装置的框图。
图6示出根据本公开实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
为了提高社会关系识别的准确性,本公开实施例提供了一种视频帧处理方法,可以确定视频帧中目标人物的运动行为特征和特性特征,并根据目标人物的运动行为特征和特性特征确定多个目标人物之间的社会关系。
本公开实施例提供的视频帧处理方法,尤其适用于确定现实场景的目标视频中人物之间的社会关系,现实场景中的目标视频中人物的特点一般是:人物数量较多,人物尺寸在画面中占比较小,没有特定的主角。可以考虑依据多个目标人物之间的运动行为特征之间的关系,以及特性特征之间的关系来确定目标人物之间的社会关系。运动行为特征能够表征目标人物之间躯体动作上的相关性,例如近距离地一起走路,而目标人物之间的社会关系也表现在目标人物的容貌、年龄、性别之间的特性特征上。因此,依据运动行为特征和特性特征,能够很好地对现实场景中的目标视频中人物之间的社会关系进行分析,提高从现实场景的目标视频中识别社会关系的准确率。
例如,通过运动行为特征,在多帧图像中均距离较近的人之间往往是具备社会关系的,而进一步通过特性特征,容貌相似的人可能是具备血缘关系的人,容貌相似且年龄相仿的人可能具有兄弟姐妹的关系,容貌相似但年龄差距较大的人可能具有长辈和晚辈的关系,因此,根据运动行为特征和特性特征,即可确定目标人物的社会关系。
本公开实施例提供的视频帧处理方法,能够准确地识别目标人物的社会关系,在多目标追踪、人物轨迹预测、群体活动分析、人机交互等场景下具备较高的应用价值。
本公开实施例提供的视频帧处理方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出根据本公开实施例的视频帧处理方法的流程图,所述视频帧处理方法包括步骤S11至步骤S13。
在步骤S11中,确定目标视频的多个视频帧中的多个目标人物。
目标视频为待处理的视频,例如,可以是现实场景的视频,这里的现实场景的视频可以是通过影像采集设备对现实社会的人物进行采集得到的,目标视频包含多个视频帧,这里的多个视频帧可以是目标视频中的部分或全部视频帧,本公开对此不作限定。
这里所述的确定多个目标人物,可以是确定出目标人物在视频帧中的区域。该区域可以通过矩形框来表示,以指示目标人物的位置。
本公开实施例中,可以基于计算机视觉技术对视频帧中的人物进行检测,以确定多个视频帧中的多个目标人物,例如,在目标视频为公共场所的影像采集设备采集的视频的情况下,可以基于行人检测技术(Pedestrian Detection)对目标视频中的行人(人物)进行检测,行人检测技术利用计算机视觉技术检测图像或者视频帧中的行人,并对行人进行定位。
此外,还可以通过人工标注的方式,来标注视频帧中的多个目标人物,那么根据标注的目标人物,即可确定目标视频的多个视频帧中的多个目标人物。
多个目标人物,可以是视频帧中的部分或全部人物,也可以是符合预先设定的目标条件的人物,本公开对此不做具体限定。
在步骤S12中,确定所述多个目标人物的运动行为特征和特性特征。
运动行为特征可以是表征目标人物的运动行为的特征,用于表征目标人物在目标视频中躯体的动态变化,例如可以是目标人物在空间位置上的位置变化,也可以是目标人物自身躯体动作的变化。运动行为特征能够反映目标人物在目标视频帧中的多种躯体活动,反映目标人物的社会活动。
在一种可能的实现方式中,运动行为特征包括下述至少一种:表征所述目标人物的空间位置变化的轨迹特征;所述目标人物的人体关键点特征。
其中,目标人物的轨迹特征可以包含目标人物的空间位置、运动方向等信息。目标人物的人体关键点特征可用于表征人体关键点的位置,人体关键点是人体上关键的点,例如可以是人体的头顶、五官、颈部、四肢主要关节部位等位置的点。人体关键点的数量可以根据实际需求确定,例如可以是14个、21个,本公开对人体关键点的具体数量不做具体限定。
目标人物的轨迹特征,可以通过多个视频帧中确定的该目标人物的位置来确定,例如,可以将多个视频帧中确定的该目标人物的人体矩形框的中心点相连,作为目标人 物的轨迹特征。
目标人物的人体关键点特征,可以通过关键点检测网络对视频帧进行检测得到,例如,可以通过高分辨率网络(High-Resoultion Net,HRNet)对视频帧进行检测来得到人体关键点特征。
目标人物的特性特征可以是表征目标人物的特性的特征,特性特征是不随目标人物的活动或运动而变化的特征,是目标人物基本保持不变的特征,也可称之为静态特征。
特性特征包括下述至少一种:所述目标人物的外貌特征、属性特征。其中,外貌特征可以是表征目标人物的外表、容貌的特征;属性特征例如可以是人物的性别、年龄等。
特性特征可以通过神经网络来提取,例如,外貌特征可以通过基于区域特征聚集的神经网络RoIAlign网络对视频帧进行提取来得到;属性特征可以通过多层级特征嵌入网络(Hierarchical Feature Embedding,HFE)对视频帧进行提取来得到。
在步骤S13中,根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
在得到目标人物的运动行为特征和特性特征后,可以根据多个目标人物之间的运动行为特征之间的关系,以及特性特征之间的关系,确定多个目标人物之间的社会关系。
考虑到不同社会关系的人,其表现出的运动行为往往是不同的,且社会关系与人物的特性特征也相关。例如,通过运动行为特征,在多帧图像中均距离较近的人之间往往是具备社会关系的,而进一步通过特性特征,例如,容貌相似的人可能是具备血缘关系的人,容貌相似且年龄相仿的人可能具有兄弟姐妹的关系,容貌相似但年龄差距较大的可能是长辈和晚辈的关系。因此,根据运动行为特征和特性特征,即可确定目标人物之间的社会关系。
在本公开实施例中,在确定出目标视频的多个视频帧中的多个目标人物后,通过确定目标人物的运动行为特征和特性特征,能够根据目标人物之间在运动行为特征上的相关性,以及特性特征上的相关性,来确定多个目标人物中至少一个目标人物的社会关系,提高了确定的社会关系的准确性。
本公开实施例提供的视频帧处理方法的实现方式还可以有多种,在一种可能的实现方式中,根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系,包括:对所述目标人物在多个视频帧中的运动行为特征进行编码,得到行为编码特征;对所述目标人物在多个视频帧中的特性特征进行编码,得到特性编码特征;根据所述行为编码特征和特性编码特征,确定所述多个目标人物中至少一个目标人物的社会关系。
本公开实施例中,目标视频的至少一个视频帧中的每个视频帧都可以提取到目标人物的运动行为特征,那么,通过对目标人物在多个视频帧的运动行为特征进行编码,得到的行为编码特征,能够用于表征目标人物在多个视频帧中的运动行为特征。
此外,目标视频的至少一个视频帧中的每个视频帧都可以提取到目标人物的特性 特征,那么,通过对目标人物在多个视频帧的特性特征进行编码,得到的特性编码特征中,能够用来表征目标人物在多个视频帧中的特性特征。
在本公开实施例中,通过对目标人物在多个视频帧中的运动行为特征进行编码,以及对目标人物在多个视频帧中的特性特征进行编码,能够将目标人物在多个视频帧中的运动行为特征和特性特征,用行为编码特征和特性编码特征来简化表示,这可以提高确定至少一个目标人物的社会关系的效率。
在一种可能的实现方式中,对所述目标人物在多个视频帧中的运动行为特征进行编码,得到行为编码特征,包括:针对所述多个目标人物中的每个目标人物,基于多个视频帧中该目标人物与其他目标人物之间相对位置的变化,对该目标人物的运动行为特征进行编码,得到该目标人物的行为编码特征,其中,该目标人物的行为编码特征用于表征该目标人物与所述其他目标人物的相对位置随时间的变化。
目标人物的空间位置,可以通过目标人物在视频帧中的坐标来表示,而目标人物的空间位置关系,可以通过视频帧中该目标人物与其他目标人物之间的相对位置来表示,相对位置例如可以是目标人物与其他目标人物之间的距离,该距离例如可以是目标人物在视频帧中坐标的欧氏距离。
本公开实施例中,运动行为特征可以包含表征目标人物空间位置的信息,而考虑到目标人物与其他目标人物之间的相对位置能够在一定程度上反映目标人物与其他目标人物之间的社会关系,且目标人物与其他目标人物之间的相对位置随时间的变化能够更准确地反映目标人物与其他目标人物之间的社会关系,那么,由于视频帧往往是时序的,多个视频帧中目标人物与其他目标人物之间相对位置的变化,即可表征目标人物之间的空间位置关系的变化。
因此,可以基于多个视频帧中目标人物与其他目标人物之间相对位置的变化,对目标人物的运动行为特征进行编码,得到行为编码特征,得到的行为编码特征即可用于表征各目标人物之间的相对位置随时间的变化。这能够更准确地反映目标人物之间的社会关系,提高了识别出的社会关系的准确性。
在一种可能的实现方式中,基于多个视频帧中该目标人物与其他目标人物之间相对位置的变化,对该目标人物的运动行为特征进行编码,得到该目标人物的行为编码特征,包括:将该目标人物在所述多个视频帧中的运动行为特征作为长短时记忆网络LSTM的第一输入,将该目标人物与所述其他目标人物之间的相对位置作为所述LSTM的第二输入,将所述LSTM的输出作为该目标人物的行为编码特征。
在本实现方式中,可以通过长短时记忆网络LSTM,对目标人物的运动行为特征进行编码,LSTM网络能够按时序的顺序对视频帧中的运动行为特征进行处理,并且在处理当前视频帧中的运动行为特征时,能够记忆之前视频帧中的运动行为特征,并将当前视频帧的运动行为特征与记忆的运动行为特征进行累加,输入至LSTM网络中。
为便于更清楚地理解通过LSTM网络对运动行为特征进行编码的过程,下面通过数学表达式来对该过程进行说明,需要说明的是,本公开中提供的数学表达式为本公开 实施例在实施时的一种可能的实现方式,而不应当理解为对本公开实施例保护范围的限制。
以目标人物P i为例,目标人物P i与其他目标人物之间的相对位置I i可以通过P i与视频帧中其它目标人物之间的距离
Figure PCTCN2021129686-appb-000001
来确定,I i和d j的表达式如下:
Figure PCTCN2021129686-appb-000002
其中,
Figure PCTCN2021129686-appb-000003
表示时序为t时目标人物i的坐标,
Figure PCTCN2021129686-appb-000004
表示时序为t时目标人物i在x轴的坐标值,
Figure PCTCN2021129686-appb-000005
表示时序为t时目标人物i在y轴的坐标值,
Figure PCTCN2021129686-appb-000006
表示时序为t时目标人物j的坐标,
Figure PCTCN2021129686-appb-000007
表示
Figure PCTCN2021129686-appb-000008
Figure PCTCN2021129686-appb-000009
之间的欧氏距离,D表示欧氏距离函数,IM表示对时序为t-1时的视频帧中P i与其它目标人物之间的相对距离
Figure PCTCN2021129686-appb-000010
进行整合处理操作,整合处理操作例如可以是取平均值的操作。
t-1时序的视频帧中的目标人物P i与其他目标人物的相对位置I i,可以与LSTM网络的隐层在t-1时序输出的P i隐状态
Figure PCTCN2021129686-appb-000011
进行融合,融合后的数据作为t时序的LSTM网络的隐层的输入,用来计算时序为t时的P i的隐状态
Figure PCTCN2021129686-appb-000012
时序为t时LSTM网络的隐层输出的P i隐状态
Figure PCTCN2021129686-appb-000013
的表达式如下:
Figure PCTCN2021129686-appb-000014
其中,LSTM表示通过LSTM网络进行处理,δ表示通过多层感知器(Multilayer Perceptron,MLP)进行处理。
Figure PCTCN2021129686-appb-000015
表示t时序的视频帧中P i的运动行为特征,其可以是P i在视频帧中的位置坐标
Figure PCTCN2021129686-appb-000016
和人体关键点坐标
Figure PCTCN2021129686-appb-000017
W lstm为权重参数。
LSTM网络的输出h t再通过MLP层进行处理,即可得到行为编码特征f m,f m的表达式如下:
f m=δ(h t;W mlp)         (3)
其中,δ表示通过多层感知器(Multilayer Perceptron,MLP)进行处理,W mlp为权重参数。
本公开实施例中,通过LSTM网络对目标人物在多个视频帧中的运动行为特征进行编码处理,基于LSTM网络得到的行为编码特征,能够记忆目标人物在多个视频帧中的运动行为特征。同时,LSTM网络的输入还包括多个视频帧中目标人物与其他目标人物之间的相对位置,那么基于LSTM网络得到的行为编码特征,能够记忆目标人物与其他目标人物的相对位置随时间的变化。因此,行为编码特征能够准确地反映目标人物与其他目标人物之间的社会关系,提高了识别出的社会关系的准确性。
在一种可能的实现方式中,对所述多个目标人物在多个视频帧中的特性特征进行编码,得到特性编码特征,包括:针对所述多个目标人物中的每个目标人物,对该目标人物在所述多个视频帧中的一种或多种特性特征进行平均池化处理,得到该目标人物的所述一种或多种特性特征分别对应的特性编码特征,其中,该目标人物的所述一种或多种特性特征分别对应的特性编码特征的维度是一致的。
考虑到特性特征在理论上往往是不随目标人物的活动变化的,但是在实际情况中,受环境条件影响,不同视频帧中的特性特征往往会有所差异,因此,平均池化处理可以 包括:计算该目标人物在多个视频帧中的特性特征的平均值。例如,针对该目标人物,可以对其在多个视频帧中的外貌特征计算平均值;针对该目标人物,可以对其在多个视频帧中估计出来的年龄取平均值。
如前文所述,特性特征可能包含多种类型,因此针对多种类型的特性特征,可以分别进行编码处理,得到多个特性编码特征。针对得到的多个特性编码特征,可以将其维度进行统一,使得不同类型的特性特征得到的特性编码特征的维度保持一致,以便准确地确定所述至少一个目标人物之间的社会关系。
为便于更清楚地理解对特性特征进行编码的过程,下面通过数学表达式对该过程进行说明,需要说明的是,本公开中提供的数学表达式为本公开实施例在实施时的一种可能的实现方式,而不应当理解为对本公开实施例保护范围的限制。
以目标人物P i为例,其特性特征F可以表示为
Figure PCTCN2021129686-appb-000018
其中,
Figure PCTCN2021129686-appb-000019
是外貌特征,
Figure PCTCN2021129686-appb-000020
是属性特征,N为目标人物的总人数,T为视频帧的总帧数,V是各类型的特性特征的维度,例如,外貌特征的维度可以是49,属性特征的维度可以是64,对特性特征进行编码的过程可以通过公式(4)来表示。
Figure PCTCN2021129686-appb-000021
f s=δ(f temporal_pool;W mlp)          (5)
其中,f temporal_pool表示平均池化的结果,公式(4)即为对t时序的T帧视频帧的某一目标人物的特性特征F取平均的过程,f s表示维度统一后的特性编码特征,公式(5)即为对不同类型的特性特征得到的特性编码特征进行维度统一的过程,δ表示通过多层感知器进行处理,W mlp为权重参数。
在本公开实施例中,考虑到特性特征在理论上往往是不随目标人物的活动变化的,但是在实际情况中,受环境条件影响,同一目标人物在不同视频帧中的特性特征往往会有所差异,因此,通过平均池化处理,得到的特性编码特征能够更准确地表征目标人物的特性,提高了识别出的社会关系的准确性。
在一种可能的实现方式中,根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系,包括:构建第一连通图,其中,所述第一连通图的节点基于所述多个目标人物中一者的运动行为特征和特性特征构建,所述第一连通图的至少两个节点之间存在连接关系,所述至少两个节点之间的连接关系为所述至少两个节点所对应的目标人物之间的相关特征,其中,所述相关特征表征所述至少两个节点所对应的目标人物之间的相关性;根据所述第一连通图,确定所述多个目标人物中至少一个目标人物的社会关系。
第一连通图的节点是基于所述多个目标人物中一者的运动行为特征和特性特征构建的,在一种可能的实现方式中,第一连通图的节点的特征包括该目标人物的行为编码特征和特性编码特征。第一连通图的节点的特征也可以基于运动行为特征和特性特征的其它形式来构建,或者也可以直接包括运动行为特征和特性特征,本公开对此不作具体 限定。
请参阅图2,为本公开提供的一种连通图的示意图,该连通图中,节点为目标人物的行为编码特征和特性编码特征。节点之间的连接关系可以以节点的边的形式来表示,那么,连接两个节点的边即表征目标人物之间的相关特征。
在一种可能的实现方式中,相关特征包括下述至少一种:至少两个节点所对应的目标人物的外貌特征之间的相似度;至少两个节点所对应的目标人物之间的相对位置。外貌特征的相关解释请参考前文相关描述,此处不做赘述。相对位置的解释,请参考前文相关描述,此处不做赘述。
本公开实施例构建的连通图中,节点不仅表征了目标人物的运动行为特征,而且表征了同一目标人物的特性特征,因此连通图的节点能够从整体上表征目标人物的特征,而节点之间的连接关系是依据表征目标人物之间相关性的相关特征来构建的,能够较好地反映目标人物之间的相关性。由此,本公开实施例中构建的连通图,能够从整体上反映目标人物之间的关系,因此根据第一连通图,确定多个目标人物中至少一个目标人物的社会关系,能够提高识别出的社会关系的准确性。
在一种可能的实现方式中,根据所述第一连通图,确定所述多个目标人物中至少一个目标人物的社会关系,包括:通过图卷积神经网络,对所述第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图;根据所述第二连通图,确定多个目标人物中至少一个目标人物的社会关系。
在构建好连通图后,可以通过图卷积神经网络,对连通图进行迭代更新,迭代更新的过程可以对节点和节点之间的连接关系进行优化,迭代更新后满足收敛条件的第二连通图能够更准确地表征目标人物之间的社会关系。
每次迭代过程中,任意节点i的特征,是通过节点i与其他节点相连的邻接矩阵,对各节点的特征值进行投影来更新的,在经过多次迭代后,各节点的特征值将不会再随迭代次数的增加而变化,即节点的特征值保持不变,此时即可视为满足收敛条件,满足收敛条件的连通图即为第二连通图。
为便于理解本公开中通过图卷积网络对第一连通图进行迭代更新的过程,下面通过数学表达式对该过程进行说明,第l+1次迭代时节点的特征F l+1的表达式如下:
F l+1=σ(AF lW l)         (6)
其中,F l为第l次迭代时节点的特征,W l为转换矩阵,可以通过网络训练进行优化得到,σ表示激活函数,例如可以是线性整流函数(Rectified Linear Unit,ReLU),激活函数可以视本公开的实际应用场景而定,本公开对此不作限制。A为节点的邻接矩阵,在第一连通图中,节点i和j之间的连接关系可以基于邻接矩阵A ij来表示,节点i和j的邻接矩阵A ij的表达式如下:
Figure PCTCN2021129686-appb-000022
Figure PCTCN2021129686-appb-000023
Figure PCTCN2021129686-appb-000024
其中,
Figure PCTCN2021129686-appb-000025
用来表征节点i和j(即目标人物i和j)之间的相对位置,
Figure PCTCN2021129686-appb-000026
为指示函数,
Figure PCTCN2021129686-appb-000027
为节点i和j之间的欧氏距离,μ为设定阈值,当
Figure PCTCN2021129686-appb-000028
小于等于μ的情况下,
Figure PCTCN2021129686-appb-000029
的值为1,当
Figure PCTCN2021129686-appb-000030
大于μ的情况下,
Figure PCTCN2021129686-appb-000031
的值为0。
Figure PCTCN2021129686-appb-000032
Figure PCTCN2021129686-appb-000033
用来表征节点i和j(即目标人物i和j)之间的外貌关系,例如可以是目标人物i和j外貌特征之间的相似度。
在基于上述参数构建第一连通图后,即可用上述公式(6)对第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图。
在得到第二连通图后,即可根据第二连通图,确定多个目标人物之间的社会关系。在一种可能的实现方式中,根据第二连通图,确定多个目标人物之间的社会关系,包括:对所述第二连通图中的节点执行分类操作,得到社会关系类别为单人的节点,以及社会关系类别为多人的至少一个节点集合,其中,同一所述节点集合中的多个节点之间具备社会关系;对所述节点集合进行分类,得到所述节点集合中的多个节点所属的社会关系类别;根据所述多个节点所属的社会关系类别,确定所述多个节点对应的目标人物之间的社会关系。
对第二连通图中的节点执行的分类操作可以是二分类操作,两个类别分别是单人类别和多人类别。当节点被分类为单人类别后,即表明该节点对应的目标人物的社会关系为单人。
而当节点被分类为多人类别后,会再对社会关系类别为多人的至少一个节点集合进行分类,得到节点集合中的多个节点所属的社会关系类别。
节点集合是具备连接关系的多个节点构成的集合,可以通过第二连通图的边确定节点之间的连接关系。由于第二连通图是迭代更新后的连通图,那么可以认为第二连通图中有边连接的节点之间具备社会关系,而没有边连接的节点之间不具备社会关系,那么,第二连通图中,通过边相连的多个节点即构成节点集合。
多个节点所属的社会关系类别例如可以是朋友、情侣、家人等等。当节点集合中的多个节点所属的社会关系类别确定后,即可确定节点对应的目标人物之间的社会关系。例如,当确定节点i和j之间的社会关系类别为朋友,则节点i和j对应的目标人物i和j之间的社会关系即为朋友。
本公开实施例中,通过两次分类操作,先判断节点是单人类别还是多人类别,再判断多人类别的节点集合所属的社会关系类别,能够准确地判断节点对应的目标人物之间的社会关系。
在一种可能的实现方式中,第一连通图包括第一局部连通图,所述第一局部连通图中的部分节点之间存在连接关系,存在连接关系的所述部分节点之间的距离满足设定条件。
如前文所述,第一连接图中,会通过邻接矩阵建立节点之间的连接关系。而对于第一局部连通图中,存在连接关系的节点,可以是节点之间的距离满足设定条件的节点,这便意味着第一局部连通图中存在不相连的节点,那么在迭代更新第一连通图的过程中,会对相连的节点进行迭代更新。减少不相连的节点对相连的节点的影响。
在一种可能的实现方式中,所述设定条件包括下述至少一种:相连的节点对应的目标人物之间的距离小于距离阈值;相连的节点为所述多个目标人物中距离最近的两个目标人物对应的节点。其中,距离阈值可以是预先设定的距离,目标人物之间的距离小于距离阈值,则通过邻接矩阵将所述目标人物对应的节点相连。
在本公开实施例中,在人群拥挤的情况下,目标人物的周围可能会存在很多其它目标人物,但是目标人物往往不会与其周围所有的其它目标人物存在社会关系,因此,通过局部连通图,使得相连的节点之间的距离满足设定条件,即可减少距离不满足预设条件的节点(目标人物)对识别社会关系的影响,提高了识别到的社会关系的准确性。
在一种可能的实现方式中,所述第一连通图包括第一非局部连通图,所述第一非局部连通图中所有节点之间存在连接关系。第一连通图可以有多个,例如,可以包括第一局部连通图和第一非局部连通图,也可以包含两种连通图中的任意一种。
在一种可能的实现方式中,通过图卷积神经网络,对所述第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图,包括:通过图卷积神经网络,分别对所述第一局部连通图和第一非局部连通图进行迭代更新,得到迭代更新后满足收敛条件的第二局部连通图和第二非局部连通图;将满足收敛条件的第二局部连通图和第二非局部连通图进行融合,得到第二连通图。
在本实现方式中,第一连通图包括第一局部连通图和第一非局部连通图,第一非局部连通图中的节点之间通过邻接矩阵相连。
这里将满足收敛条件的第二局部连通图和第二非局部连通图进行融合,例如可以是将满足收敛条件的第二局部连通图和第二非局部连通图进行相加,在相加的过程中,也可以对某一连通图乘以权重值,对于具体融合的方式,本公开不作限定。
在本公开实施例中,通过对局部连通图和非局部连通图进行迭代更新,由此得到的第二连通图中既包含了局部连通图的优化结果,也包含了非局部连通图的优化结果,提高了识别到的社会关系的准确性。
在一种可能的实现方式中,所述社会关系基于预测网络确定,所述方法还包括:基于样本数据训练所述预测网络,以通过训练好的预测网络确定所述目标视频中的所述多个目标人物中至少一个目标人物的社会关系,所述样本数据包括:样本视频及所述样本视频中标注的人物的社会关系标签。
在一种可能的实现方式中,该预测网络的训练步骤包括:将样本视频输入预测网络中处理,得到预测的样本视频中多个人物中至少一个人物的社会关系;根据预测的社会关系以及所述样本视频中标注的人物的社会关系之间的损失,优化预测网络中的参数。
本公开实施例中,在训练预测网络的过程中,可以根据预测的样本视频中多个人 物的至少一个人物的社会关系以及所述样本视频中标注的人物的社会关系之间的损失,调整预测网络中的参数,以使预测网络输出的社会关系与标注的社会关系之间的差异最小。
训练时所使用的损失函数例如可以是交叉熵损失函数(Cross Entropy Loss,CE),损失函数可以根据实际需求选择,本公开对此不作具体限定。
该预测网络可用于实现本公开的社会关系的确定,该预测网络中可以包含前文所述的图卷积神经网络,另外,为实现本公开的各项功能,该预测网络中还可以包含其它网络,例如,LSTM网络、HRnet、RoIAlign等网络,对于本公开的预测网络中包含的网络,可根据本公开实施例的应用场景而定,本公开对此不做限制。
请参阅图3,为本公开提供的一种预测网络的结构示意图,该网络中包含多模态特征提取模块、运动行为特征和特性特征编码模块、图卷积网络特征更新模块、分类模块。具体工作过程包含步骤S201至步骤S205。
S201,通过多模态特征提取模块提取多个视频帧中目标人物的多模态特征。
这里的多模态特征包括前文描述的运动行为特征和特性特征,运动行为特征包括目标人物的轨迹特征和人体关键点特征,特性特征包括目标人物的外貌特征、属性特征,属性特征包括:目标人物的性别和年龄等特征。
视频帧中的目标人物可以是通过人工标注的,或者也可以是通过行人检测模块检测得到的。
其中,轨迹特征可以通过多个视频帧中确定的目标人物的位置来确定;人体关键点特征可以通过HRNet网络从视频帧中提取得到;外貌特征可以通过RoIAlign网络从视频帧中提取得到;属性特征可以通过HFE网络从视频帧中提取得到。
S202,通过运动行为特征和特性特征编码模块,对目标人物的运动行为特征和特性特征进行编码。
运动行为特征的编码可以通过LSTM网络来实现,对运动行为特征和特性特征的编码过程,请参考前文相关描述,此处不做赘述。
S203,构建第一连通图,并通过图卷积网络特征更新模块对第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图。
连通图的节点特征包括目标人物的行为编码特征和特性编码特征,连通图的边基于相关特征构建,相关特征包括目标人物的外貌特征之间的相似度以及目标人物之间的相对位置。
第一连通图包括第一非局部连通图(全连通图)和第一局部连通图,第一非局部连通图中的节点之间,通过基于相关特征构建的邻接矩阵相连。第一局部连通图中,距离最近的两个节点之间通过基于相关特征构建的邻接矩阵相连。
通过图卷积网络特征更新模块,分别对第一局部连通图和第一非局部连通图进行迭代更新,得到迭代更新后满足收敛条件的第二局部连通图和第二非局部连通图,然后再将满足收敛条件的第二局部连通图和第二非局部连通图进行融合,得到第二连通图。
S204,通过第一分类模块对第二连通图中的节点进行分类,判断节点属于单人类别还是多人类别。
S205,通过第二分类模块对属于多人类别的节点进行分类,进一步判断具备连接关系的多人类别的节点构成的节点集合的类别,得到社会关系类别。
多人类别的节点所属的社会关系类别例如可以是朋友、情侣、家人等等。当节点集合中的多个节点所属的社会关系类别确定后,即可确定节点对应的目标人物之间的社会关系。
本公开实施例尤其适用于现实场景中的视频中社会关系的确定,现实场景中的视频中人物的尺寸大小都相近,并且人物数量往往较多,且会在连续的时间里进行日常的社会行为。本公开通过图卷积神经网络,基于目标人物的运动行为特征和特性特征,能够准确地识别出目标视频中人们的社会关系。
请参阅图4,为本公开提供的一种视频帧处理方法的应用场景示意图,在该应用场景中,通过社会关系预测网络预测多个目标人物中至少一个目标人物的社会关系,社会关系预测网络的工作过程可参见前文相关描述,限于篇幅,此处不再赘述。该应用场景下的视频帧处理方法包括步骤S301至步骤S306。
S301,获取目标位置的影像采集设备采集的目标视频;
目标位置可以是前文所述的现实场景中的某一位置,该位置例如可以是广场、商场、道路、小区出入口等位置,对于具体位置本公开不作限定。那么,位于目标位置的影像采集设备所采集的视频流即为现实场景中的视频。
S302,确定目标视频的多个视频帧中的多个目标人物;
如图4所示,多个视频帧中的每个视频帧包含多个人物,视频帧中的人物可以基于行人检测技术得到,行人检测技术可以利用计算机视觉技术检测图像或者视频帧中的行人,并对行人进行定位与追踪。
S303,提取多个视频帧中多个目标人物的运动行为特征和特性特征,并对运动行为特征和特性特征进行编码,得到行为编码特征和特性编码特征。
S304,构建第一连通图,并对第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图。
连通图的节点特征包括目标人物的行为编码特征和特性编码特征,连通图的边基于相关特征构建,相关特征包括目标人物的外貌特征之间的相似度以及目标人物之间的相对位置。
S305,对第二连通图中的节点进行分类,判断节点属于单人类别还是多人类别。
如图4所示,在视频帧中,左侧树下的两个人的类别属于单人类别,右侧的四个框所框中的目标人物,属于多人类别,同一个框中的多人对应于连通图中具备连接关系的多人类别的节点构成的节点集合。
S306,对多人类别的节点进行分类,进一步判断具备连接关系的多人类别的节点构成的节点集合的类别,得到社会关系类别。
多人类别的节点所属的社会关系类别例如可以是朋友、情侣、家人等等。如图4所示,右侧的四个框所框中的人物,自上而下分别属于朋友关系、朋友关系、家人关系、情侣关系。由此,便确定了视频帧中的人物的社会关系。
本公开实施例尤其适用于现实场景中的视频中社会关系的确定,现实场景中的视频中人物的尺寸大小都相近,并且人物数量往往较多,且会在连续的时间里进行日常的社会行为。本公开通过图卷积神经网络,基于目标人物的运动行为特征和特性特征,能够准确地识别出目标视频中人们的社会关系。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了视频处理装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种视频处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图5示出根据本公开实施例的视频处理装置的框图,如图5所示,所述装置40包括:目标人物确定模块41,用于确定目标视频的多个视频帧中的多个目标人物;特征确定模块42,用于确定所述多个目标人物的运动行为特征和特性特征;社会关系确定模块43,用于根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
在一种可能的实现方式中,所述社会关系确定模块43,用于对所述多个目标人物在所述多个视频帧中的所述运动行为特征进行编码,得到行为编码特征;对所述多个目标人物在所述多个视频帧中的特性特征进行编码,得到特性编码特征;根据所述行为编码特征和特性编码特征,确定所述多个目标人物中至少一个目标人物的社会关系。
在一种可能的实现方式中,针对所述多个目标人物中的一者,该目标人物的运动行为特征包括下述至少一种:表征该目标人物的空间位置变化的轨迹特征;该目标人物的人体关键点特征。
在一种可能的实现方式中,所述社会关系确定模块43,用于针对所述多个目标人物中的每个目标人物,基于所述多个视频帧中该目标人物与其他目标人物之间相对位置的变化,对该目标人物的运动行为特征进行编码,得到该目标人物的行为编码特征,其中,该目标人物的行为编码特征用于表征该目标人物与所述其他目标人物之间的所述相对位置随时间的变化。
在一种可能的实现方式中,所述社会关系确定模块43,用于将该目标人物在所述多个视频帧中的运动行为特征作为长短时记忆网络LSTM的第一输入,将该目标人物与所述其他目标人物之间的所述相对位置作为所述LSTM的第二输入,将所述LSTM的输出作为该目标人物的行为编码特征。
在一种可能的实现方式中,所述社会关系确定模块43,用于针对所述多个目标人 物中的每个目标人物,对该目标人物在所述多个视频帧中的一种或多种特性特征进行平均池化处理,得到该目标人物的所述一种或多种特性特征分别对应的特性编码特征,其中,该目标人物的所述一种或多种特性特征分别对应的特性编码特征的维度是一致的。
在一种可能的实现方式中,针对所述目标人物中的一者,该目标人物的特性特征包括下述至少一种:该目标人物的外貌特征、属性特征;所述属性特征包括下述至少一种:该目标人物的性别、年龄。
在一种可能的实现方式中,所述社会关系确定模块43,用于构建第一连通图,其中,所述第一连通图的节点基于所述多个目标人物中一者的运动行为特征和特性特征构建,所述第一连通图的至少两个节点之间存在连接关系,所述至少两个节点之间的连接关系为所述至少两个节点所对应的目标人物之间的相关特征,其中,所述相关特征表征所述至少两个节点所对应的目标人物之间的相关性;根据所述第一连通图,确定所述多个目标人物中至少一个目标人物的社会关系。
在一种可能的实现方式中,所述社会关系确定模块43,用于通过图卷积神经网络,对所述第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图;根据所述第二连通图,确定所述多个目标人物中至少一个目标人物的社会关系。
在一种可能的实现方式中,所述社会关系确定模块43,用于对所述第二连通图中的节点执行分类操作,得到社会关系类别为单人的节点,以及社会关系为多人类别的至少一个节点集合,其中,同一所述节点集合中的多个节点之间具备社会关系;针对所述至少一个节点集合中的每一个,对该节点集合进行分类,得到该节点集合中的多个节点所属的社会关系类别;根据该节点集合中的多个节点所属的社会关系类别,确定所述多个节点对应的目标人物之间的社会关系。
在一种可能的实现方式中,所述第一连通图包括第一局部连通图,所述第一局部连通图中的部分节点之间存在连接关系,存在连接关系的节点之间的距离满足设定条件;所述设定条件包括下述至少一种:相连的节点对应的目标人物之间的距离小于距离阈值;相连的节点为所述多个目标人物中距离最近的两个目标人物对应的节点。
在一种可能的实现方式中,所述第一连通图还包括第一非局部连通图,所述第一非局部连通图中所有节点之间存在连接关系。
在一种可能的实现方式中,所述社会关系确定模块43,用于通过所述图卷积神经网络,分别对所述第一局部连通图和所述第一非局部连通图进行迭代更新,得到迭代更新后满足收敛条件的第二局部连通图和第二非局部连通图;将满足收敛条件的第二局部连通图和第二非局部连通图进行融合,得到所述第二连通图。
在一种可能的实现方式中,所述相关特征包括下述至少一种:所述至少两个节点所对应的目标人物的外貌特征之间的相似度;所述至少两个节点所对应的目标人物之间的相对位置。
在一种可能的实现方式中,所述社会关系基于预测网络确定,所述装置还包括:训练模块,用于基于样本数据训练所述预测网络,以通过训练好的预测网络确定所述目 标视频中的所述多个目标人物中至少一个目标人物的社会关系,所述样本数据包括:样本视频及所述样本视频中标注的人物的社会关系标签。
在一种可能的实现方式中,所述目标视频包括现实场景的视频。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的视频帧处理方法的指令。
本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的视频帧处理方法的操作。
电子设备可以被提供为终端、服务器或其它形态的设备。
图6示出根据本公开实施例的一种电子设备的框图。例如,电子设备可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端。
该电子设备可以包括用于执行指令的处理器,用于进行网络连接的网络接口,用于为处理器存储运行数据的内存,以及用于存储知识蒸馏装置或图像处理处理装置对应指令的非易失性存储器。
其中,上述装置的实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
可以理解的是,为了提升处理速度,视频处理装置对应指令也可以直接存储于内存中,在此不作限定。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数 据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (19)

  1. 一种视频帧处理方法,包括:
    确定目标视频的多个视频帧中的多个目标人物;
    确定所述多个目标人物的运动行为特征和特性特征;
    根据所述运动行为特征和所述特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
  2. 根据权利要求1所述的方法,其中,根据所述运动行为特征和所述特性特征,确定所述多个目标人物中至少一个目标人物的社会关系,包括:
    对所述多个目标人物在所述多个视频帧中的所述运动行为特征进行编码,得到行为编码特征;
    对所述多个目标人物在所述多个视频帧中的所述特性特征进行编码,得到特性编码特征;
    根据所述行为编码特征和所述特性编码特征,确定所述多个目标人物中所述至少一个目标人物的社会关系。
  3. 根据权利要求2所述的方法,其中,针对所述多个目标人物中的一者,该目标人物的运动行为特征包括下述至少一种:
    表征该目标人物的空间位置变化的轨迹特征;
    该目标人物的人体关键点特征。
  4. 根据权利要求2或3所述的方法,其中,对所述多个目标人物在所述多个视频帧中的所述运动行为特征进行编码,得到所述行为编码特征,包括:
    针对所述多个目标人物中的每个目标人物,基于所述多个视频帧中该目标人物与其他目标人物之间相对位置的变化,对该目标人物的运动行为特征进行编码,得到该目标人物的行为编码特征,其中,该目标人物的行为编码特征用于表征该目标人物与所述其他目标人物之间的所述相对位置随时间的变化。
  5. 根据权利要求4所述的方法,其中,基于所述多个视频帧中该目标人物与所述其他目标人物之间相对位置的变化,对该目标人物的运动行为特征进行编码,得到该目标人物的行为编码特征,包括:
    将该目标人物在所述多个视频帧中的运动行为特征作为长短时记忆网络的第一输入,将该目标人物与所述其他目标人物之间的所述相对位置作为所述长短时记忆网络的第二输入,将所述长短时记忆网络的输出作为该目标人物的行为编码特征。
  6. 根据权利要求2所述的方法,其中,对所述多个目标人物在所述多个视频帧中的所述特性特征进行编码,得到所述特性编码特征,包括:
    针对所述多个目标人物中的每个目标人物,对该目标人物在所述多个视频帧中的一种或多种特性特征进行平均池化处理,得到该目标人物的所述一种或多种特性特征分别对应的特性编码特征,其中,该目标人物的所述一种或多种特性特征分别对应的特性编码特征的维度是一致的。
  7. 根据权利要求1-6中任一项所述的方法,其中,针对所述目标人物中的一者,该目标人物的特性特征包括下述至少一种:该目标人物的外貌特征、属性特征;
    所述属性特征包括下述至少一种:该目标人物的性别、年龄。
  8. 根据权利要求1-7中任一项所述的方法,其中,根据所述运动行为特征和所述特性特征,确定所述多个目标人物中至少一个目标人物的社会关系,包括:
    构建第一连通图,其中,所述第一连通图的节点基于所述多个目标人物中一者的运动行为特征和特性特征构建,所述第一连通图的至少两个节点之间存在连接关系,所述至少两个节点之间的连接关系为所述至少两个节点所对应的目标人物之间的相关特征,其中,所述相关特征表征所述至少两个节点所对应的目标人物之间的相关性;
    根据所述第一连通图,确定所述多个目标人物中所述至少一个目标人物的社会关系。
  9. 根据权利要求8所述的方法,其中,根据所述第一连通图,确定所述多个目标人物中所述至少一个目标人物的社会关系,包括:
    通过图卷积神经网络,对所述第一连通图进行迭代更新,得到迭代更新后满足收敛条件的第二连通图;
    根据所述第二连通图,确定所述多个目标人物中所述至少一个目标人物的社会关系。
  10. 根据权利要求9所述的方法,其中,根据所述第二连通图,确定所述多个目标人物中所述至少一个目标人物的社会关系,包括:
    对所述第二连通图中的节点执行分类操作,得到社会关系类别为单人的节点,以及社会关系类别为多人的至少一个节点集合,其中,同一所述节点集合中的多个节点之间具备社会关系;
    针对所述至少一个节点集合中的每一个,
    对该节点集合进行分类,得到该节点集合中的多个节点所属的社会关系类别;
    根据该节点集合中的多个节点所属的社会关系类别,确定所述多个节点对应的目标人物之间的社会关系。
  11. 根据权利要求9-10中任一项所述的方法,其中,所述第一连通图包括第一局部连通图,所述第一局部连通图中的部分节点之间存在连接关系,存在所述连接关系的所述部分节点之间的距离满足设定条件;
    所述设定条件包括下述至少一种:
    相连的节点对应的目标人物之间的距离小于距离阈值;
    相连的节点为所述多个目标人物中距离最近的两个目标人物对应的节点。
  12. 根据权利要求9-11中任一项所述的方法,其中,所述第一连通图包括第一非局部连通图,所述第一非局部连通图中所有节点之间存在连接关系。
  13. 根据权利要求12所述的方法,其中,通过所述图卷积神经网络,对所述第一连通图进行迭代更新,得到迭代更新后满足收敛条件的所述第二连通图,包括:
    通过所述图卷积神经网络,分别对所述第一局部连通图和所述第一非局部连通图进行迭代更新,得到迭代更新后满足收敛条件的第二局部连通图和第二非局部连通图;
    将满足收敛条件的第二局部连通图和第二非局部连通图进行融合,得到所述第二连通图。
  14. 根据权利要求8-13中任一项所述的方法,其中,所述相关特征包括下述至少一种:
    所述至少两个节点所对应的目标人物的外貌特征之间的相似度;
    所述至少两个节点所对应的目标人物之间的相对位置。
  15. 根据权利要求1-14中任一项所述的方法,其中,所述社会关系基于预测网络确定,所述方法还包括:
    基于样本数据训练所述预测网络,以通过训练好的预测网络确定所述目标视频中的所述多个目标人物中至少一个目标人物的社会关系,所述样本数据包括:样本视频及所述样本视频中标注的人物的社会关系标签。
  16. 一种视频处理装置,包括:
    目标人物确定模块,用于确定目标视频的多个视频帧中的多个目标人物;
    特征确定模块,用于确定所述多个目标人物的运动行为特征和特性特征;
    社会关系确定模块,用于根据所述运动行为特征和特性特征,确定所述多个目标人物中至少一个目标人物的社会关系。
  17. 一种电子设备,包括:
    处理器;
    用于存储处理器可执行指令的存储器;
    其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至15中任意一项所述的方法。
  18. 一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至15中任意一项所述的方法。
  19. 一种计算机程序产品,包括存储于存储器中的计算机程序,所述计算机程序指令被处理器执行时实现权利要求1至15中任意一项所述的方法。
PCT/CN2021/129686 2021-01-25 2021-11-10 视频帧处理方法及装置、电子设备和存储介质 WO2022156317A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110098786.5 2021-01-25
CN202110098786.5A CN112906484B (zh) 2021-01-25 2021-01-25 一种视频帧处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
WO2022156317A1 true WO2022156317A1 (zh) 2022-07-28

Family

ID=76119990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/129686 WO2022156317A1 (zh) 2021-01-25 2021-11-10 视频帧处理方法及装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112906484B (zh)
WO (1) WO2022156317A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906484B (zh) * 2021-01-25 2023-05-12 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005208A1 (en) * 2010-07-02 2012-01-05 Honeywell International Inc. System for information discovery in video-based data
CN105183758A (zh) * 2015-07-22 2015-12-23 深圳市万姓宗祠网络科技股份有限公司 一种连续记录视频、影像的内容识别方法
CN109993026A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 亲属识别网络模型的训练方法及装置
CN112231592A (zh) * 2020-11-09 2021-01-15 腾讯科技(深圳)有限公司 基于图的网络社团发现方法、装置、设备以及存储介质
CN112906484A (zh) * 2021-01-25 2021-06-04 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107735795B (zh) * 2015-07-02 2021-11-26 北京市商汤科技开发有限公司 用于社会关系识别的方法和系统
CN112241673B (zh) * 2019-07-19 2022-11-22 浙江商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005208A1 (en) * 2010-07-02 2012-01-05 Honeywell International Inc. System for information discovery in video-based data
CN105183758A (zh) * 2015-07-22 2015-12-23 深圳市万姓宗祠网络科技股份有限公司 一种连续记录视频、影像的内容识别方法
CN109993026A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 亲属识别网络模型的训练方法及装置
CN112231592A (zh) * 2020-11-09 2021-01-15 腾讯科技(深圳)有限公司 基于图的网络社团发现方法、装置、设备以及存储介质
CN112906484A (zh) * 2021-01-25 2021-06-04 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117149944B (zh) * 2023-08-07 2024-04-23 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

Also Published As

Publication number Publication date
CN112906484B (zh) 2023-05-12
CN112906484A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
Qu et al. RGBD salient object detection via deep fusion
US9922271B2 (en) Object detection and classification
WO2022156317A1 (zh) 视频帧处理方法及装置、电子设备和存储介质
Jalal et al. Depth maps-based human segmentation and action recognition using full-body plus body color cues via recognizer engine
Kapidis et al. Egocentric hand track and object-based human action recognition
Wang et al. Hierarchical context modeling for video event recognition
CN107818307B (zh) 一种基于lstm网络的多标签视频事件检测方法
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
WO2021012493A1 (zh) 短视频关键词提取方法、装置及存储介质
Vishwakarma et al. Integrated approach for human action recognition using edge spatial distribution, direction pixel and-transform
Yang et al. Binary descriptor based nonparametric background modeling for foreground extraction by using detection theory
Pan et al. Robust basketball sports recognition by leveraging motion block estimation
Werner et al. DeepMoVIPS: Visual indoor positioning using transfer learning
Elharrouss et al. FSC-set: counting, localization of football supporters crowd in the stadiums
Shah et al. Multi-view action recognition using contrastive learning
CN114898266B (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
Jiang et al. A unified tree-based framework for joint action localization, recognition and segmentation
Li et al. Personrank: Detecting important people in images
Deshan et al. Smart snake identification system using video processing
Xie et al. Learning visual-spatial saliency for multiple-shot person re-identification
Tu et al. The complex action recognition via the correlated topic model
Mucha et al. Depth and thermal images in face detection-a detailed comparison between image modalities
Shf et al. Review on deep based object detection
Sudha et al. An efficient spatio-temporal gait representation for gender classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21920693

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21920693

Country of ref document: EP

Kind code of ref document: A1