WO2022160849A1 - 视频处理方法及装置、电子设备和存储介质 - Google Patents

视频处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
WO2022160849A1
WO2022160849A1 PCT/CN2021/129187 CN2021129187W WO2022160849A1 WO 2022160849 A1 WO2022160849 A1 WO 2022160849A1 CN 2021129187 W CN2021129187 W CN 2021129187W WO 2022160849 A1 WO2022160849 A1 WO 2022160849A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
feature
target
target object
deduplication
Prior art date
Application number
PCT/CN2021/129187
Other languages
English (en)
French (fr)
Inventor
宋述铕
侯超
Original Assignee
北京市商汤科技开发有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京市商汤科技开发有限公司 filed Critical 北京市商汤科技开发有限公司
Publication of WO2022160849A1 publication Critical patent/WO2022160849A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Definitions

  • an electronic device comprising: a processor; a memory for storing instructions executable by the processor; wherein the processor is configured to invoke the instructions stored in the memory to execute the above method.
  • FIG. 2B shows a schematic diagram of an application scenario of a video processing method according to an embodiment of the present disclosure.
  • the deduplication operation of multiple video clips may be performed in parallel, and the parallel execution here may be to perform the deduplication operation on each video clip at the same time.
  • the deduplication operation may be performed on each video clip through multiple parallel threads, or Perform de-duplication on each video clip simultaneously from multiple devices.
  • N consecutive video frames at the connection of adjacent video clips including the video frame at the end of the preceding video clip and the video frame at the head of the following video clip in the adjacent video clips, for example, may be video clips that are adjacent in time sequence , N-1 video frames at the end of the previous video clip and N-1 video frames at the head of the following video clip.
  • the consecutive N video frames at the connection of adjacent video clips will N-1 video frames containing the header of the next video clip; since the first frame of the next video clip and the last N-1 video frames of the previous video clip constitute consecutive N video frames, the adjacent video clips are connected at the point of N-1 video frames.
  • the detection result is obtained by determining the similarity between the feature of at least one target object in the first video frame and the feature of each target object in the comparison set. Since the above detection process is performed in sequential order, the features of the target objects in the comparison set have been compared with each other. Therefore, only the first video frame and the features of the target objects in the comparison set need to be compared. It is not necessary to compare the similarity between the features of the target objects in the alignment set, so the efficiency of the deduplication operation can be improved.
  • the video frame containing the target object in the target video frame may be identified first.
  • the method is determined, for example, it can be determined by a neural network.
  • face detection or human body detection can be used to detect whether a person is included in the video frame.
  • the method further includes: performing target detection on video frames in the target video, and removing video frames that do not contain target objects in the target video to obtain a first update target video; determining The quality score of the feature of the target object in each video frame in the first update target video; remove the video frames whose quality score is less than the preset quality score threshold in the first update target video to obtain a second update target video; dividing the second update target video into multiple video segments, and then determining a deduplication result based on the multiple video segments.
  • the deduplication result may also include location information where the deduplicated target object appears.
  • the location information may be the pre-set geographic location information of the target video shooting location, or may be any frame in the target video where the target object is recorded. An image of the scene appears.
  • the video processing method provided by the embodiment of the present disclosure can deduplicate the video, store the deduplication result, and remove pictures of poor quality and pictures of the same target object, which can save money The effect of storing and improving data query efficiency.
  • Step 206 determining consecutive N video frames at the connection of adjacent video clips
  • a deduplication operation is performed on N consecutive video frames in each video segment of the target video in parallel to obtain a first deduplication result, and the adjacent video is deduplicated.
  • the de-duplication operation is performed on consecutive N video frames at the connection of the segments to obtain a second de-duplication result, which realizes de-duplication of the entire target video. Therefore, by performing the deduplication operation on each video segment of the target video in parallel, the efficiency of video frame deduplication can be improved.
  • adjacent video segments are connected after the video segments are connected, there may also be de-duplication. Therefore, de-duplication is performed on the connection of adjacent video clips, and on the basis of improving the de-duplication efficiency, accurate de-duplication of the entire target video is achieved.
  • Multimedia component 808 includes a screen that provides an output interface between the electronic device 800 and the user.
  • the screen may include a liquid crystal display (LCD) and a touch panel (TP). If the screen includes a touch panel, the screen may be implemented as a touch screen to receive input signals from a user.
  • the touch panel includes one or more touch sensors to sense touch, swipe, and gestures on the touch panel. The touch sensor may not only sense the boundaries of a touch or swipe action, but also detect the duration and pressure associated with the touch or swipe action.
  • multimedia component 808 includes a front-facing camera and/or a rear-facing camera. When the electronic device 800 is in an operation mode, such as a shooting mode or a video mode, the front camera and/or the rear camera may receive external multimedia data. Each of the front and rear cameras can be a fixed optical lens system or have focal length and optical zoom capability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种视频处理方法及装置、电子设备和存储介质,所述方法包括:将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;并行地对所述多个视频片段中存在同一目标对象的至少连续N个视频帧执行去重操作,得到第一去重结果,其中,所述N是大于1的整数;对所述多个视频片段中相邻视频片段连接处的至少连续N个视频帧执行所述去重操作,得到第二去重结果;将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。

Description

视频处理方法及装置、电子设备和存储介质
相关申请交叉引用
本申请主张申请号为202110120299.4、申请日为2021年1月28日的中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频处理方法及装置、电子设备和存储介质。
背景技术
在视频的很多应用场景中,会存在对视频的视频帧进行去重的技术需求,例如,在监控领域中,为了节省存储空间会对监控视频的视频帧进行去重,然而在相关技术中,视频帧去重的效率较低。
发明内容
本公开提出了一种视频处理技术方案。
根据本公开的一方面,提供了一种视频处理方法,包括:将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果,所述N是大于1的整数;对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果;将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。
根据本公开的一方面,提供了一种视频处理装置,包括:切分单元,用于将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;第一去重单元,用于并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果,所述N是大于1的整数;第二去重单元,用于对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果;合并单元,用于将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。
根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
根据本公开的一方面,提供了一种计算机程序产品,包括存储于存储器中的计算机程序,所述计算机程序指令被处理器执行时实现上述方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的视频处理方法的流程图。
图2A示出根据本公开实施例的视频处理方法的流程图。
图2B示出根据本公开实施例的视频处理方法的应用场景示意图。
图3示出根据本公开实施例的一种视频处理装置的框图。
图4示出根据本公开实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
在相关技术中,对视频中视频帧去重的效率较低,本公开实施例提供一种视频处理方法,在接收对目标视频的去重请求后,会并行地对目标视频的各视频片段中连续N个视频帧执行去重操作,得到第一去重结果,对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果,实现了对整个目标视频的去重。由此,通过并行地对目标视频的各视频片段执行去重操作,能够提高视频帧去重的效率,此外,由于相邻的视频片段连接处在视频片段连接后也可能会存在需去重的视频帧,因此,再对相邻视频片段连接处执行去重,在提高了去重效率的基础上,实现了对整个目标视频的精准去重。
在一种可能的实现方式中,所述视频处理方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出根据本公开实施例的视频处理方法的流程图,如图1所示,所述视频处理方法包括步骤S11至步骤S14。
在步骤S11中,将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象。
这里的各视频片段为目标视频中的视频片段,各视频片段组合起来可以得到目标视频。在一种可能的实现方式中,在接收到目标视频后,即可将所述目标视频切分为多个视频片段。即视频片段可以通过对目标视频在时间上进行切分得到,例如,一个包含1000个视频帧的目标视频,可以在时间上将目标视频分为5个视频片段,每个视频片段包含200个视频帧。
本公开实施例中,会对所述目标视频中连续N个视频帧进行去重,其中,N为大于1的整数。本公开实施例中,N的值可以由用户自行设定,如果N的值取为2,则只有相邻两帧之间包含同一目标对象的情况下才会进行去重,而如果N的值较大,则去重操作所涉及的视频帧的范围也会越大。
目标视频可以是任意的视频,例如,可以是某个位置的监控视频。本公开不对目标视频的具体类型进行限定。目标视频可以包含n个视频帧,其中,n为大于N的整数。
目标对象例如可以是人物、车辆、非机动车中的至少一种,后文会结合本公开可能的实现方式对不同的目标对象进行示例性说明,此处不作赘述。
这里的同一目标对象可以是同一个事物,例如可以是同一个人,或者同一辆车,等等。
本公开实施例中,会对连续N个视频帧进行去重。对于连续N个视频帧中包含同一目标对象的至少2个视频帧,只保留至少2个视频帧中的一个视频帧,或者只保留至少2个视频帧中一个视频帧中该目标对象的特征;如果与包含某一目标对象的视频帧相邻的前后连续N-1个视频帧都没有包含该目标对象的视频帧,则表明连续N个视频帧中不存在重复包含该目标对象的视频帧,则不需要对这N个视频帧进行去重。
例如,目标视频共包括1000个视频帧,N的值取6,即依次对连续6个视频帧执行去重操作。如果同一目标对象重复出现的视频帧间隔小于连续5个视频帧,则只保留含该目标对象的1个视频帧,去掉这6个视频帧中包含该目标对象的其它视频帧(该示例中,对连续6个视频帧进行去重,由于包含某一目标对象的视频帧占至少2帧,因此,重复出现的视频帧间隔应当小于连续5帧);如果包含某一目标对象的视频帧前后连续5帧都没有包含该目标对象的视频帧,则不需要去重(该示例中,对连续6个视频帧进行去重,由于包含某一目标对象的视频帧占1帧,因此,对该视频帧帧前后连续5帧进行判断,都没有包含该目标对象的视频帧,则不需要去重即为对连续6帧进行去重)。
在步骤S12中,并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果。
第一去重结果包含对所述多个视频片段进行去重操作后得到的目标对象的特征构成的集合。
多个视频片段的去重操作可以是并行执行的,这里的并行执行可以是同时对各视频片段执行去重操作,例如,可以通过多个并行的线程对各视频片段执行去重操作,或者可以通过多个设备同时对各视频片段执行去重操作。
例如,针对前文示例中得到的5个视频片段,可以同时对上述示例中的5个视频片段并行地执行去重操作,通过5个线程,同时对各视频片段执行去重操作,每个线程对其中的1个视频片段执行去重操作。
执行去重操作的方式可以有多种,例如,可以通过目标对象检测得到包含目标对象的视频帧,然后再确定这些视频帧中目标对象的特征的相似度,利用相似度和预设的相似度阈值来确定哪些视频帧中包含了同一目标对象的特征,即得到了包含同一目标对象的特征的视频帧,然后再根据包含同一目标对象的视频帧之间间隔的视频帧的数量,来确定需要进行去重的视频帧。
在目标对象的特征为人脸特征的情况下,相似度阈值可以为0.96,那么相似度高于0.96的两个人脸特征即对应同一人。
本公开实施例提供的去重操作还可以有多种,具体可参见后文本公开提供的一个或多个实现方式,此处不做赘述。
进行去重操作得到的去重结果可以是视频帧,即目标视频的视频帧,该视频帧会包含图像的画面信息,也可以包含视频帧对应的时间信息,还可以包含其它信息,此处不做赘述。此外,在一些可选的实现方式中,去重结果也可以是基于视频帧中的目标对象对视频帧进行裁剪后得到的裁剪图像,裁剪图像中包含了目标对象的图像,裁剪图像中尽可能地去除了视频帧中与目标对象无关的图像区域。在一些可选的实现方式中,去重结果还可以是视频帧中目标对象的特征,在计算机中,目标对象的特征可以是以数字矩阵的形式来表示的,以便于计算机进行存储和处理。
在步骤S13中,对所述多个视频片段中的相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果。
所述第二去重结果包含对所述相邻视频片段连接处的连续N个视频帧进行去重操作后得到的目标对象的特征构成的集合。
在前文中已经对各视频片段并行地执行了去重操作,对于相邻的视频片段,由于在前视频片段尾部的视频帧与在后视频片段首部的视频帧在目标视频中是连续的,因此,还可以对相邻视频片段连接处的连续N个视频帧执行去重操作。
相邻视频片段连接处的连续N个视频帧,包括相邻的视频片段中在前视频片段尾部的视频帧和在后视频片段首部的视频帧,例如,可以是在时序上相邻的视频片段中,前一视频片段尾部的N-1个视频帧和后一视频片段首部的N-1个视频帧。在一个实施例中,由于前一视频片段最后一帧和后一视频片段首部的N-1个视频帧构成了连续N个视频帧,因此,相邻视频片段连接处的连续N个视频帧会包含后一视频片段首部的N-1个视频帧;由于后一视频片段第一帧和前一视频片段最后N-1个视频帧构成了连续N个视频帧,因此相邻视频片段连接处的连续N个视频帧会包含前一视频片段尾部的N-1 个视频帧。以N=6为例,相邻视频片段连接处的连续N个视频帧,包括:前一视频片段尾部的5个视频帧和后一视频片段首部第一个视频帧、前一视频片段的尾部的4个视频帧和后一视频片段首部的前两个视频帧、前一视频片段的尾部的3个视频帧和后一视频片段首部的前三个视频帧、前一视频片段的尾部的2个视频帧和后一视频片段首部的前四个视频帧、前一视频片段的尾部的1个视频帧和后一视频片段首部的前五个视频帧。
这里的去重操作可以与步骤S12中的去重操作相同,以保持对目标视频一致的去重标准,得到准确的去重结果。具体的去重操作可参见后文的一个或多个实现方式,此处不做赘述。
在步骤S14中,将所述第一去重结果与所述第二去重结果进行合并,得到所述目标视频的去重结果。
这里将第一去重结果和第二去重结果进行合并,例如可以是,在第一去重结果和第二去重结果均为图像的情况下,将第一去重结果和第二去重结果中包含的图像进行合并,将合并后的图像作为对目标视频的去重结果。
在本公开实施例中,在接收到对目标视频的去重请求后,会并行地对目标视频的各视频片段执行去重操作,得到第一去重结果,对相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果,实现了对整个目标视频的去重。针对任一视频片段,依次对连续N个视频帧执行去重操作。由此,通过并行地对目标视频的各视频片段执行去重操作,能够提高视频帧去重的效率,此外,由于相邻的视频片段连接处在视频片段连接后也可能存在需去重的视频帧,因此,再对相邻视频片段连接处执行去重,能够在提高了去重效率的基础上,实现了对整个目标视频的精准去重。
本公开提供的视频处理方法可以有多种,在一种可能的实现方式中,所述去重操作,包括:按所述连续N个视频帧的时序顺序,获取所述连续N个视频帧中的第一视频帧(可以是连续N个视频帧中的任一视频帧);检测所述第一视频帧所包含的目标对象的特征和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征,其中,所述比对集合中包含与所述第一视频帧相邻的前N-1个视频帧所包含的目标对象的特征;在检测到所述比对集合中存在所述第二特征,且所述第二特征所在视频帧之后的连续N-1个视频帧中未检测到所述第二特征的情况下,将所述比对集合中存在的所述第二特征对应的目标对象作为对所述第一视频帧和所述前N-1个视频帧的去重结果,并将所述第二特征从所述比对集合中移除。
这里的视频帧的时序顺序是视频帧在时间上的顺序,可以是从时序上的第一帧到最后一帧的顺序,或者也可以是从时序上的最后一帧到第一帧的顺序。按照时序的顺序依次获取目标视频帧中的第一视频帧,然后针对任一第一视频帧执行如下操作:
比对集合中包含与所述第一视频帧相邻的前N-1个视频帧所包含的目标对象的特征,再加上第一视频帧这1帧,即构成了连续的N个视频帧,以实现对连续N个视频帧执行去重操作。即检测第一视频帧所包含的目标对象的特征和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第 二特征。
第一视频帧中可以包含一个或多个目标对象的特征,而比对集合中包含与第一视频帧相邻的前N-1个视频帧所包含的目标对象的特征,那么,可以将第一视频帧中包含的目标对象的特征逐一与比对集合中的目标对象的特征进行比对,来检测第一特征和第二特征。
举例来说,如果第一视频帧是检测顺序上的第1帧,则第1帧前面没有视频帧,则比对集合中可以不包含目标对象的特征;如果第一视频帧是检测顺序上的第2帧,则比对集合中可以包含第1帧中目标对象的特征;如果第一视频帧是检测顺序上的第3帧,在N=2的情况下,则比对集合中可以包含第2帧中目标对象的特征,在N=3的情况下,则比对集合中可以包含第1帧和第2帧中目标对象的特征;以此类推。
在一种可能的实现方式中,比对集合中包含的目标对象的特征均不相同,也就是说,对于与第一视频帧相邻的前N-1个视频帧中的各目标对象而言,每一目标对象只取一个对应的特征保存在比对集合中。例如,第一视频帧是检测顺序上的第3帧,第3帧前的第2帧包含目标对象A和B,第1帧包含目标对象A、C和D,则第3帧对应的比对集合中包含对应于各个目标对象A、B、C、D的一个特征,共计4个特征。
对应于同一目标对象的第一特征,例如,是对应于同一个人的人脸,举例来说,第一视频帧里包含目标对象D和E的特征,比对集合中包含目标对象A、B、C、D的特征,那么可以确定检测结果为存在对应于D的2个特征(第一特征)。
所对应的目标对象与其他目标对象均不相同的第二特征,可以是没有检测到与第二特征重复的特征,举例来说,在上个例子中,可以确定目标对象A、B、C、E的特征即为所对应的目标对象与其他目标对象均不相同的第二特征。
在经过上述检测后,即可得到第一视频帧和前N-1个视频帧中,哪些是对应于同一目标对象的第一特征,哪些是对应于不同目标对象的第二特征,那么可以根据该检测结果来对第一视频帧和所述前N-1个视频帧进行去重,例如,对于对应于同一目标对象的第一特征,可以只保留一个第一特征而舍弃其它第一特征。
在本公开实施例中,通过时序顺序获取连续N个视频帧中的第一视频帧,然后与比对集合中的第一视频帧前N-1个视频帧所包含的目标对象的目标特征进行比对,检测对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征,从而对第一视频帧和前N-1个视频帧进行去重。该过程可以按照时序的顺序逐一地对目标视频的第一视频帧进行检测,即实现了第一视频帧与前面的N-1个视频帧进行比对,并且,在后续的过程中,该第一视频帧中目标对象的特征会在比对集合中与后续的N-1个视频帧进行比较,在视频帧数量较大的情况下,由于可以只对与第一视频帧相邻的N-1个视频帧进行比较,无需对相邻的N-1个视频帧以外的视频帧进行比较,去重操作的效率较高。此外,比对集合中的目标对象的特征可以是均不相同的特征,这样可无需对前N-1个视频帧中重复的特征进行比对,可以减少比对的次数,进一步提高去重操作的效率。
如前文所述,第二特征表示所对应的目标对象与其它目标对象均不相同,由于是按照时序的顺序对视频帧进行检测,那么,如果该第二特征所在视频帧之后的连续N-1个视频帧中未检测到该第二特征,则表明该第二特征在连续N个视频帧中没有重复出现,显然无需对该视频帧进行去重,那么即可将该第二特征对应的目标对象作为去重后的结果。
在按时序顺序对视频帧进行上述检测的情况下,可以对第二特征在被检测到后连续未被检测到的次数进行计数,如果计数达到了N-1,则表明该第二特征所在视频帧之后的连续N-1个视频帧中未检测到该第二特征。例如,N为3的情况下,针对视频帧1、2、3、4、5、6、7,在第1帧中检测到目标对象A的特征后,然后在第2、3帧中均未检测到目标对象A的特征,则计数达到了2,可以将第1帧视频帧或者第1帧中目标对象A的特征作为去重后的结果;当在第5帧中再次检测到目标对象A后,如果在第6帧中未检测到目标对象A的特征,则未检测到目标对象A的次数重新开始计数为1,后续步骤以此类推。
比对集合中包含与第一视频帧相邻的前N-1个视频帧所包含的目标对象的特征,因此,在对当前的第一视频帧进行检测完毕后,可以对比对集合进行更新,以便利用比对集合对下一第一视频帧进行检测,提高去重结果的准确率。
比对集合的更新是依据检测结果进行的,以下结合本公开提供的几种可能的实现方式对更新过程做详细描述。
在一种可能的实现方式中,在检测到所述比对集合中存在所述第二特征,且所述第二特征所在视频帧之后的连续N-1个视频帧中未检测到所述第二特征的情况下,将所述第二特征从所述比对集合中移除。
如前文所述,在检测到所述比对集合中存在所述第二特征,且所述第二特征所在视频帧之后的连续N-1个视频帧中未检测到所述第二特征的情况下,由于已经将该第二特征作为了去重结果,因此将其从比对集合中去除。
在一种可能的实现方式中,检测第一视频帧所包含的目标对象的特征和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征后,还包括:在所述第一视频帧和所述比对集合中检测到所述第一特征的情况下,将对应于同一目标对象的第一特征中质量分值高的第一特征加入所述比对集合中;在检测到所述第一视频帧中存在所述第二特征的情况下,将所述第一视频帧中包含的第二特征加入所述比对集合中。
在所述第一视频帧和所述比对集合中检测到第一特征的情况下,表明在连续的N个视频帧中检测到了包含同一目标对象的“重复”的视频帧,因此,可以对这“重复”的视频帧进行去重,例如可以只保留其中的一个视频帧,或者只保留一个对应于同一目标对象的第一特征。由于当前的N个视频帧中第一特征出现了至少两次,因此可以只保留一个第一特征,然而可能在后一第一视频帧中再次出现第一特征,因此,可以将第一特征加入到比对集合中,以便利用比对集合对下一第一视频帧进行检测。
在一种可能的实现方式中,可以将对应于同一目标对象的第一特征中质量分值高的第一特征加入比对集合中,这里的质量分值用于表征第一特征的优劣程度,质量分值越高,第一特征越好,对应的图像的分辨率等参数越高。因此,将质量分值高的第一特征加入比对集合中,而舍弃质量分值低的第一特征,有利于提高去重结果的质量。
而在检测到第一视频帧中存在第二特征的情况下,由于第一视频帧中的第二特征未在第一视频帧前的N-1个视频帧中出现,因此,还会判断第一视频帧中的第二特征是否会在后续的N-1个视频帧中出现,因此,可以将所述第一视频帧中包含的第二特征加入比对集合中,以便在第一视频帧后的N-1个视频帧中对第一视频帧中包含的第二特征进行检测。
在一种可能的实现方式中,所述比对集合中包含的目标对象的特征需要符合预设特征条件,所述预设特征条件,包括:所述比对集合中包含的目标对象的特征的质量分值高于预设质量分值;所述比对集合中包含的目标对象的特征为包含同一目标对象的多个图像中质量分值最高的特征,所述多个图像为与所述第一视频帧相邻的前N-1个视频帧中的多个图像,所述第一视频帧为包含目标对象的视频帧。
在本实现方式中,比对集合中的第二特征会在连续N-1次未被检测到的情况下,作为去重结果,因此,为了提高去重结果的质量,比对集合中的目标对象的特征可以是质量分值高于预设质量分值的特征。特征的质量分值越高,指示特征的优劣程度越好,而特征的质量分值越低,则指示特征的优劣程度越差,因此,比对集合中的目标对象的特征的质量分值高于预设质量分值,能够提高去重结果的质量。
在本公开一些实现方式中,由于可以将对应于同一目标对象的第一特征中质量分值高的第一特征加入比对集合中,因此,比对集合中的目标对象的特征为包含同一目标对象的多个图像中质量分值最高的特征,这里的多个图像为与第一视频帧相邻的前N-1个视频帧中的多个图像。由此,留在比对集合中的目标对象的特征为对应于同一目标对象的多个特征中质量分值最高的特征,保留了目标视频中存在同一目标对象的连续N个视频帧中质量分值最高的该目标对象的特征,提高了去重结果的质量。
在一种可选的实现方式中,检测第一视频帧和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征,包括:确定所述第一视频帧中包含的至少一个目标对象的特征;分别确定所述至少一个目标对象的特征与所述比对集合中的各目标特征的相似度;根据所述相似度以及预设的相似度阈值,得到检测结果。
第一视频帧中的目标对象的特征可以通过目标检测的方式来确定,例如可以通过神经网络来确定,举例来说,如果目标对象为人物,目标对象的特征为人脸特征,则可以通过对第一视频帧进行人脸检测来确定第一视频帧中包含的人脸,具体人脸检测的实现方式可参考相关技术,此处不做赘述。
在检测到目标对象后,即可提取目标对象的特征,如果第一视频帧中包含多个目标对象的特征,则可以分别提取。在提取目标对象的特征后,即可将目标对象的特征与 比对集合中的目标对象的特征进行比较,确定目标对象的特征与比对集合中的各目标对象的特征的相似度。
举例来说,第一视频帧里包含目标对象的特征d和e,比对集合中包含目标对象的特征a、b、c、d,那么可以分别计算第一视频帧里的特征d与比对集合中的特征a、b、c、d的相似度,以及分别计算第一视频帧里的特征e与比对集合中的特征a、b、c、d的相似度。
将计算出的相似度与预设的相似度阈值进行比较,即可得到检测结果。其中,相似度阈值是预先设定的用于衡量两个特征是否对应于同一目标对象的值,如果两个特征之间的相似度高于相似度阈值,则指示这两个特征对应于同一目标对象,而如果两个特征的相似度不高于相似度阈值,则指示这两个特征不对应于同一目标对象。
在本公开实施例中,通过确定第一视频帧中至少一个目标对象的特征与比对集合中的各目标对象的特征之间的相似度,来得到检测结果。由于上述检测的过程是按时序的顺序执行的,那么比对集合中的目标对象的特征已经互相比对过了,因此,只需将第一视频帧与比对集合中的目标对象的特征进行比对,而无需再对比对集合中的目标对象的特征之间的相似度进行比对,因此能够提高去重操作的效率。
在本公开的一些实现方式中,所述去重操作包括:按所述连续N个视频帧的时序顺序,获取所述连续N个视频帧中的一视频帧中一个或多个目标对象的特征;针对比对集合中的每一个比对特征,确定该视频帧中一个或多个目标对象的特征中是否存在与该比对特征的相似度大于相似度阈值的特征,其中,所述比对集合的比对特征包括与该视频帧相邻的前N-1个视频帧包含的目标对象的特征;响应于确定该视频帧中一个或多个目标对象的特征中存在与该比对特征的相似度大于所述相似度阈值的特征,将比对该特征确定为第一特征;响应于确定该视频帧中一个或多个目标对象的特征中不存在与该比对特征的相似度大于所述相似度阈值的特征,将该比对特征确定为第二特征,并检测在该视频帧之后的连续N-1个视频帧中是否存在所述第二特征对应的目标对象;响应于检测到在该视频帧之后的连续N-1个视频帧不存在所述第二特征对应的目标对象,将所述第二特征作为该视频帧和所述前N-1个视频帧的去重结果,并将所述第二特征从所述比对集合中移除。
在本公开的一些实现方式中,所述视频处理方法还包括:针对该视频帧中一个或多个目标对象的特征中的每一个,响应于确定所述比对集合中不存在与该特征的相似度大于所述相似度阈值的比对特征,将该特征加入所述比对集合中得到更新后的比对集合。
在本公开的一些实现方式中,所述视频处理方法还包括:确定所述比对集合中所述第一特征的质量分值是否大于或等于视频帧中与该第一特征表示同一目标对象的特征的质量分值;响应于所述第一特征的质量分值小于该视频帧中与该第一特征表示同一目标对象的特征的质量分值,在所述比对集合中用该视频帧中与该第一特征表示同一目标对象的特征替换掉该第一特征。
在本公开的一些实现方式中,可以按所述目标视频中的视频帧的时序顺序,对目 标视频中的视频帧进行标记,得到标记结果;根据标记结果所表征的视频帧的时序顺序,对所述目标视频进行切分并确定相邻视频片段连接处的至少连续N个视频帧。
目标视频中的视频帧是具备时序顺序的,因此可以按照时序的顺序,利用标识对目标视频中的视频帧进行标记,该标识可以用于指示视频帧在目标视频中的时序顺序。
具体来说,可以对目标视频的各视频片段进行编号,并对视频片段中的各视频帧进行编号,视频帧的编号包含该视频帧所属视频分段的编号,以及该视频帧在所述视频片段中的时序编号,例如,一个包含1000个视频帧的目标视频,可以在时间上将目标视频分为5个视频片段,每个视频片段包含200个视频帧。每个视频片段编号为1、2、3、4、5,则第一个视频片段的编号为1-001、1-002、1-003……1-200,第二个视频片段的编号为2-001、2-002、2-003……2-200,第三个视频片段的编号为3-001、3-002、3-003……3-200,第四个视频片段的编号为4-001、4-002、4-003……4-200,第五个视频片段的编号为5-001、5-002、5-003……5-200。
根据标记结果所表征的视频帧的时序顺序,确定相邻视频片段连接处的至少连续N个视频帧,具体可以将前一视频片段尾部的N-1个视频帧和后一视频片段首部的N-1个视频帧,确定为相邻视频片段连接处的至少连续N个视频帧,共计2N-2个视频帧。
例如,在上一示例中,若N取3,则获取相邻视频片段连接处的至少连续2个视频帧,最终得到的视频帧的集合为{1-199,1-200,2-001,2-002},{2-199,2-200,3-001,3-002},{3-199,3-200,4-001,4-002},{4-199,4-200,5-001,5-002}。
此外,还可以对目标视频中的视频帧从前往后进行编号,例如,针对包含1000个视频帧的目标视频,可以直接编号为0001、0002、0003、0004……1000,若N取3,则获取相邻视频片段连接处的至少连续2个视频帧,最终得到的视频帧的集合为{0199,0200,0201,0202},{0399,0400,0401,0402},{0599,0600,0601,0602},{0799,0800,0801,0802}。
本公开实施例中,通过对目标视频中的视频帧进行标记,由此可以依据标记结果所指示的视频帧的时序顺序,准确确定相邻视频片段连接处的至少连续N个视频帧,以在并行对视频分段进行去重操作的情况下,依然能够得到准确的去重结果。
在一种可能的实现方式中,在接收对目标视频的去重请求后,所述方法还包括:确定所述目标视频中包含所述目标对象的视频帧;确定视频帧中包含的目标对象的特征的质量分值,所述质量分值根据下述至少一种信息确定:视频帧中目标对象的清晰度、视频帧中目标对象与镜头的角度。
在本实现方式中,考虑到目标视频中可能并非每一帧都包含了目标对象,因此可以先对目标视频帧中包含目标对象的视频帧进行识别,在一些实施例中,可以通过目标检测的方式来确定,例如可以通过神经网络来确定。举例来说,如果目标对象为人物,则可以通过人脸检测或者人体检测来检测视频帧中是否包含人物,具体人脸检测的实现方式可参考相关技术,此处不做赘述。
在确定出包含目标对象的视频帧后,可以确定包含目标对象的视频帧中目标对象 对应的质量分值,该质量分值可以根据视频帧中目标对象的清晰度来确定,目标对象的清晰度与目标对象特征的质量分值成正比,清晰度越高,质量分值越高;另外,该质量分值也可以根据目标对象与镜头的角度来确定,目标对象与镜头的角度越正,则目标对象特征的质量分值越高。
在本公开实施例中,通过确定视频帧中包含目标对象的特征的质量分值,便于后续基于目标对象的特征的质量分值进行去重,有利于提高去重结果的质量。
在一种可能的实现方式中,在确定所述目标视频中包含所述目标对象的视频帧后,还可以将目标视频中不包含目标对象的视频帧删除,得到删除不包含目标对象的视频帧的更新目标视频,然后按视频帧的时序顺序,获取所述更新目标视频中的第一视频帧,包括:按视频帧的时序顺序,获取删除不包含目标对象的视频帧的更新目标视频中的第一视频帧,然后检测所述第一视频帧所包含的目标对象的特征和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征,得到检测结果。
在更新目标视频中删除了不包含目标对象的视频帧的情况下,可以依据指示视频帧时序顺序的编号,来确定检测到的第二特征是否满足条件“第二特征所在视频帧之后的连续N-1个视频帧中未检测到所述第二特征”,进而确定去重结果。
在本公开实施例中,在进行去重操作之前,可以先确定目标视频中包含目标对象的视频帧,然后删除目标视频中不包含目标对象的视频帧,对删除不包含目标对象的视频帧的目标对象执行去重操作,能够提高去重操作的效率。
在一种可能的实现方式中,所述方法还包括:对所述目标视频中的视频帧进行目标检测,去除所述目标视频中不含目标对象的视频帧以得到第一更新目标视频;确定所述第一更新目标视频中各视频帧中目标对象的特征的质量分值;去除所述第一更新目标视频中质量分值小于预设质量分值阈值的视频帧,以得到第二更新目标视频;将所述第二更新目标视频切分为多个视频片段,进而基于该多个视频片段确定去重结果。
在一种可能的实现方式中,所述方法还包括:将所述去重结果进行存储;所述去重结果包括:去重后的目标对象的特征信息;去重后的目标对象出现的时刻信息;去重后的目标对象出现的地点信息。
在本公开实施例中,通过对去重结果进行存储,而无需对目标视频进行存储,节省了存储空间。
去重结果中还可以包括去重后的目标对象出现的时刻信息,可以将目标对象的特征信息所在的视频帧的拍摄时刻,作为目标对象出现的时刻信息。例如,在目标视频为监控视频的情况下,监控视频中往往会记录视频帧的拍摄时刻,以便对监控画面进行溯源,该时刻往往会以水印的形式记录在视频帧的监控画面中,因此,可以将监控画面的水印中记录的视频帧的拍摄时刻,作为目标对象出现的时刻信息。
去重结果中还可以包括去重后的目标对象出现的地点信息,该地点信息可以是预先设置的目标视频拍摄地点的地理位置信息,或者也可以是目标视频中的任意一帧记录 有目标对象出现场景的图像。
在本公开实施例中,通过对去重结果进行存储,去重结果中包含了去重后的目标对象的特征,以及目标对象出现的时间、地点信息,以便于后续对目标视频帧中的目标对象进行追踪回溯,由此,无需存储整个目标视频即可实现对目标对象出现的时间、地点等信息进行追踪回溯,节省了存储空间。
在一种可能的实现方式中,所述目标对象包括人物、车辆、非机动车中的至少一种;在所述目标对象包括人物的情况下,所述目标对象的特征包括人脸特征、人体特征中的至少一种;在所述目标对象包括车辆的情况下,所述目标对象的特征包括车型特征、车辆颜色特征、车牌特征等中的至少一种。
在安防行业中,往往会通过视频监控来对人物、车辆、非机动车等信息来进行追踪,那么在安防行业中,目标视频可以是实时拍摄的监控视频,或者也可以是离线存储的监控视频。
由于安防行业中要存储大量的视频,那么通过本公开实施例提供的视频处理方法,对视频进行去重,对去重结果进行存储,去掉质量差的图片、相同目标对象的图片,能够达到节约存储、提升数据查询效率的效果。
下面以目标对象为人物,目标对象的特征为人脸,目标视频为监控视频(共计1000帧),作为本公开具体的应用场景,对本公开提供视频处理方法进行示例性说明,该部分未做详细阐述的内容可参考前文相关描述,同样,该部分中的内容也可用于对前文内容进行示例性说明。
在该实现方式中,N的值设置为2。
在本公开提供的一种可能的应用场景中,本公开提供的视频处理方法包括步骤201至步骤209,如图2A所示。
步骤201,将目标视频切分为多个视频片段。
对于包含1000个视频帧的目标视频,可以在时间上将目标视频分为5个视频片段,每个视频片段包含200个视频帧。
步骤202,对各视频片段进行抽帧得到视频帧,并对视频帧进行编号。
例如,每个视频片段编号为1、2、3、4、5,则第一个视频片段的编号为1-001、1-002、1-003……1-200,第二个视频片段的编号为2-001、2-002、2-003……2-200,第三个视频片段的编号为3-001、3-002、3-003……3-200,第四个视频片段的编号为4-001、4-002、4-003……4-200,第五个视频片段的编号为5-001、5-002、5-003……5-200。
上述5个视频片段的视频帧可以进行分目录存储。
步骤203,对各视频片段的视频帧进行人脸检测,得到包含人脸特征的第一视频帧。
在一些实施例中,可以通过神经网络来对视频帧进行人脸检测,得到包含人脸的视频帧。
步骤204,计算各第一视频帧中人脸特征的质量分值,将人脸特征的质量分值大于质量分值阈值的人脸特征所对应的第一视频帧确定为第二视频帧。
人脸特征的质量分值依据人脸的清晰度和人脸与镜头的角度来确定,人脸的清晰度与人脸特征的质量分值成正比,清晰度越高,人脸特征的质量分值越高;另外,人脸特征的质量分值也可以根据人脸与镜头的角度来确定,人脸与镜头的角度越正,则人脸特征的质量分值越高。
对于人脸特征来说,质量分数阈值可以是0.86,质量分值小于0.86的人脸特征所属的视频帧可以直接舍弃。
步骤205,并行地对各视频片段进行去重操作,将各视频片段中第二视频帧中的目标对象的特征与比对集合中的目标对象的特征进行比对,依据比对结果得到第一去重结果。
请参阅图2B,为本公开提供的去重操作的示例图,该示例中包含一视频片段中的前4帧图像,为便于区分每一帧图像中的各人脸,各人脸通过标号来指示。
针对第1帧图像进行检测时,此时比对集合为空,则第1帧图像中的4个人脸均为第二特征,则将第1帧图像中的4个人脸特征加入到比对集合中。
对第2帧图像进行检测时,比对集合中包含第1帧图像中的4个人脸特征,那么检测结果为人脸特征①②④为第一特征,人脸特征③为第二特征,且人脸特征③已经满足在下1帧图像(即第3帧图像)中未被检测到的条件,则将人脸特征③作为第1帧图像与第2帧图像的去重结果。此外,还会对比对集合进行更新,将人脸特征③去除,加入第2帧图像中的第二特征,即人脸特征⑤。在另一种情况下,对第2帧图像进行检测时,比对集合中包含第1帧图像中的4个人脸特征,检测结果为人脸特征①②④为第一特征,第2帧图像中的人脸特征①的质量分高于比对集合中的人脸特征①的质量分,则将比对集合中的人脸特征①更新为第2帧图像中的人脸特征①。
对第3帧图像进行检测时,比对集合中包括更新后的人脸特征①④②⑤,将第3帧图像与比对集合进行比较,那么检测结果为人脸特征①④⑤⑥⑦⑧为第二特征,人脸特征②为第一特征,且第二特征①④⑤满足在下1帧未被检测到的条件,则将人脸特征①④⑤作为去重结果,此外,还会对比对集合进行更新,将人脸特征①④⑤去除,加入第二特征⑥⑦⑧。
对第4帧图像进行检测时,比对集合中为更新后的人脸特征②⑥⑦⑧,将第4帧图像与比对集合进行比较,那么检测结果为人脸特征②⑥⑦⑧⑨为第二特征,不存在第一特征,且第二特征②⑥⑦⑧满足在下1帧未被检测到的条件,则将人脸特征②⑥⑦⑧作为去重结果,此外,还会对比对集合进行更新,将人脸特征②⑥⑦⑧去除,加入第二特征⑨。
按时序顺序对第二视频帧进行上述检测,直至检测完毕。
步骤206,确定相邻视频片段连接处的连续N个视频帧;
即N取2的情况下,获取相邻视频片段连接处的连续2个视频帧,最终得到的视频帧的集合为{1-200,2-001},{2-200,3-001},{3-200,4-001},{4-200,5-001}。
步骤207,对相邻视频片段连接处的连续N个视频帧执行去重操作,得到第二去 重结果。
具体去重操作的过程请参见前文相关描述,此处不作赘述。
步骤208,将第一去重结果与第二去重结果进行合并,得到对目标视频的去重结果。
在一些实施例中,可以是将第一去重结果和第二去重结果取并集。
步骤209,对去重结果进行存储。
去重结果中包含了去重后的目标对象的特征,以及目标对象出现的时间、地点信息,以便于后续对目标视频帧中的目标对象进行追踪回溯。
在本公开实施例中,在接收对目标视频的去重请求后,会并行地对目标视频的各视频片段中连续N个视频帧执行去重操作,得到第一去重结果,对相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果,实现了对整个目标视频的去重。由此,通过并行地对目标视频的各视频片段执行去重操作,能够提高视频帧去重的效率,此外,由于相邻的视频片段连接处在视频片段连接后也可能会存在需去重的视频帧,因此,再对相邻视频片段连接处执行去重,在提高了去重效率的基础上,实现了对整个目标视频的精准去重。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了视频处理装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种视频处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图3示出根据本公开实施例的视频处理装置的框图,如图3所示,所述装置30包括:切分单元301,用于将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;第一去重单元302,用于并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果,其中,所述N是大于1的整数;第二去重单元303,用于对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果;合并单元304,用于将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。
在一种可能的实现方式中,所述去重操作由去重子单元执行,所述去重子单元用于按所述目标视频中的视频帧的时序顺序,获取所述目标视频中的第一视频帧;检测所述第一视频帧所包含的目标对象的特征和比对集合中,是否存在对应于同一目标对象的第一特征,以及所对应的目标对象与其他目标对象均不相同的第二特征,其中,所述比对集合中包含与所述第一视频帧相邻的前N-1个视频帧中所包含的互不相同的目标对象的特征;在检测到所述比对集合中存在所述第二特征,且所述第二特征所在视频帧之后的连续N-1个视频帧中未检测到所述第二特征的情况下,将所述比对集合中存在的所述第二特征对应的目标对象作为对所述第一视频帧和所述前N-1个视频帧的去重结果, 并将所述第二特征从所述比对集合中移除。
在一种可能的实现方式中,所述去重子单元,用于确定所述第一视频帧中包含的至少一个目标对象的特征;分别确定所述至少一个目标对象的特征与所述比对集合中的各目标对象的特征之间的相似度;根据所述相似度以及预设的相似度阈值,得到检测结果。
在一种可能的实现方式中,所述去重子单元,用于在所述第一视频帧和所述比对集合中检测到所述第一特征的情况下,将对应于同一目标对象的第一特征中质量分值高的第一特征加入所述比对集合中;在检测到所述第一视频帧中存在所述第二特征的情况下,将所述第一视频帧中包含的第二特征加入所述比对集合中。
在一种可能的实现方式中,所述去重子单元,用于按所述连续N个视频帧的时序顺序,获取所述连续N个视频帧中的一视频帧中一个或多个目标对象的特征;针对比对集合中的每一个比对特征,确定该视频帧中一个或多个目标对象的特征中是否存在与该比对特征的相似度大于相似度阈值的特征,其中,所述比对集合的比对特征包括与该视频帧相邻的前N-1个视频帧包含的目标对象的特征;响应于确定该视频帧中一个或多个目标对象的特征中存在与该比对特征的相似度大于所述相似度阈值的特征,将比对该特征确定为第一特征;响应于确定该视频帧中一个或多个目标对象的特征中不存在与该比对特征的相似度大于所述相似度阈值的特征,将该比对特征确定为第二特征,并检测在该视频帧之后的连续N-1个视频帧中是否存在所述第二特征对应的目标对象;响应于检测到在该视频帧之后的连续N-1个视频帧不存在所述第二特征对应的目标对象,将所述第二特征作为该视频帧和所述前N-1个视频帧的去重结果,并将所述第二特征从所述比对集合中移除。
在一种可能的实现方式中,所述去重子单元,针对该视频帧中一个或多个目标对象的特征中的每一个,响应于确定所述比对集合中不存在与该特征的相似度大于所述相似度阈值的比对特征,将该特征加入所述比对集合中得到更新后的比对集合。
在一种可能的实现方式中,所述去重子单元,确定所述比对集合中所述第一特征的质量分值是否大于或等于视频帧中与该第一特征表示同一目标对象的特征的质量分值;响应于所述第一特征的质量分值小于该视频帧中与该第一特征表示同一目标对象的特征的质量分值,在所述比对集合中用该视频帧中与该第一特征表示同一目标对象的特征替换掉该第一特征。
在一种可能的实现方式中,所述比对集合中包含的目标对象的特征需符合预设特征条件,所述预设特征条件,包括:所述比对集合中包含的目标对象的特征的质量分值高于预设质量分值;所述比对集合中包含的目标对象的特征包含对应于同一目标对象的多个特征中质量分值最高的特征,所述多个特征从与所述第一视频帧相邻的至少前N-1个视频帧中选取。
在一种可能的实现方式中,所述切分单元,用于按所述目标视频中的视频帧的时序顺序,对所述目标视频中的视频帧进行标记,得到标记结果;根据所述标记结果所表 征的视频帧的时序顺序,对所述目标视频进行切分并确定所述多个视频片段中相邻视频片段连接处的连续N个视频帧。
在一种可能的实现方式中,所述相邻视频片段连接处的连续N个视频帧,包括:在时序上相邻的视频片段中,前一视频片段尾部的N-1个视频帧和后一视频片段首部的N-1个视频帧。
在一种可能的实现方式中,所述相邻视频片段连接处的连续N个视频帧,包括:在时序上相邻的视频片段中,前一视频片段尾部的N-1个视频帧和后一视频片段首部的第一个视频帧前一视频片段的尾部的N-2个视频帧和后一视频片段首部的前两个视频帧;前一视频片段的尾部的N-3个视频帧和后一视频片段首部的前三个视频帧;直至前一视频片段的尾部的最后一个视频帧和后一视频片段首部的N-1视频帧。
在一种可能的实现方式中,所述装置还包括:视频帧确定单元,用于确定所述目标视频中包含所述目标对象的视频帧;质量分值确定单元,用于确定包含所述目标对象的所述视频帧中包含的目标对象的特征的质量分值,所述质量分值根据下述至少一种信息确定:视频帧中目标对象的清晰度、视频帧中目标对象与镜头的角度。
在一种可能的实现方式中,所述装置还包括:视频帧更新单元,用于对所述目标视频中的视频帧进行目标检测,去除所述目标视频中不含目标对象的视频帧以得到第一更新目标视频;确定所述第一更新目标视频中各视频帧中目标对象特征的质量分值;去除所述第一更新目标视频中质量分值小于预设质量分值阈值的视频帧,以得到第二更新目标视频;将所述第二更新目标视频切分为所述多个视频片段。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本公开实施例还提供了一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的视频处理方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图4示出根据本公开实施例的一种电子设备800的框图。例如,电子设备800包括移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端。
参照图4,电子设备800可以包括以下一个或多个组件:处理组件802、存储器804、电源组件806、多媒体组件808、音频组件810、输入/输出(I/O)的接口812、传感器组件814、以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802与其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808与处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800上的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统、一个或多个电源、及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以包括键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户是否与电子设备800接触,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传 感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件816被配置为便于电子设备800与其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如无线网络(WiFi)、第二代移动通信技术(2G)、或第三代移动通信技术(3G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

  1. 一种视频处理方法,包括:
    将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;
    并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果,其中,所述N是大于1的整数;
    对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果;
    将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。
  2. 根据权利要求1所述的方法,其中,所述去重操作包括:
    按所述连续N个视频帧的时序顺序,获取所述连续N个视频帧中的一视频帧中一个或多个目标对象的特征;
    针对比对集合中的每一个比对特征,
    确定该视频帧中一个或多个目标对象的特征中是否存在与该比对特征的相似度大于相似度阈值的特征,其中,所述比对集合的比对特征包括与该视频帧相邻的前N-1个视频帧包含的目标对象的特征;
    响应于确定该视频帧中一个或多个目标对象的特征中存在与该比对特征的相似度大于所述相似度阈值的特征,将该比对特征确定为第一特征;
    响应于确定该视频帧中一个或多个目标对象的特征中不存在与该比对特征的相似度大于所述相似度阈值的特征,将该比对特征确定为第二特征,并检测在该视频帧之后的连续N-1个视频帧中是否存在所述第二特征对应的目标对象;
    响应于检测到在该视频帧之后的连续N-1个视频帧不存在所述第二特征对应的目标对象,将所述第二特征作为该视频帧和所述前N-1个视频帧的去重结果,并将所述第二特征从所述比对集合中移除。
  3. 根据权利要求2所述的方法,还包括:
    针对该视频帧中一个或多个目标对象的特征中的每一个,
    响应于确定所述比对集合中不存在与该特征的相似度大于所述相似度阈值的比对特征,将该特征加入所述比对集合中得到更新后的比对集合。
  4. 根据权利要求2所述的方法,还包括:
    确定所述比对集合中所述第一特征的质量分值是否大于或等于该视频帧中与该第一特征表示同一目标对象的特征的质量分值;
    响应于所述第一特征的质量分值小于该视频帧中与该第一特征表示同一目标对象的特征的质量分值,在所述比对集合中用该视频帧中与该第一特征表示同一目标对象的特征替换掉该第一特征。
  5. 根据权利要求2-4中任一项所述的方法,其中,所述比对集合中包含的目标对象的特征需符合预设特征条件,所述预设特征条件,包括:
    所述比对集合中包含的目标对象的特征的质量分值均高于预设质量分值。
  6. 根据权利要求1-5中任一项所述的方法,其中,将所述目标视频切分为所述多个视频片段,包括:
    按所述目标视频中的视频帧的时序顺序,对所述目标视频中的视频帧进行标记,得到标记结果;
    根据所述标记结果所表征的视频帧的时序顺序,对所述目标视频进行切分并确定所述多个视频片段中相邻视频片段连接处的连续N个视频帧。
  7. 根据权利要求1-6中任一项所述的方法,其中,所述相邻视频片段连接处的连续N个视频帧,包括:
    在时序上相邻的视频片段中,
    前一视频片段尾部的N-1个视频帧和后一视频片段首部第一个视频帧;
    前一视频片段的尾部的N-2个视频帧和后一视频片段首部的前两个视频帧;
    前一视频片段的尾部的N-3个视频帧和后一视频片段首部的前三个视频帧;
    直至前一视频片段的尾部的最后一个视频帧和后一视频片段首部的N-1视频帧。
  8. 根据权利要求1-7中任一项所述方法,还包括:
    确定所述目标视频中包含所述目标对象的视频帧;
    确定包含所述目标对象的所述视频帧中包含的目标对象的特征的质量分值,所述质量分值根据下述至少一种信息确定:
    视频帧中目标对象的清晰度、视频帧中目标对象与镜头的角度。
  9. 根据权利要求1-8任一项所述方法,还包括:
    对所述目标视频中的视频帧进行目标检测,去除所述目标视频中不含目标对象的视频帧以得到第一更新目标视频;
    确定所述第一更新目标视频中各视频帧中目标对象的特征的质量分值;去除所述第一更新目标视频中质量分值小于预设质量分值阈值的视频帧,以得到第二更新目标视频;
    将所述第二更新目标视频切分为所述多个视频片段。
  10. 一种视频处理装置,包括:
    切分单元,用于将目标视频切分为多个视频片段,其中,所述多个视频片段包括至少一个目标对象;
    第一去重单元,用于并行地对所述多个视频片段中连续N个视频帧执行去重操作,得到第一去重结果,所述N是大于1的整数;
    第二去重单元,用于对所述多个视频片段中相邻视频片段连接处的连续N个视频帧执行所述去重操作,得到第二去重结果;
    合并单元,用于将所述第一去重结果与所述第二去重结果进行合并,得到对所述目标视频的去重结果。
  11. 一种电子设备,包括:
    处理器;
    用于存储处理器可执行指令的存储器;
    其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至9中任意一项所述的方法。
  12. 一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。
  13. 一种计算机程序产品,包括存储于存储器中的计算机程序,所述计算机程序被处理器执行时能够实现权利要求1至9中任一项所述的方法。
PCT/CN2021/129187 2021-01-28 2021-11-08 视频处理方法及装置、电子设备和存储介质 WO2022160849A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110120299.4 2021-01-28
CN202110120299.4A CN112911239B (zh) 2021-01-28 2021-01-28 视频处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
WO2022160849A1 true WO2022160849A1 (zh) 2022-08-04

Family

ID=76119817

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/129187 WO2022160849A1 (zh) 2021-01-28 2021-11-08 视频处理方法及装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112911239B (zh)
WO (1) WO2022160849A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911239B (zh) * 2021-01-28 2022-11-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN113507630B (zh) * 2021-07-08 2023-06-20 北京百度网讯科技有限公司 比赛视频的拆条方法和装置
CN114549072A (zh) * 2022-02-18 2022-05-27 杭州网易云音乐科技有限公司 数据处理方法、装置、存储介质和计算设备
CN117278763A (zh) * 2022-06-14 2023-12-22 中兴通讯股份有限公司 基于交互的编码方法、编码装置及可读存储介质
CN117372933B (zh) * 2023-12-06 2024-02-20 南京智绘星图信息科技有限公司 图像去冗方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204636A1 (en) * 2008-02-11 2009-08-13 Microsoft Corporation Multimodal object de-duplication
CN109543641A (zh) * 2018-11-30 2019-03-29 厦门市美亚柏科信息股份有限公司 一种实时视频的多目标去重方法、终端设备及存储介质
CN111476105A (zh) * 2020-03-17 2020-07-31 深圳力维智联技术有限公司 人脸数据清洗方法、装置及设备
CN112231514A (zh) * 2020-10-19 2021-01-15 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN112911239A (zh) * 2021-01-28 2021-06-04 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298717B2 (en) * 2012-06-14 2016-03-29 Empire Technology Development Llc Data deduplication management
CN103678702B (zh) * 2013-12-30 2018-01-30 优视科技有限公司 视频去重方法及装置
CN105898583B (zh) * 2015-01-26 2020-06-16 北京搜狗科技发展有限公司 一种图像推荐方法及电子设备
CN110996183B (zh) * 2019-07-12 2022-01-21 北京达佳互联信息技术有限公司 视频摘要的生成方法、装置、终端及存储介质
CN112085097A (zh) * 2020-09-09 2020-12-15 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204636A1 (en) * 2008-02-11 2009-08-13 Microsoft Corporation Multimodal object de-duplication
CN109543641A (zh) * 2018-11-30 2019-03-29 厦门市美亚柏科信息股份有限公司 一种实时视频的多目标去重方法、终端设备及存储介质
CN111476105A (zh) * 2020-03-17 2020-07-31 深圳力维智联技术有限公司 人脸数据清洗方法、装置及设备
CN112231514A (zh) * 2020-10-19 2021-01-15 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN112911239A (zh) * 2021-01-28 2021-06-04 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112911239A (zh) 2021-06-04
CN112911239B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
WO2022160849A1 (zh) 视频处理方法及装置、电子设备和存储介质
US20210089799A1 (en) Pedestrian Recognition Method and Apparatus and Storage Medium
KR101821750B1 (ko) 이미지 처리 방법 및 장치
US20170154206A1 (en) Image processing method and apparatus
US10115019B2 (en) Video categorization method and apparatus, and storage medium
EP2998960B1 (en) Method and device for video browsing
WO2021036382A9 (zh) 图像处理方法及装置、电子设备和存储介质
WO2017020476A1 (zh) 关联用户的确定方法及装置
CN105488111A (zh) 图像搜索方法及装置
CN110781957A (zh) 图像处理方法及装置、电子设备和存储介质
CN106534951B (zh) 视频分割方法和装置
CN106225764A (zh) 基于终端中双目摄像头的测距方法及终端
US9799376B2 (en) Method and device for video browsing based on keyframe
WO2021082486A1 (zh) 获取样本的方法、装置、设备、存储介质及程序
WO2017140108A1 (zh) 压力检测方法和装置
WO2016110146A1 (zh) 移动终端及虚拟按键的处理方法
US20220222831A1 (en) Method for processing images and electronic device therefor
JP2017510907A (ja) 写真を折り畳む方法及び装置
CN109101542B (zh) 图像识别结果输出方法及装置、电子设备和存储介质
CN105335714A (zh) 照片处理方法、装置和设备
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN105426904A (zh) 照片处理方法、装置和设备
CN109325141B (zh) 图像检索方法及装置、电子设备和存储介质
WO2022198821A1 (zh) 人脸和人体匹配的方法、装置、电子设备、存储介质及程序
CN111782110A (zh) 截屏方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21922439

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21922439

Country of ref document: EP

Kind code of ref document: A1