WO2024139763A1 - 一种目标对象检测方法、装置、电子设备及可读存储介质 - Google Patents

一种目标对象检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
WO2024139763A1
WO2024139763A1 PCT/CN2023/130606 CN2023130606W WO2024139763A1 WO 2024139763 A1 WO2024139763 A1 WO 2024139763A1 CN 2023130606 W CN2023130606 W CN 2023130606W WO 2024139763 A1 WO2024139763 A1 WO 2024139763A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
convolution block
static
dynamic
current frame
Prior art date
Application number
PCT/CN2023/130606
Other languages
English (en)
French (fr)
Inventor
樊辉
叶涵
曾桃
童毅
Original Assignee
中移物联网有限公司
中国移动通信集团有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中移物联网有限公司, 中国移动通信集团有限公司 filed Critical 中移物联网有限公司
Publication of WO2024139763A1 publication Critical patent/WO2024139763A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the detection model can identify the target object in different scenes to achieve regional monitoring.
  • the detection model extracts features in different scenes and obtains the detection model based on feature training, so that the trained model can recognize objects in different scenes.
  • feature extraction is performed on static objects.
  • the detection model has a high recognition rate for static objects, but cannot accurately detect fast-moving objects such as pedestrians, resulting in a low accuracy rate for target object detection.
  • the embodiments of the present disclosure provide a target object detection method, device, electronic device and readable storage medium to solve the problem of target object detection accuracy in the related art.
  • the current frame, the first frame, the second frame and the inter-frame differential information are detected based on the detection network model to obtain a detection result of whether the current frame includes the current object, wherein the current frame, the first frame, the second frame and the inter-frame differential information are parameters of a dynamic channel input into the detection network model, and the current frame and the inter-frame differential information are parameters of a static channel input into the detection network model, and the dynamic channel and the static channel are used to extract image features at different levels.
  • the present disclosure also provides a target object detection device, including:
  • An acquisition module used to acquire a current frame, a first frame, and a second frame in a current video stream, wherein the first frame is an image frame before the current frame, and the second frame is an image frame after the current frame;
  • a determination module configured to determine inter-frame difference information based on the current frame, the first frame, and the second frame, wherein the The inter-frame difference information is used to represent difference information between the first frame and the second frame relative to the current frame;
  • a processing module is used to detect the current frame, the first frame, the second frame and the inter-frame differential information based on a detection network model to obtain a detection result of whether the current frame includes a current object, wherein the current frame, the first frame, the second frame and the inter-frame differential information are parameters of a dynamic channel input into the detection network model, and the current frame and the inter-frame differential information are parameters of a static channel input into the detection network model, and the dynamic channel and the static channel are used to extract image features at different levels.
  • an embodiment of the present disclosure further provides an electronic device, including a transceiver and a processor.
  • the transceiver is used to obtain a current frame, a first frame, and a second frame in a current video stream, wherein the first frame is an image frame before the current frame, and the second frame is an image frame after the current frame;
  • the processor is used to determine inter-frame difference information based on the current frame, the first frame and the second frame, where the inter-frame difference information is used to represent difference information between the first frame and the second frame relative to the current frame;
  • the processor is also used to detect the current frame, the first frame, the second frame and the inter-frame differential information using a detection network model to obtain a detection result of whether the current frame includes a current object, wherein the current frame, the first frame, the second frame and the inter-frame differential information are parameters of a dynamic channel input into the detection network model, and the current frame and the inter-frame differential information are parameters of a static channel input into the detection network model, and the dynamic channel and the static channel are used to extract image features at different levels.
  • an embodiment of the present disclosure further provides an electronic device, comprising: a transceiver, a memory, a processor, and a program stored in the memory and executable on the processor; the processor is used to read the program in the memory to implement the steps in the target object detection method described in the first aspect above.
  • an embodiment of the present disclosure further provides a readable storage medium for storing a program, which, when executed by a processor, implements the steps in the target object detection method as described in the first aspect above.
  • the inter-frame difference information by determining the inter-frame difference information, and then the current frame, the first frame, the second frame and the inter-frame difference information are used as the parameters of the dynamic channel of the input detection network model, and the current frame and the inter-frame difference information are used as the parameters of the static channel of the input detection network model, image features at different levels are obtained in advance through the dynamic channel and the static channel, and the image features are processed, and the target object is detected based on the dual channel, thereby improving the sensitivity of the detection; at the same time, the target object is detected through the inter-frame difference information, thereby improving the detection accuracy of moving objects.
  • FIG1 is a flow chart of a target object detection method provided by an embodiment of the present disclosure.
  • FIG3 is one of the structural schematic diagrams of the detection network model provided by the embodiment of the present disclosure.
  • the video stream may be a video stream in a normal illumination scene or a video stream in a low illumination scene.
  • the neck network is used to fuse the basic feature layers output by each convolutional block layer in the backbone network to obtain a fused feature layer.
  • the head network outputs the detection result based on the fused feature layer, and non-maximum suppression (NMS) can be used to process the result to obtain the detection result of the current frame.
  • NMS non-maximum suppression
  • the neck network and the head network can be implemented using the network of the corresponding part of the YoloV5 model.
  • the training sample data includes a current frame training sample, a first frame training sample, a second frame training sample, and an inter-frame difference information training sample
  • the verification sample data is used to characterize the real parameter conditions of the target object to be detected in the training sample data
  • the initial model is iteratively trained based on the training sample data and the verification sample data to obtain the detection network model, and the loss value corresponding to the detection network model is the model with the smallest corresponding loss value among the models obtained during the iterative training process.
  • the training sample data is image data collected under different illumination scenes
  • the verification sample data is verification data corresponding to the image data collected by the training sample data, including whether there is a target object, and the position or size of the target object, etc.
  • the above loss function is a loss function designed based on the three dimensions of confidence, classification and position.
  • the position loss uses the regression loss function CloU Loss
  • the confidence and classification loss use the binary cross entropy loss function BCE Loss.
  • training sample data and verification sample data are obtained, and the initial model is trained based on the current frame training sample, the first frame training sample, the second frame training sample, and the inter-frame differential information training sample to obtain the confidence, classification, and position corresponding to the current frame sample; then the confidence, classification, and position corresponding to the current frame sample are verified based on the verification sample data to obtain the confidence loss value, classification loss value, and position loss value; the confidence loss value, classification loss value, and position loss value are brought into the loss function to obtain the loss value.
  • This embodiment iteratively trains the initial model using the training sample data and the verification sample data, and sets the model with the smallest corresponding loss value among the models obtained during the iterative training process as the detection network model, so that the detection network model can more accurately detect whether there is a target object in the current frame.
  • sample images where the sample images include an initial first frame image, an initial current frame image, and an initial second frame image;
  • the above data enhancement is to enhance the sample image within a set range, which can be performed by brightness adjustment, gamma adjustment, random noise, blur degradation, translation transformation, etc. with random intensity within the set range.
  • a set range which can be performed by brightness adjustment, gamma adjustment, random noise, blur degradation, translation transformation, etc. with random intensity within the set range.
  • the above-mentioned scaling process is to adjust the size of the enhanced sample images so that the size of each image is the same.
  • the long and short sides of each sample image are scaled according to a fixed ratio, and the short side is padded with a value so that the size of each image is the same.
  • I cur ' is the current frame training sample
  • I pre ' is the first frame training sample
  • I back ' is the second frame training sample
  • I dif ' is the inter-frame difference information training sample.
  • the detection network model includes a backbone network, a neck network and a head network connected in sequence, the backbone network includes N layers of convolutional blocks connected in series in sequence, each layer of convolutional blocks is respectively connected to the neck network, and N is a positive integer;
  • the processing module 603 includes:
  • a first processing unit is configured to convolve the parameters of the dynamic channel input through each of the N convolutional block layers, or convolve the dynamic feature information output by the convolutional block layer on the previous layer of each convolutional block layer, to obtain the dynamic feature information of each convolutional block layer, wherein the dynamic feature information is used to characterize the feature information obtained by processing the parameters of the dynamic channel input to the detection network model;
  • a third processing unit configured to splice the dynamic feature information and the static feature information obtained by convolving each convolution block layer through each convolution block layer to obtain N splicing results
  • the processing module 603 includes:
  • a ninth processing unit configured to concatenate the dynamic feature information obtained by convolving each dynamic convolution block through the concatenation block with the static feature information obtained by convolving each static convolution block to obtain the N concatenation results
  • the training sample data includes current frame training samples, first frame training samples, second frame training samples and inter-frame difference information training samples
  • the verification sample data is used to characterize the real parameter conditions of the target object to be detected in the training sample data
  • the confidence, classification and position corresponding to the current frame sample are verified respectively to obtain a confidence loss value, a classification loss value and a position loss value;
  • the initial model is iteratively trained based on the training sample data and the verification sample data to obtain the detection network model, and the loss value corresponding to the detection network model is the model with the smallest corresponding loss value among the models obtained during the iterative training process.
  • the training sample data is obtained by:
  • sample images where the sample images include an initial first frame image, an initial current frame image, and an initial second frame image;
  • the inter-frame difference information training sample is determined based on the current frame training sample, the first frame training sample and the second frame training sample.
  • the target object detection device provided in the embodiments of the present disclosure is capable of implementing each process of each embodiment of the above-mentioned target object detection method.
  • the technical features correspond one to one and can achieve the same technical effect. To avoid repetition, they will not be described here.
  • the target object detection device in the embodiments of the present disclosure may be a device, or a component, an integrated circuit, or a chip in an electronic device.
  • the processor 705 is used to determine inter-frame difference information based on the current frame, the first frame and the second frame, where the inter-frame difference information is used to represent difference information between the first frame and the second frame relative to the current frame;
  • the processor 705 is also used to detect the current frame, the first frame, the second frame and the inter-frame differential information using a detection network model to obtain a detection result of whether the current frame includes a current object, wherein the current frame, the first frame, the second frame and the inter-frame differential information are parameters of a dynamic channel input into the detection network model, and the current frame and the inter-frame differential information are parameters of a static channel input into the detection network model, and the dynamic channel and the static channel are used to extract image features at different levels.
  • the detection network model includes a backbone network, a neck network and a head network connected in sequence, the backbone network includes N layers of convolutional blocks connected in series in sequence, each layer of convolutional blocks is respectively connected to the neck network, and N is a positive integer;
  • the processor 705 is further configured to convolve the parameters of the dynamic channel input through each of the N convolutional block layers, or convolve the dynamic feature information output by the convolutional block layer on the previous layer of each convolutional block layer, to obtain the dynamic feature information of each convolutional block layer, wherein the dynamic feature information is used to characterize the feature information obtained by processing the parameters of the dynamic channel input to the detection network model;
  • the processor 705 is further configured to convolve the parameters of the static channel input through each convolution block layer, or convolve the static feature information obtained by the convolution block layer on the previous layer of each convolution block layer, to obtain the static feature information of the convolution block layer, wherein the static feature information is used to characterize the feature information obtained by processing the parameters of the static channel input to the detection network model;
  • the processor 705 is further configured to splice the dynamic feature information and the static feature information obtained by convolving each convolution block layer through each convolution block layer to obtain N splicing results;
  • the processor 705 is further configured to perform convolution on the N feature layers through the neck network to obtain N fused feature layers;
  • the processor 705 is further configured to convolve the N fused feature layers through the head network to obtain the detection result.
  • the processor 705 is further configured to convolve the parameters input to the dynamic channel through each dynamic convolution block, or convolve the dynamic feature information obtained by the previous dynamic convolution block of each dynamic convolution block to obtain the dynamic feature information of each dynamic convolution block;
  • the processor 705 is further configured to convolve the parameters input to the static channel through each static convolution block, or convolve the static feature information obtained by the previous static convolution block of each static convolution block to obtain the static feature information of each static convolution block;
  • the processor 705 is further configured to concatenate the dynamic feature information obtained by convolving each dynamic convolution block through the concatenation block with the static feature information obtained by convolving each static convolution block to obtain the N concatenation results;
  • the processor 705 is further configured to convolve the N splicing results through the backbone convolution block to obtain the N basic feature layers.
  • the training sample data includes current frame training samples, first frame training samples, second frame training samples and inter-frame difference information training samples
  • the verification sample data is used to characterize the real parameter conditions of the target object to be detected in the training sample data
  • bus 701 may include any number of interconnected buses and bridges, and bus 701 links various circuits including one or more processors represented by processor 705 and memory represented by memory 706. Bus 701 may also link various other circuits such as peripherals, voltage regulators, and power management circuits, which are well known in the art and are therefore not further described herein.
  • Bus interface 704 provides an interface between bus 701 and transceiver 702.
  • Transceiver 702 may be one element or multiple elements, such as multiple receivers and transmitters, providing a unit for communicating with various other devices on a transmission medium.
  • Data processed by processor 705 is transmitted on a wireless medium via antenna 703, and further, antenna 703 also receives data and transmits the data to processor 705.
  • the processor 705 is responsible for managing the bus 701 and general processing, and can also provide various functions, including timing, peripheral interfaces, voltage regulation, power management and other control functions.
  • the memory 706 can be used to store data used by the processor 705 when performing operations.
  • the processor 705 may be a CPU, an ASIC, an FPGA, or a CPLD.
  • the disclosed embodiment also provides a computer-readable storage medium, on which a computer program is stored.
  • a computer program is stored.
  • the computer program is executed by a processor, each process of the above-mentioned target object detection method embodiment is implemented, and the same technical effect can be achieved. To avoid repetition, it is not repeated here.
  • the computer-readable storage medium is a read-only memory (ROM), a random access memory (RAM), a disk or an optical disk, etc.
  • the technical solution of the present disclosure can be embodied in the form of a software product, which is stored in a storage medium (such as ROM/RAM, a magnetic disk, or an optical disk), and includes a number of instructions for a terminal (which can be a mobile phone, a computer, a server, an air conditioner, or a second terminal device, etc.) to execute the methods of each embodiment of the present disclosure.
  • a storage medium such as ROM/RAM, a magnetic disk, or an optical disk
  • a terminal which can be a mobile phone, a computer, a server, an air conditioner, or a second terminal device, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种目标对象检测方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,该方法包括:获取当前视频流中的当前帧、第一帧和第二帧,第一帧为当前帧之前的图像帧,第二帧为当前帧之后的图像帧;基于当前帧、第一帧和第二帧,确定帧间差分信息,帧间差分信息用于表征第一帧和第二帧相对于当前帧的差异信息;基于检测网络模型对当前帧、第一帧、第二帧和帧间差分信息进行检测,得到当前帧是否包括当前对象的检测结果,其中,当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数,当前帧和帧间差分信息在输入检测网络模型的静态通道的参数。本公开提高了目标对象检测的准确率。

Description

一种目标对象检测方法、装置、电子设备及可读存储介质
相关申请的交叉引用
本申请基于申请号为202211684600.5、申请日为2022年12月27日的中国专利申请提出,并要求该中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本公开涉及数据处理技术领域,具体涉及一种目标对象检测方法、装置、电子设备及可读存储介质。
背景技术
随着深度学习技术的封装,通过检测模型在不同场景对目标对象进行识别,实现对区域的监控。相关技术中,检测模型通过在不同场景进行特征提取,并基于特征训练得到检测模型,使得训练模型可以在不同景进行对象识别。但相关技术中,特征提取为对静态的对象进行特征提取,检测模型对静态物体识别率较高,但对行人等移动速度较快的对象不能准确检测,导致目标对象检测的准确率较低。
可见,现有技术中存在着目标对象检测的准确率较低的问题。
发明内容
本公开实施例提供一种目标对象检测方法、装置、电子设备及可读存储介质,以解决相关技术中存在着目标对象检测的准确率的问题。
为解决上述问题,本公开是这样实现的:
第一方面,本公开实施例提供一种目标对象检测方法,包括:
获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
第二方面,本公开实施例还提供一种目标对象检测装置,包括:
获取模块,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
确定模块,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述 帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
处理模块,用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
第三方面,本公开实施例还提供一种电子设备,包括收发机和处理器,
所述收发机,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
所述处理器,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
所述处理器,还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
第四方面,本公开实施例还提供一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现上述第一方面所述的目标对象检测方法中的步骤。
第五方面,本公开实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如上述第一方面所述的目标对象检测方法中的步骤。
第六方面,本公开实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的目标对象检测方法中的步骤。
在本公开实施例中,通过获取当前视频流中的当前帧、第一帧和第二帧,并基于当前帧、第一帧和第二帧,确定帧间差分信息,再基于检测网络模型对当前帧、第一帧、第二帧和帧间差分信息进行检测,得到当前帧是否包括当前对象的检测结果。其中,通过确定帧间差分信息,再将当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数,当前帧和帧间差分信息在输入检测网络模型的静态通道的参数,通过动态通道和静态通道提前不同层次的图像特征,并对图像特征进行处理,基于双通道对目标对象进行检测,提高了检测的灵敏度;同时通过帧间差分信息对目标对象进行检测,提高了对移动物体的检测准确度。
附图说明
为更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附 图。
图1是本公开实施例提供的一种目标对象检测方法的流程图;
图2是本公开实施例提供的基础的卷积块结构的示意图;
图3是本公开实施例提供的检测网络模型的结构示意图之一;
图4是本公开实施例提供的检测网络模型的结构示意图之二;
图5是本公开实施例提供的跨阶段局部网络的结构示意图;
图6是本公开实施例提供的一种目标对象检测装置的结构图;
图7是本公开实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
请参见图1,图1是本公开实施例提供的一种目标对象检测方法的流程图,如图1所示,包括以下步骤:
步骤101、获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧。
上述当前帧、第一帧和第二帧为在视频流中采集的图像帧,其中,当前帧为需要确定是否存在目标对象的图像帧。应理解,根据设定的间隔采集当前帧、第一帧和第二帧,例如,在视频流中每5帧抽取3帧,分别为第一帧Ipre、当前帧Icur和第二帧Iback。在当前帧检测出存在目标对象的情况下,认为当前帧的前两帧和后两帧均存在目标对象。
其中,视频流可以是正常照度场景下的视频流,也可以是低照度场景下的视频流。
步骤102、基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息。
上述帧间差分信息表征第一帧和第二帧相对于当前帧的差异信息,通过将帧间差分信息输入值检测网络模型,可以增强对当前帧的图像中移动的物体的检测准确率。其中,帧间差分信息可以通过如下公式确认:
Idif=(Ipre+Iback-2Icur)/2
上述公式中Idif为帧间差分信息,通过该公式可以由当前帧、第一帧和第二帧确定帧间差分信息。
步骤103、基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
上述动态特征通道用于提取动态特征信息,其中,提取动态特征信息需要捕捉更充分的运动细节,同时需要保留相对较大的分辨率,故需要将当前帧、第一帧和第二帧和帧间差分信息作为输入参数输入至检测网络模型中。
上述静态特征通道用于提取静态特征信息,其中,提取的静态特征信息具有高层次的抽象特征,但不需要保证交到的分辨率和捕捉运动细节,故将当前帧和帧间差分信息作为输入参数输入至检测网络模型中。
上述检测网络模型为进过训练的,可以确定当前帧是否存在目标对象的模型。其中,将当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数,当前帧和帧间差分信息在输入检测网络模型的静态通道的参数,通过动态通道提取动态特征信息,静态通道提取静态特征信息后,根据动态特征信息和静态特征信息的融合后的特征确定当前帧是否检出目标对象的检测结果。
其中,在检测网络模型中动态通道和静态通道均使用基础的卷积块结构,如图2所示。动态通道包括1个卷积块、归一化块和激活函数块,在动态通道中的卷积块为步长为1;静态通道包括2个卷积块,在静态通道中的卷积块的步长为2,从而使得动态通道和静态通道输出的特征的大小存在区别。例如,在输入的当前帧、第一帧、第二帧的分辨率为(608×608)大小的情况下,静态通道输出的静态特征为[152,152,32],动态通道输出的动态特征为[608,608,16]。
在本公开实施例中,通过获取当前视频流中的当前帧、第一帧和第二帧,并基于当前帧、第一帧和第二帧,确定帧间差分信息,再基于检测网络模型对当前帧、第一帧、第二帧和帧间差分信息进行检测,得到当前帧是否包括当前对象的检测结果。其中,通过确定帧间差分信息,再将当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数,当前帧和帧间差分信息在输入检测网络模型的静态通道的参数,通过动态通道和静态通道提前不同层次的图像特征,并对图像特征进行处理,基于双通道对目标对象进行检测,提高了检测的灵敏度;同时通过帧间差分信息对目标对象进行检测,提高了对移动物体的检测准确度。
在一个实施例中,如图3所示,所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络,所述骨干网络包括依次串联的N层卷积块层,每层卷积块层分别与所述颈部网络相连,N为正整数;
所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,包括:
通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积,得到所述每个卷积块层的动态特征信息,所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息;
通过所述每个卷积块层对输入所述静态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积,得到所述卷积块层的静态特征信息,所述静态 特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息;
通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接,得到N个拼接结果;
通过所述每个卷积块层对N个拼接结果进行卷积,得到N个基础特征图层;
通过所述颈部网络对所述N个特征图层进行卷积,得到N个融合特征图层;
通过所述头部网络对所述N个融合特征图层卷积,得到所述检测结果。
上述N个卷积块层构成骨干网络,卷积块层用于对动态通道输入的当前帧、第一帧、第二帧和帧间差分信息进行动态特征信息提取,以及对静态通道输入的当前帧和帧间差分信息进行静态特征信息提取。应理解,静态通道使用更深的网络结构来获取深层特征信息,动态通道使用较浅的网络结构来同时兼顾大尺寸和计算效果。
其中,卷积块层的数量为N,即从N个维度对动态特征进行提取,通过多个维度提取动态特征信息和静态特征信息,再将动态特征信息和静态特征信息拼接并卷积,得到N个基础特征图层。应理解,卷积块层的数量越多,提取得到的基础特征图层越多,使得最终得到的检测结果更加准确。
进一步地,由于卷积块层的数量的增加导致计算资源占用较多,为提高计算速率,需减少卷积块层的数量。本实施例中将卷积块层设为3层,使得检测网络模型保持较高准确率的同时,保证计算速率。
上述基础特征图层为对每个卷积块层的动态特征信息和静态特征信息拼接并卷积得到。其中,不同卷积块层的得到的基础特征图层大小不同。例如,检测网络模型中包括3个卷积块层,静态通道输出的静态特征为[152,152,32],动态通道输出的动态特征为[608,608,16],则三个卷积块层输出的基础特征图层的大小依次为[19,19,1024]、[38,38,256]和[76,76,128]。
上述颈部网络用于对骨干网络中的每个卷积块层输出的基础特征图层进行融合,从而得到融合特征图层。上述头部网络根据融合特征图层输出检测结果,可以使用非极大值抑制(Non-Maximum Suppression,NMS)对结果进行处理,获得当前帧的检测结果。其中,颈部网络和头部网络可以使用YoloV5模型对应部分的网络实现。
在本公开实施例中,检测网络模型包括N个卷积块层、颈部网络和头部网络,每个卷积块层对动态通道输入的当前帧、第一帧、第二帧和帧间差分信息进行动态特征信息提取,或者,对上一卷积块层的动态特征信息提取,得到每个卷积块层的动态特征信息;对静态通道输入的当前帧和帧间差分信息进行静态特征信息提取,或者对上一卷积块层的静态特征信息提取,得到每个卷积块层的静态特征信息,再将动态特征信息和静态特征信息拼接并卷积,得到每个卷积块层的基础特征图层,在通过颈部网络对基础特征图层进行卷积,得到融合特征图层,再通过头部网络对融合特征图层卷积,得到检测结果,使得检测结果经过N个维度卷积后确定,提高了检测结果的准确性。
在一个实施例中,如图4所示,所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接,所述N个卷积块层中的每个动态卷积块依次串联,所述N个卷积块层中的每个静态 卷积块依次串联,每个骨干卷积块与所述颈部网络连接,
所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,包括:
通过所述每个动态卷积块对输入所述动态通道的参数卷积,或者,对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积,得到所述每个动态卷积块的动态特征信息;
通过所述每个静态卷积块对输入所述静态通道的参数卷积,或者,对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积,得到所述每个静态卷积块的静态特征信息;
通过所述拼接块对每个动态卷积块卷积得到的动态特征信息,和每个静态卷积块卷积得到的静态特征信息拼接,得到所述N个拼接结果;
通过所述骨干卷积块对N个拼接结果进行卷积,得到所述N个基础特征图层。
上述动态卷积块用于处理动态通道输入的参数或上一动态卷积块的动态特征信息,上述静态卷积块用于处理静态通道输入的参数或上一静态卷积块的静态特征信息。应理解,动态卷积块和静态卷积块可以根据跨阶段局部网络(Cross Stage Partial Network,CSPNet)构建,其结构如图5所示。其中,每个卷积块以卷积核为1×1,步长为1的结构构建。
应理解,动态卷积块、静态卷积块、拼接块和骨干卷积块形成卷积块层,通过动态卷积块提取动态特征信息、静态卷积块提取静态特征信息、拼接块拼接动态特征信息和静态特征信息,骨干卷积块卷积拼接的接动态特征信息和静态特征信息得到基础特征图层,以实现不同维度的基础特征图层的提取。
示例性的,检测网络结构包括3个卷积块层,每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块。其中,第一动态卷积块提取动态通道输入的大小为[608,608,16]的特征,得到动态特征信息F1,第一静态卷积块提取静态通道输入的大小为[152,152,32]的特征,得到静态特征信息Fa,拼接块将下采样的动态特征信息F1和静态特征信息Fa拼接,并由第一骨干网络卷积块对拼接结果卷积,得到大小为[76,76,128]的基础特征图层Fh
在本公开实施例中,卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,通过动态卷积块提取动态特征信息、静态卷积块提取静态特征信息、拼接块拼接动态特征信息和静态特征信息,骨干卷积块卷积拼接的接动态特征信息和静态特征信息得到基础特征图层,以实现不同维度的基础特征图层的提取。
在一个实施例中,所述检测网络模型通过如下方式训练得到:
获取训练样本数据和验证样本数据,所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本,所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况;
基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练,得到所述当前帧样本对应的置信度、分类和位置;
基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证, 得到置信度损失值、分类损失值和位置损失值;
将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中,得到损失值;
基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练,得到所述检测网络模型,所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
上述训练样本数据为在不同照度场景下采集的图像数据,验证样本数据为训练样本数据采集的图像数据对应的验证数据,包括是否存在目标对象,以及目标对象的位置或大小等。通过训练样本数据对初始模型进行训练,可以得到当前帧样本对应的置信度、分类和位置,再根据验证数据确定每个当前帧样本对应的置信度损失值、分类损失值和位置损失值。
上述损失函数为根据置信度、分类和位置三个维度设计的损失函数,其中,位置损失使用回归损失函数CloU Loss,置信度和分类损失使用二元交叉熵损失函数BCE Loss。
进一步地,通过置信度、分类和位置三个维度确定的损失函数如下表示:
Loss=w1×lossconf+w2×lossclass+w3×lossciou
其中,lossconf为置信度损失值,w1为置信度损失加权;lossclass为分类损失值,w2为分类损失加权;lossciou为位置损失值,w3为位置损失加权,Loss为损失值。通过上述公式可以确定损失值。
其中,w1可以取值为0.5,w2可以取值为0.25,w3可以取值为0.25。
在本公开实施例中,通过获取训练样本数据和验证样本数据,并基于当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本对初始模型进行训练,得到当前帧样本对应的置信度、分类和位置;再基于验证样本数据分别对当前帧样本对应的置信度、分类和位置进行验证,得到置信度损失值、分类损失值和位置损失值;将置信度损失值、分类损失值和位置损失值带入损失函数中,得到损失值。本实施例通过训练样本数据和验证样本数据对初始模型进行迭代训练,将检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型设为检测网络模型,使得检测网络模型能更准确的检测出当前帧是否存在目标对象。
在一个实施例中,所述训练样本数据通过如下方式得到:
采集样本图像,所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像;
对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强,得到增强第一帧图像、增强当前帧图像和增强第二帧图像;
对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理,得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本;
基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本,确定所述帧间差分信息训练样本。
上述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像,其中,初始 第一帧图像、初始当前帧图像和初始第二帧图像均在不同照度环境下采集,使得最终训练得到的检测网络模块可以在不同照度场景下检测目标对象。
上述数据增强为将样本图像在设定范围增强,可以是以设定范围内随机强度地亮度调整、伽马调整、随机噪声、模糊退化、平移变换等方式进行数据增强。其中,在增强样本图像时,采用同一种数据增强的方式进行增强。
上述缩放处理为对增强后的样本图像进行尺寸调整,使得每个图像的尺寸相同。其中,将每个样本图像的长短边按固定比例缩放,并对短边进行值填充,使得每个图像的尺寸相同。
上述帧间差分信息训练样本与帧间差分信息确定的方式相同,由如下公式确定:
Idif’=(Ipre’+Iback’-2Icur’)/2
其中,Icur’为当前帧训练样本,为Ipre’第一帧训练样本,Iback’为第二帧训练样本,Idif’为帧间差分信息训练样本。
进一步地,对当前帧训练样本进行标注,以方便从初始模型输出的结果中快速定位当前帧训练样本对应的置信度、分类和位置等数据。
请参见图6,图6是本公开实施例提供的一种目标对象检测装置的结构图,如图6所示,目标对象检测装置600包括:
获取模块601,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
确定模块602,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
处理模块603,用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
在一个实施例中,所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络,所述骨干网络包括依次串联的N层卷积块层,每层卷积块层分别与所述颈部网络相连,N为正整数;
所述处理模块603包括:
第一处理单元,用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积,得到所述每个卷积块层的动态特征信息,所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息;
第二处理单元,用于通过所述每个卷积块层对输入所述静态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积,得到所述卷积块层的静态特征信息,所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息;
第三处理单元,用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接,得到N个拼接结果;
第四处理单元,用于通过所述每个卷积块层对N个拼接结果进行卷积,得到N个基础特征图层;
第五处理单元,用于通过所述颈部网络对所述N个特征图层进行卷积,得到N个融合特征图层;
第六处理单元,用于通过所述头部网络对所述N个融合特征图层卷积,得到所述检测结果。
在一个实施例中,所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接,所述N个卷积块层中的每个动态卷积块依次串联,所述N个卷积块层中的每个静态卷积块依次串联,每个骨干卷积块与所述颈部网络连接,
所述处理模块603包括:
第七处理单元,用于通过所述每个动态卷积块对输入所述动态通道的参数卷积,或者,对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积,得到所述每个动态卷积块的动态特征信息;
第八处理单元,用于通过所述每个静态卷积块对输入所述静态通道的参数卷积,或者,对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积,得到所述每个静态卷积块的静态特征信息;
第九处理单元,用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息,和每个静态卷积块卷积得到的静态特征信息拼接,得到所述N个拼接结果;
第十处理单元,用于通过所述骨干卷积块对N个拼接结果进行卷积,得到所述N个基础特征图层。
在一个实施例中,所述检测网络模型通过如下方式训练得到:
获取训练样本数据和验证样本数据,所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本,所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况;
基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练,得到所述当前帧样本对应的置信度、分类和位置;
基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证,得到置信度损失值、分类损失值和位置损失值;
将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中,得到损失值;
基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练,得到所述检测网络模型,所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
在一个实施例中,所述训练样本数据通过如下方式得到:
采集样本图像,所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像;
对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强,得到增强第一帧图像、增强当前帧图像和增强第二帧图像;
对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理,得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本;
基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本,确定所述帧间差分信息训练样本。
本公开实施例提供的目标对象检测装置为能实现上述目标对象检测方法的各实施例的各个过程,技术特征一一对应,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本公开实施例中的目标对象检测装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。
具体的,参见图7,本公开实施例还提供了一种电子设备的结构示意图,包括总线701、收发机702、天线703、总线接口704、处理器705和存储器706。
其中,所述收发机702,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
所述处理器705,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
所述处理器705,还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
在一个实施例中,所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络,所述骨干网络包括依次串联的N层卷积块层,每层卷积块层分别与所述颈部网络相连,N为正整数;
所述处理器705,还用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积,得到所述每个卷积块层的动态特征信息,所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息;
所述处理器705,还用于通过所述每个卷积块层对输入所述静态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积,得到所述卷积块层的静态特征信息,所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息;
所述处理器705,还用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接,得到N个拼接结果;
所述处理器705,还用于通过所述每个卷积块层对N个拼接结果进行卷积,得到N个 基础特征图层;
所述处理器705,还用于通过所述颈部网络对所述N个特征图层进行卷积,得到N个融合特征图层;
所述处理器705,还用于通过所述头部网络对所述N个融合特征图层卷积,得到所述检测结果。
在一个实施例中,所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接,所述N个卷积块层中的每个动态卷积块依次串联,所述N个卷积块层中的每个静态卷积块依次串联,每个骨干卷积块与所述颈部网络连接,
所述处理器705,还用于通过所述每个动态卷积块对输入所述动态通道的参数卷积,或者,对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积,得到所述每个动态卷积块的动态特征信息;
所述处理器705,还用于通过所述每个静态卷积块对输入所述静态通道的参数卷积,或者,对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积,得到所述每个静态卷积块的静态特征信息;
所述处理器705,还用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息,和每个静态卷积块卷积得到的静态特征信息拼接,得到所述N个拼接结果;
所述处理器705,还用于通过所述骨干卷积块对N个拼接结果进行卷积,得到所述N个基础特征图层。
在一个实施例中,所述检测网络模型通过如下方式训练得到:
获取训练样本数据和验证样本数据,所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本,所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况;
基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练,得到所述当前帧样本对应的置信度、分类和位置;
基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证,得到置信度损失值、分类损失值和位置损失值;
将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中,得到损失值;
基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练,得到所述检测网络模型,所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
在一个实施例中,所述训练样本数据通过如下方式得到:
采集样本图像,所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像;
对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强,得到增强第一帧图像、增强当前帧图像和增强第二帧图像;
对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理, 得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本;
基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本,确定所述帧间差分信息训练样本。
在图7中,总线架构(用总线701来代表),总线701可以包括任意数量的互联的总线和桥,总线701将包括由处理器705代表的一个或多个处理器和存储器706代表的存储器的各种电路链接在一起。总线701还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口704在总线701和收发机702之间提供接口。收发机702可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器705处理的数据通过天线703在无线介质上进行传输,进一步,天线703还接收数据并将数据传送给处理器705。
处理器705负责管理总线701和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器706可以被用于存储处理器705在执行操作时所使用的数据。
在一个实施例中,处理器705可以是CPU、ASIC、FPGA或CPLD。
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述目标对象检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者第二终端设备等)执行本公开各个实施例的方法。
上面结合附图对本公开的实施例进行描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。

Claims (14)

  1. 一种目标对象检测方法,包括:
    获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
    基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
    基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
  2. 根据权利要求1所述的方法,其中,所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络,所述骨干网络包括依次串联的N层卷积块层,每层卷积块层分别与所述颈部网络相连,N为正整数;
    所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,包括:
    通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积,得到所述每个卷积块层的动态特征信息,所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息;
    通过所述每个卷积块层对输入所述静态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积,得到所述卷积块层的静态特征信息,所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息;
    通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接,得到N个拼接结果;
    通过所述每个卷积块层对N个拼接结果进行卷积,得到N个基础特征图层;
    通过所述颈部网络对所述N个特征图层进行卷积,得到N个融合特征图层;
    通过所述头部网络对所述N个融合特征图层卷积,得到所述检测结果。
  3. 根据权利要求2所述的方法,其中,所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接,所述N个卷积块层中的每个动态卷积块依次串联,所述N个卷积块层中的每个静态卷积块依次串联,每个骨干卷积块与所述颈部网络连接,
    所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,包括:
    通过所述每个动态卷积块对输入所述动态通道的参数卷积,或者,对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积,得到所述每个动态卷积块的动态特征信 息;
    通过所述每个静态卷积块对输入所述静态通道的参数卷积,或者,对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积,得到所述每个静态卷积块的静态特征信息;
    通过所述拼接块对每个动态卷积块卷积得到的动态特征信息,和每个静态卷积块卷积得到的静态特征信息拼接,得到所述N个拼接结果;
    通过所述骨干卷积块对N个拼接结果进行卷积,得到所述N个基础特征图层。
  4. 根据权利要求1至3中任一项所述的方法,其中,所述检测网络模型通过如下方式训练得到:
    获取训练样本数据和验证样本数据,所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本,所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况;
    基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练,得到所述当前帧样本对应的置信度、分类和位置;
    基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证,得到置信度损失值、分类损失值和位置损失值;
    将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中,得到损失值;
    基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练,得到所述检测网络模型,所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
  5. 根据权利要求4所述的方法,其中,所述训练样本数据通过如下方式得到:
    采集样本图像,所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像;
    对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强,得到增强第一帧图像、增强当前帧图像和增强第二帧图像;
    对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理,得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本;
    基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本,确定所述帧间差分信息训练样本。
  6. 一种目标对象检测装置,包括:
    获取模块,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
    确定模块,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
    处理模块,用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧 间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
  7. 根据权利要求6所述的装置,其中,所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络,所述骨干网络包括依次串联的N层卷积块层,每层卷积块层分别与所述颈部网络相连,N为正整数;
    所述处理模块包括:
    第一处理单元,用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积,得到所述每个卷积块层的动态特征信息,所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息;
    第二处理单元,用于通过所述每个卷积块层对输入所述静态通道的参数卷积,或者,对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积,得到所述卷积块层的静态特征信息,所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息;
    第三处理单元,用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接,得到N个拼接结果;
    第四处理单元,用于通过所述每个卷积块层对N个拼接结果进行卷积,得到N个基础特征图层;
    第五处理单元,用于通过所述颈部网络对所述N个特征图层进行卷积,得到N个融合特征图层;
    第六处理单元,用于通过所述头部网络对所述N个融合特征图层卷积,得到所述检测结果。
  8. 根据权利要求7所述的装置,其中,所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块,所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接,所述N个卷积块层中的每个动态卷积块依次串联,所述N个卷积块层中的每个静态卷积块依次串联,每个骨干卷积块与所述颈部网络连接,
    所述处理模块包括:
    第七处理单元,用于通过所述每个动态卷积块对输入所述动态通道的参数卷积,或者,对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积,得到所述每个动态卷积块的动态特征信息;
    第八处理单元,用于通过所述每个静态卷积块对输入所述静态通道的参数卷积,或者,对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积,得到所述每个静态卷积块的静态特征信息;
    第九处理单元,用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息,和 每个静态卷积块卷积得到的静态特征信息拼接,得到所述N个拼接结果;
    第十处理单元,用于通过所述骨干卷积块对N个拼接结果进行卷积,得到所述N个基础特征图层。
  9. 根据权利要求6至8中任一项所述的装置,其中,所述检测网络模型通过如下方式训练得到:
    获取训练样本数据和验证样本数据,所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本,所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况;
    基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练,得到所述当前帧样本对应的置信度、分类和位置;
    基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证,得到置信度损失值、分类损失值和位置损失值;
    将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中,得到损失值;
    基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练,得到所述检测网络模型,所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
  10. 根据权利要求9所述的装置,其中,所述训练样本数据通过如下方式得到:
    采集样本图像,所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像;
    对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强,得到增强第一帧图像、增强当前帧图像和增强第二帧图像;
    对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理,得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本;
    基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本,确定所述帧间差分信息训练样本。
  11. 一种电子设备,包括收发机和处理器,
    所述收发机,用于获取当前视频流中的当前帧、第一帧和第二帧,所述第一帧为所述当前帧之前的图像帧,所述第二帧为所述当前帧之后的图像帧;
    所述处理器,用于基于所述当前帧、所述第一帧和所述第二帧,确定帧间差分信息,所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息;
    所述处理器,还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测,得到所述当前帧是否包括当前对象的检测结果,其中,所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数,所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数,所述动态通道和所述静态通道用于提取不同层次的图像特征。
  12. 一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。
  13. 一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。
  14. 一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。
PCT/CN2023/130606 2022-12-27 2023-11-09 一种目标对象检测方法、装置、电子设备及可读存储介质 WO2024139763A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211684600.5 2022-12-27
CN202211684600.5A CN116912725A (zh) 2022-12-27 2022-12-27 一种目标对象检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
WO2024139763A1 true WO2024139763A1 (zh) 2024-07-04

Family

ID=88353672

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/130606 WO2024139763A1 (zh) 2022-12-27 2023-11-09 一种目标对象检测方法、装置、电子设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN116912725A (zh)
WO (1) WO2024139763A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912725A (zh) * 2022-12-27 2023-10-20 中移物联网有限公司 一种目标对象检测方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503081A (zh) * 2019-08-30 2019-11-26 山东师范大学 基于帧间差分的暴力行为检测方法、系统、设备及介质
CN111768432A (zh) * 2020-06-30 2020-10-13 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN112287805A (zh) * 2020-10-29 2021-01-29 地平线(上海)人工智能技术有限公司 运动物体的检测方法、装置、可读存储介质及电子设备
CN114339219A (zh) * 2021-12-31 2022-04-12 浙江大华技术股份有限公司 帧间预测方法、装置、编解码方法、编解码器及电子设备
CN116912725A (zh) * 2022-12-27 2023-10-20 中移物联网有限公司 一种目标对象检测方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503081A (zh) * 2019-08-30 2019-11-26 山东师范大学 基于帧间差分的暴力行为检测方法、系统、设备及介质
CN111768432A (zh) * 2020-06-30 2020-10-13 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
WO2022000426A1 (zh) * 2020-06-30 2022-01-06 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN112287805A (zh) * 2020-10-29 2021-01-29 地平线(上海)人工智能技术有限公司 运动物体的检测方法、装置、可读存储介质及电子设备
CN114339219A (zh) * 2021-12-31 2022-04-12 浙江大华技术股份有限公司 帧间预测方法、装置、编解码方法、编解码器及电子设备
CN116912725A (zh) * 2022-12-27 2023-10-20 中移物联网有限公司 一种目标对象检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN116912725A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN107545262B (zh) 一种在自然场景图像中检测文本的方法及装置
WO2024139763A1 (zh) 一种目标对象检测方法、装置、电子设备及可读存储介质
US20190205618A1 (en) Method and apparatus for generating facial feature
CN111881707B (zh) 图像翻拍检测方法、身份验证方法、模型训练方法及装置
KR102223478B1 (ko) 눈 상태 검출에 딥러닝 모델을 이용하는 눈 상태 검출 시스템 및 그 작동 방법
CN106372603A (zh) 遮挡人脸识别方法及装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110570348B (zh) 一种脸部图像替换方法及设备
CN113158773B (zh) 一种活体检测模型的训练方法及训练装置
CN112487848A (zh) 文字识别方法和终端设备
US20240296525A1 (en) Denoising method, apparatus, electronic device and medium
CN114723646A (zh) 带标注的图像数据生成方法、装置、存储介质及电子设备
CN113010736B (zh) 一种视频分类方法、装置、电子设备及存储介质
US11709914B2 (en) Face recognition method, terminal device using the same, and computer readable storage medium
CN115294501A (zh) 视频识别方法、视频识别模型训练方法、介质及电子设备
CN114255493A (zh) 图像检测方法、人脸检测方法及装置、设备及存储介质
CN114708582B (zh) 基于ai和rpa的电力数据智慧稽查方法及装置
US20170078742A1 (en) Method and apparatus for video processing
EP4248657A1 (en) Methods and systems for low light media enhancement
CN112101479B (zh) 一种发型识别方法及装置
CN114494833A (zh) 光缆交接箱的端口的状态识别方法及装置
CN109784226B (zh) 人脸抓拍方法及相关装置
CN113569942B (zh) 短视频事件分类方法、系统、电子设备及存储介质
CN113542866B (zh) 视频处理方法、装置、设备及计算机可读存储介质
US20230290142A1 (en) Apparatus for Augmenting Behavior Data and Method Thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23909695

Country of ref document: EP

Kind code of ref document: A1