WO2021008032A1 - 监控视频处理方法、装置、计算机设备和存储介质 - Google Patents

监控视频处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021008032A1
WO2021008032A1 PCT/CN2019/117589 CN2019117589W WO2021008032A1 WO 2021008032 A1 WO2021008032 A1 WO 2021008032A1 CN 2019117589 W CN2019117589 W CN 2019117589W WO 2021008032 A1 WO2021008032 A1 WO 2021008032A1
Authority
WO
WIPO (PCT)
Prior art keywords
preset
historical
surveillance video
reference index
probability reference
Prior art date
Application number
PCT/CN2019/117589
Other languages
English (en)
French (fr)
Inventor
周俊琨
罗郑楠
肖玉宾
许扬
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021008032A1 publication Critical patent/WO2021008032A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Definitions

  • a monitoring video processing method, device, computer equipment, and storage medium are provided.
  • a monitoring video processing method including:
  • the target probability reference index of the preset behavior in the surveillance video is calculated according to the initial probability reference index, and the preset behavior corresponding to the surveillance video is obtained according to the target probability reference index.
  • a monitoring video processing device including:
  • the receiving module is configured to receive the surveillance video sent by the terminal, and preprocess the key frame image of the surveillance video to obtain the current area to be identified;
  • the first extraction module is configured to perform feature extraction on the current region to be identified according to a preset extraction type to obtain an initial feature image
  • the first sampling module is used to sample the initial feature image to obtain the sampled feature image
  • the first calculation module is configured to perform two-dimensional feature extraction on the sampled feature image, obtain a three-dimensional convolution model corresponding to a preset extraction type, and input the extracted two-dimensional features into the three-dimensional convolution model to obtain The initial probability reference index for the existence of the predetermined behavior corresponding to each of the predetermined extraction types;
  • the output module is configured to calculate a target probability reference index for a preset behavior in the surveillance video according to the initial probability reference index, and obtain a preset behavior corresponding to the surveillance video according to the target probability reference index.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the steps of the surveillance video processing method provided in any embodiment of the present application are implemented.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions.
  • the one or more processors implement any one of the embodiments of the present application. Provides the steps of the surveillance video processing method.
  • Fig. 1 is an application scenario diagram of a monitoring video processing method according to one or more embodiments.
  • Fig. 3 is a flowchart of a method for establishing a three-dimensional convolution model according to one or more embodiments.
  • the monitoring video processing method provided in this application can be applied to the application environment shown in FIG. 1.
  • the terminal 102 communicates with the server 104 through the network.
  • the terminal 102 can shoot surveillance video and send the captured surveillance video to the server 104.
  • the server 104 can process the surveillance video to determine whether there is a preset behavior in the surveillance video For example, the server 104 first preprocesses the surveillance video to obtain the current recognition area corresponding to the key frame image, and then performs feature extraction on the current area to be recognized according to the preset extraction type to obtain the initial feature image.
  • S202 Receive the surveillance video sent by the terminal, and preprocess the key frame image of the surveillance video to obtain the current area to be identified.
  • S204 Perform feature extraction on the current area to be identified according to the preset extraction type to obtain an initial feature image.
  • the preset extraction types may include at least three types, such as RGB features, human skeleton features, and MV features.
  • the extraction of RGB features and MV features will not be repeated here.
  • the extraction of human skeleton features can be carried out by the RMPE algorithm, which can specifically include the following steps: first, pedestrian detection is performed to obtain the bounding box, and then the key points of the human body are detected in each bounding box, and the key points are connected to form a human shape, and the formation is The human form gets the characteristics of the human skeleton.
  • STN Symmetric Spatial Transformer Network
  • PNMS Parametric PoseNon Maximum -Suppression
  • the extraction of two-dimensional features is performed by sampling the inceptionV2 network structure, and each sampled image is input into the network structure to obtain 96 corresponding 28*28 feature maps.
  • each A 28*28 feature map corresponding to a sampled feature map generates a feature vector with 16 items in the feature vector, so that 96 feature vectors can be obtained, and the 96 feature vectors are input into the pre-trained three-dimensional convolution model That is, the initial probability reference index corresponding to each preset extracted feature can be obtained.
  • the first 96 feature vectors are generated to obtain the timing information of the 16 sampled images, that is, 96 feature vectors are obtained according to the time sequence of the video frames and the 28*28 feature map corresponding to each sampled image.
  • the feature map at a certain location of the first sampled image is A1
  • the corresponding location of the second image is A2
  • the corresponding location of the sixteenth image is A16
  • one of the feature vectors can be generated as ⁇ A1, A2, A3,...A16 ⁇
  • the other 95 feature vectors are generated in similar ways, so I won't repeat them here.
  • the pre-trained three-dimensional convolution model is generated based on historical surveillance videos.
  • Each preset extraction model corresponds to a three-dimensional convolution model.
  • the server may set multiple thread pairs to perform the above-mentioned processing, and the number of threads may be related to the preset number of extracted features. For example, if there are 3 preset extraction types here, the server starts three threads. Each thread performs 2D feature extraction on the sampled feature image, and inputs the extracted 2D features into the 3D corresponding to the preset extraction type.
  • the convolution model obtains an initial probability reference index corresponding to each preset extraction type to have a preset behavior.
  • S210 Calculate according to the initial probability reference index to obtain the target probability reference index of the preset behavior in the surveillance video, and obtain the corresponding preset behavior in the surveillance video according to the target probability reference index.
  • each preset extraction type corresponds to an initial probability reference index
  • the monitoring can be obtained by combining these initial probability reference indexes.
  • target probability reference indexes of preset behaviors in the video For example, a weight can be preset for each initial probability reference index, and the target probability reference index can be calculated by the weight and the corresponding initial probability reference index.
  • the server After the server has calculated the target probability reference index, it can determine whether there is a preset behavior in the surveillance video by judging whether the target probability reference index is greater than the preset value. For example, when the target probability reference index is greater than the preset value, the surveillance video There is a preset behavior in the video, otherwise there is no preset behavior in the surveillance video.
  • the surveillance video is first preprocessed, and then after preprocessing, multiple preset extraction features are extracted, and the initial probability reference index of the preset behavior corresponding to the multiple preset extraction features is calculated, and finally based on the multiple
  • the target probability reference index is obtained by combining the three initial probability reference indicators, and the target probability reference index is used to determine whether there is a preset behavior in the surveillance video, thereby improving the recognition accuracy of the preset behavior and ensuring public safety.
  • preprocessing the key frame image of the surveillance video to obtain the current area to be identified may include: decoding the surveillance video to obtain the key frame image; identifying the background area in the key frame image; removing the background area to obtain the current The area to be identified.
  • the server first decodes the surveillance video to obtain the key frame image.
  • the decoding method can be hardware decoding, such as decoding by GPU, which can improve the decoding efficiency.
  • the background area in the key frame image can be identified. Specifically, it can be performed through Gaussian mixture filtering, that is, for each pixel, K Gaussian features are defined to identify the characteristics of each pixel in the image, and then in the detection process, as long as the pixel meets the K Gaussian distribution One, the pixel is considered to be a pixel with Beijing characteristics, otherwise it is determined as the current area to be identified.
  • the server removes the background area and only reserves the area to be identified for processing, which can reduce background interference and focus on the content to be identified.
  • the server after the server receives the surveillance video, it first decodes the surveillance video, recognizes the background area, removes the background area, and only retains the current area to be identified, which can reduce background interference and focus on the content to be identified.
  • sampling the initial feature image corresponding to each preset extraction type to obtain the sample feature image may include: performing segmentation processing on the initial feature image corresponding to each preset extraction type in time sequence; An initial feature image is extracted from a segment as a sampled feature image.
  • the target probability reference index after judging whether there is a preset behavior in the surveillance video according to the target probability reference index, it may further include: when the preset behavior exists in the surveillance video, acquiring the first geographic location of the terminal and the current user's first location 2. Geographic location; select the first geographic location closest to the second geographic location; obtain the contact information of the user of the terminal corresponding to the selected first geographic location; send the first geographic location and alarm information to the contact information.
  • the preset behavior may be a dangerous behavior that threatens public safety, such as a fight.
  • the server may alarm. For example, the server may first obtain the first The geographic location, and the second geographic location of the current user, such as the security manager, and the terminal of the security manager closest to the terminal can be obtained according to the first geographic location and the second geographic location, so that the first geographic location and alarm information can be combined It is sent to the terminal of the public security management personnel so that the public security management personnel can deal with the dangerous behavior in time, ensuring public safety.
  • the establishment of the three-dimensional convolution model corresponding to each preset extraction type may include: obtaining historical surveillance videos and preset behaviors corresponding to the historical surveillance videos; preprocessing the key frame images of the historical surveillance videos Obtain the historical area to be recognized; perform feature extraction on the historical area to be recognized according to the preset extraction type to obtain a historical feature image, and perform enhancement processing on the historical feature image; sample the enhanced historical feature image corresponding to the preset extraction type to obtain Historical sampled images: extracting two-dimensional features from historical sampled images, and training the preset three-dimensional convolution model through the extracted two-dimensional features and preset behaviors corresponding to historical surveillance videos to obtain a convergent three-dimensional convolution model.
  • the three-dimensional convolution model after the three-dimensional convolution model is obtained by training the extracted two-dimensional features and the preset behaviors corresponding to the historical surveillance video, it may further include: inputting the extracted two-dimensional features to the preset extraction
  • the server first obtains the historical surveillance video and the preset behavior corresponding to the historical surveillance video, such as whether there is a fight or a fight. Then the server preprocesses the key frame image of each historical surveillance video to obtain the historical area to be identified, for example, first performs Gaussian mixture filtering to obtain the background area, and then removes the background area to obtain the historical area to be identified. Then, in order to establish a three-dimensional convolution model for RGB features, human skeleton features and MV features, namely 3Dresnet model, the server extracts features from historical regions to be identified to obtain historical feature images, and enhances the extracted historical feature images Processing, such as horizontal flipping, erasing, and cropping for enhancement. And optionally, for feature extraction, since it needs to be extracted separately according to preset extraction types, multiple threads can be set for processing, and each thread corresponds to a preset extraction type.
  • the server After the server obtains the enhanced historical feature image, it then samples the enhanced historical feature image to obtain the historical sampled image.
  • This process can also be processed by threads, that is, each thread corresponds to a preset extraction type. And the sampling method can be referred to the above.
  • the historical feature image is segmented according to time sequence first, and then the server extracts one frame of image for each segment as the historical sampled image.
  • the server After obtaining the historical sampled image, the server performs two-dimensional feature extraction on the historical sampled image, and the specific extraction method can be referred to above. Then generate a vector of the two-dimensional features corresponding to the sampled image in the preset extraction type, so that 96 feature vectors can be generated, and the 96 feature vectors and the preset behaviors corresponding to the historical surveillance video can be trained to obtain the three-dimensional Convolution model.
  • the server can obtain three-dimensional convolution models for RGB features, human skeleton features, and MV features.
  • training may continue to obtain a model of the relationship between the initial probability reference index and the target probability reference index, which is referred to herein as a hybrid model for convenience.
  • the server inputs the extracted two-dimensional features into the three-dimensional convolution model corresponding to the preset extraction type to obtain the historical probability reference index of the existence of the preset behavior corresponding to each preset extraction type.
  • the server when the server is processing the actual surveillance video, it can input the obtained initial probability reference index into the hybrid model, so that the target probability reference can be calculated according to the weights a, b, and c of the hybrid model index.
  • a surveillance video processing device including: a receiving module 100, a first extraction module 200, a first sampling module 300, a first calculation module 400, and an output module 500, among them:
  • the first extraction module 200 is configured to perform feature extraction on the current region to be identified according to a preset extraction type to obtain an initial feature image.
  • the output module 500 is configured to calculate the target probability reference index for the preset behavior in the surveillance video according to the initial probability reference index, and obtain the preset behavior corresponding to the surveillance video according to the target probability reference index.
  • the aforementioned receiving module 100 may include:
  • the decoding unit is used to decode the surveillance video to obtain the key frame image.
  • the elimination unit is used to eliminate the background area to obtain the current area to be identified.
  • the foregoing surveillance video processing device may further include:
  • the geographic location acquiring module is used to acquire the first geographic location of the terminal and the second geographic location of the current user when there is a preset behavior in the surveillance video.
  • the sending module is used to send the first geographic location and alarm information to the contact information.
  • the foregoing surveillance video processing device may further include:
  • the acquisition module is used to acquire historical surveillance videos and preset behaviors corresponding to the historical surveillance videos.
  • the preprocessing module is used to preprocess the key frame images of historical surveillance videos to obtain historical regions to be identified.
  • the second extraction module is used to perform feature extraction on the historical area to be identified according to the preset extraction type to obtain historical feature images, and perform enhancement processing on the historical feature images.
  • the second sampling module is used to sample the enhanced processed historical feature image corresponding to the preset extraction type to obtain the historical sampled image.
  • the first training module is used to extract two-dimensional features of historical sampled images, and train the preset three-dimensional convolution model through the extracted two-dimensional features and the preset behavior corresponding to the historical surveillance video to obtain a convergent three-dimensional volume Product model.
  • the foregoing surveillance video processing device may further include:
  • the second calculation module is used to input the extracted two-dimensional features into the three-dimensional convolution model corresponding to the preset extraction type to obtain the historical probability reference index of the preset behavior corresponding to each preset extraction type.
  • the second training module is used to train through historical probability reference indicators and preset behaviors corresponding to historical surveillance videos to obtain the weights corresponding to each historical probability reference indicator.
  • the output module 500 is further configured to calculate a target probability reference index for a preset behavior in the surveillance video according to the initial probability reference index and the weight.
  • Each module in the above-mentioned surveillance video processing device can be implemented in whole or in part by software, hardware, and a combination thereof.
  • the foregoing modules may be embedded in the form of hardware or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor can call and execute the operations corresponding to the foregoing modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 5.
  • the computer equipment includes a processor, a memory, a network interface and a database connected through a system bus. Among them, the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
  • the computer equipment database is used to store surveillance video data.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer program is executed by the processor to realize a monitoring video processing method.
  • FIG. 5 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • a computer device comprising a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more processors perform the following steps: receiving monitoring sent by a terminal Video, and preprocess the key frame image of the surveillance video to obtain the current area to be recognized; perform feature extraction on the current area to be recognized according to the preset extraction type to obtain the initial feature image; sample the initial feature image to obtain the sample feature image; sample Perform 2D feature extraction on the feature image, obtain the 3D convolution model corresponding to the preset extraction type, and input the extracted 2D features into the 3D convolution model to obtain the preset behavior corresponding to each preset extraction type
  • Initial probability reference index calculated according to the initial probability reference index to obtain the target probability reference index of the preset behavior in the surveillance video, and obtain the corresponding preset behavior in the surveillance video according to the target probability reference index.
  • preprocessing the key frame image of the surveillance video to obtain the current area to be identified may include: decoding the surveillance video to obtain the key frame image; identifying the key frame image in the key frame image Background area; remove the background area to get the current area to be recognized.
  • sampling the initial feature image corresponding to each preset extraction type to obtain the sample feature image may include: according to the initial feature image corresponding to each preset extraction type Perform segmentation processing in time sequence; extract an initial feature image from each segment as a sampled feature image.
  • the processor may further include: when the preset behavior exists in the surveillance video, acquiring the terminal's first behavior A geographic location and the second geographic location of the current user; select the first geographic location closest to the second geographic location; obtain the contact information of the user of the terminal corresponding to the selected first geographic location; send the first geographic location to the contact information And alarm information.
  • the method for establishing the three-dimensional convolution model corresponding to each preset extraction type realized when the processor executes the computer program may include: obtaining historical surveillance videos and preset behaviors corresponding to the historical surveillance videos; The key frame image of the video is preprocessed to obtain the historical area to be recognized; according to the preset extraction type, the historical area to be recognized is extracted to obtain the historical feature image, and the historical feature image is enhanced; the enhancement process corresponding to the preset extraction type After sampling the historical feature image to obtain the historical sampled image; extract the two-dimensional feature of the historical sampled image, and train the preset three-dimensional convolution model through the extracted two-dimensional feature and the preset behavior corresponding to the historical surveillance video, A convergent three-dimensional convolution model is obtained.
  • the processor after the processor executes the computer program to obtain the three-dimensional convolution model by training the extracted two-dimensional features and the preset behavior corresponding to the historical surveillance video, it may further include: converting the extracted two The dimensional features are input to the three-dimensional convolution model corresponding to the preset extraction type to obtain the historical probability reference index of the preset behavior corresponding to each preset extraction type; training is performed through the historical probability reference index and the preset behavior corresponding to the historical surveillance video Get the weight corresponding to each historical probability reference indicator.
  • the target probability reference index of the preset behavior in the surveillance video is calculated according to the initial probability reference index, which may include: the target probability of the preset behavior in the surveillance video calculated according to the initial probability reference index and weight Probability reference index.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions.
  • the one or more processors perform the following steps: Monitor the video, and preprocess the key frame image of the surveillance video to obtain the current area to be recognized; perform feature extraction on the current area to be recognized according to the preset extraction type to obtain the initial feature image; sample the initial feature image to obtain the sampled feature image; Sampling feature images for two-dimensional feature extraction, and obtain a three-dimensional convolution model corresponding to the preset extraction type, and input the extracted two-dimensional features into the three-dimensional convolution model to obtain the existence preset corresponding to each preset extraction type
  • the initial probability reference index of the behavior; the target probability reference index of the preset behavior in the surveillance video is calculated according to the initial probability reference index, and the corresponding preset behavior in the surveillance video is obtained according to the target probability reference index.
  • the preprocessing of the key frame image of the surveillance video to obtain the current area to be identified may include: decoding the surveillance video to obtain the key frame image; identifying the key frame image The background area; remove the background area to get the current area to be recognized.
  • the computer program after the computer program is executed by the processor to determine whether there is a preset behavior in the surveillance video based on the target probability reference index, it may also include: when the preset behavior exists in the surveillance video, acquiring the terminal's information The first geographic location and the second geographic location of the current user; select the first geographic location closest to the second geographic location; obtain the contact information of the user of the terminal corresponding to the selected first geographic location; send the first geographic location to the contact information Location and alarm information.
  • the establishment of the three-dimensional convolution model corresponding to each preset extraction type realized when the computer program is executed by the processor may include: obtaining historical surveillance videos and preset behaviors corresponding to the historical surveillance videos;
  • the key frame image of the surveillance video is preprocessed to obtain the historical area to be identified;
  • the historical area to be identified is extracted according to the preset extraction type to obtain the historical feature image, and the historical feature image is enhanced;
  • the enhancement corresponding to the preset extraction type The processed historical feature image is sampled to obtain the historical sampled image; two-dimensional feature extraction is performed on the historical sampled image, and the preset three-dimensional convolution model is trained by the extracted two-dimensional feature and the preset behavior corresponding to the historical surveillance video , Get a convergent three-dimensional convolution model.
  • the computer program after the computer program is executed by the processor to obtain the three-dimensional convolution model by training the extracted two-dimensional features and the preset behaviors corresponding to the historical surveillance video, it may further include: The two-dimensional features are input to the three-dimensional convolution model corresponding to the preset extraction type to obtain the historical probability reference index of the existence of the preset behavior corresponding to each preset extraction type; the historical probability reference index and the preset behavior corresponding to the historical surveillance video are performed The weight corresponding to each historical probability reference index is obtained through training.
  • the target probability reference index of the preset behavior in the surveillance video is calculated according to the initial probability reference index, which may include: the preset behavior in the surveillance video is calculated according to the initial probability reference index and weight Target probability reference index.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

一种监控视频处理方法,包括:接收终端发送的监控视频,并对监控视频的关键帧图像进行预处理得到当前待识别区域;按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像;对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像;对采样特征图像进行二维特征提取,并获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标;根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,并根据目标概率参考指标得到监控视频中对应的预设行为。

Description

监控视频处理方法、装置、计算机设备和存储介质
相关申请的交叉引用
本申请要求于2019年7月18日提交中国专利局,申请号为2019106516191,申请名称为“监控视频处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种监控视频处理方法、装置、计算机设备和存储介质。
背景技术
随着网络技术的发展,出现了各种各样的线上监控技术,服务器可以获取到监控视频,然后通过人工观看监控视频的方式识别监控视频中是否存在危险行为。
然而,发明人意识到,目前的通过人工观看的方式来判断是否存在危险行为,在监控视频量较大的时候,极易存在错误,导致准确性降低。
发明内容
根据本申请公开的各种实施例,提供一种监控视频处理方法、装置、计算机设备和存储介质。
一种监控视频处理方法,包括:
接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
对所述初始特征图像进行采样得到采样特征图像;
对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;及
根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
一种监控视频处理装置,包括:
接收模块,用于接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
第一提取模块,用于按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
第一采样模块,用于对初始特征图像进行采样得到采样特征图像;
第一计算模块,用于对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;及
输出模块,用于根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
一种计算机设备,包括存储器和一个或多个处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时实现本申请任意一个实施例中提供的监控视频处理方法的步骤。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现本申请任意一个实施例中提供的监控视频处理方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中监控视频处理方法的应用场景图。
图2为根据一个或多个实施例中监控视频处理方法的流程示意图。
图3为根据一个或多个实施例中三维卷积模型建立方法的流程图。
图4为根据一个或多个实施例中监控视频处理装置的框图。
图5为根据一个或多个实施例中计算机设备的坑图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的监控视频处理方法,可以应用于如图1所示的应用环境中。终端102通过网络与服务器104进行通信。其中终端102可以拍摄监控视频,并将所拍摄的监控视频发送至服务器104,服务器104在接收到终端102发送的监控视频之后,可以对该监控视频进行处理以判断监控视频中是否存在预设行为,例如服务器104首先对监控视频进行预处理得到关键帧图像对应的当前识别区域,然后根据预设提取类型分别对当前待识别区域进行特征提取得到初始特征图像,例如当预设提取类型存在三类时,服务器104可以分别 从当前待识别区域提取三类预设提取类型对应的初始特征图像,然后对每一预设提取类型的初始特征图像进行采样得到采样特征图像,从而服务器104可以对采样特征图像进行二维特征提取,这样对于每一预设提取类型,服务器104均将所提取的二维特征输入至对应的三维卷积模型中即可以得到该预设提取特征对应的存在预设行为的初始概率参考指标。最后服务器104将各个预设提取类型对应的初始概率参考指标进行组合即可以得到目标概率参考指标,从而服务器可以根据该目标概率参考指标判断监控视频中是否存在预设行为,这样的处理方式综合了多个预设提取类型的结果,使得最后的判断结果更为准确。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,如图2所示,提供了一种监控视频处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:接收终端发送的监控视频,并对监控视频的关键帧图像进行预处理得到当前待识别区域。
具体地,监控视频是终端拍摄的,例如终端可以安装有监控设备,例如摄像头等,终端通过该摄像头可以拍摄监控视频,并周期性将监控视频上传至服务器,例如可以每分钟上传一次,或者是每10秒上传一次等。
服务器在接收到终端上传的监控视频后,由于监控视频中存在多帧图像,因此可以首先解码得到多帧图像,并对解码后的关键帧图像进行背景剔除得到当前待识别区域。优选地,服务器客体通过高斯混合滤波的方式将背景剔除得到当前待识别区域,即将非人的部分剔除掉,以避免对人的行为识别的干扰。
S204:按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像。
具体地,预设提取类型可以至少包括3类,例如RGB特征、人体骨架特征以及MV特征。对于RGB特征和MV特征的提取在此不再赘述。对于人体骨架特征的提取可以通过RMPE算法进行,具体可以包括以下步骤:首先进行行人检测得到边界框,然后再每一个边界框中检测人体关键点,将关键点连接形成一个人形,根据所连接形成的人形得到人体骨架特征。其中在得到边界框之后,首先通过STN(SSTN(Symmetric Spatial Transformer Network),对称空间变换网络,由STN,SDTN两部分组成)接收人体边界框,然后通过SDTN产生候选姿态,再通过PNMS(Parametric PoseNonMaximum-Suppression)过滤掉多余的姿态估计,其中过滤到多余的姿态估计的时候可以通过PGPG(Pose-Guided Proposals Generator)产生各种姿态图片以供训练过程使用。
S206:对初始特征图像进行采样得到采样特征图像。
具体地,此处以一个预设提取类型为例进行说明,服务器获取到某一预设提取类型对应的初始特征图像,该初始特征图像是按照时序进行排列的,从而服务器可以从该按照时序排列的初始特恒图像中进行随机采样得到采样特征图像,且为了保证所采样的采样特征图像具有代表性,可以进行均匀采样,即保证采样遍及到整个监控视频,例如按照监控视 频的播放时序进行排列的,然后服务器按照时序对该初始特征图像进行分段,并从每一段中提取一张图像作为采样特征图像。例如,服务器可以将初始特征图像均分为16段,然后每一段提取一张,从而得到16张采样特征图像。
且可选地,为了提高处理效率,服务器可以设置多个线程对初始特征图像进行采样,线程的条数可以与预设提取特征的数量相关。例如此处存在3个预设提取类型,则服务器启动三个线程,每个线程对一个预设提取特征对应的初始特征图像进行采样。
S208:对采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。
具体地,二维特征的提取是采样inceptionV2网络结构进行的,将每一张采样图像输入到该网络结构中均可以得到对应的96张28*28的特征图。
此处仍以其中一个预设提取类型对应的采样图像为例进行说明,服务器在得到二维特征后,由于存在多张采样图像,例如上述例子中的16张采样特征图,因此可以将每一张采样特征图对应的28*28的特征图生成一个特征向量,该特征向量中存在16个项,从而可以得到96个特征向量,将96个特征向量输入至预先训练得到的三维卷积模型中即可以得到每一预设提取特征对应的初始概率参考指标。其中先生成96个特征向量是为了得到16张采样图像的时序信息,即根据视频帧的时间先后顺序以及每一张采样图像对应的28*28的特征图得到96个特征向量。例如第一张采样图像的某一位置处的特征图为A1,第二张对应位置处为A2,以此类推第十六张对应位置处为A16,因此可以生成其中一个特征向量为{A1,A2,A3,……A16},其他95个特征向量的生成方式类似,在此不再赘述。
其中预先训练的三维卷积模型是根据历史监控视频生成的,具体可以参见下文,其中每一个预设提取模型均对应一个三维卷积模型。且可选地,为了提高处理效率,服务器可以设置多个线程对进行上述处理,线程的条数可以与预设提取特征的数量相关。例如此处存在3个预设提取类型,则服务器启动三个线程,每个线程对采样特征图像进行二维特征提取,并将所提取到的二维特征输入至与预设提取类型对应的三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。
S210:根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,并根据目标概率参考指标得到监控视频中对应的预设行为。
具体地,服务器在得到初始概率参考指标后,由于存在多个预设提取类型,因此每一个预设提取类型都对应一个初始概率参考指标,通过对该些初始概率参考指标进行组合即可以得到监控视频中存在预设行为的目标概率参考指标,例如可以给每一个初始概率参考指标预设一个权重,通过该权重和对应的初始概率参考指标即可以计算得到目标概率参考指标。
服务器在计算得到目标概率参考指标后,可以通判断目标概率参考指标是否大于预设 值的方式来判断监控视频中是否存在预设行为,例如当目标概率参考指标大于预设值,则说明监控视频中存在预设行为,否则监控视频中不存在预设行为。
上述监控视频处理方法,对监控视频首先进行预处理,然后再预处理后,提取多个预设提取特征,并计算多个预设提取特征对应的预设行为的初始概率参考指标,最后根据多个初始概率参考指标进行综合得到目标概率参考指标,根据目标概率参考指标判断监控视频中是否存在预设行为,从而可以提高预设行为的识别准确性,保证公共安全。
在其中一个实施例中,对监控视频的关键帧图像进行预处理得到当前待识别区域,可以包括:对监控视频进行解码得到关键帧图像;识别关键帧图像中的背景区域;剔除背景区域得到当前待识别区域。
具体地,服务器首先对监控视频进行解码得到关键帧图像,该解码方式可以是硬件解码,例如通过GPU进行解码,从而可以提高解码效率,在解码成功后,则可以识别关键帧图像中的背景区域,具体地可以是通过高斯混合滤波进行的,即对于每一个像素点,定义K个高斯特征来标识图像中各个像素点的特征,然后在检测过程中,只要像素点符合K个高斯分布中的一个,就认为该像素点是具有北京特征的像素点,否则被判定为当前待识别区域。最后服务器剔除背景区域,只保留待识别区域进行处理,这样可以减少背景干扰,聚焦待识别的内容。
上述实施例中,在服务器接收到监控视频后,首先对监控视频进行解码,并识别背景区域,剔除该背景区域,只保留当前待识别区域,这样可以减少背景干扰,聚焦待识别的内容。
在其中一个实施例中,对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像,可以包括:将每一预设提取类型对应的初始特征图像按照时序进行分段处理;从每一分段中提取一帧初始特征图像作为采样特征图像。
具体地,服务器在得到初始特征图像后,该初始特征图像是按照时序进行排列的,即按照监控视频的播放顺序进行排列的,服务器首先按照时序进行分段,例如均分为多段,然后从每一分段中提取一阵初始特征图像作为采样特征图像。例如假设监控视频是10秒,则可以将10秒的监控视频平均划分为16段,然后从每一段中提取一阵初始特征图像,从而每一预设提取类型均包括16张采样特征图像,例如RGB特征包括16张RGB采样特征图像,MV特征包括16张MV采样特征图像,人体骨架特征包括16张人体骨架采样特征图像。
上述实施例中,将初始特征图像均分为多段,并对每一段采样一张,这样可以进行均匀采样,即保证采样遍及到整个监控视频。
在其中一个实施例中,根据目标概率参考指标判断监控视频中是否存在预设行为之后,还可以包括:当监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;选择与第二地理位置最近的第一地理位置;获取所选择的第一地理位置对应的终端的用户的联系方式;向联系方式发送第一地理位置以及报警信息。
具体地,预设行为可以是打架斗殴等威胁公共安全的危险行为,服务器在通过目标概率参考指标判断监控视频中存在预设行为时,则可以进行报警,例如服务器可以首先获取到终端的第一地理位置,以及当前用户,例如治安管理人员的第二地理位置,并根据第一地理位置和第二地理位置获取到距离终端最近的治安管理人员的终端,从而可以将第一地理位置和报警信息发送到治安管理人员的终端,以便于治安管理人员可以及时处理该危险行为,保证了公共安全。
上述实施例中,在在通过目标概率参考指标判断监控视频中存在预设行为时,则可以进行报警,以便于治安管理人员可以及时处理该危险行为,保证了公共安全。
在其中一个实施例中,每一预设提取类型对应的三维卷积模型的建立方式可以包括:获取历史监控视频以及历史监控视频对应的预设行为;对历史监控视频的关键帧图像进行预处理得到历史待识别区域;按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像,并对历史特征图像进行增强处理;对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;对历史采样图像进行二维特征提取,通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
在其中一个实施例中,通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后,还可以包括:将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标;通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。从而根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,可以包括:根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。
具体地,上述监控视频处理方法还涉及到模型建立方法,包括三维卷积模型的建立以初始概率参考指标和目标概率参考指标之间的关系的模型的建立,即上述权重的获取。参阅图3,图3为一个实施例中三维卷积模型建立方法的流程图,在该实施例中,具体可以包括以下步骤:
服务器首先获取到历史监控视频,以及历史监控视频对应的预设行为,例如是否存在打架斗殴行为等。然后服务器对每一历史监控视频的关键帧图像进行预处理得到历史待识别区域,例如首先进行高斯混合滤波得到背景区域,然后剔除背景区域得到历史待识别区域。然后服务器为了分别建立对于RGB特征、人体骨架特征以及MV特征的三维卷积模型,即3Dresnet模型,服务器分别对历史待识别区域进行特征提取得到历史特征图像,并对所提取的历史特征图像进行增强处理,例如水平翻转、擦除和裁剪等手段进行增强处理。且可选地,对于特征提取,由于需要根据预设提取类型分别进行提取,因此可以设置多个线程进行处理,每一个线程对应一个预设提取类型。
服务器在得到增强处理后的历史特征图像后,再对该增强处理后的历史特征图像进行 采样得到历史采样图像,该过程也可以是分线程进行处理,即每一个线程对应一个预设提取类型,且采样的方式可以参见上文所述,例如首先对历史特征图像按照时序进行分段,然后服务器对每一分段提取一帧图像作为历史采样图像。
服务器在得到历史采样图像后,对历史采样图像进行二维特征提取,具体的提取方式可以参见上文。然后将本预设提取类型中的采样图像对应的二维特征生成一个向量,这样就可以生成96个特征向量,将该96个特征向量以及历史监控视频对应的预设行为进行训练即可以得到三维卷积模型。
通过上述方式服务器可以分别得到针对于RGB特征、人体骨架特征以及MV特征的三维卷积模型。
具体地,在服务器得到三维卷积模型后可以继续训练得到初始概率参考指标和目标概率参考指标之间的关系的模型,此处为了方便,称为混合模型。例如在得到三维卷积模型后,服务器将所提取的二维特征输入至对应预设提取类型的三维卷积模型中得到每一预设提取类型对应的存在预设行为的历史概率参考指标。然后将历史监控视频对应的预设行为作为Y值,将将RGB特征、人体骨架特征以及MV特征对应的二分类结果,即历史概率参考指标作为X值进行训练,例如Y=a*RGB特征的历史概率参考指标+b*人体骨架特征的历史概率参考指标+c*MV特征的历史概率参考指标,然后对Y值和X值进行训练得到a、b以及c,从而可以建立该混合模型。
当混合模型建立完成后,服务器在处理实际的监控视频时,可以将得到的初始概率参考指标输入至该混合模型中,从而可以根据该混合模型的中权重a、b、c计算得到目标概率参考指标。
上述实施例中,通过模型训练的方式得到预设提取类型对应的三维卷积模型以及综合各个三维卷积模型的预测结果的混合模型,通过三维卷积模型对监控视频首先进行处理可以得到初始概率参考指标,再将初始概率参考指标输入至混合模型中皆可以得到监控视频对应的目标概率参考指标,综合考虑了多个模型的结果,提高了结果的准确性。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图4所示,提供了一种监控视频处理装置,包括:接收模块100、第一提取模块200、第一采样模块300、第一计算模块400和输出模块500,其中:
接收模块100,用于接收终端发送的监控视频,并对监控视频的关键帧图像进行预处理得到当前待识别区域。
第一提取模块200,用于按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像。
第一采样模块300,用于对初始特征图像进行采样得到采样特征图像。
第一计算模块400,用于对采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标。
输出模块500,用于根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,并根据目标概率参考指标得到监控视频对应的预设行为。
在其中一个实施例中,上述的接收模块100可以包括:
解码单元,用于对监控视频进行解码得到关键帧图像。
识别单元,用于识别关键帧图像中的背景区域。
剔除单元,用于剔除背景区域得到当前待识别区域。
在其中一个实施例中,上述的第一采样模块300可以包括:
分段单元,用于将每一预设提取类型对应的初始特征图像按照时序进行分段处理。
提取单元,用于从每一分段中提取一帧初始特征图像作为采样特征图像。
在其中一个实施例中,上述监控视频处理装置还可以包括:
地理位置获取模块,用于当监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置。
联系方式获取模块,用于选择与第二地理位置最近的第一地理位置;获取所选择的第一地理位置对应的终端的用户的联系方式。
发送模块,用于向联系方式发送第一地理位置以及报警信息。
在其中一个实施例中,上述监控视频处理装置还可以包括:
获取模块,用于获取历史监控视频以及历史监控视频对应的预设行为。
预处理模块,用于对历史监控视频的关键帧图像进行预处理得到历史待识别区域。
第二提取模块,用于按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像,并对历史特征图像进行增强处理。
第二采样模块,用于对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像。
第一训练模块,用于对历史采样图像进行二维特征提取,通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
在其中一个实施例中,上述监控视频处理装置还可以包括:
第二计算模块,用于将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标。
第二训练模块,用于通过历史概率参考指标以及历史监控视频对应的预设行为进行训 练得到每一历史概率参考指标对应的权重。
输出模块500还用于根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。
关于监控视频处理装置的具体限定可以参见上文中对于监控视频处理方法的限定,在此不再赘述。上述监控视频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储监控视频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种监控视频处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:接收终端发送的监控视频,并对监控视频的关键帧图像进行预处理得到当前待识别区域;按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像;对初始特征图像进行采样得到采样特征图像;对采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标;根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,并根据目标概率参考指标得到监控视频中对应的预设行为。
在一个实施例中,处理器执行计算机程序时所实现的对监控视频的关键帧图像进行预处理得到当前待识别区域,可以包括:对监控视频进行解码得到关键帧图像;识别关键帧图像中的背景区域;剔除背景区域得到当前待识别区域。
在一个实施例中,处理器执行计算机程序时所实现的对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像,可以包括:将每一预设提取类型对应的初始特征图像按照时序进行分段处理;从每一分段中提取一帧初始特征图像作为采样特征图像。
在一个实施例中,处理器执行计算机程序时所实现的根据目标概率参考指标判断监控视频中是否存在预设行为之后,还可以包括:当监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;选择与第二地理位置最近的第一地理位 置;获取所选择的第一地理位置对应的终端的用户的联系方式;向联系方式发送第一地理位置以及报警信息。
在一个实施例中,处理器执行计算机程序时所实现的每一预设提取类型对应的三维卷积模型的建立方式可以包括:获取历史监控视频以及历史监控视频对应的预设行为;对历史监控视频的关键帧图像进行预处理得到历史待识别区域;按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像,并对历史特征图像进行增强处理;对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;对历史采样图像进行二维特征提取,通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
在一个实施例中,处理器执行计算机程序时所实现的通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后,还可以包括:将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标;通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。处理器执行计算机程序时所实现的根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,可以包括:根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:接收终端发送的监控视频,并对监控视频的关键帧图像进行预处理得到当前待识别区域;按照预设提取类型对当前待识别区域进行特征提取得到初始特征图像;对初始特征图像进行采样得到采样特征图像;对采样特征图像进行二维特征提取,并获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至三维卷积模型中得到每一预设提取类型对应的存在预设行为的初始概率参考指标;根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,并根据目标概率参考指标得到监控视频中对应的预设行为。
在一个实施例中,计算机程序被处理器执行时所实现的对监控视频的关键帧图像进行预处理得到当前待识别区域,可以包括:对监控视频进行解码得到关键帧图像;识别关键帧图像中的背景区域;剔除背景区域得到当前待识别区域。
在一个实施例中,计算机程序被处理器执行时所实现的对每一预设提取类型对应的初始特征图像进行采样得到采样特征图像,可以包括:将每一预设提取类型对应的初始特征图像按照时序进行分段处理;从每一分段中提取一帧初始特征图像作为采样特征图像。
在一个实施例中,计算机程序被处理器执行时所实现的根据目标概率参考指标判断监控视频中是否存在预设行为之后,还可以包括:当监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;选择与第二地理位置最近的第一地理位置;获取所选择的第一地理位置对应的终端的用户的联系方式;向联系方式发送第一地理位置以及报警信息。
在一个实施例中,计算机程序被处理器执行时所实现的每一预设提取类型对应的三维卷积模型的建立方式可以包括:获取历史监控视频以及历史监控视频对应的预设行为;对历史监控视频的关键帧图像进行预处理得到历史待识别区域;按照预设提取类型对历史待识别区域进行特征提取得到历史特征图像,并对历史特征图像进行增强处理;对预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;对历史采样图像进行二维特征提取,通过对所提取的二维特征以及历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
在一个实施例中,计算机程序被处理器执行时所实现的通过对所提取的二维特征以及历史监控视频对应的预设行为进行训练得到三维卷积模型之后,还可以包括:将所提取的二维特征输入至与预设提取类型对应的三维卷积模型得到每一预设提取类型对应的存在预设行为的历史概率参考指标;通过历史概率参考指标以及历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重。计算机程序被处理器执行时所实现的根据初始概率参考指标计算得到监控视频中存在预设行为的目标概率参考指标,可以包括:根据初始概率参考指标以及权重计算得到监控视频中存在预设行为的目标概率参考指标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种监控视频处理方法,包括:
    接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
    按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
    对所述初始特征图像进行采样得到采样特征图像;
    对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;及
    根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
  2. 根据权利要求1所述的方法,其特征在于,所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域,包括:
    对所述监控视频进行解码得到关键帧图像;
    识别所述关键帧图像中的背景区域;
    剔除所述背景区域得到当前待识别区域。
  3. 根据权利要求1所述的方法,其特征在于,所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像,包括:
    将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理;及
    从每一分段中提取一帧初始特征图像作为采样特征图像。
  4. 根据权利要求1至3任意一项所述的方法,其特征在于,所述根据所述目标概率参考指标判断所述监控视频中是否存在预设行为之后,还包括:
    当所述监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;
    选择与所述第二地理位置最近的第一地理位置;
    获取所选择的第一地理位置对应的终端的用户的联系方式;及
    向所述联系方式发送所述第一地理位置以及报警信息。
  5. 根据权利要求1至3任意一项所述的方法,其特征在于,每一所述预设提取类型对应的三维卷积模型的建立方式包括:
    获取历史监控视频以及所述历史监控视频对应的预设行为;
    对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域;
    按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像,并对所述历史特征图像进行增强处理;
    对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;及
    对所述历史采样图像进行二维特征提取,通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
  6. 根据权利要求5所述的方法,其特征在于,所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型之后,还包括:
    将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标;
    通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重;及
    所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,包括:
    根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。
  7. 一种监控视频处理装置,包括:
    接收模块,用于接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
    第一提取模块,用于按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
    第一采样模块,用于对初始特征图像进行采样得到采样特征图像;
    第一计算模块,用于对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;
    输出模块,用于根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
  8. 根据权利要求7所述的装置,其特征在于,所述接收模块包括:
    解码单元,用于对所述监控视频进行解码得到关键帧图像;
    识别单元,用于识别所述关键帧图像中的背景区域;
    剔除单元,用于剔除所述背景区域得到当前待识别区域。
  9. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
    按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
    对所述初始特征图像进行采样得到采样特征图像;
    对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;及
    根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
  10. 根据权利要求9所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时所实现的所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域,包括:
    对所述监控视频进行解码得到关键帧图像;
    识别所述关键帧图像中的背景区域;
    剔除所述背景区域得到当前待识别区域。
  11. 根据权利要求9所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时所实现的所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像,包括:
    将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理;及
    从每一分段中提取一帧初始特征图像作为采样特征图像。
  12. 根据权利要求9-11任一项所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时所实现的所述根据所述目标概率参考指标判断所述监控视频中是否存在预设行为之后,还包括:
    当所述监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;
    选择与所述第二地理位置最近的第一地理位置;
    获取所选择的第一地理位置对应的终端的用户的联系方式;及
    向所述联系方式发送所述第一地理位置以及报警信息。
  13. 根据权利要求9-11任一项所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时所实现的每一所述预设提取类型对应的三维卷积模型的建立方式包括:
    获取历史监控视频以及所述历史监控视频对应的预设行为;
    对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域;
    按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像,并对所述历史特征图像进行增强处理;
    对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;及
    对所述历史采样图像进行二维特征提取,通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
  14. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行所述计算机可读指令时所实现的所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型之后,还包括:
    将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标;
    通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重;及
    所述处理器执行所述计算机可读指令时所实现的所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,包括:
    根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。
  15. 一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    接收终端发送的监控视频,并对所述监控视频的关键帧图像进行预处理得到当前待识别区域;
    按照预设提取类型对所述当前待识别区域进行特征提取得到初始特征图像;
    对所述初始特征图像进行采样得到采样特征图像;
    对所述采样特征图像进行二维特征提取,获取与预设提取类型对应的三维卷积模型,并将提取到的二维特征输入至所述三维卷积模型中得到每一所述预设提取类型对应的存在预设行为的初始概率参考指标;及
    根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,并根据所述目标概率参考指标得到所述监控视频对应的预设行为。
  16. 根据权利要求15所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时所实现的所述对所述监控视频的关键帧图像进行预处理得到当前待识别区域,包括:
    对所述监控视频进行解码得到关键帧图像;
    识别所述关键帧图像中的背景区域;
    剔除所述背景区域得到当前待识别区域。
  17. 根据权利要求15所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时所实现的所述对每一所述预设提取类型对应的初始特征图像进行采样得到采样特征图像,包括:
    将每一所述预设提取类型对应的初始特征图像按照时序进行分段处理;及
    从每一分段中提取一帧初始特征图像作为采样特征图像。
  18. 根据权利要求15至17任一项所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时所实现的所述根据所述目标概率参考指标判断所述监控视频中是 否存在预设行为之后,还包括:
    当所述监控视频中存在预设行为时,则获取终端的第一地理位置以及当前用户的第二地理位置;
    选择与所述第二地理位置最近的第一地理位置;
    获取所选择的第一地理位置对应的终端的用户的联系方式;及
    向所述联系方式发送所述第一地理位置以及报警信息。
  19. 根据权利要求15至17任一项所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时所实现的每一所述预设提取类型对应的三维卷积模型的建立方式包括:
    获取历史监控视频以及所述历史监控视频对应的预设行为;
    对所述历史监控视频的关键帧图像进行预处理得到历史待识别区域;
    按照预设提取类型对所述历史待识别区域进行特征提取得到历史特征图像,并对所述历史特征图像进行增强处理;
    对所述预设提取类型对应的增强处理后的历史特征图像进行采样得到历史采样图像;及
    对所述历史采样图像进行二维特征提取,通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型。
  20. 根据权利要求19所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时所实现的所述通过对所提取的二维特征以及所述历史监控视频对应的预设行为对预设的三维卷积模型进行训练,得到收敛的三维卷积模型之后,还包括:
    将所提取的二维特征输入至与所述预设提取类型对应的所述三维卷积模型得到每一所述预设提取类型对应的存在预设行为的历史概率参考指标;
    通过所述历史概率参考指标以及所述历史监控视频对应的预设行为进行训练得到每一历史概率参考指标对应的权重;及
    所述处理器执行所述计算机可读指令时所实现的所述根据所述初始概率参考指标计算得到所述监控视频中存在预设行为的目标概率参考指标,包括:
    根据所述初始概率参考指标以及所述权重计算得到所述监控视频中存在预设行为的目标概率参考指标。
PCT/CN2019/117589 2019-07-18 2019-11-12 监控视频处理方法、装置、计算机设备和存储介质 WO2021008032A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910651619.1 2019-07-18
CN201910651619.1A CN110490078B (zh) 2019-07-18 2019-07-18 监控视频处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021008032A1 true WO2021008032A1 (zh) 2021-01-21

Family

ID=68546132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117589 WO2021008032A1 (zh) 2019-07-18 2019-11-12 监控视频处理方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110490078B (zh)
WO (1) WO2021008032A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191318A (zh) * 2021-05-21 2021-07-30 上海商汤智能科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113420722A (zh) * 2021-07-21 2021-09-21 上海塞嘉电子科技有限公司 一种机场安全管理平台的突发事件联动方法及系统
CN114565815A (zh) * 2022-02-25 2022-05-31 包头市迪迦科技有限公司 一种基于三维模型的视频智能融合方法及系统
CN114627394A (zh) * 2022-05-16 2022-06-14 深圳联和智慧科技有限公司 一种基于无人机的渣土车套牌识别方法及系统
CN115296759A (zh) * 2022-07-15 2022-11-04 电子科技大学 一种基于深度学习的干扰识别方法
CN115565134A (zh) * 2022-10-13 2023-01-03 广州国交润万交通信息有限公司 球机监控盲区诊断方法、系统、设备及存储介质
CN116797993A (zh) * 2023-05-13 2023-09-22 全景智联(武汉)科技有限公司 一种基于智慧社区场景的监控方法、系统、介质及设备
CN117392606A (zh) * 2023-10-19 2024-01-12 应急管理部大数据中心 基于图像识别的粉尘设备维护行为监测方法和系统
CN117424987A (zh) * 2023-12-15 2024-01-19 浙江数思信息技术有限公司 智慧楼宇运营管理方法、系统与存储介质
CN117612243A (zh) * 2023-08-18 2024-02-27 全景智联(武汉)科技有限公司 一种基于多层注意力的重点人员行为预警方法及服务器
CN117671594A (zh) * 2023-12-08 2024-03-08 中化现代农业有限公司 安全监控方法、装置、电子设备和存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222423B (zh) * 2019-12-26 2024-05-28 深圳供电局有限公司 基于作业区域的目标识别方法、装置、计算机设备
CN111178323B (zh) * 2020-01-10 2023-08-29 北京百度网讯科技有限公司 基于视频的群体行为识别方法、装置、设备及存储介质
CN111274962A (zh) * 2020-01-20 2020-06-12 广州燃气集团有限公司 一种燃气安全隐患数据的处理方法、系统和存储介质
CN111259874B (zh) * 2020-05-06 2020-07-28 成都派沃智通科技有限公司 一种基于深度学习的校园安全视频监测方法
CN112183588A (zh) * 2020-09-11 2021-01-05 上海商汤智能科技有限公司 视频处理方法及装置、电子设备及存储介质
CN113435594B (zh) * 2021-06-30 2022-08-02 平安科技(深圳)有限公司 安防检测模型训练方法、装置、设备及存储介质
CN113723209A (zh) * 2021-08-05 2021-11-30 浙江大华技术股份有限公司 目标识别方法、装置、电子设备和计算机可读存储介质
CN113997989B (zh) * 2021-11-29 2024-03-29 中国人民解放军国防科技大学 磁浮列车单点悬浮系统安全检测方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
US20180307912A1 (en) * 2017-04-20 2018-10-25 David Lee Selinger United states utility patent application system and method for monitoring virtual perimeter breaches
CN109753906A (zh) * 2018-12-25 2019-05-14 西北工业大学 基于域迁移的公共场所异常行为检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法
CN109241946A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 异常行为监控方法、装置、计算机设备及存储介质
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109918989A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 监控画面中人物行为类型识别方法、装置、介质和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
US20180307912A1 (en) * 2017-04-20 2018-10-25 David Lee Selinger United states utility patent application system and method for monitoring virtual perimeter breaches
CN109753906A (zh) * 2018-12-25 2019-05-14 西北工业大学 基于域迁移的公共场所异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIN JIAYUE: "Research and Implementation of Action Recogniztion and Detective Based on Deep Learning", MASTER THESIS, 1 June 2018 (2018-06-01), pages 1 - 90, XP009525515 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191318A (zh) * 2021-05-21 2021-07-30 上海商汤智能科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113420722A (zh) * 2021-07-21 2021-09-21 上海塞嘉电子科技有限公司 一种机场安全管理平台的突发事件联动方法及系统
CN114565815A (zh) * 2022-02-25 2022-05-31 包头市迪迦科技有限公司 一种基于三维模型的视频智能融合方法及系统
CN114565815B (zh) * 2022-02-25 2023-11-03 包头市迪迦科技有限公司 一种基于三维模型的视频智能融合方法及系统
CN114627394B (zh) * 2022-05-16 2022-08-09 深圳联和智慧科技有限公司 一种基于无人机的渣土车套牌识别方法及系统
CN114627394A (zh) * 2022-05-16 2022-06-14 深圳联和智慧科技有限公司 一种基于无人机的渣土车套牌识别方法及系统
CN115296759A (zh) * 2022-07-15 2022-11-04 电子科技大学 一种基于深度学习的干扰识别方法
CN115565134A (zh) * 2022-10-13 2023-01-03 广州国交润万交通信息有限公司 球机监控盲区诊断方法、系统、设备及存储介质
CN115565134B (zh) * 2022-10-13 2024-03-15 广州国交润万交通信息有限公司 球机监控盲区诊断方法、系统、设备及存储介质
CN116797993A (zh) * 2023-05-13 2023-09-22 全景智联(武汉)科技有限公司 一种基于智慧社区场景的监控方法、系统、介质及设备
CN116797993B (zh) * 2023-05-13 2024-03-19 全景智联(武汉)科技有限公司 一种基于智慧社区场景的监控方法、系统、介质及设备
CN117612243A (zh) * 2023-08-18 2024-02-27 全景智联(武汉)科技有限公司 一种基于多层注意力的重点人员行为预警方法及服务器
CN117392606A (zh) * 2023-10-19 2024-01-12 应急管理部大数据中心 基于图像识别的粉尘设备维护行为监测方法和系统
CN117671594A (zh) * 2023-12-08 2024-03-08 中化现代农业有限公司 安全监控方法、装置、电子设备和存储介质
CN117424987A (zh) * 2023-12-15 2024-01-19 浙江数思信息技术有限公司 智慧楼宇运营管理方法、系统与存储介质
CN117424987B (zh) * 2023-12-15 2024-03-19 浙江数思信息技术有限公司 智慧楼宇运营管理方法、系统与存储介质

Also Published As

Publication number Publication date
CN110490078B (zh) 2024-05-03
CN110490078A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
WO2021008032A1 (zh) 监控视频处理方法、装置、计算机设备和存储介质
CN110569721B (zh) 识别模型训练方法、图像识别方法、装置、设备及介质
CN108875676B (zh) 活体检测方法、装置及系统
CN111179177B (zh) 图像重建模型训练方法、图像重建方法、设备及介质
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN108805047B (zh) 一种活体检测方法、装置、电子设备和计算机可读介质
JP7490141B2 (ja) 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
US11557147B2 (en) Systems and methods for selecting a best facial image of a target human face
CN105518712B (zh) 基于字符识别的关键词通知方法及设备
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
CN111242097A (zh) 一种人脸识别方法、装置、计算机可读介质及电子设备
CN113052029A (zh) 基于动作识别的异常行为监管方法、装置及存储介质
CN110930434B (zh) 目标对象跟随方法、装置、存储介质和计算机设备
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质
CN113706481A (zh) 精子质量检测方法、装置、计算机设备和存储介质
CN114241370A (zh) 基于数字孪生变电站的入侵识别方法、装置和计算机设备
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
US20160110909A1 (en) Method and apparatus for creating texture map and method of creating database
CN108460811B (zh) 面部图像处理方法、装置及计算机设备
CN108875467B (zh) 活体检测的方法、装置及计算机存储介质
CN115984977A (zh) 活体检测方法和系统
CN114694209A (zh) 视频处理方法、装置、电子设备及计算机存储介质
CN114913470A (zh) 一种事件检测方法及装置
JP2018137639A (ja) 動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19937904

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19937904

Country of ref document: EP

Kind code of ref document: A1