WO2019085941A1 - 一种关键帧提取方法、装置和存储介质 - Google Patents

一种关键帧提取方法、装置和存储介质 Download PDF

Info

Publication number
WO2019085941A1
WO2019085941A1 PCT/CN2018/112998 CN2018112998W WO2019085941A1 WO 2019085941 A1 WO2019085941 A1 WO 2019085941A1 CN 2018112998 W CN2018112998 W CN 2018112998W WO 2019085941 A1 WO2019085941 A1 WO 2019085941A1
Authority
WO
WIPO (PCT)
Prior art keywords
video frame
frame
information
color
video
Prior art date
Application number
PCT/CN2018/112998
Other languages
English (en)
French (fr)
Inventor
董霙
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2019085941A1 publication Critical patent/WO2019085941A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Definitions

  • the embodiments of the present invention relate to the field of image processing technologies, and in particular, to a key frame extraction method, apparatus, and storage medium.
  • a video consists of a series of frames, each of which is a picture or image in a video called a video frame.
  • the key frame of the video is important auxiliary information of the video.
  • a key frame also known as an I frame, is the most important frame for interframe compression coding.
  • the encoding of the video is performed in accordance with the "group", and each group is called a GOP (Group of Picture). There is no connection between GOP and GOP. The coding relationship is only generated between GOPs.
  • Each GOP starts with a key frame.
  • the key frame is a complete picture.
  • the frames in the middle of the GOP are incomplete and need to be operated together by key frames, previous frames, and subsequent frames.
  • the target video frame is determined as a key frame.
  • the embodiment of the present application further provides a key frame extraction apparatus, including:
  • processor coupled to the processor, the memory having machine readable instructions executable by the processor, the processor executing the machine readable instructions to:
  • the target video frame is determined as a key frame.
  • FIG. 1 is a schematic diagram of a scenario of an information interaction system according to an embodiment of the present application
  • FIG. 6 is a schematic structural diagram of a system code provided by an embodiment of the present application.
  • FIG. 7b is a second schematic structural diagram of a key frame extracting apparatus according to an embodiment of the present application.
  • FIG. 8 is a schematic structural diagram of a server provided by an embodiment of the present application.
  • the extraction of video key frames is generally a key frame extraction method using video compression coding such as MPEG (Moving Picture Experts Group).
  • the key frame extraction method is based on a key frame extraction algorithm such as motion vector analysis and optical flow analysis to extract video key frames.
  • the key frame extraction algorithm is relatively complicated, the calculation amount is large, and the extraction speed of the video key frame is relatively low; and the key frame extraction algorithm has a certain requirement on the frame rate of the video, that is, depends on the frame rate of the video, therefore, for some For frame rate video, key frame extraction is less accurate.
  • the embodiment of the present application provides an information interaction system, where the system includes a key frame extraction device provided by any embodiment of the present application, and the key frame extraction device may be integrated into a computing device such as a server; in addition, the system may further include other devices.
  • the terminal can be a mobile phone, a tablet, or the like.
  • the terminal 10 can download the video application and/or the video application update data package and/or the data information or service related to the video application from the server 20 through the network 30 as needed.
  • Information (such as video information).
  • the terminal 10 may send a video to the server 20, and the server 20 may extract a key frame in the video.
  • the server 20 acquires a video frame set corresponding to the video, where the video frame set includes multiple video frames, and is determined.
  • a key frame extraction method is provided, which may be executed by a processor of a server. As shown in FIG. 1b, the key frame extraction method includes the following steps.
  • frame 1 in video set a can be selected as the reference video frame.
  • Step 103 Extract a corresponding one of the video frames from the set of video frames according to the reference video frame as the target video frame.
  • the reference video frame is the i-th video frame in the video set a, such as the frame i in the set a
  • the next video frame of the frame i may be selected as the target video frame, such as the set a.
  • the medium frame i+1 is a target video frame, where i is a positive integer less than or equal to n.
  • the reference video frame is the i-th video frame in the video set a, such as the frame i in the set a
  • the last video frame of the frame i may be selected as the target video frame, such as a set.
  • Frame a-1 of a is the target video frame.
  • the color features may include color distribution features and the like, such as a color distribution matrix or a vector.
  • the content feature may include a content feature matrix or a vector, and the content feature matrix may be composed of color values of black pixels and/or white pixels, such as a black pixel having a color value of 0 and a white pixel having a color value of 1, the content feature.
  • the matrix can consist of 0 and / or 1.
  • image feature information of multiple dimensions may be used to obtain the similarity.
  • the similarity information between the target video frame and the reference video frame can be obtained based on the color feature and the content feature.
  • the step of “acquiring similarity information between the target video frame and the reference video frame according to the feature information of the reference video frame and the feature information of the target video frame” may include:
  • the color feature similarity information may include a distance metric, a similarity metric, and the like.
  • the distance metric is used to measure the distance that the color feature exists in space. The farther the distance is, the larger the difference between the color features is.
  • the distance metric may include: Euclidean distance, Manhattan distance, and the like.
  • the similarity measure is used to calculate the degree of similarity between the color features. Contrary to the distance measure, the smaller the value of the similarity measure, the smaller the similarity between the color features and the greater the difference.
  • the similarity measure may include vector space cosine similarity, etc.
  • the cosine similarity uses the cosine of the angles of the two vectors in the vector space as a measure of the difference between the two color features.
  • the content feature similarity information is information for characterizing the degree of similarity or difference between the content feature information of the two video frames; for example, the content feature similarity information may include: the content features are similar between the two video frames. percentage.
  • the similarity percentage can be characterized as a percentage of similarity or a percentage difference of the content characteristics of the two video frames, wherein the sum of the degree of similarity and the percentage of the degree of difference can be one.
  • the color space of the entire image has a very wide range of color combinations.
  • the RGB color of the pixel is between 0 and 255, and the color space of the entire image has a total of 16 million color combination ranges.
  • the color value range may be divided into a plurality of different color parameter value sub-regions, and then the color distribution feature information is obtained based on the pixel color value and the color parameter value sub-region. That is, the step "acquiring the color feature information of the video frame" may include:
  • the interval combination is composed of a plurality of color parameter value subintervals, and the number of subintervals in the interval combination is the same as the number of color parameters of the pixel of the pixel;
  • the value range 0-255 can be divided into at least three color parameter value sub-regions, where 4
  • the number of pixels in the video frame in which the color parameter value falls within the corresponding interval combination may be acquired, and the interval combination is composed of a plurality of color parameter value subintervals, and the number of the subintervals in the interval combination and the pixels of the pixel point
  • the number of color parameters is the same.
  • a matrix can be constructed according to each interval combination and its corresponding number of pixels. For example, the RGB values that can be distributed are included in the interval combination (q1, q1, q1), (q1, q2, q3), (q1, q3, q2), ... (q3, q3, q3)... (q4, q4) , q4) The number of pixels.
  • a 64-dimensional vector matrix can be constructed according to each interval combination and its corresponding number of pixels.
  • the color parameter value of the pixel falls into the interval combination means that each color parameter value of the pixel falls within a corresponding sub-interval of the interval combination.
  • the color parameter type of the pixel is m
  • m is greater than or equal to 3
  • the color parameter value of the pixel falls within the interval combination, meaning that the first color parameter value falls within the first subinterval of the interval combination, and the second The color parameter values fall into the second subinterval of the interval combination, ... the jth color parameter value falls into the jth subinterval of the interval combination, ... the mth color parameter value falls within the mth subinterval of the interval combination.
  • the RGB value falls into the interval combination refers to: the R value falls into the first subinterval of the interval combination, such as the q1, the G value falls into the second subinterval of the interval combination, such as the q2, the B value falls into the third combination of the interval combination.
  • the subinterval is q3.
  • color feature information of the reference video frame and the target video frame can be acquired.
  • the content feature extraction process of a video frame includes:
  • the content feature information of the video frame is obtained according to the color value of the pixel in the black and white image.
  • the corresponding feature matrix can be constructed according to the color value of the pixel in the black and white image (0 is black, 255 white is 1), and the matrix is the content feature matrix of the video frame. For example, a pixel matrix corresponding to a black and white image is obtained, and the number of rows and columns of the pixel matrix is consistent with the length and width of the image.
  • the content feature information of the reference video frame and the target video frame may be extracted by the content feature extraction method described above.
  • the content feature information when the content feature information includes a content feature matrix or a vector, where the content feature matrix or vector is composed of color values of black pixels and/or white pixels, for example, the color value of the black pixel is 0, and the white pixel When the color value is 1, the content feature matrix is composed of 0 and/or 1.
  • the content feature matrix of the reference video frame and the content feature matrix of the target video frame may be subjected to an exclusive OR operation of the color value of the pixel, and the feature similarity information is acquired based on the operation result. That is, the step of “acquiring the content feature information of the reference video frame and the content feature similarity information between the content feature information of the target video frame” may include:
  • the result of the XOR operation of the color value of the pixel includes two results, one is that the color value is the same, and the first number can be represented by 0, and the other is different color values, and the second number can be represented by 1 Said.
  • a series of operation results can be obtained.
  • the number and result of the first operation result (such as the first number 0) can be counted.
  • the step “acquiring the color feature information of the reference video frame and the color feature similarity information between the color feature information of the target video frame” may be include:
  • the color feature similarity percentage between the color feature information of the reference video frame and the color feature information of the target video frame is obtained according to the cosine similarity.
  • a cosine similarity value between the color distribution feature vector of the reference video frame and the color distribution feature vector of the target video frame may be obtained, and then, according to the cosine similarity value, corresponding
  • the color features are similar to the percentage.
  • the range of cosine similarity is between [-1, 1], and the value is closer to 1, the closer the direction of the two vectors is; the closer to -1, the more opposite their direction; close to 0 , indicating that the two vectors are nearly orthogonal.
  • the cosine similarity value between the color distribution feature vector of the reference video frame and the color distribution feature vector of the target video frame is 0.5, and at this time, the similarity percentage of the color feature can be obtained as 60%.
  • the weights corresponding to the color feature similarity percentage value and the content feature similarity percentage value may be set according to actual requirements.
  • the weight value of the color feature similarity percentage value c1 may be set, and the weight value corresponding to the content feature similarity percentage value c2 may be set.
  • Step 105 When the similarity information satisfies the preset condition, the target video frame is determined as a key frame.
  • the preset condition may be set according to actual requirements, because the video frame with a large difference from the reference video frame is determined as a key frame; the preset condition may be characterized by: the degree of similarity between the target video frame and the reference video frame is low, or The degree of difference is large.
  • the preset condition may include: the similarity percentage is less than the first preset threshold; when the similar percentage represents the difference between the video frames When the percentage is a percentage, the preset condition may include: the percentage difference is greater than the second preset threshold.
  • the above describes the key frame determination process between two video frames.
  • the above key frame determination process can be applied to the entire video set to extract all key frames in the video set.
  • the reference video frame is replaced with the target video frame, and a step of performing the extraction of the corresponding one video frame from the video frame set as the target video frame according to the reference video frame is performed, until the video is extracted. All video frames in the frame collection.
  • the reference video frame is replaced with the target video frame, and a step of performing the extraction of the corresponding one video frame from the video frame set as the target video frame according to the reference video frame is performed, until the video is extracted. All video frames in the frame collection.
  • the video frame in the video set can be continuously read, and the similarity information with the current reference video frame is obtained, and the key frame is determined based on the similarity information until all the video frames in the video set are read.
  • the replacement of the reference video frame replaces the reference video frame with the currently read video frame only when the currently read video frame is a key frame.
  • the embodiment of the present application is configured to obtain a video frame set corresponding to a video, where the video frame set includes multiple video frames, determine a current reference video frame in the video frame set, and extract corresponding information from the video frame set according to the reference video frame.
  • a video frame is used as the target video frame to obtain similarity information between the target video frame and the reference video frame.
  • the target video frame is determined as a key frame.
  • the scheme can extract video key frames based on the similarity between video frames, can quickly extract effective video key frames from the video, improve the speed of video key frame extraction, and the scheme does not depend on the frame rate of the video. Applicable for all kinds of frame rate video, improving the accuracy and flexibility of video key frame extraction.
  • a key frame extraction method is provided, which may be performed by a processor of a server. As shown in FIG. 2, the key frame extraction method includes the following steps.
  • Step 201 Acquire a video frame set corresponding to the video, where the video frame set includes multiple video frames.
  • the video is composed of a series of video frames, that is, video pictures, and each video corresponds to a video frame set, and the set includes multiple video frames, and the set has a common video frame and a key video frame.
  • the purpose of embodiments of the present application is to extract key video frames within a video collection.
  • the video can be obtained from the terminal or obtained from other devices, for example, the video can be obtained from other servers.
  • the video set a ⁇ frame 1, frame 2, ... frame n ⁇ corresponding to the video A is obtained.
  • the embodiment of the present application may also perform normalization processing on the video, such as setting a pixel size of the video sequence frame, such as 100*100, and a frame frequency, such as 1 frame per second.
  • Step 202 Determine a current reference video frame in the video frame set.
  • one video frame may be selected from the video frame set as a reference video frame.
  • a starting video frame may be selected as a reference video frame.
  • frame 1 in video set a can be selected as the reference video frame.
  • Step 203 Acquire feature information of a reference video frame.
  • the color features may include color distribution features and the like, such as a color distribution matrix or a vector.
  • the content feature may include a content feature matrix or a vector, and the content feature matrix may be composed of color values of black pixels and/or white pixels, such as a black pixel having a color value of 0 and a white pixel having a color value of 1, the content feature.
  • the matrix can consist of 0 and / or 1.
  • the extraction process of the content feature and the color distribution feature may refer to the above specific processes (1), (2) regarding the extraction of the two features.
  • Step 204 Extract a corresponding one of the video frames from the set of video frames according to the reference video frame as the target video frame.
  • next video frame of the reference video frame can be extracted from the video set as the target video frame.
  • select frame 2 in video set a as the target video frame.
  • Step 205 Acquire feature information of the target video frame.
  • the feature information of the video frame is image feature information
  • the feature information of the video frame may include image feature information of one or more dimensions.
  • the feature information may include: a color feature, a content feature, a texture feature, a content feature, and a shape. At least one of image features such as features.
  • the similarity information is information that characterizes the degree of similarity or difference between two video frames; for example, the similarity information may include: a similar percentage between two video frames, and the similarity percentage may represent two video frames.
  • the percentage of similarity or the percentage of difference between the two, the specific characterization can be set according to the actual demand, the sum of the percentage of similarity and the percentage of the difference can be 1.
  • a similar percentage of 70% can characterize 70% similarity, or 70% difference between video frames.
  • the similarity information may include a distance metric, a similarity metric, and the like.
  • the distance metric is used to measure the distance that the individual exists in space. The farther the distance is, the larger the difference between the individuals is.
  • the distance metric may include: Euclidean distance, Manhattan distance, and the like.
  • the similarity measure is used to calculate the degree of similarity between individuals. Contrary to the distance measure, the smaller the value of the similarity measure, the smaller the similarity between individuals and the greater the difference.
  • the similarity measure may include vector space cosine similarity, etc.
  • the cosine similarity uses the cosine of the angles of the two vectors in the vector space as a measure of the difference between the two individuals.
  • acquiring color feature information of the reference video frame and color feature similarity information with the color feature information of the target video frame acquiring content between the content feature information of the reference video frame and the content feature information of the target video frame Feature similarity information; acquiring similarity information between the target video frame and the reference video frame according to the color feature similarity information and the content feature similarity information.
  • the similarity information between the video frames may be acquired based on the two pieces of information.
  • the color feature similarity information includes a color feature similarity percentage value
  • the content feature similarity information includes a content feature similarity percentage value
  • the color feature similarity percentage value and the content feature similarity percentage value may be weighted and summed to obtain a weighted sum.
  • the value, the weighted sum value is taken as the similar percentage value between the target video frame and the reference video frame.
  • Step 207 Determine that the similarity information satisfies the preset condition. If yes, execute step 208. If no, perform step 209.
  • the preset condition may be set according to actual requirements, because the video frame with a large difference from the reference video frame is determined as a key frame; the preset condition may be characterized by: the degree of similarity between the target video frame and the reference video frame is low, or The degree of difference is large.
  • the preset condition may include: the similarity percentage is less than the first preset threshold; when the similar percentage represents the difference between the video frames When the percentage is a percentage, the preset condition may include: the percentage difference is greater than the second preset threshold.
  • Step 208 Determine the target video frame as a key frame, replace the reference video frame with the target video frame, and return to step 204 until all the video frames in the video frame set are extracted.
  • step 204 For example, marking the target video frame as a key frame, replacing the current reference video frame with frame 2, and then returning to step 204 to extract the next frame, frame 3, as the target video frame.
  • Step 209 Replace the reference video frame with the target video frame, and return to step 204 until all the video frames in the video frame set are extracted.
  • the current reference video frame is replaced with frame 2, and then, returning to step 204, the next frame, frame 3, is extracted as the target video frame.
  • a key frame extraction method is provided, which may be performed by a processor of a server. As shown in FIG. 3, the key frame extraction method includes the following steps.
  • Step 301 Acquire a video frame set corresponding to the video, where the video frame set includes multiple video frames.
  • the video is composed of a series of video frames, that is, video pictures, and each video corresponds to a video frame set, and the set includes multiple video frames, and the set has a common video frame and a key video frame.
  • the purpose of embodiments of the present application is to extract key video frames within a video collection.
  • the video can be obtained from the terminal or obtained from other devices, for example, the video can be obtained from other servers.
  • the embodiment of the present application may also perform normalization processing on the video, such as setting a pixel size of the video sequence frame, such as 100*100, and a frame frequency, such as 1 frame per second.
  • Step 302 Select a video frame from the video set as the current reference video frame.
  • frame 1 in video set a can be selected as the reference video frame.
  • the feature information of the video frame is image feature information
  • the feature information of the video frame may include image feature information of one or more dimensions.
  • the feature information may include: a color feature, a content feature, a texture feature, a content feature, and a shape. At least one of image features such as features.
  • the color features may include color distribution features and the like, such as a color distribution matrix or a vector.
  • the content feature may include a content feature matrix or a vector, and the content feature matrix may be composed of color values of black pixels and/or white pixels, such as a black pixel having a color value of 0 and a white pixel having a color value of 1, the content feature.
  • the matrix can consist of 0 and / or 1.
  • Step 304 Extract a corresponding one of the video frames from the set of video frames according to the reference video frame as the target video frame.
  • next video frame of the reference video frame can be extracted from the video set as the target video frame.
  • Step 305 Acquire feature information of the target video frame.
  • the color features may include color distribution features and the like, such as a color distribution matrix or a vector.
  • the content feature may include a content feature matrix or a vector, and the content feature matrix may be composed of color values of black pixels and/or white pixels, such as a black pixel having a color value of 0 and a white pixel having a color value of 1, the content feature.
  • the matrix can consist of 0 and / or 1.
  • the extraction process of the content feature and the color distribution feature may refer to the above specific processes (1), (2) regarding the extraction of the two features.
  • Step 306 Acquire similarity information between the target video frame and the reference video frame according to the feature information of the reference video frame and the feature information of the target video frame.
  • the similarity measure is used to calculate the degree of similarity between individuals. Contrary to the distance measure, the smaller the value of the similarity measure, the smaller the similarity between individuals and the greater the difference.
  • the similarity measure may include vector space cosine similarity, etc.
  • the cosine similarity uses the cosine of the angles of the two vectors in the vector space as a measure of the difference between the two individuals.
  • image feature information of multiple dimensions may be employed to obtain similarity.
  • the similarity information between the target video frame and the reference video frame can be obtained based on the color feature and the content feature.
  • the acquisition manner is:
  • the color feature similarity percentage between the color feature information of the reference video frame and the color feature information of the target video frame is obtained according to the cosine similarity.
  • the content feature information includes a content feature feature matrix or a vector
  • the content feature similarity information includes a content feature similarity percentage
  • the content feature matrix or vector is composed of color values of black pixels and/or white pixels, and content feature similarity percentage acquisition manner for:
  • the similarity information between the video frames may be acquired based on the two pieces of information.
  • the color feature similarity information includes a color feature similarity percentage value
  • the content feature similarity information includes a content feature similarity percentage value
  • the color feature similarity percentage value and the content feature similarity percentage value may be weighted and summed to obtain a weighted sum.
  • the value, the weighted sum value is taken as the similar percentage value between the target video frame and the reference video frame.
  • Step 307 Determine that the similarity information meets the preset condition. If yes, execute step 308. If no, perform step 309.
  • the preset condition may be set according to actual requirements, because the video frame with a large difference from the reference video frame is determined as a key frame; the preset condition may be characterized by: the degree of similarity between the target video frame and the reference video frame is low, or The degree of difference is large.
  • the preset condition may include: the similarity percentage is less than the first preset threshold; when the similar percentage represents the difference between the video frames When the percentage is a percentage, the preset condition may include: the percentage difference is greater than the second preset threshold.
  • Step 308 Determine the target video frame as a key frame, replace the reference video frame with the target video frame, and return to step 304 until all the video frames in the video frame set are extracted.
  • the target video frame can be marked as a key frame and the current reference video frame can be replaced with a target video frame, such as frame 2. Then returning to step 304, frame 3 is extracted as the target video frame.
  • Step 309 Extract a corresponding video frame from the video frame set according to the target video frame, and replace the target video frame with the extracted video frame, and return to step 305 until all the video frames in the video frame set are extracted.
  • next frame of frame 2, frame 3 is extracted as the target video frame, and then returns to step 305 to extract the feature information of the target video frame for key frame extraction.
  • the difference between other video frames and the current key video frame can be compared, and other key frames in the video frame set are determined based on the difference.
  • the method provided by the embodiment of the present application may further include: after extracting all the key frames of the video,
  • the feature information of the key frame in the video segment is used as the fingerprint tag of the video segment.
  • the feature information of the key frame includes image feature information of one or more dimensions, for example, may include color feature information and content feature information.
  • image feature information of a plurality of dimensions may be used as a fingerprint tag of the video segment. This makes it easy to classify and store video clips, as well as to easily retrieve video clips.
  • the clip can be clipped into video clip 1 ⁇ frame 1 ... frame i- 1 ⁇ , video clip 2 ⁇ frame i...frame k-1 ⁇ , video clip 3 ⁇ frame k...frame f-1 ⁇ , video clip 4 ⁇ frame f...frame n ⁇ .
  • the feature information of the frame 1 such as the color feature information and the content feature information may be used as the fingerprint tag of the video segment 1
  • the feature information of the frame i such as the color feature information and the content feature information
  • the feature information of the frame k such as the color feature information and the content feature information is used as the fingerprint tag of the video segment 3.
  • the embodiment of the present application may further set a text label of the video segment on the basis of the foregoing method, and then the video content may be matched by the text note. retrieve the corresponding video clips to improve the speed and accuracy of the video retrieval.
  • the time period is composed of consecutive time points.
  • the time period can be selected in multiple ways.
  • the video time point can be used as the end point to select the first time period before the video time point, and the video time point is used as the starting point.
  • the second time period after the video time point the time period is formed by the first time period and the second time period.
  • the first time period and the second time period may be fixed, that is, fixed in the time period, such as selecting a time period of 5 seconds before and after the video time point.
  • the feature information (color feature information and content feature information) of the key frame may be used as the fingerprint tag of the corresponding video segment, and the audio information may also be voice-recognized based on the video time point of the key frame. , thereby setting a text label of the video clip according to the text content of the voice recognition.
  • the video clip has both a fingerprint label and a text label, which facilitates clustering, classifying and storing the video clip, and improving the retrieval and matching speed of the video clip.
  • the single frame image can be analyzed and processed as an ordinary image, so that the feature information of the image such as color and content form can be selected as the image feature.
  • the value is used as the basis for the judgment.
  • the video A is sequence framing, so that the feature information of the frame 1 can be used as the fingerprint tag of the frame 1, which facilitates subsequent classification and storage of the video frame.
  • the solution provided by the embodiment of the present application can obtain the similarity information between the video frames, such as the difference degree information, by using the two features of the color feature distribution feature and the content feature, and extract the key video frame based on the similarity information.
  • the frame frequency of the video there can be a large span between the frame and the frame. For example, 25, 15, 1, and 3 frames per second can extract the key frame features, and the applicability is relatively strong.
  • the feature information that can be extracted as the feature information of the video single frame or the video segment can form a unique feature fingerprint, which can be used to compare the similarity and matching degree calculation and clustering of other pictures and video motion images.
  • the scheme can also identify the voices in the time window before and after the time point after finding the key frame time point information, and automatically classify the videos that retrieve the related tags.
  • Step 401 The terminal sends video data to the server.
  • Step 402 The server normalizes the video data to obtain a video frame set.
  • set the pixel size of the video sequence frame to be 100*100, and the frame frequency as 1 frame per second.
  • the video A is normalized to obtain a video set a ⁇ frame 1, frame 2 ... frame n ⁇ .
  • FIG. 6 a schematic diagram of a code structure of a key frame extraction system is adopted, and a terminal, that is, a front end adopts an HTML+JS implementation user interaction interface.
  • the server is the server, and the data side is the database implemented by MYSQl.
  • the server performs standardization processing on user uploaded video through FFMPEG.
  • Step 403 The server selects a video frame from the video set as the current reference video frame.
  • one video frame may be selected from the video frame set as a reference video frame.
  • a starting video frame may be selected as a reference video frame.
  • frame 1 in video set a can be selected as the reference video frame.
  • Step 404 The server acquires a color distribution feature matrix and a content feature matrix of the reference video frame.
  • the extraction process of the content feature and the color distribution feature may refer to the above specific processes (1), (2) regarding the extraction of the two features.
  • the color distribution feature of the frame is extracted: the RGB color ranges from 0 to 255, that is, the color space of the entire image has a total of 16 million color combination ranges, and the range of colors is divided into four regions for simplifying the calculation amount ( 0-63, 64-127, 128-191, 192-255), the number of combinations is reduced to 64.
  • the statistics of the color combination of the current frame yield a 64-dimensional vector result.
  • the content feature is extracted from the frame: first, the current frame is grayed out, and then the gray image is binarized (black and white binary), wherein the threshold value range of the binarization can be selected according to actual needs. : Gray level average method (calculation speed is fast) - All gray values of the statistical image are obtained by dividing the total number of pixels by the threshold range, and the Otsu method (high accuracy) - the gray value of the image is sequentially changed from lowest to highest by the exhaustive method. The value of the difference between the inter-class difference calculations is the threshold range. After the image is binarized, the pixel matrix of the image "long-width-wide" is obtained, where 0 is black and 255 white is 1 to form a content feature matrix.
  • Step 405 The server extracts a next video frame of the reference video frame from the video frame set as the target video frame.
  • next video frame of frame 1 in video set a is selected as the target video frame.
  • Step 406 The server acquires a color distribution feature matrix and a content feature matrix of the target video frame.
  • the extraction process of the content feature and the color distribution feature may refer to the above specific processes (1), (2) regarding the extraction of the two features.
  • Step 407 The server acquires a cosine similarity value between a color distribution feature matrix of the reference video frame and a color distribution map feature matrix of the target video frame, and obtains a color distribution feature similarity percentage according to the cosine similarity value.
  • the color distribution feature similarity percentage can represent the degree of similarity or degree of difference of the color distribution features. For example, when the percentage is 30%, it can represent that the color distribution features of the two video frames are 30% similar, or the color distribution of the two video frames is represented. Features have a 30% difference. The specific percentage indicates that the difference or the same can be selected according to actual needs.
  • Step 408 The server performs an exclusive OR operation on the pixel color value of the content feature matrix of the reference video frame and the content feature matrix of the target video frame, and obtains a similar percentage of the corresponding content person by the statistical operation result.
  • the content feature similarity percentage may represent the similarity degree or the degree of difference of the content features. For example, when the percentage is 40%, the content features of the two video frames may be 40% similar, or the content features of the two video frames may be 40. %difference. The specific percentage indicates that the difference or the same can be selected according to actual needs.
  • steps 407 and 408 are not limited by the sequence number. Step 408 may be preceded, step 407 may be followed, or both.
  • Step 409 The server weights the color distribution feature similarity percentage value and the content feature similar percentage value to obtain a similar percentage between the reference video frame and the target video frame.
  • Step 410 The server determines whether the similarity percentage between the reference video frame and the target video frame meets a preset percentage condition. If yes, step 411 is performed, and if no, step 412 is performed.
  • the similarity percentage between the reference video frame and the target video frame is used to characterize the degree of difference between the two, it may be determined whether the similarity percentage is greater than a preset threshold. If less than, the preset percentage condition is met, and the target video is determined.
  • the frame is a key frame.
  • Step 412 The server replaces the reference video frame with the target video frame, and returns to step 405 until all the video frames in the video frame set are extracted.
  • Step 413 When all video frames in the video frame set are extracted, the server clips the video according to the key video frame to obtain several video segments.
  • Step 414 The server uses the color distribution feature matrix and the content feature matrix of the key video frame in the video segment as the fingerprint label of the video segment; and simultaneously extracts the audio file of the time window before and after the video time point corresponding to the key video frame, and performs the audio file on the audio file. Speech recognition, and segmentation statistics and natural language analysis processing are performed on the recognition result, and the text label of the video segment is set based on the processing result.
  • Step 415 The server classifies and stores the video segments according to the fingerprint label and the text label of the video segment.
  • the server classifies and stores the saved video clips through a machine learning algorithm (Mchine Learning Library), and stores the video clips on the data end.
  • a machine learning algorithm Melchine Learning Library
  • Step 416 The server sends a video segment to the terminal.
  • steps 414-415 is not limited by the sequence number, for example, step 416 may be performed first, steps 414 and 415 may be performed, and so on.
  • the server can also perform frame framing on the video stream, and the single frame image can be analyzed and processed as an ordinary image. Therefore, the feature information of the image such as color and content form can be selected as the feature value of the image as the basis for the judgment. It facilitates the classification storage and retrieval of individual video frames.
  • the solution provided by the embodiment of the present application can obtain the similarity information between the video frames, such as the same degree information, by using the two features of the color feature distribution feature and the content feature, and extract the key video frame based on the similarity information.
  • Quickly extract key video frames improve the extraction speed of key video frames, and the scheme does not depend on the frame frequency of the video.
  • the key frame features can be extracted, and the applicability is relatively strong.
  • the feature information that can be extracted as the feature information of the video single frame or the video segment can form a unique feature fingerprint, which can be used to compare the similarity and matching degree calculation and clustering of other pictures and video motion images.
  • a key frame extraction apparatus is further provided in an embodiment.
  • the meaning of the noun is the same as that in the key frame extraction method described above.
  • a key frame extracting apparatus is further provided.
  • the key frame extracting apparatus may include: a video acquiring unit 501, a reference frame determining unit 502, a target frame determining unit 503, and the like.
  • the video acquiring unit 501 is configured to acquire a video frame set corresponding to the video, where the video frame set includes multiple video frames.
  • the target frame determining unit 503 is configured to extract a corresponding one of the video frames from the video frame set as the target video frame according to the reference video frame;
  • the similarity obtaining unit 504 is configured to acquire similarity information between the target video frame and the reference video frame.
  • the similarity obtaining unit 504 may be configured to acquire the target video frame and the reference video frame according to the feature information of the reference video frame and the feature information of the target video frame. Similarity information between.
  • the feature information includes color feature information and content feature information.
  • the similarity obtaining unit 504 may include:
  • a color similarity acquisition sub-unit 5041 configured to acquire color feature similarity information between the color feature information of the reference video frame and the color feature information of the target video frame;
  • the content similarity obtaining sub-unit 5042 is configured to acquire content feature similarity information between the content feature information of the reference video frame and the content feature information of the target video frame;
  • the frame similarity acquisition sub-unit 5043 is configured to acquire the similarity information between the target video frame and the reference video frame according to the color feature similarity information and the content feature similarity information.
  • the frame similarity obtaining sub-unit 5043 may be configured to: perform weighted summation on the color feature similarity percentage value and the content feature similarity percentage value to obtain a weighted sum value; and use the weighted sum value as a A similar percentage value between the target video frame and the reference video frame.
  • the content feature information includes a content feature matrix, where the content feature matrix is composed of color values of black pixels and/or white pixels;
  • the content similarity obtaining subunit 5042 can be used to:
  • the feature acquiring unit 506 is configured to acquire color feature information of the target video frame before acquiring the similarity information by the similarity acquiring unit 504, and acquire content feature information of the target video frame.
  • the feature obtaining unit 506 can be used to:
  • the key frame determining unit 505 determines the target video frame as a key frame, replacing the reference video frame with the target video frame, and triggering the target frame determining unit 503 to perform according to the
  • the reference video frame extracts a corresponding one of the video frames from the set of video frames as a target video frame until all video frames in the set of video frames are extracted.
  • the replacement unit 507 can also be used to:
  • the trigger target frame determining unit 503 performs a step of acquiring similarity information between the target video frame and the reference video frame until all video frames in the video set are extracted.
  • the key frame extracting apparatus may further include:
  • a clipping unit 508 configured to, after extracting all the key frames of the video, edit the video according to the key frame to obtain a plurality of video segments;
  • the fingerprint label setting unit 509 is configured to use the feature information of the key frame in the video segment as the fingerprint label of the video segment.
  • the text label setting unit 510 can be used to:
  • the text label setting unit 510 can be configured to obtain a time interval between the key frame and its adjacent key frame, and select a corresponding time period according to the video time point and the time interval.
  • the foregoing units may be implemented as a separate entity, or may be implemented in any combination, and may be implemented as the same or a plurality of entities.
  • the foregoing method embodiments and details are not described herein.
  • the key frame extraction device may be integrated into a computing device such as a terminal, for example, in the form of a client, and the terminal may be a device such as a mobile phone or a tablet computer.
  • the key frame extracting apparatus of the embodiment of the present invention uses the video acquiring unit 501 to acquire a video frame set corresponding to the video, the video frame set includes a plurality of video frames, and the reference frame determining unit 502 determines the current reference video in the video frame set. a frame, the target frame determining unit 503 extracts a corresponding one of the video frames from the video frame set as the target video frame according to the reference video frame, and the similarity acquiring unit 504 acquires the similarity between the target video frame and the reference video frame.
  • the degree information is determined by the key frame determining unit 505 as the key frame when the similarity information satisfies the preset condition.
  • the scheme can extract video key frames based on the similarity between video frames, can quickly extract effective video key frames from the video, improve the speed of video key frame extraction, and the scheme does not depend on the frame rate of the video. Applicable for all kinds of frame rate video, improving the accuracy and flexibility of video key frame extraction.
  • an embodiment of the present application provides a server 800, which may include one or more processors 801, a memory 802 of one or more computer readable storage media, and a radio frequency (RF) circuit 803. , power supply 804, input unit 805, and display unit 806 and other components.
  • RF radio frequency
  • Processor 801 is the control center of the server, connecting various portions of the server with various interfaces and lines, by running or executing software programs and/or modules stored in memory 802, and recalling data stored in memory 802, Execute the server's various functions and process data to monitor the server as a whole.
  • the processor 801 may include one or more processing cores; in some embodiments of the present application, the processor 801 may integrate an application processor and a modem processor, where the application processor mainly processes The operating system, user interface, applications, etc., the modem processor primarily handles wireless communications. It can be understood that the above modem processor may not be integrated into the processor 801.
  • the memory 802 can be used to store software programs and modules, and the processor 801 executes various functional applications and data processing by running software programs and modules stored in the memory 802.
  • the RF circuit 803 can be used to receive and transmit signals during the transmission and reception of information.
  • the server also includes a power source 804 (such as a battery) that supplies power to the various components.
  • a power source 804 such as a battery
  • the power source can be logically coupled to the processor 801 via a power management system to manage functions such as charging, discharging, and power management through the power management system.
  • the server can also include an input unit 805 that can be used to receive input numeric or character information and to generate keyboard, mouse, joystick, optical or trackball signal inputs related to user settings and function controls.
  • an input unit 805 can be used to receive input numeric or character information and to generate keyboard, mouse, joystick, optical or trackball signal inputs related to user settings and function controls.
  • the server can also include a display unit 806 that can be used to display information entered by the user or information provided to the user and various graphical user interfaces of the server, which can be represented by graphics, text, icons, video, and It is composed of any combination.
  • the processor 801 in the server loads the executable file corresponding to the process of one or more application programs into the memory 802 according to the following instructions, and is executed by the processor 801 to be stored in the memory.
  • An application ie, machine readable instructions
  • 802 thereby implementing a key frame extraction method as described in any of the embodiments of the present application, for example:
  • the video frame set includes a plurality of video frames; determining a current reference video frame in the video frame set; and extracting a corresponding video from the video frame set according to the reference video frame
  • the frame is used as a target video frame; the similarity information between the target video frame and the reference video frame is acquired; when the similarity information satisfies a preset condition, the target video frame is determined as a key frame.
  • the medium may include: a read only memory (ROM), a random access memory (RAM), a magnetic disk or an optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种关键帧提取方法、装置和存储介质;该方法包括:获取视频对应的视频帧集合,该视频帧集合包括多个视频帧(101);确定视频帧集合中当前的参考视频帧(102);根据参考视频帧从该视频帧集合中提取相应的一个视频帧作为目标视频帧(103);获取目标视频帧与参考视频帧之间的相似度信息(104);当相似度信息满足预设条件时,将目标视频帧确定为关键帧(105)。

Description

一种关键帧提取方法、装置和存储介质
本申请要求于2017年10月31日提交中国专利局、申请号为201711050676.1,申请名称为“一种关键帧提取方法、装置和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及图片处理技术领域,具体涉及一种关键帧提取方法、装置和存储介质。
背景技术
视频由一系列帧组成,每一帧就是视频中的一个画面或图像,称为视频帧。其中,视频的关键帧是视频的重要辅助信息。关键帧也叫作I帧,它是帧间压缩编码的最重要帧。视频的编码是按照“组”来进行的,每一个组叫作GOP(Group of Picture,图像组)。GOP与GOP之间是没有联系的。编码关系只在GOP之间产生。每一个GOP都是由关键帧开始的,关键帧是一幅完整的画面,GOP中间的帧都是不完整的,需要由关键帧、前面帧以及后面帧等一起运算得到。
发明内容
本申请实施例提供一种关键帧提取方法、装置和存储介质,可以提升视频关键帧提取的速度以及精确性。
本申请实施例提供一种关键帧提取方法,包括:
获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;
确定所述视频帧集合中当前的参考视频帧;
根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;
获取所述目标视频帧与所述参考视频帧之间的相似度信息;
当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
相应的,本申请实施例还提供了一种关键帧提取装置,包括:
处理器以及与所述处理器相连接的存储器,所述存储器中存储有可由所述处理器执行的机器可读指令,所述处理器执行所述机器可读指令完成以下操作:
获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;
确定所述视频帧集合中当前的参考视频帧;
根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;
获取所述目标视频帧与所述参考视频帧之间的相似度信息;
当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
相应的,本申请实施例还提供一种非易失性计算机可读存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本申请任一实施例提供的关键帧提取方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的信息交互系统的场景示意图;
图1b是本申请实施例提供的关键帧提取方法的第一种流程示意图;
图2是本申请实施例提供的关键帧提取方法的第二种流程示意图;
图3是本申请实施例提供的关键帧提取方法的第三种流程示意图;
图4是本申请实施例提供的关键帧提取方法的第四种流程示意图;
图5是本申请实施例提供的关键帧提取、视频剪辑以及存储的示意图;
图6是本申请实施例提供的一种系统代码结构示意图;
图7a是本申请实施例提供的关键帧提取装置的第一种结构示意图;
图7b是本申请实施例提供的关键帧提取装置的第二种结构示意图;
图7c是本申请实施例提供的关键帧提取装置的第三种结构示意图;
图7d是本申请实施例提供的关键帧提取装置的第四种结构示意图;
图7e是本申请实施例提供的关键帧提取装置的第五种结构示意图;
图7f是本申请实施例提供的关键帧提取装置的第六种结构示意图
图8是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对视频进行处理如剪辑等时,一般需要提取视频的关键帧,然后,基于关键帧进行相应的处理。目前视频关键帧的提取一般是采用MPEG(Moving Picture Experts Group,动态图像专家组)等视频压缩编码的关键帧提取方式。该关键帧提取方式是基于运动矢量分析和光流分析等关键帧提取算法来提取视频关键帧。然而,该关键帧提取算法比较复杂、计算量大,视频关键帧的提取速度比较低;并且该关键帧提取算法对视频的帧率有一定的要求,即依赖视频的帧率,因此,对于一些帧率的视频,关键帧提取的精确性较低。
本申请实施例提供一种信息交互系统,该系统包括本申请任一实施例提供的关键帧提取装置,该关键帧提取装置可以集成在服务器等计算 设备中;此外,该系统还可以包括其他设备,比如,该终端可以为手机、平板电脑等。
参考图1a,本申请实施例提供了一种信息交互系统,包括:终端10和服务器20,终端10与服务器20通过网络30连接。其中,网络30中包括路由器、网关等等网络实体,图中并未示意出。终端10可以通过有线网络或无线网络与服务器20进行信息交互,比如可以从服务器20下载应用(如视频应用)和/或应用更新数据包和/或与应用相关的数据信息或业务信息。其中,终端10可以为手机、平板电脑、笔记本电脑等设备,图1a是以终端10为手机为例。该终端10中可以安装有各种用户所需的应用,比如具备娱乐功能的应用(如视频应用,音频播放应用,游戏应用,阅读软件),又如具备服务功能的应用(如地图导航应用、团购应用等)。
基于上述图1a所示的系统,以视频应用为例,终端10可以通过网络30从服务器20中按照需求下载视频应用和/或视频应用更新数据包和/或与视频应用相关的数据信息或业务信息(如视频信息)。采用本申请实施例,终端10可以向服务器20发送视频,服务器20可以提取该视频中的关键帧,具体地,服务器20获取视频对应的视频帧集合,该视频帧集合包括多个视频帧,确定该视频帧集合中当前的参考视频帧,根据该参考视频帧从该视频帧集合中提取相应的一个视频帧作为目标视频帧,获取该目标视频帧与该参考视频帧之间的相似度信息,当该相似度信息满足预设条件时,将该目标视频帧确定为关键帧。
在本申请一些实施例中,在服务器20提取完视频中的关键帧之后,服务器20还可以根据关键帧对视频进行剪辑,得到若干视频片段,并向终端10发送剪辑得到的视频片段。
上述图1a的例子只是实现本申请实施例的一个系统架构实例,本申请实施例并不限于上述图1a所示的系统结构,基于该系统架构,提出本申请各个实施例。
在本申请一实施例中,提供了一种关键帧提取方法,可以由服务器 的处理器执行,如图1b所示,该关键帧提取方法包括以下步骤。
步骤101、获取视频对应的视频帧集合,该视频帧集合包括多个视频帧。
其中,视频是由一系列的视频帧即视频图片组成的,每个视频对应一个视频帧集合,该集合包含多个视频帧,该集合内存在普通视频帧以及关键视频帧。本申请实施例的目的是了提取视频集合内的关键视频帧。
该视频可以从终端获取,也可以从其他设备获取,比如,可以从其他服务器中获取该视频等等。
比如,获取视频A对应的视频集合a{帧1、帧2……帧n}。
为了便于关键帧的提取,本申请实施例还可以对视频进行标准化处理,如设定视频序列帧的像素尺寸如:100*100,和帧频率如每秒1帧。
步骤102、确定视频帧集合中当前的参考视频帧。
其中,该参考视频帧为视频帧集合中的某一个视频帧,该参考视频帧可以为用于确定关键帧的参考帧。当前时刻可以仅仅存在一个参考视频帧。
在开始提取关键帧时,可以从视频帧集合中选取一个视频帧作为参考视频帧,比如,可以选择起始视频帧或者结束视频帧作为参考视频帧。
例如,在开始提取关键帧时,可以选择视频集合a中帧1作为参考视频帧。
步骤103、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。
其中,根据参考视频帧提取目标视频帧的方式有多种,比如,可以提取参考视频帧的下一个视频帧作为目标视频帧,又比如,可以提取参考视频帧的上一个视频帧作为目标视频帧,等等。
譬如,当参考视频帧为视频集合a中第i个视频帧,如集合a中帧i时,可以选取帧i的下一个视频帧即第i+1个视频帧作为目标视频帧,如集合a中帧i+1为目标视频帧,其中,i为小于或等于n的正整数。
又比如,当参考视频帧为视频集合a中第i个视频帧,如集合a中 帧i时,可以选取帧i的上一个视频帧即第i-1个视频帧作为目标视频帧,如集合a中帧i-1为目标视频帧。
步骤104、获取目标视频帧与参考视频帧之间的相似度信息。
其中,相似度信息为表征两个视频帧之间的相似程度或者差异程度的信息;比如,相似度信息可以包括:两个视频帧之间的相似百分比,该相似百分比可以表征两个视频帧之间的相似程度百分比或者差异程度百分比,具体表征情况可以根据实际需求设定其中,相似程度百分比与差异程度百分比之和可以为1。比如,相似百分比为70%可以表征视频帧之间的70%相似,或者70%差异。
又比如,相似度信息可以包括距离度量、相似度度量等。其中,距离度量用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大,该距离度量可以包括:欧几里得距离、曼哈顿距离等等。
其中,相似度度量用于计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。该相似度度量可以包括向量空间余弦相似度等,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
在本申请一些实施例中,可以基于视频帧的特征信息来获取视频帧之间的相似度信息,也即步骤“获取目标视频帧与参考视频帧之间的相似度信息”可以包括:
根据参考视频帧的特征信息以及目标视频帧的特征信息,获取目标视频帧与参考视频帧之间的相似度信息。
其中,视频帧的特征信息为图像特征信息,该视频帧的特征信息可以包括一个或者多个维度的图像特征信息;比如,特征信息可以包括:颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的至少一种。
其中,颜色特征可以包括色彩分布特征等,如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量,该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成,如黑色像素的颜色值为0,白色像素 的颜色值为1时,该内容特征矩阵可以由0和/或1组成。
为了提高视频帧之间的相似度信息的准确性,在本申请一实施例中,可以采用多个维度的图像特征信息来获取相似度。比如,可以基于颜色特征和内容特征来获取目标视频帧与参考视频帧之间的相似度信息。具体地,步骤“根据参考视频帧的特征信息以及目标视频帧的特征信息,获取目标视频帧与参考视频帧之间的相似度信息”可以包括:
获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息;
获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息;
根据颜色特征相似度信息和内容特征相似度信息,获取目标视频帧与参考视频帧之间的相似度信息。
其中,颜色特征相似度信息为用于表征两个视频帧的颜色特征信息之间的相似程度或者差异程度的信息;比如,颜色特征相似度信息可以包括:两个视频帧之间的颜色特征相似百分比,该相似百分比可以表征颜色特征之间的相似程度百分比或者差异程度百分比。其中,相似程度百分比与差异程度百分比之和可以为1。
又比如,颜色特征相似度信息可以包括距离度量、相似度度量等。其中,距离度量用于衡量颜色特征在空间上存在的距离,距离越远说明颜色特征间的差异越大,该距离度量可以包括:欧几里得距离、曼哈顿距离等等。
其中,相似度度量用于计算颜色特征间的相似程度,与距离度量相反,相似度度量的值越小,说明颜色特征间相似度越小,差异越大。该相似度度量可以包括向量空间余弦相似度等,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个颜色特征间差异的大小。
其中,内容特征相似度信息为用于表征两个视频帧的内容特征信息之间的相似程度或者差异程度的信息;比如,内容特征相似度信息可以包括:两个视频帧之间的内容特征相似百分比。该相似百分比可以表征 为两个视频帧的内容特征的相似程度百分比或者差异程度百分比,其中,相似程度百分比与差异程度百分比之和可以为1。
在本申请一些实施例中,在获取参考视频帧与目标视频帧之间的相似度信息之前,本申请实施例的方法还可以包括:获取视频帧(如参考视频帧、目标视频帧)的颜色特征信息、以及获取视频帧(如参考视频帧、目标视频帧)的内容特征信息。颜色特征信息与内容特征信息的获取步骤时序不受限制,可以前后获取,也可以同时获取。其中,颜色特征信息可以包括色彩分布特征矩阵或向量,内容特征信息可以包括内容特征矩阵或向量,以下将分别介绍这两个特征的具体获取方式:
(1)、色彩分布特征的提取:
由于像素的颜色取值范围比较大,整个图像的颜色空间有非常多的颜色组合范围,如像素的RGB颜色的取值在0-255之间,整个图像的颜色空间共有1600万种颜色组合范围,为简化计算,提升关键帧提取速度,可以将颜色取值范围划分成多个不同的颜色参数值子区域,然后,基于像素的颜色值和颜色参数值子区域获取色彩分布特征信息。也即步骤“获取视频帧的颜色特征信息”可以包括:
将像素的颜色参数值区间划分成多个不同的颜色参数值子区间,颜色值参数子区间的数量大于或等于像素的颜色参数种数;
获取视频帧中颜色参数值落入相应区间组合的像素数量,区间组合由多个颜色参数值子区间组成,区间组合中子区间数量与像素点的像素的颜色参数种数相同;
根据像素数量获取视频帧的色彩分布特征信息。
例如,像素的颜色参数值有3种,即RGB值,且取值范围为0-255,那么此时,可以将取值范围0-255划分成至少3个颜色参数值子区域,这里以4个子区域为例,此时,可以将取值范围0-255划分成q1(0-63),q2(64-127),q3(128-191),q4(192-255)。由于颜色值的取值区间划分成4个子区间,那么颜色区域组合数量为4*4*4=64种,可以减少色彩分布特征的提取计算量。
在划分颜色参数值区间之后,可以获取视频帧中颜色参数值落入相应区间组合的像素数量,该区间组合由多个颜色参数值子区间组成,区间组合中子区间数量与像素点的像素的颜色参数种数相同。最终根据各区间组合及其对应的像素数量可以构建成一个矩阵。比如,可以分布获取RGB值落入区间组合(q1、q1、q1)、(q1、q2、q3)、(q1、q3、q2)、……(q3、q3、q3)……(q4、q4、q4)的像素数量。最终可以根据各区间组合及其对应的像素数量可以构建成一个64维的向量矩阵。
其中,像素的颜色参数值落入区间组合指的是:像素的各颜色参数值落入区间组合中相应的子区间。假设像素的颜色参数种类为m,m大于或等于3时,其中,像素的颜色参数值落入区间组合,指的是:第1种颜色参数值落入区间组合中第1个子区间,第2种颜色参数值落入区间组合中第2个子区间,……第j种颜色参数值落入区间组合中第j个子区间,……第m种颜色参数值落入区间组合中第m个子区间。
比如,RGB值落入区间组合指的是:R值落入区间组合的第一个子区间如q1、G值落入区间组合的第二子区间如q2、B值落入区间组合的第三个子区间如q3。
通过上述颜色特征提取方式,可以获取参考视频帧和目标视频帧的颜色特征信息。
(2)、内容特征的提取;
视频帧的内容特征提取过程包括:
对视频帧进行灰度处理,得到灰度图像;
对灰度图像进行黑白二值化处理,得到黑白图像;
根据黑白图像中像素的颜色值,获取视频帧的内容特征信息。
在黑白二值化处理时,需要获取二值化的阈值取值范围,然后,基于该阈值取值范围对灰度图像进行黑白二值化处理。其中,二值化的阈值取值范围可以根据实际需求选择两种算法:灰度平均值法(计算速度快)-统计图像所有灰度值除总像素数量求得阈值范围,大津法(准确度高)-通过穷举法将图像的灰度值从最低到最高依次代入类间差异算式求 得差异最大的值为阈值范围。
在得到黑白图像后,可以根据黑白图像中像素的颜色值(0为黑色,255白色取值为1)构建相应的特征矩阵,该矩阵即为视频帧的内容特征矩阵。如获取黑白图像对应的像素矩阵,该像素矩阵的行列数与图像的长宽一致。
通过上述内容特征提取方式可以提取参考视频帧和目标视频帧的内容特征信息。
在本申请一实施例中,当内容特征信息包括内容特征矩阵或向量,该内容特征矩阵或向量由黑色像素和/或白色像素的颜色值组成时,例如黑色像素的颜色值为0,白色像素的颜色值为1时,该内容特征矩阵由0和/或1组成。此时,可以对参考视频帧的内容特征矩阵与目标视频帧的内容特征矩阵进行像素的颜色值异或运算,基于运算结果来获取特征相似度信息。也即步骤“获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息”可以包括:
对参考视频帧的内容特征矩阵中像素的颜色值、与目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果;根据像素的运算结果,获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似度信息。
比如,当内容特征相似度信息包括内容特征相似百分比时,可以基于像素的异或运算结果获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似百分比。
其中,像素的颜色值异或运算的结果包括两种结果,一种是颜色值相同,可以用第一数字表示如0表示,另一种是颜色值不相同,可以用第二数字表示如1表示。在将参考视频帧和目标视频帧的内容特征矩阵进行像素颜色值的异或运算后,可以得到一系列运算结果,此时,可以统计第一运算结果(如第一数字0)的数量与结果总数量的百分比,或者,统计第二运算结果(如第二数字1)的数量与结果总数量的百分比,该百分比即为内容特征相似百分比。
例如,参考视频帧的内容特征矩阵B1和目标视频帧的内容特征矩阵B2包含1000个像素点,假设通过像素点的颜色值异或运算后,得到200个相同的像素点,如异或运算结果有两百个0、800个不相同的像素点,如异或运算结果有800个1,此时,内容特征相似百分比可以为(200/1000)*100%=20%。
在本申请一实施例中,当颜色特征相似度信息包括颜色特征相似百分比时,步骤“获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息”可以包括:
获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的余弦相似度;
根据余弦相似度获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似百分比。
比如,当颜色特征信息包括色彩分布特征向量时,可以获取参考视频帧的色彩分布特征向量、与目标视频帧的色彩分布特征向量之间的余弦相似度值,然后,根据余弦相似度值获取相应的颜色特征相似百分比。其中,余弦相似度值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交。
本申请实施例中,根据余弦相似度值获取颜色特征相似百分比的算法有多种,可以根据实际需求设定。例如,获取参考视频帧的色彩分布特征向量与目标视频帧的色彩分布特征向量之间的余弦相似度值为0.5,此时,可以获取颜色特征相似百分比为60%。
在本申请一实施例中,颜色特征相似度信息包括颜色特征相似百分比值;内容特征相似度信息包括内容特征相似百分比值;此时,可以对颜色特征相似百分比值与内容特征相似百分比值进行加权求和,得到加权和值,将加权和值作为目标视频帧与参考视频帧之间的相似百分比值。
其中,颜色特征相似百分比值和内容特征相似百分比值各自对应的权重可以根据实际需求设定,比如,可以设置颜色特征相似百分比值c1 的权重值为p1、内容特征相似百分比值c2对应的权重值为p2,此时,目标视频帧与参考视频帧之间的相似百分比值c=c1*p1+c2*p2。
步骤105、当相似度信息满足预设条件时,将目标视频帧确定为关键帧。
其中,预设条件可以根据实际需求设定,由于确定与参考视频帧差异较大的视频帧为关键帧;该预设条件可以表征:目标视频帧与参考视频帧之间的相似程度低、或者差异程度大。比如,当相似度信息包括相似百分比,且相似百分比表征视频帧之间的相似程度百分比时,该预设条件可以包括:相似百分比小于第一预设阈值;当相似百分比表征视频帧之间的差异程度百分比时,该预设条件可以包括:差异百分比大于第二预设阈值。
以上介绍的是两个视频帧之间的关键帧确定过程,实际应用中可以针对整个视频集合来应用上述关键帧确定过程来提取视频集合中的所有关键帧。
比如,在将目标视频帧确定为关键帧的同时或者之后,将参考视频帧替换为目标视频帧,并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完视频帧集合中所有视频帧。
当相似度信息不满足预设条件时,将参考视频帧替换为目标视频帧,并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完视频帧集合中所有视频帧。
通过上述循环可以不断地读取视频集合中的视频帧,并获取其与当前参考视频帧的相似度信息,基于相似度信息来确定关键帧,以及将当前参考视频帧替换为读取的视频帧,直到读取完视频集合中的所有视频帧。又比如,还可以在将目标视频帧确定为关键帧的同时或者之后,将参考视频帧替换为目标视频帧,并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完视频帧集合中所有视频帧。
当相似度信息不满足预设条件时,将参考视频帧替换为目标视频帧,并返回执行根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完视频帧集合中所有视频帧。
通过上述循环可以不断地读取视频集合中的视频帧,并获取其与当前参考视频帧的相似度信息,基于相似度信息来确定关键帧,直到读取完视频集合中的所有视频帧。其中,参考视频帧的替换只有在当前读取的视频帧为关键帧时,才将参考视频帧替换为当前读取的视频帧。
由上可知,本申请实施例采用获取视频对应的视频帧集合,该视频帧集合包括多个视频帧,确定视频帧集合中当前的参考视频帧,根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧,获取目标视频帧与参考视频帧之间的相似度信息,当相似度信息满足预设条件时,将目标视频帧确定为关键帧。该方案可以基于视频帧之间的相似度来提取视频关键帧,可以快速地从视频中提取有效的视频关键帧,提升了视频关键帧提取的速度,并且该方案不依赖于视频的帧率,对于各种帧率的视频均可以适用,提升了视频关键帧提取的精确性以及灵活性。
在本申请一实施例中,提供了一种关键帧提取方法,可以由服务器的处理器执行,如图2所示,该关键帧提取方法包括以下步骤。
步骤201、获取视频对应的视频帧集合,视频帧集合包括多个视频帧。
其中,视频是由一系列的视频帧即视频图片组成的,每个视频对应一个视频帧集合,该集合包含多个视频帧,该集合内存在普通视频帧以及关键视频帧。本申请实施例的目的是了提取视频集合内的关键视频帧。
该视频可以从终端获取,也可以从其他设备获取,比如,可以从其他服务器中获取该视频等等。
比如,获取视频A对应的视频集合a{帧1、帧2……帧n}。
为了便于关键帧的提取,本申请实施例还可以对视频进行标准化处理,如设定视频序列帧的像素尺寸如:100*100,和帧频率如每秒1帧。
步骤202、确定视频帧集合中当前的参考视频帧。
在开始提取关键帧时,可以从视频帧集合中选取一个视频帧作为参考视频帧,比如,可以选择起始视频帧作为参考视频帧。
例如,在开始提取关键帧时,可以选择视频集合a中帧1作为参考视频帧
步骤203、获取参考视频帧的特征信息。
其中,视频帧的特征信息为图像特征信息,该视频帧的特征信息可以包括一个或者多个维度的图像特征信息;比如,特征信息可以包括:颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的至少一种。
其中,颜色特征可以包括色彩分布特征等,如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量,该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成,如黑色像素的颜色值为0,白色像素的颜色值为1时,该内容特征矩阵可以由0和/或1组成。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
步骤204、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。
比如,可以从视频集合中提取参考视频帧的下一个视频帧作为目标视频帧。
譬如,选择视频集合a中帧2作为目标视频帧。
步骤205、获取目标视频帧的特征信息。
其中,视频帧的特征信息为图像特征信息,该视频帧的特征信息可以包括一个或者多个维度的图像特征信息;比如,特征信息可以包括:颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的至少一种。
其中,颜色特征可以包括色彩分布特征等,如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量,该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成,如黑色像素的颜色值为0,白色像素 的颜色值为1时,该内容特征矩阵可以由0和/或1组成。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
步骤206、根据参考视频帧的特征信息以及目标视频帧的特征信息,获取目标视频帧与参考视频帧之间的相似度信息。
其中,相似度信息为表征两个视频帧之间的相似程度或者差异程度的信息;比如,相似度信息可以包括:两个视频帧之间的相似百分比,该相似百分比可以表征两个视频帧之间的相似程度百分比或者差异程度百分比,具体表征情况可以根据实际需求设定其中,相似程度百分比与差异程度百分比之和可以为1。比如,相似百分比为70%可以表征视频帧之间的70%相似,或者70%差异。
又比如,相似度信息可以包括距离度量、相似度度量等。其中,距离度量用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大,该距离度量可以包括:欧几里得距离、曼哈顿距离等等。
其中,相似度度量用于计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。该相似度度量可以包括向量空间余弦相似度等,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
为了提高视频帧之间的相似度信息的准确性,在一实施例中,可以采用多个维度的图像特征信息来获取相似度。比如,可以基于颜色特征和内容特征来获取目标视频帧与参考视频帧之间的相似度信息。
具体地,获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息;获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息;根据颜色特征相似度信息和内容特征相似度信息,获取目标视频帧与参考视频帧之间的相似度信息。
当颜色特征相似度信息包括颜色特征相似百分比时,其获取方式为:
获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之 间的余弦相似度;
根据余弦相似度获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似百分比。
当内容特征信息包括内容特征特征矩阵或向量,且内容特征相似度信息包括内容特征相似百分比时,该内容特征矩阵或向量由黑色像素和/或白色像素的颜色值组成,内容特征相似百分比获取方式为:
对参考视频帧的内容特征矩阵中像素的颜色值、与目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果;根据像素的运算结果,获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似百分比。
在获取颜色特征相似度信息和内容特征相似度信息之后,可以基于这两个信息获取视频帧之间的相似度信息。比如,颜色特征相似度信息包括颜色特征相似百分比值;内容特征相似度信息包括内容特征相似百分比值;此时,可以对颜色特征相似百分比值与内容特征相似百分比值进行加权求和,得到加权和值,将加权和值作为目标视频帧与参考视频帧之间的相似百分比值。
步骤207、判断相似度信息满足预设条件,若是,则执行步骤208,若否,则执行步骤209。
其中,预设条件可以根据实际需求设定,由于确定与参考视频帧差异较大的视频帧为关键帧;该预设条件可以表征:目标视频帧与参考视频帧之间的相似程度低、或者差异程度大。比如,当相似度信息包括相似百分比,且相似百分比表征视频帧之间的相似程度百分比时,该预设条件可以包括:相似百分比小于第一预设阈值;当相似百分比表征视频帧之间的差异程度百分比时,该预设条件可以包括:差异百分比大于第二预设阈值。
步骤208、将目标视频帧确定为关键帧,将参考视频帧替换为目标视频帧,返回执行步骤204直到提取完视频帧集合中所有视频帧。
比如,将目标视频帧标记为关键帧,将当前参考视频帧替换为帧2, 然后,返回步骤204提取下一帧即帧3作为目标视频帧。
步骤209、将参考视频帧替换为目标视频帧,返回执行步骤204直到提取完视频帧集合中所有视频帧。
将当前参考视频帧替换为帧2,然后,返回步骤204提取下一帧即帧3作为目标视频帧。
采用图2所示的关键提取方法,可以逐一比较相邻视频帧的差异,基于差异来确定视频帧集合中所有关键帧。
在本申请一实施例中,提供了一种关键帧提取方法,可以由服务器的处理器执行,如图3所示,该关键帧提取方法包括以下步骤。
步骤301、获取视频对应的视频帧集合,视频帧集合包括多个视频帧。
其中,视频是由一系列的视频帧即视频图片组成的,每个视频对应一个视频帧集合,该集合包含多个视频帧,该集合内存在普通视频帧以及关键视频帧。本申请实施例的目的是了提取视频集合内的关键视频帧。
该视频可以从终端获取,也可以从其他设备获取,比如,可以从其他服务器中获取该视频等等。
比如,获取视频A对应的视频集合a{帧1、帧2……帧n}。
为了便于关键帧的提取,本申请实施例还可以对视频进行标准化处理,如设定视频序列帧的像素尺寸如:100*100,和帧频率如每秒1帧。
步骤302、从视频集合中选取一个视频帧作为当前的参考视频帧。
在开始提取关键帧时,可以从视频帧集合中选取一个视频帧作为参考视频帧,比如,可以选择起始视频帧作为参考视频帧。
例如,在开始提取关键帧时,可以选择视频集合a中帧1作为参考视频帧。
步骤303、获取参考视频帧的特征信息。
其中,视频帧的特征信息为图像特征信息,该视频帧的特征信息可以包括一个或者多个维度的图像特征信息;比如,特征信息可以包括:颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的 至少一种。
其中,颜色特征可以包括色彩分布特征等,如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量,该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成,如黑色像素的颜色值为0,白色像素的颜色值为1时,该内容特征矩阵可以由0和/或1组成。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
步骤304、根据参考视频帧从视频帧集合中提取相应的一个视频帧作为目标视频帧。
比如,可以从视频集合中提取参考视频帧的下一个视频帧作为目标视频帧。
譬如,选择视频集合a中帧2作为目标视频帧。
步骤305、获取目标视频帧的特征信息。
其中,视频帧的特征信息为图像特征信息,该视频帧的特征信息可以包括一个或者多个维度的图像特征信息;比如,特征信息可以包括:颜色特征、内容特征、纹理特征、内容特征、形状特征等图像特征中的至少一种。
其中,颜色特征可以包括色彩分布特征等,如色彩分布矩阵或向量。该内容特征可以包括内容特征矩阵或向量,该内容特征矩阵可以由黑色像素和/或白色像素的颜色值组成,如黑色像素的颜色值为0,白色像素的颜色值为1时,该内容特征矩阵可以由0和/或1组成。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
步骤306、根据参考视频帧的特征信息以及目标视频帧的特征信息,获取目标视频帧与参考视频帧之间的相似度信息。
其中,相似度信息为表征两个视频帧之间的相似程度或者差异程度的信息;比如,相似度信息可以包括:两个视频帧之间的相似百分比,该相似百分比可以表征两个视频帧之间的相似程度百分比或者差异程 度百分比,具体表征情况可以根据实际需求设定其中,相似程度百分比与差异程度百分比之和可以为1。比如,相似百分比为70%可以表征视频帧之间的70%相似,或者70%差异。
又比如,相似度信息可以包括距离度量、相似度度量等。其中,距离度量用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大,该距离度量可以包括:欧几里得距离、曼哈顿距离等等。
其中,相似度度量用于计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。该相似度度量可以包括向量空间余弦相似度等,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
为了提高视频帧之间的相似度信息的准确性,在一实施例中,可以采用多个维度的图像特征信息来获取相似度。比如,可以基于颜色特征和内容特征来获取目标视频帧与参考视频帧之间的相似度信息。
具体地,获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似度信息;获取参考视频帧的内容特征信息、与目标视频帧的内容特征信息之间的内容特征相似度信息;根据颜色特征相似度信息和内容特征相似度信息,获取目标视频帧与参考视频帧之间的相似度信息。
当颜色特征相似度信息包括颜色特征相似百分比时,其获取方式为:
获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的余弦相似度;
根据余弦相似度获取参考视频帧的颜色特征信息、与目标视频帧的颜色特征信息之间的颜色特征相似百分比。
当内容特征信息包括内容特征特征矩阵或向量,且内容特征相似度信息包括内容特征相似百分比时,该内容特征矩阵或向量由黑色像素和/或白色像素的颜色值组成,内容特征相似百分比获取方式为:
对参考视频帧的内容特征矩阵中像素的颜色值、与目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果; 根据像素的运算结果,获取参考视频帧的内容特征矩阵、与目标视频帧的内容特征矩阵之间的内容特征相似百分比。
在获取颜色特征相似度信息和内容特征相似度信息之后,可以基于这两个信息获取视频帧之间的相似度信息。比如,颜色特征相似度信息包括颜色特征相似百分比值;内容特征相似度信息包括内容特征相似百分比值;此时,可以对颜色特征相似百分比值与内容特征相似百分比值进行加权求和,得到加权和值,将加权和值作为目标视频帧与参考视频帧之间的相似百分比值。
步骤307、判断相似度信息满足预设条件,若是,则执行步骤308,若否,则执行步骤309。
其中,预设条件可以根据实际需求设定,由于确定与参考视频帧差异较大的视频帧为关键帧;该预设条件可以表征:目标视频帧与参考视频帧之间的相似程度低、或者差异程度大。比如,当相似度信息包括相似百分比,且相似百分比表征视频帧之间的相似程度百分比时,该预设条件可以包括:相似百分比小于第一预设阈值;当相似百分比表征视频帧之间的差异程度百分比时,该预设条件可以包括:差异百分比大于第二预设阈值。
步骤308、将目标视频帧确定为关键帧,将参考视频帧替换为目标视频帧,并返回执行步骤304直到提取完视频帧集合中所有视频帧。
比如,可以将目标视频帧标记为关键帧,并将当前参考视频帧替换为目标视频帧,如帧2。之后返回步骤304提取帧3作为目标视频帧。
步骤309、根据目标视频帧从视频帧集合中提取相应的一个视频帧,并将目标视频帧替换为提取的视频帧,返回执行步骤305直到提取完视频帧集合中所有视频帧。
比如,提取帧2的下一帧即帧3作为目标视频帧,然后返回步骤305提取目标视频帧的特征信息进行关键帧提取。
采用图3所示的关键提取方法,可以比较其他视频帧与当前关键视 频帧的差异,基于差异来确定视频帧集合中其他关键帧。
为便于用户编辑视频、存储视频片段以及检索视频片段,在上述方法基础上,本申请实施例提供的方法可以在提取完视频的所有关键帧之后,还包括:
根据关键帧对视频进行剪辑,得到若干视频片段;
将视频片段中关键帧的特征信息作为视频片段的指纹标签。
其中,关键帧的特征信息包括一个或者多个维度的图像特征信息,比如,可以包括颜色特征信息和内容特征信息。此时,可以将多个维度的图像特征信息作为视频片段的指纹标签。这样可以方便对视频片段进行分类存储,以及便于检索视频片段。
比如,从视频帧集合a{帧1、帧2……帧n}确定帧1、帧i、帧k、帧f为关键帧后,可以将剪辑成视频片段1{帧1……帧i-1}、视频片段2{帧i……帧k-1}、视频片段3{帧k……帧f-1}、视频片段4{帧f……帧n}。
在剪辑之后,可以将帧1的特征信息如颜色特征信息和内容特征信息作为视频片段1的指纹标签,将帧i的特征信息如颜色特征信息和内容特征信息作为视频片段2的指纹标签,将帧k的特征信息如颜色特征信息和内容特征信息作为视频片段3的指纹标签。
在获取视频片段的指纹标签之后,可以基于视频片段的指纹标签对视频片段进行分类存储,通过机器学习算法对已经保存入库的视频片段根据颜色特征矩阵和特征矩阵进行聚类、分类存储。用户后续可以根据标签、或上传其它图片、视频等素材根据特征相似性进行检索。
在本申请一些实施例中,为便于视频的分类存储、检索以及匹配,本申请实施例在上述方法基础上,还可以设置视频片段的文字标签,后续便可以通过文字便签在视频内容上匹配、检索相应的视频片段,提升视频的检索速度和准确度。
具体地,在提取完视频的所有关键帧之后,本申请实施例的方法还可以包括:
获取关键帧对应的视频时间点;
根据视频时间点选取相应的时间段,视频时间点位于时间段内;
对时间段对应的音频信息进行语音识别,得到文字内容;
根据文字内容获取关键帧所在视频片段的文字标签。
其中,时间段由连续的时间点组成的时间窗,该时间段的选取有多种方式,比如可以以视频时间点为终点选取视频时间点之前的第一时间段、以视频时间点为起点选取视频时间点之后的第二时间段,通过第一时间段和第二时间段组成时间段。该第一时间段和第二时间段可以是固定的,即时间段时固定的,如选取视频时间点前后各5s组成所需的时间段。
譬如,从视频帧集合a{帧1、帧2……帧n}确定帧1、帧i、帧k、帧f为关键帧后,可以将剪辑成视频片段1{帧1……帧i-1}、视频片段2{帧i……帧k-1}、视频片段3{帧k……帧f-1}、视频片段4{帧f……帧n},可以获取帧i对应的视频时间点t如3:10,然后,根据视频时间点t如3:10确定一个时间段,如取视频时间点t前后各10s,形成一个时间段T即时间窗(3:00-3:20),提取时间段T对应的音频信息进行语音识别,得到文字内容,对文字内进行分词统计和自然语分析处理,根据处理结果获取相应的目标文字内容,将该目标文字内容作为视频片段2的文字标签。同理对于其他视频片段可以采用前述类似方式设置文字标签。
在一些实施例中,时间段可以不固定,其可以基于相邻关键帧之间的时间间隔来动态确定语音识别的音频时间段,具体地,步骤“根据视频时间点选取相应的时间段”可以包括:
获取关键帧与其相邻关键帧之间的时间间隔;
根据视频时间点和时间间隔选取相应的时间段。
比如,获取关键帧i对应的视频时间点为t如1:00,关键帧i与其相邻关键帧k之间的时间间隔为T1,此时,根据时间间隔T1以视频时间点为终点选取视频时间点之前的第一时间段T2如5s、以视频时间点为起点选取视频时间点之后的第二时间段T3如10s,根据第一时间段T2 和第二时间段T3组成时间段T(1:05-1:15),然后,对时间段T对应的音频信息进行语音识别。
本申请实施例在剪辑视频片段之后,可以将关键帧的特征信息(颜色特征信息和内容特征信息)作为相应视频片段的指纹标签,并且还可以基于关键帧的视频时间点对音频信息进行语音识别,从而根据语音识别的文字内容设置视频片段的文字标签。此时,视频片段同时具有指纹标签和文字标签,便于对视频片段的聚类、分类存储,以及提升视频片段的检索和匹配速度。
在本申请一实施例中,还可以对视频流进行序列帧化处理后,单一帧图像就可以作为普通的图像进行分析和处理,因此可以选择图像的特征信息如颜色、内容形态作为图像的特征值作为判断的依据。比如,对视频A进行序列帧化处理,这样,可以将帧1的特征信息作为帧1的指纹标签,便于后续对视频帧的分类存储和检索。
由上可知,本申请实施例提供的方案可以采用颜色特征分布特征和内容特征两个维度获取视频帧之间的相似度信息如差异程度信息,并基于相似度信息提取关键视频帧,该方案不依赖视频的帧频率,帧与帧之间可以有较大的跨度,如:每秒25、15、1、3帧等均可进行关键帧特征的提取,适用性比较强。
另外,该方案还可以提取的特征信息作为视频单帧或者视频片段的特征信息,可以形成唯一性的特征指纹,可用于对比其它图片、视频动态影像等相似度、匹配度的计算和聚类。
同时,该方案还可以在查找到关键帧时间点信息后对时间点前后一段时间窗内的语音进行识别,对检索到相关标签的视频进行自动归类。形成以镜头为颗粒度的视频素材库。
在本申请一实施例中,提供了一种关键帧提取方法,可以由服务器的处理器执行,参考图4和图5,该关键帧提取方法包括以下步骤。
步骤401、终端向服务器发送视频数据。
步骤402、服务器对视频数据进行标准化处理,得到视频帧集合。
比如,设定视频序列帧的像素尺寸如:100*100,和帧频率如每秒1帧。对视频A进行标准化处理后得到视频集合a{帧1、帧2……帧n}。
参考图6,为关键帧提取系统的代码架构示意图,终端即前端采用采用HTML+JS实现用户交互界面。服务器即服务端,数据端即数据库采用MYSQl实现。
实际应用中,服务端通过FFMPEG对用户上传视频进行标准化处理。
步骤403、服务器从视频集合中选取一个视频帧作为当前的参考视频帧。
在开始提取关键帧时,可以从视频帧集合中选取一个视频帧作为参考视频帧,比如,可以选择起始视频帧作为参考视频帧。
例如,在开始提取关键帧时,可以选择视频集合a中帧1作为参考视频帧
步骤404、服务器获取参考视频帧的色彩分布特征矩阵和内容特征矩阵。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
比如,对帧进行色彩分布特征的提取:RGB颜色的取值范围为0-255,即整个图像的颜色空间共有1600万种颜色组合范围,为简化计算数量对色彩的范围分为4个区域(0-63,64-127,128-191,192-255),组合数量缩小为64种。对当前帧进行颜色组合的统计得到一个64维的向量结果。
对帧进行内容特征的提取:首先对当前帧进行灰度化处理,之后将灰度图像进行二值化(黑白二值),其中二值化的阈值取值范围可以根据实际需求选择两种算法:灰度平均值法(计算速度快)-统计图像所有灰度值除总像素数量求得阈值范围,大津法(准确度高)-通过穷举法将图像的灰度值从最低到最高依次代入类间差异算式求得差异最大的值为阈值范围。图像二值化后求得图像“长乘宽”的像素矩阵其中0为黑色,255白色取值为1形成内容特征矩阵。
步骤405、服务器从视频帧集合中提取参考视频帧的下一个视频帧作为目标视频帧。
譬如,选择视频集合a中帧1的下一个视频帧即帧2作为目标视频帧。
步骤406、服务器获取目标视频帧的色彩分布特征矩阵和内容特征矩阵。
其中,内容特征和色彩分布特征的提取过程可以参考上述的关于这两种特征提取的具体过程(1)、(2)。
步骤407、服务器获取参考视频帧的色彩分布特征矩阵、与目标视频帧的色彩分布图特征矩阵之间的余弦相似度值,并根据余弦相似度值获取色彩分布特征相似百分比。
其中,色彩分布特征相似百分比可以表征色彩分布特征的相似程度或者差异程度,如百分比为30%时,可以表示两个视频帧的色彩分布特征30%相似,或者,表示两个视频帧的色彩分布特征有30%差别。具体百分比表示差异或者相同可以根据实际需求选择。
步骤408、服务器将参考视频帧的内容特征矩阵、和目标视频帧的内容特征矩阵进行像素颜色值异或运算,并统计运算结果得到相应内容人相似百分比。
其中,内容特征相似百分比可以表征内容特征的相似程度或者差异程度,如百分比为40%时,可以表示两个视频帧的内容特征征40%相似,或者,表示两个视频帧的内容特征有40%差别。具体百分比表示差异或者相同可以根据实际需求选择。
内容特征相似百分比和色彩分布特征百分比的表征的程度是一致的,如均表征相同程度,或者均表征差异程度。
步骤407和步骤408的时序不受序号的限制可以步骤408在前,步骤407在后,或者同时执行。
步骤409、服务器对色彩分布特征相似百分比值与内容特征相似百分比值进行加权求和,得到参考视频帧与目标视频帧之间的相似百分比。
其中,色彩分布特征相似百分比值和内容特征相似百分比值各自对应的权重可以根据实际需求设定,比如,可以设置色彩分布特征相似百分比值c1的权重值为p1、内容特征相似百分比值c2对应的权重值为p2,此时,目标视频帧与参考视频帧之间的相似百分比值c=c1*p1+c2*p2。
步骤410、服务器确定参考视频帧与目标视频帧之间的相似百分比是否满足预设百分比条件,若满足,则执行步骤411,若否,则执行步骤412。
比如,当参考视频帧与目标视频帧之间的相似百分比表征二者之间的相似程度时,可以确定该相似百分比是否小于预设阈值,若小于,则满足预设百分比条件,确定目标视频帧为关键帧。
又比如,当参考视频帧与目标视频帧之间的相似百分比表征二者之间的差异程度时,可以确定该相似百分比是否大于预设阈值,若小于,则满足预设百分比条件,确定目标视频帧为关键帧。
步骤411、服务器标记目标视频帧为关键视频帧。
步骤412、服务器将参考视频帧替换为目标视频帧,并返回执行步骤405直到提取完视频帧集合中所有视频帧。
步骤413、当提取完视频帧集合中所有视频帧时,服务器根据关键视频帧对视频进行剪辑,得到若干视频片段。
步骤414、服务器将视频片段中关键视频帧的色彩分布特征矩阵和内容特征矩阵作为该视频片段的指纹标签;同时提取关键视频帧对应的视频时间点前后一段时间窗的音频文件,对音频文件进行语音识别,并对识别结果进行分词统计和自然语分析处理,基于处理结果设置视频片段的文字标签。
步骤415、服务器根据视频片段的指纹标签和文字标签,对视频片段进行分类存储。
参考图6,服务端通过机器学习算法(Mchine Learning Library)对已经保存入库视频片段进行分类存储,将视频片段存储到数据端。
步骤416、服务器向终端发送视频片段。
其中,步骤414-415的时序不受序号的限制,比如步骤416可以先执行,步骤414和415后执行等等。
此外,服务器还可以对视频流进行序列帧化处理后,单一帧图像就可以作为普通的图像进行分析和处理,因此可以选择图像的特征信息如颜色、内容形态作为图像的特征值作为判断的依据,便于单个视频帧的分类存储和检索。
由上可知,本申请实施例提供的方案可以采用颜色特征分布特征和内容特征两个维度获取视频帧之间的相似度信息如相同程度信息,并基于相似度信息提取关键视频帧,该方案可以快速提取关键视频帧,提升了关键视频帧的提取速度,并且该方案不依赖视频的帧频率,帧与帧之间可以有较大的跨度,如:每秒25、15、1、3帧等均可进行关键帧特征的提取,适用性比较强。
另外,该方案还可以提取的特征信息作为视频单帧或者视频片段的特征信息,可以形成唯一性的特征指纹,可用于对比其它图片、视频动态影像等相似度、匹配度的计算和聚类。
同时,该方案还可以在查找到关键帧时间点信息后对时间点前后一段时间窗内的语音进行识别,对检索到相关标签的视频进行自动归类。形成以镜头为颗粒度的视频素材库。
为了便于更好的实施本申请实施例提供的关键帧提取方法,在一实施例中还提供了一种关键帧提取装置。其中名词的含义与上述关键帧提取方法中相同,具体实现细节可以参考方法实施例中的说明。
在本申请一实施例中,还提供了一种关键帧提取装置,如图7a所示,该关键帧提取装置可以包括:视频获取单元501、参考帧确定单元502、目标帧确定单元503、相似度获取单元504以及关键帧确定单元505。
视频获取单元501,用于获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;
参考帧确定单元502,用于确定所述视频帧集合中当前的参考视频帧;
目标帧确定单元503,用于根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;
相似度获取单元504,用于获取所述目标视频帧与所述参考视频帧之间的相似度信息;
关键帧确定单元505,用于当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
在本申请一实施例中,所述相似度获取单元504,可以用于根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息。
在本申请一实施例中,所述特征信息包括颜色特征信息和内容特征信息;参考图7b,相似度获取单元504可以包括:
颜色相似度获取子单元5041,用于获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息;
内容相似度获取子单元5042,用于获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息;
帧相似度获取子单元5043,用于根据所述颜色特征相似度信息和所述内容特征相似度信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息。
在本申请一实施例中,所述颜色特征相似度信息包括颜色特征相似百分比值;所述内容特征相似度信息包括内容特征相似百分比值;
其中,所述帧相似度获取子单元5043,可以用于:对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和,得到加权和值;将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。
在本申请一实施例中,所述内容特征信息包括内容特征矩阵,所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成;
其中,内容相似度获取子单元5042,可以用于:
对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视 频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果;
根据所述像素的运算结果,获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。
在本申请一实施例中,参考图7c,关键帧提取装置还可以包括特征获取单元506;
所述特征获取单元506,用于在相似度获取单元504获取相似度信息之前,获取所述目标视频帧的颜色特征信息;获取所述目标视频帧的内容特征信息。
其中,特征获取单元506,可以用于:
将像素的颜色参数值区间划分成多个不同的颜色参数值子区间,所述颜色值参数子区间的数量大于或等于像素的颜色参数种数;
获取所述目标视频帧中颜色参数值落入相应区间组合的像素数量,所述区间组合由多个颜色参数值子区间组成,所述区间组合中子区间数量与像素点的像素的颜色参数种数相同;
根据所述像素数量获取所述目标视频帧的色彩分布特征信息。
其中,特征获取单元506,可以用于:
对所述目标视频帧进行灰度处理,得到灰度图像;
对所述灰度图像进行黑白二值化处理,得到黑白图像;
根据所述黑白图像中像素的颜色值,获取所述目标视频帧的内容特征信息。
在本申请一实施例中,参考图7d,关键帧提取装置还可以包括替换单元507;
所述替换单元507,用于:
在所述关键帧确定单元505将所述目标视频帧确定为关键帧的同时或者之后,将所述参考视频帧替换为所述目标视频帧,并触发所述目标帧确定单元503执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完所述视频帧集合中所 有视频帧。
其中,替换单元507还可以用于:
当所述相似度信息不满足预设条件时,将所述参考视频帧替换为所述目标视频帧,并触发目标帧确定单元503执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完所述视频帧集合中所有视频帧;
或者
当所述相似度信息不满足预设条件时,根据所述目标视频帧从所述视频帧集合中提取相应的一个视频帧,并将所述目标视频帧替换为提取的视频帧;
触发目标帧确定单元503执行获取所述目标视频帧与所述参考视频帧之间的相似度信息的步骤,直到提取完视频集合中所有视频帧。
在本申请一实施例中,参考图7e,关键帧提取装置还可以包括:
剪辑单元508,用于在提取完所述视频的所有关键帧之后,根据所述关键帧对所述视频进行剪辑,得到若干视频片段;
指纹标签设置单元509,用于将所述视频片段中关键帧的特征信息作为所述视频片段的指纹标签。
在本申请一实施例中,参考图7f,关键帧提取装置还可以包括:
文字标签设置单元510,可以用于:
获取所述关键帧对应的视频时间点;
根据所述视频时间点选取相应的时间段,所述视频时间点位于所述时间段内;
对所述时间段对应的音频信息进行语音识别,得到文字内容;
根据所述文字内容获取所述关键帧所在视频片段的文字标签。
其中,文字标签设置单元510,可以用于获取所述关键帧与其相邻关键帧之间的时间间隔;根据所述视频时间点和所述时间间隔选取相应的时间段。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该关键帧提取装置具体可以集成在终端等计算设备中,比如以客户端的形式集成在终端中,该终端可以为手机、平板电脑等设备。
由上可知,本申请实施例关键帧提取装置采用视频获取单元501获取视频对应的视频帧集合,该视频帧集合包括多个视频帧,由参考帧确定单元502确定视频帧集合中当前的参考视频帧,由目标帧确定单元503根据参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧,由相似度获取单元504获取目标视频帧与所述参考视频帧之间的相似度信息,当相似度信息满足预设条件时,由关键帧确定单元505将目标视频帧确定为关键帧。该方案可以基于视频帧之间的相似度来提取视频关键帧,可以快速地从视频中提取有效的视频关键帧,提升了视频关键帧提取的速度,并且该方案不依赖于视频的帧率,对于各种帧率的视频均可以适用,提升了视频关键帧提取的精确性以及灵活性。
参考图8,本申请实施例提供了一种服务器800,可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、射频(Radio Frequency,RF)电路803、电源804、输入单元805、以及显示单元806等部件。本领域技术人员可以理解,图8中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器801是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在本申请一些实施例中,处理器801可包括一个或多个处理核心;在本申请一些实施例中,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。 可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。
RF电路803可用于收发信息过程中,信号的接收和发送。
服务器还包括给各个部件供电的电源804(比如电池),优选的,电源可以通过电源管理系统与处理器801逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
该服务器还可包括输入单元805,该输入单元805可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元806,该显示单元806可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体在本实施例中,服务器中的处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序(即机器可读指令),从而实现本申请任一实施例所述的关键帧提取方法,例如:
获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;确定所述视频帧集合中当前的参考视频帧;根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;获取所述目标视频帧与所述参考视频帧之间的相似度信息;当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
由上可知,本申请实施例提供的服务器可以获取视频对应的视频帧集合,该视频帧集合包括多个视频帧,确定视频帧集合中当前的参考视频帧,根据参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧,获取目标视频帧与所述参考视频帧之间的相似度信息,当相似度信息满足预设条件时,将目标视频帧确定为关键帧。该方案可以 基于视频帧之间的相似度来提取视频关键帧,可以快速地从视频中提取有效的视频关键帧,提升了视频关键帧提取的速度,并且该方案不依赖于视频的帧率,对于各种帧率的视频均可以适用,提升了视频关键帧提取的精确性以及灵活性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一非易失性计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本申请实施例所提供的一种关键帧提取方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

  1. 一种关键帧提取方法,由计算设备执行,包括:
    获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;
    确定所述视频帧集合中当前的参考视频帧;
    根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;
    获取所述目标视频帧与所述参考视频帧之间的相似度信息;
    当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
  2. 如权利要求1所述的关键帧提取方法,所述获取所述目标视频帧与所述参考视频帧之间的相似度信息,包括:
    根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息。
  3. 如权利要求2所述的关键帧提取方法,所述特征信息包括颜色特征信息和内容特征信息;
    所述根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息,包括:
    获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息;
    获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息;
    根据所述颜色特征相似度信息和所述内容特征相似度信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息。
  4. 如权利要求3所述的关键帧提取方法,所述颜色特征相似度信息包括颜色特征相似百分比值;所述内容特征相似度信息包括内容特征相似百分比值;
    所述根据所述颜色特征相似度信息和所述内容特征相似度信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息,包括:
    对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和,得到加权和值;
    将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。
  5. 如权利要求3所述的关键帧提取方法,所述内容特征信息包括内容特征矩阵,所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成;
    所述获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息,包括:
    对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果;
    根据所述像素的运算结果,获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。
  6. 如权利要求2所述的关键帧提取方法,在获取相似度信息之前,所述关键帧提取方法还包括:
    获取所述目标视频帧的颜色特征信息;
    获取所述目标视频帧的内容特征信息。
  7. 如权利要求6所述的关键帧提取方法,所述获取所述目标视频帧的颜色特征信息,包括:
    将像素的颜色参数值区间划分成多个不同的颜色参数值子区间,所述颜色值参数子区间的数量大于或等于像素的颜色参数种数;
    获取所述目标视频帧中颜色参数值落入相应区间组合的像素数量,所述区间组合由多个颜色参数值子区间组成,所述区间组合中子区间数量与像素点的像素的颜色参数种数相同;
    根据所述像素数量获取所述目标视频帧的色彩分布特征信息。
  8. 如权利要求6所述的关键帧提取方法,所述获取所述目标视频帧的内容特征信息,包括:
    对所述目标视频帧进行灰度处理,得到灰度图像;
    对所述灰度图像进行黑白二值化处理,得到黑白图像;
    根据所述黑白图像中像素的颜色值,获取所述目标视频帧的内容特征信息。
  9. 如权利要求1-8任一项所述的关键帧提取方法,还包括:
    在将所述目标视频帧确定为关键帧的同时或者之后,将所述参考视频帧替换为所述目标视频帧,并返回执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完所述视频帧集合中所有视频帧。
  10. 如权利要求9所述的关键帧提取方法,还包括:
    当所述相似度信息不满足预设条件时,将所述参考视频帧替换为所述目标视频帧,并返回执行根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧的步骤,直到提取完所述视频帧集合中所有视频帧。
  11. 如权利要求9所述的关键帧提取方法,还包括:
    当所述相似度信息不满足预设条件时,根据所述目标视频帧从所述视频帧集合中提取相应的一个视频帧,并将所述目标视频帧替换为提取的视频帧;
    返回执行获取所述目标视频帧与所述参考视频帧之间的相似度信息的步骤,直到提取完视频集合中所有视频帧。
  12. 如权利要求1所述的关键帧提取方法,还包括:
    根据所述关键帧对所述视频进行剪辑,得到若干视频片段;
    将所述视频片段中关键帧的特征信息作为所述视频片段的指纹标签。
  13. 如权利要求1所述的关键帧提取方法,还包括:
    获取所述关键帧对应的视频时间点;
    根据所述视频时间点选取相应的时间段,所述视频时间点位于所述时间段内;
    对所述时间段对应的音频信息进行语音识别,得到文字内容;
    根据所述文字内容获取所述关键帧所在视频片段的文字标签。
  14. 如权利要求13所述的关键帧提取方法,所述根据所述视频时间点选取相应的时间段,包括:
    获取所述关键帧与其相邻关键帧之间的时间间隔;
    根据所述视频时间点和所述时间间隔选取相应的时间段。
  15. 一种关键帧提取装置,包括:
    处理器以及与所述处理器相连接的存储器,所述存储器中存储有可由所述处理器执行的机器可读指令,所述处理器执行所述机器可读指令完成以下操作:
    获取视频对应的视频帧集合,所述视频帧集合包括多个视频帧;
    确定所述视频帧集合中当前的参考视频帧;
    根据所述参考视频帧从所述视频帧集合中提取相应的一个视频帧作为目标视频帧;
    获取所述目标视频帧与所述参考视频帧之间的相似度信息;
    当所述相似度信息满足预设条件时,将所述目标视频帧确定为关键帧。
  16. 如权利要求15所述的关键帧提取装置,所述处理器执行所述机器可读指令完成以下操作:根据所述参考视频帧的特征信息以及所述目标视频帧的特征信息,获取所述目标视频帧与所述参考视频帧之间的相似度信息。
  17. 如权利要求16所述的关键帧提取装置,所述特征信息包括颜色特征信息和内容特征信息;
    所述处理器执行所述机器可读指令完成以下操作:
    获取所述参考视频帧的颜色特征信息、与所述目标视频帧的颜色特征信息之间的颜色特征相似度信息;
    获取所述参考视频帧的内容特征信息、与所述目标视频帧的内容特征信息之间的内容特征相似度信息;
    根据所述颜色特征相似度信息和所述内容特征相似度信息,获取所 述目标视频帧与所述参考视频帧之间的相似度信息。
  18. 如权利要求17所述的关键帧提取装置,所述颜色特征相似度信息包括颜色特征相似百分比值;所述内容特征相似度信息包括内容特征相似百分比值;
    所述处理器执行所述机器可读指令完成以下操作:对所述颜色特征相似百分比值与所述内容特征相似百分比值进行加权求和,得到加权和值;将所述加权和值作为所述目标视频帧与所述参考视频帧之间的相似百分比值。
  19. 如权利要求17所述的关键帧提取装置,所述内容特征信息包括内容特征矩阵,所述内容特征矩阵由黑色像素和/或白色像素的颜色值组成;
    所述处理器执行所述机器可读指令完成以下操作:
    对所述参考视频帧的内容特征矩阵中像素的颜色值、与所述目标视频帧的内容特征矩阵中相应像素的颜色值进行异或运算,得到像素的运算结果;
    根据所述像素的运算结果,获取所述参考视频帧的内容特征矩阵、与所述目标视频帧的内容特征矩阵之间的内容特征相似度信息。
  20. 一种非易失性计算机可读存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现如权利要求1-14任一项所述的关键帧提取方法。
PCT/CN2018/112998 2017-10-31 2018-10-31 一种关键帧提取方法、装置和存储介质 WO2019085941A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711050676.1 2017-10-31
CN201711050676.1A CN109947991A (zh) 2017-10-31 2017-10-31 一种关键帧提取方法、装置和存储介质

Publications (1)

Publication Number Publication Date
WO2019085941A1 true WO2019085941A1 (zh) 2019-05-09

Family

ID=66332806

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/112998 WO2019085941A1 (zh) 2017-10-31 2018-10-31 一种关键帧提取方法、装置和存储介质

Country Status (2)

Country Link
CN (1) CN109947991A (zh)
WO (1) WO2019085941A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110929605A (zh) * 2019-11-11 2020-03-27 中国建设银行股份有限公司 视频关键帧的保存方法、装置、设备及存储介质
CN111428590A (zh) * 2020-03-11 2020-07-17 新华智云科技有限公司 一种视频聚类切分方法和系统
CN111476101A (zh) * 2020-03-11 2020-07-31 咪咕文化科技有限公司 视频镜头切换检测方法及装置、计算机可读存储介质
CN111711771A (zh) * 2020-05-20 2020-09-25 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
CN111708909A (zh) * 2020-05-19 2020-09-25 北京奇艺世纪科技有限公司 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111967302A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 视频标签的生成方法、装置及电子设备
CN112487943A (zh) * 2020-11-25 2021-03-12 北京有竹居网络技术有限公司 关键帧去重的方法、装置和电子设备
CN112528768A (zh) * 2020-11-26 2021-03-19 腾讯科技(深圳)有限公司 视频中的动作处理方法、装置、电子设备及存储介质
CN112653918A (zh) * 2020-12-15 2021-04-13 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN113139415A (zh) * 2020-10-22 2021-07-20 西安天和防务技术股份有限公司 视频关键帧提取方法、计算机设备和存储介质
CN113269205A (zh) * 2021-05-18 2021-08-17 联仁健康医疗大数据科技股份有限公司 视频关键帧提取方法、装置、电子设备及存储介质
CN113709559A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 视频划分方法、装置、计算机设备及存储介质
CN113763296A (zh) * 2021-04-28 2021-12-07 腾讯云计算(北京)有限责任公司 图像处理方法、设备以及介质
CN113836351A (zh) * 2020-09-15 2021-12-24 阿里巴巴集团控股有限公司 一种同源视频片段的确定方法、装置及电子设备
CN113873278A (zh) * 2021-09-26 2021-12-31 北京奇艺世纪科技有限公司 播放内容审核方法、装置及电子设备
CN113963305A (zh) * 2021-12-21 2022-01-21 网思科技股份有限公司 一种视频关键帧和特写片段提取方法
CN114245232A (zh) * 2021-12-14 2022-03-25 推想医疗科技股份有限公司 一种视频摘要生成方法、装置、存储介质及电子设备
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质
CN115243101A (zh) * 2022-06-20 2022-10-25 上海众源网络有限公司 视频动静率识别方法、装置、电子设备及存储介质
CN115588157A (zh) * 2022-12-12 2023-01-10 广东祥利科技有限公司 交联低烟低卤聚烯烃材料的性能数据处理方法及系统
CN115661376A (zh) * 2022-12-28 2023-01-31 深圳市安泽拉科技有限公司 一种基于无人机图像的目标重建方法及系统
CN116150428A (zh) * 2021-11-16 2023-05-23 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
CN117132926A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置、设备以及存储介质
WO2023246259A1 (zh) * 2022-06-20 2023-12-28 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN117376603A (zh) * 2023-11-17 2024-01-09 小红书科技有限公司 视频场景切分方法及相关产品
CN117911956A (zh) * 2024-03-19 2024-04-19 洋县阿拉丁生物工程有限责任公司 用于食品加工设备的加工环境动态监测方法及系统
CN117935125A (zh) * 2024-03-20 2024-04-26 常熟理工学院 基于人工智能的智慧电梯行为识别方法
CN117911956B (zh) * 2024-03-19 2024-05-31 洋县阿拉丁生物工程有限责任公司 用于食品加工设备的加工环境动态监测方法及系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473606B (zh) * 2019-07-01 2021-11-30 杭州电子科技大学 一种ct/mr图像的预览帧筛选方法
CN110381365A (zh) * 2019-07-02 2019-10-25 北京字节跳动网络技术有限公司 视频抽帧方法、装置及电子设备
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质
CN110796492A (zh) * 2019-10-29 2020-02-14 中国建设银行股份有限公司 一种重要特征的确定方法、装置、设备及存储介质
CN111263234B (zh) * 2020-01-19 2021-06-15 腾讯科技(深圳)有限公司 一种视频剪辑的方法、相关装置、设备以及存储介质
CN113453067B (zh) * 2020-03-27 2023-11-14 富士通株式会社 视频处理装置、视频处理方法和机器可读存储介质
CN111538858B (zh) * 2020-05-06 2023-06-23 英华达(上海)科技有限公司 建立视频图谱的方法、装置、电子设备、存储介质
CN111629262B (zh) * 2020-05-08 2022-04-12 Oppo广东移动通信有限公司 视频图像处理方法和装置、电子设备及存储介质
CN111695505B (zh) * 2020-06-11 2024-05-24 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN111901600B (zh) * 2020-08-06 2021-06-11 中标慧安信息技术股份有限公司 一种损失较低的视频压缩方法
CN112019923B (zh) * 2020-09-02 2021-05-07 深圳爱卓软科技有限公司 视频剪切处理方法
CN112130792B (zh) * 2020-09-11 2023-12-15 安徽中科新辰技术有限公司 一种实现可视化视图多端同步的方法
CN114189646B (zh) * 2020-09-15 2023-03-21 深圳市万普拉斯科技有限公司 终端控制方法、装置、电子设备和存储介质
CN112509148A (zh) * 2020-12-04 2021-03-16 全球能源互联网研究院有限公司 一种基于多特征识别的交互方法、装置及计算机设备
CN112601068B (zh) * 2020-12-15 2023-01-24 山东浪潮科学研究院有限公司 视频数据增广方法、装置及计算机可读介质
CN112738527A (zh) * 2020-12-29 2021-04-30 深圳市天视通视觉有限公司 一种视频解码检测方法、装置、电子设备及存储介质
CN112949560B (zh) * 2021-03-24 2022-05-24 四川大学华西医院 双通道特征融合下长视频表情区间连续表情变化识别方法
CN115134656A (zh) * 2021-03-26 2022-09-30 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及介质
CN113450578B (zh) * 2021-06-25 2022-08-12 北京市商汤科技开发有限公司 交通违章事件取证方法、装置、设备及系统
CN113688296B (zh) * 2021-08-10 2022-05-31 哈尔滨理工大学 基于多模态渐进式注意力模型解决视频问答任务的方法
CN113965814B (zh) * 2021-08-30 2023-07-04 国网山东省电力公司信息通信公司 基于视频会议场景的多会场关键帧提取方法及系统
WO2023087184A1 (zh) * 2021-11-17 2023-05-25 京东方科技集团股份有限公司 图像处理方法、装置、计算设备及介质
CN115604462A (zh) * 2022-09-07 2023-01-13 天津市国瑞数码安全系统股份有限公司(Cn) 一种应用成分分析的视频压缩方法和系统
CN115689819B (zh) * 2022-09-23 2023-06-30 河北东来工程技术服务有限公司 一种船舶应急训练方法、系统、装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425088A (zh) * 2008-10-24 2009-05-06 清华大学 基于图分割的关键帧提取方法和系统
US20120128242A1 (en) * 1996-06-07 2012-05-24 Virage, Inc. System and method for detecting scene changes in a digital video stream
CN103810711A (zh) * 2014-03-03 2014-05-21 郑州日兴电子科技有限公司 一种用于监控系统视频的关键帧提取方法及其系统
CN104683885A (zh) * 2015-02-04 2015-06-03 浙江大学 一种基于近邻保持重构的视频关键帧摘要提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049875B (zh) * 2015-07-24 2018-07-20 上海上大海润信息系统有限公司 一种基于混合特征与突变检测的精确关键帧提取方法
CN107220585A (zh) * 2017-03-31 2017-09-29 南京邮电大学 一种基于多特征融合镜头聚类的视频关键帧提取方法
CN107301402B (zh) * 2017-06-30 2020-06-16 锐捷网络股份有限公司 一种现实场景关键帧的确定方法、装置、介质及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120128242A1 (en) * 1996-06-07 2012-05-24 Virage, Inc. System and method for detecting scene changes in a digital video stream
CN101425088A (zh) * 2008-10-24 2009-05-06 清华大学 基于图分割的关键帧提取方法和系统
CN103810711A (zh) * 2014-03-03 2014-05-21 郑州日兴电子科技有限公司 一种用于监控系统视频的关键帧提取方法及其系统
CN104683885A (zh) * 2015-02-04 2015-06-03 浙江大学 一种基于近邻保持重构的视频关键帧摘要提取方法

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688524B (zh) * 2019-09-24 2023-04-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110688524A (zh) * 2019-09-24 2020-01-14 深圳市网心科技有限公司 视频检索方法、装置、电子设备及存储介质
CN110929605A (zh) * 2019-11-11 2020-03-27 中国建设银行股份有限公司 视频关键帧的保存方法、装置、设备及存储介质
CN111428590B (zh) * 2020-03-11 2023-05-09 新华智云科技有限公司 一种视频聚类切分方法和系统
CN111428590A (zh) * 2020-03-11 2020-07-17 新华智云科技有限公司 一种视频聚类切分方法和系统
CN111476101A (zh) * 2020-03-11 2020-07-31 咪咕文化科技有限公司 视频镜头切换检测方法及装置、计算机可读存储介质
CN111708909A (zh) * 2020-05-19 2020-09-25 北京奇艺世纪科技有限公司 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111708909B (zh) * 2020-05-19 2023-11-24 北京奇艺世纪科技有限公司 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111711771A (zh) * 2020-05-20 2020-09-25 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
CN111711771B (zh) * 2020-05-20 2022-09-30 北京奇艺世纪科技有限公司 一种图像选取方法、装置、电子设备及存储介质
CN111967302A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 视频标签的生成方法、装置及电子设备
CN111967302B (zh) * 2020-06-30 2023-07-25 北京百度网讯科技有限公司 视频标签的生成方法、装置及电子设备
CN113836351A (zh) * 2020-09-15 2021-12-24 阿里巴巴集团控股有限公司 一种同源视频片段的确定方法、装置及电子设备
CN113139415B (zh) * 2020-10-22 2024-05-31 西安天和防务技术股份有限公司 视频关键帧提取方法、计算机设备和存储介质
CN113139415A (zh) * 2020-10-22 2021-07-20 西安天和防务技术股份有限公司 视频关键帧提取方法、计算机设备和存储介质
CN112487943A (zh) * 2020-11-25 2021-03-12 北京有竹居网络技术有限公司 关键帧去重的方法、装置和电子设备
CN112487943B (zh) * 2020-11-25 2023-06-27 北京有竹居网络技术有限公司 关键帧去重的方法、装置和电子设备
CN112528768A (zh) * 2020-11-26 2021-03-19 腾讯科技(深圳)有限公司 视频中的动作处理方法、装置、电子设备及存储介质
CN112653918B (zh) * 2020-12-15 2023-04-07 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN112653918A (zh) * 2020-12-15 2021-04-13 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN113709559B (zh) * 2021-03-05 2023-06-30 腾讯科技(深圳)有限公司 视频划分方法、装置、计算机设备及存储介质
CN113709559A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 视频划分方法、装置、计算机设备及存储介质
CN113763296A (zh) * 2021-04-28 2021-12-07 腾讯云计算(北京)有限责任公司 图像处理方法、设备以及介质
CN113269205A (zh) * 2021-05-18 2021-08-17 联仁健康医疗大数据科技股份有限公司 视频关键帧提取方法、装置、电子设备及存储介质
CN113873278B (zh) * 2021-09-26 2024-01-23 北京奇艺世纪科技有限公司 播放内容审核方法、装置及电子设备
CN113873278A (zh) * 2021-09-26 2021-12-31 北京奇艺世纪科技有限公司 播放内容审核方法、装置及电子设备
CN116150428B (zh) * 2021-11-16 2024-06-07 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
CN116150428A (zh) * 2021-11-16 2023-05-23 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
CN114245232B (zh) * 2021-12-14 2023-10-31 推想医疗科技股份有限公司 一种视频摘要生成方法、装置、存储介质及电子设备
CN114245232A (zh) * 2021-12-14 2022-03-25 推想医疗科技股份有限公司 一种视频摘要生成方法、装置、存储介质及电子设备
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质
CN113963305A (zh) * 2021-12-21 2022-01-21 网思科技股份有限公司 一种视频关键帧和特写片段提取方法
CN113963305B (zh) * 2021-12-21 2022-03-11 网思科技股份有限公司 一种视频关键帧和特写片段提取方法
WO2023246259A1 (zh) * 2022-06-20 2023-12-28 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN115243101B (zh) * 2022-06-20 2024-04-12 上海众源网络有限公司 视频动静率识别方法、装置、电子设备及存储介质
CN115243101A (zh) * 2022-06-20 2022-10-25 上海众源网络有限公司 视频动静率识别方法、装置、电子设备及存储介质
CN115588157A (zh) * 2022-12-12 2023-01-10 广东祥利科技有限公司 交联低烟低卤聚烯烃材料的性能数据处理方法及系统
CN115588157B (zh) * 2022-12-12 2023-03-21 广东祥利科技有限公司 交联低烟低卤聚烯烃材料的性能数据处理方法及系统
CN115661376B (zh) * 2022-12-28 2023-04-07 深圳市安泽拉科技有限公司 一种基于无人机图像的目标重建方法及系统
CN115661376A (zh) * 2022-12-28 2023-01-31 深圳市安泽拉科技有限公司 一种基于无人机图像的目标重建方法及系统
CN117132926A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置、设备以及存储介质
CN117132926B (zh) * 2023-10-27 2024-02-09 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置、设备以及存储介质
CN117376603A (zh) * 2023-11-17 2024-01-09 小红书科技有限公司 视频场景切分方法及相关产品
CN117911956B (zh) * 2024-03-19 2024-05-31 洋县阿拉丁生物工程有限责任公司 用于食品加工设备的加工环境动态监测方法及系统
CN117911956A (zh) * 2024-03-19 2024-04-19 洋县阿拉丁生物工程有限责任公司 用于食品加工设备的加工环境动态监测方法及系统
CN117935125B (zh) * 2024-03-20 2024-05-28 常熟理工学院 基于人工智能的智慧电梯行为识别方法
CN117935125A (zh) * 2024-03-20 2024-04-26 常熟理工学院 基于人工智能的智慧电梯行为识别方法

Also Published As

Publication number Publication date
CN109947991A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
WO2019085941A1 (zh) 一种关键帧提取方法、装置和存储介质
Zhao et al. Temporal action detection with structured segment networks
US11132555B2 (en) Video detection method, server and storage medium
US10402627B2 (en) Method and apparatus for determining identity identifier of face in face image, and terminal
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN101374234B (zh) 一种基于内容的视频拷贝监测方法及装置
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN109871490B (zh) 媒体资源匹配方法、装置、存储介质和计算机设备
AU2014218444B2 (en) Dynamic feature selection for joint probabilistic recognition
CN107169106B (zh) 视频检索方法、装置、存储介质及处理器
Liao et al. Open-set person re-identification
CN109582813B (zh) 一种文物展品的检索方法、装置、设备和存储介质
Liu et al. Key frame extraction of online video based on optimized frame difference
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
Xian et al. Evaluation of low-level features for real-world surveillance event detection
US20210117687A1 (en) Image processing method, image processing device, and storage medium
CN111291887A (zh) 神经网络的训练方法、图像识别方法、装置及电子设备
Araujo et al. Efficient video search using image queries
Fan et al. Fuzzy color distribution chart-based shot boundary detection
CN115187924A (zh) 一种目标检测方法、装置、终端及计算机可读存储介质
CN112804558B (zh) 视频拆分方法、装置及设备
CN114187558A (zh) 一种视频场景识别方法、装置、计算机设备及存储介质
Elguebaly et al. Model-based approach for high-dimensional non-Gaussian visual data clustering and feature weighting
EP4149115A1 (en) Video stream processing method and apparatus, and computer device and medium
KR102060110B1 (ko) 컨텐츠에 포함되는 객체를 분류하는 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18872923

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18872923

Country of ref document: EP

Kind code of ref document: A1