WO2022105026A1 - 视频相似度处理方法、装置、移动终端和存储介质 - Google Patents
视频相似度处理方法、装置、移动终端和存储介质 Download PDFInfo
- Publication number
- WO2022105026A1 WO2022105026A1 PCT/CN2020/140900 CN2020140900W WO2022105026A1 WO 2022105026 A1 WO2022105026 A1 WO 2022105026A1 CN 2020140900 W CN2020140900 W CN 2020140900W WO 2022105026 A1 WO2022105026 A1 WO 2022105026A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video
- images
- image features
- features corresponding
- multiple frames
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 53
- 239000013598 vector Substances 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/232—Content retrieval operation locally within server, e.g. reading video streams from disk arrays
Definitions
- Embodiments of the present invention relate to the field of multimedia, and in particular, to a video similarity processing method, device, mobile terminal, and storage medium.
- the embodiments of the present invention provide a video similarity processing method, device, mobile terminal and storage medium, which can realize the accurate measurement of the similarity between video segments.
- a first aspect of the embodiments of the present invention provides a video similarity processing method, and the video similarity processing method includes:
- the respective video features corresponding to the multiple video clips are determined;
- the two video clips are determined to be similar clips.
- a second aspect of the embodiments of the present invention provides a video similarity processing apparatus, the video similarity processing apparatus includes: a memory and a processor; wherein, executable codes are stored in the memory, and when the executable codes are executed When the processor executes, the processor is caused to implement:
- the respective video features corresponding to the multiple video clips are determined;
- the two video clips are determined to be similar clips.
- a third aspect of the embodiments of the present invention provides a mobile terminal, including:
- a display screen arranged inside the casing, for displaying video
- a processor arranged inside the casing, coupled to the display screen, for acquiring multiple video clips; performing image feature extraction on multiple frames of images included in each of the multiple video clips; The image features of the multiple frames of images included in each of the video clips are used to determine the video features corresponding to the multiple video clips; the similarity between the multiple video clips is determined according to the video features corresponding to the multiple video clips. ; When the similarity of any two video clips is greater than a preset threshold, determine that the two video clips are similar clips.
- a fourth aspect of the embodiments of the present invention provides a computer-readable storage medium, where executable codes are stored in the computer-readable storage medium, and the executable codes are used to implement the video similarity described in the first aspect above Approach.
- a fifth aspect of the embodiments of the present invention provides a video similarity processing method, and the video similarity processing method includes:
- the respective video features corresponding to the multiple video clips are determined;
- the similarity between the multiple video segments is determined according to the respective video features of the multiple video segments.
- a sixth aspect of the embodiments of the present invention provides a video similarity processing apparatus, and the video similarity processing apparatus includes: a memory and a processor; wherein, executable codes are stored in the memory, and when the executable codes are processed by When the processor executes, the processor is caused to implement:
- the respective video features corresponding to the multiple video clips are determined;
- the similarity between the multiple video segments is determined according to the respective video features of the multiple video segments.
- a seventh aspect of the embodiments of the present invention provides a mobile terminal, including:
- a display screen arranged inside the casing, for displaying video
- a processor arranged inside the casing, coupled to the display screen, for acquiring multiple video clips; performing image feature extraction on multiple frames of images included in each of the multiple video clips; The image features of the multiple frames of images included in each of the video clips are used to determine the video features corresponding to the multiple video clips; the similarity between the multiple video clips is determined according to the video features corresponding to the multiple video clips.
- An eighth aspect of the embodiments of the present invention provides a computer-readable storage medium, where executable codes are stored in the computer-readable storage medium, and the executable codes are used to implement the video similarity described in the fifth aspect above Approach.
- the multi-frame images included in each video clip are processed.
- Image feature extraction is performed to obtain image features of multiple frames of images in each video segment, so that video features corresponding to the video segment are determined based on the image features of multiple frames of images in a video segment.
- the video features of a video segment include the image features of several frames of images, so that the video features are more abundant and accurate. Based on this, the similarity between the multiple video segments determined according to the respective video features of the multiple video segments will be more accurate and reliable.
- the similarity of any two video clips is greater than the preset threshold, the two video clips can be determined to be similar clips, so that the identification of similar clips among multiple video clips can be realized.
- FIG. 1 is a flowchart of a method for processing video similarity provided by an embodiment of the present invention
- FIG. 2 is a flowchart of obtaining a video feature corresponding to a video clip according to an embodiment of the present invention
- FIG. 3 is a schematic diagram of an acquisition process of a video feature corresponding to a video clip according to an embodiment of the present invention
- FIG. 4 is another flowchart of acquiring a video feature corresponding to a video clip according to an embodiment of the present invention
- FIG. 5 is a schematic diagram of a local image feature matching process between different video clips according to an embodiment of the present invention.
- FIG. 6 is a schematic flowchart of another video similarity processing method provided by an embodiment of the present invention.
- FIG. 7 is a schematic structural diagram of a video similarity processing apparatus according to an embodiment of the present invention.
- FIG. 8 is a schematic structural diagram of a mobile terminal according to an embodiment of the present invention.
- FIG. 9 is a schematic structural diagram of a video similarity processing apparatus according to an embodiment of the present invention.
- FIG. 10 is a schematic structural diagram of a mobile terminal according to an embodiment of the present invention.
- FIG. 1 is a flowchart of a video similarity processing method provided by an embodiment of the present invention. As shown in FIG. 1 , the video similarity processing method may include the following steps:
- the video similarity processing method provided by the embodiment of the present invention may be executed by an electronic device, and the electronic device may be a mobile terminal such as a smart phone, a tablet computer, and a camera.
- the electronic device may be a mobile terminal such as a smart phone, a tablet computer, and a camera.
- the user can track and photograph an object (such as a pet he raises), thereby obtaining the original video.
- an object such as a pet he raises
- the acquisition of multiple video segments in step 101 may be implemented by the following manner: receiving multiple video segments obtained by splitting the original video by the user. That is to say, after capturing the above-mentioned original video, the user can independently divide the original video into multiple video segments. For example, the user can divide the original video into N equal parts to obtain multiple video clips of equal duration, and N is greater than 1. For another example, the user may independently set the start time and end time of each video clip, and there may be partial overlap between different video clips.
- the acquisition of multiple video clips in step 101 may also be achieved by the following manner: splitting the original video according to scene features and/or lens motion features in the original video to obtain multiple videos Fragment.
- various scene features can be preset, and these various scene features are used to reflect various shooting scenes of the original video.
- the object to be photographed changes, it can be considered that a scene has been switched; when the background environment has changed, it can be considered that a scene has been switched.
- the photographed object is a person or an animal
- the characteristics of the photographed object may be facial features, contours, etc.
- the characteristics of the background environment may be, for example, the types of objects existing in the background environment.
- the original video can be sampled to obtain several frames of images contained in the original video in sequence, and the scene corresponding to each frame of image can be determined by identifying the scene features contained in each frame of image.
- Frame images are determined to constitute a video segment.
- the scene features are extracted from the two frames of images respectively, and then the scene features are compared. If the similarity between the two scene features is greater than the set threshold, it is considered that the two The frame images correspond to the same scene.
- the user may continuously change the state of the lens during the shooting of the original video, in order to obtain a better visual experience.
- Common camera movement features include pan, pan, zoom in, zoom out, pan, bird's-eye view, etc.
- the start time and the end time of the action of each camera movement feature can be marked, so that the original video can be split into multiple video segments according to the different camera movement features.
- the start time and the end time of the effects of different motion features in the original video can be identified by an algorithm capable of recognizing motion features, so that the original video can be disassembled according to different motion features. into multiple video clips.
- the first video segment is any one of the multiple video segments.
- the process of determining the video features of the first video clip may be: first, sampling the first video clip to obtain multiple frames of images included in the first video clip, and then performing image feature extraction on the multiple frames of images respectively to obtain The image feature corresponding to each frame of image is obtained, and then the video feature corresponding to the first video segment is determined according to the respective image features of the multiple frames of images.
- the video features corresponding to a video clip are determined based on the image features of multiple frames of images in a video clip.
- the video features of a video clip include the image features of the multiple frames of images, which makes the video features more abundant and accurate. Based on this, the similarity between the multiple video segments determined according to the respective video features of the multiple video segments will be more accurate and reliable.
- the multiple frames of images included in the first video clip can be respectively input into a pre-trained neural network model (such as a convolutional neural network model) to The image features of each frame of image are extracted through the neural network model, and finally, the image features of multiple frames of images are fused, and the fused image features are used as the video features of the first video segment.
- a pre-trained neural network model such as a convolutional neural network model
- the feature fusion includes but is not limited to any of the following methods: taking the mean value, taking the maximum value, and taking the bag of words (Bag of Words, BoW for short) feature.
- the method of extracting the image features of each frame image in the first video clip is not limited to the above examples, and the method of acquiring the video features of the first video clip is not limited to the above examples, and several other images will be introduced below.
- Feature extraction method and video feature acquisition method are not limited to the above examples, and several other images will be introduced below.
- the similarity between the video clips can be calculated pairwise. Specifically, taking any two video clip A and video clip B as an example, the distance between the video feature of video clip A and the video feature of video clip B can be calculated, and the distance calculation result can be used as the two video clips. similarity between segments. Wherein, the distance may be any one of various distances such as cosine distance, L1 norm distance, and L2 norm distance.
- multiple video clips can also be clustered to obtain a group of video clips that are both similar clips. For example, assuming that video segment A and video segment B are determined to be similar segments, and if the similarity between video segment A or video segment B and video segment C is also greater than a preset threshold, it can be considered that video segment A, video The segment B and the video segment C are similar segments, that is, the three video segments are a similar group of video segments.
- the target video segment can be selected from the similar segments to perform the editing operation according to the target video segment to generate the target video. That is to say, a video clip is selected from a group of similar clips as the target video clip, so that it can be ensured that there will be no duplicate video clips in the video clips subjected to the video editing operation, and the quality of the finished film can be ensured.
- selecting a target video segment from similar segments may be: selecting a video segment whose duration meets the set conditions from the similar segments as the target video segment; or selecting a video whose image quality meets the set conditions from the similar segments clip as the target video clip.
- the duration meets the set condition, for example, selecting the video clip with the shortest or longest duration.
- the image quality conforms to the set conditions, for example, selecting the video clip with the highest image brightness, saturation, and definition.
- image brightness, saturation, and sharpness are only examples of indicators used to evaluate image quality, and are not limited thereto.
- the video features corresponding to a video clip are determined based on the image features of multiple frames of images in a video clip.
- the video features of a video clip include the image features of several frames of images, which makes the video features more abundant and accurate. .
- the similarity between the multiple video segments determined according to the respective video features of the multiple video segments will be more accurate and reliable.
- the similarity of any two video clips is greater than the preset threshold, it can be determined that the two video clips are similar clips. In this way, during the video editing operation, only one video clip can be selected from the similar clips for video clips. The editing operation is enough to avoid the impact of repeated video clips on the quality of the finished film.
- a method for acquiring video features of a video segment is introduced in the above embodiment.
- the acquisition process of the video feature corresponding to the first video clip can also be implemented in the manner shown in FIG. 2 .
- FIG. 2 is a flowchart of acquiring video features corresponding to video clips provided by an embodiment of the present invention. As shown in FIG. 2 , the following steps may be included:
- image features two types are defined: global image features and local image features, so that the image features corresponding to one frame of image are the fusion results of the corresponding global image features and local image features.
- the feature fusion of the overall image feature and the local image feature corresponding to one frame of image includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the overall image features reflect the macro semantic information of a frame of images
- the local image features reflect the feature information of local key points in a frame of images.
- multiple frames of images in the first video segment may be respectively input into the neural network model, so as to obtain overall image features corresponding to the multiple frames of images through the neural network model.
- the neural network model may be, for example, a convolutional neural network model or the like.
- the local image features corresponding to each of the multiple frames of images in the first video segment can be obtained in the following manner:
- Feature point extraction is performed on each frame of image, so as to obtain feature vectors corresponding to multiple feature points in each frame of image;
- the local image features of each frame of image are determined according to the respective feature vectors corresponding to the plurality of feature points in each frame of image.
- feature point extraction is performed on image i, and feature vectors corresponding to multiple feature points in image i can be obtained, based on image i
- the feature vectors corresponding to each of these feature points in can determine the local image features of the image i.
- any one of the following calculations can be performed on the feature vectors corresponding to each of the multiple feature points in the image i to obtain the local image features corresponding to the image i: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the first video segment includes N frames of images shown in the figure, and N is greater than 1.
- N frames of images into the convolutional neural network model to extract the overall image features corresponding to each frame of image.
- the extraction result is the N overall image features shown in the figure. It is assumed that each overall image feature uses a 1900-dimensional feature vector to represent.
- feature points are extracted for each frame of image, so as to obtain a plurality of feature points corresponding to each of the multiple frames of images. It is worth noting that the number of feature points extracted from different images may not be equal. For example, 10 feature points are extracted from one frame of image, and 15 feature points may be extracted from another frame of image. In Fig. 3, triangles represent the extracted feature points. In fact, each feature point can be represented by a feature vector of a set dimension, assuming that it is represented by a 100-dimensional feature vector. Taking the first frame of image as an example, it is assumed that the first frame of image includes 20 feature points, and the local image features corresponding to the first frame of image are obtained by fusing the feature vectors corresponding to these 20 feature points.
- This average feature vector is a 100-dimensional feature vector, that is, the local image feature of the first frame image. The same processing is performed on other frame images to obtain the local image features of each frame image.
- the 1900-dimensional overall image features and 100-dimensional local image features corresponding to the first frame of image are obtained through the above processing, and the two are spliced together to obtain a 2000-dimensional feature vector, which is used as the first image.
- feature fusion is performed on the image features corresponding to each of the N frames of images, and the fused image features are used as the video features corresponding to the first video segment.
- the feature fusion includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- an embodiment of the present invention also provides a video feature acquisition solution as shown in FIG. 4 .
- FIG. 4 is another flowchart of acquiring video features corresponding to video clips provided by an embodiment of the present invention. As shown in FIG. 4 , the following steps may be included:
- the second video clip is any one of the plurality of video clips except the first video clip.
- the core idea of the video feature acquisition solution provided in this embodiment is to first perform feature matching on the local image features of the respective multi-frame images of the two video clips to determine the overlapping start frame image and end frame image of the two video clips, After that, the video features of the corresponding video segments are determined based on the image features of each frame image (the fusion result of the local image features and the overall image features) between the starting frame image and the ending frame image. In this way, the video features of a video clip are more focused on some clips that may have similarities with other video clips, and the accuracy is higher.
- the first video segment includes ten frames of images from images Fa1 to Fa10 that are sequentially sampled in time sequence
- the second video segment includes fifteen images Fb1 to image Fb15 that are sequentially sampled in time sequence. frame image.
- the ten frames of images in the first video clip are sequentially traversed to determine the degree of matching between the currently traversed images and the local image features of each frame image in the second video clip.
- the matching degree between the local image features of the two frames of images can be realized by calculating the distance between the local image features of the two frames of images.
- the degree of matching between the image Fa3 and the local image features of the images Fb1 to Fb15 is calculated, and it is assumed that the matching degree between the image Fa3 and the local image features of the image Fb2 is greater than the preset threshold, then it is determined that the image Fa3 is the first video segment and the The starting frame image of the second video segment overlapping.
- the matching degree between the local image features of the image Fa7 and the image Fb10 is greater than the preset threshold, but when the image Fa8 continues to be traversed, there is no image in the second video segment.
- the image Fa7 is the end frame image where the first video segment and the second video segment overlap.
- images Fa3 to Fa7 in the first video clip can all find images matching their local image features in the multiple frames of images included in the second video clip.
- the video features of the first video segment may only be determined by using image features corresponding to each of the five frames of images, the image Fa3 to the image Fa7.
- the image feature of each frame of image refers to the splicing result of its corresponding local image feature and overall image feature.
- FIG. 6 is a schematic flowchart of another video similarity processing method provided by an embodiment of the present invention. As shown in FIG. 6 , the following steps may be included:
- video clips whose similarity meets the set condition can be grouped into one group, so that multiple sets of video clips can be obtained , to achieve classified storage of video clips.
- FIG. 7 is a schematic structural diagram of a video similarity processing apparatus according to an embodiment of the present invention.
- the video similarity processing apparatus includes: a memory 11 and a processor 12 .
- the memory 11 stores executable code, and when the executable code is executed by the processor 12, the processor 12 is made to realize:
- the respective video features corresponding to the multiple video clips are determined;
- the two video clips are determined to be similar clips.
- the processor 12 is further configured to: select a target video segment from similar segments; and perform an editing operation according to the target video segment to generate a target video.
- the processor 12 is specifically configured to: select a video clip whose duration meets a set condition from the similar clips as a target video clip; or, select a video whose image quality meets the set condition from the similar clips clip as the target video clip.
- the processor 12 is specifically configured to:
- Feature splicing is performed on the respective overall image features and local image features corresponding to the multiple frames of images, so as to obtain respective image features corresponding to the multiple frames of images.
- the processor 12 is specifically configured to: input the multiple frames of images in the first video clip to the neural network respectively.
- the network model the overall image features corresponding to each of the multiple frames of images are obtained through the neural network model.
- the processor 12 is specifically configured to: Extract feature points for each frame of image to obtain feature vectors corresponding to multiple feature points in each frame of image; according to the feature vectors corresponding to multiple feature points in each frame of image, determine local image features.
- the processor 12 is specifically configured to perform any one of the following calculations on the feature vectors corresponding to the plurality of feature points to obtain the corresponding local image features: taking the mean value, taking the maximum value, and taking the bag-of-words feature. .
- the processor 12 is specifically configured to: perform feature fusion on the image features corresponding to the multiple frames of images in the first video clip, The fused image feature is used as the video feature corresponding to the first video segment.
- the feature fusion includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the processor 12 is specifically configured to:
- the degree of matching between the local image features corresponding to the multi-frame images in the first video clip and the local image features corresponding to the multi-frame images in the second video clip at least two images are determined from the first video clip. frame images, wherein, among the multiple frames of images of the second video segment, there are images whose matching degree with the local image features of the at least two frames of images reaches a set condition, and the second video segment is the multiple frames of images. Any one of the video clips except the first video clip;
- the video features corresponding to the first video segment are determined according to the respective image features corresponding to the at least two frames of images, wherein the respective image features corresponding to the at least two frames of images are determined by the respective local image features corresponding to the at least two frames of images. It is obtained by splicing with the overall image features.
- the processor 12 is further configured to: traverse multiple frames of images in the first video clip in sequence, and determine that the local image features of the currently traversed images correspond to the multiple frames of images in the second video clip respectively. The matching degree between the local image features.
- the processor 12 is further configured to: receive the multiple video segments obtained by splitting the original video by the user.
- the processor 12 is further configured to: split the original video according to scene features and/or lens motion features in the original video to obtain the multiple video segments.
- FIG. 8 is a schematic structural diagram of a mobile terminal according to an embodiment of the present invention. As shown in FIG. 8 , the mobile terminal includes:
- a display screen 22, arranged inside the casing 21, is used for displaying video
- the processor 23 is arranged inside the casing 21 and is coupled to the display screen 22, and is used to obtain multiple video clips; respectively perform image feature extraction on the multiple frames of images contained in the multiple video clips; image features of multiple frames of images included in each of the multiple video clips, to determine the video features corresponding to the multiple video clips; When the similarity of any two video clips is greater than a preset threshold, it is determined that the two video clips are similar clips.
- the processor 23 is further configured to: select a target video segment from similar segments; and perform an editing operation according to the target video segment to generate a target video.
- the processor 23 is specifically configured to: select a video clip whose duration meets a set condition from the similar clips as a target video clip; or, select a video whose image quality meets the set condition from the similar clips clip as the target video clip.
- the processor 23 is specifically configured to:
- Feature splicing is performed on the respective overall image features and local image features corresponding to the multiple frames of images, so as to obtain respective image features corresponding to the multiple frames of images.
- the processor 23 is specifically configured to: input the multiple frames of images in the first video clip to the neural network respectively.
- the network model the overall image features corresponding to each of the multiple frames of images are obtained through the neural network model.
- the processor 23 is specifically configured to: Extract feature points for each frame of image to obtain feature vectors corresponding to multiple feature points in each frame of image; according to the feature vectors corresponding to multiple feature points in each frame of image, determine local image features.
- the processor 23 is specifically configured to perform any one of the following calculations on the feature vectors corresponding to the plurality of feature points to obtain the corresponding local image features: take the mean value, take the maximum value, and take the bag-of-words feature. .
- the processor 23 is specifically configured to: perform feature fusion on the image features corresponding to the multiple frames of images in the first video clip, The fused image feature is used as the video feature corresponding to the first video segment.
- the feature fusion includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the processor 23 is specifically configured to:
- the degree of matching between the local image features corresponding to the multi-frame images in the first video clip and the local image features corresponding to the multi-frame images in the second video clip at least two images are determined from the first video clip. frame images, wherein, among the multiple frames of images of the second video segment, there are images whose matching degree with the local image features of the at least two frames of images reaches a set condition, and the second video segment is the multiple frames of images. Any one of the video clips except the first video clip;
- the video features corresponding to the first video segment are determined according to the respective image features corresponding to the at least two frames of images, wherein the respective image features corresponding to the at least two frames of images are determined by the respective local image features corresponding to the at least two frames of images. It is obtained by splicing with the overall image features.
- the processor 23 is further configured to: traverse multiple frames of images in the first video clip in sequence, and determine that the local image features of the currently traversed images correspond to the multiple frames of images in the second video clip respectively. The matching degree between the local image features.
- the processor 23 is further configured to: receive the multiple video segments obtained by splitting the original video by the user.
- the processor 23 is further configured to: split the original video according to scene features and/or lens motion features in the original video to obtain the multiple video segments.
- FIG. 9 is a schematic structural diagram of a video similarity processing apparatus according to an embodiment of the present invention.
- the video similarity processing apparatus includes: a memory 31 and a processor 32 .
- the executable code is stored on the memory 31, and when the executable code is executed by the processor 32, the processor 32 is made to realize:
- the respective video features corresponding to the multiple video clips are determined;
- the similarity between the multiple video segments is determined according to the respective video features of the multiple video segments.
- the processor 32 is specifically configured to:
- Feature splicing is performed on the respective overall image features and local image features corresponding to the multiple frames of images, so as to obtain respective image features corresponding to the multiple frames of images.
- the processor 32 is specifically configured to: input the multiple frames of images in the first video clip to the neural network respectively.
- the network model the overall image features corresponding to each of the multiple frames of images are obtained through the neural network model.
- the processor 32 is specifically configured to: Extract feature points for each frame of image to obtain feature vectors corresponding to multiple feature points in each frame of image; according to the feature vectors corresponding to multiple feature points in each frame of image, determine local image features.
- the processor 32 is specifically configured to perform any one of the following calculations on the feature vectors corresponding to the plurality of feature points to obtain the corresponding local image features: take the mean value, take the maximum value, and take the bag-of-words feature. .
- the processor 32 is specifically configured to: perform feature fusion on the image features corresponding to each of the multiple frames of images in the first video clip, The fused image feature is used as the video feature corresponding to the first video segment.
- the feature fusion includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the processor 32 is specifically configured to:
- the degree of matching between the local image features corresponding to the multi-frame images in the first video clip and the local image features corresponding to the multi-frame images in the second video clip at least two images are determined from the first video clip. frame images, wherein, among the multiple frames of images of the second video segment, there are images whose matching degree with the local image features of the at least two frames of images reaches a set condition, and the second video segment is the multiple frames of images. Any one of the video clips except the first video clip;
- the video features corresponding to the first video segment are determined according to the respective image features corresponding to the at least two frames of images, wherein the respective image features corresponding to the at least two frames of images are determined by the respective local image features corresponding to the at least two frames of images. It is obtained by splicing with the overall image features.
- the processor 32 is further configured to: traverse multiple frames of images in the first video clip in sequence, and determine that the local image features of the currently traversed images correspond to the multiple frames of images in the second video clip respectively. The matching degree between the local image features.
- the processor 32 is further configured to: receive the multiple video segments obtained by splitting the original video by the user.
- the processor 32 is further configured to: split the original video according to scene features and/or lens motion features in the original video to obtain the multiple video segments.
- FIG. 10 is a schematic structural diagram of a mobile terminal according to an embodiment of the present invention. As shown in FIG. 10 , the mobile terminal includes:
- a display screen 42 located inside the casing 41, is used to display video
- the processor 43 is arranged inside the casing 41 and is coupled to the display screen 42 for acquiring multiple video clips; performing image feature extraction on the multiple frames of images contained in the multiple video clips respectively; image features of multiple frames of images included in each of the multiple video clips, to determine the video features corresponding to the multiple video clips; similarity.
- the processor 43 is specifically configured to:
- Feature splicing is performed on the respective overall image features and local image features corresponding to the multiple frames of images, so as to obtain respective image features corresponding to the multiple frames of images.
- the processor 43 is specifically configured to: input the multiple frames of images in the first video clip to the neural network respectively.
- the network model the overall image features corresponding to each of the multiple frames of images are obtained through the neural network model.
- the processor 43 is specifically configured to: Extract feature points for each frame of image to obtain feature vectors corresponding to multiple feature points in each frame of image; according to the feature vectors corresponding to multiple feature points in each frame of image, determine local image features.
- the processor 43 is specifically configured to perform any one of the following calculations on the feature vectors corresponding to the multiple feature points to obtain the corresponding local image features: take the mean value, take the maximum value, and take the bag-of-words feature. .
- the processor 43 is specifically configured to: perform feature fusion on the image features corresponding to each of the multiple frames of images in the first video clip, The fused image feature is used as the video feature corresponding to the first video segment.
- the feature fusion includes any one of the following methods: taking the mean value, taking the maximum value, and taking the bag-of-words feature.
- the processor 43 is specifically configured to:
- the degree of matching between the local image features corresponding to the multi-frame images in the first video clip and the local image features corresponding to the multi-frame images in the second video clip at least two images are determined from the first video clip. frame images, wherein, among the multiple frames of images of the second video segment, there are images whose matching degree with the local image features of the at least two frames of images reaches a set condition, and the second video segment is the multiple frames of images. Any one of the video clips except the first video clip;
- the video features corresponding to the first video segment are determined according to the respective image features corresponding to the at least two frames of images, wherein the respective image features corresponding to the at least two frames of images are determined by the respective local image features corresponding to the at least two frames of images. It is obtained by splicing with the overall image features.
- the processor 43 is further configured to: traverse multiple frames of images in the first video clip in sequence, and determine that the local image features of the currently traversed images correspond to the multiple frames of images in the second video clip respectively. The matching degree between the local image features.
- the processor 43 is further configured to: receive the multiple video segments obtained by splitting the original video by the user.
- the processor 43 is further configured to: split the original video according to scene features and/or lens motion features in the original video to obtain the multiple video segments.
- an embodiment of the present invention further provides a computer-readable storage medium, where executable codes are stored in the computer-readable storage medium, and the executable codes are used to implement the video similarity processing methods provided by the foregoing embodiments. .
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明实施例提供一种视频相似度处理方法、装置、移动终端和存储介质,该视频相似度处理方法包括:获取多个视频片段;分别对多个视频片段各自包含的多帧图像进行图像特征提取;根据多个视频片段各自包含的多帧图像的图像特征,确定多个视频片段各自对应的视频特征;根据多个视频片段各自对应的视频特征,确定多个视频片段之间的相似度。当任意两个视频片段的相似度大于预设阈值时,确定这两个视频片段为相似片段。由于一个视频片段的视频特征中包含了其中若干帧图像的图像特征,使得视频特征更加丰富、准确,从而根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。
Description
交叉引用
本申请引用于2020年11月23日递交的名称为“视频相似度处理方法、装置、移动终端和存储介质”的第202011531876.0号中国专利申请,其通过引用被全部并入本申请。
本发明实施例涉及多媒体领域,尤其涉及一种视频相似度处理方法、装置、移动终端和存储介质。
日常生活中,人们往往会有剪辑视频的需求。比如,用户想要发布一个自家宠物的短视频,为此,用户可以先使用摄像机对自家宠物进行跟拍,得到一个视频,之后,将拍得的视频输入到视频剪辑软件中便可以自动剪辑得到最终用于发布的短视频。
目前通过视频剪辑软件输出的视频中往往会有相同或相似镜头反复出现的现象,影响成片质量。由此可见,对相似镜头视频进行准确识别,具有重要意义。
发明内容
本发明实施例提供了一种视频相似度处理方法、装置、移动终端和存储介质,可以实现视频片段间相似度的准确度量。
本发明实施例的第一方面提供了一种视频相似度处理方法,该视频相似度处理方法包括:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;
当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
本发明实施例的第二方面提供了一种视频相似度处理装置,该视频相似度处理装置包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器实现:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;
当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
本发明实施例的第三方面提供了一种移动终端,包括:
壳体;
显示屏,设于所述壳体内部,用于显示视频;
处理器,设于所述壳体内部,与所述显示屏耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有可执行代码,所述可执行代码用于实现上述第一方面所述的视频相似度处理方法。
本发明实施例的第五方面提供了一种视频相似度处理方法,该视频相似度处理方法包括:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
本发明实施例的第六方面提供了一种视频相似度处理装置,该视频相似度处理装置包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器实现:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
本发明实施例的第七方面提供了一种移动终端,包括:
壳体;
显示屏,设于所述壳体内部,用于显示视频;
处理器,设于所述壳体内部,与所述显示屏耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所 述多个视频片段之间的相似度。
本发明实施例的第八方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有可执行代码,所述可执行代码用于实现上述第五方面所述的视频相似度处理方法。
在本发明实施例提供的视频相似度处理方案中,在获取到多个视频片段后,为了获得更加准确的视频片段之间的相似度,首先,对每个视频片段中包含的多帧图像进行图像特征提取,以得到每个视频片段中多帧图像的图像特征,从而,基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征。这样,一个视频片段的视频特征中包含了其中若干帧图像的图像特征,使得视频特征更加丰富、准确。基于此,根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。当任意两个视频片段的相似度大于预设阈值时,可以确定这两个视频片段为相似片段,这样,可以实现多个视频片段中相似片段的识别。
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例提供的一种视频相似度处理方法的流程图;
图2为本发明实施例提供的一种获取视频片段对应的视频特征的流程图;
图3为本发明实施例提供的一种视频片段对应的视频特征的获取过程示意图;
图4为本发明实施例提供的另一种获取视频片段对应的视频特征的流程图;
图5为本发明实施例提供的一种不同视频片段之间的局部图像特征匹配过程的示意图;
图6为本发明实施例提供的另一种视频相似度处理方法的流程示意图;
图7为本发明实施例提供的一种视频相似度处理装置的结构示意图;
图8为本发明实施例提供的一种移动终端的结构示意图;
图9为本发明实施例提供的一种视频相似度处理装置的结构示意图;
图10为本发明实施例提供的一种移动终端的结构示意图。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。在本发明实施例的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明实施例。
图1为本发明实施例提供的一种视频相似度处理方法的流程图,如图1所示,该视频相似度处理方法可以包括如下步骤:
101、获取多个视频片段。
102、分别对多个视频片段各自包含的多帧图像进行图像特征提取。
103、根据多个视频片段各自包含的多帧图像的图像特征,确定多个视频片段各自对应的视频特征。
104、根据多个视频片段各自对应的视频特征,确定多个视频片段之间的相似度。
105、当任意两个视频片段的相似度大于预设阈值时,确定这两个视频片段为相似片段。
本发明实施例提供的视频相似度处理方法可以由某电子设备来执行,该电子设备可以是诸如智能手机、平板电脑、摄像机等移动终端。
在实际应用中,用户可以对某对象(如自己养的宠物)进行跟踪拍摄,从而得到拍得的原始视频。
在一可选实施例中,步骤101中获取多个视频片段可以通过如下方式实现:接收用户对原始视频进行拆分得到的多个视频片段。也就是说,用户在拍得上述原始视频后,可以自主地将该原始视频拆分成多个视频片段。比如,用户可以将原始视频进行N等分的拆分,以得到相等时长的多个视频片段,N大于1。再比如,用户可以自主地设定每个视频片段的起始时间和终止时间,不同视频片段之间可以有部分重叠。
在另一可选实施例中,步骤101中获取多个视频片段还可以通过如下方式实现:根据原始视频中的场景特征和/或运镜特征,对原始视频进行拆分,以得到多个视频片段。
其中,可以预先设定多种场景特征,这多种场景特征用以反映原始视频的多种拍摄场景,场景特征比如可以通过被拍摄对象的特征、背景环境的特征)等来体现。例如,当被拍摄对象发生改变时,可以认为是切换了一种场景;当背景环境发生了改变时,可以认为是切换了一种场景。其中,假设被拍摄对象为人、动物,则被拍摄对象的特征可以是五官、轮廓等;背景环境的特征比如可以是背景环境中存在的物体类别。
基于此,可以通过对原始视频进行采样,以得到原始视频中依次包含的若干帧图像,通过识别每帧图像中包含的场景特征来确定每帧图像对应的场景,将对应于同一场景的连续多帧图像确定为构成一个视频片段。
其中,针对相邻的两帧图像来说,分别从这两帧图像中提取出场景特征后进行场景特征的对比,如果两者的场景特征之间的相似度大于设定阈值,则认为这两帧图像对应于同一场景。
对于运镜特征来说,用户在拍摄原始视频的过程中可能会不断改变镜头的状态,以便获得更佳的视觉体验。常见的运镜特征包括横摇、直摇、拉近、推远、平移、鸟瞰,等等。可选地,在拍摄原始视频的过程中,可以标记上每种运镜特征作用的起始时间和终止时间,以便据此可以将原始视频按照运 镜特征的不同拆分成多个视频片段。可选地,也可以在拍得原始视频之后,通过能够识别运镜特征的算法来识别原始视频中不同运镜特征作用的起始时间和终止时间,以便将原始视频按照运镜特征的不同拆分成多个视频片段。
本实施例中,假设用户拍摄原始视频的目的是想剪辑出一段质量较佳的视频以发布出去,供其他用户观看和分享。可以通过已有的各种自动剪辑软件来实现该任务。可以理解的是,如果输入到自动剪辑软件中的视频片段中存在较多的相似片段,势必会影响成片的质量。而在通过上述介绍的任一种方式得到多个视频片段后,这多个视频片段中很可能会存在一些相似的视频片段,因此,需要识别出这多个视频片段中的相似片段。
为识别出多个视频片段中的相似片段,首先,需要确定多个视频片段各自对应的视频特征,进而,根据多个视频片段各自对应的视频特征,确定多个视频片段之间的相似度,当任意两个视频片段的相似度大于预设阈值时,确定这两个视频片段为相似片段。
针对多个视频片段中的第一视频片段来说,其中,第一视频片段是多个视频片段中的任一个。确定第一视频片段的视频特征的过程可以是:首先,对第一视频片段进行采样,以得到第一视频片段中包含的多帧图像,之后,分别对这多帧图像进行图像特征提取,以得到每帧图像对应的图像特征,之后,根据这多帧图像各自对应的图像特征,确定第一视频片段对应的视频特征。
基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征,这样,一个视频片段的视频特征中包含了其中多帧图像的图像特征,使得视频特征更加丰富、准确。基于此,根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。
以上述第一视频片段为例,在一可选实施例中,可以将第一视频片段中包含的多帧图像分别输入到预先训练好的神经网络模型(如卷积神经网络模型)中,以通过该神经网络模型提取每帧图像的图像特征,最终,将多帧图像的图像特征进行融合,将融合后的图像特征作为第一视频片段的视频特征。 其中,可选地,特征融合包括但不限于如下任一种方式:取均值,取最大值,取词袋(Bag of Words,简称BoW)特征。
当然,第一视频片段中各帧图像的图像特征的提取方式不以上述举例为限,第一视频片段的视频特征的获取方式也不以上述举例为限,下文中会介绍几种其他的图像特征提取方式以及视频特征获取方式。
在通过某种方式得到多个视频片段各自对应的视频特征后,可以两两计算视频片段之间的相似度。具体地,以其中任意两个视频片段A和视频片段B为例来说,可以计算视频片段A的视频特征与视频片段B的视频特征之间的距离,以该距离计算结果作为这两个视频片段之间的相似度。其中,该距离可以是余弦距离、L1范数距离、L2范数距离等多种距离中的任一种。
当视频片段A的视频特征与视频片段B的视频特征之间的相似度大于预设阈值时,确定这两个视频片段为相似片段。
在得到任意两个视频片段之间的相似度后,还可以对多个视频片段进行聚类,以得到同为相似片段的一组视频片段。举例来说,假设视频片段A与视频片段B被确定为相似片段,而如果视频片段A或视频片段B与视频片段C之间的相似度也大于预设阈值时,可以认为视频片段A、视频片段B和视频片段C为相似片段,即这三个视频片段为相似的一组视频片段。
之后,可以从相似片段中选出目标视频片段,以根据目标视频片段进行剪辑操作,生成目标视频。也就是说,从一组相似片段中选出一个视频片段作为目标视频片段,这样就可以保证进行视频剪辑操作的视频片段中不会存在重复的视频片段,保证成片质量。
其中,从相似片段中选出目标视频片段,可以是:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
其中,时长符合设定条件比如是:选出时长最短或最长的视频片段。
其中,图像质量符合设定条件比如是:选出图像亮度、饱和度、清晰度最高的视频片段。其中,图像亮度、饱和度、清晰度仅为举例的一些用于评 价图像质量的指标,不以此为限。
综上,基于一个视频片段中多帧图像的图像特征确定出这个视频片段对应的视频特征,这样,一个视频片段的视频特征中包含了其中若干帧图像的图像特征,使得视频特征更加丰富、准确。基于此,根据多个视频片段各自对应的视频特征确定出的多个视频片段之间的相似度会更加准确、可靠。当任意两个视频片段的相似度大于预设阈值时,可以确定这两个视频片段为相似片段,这样,在进行视频剪辑操作的过程中,可以仅从相似片段中选出一个视频片段进行视频剪辑操作即可,避免重复的视频片段对成片质量的影响。
上文实施例中介绍了一种视频片段的视频特征的获取方式。在另一可选实施例中,以第一视频片段为例,第一视频片段对应的视频特征的获取过程,还可以通过图2所示的方式实现。
图2为本发明实施例提供的一种获取视频片段对应的视频特征的流程图,如图2所示,可以包括如下步骤:
201、提取第一视频片段中多帧图像各自对应的整体图像特征。
202、提取所述多帧图像各自的特征点,以得到多帧图像各自对应的局部图像特征。
203、对多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到多帧图像各自对应的图像特征。
204、对第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为第一视频片段对应的视频特征。
本实施例中,定义了两种类型的图像特征:整体图像特征和局部图像特征,从而,一帧图像对应的图像特征为其对应的整体图像特征和局部图像特征的融合结果。其中,一帧图像对应的整体图像特征和局部图像特征的特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
其中,整体图像特征反映了一帧图像的宏观的语义信息,局部图像特征反映了一帧图像中的局部关键点的特征信息。
其中,可以将第一视频片段中多帧图像分别输入至神经网络模型中,以 通过神经网络模型获取这多帧图像各自对应的整体图像特征。该神经网络模型比如可以是卷积神经网络模型等。
其中,第一视频片段中多帧图像各自对应的局部图像特征,可以通过如下方式获得:
对其中的每帧图像进行特征点提取,以得到每帧图像中多个特征点各自对应的特征向量;
根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
举例来说,针对第一视频片段包含的多帧图像中的任一帧图像i来说,对图像i进行特征点提取,可以得到图像i中多个特征点各自对应的特征向量,基于图像i中这多个特征点各自对应的特征向量,可以确定出图像i的局部图像特征。
其中,具体地,可以对图像i中多个特征点各自对应的特征向量进行如下任一种计算,以得到图像i对应的局部图像特征:取均值,取最大值,取词袋特征。
为便于理解,下面结合图3来示例性说明上述第一视频片段的视频特征的获取过程。
在图3中,假设第一视频片段中包括图中示意的N帧图像,N大于1。将N帧图像分别输入到卷积神经网络模型中,以提取每帧图像对应的整体图像特征,提取结果为图中示意的N个整体图像特征,假设每个整体图像特征用一个1900维的特征向量来表示。
另外,针对每帧图像进行特征点的提取,以得到多帧图像各自对应的多个特征点。值得说明的是,不同图像中提取出的特征点的个数未必相等,比如某帧图像中提取出10个特征点,另一帧图像中可能提取出15个特征点。在图3中,三角形表示提取出的特征点。实际上,每个特征点可以用设定维数的特征向量来表示,假设以100维的特征向量来表示。以第1帧图像为例,假设第1帧图像中包括20个特征点,通过对这20个特征点对应的特征向量进行融合 处理,以得到第1帧图像对应的局部图像特征。其中,假设采用取平均值的融合处理方式,那么就是将这20个特征点所对应的20个特征向量进行取均值计算,假设将取均值的结果称为平均特征向量,这么可以理解的是,这个平均特征向量是一个100维的特征向量,亦即作为第1帧图像的局部图像特征。针对其他各帧图像进行同样的处理,以得到各帧图像的局部图像特征。
仍以第1帧图像为例,经过上述处理得到了第1帧图像对应的1900维的整体图像特征以及100维的局部图像特征,两者拼接在一起得到一个2000维的特征向量,即作为第1帧图像对应的图像特征。
在得到N帧图像各自对应的2000维的图像特征后,将N帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为第一视频片段对应的视频特征。其中,特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
除以上视频特征获取方式外,本发明实施例还提供了如图4所示的视频特征获取方案。
图4为本发明实施例提供的另一种获取视频片段对应的视频特征的流程图,如图4所示,可以包括如下步骤:
401、提取第一视频片段中多帧图像各自对应的整体图像特征,以及第二视频片段中多帧图像各自对应的整体图像特征。
第二视频片段是多个视频片段中除第一视频片段外的任一个。
402、提取第一视频片段中多帧图像各自的特征点以得到第一视频片段中多帧图像各自对应的局部图像特征,以及提取第二视频片段中多帧图像各自的特征点以得到第二视频片段中多帧图像各自对应的局部图像特征。
403、根据第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从第一视频片段中确定出至少两帧图像,其中,第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像。
404、根据所述至少两帧图像各自对应的图像特征确定第一视频片段对应 的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
本实施例提供的视频特征获取方案的核心思想是:先对两个视频片段各自的多帧图像的局部图像特征进行特征匹配,以确定两个视频片段重叠的起始帧图像和终止帧图像,之后,基于起始帧图像和终止帧图像之间各帧图像的图像特征(局部图像特征和整体图像特征的融合结果)确定相应视频片段的视频特征。这样,使得一个视频片段的视频特征更聚焦在与其他视频片段可能具有相似性的部分片段上,精确度更高。
本实施例中,整体图像特征和局部图像特征的提取过程可以参考前述其他实施例中的相关说明,在此不赘述。
为便于理解,下面结合图5来示例性说明本实施例提供的方案的实施过程。
在图5中,假设第一视频片段中包括按照时间顺序依次采样得到的图像Fa1~图像Fa10这十帧图像,第二视频片段中包括按照时间顺序依次采样得到的图像Fb1~图像Fb15这十五帧图像。
按照采样时间顺序,依次遍历第一视频片段中的这十帧图像,以确定当前遍历到的图像分别与第二视频片段中各帧图像的局部图像特征之间的匹配度。其中,两帧图像的局部图像特征之间的匹配度可以通过计算这两帧图像的局部图像特征间的距离来实现。
首先,计算图像Fa1分别与图像Fb1~图像Fb15的局部图像特征间的匹配度,假设发现得到的15个匹配度均小于预设阈值,则确定在第二视频片段中不存在与图像Fa1之间局部图像特征相匹配的图像。
之后,计算图像Fa2分别与图像Fb1~图像Fb15的局部图像特征间的匹配度,假设发现得到的15个匹配度均小于预设阈值,则确定在第二视频片段中不存在与图像Fa2之间局部图像特征相匹配的图像。
之后,计算图像Fa3分别与图像Fb1~图像Fb15的局部图像特征间的匹配度,假设图像Fa3与图像Fb2的局部图像特征间的匹配度大于预设阈值,则确定图像Fa3是第一视频片段与第二视频片段重叠的起始帧图像。
继续遍历之后的图像,假设当前遍历到图像Fa7,图像Fa7与图像Fb10的局部图像特征间的匹配度大于预设阈值,但是,当继续遍历到图像Fa8时,第二视频片段中不存在与图像Fa8之间局部图像特征相匹配的图像,则确定图像Fa7是第一视频片段与第二视频片段重叠的终止帧图像。
可以理解的是,在上述假设情形下,第二视频片段中分别存在与图像Fa4~图像Fa6之间局部图像特征相匹配的图像。
也就是说,假设第一视频片段中的图像Fa3~图像Fa7都能在第二视频片段包含的多帧图像中找到与之局部图像特征相匹配的图像。
此时,针对第一视频片段来说,可以仅使用图像Fa3~图像Fa7这五帧图像各自对应的图像特征来确定第一视频片段的视频特征。如前文所述,其中的每帧图像的图像特征是指其对应的局部图像特征和整体图像特征的拼接结果。
图6为本发明实施例提供的另一种视频相似度处理方法的流程示意图,如图6所示,可以包括如下步骤:
601、获取多个视频片段。
602、分别对多个视频片段各自包含的多帧图像进行图像特征提取。
603、根据多个视频片段各自包含的多帧图像的图像特征,确定多个视频片段各自对应的视频特征。
604、根据多个视频片段各自对应的视频特征,确定多个视频片段之间的相似度。
本实施例中,在得到多个视频片段之间的相似度之后,可选地,还可以将彼此之间相似度符合设定条件的视频片段划归为一组,从而可以得到多组视频片段,实现对视频片段的分类存储。
比如,视频片段A与视频片段B的视频特征间的相似度大于预设阈值,视频片段A与视频片段C的视频特征间的相似度也大于预设阈值,则可以认为视频片段A、视频片段B和视频片段C被划为一组。
本实施例中上述各个步骤的具体实现方式可以参考前述其他实施例中的 相关说明,在此不赘述。
图7为本发明实施例提供的一种视频相似度处理装置的结构示意图,如图7所示,该视频相似度处理装置包括:存储器11、处理器12。其中,存储器11上存储有可执行代码,当所述可执行代码被处理器12执行时,使处理器12实现:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;
当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
可选地,所述处理器12还用于:从相似片段中选出目标视频片段;根据所述目标视频片段进行剪辑操作,生成目标视频。
其中,可选地,所述处理器12具体用于:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
可选地,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器12具体用于:
提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;
提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;
对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
可选地,在提取所述第一视频片段中多帧图像各自对应的整体图像特征 的过程中,所述处理器12具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
可选地,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器12具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
可选地,所述处理器12具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器12具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
可选地,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器12具体用于:
根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;
根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
可选地,所述处理器12还用于:依次遍历所述第一视频片段中多帧图像, 确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
可选地,所述处理器12还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
可选地,所述处理器12还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
图7所示视频相似度处理装置在视频相似度处理过程中的具体执行过程,可以参考前述其他实施例中的相关说明,在此不赘述。
图8为本发明实施例提供的一种移动终端的结构示意图,如图8所示,该移动终端包括:
壳体21;
显示屏22,设于所述壳体21内部,用于显示视频;
处理器23,设于所述壳体21内部,与所述显示屏22耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
可选地,所述处理器23还用于:从相似片段中选出目标视频片段;根据所述目标视频片段进行剪辑操作,生成目标视频。
其中,可选地,所述处理器23具体用于:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
可选地,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器23具体用于:
提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;
提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;
对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
可选地,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器23具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
可选地,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器23具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
可选地,所述处理器23具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器23具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
可选地,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器23具体用于:
根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述 第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;
根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
可选地,所述处理器23还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
可选地,所述处理器23还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
可选地,所述处理器23还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
图8所示移动终端在视频相似度处理过程中的具体执行过程,可以参考前述其他实施例中的相关说明,在此不赘述。
图9为本发明实施例提供的一种视频相似度处理装置的结构示意图,如图9所示,该视频相似度处理装置包括:存储器31、处理器32。其中,存储器31上存储有可执行代码,当所述可执行代码被处理器32执行时,使处理器32实现:
获取多个视频片段;
分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;
根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;
根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
可选地,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器32具体用于:
提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;
提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;
对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
可选地,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器32具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
可选地,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器32具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
可选地,所述处理器32具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器32具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
可选地,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器32具体用于:
根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述 第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;
根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
可选地,所述处理器32还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
可选地,所述处理器32还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
可选地,所述处理器32还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
图9所示视频相似度处理装置在视频相似度处理过程中的具体执行过程,可以参考前述其他实施例中的相关说明,在此不赘述。
图10为本发明实施例提供的一种移动终端的结构示意图,如图10所示,该移动终端包括:
壳体41;
显示屏42,设于所述壳体41内部,用于显示视频;
处理器43,设于所述壳体41内部,与所述显示屏42耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
可选地,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器43具体用于:
提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;
提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部 图像特征;
对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
可选地,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器43具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
可选地,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器43具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
可选地,所述处理器43具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器43具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
可选地,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
可选地,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器43具体用于:
根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;
根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
可选地,所述处理器43还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
可选地,所述处理器43还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
可选地,所述处理器43还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
另外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有可执行代码,所述可执行代码用于实现如前述各实施例提供的视频相似度处理方法。
以上各个实施例中的技术方案、技术特征在不相冲突的情况下均可以单独,或者进行组合,只要未超出本领域技术人员的认知范围,均属于本申请保护范围内的等同实施例。
以上所述仅为本发明实施例的实施例,并非因此限制本发明实施例的专利范围,凡是利用本发明实施例说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明实施例的专利保护范围内。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。
Claims (74)
- 一种视频相似度处理方法,其特征在于,包括:获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
- 根据权利要求1所述的方法,其特征在于,所述方法还包括:从相似片段中选出目标视频片段;根据所述目标视频片段进行剪辑操作,生成目标视频。
- 根据权利要求2所述的方法,其特征在于,所述从相似片段中选出目标视频片段,包括:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
- 根据权利要求1所述的方法,其特征在于,对第一视频片段中多帧图像进行图像特征提取,包括:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求4所述的方法,其特征在于,所述提取所述第一视频片段中多帧图像各自对应的整体图像特征,包括:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求4所述的方法,其特征在于,所述提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征,包括:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求6所述的方法,其特征在于,对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求4所述的方法,其特征在于,所述根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征,包括:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求8所述的方法,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求4所述的方法,其特征在于,所述根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征,包括:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求10所述的方法,其特征在于,所述方法还包括:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求1所述的方法,其特征在于,所述获取多个视频片段,包括:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求1所述的方法,其特征在于,所述获取多个视频片段,包括:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种视频相似度处理方法,其特征在于,包括:获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
- 根据权利要求14所述的方法,其特征在于,对第一视频片段中多帧图像进行图像特征提取,包括:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求15所述的方法,其特征在于,所述提取所述第一视频片段中多帧图像各自对应的整体图像特征,包括:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求15所述的方法,其特征在于,所述提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征,包括:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求17所述的方法,其特征在于,对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求15所述的方法,其特征在于,所述根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征,包括:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求19所述的方法,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求15所述的方法,其特征在于,所述根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征,包括:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第 二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求21所述的方法,其特征在于,所述方法还包括:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求14所述的方法,其特征在于,所述获取多个视频片段,包括:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求14所述的方法,其特征在于,所述获取多个视频片段,包括:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种视频相似度处理装置,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器实现:获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
- 根据权利要求25所述的装置,其特征在于,所述处理器还用于:从相似片段中选出目标视频片段;根据所述目标视频片段进行剪辑操作,生成目标视频。
- 根据权利要求26所述的装置,其特征在于,所述处理器具体用于:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
- 根据权利要求25所述的装置,其特征在于,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器具体用于:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求28所述的装置,其特征在于,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求28所述的装置,其特征在于,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求30所述的装置,其特征在于,所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求28所述的装置,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求32所述的装置,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求28所述的装置,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求34所述的装置,其特征在于,所述处理器还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求25所述的装置,其特征在于,所述处理器还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求25所述的装置,其特征在于,所述处理器还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种移动终端,其特征在于,包括:壳体;显示屏,设于所述壳体内部,用于显示视频;处理器,设于所述壳体内部,与所述显示屏耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度;当任意两个视频片段的相似度大于预设阈值时,确定所述两个视频片段为相似片段。
- 根据权利要求38所述的终端,其特征在于,所述处理器还用于:从相似片段中选出目标视频片段;根据所述目标视频片段进行剪辑操作,生成目标视频。
- 根据权利要求39所述的终端,其特征在于,所述处理器具体用于:从相似片段中选出时长符合设定条件的视频片段作为目标视频片段;或者,从相似片段中选出图像质量符合设定条件的视频片段作为目标视频片段。
- 根据权利要求38所述的终端,其特征在于,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器具体用于:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求41所述的终端,其特征在于,在提取所述第一视频片 段中多帧图像各自对应的整体图像特征的过程中,所述处理器具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求41所述的终端,其特征在于,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求43所述的终端,其特征在于,所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求41所述的终端,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求45所述的终端,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求41所述的终端,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述 第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求47所述的终端,其特征在于,所述处理器还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求38所述的终端,其特征在于,所述处理器还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求38所述的终端,其特征在于,所述处理器还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可执行代码,所述可执行代码用于实现权利要求1至13中任一项所述的视频相似度处理方法。
- 一种视频相似度处理装置,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器实现:获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所述多个视频片段之间的相似度。
- 根据权利要求52所述的装置,其特征在于,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器具体用于:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求53所述的装置,其特征在于,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求53所述的装置,其特征在于,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求55所述的装置,其特征在于,所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求53所述的装置,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求57所述的装置,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求53所述的装置,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求59所述的装置,其特征在于,所述处理器还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求52所述的装置,其特征在于,所述处理器还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求52所述的装置,其特征在于,所述处理器还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种移动终端,其特征在于,包括:壳体;显示屏,设于所述壳体内部,用于显示视频;处理器,设于所述壳体内部,与所述显示屏耦合,用于获取多个视频片段;分别对所述多个视频片段各自包含的多帧图像进行图像特征提取;根据所述多个视频片段各自包含的多帧图像的图像特征,确定所述多个视频片段各自对应的视频特征;根据所述多个视频片段各自对应的视频特征,确定所 述多个视频片段之间的相似度。
- 根据权利要求63所述的终端,其特征在于,在对第一视频片段中多帧图像进行图像特征提取的过程中,所述处理器具体用于:提取所述第一视频片段中多帧图像各自对应的整体图像特征,所述第一视频片段是所述多个视频片段中的任一个;提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征;对所述多帧图像各自对应的整体图像特征和局部图像特征进行特征拼接,以得到所述多帧图像各自对应的图像特征。
- 根据权利要求64所述的终端,其特征在于,在提取所述第一视频片段中多帧图像各自对应的整体图像特征的过程中,所述处理器具体用于:将所述第一视频片段中多帧图像分别输入至神经网络模型中,以通过所述神经网络模型获取所述多帧图像各自对应的整体图像特征。
- 根据权利要求64所述的终端,其特征在于,在提取所述多帧图像各自的特征点,以得到所述多帧图像各自对应的局部图像特征的过程中,所述处理器具体用于:对所述多帧图像中的每帧图像进行特征点提取,以得到所述每帧图像中多个特征点各自对应的特征向量;根据所述每帧图像中多个特征点各自对应的特征向量,确定所述每帧图像的局部图像特征。
- 根据权利要求66所述的终端,其特征在于,所述处理器具体用于对所述多个特征点各自对应的特征向量进行如下任一种计算,以得到对应的局部图像特征:取均值,取最大值,取词袋特征。
- 根据权利要求64所述的终端,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:对所述第一视频片段中多帧图像各自对应的图像特征进行特征融合,以 融合后的图像特征作为所述第一视频片段对应的视频特征。
- 根据权利要求68所述的终端,其特征在于,所述特征融合包括如下任一种方式:取均值,取最大值,取词袋特征。
- 根据权利要求64所述的终端,其特征在于,在确定所述多个视频片段各自对应的视频特征的过程中,所述处理器具体用于:根据所述第一视频片段中多帧图像各自对应的局部图像特征,分别与第二视频片段中多帧图像各自对应的局部图像特征的匹配度,从所述第一视频片段中确定出至少两帧图像,其中,所述第二视频片段的多帧图像中存在与所述至少两帧图像的局部图像特征之间的匹配度达到设定条件的图像,所述第二视频片段是所述多个视频片段中除所述第一视频片段外的任一个;根据所述至少两帧图像各自对应的图像特征确定所述第一视频片段对应的视频特征,其中,所述至少两帧图像各自对应的图像特征由所述至少两帧图像各自对应的局部图像特征和整体图像特征进行拼接得到。
- 根据权利要求70所述的终端,其特征在于,所述处理器还用于:依次遍历所述第一视频片段中多帧图像,确定当前遍历到的图像的局部图像特征分别与所述第二视频片段中多帧图像各自对应的局部图像特征之间的匹配度。
- 根据权利要求63所述的终端,其特征在于,所述处理器还用于:接收用户对原始视频进行拆分得到的所述多个视频片段。
- 根据权利要求63所述的终端,其特征在于,所述处理器还用于:根据原始视频中的场景特征和/或运镜特征,对所述原始视频进行拆分,以得到所述多个视频片段。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可执行代码,所述可执行代码用于实现权利要求14至24中任一项所述的视频相似度处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202080070633.3A CN114731448A (zh) | 2020-11-23 | 2020-12-29 | 视频相似度处理方法、装置、移动终端和存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011531876 | 2020-11-23 | ||
CN202011531876.0 | 2020-11-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022105026A1 true WO2022105026A1 (zh) | 2022-05-27 |
Family
ID=81708320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/140900 WO2022105026A1 (zh) | 2020-11-23 | 2020-12-29 | 视频相似度处理方法、装置、移动终端和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114731448A (zh) |
WO (1) | WO2022105026A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120321181A1 (en) * | 2011-06-20 | 2012-12-20 | Microsoft Corporation | Near-duplicate video retrieval |
CN104504101A (zh) * | 2014-12-30 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种相似视频的确定方法及装置 |
CN107748750A (zh) * | 2017-08-30 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 相似视频查找方法、装置、设备及存储介质 |
EP2321964B1 (en) * | 2008-07-25 | 2018-12-12 | Google LLC | Method and apparatus for detecting near-duplicate videos using perceptual video signatures |
CN110163041A (zh) * | 2018-04-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频行人再识别方法、装置及存储介质 |
CN111145097A (zh) * | 2019-12-31 | 2020-05-12 | 华为技术有限公司 | 图像处理方法、装置和图像处理系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598014B (zh) * | 2019-09-27 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置及存储介质 |
CN111950653B (zh) * | 2020-08-24 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 视频处理方法和装置、存储介质及电子设备 |
-
2020
- 2020-12-29 WO PCT/CN2020/140900 patent/WO2022105026A1/zh active Application Filing
- 2020-12-29 CN CN202080070633.3A patent/CN114731448A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2321964B1 (en) * | 2008-07-25 | 2018-12-12 | Google LLC | Method and apparatus for detecting near-duplicate videos using perceptual video signatures |
US20120321181A1 (en) * | 2011-06-20 | 2012-12-20 | Microsoft Corporation | Near-duplicate video retrieval |
CN104504101A (zh) * | 2014-12-30 | 2015-04-08 | 北京奇艺世纪科技有限公司 | 一种相似视频的确定方法及装置 |
CN107748750A (zh) * | 2017-08-30 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 相似视频查找方法、装置、设备及存储介质 |
CN110163041A (zh) * | 2018-04-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频行人再识别方法、装置及存储介质 |
CN111145097A (zh) * | 2019-12-31 | 2020-05-12 | 华为技术有限公司 | 图像处理方法、装置和图像处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114731448A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102416558B1 (ko) | 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체 | |
US7630561B2 (en) | Image processing | |
US8879788B2 (en) | Video processing apparatus, method and system | |
US7636453B2 (en) | Object detection | |
CN101095149B (zh) | 图像比较设备和图像比较方法 | |
US20130177219A1 (en) | Face Data Acquirer, End User Video Conference Device, Server, Method, Computer Program And Computer Program Product For Extracting Face Data | |
JP7089045B2 (ja) | メディア処理方法、その関連装置及びコンピュータプログラム | |
CN107395957B (zh) | 拍照方法、装置、存储介质及电子设备 | |
US10205875B2 (en) | Image enhancement and repair using sample data from other images | |
US9881086B2 (en) | Image shooting device, image shooting method, and recording medium | |
WO2016158811A1 (ja) | 画像処理装置、画像処理方法および画像処理システム | |
US20140233854A1 (en) | Real time object scanning using a mobile phone and cloud-based visual search engine | |
CN111444822B (zh) | 对象识别方法和装置、存储介质和电子装置 | |
WO2024037660A1 (zh) | 确定异常分拣区域的方法、装置、电子设备及存储介质 | |
JP2022549661A (ja) | 画像処理方法、装置、機器、記憶媒体およびコンピュータプログラム | |
US10924637B2 (en) | Playback method, playback device and computer-readable storage medium | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113610034A (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
WO2022105026A1 (zh) | 视频相似度处理方法、装置、移动终端和存储介质 | |
CN116095363B (zh) | 基于关键行为识别的移动端短视频高光时刻剪辑方法 | |
CN113259734B (zh) | 针对交互场景的智能导播方法、装置、终端和存储介质 | |
CN108234868B (zh) | 一种基于案例推理的智能拍摄系统及方法 | |
CN113128277A (zh) | 一种人脸关键点检测模型的生成方法及相关设备 | |
CN112487858A (zh) | 一种视频生成方法及装置 | |
CN112565586A (zh) | 一种自动对焦方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20962317 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20962317 Country of ref document: EP Kind code of ref document: A1 |