WO2021027325A1 - 视频相似度获取方法、装置、计算机设备及存储介质 - Google Patents

视频相似度获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2021027325A1
WO2021027325A1 PCT/CN2020/087033 CN2020087033W WO2021027325A1 WO 2021027325 A1 WO2021027325 A1 WO 2021027325A1 CN 2020087033 W CN2020087033 W CN 2020087033W WO 2021027325 A1 WO2021027325 A1 WO 2021027325A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
picture
compared
feature vector
target picture
Prior art date
Application number
PCT/CN2020/087033
Other languages
English (en)
French (fr)
Inventor
夏新
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021027325A1 publication Critical patent/WO2021027325A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • This application relates to the field of artificial intelligence technology, and in particular to a method, device, computer equipment and storage medium for acquiring video similarity.
  • the embodiments of the present application provide a method, device, computer equipment and storage medium for obtaining video similarity, aiming to solve the problem that in the prior art, when judging the similarity of two videos, the user compares the similarity between the two with the naked eye. , It is difficult to accurately obtain the performer’s micro-expression for accurate video similarity judgment.
  • an embodiment of the present application provides a method for acquiring video similarity, which includes:
  • the average similarity between the video to be compared and the original video is sent to the uploader.
  • an embodiment of the present application provides a video similarity acquisition device, which includes:
  • the video receiving unit is configured to receive the video to be compared uploaded by the uploader, and obtain the original video corresponding to the video to be compared;
  • a video splitting unit configured to perform video splitting on both the video to be compared and the original video to obtain a set of pictures to be compared corresponding to the video to be compared, and an original picture set corresponding to the original video;
  • a first picture set obtaining unit configured to preprocess the video to be compared by an optical flow method to obtain a first target picture set corresponding to the video to be compared;
  • a second picture set acquiring unit configured to preprocess the original video by an optical flow method to obtain a second target picture set corresponding to the original video
  • the first extraction unit is configured to obtain a target picture feature vector corresponding to each target picture in the first target picture set through a convolutional neural network to form a first picture feature vector set;
  • the second extraction unit is configured to obtain a target picture feature vector corresponding to each target picture in the second target picture set through a convolutional neural network to form a second picture feature vector set;
  • the average similarity obtaining unit is used to obtain the similarity between each picture feature vector in the first picture feature vector set and the corresponding picture feature vector in the second picture feature vector set to obtain the video to be compared and the corresponding picture feature vector.
  • the average similarity sending unit is configured to send the average similarity between the video to be compared and the original video to the uploader.
  • an embodiment of the present application provides a computer device, which includes a memory, a processor, and a computer program stored on the memory and running on the processor, and the processor executes the computer
  • the program implements the video similarity acquisition method described in the first aspect.
  • the embodiments of the present application also provide a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the processor executes the above-mentioned The video similarity acquisition method described on the one hand.
  • the embodiments of the present application provide a method, device, computer equipment, and storage medium for acquiring video similarity. This method realizes the combination of micro-expression recognition technology and video image comparison to determine the similarity between videos, and improves the recognition accuracy of the similarity between videos.
  • FIG. 1 is a schematic diagram of an application scenario of a video similarity acquisition method provided by an embodiment of the application
  • FIG. 2 is a schematic flowchart of a method for acquiring video similarity provided by an embodiment of the application
  • FIG. 3 is a schematic diagram of a sub-flow of a method for acquiring a video similarity provided by an embodiment of the application;
  • FIG. 4 is a schematic diagram of another sub-flow of the method for obtaining video similarity provided by an embodiment of the application.
  • FIG. 5 is a schematic block diagram of a video similarity acquisition device provided by an embodiment of the application.
  • FIG. 6 is a schematic block diagram of subunits of a video similarity acquisition device provided by an embodiment of the application.
  • FIG. 7 is a schematic block diagram of another subunit of the video similarity acquisition device provided by an embodiment of the application.
  • FIG. 8 is a schematic block diagram of a computer device provided by an embodiment of the application.
  • FIG. 1 is a schematic diagram of an application scenario of a video similarity acquisition method provided by an embodiment of this application
  • FIG. 2 is a schematic flowchart of a video similarity acquisition method provided by an embodiment of this application. The method is applied to a server, and the method is executed by application software installed in the server.
  • the method includes steps S110 to S180.
  • S110 Receive a video to be compared uploaded by the uploader, and obtain an original video corresponding to the video to be compared.
  • the uploading terminal is a smart terminal used by the user, such as a smart phone, a tablet computer, etc.
  • the video to be compared stored in the server
  • the similarity of the corresponding original video can be that the user first selects a certain original video in the server, and then obtains the storage path of the original video in the server.
  • the video to be compared is obtained After uploading to the cache area in the server, the original video is obtained according to the storage path of the original video, and then a series of video data processing is performed to analyze the similarity between the two videos.
  • obtaining the original video corresponding to the video to be compared in step S110 includes:
  • the user when the uploader uploads the video to be compared to the server, the user first selects the original video on the user interaction interface of the uploader (the user interaction interface is the communication medium between the server and the uploader), and then selects the original video.
  • the server After determining the original video, the server can determine the storage path of the original video, the server sends the storage path to the uploader, and the default storage path of the video to be compared obtained by the uploader in the server is the original video storage path.
  • the server can obtain the corresponding original video according to the default storage path of the video to be compared in the server.
  • the user selects the original video to be compared with before uploading the video to be compared, and stores the video to be compared and the original video in the same storage path on the server, facilitating quick comparison of data in the same data partition , No need to migrate data across regions.
  • S130 Preprocess the video to be compared by an optical flow method to obtain a first target picture set corresponding to the video to be compared.
  • micro-expression analysis may be performed by the optical flow method to obtain the first target picture set corresponding to the video to be compared.
  • step S130 includes:
  • the scene of the object forms a series of continuously changing images on the retina of the human eye, and this series of continuously changing information constantly "flows through” the retina (that is, the image plane) , Seems to be a kind of light "flow", so it is called optical flow.
  • the optical flow expresses the change of the image, contains the information of the target movement, and can be used to determine the target's movement.
  • the three elements of optical flow one is the motion velocity field, which is a necessary condition for the formation of optical flow; the second is the part with optical characteristics such as gray-scale pixels, which can carry motion information; the third is the imaging projection from the scene to the The image plane can thus be observed.
  • optical flow is based on points. Specifically, let (u, v) be the optical flow of image point (x, y), then (x, y, u, v) is called optical flow point.
  • the collection of all optical flow points is called the optical flow field.
  • a corresponding image motion field, or image velocity field is formed on the image plane.
  • the optical flow field corresponds to the sports field.
  • the image can be dynamically analyzed. If there is no moving target in the image, the optical flow vector changes continuously throughout the image area. When there are moving objects in the image (when the user has micro expressions, the face will move, which is equivalent to moving objects), there is relative movement between the target and the background. The velocity vector formed by the moving object must be different from the background velocity vector, so that the position of the moving object can be calculated. Preprocessing by the optical flow method can obtain the first target picture set corresponding to the video to be compared.
  • S140 Preprocess the original video by using an optical flow method to obtain a second target picture set corresponding to the original video.
  • the process is the same as that for the video to be compared by the optical flow method.
  • the optical flow method is used for preprocessing.
  • the first total number of pictures included in the first target picture set does not exceed the second total number of pictures included in the second target picture set, and is generally included in the first target picture set
  • the first total number of pictures is equal to the second total number of pictures included in the two target picture sets.
  • the similarity between each picture in the first target picture set and the corresponding picture in the second target picture set needs to be compared at this time.
  • the target picture feature vector corresponding to each target picture in the first target picture set can be obtained through the convolutional neural network, and the target picture feature vector corresponding to each target picture in the first target picture set is used as the vector Analysis of the amount of data and the similarity with the corresponding pictures in the second target picture set.
  • step S150 includes:
  • S152 Input the picture pixel matrix corresponding to each preprocessed picture to the input layer of the convolutional neural network model to obtain feature maps corresponding to each preprocessed picture;
  • grayscale, edge detection, and binarization are sequentially performed on each target picture in the first target picture set, and then the preprocessed picture corresponding to each target picture can be obtained.
  • the gray-scale of color image is a basic method of image processing. It is widely used in the field of pattern recognition. Reasonable gray-scale will greatly help the extraction and subsequent processing of image information and save storage space. Speed up processing.
  • the method of edge detection is to examine the changes in the gray level of the pixels of the image in a certain area, and to identify the points with obvious brightness changes in the digital image.
  • Image edge detection can greatly reduce the amount of data, and eliminate irrelevant information, and preserve the important structural attributes of the image.
  • operators used for edge detection In addition to Sobel operator (ie Sobel operator), there are also Laplacian edge detection operator (ie Laplacian edge detection operator), Canny edge detection operator (ie Canney operator) and so on.
  • Binarization is a type of image thresholding. According to the selection of the threshold, the binarization method can be divided into global threshold method, dynamic threshold method and local threshold method.
  • the maximum between-class variance method also called Otsu algorithm
  • Otsu algorithm is commonly used for thresholding to eliminate some of the smaller gradient values Pixels, the pixel value of the image after binarization is 0 or 255.
  • the target picture feature vector of the target picture When obtaining the target picture feature vector of the target picture, first obtain the picture pixel matrix corresponding to the preprocessed picture, and then use the picture pixel matrix corresponding to the preprocessed picture as the input of the input layer in the convolutional neural network model to obtain the feature map , Then input the feature map to the pooling layer to obtain the one-dimensional vector corresponding to the maximum value of the feature map, and finally input the one-dimensional vector corresponding to the maximum value of the feature map to the fully connected layer to obtain the preprocessed image
  • the corresponding target image feature vector Since each target picture in the first target picture set obtains a corresponding target picture feature vector, the first picture feature vector set can be formed.
  • the process is the same as that of acquiring the first target picture through the convolutional neural network.
  • the target picture feature vector corresponding to each target picture in the set is the same. Since each target picture in the second target picture set obtains a corresponding target picture feature vector, the second picture feature vector set can be formed.
  • the video to be compared is an imitation video of the original video
  • generally large body movements are relatively similar.
  • they can be obtained separately The first picture feature vector set and the second picture feature vector set, and then the similarity between each picture feature vector in the first picture feature vector set and the corresponding picture feature vector in the second picture feature vector set is obtained to obtain all The average similarity between the video to be compared and the original video.
  • step S170 includes:
  • the average Euclidean distance value is calculated, and the average Euclidean distance value is used as the The similarity between the first picture feature vector set and the second picture feature vector set.
  • the first picture feature vector set includes 10 picture feature vectors, denoted as a1-a10; the second picture feature vector set also includes 10 picture feature vectors, denoted as b1-b10; at this time, a1 is calculated
  • the Euclidean distance between a1 and b1 is taken as the first degree of similarity between a1 and b1, and the Euclidean distance between a2 and b2 is calculated as the second degree of similarity between a2 and b2,..., calculate a10 and
  • the Euclidean distance between b10 is taken as the tenth similarity between a10 and b10, and the average value of the first similarity to the tenth similarity is obtained as the average similarity between the video to be compared and the original video
  • This calculation method can obtain the specific similarity between two similar videos based on the micro-expression similarity, which is more accurate than the video similarity that can be judged by the naked eye.
  • the average similarity between the video to be compared and the original video is used as the video similarity
  • the score of the degree is sent to the uploader, so as to realize the score notification to the uploader.
  • step S180 the method further includes:
  • the server detects that the originator citation information corresponding to the video to be compared is not the same as the originator information of the original video, it means that the user has not edited the originator citation information correctly, which may cause later legal risks. Correct the notification information of the original creator citation information corresponding to the video to be compared to the uploader to inform the user to modify the original creator citation information in time, thereby effectively avoiding subsequent legal risks.
  • This method realizes the combination of micro-expression recognition technology and video image comparison to determine the similarity between videos, and improves the recognition accuracy of the similarity between videos.
  • An embodiment of the present application also provides a video similarity acquisition device, which is used to execute any embodiment of the foregoing video similarity acquisition method.
  • FIG. 5 is a schematic block diagram of a video similarity obtaining apparatus provided by an embodiment of the present application.
  • the video similarity acquisition device 100 may be configured in a server.
  • the video similarity acquisition device 100 includes a video receiving unit 110, a video splitting unit 120, a first picture set acquiring unit 130, a second picture set acquiring unit 140, a first extracting unit 150, and a second extracting unit. 160.
  • the video receiving unit 110 is configured to receive the video to be compared uploaded by the uploader, and obtain the original video corresponding to the video to be compared.
  • the uploading terminal is a smart terminal used by the user, such as a smart phone, a tablet computer, etc.
  • the video to be compared stored in the server
  • the similarity of the corresponding original video can be that the user first selects a certain original video in the server, and then obtains the storage path of the original video in the server.
  • the video to be compared is obtained After uploading to the cache area in the server, the original video is obtained according to the storage path of the original video, and then a series of video data processing is performed to analyze the similarity between the two videos.
  • the video receiving unit 110 is further configured to:
  • the user when the uploader uploads the video to be compared to the server, the user first selects the original video on the user interaction interface of the uploader (the user interaction interface is the communication medium between the server and the uploader), and then selects the original video.
  • the server After determining the original video, the server can determine the storage path of the original video, the server sends the storage path to the uploader, and the default storage path of the video to be compared obtained by the uploader in the server is the original video storage path.
  • the server can obtain the corresponding original video according to the default storage path of the video to be compared in the server.
  • the user selects the original video to be compared with before uploading the video to be compared, and stores the video to be compared and the original video in the same storage path on the server, facilitating quick comparison of data in the same data partition , No need to migrate data across regions.
  • the video splitting unit 120 is configured to perform video splitting on the video to be compared and the original video to obtain a set of pictures to be compared corresponding to the video to be compared, and an original picture set corresponding to the original video .
  • the first picture set acquiring unit 130 is configured to preprocess the video to be compared by an optical flow method to obtain a first target picture set corresponding to the video to be compared.
  • micro-expression analysis may be performed by the optical flow method to obtain the first target picture set corresponding to the video to be compared.
  • the first picture set acquiring unit 130 includes:
  • the vector feature obtaining unit 131 is configured to obtain the velocity vector feature corresponding to each pixel of each frame of the picture in the video to be compared;
  • the first target picture set acquiring unit 132 is configured to, if the velocity vector feature of at least one frame of pictures in the video to be compared does not keep changing continuously, compose the corresponding pictures into the first target in the video to be compared Picture collection.
  • the scene of the object forms a series of continuously changing images on the retina of the human eye, and this series of continuously changing information constantly "flows through” the retina (that is, the image plane) , Seems to be a kind of light "flow", so it is called optical flow.
  • the optical flow expresses the change of the image, contains the information of the target movement, and can be used to determine the target's movement.
  • the three elements of optical flow one is the motion velocity field, which is a necessary condition for the formation of optical flow; the second is the part with optical characteristics such as gray-scale pixels, which can carry motion information; the third is the imaging projection from the scene to the The image plane can thus be observed.
  • optical flow is based on points. Specifically, let (u, v) be the optical flow of image point (x, y), then (x, y, u, v) is called optical flow point.
  • the collection of all optical flow points is called the optical flow field.
  • a corresponding image motion field, or image velocity field is formed on the image plane.
  • the optical flow field corresponds to the sports field.
  • the image can be dynamically analyzed. If there is no moving target in the image, the optical flow vector changes continuously throughout the image area. When there are moving objects in the image (when the user has micro expressions, the face will move, which is equivalent to moving objects), there is relative movement between the target and the background. The velocity vector formed by the moving object must be different from the background velocity vector, so that the position of the moving object can be calculated. Preprocessing by the optical flow method can obtain the first target picture set corresponding to the video to be compared.
  • the second picture set obtaining unit 140 is configured to preprocess the original video by the optical flow method to obtain a second target picture set corresponding to the original video.
  • the process is the same as that for the video to be compared by the optical flow method.
  • the optical flow method is used for preprocessing.
  • the first total number of pictures included in the first target picture set does not exceed the second total number of pictures included in the second target picture set, and is generally included in the first target picture set
  • the first total number of pictures is equal to the second total number of pictures included in the two target picture sets.
  • the first extraction unit 150 is configured to obtain a target picture feature vector corresponding to each target picture in the first target picture set through a convolutional neural network to form a first picture feature vector set.
  • the similarity between each picture in the first target picture set and the corresponding picture in the second target picture set needs to be compared at this time.
  • the target picture feature vector corresponding to each target picture in the first target picture set can be obtained through the convolutional neural network, and the target picture feature vector corresponding to each target picture in the first target picture set is used as the vector Analysis of the amount of data and the similarity with the corresponding pictures in the second target picture set.
  • the first extraction unit 150 includes:
  • the preprocessing unit 151 is configured to preprocess each target picture in the first target picture set to obtain a preprocessed picture corresponding to each target picture, and a picture pixel matrix corresponding to each preprocessed picture; Wherein, preprocessing the target picture is to sequentially perform grayscale, edge detection and binarization processing on the target picture;
  • the convolution unit 152 is configured to input the picture pixel matrix corresponding to each preprocessed picture to the input layer of the convolutional neural network model to obtain a feature map corresponding to each preprocessed picture;
  • the pooling unit 153 is configured to input each feature map to the pooling layer in the convolutional neural network model to obtain a one-dimensional vector corresponding to each feature map;
  • the fully connected unit 154 is configured to input the one-dimensional vector corresponding to each feature map to the fully connected layer of the convolutional neural network model to obtain the target image feature vector corresponding to each feature map to form a first image feature vector set.
  • grayscale, edge detection, and binarization are sequentially performed on each target picture in the first target picture set, and then the preprocessed picture corresponding to each target picture can be obtained.
  • the gray-scale of color image is a basic method of image processing. It is widely used in the field of pattern recognition. Reasonable gray-scale will greatly help the extraction and subsequent processing of image information and save storage space. Speed up processing.
  • the method of edge detection is to examine the changes in the gray level of the pixels of the image in a certain area, and to identify the points with obvious brightness changes in the digital image.
  • Image edge detection can greatly reduce the amount of data, and eliminate irrelevant information, and preserve the important structural attributes of the image.
  • operators used for edge detection In addition to the Sobel operator (ie Sobel operator), there are also Laplacian edge detection operator (ie Laplacian edge detection operator), Canny edge detection operator (ie Canney operator) and so on.
  • Binarization is a type of image thresholding. According to the selection of the threshold, the binarization method can be divided into global threshold method, dynamic threshold method and local threshold method.
  • the maximum between-class variance method also called Otsu algorithm
  • Otsu algorithm is commonly used for thresholding to eliminate some of the smaller gradient values Pixels, the pixel value of the image after binarization is 0 or 255.
  • the target picture feature vector of the target picture When obtaining the target picture feature vector of the target picture, first obtain the picture pixel matrix corresponding to the preprocessed picture, and then use the picture pixel matrix corresponding to the preprocessed picture as the input of the input layer in the convolutional neural network model to obtain the feature map , Then input the feature map to the pooling layer to obtain the one-dimensional vector corresponding to the maximum value of the feature map, and finally input the one-dimensional vector corresponding to the maximum value of the feature map to the fully connected layer to obtain the preprocessed image
  • the corresponding target image feature vector Since each target picture in the first target picture set obtains a corresponding target picture feature vector, the first picture feature vector set can be formed.
  • the second extraction unit 160 is configured to obtain a target picture feature vector corresponding to each target picture in the second target picture set through a convolutional neural network to form a second picture feature vector set.
  • the process is the same as that of acquiring the first target picture through the convolutional neural network.
  • the target picture feature vector corresponding to each target picture in the set is the same. Since each target picture in the second target picture set obtains a corresponding target picture feature vector, the second picture feature vector set can be formed.
  • the average similarity obtaining unit 170 is configured to obtain the similarity between each picture feature vector in the first picture feature vector set and the corresponding picture feature vector in the second picture feature vector set to obtain the video to be compared and The average similarity of the original video.
  • the video to be compared is an imitation video of the original video
  • generally large body movements are relatively similar.
  • they can be obtained separately The first picture feature vector set and the second picture feature vector set, and then the similarity between each picture feature vector in the first picture feature vector set and the corresponding picture feature vector in the second picture feature vector set is obtained to obtain all The average similarity between the video to be compared and the original video.
  • the average similarity obtaining unit 170 is further configured to:
  • the average Euclidean distance value is calculated, and the average Euclidean distance value is used as the The similarity between the first picture feature vector set and the second picture feature vector set.
  • the first picture feature vector set includes 10 picture feature vectors, denoted as a1-a10; the second picture feature vector set also includes 10 picture feature vectors, denoted as b1-b10; at this time, a1 is calculated
  • the Euclidean distance between a1 and b1 is taken as the first degree of similarity between a1 and b1, and the Euclidean distance between a2 and b2 is calculated as the second degree of similarity between a2 and b2,..., calculate a10 and
  • the Euclidean distance between b10 is taken as the tenth similarity between a10 and b10, and the average value of the first similarity to the tenth similarity is obtained as the average similarity between the video to be compared and the original video
  • This calculation method can obtain the specific similarity between two similar videos based on the micro-expression similarity, which is more accurate than the video similarity that can be judged by the naked eye.
  • the average similarity sending unit 180 is configured to send the average similarity between the video to be compared and the original video to the uploader.
  • the average similarity between the video to be compared and the original video is used as the video similarity
  • the score of the degree is sent to the uploader, so as to realize the score notification to the uploader.
  • the video similarity acquisition device 100 further includes:
  • the original information comparison unit 190 is configured to send a notice of correcting the original creator reference information corresponding to the to-be-compared video if the original creator reference information corresponding to the video to be compared is not the same as the original creator information of the original video Information to upload terminal.
  • the server detects that the originator citation information corresponding to the video to be compared is not the same as the originator information of the original video, it means that the user has not edited the originator citation information correctly, which may cause later legal risks. Correct the notification information of the original creator citation information corresponding to the video to be compared to the uploader to inform the user to modify the original creator citation information in time, thereby effectively avoiding subsequent legal risks.
  • the device realizes the combination of micro-expression recognition technology and video image comparison to determine the similarity between videos, and improves the recognition accuracy of the similarity between videos.
  • the above-mentioned video similarity acquisition device can be implemented in the form of a computer program, and the computer program can be run on a computer device as shown in FIG. 8.
  • FIG. 8 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the computer device 500 is a server, and the server may be an independent server or a server cluster composed of multiple servers.
  • the computer device 500 includes a processor 502, a memory, and a network interface 505 connected through a system bus 501, where the memory may include a non-volatile storage medium 503 and an internal memory 504.
  • the non-volatile storage medium 503 can store an operating system 5031 and a computer program 5032.
  • the processor 502 can execute the video similarity acquisition method.
  • the processor 502 is used to provide calculation and control capabilities, and support the operation of the entire computer device 500.
  • the internal memory 504 provides an environment for the operation of the computer program 5032 in the non-volatile storage medium 503.
  • the processor 502 can execute the video similarity acquisition method.
  • the network interface 505 is used for network communication, such as providing data information transmission.
  • the structure shown in FIG. 8 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device 500 to which the solution of the present application is applied.
  • the specific computer device 500 may include more or fewer components than shown in the figure, or combine certain components, or have a different component arrangement.
  • the processor 502 is configured to run a computer program 5032 stored in a memory to implement the video similarity acquisition device disclosed in the embodiment of the present application.
  • the embodiment of the computer device shown in FIG. 8 does not constitute a limitation on the specific configuration of the computer device.
  • the computer device may include more or less components than those shown in the figure. Or combine certain components, or different component arrangements.
  • the computer device may only include a memory and a processor. In such an embodiment, the structures and functions of the memory and the processor are consistent with the embodiment shown in FIG. 8 and will not be repeated here.
  • the processor 502 may be a central processing unit (Central Processing Unit, CPU), and the processor 502 may also be other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor.
  • a computer-readable storage medium may be a non-volatile computer-readable storage medium, or may be a volatile computer-readable storage medium.
  • the computer-readable storage medium stores a computer program, where the computer program is executed by a processor to implement the video similarity acquisition method disclosed in the embodiments of the present application.
  • the disclosed equipment, device, and method may be implemented in other ways.
  • the device embodiments described above are only illustrative.
  • the division of the units is only a logical function division. In actual implementation, there may be other division methods, or the units with the same function may be combined into one. Units, for example, multiple units or components can be combined or integrated into another system, or some features can be omitted or not implemented.
  • the displayed or discussed mutual coupling or direct coupling or communication connection may be indirect coupling or communication connection through some interfaces, devices or units, and may also be electrical, mechanical or other forms of connection.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solutions of the embodiments of the present application.
  • the functional units in the various embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit can be implemented in the form of hardware or software functional unit.
  • the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a storage medium.
  • the technical solution of this application is essentially or the part that contributes to the existing technology, or all or part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium It includes several instructions to make a computer device (which may be a personal computer, a server, or a network device, etc.) execute all or part of the steps of the method described in each embodiment of the present application.
  • the aforementioned storage media include: U disk, mobile hard disk, read-only memory (ROM, Read-Only Memory), magnetic disk or optical disk and other media that can store program codes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能领域,具体公开了视频相似度获取方法、装置、计算机设备及存储介质。该方法包括:通过光流法分别对待比对视频和原始视频进行预处理,得到与待比对视频对应的第一目标图片集合,及与原始视频对应的第二目标图片集合;通过卷积神经网络获取分别第一目标图片集合对应的第一图片特征向量集合,及第二目标图片集合对应的第二图片特征向量集合;获取第一图片特征向量集合中各图片特征向量与第二图片特征向量集合中对应图片特征向量的相似度,以得到待比对视频与原始视频的平均相似度;以及将待比对视频与原始视频的平均相似度发送至上传端。该方法实现了结合微表情识别技术和视频图像比对来判断视频之间的相似度,提高了视频之间的相似度的识别准确率。

Description

视频相似度获取方法、装置、计算机设备及存储介质
本申请要求于2019年8月15日提交中国专利局、申请号为201910752907.6,发明名称为“视频相似度获取方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种视频相似度获取方法、装置、计算机设备及存储介质。
背景技术
目前,在评判两段视频的相似度时,无具体算法来进行计算,只是用户通过肉眼来比对两者的相似程度(例如一些视频模仿秀APP,用户上传一个模仿视频以还原原始视频中表演者的肢体动作和表情等)。发明人意识到,通过肉眼评判时,难以准确的获取表演者的微表情以进行精准的视频相似度判断。
发明内容
本申请实施例提供了一种视频相似度获取方法、装置、计算机设备及存储介质,旨在解决现有技术中在评判两段视频的相似度时是用户通过肉眼来比对两者的相似程度,难以准确的获取表演者的微表情以进行精准的视频相似度判断的问题。
第一方面,本申请实施例提供了一种视频相似度获取方法,其包括:
接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频;
将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合;
通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
将所述待比对视频与所述原始视频的平均相似度发送至上传端。
第二方面,本申请实施例提供了一种视频相似度获取装置,其包括:
视频接收单元,用于接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频;
视频拆分单元,用于将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
第一图片集合获取单元,用于通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
第二图片集合获取单元,用于通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
第一提取单元,用于通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应 的目标图片特征向量,以组成第一图片特征向量集合;
第二提取单元,用于通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
平均相似度获取单元,用于获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
平均相似度发送单元,用于将所述待比对视频与所述原始视频的平均相似度发送至上传端。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的视频相似度获取方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的视频相似度获取方法。
本申请实施例提供了一种视频相似度获取方法、装置、计算机设备及存储介质。该方法实现了结合微表情识别技术和视频图像比对来判断视频之间的相似度,提高了视频之间的相似度的识别准确率。
附图说明
图1为本申请实施例提供的视频相似度获取方法的应用场景示意图;
图2为本申请实施例提供的视频相似度获取方法的流程示意图;
图3为本申请实施例提供的视频相似度获取方法的子流程示意图;
图4为本申请实施例提供的视频相似度获取方法的另一子流程示意图;
图5为本申请实施例提供的视频相似度获取装置的示意性框图;
图6为本申请实施例提供的视频相似度获取装置的子单元示意性框图;
图7为本申请实施例提供的视频相似度获取装置的另一子单元示意性框图;
图8为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1和图2,图1为本申请实施例提供的视频相似度获取方法的应用场景示意图;图2为本申请实施例提供的视频相似度获取方法的流程示意图,该视频相似度获取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S180。
S110、接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频。
在本实施例中,为了判断用户通过上传端(上传端为用户使用的智能终端,如智能手机、平板电脑等)上传至服务器的待比对视频,与服务器中存储的所述待比对视频对应的原始视频的相似度时,可以是用户先选定了服务器中的某一原始视频后,获取该原始视频在服务器中对应的存储路径,当用户通过上传端拍摄视频获取了待比对视频后上传至服务器中的缓存区域,根据该原始视频的存储路径获取该原始视频,之后进行一系列视频数据处理,分析两个视频之间的相似度。
在一实施例中,步骤S110中获取与所述待比对视频对应的原始视频,包括:
根据所述待对比视频对应的存储路径在服务器中获取对应的原始视频。
在本实施例中,当上传端上传所述待对比视频至服务器时,用户在上传端的用户交互界面(该用户交互界面为服务器与上传端进行通讯的媒介)上先选定原始视频,再选定原始视频之后,服务器即可判断该原始视频的存储路径,服务器将存储路径发送至上传端,上传端所获取的待比对视频在服务器中的默认存储路径即为原始视频的存储路径。一旦上传端上传所述待对比视频至服务器后,服务器即可根据待比对视频在服务器中的默认存储路径获取对应的原始视频。通过这一方式,用户在上传待对比视频之前就选定了与之比对的原始视频,将待对比视频与原始视频存储在服务器中的同一存储路径,便于同一数据分区的数据进行快速比对,无需跨区迁移数据。
S120、将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合。
在本实施例中,在比对所述待对比视频及所述原始视频时,需要将所述待对比视频及所述原始视频均进行视频拆分。由于视频的本质是在单位时间内播放一定数量的图片,例如在1秒内播放24-30张连续的图片,此时为了对比所述待对比视频及所述原始视频的相似程度,可以先将两者分别进行拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合。在将所述待对比视频及所述原始视频均进行拆分时,采用常用的一些视频拆分工具即可,且将每一秒的视频拆分为24帧图片。
S130、通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合。
在本实施例中,当服务器获取了上传端所上传的待比对视频后,需对其进行微表情分析。具体实施时,可以通过光流法进行微表情分析以得到所述待比对视频对应的第一目标图片集合。
在一实施例中,如图3所示,步骤S130包括:
S131、获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
S132、若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
在本实施例中,当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。
定义光流以点为基础,具体来说,设(u,v)为图像点(x,y)的光流,则把(x,y,u,v)称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。
给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到与所述待比对视频对应的第一目标图片集合。
S140、通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合。
在本实施例中,在通过光流法对所述原始视频进行预处理时,其过程与通过光流法对所述待比对视频进行预处理相同,通过光流法进行预处理,即可得到与所述原始视频对应的第二目标图片集合。其中,所述第一目标图片集合中所包括图片的第一总张数不超过所述二目 标图片集合中所包括图片的第二总张数,一般是所述第一目标图片集合中所包括图片的第一总张数等于所述二目标图片集合中所包括图片的第二总张数。
S150、通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合。
在本实施例中,当分别获取了第一目标图片集合和第二目标图片集合后,此时需对比第一目标图片集合中每张图片与第二目标图片集合中对应图片的相似度。此时,可通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以所述第一目标图片集合中每一目标图片对应的目标图片特征向量作为向量数据量分析与与第二目标图片集合中对应图片的相似度。
在一实施例中,如图4所示,步骤S150包括:
S151、将所述第一目标图片集合中每一目标图片进行预处理,得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵;其中,将目标图片进行预处理为依序对所述目标图片进行灰度化、边缘检测和二值化处理;
S152、将与各预处理后图片对应的图片像素矩阵输入至卷积神经网络模型中输入层,得到与各预处理后图片对应的特征图;
S153、将各特征图输入至卷积神经网络模型中池化层,得到与各特征图对应的一维向量;
S154、将与各特征图对应的一维向量输入至卷积神经网络模型中全连接层,得到与各特征图对应的目标图片特征向量,以组成第一图片特征向量集合。
在本实施例中,对所述第一目标图片集合中每一目标图片依次进行灰度化、边缘检测和二值化处理,即可得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵。
由于彩色图像包含更多的信息,但是直接对彩色图像进行处理,服务器中的执行速度将会降低,储存空间也会变大。彩色图像的灰度化是图像处理的一种基本的方法,在模式识别领域得到广泛的运用,合理的灰度化将对图像信息的提取和后续处理有很大的帮助,能够节省储存空间,加快处理速度。
边缘检测的方法是考察图像的像素在某个领域内灰度的变化情况,标识数字图像中亮度变化明显的点。图像的边缘检测能够大幅度地减少数据量,并且剔除不相关的信息,保存图像重要的结构属性。用于边缘检测的算子很多,常用的除了有Sobel算子(即索贝尔算子),还有Laplacian边缘检测算子(即拉普拉斯边缘检测算子)、Canny边缘检测算子(即坎尼算子)等。
为了减少噪声的影响,需要对进行边缘检测后的图像进行二值化处理,二值化是对图像进行阈值化的一种类型。根据阈值的选取情况,二值化的方法可分为全局阈值法、动态阈值法和局部阈值法,常用最大类间方差法(也称Otsu算法)进行阈值化,来剔除一些梯度值较小的像素,二值化处理后图像的像素值为0或者255。此时,即可得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵。
在获取目标图片的目标图片特征向量时,先获取与预处理后图片对应的图片像素矩阵,然后将预处理后图片对应的图片像素矩阵作为卷积神经网络模型中输入层的输入,得到特征图,之后将特征图输入池化层,得到特征图对应的最大值所对应的一维向量,最后将特征图对应的最大值所对应的一维向量输入至全连接层,得到与预处理后图片对应的目标图片特征向量。由于所述第一目标图片集合中每一目标图片均获取了对应的目标图片特征向量,即可组成第一图片特征向量集合。
S160、通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合。
在本实施例中,在通过卷积神经网络获取与所述第二目标图片集合中每一目标图片对应的目标图片特征向量时,其过程与通过卷积神经网络获取与所述第一目标图片集合中每一目标图片对应的目标图片特征向量相同。由于所述第二目标图片集合中每一目标图片均获取了 对应的目标图片特征向量,即可组成第二图片特征向量集合。
S170、获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度。
在本实施例中,一般由于待对比视频为原始视频的模仿视频,一般大的肢体动作是较为类似的,为了更精细的通过微表情来判断待对比视频与原始视频的相似度,可分别获取第一图片特征向量集合和第二图片特征向量集合,然后获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度。
在一实施例中,步骤S170包括:
获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的欧氏距离后求平均欧氏距离值,以所述平均欧氏距离值作为所述第一图片特征向量集合与所述第二图片特征向量集合之间的相似度。
例如,第一图片特征向量集合中包括10个图片特征向量,分别记为a1-a10;第二图片特征向量集合中同样也包括10个图片特征向量,分别记为b1-b10;此时计算a1与b1之间的欧氏距离以作为a1与b1之间的第一相似度,计算a2与b2之间的欧氏距离以作为a2与b2之间的第二相似度,……,计算a10与b10之间的欧氏距离以作为a10与b10之间的第十相似度,此时获取第一相似度至第十相似度的平均值作为所述待比对视频与所述原始视频的平均相似度,通过这一运算方式能获取两相似视频之间根据微表情相似度而评判的具体相似度,这比通过肉眼评判能更精准判断的视频相似度。
S180、将所述待比对视频与所述原始视频的平均相似度发送至上传端。
在本实施例中,当在服务器中完成了所述待比对视频与所述原始视频的平均相似度的计算后,以所述待比对视频与所述原始视频的平均相似度作为视频相似度的评分发送至上传端,从而实现对上传端的评分通知。
在一实施例中,步骤S180之后还包括:
S190、若所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端。
在本实施例中,当用户上传了待对比视频至服务器时,一般还需对待对比视频的原创者引用信息进行编辑,以表示用户所拍摄的待对比视频是模仿原始视频的,从而明确引用关系。一旦服务器检测到所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,则表示用户并未正确编辑原创者引用信息可能会导致后期的法律风险,此时发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端以告知用户及时修改原创者引用信息,从而有效规避后期的法律风险。
该方法实现了结合微表情识别技术和视频图像比对来判断视频之间的相似度,提高了视频之间的相似度的识别准确率。
本申请实施例还提供一种视频相似度获取装置,该视频相似度获取装置用于执行前述视频相似度获取方法的任一实施例。具体地,请参阅图5,图5是本申请实施例提供的视频相似度获取装置的示意性框图。该视频相似度获取装置100可以配置于服务器中。
如图5所示,视频相似度获取装置100包括视频接收单元110、视频拆分单元120、第一图片集合获取单元130、第二图片集合获取单元140、第一提取单元150、第二提取单元160、平均相似度获取单元170、平均相似度发送单元180。
视频接收单元110,用于接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频。
在本实施例中,为了判断用户通过上传端(上传端为用户使用的智能终端,如智能手机、平板电脑等)上传至服务器的待比对视频,与服务器中存储的所述待比对视频对应的原始视频的相似度时,可以是用户先选定了服务器中的某一原始视频后,获取该原始视频在服务器 中对应的存储路径,当用户通过上传端拍摄视频获取了待比对视频后上传至服务器中的缓存区域,根据该原始视频的存储路径获取该原始视频,之后进行一系列视频数据处理,分析两个视频之间的相似度。
在一实施例中,视频接收单元110还用于:
根据所述待对比视频对应的存储路径在服务器中获取对应的原始视频。
在本实施例中,当上传端上传所述待对比视频至服务器时,用户在上传端的用户交互界面(该用户交互界面为服务器与上传端进行通讯的媒介)上先选定原始视频,再选定原始视频之后,服务器即可判断该原始视频的存储路径,服务器将存储路径发送至上传端,上传端所获取的待比对视频在服务器中的默认存储路径即为原始视频的存储路径。一旦上传端上传所述待对比视频至服务器后,服务器即可根据待比对视频在服务器中的默认存储路径获取对应的原始视频。通过这一方式,用户在上传待对比视频之前就选定了与之比对的原始视频,将待对比视频与原始视频存储在服务器中的同一存储路径,便于同一数据分区的数据进行快速比对,无需跨区迁移数据。
视频拆分单元120,用于将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合。
在本实施例中,在比对所述待对比视频及所述原始视频时,需要将所述待对比视频及所述原始视频均进行视频拆分。由于视频的本质是在单位时间内播放一定数量的图片,例如在1秒内播放24-30张连续的图片,此时为了对比所述待对比视频及所述原始视频的相似程度,可以先将两者分别进行拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合。在将所述待对比视频及所述原始视频均进行拆分时,采用常用的一些视频拆分工具即可,且将每一秒的视频拆分为24帧图片。
第一图片集合获取单元130,用于通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合。
在本实施例中,当服务器获取了上传端所上传的待比对视频后,需对其进行微表情分析。具体实施时,可以通过光流法进行微表情分析以得到所述待比对视频对应的第一目标图片集合。
在一实施例中,如图6所示,第一图片集合获取单元130包括:
矢量特征获取单元131,用于获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
第一目标图片集合获取单元132,用于若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
在本实施例中,当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像是一种光的“流”,故称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流三个要素:一是运动速度场,这是形成光流的必要条件;二是带光学特征的部分例如有灰度的象素点,它可以携带运动信息;三是成像投影从场景到图像平面,因而能被观察到。
定义光流以点为基础,具体来说,设(u,v)为图像点(x,y)的光流,则把(x,y,u,v)称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时,在图像平面上就形成了相应的图像运动场,或称为图像速度场。在理想情况下,光流场对应于运动场。
给图像中的每个像素点赋予一个速度矢量,这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征,可以对图像进行动态分析。如果图像中没有运动目标,则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时,脸部会有运动,相当于运动物体),目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同,如此便可以计算出运动物体的位置。通过光流法进行预处理,即可得到 与所述待比对视频对应的第一目标图片集合。
第二图片集合获取单元140,用于通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合。
在本实施例中,在通过光流法对所述原始视频进行预处理时,其过程与通过光流法对所述待比对视频进行预处理相同,通过光流法进行预处理,即可得到与所述原始视频对应的第二目标图片集合。其中,所述第一目标图片集合中所包括图片的第一总张数不超过所述二目标图片集合中所包括图片的第二总张数,一般是所述第一目标图片集合中所包括图片的第一总张数等于所述二目标图片集合中所包括图片的第二总张数。
第一提取单元150,用于通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合。
在本实施例中,当分别获取了第一目标图片集合和第二目标图片集合后,此时需对比第一目标图片集合中每张图片与第二目标图片集合中对应图片的相似度。此时,可通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以所述第一目标图片集合中每一目标图片对应的目标图片特征向量作为向量数据量分析与与第二目标图片集合中对应图片的相似度。
在一实施例中,如图7所示,第一提取单元150包括:
预处理单元151,用于将所述第一目标图片集合中每一目标图片进行预处理,得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵;其中,将目标图片进行预处理为依序对所述目标图片进行灰度化、边缘检测和二值化处理;
卷积单元152,用于将与各预处理后图片对应的图片像素矩阵输入至卷积神经网络模型中输入层,得到与各预处理后图片对应的特征图;
池化单元153,用于将各特征图输入至卷积神经网络模型中池化层,得到与各特征图对应的一维向量;
全连接单元154,用于将与各特征图对应的一维向量输入至卷积神经网络模型中全连接层,得到与各特征图对应的目标图片特征向量,以组成第一图片特征向量集合。
在本实施例中,对所述第一目标图片集合中每一目标图片依次进行灰度化、边缘检测和二值化处理,即可得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵。
由于彩色图像包含更多的信息,但是直接对彩色图像进行处理,服务器中的执行速度将会降低,储存空间也会变大。彩色图像的灰度化是图像处理的一种基本的方法,在模式识别领域得到广泛的运用,合理的灰度化将对图像信息的提取和后续处理有很大的帮助,能够节省储存空间,加快处理速度。
边缘检测的方法是考察图像的像素在某个领域内灰度的变化情况,标识数字图像中亮度变化明显的点。图像的边缘检测能够大幅度地减少数据量,并且剔除不相关的信息,保存图像重要的结构属性。用于边缘检测的算子很多,常用的除了有Sobel算子(即索贝尔算子),还有Laplacian边缘检测算子(即拉普拉斯边缘检测算子)、Canny边缘检测算子(即坎尼算子)等。
为了减少噪声的影响,需要对进行边缘检测后的图像进行二值化处理,二值化是对图像进行阈值化的一种类型。根据阈值的选取情况,二值化的方法可分为全局阈值法、动态阈值法和局部阈值法,常用最大类间方差法(也称Otsu算法)进行阈值化,来剔除一些梯度值较小的像素,二值化处理后图像的像素值为0或者255。此时,即可得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵。
在获取目标图片的目标图片特征向量时,先获取与预处理后图片对应的图片像素矩阵,然后将预处理后图片对应的图片像素矩阵作为卷积神经网络模型中输入层的输入,得到特征图,之后将特征图输入池化层,得到特征图对应的最大值所对应的一维向量,最后将特征图对应的最大值所对应的一维向量输入至全连接层,得到与预处理后图片对应的目标图片特征 向量。由于所述第一目标图片集合中每一目标图片均获取了对应的目标图片特征向量,即可组成第一图片特征向量集合。
第二提取单元160,用于通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合。
在本实施例中,在通过卷积神经网络获取与所述第二目标图片集合中每一目标图片对应的目标图片特征向量时,其过程与通过卷积神经网络获取与所述第一目标图片集合中每一目标图片对应的目标图片特征向量相同。由于所述第二目标图片集合中每一目标图片均获取了对应的目标图片特征向量,即可组成第二图片特征向量集合。
平均相似度获取单元170,用于获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度。
在本实施例中,一般由于待对比视频为原始视频的模仿视频,一般大的肢体动作是较为类似的,为了更精细的通过微表情来判断待对比视频与原始视频的相似度,可分别获取第一图片特征向量集合和第二图片特征向量集合,然后获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度。
在一实施例中,平均相似度获取单元170还用于:
获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的欧氏距离后求平均欧氏距离值,以所述平均欧氏距离值作为所述第一图片特征向量集合与所述第二图片特征向量集合之间的相似度。
例如,第一图片特征向量集合中包括10个图片特征向量,分别记为a1-a10;第二图片特征向量集合中同样也包括10个图片特征向量,分别记为b1-b10;此时计算a1与b1之间的欧氏距离以作为a1与b1之间的第一相似度,计算a2与b2之间的欧氏距离以作为a2与b2之间的第二相似度,……,计算a10与b10之间的欧氏距离以作为a10与b10之间的第十相似度,此时获取第一相似度至第十相似度的平均值作为所述待比对视频与所述原始视频的平均相似度,通过这一运算方式能获取两相似视频之间根据微表情相似度而评判的具体相似度,这比通过肉眼评判能更精准判断的视频相似度。
平均相似度发送单元180,用于将所述待比对视频与所述原始视频的平均相似度发送至上传端。
在本实施例中,当在服务器中完成了所述待比对视频与所述原始视频的平均相似度的计算后,以所述待比对视频与所述原始视频的平均相似度作为视频相似度的评分发送至上传端,从而实现对上传端的评分通知。
在一实施例中,视频相似度获取装置100还包括:
原创信息比对单元190,用于若所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端。
在本实施例中,当用户上传了待对比视频至服务器时,一般还需对待对比视频的原创者引用信息进行编辑,以表示用户所拍摄的待对比视频是模仿原始视频的,从而明确引用关系。一旦服务器检测到所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,则表示用户并未正确编辑原创者引用信息可能会导致后期的法律风险,此时发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端以告知用户及时修改原创者引用信息,从而有效规避后期的法律风险。
该装置实现了结合微表情识别技术和视频图像比对来判断视频之间的相似度,提高了视频之间的相似度的识别准确率。
上述视频相似度获取装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的计算机设备的示意性框图。该计算机设备500 是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行视频相似度获取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行视频相似度获取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本申请实施例公开的视频相似度获取装置。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(Central Processing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的视频相似度获取方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种视频相似度获取方法,其中,包括:
    接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频;
    将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
    通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
    通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
    通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合;
    通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
    将所述待比对视频与所述原始视频的平均相似度发送至上传端。
  2. 根据权利要求1所述的视频相似度获取方法,其中,所述获取与所述待比对视频对应的原始视频,包括:
    根据所述待对比视频对应的存储路径在服务器中获取对应的原始视频。
  3. 根据权利要求1所述的视频相似度获取方法,其中,所述通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合,包括:
    获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
    若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
  4. 根据权利要求1所述的视频相似度获取方法,其中,所述通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合,包括:
    将所述第一目标图片集合中每一目标图片进行预处理,得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵;其中,将目标图片进行预处理为依序对所述目标图片进行灰度化、边缘检测和二值化处理;
    将与各预处理后图片对应的图片像素矩阵输入至卷积神经网络模型中输入层,得到与各预处理后图片对应的特征图;
    将各特征图输入至卷积神经网络模型中池化层,得到与各特征图对应的一维向量;
    将与各特征图对应的一维向量输入至卷积神经网络模型中全连接层,得到与各特征图对应的目标图片特征向量,以组成第一图片特征向量集合。
  5. 根据权利要求1所述的视频相似度获取方法,其中,所述获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,包括:
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的欧氏距离后求平均欧氏距离值,以所述平均欧氏距离值作为所述第一图片特征向量集合与所述第二图片特征向量集合之间的相似度。
  6. 根据权利要求1所述的视频相似度获取方法,其中,所述将所述待比对视频与所述原始视频的平均相似度发送至上传端之后,还包括:
    若所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端。
  7. 一种视频相似度获取装置,其中,包括:
    视频接收单元,用于接收上传端所上传的待比对视频,获取与所述待比对视频对应的原 始视频;
    视频拆分单元,用于将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
    第一图片集合获取单元,用于通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
    第二图片集合获取单元,用于通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
    第一提取单元,用于通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合;
    第二提取单元,用于通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
    平均相似度获取单元,用于获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
    平均相似度发送单元,用于将所述待比对视频与所述原始视频的平均相似度发送至上传端。
  8. 根据权利要求7所述的视频相似度获取装置,其中,所述第一图片集合获取单元,包括:
    矢量特征获取单元,用于获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
    第一目标图片集合获取单元,用于若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
  9. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如下步骤:
    接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频;
    将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
    通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
    通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
    通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合;
    通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
    将所述待比对视频与所述原始视频的平均相似度发送至上传端。
  10. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机程序时实现所述获取与所述待比对视频对应的原始视频的步骤,包括:
    根据所述待对比视频对应的存储路径在服务器中获取对应的原始视频。
  11. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机程序时实现所述通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合的步骤,包括:
    获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
    若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
  12. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机程序时实现所述通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合的步骤,包括:
    将所述第一目标图片集合中每一目标图片进行预处理,得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵;其中,将目标图片进行预处理为依序对所述目标图片进行灰度化、边缘检测和二值化处理;
    将与各预处理后图片对应的图片像素矩阵输入至卷积神经网络模型中输入层,得到与各预处理后图片对应的特征图;
    将各特征图输入至卷积神经网络模型中池化层,得到与各特征图对应的一维向量;
    将与各特征图对应的一维向量输入至卷积神经网络模型中全连接层,得到与各特征图对应的目标图片特征向量,以组成第一图片特征向量集合。
  13. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机程序时实现所述获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度的步骤,包括:
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的欧氏距离后求平均欧氏距离值,以所述平均欧氏距离值作为所述第一图片特征向量集合与所述第二图片特征向量集合之间的相似度。
  14. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机程序时实现所述将所述待比对视频与所述原始视频的平均相似度发送至上传端的步骤之后,还用于实现如下步骤:
    若所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如下步骤:
    接收上传端所上传的待比对视频,获取与所述待比对视频对应的原始视频;
    将所述待对比视频及所述原始视频均进行视频拆分,得到与所述待对比视频对应的待对比图片集合,及与所述原始视频对应的原始图片集合;
    通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合;
    通过光流法对所述原始视频进行预处理,得到与所述原始视频对应的第二目标图片集合;
    通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合;
    通过卷积神经网络获取所述第二目标图片集合中每一目标图片对应的目标图片特征向量,以组成第二图片特征向量集合;
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度,以得到所述待比对视频与所述原始视频的平均相似度;以及
    将所述待比对视频与所述原始视频的平均相似度发送至上传端。
  16. 如权利要求15所述的存储介质,其中,所述计算机程序当被处理器执行时使所述处理器执行所述获取与所述待比对视频对应的原始视频的步骤,包括:
    根据所述待对比视频对应的存储路径在服务器中获取对应的原始视频。
  17. 如权利要求15所述的存储介质,其中,所述计算机程序当被处理器执行时使所述处理器执行所述通过光流法对所述待比对视频进行预处理,得到与所述待比对视频对应的第一目标图片集合的步骤,包括:
    获取所述待比对视频中各帧图片的各像素点对应的速度矢量特征;
    若所述待比对视频中存在至少一帧图片的所述速度矢量特征未保持连续变化,将对应图片组成所述待比对视频中的第一目标图片集合。
  18. 如权利要求15所述的存储介质,其中,所述通过卷积神经网络获取所述第一目标图片集合中每一目标图片对应的目标图片特征向量,以组成第一图片特征向量集合的步骤,包括:
    将所述第一目标图片集合中每一目标图片进行预处理,得到与各目标图片对应的预处理后图片,及与每一预处理后图片对应的图片像素矩阵;其中,将目标图片进行预处理为依序对所述目标图片进行灰度化、边缘检测和二值化处理;
    将与各预处理后图片对应的图片像素矩阵输入至卷积神经网络模型中输入层,得到与各预处理后图片对应的特征图;
    将各特征图输入至卷积神经网络模型中池化层,得到与各特征图对应的一维向量;
    将与各特征图对应的一维向量输入至卷积神经网络模型中全连接层,得到与各特征图对应的目标图片特征向量,以组成第一图片特征向量集合。
  19. 如权利要求15所述的存储介质,其中,所述计算机程序当被处理器执行时使所述处理器执行所述获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的相似度的步骤,包括:
    获取所述第一图片特征向量集合中各图片特征向量与所述第二图片特征向量集合中对应图片特征向量的欧氏距离后求平均欧氏距离值,以所述平均欧氏距离值作为所述第一图片特征向量集合与所述第二图片特征向量集合之间的相似度。
  20. 如权利要求15所述的存储介质,其中,所述计算机程序当被处理器执行时使所述处理器执行所述将所述待比对视频与所述原始视频的平均相似度发送至上传端的步骤之后,还用于执行如下步骤:
    若所述待比对视频对应的原创者引用信息与所述原始视频的原创者信息不相同,发送更正所述待比对视频对应的原创者引用信息的通知信息至上传端。
PCT/CN2020/087033 2019-08-15 2020-04-26 视频相似度获取方法、装置、计算机设备及存储介质 WO2021027325A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910752907.6A CN110674837A (zh) 2019-08-15 2019-08-15 视频相似度获取方法、装置、计算机设备及存储介质
CN201910752907.6 2019-08-15

Publications (1)

Publication Number Publication Date
WO2021027325A1 true WO2021027325A1 (zh) 2021-02-18

Family

ID=69075353

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/087033 WO2021027325A1 (zh) 2019-08-15 2020-04-26 视频相似度获取方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110674837A (zh)
WO (1) WO2021027325A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097501A (zh) * 2024-02-29 2024-05-28 广州米麦文化传媒有限公司 一种视频处理方法和视频处理系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质
CN111553218A (zh) * 2020-04-20 2020-08-18 南京医科大学 一种基于人体姿势识别的智能医学技能教学监测系统
CN111601115B (zh) * 2020-05-12 2022-03-01 腾讯科技(深圳)有限公司 一种视频检测的方法、相关装置、设备及存储介质
CN111586473B (zh) * 2020-05-20 2023-01-17 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111723868B (zh) * 2020-06-22 2023-07-21 海尔优家智能科技(北京)有限公司 用于去除同源图片的方法、装置及服务器
CN114627560A (zh) * 2022-05-13 2022-06-14 浙江大华技术股份有限公司 一种动作识别方法、动作识别模型训练方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140369610A1 (en) * 2011-12-29 2014-12-18 Rakuten, Inc. Image search system, image search method, image search device, program, and information recording medium
CN105141903A (zh) * 2015-08-13 2015-12-09 中国科学院自动化研究所 一种基于颜色信息的在视频中进行目标检索的方法
CN106991373A (zh) * 2017-03-02 2017-07-28 中国人民解放军国防科学技术大学 一种基于深度学习和图论的拷贝视频检测方法
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
CN109214238B (zh) * 2017-06-30 2022-06-28 阿波罗智能技术(北京)有限公司 多目标跟踪方法、装置、设备及存储介质
CN109947991A (zh) * 2017-10-31 2019-06-28 腾讯科技(深圳)有限公司 一种关键帧提取方法、装置和存储介质
CN109857893A (zh) * 2019-01-16 2019-06-07 平安科技(深圳)有限公司 图片检索方法、装置、计算机设备及存储介质
CN109886130B (zh) * 2019-01-24 2021-05-28 上海媒智科技有限公司 目标对象的确定方法、装置、存储介质和处理器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140369610A1 (en) * 2011-12-29 2014-12-18 Rakuten, Inc. Image search system, image search method, image search device, program, and information recording medium
CN105141903A (zh) * 2015-08-13 2015-12-09 中国科学院自动化研究所 一种基于颜色信息的在视频中进行目标检索的方法
CN106991373A (zh) * 2017-03-02 2017-07-28 中国人民解放军国防科学技术大学 一种基于深度学习和图论的拷贝视频检测方法
CN110674837A (zh) * 2019-08-15 2020-01-10 深圳壹账通智能科技有限公司 视频相似度获取方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097501A (zh) * 2024-02-29 2024-05-28 广州米麦文化传媒有限公司 一种视频处理方法和视频处理系统

Also Published As

Publication number Publication date
CN110674837A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
WO2021027325A1 (zh) 视频相似度获取方法、装置、计算机设备及存储介质
US11727577B2 (en) Video background subtraction using depth
US20220027669A1 (en) Objects and Features Neural Network
US11527105B2 (en) System and method for scalable cloud-robotics based face recognition and face analysis
US9864901B2 (en) Feature detection and masking in images based on color distributions
JP7476428B2 (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
US9547908B1 (en) Feature mask determination for images
CN111415358B (zh) 图像分割方法、装置、电子设备及存储介质
JP6961797B2 (ja) プレビュー写真をぼかすための方法および装置ならびにストレージ媒体
CN108960045A (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
CN108921782A (zh) 一种图像处理方法、装置及存储介质
CN110807427B (zh) 一种视线追踪方法、装置、计算机设备和存储介质
WO2021027329A1 (zh) 基于图像识别的信息推送方法、装置、及计算机设备
JP2009526495A (ja) モード間の関心領域画像オブジェクト区分
JP2002342756A (ja) デジタル画像において目と口の位置を検出する方法
US20220164988A1 (en) Methods and Systems for Calibrating Surface Data Capture Devices
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN111079613B (zh) 姿势识别方法和装置、电子设备及存储介质
CN112883940A (zh) 静默活体检测方法、装置、计算机设备及存储介质
WO2021008068A1 (zh) 图像处理方法及装置
CN114299363A (zh) 图像处理模型的训练方法、图像分类方法及装置
CN115953813B (zh) 一种表情驱动方法、装置、设备及存储介质
CN110321009B (zh) Ar表情处理方法、装置、设备和存储介质
CN113012030A (zh) 图像拼接方法、装置及设备
CN113128277A (zh) 一种人脸关键点检测模型的生成方法及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20852667

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20852667

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 04.08.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20852667

Country of ref document: EP

Kind code of ref document: A1