WO2022105097A1 - 视频流处理方法及装置、电子设备、存储介质及计算机程序 - Google Patents

视频流处理方法及装置、电子设备、存储介质及计算机程序 Download PDF

Info

Publication number
WO2022105097A1
WO2022105097A1 PCT/CN2021/086237 CN2021086237W WO2022105097A1 WO 2022105097 A1 WO2022105097 A1 WO 2022105097A1 CN 2021086237 W CN2021086237 W CN 2021086237W WO 2022105097 A1 WO2022105097 A1 WO 2022105097A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
video stream
processed
pixel area
pixel
Prior art date
Application number
PCT/CN2021/086237
Other languages
English (en)
French (fr)
Inventor
区善仁
Original Assignee
深圳市慧鲤科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市慧鲤科技有限公司 filed Critical 深圳市慧鲤科技有限公司
Publication of WO2022105097A1 publication Critical patent/WO2022105097A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Definitions

  • the third image is played at the play time of the first image.
  • the playing unit is configured to play the third image at the playing time of the first image.
  • a generating unit configured to generate a migration instruction using the first object as a migration object when it is detected that the user touches the first object in the preview image
  • the second processing unit is configured to, before the moving the first pixel area to the first position in the first image to obtain the third image, before the size of the first pixel area is the same as that of the first pixel area
  • the first pixel point area is scaled to obtain a second pixel point area, wherein , the second matching degree between the size of the second pixel area and the size of the second object in the fourth image exceeds the size matching degree threshold;
  • the third image is obtained by migrating the third pixel area to the first position in the first image.
  • the first acquiring unit is further configured to, before the moving the first pixel area to the first position in the first image to obtain the third image, erasing the second object in the fourth image to obtain a fifth image;
  • the third video stream to be processed includes a sixth image, and the playback time of the sixth image is earlier than the playback time of the fourth image;
  • the video stream processing apparatus acquires the first to-be-processed video stream by receiving the first to-be-processed video stream sent by the terminal.
  • the terminal may be any of the following: a mobile phone, a computer, a tablet computer, a server, and a wearable device.
  • the second video stream to be processed includes two frames of images.
  • the first frame of image includes object a
  • the second frame of image includes object a and object b.
  • the object a in the first frame image is used as the migration object of the second to-be-processed video stream
  • the object a in the second to-be-processed video stream is the migration object
  • the object a in the second frame image is used as the second to-be-processed object
  • the migration object of the video stream, the object a in the second video stream to be processed is the migration object
  • the object b in the second frame image is used as the migration object of the second video stream to be processed
  • the object in the second video stream to be processed b is the migration object.
  • the first object may be any object.
  • Zhang San is walking his dog in Park A.
  • the first object in the second image may be Zhang San
  • the first object in the second image may also be a dog
  • the first object in the second image may also be a bench in park A.
  • the time taken by the video stream processing apparatus to execute "transfer the first object in the second image to the first image to obtain the third image" is very short compared to the playing time of the first image.
  • the playing time of the first image is 1/10 second
  • the time it takes for the video stream processing apparatus to obtain the third image is on the order of 10 -6 seconds.
  • the video stream processing device migrates the first object in the image a to the first frame of image to obtain the image d; after acquiring the image b, the video stream processing device migrates the first object in the image b to the image d.
  • the first frame of image obtains the image e; after acquiring the image c, the video stream processing device transfers the first object in the image c to the first frame of image to obtain the image f.
  • the video stream processing apparatus can erase the second object in the third to-be-processed video stream to obtain the first to-be-processed video stream. In this way, by performing steps 101 to 104, the video stream processing apparatus can replace the second object in the third video stream to be processed with the first object in the first video stream to be processed in real time.
  • the video stream processing apparatus pops up a prompt box in the display interface, wherein the prompt box contains information on whether to perform object migration processing.
  • the video stream processing apparatus acquires a preview image in the case of receiving the execution object migration instruction.
  • the video stream processing apparatus includes a camera.
  • the video stream processing apparatus turns on the camera, and uses the camera to capture an image as a preview image.
  • the feature extraction process can be implemented by a deep learning model, and the deep learning model is trained by using multiple images with annotation information as training data, so that the trained deep learning model can complete the feature of the image.
  • the annotation information of the images in the training data includes: identity information of the objects in the images.
  • the deep learning model extracts the feature data of the image from the image, and determines the identity information of the object in the image according to the feature data.
  • the annotation information is used as the supervision information to supervise the results obtained by the deep learning model in the training process, and the parameters of the deep learning model are updated to complete the training of the deep learning model.
  • the video stream processing apparatus can use the trained deep learning model to perform feature extraction processing on the third image to obtain semantic feature data of the first object.
  • the electronic device uses the segmentation model to process the image pair a, and determines the pixel point area b from the image B. Based on the annotation information of the image pair a and the pixel area b, the loss of the segmentation model is obtained, and the parameters of the segmentation model are updated based on the loss to complete the training of the segmentation model.
  • the input of the segmentation model is the preview image and the second image.
  • the segmentation model can perform feature extraction processing on the first object in the preview image by processing the preview image and the second image, obtain the semantic feature data of the first object, and segment the first pixel area from the second image. .
  • the video stream processing apparatus realizes the migration of the first pixel point area into the first image to obtain the third image by pasting the first pixel point area into the first image.
  • the size matching degree threshold is a basis for judging whether the size of the first pixel area is coordinated with the size of the second object in the fourth image. Specifically, the first matching degree does not exceed the size matching degree threshold, and the size of the first pixel area is inconsistent with the size of the second object in the fourth image; the first matching degree exceeds the size matching degree threshold, which is characterized by the first pixel The size of the dot area is coordinated with the size of the second object in the fourth image.
  • the video stream processing apparatus After obtaining the second pixel area, the video stream processing apparatus performs the following steps in the process of performing step 9:
  • the video stream processing apparatus After obtaining the third pixel area, the video stream processing apparatus performs the following steps in the process of performing step 11:
  • steps 16 to 18 may be implemented by erasing models.
  • the erasure model is obtained by training a deep learning model using the third training data.
  • the third training data includes at least one pair of image pairs, each image pair includes two images, one of which includes an erasing object (hereinafter referred to as an erasing reference image), and the other is an image to be erased.
  • the image pair a includes an image A and an image B, and it is assumed that the image A is a reference image for erasing, and the image B is an image to be erased.
  • the deep learning model erases the pixel area in image B that matches the erased object in image A by processing the image pair a.
  • the first obtaining unit 11 is further configured to obtain a preview image
  • a fourth pixel area is determined from the fourth image; the semantic information of the fourth pixel area and the information carried by the semantic feature data of the second object match;

Abstract

本申请公开了一种视频流处理方法及装置、电子设备、存储介质及计算机程序。该方法包括:获取第一待处理视频流,并播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;在所述第一图像的播放时间播放所述第三图像。

Description

视频流处理方法及装置、电子设备、存储介质及计算机程序
本申请要求在2020年11月23日提交中国专利局、申请号为202011320192.6、申请名称为“视频流处理方法及装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像处理技术领域,尤其涉及一种视频流处理方法及装置、电子设备、存储介质及计算机程序。
背景技术
电影是现代科技与艺术的综合体。在人类电影史上,有众多经典电影片段。而大多数影迷对于这些经典电影片段均有一个表演梦,即由自己出演电影片段中的角色。在过去,电影视频通常是专业人员使用专业摄影设备在特殊背景下拍摄得到的。而随着移动设备拍摄功能的提升,移动设备已能在很大程度上取代专业摄影设备。因此,特殊背景的缺失是普通用户拍摄电影视频的障碍。因此,如何将普通用户的表演融入于电影的特殊背景中具有非常大的应用价值。
发明内容
本申请提供一种视频流处理方法及装置、电子设备、存储介质及计算机程序。
第一方面,提供了一种视频流处理方法,所述方法包括:
获取第一待处理视频流,并播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;
获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;
在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将所述第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;
在所述第一图像的播放时间播放所述第三图像。
在该方面中,视频流处理装置可在播放第一待处理视频流的同时,将第二待处理视频流中的第一对象迁移至第一待处理视频流中,以完成第一对象的实时迁移。
结合本申请任一实施方式,所述获取第一待处理视频流,包括:
获取第三待处理视频流;
响应于针对所述第三待处理视频流中的第二对象的擦除指令,擦除所述第三待处理视频流中的所述第二对象,得到所述第一待处理视频流。
结合本申请任一实施方式,所述获取第二待处理视频流之前,所述方法还包括:
在接收到执行对象迁移处理的指令的情况下,获取预览图像,并显示所述预览图像;
所述在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将所述第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像,包括:
在接收到将所述预览图像中的所述第一对象作为迁移对象的指令的情况下,将所述第二图像中的所述第一对象迁移至所述第一图像中,得到所述第三图像。
基于该种实施方式,用户可从预览图像中确定迁移对象,视频流处理装置进而可将第二图像中的第一对象迁移至第一图像中,得到第三图像。
结合本申请任一实施方式,所述将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像,包括:
对所述预览图像中的所述第一对象进行特征提取处理,得到所述第一对象的语义特征数据;
从所述第二图像中将第一像素点区域分割出来;所述第一像素点区域为所述第二图像中语义信息与所述第一对象的语义特征数据所携带的信息匹配的像素点区域;
将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像。
在该种实施方式,视频流处理装置可实现对第二图像的像素点级分割得到第一像素点区域,可提高对第一对象的分割准确度,进而可提升将第二图像中的第一对象迁移至第一图像中的效果。
结合本申请任一实施方式,在所述获取第一待处理视频流,包括:获取第三待处理视频流;响应于检测到针对所述第三待处理视频流中的第二对象的擦除指令,擦除所述第三待处理视频流中的所述第二对象,得到所述第一待处理视频流的情况下,所述第三待处理视频流包括第四图像,所述第一图像通过擦除所述第四图像中的所述第二对象得到;
所述将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像,包括:
将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像;所述第一位置为所述第二对象在所述第四图像中的位置。
在该种实施方式中,视频流处理装置通过将第一像素点区域迁移至第一图像中的第一位置,可实现用第二图像中的第一对象替换第四图像中的第二对象。
结合本申请任一实施方式,所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,所述方法还包括:
在所述第一像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第一匹配度未超过尺寸匹配度阈值的情况下,对所述第一像素点区域进行缩放,得到第二像素点区域,其中,所述第二像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第二匹配度超过所述尺寸匹配度阈值;
所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像,包括:
将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
视频流处理装置通过执行该种实施方式,可使第三图像中的第一对象的尺寸与第三图像中除第一对象之外的对象的尺寸更协调,使第三图像更自然。
结合本申请任一实施方式,所述将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像之前,所述方法还包括:
调整所述第二像素点区域的色调,得到第三像素点区域,其中,所述第三像素点区域的色调与所述第一图像的色调匹配;
所述将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像,包括:
将所述第三像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
视频流处理装置通过执行该种实施方式,可使第三图像中的第二像素点区域的色调与第三图像中除第一对象之外的色调的更协调,使第三图像更自然。
结合本申请任一实施方式,所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,所述方法还包括:
擦除所述第四图像中的所述第二对象,得到第五图像;
在所述第五图像中的所述第一位置添加与所述第五图像中的内容匹配的背景像素点区域,得到所述第一图像。
在该种实施方式中,视频流处理装置通过向第五图像的空白区域添加与第五图像中的内容匹配的背景像素点区域得到第一图像,可使第一图像更自然。
结合本申请任一实施方式,所述第三待处理视频流包括第六图像,所述第六图像的播放时间早于所述第四图像的播放时间;
所述检测到针对所述第三待处理视频流中的第二对象的擦除指令,包括:
当检测到将第六图像中的第二对象作为擦除对象时,生成所述擦除指令;
所述擦除所述第四图像中的所述第二对象,得到第五图像,包括:
对所述第六图像进行特征提取处理,得到所述第二对象的语义特征数据;
通过对所述第四图像进行语义分割处理,从所述第四图像中确定第四像素点区域;所述第四像素点区域的语义信息与所述第二对象的语义特征数据所携带的信息匹配;
擦除所述第四图像中的所述第四像素点区域,得到所述第五图像。
视频流处理装置通过执行该种实施方式,可提高擦除第四图像中的与第二对象匹配的像素点区域的准确度和速度。
第二方面,提供了一种视频流处理装置,所述视频流处理装置包括:
第一获取单元,用于获取第一待处理视频流;
播放单元,用于播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;
第二获取单元,用于获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;
第一处理单元,用于在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;
所述播放单元,用于在所述第一图像的播放时间播放所述第三图像。
结合本申请任一实施方式,所述第一获取单元,具体用于:
获取第三待处理视频流;
响应于检测到针对所述第三待处理视频流中的第二对象的擦除指令,擦除所述第三待处理视频流中的所述第二对象,得到所述第一待处理视频流。
结合本申请任一实施方式,所述第一获取单元,还用于获取预览图像,
所述视频流处理装置还包括:
显示单元,用于并显示所述预览图像;
生成单元,用于当检测到用户触摸所述预览图像中的所述第一对象时,生成将所述第一对象作为迁移对象的迁移指令;
所述第一处理单元,具体用于:
根据所述迁移指令,确定将所述第二待处理视频流中的第一对象作为迁移对象,并将所述第二图像中的所述第一对象迁移至所述第一图像中,得到所述第三图像。
结合本申请任一实施方式,所述第一处理单元,具体用于:
对所述预览图像中的所述第一对象进行特征提取处理,得到所述第一对象的语义特征数据;
从所述第二图像中将第一像素点区域分割出来;所述第一像素点区域为所述第二图像中语义信息与所述第一对象的语义特征数据所携带的信息匹配的像素点区域;
将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像。
结合本申请任一实施方式,所述第三待处理视频流包括第四图像,所述第一图像通过擦除所述第四图像中的所述第二对象得到;
所述第一处理单元,具体用于:
将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像;所述第一位置为所述第二对象在所述第四图像中的位置。
结合本申请任一实施方式,所述视频流处理装置,还包括:
第二处理单元,用于在所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,在所述第一像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第一匹配度未超过尺寸匹配度阈值的情况下,对所述第一像素点区域进行缩放,得到第二像素点区域,其中,所述第二像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第二匹配度超过所述尺寸匹配度阈值;
所述第一处理单元,具体用于:
将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
结合本申请任一实施方式,所述第二处理单元,还用于在所述将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像之前,调整所述第二像素点区域的色调,得到第三像素点区域,其中,所述第三像素点区域的色调与所述第一图像的色调匹配;
所述第一处理单元,具体用于:
将所述第三像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
结合本申请任一实施方式,所述第一获取单元,还用于在所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,擦除所述第四图像中的所述第二对象,得到第五图像;
在所述第五图像中的所述第一位置添加与所述第五图像中的内容匹配的背景像素点区域,得到所述第一图像。
结合本申请任一实施方式,所述第三待处理视频流包括第六图像,所述第六图像的播放时间早于所述第四图像的播放时间;
所述第一获取单元,具体用于:
响应于当检测到将第六图像中的第二对象作为擦除对象时,生成所述擦除指令,对所述第六图像进行特征提取处理,得到所述第二对象的语义特征数据;
通过对所述第四图像进行语义分割处理,从所述第四图像中确定第四像素点区域;所述第四像素点区域的语义信息与所述第二对象的语义特征数据所携带的信息匹配;
擦除所述第四图像中的所述第四像素点区域,得到所述第五图像。
第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
第七方面,提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种视频流处理方法的流程示意图;
图2a为本申请实施例提供的一种电影片段中的图像示意图;
图2b为本申请实施例提供的一种迁移对象后的图像示意图;
图3为本申请实施例提供的一种视频流处理装置的结构示意图;
图4为本申请实施例提供的一种视频流处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。字符“/”还可表示数学运算中的除号,例如,a/b=a除以b;6/3=2。“以下至少一项(个)”或其类似表达。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
伴随数字技术的发展及网速的提升,视频行业已成为当下最具投资价值的新兴产业之一。视频也以其趣味性、亲民性的优势吸引了众多受众。而随着移动设备性能的愈发强大,视频的商业潜力也在极速增长。因此,如何增加视频的娱乐性,提升视频的商业价值就变得非常有意义。
电影是现代科技与艺术的综合体。在人类电影史上,有众多经典电影片段。而大多数影迷对于这些经典电影片段均有一个表演梦,即由自己出演电影片段中的角色。在过去,电影视频通常是专业人员使用专业摄影设备在特殊背景下拍摄得到的。而随着移动设备拍摄功能的提升,移动设备已能在很大程度上取代专业摄影设备。因此,特殊背景的缺失是普通用户拍摄电影视频的障碍。
在目前的方法中,通过录制一段用户模仿电影角色在电影片段中的表演得到表演视频流。再通过对表演视频流进行后期处理,以抠图的方式将用户从表演视频流中截取出来。同时,对电影片段进行处理,以擦除电影片段中的角色,得到电影视频流。将从表演视频流中截取出来的用户迁移至电影视频流中,得到迁移后的视频流。在迁移后的视频流中,用户替代了电影片段中的角色。
这种方法虽然能通过得到迁移后的视频流完成用户的表演梦,但是这种方法需要花费较多的时间对表演视频流进行后期处理,这导致这种方法的迁移效率低。基于此,本申请实施例提供了一种技术方案,以提高迁移效率。
本申请实施例的执行主体为视频流处理装置,其中,视频流处理装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的,视频流处理装置可以是以下中的一种:手机、计算机、服务器、平板电脑。
应理解,本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。
下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1,图1是本申请实施例提供的一种视频流处理方法的流程示意图。
101、获取第一待处理视频流,并播放上述第一待处理视频流。
本步骤中,第一待处理视频流可以是包括任意内容的视频流。例如,第一待处理视频流可以是电影片段;又例如,第一待处理视频流可以是手机拍摄的视频流;再例如,第一待处理视频流可以是通过视频制作软件制作得到的视频流。
在一种获取第一待处理视频流的实现方式中,视频流处理装置接收用户通过输入组件输入的第一待处理视频流获取第一待处理视频流。可选的,上述输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。
在另一种获取第一待处理视频流的实现方式中,视频流处理装置接收终端发送的第一待处理视频流获取第一待处理视频流。可选的,终端可以是以下任意一种:手机、计算机、平板电脑、服务器、可穿戴设备。
本申请实施例中,第一图像为第一待处理视频流中的任意一帧图像。例如,第一待处理视频流包括两帧图像。那么,第一图像可以是第一待处理视频流中的第一帧图像,第一图像也可以是第一待处理视频流中的第二帧图像。
本申请实施例中,视频流处理装置在获取到第一待处理视频流后,将播放第一待处理视频流。
在一种可能实现的方式中,视频流处理装置包括显示器。视频流处理装置在显示器上播放第一待处理视频流。
在另一种可能实现的方式中,视频流处理装置与显示器之间存在通信连接。视频流处理装置通过该通信连接在显示器上播放第一待处理视频流。
102、获取第二待处理视频流。
本申请实施例中,第二待处理视频流通过视频流处理装置获取得到。可选的,视频流处理装置在播放第一待处理视频流的同时,使用摄像头获取第二待处理视频流。
本申请实施例中,第二待处理视频流包括第二图像,其中,第二图像的获取时间与第一图像的播放时间相同。
在一种可能实现的方式中,视频流处理装置包括摄像头。视频流处理装置通过使用摄像头采集第二待处理视频流获取第二待处理视频流。
例如,假设视频流处理装置在9点50分2秒播放第一待处理视频流,第一待处理视频流中每一帧图像的播放时长为1/10秒,第一图像为第一待处理视频流的第三帧图像。那么第一图像的播放时间为9点50分2.2秒。
第二图像的获取时间与第一图像的播放时间相同,也就是说,视频流处理装置在9点50分2.2秒使用摄像头采集得到第二图像。
在另一种可能实现的方式中,视频流处理装置通过从外部存储介质中读取第二待处理视频流获取第二待处理视频流。
例如,假设视频流处理装置在9点50分2秒播放第一待处理视频流,第一待处理视频流中每一帧图像的播放时长为1/10秒,第一图像为第一待处理视频流的第三帧图像。那么第一图像的播放时间为9点50分2.2秒。
第二图像的获取时间与第一图像的播放时间相同,也就是说,视频流处理装置在9点50分2.2秒从外部存储介质读取得到第二图像。
103、在接收到将上述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将上述第二图像中的上述第一对象迁移至上述第一图像中,得到第三图像。
本申请实施中,从第二待处理视频流中任意一帧图像中选取第一对象作为迁移对象,可将第二待处理视频流中的第一对象作为迁移对象。
例如,第二待处理视频流包括两帧图像。其中,第一帧图像包括对象a,第二帧图像包括对象a和对象b。若将第一帧图像中的对象a作为第二待处理视频流的迁移对象,第二待处理视频流中的对象a为迁移对象;若将第二帧图像中的对象a作为第二待处理视频流的迁移对象,第二待处理视频流中的对象a为迁移对象;若将第二帧图像中的对象b作为第二待处理视频流的迁移对象,第二待处理视频流中的对象b为迁移对象。
本申请实施例中,第一对象可以是任意物体。例如(例1),在第二图像中,张三在公园A里遛狗。此时,第二图像中的第一对象可以是张三,第二图像中的第一对象也可以是狗,第二图像中的第一对象还可以是公园A里的长椅。
本申请实施例中,将第二图像中的第一对象迁移至第一图像指,将第二图像中第一对象所覆盖的像素点区域迁移至第一图像。接着例1继续举例,第一图像中有公园B。在第二对象为张三的情况下,可将第二图像中张三所覆盖的像素点区域迁移至第一图像中,得到第三图像。具体的,将张三迁移至公园B的道路上。这样,在第三图像中,张三在公园B的道路上散步。
在一种可能实现的方式中,视频流处理装置使用深度学习模型将第二图像中的上述第一对象迁移至上述第一图像中,得到第三图像。
104、在上述第一图像的播放时间播放上述第三图像。
视频流处理装置通过执行步骤104,在播放第一待处理视频流的过程中将第一图像替换成第三图像。
应理解,视频流处理装置执行“将第二图像中的第一对象迁移至第一图像中,得到第三图像”所耗费的时间相较于第一图像的播放时长而言非常短。例如,第一图像的播放时长为1/10秒,视频流处理装置得到第三图像耗费的时间在10 -6秒的量级。
这样,从用户观看第二待处理视频流的播放的感受上来说,播放的是第三图像而没有第一图像。例如,第一待处理视频流包括两帧图像,其中,第一图像为第二帧图像。用户在观看第一待处理视频流的播放时的感受是,播放完第一待处理视频流的第一帧图像后,播放了第三图像。
应理解,虽然上述实施例仅描述了视频流处理装置在第一待处理视频流的播放过程中,将第二图像中的第一对象迁移至第一图像中得到第三图像,并播放第三图像的实现过程,但是在实际应用中,视频流处理装置可在第一待处理视频流的播放时间内,将第二待处理视频流中的每一张图像中的第一对象迁移至第一待处理视频流中相应的图像中,得到迁移后的视频流,并在第一待处理视频流的播放时间内播放迁移后的视频流。
例如,第一待处理视频流包括第一帧图像、第二帧图像和第三帧图像。视频流处理装置在第一帧图像的播放时间,采集第二待处理视频流中的图像a;视频流处理装置在第二帧图像的播放时间,采集第二待处理视频流中的图像b;视频流处理装置在第三帧图像的播放时间,采集第二待处理视频流中的图像c。视频流处理装置在采集得到图像a后,将图像a中的第一对象迁移至第一帧图像得到图像d;视频流处理装置在采集得到图像b后,将图像b中的第一对象迁移至第一帧图像得到图像e;视频流处理装置在采集得到图像c后,将图像c中的第一对象迁移至第一帧图像得到图像f。
视频流装置在第一帧图像的播放时间播放图像d,在第二帧图像的播放时间播放图像e,在第三帧图像的播放时间播放图像f。即视频流处理装置在第一视频流的播放时间内播放迁移后的视频流,其中,迁移后的视频流包括图像d、图像e和图像f。
基于上述实施例提供的技术方案,用户可通过视频流处理装置完成电影片段中的实时表演。例如,假设视频流处理装置为手机。小明在通过手机将阿甘正传中的片段作为第一待处理视频流,其中,第一待处理视频流中的阿甘已被擦除。在手机摄像头拍摄视频流的过程中,小明在手机摄像头前模仿阿甘在电影片段中的表演。手机通过摄像头录制小明的这段表演得到第二待处理视频流。手机通过将第二待处理视频流中的小明迁移至第一待处理视频流中,可得到迁移后的视频流,且在小明表演的过程中,手机播放的是迁移后的视频流。
作为一种可选的实施方式,视频流处理装置通过执行以下步骤获取第一待处理视频流:
1、获取第三待处理视频流。
本申请实施例中,第三待处理视频流可以是包括任意内容的视频流。例如,第三待处理视频流可以是电影片段;又例如,第三待处理视频流可以是手机拍摄的视频流;再例如,第三待处理视频流可以是通过视频制作软件制作得到的视频流。
在一种获取第三待处理视频流的实现方式中,视频流处理装置接收用户通过输入组件输入的第三待处理视频流获取第三待处理视频流。
在另一种获取第三待处理视频流的实现方式中,视频流处理装置接收终端发送的第三待处理视频流获取第三待处理视频流。
2、响应于针对上述第三待处理视频流中的第二对象的擦除指令,擦除上述第三待处理视频流中的上述第二对象,得到上述第一待处理视频流。
本申请实施例中,擦除视频流中的对象指,将视频流中每一帧图像中的对象擦除。例如,视频流A包括图像a和图像b,其中,图像a和图像b均包含张三。擦除视频流A中的张三即为擦除图像a中的张三,并擦除图像b中的张三。
针对第三待处理视频流中的第二对象的擦除指令指,将第三待处理视频流中每一帧图像中的第二对象擦除。
视频流处理装置通过执行步骤1和步骤2,可擦除第三待处理视频流中的第二对象,得到第一待处理视频流。这样,视频流处理装置在通过执行步骤101~步骤104,可实时将第三待处理视频流中的第二对象替换成第一待处理视频流中的第一对象。
作为一种可选的实施方式,视频流处理装置在执行步骤102之前,还执行以下步骤:
3、获取预览图像,并显示上述预览图像。
本申请实施例中,对象迁移处理指将一段视频流中的对象迁移至另一段视频流中。可选的,视频流处理装置在获取第二待处理视频流之前,输出是否执行对象迁移处理的信息,以提醒用户是否执行对象迁移处理。
在一种可能实现的方式中,视频流处理装置在显示界面中弹出提示框,其中,该提示框包含是否执行对象迁移处理的信息。
在另一种可能实现的方式中,视频流处理装置通过语音输出是否执行对象迁移处理的信息。
在又一种可能实现的方式中,视频流处理装置通过提示灯输出是否执行对象迁移处理的信息。
视频流处理装置在接收到执行对象迁移指令的情况下,获取预览图像。在一种可能实现的方式中,视频流处理装置包括摄像头。视频流处理装置在接收到执行对象迁移指令的情况下,开启摄像头,并使用摄像头采集图像作为预览图像。
例如,用户通过点击显示界面中执行对象迁移处理的按钮,向视频流处理装置输入执行对象迁移指令。视频流处理装置在接收到该指令的情况下,开启摄像头,并使用摄像头采集图像作为预览图像;视频流处理装置或在接收到该指令的情况下,开启摄像头采集预览视频流,并将预览视频流中的图像作为预览图像。
在另一种可能实现的方式中,视频流处理装置接收从外部存储介质导入的预览图像获取预览图像。例如,在视频流处理装置输出请输入预览图像的信息的情况下,用户可从外部存储介质中选择一张图像作为预览图像导入视频流处理装置。
视频流处理装置在获取到预览图像后,对预览图像进行显示,以供用户从预览图像中选择迁移对象。
4、当检测到用户触摸上述预览图像中的上述第一对象时,生成将上述第一对象作为迁移对象的迁移指令。
本申请实施例中,第一对象为预览图像中的任意一个对象。在视频流处理装置显示预览图像后,用户可从预览图像中选择第一对象作为迁移对象,并通过向视频流处理装置输入将 预览图像中的第一对象作为迁移对象的指令,使视频流处理装置将第二待处理视频流中的第一对象作为迁移对象。
例如,在视频流处理装置将预览图像显示于触摸显示屏的情况下,当用户通过触摸预览图像中的第一对象时,视频流处理装置生成将第一对象作为迁移对象的迁移指令。
在生成将第一对象作为迁移对象的迁移指令后,视频流处理装置在执行步骤103的过程中执行以下步骤:
5、根据上述迁移指令,确定将上述第二待处理视频流中的第一对象作为迁移对象,并将上述第二图像中的上述第一对象迁移至上述第一图像中,得到上述第三图像。
通过执行步骤3~步骤4,用户可从预览图像中确定迁移对象。视频流处理装置进而可通过执行步骤5将第二图像中的第一对象迁移至第一图像中,得到第三图像。
作为一种可选的实施方式,视频流处理装置通过执行以下步骤将第二图像中的第一对象迁移至第一图像中,得到第三图像:
6、对上述预览图像中的上述第一对象进行特征提取处理,得到上述第一对象的语义特征数据。
本申请实施例中,第一对象的语义特征数据携带第一对象的身份信息。例如,在第一对象为人的情况下,第一对象的身份信息至少包括以下信息:人的服饰属性和人的外形特征。又例如,在第一对象为车辆的情况下,第一对象的身份信息至少包括以下信息:车型特征、车身颜色、车辆品牌和车牌。
本申请实施例中,特征提取处理可通过深度学习模型实现,通过将多张带有标注信息的图像作为训练数据,对深度学习模型进行训练,使训练后的深度学习模型可完成对图像的特征提取处理。训练数据中的图像的标注信息包括:图像中的对象的身份信息。在使用训练数据对深度学习模型进行训练的过程中,深度学习模型从图像中提取出图像的特征数据,并依据特征数据确定图像中对象的身份信息。以标注信息为监督信息监督深度学习模型在训练过程中得到的结果,并更新深度学习模型的参数,完成对深度学习模型的训练。这样,视频流处理装置可使用训练后的深度学习模型对第三图像进行特征提取处理,以得到第一对象的语义特征数据。
7、从上述第二图像中将第一像素点区域分割出来。
本申请实施例中,第一像素点区域为第二图像中语义信息与第一对象的语义特征数据所携带的信息匹配的像素点区域。例如,第一对象为张三,那么第一像素点区域为第二图像中语义信息与张三的身份信息匹配的像素点区域。
在一种可能实现的方式中,视频流处理装置可通过对第二图像进行语义分割处理,从第二图像中将第一像素点区域分割出来。
可选的,步骤6和步骤7可通过分割模型实现。该分割模型通过使用第一训练数据对深度学习模型进行训练得到。第一训练数据包括至少一对图像对,每个图像对包括两张图像,其中一张图像包括分割对象(下文将称为分割参考图像),另一张图像是待分割图像。例如,图像对a包括图像A和图像B,假设图像A为分割参考图像,图像B为待分割图像。在训练过程中,深度学习模型通过对图像对a进行处理,从图像B中分割出与图像A中的分割对象匹配的像素点区域。
第一训练数据中每个图像对均与一个标注信息相对应,其中,标注信息为图像B中与图像A中的分割对象匹配的像素点区域。通过标注信息对深度学习模型输出的分割结果进行监督,更新深度学习模型的参数,完成对深度学习模型的训练。
例如,电子设备使用分割模型对图像对a进行处理,从图像B中确定像素点区域b。基于图像对a的标注信息与像素点区域b得到分割模型的损失,并基于该损失更新分割模型的参数,完成分割模型的训练。应理解,在步骤6和步骤7通过分割模型实现的情况下,分割模型的输入为预览图像和第二图像。分割模型通过对预览图像和第二图像进行处理,可对预览图像中的第一对象进行特征提取处理,得到第一对象的语义特征数据,并从第二图像中将 第一像素点区域分割出来。
视频流处理装置通过分割模型实现步骤6和步骤7,可提高从第二图像中分割出与第一对象匹配的像素点区域的速度。
8、将上述第一像素点区域迁移至上述第一图像中,得到上述第三图像。
在一种可能实现的方式中,视频流处理装置通过将第一像素点区域与第一图像进行融合处理,使第一像素点区域覆盖第一图像的部分像素点区域,实现将第一像素点区域迁移至第一图像中得第三图像。
在另一种可能实现的方式中,视频流处理装置通过将第一像素点区域粘贴于第一图像中,实现将第一像素点区域迁移至第一图像中得到第三图像。
可选的,若将第一像素点区域在第二图像中的位置称为参考位置,视频流处理装置将第一像素点区域迁移至第一图像中的参考位置,得到第三图像。
视频流处理装置通过执行步骤6~步骤8,实现对第二图像的像素点级分割得到第一像素点区域,可提高对第一对象的分割准确度,进而可提升将第二图像中的第一对象迁移至第一图像中的效果。
作为一种可选的实施方式,第三待处理视频流包括第四图像,第一图像通过擦除第四图像中的上述第二对象得到。视频流处理装置在执行步骤8的过程中执行以下步骤:
9、将上述第一像素点区域迁移至上述第一图像中的第一位置,得到上述第三图像。
本申请实施例中,第一位置为第二对象在第四图像中的位置,其中,第一位置指第四图像的像素点坐标系下的位置。
由于第一图像通过擦除第四图像中的第二对象得到,视频流处理装置通过将第一像素点区域迁移至第一图像中的第一位置,可实现用第二图像中的第一对象替换第四图像中的第二对象。
作为一种可选的实施方式,视频流处理装置在执行步骤9之前,还执行以下步骤:
10、在上述第一像素点区域的尺寸与上述第四图像中的上述第二对象的尺寸之间的第一匹配度未超过尺寸匹配度阈值的情况下,对上述第一像素点区域进行缩放,得到第二像素点区域。
由于第一像素点区域的尺寸与参考尺寸之间的差异可能较大,视频流处理装置将第一像素点区域迁移至第一图像中的第一位置,可能会导致第一像素点区域的尺寸与第一图像中的对象的尺寸不协调,其中,参考尺寸为第四图像中的第二对象所覆盖的像素点区域的尺寸。因此,视频流处理装置在将第一像素点区域迁移至第一图像中的第一位置之前,可对第一像素点区域的尺寸进行缩放,以使第一像素点区域的尺寸与第一图像中的对象的尺寸协调,从而使第三图像更自然。
本申请实施例中,两个对象覆盖的像素点区域的尺寸之间的匹配度,用于判断两个对象覆盖的像素点区域是否协调。具体的,两个对象覆盖的像素点区域的尺寸之间的匹配度越高,表征两个对象覆盖的像素点区域之间越协调。
将第一像素点区域的尺寸与第四图像中的第二对象的尺寸之间的匹配度称为第一匹配度。在一种可能实现的方式中,第一匹配度可以是第一像素点区域的最大长度与第二对象的最大长度之间的比值。例如,第一像素点区域的最大长度为30个像素单位,第二对象的最大长度为20个像素点单位。此时,第一像素点区域的尺寸与第四图像中的第二对象的尺寸之间的匹配度为:3/2。
在另一种可能实现的方式中,第一匹配度可以是第一像素点区域的最大宽度与第二对象的最大宽度之间的比值。例如,第一像素点区域的最大宽度为8个像素单位,第二对象的最大宽度为10个像素点单位。此时,第一像素点区域的尺寸与第四图像中的第二对象的尺寸之间的匹配度为:4/5。
本申请实施例中,尺寸匹配度阈值为判断第一像素点区域的尺寸与第四图像中的第二对象的尺寸是否协调的依据。具体的,第一匹配度未超过尺寸匹配度阈值表征,第一像素点区 域的尺寸与第四图像中的第二对象的尺寸不协调;第一匹配度超过尺寸匹配度阈值表征,第一像素点区域的尺寸与第四图像中的第二对象的尺寸协调。
因此,在第一匹配度未超过尺寸匹配度阈值的情况下,视频流处理装置通过对第一像素点区域进行缩放,以使第一匹配度超过尺寸匹配度阈值,即使第一像素点区域的尺寸与第四图像中的第二对象的尺寸协调,得到第二像素点区域。这样,第二像素点区域的尺寸与第四图像中的第二对象的尺寸之间的第二匹配度超过尺寸匹配度阈值。
在得到第二像素点区域后,视频流处理装置在执行步骤9的过程中执行以下步骤:
11、将上述第二像素点区域迁移至上述第一图像中的上述第一位置,得到上述第三图像。
视频流处理装置通过执行步骤11,可使第三图像中的第一对象的尺寸与第三图像中除第一对象之外的对象的尺寸更协调,使第三图像更自然。
作为一种可选的实施方式,视频流处理装置在执行步骤11之前还执行以下步骤:
12、调整上述第二像素点区域的色调,得到第三像素点区域。
若第二像素点区域的色调与第一图像的色调与第一图像的色调之间的差异较大,也将使第三图像不协调、不自然。因此,视频流处理装置在将第二像素点区域迁移至第一图像中之前,可通过调整第二像素点区域的色调,使第二像素点区域的色调与第一图像的色调匹配,进而使第三图像更协调、更自然。
在一种得到第三像素点区域的实现方式中,视频流处理装置使用色调处理模型对第二像素点区域和第一图像进行处理,将第二像素点区域的色调调整至与第一图像的色调匹配,得到第三像素点区域。
其中,色调处理模型可以是卷积神经网络,通过将多张图像作为训练数据,对卷积神经网络进行训练,使训练后的卷积神经网络调整图像的色调。训练数据包括至少一对图像对,每个图像对包括两张图像,其中一张图像是待调整色调的图像(下文将称为待调整图像),另一张图像是提供色调标准的图像(下文将称为参考图像)。例如,图像对a包括图像A和图像B,假设图像A为待调整图像,图像B为参考图像。那么卷积神经网络通过对图像对a进行处理,需要将图像A的色调调整为图像B的色调。
训练数据中每个图像对均与一张监督图像相对应,其中,监督图像的色调为图像B的色调。通过监督图像对卷积神经网络输出的图像进行监督,更新卷积神经网络的参数,完成对卷积神经网络的训练。例如,电子设备使用色调处理模型对图像对a进行处理,得到图像b。基于图像对a的监督图像与图像b得到色调处理模型的损失,并基于该损失更新色调处理模型的参数,完成对色调处理模型的训练。
这样,视频流处理装置可使用训练后的色调处理模型对第二像素点区域的进行处理,以调整第二像素点区域的色调,得到第三像素点区域。
在得到第三像素点区域后,视频流处理装置在执行步骤11的过程中执行以下步骤:
13、将上述第三像素点区域迁移至上述第一图像中的上述第一位置,得到上述第三图像。
作为一种可选的实施方式,视频流处理装置在执行步骤9之前,在擦除第三待处理视频流中的第二对象得到第一待处理视频流的过程中,通过执行以下步骤得到第一图像:
14、擦除上述第四图像中的上述第二对象,得到第五图像。
可选的,视频流处理装置可通过对第四图像进行图像分割处理,从第四图像中确定第二对象所覆盖的像素点区域,并将该像素点区域从第四图像中去除,得到第五图像。
15、在上述第五图像中的上述第一位置添加与上述第五图像中的内容匹配的背景像素点区域,得到上述第一图像。
由于在第五图像通过去除第四图像中的像素点区域得到,第五图像中存在空白区域。这样,将降低用户观看第五图像的体验。进一步的,若通过将第二图像中的第一对象迁移至第五图像得到第三图像,第三图像中也可能存在空白区域,这显然也将降低用户观看第三图像的体验。
基于此,视频流处理装置在将第二图像中的第一对象迁移至第五图像之前,还将对第五 图像中的空白区域进行补全。为使补全的内容与第五图像相匹配,视频流处理装置向第五图像的空白区域添加与第五图像中的内容匹配的背景像素点区域。
例如,在第四图像中,张三坐在椅子上。在张三为第二对象的情况下,视频流处理装置通过擦除第四图像中的张三,得到第五图像。此时,与第五图像中的内容匹配的背景像素点区域为椅子。视频流处理装置可通过向第五图像中的空白区域添加内容为椅子的像素点区域,补全第五图像。
可选的,在实际应用中,若将擦除第三待处理视频流中每张图像中的第二对象得到的视频流称为第四待处理视频流,视频流处理装置可通过补全第四待处理视频流中每张图像,得到第一待处理视频流。
作为一种可选的实施方式,第三待处理视频流包括第六图像,第六图像为第三待处理视频流中播放时间早于第四图像的图像。当视频流处理装置检测到将第六图像中的第二对象作为擦除对象时,生成针对第三待处理视频流中的第二对象的擦除指令。其中,第二对象为第六图像中的任意一个对象。
将第六图像中的第二对象作为擦除对象的指令可以是,用户点击第六图像中的第二对象的操作。例如,在视频流处理装置通过触摸屏播放第六图像的情况下,用户通过点击触摸屏,可点击第六图像中第二对象;又例如,在视频流处理装置播放第六图像的情况下,用户可通过鼠标点击第六图像中的第二对象。
视频流处理装置在接收到将第六图像中的第二对象作为擦除对象的指令的情况下,执行步骤14的过程中,具体执行以下步骤:
16、对上述第六图像进行特征提取处理,得到上述第二对象的语义特征数据。
本步骤中,第二对象的语义特征数据携带第二对象的身份信息。本步骤中的特征提取处理的实现方式与步骤6中的特征提取处理的实现方式相同。此处将不再赘述。
17、通过对上述第四图像进行语义分割处理,从上述第四图像中确定第四像素点区域。
本申请实施例中,第四像素点区域为第四图像中语义信息与第二对象的语义特征数据所携带的信息匹配的像素点区域。例如,第二对象为李四,那么第二像素点区域为第四图像中语义信息与李四的身份信息匹配的像素点区域。
在一种可能实现的方式中,视频流处理装置可通过对第四图像进行语义分割处理,确定第四图像中将与第二对象的语义特征数据所携带的信息匹配的像素点,从而从第四图像中确定第四像素点区域。
18、擦除上述第四图像中的上述第四像素点区域,得到上述第五图像。
通过执行步骤16~步骤18,视频流处理装置可通过从第六图像中提取出第二对象的语义特征数据,进而可基于第二对象的语义特征数据对第六图像进行像素级分割,从第六图像中确定第四像素点区域。这样,视频流处理装置擦除第四图像中的第四像素点区域,可提升擦除第三待处理视频流中的第二对象的准确度。
在一种可能实现的方式中,步骤16和步骤17可通过上述分割模型实现。在步骤15和步骤16通过分割模型实现的情况下,分割模型的输入为第四图像和第六图像。
在另一种可能实现的方式中,步骤16~步骤18可通过擦除模型实现。该擦除模型通过使用第三训练数据对深度学习模型进行训练得到。第三训练数据包括至少一对图像对,每个图像对包括两张图像,其中一张图像包括擦除对象(下文将称为擦除参考图像),另一张图像是待擦除图像。例如,图像对a包括图像A和图像B,假设图像A为擦除参考图像,图像B为待擦除图像。在训练过程中,深度学习模型通过对图像对a进行处理,擦除图像B中与图像A中的擦除对象匹配的像素点区域。
第三训练数据中每个图像对均与一个标注信息相对应,其中,标注信息为图像B中与图像A中的擦除对象匹配的像素点区域。通过标注信息对深度学习模型输出的擦除结果进行监督,更新深度学习模型的参数,完成对深度学习模型的训练。
例如,电子设备使用擦除模型对图像对a进行处理,将图像B中的像素点区域b擦除。 基于图像对a的标注信息与像素点区域b在图像B中的位置得到擦除模型的损失,并基于该损失更新擦除模型的参数,完成擦除模型的训练。
应理解,在步骤16~步骤18通过擦除模型实现的情况下,擦除模型的输入为第四图像和第六图像。擦除模型通过对第六图像进行特征提取处理,得到第二对象的语义特征数据。通过对第四图像进行语义分割处理,从第四图像中确定第四像素点区域。擦除第四图像中的第四像素点区域,得到第五图像。
视频流处理装置通过分割模型实现步骤16~步骤18,可提高擦除第四图像中的与第二对象匹配的像素点区域的速度。
基于本申请实施例提供的技术方案,本申请实施例还提供了一种可能的应用场景。随着短视频的兴起,越来越多的人将短视频作为一种娱乐项目。而基于本申请实施例提供的技术方案,可进一步提升短视频的娱乐性。
作为一种可选的实施方式,相关技术人员可基于本申请实施例提供的技术方案,开发相应的软件。而在该软件的数据库中存在待选视频流。这些待选视频流均为已擦除对象的视频流,即待选视频流均可作为第一待处理视频流。
在用户选择数据库中的待选视频流作为第一待处理视频流的情况下,视频流处理装置可输出开始拍摄和表演的信息,以使用户开始表演,并拍摄第二待处理视频流。视频流处理装置进而可基于本申请实施例提供的技术方案,得到迁移后的视频流。
在用户选择从外部导入视频流作为第一待处理视频流的情况下,视频流处理装置可提示用户从导入的视频流中选取一个对象作为第二对象。视频流处理装置进而可擦除导入的视频流中的第二对象,得到第一待处理视频流。视频流处理装置可输出开始拍摄和表演的信息,以使用户开始表演,并拍摄第二待处理视频流。视频流处理装置进而可基于本申请实施例提供的技术方案,得到迁移后的视频流。
例如,小明非常喜欢阿甘正传这部电影,经常模仿电影里角色的表演。小明可从手机选取阿甘正传中的一个片段作为第三待处理视频流。并从第三待处理视频流中选取一个人物作为第二对象。手机将第三待处理视频流中的第二对象擦除,得到第一待处理视频流。小明可对着手机模仿电影片段中某个角色的表演,并录制得到第二待处理视频流。而手机基于上述技术方案可将小明的表演从第二待处理视频流迁移至第一待处理视频流中,得到迁移后的视频流。在迁移后的视频流中,小明就像在电影场景中表演一样。
如,图2a所示为电影片段中的某一帧图像,将图2a中箭头所指人物作为电影片段第二对象,并擦除电影片段中的第二对象,得到擦除后的电影片段。图2b则是擦除后的电影片段中的某一帧图像第二对象,其中,图2b所示图像的播放时间在图2a所示图像的播放时间之后。图2b中箭头所指人物为小明(即为第一对象)。
基于本申请实施例提供的技术方案对短视频进行处理,可提升趣味性和娱乐性。进一步的,在上述示例中,小明可依据迁移后的视频流了解自身的表演效果,提升自身的表演技巧。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。请参阅图3,图3为本申请实施例提供的一种视频流处理装置的结构示意图,该视频流处理装置1包括:第一获取单元11,播放单元12,第二获取单元13、第一处理单元14、显示单元15、生成单元16和第二处理单元17,其中:
第一获取单11,用于获取第一待处理视频流;
播放单元12,用于播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;
第二获取单元13,用于获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;
第一处理单元14,用于在接收到将所述第二待处理视频流中的第一对象作为迁移对象的 指令的情况下,将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;
所述播放单元12,用于在所述第一图像的播放时间播放所述第三图像。
结合本申请任一实施方式,所述第一获取单元11,具体用于:
获取第三待处理视频流;
响应与针对所述第三待处理视频流中的第二对象的擦除指令,擦除所述第三待处理视频流中的所述第二对象,得到所述第一待处理视频流。
结合本申请任一实施方式,所述第一获取单元11,还用于获取预览图像,
所述视频流处理装置1还包括:
显示单元15,用于并显示所述预览图像;
生成单元16,用于当检测到用户触摸所述预览图像中的所述第一对象时,生成将所述第一对象作为迁移对象的迁移指令;
所述第一处理单元14,具体用于:
根据所述迁移指令,确定将所述第二待处理视频流中的第一对象作为迁移对象,并将所述第二图像中的所述第一对象迁移至所述第一图像中,得到所述第三图像。
结合本申请任一实施方式,所述第一处理单元14,具体用于:
对所述预览图像中的所述第一对象进行特征提取处理,得到所述第一对象的语义特征数据;
从所述第二图像中将第一像素点区域分割出来;所述第一像素点区域为所述第二图像中语义信息与所述第一对象的语义特征数据所携带的信息匹配的像素点区域;
将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像。
结合本申请任一实施方式,所述第三待处理视频流包括第四图像,所述第一图像通过擦除所述第四图像中的所述第二对象得到;
所述第一处理单元14,具体用于:
将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像;所述第一位置为所述第二对象在所述第四图像中的位置。
结合本申请任一实施方式,所述视频流处理装置1,还包括:
第二处理单元17,用于在所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,在所述第一像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第一匹配度未超过尺寸匹配度阈值的情况下,对所述第一像素点区域进行缩放,得到第二像素点区域,其中,所述第二像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第二匹配度超过所述尺寸匹配度阈值;
所述第一处理单元14,具体用于:
将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
结合本申请任一实施方式,所述第二处理单元17,还用于在所述将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像之前,调整所述第二像素点区域的色调,得到第三像素点区域,其中,所述第三像素点区域的色调与所述第一图像的色调匹配;
所述第一处理单元14,具体用于:
将所述第三像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
结合本申请任一实施方式,所述第一获取单元11,还用于在所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,擦除所述第四图像中的所述第二对象,得到第五图像;
在所述第五图像中的所述第一位置添加与所述第五图像中的内容匹配的背景像素点区域,得到所述第一图像。
结合本申请任一实施方式,所述第三待处理视频流包括第六图像,所述第六图像的播放时间早于所述第四图像的播放时间;
所述第一获取单元11,具体用于:
响应于当检测到将第六图像中的第二对象作为擦除对象时,生成所述擦除指令,对所述第六图像进行特征提取处理,得到所述第二对象的语义特征数据;
通过对所述第四图像进行语义分割处理,从所述第四图像中确定第四像素点区域;所述第四像素点区域的语义信息与所述第二对象的语义特征数据所携带的信息匹配;
擦除所述第四图像中的所述第四像素点区域,得到所述第五图像。
本实施例中,第一获取单元11可以是数据接口,播放单元12可以是视频播放芯片,第二获取单元13可以是摄像头,第一处理单元14可以是处理器,显示单元15可以是显示器,生成单元16可以是处理器,第二处理单元17可以是图形处理器。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
根据本公开的一方面,提出一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的视频流处理方法。
本公开至少一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例所述的视频流处理方法。该计算机存储介质可以为易失性存储介质或非易失性存储介质。
根据本公开的一方面,提出一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行用于实现本公开任一实施方式所述的视频流处理方法。
图4为本申请实施例提供的一种视频流处理装置的硬件结构示意图。该视频流处理装置2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。可选的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器22不仅可用于存储相关指令,还可用于存储相关数据,如该存储器22可用于存储通过输入装置23获取的第一待处理视频流,又或者该存储器22还可用于存储通过处理器21得到第三图像等等,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图4仅仅示出了一种视频流处理装置的简化设计。在实际应用中,视频流处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的视频流处理装置都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatile disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (13)

  1. 一种视频流处理方法,所述方法包括:
    获取第一待处理视频流,并播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;
    获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;
    在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将所述第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;
    在所述第一图像的播放时间播放所述第三图像。
  2. 根据权利要求1所述的方法,其中,所述获取第一待处理视频流,包括:
    获取第三待处理视频流;
    响应于检测到针对所述第三待处理视频流中的第二对象的擦除指令,擦除所述第三待处理视频流中的所述第二对象,得到所述第一待处理视频流。
  3. 根据权利要求1或2所述的方法,其中,所述获取第二待处理视频流之前,所述方法还包括:
    获取预览图像,并显示所述预览图像;
    当检测到用户触摸所述预览图像中的所述第一对象时,生成将所述第一对象作为迁移对象的迁移指令;
    所述在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将所述第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像,包括:
    根据所述迁移指令,确定将所述第二待处理视频流中的第一对象作为迁移对象,并将所述第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像。
  4. 根据权利要求3所述的方法,其中,所述将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像,包括:
    对所述预览图像中的所述第一对象进行特征提取处理,得到所述第一对象的语义特征数据;
    从所述第二图像中将第一像素点区域分割出来;所述第一像素点区域为所述第二图像中语义信息与所述第一对象的语义特征数据所携带的信息匹配的像素点区域;
    将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像。
  5. 根据权利要求4所述的方法,其中,在所述权利要求4所引用的权利要求包括所述权利要求2的情况下,所述第三待处理视频流包括第四图像,所述第一图像通过擦除所述第四图像中的所述第二对象得到;
    所述将所述第一像素点区域迁移至所述第一图像中,得到所述第三图像,包括:
    将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像;所述第一位置为所述第二对象在所述第四图像中的位置。
  6. 根据权利要求5所述的方法,其中,所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,所述方法还包括:
    在所述第一像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第一匹配度未超过尺寸匹配度阈值的情况下,对所述第一像素点区域进行缩放,得到第二像素点区域,其中,所述第二像素点区域的尺寸与所述第四图像中的所述第二对象的尺寸之间的第二匹配度超过所述尺寸匹配度阈值;
    所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像,包括:
    将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
  7. 根据权利要求6所述的方法,其中,所述将所述第二像素点区域迁移至所述第一图像 中的所述第一位置,得到所述第三图像之前,所述方法还包括:
    调整所述第二像素点区域的色调,得到第三像素点区域,其中,所述第三像素点区域的色调与所述第一图像的色调匹配;
    所述将所述第二像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像,包括:
    将所述第三像素点区域迁移至所述第一图像中的所述第一位置,得到所述第三图像。
  8. 根据权利要求5至7中任意一项所述的方法,其中,所述将所述第一像素点区域迁移至所述第一图像中的第一位置,得到所述第三图像之前,所述方法还包括:
    擦除所述第四图像中的所述第二对象,得到第五图像;
    在所述第五图像中的所述第一位置添加与所述第五图像中的内容匹配的背景像素点区域,得到所述第一图像。
  9. 根据权利要求8所述的方法,其中,所述第三待处理视频流包括第六图像,所述第六图像的播放时间早于所述第四图像的播放时间;
    所述检测到针对所述第三待处理视频流中的第二对象的擦除指令,包括:
    当检测到将第六图像中的第二对象作为擦除对象时,生成所述擦除指令;
    所述擦除所述第四图像中的所述第二对象,得到第五图像,包括:
    对所述第六图像进行特征提取处理,得到所述第二对象的语义特征数据;
    通过对所述第四图像进行语义分割处理,从所述第四图像中确定第四像素点区域;所述第四像素点区域的语义信息与所述第二对象的语义特征数据所携带的信息匹配;
    擦除所述第四图像中的所述第四像素点区域,得到所述第五图像。
  10. 一种视频流处理装置,所述视频流处理装置包括:
    第一获取单元,用于获取第一待处理视频流;
    播放单元,用于播放所述第一待处理视频流;所述第一待处理视频流包括第一图像;
    第二获取单元,用于获取第二待处理视频流;所述第二待处理视频流包括第二图像,所述第一图像的播放时间与所述第二图像的获取时间相同;
    第一处理单元,用于在接收到将所述第二待处理视频流中的第一对象作为迁移对象的指令的情况下,将第二图像中的所述第一对象迁移至所述第一图像中,得到第三图像;
    所述播放单元,用于在所述第一图像的播放时间播放所述第三图像。
  11. 一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至9中任意一项所述的方法。
  12. 一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至9中任意一项所述的方法。
  13. 一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行用于实现权利要求1-9中的任一权利要求所述的方法。
PCT/CN2021/086237 2020-11-23 2021-04-09 视频流处理方法及装置、电子设备、存储介质及计算机程序 WO2022105097A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011320192.6A CN112449249A (zh) 2020-11-23 2020-11-23 视频流处理方法及装置、电子设备及存储介质
CN202011320192.6 2020-11-23

Publications (1)

Publication Number Publication Date
WO2022105097A1 true WO2022105097A1 (zh) 2022-05-27

Family

ID=74738672

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/086237 WO2022105097A1 (zh) 2020-11-23 2021-04-09 视频流处理方法及装置、电子设备、存储介质及计算机程序

Country Status (2)

Country Link
CN (1) CN112449249A (zh)
WO (1) WO2022105097A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112449249A (zh) * 2020-11-23 2021-03-05 深圳市慧鲤科技有限公司 视频流处理方法及装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827258A (zh) * 2010-02-05 2010-09-08 北京水晶石数字科技有限公司 一种实时抠像及视频监视和采集系统
CN103177469A (zh) * 2011-12-26 2013-06-26 深圳光启高等理工研究院 视频合成终端及其方法
CN103533254A (zh) * 2013-10-17 2014-01-22 上海基美文化传媒股份有限公司 采用增强现实技术的显示屏及其控制方法
CN108124194A (zh) * 2017-12-28 2018-06-05 北京奇艺世纪科技有限公司 一种视频直播方法、装置及电子设备
US20200302646A1 (en) * 2019-03-20 2020-09-24 Kt Corporation Creating video augmented reality using set-top box
CN112449249A (zh) * 2020-11-23 2021-03-05 深圳市慧鲤科技有限公司 视频流处理方法及装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719872A (zh) * 2005-08-11 2006-01-11 上海交通大学 基于全身融合的电影秀娱乐系统
FR2935498B1 (fr) * 2008-08-27 2010-10-15 Eads Europ Aeronautic Defence Procede d'identification d'un objet dans une archive video.
CN101807393B (zh) * 2010-03-12 2012-12-19 青岛海信电器股份有限公司 Ktv系统及其实现方法、电视机
CN103905824A (zh) * 2014-03-26 2014-07-02 深圳先进技术研究院 视频语义检索与压缩同步的摄像系统与方法
CN105118082B (zh) * 2015-07-30 2019-05-28 科大讯飞股份有限公司 个性化视频生成方法及系统
CN106792147A (zh) * 2016-12-08 2017-05-31 天脉聚源(北京)传媒科技有限公司 一种图像替换方法及装置
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质
CN110490897A (zh) * 2019-07-30 2019-11-22 维沃移动通信有限公司 模仿视频生成的方法和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827258A (zh) * 2010-02-05 2010-09-08 北京水晶石数字科技有限公司 一种实时抠像及视频监视和采集系统
CN103177469A (zh) * 2011-12-26 2013-06-26 深圳光启高等理工研究院 视频合成终端及其方法
CN103533254A (zh) * 2013-10-17 2014-01-22 上海基美文化传媒股份有限公司 采用增强现实技术的显示屏及其控制方法
CN108124194A (zh) * 2017-12-28 2018-06-05 北京奇艺世纪科技有限公司 一种视频直播方法、装置及电子设备
US20200302646A1 (en) * 2019-03-20 2020-09-24 Kt Corporation Creating video augmented reality using set-top box
CN112449249A (zh) * 2020-11-23 2021-03-05 深圳市慧鲤科技有限公司 视频流处理方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112449249A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
WO2022095467A1 (zh) 增强现实场景下的展示方法、装置、设备、介质及程序
WO2021031920A1 (zh) 封面图像确定方法、装置及设备
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
CN105340014B (zh) 用于视频编辑的触摸优化设计
TWI556639B (zh) 用於將互動特徵加入視頻之技術
TWI253860B (en) Method for generating a slide show of an image
KR102488530B1 (ko) 동영상을 생성하기 위한 방법 및 장치
US20100060662A1 (en) Visual identifiers for virtual world avatars
US20030222888A1 (en) Animated photographs
TW202123178A (zh) 一種分鏡效果的實現方法、裝置及相關產品
CN110636365B (zh) 视频字符添加方法、装置、电子设备及存储介质
WO2019109900A1 (zh) 视频编辑方法、装置及智能移动终端
CN103997687A (zh) 用于向视频增加交互特征的技术
KR20210110852A (ko) 이미지 변형 제어 방법, 장치 및 하드웨어 장치
WO2021218379A1 (zh) 一种多媒体互动方法、装置、设备及存储介质
JP2023549841A (ja) ビデオ処理方法、装置、電子機器及び記憶媒体
WO2020052062A1 (zh) 检测方法和装置
CN112102157A (zh) 视频换脸方法、电子设备和计算机可读存储介质
CN106507201A (zh) 一种视频播放控制方法及装置
WO2022105097A1 (zh) 视频流处理方法及装置、电子设备、存储介质及计算机程序
US8437611B2 (en) Reproduction control apparatus, reproduction control method, and program
US20230326489A1 (en) Generation of visual effects based on text
CN116017082A (zh) 一种信息处理方法和电子设备
CN114125552A (zh) 视频数据的生成方法及装置、存储介质、电子装置
TWI652600B (zh) Online integration of augmented reality editing devices and systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21893255

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 01/09/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21893255

Country of ref document: EP

Kind code of ref document: A1