WO2023088104A1 - 视频的处理方法、装置、电子设备和存储介质 - Google Patents

视频的处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
WO2023088104A1
WO2023088104A1 PCT/CN2022/129397 CN2022129397W WO2023088104A1 WO 2023088104 A1 WO2023088104 A1 WO 2023088104A1 CN 2022129397 W CN2022129397 W CN 2022129397W WO 2023088104 A1 WO2023088104 A1 WO 2023088104A1
Authority
WO
WIPO (PCT)
Prior art keywords
original video
original
viewing angle
pixel
video frame
Prior art date
Application number
PCT/CN2022/129397
Other languages
English (en)
French (fr)
Inventor
陈誉中
Original Assignee
北京字节跳动网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京字节跳动网络技术有限公司 filed Critical 北京字节跳动网络技术有限公司
Publication of WO2023088104A1 publication Critical patent/WO2023088104A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals

Definitions

  • the synthesis method of the new perspective video in the related art needs to adopt multiple cameras to shoot at the same time, which makes the production process of the new perspective video relatively cumbersome.
  • the embodiment of the present disclosure also provides a video processing method, including:
  • an embodiment of the present disclosure further provides an electronic device, including:
  • the original video may be understood as a video to be processed, which may be a single-view video, such as a video captured by a camera.
  • the original video frame can be understood as a video frame in the original video.
  • the target depth information of a certain original video frame can be the depth information of the final determined original video frame, which can include the depth information of multiple pixels in the original video frame, and the target depth information can be in the form of pictures or other forms (such as in the form of text and data) for presentation.
  • this embodiment can generate a new view video based on a single-view video, reduce the difficulty of shooting and making a new view video, simplify the production process of a new view video, and reduce the manpower and material resources consumed in making a new view video .
  • optical flow can be understood as the instantaneous speed of pixel motion on the imaging plane.
  • the instantaneous speed can be equivalent to the displacement of the corresponding pixel.
  • the optical flow information of the original video may be the displacement information of multiple pixels in the original video relative to the previous original video frame.
  • the target original pixel can be a pixel whose instantaneous velocity is not zero (that is, the instantaneous velocity is greater than zero) in the original video frame, which can be located in the original video according to the original video frame and the original video frame before and adjacent to the original video frame
  • the optical flow information between the previous video frames is determined.
  • the pixel depth information can be understood as the depth information of the corresponding pixel.
  • a preset optical flow estimation method such as a pre-trained video optical flow estimation model, may be used to estimate the optical flow information of the original video.
  • the second pixel depth information of the target original pixel contained in the original depth information of the frame is calculated (such as calculating the average value or weighted average value, etc.) to obtain the third pixel depth information of the target original pixel, and the third pixel depth information is used replacing the second pixel depth information of the target original pixel contained in the
  • the 3D view model can be mapped to it according to the pixel value of the original pixel.
  • the pixels to be filled in the relationship are filled, and in the 3D perspective model, there are multiple pixels to be filled in the original pixels that have a mapping relationship. Fill the remaining pixels to be filled that have not yet been filled.
  • the server may send the 3D perspective model corresponding to each original video frame in the original video to the client in advance (such as when sending the video data of the original video to the client);
  • the 3D viewing angle model corresponding to the target original video frame or the 3D viewing angle model corresponding to each original video frame in the original video is obtained from the server.
  • the generating the new perspective video corresponding to the original video based on the new perspective video frame includes: generating the new perspective video frame corresponding to multiple target perspectives based on the same target original video frame A new perspective video corresponding to the original video; and/or, based on multiple frames of target original video frames corresponding to new perspective video frames under the same target perspective, generating a new perspective video corresponding to the original video.
  • the pixel filling unit may be set to: for each pixel to be filled in the three-dimensional perspective model, if the pixel to be filled has an original pixel with a mapping relationship, then based on the pixel to be filled The pixel value of the original pixel with a mapping relationship is used to fill the pixel to be filled; if the pixel to be filled does not have an original pixel with a mapping relationship, it is determined according to the pixel value of the target pixel to be filled in the three-dimensional viewing angle model The pixel value to be filled of the pixel to be filled, and fill the pixel to be filled based on the pixel value to be filled, wherein the target pixel to be filled and the pixel to be filled belong to the same shooting object and are identical to the The distance between the pixels to be filled is within a preset distance range.
  • the video processing device provided in the embodiments of the present disclosure can execute the video processing method provided in any embodiment of the present disclosure, and has corresponding functional modules and beneficial effects for executing the video processing method.
  • the video processing method provided in any embodiment of the present disclosure can execute the video processing method provided in any embodiment of the present disclosure, and has corresponding functional modules and beneficial effects for executing the video processing method.
  • the video generation module 503 is configured to generate a new perspective video corresponding to the original video based on the new perspective video frame.
  • embodiments of the present disclosure include a computer program product, which includes a computer program carried on a non-transitory computer readable medium, where the computer program includes program code for executing the method shown in the flowchart.
  • the computer program may be downloaded and installed from a network via communication means 609, or from storage means 608, or from ROM 602.
  • the processing device 601 When the computer program is executed by the processing device 601, the above-mentioned functions defined in the methods of the embodiments of the present disclosure are performed.
  • the computer-readable medium mentioned above in the present disclosure may be a computer-readable signal medium or a computer-readable storage medium or any combination of the two.
  • a computer readable storage medium may be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or any combination thereof. More specific examples of computer-readable storage media may include, but are not limited to, electrical connections with one or more wires, portable computer diskettes, hard disks, random access memory (RAM), read-only memory (ROM), erasable Programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • each block of the block diagrams and/or flowchart illustrations, and combinations of blocks in the block diagrams and/or flowchart illustrations can be implemented by a dedicated hardware-based system that performs the specified functions or operations , or may be implemented by a combination of dedicated hardware and computer instructions.
  • a machine-readable medium may be a tangible medium that may contain or store a program for use by or in conjunction with an instruction execution system, apparatus, or device.
  • a machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium.
  • a machine-readable medium may include, but is not limited to, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, apparatus, or devices, or any suitable combination of the foregoing.
  • Example 5 is based on the method described in Example 4, wherein the pixel value of the pixel to be filled is determined according to the pixel value of the target pixel to be filled in the three-dimensional viewing angle model Previously, also included:
  • the 3D viewing angle model corresponding to the target original video frame uses the 3D viewing angle model corresponding to the target original video frame to generate a new viewing angle video frame corresponding to the target original video frame under the target viewing angle, wherein the 3D viewing angle model corresponding to the target original video frame is generated by a server;
  • a model generation module configured to generate a 3D perspective model corresponding to each original video frame according to the target depth information and the pixel values of the original pixels in each original video frame, so that the client generates the 3D perspective model according to the 3D perspective model A new viewing angle video corresponding to the original video, wherein the absolute values of the differences between multiple viewing angles within the viewing angle range of the 3D viewing angle model and the viewing angles of the corresponding original video frame are respectively less than or equal to a preset angle threshold.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Studio Devices (AREA)

Abstract

本公开实施例提供了一种视频的处理方法、装置、电子设备和存储介质。该方法包括:获取原始视频,其中,所述原始视频为单视角视频;确定所述原始视频中的多个原始视频帧中的每个原始视频帧的目标深度信息;根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。

Description

视频的处理方法、装置、电子设备和存储介质
本申请要求在2021年11月18日提交中国专利局、申请号为202111371289.4的中国专利申请的优先权,该申请的全部内容通过引用结合在本申请中。
技术领域
本公开实施例涉及视频技术领域,例如涉及一种视频的处理方法、装置、电子设备和存储介质。
背景技术
自由视角视频允许用户改变视角,以不同的位置观看视频的拍摄场景,从而提升用户的视频观看体验。
相关技术中,通常会以采用多台相机以不同的角度同时进行拍摄的方式,采集得到多角度的视频数据,并通过图像拼接的方式,合成新视角的视频。
然而,相关技术中的新视角视频的合成方式需要采用多台相机同时进行拍摄,导致新视角视频的制作过程较为繁琐。
发明内容
本公开实施例提供一种视频的处理方法、装置、电子设备和存储介质,以简化新视角视频的制作过程。
第一方面,本公开实施例提供了一种视频的处理方法,包括:
获取原始视频,其中,所述原始视频为单视角视频;
确定所述原始视频中的多个原始视频帧中的每个原始视频帧的目标深度信息;
根据所述目标深度信息以及所述每个原始视频帧中的原始像素的像素值生成所述每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
第二方面,本公开实施例还提供了一种视频的处理方法,包括:
响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
基于所述新视角视频帧生成所述原始视频对应的新视角视频。
第三方面,本公开实施例还提供了一种视频的处理装置,包括:
视频获取模块,设置为获取原始视频,其中,所述原始视频为单视角视频;
深度确定模块,设置为确定所述原始视频中的多个原始视频帧中的每个原始视频帧的目标深度信息;
模型生成模块,设置为根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
第四方面,本公开实施例还提供了一种视频的处理装置,包括:
视角确定模块,设置为响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
视频帧生成模块,设置为采用所述目标原始视频帧对应的三维视角模型生成所述目标原 始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
视频生成模块,设置为基于所述新视角视频帧生成所述原始视频对应的新视角视频。
第五方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,设置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例所述的视频的处理方法。
第六方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的视频的处理方法。
附图说明
贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种视频的处理方法的流程示意图;
图2为本公开实施例提供的另一种视频的处理方法的流程示意图;
图3为本公开实施例提供的又一种视频的处理方法的流程示意图;
图4为本公开实施例提供的一种视频的处理装置的结构框图;
图5为本公开实施例提供的另一种视频的处理装置的结构框图;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
应当理解,本公开的方法实施方式中记载的多个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例提供的一种视频的处理方法的流程示意图。该方法可以由视频的处理装置执行,其中,该装置可以由软件和/或硬件实现,可配置于电子设备中,例如,可以配置在计算机设备(如服务器)中。本公开实施例提供的视频的处理方法适用于基于单视角视频生成多视角视频的场景。如图1所示,本实施例提供的视频的处理方法可以包括:
S101、获取原始视频,其中,所述原始视频为单视角视频。
其中,原始视频可以理解为待处理的视频,其可以为单视角视频,如采用一个摄像机拍摄得到的视频。
例如,当需要生成某一单视角视频中的多个视频帧对应的三维视角模型时,如在接收到针对某一单视角视频的模型生成指令时,或者,在某一单视角视频上传至服务器且该单视角 视频为符合预设条件的视频(如预设类型的视频或者预设视频名单中的视频)时,可以获取该单视角视频的视频数据,如获取该单视角视频的多个视频帧。
S102、确定所述原始视频中的每个原始视频帧的目标深度信息。
其中,原始视频帧可以理解为原始视频中的视频帧。某一原始视频帧的目标深度信息可以为最终确定的该原始视频帧的深度信息,其可以包括该原始视频帧中的多个像素的深度信息,该目标深度信息可以以图片的形式或者其他形式(如文字、数据的形式)进行呈现。
在本实施例中,在获取到待处理的原始视频后,可以确定该原始视频中的每个原始视频帧的目标深度信息。例如,可以采用预先设置的深度估计算法(如预设设置的单目深度估计算法或者视频深度估计算法等),获取每个原始视频帧对应的深度信息,作为每个原始视频帧的目标深度信息;或者,还可以通过光流法追踪原始视频帧中的像素,对瞬时速度不为零的像素的深度信息进行校正,并将校正后每个原始视频帧对应的深度信息作为每个原始视频帧的目标深度信息。
S103、根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成多个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
其中,三维视角模型可以理解为包含当前场景中拍摄对象在不同视角下对应的画面的三维视角模型,即三维视角模型中可以包含在当前场景中的不同视角下对拍摄对象进行拍摄多得到的画面。相应的,某一原始视频帧对应的三维视角模型可以为在该原始视频帧所拍摄的场景中,拍摄对象在不同视角下的画面的三维视角模型。该三维视角模型所对应的视角范围内可以包含有该原始视频帧的视角,并且,位于该三维视角模型所对应的视角范围内的多个视角与该原始视频帧的视角之间的差值的绝对值分别可以小于或等于预设角度阈值。例如,该三维视角模型所对应的视角范围可以为以该原始视频帧的视角为中心的预设角度范围,如以该原始视频帧的视角α为中心且与该原始视频帧的视角之差在±β之内的视角范围[α-β,α+β]。原始像素可以为原始视频帧中的像素,相应的,原始像素的像素值可以为原始视频帧中的像素的像素值,其可以包括每个像素在RGB颜色通道中的像素值。
在本实施例中,在确定单视角视频中每个原始视频帧的深度信息之后,可以根据每个原始视频帧所采集的视频画面以及每个原始视频帧的深度信息,在小角度范围内(如±20°或±30°)对每个原始视频帧进行视角扩展,得到每个原始视频帧在该小角度范围内对应的三维视角模型。从而,后续可以直接根据每个原始视频帧对应的三维视角模型生成该原始视频帧对应的新视角视频(如自由视角视频),无需采用多台相机同时进行拍摄,也无需避免多台相机之间的视频帧同步的情况,能够降低新视角视频的拍摄难度与制作难度,简化新视角视频的制作过程,并减少制作新视角视频所耗费的人力与物力。此外,由于根据单视角视频即可实现新视角视频的生成,从而,能够在点播、直播或其他视频播放过程中进行应用,使得用户在观看视频时可以根据需要自由切换观看视角,故还能够提高用户的视频观看体验。
例如,在确定原始视频帧中的每个原始视频帧的目标深度信息之后,可以分别根据每个原始视频帧的目标深度信息以及每个原始视频帧的画面信息(如该原始视频帧中多个像素的像素值),生成每个原始视频帧对应的三维视角模型,并在当前条件符合预设条件时,如在接收到客户端发送的针对该原始视频的视频数据获取请求或三维视角模型获取请求时,将一个或多个原始视频帧对应的三维视角模型发送给客户端。相应的,客户端可以在需要播放视频数据时生成并向服务器视频数据获取请求,或者,在需要生成原始视频对应的新视角视频时,生成并向服务器发送针对某一帧或多帧原始视频帧或者针对原始视频中的所有原始视频帧的三维视角模型获取请求,接收服务器基于该请求返回的三维视角模型,并基于该三维视角模型生成原始视频对应的新视角视频。
在本实施例中,某一原始视频帧对应的三维视角模型的生成方式可以灵活设置。例如,可以根据该原始视频帧的目标深度信息以及该原始视频帧的画面信息(如该原始视频帧中多 个像素的像素值),生成该原始视频帧对应的三维视角模型。例如,根据该原始视频帧的目标深度信息确定该原始视频帧中的多个原始像素与该原始视频帧对应的三维视角模型中的多个待填充像素之间的映射关系,基于该原始视频帧中的多个原始像素的像素值对三维视角模型中与其具有映射关系的待填充像素进行填充。并在填充完成后,根据剩余尚未填充的待填充像素周围(如预设距离范围内)的像素的像素值对剩余尚未填充的待填充像素进行填充,得到该原始视频帧对应的三维视角模型。也可以根据原始视频中每个原始视频帧的目标深度信息以及每个原始视频帧的画面信息,生成该原始视频帧对应的三维视角模型。例如,根据每个原始视频帧的目标深度信息确定每个原始视频帧中的原始像素与该原始视频帧对应的三维视角模型中的多个待填充像素之间的映射关系,基于该原始视频帧中的多个原始像素的像素值对三维视角模型中与其具有映射关系的待填充像素进行填充。并在填充完成后,根据剩余尚未填充的待填充像素周围的像素的像素值对剩余尚未填充的待填充像素进行填充,得到该原始视频帧对应的三维视角模型。以提高所生成的三维视角模型中多个像素的像素值的准确性,进而降低最终生成的新视角视频的失真。
本实施例提供的视频的处理方法,获取原始视频,其中,该原始视频为单视角视频;确定该原始视频中的每个原始视频帧的目标深度信息;根据该目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所生成的三维视角模型生成该原始视频帧对应的新视角视频,其中,位于该三维视角模型的视角范围内的多个视角与其对应的原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。本实施例通过采用上述技术方案,能够根据单视角视频生成新视视频,降低新视角视频的拍摄难度与制作难度,简化新视角视频的制作过程,并减少制作新视角视频所耗费的人力与物力。
图2为本公开实施例提供的另一种视频的处理方法的流程示意图。本实施例中的方案可以与上述实施例中的一个或多个示例方案组合。例如,所述确定所述原始视频中的每个原始视频帧的目标深度信息,包括:采用预设深度估计算法计算所述原始视频中的每个原始视频帧的原始深度信息;根据所述原始视频的光流信息对所述原始深度信息中包含的目标原始像素的像素深度信息进行校正,得到每个原始视频帧的目标深度信息,其中,所述目标原始像素的瞬时速度大于零。
例如,所述根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,包括:针对每帧原始视频帧对应的三维视角模型,根据每个原始视频帧的视角和目标深度信息确定每个原始视频帧中的原始像素与所述三维视角模型中的待填充像素之间的映射关系;基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充。
相应的,如图2所示,本实施例提供的视频的处理方法可以包括:
S201、获取原始视频,其中,所述原始视频为单视角视频。
S202、采用预设深度估计算法计算所述原始视频中的每个原始视频帧的原始深度信息。
其中,原始深度信息可以为基于预设深度估计算法初步计算得到的每个原始视频帧的深度信息,如原始视频帧中多个像素对应的深度信息。
示例性的,当获取到原始视频后,可以采用采用先设置的单目深度估计算法,如DiverseDepth(Affine-invariant Depth Prediction Using Diverse Data)算法、VNL(Enforcing geometric constraints of virtual normal for depth prediction)算法或DORN(Deep Ordinal Regression Network for Monocular Depth Estimation)算法等,或者,采用预先设置的视频深度估计算法,如Consistent Video Depth Estimation算法等,分别计算原始视频中多个原始视频帧的深度信息,作为多个原始视频帧的原始深度信息。
S203、根据所述原始视频的光流信息对所述原始深度信息中包含的目标原始像素的像素深度信息进行校正,得到每个原始视频帧的目标深度信息,其中,所述目标原始像素的瞬时速度大于零。
在本实施例中,可以根据原始视频的光流信息对每个原始视频帧的原始深度信息进行校正,并基于校正得到的每个原始视频帧的目标深度信息生成每个原始视频帧对应的三维视角模型,以提高最终确定的每个原始视频帧的深度信息的准确性,从而提高采用多个三维视角模型生成的新视角视频的视频效果。
其中,光流可以理解为像素在成像平面上的像素运动的瞬时速度、当时间间隔很小时,如在视频的连续前后两视频帧之间,该瞬时速度可以等同于相应像素点的位移。相应的,原始视频的光流信息可以为原始视频中多个像素相对于其上一帧原始视频帧的位移信息。目标原始像素可以为原始视频帧中瞬时速度不为零(即瞬时速度大于零)的像素,其可以根据该原始视频帧与原始视频中位于该原始视频帧之前且与该原始视频帧相邻的上一视频帧之间的光流信息确定。像素深度信息可以理解为相应像素的深度信息。
例如,可以采用预先设置的光流估计方法,如预先训练得到的视频光流估计模型,估计该原始视频的光流信息。根据该光流信息确定每个原始视频帧中瞬时速度不为零的目标原始像素,并对原始深度信息中包含的该瞬时速度不为零的目标原始像素的像素深度信息进行校正,如针对每一个目标原始像素,根据上一视频帧的原始深度信息以及上一视频帧与当前视频帧之间的光流信息计算该目标原始像素的第一像素深度信息,根据该第一像素信息以及当前视频帧的原始深度信息中包含的该目标原始像素的第二像素深度信息计算(如计算平均值或加权平均值等)得到该目标原始像素的第三像素深度信息,并采用该第三像素深度信息替换当前视频帧的原始深度信息中包含的该目标原始像素的第二像素深度信息,以对当前视频帧的原始深度信息中包含的该目标原始像素的深度信息进行校正。
S204、针对每帧原始视频帧对应的三维视角模型,根据每个原始视频帧的视角和目标深度信息确定在每个原始视频帧中的原始像素与所述三维视角模型中的待填充像素之间的映射关系。
其中,待填充像素可以为三维视角模型中需要进行填充的像素。原始像素与待填充像素之间的映射关系可以理解为原始像素与待填充像素之间的对应关系。
例如,在确定某一原始视频帧(如当前原始视频帧)对应的三维视角模型时,可以确定每个原始视频帧中的原始像素与该三维视角模型中的待填充像素之间的映射关系。如通过预先训练得到的像素填充模型,根据每个原始视频帧的视角和目标深度信息,或者,根据每个原始视频帧的视角和目标深度信息以及原始视频的光流信息,确定每个原始视频帧中的多个像素在当前原始视频帧对应的三维模型中是否具有对应的待填充像素,并在存在对应的待填充像素时,将该具有对应的待填充像素的原始像素及其对应的待填充像素确定为具有映射关系的原始像素与待填充像素。
S205、基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充,得到每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
在本实施例中,在构建某一原始视频帧对应的三维视角模型时,可以基于原始视频中与该原始视频帧对应的三维视角模型中的待填充像素进行填充,而并不仅仅基于该原始视频帧中的每个原始视频对其对应的三维视角模型进行填充,从而提高每个三维视角模型所填充的颜色的准确性,降低基于每个三维视角模型得到的新视角视频的失真。
示例性的,当确定每个原始视频帧中的原始像素与当前进行构建的三维视角模型中的待填充像素之间的映射关系之后,可以根据原始像素的像素值对三维视角模型中与其具有映射关系的待填充像素进行填充,并在该三维视角模型中存在具有映射关系的原始像素的多个待填充像素均填充完成后,根据在预设距离范围之内的待填充像素填充后的像素值对剩余尚未进行填充的多个待填充像素进行填充。
在本实施例中,当对存在具有映射关系的原始像素的某一待填充像素进行填充时,若该待填充像素仅存在一个具有映射关系的原始像素,如仅在当前正在构建的三维视角模型对应 的或不对应的某一原始视频帧中存在一个具有映射关系的原始像素,则可以直接将该具有映射关系的原始像素的像素值作为该待填充像素的像素值,并根据该待像素值对该待填充像素进行填充。若该待填充像素存在多个具有映射关系的原始像素,则可以根据具有映射关系的多个原始像素的像素值对该待填充像素进行填充,如根据多个原始像素的像素均值对该待填充像素进行填充;也可以根据其中的某一个具有映射关系的原始像素的像素值对该待填充像素进行填充,如随机选取一个原始像素,根据该原始像素的像素值对该待填充像素进行填充,或者,按照多个视频帧在原始视频中的顺序,选取所位于的原始视频帧与该三维视角模型对应的原始视频帧距离最近的原始像素,并根据该原始像素的像素值对该待填充像素进行填充,以提高所填充的颜色的准确性。
当对不存在具有映射关系的原始像素的某一待填充像素进行填充时,可以仅考虑三维视角模型中的多个像素与该待填充像素之间的距离,如获取三维视角模型中与该待填充像素在预设距离范围之内的多个其他待填充像素,作为目标待填充像素,根据多个目标待填充像素的像素值(如像素均值)确定该待填充像素的像素值,并基于该像素值对该待填充像素进行填充。也可以综合考虑三维视角模型中的多个像素与该待填充像素之间的距离以及三维视角模型中的多个像素所属于的拍摄对象,如获取三维视角模型中与该待填充像素在预设距离范围之内且与该待填充像素属于同一拍摄对象的多个其他待填充像素,作为目标待填充像素,根据多个目标待填充像素的像素值(如像素均值)确定该待填充像素的像素值,并基于该像素值对该待填充像素进行填充,以提高所填充的颜色的准确性。此时,例如,所述基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充,包括:针对所述三维视角模型中的每一个待填充像素,如果所述待填充像素存在具有映射关系的原始像素,则基于与所述待填充像素具有映射关系的原始像素的像素值对所述待填充像素进行填充;如果所述待填充像素不存在具有映射关系的原始像素,则根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值,并基于所述待填充像素值对所述待填充像素进行填充,其中,所述目标待填充像素与所述待填充像素属于同一拍摄对象且与所述待填充像素之间的距离在预设距离范围之内。
在本实施例中,拍摄对象可以包括前景对象和/或背景对象,该前景对象/背景对象可以为运动对象或者静止对象。原始视频中的拍摄对象可以通过对原始视频帧进行语义识别确定,某一原始视频帧对应的三维视角模型中的待填充像素所属于的拍摄对象可以基于该原始视频帧的视角和目标深度信息确定。此时,例如,在所述根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值之前,还包括:根据所述目标深度信息以及多个拍摄对象的语义特征信息对每个原始视频帧进行语义识别,确定每个原始视频帧中的拍摄对象;基于每个原始视频帧的视角和目标深度信息确定所述拍摄对象在所述三维视角模型中对应的待填充像素。
本实施例提供的视频的处理方法,能够提高三维视角模型中的多个像素所填充的颜色的准确性,从而,减少根据三维视角模型所生成的新视角视频的失真,提高所生成的新视角视频的视觉效果。
图3为本公开实施例提供的又一种视频的处理方法的流程示意图。该方法可以由视频的处理装置执行,其中,该装置可以由软件和/或硬件实现,可配置于电子设备中,例如,可以配置在手机或平板电脑中。本公开实施例提供的视频的处理方法适用于基于单视角视频生成多视角视频的场景。如图3所示,本实施例提供的视频的处理方法可以包括:
S301、响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角。
其中,视角切换操作可以为切换原始视频的观看视角的操作,如作用于视频播放页面内的滑动操作。目标视频可以为视角切换操作所切换至的视角,当视角切换操作为滑动操作时,可以在用户滑动结束后,确定与该滑动操作对应的目标视角;也可以在用户滑动的过程中,基于用户的滑动确定一系列的目标视角。
例如,客户端可以在视频播放页面中播放原始视频,在原始视频的播放过程中,接收用户的视角切换操作,并确定与该视角切换操作对应的目标视角,以生成与该目标视角对应的视频帧。例如,客户端在接收到用户的滑动操作时,可以暂停播放原始视频,将当前所展示的原始视频帧作为目标原始视频帧,在用户滑动过程中,周期性地(如按照屏幕的刷新周期或者按照视频的视频帧切换周期)确定当前周期内的目标视角,并基于该目标视角执行后续操作;也可以继续播放原始视频,以及,在用户滑动过程中,周期性地确定当前周期内的目标原始视频帧以及目标视角,并基于该目标原始视频帧以及该目标视角执行后续操作。
S302、采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成。
示例性的,服务器可以预先(如在向客户端发送原始视频的视频数据时)将原始视频中的每个原始视频帧对应的三维视角模型发送给客户端;或者,客户端可以在接收到用户的视角切换操作时,向服务器获取目标原始视频帧对应的三维视角模型或者原始视频中的每个原始视频帧对应的三维视角模型。从而,客户端在确定目标视角后,可以根据目标原始视频帧对应的三维视角模型,生成该目标视角下的新视角视频帧,如确定三维视角模型中在该目标视角下需要进行呈现的像素,并根据所确定的像素的填充值生成与该目标视角对应的新视角视频帧;并可以展示该新视角视频帧,如将视频播放页面中所展示的视频帧替换为该新视角视频帧。
S303、基于所述新视角视频帧生成所述原始视频对应的新视角视频。
在本实施例中,响应于用户的视角切换操作,可以得到一系列的新视角视频帧。从而,将所得到的新视角视频帧按照其生成顺序进行排序并合成,即可得到原始视频对应的新视角视频。
在一个实施方式中,所述基于所述新视角视频帧生成所述原始视频对应的新视角视频,包括:基于同一目标原始视频帧在多个目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频;和/或,基于多帧目标原始视频帧在同一目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频。
示例性的,可以在接收到视角切换操作时,暂停播放原始视频,基于用户的视角切换操作生成当前所显示的原始视频帧在多个视角下对应的新视角视频帧;在接收到用户继续播放视频的触发操作时,继续播放原始视频,或者以视角切换操作结束时的视角作为目标视角,生成后续多个原始视频帧在该目标视角下的新视角视频帧,并展示所生成的新视角视频帧。从而,可以基于当前所显示的原始视频帧对应的多个新视角视频帧,还可以基于后续多个原始视频帧对应的新视角视频帧,生成原始视频对应的新视角视频。或者,在接收到视角切换操作时,暂停播放原始视频,基于用户的视角切换操作生成当前显示的原始视频帧在一个视角下对应的新视角视频帧,在接收到用户继续播放视频的触发操作时,以视角切换操作结束时的视角作为目标视角,生成后续多个原始视频帧在该目标视角下的新视角视频帧,并展示所生成的新视角视频帧。从而,可以基于当前所显示的原始视频帧对应的新视角视频帧以及后续多个原始视频帧对应的新视角视频帧,生成原始视频对应的新视角视频。
也可以在接收到视角切换操作时,继续播放视频,在视频播放过程中,按照多个原始视频帧在原始视频中的顺序,依次确定该视角切换操作所针对的多个原始视频帧并生成多个原始视频帧对应的新视角视频帧,并在用户的视角切换操作执行结束时,在该视角切换操作执行结束时的播放进度的基础上,继续播放原始视频,或者以视角切换操作结束时的视角作为目标视角,生成后续多个原始视频帧在该目标视角下的新视角视频帧,并展示所生成的新视角视频帧。从而,可以基于视角切换操作触发过程中多个原始视频帧对应的新视角视频帧,还可以基于后续多个原始视频帧对应的新视角视频帧,生成原始视频对应的新视角视频。
本实施例提供的视频的处理方法,响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与该视角切换操作对应的目标视角;采用服务器预先生成的、目标原始视频帧对 应的三维视角模型生成目标原始视频帧在该目标视角下对应的新视角视频帧;并基于多个新视角视频帧生成原始视频对应的新视角视频。本实施例通过采用上述技术方案,能够根据单视角视频生成新视视频,降低新视角视频的拍摄难度与制作难度,简化新视角视频的制作过程,并减少制作新视角视频所耗费的人力与物力。
图4为本公开实施例提供的一种视频的处理装置的结构框图。该装置可以由软件和/或硬件实现,可配置于电子设备中,例如,可以配置在计算机设备(如服务器)中,可通过执行视频的处理方法控制客户端生成多视角视频。如图4所示,本实施例提供的视频的处理装置可以包括:视频获取模块401、深度确定模块402和模型生成模块403,其中,
视频获取模块401,设置为获取原始视频,其中,所述原始视频为单视角视频;
深度确定模块402,设置为确定所述原始视频中的每个原始视频帧的目标深度信息;
模型生成模块403,设置为根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
本实施例提供的视频的处理装置,通过视频获取模块获取原始视频,其中,该原始视频为单视角视频;通过深度确定模块确定该原始视频中的每个原始视频帧的目标深度信息;通过模型生成模块根据该目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所生成的三维视角模型生成该原始视频帧对应的新视角视频,其中,位于该三维视角模型的视角范围内的多个视角与其对应的原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。本实施例通过采用上述技术方案,能够根据单视角视频生成新视视频,降低新视角视频的拍摄难度与制作难度,简化新视角视频的制作过程,并减少制作新视角视频所耗费的人力与物力。
在上述方案中,所述深度确定模块402可以包括:深度计算单元,设置为采用预设深度估计算法计算所述原始视频中的每个原始视频帧的原始深度信息;深度校正单元,设置为根据所述原始视频的光流信息对所述原始深度信息中包含的目标原始像素的像素深度信息进行校正,得到每个原始视频帧的目标深度信息,其中,所述目标原始像素的瞬时速度大于零。
在上述方案中,所述模型生成模块403可以包括:关系确定单元,设置为针对每帧原始视频帧对应的三维视角模型,根据每个原始视频帧的视角和目标深度信息确定每个原始视频帧中的原始像素与所述三维视角模型中的待填充像素之间的映射关系;像素填充单元,设置为基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充。
在上述方案中,所述像素填充单元可以设置为:针对所述三维视角模型中的每一个待填充像素,如果所述待填充像素存在具有映射关系的原始像素,则基于与所述待填充像素具有映射关系的原始像素的像素值对所述待填充像素进行填充;如果所述待填充像素不存在具有映射关系的原始像素,则根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值,并基于所述待填充像素值对所述待填充像素进行填充,其中,所述目标待填充像素与所述待填充像素属于同一拍摄对象且与所述待填充像素之间的距离在预设距离范围之内。
在上述方案中,所述像素填充单元还可以设置为,在所述根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值之前,根据所述目标深度信息以及每个拍摄对象的语义特征信息对每个原始视频帧进行语义识别,确定每个原始视频帧中的拍摄对象;基于每个原始视频帧的视角和目标深度信息确定所述拍摄对象在所述三维视角模型中对应的待填充像素。
本公开实施例提供的视频的处理装置可执行本公开任意实施例提供的视频的处理方法,具备执行视频的处理方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例所提供的视频的处理方法。
图5为本公开实施例提供的又一种视频的处理装置的结构框图。该装置可以由软件和/或硬件实现,可配置于电子设备中,例如,可以配置在手机或平板电脑中,可通过执行视频的处理方法生成新视角视频。如图5所示,本实施例提供的视频的处理装置可以包括:视角确定模块501、视频帧生成模块502和视频生成模块503,其中,
视角确定模块501,设置为响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
视频帧生成模块502,设置为采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
视频生成模块503,设置为基于所述新视角视频帧生成所述原始视频对应的新视角视频。
本实施例提供的视频的处理装置,通过视角确定模块响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与该视角切换操作对应的目标视角;通过视频帧生成模块采用服务器预先生成的、目标原始视频帧对应的三维视角模型生成目标原始视频帧在该目标视角下对应的新视角视频帧;并通过视频生成模块基于多个新视角视频帧生成原始视频对应的新视角视频。本实施例通过采用上述技术方案,能够根据单视角视频生成新视视频,降低新视角视频的拍摄难度与制作难度,简化新视角视频的制作过程,并减少制作新视角视频所耗费的人力与物力。
在上述方案中,所述视频生成模块503可设置为:基于同一目标原始视频帧在多个目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频;和/或,基于多帧目标原始视频帧在同一目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频。
本公开实施例提供的视频的处理装置可执行本公开任意实施例提供的视频的处理方法,具备执行视频的处理方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例所提供的视频的处理方法。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备(例如服务器或终端设备)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行多种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的多种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有多种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText Transfer Protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取原始视频,其中,所述原始视频为单视角视频;确定所述原始视频中的每个原始视频帧的目标深度信息;根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。或者,
响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;基于所述新视角视频帧生成所述原始视频对应的新视角视频。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开多种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基 本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种视频的处理方法,包括:
获取原始视频,其中,所述原始视频为单视角视频;
确定所述原始视频中的每个原始视频帧的目标深度信息;
根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
根据本公开的一个或多个实施例,示例2根据示例1所述的方法,所述确定所述原始视频中的每个原始视频帧的目标深度信息,包括:
采用预设深度估计算法计算所述原始视频中的每个原始视频帧的原始深度信息;
根据所述原始视频的光流信息对所述原始深度信息中包含的目标原始像素的像素深度信息进行校正,得到每个原始视频帧的目标深度信息,其中,所述目标原始像素的瞬时速度大于零。
根据本公开的一个或多个实施例,示例3根据示例1或2所述的方法,所述根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,包括:
针对每帧原始视频帧对应的三维视角模型,根据每个原始视频帧的视角和目标深度信息确定每个原始视频帧中的原始像素与所述三维视角模型中的待填充像素之间的映射关系;
基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充。
根据本公开的一个或多个实施例,示例4根据示例3所述的方法,所述基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充,包括:
针对所述三维视角模型中的每一个待填充像素,如果所述待填充像素存在具有映射关系的原始像素,则基于与所述待填充像素具有映射关系的原始像素的像素值对所述待填充像素进行填充;
如果所述待填充像素不存在具有映射关系的原始像素,则根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值,并基于所述待填充像素值对所述待填充像素进行填充,其中,所述目标待填充像素与所述待填充像素属于同一拍摄对象且与所述待填充像素之间的距离在预设距离范围之内。
根据本公开的一个或多个实施例,示例5根据示例4所述的方法,在所述根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值之前,还包括:
根据所述目标深度信息以及多个拍摄对象的语义特征信息对每个原始视频帧进行语义识别,确定每个原始视频帧中的拍摄对象;
基于每个原始视频帧的视角和目标深度信息确定所述拍摄对象在所述三维视角模型中对应的待填充像素。
根据本公开的一个或多个实施例,示例6提供了一种视频的处理方法,包括:
响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
基于所述新视角视频帧生成所述原始视频对应的新视角视频。
根据本公开的一个或多个实施例,示例7根据示例6所述的方法,所述基于所述新视角视频帧生成所述原始视频对应的新视角视频,包括:
基于同一目标原始视频帧在多个目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频;和/或,
基于多帧目标原始视频帧在同一目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频。
根据本公开的一个或多个实施例,示例8提供了一种视频的处理装置,包括:
视频获取模块,设置为获取原始视频,其中,所述原始视频为单视角视频;
深度确定模块,设置为确定所述原始视频中的每个原始视频帧的目标深度信息;
模型生成模块,设置为根据所述目标深度信息以及每个原始视频帧中的原始像素的像素值生成每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
根据本公开的一个或多个实施例,示例9提供了一种视频的处理装置,包括:
视角确定模块,设置为响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
视频帧生成模块,设置为采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
视频生成模块,设置为基于所述新视角视频帧生成所述原始视频对应的新视角视频。
根据本公开的一个或多个实施例,示例10提供了一种电子设备,包括:
一个或多个处理器;
存储器,设置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如示例1-7中任一所述的视频的处理方法。
根据本公开的一个或多个实施例,示例11提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如示例1-7中任一所述的视频的处理方法。
此外,虽然采用特定次序描绘了多种操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的多种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

Claims (11)

  1. 一种视频的处理方法,包括:
    获取原始视频,其中,所述原始视频为单视角视频;
    确定所述原始视频中的多个原始视频帧中每个原始视频帧的目标深度信息;
    根据所述目标深度信息以及所述每个原始视频帧中的原始像素的像素值生成所述每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
  2. 根据权利要求1所述的方法,其中,所述确定所述原始视频中的每个原始视频帧的目标深度信息,包括:
    采用预设深度估计算法计算所述原始视频中的所述每个原始视频帧的原始深度信息;
    根据所述原始视频的光流信息对所述原始深度信息中包含的目标原始像素的像素深度信息进行校正,得到所述每个原始视频帧的目标深度信息,其中,所述目标原始像素的瞬时速度大于零。
  3. 根据权利要求1或2所述的方法,其中,所述根据所述目标深度信息以及所述每个原始视频帧中的原始像素的像素值生成所述每个原始视频帧对应的三维视角模型,包括:
    针对所述每个原始视频帧对应的三维视角模型,根据所述每个原始视频帧的视角和目标深度信息确定所述每个原始视频帧中的原始像素与所述三维视角模型中的待填充像素之间的映射关系;
    基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充。
  4. 根据权利要求3所述的方法,其中,所述基于所述映射关系以及所述原始像素的像素值对所述三维视角模型中的多个待填充像素进行填充,包括:
    针对所述三维视角模型中的每一个待填充像素,响应于确定所述待填充像素存在具有映射关系的原始像素,基于与所述待填充像素具有映射关系的原始像素的像素值对所述待填充像素进行填充;
    响应于确定所述待填充像素不存在具有映射关系的原始像素,根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值,并基于所述待填充像素值对所述待填充像素进行填充,其中,所述目标待填充像素与所述待填充像素属于同一拍摄对象且所述目标待填充像素与所述待填充像素之间的距离在预设距离范围之内。
  5. 根据权利要求4所述的方法,在所述根据所述三维视角模型中的目标待填充像素的像素值确定所述待填充像素的待填充像素值之前,还包括:
    根据所述目标深度信息以及拍摄对象的语义特征信息对所述每个原始视频帧进行语义识别,确定所述每个原始视频帧中的拍摄对象;
    基于所述每个原始视频帧的视角和目标深度信息确定所述拍摄对象在所述三维视角模型中对应的待填充像素。
  6. 一种视频的处理方法,包括:
    响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
    采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
    基于所述新视角视频帧生成所述原始视频对应的新视角视频。
  7. 根据权利要求6所述的方法,其中,所述基于所述新视角视频帧生成所述原始视频对应的新视角视频,包括以下至少之一:
    基于同一目标原始视频帧在多个目标视角下对应的新视角视频帧,生成所述原始视频对应的新视角视频;和
    基于多帧目标原始视频帧在同一目标视角下对应的新视角视频帧,生成所述原始视频对 应的新视角视频。
  8. 一种视频的处理装置,包括:
    视频获取模块,设置为获取原始视频,其中,所述原始视频为单视角视频;
    深度确定模块,设置为确定所述原始视频中的多个原始视频帧中的每个原始视频帧的目标深度信息;
    模型生成模块,设置为根据所述目标深度信息以及所述每个原始视频帧中的原始像素的像素值生成所述每个原始视频帧对应的三维视角模型,以使客户端根据所述三维视角模型生成所述原始视频对应的新视角视频,其中,位于所述三维视角模型的视角范围内的多个视角与相应原始视频帧的视角之间的差值的绝对值分别小于或等于预设角度阈值。
  9. 一种视频的处理装置,包括:
    视角确定模块,设置为响应于针对原始视频中的目标原始视频帧的视角切换操作,确定与所述视角切换操作对应的目标视角;
    视频帧生成模块,设置为采用所述目标原始视频帧对应的三维视角模型生成所述目标原始视频帧在所述目标视角下对应的新视角视频帧,其中,所述目标原始视频帧对应的三维视角模型由服务器生成;
    视频生成模块,设置为基于所述新视角视频帧生成所述原始视频对应的新视角视频。
  10. 一种电子设备,包括:
    一个或多个处理器;
    存储器,设置为存储一个或多个程序,
    当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频的处理方法。
  11. 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的视频的处理方法。
PCT/CN2022/129397 2021-11-18 2022-11-03 视频的处理方法、装置、电子设备和存储介质 WO2023088104A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111371289.4 2021-11-18
CN202111371289.4A CN113891057A (zh) 2021-11-18 2021-11-18 视频的处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
WO2023088104A1 true WO2023088104A1 (zh) 2023-05-25

Family

ID=79015715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/129397 WO2023088104A1 (zh) 2021-11-18 2022-11-03 视频的处理方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN113891057A (zh)
WO (1) WO2023088104A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891057A (zh) * 2021-11-18 2022-01-04 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101631257A (zh) * 2009-08-06 2010-01-20 中兴通讯股份有限公司 一种实现二维视频码流立体播放的方法及装置
US20170150123A1 (en) * 2015-11-24 2017-05-25 Nokia Technologies Oy High-Speed Depth Sensing With A Hybrid Camera Setup
CN111970503A (zh) * 2020-08-24 2020-11-20 腾讯科技(深圳)有限公司 二维图像的三维化方法、装置、设备及计算机可读存储介质
CN112927273A (zh) * 2021-01-28 2021-06-08 北京字节跳动网络技术有限公司 三维视频的处理方法、设备及存储介质
CN113891057A (zh) * 2021-11-18 2022-01-04 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI492186B (zh) * 2010-11-03 2015-07-11 Ind Tech Res Inst 修補三維立體影像之裝置及方法
KR20130001869A (ko) * 2011-06-28 2013-01-07 삼성전자주식회사 영상처리장치 및 영상처리방법
EP2807827A4 (en) * 2012-01-25 2015-03-04 Lumenco Llc CONVERTING A DIGITAL STEREO IMAGE IN SEVERAL VIEWS WITH PARALLAX FOR 3D VISUALIZATION WITHOUT GLASSES
US9210405B2 (en) * 2012-03-22 2015-12-08 Qualcomm Technologies, Inc. System and method for real time 2D to 3D conversion of video in a digital camera
CN105100771A (zh) * 2015-07-14 2015-11-25 山东大学 一种基于场景分类和几何标注的单视点视频深度获取方法
CN112634339B (zh) * 2019-09-24 2024-05-31 阿里巴巴集团控股有限公司 商品对象信息展示方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101631257A (zh) * 2009-08-06 2010-01-20 中兴通讯股份有限公司 一种实现二维视频码流立体播放的方法及装置
US20170150123A1 (en) * 2015-11-24 2017-05-25 Nokia Technologies Oy High-Speed Depth Sensing With A Hybrid Camera Setup
CN111970503A (zh) * 2020-08-24 2020-11-20 腾讯科技(深圳)有限公司 二维图像的三维化方法、装置、设备及计算机可读存储介质
CN112927273A (zh) * 2021-01-28 2021-06-08 北京字节跳动网络技术有限公司 三维视频的处理方法、设备及存储介质
CN113891057A (zh) * 2021-11-18 2022-01-04 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113891057A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
WO2015070694A1 (zh) 屏幕拼接系统和视频数据流的处理方法
US20190304118A1 (en) Method and apparatus for generating image generative model
WO2022161107A1 (zh) 三维视频的处理方法、设备及存储介质
CN111970524B (zh) 交互类直播连麦的控制方法、装置、系统、设备及介质
WO2023169297A1 (zh) 动画特效生成方法、装置、设备及介质
CN110728622B (zh) 鱼眼图像处理方法、装置、电子设备及计算机可读介质
WO2023071707A1 (zh) 视频图像处理方法、装置、电子设备及存储介质
WO2021190229A1 (zh) 三维视频的处理方法、装置、可读存储介质和电子设备
CN110290398B (zh) 视频下发方法、装置、存储介质及电子设备
WO2023109842A1 (zh) 图像展示方法、装置、电子设备及存储介质
WO2023088104A1 (zh) 视频的处理方法、装置、电子设备和存储介质
WO2023185455A1 (zh) 图像处理方法、装置、电子设备及存储介质
US11568893B2 (en) Image acquisition system and method
WO2023207379A1 (zh) 图像处理方法、装置、设备及存储介质
CN114979652A (zh) 一种视频处理方法、装置、电子设备及存储介质
CN115761090A (zh) 特效渲染方法、装置、设备、计算机可读存储介质及产品
CN110519645B (zh) 视频内容的播放方法、装置、电子设备及计算机可读介质
WO2024056030A1 (zh) 一种图像深度估计方法、装置、电子设备及存储介质
WO2024056020A1 (zh) 一种双目图像的生成方法、装置、电子设备及存储介质
WO2023231918A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2023216822A1 (zh) 图像校正方法、装置、电子设备及存储介质
WO2023197811A1 (zh) 视频下载、传输方法、装置、终端设备、服务器及介质
US20230206575A1 (en) Rendering a virtual object in spatial alignment with a pose of an electronic device
CN115633144A (zh) 视频处理方法、装置、电子设备及存储介质
CN112383810A (zh) 歌词视频展示方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22894641

Country of ref document: EP

Kind code of ref document: A1