WO2022073409A1

WO2022073409A1 - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2022073409A1
Application number: PCT/CN2021/117982
Authority: WO
Inventors: 夏爽
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-10-10
Filing date: 2021-09-13
Publication date: 2022-04-14
Also published as: EP4106337A1; EP4106337A4; US20230036919A1; CN112218136A; CN112218136B

Abstract

一种视频处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：响应于作用在第一图像上的交互操作，获取交互操作对应的调整参数(201)；获取第一图像的像素点的位移参数(202)；基于调整参数和位移参数，调整第一图像中像素点的显示位置(203)；基于像素点调整后的显示位置，显示第二图像(204)。采用上述方法、装置、计算机设备及存储介质，增强了视频的交互性，提高了视频播放过程中的视觉效果。

Description

视频处理方法、装置、计算机设备及存储介质

本申请要求于2020年10月10日提交、申请号为202011078356.9、发明名称为“视频处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

视频的出现丰富了人们的生活。人们通过观看视频能够直观高效的获取到各种信息，感受世界的多姿多彩。视频包括图像和音频，能够从视觉和听觉两个方面为用户提供直观的、感染性较强的观看体验。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备及存储介质，能够实现对用户与正在播放的视频的交互支持，增强了视频的交互性，提高了视频播放过程中的视觉效果。所述技术方案如下：

一方面，提供了一种视频处理方法，由计算机设备执行，所述方法包括：

响应于作用在第一图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数指示基于所述交互操作对所述第一图像中像素点的显示位置的调整幅度，所述第一图像为所播放的视频中当前显示的图像；

获取所述第一图像的像素点的位移参数，所述位移参数表示所述像素点在所述第一图像与第二图像之间的位移，所述第二图像为在所述第一图像之后显示的图像；

基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置；

基于所述像素点调整后的显示位置，显示所述第二图像。

一方面，提供了一种视频处理装置，所述装置包括：

第一获取模块，用于响应于作用在第一图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数指示基于所述交互操作对所述第一图像中像素点的显示位置的调整幅度，所述第一图像为所播放的视频中当前显示的图像；

第二获取模块，用于获取所述第一图像的像素点的位移参数，所述位移参数表示所述像素点在所述第一图像与第二图像之间的位移，所述第二图像为在所述第一图像之后显示的图像；

第二显示模块，用于基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置；

所述第二显示模块，还用于基于所述像素点调整后的显示位置，显示所述第二图像。

在一种可选的实现方式中，所述第一获取模块，包括：

力度获取单元，用于响应于作用在所述第一图像上的交互操作，获取所述交互操作的作用力度；

参数确定单元，用于基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数。

在另一种可选的实现方式中，所述参数确定单元，用于：

基于参考作用力度、所述参考作用力度对应的参考调整参数、所述交互操作的作用力度，确定所述调整参数；

其中，所述调整参数与所述参考调整参数呈正相关，所述调整参数与所述参考作用力度呈负相关，所述调整参数与所述交互操作的作用力度呈正相关。

在另一种可选的实现方式中，所述第二获取模块，用于将所述第一图像输入到光流估计模型中，得到所述第一图像的像素点的位移参数；

或者，所述第二获取模块，用于对所述视频的编码数据进行解码，得到所述第一图像的像素点的位移参数，所述编码数据包括编码后的所述位移参数。

在另一种可选的实现方式中，所述第二显示模块，包括：

像素点偏移单元，用于基于所述调整参数和所述位移参数，调整所述第一图像中所述交互操作所作用的像素点的显示位置。

在另一种可选的实现方式中，所述像素点偏移单元，用于：

基于所述调整参数和所述位移参数，确定目标偏移参数；

基于所述目标偏移参数所指示的偏移距离和偏移方向，调整所述第一图像中所述交互操作所作用的像素点的显示位置。

在另一种可选的实现方式中，所述第二显示模块，用于：

获取所述交互操作对应的权重，所述权重用于表示所述交互操作对所述像素点的显示位置偏移的影响程度；

基于所述权重，对所述调整参数进行加权，基于加权后的所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置。

在另一种可选的实现方式中，所述装置还包括：

第一对象确定模块，用于响应于作用在所述第一图像上的交互操作，确定所述第一图像中所述交互操作所作用的第一对象；

音频确定模块，用于从对象与音频数据的对应关系中，获取所述第一对象对应的音频数据；

音频播放模块，用于播放所述第一对象对应的音频数据。

在另一种可选的实现方式中，所述第一对象确定模块，用于：

响应于作用在所述第一图像上的所述交互操作确定所述第一图像的至少一个第一像素区域，每个所述第一像素区域包含一个对象；

从所述至少一个第一像素区域中，确定所述交互操作所作用在的第一目标区域；

将所述第一目标区域中的对象确定为所述第一对象。

在另一种可选的实现方式中，所述装置还包括：

像素跟踪模块，用于基于所述至少一个第一像素区域内的像素点和所述像素点调整后的显示位置，确定所述第二图像的至少一个第二像素区域，一个第二像素区域与一个第一像素区域对应，所述第二像素区域中的像素点的原显示位置在对应的第一像素区域内；

所述第一对象确定模块，还用于响应于作用在所述第二图像上的交互操作，从所述至少一个第二像素区域中确定所述交互操作所作用在的第二目标区域；将所述第二目标区域中的对象确定为第二对象；

所述音频播放模块，还用于播放所述第二对象对应的音频数据。

在另一种可选的实现方式中，所述音频播放模块，用于：

获取所述交互操作的作用力度对应的播放音量；

基于所述播放音量，播放所述第一对象对应的音频数据。

在另一种可选的实现方式中，所述装置还包括：

第二对象确定模块，用于确定所述视频中的主体对象；

音频提取模块，用于从所述视频中存在所述主体对象的视频片段中，提取所述主体对象的音频数据；

关系生成模块，用于生成所述主体对象与所述主体对象的音频数据的对应关系。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可选的实现方式所述的视频处理方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可选的实现方式所述的视频处理方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述任一种可选的实现方式所述的视频处理方法。

本申请实施例提供的技术方案，由于位移参数能够表示第一图像与第二图像之间像素点变化的位移，且在交互操作作用在视频的第一图像上的情况下，该交互操作能够对像素点变化的位移产生影响，因此结合位移参数和调整参数对第一图像的像素点的显示位置进行调整，能够将交互操作的作用效果呈现于在第一图像之后显示的第二图像上，从而使视频呈现出与交互操作匹配度更高的动态效果，实现对用户与正在播放的视频的交互支持，增强了视频的交互性，提高了视频播放过程中的视觉效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频处理方法的流程图；

图3是本申请实施例提供的一种视频处理方法的流程图；

图4是本申请实施例提供的一种视频交互播放的流程图；

图5是本申请实施例提供的一种视频处理装置的框图；

图6是本申请实施例提供的一种终端的框图；

图7是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

相关技术中，计算机设备在屏幕上播放视频，在视频播放过程中，计算机设备并不支持用户与正在播放的视频进行交互，计算机设备的视频播放性能不能满足交互需求，视频播放过程中的体验方式较为单一。

为了方便理解，下面对本申请实施例中涉及的名词进行解释说明。

光流估计：光流用于表示图像中各个像素点的瞬时移位，是依据视频中帧与帧之间各像素点的相关性得到的。对于时序相邻的两帧图像I(t-1)和I(t)，I(t-1)上每个像素点移位之后，各像素点的位置与I(t)一致。通过光流估计一方面能够得知对象在下一时刻的位置，从而利用光流来提升视频中目标追踪的速度和准确性，在视频播放的过程中达到快速追踪对象的效果。通过光流估计另一方面能够预测当前帧中的像素点向下一帧的运动趋势。

语义分割：语义分割从像素级别来理解图像，将图像中的像素点划分为多个类别。例如，图像包括摩托车和骑摩托车的人，通过语义分割，将描绘骑摩托车的人的像素点划分为同一类，将描绘摩托车的像素点划分为另一类。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，在一种可选的实现方式中，该实施环境包括终端101，本申请实施例提供的视频处理方法由终端101执行。可选地，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、VR(Virtual Reality，虚拟现实)设备等，但并不局限于此。可选地，终端101上设有支持视频交互播放的应用程序，例如，该应用程序为视频播放类应用程序、浏览器等。

在另一种可选的实现方式中，该实施环境包括终端101和服务器102，本申请实施例提供的视频处理方法通过终端101和服务器102之间的交互来实施。可选地，服务器102是独立的物理服务器；或者，服务器102是多个物理服务器构成的服务器集群或者分布式系统；或者，服务器102是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器102以及终端101通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选地，本申请实施例提供的技术方案由终端作为执行主体来实施；或者本申请实施例提供的技术方案由服务器作为执行主体来实施；或者，本申请实施例提供的技术方案通过终端和服务器之间的交互来实施，本申请对此不加以限定。在本申请实施例中，以技术方案的执行主体是终端为例进行说明。

图2是本申请实施例提供的一种视频处理方法的流程图。参见图2，在本申请实施例中，以终端是执行主体为例进行说明，该实施例包括：

201、终端响应于作用在第一图像上的交互操作，获取该交互操作对应的调整参数，该调整参数指示基于交互操作对第一图像中像素点的显示位置的调整幅度，该第一图像为所播放的视频中当前显示的图像。

一个视频由多帧静态的图像组成，多帧图像按照第一帧率快速连续地显示在终端上，达到动态的视频效果。其中，第一帧率为任一帧率。

终端获取交互操作对应的调整参数，基于调整参数对第一图像中像素点的显示位置进行调整，将交互操作的作用效果呈现在下一帧图像中，即呈现于在第一图像之后显示的第二图像中。

在终端为智能手机、平板电脑、笔记本电脑、台式计算机或者智能电视等设备的情况下，用户通过触摸终端的显示屏触发对第一图像的交互操作，或者通过鼠标、键盘在显示屏上进行操作，触发对第一图像的交互操作。终端在显示视频中的第一图像的过程中，检测到作用在第一图像上的交互操作，则获取该交互操作对应的调整参数。

在终端为VR设备的情况下，用户穿戴VR设备中的手部操作感应装置，通过手部操作感应装置与视频进行交互。VR设备在显示视频中的一帧图像的过程中，通过手部操作感应装置检测到交互操作，则获取该交互操作对应的调整参数。

202、终端获取图像的像素点的位移参数，该位移参数表示像素点在该第一图像与第二图像之间的位移，该第二图像为在第一图像之后显示的图像。

视频中相邻两帧图像之间的像素点具有相关性，帧与帧之间像素点的移位在视觉效果上表现为视频画面中物体的运动。同一像素点从第N帧图像向第N+1帧图像的运动表现为光流，其中，N为正整数，第N帧图像可称为第一图像，第N+1帧图像可称为第二图像。视频中原相邻两帧图像之间的像素点的瞬时移位由光流估计参数来表示，即视频中原相邻两帧图像之间的像素点的瞬时位移由位移参数来表示。

203、终端基于调整参数和位移参数，调整第一图像中像素点的显示位置。

位移参数表示像素点在一帧图像与该帧图像的下一帧图像之间的原位移，也即是位移参数表示像素点在第一图像与第二图像之间的位移，以位移参数为基础，对像素点的位置进行偏移，能够表现出像素点原始的位移变化。然后再结合调整参数，对像素点的位置再次进行偏移，能够在像素点原位移变化的基础上叠加交互操作造成的位移变化，实现对像素点的显示位置的调整。

204、终端基于像素点调整后的显示位置，显示第二图像。

基于像素点调整后的显示位置显示的第二图像，能够呈现出交互操作的作用效果，从而实现视频的交互式播放。

图3是本申请实施例提供的一种视频处理方法的流程图。参见图3，在本申请实施例中，以终端进行视频的交互播放为例进行说明，也即是，终端通过在视频中叠加交互操作的作用效果，对用户的交互操作做出反馈，实现视频的交互播放。该实施例包括：

301、终端显示所播放的视频中的第一图像。

多帧图像依次快速连续的进行显示形成视频。终端进行视频播放的过程拆解开来是终端依次显示多帧图像的过程。终端对视频的播放和处理也即是对视频中图像的显示和处理。

需要说明的是，终端支持任意视频类型的视频进行交互播放。在一种可选的实现方式中，终端默认对视频进行交互播放。

在另一种可选的实现方式中，终端在交互播放模式处于开启状态的情况下，对视频进行交互播放。终端提供交互播放模式的启停开关，用户能够通过交互播放模式的启停开关，来控制交互播放模式的开启与关闭。终端响应于交互播放模式的启停开关被开启，确定交互播放模式进入开启状态；终端响应于交互播放模式的启停开关被关闭，确定交互播放模式进入关闭状态。

例如，在终端为智能手机的情况下，用户能够通过终端上的视频播放应用程序观看视频。终端响应于对视频播放应用程序的启动操作，运行视频播放应用程序。用户打开视频播放应用程序后，能够通过视频播放应用程序的应用界面，选择视频进行观看。终端显示视频播放应用程序的应用界面；响应于对应用界面中视频的点击操作，播放该视频。用户打开视频之后，能够根据自身需要打开交互播放模式。例如，视频播放界面上包括交互播放模式的启停开关，终端响应于交互播放模式的启停开关被开启，对该视频进行交互播放。

在终端为VR设备或者智能电视的情况下，用户能够通过语音指令或者手势操作，控制终端进入交互播放模式。在终端为智能电视的情况下，用户也能够通过按下智能电视的遥控器上的交互按键，来控制终端进入交互播放模式。在本申请实施例中，对终端进入交互播放模式的方式，不加以限定。

在实际应用中，终端主要支持目标视频类型的视频进行交互播放。相较于除目标视频类型之外的其他视频类型的视频，用户对目标视频类型的视频具有更高的视频交互需求。例如，目标视频类型包括自然类纪录片、天文类记录片、食物类记录片以及VR类影片等。

终端所播放的视频中当前显示的图像即为第一图像，本申请实施例以第一图像为例，对视频处理过程进行说明。

302、终端响应于作用在该第一图像上的交互操作，获取该交互操作对应的调整参数。

在一个示例中，交互操作为对终端的显示屏的触摸操作，交互操作在终端的显示屏显示该第一图像时作用在该显示屏上。在另一个示例中，交互操作是通过VR设备的手部操作感应装置捕捉到的手部操作，VR设备在显示该图像时通过手部操作感应装置捕捉到作用在该图像上的交互操作。

上述调整参数用于对该第一图像中像素点的显示位置进行调整，以使交互操作的作用效果呈现在在该第一图像之后显示的第二图像中。调整参数是具有大小和方向的矢量，指示像素点的显示位置所调整的位移幅度。调整参数包括用于调整像素点的显示位置的偏移距离和偏移方向。也即是该调整参数指示基于交互操作对第一图像中像素点的显示位置的调整幅度，该调整幅度是指在像素点的原位移的基础上对像素点的显示位置进行调整的幅度。

在一种可选的实现方式中，终端获取与交互操作的作用力度相匹配的调整参数，以按照作用力度来表现交互操作的作用效果。相应的，终端响应于作用在该第一图像上的交互操作，获取该交互操作对应的调整参数通过以下步骤3021至步骤3022实现。

3021、终端响应于作用在该第一图像上的交互操作，获取该交互操作的作用力度。

例如，终端的显示屏的下层设有压力传感器。终端通过压力传感器识别出交互操作的作用力度。

3022、终端基于该交互操作的作用力度，确定与该作用力度匹配的调整参数。

其中，作用力度与调整参数呈正相关，作用力度越大，调整参数也越大。

在一种可选的实现方式中，终端依据最大作用力度与最大调整参数的对应关系，确定与当前的作用力度相对应的调整参数，其中最大作用力可称为参考作用力，最大调整参数可称为参考调整参数。相应的，上述步骤3022包括：终端基于参考作用力度、参考作用力度对应的参考调整参数、交互操作的作用力度，确定调整参数；其中，调整参数与参考调整参数呈正相关，调整参数与参考作用力度呈负相关，调整参数与交互操作的作用力度呈正相关。调整参数为具有方向的矢量，调整参数的方向与交互操作的作用力的方向一致。

上述过程也即是终端通过以下公式一确定调整参数的过程。

公式一：

其中，ΔW _i表示作用在第i帧图像上的交互操作的作用力度对应的调整参数，ΔW _i为具有方向的矢量，ΔW _i的模为非负数，i为正整数。ΔW表示参考作用力度对应的参考调整参数，ΔW为标量，ΔW为非负数。F _i表示作用在第i帧图像上的交互操作的作用力度，F _i为具有方向的矢量，F _i的模为非负数。F _m表示参考作用力度，F _m为标量，F _m为非负数。

例如，参考作用力度为1N(力的计量单位：牛顿)，参考调整参数为10mm(毫米)，若交互操作的作用力度为0.2N，则与该作用力度匹配的调整参数的模为2mm。

在另一种可选的实现方式中，终端基于单位作用力度对应的参考调整参数以及交互操作的作用力度，确定出交互操作的作用力度对应的调整参数。相应的，终端基于交互操作的作用力度，确定与作用力度匹配的调整参数的步骤包括：终端获取单位作用力度对应的参考位移；将交互操作的作用力度与单位作用力度的比值确定为参考数量；将参考数量与参考调整参数的乘积确定为该调整参数的模，将交互操作的作用力的方向确定为该调整参数的方向。

例如，单位作用力度为0.1N，该单位作用力度对应的参考调整参数为1mm，在交互操作的作用力度为0.2N的情况下，与该作用力度匹配的调整参数的模为2mm。

上述技术方案，通过识别交互操作的作用力度，确定出与该作用力度匹配的调整参数，对第一图像中像素点的显示位置进行调整，能够使得像素点调整后呈现出的作用效果与交互操作的作用力度相对应，从而呈现出更加真实的交互效果，提升视频交互的真实体感，使得视频播放性能能够满足更加丰富的交互需求，进一步扩展视频播放过程中的体验方式。

在另一种可选的实现方式中，终端将用户执行交互操作时手部移动的位移确定为调整参数。相应的，终端响应于作用在该第一图像上的交互操作，获取该交互操作对应的调整参数的步骤包括：终端响应于作用在该第一图像上的交互操作，获取该交互操作作用在该第一图像上的起始位置点，以及获取该交互操作作用在该第一图像上的终止位置点；将起始位置点指向终止位置点的位移确定为调整参数。

需要说明的是，为保证交互操作的作用效果能够呈现在第二图像中，且第二图像能够按照第一帧率进行显示。终端确定开始显示第一图像的时间点与检测到交互操作的时间点之间的第一时长，在该第一时长与目标时长之和不大于两帧图像的显示间隔的情况下，终端在该交互操作作用在该第一图像上的时长达到目标时长时，将该交互操作作用在该第一图像上的位置点确定为终止位置点；或者，终端在该第一时长与目标时长之和大于两帧图像的显示间隔的情况下，将最后显示第一图像时该交互操作作用在第一图像上的位置点确定为终止位置点，进而确定调整参数，按照调整参数对像素点的显示位置进行调整。其中，目标时长表示用户在执行交互操作时，该交互操作在第一图像上所作用的有效时长，该目标时长为任一不大于两帧图像的时间间隔的时长。

例如，第一帧率为每秒30帧，两帧图像的显示间隔为0.033秒，目标时长为0.02秒，终端在第一图像的显示时长达到0.01秒时触发交互操作的情况下，在该交互操作作用在该第一图像上的时长达到0.02秒时，将该交互操作作用在第一图像上的位置点确定为终止位置点；或者，在第一图像的显示时长达到0.02秒时触发交互操作的情况下，在该交互操作作用在该第一图像上的时长达到0.012秒时，将该交互操作作用在第一图像上的位置点确定为终止位置点。

需要说明的是，终端为智能手机、平板电脑、笔记本电脑、台式计算机或者智能电视等，终端的显示屏能够检测到交互操作作用在的位置点。可选地，终端的显示屏为电阻式触摸屏、电容式触摸屏、红外线式触摸屏或者表面声波式触摸屏等，终端的显示屏的类型不同，检测交互操作作用在的位置点的原理不同。在本申请实施例中，对终端的显示屏检测交互操作作用在的位置点的原理，不加以限定。

303、终端获取该第一图像的像素点的位移参数。

其中，位移参数也可称为光流估计参数，该位移参数表示第一图像的像素点在第一图像与第二图像之间的位移，该第二图像为在该第一图像之后显示的图像。

在一种可选的实现方式中，终端通过光流估计模型预测该第一图像的像素点的位移参数。上述步骤303包括：终端将该第一图像输入到光流估计模型中，得到该第一图像的像素点的位移参数。

其中，光流估计模型用于预测当前帧图像的像素点向下一帧图像运动的位移。可选地，光流估计模型为通过FlowNet(光流神经网络)训练得到的预测模型。在光流估计模型的训练过程中，通过光流神经网络对多对训练图像进行光流估计；基于光流神经网络输出的位移参数以及真实的位移参数，对光流神经网络的网络参数进行更新，以使光流神经网络输出的位移参数尽可能接近真实的光流估计参数。

上述技术方案，通过光流估计模型来预测一帧图像的像素点的位移参数，光流估计模型能够用于对任意格式的视频中的图像的位移参数进行预测，从而能够支持任意视频的交互播放，扩展了视频交互播放的应用范围。

在另一种可选的实现方式中，视频的编码数据包括视频中图像的像素点的位移参数，即编码数据包括编码后的位移参数，终端能够对视频的编码数据进行解码，得到图像的像素点的位移参数。该位移参数是在视频的编码过程中预先确定出并编码到视频的编码数据中的，其中，该位移参数是用于进行视频编码的计算机设备预先根据相邻两帧图像的像素点的位移变化确定出的。

上述技术方案，通过在视频的编码数据中预先编码图像中像素点的位移参数，在视频播放过程中，能够从视频的编码数据中直接解码出像素点的位移参数，进而基于直接解码出的位移参数，进行视频处理，能够提高视频处理的效率。

需要说明的是，图像中像素点的位移参数也可以通过其他光流估计算法计算得到。例如，Lucas–Kanade(一种两帧差分的光流估计算法)算法、Horn–Schunck(一种估计图像的稠密光流场的光流估计算法)算法等光流估计算法。在本申请实施例中，对位移参数的获取方式，不加以限定。

需要说明的另一点是，在本申请实施例中，以先获取调整参数，再获取位移参数为例进行说明，而在一些实施例中，上述终端获取调整参数的步骤以及终端获取位移参数的步骤还能够按照其他时序进行。可选地，终端同时获取调整参数和位移参数；或者，终端先获取位移参数，再获取调整参数，本申请实施例对此不加以限定。

304、终端基于调整参数和位移参数，调整第一图像中像素点的显示位置，基于像素点调整后的显示位置，显示第二图像。

终端将交互操作的作用效果叠加在交互操作所作用的操作区域上。终端响应于像素点为交互操作所作用的像素点，基于调整参数和位移参数，将该像素点从原显示位置偏移至目标显示位置；以及，终端响应于像素点为交互操作未作用的像素点，基于位移参数，将该像素点从原显示位置偏移至目标显示位置，以显示目标图像。其中，目标图像即为在第一图像之后显示的图像，该目标图像可称为第二图像。也即是，终端基于调整参数和位移参数，调整交互操作所作用的像素点的显示位置；终端基于位移参数，调整交互操作未作用的像素点的显示位置，然后基于调整后像素点的显示位置，显示第二图像。其中，终端通过调整像素点的显示位置，将像素点从原显示位置偏移至目标显示位置，该原显示位置即为像素点在第一图像中的显示位置，该目标显示位置即为调整后像素点在第二图像中的显示位置。

例如，对于自然类记录片中以动物为主体对象的动物类纪录片，在交互操作作用在动物皮毛的区域上的情况下，基于上述过程，对交互操作所作用的像素点进行偏移，能够在第二图像中呈现出动物皮毛的形变，产生对动物皮毛的拂动效果。对于自然类记录片中以自然景观为主体对象的自然景观类纪录片，在交互操作作用在河流的区域上的情况下，交互操作的作用方向与河流流向相同，基于上述过程，对交互操作所作用的像素点进行偏移，能够在第二图像中呈现出加速水的流动的作用效果。在交互操作作用在雪地的区域上的情况下，基于上述过程，对交互操作所作用的像素点进行偏移，能够在第二图像中呈现出雪的变化效果。

上述技术方案，通过结合交互操作对应的调整参数，进行像素点的偏移，将交互操作的作用效果叠加在了交互操作所作用在的操作区域上，从而在第二图像中突显出交互操作的作用效果，通过视频画面上的形变对用户的交互操作做出反馈，丰富了视频的交互效果，实现了视频的交互播放，扩展了视频播放过程中的体验方式。

并且，基于位移参数对图像中的像素点进行偏移处理，充分利用了视频播放的先验知识，减少了复杂的视频理解和计算，视频处理的计算量较小且易于部署，进而能够提高视频处理的效率，扩展视频交互播放的应用范围。

可选地，上述基于调整参数和位移参数，将像素点从原显示位置偏移至目标显示位置的步骤包括：终端响应于像素点为交互操作所作用的像素点，基于调整参数和位移参数，确定目标偏移参数；终端基于目标偏移参数所指示的偏移距离和偏移方向，将像素点从原显示位置偏移至目标显示位置，也即是终端基于目标偏移参数所指示的偏移距离和偏移方向，调整第一图像中交互操作所作用的像素点的显示位置。可选地，终端基于三角形定则、平行四边形定则或者坐标系解法等向量求和方法，将调整参数与位移参数相加，得到目标偏移参数。

上述技术方案，先基于调整参数和位移参数，确定目标偏移参数，从而能够基于目标偏移参数，一次将像素点从原显示位置偏移至目标显示位置，提高了像素点的偏移效率，进而能够提高视频处理的效率。

需要说明的一点是，终端也可以先基于位移参数，将像素点从原显示位置偏移至中间显示位置；再基于调整参数，将像素点从中间显示位置偏移至目标显示位置，也即是终端先基于位移参数，调整第一图像中像素点的显示位置，再基于调整参数，在已调整的基础上，再次调整交互操作所作用的像素点的显示位置。在本申请实施例中，对像素点从原显示位置偏移至目标显示位置的过程，不加以限定。

需要说明的另一点是，叠加交互操作的作用效果是视频播放过程中的辅助功能，目的是为了丰富用户的视频观看体验，在叠加交互操作的作用效果的同时，仍应保持视频中的对象原有的运动趋势。例如，视频中的动物的运动趋势为向前行走，对动物皮毛的交互操作不应影响到该动物向前行走的运动趋势。在本申请实施例中，通过赋予交互操作一定的权重，使交互操作的作用效果不影响视频中对象原有的运动趋势。相应的，终端基于调整参数和位移参数，将像素点从原显示位置偏移至目标显示位置，以显示第二图像的步骤包括：终端获取交互操作对应的权重，该权重表示交互操作对像素点的显示位置偏移的影响程度；终端基于权重，对调整参数进行加权，基于加权后的调整参数和位移参数，将像素点从原显示位置偏移至目标显示位置，以显示第二图像，也即是，基于权重对调整参数进行加权，基于加权后的调整参数和位移参数，调整第一图像中像素点的位置。其中，权重也可称为影响权重。

上述终端基于权重、调整参数和位移参数，调整第一图像中像素点，以显示第二图像的过程基于以下公式二实现：

公式二：Image _i+1＝Image _i+Flow _i+λ×ΔW _i

其中，Image _i+1表示第i帧图像对应的第i+1帧图像，i为正整数。Image _i表示第i帧图像，该第i帧图像为交互操作所作用的图像。Flow _i表示第i帧图像的位移参数，Flow _i为具有方向的矢量，Flow _i的模为非负数。λ表示权重，λ为大于0，并且，小于或等于1的任一数值。ΔW _i表示作用在第i帧图像上的交互操作的作用力度对应的调整参数，ΔW _i为具有方向的矢量，ΔW _i的模为非负数。上述公式二表示：对于第i帧图像中交互操作所作用的像素点，基于权重，对交互操作对应的调整参数进行加权；对加权后的调整参数以及位移参数求和，基于求和结果，将像素点从原显示位置偏移至目标显示位置，显示第二图像。

上述技术方案，通过赋予交互操作对应的调整参数一定的权重，使得交互操作的作用效果的叠加不影响视频中的对象原有的运动趋势，视频能够按照原有进度正常播放，在保证用户的视频观看体验的基础上，进一步丰富了交互效果。

需要说明的另一点是，终端在未检测到作用于第一图像上的交互操作的情况下，不获取交互操作对应的调整参数，直接显示第二图像即可。

需要说明的另一点是，终端除了将交互操作的作用效果叠加在之后显示的图像上，在视觉方面提升视频的交互体验之外，还通过以下步骤305至步骤307，播放交互操作所作用的对象的音频数据，进行相应的声音反馈，进一步丰富视频的交互效果。

305、终端响应于作用在该第一图像上的交互操作，确定第一图像中该交互操作所作用的第一对象。

第一图像中存在至少一个对象。例如，第一图像为自然类记录片所包括的图像，则第一图像中存在动物、树木、河流、草地等对象。其中，第一图像中的每个对象占用该第一图像中的一块区域进行呈现。

可选地，终端基于语义分割来确定交互操作所作用的第一对象。相应的，上述步骤305包括：终端响应于作用在第一图像上的交互操作，对第一图像进行语义分割，得到至少一个第一像素区域，也即是，终端响应于作用在第一图像上的交互操作，确定第一图像的至少一个第一像素区域，每个第一像素区域包含一个对象；终端从至少一个第一像素区域中，确定交互操作所作用在的第一目标区域；终端将第一目标区域中的对象确定为第一对象。其中，对第一图像进行语义分割是指识别第一图像中的对象，并按照识别出的对象，将第一图像划分为至少一个第一像素区域，使每个第一像素区域中包含一个对象。

其中，每个第一像素区域用于表示第一图像中的一个对象。例如，第一图像包括狮子、草地和河流，则对该第一图像进行语义分割得到用于表示狮子的第一像素区域、用于表示草地的第一像素区域以及用于表示河流的第一像素区域。在交互操作作用在用于表示狮子的第一像素区域中的情况下，交互操作所作用的第一对象为狮子。

上述技术方案，通过语义分割将图像划分为多个用于表示不同对象的区域，每个区域代表第一图像中的一个对象，将交互操作所作用在的区域中的对象确定为交互操作所作用的第一对象，由于语义分割从像素级别进行区域划分，所划分出的区域边框更加精细，从而能够更加准确的确定出交互操作所作用的对象，进而能够使得所播放的音频数据与交互操作所作用的对象相匹配，使得音频数据的播放更加符合真实场景，进一步提升视频的交互体验。

需要说明的一点是，终端能够通过图像分割模型，对第一图像进行语义分割，得到至少一个第一像素区域。在一个示例中，图像分割模型的网络结构以CNN(Convolutional Neural Networks，卷积神经网络)为基础。图像分割模型为编码器-解码器的架构。图像分割模型的编码器通过卷积层捕捉第一图像中的局部特征，并以层级的方式将多个用于捕捉第一图像的局部特征的模块嵌套在一起，从而提取第一图像的复杂特征，将第一图像的内容编码为紧凑表征，即编码器通过对第一图像进行编码，得到特征图，该特征图的尺寸小于第一图像的尺寸，且该特征图能够表示每个像素点所属的类别标签，然后将特征图输入至图像分割模型的解码器，通过解码器中的转置卷积执行上采样，从而将特征图扩展到与第一图像相同的尺寸，生成用于表示第一图像中各像素点的类别标签的数组，由类别标签相同的多个像素点组成第一像素区域。

需要说明的另一点是，由于视频中相邻多帧图像之间存在相关性，多帧图像所包括的对象相同，同一对象在多帧图像中的位置存在差异。因此，在对一帧图像进行语义分割之后，能够基于光流估计，对同一像素区域内的像素点进行追踪，从而通过像素点的追踪在下一帧图像中确定用于表示不同对象的像素区域。

因此，终端响应于作用在第一图像上的交互操作，对第一图像进行语义分割，得到至少一个第一像素区域之后，通过以下步骤在交互操作作用在第二图像上时，确定交互操作在第二图像中所作用的对象，播放该对象对应的音频数据，包括：终端基于原显示位置在第一像素区域内的像素点在第二图像中的目标显示位置，确定第二图像的第二像素区域，其中，第二像素区域中的像素点的原显示位置在第一像素区域内，也即是，终端基于至少一个第一像素区域内的像素点和像素点调整后的显示位置，确定第二图像的至少一个第二像素区域，该一个第二像素区域与一个第一像素区域对应，第二像素区域中的像素点的原显示位置在对应的第一像素区域内；终端响应于作用在第二图像上的交互操作，从至少一个第二像素区域中确定交互操作所作用在的第二目标区域；终端将第二目标区域中的对象确定为第二对象，播放第二对象对应的音频数据。

上述技术方案，通过语义分割确定一帧图像的多个用于表示不同对象的像素区域之后，能够基于光流估计，对像素点进行追踪，以得到该帧图像之后的一帧或者多帧图像中的多个像素区域，不需要对每帧图像进行语义分割，就能得到图像中的多个像素区域，节省了多次语义分割所消耗的时间，提高了确定交互操作所作用的对象的效率，进而能够提高声音反馈的效率，进一步提升视频交互体验。

需要说明的另一点是，终端也可以通过目标检测、分类定位或者实例分割等方法确定交互操作所作用的对象，在本申请实施例中，对确定交互操作所作用的对象的过程，不加以限定。

306、终端从对象与音频数据的对应关系中，确定第一对象对应的音频数据。

在一种可选的实现方式中，视频的编码数据包括对象与音频数据的对应关系，终端能够对视频的编码数据进行解码，得到对象与音频数据的对象关系；从对象与音频数据的对应关系中，确定第一对象的音频数据。

在另一种可选的实现方式中，服务器存储有对象与音频数据的对应关系，终端能够向服务器发送音频数据获取请求，该音频数据获取请求用于请求获取第一对象对应的音频数据；服务器接收终端的音频数据获取请求；从已存储的对象与音频数据的对应关系中，确定第一对象对应的音频数据；向终端返回该音频数据；终端接收服务器返回的音频数据。可选地，服务器在音频数据库中存储对象与音频数据的对应关系。

需要说明的一点是，用于进行视频编码的计算机设备将对象与音频数据的对应关系编码到编码数据中之前，或者服务器从已存储的对象与音频数据的对应关系中，确定第一对象对应的音频数据之前，还生成对象与音频数据的对应关系。在本申请实施例中，以服务器生成对象与音频数据的对应关系为例进行说明。用于进行视频编码的计算机设备生成对象与音频数据的对应关系的过程与服务器生成对象与音频数据的对应关系的过程同理。

其中，服务器生成对象与音频数据的对应关系的步骤包括以下步骤1至步骤3：

步骤1、服务器确定视频中的主体对象。

主体对象为视频中重点呈现的对象。例如，在自然类记录片中，主体对象为森林、动物、河流等；在天文类记录片中，主体对象为宇宙中的星体、气体等；在食物类纪录片中，主体对象为各种食材。

可选地，服务器对视频中的图像进行语义分割，确定图像中的对象；将视频划分为多个视频片段；确定每个对象在视频片段中的出现频次；将每个对象在视频片段中的出现频次与该视频片段中各个对象的出现频次之和的比值，确定为每个对象的出现比重；将出现比重大于参考阈值的对象确定为主体对象。其中，服务器按照固定时长将视频划分为多个视频片段，例如，视频的总时长为1小时，服务器每5分钟截取一个视频片段。参考阈值为预设的大于0小于1的阈值，例如，参考阈值为0.8、0.9等。

步骤2、服务器获取主体对象的音频数据。

在一种可选的实现方式中，服务器从视频中存在主体对象的视频片段中，提取主体对象的音频数据。例如，对于动物类记录片，在动物类记录片中包括狮子的情况下，服务器从狮子出现的视频片段中，对狮子的音频数据进行提取。

需要说明的一点是，在主体对象为森林或者动物的情况下，在提取主体对象的音频数据的过程中，需要先过滤掉人声影响较大的视频片段，确定出主体对象的音频数据较为单纯的视频片段进行音频提取。例如，自然类记录片的音频数据中通常包括旁白，存在旁白的视频片段为人声影响较大的视频片段，不存在旁白的视频片段为主体对象的音频数据较为单纯的视频片段。在视频片段中不存在音频数据较为单纯的视频片段的情况下，服务器能够对存在人声的视频片段进行人声的降噪过滤，提取出主体对象的音频数据。

在另一种可选的实现方式中，服务器从包括该主体对象的其他音频数据源中获取主体对象的音频数据。例如，对于自然景观类记录片或者天文类记录片，主体对象为山、星空等，主体对象是静止目标，主体对象所在的视频中该主体对象的音频数据较少，需要通过其他音频数据源进行音频数据的补充。在主体对象为石山的情况下，从其他音频数据源中获取触摸石头的音频数据。在主体对象为星空的情况下，从音频数据源中获取风铃的音频数据。再如，对于动物类视频，通过其他音频数据源获取动物毛发的摩擦声。

需要说明的一点是，可选地，服务器获取主体对象的音频数据之前，按照视频类型，对需要增加视频交互播放功能的多个视频进行分类，例如，将多个视频分为不易提取主体对象的音频数据的自然景观类视频，以及主体对象的音频数据较为丰富的动物类视频。对于自然景观类视频，从其他音频数据源中提取音频数据。对于动物类视频，从视频中存在主体对象的视频片段中，提取主体对象的音频数据。

步骤3、服务器生成主体对象与主体对象的音频数据的对应关系。

服务器获取到主体对象的音频数据后，生成主体对象与主体对象的音频数据的对应关系。后续终端在播放视频的过程中，能够从服务器获取相应的音频数据进行播放，丰富视频交互播放过程的视听体验。可选地，服务器将主体对象与主体对象的音频数据的对应关系存储于音频数据库中。

307、终端播放第一对象对应的音频数据。

终端对第一对象对应的音频数据进行播放。可选地，终端在播放视频原有的音频数据的同时，播放第一对象对应的音频数据。可选地，终端播放第一对象对应的音频数据的音量大于播放视频原有的音频数据的音量，以突出交互操作所产生的声音反馈效果。

本申请实施例提供的技术方案，一方面，将交互操作的作用效果呈现在第二图像上，在视觉上表现出对交互操作的反馈，另一方面，通过播放交互操作所作用的对象的音频数据，表现出对交互操作的声音反馈，从而从视觉和听觉两个方面，在视频播放过程中，对用户的交互操作做出反馈，能够实现视频的交互播放，提升视频交互播放过程中的视听效果。

需要说明的一点是，可选地，终端还结合交互操作的作用力度，实现不同音量的声音反馈。相应的，上述步骤307包括：终端获取交互操作的作用力度对应的播放音量；终端基于播放音量，播放第一对象对应的音频数据。其中，作用力度与播放音量呈正相关，作用力度越大，播放音量越大。

可选地，终端基于音量转换参数和作用力度，确定作用力度对应的播放音量。例如，作用力度为0.1N，音量转换参数为400，播放音量为40。或者，终端存储有作用力度与播放音量的对应关系，基于该对应关系确定播放音量。或者，终端通过向服务器发送音量转换请求，请求服务器返回作用力度对应的播放音量。在本申请实施例中，对终端获取交互操作的作用力度对应的播放音量的过程，不加以限定。

上述技术方案，能够按照交互操作的作用力度，实现不同音量的声音反馈，从而进一步提升视频交互播放的视听效果，丰富视频的交互体验。

需要说明的一点是，在本申请实施例中，以终端按照顺序执行步骤302至步骤307为例进行说明。在一些实施例中，终端还能够按照其他时序执行步骤302至步骤307。可选地，终端同时执行步骤302至步骤304以及步骤305至步骤307；或者，终端先执行步骤305至步骤307，再执行步骤302至步骤304，本申请实施例对此不加以限定。可选地，终端显示第二图像的同时，播放第一对象对应的音频数据，以使交互操作产生的视觉效果和声音效果同步产生，增强用户体感，进一步提升视听效果。

为了使视频交互播放的过程更加清晰，下面结合图4进行说明，参见图4，视频交互播放的过程开始之前，还包括步骤401、执行视频中主体对象的提取以及音频数据库的建立。其中，步骤401可以通过步骤306中生成对象与音频数据的对应关系的步骤1至步骤3实现。视频交互播放的过程包括：402、视频播放，观看者打开交互播放模式，终端通过上述步骤301显示视频中的第一图像；403、观看者触摸交互；404、基于光流估计的交互算法，终端通过上述步骤302至步骤304基于光流估计显示第二图像，呈现触摸交互的作用效果；405、声音反馈，终端通过上述步骤305至步骤307播放观看者交互操作所作用的对象的音频数据，实现声音反馈；406、最终交互播放，终端在显示第二图像的同时，播放交互操作所作用的对象的音频数据，实现最终的交互播放。

需要说明的另一点是，终端通过上述步骤302至步骤304呈现交互操作造成的视觉效果即可，终端可以不执行步骤305至步骤307，增加交互操作造成的声音效果。

需要说明的另一点是，上述实施例以终端进行视频的交互播放为例进行说明。可选地，视频的交互播放通过终端与服务器之间的交互实现。例如，显示视频中的第一图像；响应于作用在该第一图像上的交互操作，向服务器发送视频处理请求，以请求服务器确定第二图像；终端接收服务器返回的第二图像，显示第二图像。服务器确定第二图像的过程与终端确定第二图像的过程同理。可选地，视频处理请求还用于请求服务器确定交互操作对应的音频数据，终端接收服务器返回的音频数据，播放该音频数据。服务器确定交互操作对应的音频数据的过程与终端确定交互操作对应的音频数据的过程同理。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种视频处理装置的框图。参见图5，该装置包括：

第一获取模块501，用于响应于作用在第一图像上的交互操作，获取交互操作对应的调整参数，调整参数指示基于交互操作对第一图像中像素点的显示位置的调整幅度，第一图像为所播放的视频中当前显示的图像；

第二获取模块502，用于获取第一图像的像素点的位移参数，位移参数表示像素点在第一图像与第二图像之间的位移，第二图像为在第一图像之后显示的图像；

第二显示模块503，用于基于调整参数和位移参数，调整第一图像中像素点的显示位置；

第二显示模块503，还用于基于像素点调整后的显示位置，显示第二图像。

在一种可选的实现方式中，第一获取模块501，包括：

力度获取单元，用于响应于作用在第一图像上的交互操作，获取交互操作的作用力度；

参数确定单元，用于基于交互操作的作用力度，确定与作用力度匹配的调整参数。

在另一种可选的实现方式中，参数确定单元，用于：

基于参考作用力度、参考作用力度对应的参考调整参数、交互操作的作用力度，确定调整参数；

其中，调整参数与参考调整参数呈正相关，调整参数与参考作用力度呈负相关，调整参数与交互操作的作用力度呈正相关。

在另一种可选的实现方式中，第二获取模块502，用于将第一图像输入到光流估计模型中，得到第一图像的像素点的位移参数；

或者，第二获取模块502，用于对视频的编码数据进行解码，得到第一图像的像素点的位移参数，编码数据包括编码后的位移参数。

在另一种可选的实现方式中，第二显示模块503，包括：

像素点偏移单元，用于基于调整参数和位移参数，调整第一图像中交互操作所作用的像素点的显示位置。

在另一种可选的实现方式中，像素点偏移单元，用于：

基于调整参数和位移参数，确定目标偏移参数；

基于目标偏移参数所指示的偏移距离和偏移方向，调整第一图像中交互操作所作用的像素点的显示位置。

在另一种可选的实现方式中，第二显示模块503，用于：

获取交互操作对应的权重，权重用于表示交互操作对像素点的显示位置偏移的影响程度；

基于权重，对调整参数进行加权，基于加权后的调整参数和位移参数，调整第一图像中像素点的显示位置。

在另一种可选的实现方式中，该装置还包括：

第一对象确定模块，用于响应于作用在第一图像上的交互操作，确定第一图像中交互操作所作用的第一对象；

音频确定模块，用于从对象与音频数据的对应关系中，获取第一对象对应的音频数据；

音频播放模块，用于播放第一对象对应的音频数据。

在另一种可选的实现方式中，第一对象确定模块，用于：

响应于作用在第一图像上的交互操作确定第一图像的至少一个第一像素区域，每个第一像素区域包含一个对象；

从至少一个第一像素区域中，确定交互操作所作用在的第一目标区域；

将第一目标区域中的对象确定为第一对象。

在另一种可选的实现方式中，该装置还包括：

像素跟踪模块，用于基于至少一个第一像素区域内的像素点和像素点调整后的显示位置，确定第二图像的至少一个第二像素区域，一个第二像素区域与一个第一像素区域对应，第二像素区域中的像素点的原显示位置在对应的第一像素区域内；

第一对象确定模块，还用于响应于作用在第二图像上的交互操作，从至少一个第二像素区域中确定交互操作所作用在的第二目标区域；将第二目标区域中的对象确定为第二对象；

音频播放模块，还用于播放第二对象对应的音频数据。

在另一种可选的实现方式中，音频播放模块，用于：

获取交互操作的作用力度对应的播放音量；

基于播放音量，播放第一对象对应的音频数据。

在另一种可选的实现方式中，该装置还包括：

第二对象确定模块，用于确定视频中的主体对象；

音频提取模块，用于从视频中存在主体对象的视频片段中，提取主体对象的音频数据；

关系生成模块，用于生成主体对象与主体对象的音频数据的对应关系。

需要说明的是：上述实施例提供的视频处理装置在进行视频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备可被配置为终端或者服务器。若计算机设备被配置为终端，则由终端作为执行主体来实施本申请实施例提供的技术方案。若计算机设备被配置为服务器，则由服务器作为执行主体来实施本申请实施例提供的技术方案，或者，通过终端和服务器之间的交互来实施本申请实施例提供的技术方案，本申请实施例对比不加以限定。

若计算机设备被配置为终端，图6示出了本申请一个示例性实施例提供的终端600的结构框图。通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器601所执行以实现本申请中方法实施例提供的视频处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、音频电路606中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

音频电路606可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。

在一些实施例中，终端600还包括有一个或多个压力传感器607。压力传感器607可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器607设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器607采集的握持信号进行左右手识别或快捷操作。当压力传感器607设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

若计算机设备被配置为服务器，图7是本申请实施例提供的一种服务器的框图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条程序代码，至少一条程序代码由处理器701加载并执行以实现上述各个方法实施例提供的视频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如下步骤：

基于所述像素点调整后的显示位置，显示所述第二图像。

可选地，该至少一条程序代码由处理器加载并执行，以实现如下步骤：

响应于作用在所述第一图像上的交互操作，获取所述交互操作的作用力度；

基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数。

将所述第一图像输入到光流估计模型中，得到所述第一图像的像素点的位移参数；

对所述视频的编码数据进行解码，得到所述第一图像的像素点的位移参数，所述编码数据包括编码后的所述位移参数。

基于所述调整参数和所述位移参数，调整所述第一图像中所述交互操作所作用的像素点的显示位置。

基于所述调整参数和所述位移参数，确定目标偏移参数；

获取所述交互操作对应的权重，所述权重表示所述交互操作对所述像素点的显示位置偏移的影响程度；

响应于作用在所述第一图像上的交互操作，确定所述第一图像中所述交互操作所作用的第一对象；

从对象与音频数据的对应关系中，获取所述第一对象对应的音频数据；

播放所述第一对象对应的音频数据。

响应于作用在所述第一图像上的所述交互操作，确定所述第一图像的至少一个第一像素区域，每个所述第一像素区域包含一个对象；

将所述第一目标区域中的对象确定为所述第一对象。

基于所述至少一个第一像素区域内的像素点和所述像素点调整后的显示位置，确定所述第二图像的至少一个第二像素区域，一个第二像素区域与一个第一像素区域对应，所述第二像素区域中的像素点的原显示位置在对应的第一像素区域内；

响应于作用在所述第二图像上的交互操作，从所述至少一个第二像素区域中确定所述交互操作所作用在的第二目标区域；

将所述第二目标区域中的对象确定为第二对象，播放所述第二对象对应的音频数据。

获取所述交互操作的作用力度对应的播放音量；

基于所述播放音量，播放所述第一对象对应的音频数据。

确定所述视频中的主体对象；

从所述视频中存在所述主体对象的视频片段中，提取所述主体对象的音频数据；

生成所述主体对象与所述主体对象的音频数据的对应关系。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码可由计算机设备的处理器执行以实现如下步骤：

基于所述像素点调整后的显示位置，显示所述第二图像。

可选地，该至少一条程序代码可由计算机设备的处理器执行以实现如下步骤：

基于所述调整参数和所述位移参数，确定目标偏移参数；

播放所述第一对象对应的音频数据。

将所述第一目标区域中的对象确定为所述第一对象。

获取所述交互操作的作用力度对应的播放音量；

基于所述播放音量，播放所述第一对象对应的音频数据。

确定所述视频中的主体对象；

生成所述主体对象与所述主体对象的音频数据的对应关系。

例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方法实施例中的视频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视频处理方法，由计算机设备执行，所述方法包括：

响应于作用在第一图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数指示基于所述交互操作对所述第一图像中像素点的显示位置的调整幅度，所述第一图像为所播放的视频中当前显示的图像；

获取所述第一图像的像素点的位移参数，所述位移参数表示所述像素点在所述第一图像与第二图像之间的位移，所述第二图像为在所述第一图像之后显示的图像；

基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置；

基于所述像素点调整后的显示位置，显示所述第二图像。
根据权利要求1所述的方法，其中，所述响应于作用在所述第一图像上的交互操作，获取所述交互操作对应的调整参数，包括：

响应于作用在所述第一图像上的交互操作，获取所述交互操作的作用力度；

基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数。
根据权利要求2所述的方法，其中，所述基于所述交互操作的作用力度，确定与所述作用力度匹配的所述调整参数，包括：

基于参考作用力度、所述参考作用力度对应的参考调整参数、所述交互操作的作用力度，确定所述调整参数；

其中，所述调整参数与所述参考调整参数呈正相关，所述调整参数与所述参考作用力度呈负相关，所述调整参数与所述交互操作的作用力度呈正相关。
根据权利要求1所述的方法，其中，所述获取所述第一图像的像素点的位移参数，包括下述任一项：

将所述第一图像输入到光流估计模型中，得到所述第一图像的像素点的位移参数；

对所述视频的编码数据进行解码，得到所述第一图像的像素点的位移参数，所述编码数据包括编码后的所述位移参数。
根据权利要求1所述的方法，其中，所述基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置，包括：

基于所述调整参数和所述位移参数，调整所述第一图像中所述交互操作所作用的像素点的显示位置。
根据权利要求5所述的方法，其中，所述基于所述调整参数和所述位移参数，调整所述第一图像中所述交互操作所作用的像素点的显示位置，包括：

基于所述调整参数和所述位移参数，确定目标偏移参数；

基于所述目标偏移参数所指示的偏移距离和偏移方向，调整所述第一图像中所述交互操作所作用的像素点的显示位置。
根据权利要求1所述的方法，其中，所述基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置，包括：

获取所述交互操作对应的权重，所述权重表示所述交互操作对所述像素点的显示位置偏移的影响程度；

基于所述权重，对所述调整参数进行加权，基于加权后的所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置。
根据权利要求1所述的方法，其中，所述方法还包括：

响应于作用在所述第一图像上的交互操作，确定所述第一图像中所述交互操作所作用的第一对象；

从对象与音频数据的对应关系中，获取所述第一对象对应的音频数据；

播放所述第一对象对应的音频数据。
根据权利要求8所述的方法，其中，所述响应于作用在所述第一图像上的交互操作，确定所述交互操作所作用的第一对象，包括：

响应于作用在所述第一图像上的所述交互操作，确定所述第一图像的至少一个第一像素区域，每个所述第一像素区域包含一个对象；

从所述至少一个第一像素区域中，确定所述交互操作所作用在的第一目标区域；

将所述第一目标区域中的对象确定为所述第一对象。
根据权利要求9所述的方法，其中，所述方法还包括：

基于所述至少一个第一像素区域内的像素点和所述像素点调整后的显示位置，确定所述第二图像的至少一个第二像素区域，一个第二像素区域与一个第一像素区域对应，所述第二像素区域中的像素点的原显示位置在对应的第一像素区域内；

响应于作用在所述第二图像上的交互操作，从所述至少一个第二像素区域中确定所述交互操作所作用在的第二目标区域；

将所述第二目标区域中的对象确定为第二对象，播放所述第二对象对应的音频数据。
根据权利要求8所述的方法，其中，所述播放所述第一对象对应的音频数据，包括：

获取所述交互操作的作用力度对应的播放音量；

基于所述播放音量，播放所述第一对象对应的音频数据。
根据权利要求8所述的方法，其中，所述方法还包括：

确定所述视频中的主体对象；

从所述视频中存在所述主体对象的视频片段中，提取所述主体对象的音频数据；

生成所述主体对象与所述主体对象的音频数据的对应关系。
一种视频处理装置，其特征在于，所述装置包括：

第一获取模块，用于响应于作用在第一图像上的交互操作，获取所述交互操作对应的调整参数，所述调整参数指示基于所述交互操作对所述第一图像中像素点的显示位置的调整幅度，所述第一图像为所播放的视频中当前显示的图像；

第二获取模块，用于获取所述第一图像的像素点的位移参数，所述位移参数表示所述像素点在所述第一图像与第二图像之间的位移，所述第二图像为在所述第一图像之后显示的图像；

第二显示模块，用于基于所述调整参数和所述位移参数，调整所述第一图像中像素点的显示位置；

所述第二显示模块，还用于基于所述像素点调整后的显示位置，显示所述第二图像。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-12任一项所述的视频处理方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-12任一项所述的视频处理方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码由处理器加载并执行，以实现如权利要求1-12任一项所述的视频处理方法。