WO2021213191A1

WO2021213191A1 - 视频处理方法、终端及计算机可读存储介质

Info

Publication number: WO2021213191A1
Application number: PCT/CN2021/086320
Authority: WO
Inventors: 纪德威
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-04-23
Filing date: 2021-04-11
Publication date: 2021-10-28
Also published as: CN112118395B; CN112118395A

Abstract

一种视频处理方法、终端及计算机可读存储介质。该视频处理方法包括：获取视频图像（S100）；获取触发信号（S200）；根据触发信号确定视频图像中与触发信号对应的目标对象（S300）；根据触发信号使目标对象在视频图像中突出显示（S400）。

Description

视频处理方法、终端及计算机可读存储介质

相关申请的交叉引用

本申请基于申请号为202010326754.1、申请日为2020年4月23日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请实施例涉及但不限于信息技术领域，尤其涉及一种视频处理方法、终端及计算机可读存储介质。

背景技术

随着移动网络、智能终端等相关技术的不断发展，视频播客(Video Log，VLOG)已经成为广大用户越来越喜爱的一种社交方式，能否即时分享VLOG已经成为影响用户使用体验的一个重要指标。在相关技术中，在进行视频拍摄时，当需要对特定的物体、建筑或者景点等进行着重介绍时，往往需要通过在后期视频制作过程中添加圈点、箭头等标签或者文字等信息的方式才能进行标注说明。但是，这种后期编辑的方式十分耗时，影响了VLOG这种即时分享的社交方式的使用体验。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

一方面，本申请实施例提供了一种视频处理方法，应用于终端，包括

获取视频图像，获取触发信号，根据触发信号确定视频图像中与触发信号对应的目标对象，以及根据触发信号使目标对象在视频图像中突出显示。

另一方面，本申请实施例还提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上所述的视频处理方法。

再另一方面，本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行如上所述的视频处理方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请一个实施例提供的用于执行视频处理方法的架构平台的示意图；

图2是本申请一个实施例提供的视频处理方法的流程图；

图3是本申请另一实施例提供的视频处理方法的流程图；

图4是本申请另一实施例提供的视频处理方法的流程图；

图5是本申请另一实施例提供的视频处理方法的流程图；

图6是本申请另一实施例提供的视频处理方法的流程图；

图7是本申请一个实施例提供的利用终端执行视频处理方法的示意图；

图8是本申请另一实施例提供的利用终端执行视频处理方法的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请提供了一种视频处理方法、终端及计算机可读存储介质，在获取到视频图像时，会获取触发信号，并且根据触发信号确定视频图像中与触发信号对应的目标对象，接着，根据触发信号使目标对象在视频图像中突出显示，因此，在获取到视频图像时，例如用户在进行视频拍摄而使得终端获取到视频图像时，根据触发信号即可对视频图像中的目标对象进行处理，使得目标对象能够在拍摄视频的过程中即可在视频图像中突出显示，即，使目标对象能够在视频图像中突出显示的操作是随着用户进行视频拍摄时完成的，因此能够节省用户对视频的后期编辑处理，从而可以提高用户的使用体验。

下面结合附图，对本申请实施例作进一步阐述。

如图1所示，图1是本申请一个实施例提供的用于执行视频处理方法的架构平台的示意图。

如图1所示，该架构平台包括存储器110、处理器120、拾音器130、触摸显示屏140、摄像头150和通信模块160。其中，存储器110、拾音器130、触摸显示屏140、摄像头150和通信模块160分别与处理器120电连接。存储器110和处理器120可以通过总线或者其他方式连接，图1中以通过总线连接为例。

其中，拾音器130可以获取用户的语音信号，触摸显示屏140可以获取触碰操作的位置坐标，摄像头150可以获取景物图像，处理器120可以把由摄像头150获取到的景物图像转换成视频图像并显示在触摸显示屏140中，通信模块160可以与基站或者服务器等进行数据交互。

此外，处理器120中构建有语义分析提取模块和触摸屏事件响应模块，其中，语义分析提取模块和触摸屏事件响应模块均能够在后台启动并运行。语义分析提取模块能够对由拾音器130输出的语音信号进行分析处理，并能够提取出语音信号中的关键字信息；触摸屏事件响应模块能够根据用户对触摸显示屏140的操作而输出对应的响应信号，例如，能够识别用户对触摸显示屏140的点击操作并输出与点击位置对应的在触摸显示屏140中的坐标参数，又如，能够识别用户在触摸显示屏140中的触摸滑动并输出与触摸位置对应的在触摸显示屏140中的滑动轨迹参数。

值得注意的是，启动语义分析提取模块的操作可以在打开视频图像或者进行视频拍摄之前执行，也可以在视频播放过程中或者视频拍摄过程中执行，本实施例对此并不作具体限定。此外，启动语义分析提取模块的方式可以通过语音操作进行启动，也可以通过点击功能按键的方式启动，本实施例对此并不作具体限定。

本领域技术人员可以理解的是，该架构平台可以应用于智能手机、平板电脑、摄像机或运动相机等不同的智能终端设备，本实施例对此并不作具体限定。

存储器110作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器110可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器110可选包括相对于处理器120远程设置的存储器，这些远程存储器可以通过网络连接至该架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的架构平台是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着终端技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1中示出的各个模块及器件的结构关系并不构成对本申请实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的架构平台中，各个模块及器件之间可以相互配合以执行视频处理方法。

基于上述架构平台以及上述架构平台中各个模块及器件的结构关系，提出本申请的视频处理方法的各个实施例。

如图2所示，图2是本申请一个实施例提供的视频处理方法的流程图，该视频处理方法包括但不限于步骤S100、步骤S200、步骤S300和步骤S400。

步骤S100，获取视频图像。

在一实施例中，获取视频图像的操作可以有不同的实施方式，例如，视频图像可以通过打开终端的相机功能进行视频拍摄而获得，也可以从服务器中下载获得，还可以通过打开保存在终端的本地视频而获得，本实施例对此并不作具体限定。

本领域技术人员可以理解的是，当视频图像为通过打开终端的相机功能进行视频拍摄而获得时，对应的应用场景可以为直播场景或者一般的视频录制场景等；当视频图像为从服务器中下载获得时，对应的应用场景可以为用户上网浏览视频或者观看网络节目等；当视频图像为通过打开保存在终端的本地视频而获得时，对应的应用场景可以为用户发布本地保存的视频图像前的编辑处理等。

步骤S200，获取触发信号。

在一实施例中，触发信号可以有不同的实施方式。触发信号可以是用户对终端进行直接操作时所产生的信号，例如用户对终端的物理按键的进行操作时所产生的信号，或者用户对终端的触摸显示屏进行操作时所产生的信号；触发信号还可以是用户的语音信号，例如终端中的拾音器获取到的用户的说话声音。

在一实施例中，当获取到触发信号后，可以通过对该触发信号进行分析处理，以便于后续步骤中能够根据该触发信号而对视频图像进行相关的操作处理。

步骤S300，根据触发信号确定视频图像中与触发信号对应的目标对象。

在一实施例中，当获取到触发信号并对该触发信号进行分析处理后，可以根据该触发信号确定视频图像中与该触发信号对应的目标对象，以便于后续步骤中能够对该目标对象进行相关的操作处理。

在一实施例中，当触发信号为用户对终端进行直接操作时所产生的信号，则可以根据该触发信号识别出用户在视频图像中的操作位置，接着根据该操作位置确定视频图像中的目标对象。

下面以具体示例进行说明：

示例一：假设终端为智能手机，当用户利用智能手机的相机功能进行视频拍摄时，用户在触摸显示屏中选择感兴趣的景物，并对该景物在视频图像中所处的位置进行点击，此时，该点击操作所产生的触摸屏事件响应信号即为触发信号，因此，智能手机会根据与该点击操作对应的触摸屏事件响应信号识别出用户在视频图像中的点击位置，接着根据该点击位置确定视频图像中的目标对象。

示例二：假设终端为运动相机，并且该运动相机设置有方向键和确认键，当用户利用方向键进行操作时，运动相机的显示屏可以显示有指针标记，方向键可以改变该指针标记的位置。当用户利用运动相机进行视频拍摄时，用户利用方向键改变指针标记的位置并选择感兴趣的景物，当用户选择好感兴趣的景物并使得指针标记移动到该景物在视频图像中所处的位置后，用户按下确认键，此时，被按下的确认键会产生一个触发信号，因此，运动相机会根据该触发信号识别出指针标记在视频图像中的位置，接着根据指针标记所处的位置确定视频图像中的目标对象。

在一实施例中，当触发信号为用户的语音信号，则可以通过识别出该语音信号所携带的关键字信息，从而根据该关键字信息确定用户在视频图像中所选择的目标对象。

下面以具体示例进行说明：

假设终端为智能手机，当用户开启智能手机的语义分析提取模块并利用智能手机的相机功能进行视频拍摄，智能手机会通过拾音器获取用户的语音信号，并通过语义分析提取模块识别及提取语音信号中所携带的关键字信息，通过对关键字信息的语音分析，获取与关键字信息对应的视频图像中的景物，该景物即为用户感兴趣的目标对象。

步骤S400，根据触发信号使目标对象在视频图像中突出显示。

在一实施例中，根据触发信号使目标对象在视频图像中突出显示，可以有不同的实施方式。例如，可以根据触发信号对目标对象添加圆圈从而使得目标对象能够在视频图像中突出显示；又如，可以根据触发信号对目标对象添加箭头指示从而使得目标对象能够在视频图像中突出显示；又如，可以根据触发信号对目标对象添加方框从而使得目标对象能够在视频图像中突出显示；再如，可以根据触发信号对目标对象添加特效从而使得目标对象能够在视频图像中突出显示，其中的特效包括但不限于发光、放大、改变颜色等，并且特效可以为发光、放大和改变颜色等多种模式中的至少一个。值得注意的是，根据触发信号使目标对象在视频图像中突出显示的具体实施方式，可以根据实际应用情况进行适应的选择，本实施例对此并不作具体限定。

在一实施例中，通过采用包括有步骤S100、步骤S200、步骤S300和步骤S400的视频处理方法，当在获取到视频图像时，例如用户在进行视频拍摄而使得终端获取到视频图像时，可以根据触发信号确定视频图像中与触发信号对应的目标对象，进而可以根据触发信号使目标对象在视频图像中突出显示，使得目标对象能够与视频图像中的其他景物相区别，达到用户对目标对象的着重介绍的目的。由于使目标对象在视频图像中突出显示的操作是随着用户进行视频拍摄时完成的，因此用户不需要对视频图像进行后期编辑即可突出显示视频图像中的目标对象，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

另外，参照图3，在一实施例中，步骤S200中的触发信号包括触摸屏事件响应信号，则步骤S300具体可以包括但不限于如下步骤：

步骤S310，根据触摸屏事件响应信号确定视频图像中被选择的触发位置；

步骤S320，根据触发位置确定与触摸屏事件响应信号对应的目标对象。

在一实施例中，在触发信号包括触摸屏事件响应信号的情况下，可以根据该触摸屏事件响应信号确定视频图像中被选择的触发位置，例如用户在视频图像中的点击位置，或者用户在视频图像中的触摸滑动的滑动轨迹，接着，根据该触发位置确定与触摸屏事件响应信号对应的目标对象，例如获取用户在视频图像中的点击位置的坐标参数，并根据该坐标参数确定对应的目标对象，或者获取用户在视频图像中的触摸滑动的滑动轨迹参数，并根据该滑动轨迹参数确定对应的目标对象。在确定与触摸屏事件响应信号对应的目标对象后，可以在后续步骤中对该目标对象进行相关的操作处理，以使得目标对象能够在视频图像中突出显示。

另外，参照图4，在一实施例中，如在图3所示实施例的基础上，该视频处理方法还包括但不限于以下步骤：

步骤S400，获取第一语音信号；

步骤S500，根据第一语音信号在视频图像中对目标对象标记注解。

在一实施例中，当根据触发信号使目标对象在视频图像中突出显示之后，可以通过获取用户的第一语音信号，并根据该第一语音信号在视频图像中对目标对象标记注解，以达到展示用户对目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

在一实施例中，可以通过启动终端的语义分析提取模块以识别及提取第一语音信号中的信号内容，接着，利用第一语音信号中的信号内容对目标对象标记注解，或者，可以根据第一语音信号中的信号内容获取保存在终端中或者保存在服务器中的预置注解，利用该预置注解对目标对象标记注解。值得注意的是，对目标对象标记注解的具体实施方式，可以根据实际应用情况进行适应的选择，本实施例对此并不作具体限定。另外，值得注意的是，启动语义分析提取模块的操作可以在打开视频图像或者进行视频拍摄之前执行，也可以在视频播放过程中或者视频拍摄过程中执行，本实施例对此并不作具体限定。此外，启动语义分析提取模块的方式可以通过语音操作进行启动，也可以通过点击功能按键的方式启动，本实施例对此并不作具体限定。

另外，参照图5，在一实施例中，步骤S500包括但不限于以下步骤：

步骤S510，获取第一语音信号中的第一关键字信息；

步骤S520，在视频图像中利用第一关键字信息对目标对象标记注解。

在一实施例中，可以通过启动终端的语义分析提取模块以识别及提取第一语音信号中的第一关键字信息，接着，根据第一语音信号中的第一关键字信息实现对目标对象标记注解的操作，以达到展示用户对目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

值得注意的是，第一关键字信息可以为第一语音信号的完整信息，也可以为第一语音信号中的部分信息，可以根据实际应用情况进行适应的选择，本实施例对此并不作具体限定。当第一关键字信息为第一语音信号中的部分信息时，终端或者服务器可以保存有相关的预置关键字信息，当终端获取到第一语音信号后，可以在终端内部把第一语音信号中的信息与预置关键字信息进行对比，或者终端把第一语音信号发送给服务器以使服务器把第一语音信号中的信息与预置关键字信息进行对比，当第一语音信号中的部分信息与预置关键字信息相匹配时，该匹配的预置关键字信息的内容即为第一关键字信息的内容。

在一实施例中，对应于目标对象的注解的显示位置，可以显示在视频图像中目标对象所处位置之外的其他位置，例如可以显示在目标对象所处位置之外的背景颜色比较一致的区域，或者可以显示在目标对象所处位置之外的背景景象比较单调的区域，因此，显示在视频图像中的对应于目标对象的注解，并不会出现阻挡目标对象的问题，从而可以达到用户对目标对象进行着重介绍的目的。

在一实施例中，对应于目标对象的注解，可以在视频图像中全文显示，也可以在视频图像中以文字滚动的方式进行显示，本实施例对此并不作具体限定。值得注意的是，显示在视频图像中的对应于目标对象的注解，可以在显示一定时长之后消隐，也可以在用户介绍完目标对象之后消隐，本实施例对此并不作具体限定。另外，判断用户介绍完目标对象，可以通过视频画面被切换而确定，或者通过用户的语音信号而确定，或者通过持续设定时长而确定，本实施例对此并不作具体限定。

另外，在一实施例中，步骤S500还包括以下步骤：

步骤S530，根据第一关键字信息获取与第一关键字信息对应的预置注解，在视频图像中利用预置注解对目标对象标记注解。

值得注意的是，本实施例中的步骤S530与如图5所示实施例中的步骤S520属于并列的技术方案，本实施例实际上包括步骤S510和步骤S530，为了避免内容重复，本实施例中仅针对步骤S530的内容进行具体的描述。

在一实施例中，当获取到第一语音信号中的第一关键字信息后，可以根据第一关键字信息获取保存在终端中的或者保存在服务器中的预置注解，并利用该预置注解对目标对象标记注解，以达到展示对应于目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

在一实施例中，预置注解可以为预先保存的并与特定关键字信息相关联的文本内容，终端或者服务器可以保存有与特定关键字信息相关联的预置注解，例如，假设特定关键字信息为“红旗”，则预置注解可以为与“红旗”相关的历史、尺寸或制作过程等文本内容，终端可以保存有该预置注解，当终端获取到的第一关键字信息为“红旗”时，终端可以根据第一关键字信息“红旗”而从存储器中读取出关于“红旗”的历史、尺寸或制作过程等相关内容描述的预置注解，并利用该预置注解在视频图像中对目标对象进行标记。

值得注意的是，在本实施例中，关于预置注解在视频图像中的显示位置、显示方式及显示时间，和如图5所示实施例中关于对应于目标对象的注解在视频图像中的显示位置、显示方式及显示时间均一致，因此，关于预置注解在视频图像中的显示位置、显示方式及显示时间，可以参照如图5所示实施例中关于对应于目标对象的注解的相关描述，为了避免内容重复，此处不再赘述。

另外，参照图6，在一实施例中，步骤S200中的触发信号包括第二语音信号，则步骤S300具体可以包括但不限于如下步骤：

步骤S330，获取第二语音信号中的第二关键字信息；

步骤S340，根据第二关键字信息确定视频图像中与第二关键字信息对应的目标对象。

值得注意的是，本实施例与如图3所示的实施例属于并列的技术方案。

在一实施例中，在触发信号包括第二语音信号的情况下，可以通过启动终端的语义分析提取模块以识别及提取第二语音信号中的第二关键字信息，接着，根据该第二关键字信息确定视频图像中与该第二关键字信息对应的目标对象，在确定与第二关键字信息对应的目标对象后，可以在后续步骤中对该目标对象进行相关的操作处理，以使得目标对象能够在视频图像中突出显示。

在一实施例中，第二关键字信息可以为包括有名称、形状、方向或颜色等相关内容的信息。另外，第二关键字信息可以为一组关键字，也可以为由两组以上关键字构成的组合。当第二关键字信息为一组关键字时，例如，第二关键字信息可以为“红旗”这一关键字；当第二关键字信息为由两组以上关键字构成的组合时，例如，第二关键字信息可以为“左边的高塔”这多组关键字构成的组合，其中，这多组关键字构成的组合包括“左边”和“高塔”这两个关键字。值得注意的是，可以设定在一定时间内获取第二语音信号及获取第二语音信号中的第二关键字信息，也可以在整个视频拍摄过程中或者视频播放过程中持续获取第二语音信号及获取第二语音信号中的第二关键字信息，本实施例对此并不作具体限定。

在一实施例中，当终端获取到第二语音信号之后，终端可以把其内部存储的预置关键字信息与第二语音信号中的内容进行对比，也可以把第二语音信号发送给服务器以使服务器把其内部存储的预置关键字信息与第二语音信号中的内容进行对比，当第二语音信号中的内容与预置关键字信息相匹配时，该匹配的预置关键字信息的内容即为第二关键字信息的内容，即，上述操作过程实现了步骤S330中的获取第二语音信号中的第二关键字信息。

在一实施例中，当终端获取到第二语音信号中的第二关键字信息后，终端会把该第二关键字信息与视频图像中的景物进行对比，当视频图像中存在与第二关键字信息相匹配的景物时，终端即可确定该景物为与第二关键字信息对应的目标对象。

在一实施例中，可以通过启动终端的语义分析提取模块以识别及提取第二语音信号中的第二关键字信息，值得注意的是，启动语义分析提取模块的操作可以在打开视频图像或者进行视频拍摄之前执行，也可以在视频播放过程中或者视频拍摄过程中执行，本实施例对此并不作具体限定。此外，启动语义分析提取模块的方式可以通过语音操作进行启动，也可以通过点击功能按键的方式启动，本实施例对此并不作具体限定。

另外，在一实施例中，如在图6所示实施例的基础上，该视频处理方法还包括但不限于如下步骤：

步骤S600，根据第二语音信号在视频图像中对目标对象标记注解。

在一实施例中，当根据第二语音信号中的第二关键字信息使目标对象在视频图像中突出显示之后，可以进一步根据用户的第二语音信号在视频图像中对目标对象标记注解，以达到展示用户对目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

在一实施例中，根据第二语音信号在视频图像中对目标对象标记注解，可以有不同的实施方式。例如，可以利用第二语音信号中的第二关键字信息对目标对象标记注解；又如，可以根据第二语音信号中的第二关键字信息获取保存在终端中或者保存在服务器中的预置注解，利用该预置注解对目标对象标记注解；再如，可以再获取第二语音信号中的第三关键字信息，利用该第三关键字信息对目标对象标记注解。

另外，在一实施例中，步骤S600包括但不限于以下步骤：

步骤S610，在视频图像中利用第二关键字信息对目标对象标记注解。

在一实施例中，当根据第二关键字信息确定视频图像中与第二关键字信息对应的目标对象后，可以进一步在视频图像中利用第二关键字信息对目标对象标记注解，以达到展示用户对目标对象的相关介绍内容的目的，例如，用户在进行视频拍摄并针对视频图像中的“红旗”进行介绍时，当根据第二关键字信息“红旗”而确定视频图像中的目标对象“红旗”时，目标对象“红旗”会在视频图像中突出显示，此时，第二关键字信息“红旗”会作为注解而标记在视频图像中，以对在视频图像中突出显示的目标对象“红旗”进行注解介绍。由于展示对目标对象的注解介绍的操作是随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

另外，在一实施例中，步骤S600还包括以下步骤：

步骤S620，根据第二关键字信息获取与第二关键字信息对应的预置注解，在视频图像中利用预置注解对目标对象标记注解。

值得注意的是，本实施例中的步骤S620与上述实施例中的步骤S610属于并列的技术方案，两者之间的区别在于：本实施例中的步骤S620先根据第二关键字信息获取与之对应的预置注解，再利用预置注解对目标对象标记注解；而上述实施例中的步骤S610则直接利用第二关键字信息对目标对象标记注解。为了避免内容重复，本实施例中仅针对步骤S620与步骤S610之间的区别内容进行具体描述，两者之间的相同内容部分，可以参照上述实施例中对步骤S610的内容的具体描述，此处不再赘述。

在一实施例中，当获取到第二语音信号中的第二关键字信息后，可以根据第二关键字信息获取保存在终端中的或者保存在服务器中的预置注解，并利用该预置注解对目标对象标记注解，以达到展示对应于目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

在一实施例中，预置注解可以为预先保存的并与特定关键字信息相关联的文本内容，终端或者服务器可以保存有与特定关键字信息相关联的预置注解，例如，假设特定关键字信息为“红旗”，则预置注解可以为与“红旗”相关的历史、尺寸或制作过程等文本内容，终端可以保存有该预置注解，当终端获取到的第二关键字信息为“红旗”时，终端可以根据第二关键字信息“红旗”而从存储器中读取出关于“红旗”的历史、尺寸或制作过程等相关内容描述的预置注解，并利用该预置注解在视频图像中对目标对象进行标记。

值得注意的是，在本实施例中，关于预置注解在视频图像中的显示位置、显示方式及显示时间，和上述实施例中对步骤S610的具体描述中关于对应于目标对象的注解在视频图像中的显示位置、显示方式及显示时间均一致，因此，关于预置注解在视频图像中的显示位置、显示方式及显示时间，可以参照上述实施例中对步骤S610的内容的相关描述，为了避免内容重复，此处不再赘述。

另外，在一实施例中，步骤S600还包括以下步骤：

步骤S630，获取第二语音信号中的第三关键字信息，在视频图像中利用第三关键字信息对目标对象标记注解。

值得注意的是，本实施例中的步骤S630与上述实施例中的步骤S610、上述实施例中的步骤S620，均属于并列的技术方案，与上述实施例中的步骤S610及上述实施例中的步骤S620相比较，本实施例中的步骤S630具有如下区别点：先获取第二语音信号中的第三关键字信息，再利用第三关键字信息对目标对象标记注解。为了避免内容重复，本实施例中仅针对步骤S630所具有的区别点进行具体描述，步骤S610、步骤S620和步骤S630之间的相同内容部分，可以参照上述实施例中相关内容的具体描述，此处不再赘述。

在一实施例中，当根据第二关键字信息确定视频图像中与第二关键字信息对应的目标对象后，可以通过终端的语义分析提取模块识别及提取第二语音信号中的第三关键字信息，接着，根据该第三关键字信息实现对目标对象标记注解的操作，以达到展示用户对目标对象的相关介绍内容的目的。由于展示对目标对象的相关介绍内容的操作是随着用户对视频图像进行处理时完成的，例如随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

值得注意的是，第三关键字信息是第二语音信号中跟随在第二关键字信息后面的信息，第三关键字信息可以为跟随在第二关键字信息后面的完整信息，也可以为跟随在第二关键字信息后面的信息中的部分信息，可以根据实际应用情况进行适应的选择，本实施例对此并不作具体限定。当第三关键字信息为跟随在第二关键字信息后面的信息中的部分信息时，终端或者服务器可以保存有相关的预置关键字信息，当终端获取到第二语音信号后，可以在终端内部把第二语音信号中跟随在第二关键字信息后面的信息与预置关键字信息进行对比，或者终端把第二语音信号发送给服务器，以使服务器把第二语音信号中跟随在第二关键字信息后面的信息与预置关键字信息进行对比，当跟随在第二关键字信息后面的部分信息与预置关键字信息相匹配时，该匹配的预置关键字信息的内容即为第三关键字信息的内容。

值得注意的是，在本实施例中，关于对应于目标对象的注解在视频图像中的显示位置、显示方式及显示时间，和上述实施例中对步骤S610的具体描述中关于对应于目标对象的注解在视频图像中的显示位置、显示方式及显示时间均一致，因此，关于对应于目标对象的注解在视频图像中的显示位置、显示方式及显示时间，可以参照上述实施例中对步骤S610的内容的相关描述，为了避免内容重复，此处不再赘述。

另外，在一实施例中，目标对象的数量为多个，多个目标对象的注解分别在视频图像中的不同区域显示或者在视频图像中的同一区域间隔显示。

在一实施例中，例如当用户进行视频直播并对观众介绍视频图像中的多个目标对象时，多个目标对象都会在视频图像中突出显示，例如每一个目标对象分别被一个箭头标记，此时，对应于每一个目标对象的注解也会在视频图像中显示。其中，多个注解在视频图像中的显示方式可以有不同的实施方式，例如，多个注解可以分别在视频图像中的不同区域显示，也可以分别在视频图像中的同一区域间隔显示，本实施例对此并不作具体限定。

值得注意的是，不论多个注解分别在视频图像中的不同区域显示，还是多个注解分别在视频图像中的同一区域间隔显示，注解的内容均可以在视频图像中全文显示，也可以在视频图像中以文字滚动的方式进行显示，本实施例对此并不作具体限定。此外，当多个注解分别在视频图像中的不同区域显示时，这些注解可以在显示一定时长之后消隐，也可以在用户介绍完全部目标对象之后消隐，本实施例对此并不作具体限定。另外，当多个注解分别在视频图像中的同一区域间隔显示时，这些注解可以在用户介绍完全部目标对象之后消隐。值得注意的是，判断用户介绍完全部目标对象，可以通过视频画面被切换而确定，或者通过用户的语音信号而确定，或者通过持续设定时长而确定，本实施例对此并不作具体限定。

另外，在一实施例中，当多个目标对象中存在相同的对象类型，在视频图像中对存在相同对象类型的目标对象中的至少一个标记注解。

在一实施例中，例如当用户进行视频直播并对观众介绍视频图像中的目标对象时，如果同一对象类型的目标对象存在多个，则这相同对象类型的多个目标对象都会在视频图像中突出显示，例如每一个目标对象分别被一个箭头标记，此时，可以在视频图像中对这相同对象类型的多个目标对象中的至少一个进行注解的标记，例如，仅在视频图像中针对相同对象类型的多个目标对象标记一个注解，或者，从相同对象类型的多个目标对象中任意选择其中的两个并分别进行注解的标记，本实施例对此并不作具体限定。

此外，在一实施例中，该视频处理方法还包括以下步骤：

步骤S700，在视频图像中对目标对象标记注解后，存储标记有注解的视频图像。

在一实施例中，当在视频图像中对目标对象标记注解后，可以存储标记有注解的视频图像，以便于后续能够对标记有注解的视频图像进行发布。例如，当用户在非直播的情况下利用终端的相机功能进行视频拍摄时，或者用户利用终端从服务器中下载并播放视频时，或者用户打开保存在终端的本地视频时，通过触发信号确定视频图像中与触发信号对应的目标对象，并在视频图像中对目标对象标记注解后，由于用户并不是马上即对标记有注解的视频图像进行发布，因此用户可以先存储标记有注解的视频图像，当用户后续需要对标记有注解的视频图像进行发布时，用户即可把标记有注解的视频图像进行发布，因此不需要进行额外的后期编辑处理，从而可以提高用户的使用体验。

为了能够更好地说明本申请实施例所提供的视频处理方法，下面以具体的示例进行详细的描述说明：

在一具体示例中，如图7所示，当用户利用智能手机200进行视频拍摄时，用户先打开智能手机200的相机功能，并选择视频拍摄模式，此时，当用户选择好需要拍摄的景物后，如图7所示，智能手机200的触摸显示屏300中，取景画面显示出“红旗”这一景物，此时，用户可以点击触摸显示屏300中的录制功能按键400，当用户点击录制功能按键400后，智能手机200会进行视频的拍摄录制。

在一具体示例中，在视频的拍摄录制的过程中，如图8所示，用户对“红旗”这一景物进行介绍，此时，智能手机200可以获取用户针对“红旗”这一景物的介绍内容，当智能手机200获取到用户的语音信号中包括有“红旗”这一关键字信息后，智能手机200会根据关键字信息“红旗”，在视频图像中寻找“红旗”这一景物的具体位置，当智能手机200确定“红旗”这一景物在视频图像中的具体位置后，智能手机200通过圈点的方式把“红旗”这一景物突出显示在视频图像中，此时，智能手机200会继续获取用户的语音信号，当智能手机200识别出用户的语音信号中包括有对“红旗”这一景物的介绍内容时，智能手机200会把对应的介绍内容作为注解500并标记在视频图像中靠近“红旗”这一景物的位置处，以达到展示用户对“红旗”这一景物的介绍内容的目的。由于展示对“红旗”这一景物的介绍内容的操作是随着用户进行视频拍摄时完成的，即用户不需要对视频图像进行后期编辑，因此能够节省对视频图像的后期编辑处理，从而可以提高用户的使用体验。

另外，本申请的一个实施例还提供了一种终端，该终端包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

需要说明的是，本实施例中的终端，可以包括有如图1所示实施例中的架构平台，本实施例中的终端和如图1所示实施例中的架构平台属于相同的发明构思，因此两者具有相同的实现原理以及技术效果，此处不再详述。

实现上述实施例的视频处理方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例的视频处理方法，例如，执行以上描述的图2中的方法步骤S100至S400、图3中的方法步骤S310至S320、图4中的方法步骤S400至S500、图5中的方法步骤S510至S520、图6中的方法步骤S330至S340。

以上所描述的终端实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本申请的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述终端实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的视频处理方法，例如，执行以上描述的图2中的方法步骤S100至S400、图3中的方法步骤S310至S320、图4中的方法步骤S400至S500、图5中的方法步骤S510至S520、图6中的方法步骤S330至S340。

本申请实施例的方法包括：获取视频图像；获取触发信号；根据所述触发信号确定所述视频图像中与所述触发信号对应的目标对象；根据所述触发信号使所述目标对象在所述视频图像中突出显示。根据本申请实施例提供的方案，在获取到视频图像时，会获取触发信号，并且根据触发信号确定视频图像中与触发信号对应的目标对象，接着，根据触发信号使目标对象在视频图像中突出显示，因此，在获取到视频图像时，例如用户在进行视频拍摄而使得终端获取到视频图像时，根据触发信号即可对视频图像中的目标对象进行处理，使得目标对象能够在拍摄视频的过程中即可在视频图像中突出显示，即，使目标对象能够在视频图像中突出显示的操作是随着用户进行视频拍摄时完成的，因此能够节省用户对视频的后期编辑处理，从而可以提高用户的使用体验。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

一种视频处理方法，包括：

获取视频图像；

获取触发信号；

根据所述触发信号确定所述视频图像中与所述触发信号对应的目标对象；以及

根据所述触发信号使所述目标对象在所述视频图像中突出显示。
根据权利要求1所述的视频处理方法，其中，所述触发信号包括触摸屏事件响应信号，所述根据所述触发信号确定所述视频图像中与所述触发信号对应的目标对象，包括：

根据所述触摸屏事件响应信号确定所述视频图像中被选择的触发位置；以及

根据所述触发位置确定与所述触摸屏事件响应信号对应的目标对象。
根据权利要求2所述的视频处理方法，还包括：

获取第一语音信号；以及

根据所述第一语音信号在所述视频图像中对所述目标对象标记注解。
根据权利要求3所述的视频处理方法，其中，所述根据所述第一语音信号在所述视频图像中对所述目标对象标记注解，包括：

获取所述第一语音信号中的第一关键字信息；以及

在所述视频图像中利用所述第一关键字信息对所述目标对象标记注解，

或者，

根据所述第一关键字信息获取与所述第一关键字信息对应的预置注解，在所述视频图像中利用所述预置注解对所述目标对象标记注解。
根据权利要求1所述的视频处理方法，其中，所述触发信号包括第二语音信号，所述根据所述触发信号确定所述视频图像中与所述触发信号对应的目标对象，包括：

获取所述第二语音信号中的第二关键字信息；以及

根据所述第二关键字信息确定所述视频图像中与所述第二关键字信息对应的目标对象。
根据权利要求5所述的视频处理方法，还包括：

根据所述第二语音信号在所述视频图像中对所述目标对象标记注解。
根据权利要求6所述的视频处理方法，其中，所述根据所述第二语音信号在所述视频图像中对所述目标对象标记注解，包括：

在所述视频图像中利用所述第二关键字信息对所述目标对象标记注解；

或者，

根据所述第二关键字信息获取与所述第二关键字信息对应的预置注解，在所述视频图像中利用所述预置注解对所述目标对象标记注解；

或者，

获取所述第二语音信号中的第三关键字信息，在所述视频图像中利用所述第三关键字信息对所述目标对象标记注解。
根据权利要求4或7所述的视频处理方法，其中，所述目标对象的数量为多个，多个所述目标对象的注解分别在所述视频图像中的不同区域显示或者在所述视频图像中的同一区域间隔显示。
根据权利要求8所述的视频处理方法，其中，当多个所述目标对象中存在相同的对象类型，在所述视频图像中对存在相同对象类型的所述目标对象中的至少一个标记注解。
根据权利要求1所述的视频处理方法，其中，所述根据所述触发信号使所述目标对象在所述视频图像中突出显示，包括：

根据所述触发信号在所述视频图像中圈出所述目标对象；

或者，

根据所述触发信号在所述视频图像中对所述目标对象添加箭头指示；

或者，

根据所述触发信号在所述视频图像中对所述目标对象添加特效，所述特效包括发光、放大和改变颜色中的至少一种。
一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10中任意一项所述的视频处理方法。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至10中任意一项所述的视频处理方法。