WO2021012491A1

WO2021012491A1 - 多媒体信息展示方法、装置、计算机设备及存储介质

Info

Publication number: WO2021012491A1
Application number: PCT/CN2019/116761
Authority: WO
Inventors: 欧阳碧云; 吴欢
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-19
Filing date: 2019-11-08
Publication date: 2021-01-28
Also published as: CN110475157A

Abstract

本申请公开一种多媒体信息展示方法、装置、计算机设备及存储介质。所述方法包括：获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；根据所述待编辑坐标锁定所述目标图像中的目标物体；根据所述编辑类型对所述目标物体进行编辑；在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。本申请允许用户按照自己的意愿对所观看的图像进行编辑，以提高娱乐性和互动性，另外，还允许用户调用原始图像，并让用户自己在原始图像的基础上进行修改，提高观看者观看图像时的互动性。用户除了可以对指定的人物进行装扮、美颜外，还可以改变人物或动物的说话的音色，进一步增强娱乐性。

Description

多媒体信息展示方法、装置、计算机设备及存储介质

本申请要求于2019年7月19日提交中国专利局、申请号为201910657196.4，发明名称为“多媒体信息展示方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机应用技术领域，具体而言，本申请涉及一种多媒体信息展示方法、装置、计算机设备及存储介质。

背景技术

随着科技的发展，智能终端得到了广泛的应用，智能终端包括电脑、手机、平板等，人们通过智能终端上的应用软件执行各种操作，比如浏览网页、语音、文字、视频交流，视频观看等。

现有技术中，在通过智能终端观看到的无论是图片还是视频，当他人在查看的时候，只能看到已经修改过的，比如经过美颜或者处理之后的，发明人意识到，观看者不能自己进行对图片中的人物或者事物进行修改，只能是被动地看，时间久了，容易产生审美疲劳，且互动性不强。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，公开一种通过能够增强人机互动性以及娱乐性的多媒体信息展示方法、装置、计算机设备及存储介质。

第一方面，本申请公开多媒体信息展示方法，包括：获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；根据所述待编辑坐标锁定所述目标图像中的目标物体；根据所述编辑类型对所述目标物体进行编辑；在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。

第二方面，本申请公开一种多媒体信息展示装置，包括：获取模块：被配置为执行获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；锁定模块：被配置为执行根据所述待编辑坐标锁定所述目标图像中的目标物体；编辑模块：被配置为执行根据所述编辑类型对所述目标物体进行编辑；展示模块：被配置为执行在所述视频文件的后续时间轴的图像中展示编辑后的目标物体。

第三方面，本申请公开一种计算机设备，包括：一个或多个处理器；存储器；一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行上述一种多媒体信息展示方法。

第四方面，本申请公开一种存储有计算机可读指令的存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述一种多媒体信息展示方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请多媒体信息展示方法流程图；

图2为本申请实施例身份验证方法流程图；

图3为本申请锁定目标图像中的目标物体的方法流程图；

图4为本申请卷积神经网络模型的训练方法流程图；

图5为本申请实施例视频图像示意图；

图6为本申请人物装饰示意图；

图7为本申请装饰后的人物展示示意图；

图8为本申请对目标物体进行音色转换的方法流程图；

图9为本申请多媒体信息展示装置框图；

图10为本申请计算机设备基本结构框图。

具体实施方式

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体的，请参阅图1，本申请公开一种多媒体信息展示方法，包括：

S1000、获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；

视频文件为由本地服务器从应用服务器中获取的或者本地服务器中存储的视频文件。视频文件为多个静态图片帧按照时间轴串联在一起，并配上对应的音效组合而成的动态图像。编辑指令是指用户所选择的对视频文件进行编辑的信息，在用户进行视频观看的客户端上，提供有供用户对视频进行编辑的界面，这种编辑界面的显示可以以任意方式出现，在一实施例中，通过特定触发指令，以弹窗方式弹出编辑框，供用户任意编辑；在另一实施例中，该编辑框以半透明浮窗的方式覆盖在当前的视频文件上，在接收到用户的触发指令后，发送编辑信息至服务器以进行编辑处理。这里的触发指令是指用户输入的特定命令，或者通过编辑界面上已有的编辑选项，选择以进行编辑。这里的已有的编辑选项为任意可以对视频进行编辑的操作，比如对视频中的图像进行颜色调节、添加滤镜，对视频中的所有人物或者指定人物进行美颜、对视频中的声音进行变声处理等等，以上编辑的操作称之为编辑类型。

由于视频文件是多个静态图像帧按照时间轴串联在一起的，因此在进行编辑时，需要先获取得到需要进行编辑的那一帧图像，称之为目标图像，对于目标图像，在进行编辑时，可整体对该帧图像进行编辑，也可以对目标图像画面中的某一个指定的物体进行编辑，因此，在进行目标图像编辑过程中还需要获取目标图像待编辑位置的坐标，根据待编辑位置的坐标进行对应编辑类型的编辑。

S2000、根据所述待编辑坐标锁定所述目标图像中的目标物体；

上述编辑指令来自于用户观看视频文件的客户端，当用户在客户端的相关操作界面选定对应的编辑坐标和编辑类型后，客户端生成编辑指令发送至服务器端，服务器端在获取了上述编辑指令后，则根据编辑坐标和编辑指令进行编辑。

由于在步骤S1000中获取的是目标图像的待编辑坐标，这里的待编辑坐标是指以目标图像中的某一个点作为坐标原点，而相对与这个坐标原点的坐标位置。无论这个坐标原点在哪个位置，本申请中的待编辑坐标表征的是目标图像中的某一个特定的点，这个点落在目标图像的某一个像素中。由于目标图像是多个不同的像素点拼接而成的，而不同的像素拼接起来组成不同物体的图像，因此通过待编辑坐标这一个点，即可锁定所述目标图像中的目标物体。

这里的目标物体可以包括某一个物体，也可以是多个物体，或者是整个目标图像，具体数量和范围根据用户所选择待编辑坐标的个数来确定。用户可以通过全选的方式，来选择整个目标图像中所有坐标点，也可以通过选中其中一个或多个点来分别选择一个或者多个物体，例如在目标图像中有树、花和人，用户选定了树的图像中的某一个点，因此可以认为用户需要编辑的是这棵树，当用户以同时选定的方式选择了花和人，则表征用户要进行编辑锁定的是所选择的“花”和“人”。

S3000、根据所述编辑类型对所述目标物体进行编辑；

由于在编辑指令中包括编辑类型，因此当锁定了目标图像中的目标物体后，则针对该目标物体按照所选择的编辑类型进行编辑。这里的编辑类型包括但不局限于对视频中的图像进行颜色调节、添加滤镜，添加文字或图像、对视频中的所有人物或者指定人物进行美颜或装饰、改变目标物体的大小和形状、对所述目标物体进行渲染、以及对视频中的声音进行变声处理等等。在一实施例中，编辑类型还包括获取原始视频文件，在原始视频文件中进行调色、美颜、装饰、变声等编辑动作。

S4000、在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。

当根据步骤S2000和步骤S3000对目标物体进行编辑后，从被进行编辑的目标图像开始，后续时间轴播放的图像都按照目标图像中所编辑的样式进行显示，例如在目标图像中对整个画面添加了滤镜，则视频文件后续的画面都添加了该滤镜，当目标图像中的某个人物进行美颜处理后，则后续图像中，该人物一直以美颜后的形象出现。

进一步的，后续时间轴的图像的展示方法还包括在选定的帧画面中展示编辑后的目标物体，即可通过指定某些帧画面显示编辑后的效果画面，而不是全部都按照编辑后的效果进行显示。

在一实施例中，所述编辑类型包括获取原始视频文件，其中，所述原始视频文件为未经过后期处理的原始图像信息。

原始视频文件为通过手机端、电脑端或者摄像装置等拍摄的图像，其未经过后期处理。这里的后期处理是指对拍摄的图片或者视频进行画面的处理，比如进行了滤镜添加、美颜等操作。未经过后期处理则为未对视频文件进行滤镜添加、美颜等操作。

获取原始图像信息的方法在本申请中可以是，在上传图像信息的时候，同时上传原始状态的图片至服务器中，因此后端只需要在服务器中选取原始图像信息即可。用户在上传图像时将原始图像和经过处理后的图像同时发送至后台服务器，但是可以选择在客户端上或者对方显示终端上显示是哪一种图像。当显示终端上显示为处理后的图像时，可通过访问权限，调取未经处理的原始图像。

一般的手机端或者照相机、摄像机所拍摄的图像都是原始的图像信息，其拍摄完之后形成文件时会生成一个EXIF值，Exif是一种图像文件格式，它的数据存储与JPEG格式是完全相同的。实际上Exif格式就是在JPEG格式头部插入了数码图像的信息，包括拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件以及相机品牌、型号、色彩编码、拍摄时录制的声音以及GPS全球定位系统数据、缩略图等。当原始图像信息被修改，可能导致Exif信息丢失，或者图像实际的光圈、快门、ISO和白平衡等相关参数与该信息中的不匹配，因此通过获取这一信息中的关于图像的参数信息，进行参数对比接口来判断当前的图像是否为原始图像。

例如:取出图片的exif的方法为

1.获取图像文件

NSURL *fileUrl＝[[NSBundle mainBundle]URLForResource:@"YourPic"withExtension:@""]；

2.创建CGImageSourceRef

CGImageSourceRef imageSource＝CGImageSourceCreateWithURL((CFURLRef)fileUrl,NULL)；

3.利用imageSource获取全部ExifData

CFDictionaryRef imageInfo＝CGImageSourceCopyPropertiesAtIndex(imageSource,0,NULL)；

4.从全部ExifData中取出EXIF文件

NSDictionary *exifDic＝(__bridge NSDictionary*)CFDictionaryGetValue(imageInfo,kCGImagePropertyExifDictionary)；

5.打印全部Exif信息及EXIF文件信息

NSLog(@"All Exif Info:％@",imageInfo)；

NSLog(@"EXIF:％@",exifDic)；

通过上述方式识别出原始图片后将原始图片存储在数据库中以便于调用及后续的编译。

在一实施例中，请参阅图2，所述编辑指令还包括用户身份信息，所述获取所述原始视频文件之前还包括：

S1100、通过所述用户身份信息获取所述用户原始视频文件的获取权限；

S1200、当所述获取权限符合预设规则，则从数据库中获取所述原始视频文件。

在本申请中，编辑类型包括获取原始视频文件，而原始视频文件为同时上传至服务器中的视频文件，只要有符合查看的权限指令，则可通过访问服务器来获取得到原始视频文件。

在本实施例中，符合查看的权限通过用户身份信息来获取，因此，当编辑指令包括获取原始视频文件时，在编辑指令中应当还包括用户的身份信息。用户的身份信息通常是用户执行相关任务时所登陆的账号信息，通过账号信息匹配对应的权限。当该用户具有获取原始视频文件的权限时，则当其请求获取原始视频文件时，从数据库中调取对应的原始视频文件，否则禁止获取原始视频文件。

进一步的，编辑类型还包括在原始视频文件中进行图像编辑，进行图像编辑的类型可以是添加滤镜、改变光线的，对指定的一个或多个物体进行美颜或装饰等。进一步的，可根据用户的权限，对视频文件或者原始视频文件进行编辑，具体操作方式可以为对于不同的编辑类型设置对应的权限，在用户请求上述编辑类型时，查询用户身份信息对应的权限，当有权限执行该编辑类型时，则对选取的目标图像进行对应权限的编辑，当没有权限执行该编辑类型时，则不响应用户发送的该编辑步骤，返回错误信息以提示用户。

进一步的，请参阅图3，所述根据所述待编辑坐标锁定所述目标图像中的目标物体的方法包括：

S2100、将所述目标图像输入至第一神经网络模型中，以识别出所述目标图像中的物体以及所述物体所映射的坐标区域；

S2200、将所述待编辑坐标在所述坐标区域中匹配以确定所属的目标物体。

神经网络模型在这里是指人工神经网络，其具有自学习功能。例如实现图像识别时，只需要先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。另外，其具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。神经网络还具有高速寻找优化解的能力。寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。基于以上有点，本申请采用训练好的神经网络模型来识别目标物体以及目标物体所映射的坐标区域。

神经网络包括深度神经网络、卷积神经网络、循环神经网络、深度残差网络等，本申请以卷积神经网络为例进行说明，卷积神经网络是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。卷积神经网络(CNN)中卷积的目的在于将某些特征从图像中提取出来。卷积神经网络的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习，所以在使用卷积神经网络时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。

一幅彩色图像在计算机中的存储形式为一个三维的矩阵，三个维度分别是图像的宽、高和RGB(红绿蓝色彩值)值，而一幅灰度图像在计算机中的存储形式为一个二维矩阵，两个维度分别是图像的宽、高。无论是彩色图片的三维矩阵还是灰度图像的二维矩阵，矩阵中的每个元素取值范围为[0,255]，但是含义不同，彩色图像的三维矩阵可以拆分成R、G、B三个二维矩阵，矩阵中的元素分别代表图像相应位置的R、G、B亮度。灰度图像的二维矩阵中，元素则代表图像相应位置的灰度值。而二值图像可视为灰度图像的一个简化，它将灰度图像中所有高于某个阈值的原始转化为1，否则为0，故二值图像矩阵中的元素非0则1，二值图像足以描述图像的轮廓，二卷积操作的一个重要作用就是找到图像的边缘轮廓。

通过将图像转换成二值图像，再通过卷积核的过滤得到图像物体的边缘特征，再经过池化实现图像的降维以便于得到，明显的图像特征。通过模型训练，以识别出所述图像中图像特征。

本申请中，物体作为所拍摄的图像中的一个特征，可通过卷积神经网络训练得到的神经网络模型获得，但是，还可以使用其他的神经网络，比如DNN(深层神经网络)、RNN(循环神经网络)等网络模型训练而成。无论何种神经网络进行训练，采用这种机器学习的模式来识别不同的物体的方法的原理基本一致。

以卷积神经网络模型的训练方法为例，请参阅图4，卷积神经网络模型的训练方法如下：

S2111、获取标记有分类判断信息的训练样本数据；

训练样本数据是整个训练集的构成单位，训练集是由若干个训练样本训练数据组成的。训练样本数据是由多种不同物体的数据以及对各种不同物体进行标记的分类判断信息组成的。分类判断信息是指人们根据输入卷积神经网络模型的训练方向，通过普适性的判断标准和事实状态对训练样本数据做出的人为的判断，也就是人们对卷积神经网络模型输出数值的期望目标。如，在一个训练样本数据中，人工识别出该图像信息数据中的物体与预存储的图像信息中的物体为同一个，则标定该物体分类判断信息为与预存储的目标物体图像相同。

S2112、将所述训练样本数据输入卷积神经网络模型获取所述训练样本数据的模型分类参照信息；

将训练样本集依次输入到卷积神经网络模型中，并获得卷积神经网络模型倒数第一个全连接层输出的模型分类参照信息。

模型分类参照信息是卷积神经网络模型根据输入的物体图像而输出的激励数据，在卷积神经网络模型未被训练至收敛之前，分类参照信息为离散性较大的数值，当卷积神经网络模型未被训练至收敛之后，分类参照信息为相对稳定的数据。

S2113、通过止损函数比对所述训练样本数据内不同样本的模型分类参照信息与所述分类判断信息是否一致；

止损函数是用于检测卷积神经网络模型中模型分类参照信息，与期望的分类判断信息是否具有一致性的检测函数。当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时，需要对卷积神经网络模型中的权重进行校正，以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。

S2114、当所述模型分类参照信息与所述分类判断信息不一致时，反复循环迭代的更新所述卷积神经网络模型中的权重，至所述比对结果与所述分类判断信息一致时结束。

当卷积神经网络模型的输出结果与分类判断信息的期望结果不一致时，需要对卷积神经网络模型中的权重进行校正，以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。

在本申请中，对第一神经网络模型进行训练，使其可以识别出视频文件中的物体、该物体的覆盖面积、对应的坐标区域等。当第一神经网络模型识别出了目标图像中各个物体以及该物体所映射的坐标区域后，通过所获取的待编辑的坐标确定用户选定的需要编辑的目标物体。当确定了目标物体，则可对该目标物体执行添加文字或图像、改变所述目标物体的大小和形状、对所述目标物体进行渲染、添加滤镜、美颜等操作。

在一实施例中，举例说明本申请的上述技术方案，用户在当前的显示终端上针对视频文件进行编辑，编辑的类型包括但不局限于获取原始视频文件、添加文字或图像、改变所述目标物体的大小和形状、对所述目标物体进行渲染，比如美颜、虚拟头像替换、更换背景、或者进行涂鸦，以提高查看图像或视频时的趣味性。

当编辑类型为获取原始视频文件或者是在原始视频文件的基础上进行再次编辑时，根据获取的用户身份信息，识别其获取原始视频文件的权限，当该用户具有获取权限，则提供原始视频文件给用户，由于获取的原始图像信息是不带美颜效果的，用户在接收到原始图像信息后，可根据自己的喜好对图像中的指定人物进行美颜，包括肤色变白、眼睛变大、红唇、变眉形，甚至是添加小饰品等，例如，在本实施例中，编辑类型为针对图像中的某一个人添加小饰品，请参阅图5，图像中包括多个可选的人物，用户点击其中一个人物在图像上映射的任意位置，则可通过上述公开的方式锁定该人物为目标物体，如图6所示为根据选定的人物，通过自定义绘制的方式或者在编辑框的下拉选择框中选择合适的装饰品，并添加至选定的人物上，本实施例中，在所选定的人物的头部添加了一个装饰物，添加之后保存该目标人物的编辑参数，即根据该编辑参数，在视频文件中进行锁定，并按照锁定的样式进行显示。

当保存了上述编辑后的参数后，在后续的视频中，自动跟踪该人物，并自动读取该人物的局部特征，持续进行装饰以达到持续显示的目的。比如当给某一人物进行了美颜，则在后续的视频帧文件中自动搜索匹配该人物，当出现该人物时，自动对其添加上述编辑好的参数，无需用户对每一帧图像中的人物都进行重新装扮，例如图7，当该人物在另外一个场景下时，其装扮不变。

在一实施例中，目标物体或人物的选择可通过神经网络模型来选择，用户选择的人物则为参考人物，视频文件的每一帧图像都传输至神经网络模型中，以识别此参考人物，当识别出参考人物，则自动对该参考人物添加上述保存的参数，将添加了参数之后的图像在前端进行播放。

采用该方案，可以让用户根据自己的喜好对图像进行自定义修改，比如当不喜欢某个人物时，可将该人物的头像锁定并替换成“猪头”，在后续的视频显示中，该人物的形象以猪头的方式展示；以提高用户观看图像和视频的趣味性，也能激发用户的创造性。

进一步的，所述编辑类型包括音色转换，音色转换为改变视频文件中的声音。需要说明的是，这里的音色转换，可以是将视频文件中的所有的声音都按照指定的音色转换参数进行转换，也可以是指定某一个或多个物体发出的声音的音色转换。这里所说的物体包括人、动物或者工具、植物在外力作用下发出的声音，还可以是视频中添加的背景音乐。

具体的，请参阅图8，对所述目标物体进行音色转换的方法包括：

S3100、获取音色转换指令中的目标音色参数；

音色(Timbre)是指不同的声音的频率表现在波形方面总是有与众不同的特性。不同的发声体由于其材料、结构不同，则发出的声音的音色也不同，例如钢琴和小提琴和人的声音不一样；每一个人一个人的声音也会不一样。音色是声音的特点，和全世界人们的相貌一样总是与众不同。根据不同的音色，即使在同一音高和同一声音强度的情况下，我们也能区分出是不同乐器或人发出的。如同千变万化的调色盘似的颜色一样，“音色”也会千变万化而容易理解。

基于不同物体的发出的不同音色，为了模拟这些物体的音色，会将音色以数值的方式进行模拟，这里的目标音色参数则为对音色进行模拟的数值。进一步的，目标音色参数包括用户自定义的参数或者从音色数据库中选取的指定参数。

S3200、识别所述目标物体所映射的声源信息；

在上述步骤中获取了目标物体以及音色转换的参数后，还需要对目标物体所映射的声源信息进行获取，将获取的声源信息与音色转换的参数进行对比，以按照音色转换的参数调整目标物体的声源信息。

S3300、将所述声源信息输入第二神经网络模型中以输出符合所述目标音色参数的目标声源信息。

对目标物体的声源信息进行调整的方式可以通过手动方式，也可以通过自动调整方式，在一实施例中，自动调整的方式为通过神经网络模型来进行。

本实施例中，将所述声源信息输入第二神经网络模型中，第二神经网络模型与上述公开的第一神经网络模型一样，具有自学习功能，只是训练的样本不同，从而输出的结果也不同。在第二神经网络模型中，经过训练可以识别出目标物体的声音，并将目标物体按照音色参数转换规则转换成对应的参数值，同时，根据用户选定的音色转换的参数，对所识别的目标物体的声音进行转换。例如，将锁定的某个人物的声音变换成动漫人物的声音展示，以增加趣味性。具体操作为，用户通过选定图像中的某个人物或动物，在声音数据库中选择需要变更的目标音色，则被选定的人物或动物在发出声音的时候按照该目标音色发生。比如在用户观看某一视频文件时，视频中有人物A、人物B和动物C，人物A为男生，当选定人物A，并将该人物A匹配声音数据库中机器猫的说话参数，则在后续的视频文件中，该人物A所说的话按照机器猫的发声特定进行发声。

上述应用时音色转换的一个具体的应用，本申请中，音色转换采用了神经网络模型的方式。

人体发声的整个流程有三个阶段，可用三个基本模块来表示：1)激励模块、2)声道模块；3)辐射模块。将这三个模块系统串联起来即可得到完整语音系统，该模型中主要参数基频周期、清音/浊音的判断、增益及滤波器参数。本申请中，获取所选定的人物的原始发音，对其进行模数转换，通过数字信号，提取对应的特征向量。语音音色变换一般包括两个过程，训练过程和变换过程，训练过程一般包括以下步骤：1)分析源、目标说话人语音信号，提取有效声学特征；2)将其与源目标说话人的声学特征对齐；3)分析对齐后的特征，得到源、目标说话人在声学矢量空间上的映射关系，及变换函数/规则。将提取的源说话人的声音特征参数，通过训练得到的变换函数/规则得到变换后的声音特征参数，然后用这些变换后的特征参数，合成并输出语音，使输出的语音听起来像所选定的目标说话人说出的话。一般变化过程包括：1)从源说话人输入的语音中提取特征参数，2)利用变换函数/规则计算出新的特征参数；3)合成并输出，在合成过程中，要用一个同步机制确保得到实时输出。本申请中，可采用基音同步重叠相加(PSOLA)的方法。

另一方面，请参阅图9，本申请公开一种多媒体信息展示装置，包括：

获取模块1000：被配置为执行获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；锁定模块2000：被配置为执行根据所述待编辑坐标锁定所述目标图像中的目标物体；编辑模块3000：被配置为执行根据所述编辑类型对所述目标物体进行编辑；展示模块4000：被配置为执行在所述视频文件的后续时间轴的图像中展示编辑后的目标物体。

可选的，所述编辑类型包括获取原始视频文件，其中，所述原始视频文件为未经过后期处理的原始图像信息。

可选的，所述编辑指令包括用户身份信息，所述编辑模块还包括：

权限获取模块：被配置为执行通过所述用户身份信息获取所述用户原始视频文件的获取权限；当所述获取权限符合预设规则，则从数据库中获取所述原始视频文件。

可选的，所述锁定模块包括：

第一识别模块：被配置为执行将所述目标图像输入至第一神经网络模型中，以识别出所述目标图像中的物体以及所述物体所映射的坐标区域；

目标匹配模块：被配置为执行将所述待编辑坐标在所述坐标区域中匹配以确定所属的目标物体。

可选的，所述编辑类型包括音色转换，所述编辑模块还包括：

音色获取模块：被配置为执行获取音色转换指令中的目标音色参数；

声源识别模块：被配置为执行识别所述目标物体所映射的声源信息；

声源处理模块：被配置为执行将所述声源信息输入第二神经网络模型中以输出符合所述目标音色参数的目标声源信息。

可选的，所述编辑类型还包括：添加文字或图像、改变所述目标物体的大小和形状、对所述目标物体进行渲染。

可选的，目标音色参数包括用户自定义的参数或者从音色数据库中选取的指定参数。

上述公开的一种多媒体信息展示装置是多媒体信息展示方法一一对应的执行装置，其工作原理与上述的多媒体信息展示方法一样，此处不再赘述。

本申请实施例提供计算机设备基本结构框图请参阅图10。

该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种多媒体信息展示方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种多媒体信息展示方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述的多媒体信息展示方法。本实施方式中的存储介质是易失性存储介质，也可以是非易失性的存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种多媒体信息展示方法，包括：

获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；

根据所述待编辑坐标锁定所述目标图像中的目标物体；

根据所述编辑类型对所述目标物体进行编辑；

在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。
根据权利要求1所述的多媒体信息展示方法，所述编辑类型包括获取原始视频文件，其中，所述原始视频文件为未经过后期处理的原始图像信息。
根据权利要求2所述的多媒体信息展示方法，所述编辑指令包括用户身份信息，所述获取所述原始视频文件之前还包括：

通过所述用户身份信息获取所述用户原始视频文件的获取权限；

当所述获取权限符合预设规则，则从数据库中获取所述原始视频文件。
根据权利要求1或2所述的多媒体信息展示方法，所述根据所述待编辑坐标锁定所述目标图像中的目标物体的方法包括：

将所述目标图像输入至第一神经网络模型中，以识别出所述目标图像中的物体以及所述物体所映射的坐标区域；

将所述待编辑坐标在所述坐标区域中匹配以确定所属的目标物体。
根据权利要求1或2所述的多媒体信息展示方法，所述编辑类型包括音色转换，对所述目标物体进行音色转换的方法包括：

获取音色转换指令中的目标音色参数；

识别所述目标物体所映射的声源信息；

将所述声源信息输入第二神经网络模型中以输出符合所述目标音色参数的目标声源信息。
根据权利要求1或2所述的多媒体信息展示方法，所述编辑类型还包括：添加文字或图像、改变所述目标物体的大小和形状、对所述目标物体进行渲染。
根据权利要求5所述的多媒体信息展示方法，所述目标音色参数包括用户自定义的参数或者从音色数据库中选取的指定参数。
一种多媒体信息展示装置，包括：

获取模块：被配置为执行获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；

锁定模块：被配置为执行根据所述待编辑坐标锁定所述目标图像中的目标物体；

编辑模块：被配置为执行根据所述编辑类型对所述目标物体进行编辑；

展示模块：被配置为执行在所述视频文件的后续时间轴的图像中展示编辑后的目标物体。
一种计算机设备，包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行一种多媒体信息展示方法，所述多媒体信息展示方法包括以下步骤：

获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；

根据所述待编辑坐标锁定所述目标图像中的目标物体；

根据所述编辑类型对所述目标物体进行编辑；

在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。
根据权利要求9所述的计算机设备，所述编辑类型包括获取原始视频文件，其中，所述原始视频文件为未经过后期处理的原始图像信息。
根据权利要求10所述的计算机设备，所述编辑指令包括用户身份信息，所述获取所述原始视频文件之前还包括：

通过所述用户身份信息获取所述用户原始视频文件的获取权限；

当所述获取权限符合预设规则，则从数据库中获取所述原始视频文件。
根据权利要求9或10所述的计算机设备，所述根据所述待编辑坐标锁定所述目标图像中的目标物体的方法包括：

将所述目标图像输入至第一神经网络模型中，以识别出所述目标图像中的物体以及所述物体所映射的坐标区域；

将所述待编辑坐标在所述坐标区域中匹配以确定所属的目标物体。
根据权利要求9或10所述的计算机设备，所述编辑类型包括音色转换，对所述目标物体进行音色转换的方法包括：

获取音色转换指令中的目标音色参数；

识别所述目标物体所映射的声源信息；

将所述声源信息输入第二神经网络模型中以输出符合所述目标音色参数的目标声源信息。
根据权利要求9或10所述的计算机设备，所述编辑类型还包括：添加文字或图像、改变所述目标物体的大小和形状、对所述目标物体进行渲染。
根据权利要求13所述的计算机设备，所述目标音色参数包括用户自定义的参数或者从音色数据库中选取的指定参数。
一种存储有计算机可读指令的存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现一种多媒体信息展示方法，所述多媒体信息展示方法包括以下步骤：

获取用户输入的针对所播放的视频文件中当前时间轴的目标图像的编辑指令，其中，所述编辑指令包括所述目标图像的待编辑坐标和编辑类型；

根据所述待编辑坐标锁定所述目标图像中的目标物体；

根据所述编辑类型对所述目标物体进行编辑；

在所述视频文件的当前及后续时间轴的图像中展示编辑后的目标物体。
根据权利要求16所述的存储有计算机可读指令的存储介质，所述编辑类型包括获取原始视频文件，其中，所述原始视频文件为未经过后期处理的原始图像信息。
根据权利要求17所述的存储有计算机可读指令的存储介质，所述编辑指令包括用户身份信息，所述获取所述原始视频文件之前还包括：

通过所述用户身份信息获取所述用户原始视频文件的获取权限；

当所述获取权限符合预设规则，则从数据库中获取所述原始视频文件。
根据权利要求16或17所述的存储有计算机可读指令的存储介质，所述根据所述待编辑坐标锁定所述目标图像中的目标物体的方法包括：

将所述目标图像输入至第一神经网络模型中，以识别出所述目标图像中的物体以及所述物体所映射的坐标区域；

将所述待编辑坐标在所述坐标区域中匹配以确定所属的目标物体。
根据权利要求16或17所述的存储有计算机可读指令的存储介质，所述编辑类型包括音色转换，对所述目标物体进行音色转换的方法包括：

获取音色转换指令中的目标音色参数；

识别所述目标物体所映射的声源信息；

将所述声源信息输入第二神经网络模型中以输出符合所述目标音色参数的目标声源信息。