WO2021073368A1

WO2021073368A1 - 视频文件的生成方法、装置、终端及存储介质

Info

Publication number: WO2021073368A1
Application number: PCT/CN2020/116576
Authority: WO
Inventors: 郑微; 吕伟伟
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2019-10-14
Filing date: 2020-09-21
Publication date: 2021-04-22
Also published as: CN112738634B; CN112738634A; JP2022552333A; JP7387890B2

Abstract

本公开实施例提供一种视频文件的生成方法、装置、终端及存储介质；方法包括：响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；获取所述目标音频的各音频帧对应的音频参数；基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。

Description

视频文件的生成方法、装置、终端及存储介质

相关申请的交叉引用

本申请要求于2019年10月14日提交的，申请号为201910974857.6、发明名称为“视频文件的生成方法、装置、终端及存储介质”的中国专利申请的优先权，该申请的全文通过引用结合在本申请中。

技术领域

本公开实施例涉及图像处理领域，尤其涉及一种视频文件的生成方法、装置、终端及存储介质。

背景技术

随着科学技术的发展，音乐数据不仅能够被听到，还可以被“看到”，音乐的可视化技术已被广泛应用于音乐播放场景中。相关技术中，基于音乐数据的频谱特征实现音乐波形的可视化，然而，此种技术仅考虑音频数据本身，忽略其他附加因素，从而导致呈现的可视化效果单一，不能满足用户的多样化需求。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开实施例提供了一种视频文件的生成方法，包括：

响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；

响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；

获取所述目标音频的各音频帧对应的音频参数；

基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；

基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；

基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。

上述方案中，所述基于获取的各所述音频参数，生成对应各所述音频帧的频谱图，包括：

基于预设采样频率，对所述目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；

分别对各所述采样后的音频帧的音频参数进行傅里叶变换，生成对应各所述采样后的音频帧的频谱图。

基于获取的所述音频参数，确定对应的各所述音频帧的振幅；

基于各所述音频帧的振幅，确定多个对应所述频谱图的频谱包络线；

分别将各所述频谱包络线与对应的各所述频谱图进行组合，得到对应的多个组合后的频谱图。

上述方案中，所述基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像，包括：

对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像；

分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像。

上述方案中，所述对所述目标图像进行目标区域截取，得到目标区域图像，包括：

确定所述目标图像中目标对象对应的区域；

基于确定的所述区域，进行包括所述目标对象的目标形状的区域截取，得到所述目标区域图像。

上述方案中，所述分别将所述目标区域图像与各所述频谱图进行组合之前，所述方法还包括：

对所述模糊目标图像进行颜色特征提取，得到对应所述模糊目标图像的各个像素点的颜色特征；

对各所述像素点的颜色特征进行加权求平均，确定所述模糊目标图像的颜色；

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。

上述方案中，所述频谱图为柱状频谱图，所述分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像，包括：

分别将所述柱状频谱图环绕在所述目标区域图像的周围，形成对应的多个组合图像；

其中，所述柱状频谱图中的频谱柱高度表征对应的所述音频帧的振幅，所述柱状频谱图中的频谱柱在所述目标区域图像的边缘的分布角度表征对应的所述音频帧的频率。

上述方案中，所述分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像，包括：

获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；

基于获取的所述相对位置关系，生成对应所述目标音频帧的视频帧图像；对应所述目标音频帧的视频帧图像中的前景的呈现位置，相较于所述相邻音频帧对应的视频帧图像中前景的呈现位置发生预设角度的旋转。

第二方面，本公开实施例提供了一种视频文件的生成装置，包括：

呈现单元，用于响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；

确定单元，用于响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；

获取单元，用于获取所述目标音频的各音频帧对应的音频参数；

第一生成单元，用于基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；

第二生成单元，用于基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；

编码单元，用于基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。

上述方案中，所述第一生成单元，还用于基于预设采样频率，对所述目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；

上述方案中，所述第一生成单元，还用于基于获取的所述音频参数，确定对应的各所述音频帧的振幅；

上述方案中，所述第二生成单元，还用于对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

上述方案中，所述第二生成单元，还用于确定所述目标图像中目标对象对应的区域；

上述方案中，所述分别将所述目标区域图像与各所述频谱图进行组合之前，所述装置还包括颜色处理单元，

所述颜色处理单元，用于对所述模糊目标图像进行颜色特征提取，得到对应所述模糊目标图像的各个像素点的颜色特征；

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。

上述方案中，所述第二生成单元，还用于将所述柱状频谱图环绕在所述目标区域图像的周围，形成对应的组合图像；

上述方案中，所述第二生成单元，还用于获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；

第三方面，本公开实施例提供了一种终端，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现本公开实施例提供的视频文件的生成方法。

第四方面，本公开实施例提供了一种非暂态存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本公开实施例提供的生成方法。

本公开实施例具有如下有益效果：

通过将目标音频的对应各音频帧的频谱图和目标图像进行合成，生成对应各音频帧的包含频谱图和目标图像的多个视频帧图像，并将生成的多个视频帧图像与目标音频进行编码，得到目标视频文件进行播放，使得从播放的目标视频文件中，能够看到与目标图像相关联的音频数据的可视化效果，从而满足用户的多样化需求。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的视频文件的生成系统的架构示意图；

图2为本公开实施例提供的终端结构示意图；

图3为本公开实施例提供的视频文件的生成方法的流程示意图；

图4A为本公开实施例提供的编辑界面示意图；

图4B为本公开实施例提供的编辑界面示意图；

图4C为本公开实施例提供的编辑界面示意图；

图4D为本公开实施例提供的编辑界面示意图；

图5为本公开实施例提供的视频帧图像的显示界面示意图；

图6为本公开实施例提供的视频文件的生成方法的流程示意图；

图7为本公开实施例提供的视频文件的生成装置的组成结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面说明实现本公开实施例的装置的示例性应用，本公开实施例提供的装置可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以由终端和服务器协同实施。下面，将说明装置的示例性应用。

在一些实施例中，由终端单独执行，终端用于响应于接收到的视频编辑指令，呈现视频编辑界面，其中，视频编辑界面中包括图像选择按键、音频选择按键中至少之一；响应于针对视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；获取目标音频的各音频帧对应的音频参数；基于获取的各音频参数，生成对应各音频帧的频谱图；基于生成的频谱图及目标图像，生成对应各音频帧的包含频谱图的多个视频帧图像；基于多个视频帧图像及目标音频，进行视频编码，得到目标视频文件；如此，音频参数的获取、频谱图的生成、包含频谱图的视频帧图像的生成及目标视频文件的生成可在终端侧实现实时化，提高了目标视频文件的获取效率，增强用户体验。

在一些实施例中，可由终端和服务器协同实施，参见图1，图1为本公开实施例提供的视频文件的生成系统100的架构示意图，为实现支撑一个示例性应用，终端200(包括终端200-1和终端200-2)，终端400通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

终端200用于响应于接收到的视频编辑指令，呈现视频编辑界面，其中，视频编辑界面中包括图像选择按键、音频选择按键中至少之一；响应于针对视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像，并将确定的目标音频和目标图像发送至服务器400；

服务器400用于获取目标音频的各音频帧对应的音频参数；基于获取的各音频参数，生成对应各音频帧的频谱图；基于生成的频谱图及目标图像，生成对应各音频帧的包含频谱图的多个视频帧图像；基于多个视频帧图像及目标音频，进行视频编码，得到目标视频文件，并将得到的目标视频文件发送至终端200，以使终端200播放接收到的目标视频文件；如此，音频参数的获取、频谱图的生成、包含频谱图的视频帧图像的生成及目标视频文件的生成由服务器完成，降低了终端侧的数据处理压力，且适用于目标音频和目标图片的容量较大的情况。

下面参见图2，图2为本公开实施例提供的终端200结构示意图。终端可以是各种终端，包括移动电话、笔记本电脑、数字广播接收器、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP，Portable Media Player)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字电视(TV)、台式计算机等等的固定终端。图2示出的终端仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，终端200可以包括处理装置(例如中央处理器、图形处理器等)210，其可以根据存储在只读存储器(ROM，Read-Only Memory)220中的程序或者从存储装置280加载到随机访问存储器(RAM，Random Access Memory)230中的程序而执行各种适当的动作和处理。在RAM 230中，还存储有终端操作所需的各种程序和数据。处理装置210、ROM 220以及RAM 230通过总线240彼此相连。输入/输出(I/O，Input/Output)接口250也连接至总线240。

通常，以下装置可以连接至I/O接口250：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置260；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置270；包括例如磁带、硬盘等的存储装置280；以及通信装置290。通信装置290可以允许终端与其他设备进行无线或有线通信以交换数据。虽然图2示出了具有的各种装置，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，所提供的流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，计算机程序可以通过通信装置290从网络上被下载和安装，或者从存储装置280被安装，或者从ROM220被安装。在计算机程序被处理装置210执行时，执行本公开实施例的视频文件的生成方法中限定的上述功能。

需要说明的是，本公开实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括电线、光缆、射频(RF，Radio Frequency)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述终端200中所包含的；也可以是单独存在，而未装配入终端200中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被终端200执行时，使得终端执行本公开实施例提供的视频文件的生成方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例中操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN，Local Area Network))和广域网(WAN，Wide Area Network)，以连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

描述于本公开实施例中所涉及到的单元和/或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

对于硬件的方式来说，实现本公开实施例的终端的单元和/或模块可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件实现，用于执行实现本公开实施例提供的视频文件的生成方法。

参见图3，图3为本公开实施例提供的视频文件的生成方法的流程示意图，本公开实施例的视频文件的生成方法包括：

步骤301：响应于接收到的视频编辑指令，呈现视频编辑界面，视频编辑界面中包括图像选择按键、音频选择按键中至少之一。

在实际应用中，终端上设置有客户端，如即时通讯客户端、微博客户端、短视频客户端等，用户可以通过在客户端上加载道具资源实现社交互动，道具资源包括以下至少之一：视频道具、音频道具、用户界面(User Interface，UI)动画道具；视频道具可以为包括如视频模板、视频封面、与视频相关联的文本，如标题、视频标签等，音频道具可以为背景音乐，UI动画可以为进行网络互动的界面。

在实际实施时，用户可通过在客户端上点击针对视频的编辑按键，触发相应的编辑指令至终端，终端响应于接收到的编辑指令，呈现包括图像选择按键和/或音频选择按键的编辑界面。

示例性地，参见图4A-4D，图4A-4D为本公开实施例提供的编辑界面示意图，当用户打开终端上设置的短视频客户端时，短视频客户端上呈现如图4A所示的界面，用户点击图4A中的编辑按键“+”时，短视频客户端上呈现如图4B所示的默认界面，当用户点击图4B中的“影集”按键时，触发了相应的视频编辑指令，短视频客户端接收到这一编辑指令，呈现如图4C所示的如“喜欢的歌”、“复古杂志”等视频模板，当用户点击图4C中对应“喜欢的歌”这一视频模板上的“使用”按键时，呈现对应的如图4D所示的包括图像选择按键和/或音频选择按键的视频编辑界面。

步骤302：响应于针对视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像。

在实际实施时，当用户点击视频编辑界面上的按键时会触发相应的操作指令，终端接收到操作指令时会执行相应的操作，比如，当用户点击图4D所示的针对目标图像的选定按键时，终端接收到针对目标图像的选定按键而触发的选择指令，获取相应的目标图像以进行视频合成；同样的，终端也可基于同样的方式获取目标音频，在一些实施例中，目标音频还可以是视频模板携带的音频数据。

步骤303：获取目标音频的各音频帧对应的音频参数。

在实际应用中，终端获取目标音频的音频数据，这里，音频数据表征没有经过任何处理的目标音频的原始数据，比如，录音笔录的声音信息；终端基于获取的目标音频的音频数据，计算得到目标音频的频率信息、重音信息、音量信息等音频信息参数。

步骤304：基于获取的各音频参数，生成对应各音频帧的频谱图。

在一些实施例中，终端可通过如下方式生成对应各音频帧的频谱图：

基于预设采样频率，对目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；分别对各采样后的音频帧的音频参数进行傅里叶变换，生成对应各采样后的音频帧的频谱图。

在实际实施时，一般音乐每秒采样44100次，一秒就会有44100个采样，因此，可采用预设采样频率对目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；在实际应用中，音频数据在时域上是杂乱无章的波形信号，为了便于分析，可将时域上的音频数据通过快速傅里叶变换转换到频域，得到对应音频数据的频谱图。

在一些实施例中，终端还可通过如下方式生成对应各音频帧的频谱图：

确定对应的各音频帧的振幅；基于各音频帧的振幅，确定多个对应频谱图的频谱包络线；分别将各频谱包络线与对应的各频谱图进行组合，得到对应的多个组合后的频谱图。

这里，目标音频经过采样和傅里叶变换，可确定对应各音频帧的频率和与频率对应的振幅信息，对于每一音频帧而言，可基于获取的当前实时频率对应的最大振幅，然后从最大振幅点往两边依次高斯衰减，得到对应该音频帧的频谱图的频谱包络线，将得到的频谱包络线与对应的频谱图进行组合，得到包含频谱包络线的频谱图。

步骤305：基于生成的频谱图及目标图像，生成对应各音频帧的包含频谱图的多个视频帧图像；

在一些实施例中，终端可通过如下方式基于生成的频谱图及目标图像，生成对应各音频帧的包含频谱图的多个视频帧图像：

对目标图像进行模糊处理，得到对应的模糊目标图像；对目标图像进行目标区域截取，得到目标区域图像；分别将目标区域图像与各音频帧的频谱图进行组合，得到对应的多个组合图像；分别以各组合图像为前景、以模糊目标图像为背景，生成对应的多个包含频谱图的视频帧图像。

在实际实施时，为了较少图像的噪声或降低图像细节层次，通常采用如高斯、滤波等模糊技术对目标图像进行模糊处理，得到模糊后的图像，并将模糊后的图像作为视频帧图像的背景部分；在构建视频帧图像时，在一些实施例中，终端通过如下方式对目标图像进行区域截取，得到目标区域图像：

确定目标图像中目标对象对应的区域；基于确定的区域，进行包括目标对象的目标形状的区域截取，得到目标区域图像。

这里，在实际应用中，终端根据用户对目标图像中目标对象或特定位置的选择，对目标图像进行区域的截取，比如，当目标图像为人物图时，确定目标图像中人物对象在目标图像中所处的位置区域为目标图像中目标对象对应的区域；当目标图像为风景图时，确定某一特定风景在目标图像中所处的位置区域为目标图像中目标对象对应的区域。

接下来，终端对确定的目标对象在目标图像中的区域以特定的目标形状进行截取，比如，以圆形对包含目标对象的区域进行截取，得到圆形的目标区域图像；或以星形对包含目标对象的区域进行截取，得到星形的目标区域图像，当然，终端还可以其他特定形状对包含目标对象的区域进行截取，得到相应的其他特定形状的目标区域图像，在此，本公开实施例并不具体限定具体的特定形状。

在实际应用中，为了使目标图像与目标音频更好地融合，目标音频的可视化能够更好地表现出目标图像的特征，在分别将目标区域图像与各音频帧的频谱图进行组合之前，终端还可通过如下方式确定频谱图的颜色：

对模糊目标图像进行颜色特征提取，得到对应模糊目标图像的各个像素点的颜色特征；对各像素点的颜色特征进行加权求平均，确定模糊目标图像的颜色；将确定的模糊图像的颜色，作为频谱图的颜色。

在实际应用中，图像的颜色特征是基于图像像素点的特征，描述了图像与图像区域所对应的景物的表面性质，由于颜色对图像或图像区域的方向、大小等变化不敏感，因此，可用模糊目标图像的颜色表征目标图像的颜色。

在实际实施时，终端基于如颜色直方图法、全局累加直方图法和颜色参量的统计特征法等颜色特征提取算法对模糊目标图像进行颜色提取，得到模糊目标图像中各个像素点的颜色特征，对各个像素点的颜色特征进行加权求平均，得到模糊目标图像的颜色，将得到的模糊目标图像的颜色映射到目标音频的频谱图上，如此，使频谱图的颜色根据目标图像的内容而实时发生变化。

在一些实施例中，频谱图可以柱状或波纹等形状进行呈现，当频谱图为柱状频谱图时，终端可通过如下方式分别将目标区域图像与各音频帧的频谱图进行组合，得到对应的多个组合图像：

分别将柱状频谱图环绕在目标区域图像的周围，形成对应的多个组合图像；其中，柱状频谱图中的频谱柱高度表征对应的音频帧的振幅，柱状频谱图中的频谱柱在目标区域图像的边缘的分布角度表征对应的音频帧的频率。

在实际实施时，终端根据目标音频的音频帧的频率将柱状频谱图以一定的分布角度均匀分布在目标区域图像的周围，柱状频谱图中对应的频谱柱高度由对应的音频帧的振幅大小决定，当目标音频的音频帧的振幅越大时，柱状频谱图中对应的频谱柱高度就越高，相应地，当目标音频的音频帧的振幅越小时，柱状频谱图中对应的频谱柱高度就越小；并且，当目标区域图像的形状为圆形时，柱状频谱图将以圆形的形状均匀分布在目标区域图像的周围，当目标区域图像的形状为星形时，柱状频谱图将以星形的形状均匀分布在目标区域图像的周围；如此，基于目标图像及目标音频的各个音频帧的频谱图，得到了多个视频帧图像中的前景部分。

在一些实施例中，终端可通过如下方式基于得到的前景部分，生成对应的多个包含频谱图的视频帧图像：

获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；基于获取的相对位置关系，生成对应目标音频帧的视频帧图像；对应目标音频帧的视频帧图像中的前景的呈现位置，相较于相邻音频帧对应的视频帧图像中前景的呈现位置发生预设角度的旋转。

这里，在实际应用中，随着目标音频的播放，对应的频谱图在实时发生变化，相应地，包含频谱图及目标区域图像的组合图像也在实时发生变化，因此，目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系也在实时发生变化，终端可基于获取的前景与背景的相对位置关系，将前景和背景进行组成而生成对应的视频帧图像，参见图5，图5为本公开实施例提供的视频帧图像的显示界面示意图，如图5所示，视频帧图像的背景部分为模糊目标图像，前景部分为包含频谱图及目标区域图像的组成图像，前景部分随着目标音频的播放而实时发生变化。

步骤306：基于多个视频帧图像及目标音频，进行视频编码，得到目标视频文件。

通过对目标图像进行模糊处理，得到模糊目标图像，将模糊目标图像的颜色映射到目标音频的频谱图上，并以模糊目标图像为背景、以包含频谱图及目标图像的组成图像为前景，生成多个对应各音频帧的视频帧图像，并将生成的多个视频帧图像与目标音频进行编码，得到目标视频文件进行播放，使得从播放的目标视频文件中，能够看到与目标图像相关联的音频数据的可视化效果，从而满足用户的多样化需求。

参见图6，图6为本公开实施例提供的视频文件的生成方法的流程示意图，该视频文件的生成方法可通过终端上设置的客户端和服务器协调实施，本公开实施例的视频文件的生成方法包括：

步骤601：客户端响应于接收到的视频编辑指令，呈现视频编辑界面，视频编辑界面中包括图像选择按键、音频选择按键中至少之一。

在实际应用中，终端上设置有客户端，如即时通讯客户端、微博客户端、短视频客户端等，用户可以通过在客户端上加载道具资源实现社交互动。在实际实施时，用户可通过点击客户端上针对视频的编辑按键，触发相应的编辑指令至终端，终端接收到用户触发的视频编辑指令，相应的呈现包括图像选择按键和/或音频选择按键的视频编辑界面。

步骤602：客户端响应于针对视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像。

步骤603：客户端发送目标音频和目标图像至服务器。

步骤604：服务器基于预设采样频率，对目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数。

步骤605：服务器基于获取的各音频参数，确定各音频帧的频谱及对应的频谱包络线。

这里，在实际实施时，服务器将时域上的音频数据通过快速傅里叶变换转换到频域，得到对应包含各音频帧的频率和振幅信息的频谱图，对于每一音频帧而言，可基于获取的当前实时频率对应的最大振幅，从最大振幅点往两边依次高斯衰减，得到对应该音频帧的频谱图的频谱包络线。

步骤606：服务器分别将各音频帧的频谱及对应的频谱包络线进行组合，得到对应的多个组合后的频谱图。

步骤607：服务器对目标图像进行模糊处理，得到对应的模糊目标图像。

步骤608：服务器对模糊目标图像进行颜色特征提取，得到对应模糊目标图像的各个像素点的颜色特征。

步骤609：服务器对各像素点的颜色特征进行加权求平均，确定模糊目标图像的颜色。

步骤610：服务器将确定的模糊目标图像的颜色，作为频谱图的颜色。

这里，在实际应用中，图像的颜色特征是基于图像像素点的特征，描述了图像与图像区域所对应的景物的表面性质，由于颜色对图像或图像区域的方向、大小等变化不敏感，因此，可用模糊目标图像的颜色表征目标图像的颜色。

步骤611：服务器对目标图像进行目标区域截取，得到目标区域图像。

步骤612：服务器分别将目标区域图像与各音频帧的频谱图进行组合，得到对应的多个组合图像。

步骤613：服务器分别以各组合图像为前景、以模糊目标图像为背景，生成对应的多个包含频谱图的视频帧图像。

这里，服务器可先获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；再基于获取的相对位置关系，生成对应目标音频帧的视频帧图像；对应目标音频帧的视频帧图像中的前景的呈现位置，相较于相邻音频帧对应的视频帧图像中前景的呈现位置发生预设角度的旋转；如此，能够体现出随着目标音频的部分，相邻音频帧之间前景图也随着发生相应的旋转变化。

步骤614：服务器基于多个视频帧图像及目标音频，进行视频编码，得到目标视频文件。

步骤615：服务器发送目标视频文件至客户端。

步骤616：客户端播放目标视频文件。

继续对本公开实施例提供的视频文件的生成装置的软件实现进行说明。图7为本公开实施例提供的视频文件的生成装置的组成结构示意图，参见图7，本公开实施例提供的视频文件的生成装置70包括：

呈现单元71，用于响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；

确定单元72，用于响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；

获取单元73，用于获取所述目标音频的各音频帧对应的音频参数；

第一生成单元74，用于基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；

第二生成单元75，用于基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；

编码单元76，用于基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。

在一些实施例中，所述第一生成单元，还用于基于预设采样频率，对所述目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；

在一些实施例中，所述第二生成单元，还用于对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

在一些实施例中，所述第二生成单元，还用于确定所述目标图像中目标对象对应的区域；

在一些实施例中，所述分别将所述目标区域图像与各所述频谱图进行组合之前，所述装置还包括颜色处理单元，

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。

在一些实施例中，所述第二生成单元，还用于将所述柱状频谱图环绕在所述目标区域图像的周围，形成对应的组合图像；

在一些实施例中，所述第二生成单元，还用于获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；

本公开实施例提供了一种终端，包括：

存储器，用于存储可执行指令；

本公开实施例提供了一种非暂态存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本公开实施例提供的生成方法。

根据本公开的一个或多个实施例，本公开实施例提供了一种视频文件的生成方法，包括：

获取所述目标音频的各音频帧对应的音频参数；

在一些实施例中，所述基于获取的各所述音频参数，生成对应各所述音频帧的频谱图，包括：

在一些实施例中，所述基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像，包括：

对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

在一些实施例中，所述对所述目标图像进行目标区域截取，得到目标区域图像，包括：

确定所述目标图像中目标对象对应的区域；

在一些实施例中，所述分别将所述目标区域图像与各所述频谱图进行组合之前，所述方法还包括：

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。

在一些实施例中，所述频谱图为柱状频谱图，所述分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像，包括：

在一些实施例中，所述分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像，包括：

本公开实施例提供了一种视频文件的生成装置，包括：

以上描述仅为本公开的实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种视频文件的生成方法，其特征在于，所述方法包括：

响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；

响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；

获取所述目标音频的各音频帧对应的音频参数；

基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；

基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；

基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。
如权利要求1所述的方法，其特征在于，所述基于获取的各所述音频参数，生成对应各所述音频帧的频谱图，包括：

基于预设采样频率，对所述目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；

分别对各所述采样后的音频帧的音频参数进行傅里叶变换，生成对应各所述采样后的音频帧的频谱图。
如权利要求2所述的方法，其特征在于，所述生成对应各所述采样后的音频帧的频谱图，包括：

确定对应的各所述音频帧的振幅；

基于各所述音频帧的振幅，确定多个对应所述频谱图的频谱包络线；

分别将各所述频谱包络线与对应的各所述频谱图进行组合，得到对应的多个组合后的频谱图。
如权利要求1所述的方法，其特征在于，所述基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像，包括：

对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像；

分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像。
如权利要求4所述的方法，其特征在于，所述对所述目标图像进行目标区域截取，得到目标区域图像，包括：

确定所述目标图像中目标对象对应的区域；

基于确定的所述区域，进行包括所述目标对象的目标形状的区域截取，得到所述目标区域图像。
如权利要求4所述的方法，其特征在于，所述分别将所述目标区域图像与各所述音频帧的频谱图进行组合之前，所述方法还包括：

对所述模糊目标图像进行颜色特征提取，得到对应所述模糊目标图像的各个像素点的颜色特征；

对各所述像素点的颜色特征进行加权求平均，确定所述模糊目标图像的颜色；

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。
如权利要求4所述的方法，其特征在于，所述频谱图为柱状频谱图，所述分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像，包括：

分别将所述柱状频谱图环绕在所述目标区域图像的周围，形成对应的多个组合图像；

其中，所述柱状频谱图中的频谱柱高度表征对应的所述音频帧的振幅，所述柱状频谱图中的频谱柱在所述目标区域图像的边缘的分布角度表征对应的所述音频帧的频率。
如权利要求4所述的方法，其特征在于，所述分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像，包括：

获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；

基于获取的所述相对位置关系，生成对应所述目标音频帧的视频帧图像；对应所述目标音频帧的视频帧图像中的前景的呈现位置，相较于所述相邻音频帧对应的视频帧图像中前景的呈现位置发生预设角度的旋转。
一种视频文件的生成装置，其特征在于，所述装置包括：

呈现单元，用于响应于接收到的视频编辑指令，呈现视频编辑界面，所述视频编辑界面中包括图像选择按键、音频选择按键中至少之一；

确定单元，用于响应于针对所述视频编辑界面所包括按键的点击操作，确定用于进行视频合成的目标音频和目标图像；

获取单元，用于获取所述目标音频的各音频帧对应的音频参数；

第一生成单元，用于基于获取的各所述音频参数，生成对应各所述音频帧的频谱图；

第二生成单元，用于基于生成的所述频谱图及所述目标图像，生成对应各所述音频帧的包含所述频谱图的多个视频帧图像；

编码单元，用于基于所述多个视频帧图像及所述目标音频，进行视频编码，得到目标视频文件。
如权利要求9所述的装置，其特征在于，

所述第一生成单元，还用于基于预设采样频率，对所述目标音频进行采样处理，得到采样后的多个音频帧对应的音频参数；

分别对各所述采样后的音频帧的音频参数进行傅里叶变换，生成对应各所述采样后的音频帧的频谱图。
如权利要求9所述的装置，其特征在于，

所述第一生成单元，还用于基于获取的所述音频参数，确定对应的各所述音频帧的振幅；

基于各所述音频帧的振幅，确定多个对应所述频谱图的频谱包络线；

分别将各所述频谱包络线与对应的各所述频谱图进行组合，得到对应的多个组合后的频谱图。
如权利要求9所述的装置，其特征在于，

所述第二生成单元，还用于对所述目标图像进行模糊处理，得到对应的模糊目标图像；

对所述目标图像进行目标区域截取，得到目标区域图像；

分别将所述目标区域图像与各所述音频帧的频谱图进行组合，得到对应的多个组合图像；

分别以各所述组合图像为前景、以所述模糊目标图像为背景，生成对应的多个包含所述频谱图的视频帧图像。
如权利要求12所述的装置，其特征在于，

所述第二生成单元，还用于确定所述目标图像中目标对象对应的区域；

基于确定的所述区域，进行包括所述目标对象的目标形状的区域截取，得到所述目标区域图像。
如权利要求12所述的装置，其特征在于，所述分别将所述目标区域图像与各所述频谱图进行组合之前，所述装置还包括颜色处理单元，

所述颜色处理单元，用于对所述模糊目标图像进行颜色特征提取，得到对应所述模糊目标图像的各个像素点的颜色特征；

对各所述像素点的颜色特征进行加权求平均，确定所述模糊目标图像的颜色；

将确定的所述模糊图像的颜色，作为所述频谱图的颜色。
如权利要求12所述的装置，其特征在于，

所述第二生成单元，还用于将所述柱状频谱图环绕在所述目标区域图像的周围，形成对应的组合图像；

其中，所述柱状频谱图中的频谱柱高度表征对应的所述音频帧的振幅，所述柱状频谱图中的频谱柱在所述目标区域图像的边缘的分布角度表征对应的所述音频帧的频率。
如权利要求12所述的装置，其特征在于，

所述第二生成单元，还用于获取目标音频帧的相邻音频帧对应的视频帧图像呈现的前景与背景的相对位置关系；

基于获取的所述相对位置关系，生成对应所述目标音频帧的视频帧图像；对应所述目标音频帧的视频帧图像中的前景的呈现位置，相较于所述相邻音频帧对应的视频帧图像中前景的呈现位置发生预设角度的旋转。
一种终端，其特征在于，所述终端包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现如权利要求1至8任一项所述的视频文件的生成方法。
一种非暂态存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至8任一项所述的视频文件的生成方法。