WO2022045968A1

WO2022045968A1 - 多媒体作品的制作方法、装置及计算机可读存储介质

Info

Publication number: WO2022045968A1
Application number: PCT/SG2021/050470
Authority: WO
Inventors: 蔡小娟; 宋旭晨; 李�根; 钟浩源; 莫唯书; 李辉
Original assignee: 脸萌有限公司
Priority date: 2020-08-31
Filing date: 2021-08-11
Publication date: 2022-03-03
Also published as: EP4171045A4; CN114117086A; JP2023535047A; US20230131850A1; EP4171045A1

Abstract

一种多媒体作品的制作方法、装置及计算机可读存储介质，该方法包括：获取目标音频以及至少一个多媒体信息，计算目标音频与多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对多媒体信息进行排序，将排序靠前的多媒体信息作为目标多媒体信息；计算目标多媒体信息中每一幅图片的画质，根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的图片作为目标图片；根据目标图片以及目标音频合成多媒体作品。该方法可获得影像内容与背景音乐相匹配的高画质多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。

Description

多媒体作品的制作方法、装置及计算机可读存储介质本申请要求于 2020年 8月 31日提交的中国专利申请第 202010901767.7 的优先权，该中国专利申请的全文通过引用的方式结合于此以作为本申请的一部分。技术领域本公开实施例涉及一种多媒体作品的制作方法、装置及计算机可读存储介质。背景技术已知短视频类的应用程序在进行音频视频智能推荐时 , 仅局限于对单一视频推荐 PGC ( Professional Generated Content, 专业生产内容)音乐，并且由于这些音乐选择范围太广，根据视频标签匹配曲库的音乐种类并不能满足用户的视频场景画面契合度，以至于用户从视频智能推荐的音乐集合中无法选择出合心意的音乐；并且，由于用户相册的视频中经常会有一些噪音片段, 这就需要用户精心制作裁剪编辑获得可以发表的多媒体作品，例如音乐短片 ( MV, music video ) , 增加了创作的时间成本和技术门槛。发明内容本公开实施例提供一种克服上述问题或者至少部分地解决上述问题的多媒体作品的制作方法、装置及计算机可读存储介质。第一方面，提供了一种多媒体作品的制作方法，该方法包括：获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；计算目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；计算目标多媒体信息中每一幅图片的画质，根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；根据目标图片以及目标音频合成多媒体作品。第二方面，提供了一种多媒体作品的制作装置，该装置包括：素材获取模块，用于获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；匹配模块，用于确定目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；目标图片获取模块，用于计算目标多媒体信息中每一幅图片的回质，根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；音乐合成模块，用于根据所述目标图片以及目标音频合成多媒体作品。第三方面，本公开实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面所提供的方法的步骤。第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本公开实施例提供的多媒体作品的制作方法、装置及计算机可读存储介质，通过获取目标音频以及至少一个多媒体信息，通过计算目标音频和多媒体信息间的匹配程度，获得与目标音频匹配的目标多媒体信息，从而保证后续进一步筛选的图片均是与目标音频匹配的素材，再计算目标多媒体信息中每一幅图片的回质，从目标多媒体信息中选择高回质的图片，利用高回质图片与目标音频合成为多媒体作品 , 可获得影像内容与背景音乐相匹配的高画质多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。附图说明为了更清楚地说明本公开实施例中的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍。图 1为本公开实施例提供的一种多媒体作品的制作系统的结构示意图；图 2为本公开实施例提供的一种多媒体作品的制作方法的流程示意图；图 3为本公开实施例提供的一种单个神经网络的结构示意图；图 4A和图 4B为本公开的另一个实施例的多媒体作品的制作方法的流程示意图；图 5为本公开实施例提供的多媒体作品的制作装置；图 6为本公开实施例提供的一种电子设备的结构示意图。具体实施方式下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式 "__，，、 “一个,，和 “该” 也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞 “包括” 是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被 “连接” 或 “耦接” 到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的 “连接” 或 “耦接” 可以包括无线连接或无线耦接。这里使用的措辞 “和 /或” 包括一个或更多个相关联的列出项的全部或任一单元和全部组合。为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。本申请提供的多媒体作品的制作方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。本公开实施例提供一种多媒体作品的制作方法、装置、电子设备和存储介质。具体地，本公开实施例提供适用于电子设备的多媒体作品制作方法，该电子设备可以为终端或服务器等设备。可以理解的是，本实施例的多媒体作品的制作方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。参考图 1 , 以终端和服务器共同执行多媒体作品的制作方法为例。本公开实施例提供的多媒体作品的制作系统包括终端 10和服务器 11等；终端 10 与服务器 11之间通过网络连接，比如，通过有线或无线网络连接等，其中，背景音乐构建装置可以集成在服务器中。其中，终端 10可以通过输入模块获取目标音频和需要设置背景音乐的至少一个多媒体信息，将背景音乐和多媒体信息发送给服务器 11 , 以便于服务器 11计算目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度选择目标多媒体信息，并从目标多媒体信息中确定回质较高的多帧图片作为目标图片，根据目标图片和目标音频合成多媒体作品，再返回至终端，供终端用户观赏。其中，终端 10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机 (PC, Personal Computer)等。终端 10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等，用于供用户选取和目标视频匹配的背景音乐。服务器 11 , 可以用于：获取目标音频以及至少一个多媒体信息；确定目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；确定目标多媒体信息中每一幅图片的回质，根据回质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；将目标图片合成为视频文件，将音乐作为背景音乐合成至视频文件中获得多媒体作品，再将多媒体作品发送给终端 10。其中，服务器 11可以是单台服务器，也可以是由多个服务器组成的服务器集群。上述服务器 11设置背景音乐的过程，也可以由终端 10执行。本公开实施例提供的多媒体作品的制作方法涉及人工智能 (AI,ArtificialIntellegence) 领域中的视频内容理解 (VideoContent Understanding)。本公开实施例可以根据目标音频与多媒体信息间的匹配程度，选择匹配程度较高的目标多媒体信息，然后从目标多媒体信息中选择画质较高的图片作为目标图片，利用目标图片和音乐合成出具有背景音乐的视频文件，因此，有利于提升获取与背景音乐相匹配的多媒体信息的效率，同时可以提高背景音乐与目标多媒体信息的相关度，并且可以获得高画质的多媒体作品，展示效果更好。其中，人工智能 (Al, Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习 /深度学习等方向。其中，视频内容理解 (Video Content Understanding)是通过一系列的 AI算法，将视频解析为结构化的、机器可读的意图与词槽信息，它的研究影响着人脸识别、动作识别、物体检测、媒体制作、视频推荐等方面。本公开实施例将从多媒体作品制作装置的角度进行描述，该多媒体作品制作装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。本公开实施例的多媒体作品制作方法可以应用于各种需要创建多媒体作品的场景中，例如，当用户在短视频平台发布视频时，可以通过本实施例提供的方法，在获取到一首心仪的音乐时，快速地找到与该音乐匹配的多媒体内容，构建出具有高画质的多媒体作品。本公开实施例中提供了一种多媒体作品的制作方法，如图 2所示，该方法包括：

S101、获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；本公开获取的目标音频是用户心仪的音乐，可以是具有人声的音乐，也可以纯音乐，可以是用户通过音乐播放软件下载的音乐，也可以是用户自己创作的音乐，本公开对音乐的类型和来源不作具体的限定。本公开为了创建适合以目标音频作为背景音乐的视频，首先需要获取至少一个多媒体信息，多媒体信息可以是图片，也可以是视频。多媒体信息可以从用户终端的相册中获取，从而利用用户自己拍摄的多媒体信息创建视频，当然，多媒体信息也可以不是由用户自己拍摄的，本公开对多媒体信息的来源不作具体的限定。

5102、确定目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息。本公开通过计算目标音频与每个多媒体信息间的匹配程度，从而选择匹配程度较高的若干个多媒体信息作为目标多媒体信息。在计算匹配程度时，本公开可以确定目标音频和多媒体信息的主题，然后将主题相符的多媒体信息作为目标多媒体信息，在确定目标音频的主题时，若该目标音频是公开的音乐，可以通过检索该音乐在互联网上的简介、评价等信息来确定，确定的主题可以是爱情、乡村音乐、摇滚、消极、积极等等主题，而对多媒体信息，可以采用视频内容理解的算法确定主题，之后将与目标音频的主题相同的多媒体信息作为目标多媒体信息。

5103、确定目标多媒体信息中每一幅图片的回质，根据回质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片。本公开在确定目标多媒体信息后，进一步确定目标多媒体信息中每一幅图片的画质，应当理解的是，如果某一目标多媒体信息是图片，那么就确定该图片的画质，如果某一目标多媒体信息是视频，那么该视频的每一幅图片即该视频的每一帧图片。本公开的第二预设数量不大于第一预设数量。本公开的画质可以以从图像的清晰度、是否有人物、画面是否畸变等维度的评分结果进行表征，分值越高则画质越高，本公开通过获取高画质的图片，即可获得每个目标多媒体信息中的高光片段。进一步地，通过预先获取具有画质打分结果的样本图片，利用样本图片训练神经网络模型，利用训练完成的神经网络模型对目标多媒体信息中的每一幅图片的画质进行预测，可以大幅提高计算画质的效率。 S104、根据目标图片和目标音频合成多媒体作品。通过将目标图片，也即每一个目标多媒体信息中的高光片段按照展示序号以及展示时间进行拼接，即可获得由高光片段组成的视频文件，例如，对每幅目标图片设置展示序号以及展示时间，根据展示序号以及展示时间依次展示目标图片，即为视频文件，比如有两幅目标图片，设置第一幅目标图片的展示时间为 30秒，第二幅目标图片的展示时间为 30秒，那么两幅目标图片即可合成得到一个 1分钟时长的视频文件。高光片段即高光时刻的片段，高光时刻即精彩时刻的意思，来源于英文单词 highlight_o 进一步将目标音频作为背景音乐合成到视频文件中，即可获得影像内容与背景音乐相匹配的高画质多媒体作品。本公开通过获取目标音频以及至少一个多媒体信息，通过计算目标音频和多媒体信息间的匹配程度，获得与目标音频匹配的目标多媒体信息，从而保证后续进一步筛选的图片均是与目标音频匹配的素材，再计算目标多媒体信息中每一幅图片的回质，从目标多媒体信息中选择高回质的图片，利用高画质图片进行合成获得视频文件，最后将目标音频作为背景音乐合成到视频文件中，可获得影像内容与背景音乐相匹配的高画质多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。在上述各实施例的基础上，作为一种可选实施例，根据所述目标图片以及目标音频合成多媒体作品，包括：从目标图片中抽取第三预设数量的图片与目标音频进行合成，获得多媒体作品。具体地，本公开可以从目标图片中随机抽取第三预设数量的图片进行合成，也可以采用目标图片进行乱序排列，再随机抽取的方式，本公开对抽取图片的方式不作限定。本公开实施例通过从目标图像中抽取第三预设数量的图片进行合成获得多媒体作品，能够在利用同一个目标音频以及同一批多媒体信息多次生成多媒体作品时，避免生成具有重复图片的多媒体作品，增强了个性化和多样化的特性。在上述各实施例的基础上，作为一种可选实施例，确定目标音频与至少一个多媒体信息间的匹配程度，包括： 5201、获取目标音频的音频特征，将音频特征输入至预先训练的音频理解模型，获得音频理解模型输出的目标音频的音频理解特征。本公开的音频特征是通过信号处理方法获得的，例如过零率、短时能量、基频、幅度、音宽、音强等等，音频特征不具有理解信息，通过将音频特征输入至预先训练的音频理解模型，即可获得目标音频的音频理解特征。应当理解的是，在执行 S201 之前，还可以预先训练音频理解模型，具体可以通过如下方法训练得到音频理解模型：首先收集一定数量的样本音乐，获取每个样本音乐的音频特征，并确定每个样本音乐的音乐类型，随即，基于样本音乐的音频特征以及样本音乐的音乐类型对初始模型进行训练，从而得到音频理解模型，其中初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。音频理解模型能够根据输入的音频特征获得音频理解特征，并根据音频理解特征进一步预测音乐类型，从而在输入目标音频的音频特征后 , 获得音频理解模型输出的目标音频的音频理解特征。

5202、对多媒体信息进行抽帧，将抽帧结果输入至预先训练的视频理解模型 , 获得视频理解模型输出的多媒体信息的视频理解特征。应当理解的是，对于图片类的多媒体信息，抽帧结果就是图片本身，对于视频类的多媒体信息，抽帧结果是该视频的多帧图片。在执行 S202之前，还可以预先训练视频理解模型，具体可以通过如下方法训练得到视频理解模型：首先收集一定数量的样本多媒体信息，获取每个样本多媒体信息的抽帧结果，并确定每个样本多媒体信息的主题，随即，基于样本多媒体信息的抽帧结果以及样本多媒体信息的主题对初始模型进行训练，从而得到视频理解模型，其中初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。视频理解模型能够根据输入的抽帧结果获得视频理解特征，并根据视频理解特征进一步预测主题，从而在输入多媒体信息的抽帧结果后，获得视频理解模型输出的多媒体信息的视频理解特征。

5203、将音频理解特征与至少一个多媒体信息的视频理解特征输入至预先训练的匹配模型，获得匹配模型输出的音频理解特征与视频理解特征间的匹配程度，作为目标音频与至少一个多媒体信息的匹配程度。应当理解的是，在执行 S203之前，还可以预先训练匹配模型，具体可以通过如下方法训练得到匹配模型：首先收集一定数量的样本音乐和样本多媒体信息，获取每个样本音乐的音频理解特征和样本多媒体信息的视频理解特征，并确定每个样本音乐和样本多媒体信息的匹配程度，随即，基于样本音乐的音频理解特征、样本多媒体信息的视频理解特征以及样本音乐和样本多媒体信息的匹配程度对初始模型进行训练，从而得到匹配模型，其中初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。本公开实施例通过音频理解模型获得目标音频的音频理解特征，通过视频理解模型获得多媒体信息的视频理解特征，最后通过匹配模型获得目标音频和多媒体信息间的匹配程度，由于整个过程是基于神经网络模型实现的，因此在实现效率和准确率上相比人工进行匹配具有大幅提高。在上述各实施例的基础上，作为一种可选实施例，音频理解模型为第一特征提取层和第一分类层；进一步地，音频理解模型的训练方法包括：

5301、初始化第一特征提取层和第一分类层的参数；

5302、将一定数量的样本音乐的音频特征作为训练样本，将样本音乐的音乐类型作为样本标签，将训练样本和样本标签输入至第一特征提取层，获得第一特征提取层输出的训练样本的音频理解特征；

5303、将训练样本的音频理解特征输入至第一分类层，获得第一分类层输出的训练样本的音乐类型的预测结果；

5304、计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第一特征提取层和第一分类层的参数，直至偏差的收敛程度小于预设阈值, 获得训练完成的音频理解模型。本公开的音频理解模型可以根据实际需要进行设置，本实施例中采用的是 BP神经网络。 BP(Back Propagation)网络是一种按误差逆传播算法训练的多层前馈网络。 BP神经网络的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。 BP神经网络模型拓扑结构包括输入层 (input)、隐含层 (hide layer)和输出层 (output layer) , 本公开将输入层和隐含层作为第一特征提取层 , 将输出层作为第一分类层。

BP 神经网络的训练基本思想是采用最速下降法 ,使神经网络的实际输出值与期望输出值之间的误差的平方和达到最小。学习过程中分前向传播和后向传播，前向传播指的是输入的数据将逐层经输入层、隐含层并最终在输出层得到一个输出值，但是如果网络的输出值不是所期望的，则启用后向传播 , 将所得误差沿各层反向传播，在传播的同时修正连接层的权值，促使下一轮前向传播的误差更小，最后达到最小误差。在上述各实施例的基础上，获得音频理解模型输出的音乐的音频理解特征，包括：将音乐输入至音频理解模型，获得音频理解模型的第一特征提取层输出的音乐的音频理解特征。在上述各实施例的基础上，作为一种可选实施例，本公开在训练视频理解模型的过程中是以迁移学习的方式获得视频理解模型。迁移学习（ Transfer Learning）是一种机器学习方法，就是把为任务 A开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。具体地，本公开视频理解模型的训练方法包括：

5401、迁移已经训练好的初始模型，结合样本多媒体信息的抽帧结果对初始模型进行参数和结构调整，得到迁移模型。本公开可以采用在 Kinetics-600 数据集上预训练的 Inflated 3D Convnet（I3D, 双流膨胀 3D卷积网络）网络作为初始模型， Kinetics-600是一个大规模，高质量的 YouTube视频网址数据集，其中包含各种以人为本的行动，该数据集由大约 500,000个视频剪辑组成，涵盖 600个人类动作类，每个动作类至少有 600个视频剪辑。每个剪辑持续大约 10秒钟，并标有一个类。所有剪辑都经过多轮人工注释，每个剪辑均来自一个独特的 YouTube视频。这些动作涵盖了广泛的课程，包括人 -物体交互，如演奏乐器，以及人与人之间的互动，如握手和拥抱。

I3D 网络是对一个非常深的图像分类网络中的卷积和池化 kernel从 2D 扩展到了 3D, 来无缝的学习时空特征，并且 I3D网络在 Kinetics预训之后， I3D 在基准数据集 HMDB-51 和 UCF-101达到了 80.9%和 98.0%的准确率。因此本公开基于已经训练好的初始模型（例如 I3D网络），将其应用到视频内容理解中。通过结合样本多媒体信息，微调初始模型的相关参数和结构，从而达到更加准确的视频内容理解中。

5402、根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，将训练好的迁移学习模型作为视频理解模型。训练步骤：根据反向传播法 (BP算法，即 Backpropagation algorithm算法)，用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型。单个神经网络的结构可如图 3所示,其中每一个圆圈代表着一个神经元, wl 和 w2代表神经元之间的权重， b表示偏置， g(z)为激活函数，从而使得输出变得非线性， a表示输出， xl和 x2表示输入，则针对当前结构，输出的可表示为公式 (1)。由公式 ⑴可得，在输入数据和激活函数不变的情况下，神经网络的输出的值 a是与权重和偏置有关的。通过调节不同的权重和偏置，神经网络的输出也会有不同的结果。 a = g(xl*wl+x2*w2+l*b) (1) 已知神经网络输出的值 (预测值)为 a, 假设其对应的真实值为 a'o 对于图 3, 其反向传播算法执行如下： i、在反向传播算法中，其会先随机初始化每条连接线权重 (wl和 w2)和偏置 b; ii、对于输入数据 xl , x2, BP算法都会先执行前向传输得到预测值 a; iii、然后根据真实值 a'与预测值 a之间的误差 E,逆向反馈更新神经网络中每条连接线的权重和每层的偏置； iiii、不断重复步骤 ii-iii, 直到网络收敛，即误差 E的值最小或者基本保持不变。此刻，表示网络已经训练完毕。本公开利用已经训练好的初始模型，通过迁移学习的方式建立视频理解模型，使得视频理解模型适应性地用于对视频类型的预测，减少了获取样本多媒体信息的主题标签的工作量，提高了算法的执行效率。在上述各实施例的基础上，作为一种可选实施例，视频理解模型为第二特征提取层和第二分类层；根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，包括：

5501、初始化第二特征提取层和第二分类层的参数；

5502、将样本多媒体信息的抽帧结果作为训练样本，以样本多媒体信息的主题作为样本标签，将训练样本和样本标签输入至第二特征提取层，获得第二特征提取层输出的训练样本的视频理解特征； 5503、将训练样本的视频理解特征输入至第二分类层，获得第二分类层输出的训练样本的主题的预测结果；

5504、计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第二特征提取层和第二分类层的参数，直至偏差的收敛程度小于预设阈值, 获得训练完成的迁移学习模型。在此基础上，将抽帧结果输入至预先训练的视频理解模型，获得视频理解模型输出的多媒体信息的视频理解特征，包括：将抽帧结果输入至视频理解模型，获得视频理解模型的第二特征提取层输出的多媒体信息的视频理解特征。在上述各实施例的基础上，计算目标多媒体信息中每一幅图片的回质，包括：将目标图片输入至预先训练的回质预测模型，获得回质预测模型输出的目标图片的回质。作为一种可选实施例，画质预测模型的训练方法包括：初始化画质预测模型的参数 ; 将一定数量的样本图片作为训练样本，以样本图片的画质评分作为样本标签；将训练样本输入至画质预测模型，获得画质预测模型输出的训练样本的画质评分的预测结果；计算任意两个训练样本的画质评分的预测结果的差值与任意两个训练样本对应的样本标签间的差值间的偏差，逆向反馈调整画质预测模型的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的画质预测模型。本公开的画质预测模型可以采用 CNN （ Convolutional Neural Networks , 卷积神经网络），进一步地，可以采用 mobilenet神经网络。 mobilenet神经网络是 CNN 的一种，属于轻量级的神经网络，在目标检测，分类，跟踪等诸多领域具有广泛的应用。本公开在计算偏差时，通过考量两个训练样本的画质评分的预测结果的差值，相比单 — 个训练样本的画质评分的预测结果，能够使画质预测更快的收敛。图 4A和图 4B为本公开的另一个实施例的多媒体作品的制作方法的流程示意图，其中，图 4A和图 4B构成一个完整的流程图，图 4A示出了该流程图的 A部分，图 4B示出了该流程图的 B部分，图 4B示出的 B部分为接在图 4A所示的 A部分后的部分流程图。如图 4A和图 4B所示，该方法包括：首先，通过获得用户终端本地的相册访问权限，搜索相册中的原创视频, 通过对每一个原创视频进行抽帧，获得对应每个远程视频的帧序列（也称之为视频帧序列），对每个帧序列设置一个对应的唯一标识，即视频 ID; 将帧序列输入至预先训练的视频理解模型进行视频理解分析 , 获得视频理解模型输出的视频理解特征，也即视频特征结果向量；同时，根据音频 URL （ Uniform Resource Locator, 统一资源定位器），即音频在互联网的下载地址下载目标音频；获取目标音频的音频特征，将音频特征输入至预先训练的音频理解模型进行音频理解分析，获得音频理解模型输出的音频理解特征，也即音频特征结果向量；接着，将音频理解特征相邻与视频特征结果向量输入至预先训练的匹配模型（也即打分系统）进行匹配程度的预测，获得每个视频特征结果向量与音频理解特征向量的匹配程度；根据匹配程度从高到低的顺序对视频帧序列进行排序，将排序靠前的第一预设数量的视频帧序列作为目标视频帧序列；计算目标视频帧序列中每一幅图片的画质，根据画质从高到低进行排序 , 将排序靠前的第二预设数量的图片作为目标图片，这些目标图片即组成了每个视频帧序列中的高光片段序列。在获得每个视频帧序列的高光片段序列进行乱序排列，随机选取 Y个图片，即可作为结果高光片段序列，将结果高光片段序列合成为视频，并与目标音频进行合成，获得多媒体作品。本公开实施例提供了一种多媒体作品的制作装置，如图 5所示，该多媒体作品的制作装置可以包括：素材获取模块 101、匹配模块 102、目标图片获取模块 103和音乐合成模块 104, 其中，素材获取模块 101 , 用于获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；匹配模块 102,用于确定目标音频与至少一个多媒体信息间的匹配程度, 根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；目标图片获取模块 103 ,用于确定目标多媒体信息中每一幅图片的回质, 根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；音乐合成模块 104, 用于根据目标图片以及目标音频合成多媒体作品。本申请实施例提供的多媒体作品的制作装置，具体执行上述多媒体作品的制作方法流程，具体请详见上述多媒体作品的制作方法实施例的内容，在此不再赘述。本申请实施例提供的多媒体作品的制作装置，通过获取目标音频以及至少一个多媒体信息，通过计算目标音频和多媒体信息间的匹配程度 , 获得与目标音频匹配的目标多媒体信息，从而保证后续进一步筛选的图片均是与目标音频匹配的素材，再计算目标多媒体信息中每一幅图片的回质，从目标多媒体信息中选择高画质的图片，利用高画质图片与目标音频进行合成, 获得多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。在上述各实施例的基础上，作为一种可选实施例，音乐合成模块用于从目标图片中抽取第三预设数量的图片与目标音频进行合成，获得多媒体作品。在上述各实施例的基础上，作为一种可选实施例，匹配模块包括用于确定目标音频与至少一个多媒体信息间的匹配程度的匹配程度计算子模块，匹配程度计算子模块包括：音频理解单元，用于获取目标音频的音频特征，将音频特征输入至预先训练的音频理解模型，获得音频理解模型输出的目标音频的音频理解特征；视频理解单元，用于对多媒体信息进行抽帧，将抽帧结果输入至预先训练的视频理解模型，获得视频理解模型输出的多媒体信息的视频理解特征；匹配程度确定单元，用于将音频理解特征与至少一个多媒体信息的视频理解特征输入至预先训练的匹配模型，获得匹配模型输出的音频理解特征与视频理解特征间的匹配程度，作为目标音频与至少一个多媒体信息的匹配程在上述各实施例的基础上，作为一种可选实施例，音频理解模型为第一特征提取层和第一分类层；匹配程度计算子模块还包括用于训练音频理解模型的音频理解训练单元，音频理解训练单元进一步包括：第一参数初始化子单元，用于初始化第一特征提取层和第一分类层的参数；第一特征获取子单元，用于将一定数量的样本音乐的音频特征作为训练样本，将样本音乐的音乐类型作为样本标签，将训练样本和样本标签输入至第一特征提取层，获得第一特征提取层输出的训练样本的音频理解特征；第一预测结果获取子单元，用于将训练样本的音频理解特征输入至第一分类层，获得第一分类层输出的训练样本的音乐类型的预测结果；第一反馈子单元 , 用于计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第一特征提取层和第一分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的音频理解模型。在上述各实施例的基础上，作为一种可选实施例，音频理解单元获得音频理解模型输出的音乐的音频理解特征，具体包括：将音乐输入至音频理解模型，获得音频理解模型的第一特征提取层输出的音乐的音频理解特征。在上述各实施例的基础上，作为一种可选实施例，匹配程度计算子模块还包括用于训练视频理解模型的视频理解训练单元，视频理解训练单元进一步包括：迁移模型获取子单元，用于迁移已经训练好的初始模型，结合样本多媒体信息的抽帧结果对初始模型进行参数和结构调整，得到迁移模型；模型训练子单元，用于根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，将训练好的迁移学习模型作为视频理解模型。在上述各实施例的基础上，作为一种可选实施例，视频理解模型为第二特征提取层和第二分类层；模型训练子单元进一步包括：第二参数初始化子单元，用于初始化第二特征提取层和第二分类层的参数；第二特征获取子单元 ,用于将样本多媒体信息的抽帧结果作为训练样本, 以样本多媒体信息的主题作为样本标签 , 将训练样本和样本标签输入至第二特征提取层，获得第二特征提取层输出的训练样本的视频理解特征；第二预测结果获取子单元，用于将训练样本的视频理解特征输入至第二分类层，获得第二分类层输出的训练样本的主题的预测结果；第二反馈子单元 , 用于计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第二特征提取层和第二分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的迁移学习模型。在上述各实施例的基础上，作为一种可选实施例，视频理解单元获得视频理解模型输出的多媒体信息的视频理解特征，包括：将抽帧结果输入至视频理解模型，获得视频理解模型的第二特征提取层输出的多媒体信息的视频理解特征。在上述各实施例的基础上，作为一种可选实施例，目标图片获取模块计算目标多媒体信息中每一幅图片的画质，包括：将目标图片输入至预先训练的画质预测模型，获得画质预测模型输出的目标图片的画质。目标图片获取模块包括用于训练画质预测模型的画质模型预测模块，画质模型预测模块进一步包括：参数初始化单元，用于初始化画质预测模型的参数；预测结果获取单元，用于将一定数量的样本图片作为训练样本，以样本图片的画质评分作为样本标签，将训练样本输入至画质预测模型，获得画质预测模型输出的训练样本的画质评分的预测结果；反馈调节单元，用于计算任意两个训练样本的画质评分的预测结果的差值与任意两个训练样本对应的样本标签间的差值间的偏差，逆向反馈调整画质预测模型的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的画质预测模型。本公开实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过获取目标音频以及至少一个多媒体信息，通过计算目标音频和多媒体信息间的匹配程度，获得与目标音频匹配的目标多媒体信息，从而保证后续进一步筛选的图片均是与目标音频匹配的素材，再计算目标多媒体信息中每一幅图片的回质，从目标多媒体信息中选择高回质的图片，利用高画质图片与目标音频合成得到多媒体作品，可获得影像内容与背景音乐相匹配的高画质多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。在一个可选实施例中提供了一种电子设备，如图 6所示，图 6所示的电子设备 4000包括：处理器 4001和存储器 4003 o 其中，处理器 4001和存储器 4003相连，如通过总线 4002相连。可选地，电子设备 4000还可以包括收发器 4004。需要说明的是，实际应用中收发器 4004不限于一个，该电子设备 4000的结构并不构成对本公开实施例的限定。处理器 4001可以是 CPU（ Central Processing Unit, 中央处理器），通用处理器， DSP（ Digital Signal Processor,数据信号处理器）， ASIC（ Application Specific Integrated Circuit, 专用集成电路）， FPGA（ Field Programmable Gate Array, 现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器 4001也可以是实现计算功能的组合，例如包 —个或多个微处理器组合， DSP和微处理器的组合等。总线 4002可包括一通路，在上述组件之间传送信息。总线 4002可以是 PCI （ Peripheral Component Interconnect, 外设部件互连标准）总线或 EISA （ Extended Industry Standard Architecture, 扩展工业标准结构）总线等。总线 4002可以分为地址总线、数据总线、控制总线等。为便于表示，图 6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。存储器 4003可以是 ROM （ Read Only Memory, 只读存储器）或可存储静态信息和指令的其他类型的静态存储设备, RAM（ Random Access Memory, 随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是 EEPROM （ Electrically Erasable Programmable Read Only Memory, 电可擦可编程只读存储器）、 CD-ROM（ Compact Disc Read Only Memory, 只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器 4003用于存储执行本申请方案的应用程序代码，并由处理器 4001 来控制执行。处理器 4001用于执行存储器 4003中存储的应用程序代码，以实现前述方法实施例所示的内容。本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，通过获取目标音频以及至少一个多媒体信息，通过计算目标音频和多媒体信息间的匹配程度，获得与目标音频匹配的目标多媒体信息，从而保证后续进一步筛选的图片均是与目标音频匹配的素材，再计算目标多媒体信息中每一幅图片的回质，从目标多媒体信息中选择高画质的图片，利用高画质图片与目标音频进行合成获得多媒体作品 , 可获得影像内容与背景音乐相匹配的高画质多媒体作品，减少用户在剪辑编辑视频所消耗的时间成本和学习代价。应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。以上仅是本公开的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本公开提供一种多媒体作品的制作方法，包括：获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；确定目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；确定目标多媒体信息中每一幅图片的回质，根据回质从高到低的顺序对目标多媒体信息的每一幅图片进行排序 , 将排序靠前的第二预设数量的图片作为目标图片；根据目标图片和目标音频合成多媒体作品。进一步地，根据目标图片以及目标音频合成多媒体作品，包括：从目标图片中抽取第三预设数量的图片与目标音频进行合成，获得多媒体作品。进一步地，确定目标音频与至少一个多媒体信息间的匹配程度，包括：获取目标音频的音频特征，将音频特征输入至预先训练的音频理解模型 , 获得音频理解模型输出的目标音频的音频理解特征；对多媒体信息进行抽帧 , 将抽帧结果输入至预先训练的视频理解模型，获得视频理解模型输出的多媒体信息的视频理解特征；将音频理解特征与至少一个多媒体信息的视频理解特征输入至预先训练的匹配模型，获得匹配模型输出的音频理解特征与视频理解特征间的匹配程度，作为目标音频与至少一个多媒体信息的匹配程度。进一步地，音频理解模型包括第一特征提取层和第一分类层；音频理解模型的训练方法包括：初始化第一特征提取层和第一分类层的参数；将一定数量的样本音乐的音频特征作为训练样本，将样本音乐的音乐类型作为样本标签，将训练样本和样本标签输入至第一特征提取层，获得第一特征提取层输出的训练样本的音频理解特征；将训练样本的音频理解特征输入至第一分类层，获得第一分类层输出的训练样本的音乐类型的预测结果；计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第一特征提取层和第一分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的音频理解模型。进一步地，获得音频理解模型输出的音乐的音频理解特征，包括：将音乐输入至音频理解模型，获得音频理解模型的第一特征提取层输出的音乐的音频理解特征。进一步地，视频理解模型的训练方法包括：迁移已经训练好的初始模型，结合样本多媒体信息的抽帧结果对初始模型进行参数和结构调整，得到迁移模型；根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，将训练好的迁移学习模型作为视频理解模型。进一步地，视频理解模型包括第二特征提取层和第二分类层；根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，包括：初始化第二特征提取层和第二分类层的参数；将样本多媒体信息的抽帧结果作为训练样本，以样本多媒体信息的主题作为样本标签，将训练样本和样本标签输入至第二特征提取层，获得第二特征提取层输出的训练样本的视频理解特征；将训练样本的视频理解特征输入至第二分类层，获得第二分类层输出的训练样本的主题的预测结果；计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第二特征提取层和第二分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的迁移学习模型。进一步地，将抽帧结果输入至预先训练的视频理解模型，获得视频理解模型输出的多媒体信息的视频理解特征，包括：将抽帧结果输入至视频理解模型 , 获得视频理解模型的第二特征提取层输出的多媒体信息的视频理解特征。进一步地，确定目标多媒体信息中每一幅图片的画质，包括：将目标图片输入至预先训练的回质预测模型，获得回质预测模型输出的目标图片的回质。进一步地，画质预测模型的训练方法包括：初始化画质预测模型的参数 ; 将一定数量的样本图片作为训练样本，以样本图片的画质评分作为样本标签，将训练样本输入至画质预测模型，获得画质预测模型输出的训练样本的画质评分的预测结果；计算任意两个训练样本的画质评分的预测结果的差值与任意两个训练样本对应的样本标签间的差值间的偏差，逆向反馈调整画质预测模型的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的画质预测模型。本公开还提供一种多媒体作品的制作装置，包括：素材获取模块，用于获取目标音频以及至少一个多媒体信息，至少一个多媒体信息包括图片和视频中的至少一种；匹配模块，用于确定目标音频与至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；目标图片获取模块，用于确定目标多媒体信息中每一幅图片的回质，根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；音乐合成模块，用于根据所述目标图片以及目标音频合成多媒体作品。进一步地，音乐合成模块具体用于：从目标图片中抽取第三预设数量的图片与目标音频进行合成，获得多媒体作品。进一步地，匹配模块包括用于确定目标音频与至少一个多媒体信息间的匹配程度的匹配程度计算子模块，匹配程度计算子模块包括：音频理解单元，用于获取目标音频的音频特征，将音频特征输入至预先训练的音频理解模型，获得音频理解模型输出的目标音频的音频理解特征；视频理解单元，用于对多媒体信息进行抽帧，将抽帧结果输入至预先训练的视频理解模型，获得视频理解模型输出的多媒体信息的视频理解特征；匹配程度确定单元，用于将音频理解特征与至少一个多媒体信息的视频理解特征输入至预先训练的匹配模型，获得匹配模型输出的音频理解特征与视频理解特征间的匹配程度，作为目标音频与至少一个多媒体信息的匹配程进一步地，音频理解模型为第一特征提取层和第一分类层；匹配程度计算子模块还包括用于训练音频理解模型的音频理解训练单元，音频理解训练单元进一步包括：第一参数初始化子单元，用于初始化第一特征提取层和第一分类层的参数；第一特征获取子单元，用于将一定数量的样本音乐的音频特征作为训练样本，将样本音乐的音乐类型作为样本标签，将训练样本和样本标签输入至第一特征提取层，获得第一特征提取层输出的训练样本的音频理解特征；第一预测结果获取子单元，用于将训练样本的音频理解特征输入至第一分类层，获得第一分类层输出的训练样本的音乐类型的预测结果；第一反馈子单元 , 用于计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第一特征提取层和第一分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的音频理解模型。进一步地,音频理解单元获得音频理解模型输出的音乐的音频理解特征, 具体包括：将音乐输入至音频理解模型，获得音频理解模型的第一特征提取层输出的音乐的音频理解特征。进一步地，匹配程度计算子模块还包括用于训练视频理解模型的视频理解训练单元，视频理解训练单元进一步包括：迁移模型获取子单元，用于迁移已经训练好的初始模型，结合样本多媒体信息的抽帧结果对初始模型进行参数和结构调整，得到迁移模型；模型训练子单元，用于根据反向传播法，利用样本多媒体信息的抽帧结果以及样本多媒体信息的主题训练迁移学习模型，将训练好的迁移学习模型作为视频理解模型。进一步地，视频理解模型为第二特征提取层和第二分类层；模型训练子单元进一步包括：第二参数初始化子单元，用于初始化第二特征提取层和第二分类层的参数；第二特征获取子单元 ,用于将样本多媒体信息的抽帧结果作为训练样本, 以样本多媒体信息的主题作为样本标签 , 将训练样本和样本标签输入至第二特征提取层，获得第二特征提取层输出的训练样本的视频理解特征；第二预测结果获取子单元，用于将训练样本的视频理解特征输入至第二分类层，获得第二分类层输出的训练样本的主题的预测结果；第二反馈子单元 , 用于计算预测结果与训练样本对应的样本标签间的偏差，逆向反馈调整第二特征提取层和第二分类层的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的迁移学习模型。进一步地，视频理解单元获得视频理解模型输出的多媒体信息的视频理解特征，包括：将抽帧结果输入至视频理解模型，获得视频理解模型的第二特征提取层输出的多媒体信息的视频理解特征。进一步地，目标图片获取模块计算目标多媒体信息中每一幅图片的画质, 包括：将目标图片输入至预先训练的回质预测模型，获得回质预测模型输出的目标图片的回质。目标图片获取模块包括用于训练画质预测模型的画质模型预测模块，画质模型预测模块进一步包括：参数初始化单元，用于初始化画质预测模型的参数；预测结果获取单元，用于将一定数量的样本图片作为训练样本，以样本图片的画质评分作为样本标签，将训练样本输入至画质预测模型，获得画质预测模型输出的训练样本的画质评分的预测结果；反馈调节单元，用于计算任意两个训练样本的画质评分的预测结果的差值与任意两个训练样本对应的样本标签间的差值间的偏差，逆向反馈调整画质预测模型的参数，直至偏差的收敛程度小于预设阈值，获得训练完成的画质预测模型。

Claims

权利要求书

1、一种多媒体作品的制作方法，包括：获取目标音频以及至少一个多媒体信息，其中，所述至少一个多媒体信息包括图片和视频中的至少一种 ; 确定所述目标音频与所述至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对所述至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；确定所述目标多媒体信息中每一幅图片的回质，根据回质从高到低的顺序对所述目标多媒体信息的每一幅图片进行排序 , 将排序靠前的第二预设数量的图片作为目标图片；根据所述目标图片以及目标音频合成多媒体作品。

2、根据权利要求 1所述的多媒体作品的制作方法，其中，所述根据所述目标图片以及目标音频合成多媒体作品，包括：从所述目标图片中抽取第三预设数量的图片与所述目标音频进行合成 , 获得所述多媒体作品。

3、根据权利要求 1或 2所述的多媒体作品的制作方法，其中，所述确定所述目标音频与所述至少一个多媒体信息间的匹配程度，包括：获取所述目标音频的音频特征，将所述音频特征输入至预先训练的音频理解模型 , 获得所述音频理解模型输出的所述目标音频的音频理解特征；对所述多媒体信息进行抽帧 , 将抽帧结果输入至预先训练的视频理解模型，获得所述视频理解模型输出的所述多媒体信息的视频理解特征；将所述音频理解特征与所述至少一个多媒体信息的视频理解特征输入至预先训练的匹配模型，获得所述匹配模型输出的所述音频理解特征与视频理解特征间的匹配程度，作为所述目标音频与所述至少一个多媒体信息的匹配程度。

4、根据权利要求 3所述的多媒体作品的制作方法，其中，所述音频理解模型包括第一特征提取层和第一分类层；所述音频理解模型的训练方法包括：初始化所述第一特征提取层和第一分类层的参数；

24 将一定数量的样本音乐的音频特征作为训练样本，将所述样本音乐的音乐类型作为样本标签，将所述训练样本和样本标签输入至所述第一特征提取层，获得所述第一特征提取层输出的所述训练样本的音频理解特征；将所述训练样本的音频理解特征输入至所述第一分类层 , 获得所述第一分类层输出的所述训练样本的音乐类型的预测结果；计算所述预测结果与所述训练样本对应的样本标签间的偏差，逆向反馈调整所述第一特征提取层和第一分类层的参数，直至所述偏差的收敛程度小于预设阈值，获得训练完成的所述音频理解模型。

5、根据权利要求 4所述的多媒体作品的制作方法，其中，所述获得所述音频理解模型输出的所述音乐的音频理解特征，包括：将所述音乐输入至所述音频理解模型，获得所述音频理解模型的第一特征提取层输出的所述音乐的音频理解特征。

6、根据权利要求 3-5任一所述的多媒体作品的制作方法，其中，所述视频理解模型的训练方法包括：迁移已经训练好的初始模型，结合样本多媒体信息的抽帧结果对所述初始模型进行参数和结构调整，得到迁移模型；根据反向传播法，利用所述样本多媒体信息的抽帧结果以及所述样本多媒体信息的主题训练所述迁移学习模型，将训练好的所述迁移学习模型作为所述视频理解模型。

7、根据权利要求 6所述的多媒体作品的制作方法，其中，所述视频理解模型包括第二特征提取层和第二分类层；所述根据反向传播法，利用所述样本多媒体信息的抽帧结果以及所述样本多媒体信息的主题训练所述迁移学习模型，包括：初始化所述第二特征提取层和第二分类层的参数；将所述样本多媒体信息的抽帧结果作为训练样本，以所述样本多媒体信息的主题作为样本标签 , 将所述训练样本和样本标签输入至所述第二特征提取层，获得所述第二特征提取层输出的所述训练样本的视频理解特征；将所述训练样本的视频理解特征输入至所述第二分类层，获得所述第二分类层输出的所述训练样本的主题的预测结果；计算所述预测结果与所述训练样本对应的样本标签间的偏差，逆向反馈调整所述第二特征提取层和第二分类层的参数，直至所述偏差的收敛程度小于预设阈值，获得训练完成的所述迁移学习模型。

8、根据权利要求 7所述的多媒体作品的制作方法，其中，所述将抽帧结果输入至预先训练的视频理解模型，获得所述视频理解模型输出的所述多媒体信息的视频理解特征，包括：将所述抽帧结果输入至所述视频理解模型，获得所述视频理解模型的第二特征提取层输出的所述多女某体信息的视频理解特征。

9、根据权利要求 1-8任一所述的多媒体作品的制作方法，其中，确定所述目标多媒体信息中每一幅图片的画质，包括：将所述目标图片输入至预先训练的回质预测模型，获得所述回质预测模型输出的所述目标图片的画质。

10、根据权利要求 9所述的多媒体作品的制作方法，其中，所述画质预测模型的训练方法包括：初始化所述画质预测模型的参数；将一定数量的样本图片作为训练样本，以样本图片的画质评分作为样本标签，将所述训练样本输入至所述画质预测模型，获得所述画质预测模型输出的所述训练样本的画质评分的预测结果；计算任意两个训练样本的画质评分的预测结果的差值与所述任意两个训练样本对应的样本标签间的差值间的偏差，逆向反馈调整所述画质预测模型的参数，直至所述偏差的收敛程度小于预设阈值，获得训练完成的所述画质预测模型。

11、一种多媒体作品的制作装置，包括：素材获取模块，用于获取目标音频以及至少一个多媒体信息，其中，所述至少一个多媒体信息包括图片和视频中的至少一种；匹配模块，用于确定所述目标音频与所述至少一个多媒体信息间的匹配程度，根据匹配程度从高到低的顺序对所述至少一个多媒体信息进行排序，将排序靠前的第一预设数量的多媒体信息作为目标多媒体信息；目标图片获取模块,用于确定所述目标多媒体信息中每一幅图片的回质, 根据画质从高到低的顺序对所述目标多媒体信息的每一幅图片进行排序，将排序靠前的第二预设数量的图片作为目标图片；音乐合成模块，用于根据所述目标图片以及目标音频合成多媒体作品。

12、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求 1至 10任一项所述多媒体作品的制作方法的步骤。

13、一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求 1至 10中任意一项所述多媒体作品的制作方法的步骤。

27