WO2019062716A1

WO2019062716A1 - 一种音乐的生成方法和装置

Info

Publication number: WO2019062716A1
Application number: PCT/CN2018/107361
Authority: WO
Inventors: 王楠; 刘威; 马林; 姜文浩; 李廣之; 康世胤; 陀得意; 朱晓龙; 张友谊; 林少彬; 郑永森; 邹子馨; 何静; 陈在真; 李品逸
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-09-30
Filing date: 2018-09-25
Publication date: 2019-04-04
Also published as: US11301641B2; CN109599079B; CN109599079A; EP3637283A4; EP3637283A1; US20200051536A1

Abstract

一种音乐的生成方法和装置，用于通过输入图像就可以自动生成音乐，适用于无音乐基础的用户。该方法包括：对终端中已输入的多张图像分别进行场景识别，生成分别匹配于多张图像对应场景的描述文字（101）；对每张图像对应场景匹配出的描述文字进行基于关键词的押韵匹配，生成多张图像分别对应的押韵歌词（102）；将多张图像分别对应的押韵歌词转换为语音（103）；将语音和预置的背景音乐合成得到图像音乐（104）。

Description

一种音乐的生成方法和装置

本申请要求于2017年09月30日提交中国专利局、申请号为201710920219.7、申请名称为“一种音乐的生成方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及音乐的生成。

背景技术

音乐在人们的生活中发挥着不可替代的作用，音乐根据节奏感不同又可分为多种音乐类型，其中嘻哈音乐(Rap music或Hip hop)是一种跟着伴奏、带着韵律吟诵(饶舌)的音乐风格，所用的伴奏多产生于音乐取样手段。目前音乐的生成方式主要是由人们进行人工创作来完成，例如嘻哈音乐可以由专业嘻哈歌手编制嘻哈音乐。但对于没有音乐基础的人们来说，根本不具备创作音乐的能力。

为了实现音乐的无门槛创作，需要生成可供普通用户欣赏的音乐，现有技术中产生了如下的两种音乐生成方式：第一种是将视频的声音转为音乐的方法，第二种是将用户录制的语音转为音乐的方法。对于第一种通过视频的声音生成音乐的方法，需要处理视频数据，以提取出该视频携带的声音数据，再为该声音配上背景音乐，从而生成可供用户欣赏的音乐。对于第二种通过语音生成音乐的方法，不需要处理视频数据，只需要将语音和背景音乐进行合成，就可以生成可供用户欣赏的音乐。

上述生成音乐的技术方案中，只能简单的为视频的声音或者语音配上背景音乐，这种音乐生成方式并不没有考虑到声音或者语音自身的音频特征，从而生成的音乐不能与用户所提供的音乐素材紧密关联起来，造成生成的音乐不能和用户输入的音乐素材匹配。

发明内容

本申请实施例提供了一种音乐的生成方法和装置，用于通过输入图像就可以自动生成与场景的描述文字匹配的音乐。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种音乐的生成方法，包括：

对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应的场景的描述文字；

对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词；

将所述多张图像分别对应的押韵歌词转换为语音；

将所述语音和预置的背景音乐合成在一起，生成图像音乐。

第二方面，本申请实施例还提供一种音乐的生成装置，所述音乐的生成装置包括：

场景识别模块，用于对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应的场景的描述文字；

押韵匹配模块，用于对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词；

语音生成模块，用于将所述多张图像分别对应的押韵歌词转换为语音；

音乐生成模块，用于将所述语音和预置的背景音乐合成在一起，生成图像音乐。

第三方面，本申请实施例还提供了一种终端，所述终端包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于调用存储器中程序代码的指令执行第一方面所述的方法。

第四方面，本申请实施例还提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

第五方面，本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，首先对终端中已输入的多张图像分别进行场景识别，生成分别匹配于多张图像对应的场景的描述文字，然后对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成多张图像分别对应的押韵歌词，接下来将多张图像分别对应的押韵歌词转换为语音，最后将语音和预置的背景音乐合成在一起，生成图像音乐。本申请实施例中只需要终端提供多张图像就可以生成图像音乐，通过对多张图像进行场景识别，然后自动匹配出与场景相适应的描述文字，再对场景的描述文字进行押韵设计，这样生成的押韵歌词符合音乐特色，进而将押韵歌词转为语音，最后将押韵歌词与背景音乐合成，就可以形成一段图像音乐。图像音乐中的押韵歌词是根据终端输入的图像生成的，因此输出的图像音乐可与用户所提供的图像素材紧密关联起来，通过输入图像就可以自动生成与场景的描述文字匹配的音乐。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音乐的生成方法的流程方框示意图；

图2为本申请实施例提供的嘻哈音乐的生成流程示意图；

图3为本申请实施例提供的客户端上传多张图像的示意图；

图4为本申请实施例提供的押韵歌词转换为语音的流程示意图；

图5-a为本申请实施例提供的一种音乐的生成装置的组成结构示意图；

图5-b为本申请实施例提供的一种场景识别模块的组成结构示意图；

图5-c为本申请实施例提供的一种押韵匹配模块的组成结构示意图；

图5-d为本申请实施例提供的一种歌词生成模块的组成结构示意图；

图5-e为本申请实施例提供的一种歌词获取模块的组成结构示意图；

图5-f为本申请实施例提供的一种语音生成模块的组成结构示意图；

图6为本申请实施例提供的音乐的生成方法应用于终端的组成结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本申请实施例可以应用于终端中，在本申请实施例中，终端可以是具有音乐生成能力的PC(个人计算机)、移动终端、平板电脑等。

本申请音乐的生成方法的一个实施例，具体可以应用于基于用户输入的多种图像生成与该图像的描述文字匹配的音乐。请参阅图1所示，本申请一个实施例提供的音乐的生成方法，可以包括如下步骤：

101、对终端中已输入的多张图像分别进行场景识别，生成分别匹配于多张图像对应场景的描述文字。

在本申请实施例中，终端中用户可以输入多张图像用于生成图像音乐，本申请实施例中所描述的图像音乐是指与用户输入的多张图像相适应的具有节奏的音乐。其中，终端中已输入的多张图像可以是用户预先保存到终端的，也可以是用户实时采用终端的摄像头采集到的，例如多张图像可以是通过终端进入拍照模式后采集得到；或，多张图像从终端的相册中获取到。对于终端中已输入的多张图像的实现方式，不做限定。

在本申请实施例中，对于终端中已输入的多张图像可以分别进行场景识别，从而识别出每张图像对应的场景，例如对于图像场景的分类可以有多种实现方式，例如可以主要分风景、人物、食物、自拍等四类场景，根据用户上传图片进行图像场景识别，对每张图像进行场景识别，并分别为每张图像自动匹配出可描述不同图像对应的场景的文字，例如将多张图像进行场景识别，比如如果一张图像上有蓝天和小鸟，那么场景识别后会自动给出“小鸟在蓝天上翱翔”的描述文字。

在本申请的一些实施例中，步骤101对终端中已输入的多张图像分别进行场景识别，生成分别匹配于多张图像对应的场景的描述文字，包括：

A1、根据深度学习神经网络模型对多张图像进行场景识别，得到识别出的图像特征，并根据图像特征确定多张图像分别对应的场景；

A2、根据识别出的图像特征和多张图像分别对应的场景进行图像描述生成，得到多张图像对应的场景分别匹配出的描述文字。

其中，本申请实施例中可以采用深度学习神经网络模型对多张图像进行场景识别，该深度学习神经网络模型也可以称为神经图像注解模型，通过深度学习神经网络模型可以识别出图像特征，根据图像特征确定多张图像分别对应的场景。其中，图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。接下来，根据识别出的图像特征和多张图像分别对应的场景进行图像描述生成，得到多张图像对应的场景分别匹配出的描述文字。利用深度学习神经网络对图像场景进行识别，并自动匹配该场景的相关描述语文字。其中，图像描述生成是指基于计算机视觉，用场景和物体类别信息作为先验知识来提取图像特征，协同生成融合场景及物体类别的图像描述句子。

102、对每张图像对应场景匹配出的描述文字进行基于关键词的押韵匹配，生成多张图像分别对应的押韵歌词。

在本申请实施例中，通过场景识别可以生成每张图像对应的场景匹配出的描述文字，每张图像对应的场景所匹配出的描述文字是进一步生成歌词的依据，通过每张图像场景匹配出的描述文字可以进行文字的押韵设计，针对每张图像都可以生成有押韵歌词，其中，押韵歌词指的是具有押韵的一段歌词，每张图像对应的押韵歌词可以是一句歌词，也可以是两句或更多句的歌词。

在本申请的一些实施例中，步骤102对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成多张图像分别对应的押韵歌词，包括：

B1、从每张图像对应的场景匹配出的描述文字中获取描述文字中最后一个词所对应的汉语拼音和韵脚；

B2、根据描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词，其中，每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。

其中，对每张图像对应的场景所匹配出的描述文字，都可以该描述文字中最后一个词所对应的汉语拼音和韵脚。在中文汉字中，常用中文汉字不到8000个，因此可以预先生成常用汉字的拼音表，根据汉字建立索引加载到内存，可以根据需要获取汉字拼音，查韵母表可知有35种韵母，可以将所有韵母放在一个数组里，并且按照韵母长度按照大到小排序，然后依次比对字符串，从而得到最后一个词所对应的韵脚。在获取到描述文字中最后一个词对应的汉语拼音和韵脚之后，再基于描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词，其中，每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚，因此可以生成的押韵歌词的韵脚可以来源于描述文字的最后一个词的韵脚，采用相同的韵脚设计，可以保证所生成的对应于多张图像的押韵歌词可以具有协调统一的韵脚，读起来更朗朗上口。

进一步的，在本申请的一些实施例中，步骤B2根据描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于多张图像的押韵歌词，包括：

B21、从描述文字中最后一个词所对应的汉语拼音中排列出所有韵母；

B22、根据排列出的所有韵母确定韵母分配规律；

B23、从符合韵母分配规律的韵母中确定出描述文字中最后一个词所对应的韵脚；

B24、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于多张图像的押韵歌词，歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。

其中，多张图像中每张图像对应的场景都匹配出描述文字，这些描述文字中都包括有最后一个词，因此可以从多个最后一个词中的汉语拼音中排列出所有可能韵母，为每个韵母都预先生成有多句不同场景的描述文字作为歌词模板，通过多个描述文字的数据样本找到描述文字中最后一个词的韵母分配规律，找出最多分配的几种韵母，为这几种韵母增大数据量，从而可以确定采用哪个韵母来作为韵脚，基于韵母分配规律筛选出的韵脚来搜索歌词模板，使用该歌词模板可以获取到对应于多张图像的押韵歌词。

举例说明如下，以嘻哈音乐的押韵歌词生成为例，可以为不同的场景不同韵脚生成对应的嘻哈话术作为歌词模板，高频率的韵脚生成更多的话术供选择。然后根据韵脚和场景，随机选择出一个匹配的话术来生成嘻哈音乐的押韵歌词。对于相同的嘻哈话术，相同韵脚生成的嘻哈话术就是相同的，当某些韵脚出现的频率很高时，可以为这些频率高的韵脚生成更多的歌词模板，从而可以从多个歌词模板中来生成押韵歌词。

进一步的，在本申请的一些实施例中，步骤B24根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于多张图像的押韵歌词，包括：

B241、根据每张图像对应的场景匹配出的描述文字生成图像描述歌词；

B242、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词；

B243、将图像描述歌词与补充歌词合成在一起，得到押韵歌词。

具体的，在本申请的上述实施例中，每张图像对应的场景匹配出的描述文字可以作为图像描述歌词，图像描述歌词是指来源于描述文字的歌词，例如描述文字可以为“小鸟在蓝天上翱翔”，该描述文字可以作为图像描述歌词。在步骤B242中还可以获取到补充歌词，该补充歌词的生成可以与图像描述歌词的生成同时进行，补充歌词是指来源于歌词模板得到的歌词，补充歌词与图像描述歌词可以具有相同的韵脚。最后将图像描述歌词与补充歌词合成在一起，得到押韵歌词。举例说明，对描述文字进行押韵补充，例如对于图像描述歌词为“小鸟在蓝天上翱翔”，从歌词模板中可以找到与图像歌词具有相同韵脚的补充歌词，该补充歌词可以是“差不多的好，差不多的赞”，所以本申请实施例中最终生成的押韵歌词可以是：小鸟在蓝天上翱翔；差不多的好，差不多的赞。

进一步的，在本申请的一些实施例中，步骤B242、根据多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词，包括：

根据所述图像描述歌词确定符合双押韵的韵脚；

根据所述多张图像对应的场景以及各个场景下对应的符合双押韵的韵脚从预先生成的歌词模板中获取到补充歌词。

其中，在本申请实施例通过图像描述歌词获取韵脚时，还可以确定符合双押韵的韵脚，双押韵就是韵脚是两个字的押韵，基于场景以及符合双押韵的韵脚可以从歌词模板中获取到补充歌词，通过双押韵的方式生成补充歌词，使得补充歌词可以和图像描述歌词具有相同双押韵的韵脚。

103、将多张图像分别对应的押韵歌词转换为语音。

在本申请实施例中，获取到多张图像分别对应的押韵歌词之后，可以将押韵歌词进行文字转语音，其中，具体可以使用文本转为语音(Text To Speech，TTS)，将通过步骤102得到的押韵歌词都转为语音。

在本申请的一些实施例中，步骤103将多张图像分别对应的押韵歌词转换为语音，包括：

C1、对多张图像分别对应的押韵歌词进行文本分析，得到文本分析结果；

C2、从文本分析结果中提取出语言学特征；

C3、根据语言学特征进行音素级别的时长预测与时长自适应调整，得到与押韵歌词匹配的韵律特征和词性特征；

C4、基于语言学特征和与押韵歌词匹配的韵律特征和词性特征，使用神经网络模型进行发音生成，得到语音。

其中，对于每张图像分别对应的押韵歌词，可以首先进行文本分析，为后续特征提取提供信息，得到的文本分析结果主要可用于发音生成、韵律预测、词性预测等，得到文本分析结果后，对该结果进行语言学特征提取并转花成神经网络模型的输入向量。接下来可以使用时长模型进行音素级别的时长预测和时长自适应调整，由于本申请实施例中生成的押韵歌词与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个自适应的调整，使每个字都能在节拍上的同时保证原始的发音不改变。最后可以基于语言学特征和与押韵歌词匹配的韵律特征和词性特征，使用神经网络模型进行发音生成，得到语音。

104、将语音和预置的背景音乐合成得到图像音乐。

在本申请实施例中，通过步骤103押韵歌词转换为语音之后，该语音会包括有押韵歌词的内容，再将语音和背景音乐结合生成最终的图像音乐。该图像音乐是通过用户输入的多张图像编写出的押韵歌词和背景音乐合成得到，因此图像音乐在播放时用户可以听到一段有歌词、有节奏的音乐。例如通过多张图像编写出嘻哈押韵歌词之后，再将嘻哈押韵歌词与嘻哈背景音乐合成在一起，得到一段嘻哈音乐，从而完成文字转嘻哈音乐(Text To Rap，TTR)。

通过前述实施例对本申请的举例说明可知，首先对终端中已输入的多张图像分别进行场景识别，生成分别匹配于多张图像对应的场景的描述文字，然后对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成多张图像分别对应的押韵歌词，接下来将多张图像分别对应的押韵歌词转换为语音，最后将语音和预置的背景音乐合成在一起，生成图像音乐。本申请实施例中只需要终端提供多张图像就可以生成图像音乐，通过对多张图像进行场景识别，然后自动匹配出与场景相适应的描述文字，再对场景的描述文字进行押韵设计，这样生成的押韵歌词符合音乐特色，进而将押韵歌词转为语音，最后将押韵歌词与背景音乐合成，就可以形成一段图像音乐。图像音乐中的押韵歌词是根据终端输入的图像生成的，因此输出的图像音乐可与用户所提供的图像素材紧密关联起来，通过输入图像就可以自动生成与场景的描述文字匹配的音乐。

为便于更好的理解和实施本申请实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本申请实施例中，可以通过人工智能(Artificial Intelligence)编织歌曲，是一种具有前瞻性的尝试，为以后AI应用在更大场景提供了借鉴的价值。接下来以嘻哈音乐的生成为例，TTR(Text To Rap)即文本转为Rap Music，主要对多张输入图像进行场景识别，然后给出一段符合该场景的描述语，进而根据基于图像内容识别进行字幕的押韵设计，最后通过TTS，将这段对场景的描述语转为语音，后续加入特定节奏的背景音乐，将背景音乐和文本语音无缝连接以完成一首嘻哈音乐，最终生成一段具有嘻哈特性的美妙音乐。TTR通过对任何输入图像进行场景识别并给出描述语，通过一系列处理将这段描述转为嘻哈音乐，利用AI编织歌曲，是一种具有前瞻性的尝试，为以后AI应用在更大场景提供了借鉴的价值。

本申请实施例中主要基于对多张输入图像进行场景识别，最后将这多张输入图像组合成配有嘻哈音乐的MV(视频)。用户从手机客户端小程序输入多张图像，多张图像上传后，利用深度学习神经网络模型对图像场景进行识别，并自动匹配该场景的相关描述语，然后将这些相关描述语通过图像内容识别进行押韵设计，最后通过TTS技术将押韵后的文字转为语音，

如图2所示，本申请实施例提供的嘻哈音乐的生成流程示意图。本系统主要包含四部分内容：

1、用户从手机客户端上传或者选择多张图像。获取用户输入图像。

2、图像场景识别。对输入的多张图像进行场景识别，并给出相关描述语。

3、押韵设计。对相关描述语进行押韵设计。

4、将文本转为语音。将通过押韵的描述语转换为语音。

其中，当用户在手机客户端提交多张图像时，将对多张输入图像进行识别，然后对输入图像进行场景识别，自动匹配出与之相适应的描述语，再根据这些描述语的押韵情况进行押韵设计和补充，这是一个人工智能算法，通过输入的图片直接给出描述语，其实也就是直接判断这是一个怎么样的场景，例如小鸟蓝天飞，有人在海滩等，进而通过TTS将文本转为语音，再通过后续的加工处理生成一段嘻哈音乐。

接下来对各个部分内容进行分别举例说明，请参阅图3所示，为用户从手机客户端上传多张图像的示意图。用户拍摄多张图片或者选择手机存在的多张图片从手机客户端上传。以手机客户端图像上传示例。当用户点击“上传图片”按钮时，则会出现两种选择模式，一种为“拍照”模式，一种为“从手机相册选择”模式。每一次可以选择多张图片上传。

接下来进行图像场景识别，自动匹配文字。根据用户上传图片进行图像场景识别，对每张图像进行场景识别，并分别为每张图像自动匹配文字，再将每张图像对应的文字串联起来。对于输入图像生成文字注解，训练神经图像注解模型能使其成功几率最大化，深度学习神经网络模型，与这里的注解模型的含义是否相同。并能生成新奇的图像描述。例如可以生成如下注解：一个灰衣男子挥舞棒子，黑衣男子旁观。又如，可以生成如下注解：一辆大巴车“坐”在一个人旁边。

接下来对本申请实施例提供的文字押韵设计方法进行举例说明。本申请涉及AI图项目描述生成应用领域，特别涉及到基于关键词的押韵匹配方法，主要流程如下：

1、获取图像描述生成的文字信息，得到对应汉字的汉语拼音，以及韵脚。

2、从汉语拼音中排列出所有可能韵母，为每个韵母都预先生成多句不同场景的描述文字，并且在一句内双押韵，通过此方法补充第二句歌词。预先生成方式如下：把汉语拼音所有的韵母可能都列出来。每个韵母写“风景”“人物”“自拍”“食物”这四类场景的押韵歌词。

3、通过数据样本找到描述文字韵母分配规律，找出最多分配的几种韵母，为这几种韵母增大数据量。

4、通过图像描述和文字描述生成抓取场景，通过文字描述生成的文字韵母来匹配押韵资料。

5、最后技术呈现出完整的押韵歌词作品。

本技术方案基于图像识别技术，图像描述生成技术，将用户上传的图片转化为文字，并通过图像描述生成的第一句话最后一个词韵母和图像场景来匹配任意第二句歌词，最终生成押韵歌词。然后再给AI演唱歌曲。形成用户上传图片，AI作词演唱一个完整的交互过程，互动性和趣味性大大加强。指多个歌词可用于匹配，这里是使用第一句最后一个词的韵母来匹配出第二句吗？

首先获取图像描述生成，根据用户上传的照片，AI图像描述生成技术得图像描述信息，每个图片会得到一句话的描述。

然后获取汉语拼音，常用中文汉字不到8000个，预先生成常用汉字的拼音表，根据汉字建立索引加载到内存，需要获取汉字拼音时，可通过索引在O(1)时间就可以快速获取。

举例说明如下：

阿a1，啊a1，呵a1，腌a1，a1，a1，啊a2，呵a2，嗄a2，啊a3

呵a3，啊a4，呵a4，阿a5，啊a5，呵a5，哀ai1，挨ai1，埃ai1，唉ai1，尊zun1，遵zun1，樽zun1，鳟zun1，撙zun3，作zuo1，嘬zuo1，作zuo2，昨zuo2，琢zuo2，笮zuo2，左zuo3，佐zuo3，撮zuo3，作zuo4，做zuo4，坐zuo4，座zuo4，凿zuo4，柞zuo4，怍zuo4，胙zuo4，阼zuo4，唑zuo4，祚zuo4，酢zuo4。

接下来获取韵脚，查韵母表可知有35中韵母，以汉字“变”为例子，三拼音韵母会包含复韵母和单韵母，比如ian包含了韵母i和韵母an，所以在获取韵母是要先看三韵母再看复韵母，最后看单韵母。实现方式将所有韵母放在一个数组里，并且按照韵母长度按照大到小排序，然后依次比对字符串。

获取图像描述场景，根据图像描述的文字，匹配场景所含关键字，来分辨对应场景，目前主要分风景、人物、食物、自拍四类场景，下图为部分对应关键词。

举例说明如下：场景为风景时，可以有多种描述语，例如，风景阳光，风景大海吗，风景雨，风景花，风景草。场景为人物时可以有多种描述语，例如人物男孩，人物女孩。场景为食物时可以有多种描述语，例如食物美食。场景为自拍时可以有多种描述语，例如自拍照片，自拍头像。

接下来根据场景和韵脚获取补充歌词。首先为不同的场景不同韵脚生成对应的嘻哈话术，高频率的韵脚生成更多的话术供选择。然后根据韵脚和场景，随机选择出一个匹配的话术。

举例说明如下：

a风景差不多的话，有差不多的牵挂

a人物差不多的大，有差不多的羡煞

a食物差不多的炸，有差不多的火辣

ia美食差不多的虾，有差不多的惊吓

ia人物差不多的融洽，有差不多的我们俩

ia食物差不多的家，有差不多的晚霞

ua风景差不多的野花，有差不多的美如画

ua人物差不多的话，有差不多的八卦

ce通用差不多的失落，有差不多的在鞭策

che风景差不多的河，有差不多的清澈

ge美食差不多的馋，有差不多的乳鸽

re风景差不多的晒，有差不得的炎热

te人物差不多的表白，有差不多的在忐忑

ye通用差不多的深夜，是差不多的在哽咽

ze通用差不多的人生，是差不多的做选择

he风景差不多的河,有差不多的隔阂

ke人物差不多的客，有差不多的苛刻

ke食物差不多的喝，有差不多的口渴

最终生成的押韵歌词可以如下：

一群人走在繁华的街道上[图像描述]

差不多的忙，有差不多的遗忘[补充歌词]

城市中的高楼大厦[图像描述]

差不多的景，有差不多的牵挂[补充歌词]

和朋友聚餐时的美食照片[图像描述]

差不多的脸，有差不多的想念[补充歌词]

最后对文本转为语音进行举例说明，请参阅图4所示，对描述语进行文本分析，为后续特征提取提供信息，主要包括：发音生成、韵律预测、词性预测等，得到文本分析的结果后，对该结果进行语言学特征提取并转花成神经网络的输入向量。使用时长模型进行音素级别的时长预测。使用时长模型来预测音素，从而可以得到更好的节奏。由于嘻哈与普通说话不同，具有节奏性，因此在时长预测的结果上做了一个自适应的调整，时长自适应是指通过神经网络自动调整，使每个字都能在节拍上的同时保证原始的发音不改变。其中，嘻哈歌唱输入，这个是指描述语。声学特征预测是包括：韵律预测和词性预测。嘻哈节奏输入中的嘻哈节奏通过神经网络预测得到。背景音乐可以是节奏较快的背景音乐。嘻哈歌词是指对图像进行场景识别后得到的描述语，再进行押韵设计后得到。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

为便于更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图5-a所示，本申请实施例提供的一种音乐的生成装置500，可以包括：场景识别模块501、押韵匹配模块502、语音生成模块503、音乐生成模块504，其中，

场景识别模块501，用于对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应的场景的描述文字；

押韵匹配模块502，用于对每张图像对应的场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词；

语音生成模块503，用于将所述多张图像分别对应的押韵歌词转换为语音；

音乐生成模块504，用于将所述语音和预置的背景音乐合成在一起，生成图像音乐。

在本申请的一些实施例中，请参阅图5-b所示，所述场景识别模块501，包括：

场景确定模块5011，根据深度学习神经网络模型对所述多张图像进行场景识别，得到识别出的图像特征，并根据所述图像特征确定所述多张图像分别对应的场景；

图像描述模块5012，用于根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成，得到所述多张图像对应的场景分别匹配出的描述文字。

在本申请的一些实施例中，请参阅图5-c所示，所述押韵匹配模块502，包括：

韵脚获取模块5021，用于从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚；

歌词生成模块5022，用于根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词，其中，每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。

在本申请的一些实施例中，请参阅图5-d所示，所述歌词生成模块5022，包括：

韵母排列模块50221，用于从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母；

规律确定模块50222，用于根据排列出的所有韵母确定韵母分配规律；

韵脚确定模块50223，用于从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚；

歌词获取模块50224，用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词，所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。

在本申请的一些实施例中，请参阅图5-e所示，所述歌词获取模块50224，包括：

描述歌词生成模块502241，用于根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词；

补充歌词生成模块502242，用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词；

歌词合成模块502243，用于将所述图像描述歌词与所述补充歌词合成在一起，得到所述押韵歌词。

在本申请的一些实施例中，所述多张图像通过所述终端进入拍照模式后采集得到；或，

所述多张图像从所述终端的相册中获取到。

在本申请的一些实施例中，请参阅图5-f所示，所述语音生成模块503，包括：

文本分析模块5031，用于对所述多张图像分别对应的押韵歌词进行文本分析，得到文本分析结果；

语言学特征提取模块5032，用于从所述文本分析结果中提取出语言学特征；

韵律特征和词性特征获取模块5033，用于根据所述语言学特征进行音素级别的时长预测与时长自适应调整，得到与所述押韵歌词匹配的韵律特征和词性特征；

发音生成模块5034，用于基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征，使用神经网络模型进行发音生成，得到所述语音。

本申请实施例还提供了一种终端，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图6示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图6，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图6中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的方法流程。

另外，本申请实施例还提供了一种存储介质，存储介质用于存储程序代码，程序代码用于执行上述实施例提供的音乐生成方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在终端上运行时，使得终端执行上述实施例提供的音乐生成方法。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照上述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种音乐的生成方法，其特征在于，应用于终端，所述方法包括：

对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应场景的描述文字；

对每张图像对应场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词；

将所述多张图像分别对应的押韵歌词转换为语音；

将所述语音和预置的背景音乐合成得到图像音乐。
根据权利要求1所述的方法，其特征在于，所述对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应场景的描述文字，包括：

根据深度学习神经网络模型对所述多张图像进行场景识别，得到识别出的图像特征，并根据所述图像特征确定所述多张图像分别对应的场景；

根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成，得到所述多张图像对应场景分别匹配出的描述文字。
根据权利要求1所述的方法，其特征在于，所述对每张图像对应场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词，包括：

从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚；

根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词，其中，每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
根据权利要求3所述的方法，其特征在于，所述根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词，包括：

从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母；

根据排列出的所有韵母确定韵母分配规律；

从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚；

根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词，所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
根据权利要求4所述的方法，其特征在于，所述根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词，包括：

根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词；

根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词；

将所述图像描述歌词与所述补充歌词合成在一起，得到所述押韵歌词。
根据权利要求1所述的方法，其特征在于，所述多张图像通过所述终端进入拍照模式后采集得到；或，

所述多张图像从所述终端的相册中获取到。
根据权利要求1所述的方法，其特征在于，所述将所述多张图像分别对应的押韵歌词转换为语音，包括：

对所述多张图像分别对应的押韵歌词进行文本分析，得到文本分析结果；

从所述文本分析结果中提取出语言学特征；

根据所述语言学特征进行音素级别的时长预测与时长自适应调整，得到与所述押韵歌词匹配的韵律特征和词性特征；

基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征，使用神经网络模型进行发音生成，得到所述语音。
一种音乐的生成装置，其特征在于，所述音乐的生成装置包括：

场景识别模块，用于对终端中已输入的多张图像分别进行场景识别，生成分别匹配于所述多张图像对应场景的描述文字；

押韵匹配模块，用于对每张图像对应场景匹配出的描述文字进行基于关键词的押韵匹配，生成所述多张图像分别对应的押韵歌词；

语音生成模块，用于将所述多张图像分别对应的押韵歌词转换为语音；

音乐生成模块，用于将所述语音和预置的背景音乐合成得到图像音乐。
根据权利要求8所述的装置，其特征在于，所述场景识别模块，包括：

场景确定模块，根据深度学习神经网络模型对所述多张图像进行场景识别，得到识别出的图像特征，并根据所述图像特征确定所述多张图像分别对应的场景；

图像描述模块，用于根据所述识别出的图像特征和所述多张图像分别对应的场景进行图像描述生成，得到所述多张图像对应场景分别匹配出的描述文字。
根据权利要求8所述的装置，其特征在于，所述押韵匹配模块，包括：

韵脚获取模块，用于从所述每张图像对应的场景匹配出的描述文字中获取所述描述文字中最后一个词所对应的汉语拼音和韵脚；

歌词生成模块，用于根据所述描述文字中最后一个词所对应的汉语拼音和韵脚生成对应于所述多张图像的押韵歌词，其中，每张图像对应的押韵歌词与该图像对应场景匹配出的描述文字的最后一个词具有相同的韵脚。
根据权利要求10所述的装置，其特征在于，所述歌词生成模块，包括：

韵母排列模块，用于从所述描述文字中最后一个词所对应的汉语拼音中排列出所有韵母；

规律确定模块，用于根据排列出的所有韵母确定韵母分配规律；

韵脚确定模块，用于从符合韵母分配规律的韵母中确定出所述描述文字中最后一个词所对应的韵脚；

歌词获取模块，用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到对应于所述多张图像的押韵歌词，所述歌词模板中预先配置有对应于多种场景与多种韵脚的歌词文字。
根据权利要求11所述的装置，其特征在于，所述歌词获取模块，包括：

描述歌词生成模块，用于根据所述每张图像对应的场景匹配出的描述文字生成图像描述歌词；

补充歌词生成模块，用于根据所述多张图像对应的场景以及各个场景下对应的韵脚从预先生成的歌词模板中获取到补充歌词；

歌词合成模块，用于将所述图像描述歌词与所述补充歌词合成在一起，得到所述押韵歌词。
根据权利要求8所述的装置，其特征在于，所述多张图像通过所述终端进入拍照模式后采集得到；或，

所述多张图像从所述终端的相册中获取到。
根据权利要求8所述的装置，其特征在于，所述语音生成模块，包括：

文本分析模块，用于对所述多张图像分别对应的押韵歌词进行文本分析，得到文本分析结果；

语言学特征提取模块，用于从所述文本分析结果中提取出语言学特征；

韵律特征和词性特征获取模块，用于根据所述语言学特征进行音素级别的时长预测与时长自适应调整，得到与所述押韵歌词匹配的韵律特征和词性特征；

发音生成模块，用于基于所述语言学特征和所述与所述押韵歌词匹配的韵律特征和词性特征，使用神经网络模型进行发音生成，得到所述语音。
一种终端，所述终端包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于调用存储器中程序代码的指令执行权利要求1-7任意一项所述的方法。
一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任意一项所述的方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-7任意一项所述的方法。