WO2023000917A1

WO2023000917A1 - 音乐文件的生成方法、生成装置、电子设备和存储介质

Info

Publication number: WO2023000917A1
Application number: PCT/CN2022/100969
Authority: WO
Inventors: 薛愉凡; 郭冠军; 袁欣; 陈月朝; 黄昊; 李娜; 周栩彬
Original assignee: 北京字跳网络技术有限公司
Priority date: 2021-07-23
Filing date: 2022-06-24
Publication date: 2023-01-26
Also published as: CN115687668A; EP4339809A1; US20240127777A1

Abstract

本申请公开了一种音乐文件的生成方法、生成装置、电子设备和存储介质，属于计算机技术领域。音乐文件的生成方法包括：获取第一图像；对第一图像进行特征提取，得到第一图像的显著特征；基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；基于乐器数字接口信息与时间的对应关系，生成音乐文件。本申请一方面降低了音乐创作门槛，使得不具有乐理知识的"小白"用户，也能根据图片构建出对应的音乐，另一方面通过MIDI信息坐标系展示音轨块，使得最终构建的音乐可视化，给予用户独一无二的听觉和视觉的双重体验。

Description

音乐文件的生成方法、生成装置、电子设备和存储介质

相关申请的交叉引用

本申请要求于2021年07月23日提交的，申请号为202110839656.2、发明名称为“音乐文件的生成方法、生成装置、电子设备和存储介质”的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机技术领域，具体涉及一种音乐文件的生成方法、生成装置、电子设备和存储介质。

背景技术

在相关技术中，音乐创作具有较高的门槛，普通用户难以参与到音乐创造中。同时，创造出的“音乐”一般被认为是听觉的艺术，音乐本身与听者的听觉感官建立联系，没有与人最重要的感官“视觉”建立联系，导致创造音乐的过程的用户体验单一。

发明内容

本申请实施例的目的是提供一种音乐文件的生成方法、生成装置、电子设备和存储介质，能够基于可视化的图像生成音乐，给予用户独一无二的听觉和视觉的双重体验。

第一方面，本申请实施例提供了一种音乐文件的生成方法，包括：

获取第一图像；

对第一图像进行特征提取，得到第一图像的显著特征；

基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；

基于乐器数字接口信息与时间的对应关系，生成音乐文件。

第二方面，本申请实施例提供了一种音乐文件的生成装置，包括：

获取模块，用于获取第一图像；

提取模块，用于对第一图像进行特征提取，得到第一图像的显著特征；

处理模块，用于基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；

生成模块，用于基于乐器数字接口信息与时间的对应关系，生成音乐文件。

第三方面，本申请实施例提供了一种电子设备，包括处理器，存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法的步骤。

在本申请实施例中，通过对图像，即上述第一图像进行处理，从而将图像信息，如照片或视频，转化为可视化的电子乐谱文件，具体为在乐器数字接口(Musical Instrument Digital Interface，MIDI)坐标系中，显示音轨块的方式，其中，这些音轨块构成了第一图像的显著特征，即音轨块构成的图形与第一图像的显著特征的图像相匹配。同时，这些音轨块均包括乐器数字接口信息，也即MIDI信息，MIDI信息被计算机识别后，根据MIDI信息与时间的对应关系，按照时间顺序播放这些音轨块，从而形成音乐。

本申请实施例通过图像构建音乐，使得形成的音乐与包含用户回忆的图像相符合，一方面降低了音乐创作门槛，使得不具有乐理知识的“小白”用户，也能根据图片构建出对应的音乐，另一方面通过MIDI信息坐标系展示音轨块，使得最终构建的音乐可视化，给予用户独一无二的听觉和视觉的双重体验。

附图说明

图1示出了根据本申请实施例的音乐文件的生成方法的流程图之一；

图2示出了根据本申请实施例的音乐文件的生成方法的MIDI信息坐标系的界面示意图；

图3示出了根据本申请实施例的音乐文件的生成方法的显著目标纹理图的示意图；

图4示出了根据本申请实施例的音乐文件的生成方法的流程图之二；

图5示出了根据本申请实施例的音乐文件的生成方法的目标纹理图的划分示意图；

图6示出了根据本申请实施例的音乐文件的生成方法的流程图之三；

图7示出了根据本申请实施例的音乐文件的生成方法中钢琴卷帘图形界面的示意图；

图8示出了根据本申请实施例的音乐文件的生成装置的结构框图；

图9示出了根据本申请实施例的电子设备的结构框图；

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音乐文件的生成方法、生成装置、电子设备和存储介质进行详细地说明。

在本申请的一些实施例中，提供了一种音乐文件的生成方法，图1示出了根据本申请实施例的音乐文件的生成方法的流程图之一，如图1所示，该方法包括：

步骤102，获取第一图像；

步骤104，对第一图像进行特征提取，得到第一图像的显著特征；

步骤106，基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；

在步骤106中，乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；

步骤108，基于乐器数字接口信息与时间的对应关系，生成音乐文件。

在本申请实施例中，第一图像，具体为用户选择的“回忆图像”。具体地，用于可以通过将本地保存的照片或视频上传至客户端，来得到第一图像，用户还可以通过手机等电子设备的摄像头拍摄照片或录制视频，从而得到第一图像。

其中，当用户选择上传了视频，或通过手机录制了视频的情况，可通过在视频中抽帧的方式，得到第一图像。其中，可以在视频中随机抽取一帧，也可以通过神经网络模型对视频内容进行识别，从而确定能够体现视频主题的图像帧进行抽取。

具体地，在一些实施方式中，获取第一图像具体包括：接收第三输入，其中第三输入为对第一图像进行选择的输入；响应于第三输入，确定第一图像。

在另一些实施方式中，获取第一图像具体包括：接收第四输入，其中第四输入为拍摄视频的输入；响应于第四输入，拍摄待处理视频；对待处理视频进行抽帧处理，得到第一图像。

在得到第一图像后，进一步对第一图像进行特征提取，从而在第一图像中，提取出第一图像的显著特征。举例来说，如果第一图像是“人脸”图片，则第一图像的显著特征为其中的人脸轮廓、五官位置等。如果第一图像是全身或半身的“人像”图片，则第一图像的显著特征为其中人物的身形轮廓、姿势等。

继续举例来说，如果第一图像是动物照片或孩童照片等“动”物(活动的生物)，则第一图像的显著特征可以是动物或孩子的身形轮廓、五官位置。如果第一图像是建筑、车辆、风景等“静”物(静止的物体)，则第一图像的显著特征可以是这些静物的整体外款和显著装置。

能够理解的是，可以根据第一图像的具体内容，设置不同的特征提取粒度。

进一步地，在得到第一图像的显著特征后，根据该显著特征在第一图像中的位置，在乐器数字接口信息坐标系，也即MIDI信息坐标系中映射该显著特征，使该显著特征的图像单元，形成为MIDI信息坐标系中的音轨块。其中，MIDI信息坐标系用于指示乐器数字接口信息与时间的对应关系，也即一个音轨块对应的MIDI信息，和时间之间的关系。

具体地，图2示出了根据本申请实施例的音乐文件的生成方法的MIDI信息坐标系的界面示意图，如图2所示，第一图像具体为人脸图像，将该人脸图像的显著特征，在MIDI信息坐标系200中映射为多个音轨块202，多个音轨块202在MIDI信息坐标系中构成了一个近似人脸的形状，该人脸的形状即与第一图像的显著特征相对应。

进一步地，这些与显著特征对应的音轨块具有乐器数字接口信息，也即MIDI信息，这些MIDI信息具体为能够被计算机设备识别并播放成“声音”的信息，当计算机设备识别到MIDI信息后，根据MIDI信息得到如音高、音色、音量等信息对应的数字信号，从而形成为一个音乐动机，即一个重音，根据这些显著特征与时间的对应关系，也即这些音乐动机与时间的对应关系，顺次播放这些音乐动机对应的“声音”，从而形成一段音乐，这段音乐即根据用户所选择的“回忆图像”，也即第一图像生成的，独一无二的音乐。

在本申请的一些实施例中，第一图像的图像内容包括显著目标，显著特征包括以下中的至少一项：显著目标的关键点、显著目标的边缘特征点。

在本申请实施例中，显著目标即第一图像的图像内容中的主体目标。比如说，当第一图像的图像内容为人脸和背景的花丛时，显著目标即该“人脸”。又比如说，当第一图像的图像内容为建筑物和背景的蓝天时，显著目标即该“建筑物”。

在此基础上，显著特征具体包括显著目标的关键点，比如人脸的关键点即“五官”，而建筑物的关键点即建筑物的特色设计，如“窗子”、“门庭”等。显著特征还可以包括显著目标的边缘特征点，这些边缘特征点会形成为显著目标的轮廓，如人脸轮廓或建筑物轮廓。

因此，通过对图像内容中显著目标的关键点，和显著目标的边缘特征点进行提取，既可以形成为显著目标的“简图”，通过该简图，能够让观看者联想到原图像中的被拍摄物体，如“某人”或“某栋建筑”，从而唤起观看者的回忆。

本申请实施例通过检测关键点和边缘特征点，构成显著目标的显著特征，并基于显著特征生成音乐，实现了音乐可视化，给予了用户听觉上和视觉上的双重体验。

在本申请的一些实施例中，对第一图像进行特征提取，得到第一图像的显著特征，包括：

通过卷积神经网络，对第一图像进行目标分割，得到第一图像中的显著目标，和显著目标的边缘特征点；

对显著目标进行关键点提取，得到显著目标的关键点。

在本申请实施例中，在对第一图形进行特征提取时，首先，可以通过预先训练好的卷积神经网络，第一图像进行目标分割。其中，目标分割的目的是在第一图像中的显著目标分割出来。

具体地，可以通过大量预先标注好的训练集，对预设的卷积神经网络进行训练，使得训练好的卷积神经网络，能够在图片中识别出显著目标。比如说，对于人像图片，可以通过大量设置原始的人脸图片，和将“人脸”部分抠图分割出来后的仅包含“人脸”的显著目标图片，生成训练集，通过该训练集对卷积神经网络进行训练，使得卷积神经网络不断迭代，当卷积神经网络能够相对准确地在图片中识别出显著目标，和显著目标的边缘后，判断卷积神经网络可以投入使用。

通过上述方法训练好的卷积神经网络，对第一图像进行人工智能识别，从而判断出其中的显著目标，和显著目标的边缘，得到显著目标的边缘特征点。

进一步地，通过对显著目标的图像识别，判断出显著目标的具体类型，如“人脸”、“动物”、“建筑物”等，从而根据显著目标的具体类型确定对应的关键点提取粒度，根据对应的提取粒度，对显著目标进行关键点提取，从而得到显著目标的关键点，如人脸的五官等。

本申请通过训练好的卷积神经网络，对第一图像中显著目标的显著特征进行提取，具体为对显著目标的关键点和边缘特征点进行提取，能够快速、准确地得到显著特征，从而提高通过图像生成音乐的处理速度，有利于提高用户体验。

在本申请的一些实施例中，在基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中之前，音乐文件的生成方法还包括：

根据显著特征，生成第一图像对应的显著目标纹理图；

根据显著目标纹理图，确定显著特征在第一图像中的位置。

在本申请实施例中，根据第一图像的显著特征，生成第一图像对应的显著目标纹理图。其中，显著目标纹理图，即在第一图像中，仅显示显著目标的显著特征的图像。在一个典型的实施方式中，显著目标纹路图中，仅包括两种像素，其中的第一种像素即用于显示显著特征的像素，第二种像素即非显著特征位置的像素。

图3示出了根据本申请实施例的音乐文件的生成方法的显著目标纹理图的示意图，如图3所示，第一图像为人脸图像，其中的显著目标即人脸，此时，显著目标纹理图看起来就像是人脸的简图。

由于显著目标纹理图为将第一图像处理为仅显示显著特征的图像，因此在确定显著特征在第一图像中的位置时，可以根据显著目标纹理图，来确定显著特征的位置，从而将显著特征映射到MIDI信息坐标系中，实现从图像到MIDI电子乐谱，最终到音乐的转换过程，实现了“从图像到音乐”，给予用户独一无二的体验。

在本申请的一些实施例中，图4示出了根据本申请实施例的音乐文件的生成方法的流程图之二，如图4所示，根据显著特征，生成第一图像对应的显著目标纹理图的步骤，具体包括以下步骤：

步骤402，根据边缘特征点和坎尼边缘检测算法，对第一图像进行边缘检测，得到显著目标的边缘图像；

步骤404，根据关键点和边缘特征点，生成显著目标对应的显著目标图；

步骤406，对边缘图像和显著目标图进行图像叠加，得到第一图像对应的显著目标纹理图。

在本申请实施例中，在根据显著特征生成显著目标纹理图时，首先，根据边缘特征点，通过坎尼边缘检测算法进行边缘检测。其中，坎尼边缘检测算法也即Canny边缘检测算法，具体是John F.Canny于1986年开发出来的一个多级边缘检测算法。

具体地，通过Canny边缘检测算法对第一图像进行边缘检测时，首先对第一图像进行高斯滤波，也就是用一个高斯矩阵，对每一个像素点及其邻域，去其待权重的平均值，作为像素的灰度值。进一步地，计算梯度值和梯度方向，并过滤非最大值，最后使用设置好的阈值范围，来进行边缘检测，得到显著目标物的边缘图像。

进一步地，根据显著目标的关键点，和显著目标的边缘特征点，生成显著目标对应的显著目标图，也即由关键点和边缘特征点形成的特征图。

更进一步地，对边缘图像，和显著目标图进行图像叠加，使得边缘图像和边缘特征点相连，也相当于把每个关键点和轮廓一起画出来，最终得到具有清晰轮廓的显著目标纹理图。

在本申请的一些实施例中，根据目标纹理图，确定显著特征在第一图像中的位置，包括：

将目标纹理图划分为X行、Y列的X乘Y个图形单元，其中，X和Y均为大于1的整数，图形单元内包括亮像素和暗像素中的至少一种，亮像素为亮度值为1的像素，暗像素为亮度值为0的像素；

在X乘Y个图形单元中，确定亮像素的数量占比大于预设比值的目标图形单元，得到N个目标图形单元，其中，第一图像的显著特征的数量为N，N个目标图形单元与N个显著特征一一对应，N为正整数；

根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的行数，确定显著特征在第一图像中的第一纵坐标；

根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的列数，确定显著特征在第一图像中的第一横坐标；

根据显著特征的横坐标和显著特征的横坐标纵坐标，确定显著特征在第一图像中的位置。

在本申请实施例中，首先，对目标纹理图进行划分，具体划分为X行、Y列，得到一个X×Y的图形矩阵，该图形矩阵中包括X×Y个图形单元。在每个图形单元中，包括多个像素，其中包括有亮像素和暗像素，亮像素即用于显示显著特征的像素，其亮度值为1，暗像素即显著特征之外的像素，其亮度值为0，即显示“纯黑”。

进一步地，分别判断X×Y个图形单元中，每一个图像单元内亮像素的占比。举例来说，假设一个图形单元内的像素数量为10个，其中包括6个亮像素，和4个暗像素，则该图形单元中亮像素的数量占比为0.6。

在确定每个图形单元内亮像素数量的占比后，分别判断每个图像单元中，亮像素的占比是否大于预设比值，其中，预设比值的范围为大于或等于0.2，优选为0.4。以预设比值为0.4为例，如果一个图形单元内的10个像素中，有4个或更多亮像素，则将这个图形单元，标记为目标图形单元，用于表示这个目标图形单元中是有显著特征的。

在确定全部X×Y个图形单元中的全部目标图形单元后，这些目标图形单元，即最终在MIDI信息坐标系中进行映射的显著特征。图5示出了根据本申请实施例的音乐文件的生成方法的目标纹理图的划分示意图，如图5所示，将目标纹理图500，划分为5×5，共25个图形单元502。其中，填充有阴影线的，即一个目标图形单元504，也即一个显著特征的单位。

更进一步地，以图5中，被黑色填充的图形单元506为例，图形单元506位于第4列，第2行，则可以确定该图形单元506对应的显著特征，在第一图像中的第一横坐标4x，第一纵坐标2y。

同理，根据相同的方法，确定每一个目标图形单元的第一横坐标和第一纵坐标，进而得到每个显著特征在第一图像中的位置。

本申请实施例通过对第一图像对应的目标纹理图进行划分，从而根据划分后的X×Y个图形单元中亮像素数量的占比，确定目标图形单元，将目标图形单元作为一个显著特征，映射到MIDI信息坐标系中，实现了由图像到MIDI电子乐谱的转换，进而实现了图像到音乐的转化，同时将音乐可视化，能够给予用户听觉上和视觉上的双重体验。

在本申请的一些实施例中，基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，包括：

将第一纵坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二纵坐标；

将第一横坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二横坐标；

根据第二纵坐标和第二横坐标，将N个显著特征映射到乐器数字接口信息坐标系中，得到与N个显著特征一一对应的N个音轨块。

在本申请实施例中，在将显著特征映射到MIDI信息坐标系时，可以将上文得到的显著特征的第一横坐标和第一纵坐标，同步转化到MIDI信息坐标系下的第二横坐标和第二纵坐标，从而实现显著特征在MIDI信息坐标系中的映射。

其中，将全部的N个显著特征，均映射到MIDI信息坐标系中，得到了与N个显著特征一一对应的N个音轨块，通过乐器数字接口程序，对这N个音轨块进行显示和播放，能够得到可视化的音乐，一方面保留第一图像中显著目标的图像特征，另一方面能够生成与第一图像中显著目标对应的独一无二的音乐。

具体地，MIDI信息坐标系用于指示乐器数字接口信息与时间的对应关系，因此，根据一个显著特征，也即一个音轨块在MIDI信息坐标系中的坐标，可以确定一个音轨块的MIDI信息和时间信息，计算机程序在识别到音轨块的MIDI信息和时间信息后，能够将其转化为一个音乐动机，这个音乐动机具有音色、音高、音量等声音属性，还具有节拍的时间属性，将多个显著特征对应的多个音轨块，按照其MIDI信息和时间信息进行播放，最终会得到由第一图像转换而来的音乐，即与用户“回忆图像”相匹配的音乐，满足了用户对独一无二的音乐创造的需求。

在本申请的一些实施例中，音轨块包含乐器数字接口信息，根据音轨块对应的第二纵坐标确定乐器数字接口信息；其中，乐器数字接口信息包括以下信息中的至少一项：音高、音色、音量。

在本申请实施例中，音轨块在MIDI信息坐标系下的第二纵坐标，即该音轨块对应的MIDI信息。具体地，在MIDI信息坐标系下，第二纵坐标代表了音轨块的MIDI信息，其中包括MIDI音高、MIDI音色和MIDI音量。具体地，纵坐标每提升1，则音阶提升1，纵坐标每提升8，则音阶提高一个八度。

同时，根据第二坐标，还可以得到一个音轨块的音色和音量，其中，当一个音轨块的音高越高，如处于高音音阶的范围，则可以为其设置较为清脆的音色，如小提琴、长笛等乐器的音色，而音轨块的音高处于中音音阶范围内，则可以为其设置如钢琴、吉他等主旋律乐器的音色，而当音轨块的音高处于低音音阶范围内，则可以为其设置风琴、贝斯等厚重的乐器的音色。

同理，处于中音音阶范围内的音轨块，可以为其设置更大的音量以凸显主旋律，而对于高音和低音的范围，可以适当降低音量，防止对用户耳朵产生压迫。

本申请基于音轨块的第二纵坐标，对其MIDI信息进行设置，具体为对音轨块的音高、音色和音量等音乐属性进行设置，从而使得生成的音乐更加符合乐理，提高由图片生成音乐的效果。

在本申请的一些实施例中，图6示出了根据本申请实施例的音乐文件的生成方法的流程图之三，如图6所示，方法还包括：

步骤602，接收第一输入；

在步骤602中，第一输入为对预设音乐特征进行选择的输入；在该步骤中，第一输入为通过人机交互部件接收到的用户输入，第一输入包括：触摸输入、生物识别输入、点击输入、体感输入、语音输入、键盘输入或按压输入中的一种或多种的组合，其中：触摸输入包括但不限于点触、滑动或特定的触摸手势等；生物识别输入包括但不限于指纹、虹膜、声纹或面部识别等生物信息输入等；点击输入包括但不限于鼠标点击、开关点击等；体感输入包括但不限于摇晃电子设备、翻转电子设备等；按压输入包括但不限于对触摸屏幕的按压输入、对边框的按压输入、对后盖的按压输入或对其他电子设备的部位的按压输入。本申请实施例对第一输入的具体形式不做限定。

步骤604，响应于第一输入，确定目标音乐特征；

在步骤604中，目标音乐特征包括以下至少一项：音乐风格、音乐心情、音乐曲风；

步骤606，根据音乐特征对音乐进行调整；

步骤608，播放音乐文件。

在本申请实施例中，用户可通过对多个预设音乐特征进行选择，通过选出目标音乐特征，从而对根据第一图像生成的音乐，进行乐理性的调整。其中，目标音乐特征，包括音乐风格，如：流行音乐、古典音乐、电子音乐等，还包括音乐心情，如：激昂、低沉、舒缓等，还包括音乐曲风，如：摇滚乐、爵士乐、蓝调等。

根据用户选择的目标音乐特征，对根据第一图像生成的音乐进行调整，从而使调整后的音乐更加符合用户选择的音乐特征，如用户选择了古典音乐、舒缓、蓝调，则可以适当增加中频和低频的音量，同时调整第二横坐标的时间间隔，使得音乐节奏更慢、更舒缓。

同时，还可以根据预设的乐理数据和声学数据，对MIDI坐标系中的音轨块的第二纵坐标进行进一步的后处理。举例来说，可以预先设置一个调性，并规定最高音阶和最低音阶的范围，如果一段时长内的音轨块的最高音阶和最低音阶超过了这个范围，则按照一定的调整规则，将范围外的音轨块的音高进行调整，即将调外音调整成调内，如将高过最高音阶阈值的音轨块的音高降低一个八度，或将低于最低音阶阈值的音轨块的音高提高一个八度等，使得调整后的音乐更符合乐理，在对生成的音乐进行调整后，可以自动播放调整后的音乐，从而使用户能够即刻享受根据其选择的“回忆照片”生成的音乐，享受到音乐创作的快乐。

在本申请的一些实施例中，音乐文件的生成方法还包括：生成音乐对应的第二图像；

播放音乐文件，包括：显示第二图像，并播放音乐文件。

在本申请实施例中，还可以生成与播放音乐文件对应的第二图像，并在播放音乐文件的同时，显示第二图像，从而使用户同时体验到视觉上和听觉上的享受。其中，第二图像可以是根据用户选择的第一图像，或者第一图像对应的显著特征纹理图生成的静态图片，在播放音乐文件的时候显示该静态图片和音乐的播放进度。

第二图像还可以是根据预设模版，或根据MIDI信息坐标系的播放界面，生成的动画文件，该动画文件的动画时长，与生成的音乐的音乐时长相匹配，在播放音乐文件的同时播放动画，进一步提高用户的视觉体验。

在本申请的一些实施例中，生成音乐对应的第二图像，包括：

接收第二输入，其中，第二输入为对预设视频模版进行选择的输入；

响应于第二输入，确定目标视频模版；

根据目标视频模版和显著目标纹理图，生成第二图像。

在本申请实施例中，可以通过接收用户的第二输入，根据用户第二输入选择的目标视频模版，和第一图像对应的显著目标纹理图，生成在播放音乐时，作为播放音乐时的背景图像。其中，视频模版可以是连贯的动画模版，也可以是多张静态图片轮次展示的“幻灯片”。

其中，在动画模版中，叠加显示第一图像对应的显著目标纹理图，使得用户在看到第二图像时，能够唤起对拍摄第一图像时的回忆，提高用户的使用体验。

在该实施例中，第二输入为通过人机交互部件接收到的用户输入，第二输入包括：触摸输入、生物识别输入、点击输入、体感输入、语音输入、键盘输入或按压输入中的一种或多种的组合，其中：触摸输入包括但不限于点触、滑动或特定的触摸手势等；生物识别输入包括但不限于指纹、虹膜、声纹或面部识别等生物信息输入等；点击输入包括但不限于鼠标点击、开关点击等；体感输入包括但不限于摇晃电子设备、翻转电子设备等；按压输入包括但不限于对触摸屏幕的按压输入、对边框的按压输入、对后盖的按压输入或对其他电子设备的部位的按压输入。本申请实施例对第二输入的具体形式不做限定。

在本申请的一些实施例中，生成与音乐文件对应的第二图像，包括：

通过钢琴卷帘图形界面，生成目标动画，其中目标动画用于展示音乐的播放进度；

根据目标动画和显著目标纹理图，生成第二图像。

在本申请实施例中，通过钢琴卷帘图形界面，生成目标动画，其中，目标动画即在钢琴卷帘图形界面中，播放MIDI文件中音轨块的过程。具体地，图7示出了根据本申请实施例的音乐文件的生成方法中钢琴卷帘图形界面的示意图，其中，左侧为钢琴的动画图像的琴键702，音轨块704在界面中，根据其对应的时间信息逐渐向左侧的琴键702。

同时，在界面的背景中，根据第一图像对应的显著目标纹理图，作为第二图像的背景图像，使得第二图像与第一图像之间建立显性的视觉连接，使得用户在听音乐的同时，观看与“回忆图像”相关联的第二图像，从而唤起用户的回忆，丰富用户的视觉体验。

在本申请的一些实施例中，提供了一种音乐文件的生成装置，图8示出了根据本申请实施例的音乐文件的生成装置的结构框图，如图8所示，音乐文件的生成装置800包括：

获取模块802，用于获取第一图像；

提取模块804，用于对第一图像进行特征提取，得到第一图像的显著特征；

处理模块806，用于基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；

生成模块808，用于基于乐器数字接口信息与时间的对应关系，生成音乐文件。

继续举例来说，如果第一图像是动物照片或孩童照片等“动”物，则第一图像的显著特征可以是动物或孩子的身形轮廓、五官位置。如果第一图像是建筑、车辆、风景等“静”物，则第一图像的显著特征可以是这些静物的整体外款和显著装置。

在本申请的一些实施例的音乐文件的生成装置中，第一图像的图像内容包括显著目标，显著特征包括以下中的至少一项：显著目标的关键点、显著目标的边缘特征点。

在本申请的一些实施例的音乐文件的生成装置中，处理模块还用于通过卷积神经网络，对第一图像进行目标分割，得到第一图像中的显著目标，和显著目标的边缘特征点；对显著目标进行关键点提取，得到显著目标的关键点。

在本申请的一些实施例的音乐文件的生成装置中，生成模块还用于根据显著特征，生成第一图像对应的显著目标纹理图；

处理模块还用于根据显著目标纹理图，确定显著特征在第一图像中的位置。

在本申请的一些实施例的音乐文件的生成装置中，处理模块还用于根据边缘特征点和坎尼边缘检测算法，对第一图像进行边缘检测，得到显著目标的边缘图像；

生成模块还用于根据关键点和边缘特征点，生成显著目标对应的显著目标图；对边缘图像和显著目标图进行图像叠加，得到第一图像对应的显著目标纹理图。

在本申请实施例中，在根据显著特征生成显著目标纹理图时，首先，根据边缘特征点，通过坎尼边缘检测算法进行边缘检测。具体地，通过Canny边缘检测算法对第一图像进行边缘检测时，首先对第一图像进行高斯滤波，也就是用一个高斯矩阵，对每一个像素点及其邻域，去其待权重的平均值，作为像素的灰度值。进一步地，计算梯度值和梯度方向，并过滤非最大值，最后使用设置好的阈值范围，来进行边缘检测，得到显著目标物的边缘图像。

在本申请的一些实施例的音乐文件的生成装置中，处理模块还用于：

将目标纹理图划分为X行、Y列的X乘Y个图形单元，其中，X和Y均为大于1的整数，图形单元内包括亮像素和暗像素中的至少一种，亮像素为亮度值为1的像素，暗像素为亮度值为0的像素；在X乘Y个图形单元中，确定亮像素的数量占比大于预设比值的目标图形单元，得到N个目标图形单元，其中，第一图像的显著特征的数量为N，N个目标图形单元与N个显著特征一一对应，N为正整数；

根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的行数，确定显著特征在第一图像中的第一纵坐标；根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的列数，确定显著特征在第一图像中的第一横坐标；根据显著特征的横坐标和显著特征的横坐标纵坐标，确定显著特征在第一图像中的位置。

在确定全部X×Y个图形单元中的全部目标图形单元后，这些目标图形单元，即最终在MIDI信息坐标系中进行映射的显著特征。

在本申请的一些实施例的音乐文件的生成装置中，处理模块还用于将第一纵坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二纵坐标；将第一横坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二横坐标；根据第二纵坐标和第二横坐标，将N个显著特征映射到乐器数字接口信息坐标系中，得到与N个显著特征一一对应的N个音轨块。

其中，将全部的N个显著特征，均映射到MIDI信息坐标系中，得到了与N个显著特征一一对应的N个音轨块，通过乐器数字接口程序，对这N个音轨块进行显示和播放，能够得到可视化的音乐，一方面保留第一图像中显著目标的特征，另一方面能够生成与第一图像中显著目标对应的独一无二的音乐。

在本申请的一些实施例的音乐文件的生成装置中，述音轨块包含乐器数字接口信息，根据音轨块对应的第二纵坐标确定乐器数字接口信息；其中，乐器数字接口信息包括以下信息中的至少一项：音高、音色、音量。

在本申请的一些实施例的音乐文件的生成装置中，音乐文件的生成装置还包括接收模块，用于接收第一输入，其中，第一输入为对预设音乐特征进行选择的输入；

处理模块还用于响应于第一输入，确定目标音乐特征，目标音乐特征包括以下至少一项：音乐风格、音乐心情、音乐曲风；根据音乐特征对音乐进行调整；

音乐文件的生成装置还包括播放模块，用于播放音乐文件。

在本申请的一些实施例的音乐文件的生成装置中，生成模块还用于生成与音乐文件对应的第二图像；

播放模块还用于显示第二图像，并播放音乐文件。

在本申请的一些实施例的音乐文件的生成装置中，接收模块还用于接收第二输入，其中，第二输入为对预设视频模版进行选择的输入；

处理模块还用于响应于第二输入，确定目标视频模版；

生成模块还用于根据目标视频模版和显著目标纹理图，生成第二图像。

在本申请的一些实施例的音乐文件的生成装置中，生成模块还用于通过钢琴卷帘图形界面，生成目标动画，其中目标动画用于展示音乐的播放进度；根据目标动画和显著目标纹理图，生成第二图像。

在本申请实施例中，通过钢琴卷帘图形界面，生成目标动画，其中，目标动画即在钢琴卷帘图形界面中，播放MIDI文件中音轨块的过程。同时，在界面的背景中，根据第一图像对应的显著目标纹理图，作为第二图像的背景图像，使得第二图像与第一图像之间建立显性的视觉连接，使得用户在听音乐的同时，观看与“回忆图像”相关联的第二图像，从而唤起用户的回忆，丰富用户的视觉体验。

本申请实施例中的音乐文件的生成装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音乐文件的生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音乐文件的生成装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种电子设备900，图9示出了根据本申请实施例的电子设备的结构框图，如图9所示，包括处理器902，存储器904，存储在存储器904上并可在所述处理器902上运行的程序或指令，该程序或指令被处理器902执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

该电子设备2000包括但不限于：射频单元2001、网络模块2002、音频输出单元2003、输入单元2004、传感器2005、显示单元2006、用户输入单元2007、接口单元2008、存储器2009、以及处理器2010等部件。

本领域技术人员可以理解，电子设备2000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器2010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器2010用于获取第一图像；对第一图像进行特征提取，得到第一图像的显著特征；基于显著特征在第一图像中的位置，将显著特征映射到乐器数字接口信息坐标系中，确定显著特征对应的乐器数字接口信息；乐器数字接口信息坐标系用于指示乐器数字接口信息与时间的对应关系；基于乐器数字接口信息与时间的对应关系，生成音乐文件。

可选地，第一图像的图像内容包括显著目标，显著特征包括以下中的至少一项：显著目标的关键点、显著目标的边缘特征点。

可选地，处理器2010还用于通过卷积神经网络，对第一图像进行目标分割，得到第一图像中的显著目标，和显著目标的边缘特征点；对显著目标进行关键点提取，得到显著目标的关键点。

可选地，处理器2010还用于根据显著特征，生成第一图像对应的显著目标纹理图；根据显著目标纹理图，确定显著特征在第一图像中的位置。

可选地，处理器2010还用于根据边缘特征点和坎尼边缘检测算法，对第一图像进行边缘检测，得到显著目标的边缘图像；根据关键点和边缘特征点，生成显著目标对应的显著目标图；对边缘图像和显著目标图进行图像叠加，得到第一图像对应的显著目标纹理图。

可选地，处理器2010还用于将目标纹理图划分为X行、Y列的X乘Y个图形单元，其中，X和Y均为大于1的整数，图形单元内包括亮像素和暗像素中的至少一种，亮像素为亮度值为1的像素，暗像素为亮度值为0的像素；在X乘Y个图形单元中，确定亮像素的数量占比大于预设比值的目标图形单元，得到N个目标图形单元，其中，第一图像的显著特征的数量为N，N个目标图形单元与N个显著特征一一对应，N为正整数；根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的行数，确定显著特征在第一图像中的第一纵坐标；根据N个目标图形单元中，每个目标图形单元在X乘Y个图形单元中所处的列数，确定显著特征在第一图像中的第一横坐标；根据显著特征的横坐标和显著特征的横坐标纵坐标，确定显著特征在第一图像中的位置。

可选地，处理器2010还用于将第一纵坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二纵坐标；将第一横坐标转换到乐器数字接口信息坐标系中，得到显著特征在乐器数字接口信息坐标系中的第二横坐标；根据第二纵坐标和第二横坐标，将N个显著特征映射到乐器数字接口信息坐标系中，得到与N个显著特征一一对应的N个音轨块。

可选地，音轨块包含乐器数字接口信息，处理器2010还用于根据音轨块对应的第二纵坐标确定乐器数字接口信息；其中，乐器数字接口信息包括以下信息中的至少一项：音高、音色、音量。

可选地，用户输入单元2007用于接收第一输入，其中，第一输入为对预设音乐特征进行选择的输入；

处理器2010还用于响应于第一输入，确定目标音乐特征，目标音乐特征包括以下至少一项：音乐风格、音乐心情、音乐曲风；根据音乐特征对音乐进行调整；

音频输出单元2003用于播放音乐文件。

可选地，处理器2010还用于生成与音乐文件对应的第二图像；

显示单元2006还用于显示第二图像，音频输出单元2003还用于播放音乐文件。

可选地，用户输入单元2007还用于接收第二输入，其中，第二输入为对预设视频模版进行选择的输入；

处理器2010还用于响应于第二输入，确定目标视频模版；根据目标视频模版和显著目标纹理图，生成第二图像。

可选地，处理器2010还用于通过钢琴卷帘图形界面，生成目标动画，其中目标动画用于展示音乐的播放进度；根据目标动画和显著目标纹理图，生成第二图像。

应理解的是，本申请实施例中，输入单元2004可以包括图形处理器(Graphics Processing Unit，GPU)20041和麦克风20042，图形处理器20041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。

显示单元2006可包括显示面板20061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板20061。用户输入单元2007包括触控面板20071以及其他输入设备20072。触控面板20071，也称为触摸屏。触控面板20071可包括触摸检测装置和触摸控制器两个部分。其他输入设备20072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器2009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器2010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器2010中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种音乐文件的生成方法，其特征在于，包括：

获取第一图像；

对所述第一图像进行特征提取，得到所述第一图像的显著特征；

基于所述显著特征在所述第一图像中的位置，将所述显著特征映射到乐器数字接口信息坐标系中，确定所述显著特征对应的乐器数字接口信息；所述乐器数字接口信息坐标系用于指示所述乐器数字接口信息与时间的对应关系；

基于所述乐器数字接口信息与时间的对应关系，生成音乐文件。
根据权利要求1所述的音乐文件的生成方法，其特征在于，所述第一图像的图像内容包括显著目标，所述显著特征包括以下中的至少一项：

所述显著目标的关键点、所述显著目标的边缘特征点。
根据权利要求2所述的音乐文件的生成方法，其特征在于，所述对所述第一图像进行特征提取，得到所述第一图像的显著特征，包括：

通过卷积神经网络，对所述第一图像进行目标分割，得到所述第一图像中的所述显著目标，和所述显著目标的所述边缘特征点；

对所述显著目标进行关键点提取，得到所述显著目标的关键点。
根据权利要求2所述的音乐文件的生成方法，其特征在于，在所述基于所述显著特征在所述第一图像中的位置，将所述显著特征映射到乐器数字接口信息坐标系中之前，所述音乐文件的生成方法还包括：

根据所述显著特征，生成所述第一图像对应的显著目标纹理图；

根据所述显著目标纹理图，确定所述显著特征在所述第一图像中的位置。
根据权利要求4所述的音乐文件的生成方法，其特征在于，所述根据所述显著特征，生成所述第一图像对应的显著目标纹理图，包括：

根据所述边缘特征点和坎尼边缘检测算法，对所述第一图像进行边缘检测，得到所述显著目标的边缘图像；

根据所述关键点和所述边缘特征点，生成所述显著目标对应的显著目标图；

对所述边缘图像和所述显著目标图进行图像叠加，得到所述第一图像对应的显著目标纹理图。
根据权利要求4所述的音乐文件的生成方法，其特征在于，所述根据所述目标纹理图，确定所述显著特征在所述第一图像中的位置，包括：

将所述目标纹理图划分为X行、Y列的X乘Y个图形单元，其中，X和Y均为大于1的整数，所述图形单元内包括亮像素和暗像素中的至少一种，所述亮像素为亮度值为1的像素，所述暗像素为亮度值为0的像素；

在所述X乘Y个图形单元中，确定所述亮像素的数量占比大于预设比值的目标图形单元，得到N个所述目标图形单元，其中，所述第一图像的显著特征的数量为N，所述N个目标图形单元与所述N个显著特征一一对应，N为正整数；

根据所述N个目标图形单元中，每个所述目标图形单元在所述X乘Y个图形单元中所处的行数，确定所述显著特征在所述第一图像中的第一纵坐标；

根据所述N个目标图形单元中，每个所述目标图形单元在所述X乘Y个图形单元中所处的列数，确定所述显著特征在所述第一图像中的第一横坐标；

根据所述显著特征的横坐标和所述显著特征的横坐标纵坐标，确定所述显著特征在所述第一图像中的位置。
根据权利要求6所述的音乐文件的生成方法，其特征在于，所述基于所述显著特征在所述第一图像中的位置，将所述显著特征映射到乐器数字接口信息坐标系中，包括：

将所述第一纵坐标转换到所述乐器数字接口信息坐标系中，得到所述显著特征在所述乐器数字接口信息坐标系中的第二纵坐标；

将所述第一横坐标转换到所述乐器数字接口信息坐标系中，得到所述显著特征在所述乐器数字接口信息坐标系中的第二横坐标；

根据所述第二纵坐标和所述第二横坐标，将所述N个显著特征映射到所述乐器数字接口信息坐标系中，得到与所述N个显著特征一一对应的N个音轨块。
根据权利要求7所述的音乐文件的生成方法，其特征在于，所述音轨块包含所述乐器数字接口信息，根据所述音轨块对应的第二纵坐标确定所述乐器数字接口信息；

其中，所述乐器数字接口信息包括以下信息中的至少一项：音高、音色、音量。
根据权利要求4至8中任一项所述的音乐文件的生成方法，其特征在于，还包括：

接收第一输入，其中，所述第一输入为对预设音乐特征进行选择的输入；

响应于所述第一输入，确定目标音乐特征，所述目标音乐特征包括以下至少一项：音乐风格、音乐心情、音乐曲风；

根据所述音乐特征对所述音乐进行调整；

播放所述音乐文件。
根据权利要求9所述的音乐文件的生成方法，其特征在于，还包括：

生成与所述音乐文件对应的第二图像；

所述播放所述音乐，包括：

显示所述第二图像，并播放所述音乐。
根据权利要求10所述的音乐文件的生成方法，其特征在于，所述生成所述音乐对应的第二图像，包括：

接收第二输入，其中，所述第二输入为对预设视频模版进行选择的输入；

响应于所述第二输入，确定目标视频模版；

根据所述目标视频模版和所述显著目标纹理图，生成所述第二图像。
根据权利要求10所述的音乐文件的生成方法，其特征在于，所述生成所述音乐对应的第二图像，包括：

通过钢琴卷帘图形界面，生成目标动画，其中所述目标动画用于展示所述音乐的播放进度；

根据所述目标动画和所述显著目标纹理图，生成所述第二图像。
一种音乐文件的生成装置，其特征在于，包括：

获取模块，用于获取第一图像；

提取模块，用于对所述第一图像进行特征提取，得到所述第一图像的显著特征；

处理模块，用于基于所述显著特征在所述第一图像中的位置，将所述显著特征映射到乐器数字接口信息坐标系中，确定所述显著特征对应的乐器数字接口信息；所述乐器数字接口信息坐标系用于指示所述乐器数字接口信息与时间的对应关系；

生成模块，用于基于所述乐器数字接口信息与时间的对应关系，生成音乐文件。
一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至12中任一项所述音乐文件的生成方法的步骤。
一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至12中任一项所述音乐文件的生成方法的步骤。