WO2021179206A1

WO2021179206A1 - 自动混音装置

Info

Publication number: WO2021179206A1
Application number: PCT/CN2020/078803
Authority: WO
Inventors: 普莱斯·亚当
Original assignee: 努音有限公司
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-09-16
Also published as: US20230267899A1

Abstract

本发明提供一种自动混音装置，其特征在于，包括：音乐特征计算器，所述音乐特征计算器的输入音乐包括旋律，贝斯，打击乐和人声轨道；所述音乐特征计算器选择所述旋律，贝斯，打击乐和人声轨道中的一种或几种，计算所输入音乐的节拍点时间，重拍处和弦，重拍处色度向量，重拍处的声音能量，调性，乐曲的速度中的一种或者几种特征。本发明的自动混音装置，能够根据不同的音轨计算乐曲中的音乐特征，并根据音乐特征自动计算混音点，实现了混音的自动化，解决了现有技术中混音效率低、混音效果生硬等问题。

Description

自动混音装置

技术领域

本发明涉及音乐混音领域，尤其涉及自动混音的装置。

背景技术

音乐混音(mixing)一般是指唱片骑师(Disc Jockey，缩写为DJ)选择并且播放事先录好的音乐(如流行歌)，并在现场以电脑混音，制造出不同于原曲的独特音乐的操作。辅助DJ混音的软件有Traktor,Serato,Mixed in Key等。这些软件都是基于音乐节奏以及调性的相似性。它们可以辅助唱片骑师手动调节音乐速度以及音乐的调性。此类的DJ混音是把多首曲子串联，在混音点处，一首曲子会替代上一首曲子而继续播放。

但这样的人工混音方式，效率过低，而且成本高、适用场景少。为提高效率，市场上也出现了一些商用方案可以辅助用户选择串烧歌曲。这些方案多是基于音乐节奏以及音乐调性的相似性，将一首歌曲整体替换为另一首歌曲。虽然这样的设计提供了一些辅助用户操作的提示，但用户还是需要手动选择需要替换的歌曲以及自己指定乐曲替换的时间点，不能完全自动的计算替换时间点(混音点)。而且也没有考虑多音轨的音乐，一首歌曲的替换部分会整体被另一首歌曲的一部分替换，导致替换的结果过于生硬。另外部分方案加入了和弦的比较，但是没有对人声轨进行特别的处理，和弦的检测错误率也很高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供自动混音装置，用于把用户选择的一首歌曲作为主歌，从计算得到的数据库中选择其他几首相似歌曲，找到主歌和相似歌曲中可以替换部分的混音点。本发明的目的在于提供自动混音装置解决了现有技术无法自动计算混音点，以及混音结果生硬、错误率高的问题。

为实现上述目的及其他相关目的，本发明提供一种自动混音装置，其特征在于，包括：音乐特征计算器，所述音乐特征计算器的输入音乐包括旋律，贝斯，打击乐和人声轨道；所述音乐特征计算器选择所述旋律，贝斯，打击乐和人声轨道中的一种或几种，计算所输入音乐的节拍点时间，重拍处和弦，重拍处色度向量，重拍点处的声音能量，调性，乐曲的速度中的一种或者几种特征。

本发明的自动混音装置，能够根据不同的音轨计算乐曲中的音乐特征，并根据音乐特征自动计算混音点，实现了混音的自动化，解决了现有技术中混音效率低、混音效果生硬等问题，因此具有极高的产业应用价值。

附图说明

图1是本发明的音乐特征计算器工作流程图；

图2是乐曲段落示意图；

图3是计算混音点的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅附图。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的自动混音装置包括了音乐特征计算器和混音点计算器。下面参阅附图对音乐特征计算器和混音点计算器分别进行介绍。

首先参阅图1，图1是本发明的音乐特征计算器工作流程图。本发明的音乐特征计算器所定义的音乐特征包括音乐重拍节拍点时间，音乐重拍处的和弦以及色度向量，音乐重拍点处的声音能量，音乐的节奏以及调性。音乐特征的计算结果，是寻找混音点的重要参考。

音乐特征计算器的输入包括4个轨道：旋律、贝斯、打击乐和人声。不同的特征计算需要用到不同的轨道组合。以下对计算每种音乐特征的优选的实施方式分别介绍：

音乐节拍点时间及重拍时间：音乐重拍指每小节的第一拍。常见的乐曲每小节有4拍，每4拍取一个重拍。第一个重拍的时间需要计算，得到第一个节拍点后每4拍取一个重拍。例如可以使用传统方法如信号处理中的计算音乐出现时间相关度的方法来找到音乐节拍点。本例中使用基于深度学习的多个递归神经网络计算音乐的节拍点时间，通过隐马尔可夫模型从计算好的节拍时间中计算第一个重拍的时间，该类方法的实现工具较多，比如madmom软件包，其中的DBNDownBeatTrackingProcessor即可用来计算乐曲节拍点的时间，输入为旋律+贝斯+打击乐轨道，计算音乐节拍点不使用人声轨道输入，避免人声对节拍查找的干扰。

音乐重拍处和弦：在得到乐曲重拍时间之后，使用卷积神经网络计算音乐和弦特征，输入实用旋律和贝斯轨。在得到音乐和弦特征后，通过条件随机场的方法识别这个重拍点的和弦。

音乐重拍处色度向量：色度向量指用一个多元素向量来表示一段时间(如1帧)内各音级的能量(音级的能量与该音的发声振幅成正比，计算方式可参考机械波能量计算，此处不予赘述)。本例中，色度向量使用12个元素，这些元素分别代表一段时间(如1帧)内12个音级中的能量，不同八度的同一音级能量累加。对于人声轨、旋律轨和贝斯轨，均可以基于深度神经网络的方法计算谐波频谱，抽取色度向量。

音乐重拍点处的声音能量：本例中，计算重拍点处的声波振幅的平方根均值作为其能量。

音乐的调性：本例中使用卷积神经网络计算整首乐曲的调性，输入为旋律+贝斯轨。

乐曲的速度：可以通过节拍子计算出乐曲的速度。计算速度的公式为

其中beat指乐句中的拍子，i为拍子的序号。虽然计算乐曲速度比较直观的方式是通过整个曲子的用时和拍子总数来计算，但这样的计算方式比较费时。通过实验数据，乐曲通常在进行一段时间后，速度会趋于稳定，也即如果在乐曲中段恰当的位置进行抽样，则抽样点计算出来的乐曲速度与通过通过整个曲子的用时和拍子总数算得的速度值近似程度会非常好。而通过抽样点计算显然要省时得多。通过大量的实验数据，乐曲第20～90拍通常较为稳定，本例中，i取值为70。

在得到音乐特征值之后，就可以基于音乐特征值计算混音点。但本例中，优选地还包括了乐曲分割器，用于在计算混音点之前对音乐进行分割。音乐的结构可以分为前奏，副歌，主歌，桥段以及尾声。市面上已经有一些实现了计算音乐段落的工具包，比如msaf软件包。这个软件包可以设置多种不同的算法来查找音乐段落，本例中使用基于结构特征的方法。图2是一首乐曲段落的示意图。乐曲的段落是前奏，主歌，副歌，桥段等。为了找出更多的混合点，乐曲段落的长度被切割成4小节的整数倍乐句，然后在4小节，8小节，16小节的乐句之间互相比较，查找音乐的混音点，实验表明，以4小节的整数倍切割乐句，命中混音点的概率最高。

以下结合图2对计算混音点的步骤进行详述。主歌的每一个长度的乐句与其他歌曲的相同长度的乐句进行比较，确定两个乐句是否为同一结构的，例如主歌的乐句只和其它乐曲的主歌乐句进行比较。在比较之前，需要确定这两个乐句都有足够的能量。使用之前计算的每一拍的能量来计算乐句的能量。若两个乐句都有足够能量，再进行下面的比较。

打击乐的混音点计算：打击乐的比较不需要考虑音乐的和声以及其他属性。只需要考虑两首乐曲的节奏是否相差过大。衡量乐曲节奏差异程度可以使用节奏比这一指标，节奏比指的是两首乐曲每分钟拍子数(bpm)的比值。节奏比过大时变换一个乐句的节奏会比较突兀，并不适合进行替换。当节奏比在0.7-1.3之间时，若两个乐句能量大于预设值，即可进行替换。这里的预设值。时间点为乐句的开始时间。持续时间为乐句时间。记录下节奏比，方便后续的混音。

旋律以及贝斯的混音点计算：这里使用基于和声的比较。和声的比较包含了两个部分，一个是和弦的比较，一个是色度向量特征的比较。和弦比较是乐句的每一拍和弦与其他乐句每一拍的和弦进行和弦序列的比较。这里若只考虑和弦的根音，那么和弦共有12种类型。每一个和弦用一个字母来表示，分别为C、C#、D、D#、E、F、F#、G、G#、A、A#、B。若某一拍和弦为空，用N来表示。和弦的比较等同成乐句和弦字符串的比较。这里应用了生物信息学上的局部比对方法来比对两个和弦字符串。局部比对是利用两个序列之间的字符差异来测定序列之间的相似性，两条序列中相应位置的字符如果差异大，那么序列的相似性低，反之，序列的相似性就高。这样两个和弦的差异为相应字符串的差，可以利用基于音乐和谐度的分数来计算两个乐句的相似性。在进行序列比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。取代矩阵采用下表所示的和弦的替换分数：

和弦差(相差半音的个数)	分数
0	2.85
1	-2.85
2	-2.475
3	-0.825
4	-0.825
5	0
6	-1.8

空位罚分为0。若N与任一和弦比较，分数为0。每个乐句比较分数的和为这个乐句的和弦分数。如CGFF与AGEF做比较，分数为-0.825+2.85-2.85+2.85＝2.025。

色度向量特征是计算两个乐句色度向量的余弦相似度。这两个分数根据需要配以不同的权重后相加，若分数较低，则比较的乐句移调为主歌乐句调性重新比较。若结果分数足够高，乐句开始的时间为混音点时间。同样需要记录乐句长度，乐句的节奏比以及移调的半音数目，方便混音。本例中两分数权重均取0.5。

人声的混音点计算：人声的混音点与旋律和贝斯的混音点有相同之处，又有所不同。若人声出现的乐句音乐(旋律+贝斯)的能量足够强，则直接使用旋律和贝斯对应乐句的混音点。若旋律、贝斯的能量不足，则直接比较两个人声乐句色度向量的余弦相似度。同样记录乐句的开始时间，乐句长度，乐句的节奏比以及移调的半音数目。

本发明的自动混音装置在应用时，先对用户曲库中所有的歌曲进行预处理，使用上述音乐特征计算方法和混音点计算方法，以乐库中任一乐曲为主歌分别计算它和其他歌曲的混音点存入数据库。若这个歌曲为主歌时与其他歌曲找出的混音点足够多，而且满足其他歌曲与主歌的节奏比在0.7-1.3，并且调性差在3以内的两个条件，则把符合条件的其他歌曲作为这一歌曲的相似歌曲，混音时直接调用这些歌曲。

综上所述，本发明的自动混音装置对多音轨分别计算音乐特征，并基于计算出的特征计算混音点，实现了自动混音，解决了现有技术混音效率低，以及混音结果生硬、错误率高的问题。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

一种自动混音装置，其特征在于，包括：

音乐特征计算器，所述音乐特征计算器的输入音乐包括多个轨道；

所述音乐特征计算器选择所述旋律，贝斯，打击乐和人声轨道中的一种或几种，计算所输入音乐的节拍点时间，重拍处和弦，重拍处色度向量，重拍处的声音能量，调性，乐曲的速度中的一种或者几种特征。
根据权利要求1所述的自动混音装置，其特征在于，还包括混音点计算器。
根据权利要求2所述的自动混音装置，其特征在于，所述混音点计算器分别计算所述音乐的人声部分，旋律贝斯部分和打击乐部分的混音点。
根据权利要求3所述的自动混音装置，其特征在于，当两个乐句的节奏比在0.7-1.3之间时，则将两个乐句的起始点作为所述打击乐部分的混音点。
根据权利要求3所述的自动混音装置，其特征在于，所述旋律贝斯部分的混音点计算基于乐曲的和声比较；所述和声比较包括和弦的比较和色度向量的比较。
根据权利要求5所述的自动混音装置，其特征在于，所述和声比较的方法包括：

使用字符表示和弦根音，将乐句转换成字符串；

比较字符串，计算所述字符串中每个字符的差值；

根据所述差值计算和弦相似性。
根据权利要求6所述的自动混音装置，其特征在于，利用取代矩阵和空位罚分计算字符串中每个字符的差值。
根据权利要求5所述的自动混音装置，其特征在于，所述色度向量的比较包括计算两个乐句色度向量的余弦相似度。
根据权利要求3所述的自动混音装置，其特征在于，所述计算人声部分混音点包括：

判断人声部分是否包括旋律和贝斯，若是，则直接使用旋律和贝斯对应乐句的混音点；

若否，则比较人声乐句色度向量的余弦相似度。
根据权利要求1所述的自动混音装置，其特征在于，所述音乐特征计算器的输入音乐包括旋律，人声和打击乐轨道。
根据权利要求1所述的自动混音装置，其特征在于，计算所述音乐的节拍点时仅选择旋律，贝斯，打击乐轨道。
根据权利要求1所述的自动混音装置，其特征在于，计算所述音乐的节拍点时间时，使用基于深度学习的多个递归神经网络计算音乐的节拍点时间，或根据音乐出现时间相关度的方法来找到音乐节拍。
根据权利要求12所述的自动混音装置，其特征在于通过隐马尔可夫模型从计算好的节拍时间中计算第一个重拍的时间。
根据权利要求1所述的自动混音装置，其特征在于，计算所述重拍处的和弦时选择旋律和贝斯轨道。
根据权利要求1所述的自动混音装置，其特征在于，计算所述乐曲速度的公式为

其中beat指乐句中的拍子，i为拍子的序号。
根据权利要求1所述的自动混音装置，其特征在于，所述i取值为20～90。
根据权利要求1所述的自动混音装置，其特征在于，还包括乐曲分割器，用于在计算混音点之前对音乐进行分割。
根据权利要求17所述的自动混音装置，其特征在于，所述乐曲分割器采用基于乐曲结构特征的方法对音乐进行分割。
根据权利要求18所述的自动混音装置，其特征在于，所述乐曲分割器将音乐切割成4小节的整数倍的乐句。