WO2023231679A1

WO2023231679A1 - 音频处理方法、版权读取方法及计算机设备、存储介质

Info

Publication number: WO2023231679A1
Application number: PCT/CN2023/091759
Authority: WO
Inventors: 陆克松; 周文江; 姜涛; 赵伟峰; 徐东
Original assignee: 腾讯音乐娱乐科技（深圳）有限公司
Priority date: 2022-05-30
Filing date: 2023-04-28
Publication date: 2023-12-07
Also published as: CN114861139A

Abstract

本申请涉及一种音频处理方法、版权读取方法及计算机设备、计算机可读存储介质。所述方法包括：获取与待处理音频的版权信息对应的版权信息索引特征，所述版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息（S202）；根据版权信息索引特征得到数字水印（S204）；将数字水印嵌入待处理音频，得到目标音频（S206）。

Description

音频处理方法、版权读取方法及计算机设备、存储介质

相关申请的交叉引用

本申请要求于2022年5月30日提交中国专利局、申请号为202210596336.3、发明名称为“音频处理方法、版权读取方法及计算机设备、存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，特别是涉及一种频处理方法、版权读取方法及计算机设备、计算机可读存储介质。

背景技术

数字水印是一种应用计算机算法嵌入载体文件的保护信息，它是将一些标识信息直接嵌入数字载体当中或是间接表示，且不影响原载体的使用价值，也不容易被探知和再次修改。基于数字水印的上述特性，其常被用于保护音频的版权。但传统技术在音频中嵌入的数字水印的容量有限，难以满足将版权信息都嵌入音频中的需求。

发明内容

根据本申请的各种实施例，提供一种音频处理方法、版权读取方法及计算机设备、存储介质，以至少解决相关技术中数字水印容量受限问题。本公开的技术方案如下：

一种音频处理方法，包括：获取与待处理音频的版权信息对应的版权信息索引特征，版权信息索引特征用于在版权数据库中索引待处理音频的版权信息；根据版权信息索引特征得到数字水印；将数字水印嵌入待处理音频，得到目标音频。

在其中一个实施例中，根据版权信息索引特征得到数字水印的步骤包括：对版权信息索引特征进行编码处理，得到版权信息索引特征对应的二维水印图像；根据二维水印图像得到数字水印。

在其中一个实施例中，根据二维水印图像得到数字水印包括：对二维水印图像进行简化处理；以简化处理后的二维水印图像为数字水印。

在其中一个实施例中，对二维水印图像进行简化处理的步骤包括：将二维水印图像的可简化区域的像素点设置为空白像素点，以得到简化处理后的二维水印图像；其中，可简化区域包括定位标志区域、校正标志区域、定时标志区域以及静态区域中的至少一种。

在其中一个实施例中，将数字水印嵌入待处理音频的步骤包括：在预设语谱图的目标频段设置数字水印，目标频段为人耳感知范围外的频段；将预设语谱图转换为音频，得到水印音频；将水印音频和待处理音频合成，以得到目标音频。

在其中一个实施例中，预设语谱图的第一坐标轴代表时间、第二坐标轴代表频率，在预设语谱图的目标频段设置数字水印的步骤包括：确定目标频段在第二坐标轴方向上对应的目标坐标，并根据目标坐标确定预设语谱图的目标区域；目标区域在第二坐标轴方向上的坐标大于目标坐标；将数字水印设置在预设语谱图的目标区域，以得到语谱图。

在其中一个实施例中，将数字水印嵌入待处理音频的步骤包括：对待处理音频做分帧处理，对分帧处理后得到的各分帧音频做时域变换处理，得到各分帧音频的频域信号；在各频域信号嵌入数字水印，得到各嵌入后频域信号；对各嵌入后频域信号进行时频变换处理的逆处理，得到各嵌入后分帧音频；对各嵌入后分帧音频进行叠加处理，得到目标音频。

在其中一个实施例中，在各频域信号嵌入数字水印的步骤包括：将数字水印转换为二进制序列，并利用伪随机噪声序列对二进制序列进行扩频处理，得到扩频序列；将扩频序列嵌入各频域信号，得到各嵌入后频域信号。

在其中一个实施例中，在各频域信号嵌入数字水印的步骤包括：将数字水印转换为二进制序列；在频域信号的各频率分量的频率系数中确定目标频率系数；利用二进制序列对各频域信号的目标频率系数进行调整，以在各频域信号嵌入数字水印。

在其中一个实施例中，将数字水印嵌入待处理音频的步骤包括：对待处理音频进行分帧处理，得到各分帧音频；对各分帧音频进行时频变换处理，得到各分帧音频对应的频域信号；在各频域信号嵌入数字水印，得到各嵌入后频域信号；对各嵌入后频域信号进行时频变换处理的逆处理，得到各嵌入后分帧音频；对各嵌入后分帧音频进行叠加处理，得到目标音频。

在其中一个实施例中，版权数据库配置于目标服务器，目标服务器处于网络隔离环境中。

在其中一个实施例中，版权数据库中的版权信息在实际版权信息发生变化时更新为变化后的实际版权信息。

一种音频版权读取方法，包括：获取目标音频；从目标音频中提取数字水印；根据数字水印得到版权信息索引特征；根据版权信息索引特征在版权数据库中索引目标音频的版权信息。

一种音频处理装置，包括：

特征获取单元，被配置为执行获取与待处理音频的版权信息对应的版权信息索引特征，所述版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息；

水印获取单元，被配置为执行根据所述版权信息索引特征得到数字水印；

水印嵌入单元，被配置为执行将所述数字水印嵌入所述待处理音频，得到目标音频。

一种计算机设备，包括计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述的音频处理方法，或者音频版权读取方法。

一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，当所述计算机程序由服务器的处理器执行时，使得所述服务器能够执行如上述的音频处理方法，或者音频版权读取方法。

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更好地描述和说明这里公开的那些发明的实施例和或示例，可以参考一幅或多幅附图。用于描述附图的附加细书或示例不应当被认为是对所公开的发明、目前描述的实施例和或示例以及目前理解的这些发明的最佳模式中的任何一者的范围的限制。

图1为一个实施例中音频处理方法的应用环境图；

图2为一个实施例中音频处理方法的流程示意图；

图3为一个实施例中根据版权信息索引特征得到数字水印的流程示意图；

图4为一个实施例中将二维水印图像映射到待处理音频频谱的频谱图；

图5为一个实施例将数字水印嵌入待处理音频的流程示意图；

图6为另一个实施例中根据版权信息索引特征得到数字水印的流程示意图；

图7为一个实施例二维水印图像可简化区域的示意图；

图8为一个实施例中音频版权读取方法的流程示意图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请中相关缩略语和关键术语定义如下：

数字水印：创作者对音频享有版权。为保护创作者对待处理音频的版权，可以将待处理音频的版权信息嵌入到待处理音频中，嵌入后但不影响原待处理音频的正常使用，也不容易被探知和再次修改，但在需要维权时可以从嵌入后的待处理音频中识别出版权信息。能达到该效果的技术中较为常见的是数字水印技术。将待处理音频的版权信息处理为数字水印，再将数字水印嵌入到待处理音频中，数字水印嵌入后对待处理音频原有音质无太大影响，或者人耳感觉不到它的影响。相反，从嵌入了数字水印的待处理音频中又可以提取出数字水印，对数字水印解码即可得到版权信息。

水印容量：数字水印的水印容量指的是单位时间长度的音频能够嵌入的二进制数据的数量。

本申请实施例提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。数据存储系统中可以存储有版权数据库，版权数据库中包括音频的版权信息，版权信息包括但不限于版权所有者、版权授予时间、购买方信息、购买价格、二次授权信息等。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例提供一种音频处理方法，以该方法应用于图1中的终端102为了进行说明，请参阅图2，该方法包括步骤S202至步骤S206。

S202，获取与待处理音频的版权信息对应的版权信息索引特征，版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息。

在一实施方式中，待处理音频包括但不限于歌曲、纯音乐、影视原声、有声小说、脱口秀、广播剧等创作者所创造出来的作品。版权信息索引特征可以是从配置有版权数据库的服务器获取的，也可以是终端利用与版权数据库生成版权信息索引特征相同的算法处理得到的。

可以理解，如果数字水印中包含的数据过多，可能导致音频的听感较差，所以传统的数字水印嵌入方法难以将较为复杂的版权信息在不影响音频听感的前提下嵌入音频中。为了解决该问题，本实施例选择数字水印中包含的内容并非版权信息而是版权信息索引特征，即不直接将信息量较大的版权信息嵌入待处理音频中，而是将较为简短的版权信息索引特征嵌入待处理音频中。在版权数据库中进行版权信息的存储不会受到水印容量的限制，从待处理音频的数字水印中提取出版权信息索引特征后也可较为方便地从版权数据库中找到待处理音频的版权信息，不影响对待处理音频的版权保护效果。

在有些可选实施例中，版权信息索引特征可以为URL(Uniform Resource Locator,URL)回调地址，通过URL回调地址回调对应音频的版权信息。在有些实施例中，版权信息索引特征可以为一定长度的字符串，字符串的长度可根据水印容量选择，字符串可以由数字字符、英文字符、中文字符中的一种或多种组合形成。该字符串可以是随机生成的，也可以是经过一定加密算法处理的，只需保证每个字符串和音频一一对应即可。可选地，在构建版权数据库时，版权信息索引特征与对应的版权信息存在映射关系，使得在需要时即可根据版权信息索引特征查询到特定的版权信息。例如，如果版权数据库以键值对的方式存储版权信息，可以以版权信息对应的版权索引特征为键，该版权信息为值进行存储。又例如，以链表形式存储版权信息，版权索引特征可以为跳转指针，根据该跳转指针可跳转到对应版权信息的位置。可选地，该字符串还可以为与待处理音频相关的特征，如待处理音频的名称、创作者、歌词内容等关键词。本实施例对版权数据库的存储结构不做限定，只要满足可根据版权索引特征从版权数据库中查找对应的版权信息即可。

S204，根据版权信息索引特征得到数字水印。

S206，将数字水印嵌入待处理音频，得到目标音频。

在一实施方式中，数字水印嵌入算法有多种，比如空间域算法、变换域算法、压缩域算法、扩频算法、最低有效位算法、回声隐藏算法以及相位编码算法等等。这些水印嵌入算法可以实现将需要嵌入待处理音频的版权信息索引特征处理为数字水印，再将包含版权信息索引特征的数字水印嵌入待处理音频中，且不影响待处理音频的正常播放效果。可根据实际情况选择合适的数字水印嵌入算法，例如在使用变换域算法时，为了保证待处理音频在变换过程中不出现虚数情况，可以使用变换域算法中的DCT(Discrete Cosine Transform，离散余弦)算法。又例如，为了增加数字水印的鲁棒性，可以使用扩频算法中的DSSS(Direct Sequence Spread Spectrum，直接序列扩频)算法。

基于本实施例中的音频处理方法，将根据版权信息索引特征生成的数字水印嵌入到待处理音频，在需要对待处理音频进行版权读取时，提取出数字水印中的版权信息索引特征后，即可根据版权信息索引特征在版权数据库中读取出待处理音频对应的版权信息。由于版权信息索引特征相较于版权信息而言信息量更小，在生成数字水印时不受水印容量限制。另外，将包含较多信息量的版权信息放在版权数据库中，在需要时根据版权信息索引特征从版权数据库中调取，版权数据库可提供完整、全面的版权信息，确保版权的保护效果。

在其中一个实施例中，版权数据库配置于目标服务器，目标服务器处于网络隔离环境中。同一网络隔离环境中的两个或两个以上的计算机或网络在断开连接的基础上，可实现信息交换和资源共享，也就是说，通过网络隔离技术既可以使两个网络实现物理上的隔离，又能在安全的网络环境下进行数据交换。可以理解，目前在根据需要内嵌的信息生成数字水印的过程中，可能会使用预设的水印密钥和水印加密算法对数字水印进行加密，但是目前水印加密算法一般为开源，只要水印密钥被破解，就可以提取出数字水印中内嵌的信息，就可能导致一些保密的版权信息被破解，版权信息的安全性难以保证。为提高本实施例中版权信息的安全性，将版权数据库配置在处于网络隔离环境的目标服务器中。由于目标服务器处于网络隔离环境中，无法通过网络攻击的手段从版权数据库中获取版权信息，保证了版权信息的安全性。

在一实施方式中，数字水印可以是经过加密的，也可以是未经过加密的，因为数字水印的内嵌信息为版权信息索引特征，所以即使未经过加密或加密被破解而得到了数字水印，从数字水印中也只能获取版权信息索引特征。如果想根据版权信息索引特征查找对应的版权信息，应向目标服务器发出请求，目标服务器即可审核请求方是否有资格获取版权信息。例如，目标服务器判断请求方的网络地址为内网(即与目标服务器处于同一网络隔离环境中)地址或外网(即处于目标服务器所处网络隔离环境以外的网络环境)地址，以决定是否要向请求方反馈版权信息。在一个实施例中，目标服务器响应来自于内网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的版权信息。目标服务器拒绝来自于外网地址的请求方的请求。即在版权信息保密程度要求较高的情况下，只有来自于目标服务器处于同一网络隔离环境中的请求方可以获取版权信息。在另一个实施例中，版权信息包括公开版权信息和保密版权信息。目标服务器响应来自于内网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的公开版权信息和保密版权信息。目标服务器响应来自于外网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的公开版权信息。有些版权信息可以为公众所知，即公开版权信息，任何人都可根据版权信息索引特征查询公开版权信息。但有些版权信息需要保密，即保密版权信息，只有来自于目标服务器处于同一网络隔离环境中的请求方才可获取。例如，版权所有者、版权授予时间等可以公开，设置为公开版权信息。版权购买价格、版权购买者信息等与商业或隐私相关的信息应保密，设置为保密版权信息。公开版权信息和保密版权信息可根据实际需要进行设置，本实施例中不做限定。

在其中一个实施例中，在实际版权信息发生变化时，版权数据库中的版权信息更新为变化后的实际版权信息。可以理解，对于直接将版权信息内嵌在数字水印中的方案来说，数字水印一经嵌入就无法更改，所以难以适应实际版权信息是动态变化的实际使用场景。而本实施例中内嵌进数字水印中的信息为版权信息索引特征，虽然版权信息索引特征也无法更改，但是可以在目标服务器上对版权数据库进行更新，即在实际版权信息发生变化后，目标服务器将版权数据库中的版权信息更新为变化后的实际版权信息。则根据版权信息索引特征在版权数据库中获取对应的版权信息时，可以得到与实际版权信息匹配的版权信息，更好地适配于实际使用场景。

在其中一个实施例中，请参阅图3，根据版权信息索引特征得到数字水印的步骤包括S302与S304。

S302，对版权信息索引特征进行编码处理，得到版权信息索引特征对应的二维水印图像。

S304，根据二维水印图像得到数字水印。

可以理解，编码处理用于将一维文本信息转换为二维水印图像。二维水印图像是特定的几何图形按一定规律在平面(二维方向上)分布的、黑白相间的、记录有版权信息特征的图形。传统的数字水印中包含的内容一般为一维文本信息，目标音频在上传、下载、传播等过程中可能存在信息丢失的现象，导致数字水印内嵌的一维文本信息残缺，普通的一维文本信息没有抗容错的能力，所以根据一维文本信息提取出来的版权信息可能也是残缺的。所以本实施例选择先将版权信息索引特征转换二维水印图像，二维水印图像能够以高容量、高密度的存储一维文字信息，进一步解决水印容量受限的问题，并且二维水印图像支持纠错处理，即在二维水印图像缺损时也可从缺损的二维水印图像中读取其中内嵌的完整的一维文本信息，从而提高数字水印的鲁棒性。可选地，二维水印图像的码制可以分为堆叠式二维码和矩阵式二维码。其中，堆叠式二维码可以为Code 16K、Code 49、PDF417等。矩阵式二维码可以为QR(Quick Response,快速反应)码、MaxiCode等。目前将一维文本信息转换为二维水印图像的算法较为成熟，可以根据选择的码制选择对应的编码处理算法。在编码处理算法中，常常需要设置编码参数，编码参数包括二维水印图像的纠错等级。二维水印图像中部分码块即用于进行纠错，因此，纠错等级越高，用于纠错的码块也就越多，导致用于表示内嵌于二维水印图像的一维文本信息信息的码块就减少，也即纠错等级越高，二维水印图像码能包含的一维文本信息的容量越小，所以可根据版权信息索引特征的大小选择合适的纠错等级。以QR码为例，纠错能力由低到高排列，纠错等级包括级别L(最大7％的错误能够被纠正)、级别M(最大15％的错误能够被纠正)、级别Q(最大25％的错误能够被纠正)、级别H(最大30％的错误能够被纠正)。具体而言，可以先确定可选纠错等级，可选纠错等级对应的QR码的容量可容纳版权信息索引特征。以可选纠错等级中等级最高的为目标纠错等级。在对数据索引特征进行编码处理时，根据目标纠错等级进行纠错编码。

在一实施方式中，将二维水印图像对应的数字水印嵌入音频中的算法也有很多。比如空间域算法、变换域算法、压缩域算法、扩频算法、最低有效位算法、回声隐藏算法以及相位编码算法等等。由于待处理音频为一维信号，在应用上述算法时，需要将二维水印图像转为一维序列，该一维序列中的各元素用于表示二维水印图像各像素点的像素值。在从数字水印中提取出该一维序列后，可以根据该一维序列还原出二维水印图像。也可以直接将二维水印图像对应的数字水印映射到待处理音频的频谱图上，在提取出目标音频的频谱图后，可以直接观察到二维水印图像对应的数字水印。

在一个实施例中，可以直接将二维水印图像对应的数字水印映射到待处理音频的频谱图上，在提取出目标音频的频谱图后，可以直接观察到二维水印图像对应的数字水印。具体而言，将数字水印嵌入待处理音频的步骤包括：

步骤1，在预设语谱图的目标频段设置数字水印，目标频段为人耳感知范围外的频段。

可以理解，语谱图可以反映音频的频率、时间以及对应频率、时间点的音频能量三者之间关系的图像。其第一坐标轴代表时间，第二坐标轴代表频率，图像各像素点的的颜色深浅(若是彩色图像则为RGB值，若是黑白图像则为灰度值)代表音频能量大小。为了避免数字水印嵌入后影响用户听感，数字水印呈现在预设语谱图的位置应处于目标频段。如理论人耳听力范围在20Hz-20kHz这一区间，但是一般15.1kHz以上的音频就难以被人耳感知，所以可以选择目标频段为16kHz。为了进一步确保数字水印的不可感知性，也可以选择目标频段为20kHz以上的频带。以横轴代表时间，纵轴代表频率为例，则预设语谱图的越上方的区域对应的频段越高，因此可以将数字水印设置在预设语谱图的上半区域。

在一实施方式中，在将数字水印设置到预设语谱图的目标频段时，可以确定目标频段在第二坐标轴上对应的目标坐标，将数字水印设置到第二坐标轴上的坐标均大于目标坐标的区域即可。

步骤2，将预设语谱图转换为音频，得到水印音频。

在一实施方式中，语谱图反映了任意时间以及任意频点的能量大小，根据能量可以得到对应的幅值大小。而音频信号在时域的表达式即为音频的幅值随时间变化的大小，所以可以根据语谱图得到对应音频。例如，预设语谱图可以用一个二维数组表示，该二维数组第i行第j列的元素为预设语谱图第i行第j列处的像素值，该像素值的大小反映了第i时刻、频率为j的音频信号的能量大小。对该二维数组各列的元素进行时频变换处理的逆处理(如IDFT、IDCT等)，得到各个时刻对应的分帧音频，将这些分帧音频叠加，即可得到语谱图对应的音频。目前，还有许多成熟的函数库中包含了将语谱图转换为音频的函数，只需要将语谱图导入该函数即可还原出对应音频。如基于python的librosa库。因此，利用上述任意方式即可将预设语谱图转换为音频，得到包含数字水印信息的数字水印。本实施例对具体转换方式不做限定，可根据实际情况选用。

步骤3，将水印音频和待处理音频合成，以得到目标音频。

在一实施方式中，将水印音频和待处理音频合成即为将水印音频和待处理音频叠加在一起，例如将两个音频相同时刻的幅值叠加。由于将音频转换为语谱图的过程中涉及时频变换处理，时频变换处理具有线性性质，目标音频所转换得到的目标语谱图相当于水印音频转换得到的预设语谱图和待处理音频转换得到的原始语谱图的叠加。目标语谱图如图4所示，图4左上角的图像来自于预设语谱图，图4右下部分的图像来自于原始语谱图。基于此，得到目标音频后，如果需要读取目标音频中的版权，将目标音频转换为目标语谱图。将目标语谱图展示出来，即可获取数字水印，通过扫描图4左上角二维水印图像即可进行版权信息的读取。

在一个实施例中，对于变换域算法、扩频算法等来说，请参阅图5，将数字水印嵌入待处理音频的步骤包括步骤S502至步骤S510。

S502，对待处理音频进行分帧处理，得到各分帧音频。

可以理解，整个待处理音频在时域上是不断变化的不平稳信号，不利于在频域上进行分析。分帧处理可以以帧为单位，将待处理音频分解为多个分帧音频。每个分帧音频时间跨度较短，在较短时间跨度内音频信号可视为平稳变化。目前，许多可用于进行音频处理的软件中封装了分频处理的函数，如Matlab中的encode函数即可用于对音频进行分帧处理，encode函数中的可选参数包括窗长、重叠率等。其中，窗长为对分帧音频进行加窗操作时的窗长，加窗操作使分帧音频的幅度在两端渐变到0，以减轻频谱泄漏现象。考虑到在相邻两帧分帧音频之间基音发生了变化，如正好是两个音节之间，信号可能变化较大，为了使各分帧音频更为平滑，通过设置重叠率在相邻的的两个分帧音频之间设置一定程度的重叠。

S504，对各分帧音频进行时频变换处理，得到各分帧音频对应的频域信号。

在一实施方式中，时频变换处理用于将处于时域的各分帧音频转换到频域，即可以得到各分帧音频对应的频域信号。在音频处理领域，时频变换处理的具体方式包括DCT(Discrete Cosine Transform，离散余弦变换)算法、DFT(Discrete Fourier Transform，离散傅里叶变换)算法等。

S506，在各频域信号嵌入数字水印，得到各嵌入后频域信号。

在一实施方式中，在目标频带嵌入数字水印的方式根据选择的水印嵌入算法有所不同。例如变换域算法中可以包括：将数字水印转换为二进制序列；在频域信号的各频率分量的频率系数中确定目标频率系数；利用二进制序列对各频域信号的目标频率系数进行调整，以在各频域信号嵌入所述数字水印。二进制序列即为用一系列二进制数表示图像中各像素点的像素值，若数字水印不是灰度图像，可以先进行灰度化处理，则可以用二进制序列中的1和0代表某像素点的灰度值。另外，频域信号可以用一系列不同频率的余弦函数的和表示，每个余弦函数代表一个频率分量，该余弦函数的系数即为频率系数。目标频率系数的选择方式较多，例如从鲁棒性的角度考虑，普通音频的能量主要集中于低频或中频，不容易出现丢失，所以目标频率系数可以选择中频或低频的系数。调整目标频率系数相当于改变了该频率分量的幅值，对目标频率系数的调整幅度加以控制，即可保证调整后的音频的听感不受影响。

在一实施方式中，扩频算法中可以包括：将数字水印转换为二进制序列，并利用伪随机噪声序列对二进制序列进行扩频处理，得到扩频序列。将扩频序列嵌入各频域信号，得到各嵌入后频域信号。扩频技术在通信领域十分成熟，其可以将需要发送的信息以伪随机噪声序列为载波，将信息分散到较宽的频带上。而对于数字水印这一应用场景下，将数字水印嵌入待处理音频相当于向待处理音频中置入了噪声，由于二进制序列经过扩频处理，其可以将噪声的能量分散到各个频点，降低对听感的影响。将扩频序列嵌入频域信号的技术较为成熟，在此不再赘述。

S508，对各嵌入后频域信号进行时频变换处理的逆处理，得到各嵌入后分帧音频。

在一实施方式中，时频变换处理的逆处理用于将各嵌入后分帧音频从频域转换到时域。例如，时频变换处理选择DCT时，时频变换处理的逆处理为IDCT(Inverse Discrete Cosine Transform，反离散余弦变换)。时频变换处理选择DFT时，时频变换处理的逆处理为IDFT(Inverse Discrete Fourier Transform，反离散傅里叶变换)。

S510，对各嵌入后分帧音频进行叠加处理，得到目标音频。

在一实施方式中，叠加处理可以将各嵌入后分帧音频恢复为连续的音频，即得到目标音频。在得到各嵌入后分帧音频后，需要将各嵌入后分帧音频重建为完整的目标音频。对音频信号进行信号重建效果较好的算法为OLA(Overlap-Add,重叠相加)算法。目前，许多可用于进行音频处理的软件中封装了分频处理的函数，如Matlab中的overlapadd函数即可用于对音频进行叠加处理，overlapadd函数中的可选参数包括窗长、重叠率等，可以选择与步骤S602中encode函数中相同的参数。

在其中一个实施例中，请参阅图6，根据版权信息索引特征得到数字水印的步骤包括S602与S606。

S602，对版权信息索引特征进行编码处理，得到版权信息索引特征对应的二维水印图像。

S604，对二维水印图像进行简化处理。

S606，以简化处理后的所述二维水印图像为所述数字水印。

可以理解，二维水印图像中的图形可包括编码图形和功能图形。编码图形包括与格式信息对应的图形、与数据码字和纠错码字对应的图形以及与版本信息对应的图形。其中，格式信息用于反映二维水印图像中内嵌信息的格式。数据码字用于提取二维水印图像中的内嵌信息。纠错码字用于对二维水印图像进行纠错。版本信息用于反映二维水印图像所使用的版本。而功能图形至少可用于为二维水印图像进行定位。功能图形在扫描二维水印图像以获取二维水印图像中内嵌信息的场景中，可以帮助扫描设备快速定位二维水印图像，加快处理速度。但在本实施例中，应优先考虑数字水印的水印容量的限制，为了进一步缩小二维水印图像中的信息量，可以选择对二维水印图像进行简化处理，而简化处理的对象可以为在二维水印图像中不随内嵌信息的不同而变化的区域。例如，功能图形在二维水印图像中的位置、图形样式是固定的，不随内嵌信息的不同而变化，因此可以选择功能图形作为简化对象。经过简化处理后，减少了数字水印内所含信息量，在水印容量较小的情况下也可适用。并且，由于简化对象是不随内嵌信息的不同而变化的区域，从目标音频中提取到简化处理后的数字水印，可以根据简化对象所处位置和图形样式对简化处理后的数字水印进行还原，保证数字水印仍有较好的扫描效果。

在其中一个实施例中，对二维水印图像进行简化处理的步骤包括：将二维水印图像的可简化区域的像素点设置为空白像素点，以得到简化处理后的二维水印图像，其中，可简化区域包括定位标志区域、校正标志区域、定时标志区域以及静态区域中的至少一种。请参阅图7，以QR码为例，功能图形包括定位标志区域、校正标志区域、定时标志区域以及静态区域。其中，定位标志区域用于确定二维水印图像的大小和位置。校正标志区域用于确定二维水印图像的中心。定时标志区域用于确定二维水印图像的角度。静态区域用于区分二维水印图像与非二维水印图像之间的边界。可简化区域在二维水印图像中的位置、图形样式是固定的，如定位标志区域位于二维水印图像的左上角、右上角、左下角，由三个黑白相间的大正方形嵌套组成。因此，在需要时可以将被简化处理的区域还原。

本申请实施例还提供一种音频版权读取方法，该音频版权读取方法可以应用于图中的计算机设备102，也可以应用于服务器104。请参阅图8，包括步骤S802至步骤S808。

S802，获取目标音频。

可以理解，目标音频为嵌入了数字水印，且数字水印内嵌的信息为版权信息索引特征的音频。目标音频可以通过上述音频处理方法得到，也可以由其它方式处理得到。

S804，从目标音频中提取数字水印。

S806，根据数字水印得到版权信息索引特征。

在一实施方式中，数字水印提取算法为数字水印嵌入算法的逆算法，根据处理得到目标音频的过程中选择的数字水印嵌入算法选择对应的数字水印提取算法即可。

例如，对于数字水印是基于二维水印图像得到的，通过将数字水印映射到语谱图的方式嵌入数字水印来说，通过将目标音频转换为目标语谱图。目标语谱图上即展示有数字水印。将音频转为为语谱图可以通过短时傅里叶变换(Short-time Fourier Transform,STFT)得到语谱图特征，再根据语谱图特征绘制出目标语谱图。

例如，对于通过变换域算法将数字水印嵌入待处理音频的方式。可以通过对目标音频以及该目标音频对应的待处理音频进行时频变换处理，比较两个音频的频域信号各频率系数的差异，从频率系数有差异的频率系数中确定出目标频率系数，在从各频域信号的目标频率系数中提取出与数字水印对应的二进制序列，将该二进制序列还原为数字水印。

例如，对于通过扩频算法将数字水印嵌入待处理音频的方式。可以通过对目标音频进行时频变换处理，得到多个频域信号，再根据将扩频序列嵌入进各频域信号时使用的嵌入机制，确定扩频序列中各元素的嵌入点，再从各频域信号的嵌入点提取出扩频序列中所有元素。在重建扩频序列后，利用嵌入数字水印时使用的相同的伪随机序列，从扩频序列中得到与数字水印对应的二进制序列，将该二进制序列还原为数字水印。

在一实施方式中，如果在根据版权信息索引特征生成数字水印的过程中对版权信息索引特征进行了加密处理，则在从数字水印中提取出信息后，通过加密处理对应的解密处理即可得到版权信息索引特征。

S808，根据版权信息索引特征在版权数据库中索引目标音频的版权信息。

在一实施方式中，从数字水印中提取出的版权信息索引特征后，可以根据版权信息索引特征的形式选择合适的索引方式。例如，如果版权信息索引特征为字符串，可以在版权数据库对应的版权查询界面输入该字符串，以索引该字符串对应的版权信息。如果版权信息索引特征为URL回调地址，可以通过访问该地址的方式获取到对应的版权信息。访问该地址的方式也可根据版权信息索引特征的形式选择，例如，若从数字水印中提取出的URL回调地址为文本形式，可以在浏览器中输入该URL回调地址进行访问。若从数字水印中提取出的URL回调地址为二维水印图像形式，可以通过二维码扫描设备(如各类终端)扫描该二维水印图像，扫描后自动跳转至该URL回调地址。

在一实施方式中，基于本实施例中的音频版权读取方法，可以从以数字水印内嵌信息为版权信息索引特征的目标音频中提取出版权信息索引特征，再根据出版权信息索引特征读取到目标音频对应的版权信息。由于版权信息索引特征相较于版权信息而言信息量更小，在生成数字水印时不受水印容量限制。另外，包含较多信息量的版权信息放在版权数据库中，在需要时利用本实施例中的方法根据版权信息索引特征从版权数据库中调取，可提供完整、全面的版权信息，确保版权的保护效果。

在其中一个实施例中，版权数据库配置于目标服务器，目标服务器处于网络隔离环境中。本实施例中的音频版权读取方法可应用于目标服务器本身，也可应用在与目标服务器处于同一网络隔离环境中的计算机设备或服务器，或可应用在目标服务器所处网络隔离环境以外的服务器或计算机设备。若音频版权读取方法应用于目标服务器以外的主体，则请求方是否能获取版权信息应经过审核，即根据版权信息索引特征在版权数据库中索引目标音频的版权信息的步骤包括：向目标服务器发送版权信息获取请求，版权信息获取请求包括版权信息索引特征和自身网络地址。如版权信息索引特征为字符串，在版权数据库对应的查询界面输入版权信息索引特征以发送版权信息获取请求进行索引，目标服务器接收到该版权信息获取请求后，可以从数据包中提取出数据包来自哪个网络地址以及需要索引哪个版权信息索引特征对应的版权信息。又如版权信息索引特征为URL回调地址，在访问URL回调地址时，目标服务器可以获取到访问设备的网络地址和该URL回调地址对应哪个版权信息。基于此，目标服务器可以根据网络地址审核请求方是否有资格获取版权信息。

在一个实施例中，目标服务器响应来自于内网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的版权信息。目标服务器拒绝来自于外网地址的请求方的请求。在另一个实施例中，版权信息包括公开版权信息和保密版权信息。目标服务器响应来自于内网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的公开版权信息和保密版权信息。目标服务器响应来自于外网地址的请求方的请求，向请求方反馈与版权信息索引特征对应的公开版权信息。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

第三方面，本申请实施例提供一种计算机设备，该计算机设备可以是服务器、终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。在执行上述音频版权读取方法时，该非易失性存储介质还可存储有数据库，该计算机设备的数据库用于存储版权信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现一种音频处理方法，即计算机程序被处理器执行时实现：获取与待处理音频的版权信息对应的版权信息索引特征，版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息；根据版权信息索引特征得到数字水印；将数字水印嵌入待处理音频，得到目标音频。

基于本实施例中的计算机设备，将基于版权信息索引特征生成的数字水印嵌入到待处理音频，在需要对待处理音频进行版权读取时，提取数字水印中的版权信息索引特征，即可根据版权信息索引特征在版权数据库中读取出待处理音频对应的版权信息。由于版权信息索引特征相较于版权信息而言信息量更小，在生成数字水印时不受水印容量限制。另外，包含较多信息量的版权信息放在版权数据库中，在需要时根据版权信息索引特征从版权数据库中调取，可提供完整、全面的版权信息，确保版权的保护效果。

在其中一个实施例中，该计算机程序被处理器执行时实现：对版权信息索引特征进行编码处理，得到版权信息索引特征对应的二维水印图像；根据二维水印图像得到数字水印。

在其中一个实施例中，该计算机程序被处理器执行时实现：对版权信息索引特征进行编码处理，得到版权信息索引特征对应的二维水印图像；对二维水印图像进行简化处理；根据简化处理后的二维水印图像得到数字水印。

在其中一个实施例中，该计算机程序被处理器执行时实现：对待处理音频进行分帧处理，得到各分帧音频；对各分帧音频进行时频变换处理，得到各分帧音频对应的频域信号；在各频域信号嵌入数字水印，得到各嵌入后频域信号；对各嵌入后频域信号进行时频变换处理的逆处理，得到各嵌入后分帧音频；对各嵌入后分帧音频进行叠加处理，得到目标音频。

在其中一个实施例中，该计算机程序被处理器执行时实现一种音频版权读取方法，即该计算机程序被处理器执行时实现：获取目标音频；从目标音频中提取数字水印；根据数字水印得到版权信息索引特征；根据版权信息索引特征在版权数据库中索引目标音频的版权信息。

基于本实施例中的音频版权读取方法，可以从以数字水印内嵌信息为版权信息索引特征的目标音频中提取出版权信息索引特征，再根据出版权信息索引特征读取到目标音频对应的版权信息。由于版权信息索引特征相较于版权信息而言信息量更小，在生成数字水印时不受水印容量限制。另外，包含较多信息量的版权信息放在版权数据库中，在需要时利用本实施例中的方法根据版权信息索引特征从版权数据库中调取，可提供完整、全面的版权信息，确保版权的保护效果。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的音频处理方法或音频版权读取方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

工业实用性

本申请实施例所提供的音频处理方法、计算机设备和计算机可读存储介质，将基于版权信息索引特征生成的数字水印嵌入到待处理音频，在需要对待处理音频进行版权读取时，提取数字水印中的版权信息索引特征，即可根据版权信息索引特征在版权数据库中读取出待处理音频对应的版权信息。由于版权信息索引特征相较于版权信息而言信息量更小，在生成数字水印时不受水印容量限制。另外，包含较多信息量的版权信息放在版权数据库中，在需要时根据版权信息索引特征从版权数据库中调取，可提供完整、全面的版权信息，确保版权的保护效果。

Claims

一种音频处理方法，包括：

获取与待处理音频的版权信息对应的版权信息索引特征，所述版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息；

根据所述版权信息索引特征得到数字水印；

将所述数字水印嵌入所述待处理音频，得到目标音频。
根据权利要求1所述的音频处理方法，其中，所述根据所述版权信息索引特征得到数字水印的步骤包括：

对所述版权信息索引特征进行编码处理，得到所述版权信息索引特征对应的二维水印图像；

根据所述二维水印图像得到所述数字水印。
根据权利要求2所述的音频处理方法，其中，所述根据所述二维水印图像得到所述数字水印包括：

对所述二维水印图像进行简化处理；

以简化处理后的所述二维水印图像为所述数字水印。
根据权利要求3所述的音频处理方法，其中，所述对所述二维水印图像进行简化处理的步骤包括：

将所述二维水印图像的可简化区域的像素点设置为空白像素点，以得到简化处理后的所述二维水印图像，其中，所述可简化区域包括定位标志区域、校正标志区域、定时标志区域以及静态区域中的至少一种。
根据权利要求2-4任一项所述的音频处理方法，其中，所述将所述数字水印嵌入所述待处理音频的步骤包括：

在预设语谱图的目标频段设置所述数字水印，所述目标频段为人耳感知范围外的频段；

将所述预设语谱图转换为音频，得到水印音频；

将所述水印音频和所述待处理音频合成，以得到目标音频。
根据权利要求5所述的音频处理方法，其中，所述预设语谱图的第一坐标轴代表时间、第二坐标轴代表频率，所述在预设语谱图的目标频段设置所述数字水印的步骤包括：

确定所述目标频段在所述第二坐标轴方向上对应的目标坐标，并根据所述目标坐标确定所述预设语谱图的目标区域；所述目标区域在第二坐标轴方向上的坐标大于所述目标坐标；

将所述数字水印设置在所述预设语谱图的目标区域，以得到所述语谱图。
根据权利要求2-4任一项所述的音频处理方法，其中，所述将所述数字水印嵌入所述待处理音频的步骤包括：

对所述待处理音频做分帧处理，对所述分帧处理后得到的各分帧音频做时域变换处理，得到各分帧音频的频域信号；

在各所述频域信号嵌入所述数字水印，得到各嵌入后频域信号；

对各所述嵌入后频域信号进行所述时频变换处理的逆处理，得到各嵌入后分帧音频；

对各所述嵌入后分帧音频进行叠加处理，得到所述目标音频。
根据权利要求7所述的音频处理方法，其中，所述在各所述频域信号嵌入所述数字水印的步骤包括：

将所述数字水印转换为二进制序列，并利用伪随机噪声序列对所述二进制序列进行扩频处理，得到扩频序列；

将所述扩频序列嵌入各所述频域信号，得到各所述嵌入后频域信号。
根据权利要求7所述的音频处理方法，其中，所述在各所述频域信号嵌入所述数字水印的步骤包括：

将所述数字水印转换为二进制序列；

在所述频域信号的各频率分量的频率系数中确定目标频率系数；

利用所述二进制序列对各所述频域信号的所述目标频率系数进行调整，以在各所述频域信号嵌入所述数字水印。
根据权利要求1-4任一项所述的音频处理方法，其中，所述版权数据库配置于目标服务器，所述目标服务器处于网络隔离环境中。
根据权利要求1-4任一项所述的音频处理方法，其中，在实际版权信息发生变化时，所述版权数据库中的版权信息更新为变化后的所述实际版权信息。
一种音频版权读取方法，包括：

获取目标音频；

从所述目标音频中提取数字水印；

根据所述数字水印得到版权信息索引特征；

根据所述版权信息索引特征在版权数据库中索引所述目标音频的版权信息。
一种音频处理装置，包括：

特征获取单元，被配置为执行获取与待处理音频的版权信息对应的版权信息索引特征，所述版权信息索引特征用于在版权数据库中索引所述待处理音频的版权信息；

水印获取单元，被配置为执行根据所述版权信息索引特征得到数字水印；

水印嵌入单元，被配置为执行将所述数字水印嵌入所述待处理音频，得到目标音频。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法或权利要求12所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法或权利要求12所述的方法的步骤。