WO2015032243A1

WO2015032243A1 - 一种音乐节目信息获取方法和设备

Info

Publication number: WO2015032243A1
Application number: PCT/CN2014/082516
Authority: WO
Inventors: 李鹏
Original assignee: 网易（杭州）网络有限公司
Priority date: 2013-09-03
Filing date: 2014-07-18
Publication date: 2015-03-12
Also published as: CN103440330A

Abstract

本发明的实施方式提供了一种音乐节目信息获取方法。该方法包括：获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果；根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。通过对音乐节目对应的音频文件进行自动识别处理，获得了音乐节目包含的歌曲的列表信息，为用户带来了更好的体验。此外，本发明的实施方式提供了一种音乐节目信息获取设备。

Description

一种音乐节目信息获取方法和设备

[0001] 本申请要求于 2013年 9月 3 日提交中国专利局、申请号为 201310396390. 4、发明名称为 "一种音乐节目信息获取方法和设备" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

[0002] 本发明的实施方式涉及多媒体处理领域，更具体地，本发明的实施方式涉及一种音乐节目信息获取方法和设备。背景技术

[0003] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

[0004] 随着多媒体技术的发展，音频类终端产品得到了广泛的应用。音频类终端产品为用户提供音频内容，以为用户提供音频播放服务。在现有技术中，已经出现提供音乐节目收听服务的音频终端产品。音乐节目通常包含不同形式的音频内容，例如音乐内容、语言内容等。用户在收听音乐节目时，通常希望获取音乐节目的相关信息，特别是希望获取音乐节目播放歌曲的列表，以便于在听到喜欢的歌曲时进行收藏，方便重复收听或检索。发明内容

[0005] 但是，现有技术中，音频类终端产品往往不能够提供音乐节目的歌曲列表，用户无法得知音乐节目的内容，也无法在收听到喜欢的歌曲时，获得歌曲的名称等相关信息以便进行收藏、检索。

[0006] 因此在现有技术中，收听音乐节目时无法获得音乐节目信息是非常令人烦恼的问题。

[0007] 为此，非常需要一种改进的音乐节目信息获取方法，以使用户在收听音乐节目时能够获取音乐节目信息，提高用户体验。 [0008] 在本上下文中，本发明的实施方式期望提供一种音乐节目信息获取方法和设备。

[0009] 在本发明实施方式的第一方面中，提供了一种音乐节目信息获取方法，包括：获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果；

根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。

[0010] 在本发明实施方式的第二方面中，提供了一种音乐节目信息获取设备，包括：

[0011] 识别装置，配置用于获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果；

[0012] 显示装置，配置用于根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。

[0013] 根据本发明实施方式的音乐节目信息获取方法和设备，可以对待处理的音乐节目对应的音频文件进行自动识别处理，根据获得的识别结果显示包括歌曲列表在内的音乐节目信息，解决了现有技术收听音乐节目时无法获得音乐节目信息的问题，使用户在收听音乐节目时能够获取音乐节目信息，为用户带来了更好的体验。

附图说明

[0014] 通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

[0015] 图 1示意性地示出了适于实现本发明实施方式的示例性计算系统 1 00的框图；

[0016] 图 2示意性地示出了根据本发明实施例的应用场景；

[0017] 图 3示意性地示出了根据本发明音乐节目信息获取方法一实施例示意图；

[0018] 图 4示意性地示出了一段歌曲信号计算得到的声谱图结果示意图；

[0019] 图 5 示意性地示出了一段音频中的音频指纹示意图；

[0020] 图 6 示意性地示出了指纹库中的 ha s h表形式的倒排索引示意图；

[0021] 图 7示意性地示出了音乐节目的音频数据与单曲的音乐指纹匹配示意图；

[0022] 图 8示意性地示出了本发明又一实施例提供的音频指纹匹配流程示意图；

[0023] 图 9 示意性地示出了本发明一实施例提供的当前音频片段与各歌曲匹配结果示意图；

[0024] 图 10示意性地示出了本发明一实施例提供的音频文件识别结果示意图；

[0025] 图 11示意性地示出了本发明一实施例提供的的指纹添加流程示意图；

[0026] 图 12示意性地示出了本发明音乐节目信息获取设备示意图。

[0027] 在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

[0028] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

[0029] 图 1 示出了适于实现本发明实施方式的示例性计算系统 100的框图。如图 1 所示，计算系统 100 可以包括：中央处理单元（CPU ) 101、随机存取存储器（RAM ) 102、只读存储器（ROM ) 103、系统总线 104、硬盘控制器 105、键盘控制器 106、串行接口控制器 107、并行接口控制器 108、显示控制器 109、硬盘 110、键盘 111、串行外部设备 112、并行外部设备 113和显示器 114。这些设备中，与系统总线 104耦合的有 CPU 101、 RAM 102、 ROM 103、硬盘控制器 105、键盘控制器 106、串行控制器 107、并行控制器 108和显示控制器 109。硬盘 110与硬盘控制器 105耦合，键盘 111 与键盘控制器 106耦合，串行外部设备 112与串行接口控制器 107耦合，并行外部设备 11 3与并行接口控制器 108耦合，以及显示器 114与显示控制器 109耦合。应当理解，图 1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

[0030] 本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式，本文一般称为 "电路"、 "模块" 或 "系统"。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

[0031] 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举示例）例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM )、只读存储器（ROM)、可擦式可编程只读存储器（EPR0M或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0032] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

[0033] 计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、 RF等等，或者上述的任意合适的组合。

[0034] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言一诸如 Java、 Sma l l ta lk , C++ , 还包括常规的过程式程序设计语言一诸如 "C" 语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络（包括局域网（LAN)或广域网（WAN) ) 连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

[0035] 下面将参照本发明实施例的方法的流程图和设备（或系统）的框图描述本发明的实施方式。应当理解，流程图和 /或框图的每个方框以及流程图和 /或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和 /或框图中的方框中规定的功能 /操作的装置。

[0036] 也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和 /或框图中的方框中规定的功能 /操作的指令装置的产品。

[0037] 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和 /或框图中的方框中规定的功能 /操作的过程。

[0038] 根据本发明的实施方式，提出了一种音乐节目信息获取的方法和设备。

[0039] 在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

[0040] 下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。 [0041] 发明概述

[0042] 本发明人发现，用户在收听音乐节目时，通常希望获取音乐节目的相关信息，特别是希望获取音乐节目播放歌曲的列表，以便于在听到喜欢的歌曲时进行收藏，方便重复收听或检索，而现有技术中，音频类终端产品往往不能够提供音乐节目的歌曲列表，用户无法得知音乐节目的内容，也无法在收听到喜欢的歌曲时，获得歌曲的名称等相关信息以便进行收藏、检索。针对现有技术中用户收听音乐节目时无法获得音乐节目信息的问题，本发明提供了一种音乐节目信息获取方法和设备，可以对待处理的音乐节目对应的音频文件进行自动识别处理，根据获得的识别结果显示包括歌曲列表在内的音乐节目信息，解决了现有技术收听音乐节目时无法获得音乐节目信息的问题，使用户在收听音乐节目时能够获取音乐节目信息，为用户带来了更好的体验。

[0043] 在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

[0044] 应用场景总览

[0045] 首先参考图 2 ,本发明实施方式可以应用的场景例如可以为如图 2所示的音频终端实现音乐节目信息的获取和显示。

[0046] 示例性方法

[0047] 下面结合图 2 的应用场景，参考图 3来描述根据本发明示例性实施方式的用于音乐节目信息获取的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

[0048] 参考图 3所示，为本发明公开的音乐节目信息获取方法一实施方式的流程图，本实施方式具体例如可以包括：

[0049] S 301 , 获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果。

[0050] S 302 , 根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。

[0051] 下面对照图 3对本发明的详细实现进行说明。

[0052] 在本实施方式中，首先获取待处理节目对应的音频文件，在一种可能的实现方式中，可以预先对所述音频文件进行预处理操作。例如可以包括，对应输入的音频文件，将其解码为原始的音频数据。进一步地，可以按照预定的采样率对音频数据进行重釆样处理。

[0053] 具体实现时，步骤 S 301可以通过如下步骤实现：

[0054] S 301A, 对所述音频文件进行划分，获得多个音频片段。

[0055] 在本实施方式中，首先对待处理音乐节目对应的音频文件进行划分，以获得多个音频片段。具体划分的方式可以是多样的，例如可以以预设的时间间隔对音频文件 /音频数据进行划分（例如按照 8秒为间隔将音频数据划分为多个音频片段）；或者，可以按照预设的截取参数将音频数据划分为不等长的若干音频片段；或者，也可以按照音频数据固有的音频特征（例如节奏）将音频数据划分为多个片段。具体实现方式可以是非常灵活的，本发明对此不进行限定，只要能够保证从所述音乐节目包含的每首歌曲中均能截取出至少一个音频片段即可。

[0056] 下面介绍一种具体的实现方式。假设将音频文件划分成 M个音频片段，则截取的音频片段可以表示为：

S! = {s I t;^tart≤ t(s)≤ t } i=l, 2， ...， M ( 1 ) 其中， s为音频采样数据， t (s)为 s的时间信息， ^tort为预设的第 i个片段的起始位置， t' 为预设的第 i 个片段的终止位置。由此可见， t'' 和决定了截取的音频片段的位置和持续长度。具体实现时，在对音频文件进行划分时，保存所述音频片段的时间信息，所述时间信息包括所述音频片段的开始和 /或终止时间信息，即 f和 ^f< 。通常情况下，一首歌曲持续时长至少为 l分钟，因此可以设置合适的截取参数，保证从音乐节目包含的每首歌曲中都能截取出至少一个音频片段。例如，可以设置 ^ 和的持续长度为 30S。当然，为了提高识别的精度，也可以设置和的持续长度为更短的时间，例如 1 OS。

[0057] S 301B, 分别提取所述多个音频片段的音频指纹信息，所述音频指紋信息用于表征所述音频片段的信号特征。

[0058] 在本实施方式中，对获得的多个音频片段分别进行信号分析处理，提取用于表征所述音频片段的信号特征的音频指紋信息。其中，对所述多个音频片段分别进行信号分析处理包括以下任意一种方式：对所述多个音频片段分别进行信号频谱分析处理；对所述多个音频片段分别进行信号能量分析处理；对所述多个音频片段分别进行基音、节拍分析处理。以上具体分析的手段可以单独或组合使用，本发明对此不进行限定，只要能够通过信号分析处理获得音频片段的信号特征信息的实现方式均属于本发明的保护范围。在具体实现时，提取的信号特征信息包括但不限于：信号频谱中的特征点信息，例如可以包括极大值点、极小值点、突变点等；音乐的基音、节拍、旋律等信息。

[0059] 下面以一种可能的实现方式说明如何提取音频片段的音频指纹信息，本领域技术人员可以理解的是，以下仅为示例性地说明，并不视为对本发明的限制，具体的实现方式可以是非常多样和灵活的，本领域技术人员在不付出创造性劳动下获取的其他实现方式均属于本发明的保护范围。

[0060] 本发明此实施方式提供的示例具体可以包括：对于输入的音频信号，计算其声谱图。其中，声谱图 FFT尺寸设置为 1024。滑动窗口尺寸设置为 512。窗函数选择汉明窗。如图 4所示，展示了从一段歌曲信号计算得到的声谱图结果。在获得声谱图之后，对于声谱图中的每一帧（对应图中的每一列），在该帧中寻找能量最大的前 N个频率分量，并判断这些频率分量的能量是否大于预设阈值 T。如果是，则记录该频率分量在声谱图中的位置（f rame, f requency)。扫描完整个声谱图后，可选中图 4中圆圏所示的一些重要特征点，且每一点都有对应的位置信息。

[0061] 提取完这些重要特征点后，开始生成指紋数据。生成指紋数据的方式有很多种，例如，指紋的形式可以为：其中，为矢量形式的特征值， t为该指纹发生的时间戳位置（可以对应某个时刻）。

[0062] 在本本实施方式中，可以直接釆用每个特征点的（frame, frequency)数据作为指紋。即：使用 frequency数值作为指紋的；使用 frame数值作为指纹的时间戳 t。由于存在多个特征点，从一段音频中可提取出一组指紋数据。音频指纹以数值的形式存储，并附有时间戳信息，以记录该特征在音频中的时间位置。最终，一段音频中的指紋可以表示为如图 5所示的形式。

[0063] S 301C , 将提取的音频片段的音频指纹信息与预设的指纹库中的音频指纹进行匹配，获得匹配结果。

[0064] 在本实施方式，预先建立了指紋库，所述指紋库包括各歌曲的音频指紋信息、歌曲标识信息。预先建立曲库，提取曲库中每首歌曲的音频指紋，然后将歌曲的音频指纹以一定的数据结构組织起来以建立指纹库。具体实现时，可以 ha sh表形式的倒排索引形式存储音频指纹数据。如图 6所示，提供了指紋库中的 hash表形式的倒排索引示意图。其中，可以按照步骤 S 301B提供的方式提取每首歌曲的音频指纹，然后以指紋中的矢量形式特征值作为 hash表的键值（key值），建立 hash表形式的倒排索引， hash表结点则保存该歌曲的歌曲标识 ID及时间戳（f rame ) 数据。

[0065] 请参见图 7，为音乐节目的音频数据与单曲的音乐指纹匹配示意图。其中，其中，音乐节目中的 t 3-t 7时间段的音乐指纹与单曲中的 t l-t 5时间段的音乐指紋匹配。

[0066] 在本发明一种可能的实现方式中，为了避免由曲库数据量、查询速度等因素限制造成的查找速度较低的问题，本发明具体实现时，可以采取剪枝策略，忽略那些没有匹配可能性的歌曲，以提高歌曲指紋匹配查找的速度。

[0067] 具体实现时，步骤 S 301C可以通过如下流程实现：

[0068] S801 , 扫描预设的指纹库中的音频指纹。

[0069] S802 , 获得与当前音频片段的音频指紋匹配的音频指纹对应的歌曲信息以及所述歌曲对应的总匹配次数。

[0070] 在一种具体的实现方式中，可以为曲库（或指紋库）中每首歌曲设置匹配次数计数器，初始化为 0。假设已从音频片段中提取其对应的一组指紋数据。然后，对于每个指纹数据，使用其矢量形式特征 f作为 key , 找到倒排索引中对应的桶（即链表，由多个节点组成），则该桶中每首歌曲均和当前片段产生一次匹配，该歌曲计数器 + 1。完成所有扫描后可获得当前查询请求对应的音频片段和曲库中每首歌曲的总匹配次数。

[0071] S803 , 判断所述歌曲对应的总匹配次数是否大于第一预设阈值.如果是，进入步骤 S804。

[0072] S804 , 记录所述歌曲的标识信息。歌曲对应的总匹配次数大于第一预设阁值的歌曲即为候选匹配歌曲。在进行第二次扫描时，本发明提供的匹配方法则仅对所述候选匹配歌曲进行精确查找。

[0073] S805 , 再次扫描预设的指纹库中的音频指紋。

[0074] S806 , 判断所述指紋库中的音频指纹对应的歌曲的标识信息是否已被记录。如果是，进入步骤 S807 ; 如果否，跳过所述歌曲。这样处理，则在再次扫描指紋库的音频指紋时，跳过了非候选匹配歌曲，提高了扫描效率，以实现快速、精确地查找匹配。

[0075] S 807，计算所述指纹库中的音频指纹与所述当前音频片段的音频指纹的时间差信息。

[0076] 其中，所述时间差信息为所述指纹库中的音频指紋的时间戳与所述当前音频片段的音频指紋的时间戳之间的差值。

[0077] S808 , 遍历所述预设的指纹库，利用获得的时间差信息确定与所述当前音频片段匹配的歌曲。

[0078] 发明人在实现本发明的过程中发现，如果曲库中的歌曲与当前音频片段能够实现匹配，那么应当有连续的音频指纹实现对应，则音频片段的音频指纹的时间戳与歌曲的音频指紋的时间戳之间的差值应当相同。例如，如图 7所示，为音乐节目的音频数据与单曲的音乐指纹匹配示意图。其中，音乐节目中的 -Π时间段的音乐指纹与单曲中的 t l-t 5时间段的音乐指纹匹配。则有如下对应关系：

t 3-t l=t 4-t 2=t 5-t 3=t 6-t 4=t 7-t 5

[0079] 上述时间差对应音频片段在歌曲中的起始位置，出现次数最多的时间差对应的歌曲即为与音频片段匹配的歌曲。基于此，本发明采用如下方式确定与音频片段匹配的歌曲。

[0080] 在本实施方式中，利用获得的时间差信息确定与所述当前音频片段匹配的歌曲具体可以包括：建立时间差与歌曲标识的对应关系；统计获得的时间差出现的次数；对获得的时间差出现的次数进行排序，获取出现次数最多的时间差；判断所述时间差对应的出现次数值是否大于第二预设阈值，如果是，则获取所述时间差对应的歌曲标识，将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。具体实现时，可以为每首歌曲中每个可能的时间差设置一个计数器，在扫描 ha sh 表的过程中，计算时间差，然后将该歌曲该时间差的计数器加 1，以提高计算的速度和效率。如图 9所示，为当前音频片段与各歌曲匹配结果示意图。从中确定中出现次数最多的时间差，并判断所述时间差对应的出现次数是否大于预设的第二阈值，如果是，则获取与所述出现次数最多的时间差对应的歌曲标识，将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。

[0081] 然后，对每一个音频片段均进行上述处理，获得与每个音频片段对应的识别结果。

[0082] 在本实施方式中，可以进一步根据获得所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。如图 10所示，为音频文件识别结果示意图。在完成步骤 S 301 的指纹识别匹配后，每个音频片段都得到相应的识别匹配结果，如果匹配成功，则匹配结果为一首歌曲，如果匹配失败，则说明该音频片段无法在曲库中查找到。由于步骤 301保证了音乐节目包含的每首歌曲至少对应一个音频片段，因此，对于包含在音乐节目中的歌曲，其对应的音频片段都可以成功匹配，对于百万级的曲库来说，能够保证覆盖到音乐节目中的歌曲。由于每首歌曲可能对应多个音频片段，因此会产生多个音频片段匹配到同一首歌的情况，这时，需要对匹配结果进行处理，将重复结果合并。具体实现可以根据需要实现。然后，根据获得的识别结果，显示包括歌曲列表在内的音乐节目信息。具体可以如图 2本发明的应用场景所示。

[0083] 在本发明一种可能的实现方式中，还可以进一步包括：

S 303 , 根据所述识别结果显示音乐节目的音频内容的段落标记信息；其中，所述音乐节目包括多个音频内容，所述段落标记信息用于表征所述各音频内容的开始和 /或终止时间信息。

[0084] 在本发明一具体实现方式中，可以分析音乐节目中的音频内容的段落标记信息，所述段落标记信息用于表征所述各音频内容的开始和 /或终止时间信息。例如，对于常见的 DJ音乐节目来说，其一般包含音乐内容和语言内容。例如，在 DJ音乐节目中，先有 DJ旁白，然后播放音乐歌曲，歌曲结束后， DJ有相应的点评。用户在收听音乐节目时，往往会产生这样的需求，即希望跳过或忽略 DJ 旁白（即语言内容）而直接播放音乐内容。现有技术并不能够为用户提供这样的便利。而本发明中，可快速分析音乐节目中的音乐、语言内容的段落位置，并对这些位置进行标记。在用户收听音乐节目时，提供每段音频内容中段落的准确划分，方便用户快速定位音频段落，切换内容进度。该方案不需人工参与，整个流程均可做到自动化。

[0085] 具体实现时，本发明在对音频文件进行划分时，可以保存所述音频片段的时间信息，所述时间信息包括所述音频片段的开始和 /或终止时间信息。则所述根据所述识别结果显示音乐节目的音频内容的段落标记信息包括：根据音频片段的开始和 / 或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息。具体地，当所述识别结果表明所述音频片段未与歌曲匹配时，则确定所述音频片段为语言内容；然后获取所述音频片段的时间信息，将所述时间信息作为所述语言内容的段落标记信息。当所述识别结果表明所述音频片段与对应的歌曲匹配时，则确定所述音频片段为音乐内容；获取所述音频片段的时间信息，将所述时间信息作为所述音乐内容的段落标记信息。

[0086] 下面以 DJ节目的具体实现为例对上述实现过程进行说明，步骤 301中从音乐节目中截取了多个音频片段，每个音频片段可能对应的是歌曲，也可能是 DJ 旁白，或者可能是两者的交界处。在完成指紋识别后，对应歌曲的音频片段会匹配到歌曲，对应 DJ 旁白的音频片段则会匹配失败，对应两者交界处的音频片段可能会匹配到歌曲，也可能匹配失败（这取决于这个音频片段中歌曲时长和旁白时长的比例）。因此，可以将匹配失败的音频片段认为是 DJ旁白片段（即语言内容）。由于截取的音频片段在原音乐节目中的位置已知（对应音频片段的开始和 /或终止时间信息），故可得到原音乐节目中 DJ 旁白的粗略位置。为了提高位置的精确性，可设置较小的截取片段长度，例如设置为 5-8秒，这样对 DJ旁白位置的定位精度可达到几秒的数量级，满足常见需求。例如，可以将整个 DJ 节目平均划分为多个子片段，每个片段持续时长 8 秒。然后对每个片段进行指紋匹配。假设某片段对应 DJ节目中的 33-40秒，且匹配到歌曲 XXX , 则认为 DJ节目中 33-40秒为歌曲 XXX。若该片段未能成功匹配，则认为 DJ节目中 33-40秒为 DJ旁白。对所有片段进行匹配处理后，即可获取整个 DJ节目中音乐部分和 DJ旁白部分的起止位置划分。由于每个片段持续时长仅 8秒，因此可保证定位精度在数秒左右。

[0087] 由此，即可以实现对音乐节目段落标记信息的获取，然后，可以在音频终端上显示获得的音乐节目的音频内容的段落标记信息。

[0088] 进一步的，本发明提供的方法还可以包括： S 304 , 响应于点击所述段落标记的触发，将所述音频文件跳转至与所述段落标记对应的时间位置；从所述时间位置开始播放所述音频文件的对应部分。

[0089] 也就是说，本发明提供的方法，不仅可以显示音乐节目的音频内容的段落标记信息，还可以响应于用户的点击的处罚，实现音频文件的自动跳转与切换，以满足用户对播放进度的切换需求。

[0090] 前面提到，本发明可以预先建立指纹库。可以提取所有歌曲的音频指纹，然后根据热度 +语种将歌曲分类，例如按华语、日韩、欧美分类。然后将每一类中相应的歌曲指纹合并为 hash 表，最后存储为配置文件。当自动识别启动时，一次性将所有 ha sh表数据从配置文件中读出，装入内存，以提高数据处理速度。

[0091] 在本发明一种可能的实现方式中，提供了一个注入指纹的方法，可以向所述指纹库添加新歌曲对应的音频指纹信息，以便在识别流程正常工作过程中，向指定的 ha sh表（筒称动态表）中添加一首歌曲的指紋。

[0092] 参见图 11 , 为本发明又一实施例提供的指紋添加流程示意图。

[0093] 为了避免添加新的指紋数据时可能出现的数据冲突，本发明中，通过设定动态表和备份表来实现在提供自动识别功能时，动态实时添加新的音频指紋信息。其具体实现为：当向指纹库添加新歌曲对应的音频指紋信息时，锁定用于保存音频指紋信息的动态表，激活用于备份音频指紋信息的备份表。此时，动态表不再用于提供自动识别功能，而是作为音频指纹信息的存储对象；如果此时需要提供自动识别功能，使用备份表中的音频指纹进行相应的自动识别处理。在进行完动态表的锁定以及备份表的激活处理后，将要添加的新歌曲对应的音频指紋信息保存至所述动态表中；判断所述动态表是否已满；如果是，解除所述动态表的锁定，将动态表中的音频指纹备份到指定位置；创建新动态表，并清空备份表；如果否，解除所述动态表的锁定，锁定所述备份表；将要添加的新歌曲对应的音频指纹信息保存至备份表中，并解除所述备份表的锁定，结束添加音频指紋过程。

[0094] 在这一实现方式中，可以实现实时动态添加 /注入新的音频指纹，以方便对指紋库进行更新，提高自动识别的准确度。

[0095] 以上对本发明提供的音乐节目信息获取方法的具体实现进行了详细地介绍，从上述实现方式可以看出，本发明提供的方法，可以实现对待处理音乐节目对应的音频文件的自动识别处理，以根据获得的识别结果显示包括音乐节目列表在内的音乐节目信息。具体实现时，本发明提供的方法基于音频指纹识别技术、对输入音频文件进行信号分析，从中提取音频指纹，然后将提取的音频指纹与预设的指纹库中的音频指紋进行识别匹配，得到匹配结果。对匹配结果进行处理后，获得音乐节目中的歌曲信息和段落位置信息。本发明可以自动获取音乐节目列表信息，并提供音乐节目的音频内容的段落标记信息，可以根据用户的触发实现音频内容的切换与跳转，为用户提供了更好的体验。此外，本发明的方法针对语言与音乐混杂的音乐节目能达到较好的精度，在含有各种不同风格歌曲的全曲库范围内取得满意效果。

[0096] 示例性设备

[0097] 在介绍了本发明示例性实施方式的方法之后，接下来，参考图 12 对本发明示例性实施方式的、用于音乐节目信息获取的设备进行介绍。

[0098] 参见图 12 , 为本发明提供的音乐节目信息获取设备示意图，所述设备可以包括：

[0099] 识别装置 1201 , 配置用于获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果。

[0100] 显示装置 1202，配置用于根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。

[0101] 在本发明一种可能的实现方式中，其中，所述识别装置包括：

[0102] 划分单元，用于对所述音频文件进行划分，获得多个音频片段元。

[0103] 提取单元，用于分别提取所述多个音频片段的音频指纹信息其中，所述音频指纹信息用于表征所述音频片段的信号特征。

[0104] 匹配单元，用于将提取的音频片段的音频指纹信息与预设的指紋库中的音频指纹进行匹配，获得匹配结果。

[0105] 在本发明一种可能的实现方式中，其中，所述提取单元具体用于：

[0106] 对所述多个音频片段分别进行信号分析处理，提取用于表征所述音频片段的信号特征的音频指紋信息。

[0107] 在本发明一种可能的实现方式中，其中，所述提取单元在对所述多个音频片段分别进行信号分析处理时可以包括以下任意一种处理方式：

对所述多个音频片段分别进行信号频谱分析处理；

对所述多个音频片段分别进行信号能量分析处理；

对所述多个音频片段分别进行基音、节拍分析处理。 [0108] 在本发明一种可能的实现方式中，其中，所述匹配单元包括：

[0109] 第一扫描单元，用于扫描预设的指纹库中的音频指纹，获得与当前音频片段的音频指纹匹配的音频指紋对应的歌曲信息以及所述歌曲对应的总匹配次数；

[0110] 记录单元，用于判断所述歌曲对应的总匹配次数是否大于第一预设阈值，如果是，记录所述歌曲的标识信息；

[0111] 计算单元，用于再次扫描预设的指纹库中的音频指纹，判断所述指紋库中的音频指紋对应的歌曲的标识信息是否已被记录，如果是，则计算所述指纹库中的音频指纹与所述当前音频片段的音频指纹的时间差信息；其中，所述时间差信息为所述指紋库中的音频指紋的时间戳与所述当前音频片段的音频指纹的时间戳之间的差值；

[0112] 确定单元，用于遍历所述预设的指纹库，利用获得的时间差信息确定与所述当前音频片段匹配的歌曲。

[0113] 在本发明一种可能的实现方式中，其中，所述确定单元包括：

[0114] 建立单元，用于建立时间差与歌曲标识的对应关系；

[0115] 统计单元，用于统计获得的时间差出现的次数；

[0116] 获取单元，用于对获得的时间差出现的次数进行排序，获取出现次数最多的时间差；判断所述时间差对应的出现次数值是否大于第二预设阈值，如果是，则获取所述时间差对应的歌曲标识，将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。

[0117] 在本发明一种可能的实现方式中，其中，所述音乐节目信息还包括段落标记信息，则所述显示装置还用于：

根据所述识别结果显示音乐节目的音频内容的段落标记信息；其中，所述音乐节目包括多个音频内容，所述段落标记信息用于表征所述各音频内容的开始和 /或终止时间信息。

[0118] 在本发明一种可能的实现方式中，其中，所述设备还包括：

[0119] 跳转装置，配置用于响应于点击所述段落标记的触发，将所述音频文件跳转至与所述段落标记对应的时间位置；

[0120] 播放装置，配置用于从所述时间位置开始播放所述音频文件的对应部分。

[0121] 在本发明一种可能的实现方式中，其中，所述划分单元还用于在对所述音频文件进行划分时，保存所述音频片段的时间信息，所述时间信息包括所述音频片段的开始和 /或终止时间信息；则所述显示装置具体用于：

根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息。

[0122] 在本发明一种可能的实现方式中，其中，所述显示装置具体用于：

当所述识别结果表明所述音频片段未与歌曲匹配时，则确定所述音频片段为语言内容；

获取所述音频片段的时间信息，将所述时间信息作为所述语言内容的段落标记信息。

[0123] 在本发明一种可能的实现方式中，所述显示装置具体用于：

当所述识别结果表明所述音频片段与对应的歌曲匹配时，则确定所述音频片段为音乐内容；

获取所述音频片段的时间信息，将所述时间信息作为所述音乐内容的段落标记信息。

[0124] 在本发明一种可能的实现方式中，所述设备还包括：

指纹库建立装置，用于预先建立指纹库，其中，所述指纹库包括各歌曲的音频指纹信息、歌曲标识信息。

[0125] 在本发明一种可能的实现方式中，所述设备还包括：

指纹添加装置，用于向所述指紋库添加新歌曲对应的音频指纹信息。

[0126] 在本发明一种可能的实现方式中，其中，所述指纹添加装置包括：

[0127] 预处理单元，用于当向指纹库添加新歌曲对应的音频指紋信息时，锁定用于保存音频指紋信息的动态表，激活用于备份音频指紋信息的备份表；

[0128] 判断单元，用于判断所述动态表是否已满；

[0129] 添加单元，用于将要添加的新歌曲对应的音频指纹信息保存至所述新动态表中；

[0130] 第一处理单元，用于接收判断单元的判断结果，当所述判断结果表明动态表已满时，则解除所述动态表的锁定，将动态表中的音频指纹备份到指定位置；创建新动态表，将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中，并清空备份表；

[0131] 第二处理单元，用于接收判断单元的判断结果，当所述判断结果表明动态表未满时，解除所述动态表的锁定，锁定所述备份表；将要添加的新歌曲对应的音频指紋信息保存至备份表中，并解除所述备份表的锁定，结束添加音频指纹过程。

[0132] 应当注意，尽管在上文详细描述中提及设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

[0133] 此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和 /或将一个步骤分解为多个步骤执行。

[0134] 申请文件中提及的动词 "包括"、 "包含" 及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词 "一"或 "一个" 不排除多个这种元素的存在。

[0135] 虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

权利要求

1、一种方法，包括：

获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果；

2、根据权利要求 1所述的方法，其中，所述对所述音频文件进行自动识别处理，获得识别结果包括：

对所述音频文件进行划分，获得多个音频片段；

分别提取所述多个音频片段的音频指纹信息，所述音频指紋信息用于表征所述音频片段的信号特征；

将提取的音频片段的音频指紋信息与预设的指紋库中的音频指纹进行匹配，获得匹配结果。

3、根据权利要求 2 所述的方法，其中，所述分别提取所述多个音频片段的音频指纹信息包括：

对所述多个音频片段分别进行信号分析处理，提取用于表征所述音频片段的信号特征的音频指紋信息。

4、根据权利要求 3 所述的方法，其中，所述对所述多个音频片段分别进行信号分析处理包括以下任意一种方式：

对所述多个音频片段分别进行信号频谱分析处理；

对所述多个音频片段分别进行信号能量分析处理；

对所述多个音频片段分别进行基音、节拍分析处理。

5、根据权利要求 2 所述的方法，其中，所述将提取的音频片段的音频指纹信息与预设的指紋库中的音频指紋进行匹配，获得匹配结果包括：

扫描预设的指紋库中的音频指纹，获得与当前音频片段的音频指纹匹配的音频指紋对应的歌曲信息以及所述歌曲对应的总匹配次数；

判断所述歌曲对应的总匹配次数是否大于第一预设阈值，如果是，记录所述歌曲的标识信息；

再次扫描预设的指纹库中的音频指紋，判断所述指纹库中的音频指纹对应的歌曲的标识信息是否已被记录，如果是，则计算所述指紋库中的音频指纹与所述当前音频片段的音频指紋的时间差信息；其中，所述时间差信息为所述指紋库中的音频指纹的时间戳与所述当前音频片段的音频指紋的时间戳之间的差值；

遍历所述预设的指纹库，利用获得的时间差信息确定与所述当前音频片段匹配的歌曲。

6、根据权利要求 5 所述的方法，其中，所述利用获得的时间差信息确定与所述当前音频片段匹配的歌曲包括：

建立时间差与歌曲标识的对应关系；

统计获得的时间差出现的次数；

对获得的时间差出现的次数进行排序，获取出现次数最多的时间差；判断所述时间差对应的出现次数值是否大于第二预设阈值，如果是，则获取所述时间差对应的歌曲标识，将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。

7、根据权利要求 1所述的方法，其中，所述音乐节目信息还包括段落标记信息，则所述根据所述识别结果显示音乐节目信息包括：

8、根据权利要求 7所述的方法，还包括：

响应于点击所述段落标记的触发，将所述音频文件跳转至与所述段落标记对应的时间位置；

从所述时间位置开始播放所述音频文件的对应部分。

9、根据权利要求 2或 7所述的方法，其中，在对所述音频文件进行划分时，保存所述音频片段的时间信息，所述时间信息包括所述音频片段的开始和 /或终止时间信息；

则所述根据所述识别结果显示音乐节目的音频内容的段落标记信息包括：根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息。

10、根据权利要求 9 所述的方法，其中，所述根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息包括：

11、根据权利要求 9 所述的方法，其中，所述根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息包括：

12、根据权利要求 1-11任意一项所述的方法，还包括：

预先建立指紋库，所述指紋库包括各歌曲的音频指纹信息、歌曲标识信息。

1 3、根据权利要求 12所述的方法，还包括：

向所述指紋库添加新歌曲对应的音频指紋信息。

14、根据权利要求 13 所述的方法，其中，所述向所述指纹库添加新歌曲对应的音频指紋信息包括：

当向指纹库添加新歌曲对应的音频指纹信息时，锁定用于保存音频指纹信息的动态表，激活用于备份音频指紋信息的备份表；将要添加的新歌曲对应的音频指紋信息保存至所述动态表中；

判断所述动态表是否已满；

如果是，解除所述动态表的锁定，将动态表中的音频指纹备份到指定位置；创建新动态表，并清空备份表；

如果否，解除所述动态表的锁定，锁定所述备份表；将要添加的新歌曲对应的音频指紋信息保存至备份表中，并解除所述备份表的锁定，结束添加音频指紋过程。

15、一种设备，包括：

识别装置，配置用于获取待处理音乐节目对应的音频文件，对所述音频文件进行自动识别处理，获得识别结果；

显示装置，配置用于根据所述识别结果显示音乐节目信息，所述音乐节目信息至少包括歌曲列表信息。

16、根据权利要求 15所述的设备，其中，所述识别装置包括：

划分单元，用于对所述音频文件进行划分，获得多个音频片段元；

提取单元，用于分别提取所述多个音频片段的音频指紋信息其中，所述音频指纹信息用于表征所述音频片段的信号特征；

匹配单元，用于将提取的音频片段的音频指纹信息与预设的指纹库中的音频指纹进行匹配，获得匹配结果。

17、根据权利要求 16所述的设备，其中，所述提取单元具体用于：

18、根据权利要求 17 所述的设备，其中，所述提取单元在对所述多个音频片段分别进行信号分析处理时可以包括以下任意一种处理方式：

对所述多个音频片段分别进行信号频谱分析处理；

对所述多个音频片段分别进行信号能量分析处理；

对所述多个音频片段分别进行基音、节拍分析处理。

19、根据权利要求 16所述的设备，其中，所述匹配单元包括：

第一扫描单元，用于扫描预设的指纹库中的音频指紋，获得与当前音频片段的音频指紋匹配的音频指纹对应的歌曲信息以及所述歌曲对应的总匹配次数；

记录单元，用于判断所述歌曲对应的总匹配次数是否大于第一预设阅值，如果是，记录所述歌曲的标识信息；

计算单元，用于再次扫描预设的指纹库中的音频指紋，判断所述指纹库中的音频指纹对应的歌曲的标识信息是否已被记录，如果是，则计算所述指纹库中的音频指纹与所述当前音频片段的音频指紋的时间差信息；其中，所述时间差信息为所述指纹库中的音频指紋的时间戳与所述当前音频片段的音频指纹的时间戳之间的差值；

确定单元，用于遍历所述预设的指纹库，利用获得的时间差信息确定与所述当前音频片段匹配的歌曲。

20、根据权利要求 19所述的设备，其中，所述确定单元包括：

建立单元，用于建立时间差与歌曲标识的对应关系；

统计单元，用于统计获得的时间差出现的次数；

获取单元，用于对获得的时间差出现的次数进行排序，获取出现次数最多的时间差；判断所述时间差对应的出现次数值是否大于第二预设阁值，如果是，则获取所述时间差对应的歌曲标识，将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。

21、根据权利要求 15 所述的设备，其中，所述音乐节目信息还包括段落标记信息，则所述显示装置还用于：

22、根据权利要求 21所述的设备，其中，还包括：

跳转装置，配置用于响应于点击所述段落标记的触发，将所述音频文件跳转至与所述段落标记对应的时间位置；

播放装置，配置用于从所述时间位置开始播放所述音频文件的对应部分。

23、根据权利要求 16或 21所述的设备，其中，所述划分单元还用于在对所述音频文件进行划分时，保存所述音频片段的时间信息，所述时间信息包括所述音频片段的开始和 /或终止时间信息；

则所述显示装置具体用于：

24、根据权利要求 23所述的设备，其中，所述显示装置具体用于：

25、根据权利要求 23所述的设备，其中，所述显示装置具体用于：

26、根据权利要求 15-25任意一项所述的设备，还包括：

指紋库建立装置，用于预先建立指纹库，其中，所述指紋库包括各歌曲的音频指紋信息、歌曲标识信息。

27、根据权利要求 26所述的设备，还包括：

指紋添加装置，用于向所述指纹库添加新歌曲对应的音频指紋信息。

28、根据权利要求 27所述的设备，其中，所述指纹添加装置包括：

预处理单元，用于当向指纹库添加新歌曲对应的音频指紋信息时，锁定用于保存音频指紋信息的动态表，激活用于备份音频指纹信息的备份表；添加单元，用于将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中；判断单元，用于判断所述动态表是否已满；

第一处理单元，用于接收判断单元的判断结果，当所述判断结果表明动态表已满时，则解除所述动态表的锁定，将动态表中的音频指纹备份到指定位置；创建新动态表，将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中，并清空备份表；第二处理单元，用于接收判断单元的判断结果，当所述判断结果表明动态表未满时，解除所述动态表的锁定，锁定所述备份表；将要添加的新歌曲对应的音频指紋信息保存至备份表中，并解除所述备份表的锁定，结束添加音频指纹过程。