WO2014079322A1

WO2014079322A1 - 音频流媒体的跟踪方法及系统、存储介质

Info

Publication number: WO2014079322A1
Application number: PCT/CN2013/086665
Authority: WO
Inventors: 易立夫; 张云; 李深远; 陈剑锋; 马斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-11-22
Filing date: 2013-11-07
Publication date: 2014-05-30
Also published as: US20150286464A1; US9612791B2; CN103021440B; CN103021440A

Abstract

本发明提供一种音频流媒体的跟踪方法及系统，在识别当前播放的音频片段的匹配流媒体信息后，判断下一个音频片段的匹配流媒体信息是否为当前播放的音频片段的匹配流媒体信息，如果是，直接就可以返回结果；反之，再重新进行流媒体信息的匹配，内存占用少，提高计算速度，降低流媒体信息匹配的计算复杂度。

Description

音频流媒体的跟踪方法及系统、存储介质

技术领域

本发明涉及音频处理技术领域，特别涉及一种音频流媒体的跟踪方法及系统、存储介质。

背景技术

目前，用户在收听流媒体时（例如电台歌曲），由于播放一首完整的流媒体需要持续一段时间（例如3到4分钟），如何在播放过程中持续跟踪流媒体以实时显示准确的流媒体信息尤为重要。现有技术中，可以采用音频指纹（fingerprint）技术对流媒体进行跟踪。音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致的数字签名。音频指纹技术通常包括两个部分：即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的指纹比对算法。当要识别一段未知音频时，首先按照指纹提取算法计算其音频特征，然后和指纹数据库中存储的大量音频指纹按照指纹比对算法进行比对，识别出对应的音频。一个有效的音频指纹技术能够在数据库中正确识别出可能经受各种信号处理的、失真的未知音频的原始版本。

音频指纹系统的目标是通过接收音频信号并利用预先构建的音频指纹数据库搜索对应的音频来识别预定的音频。根据应用领域，音频指纹系统已经用于广播监视器、CF识别、和文件过滤。为了在所述应用领域中有效地使用音频指纹系统，甚至在各种失真情况下，也需要高识别率和快的搜索速度。具体地，为了在P2P或UCC领域中过滤文件，需要迅速且准确地搜索由其每一个具有自己的版权的几十万个音频文件形成的音频指纹数据。对于在基于大容量音频指纹数据库进行操作的广播监视和文件过滤领域中的实时处理，识别速度是最重要因素之一。

现有技术中采用音频指纹（fingerprint）技术对流媒体进行跟踪包括：首先对音频片段的音频信号进行分帧后，基于起始点检测算法确定关键帧，提取关键帧的音频指纹，将关键帧的音频指纹和流媒体信息对应存储到哈希表中，用户输入音频片段进行音频指纹检索，基于该音频片段的音频信号得到音频指纹，再根据该音频指纹从所述哈希表中匹配对应的流媒体信息，得到包含所述音频片段的流媒体信息，实现流媒体的识别，并需要在流媒体播放过程中持续不断的进行上述音频指纹匹配直到流媒体播放结束；上述流媒体跟踪方式在已经识别出流媒体之后，仍然持续进行音频指纹匹配这种费时费力的计算，对计算资源和内存资源都是一种巨大的消耗，通常检索的反应时间会比较长（比如1秒）；同时，持续进行这种匹配计算，如果前后两次匹配的结果稍有差别（由于存在重复流媒体但流媒体名称和歌手名小有差异的情况），还会增加流媒体识别的复杂度（比如结果排序）。

故，有必要提出一种新的技术方案，以解决上述流媒体跟踪方式在已经识别出流媒体之后仍然持续进行音频指纹匹配浪费计算资源和内存资源且增加流媒体识别复杂度的技术问题。

技术问题

本发明的一个目的在于提供一种流媒体跟踪方法及系统，旨在解决现有技术中的流媒体跟踪方式在已经识别出流媒体之后仍然持续进行音频指纹匹配浪费计算资源和内存资源且增加流媒体识别复杂度的技术问题。

技术解决方案

为达到上述目的，本发明实施例提供了一种音频流媒体的跟踪方法，包括：

对音频流按照时间间隔进行切分，形成至少两个的音频流片段；

通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息，其中所述音频指纹为代表所述音频流媒体声学特征的基于内容的数字签名；

显示匹配到的所述第一流媒体信息；

计算下一个所述音频流片段的所述音频指纹与所述第一流媒体信息的所述音频指纹之间的哈明距离，得到下一个所述音频流片段与所述第一流媒体信息之间的匹配度；

判断所述匹配度是否大于预设阀值，若所述匹配度小于所述预设阀值，则进行匹配下一个所述音频流片段对应的第二流媒体信息的步骤；以及

若所述匹配度大于所述预设阀值，将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息，并将所述界面显示的所述第一流媒体信息替换为所述第二流媒体信息。

通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息；

判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值；

若所述匹配度小于所述预设阀值，则进行匹配下一个所述音频流片段对应的第二流媒体信息的步骤；以及

若所述匹配度大于所述预设阀值，则将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息。

为达到上述目的，本发明实施例提供了一种音频流媒体的跟踪系统，包括

音频处理模块：用于对音频流按照时间间隔进行切分，形成至少两个的音频流片段；

信息匹配模块：用于通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息；

匹配度判断模块：用于判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值；

所述信息匹配模块，还用于在所述匹配度判断模块判定所述匹配度小于所述预设阀值时，匹配下一个所述音频流片段对应的第二流媒体信息；以及

结果返回模块，用于在匹配度判断模块判定所述匹配度大于所述预设阀值，将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息。

为达到上述目的，本发明实施例提供了一种存储介质，其内存储有处理器可执行指令，其中所述处理器可执行指令用于让处理器完成以下操作：

有益效果

本发明实施例的音频流媒体的跟踪方法及系统在识别出流媒体后，判断当前流媒体是否是前一首匹配流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况，提高匹配准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，提升用户体验。

附图说明

图1为本发明实施例的音频流媒体的跟踪方法的运行环境示意图；

图2为本发明第一实施例的音频流媒体的跟踪方法的流程图；

图3为本发明第二实施例的音频流媒体的跟踪方法的流程图；

图4为本发明音频流片段流媒体信息匹配方式的流程图；

图5为本发明音频流片段流媒体信息匹配方式的工作原理图；

图6为本发明未匹配出流媒体的状态示意图：

图7为本发明展示匹配流媒体信息的状态示意图；

图8为本发明第一实施例的音频流媒体的跟踪系统的结构示意图；

图9为本发明第二实施例的音频流媒体的跟踪系统的结构示意图。

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

请参阅图1，图1为本发明实施例中音频流媒体的跟踪方法的运行环境示意图，包括流媒体获取设备11、切割装置12、服务器13以及播放装置14。其中所述流媒体获取设备11用于获取音频流媒体，所述流媒体获取设备11譬如为麦克风等，所述流媒体获取设备11可从电台获取音频流媒体。所述流媒体获取设备11将获取的音频流媒体传送至切割装置12中。所述切割装置12对所接收的流媒体进行切分，形成至少两个的音频流片段。所述服务器13接收并存储所述切割装置12发送的基于HLS协议的流媒体。所述播放装置14从所述服务器13不断地下载并播放音频流片段。

其中所述播放装置14不仅可以由桌上型计算机构成，还可以由笔记型计算机、工作站、掌上型计算机、UMPC(ultra mobile personal computer：超移动个人计算机)、平板PC、个人数字助理(Personal Digital Assistant ，PDA)、连网板(web pad)、可携式电话等具备储存单元并安装有微处理器并可播放流媒体的终端机构成。

请参考图2，为本发明第一实施例的音频流媒体的跟踪方法的流程图。本发明第一实施例的音频流媒体的跟踪方法包括下列步骤：

步骤S100：对电台播放的音频流按照时间间隔进行切分，形成至少两个的音频流片段，并通过音频指纹得到当前播放的音频流片段的第一流媒体信息；

在步骤S100中，所述音频流片段的间隔时间可根据实际应用进行设置，在本发明实施例中，所述音频流片段的间隔时间为10秒；其中当前播放的所述音频流片段的所述第一流媒体信息匹配方式包括：对当前播放的所述音频流片段的音频信号进行分帧处理，得到分帧频谱图；通过起始点检测算法检测各分帧频谱图是否为关键帧，将关键帧的所述分帧频谱图保留，抛弃非关键帧的所述分帧频谱图；得到所述关键帧的音频指纹，根据所述关键帧的所述音频指纹对应的流媒体信息计算得到包含当前播放的所述音频流片段的第一流媒体信息并返回匹配结果。

步骤S110：判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值，如果下一个所述音频流片段与所述第一流媒体信息的所述匹配度小于所述预设阀值，则结束展示所述第一流媒体信息，并重新执行步骤S100匹配下一个所述音频流片段的第二流媒体信息；如果下一个所述音频流片段与所述第一流媒体信息的所述匹配度大于所述预设阀值，执行步骤S120；

在步骤S110中，当匹配到一首流媒体后，在随后的流媒体跟踪时，只需要判断当前流媒体是否是之前匹配的那首流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况。例如：对同一首流媒体进行匹配时，前后匹配结果的频繁变化，提高匹配准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，例如：播放流媒体时主持人偶尔的谈话或简短的广告等；判断下一个音频流片段与当前播放的所述音频流片段的第一流媒体信息的匹配度是否大于预设阀值的判断方式为：计算下一个所述音频流片段的音频指纹与当前播放的所述音频流片段对应的所述第一流媒体信息的音频指纹的哈明距离，得到下一个所述音频流片段与当前播放的所述音频流片段对应的所述第一流媒体信息的匹配度。

步骤S120：设置下一个音频流片段的第二流媒体信息为当前播放的所述音频流片段相匹配的流媒体信息。

请参考图3，为本发明第二实施例的音频流媒体的跟踪方法的流程图。本发明第二实施例的音频流媒体的跟踪方法包括下列步骤：

步骤S200：对电台的音频流按一定时间间隔进行切片处理，形成至少两个的音频流片段；

在步骤S200中，所述音频流片段的间隔时间可根据实际应用进行设置，在本发明实施例中，所述音频流片段的间隔时间为10秒。

步骤S210：通过音频指纹对当前播放的所述音频流片段进行流媒体信息匹配，得到对应当前播放的所述音频流片段的第一流媒体信息；

在步骤S210中，请参阅图4，为本发明中所述音频流片段的所述流媒体信息匹配方式的流程图；本发明中所述音频流片段的所述流媒体信息匹配方式包括以下步骤：

步骤S211：对当前播放的所述音频流片段的音频信号，平均以d/N毫秒时间随机提取其11.6*w毫秒窗长的频谱图，得到分帧频谱图；

步骤S212：通过起始点检测算法检测各分帧频谱图是否为关键帧，将关键帧的所述分帧频谱图保留，抛弃非关键帧的所述分帧频谱图；

在步骤S212中，所述通过起始点检测算法检测各分帧频谱图是否对应关键帧具体为：对所述分帧处理后得到的各分帧进行FFT（Fast Fourier Transformation快速傅氏变换）+LPC变换(linear predictive coding 线性预测编码)确定所述各分帧中的关键帧。

步骤S213：对所述关键帧进行短时的DCT（Discrete Cosine Transform，离散余弦变换）变换，保留主要的DCT系数；

步骤S214：采用二进制表示保留的所述DCT系数；

步骤S215|：采用最小哈希算法将采用二进制表示的所述DCT系数转换为音频指纹；

在步骤S215中，最小哈希算法的随机排列方式在音频指纹存储和查询时相同。

步骤S216：用LSH（Locality Sensitive Hashing，位置敏感哈希算法）方法将音频指纹分为预定数量音频子指纹和1个哈希子表，该预定数量譬如为b（bin），块将b块音频子指纹存储到哈希子表中，并通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹；

在步骤S216中，如图4所示的“ABCDEFGHIJKLMNOPQRSTUVWXY”表示提取得到的一个音频指纹，“ABCDE”、“EFGHI”、……、“UVWXY”分别表示由分割一个所述音频指纹后得到的音频子指纹；

步骤S217：放弃音频子指纹出现次数小于匹配阀值的所述音频子指纹；

在步骤S217中，如图5所示，在哈希子表中，所述音频子指纹在音频文件信息7、12、50、92、102、302中的出现次数分别为1、1、1、3、2、1，假设当前预设的匹配阈值为2，则音频文件信息92、102所对应的音频子指纹为相近匹配音频子指纹。

步骤S218：将当前播放的所述音频流片段的音频指纹与保留的所述音频子指纹进行比较，通过保留的所述音频子指纹与音频流片段的音频指纹的哈明距离（Hamming distance），计算出匹配误差，得到精确匹配音频子指纹；

步骤S219：用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息，得到包含当前播放的所述音频流片段的第一流媒体信息并返回匹配结果。

步骤S220：根据匹配结果进行界面展示信息的切换，在所述界面中展示所述第一流媒体信息及状态；

在步骤S220中，具体流媒体展示效果请参阅图6和图7，图6为本发明未匹配出流媒体的状态示意图；图7为本发明展示匹配流媒体信息（譬如第一流媒体信息或者第二流媒体信息）的状态示意图，通过利用播放界面局部区域的改变，让用户快速辨别当前有无匹配结果，提升使用体验。

步骤S230：计算下一个所述音频流片段的音频指纹与当前播放的所述音频流片段的第一流媒体信息的音频指纹的哈明距离，得到下一个所述音频流片段与所述第一流媒体信息的匹配度，并判断所述匹配度是否大于预设阀值，如果所述匹配度大于所述预设阀值，执行步骤S240；如果所述匹配度小于所述预设阀值，则结束所述第一流媒体信息的展示，并重新执行步骤S210；

在步骤S230中，当匹配到一首流媒体后，在随后的流媒体跟踪时，只需要判断当前流媒体是否是之前匹配的那首流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况，例如：对同一首流媒体进行匹配时，前后匹配结果的频繁变化，提高匹配准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，例如：播放流媒体时主持人偶尔的谈话或简短的广告等。

步骤S240：设置下一个所述音频流片段的第二流媒体信息为当前播放的所述音频流片段的流媒体信息，并在界面进行匹配流媒体信息的切换。

请参考图8，为本发明第一实施例的音频流媒体的跟踪系统的结构示意图。本发明第一实施例的音频流媒体的跟踪系统包括：

音频处理模块81：用于对电台的音频流按照时间间隔进行切片处理，形成至少两个的音频流片段；其中，所述音频流片段的间隔时间可根据实际应用进行设置，在本发明实施例中，所述音频流片段的间隔时间为10秒。

信息匹配模块82：用于通过音频指纹对当前播放的所述音频流片段进行流媒体信息匹配，得到对应的第一流媒体信息；其中，当前播放的所述音频流片段的第一流媒体信息匹配方式包括：对当前播放的所述音频流片段的音频信号进行分帧处理，得到分帧频谱图；通过起始点检测算法检测各分帧频谱图是否为关键帧，将关键帧的分帧频谱图保留，抛弃非关键帧的分帧频谱图；得到所述关键帧的音频指纹，根据关键帧的音频指纹对应的流媒体信息计算得到包含当前播放的所述音频流片段的第一流媒体信息并返回匹配结果。

匹配度判断模块83：用于判断下一个所述音频流片段与当前播放的所述音频流片段的第一流媒体信息的匹配度是否大于预设阀值，如果所述匹配度小于所述预设阀值，则结束展示所述第一流媒体信息，并通过所述信息匹配模块82重新匹配流媒体信息；如果所述匹配度大于所述预设阀值，通过结果返回模块84返回下一个所述音频流片段的匹配流媒体为当前播放的所述音频流片段相匹配的流媒体信息；其中，当匹配到一首流媒体后，在随后的流媒体跟踪时，只需要判断当前流媒体是否是之前匹配的那首流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况，例如：对同一首流媒体进行匹配时，前后匹配结果的频繁变化，提高匹配准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，例如：播放流媒体时主持人偶尔的谈话或简短的广告等；判断下一个音频流片段与前一首音频流片段的匹配流媒体信息的匹配度是否大于预设阀值的判断方式为：计算下一个音频流片段的指纹与前一首音频流片段的匹配流媒体信息的音频指纹的哈明距离，得到下一个音频流片段与前一首音频流片段的匹配流媒体信息的匹配度。

结果返回模块84：用于设置下一个所述音频流片段的第二流媒体信息（匹配流媒体信息）为当前播放的所述音频流片段的匹配流媒体信息。

请参考图9，为本发明第二实施例的音频流媒体的跟踪系统的结构示意图。本发明第二实施例的音频流媒体的跟踪系统包括音频处理模块91、信息匹配模块92、信息展示模块93、匹配度判断模块94和结果返回模块95，其中，

音频处理模块91：用于对电台的音频流按一定时间间隔进行切片处理，形成至少两个的音频流片段；其中，所述音频流片段的间隔时间可根据实际应用进行设置，在本发明实施例中，所述音频流片段的间隔时间为10秒；

信息匹配模块92用于通过音频指纹对当前播放的所述音频流片段进行流媒体信息匹配，得到对应的第一流媒体信息；具体地，所述信息匹配模块92还包括：

频谱图提取单元921：用于对当前音频流片段的音频信号，平均以d/N毫秒时间随机提取其11.6*w毫秒窗长的频谱图，得到分帧频谱图；

关键帧检测单元922：用于通过起始点检测算法检测各分帧频谱图是否为关键帧，将关键帧的分帧频谱图保留，抛弃非关键帧的分帧频谱图；其中，所述通过起始点检测算法检测各分帧频谱图是否对应关键帧具体为：对所述分帧处理后得到的各分帧进行FFT（Fast Fourier Transformation快速傅氏变换）+LPC变换(linear predictive coding 线性预测编码)确定所述各分帧中的关键帧。

离散余弦变换单元923：用于对关键帧进行短时的DCT（Discrete Cosine Transform，离散余弦变换）变换，保留主要的DCT系数，并采用二进制表示保留的DCT系数；

指纹转换单元924：用于采用最小哈希算法将采用二进制表示的DCT系数转换为音频指纹；其中，最小哈希算法的随机排列方式在音频指纹存储和查询时相同。

指纹匹配单元925：用于用LSH（Locality Sensitive Hashing，位置敏感哈希算法）方法将音频指纹分为b（bin）块音频子指纹和l个哈希子表，将b块音频子指纹存储到哈希子表中，通过计算各个音频子指纹的出现次数找到相近匹配音频子指纹，并放弃音频子指纹出现次数小于匹配阀值的音频子指纹；其中，如图4所示的“ABCDEFGHIJKLMNOPQRSTUVWXY”表示提取得到的一个音频指纹，“ABCDE”、“EFGHI”、……、“UVWXY”分别表示由分割一个音频指纹后得到的音频子指纹；如图4所示，在哈希子表中，音频子指纹在音频文件信息7、12、50、92、102、302中的出现次数分别为1、1、1、3、2、1，假设当前预设的匹配阈值为2，则音频文件信息92、102所对应的音频子指纹为相近匹配音频子指纹。

指纹确定单元926：用于将当前音频流片段的指纹与保留的音频子指纹进行比较，通过保留的音频子指纹与音频流片段的指纹的哈明距离（Hamming distance），计算出匹配误差，得到精确匹配音频子指纹；

信息匹配单元927：用于用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的流媒体信息，得到包含当前音频流片段的匹配流媒体信息并输出匹配结果。

信息展示模块93：用于根据匹配结果进行界面展示信息的切换，在所述界面中展示流媒体信息及状态；具体流媒体展示效果请参阅图6和图7，图6为本发明未匹配出流媒体的状态示意图；图7为本发明展示匹配流媒体信息的状态示意图，通过利用播放界面局部区域的改变，让用户快速辨别当前有无匹配结果，提升使用体验。

匹配度判断模块94：用于计算下一个音频流片段的指纹与前一首匹配流媒体的指纹的哈明距离，得到下一个音频流片段与前一首匹配流媒体的匹配度，并判断匹配度是否大于预设阀值，如果匹配度大于预设阀值，通过结果返回模块设置下一个音频流片段的匹配流媒体为前一首匹配流媒体；如果匹配度小于预设阀值，则结束前一首流媒体的展示，并通过信息匹配模块重新进行流媒体匹配；其中，当匹配到一首流媒体后，在随后的流媒体跟踪时，只需要判断当前流媒体是否是之前匹配的那首流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况，例如：对同一首流媒体进行匹配时，前后匹配结果的频繁变化，提高检索准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，例如：播放流媒体时主持人偶尔的谈话或简短的广告等。

结果返回模块95：用于设置下一个所述音频流片段的第二流媒体信息为当前播放的所述音频流片段相匹配的流媒体信息。

本发明音频流媒体的跟踪方法及系统在识别出流媒体后，判断当前流媒体是否是前一首匹配流媒体，如果是，直接就可以返回结果；反之，再重新进行流媒体匹配，由于只需要匹配当前流媒体与前一首流媒体的指纹，内存占用少，提高计算速度，不仅仅能大大降低流媒体匹配的计算复杂度，而且能实现稳定的流媒体匹配结果，有效避免展示给用户的匹配结果出现不稳定的情况，提高匹配准确度；并能有效减少在播放流媒体过程中外部音频对流媒体匹配准确性的影响，提升用户体验。

本发明实施例提供的音频流媒体的跟踪系统形成于一终端，所述终端譬如为计算机、平板电脑、具有触摸功能的手机等等，所述音频流媒体的跟踪系统与上文实施例中的音频流媒体的跟踪方法属于同一构思，在所述音频流媒体的跟踪系统上可以运行所述音频流媒体的跟踪方法实施例中提供的任一方法，其具体实现过程详见所述音频流媒体的跟踪方法实施例，此处不再赘述。

需要说明的是，对本发明实施例的音频流媒体的跟踪方法而言，本领域普通技术人员可以理解实现本发明实施例的音频流媒体的跟踪方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

对本发明实施例的音频流媒体的跟踪系统而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

综上所述，虽然本发明已以优选实施例揭露如上，但上述优选实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

本发明的实施方式

工业实用性

序列表自由内容

Claims

一种音频流媒体的跟踪方法，包括：

对音频流按照时间间隔进行切分，以形成至少两个的音频流片段；

通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息，其中所述音频指纹为代表所述音频流媒体声学特征的基于内容的数字签名；

显示匹配到的所述第一流媒体信息；

计算下一个所述音频流片段的所述音频指纹与所述第一流媒体信息的所述音频指纹之间的哈明距离，以得到下一个所述音频流片段与所述第一流媒体信息之间的匹配度；

判断所述匹配度是否大于预设阀值，若所述匹配度小于所述预设阀值，则进行匹配下一个所述音频流片段对应的第二流媒体信息的步骤；以及

若所述匹配度大于所述预设阀值，将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息，并将所述界面显示的所述第一流媒体信息替换为所述第二流媒体信息。
根据权利要求1所述的音频流媒体的跟踪方法，其中通过所述音频指纹匹配所述第一流媒体信息的步骤包括：

对当前播放的所述音频流片段的音频信号进行分帧处理，以获取分帧频谱图；

通过起始点检测算法检测所述分帧频谱图中的关键帧，且保留所述关键帧对应的所述分帧频谱图；以及

获取所述关键帧的所述音频指纹，并根据所述关键帧的所述音频指纹对应的流媒体信息生成所述第一流媒体信息，其中所述第一流媒体信息包含当前播放的所述音频流片段。
根据权利要求2所述的音频流媒体的跟踪方法，还包括：

在保留所述关键帧的所述分帧频谱图后，对所述关键帧进行离散余弦变换，并保留离散余弦变换系数；以及

对保留的所述离散余弦变换系数采用二进制表示，并采用最小哈希算法将采用所述二进制表示的所述离散余弦变换系数转换为所述音频指纹。
根据权利要求2所述的音频流媒体的跟踪方法，其中所述匹配所述第一流媒体信息的步骤包括：

将所述音频指纹划分为一哈希子表以及预定数量的音频子指纹，并将所述预定数量的所述音频子指纹存储到所述哈希子表中；

计算所述音频子指纹的出现次数，并删除所述出现次数小于匹配阀值的所述音频子指纹；以及

将当前播放的所述音频流片段的所述音频指纹与保留的所述音频子指纹进行比较，通过保留的所述音频子指纹与所述音频流片段的所述音频指纹的哈明距离生成匹配误差，以获取一精确匹配音频子指纹。
根据权利要求4所述的音频流媒体的跟踪方法，还包括：在获取所述精确匹配音频子指纹后，用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的所述流媒体信息，以生成包含当前播放的所述音频流片段的所述第一流媒体信息。
一种音频流媒体的跟踪方法，包括：

对音频流按照时间间隔进行切分，以形成至少两个的音频流片段；

通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息；

判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值；

若所述匹配度小于所述预设阀值，则进行匹配下一个所述音频流片段对应的第二流媒体信息的步骤；以及

若所述匹配度大于所述预设阀值，则将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息。
根据权利要求6所述的音频流媒体的跟踪方法，其中所述音频指纹为代表音频流媒体重要声学特征的基于内容的数字签名。
根据权利要求7所述的音频流媒体的跟踪方法，其中所述通过所述音频指纹匹配所述第一流媒体信息的步骤包括：

对当前播放的所述音频流片段的音频信号进行分帧处理，获取分帧频谱图；

通过起始点检测算法检测所述分帧频谱图中的关键帧，且保留所述关键帧对应的所述分帧频谱图；以及

获取所述关键帧的所述音频指纹，并根据所述关键帧的所述音频指纹对应的流媒体信息生成所述第一流媒体信息，其中所述第一流媒体信息包含当前播放的所述音频流片段。
根据权利要求8所述的音频流媒体的跟踪方法，还包括：

在保留所述关键帧的所述分帧频谱图后，对所述关键帧进行离散余弦变换，并保留离散余弦变换系数；以及

对保留的所述离散余弦变换系数采用二进制表示，并采用最小哈希算法将采用所述二进制表示的所述离散余弦变换系数转换为所述音频指纹。
根据权利要求8所述的音频流媒体的跟踪方法，其中所述匹配所述第一流媒体信息的步骤包括：

将所述音频指纹划分为一哈希子表以及预定数量的音频子指纹，并将所述预定数量的所述音频子指纹存储到所述哈希子表中；

计算所述音频子指纹的出现次数，并删除所述出现次数小于匹配阀值的所述音频子指纹；以及

将当前播放的所述音频流片段的所述音频指纹与保留的所述音频子指纹进行比较，并通过保留的所述音频子指纹与所述音频流片段的所述音频指纹的哈明距离生成匹配误差，以获取一精确匹配音频子指纹。
根据权利要求10所述的音频流媒体的跟踪方法，还包括：在获取所述精确匹配音频子指纹后，用动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的所述流媒体信息，以生成包含当前播放的所述音频流片段的所述第一流媒体信息。
根据权利要求6所述的音频流媒体的跟踪方法，还包括：在获取所述第一流媒体信息后，显示所述第一流媒体信息。
根据权利要求7所述的音频流媒体的跟踪方法，还包括：在比较所述匹配度和所述预设阀值之前，首先算下一个所述音频流片段的所述音频指纹与所述第一流媒体信息的所述音频指纹之间的哈明距离，以生成下一个所述音频流片段与所述第一流媒体信息之间的所述匹配度。
一种音频流媒体的跟踪系统，包括：

音频处理模块：用于对音频流按照时间间隔进行切分，以形成至少两个的音频流片段；

信息匹配模块：用于通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息；

匹配度判断模块：用于判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值，其中所述信息匹配模块还用于在所述匹配度判断模块判定所述匹配度小于所述预设阀值时，匹配下一个所述音频流片段对应的第二流媒体信息；以及

结果返回模块，用于在所述匹配度判断模块判定所述匹配度大于所述预设阀值时，将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息。
根据权利要求14所述的音频流媒体的跟踪系统，其中所述信息匹配模块包括：

频谱图提取单元：用于对当前播放的所述音频流片段的音频信号进行分帧处理，以获取分帧频谱图；以及

关键帧检测单元：通过起始点检测算法检测所述分帧频谱图中的关键帧，且保留所述关键帧对应的所述分帧频谱图。
根据权利要求15所述的音频流媒体的跟踪系统，其中所述信息匹配模块还包括：

离散余弦变换单元：用于对所述关键帧进行离散余弦变换，保留离散余弦变换系数；以及

指纹转换单元：用于对保留的所述离散余弦变换系数采用二进制表示，并采用最小哈希算法将采用所述二进制表示的所述离散余弦变换系数转换为所述音频指纹。
根据权利要求16所述的音频流媒体的跟踪系统，其中所述信息匹配模块还包括：

指纹匹配单元：用于将所述音频指纹划分为一哈希子表以及预定数量的音频子指纹，将所述预定数量的所述音频子指纹存储到所述哈希子表中，并计算所述音频子指纹的出现次数，及删除所述出现次数小于匹配阀值的所述音频子指纹；以及

指纹确定单元：用于将当前播放的所述音频流片段的所述音频指纹与保留的所述音频子指纹进行比较，通过保留的所述音频子指纹与所述音频流片段的所述音频指纹的哈明距离生成匹配误差，获取一精确匹配音频子指纹。
根据权利要求17所述的音频流媒体的跟踪系统，其中所述信息匹配模块还包括：

信息匹配单元：用于通过动态规划算法或直线检测算法在时间轴上合并与所述精确匹配音频子指纹对应的所述流媒体信息，生成包含当前播放的所述音频流片段的所述第一流媒体信息。
根据权利要求14所述的音频流媒体的跟踪系统，还包括：

信息展示模块：用于在获取所述第一流媒体信息后，显示所述第一流媒体信息，以及在所述结果返回模块将所述第二流媒体信息作为当前播放的所述音频流片段的所述流媒体信息后，显示所述第二流媒体信息。
根据权利要求14所述的音频流媒体的跟踪系统，其中所述匹配度判断模块，还用于计算下一个所述音频流片段的所述音频指纹与所述第一流媒体信息的所述音频指纹之间的哈明距离，以生成下一个所述音频流片段与所述第一流媒体信息之间的所述匹配度。
一种存储介质，其内存储有处理器可执行指令，其中所述处理器可执行指令用于让处理器完成以下操作：

对音频流按照时间间隔进行切分，以形成至少两个的音频流片段；

通过音频指纹匹配与当前播放的所述音频流片段对应的第一流媒体信息，并将所述第一媒体信息作为当前播放的所述音频流片段的匹配流媒体信息；

判断下一个所述音频流片段与所述第一流媒体信息的匹配度是否大于预设阀值；

若所述匹配度小于所述预设阀值，则进行匹配下一个所述音频流片段对应的第二流媒体信息的步骤；以及

若所述匹配度大于所述预设阀值，则将所述第二流媒体信息作为当前播放的所述音频流片段的所述匹配流媒体信息。