WO2018040102A1

WO2018040102A1 - 音频处理方法及设备

Info

Publication number: WO2018040102A1
Application number: PCT/CN2016/098112
Authority: WO
Inventors: 蒋钟寅; 陈坤芳
Original assignee: 华为技术有限公司
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2018-03-08
Also published as: US11042587B2; EP3480707A4; EP3480707A1; CN108140013A; US20190205338A1; CN108140013B

Abstract

一种音频处理方法，包括：确定音频数据源，对音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息（S610），其中，音频拦截服务注册信息包括音频数据源对应的音频拦截服务的标识信息。当根据标识信息确定需要拦截音频数据源时，对音频数据源进行软解码，得到音轨数据（S620）；根据音轨数据进行行为分析（S630）。可实现有针对性的对音轨数据进行收集，对收集的音轨数据进行语音识别转成文本可用于语义分析或识别内录音频，通过音轨数据转换的文本或识别出的内录音频可分析出用户的行为，可实现用户行为样本的收集，降低了用户行为分析的难度。

Description

音频处理方法及设备

技术领域

本发明涉及音频处理领域，尤其涉及一种音频处理方法及设备。

背景技术

随着电子设备功能日新月异，电子设备已经成为人们不可或缺的工具，用户可使用终端上各种多媒体应用，播放网络或本地的媒体。丰富的移动互联网应用在为用户提供便利的同时，也产生了大量情景(英文：context)信息，比如音视频播放器、电话、闹钟、日程、导航、语音播报、微信语音消息等音频信息，用户还可以通过话筒(英文：mic)向网络传输网络电话(英文：Voice over Internet Protocol，VoIP)、即时通信语音消息等等。用户一般会依据自己的习惯或偏好使用上述应用，相应的，用户使用上述应用的频率、时间、时长等等行为样本可体现用户的习惯或偏好。但是，电子设备功能的多样性使得如何收集用户行为样本成为一个迫切需要解决的技术问题。

发明内容

本发明提供了一种音频处理方法。通过本发明可实现有针对性的对音轨数据进行收集，通过对音轨数据的分析可得到用户行为样本，降低了用户行为样本收集的难度。

一方面，本发明提供了一种音频处理方法。该方法包括：确定音频数据源(例如，通过终端设备上运行的APP、操作系统自带的媒体播放器或者网络电话等来确定音频数据源)，对该音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，其中，音频拦截服务注册信息包括对该音频数据源进行音频拦截服务的标识信息(例如，码流类型、进程号以及播放方式等中的一个或多个)。当根据标识信息确定需要拦截该音频数据源时，对该音频数据源进行软解码，得到音轨数据(PCM码流)；根据该音轨数据进行行为分析。通过本发明，可实现有针对性的对音轨数据进行收集，对收集的音轨数据进行语音识别转成文本可用于语义分析或识别内录音频等行为分析，通过音轨数据转换的文本或识别出的内录音频可分析出用户的行为，可实现用户行为样本的收集，降低了用户行为分析的难度。

在一个可选地实现中，可根据音轨数据和下述一项或多项进行行为分析：操作命令，音频数据源对应的音频数据包的名称(例如，APP包名)。其中，操作命令可以为音频播放的开始、暂停、结束、快进以及快退等命令，可依据音频数据源结合时间收集上述指令。本发明通过综合分析，可更准确的确定用户行为样本，以便更精确的进行行为分析。

在另一个可选地实现中，上述根据标识信息确定需要拦截所述音频数据源可包括：确定需要拦截的音频数据源的标识信息集；判断音频拦截服务注册信息中的标识信息是否在标识信息集中；当在时，确定需要拦截该音频数据源。通过本发明可预先确定需要拦截的标识信息集，当音频数据源进行注册时，判断该当前的注册信息中的标识信息是否在标识信息集中，当在时，当前注册信息对应的音频数据源需进行拦截，通过本发明，能够有区别性的对需要拦截的音频数据源进行拦截，对于不需要拦截的音频数据源，在进行音频拦截服务注册后，便不再干扰其正常的播放流程，可更准确的确定用户行为样本，且更节省资源。

第二方面，本发明实施例提供了一种终端设备。该终端设备包括处理器以及存储器。存储器用于存储程序。处理器运行存储器中的程序用于，确定音频数据源，对音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，其中，该音频拦截服务注册信息包括对音频数据源进行音频拦截服务的标识信息；当根据标识信息确定需要拦截音频数据源时，对该音频数据源进行软解码，得到音轨数据；根据该音轨数据进行行为分析。

在一个可选地实现中，处理器还用于：确定需要拦截的音频数据源的标识信息集；判断音频拦截服务注册信息中的标识信息集是否在标识信息集中；当在时，确定需要拦截该音频数据源。

第三方面，本发明实施例提供了一种音频处理设备。该音频处理设备包括音频拦截服务模块，音轨模块以及行为分析模块；其中，音频拦截服务模块，用于确定音频拦截服务注册信息，该音频拦截服务注册信息包括对音频数据源进行音频拦截服务的标识信息；当根据标识信息确定需要拦截该音频数据源时，音频拦截服务模块向音轨模块发送第一拦截指示信息；音轨模块，用于接收第一拦截指示信息，根据第一拦截指示信息的指示将音频数据源对应的音轨数据发送给音频拦截服务模块；音频拦截服务模块，还用于将音轨模块发送的音轨数据发送给行为分析模块；行为分析模块用于根据音轨进行行为分析。

在一个可选地实现中，音频拦截服务模块还用于，将音频拦截服务注册信息发送给行为分析模块；行为分析模块还用于，根据音轨以及音频拦截服务注册信息进行行为分析。

在另一个可选地实现中，该设备还包括：操作系统，该操作系统包括音频拦截服务模块。

在再一个可选地实现中，操作系统还包括音轨模块。

在再一个可选地实现中，该设备还包括第一应用程序，用于确定音频数据源，向音频拦截服务模块进行音频拦截服务注册。

在再一个可选地实现中，该设备还包括第二应用程序，用于向音频拦截服务模块发送第二拦截指示信息，该第二拦截指示信息携带有标识信息；在音频数据源进行音频拦截服务注册后，该第二拦截指示信息用于指示音频拦截服务模块对音频拦截服务注册信息中包含于第二指示信息携带的标识信息中的音频数据源进行拦截。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机软件指令，计算机运行该指令，用于：

确定音频数据源，对所述音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，所述音频拦截服务注册信息包括对所述音频数据源进行音频拦截服务的标识信息；

当根据所述标识信息确定需要拦截所述音频数据源时，对所述音频数据源进行软解码，得到音轨数据；

根据所述音轨数据进行行为分析。

由上可以看出，本发明可以有针对性的对音轨数据进行收集，通过对音轨数据的分析可得到用户行为样本，降低了用户行为样本收集的难度。

附图说明

图1为一种数据源播放过程示意图；

图2为本发明实施例提供的一种音频处理设备结构示意图；

图3为本发明实施例提供的另一种音频处理设备结构示意图；

图4为本发明实施例提供的一种音频数据源播放过程示意图；

图5为本发明实施例提供的信息交互图；

图6为本发明实施例提供的一种音频处理方法的流程图；

图7为本发明实施例提供的一种终端设备结构示意图。

具体实施方式

应该理解的是，尽管下面提供了一种或多种实施例的示例性实施方式，本发明公开的系统和/或方法可通过多种其他已知的或存在的技术实施。本发明决不应限于下文所说明的描述性实施方案、图式和技术，包含本文所说明描述的示范性设计和实施方案，而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。

需要说明的是，本发明涉及的第一应用程序可以用于确定音频数据源以及向音频拦截服务模块进行音频拦截服务注册，也就是播放音频数据源的应用程序，例如，第三方应用程序、操作系统自带的媒体播放器或者网络电话等。第二应用程序，用于指示音频拦截服务模块拦截那些音频数据源。第一应用可以为运行在终端设备上的APP。

“第一拦截指示信息”为音频拦截服务模块向音轨模块发送拦截指示信息，该第一拦截指示信息的指示音轨数据拦截哪个音频数据源对应的音轨数据。“第二拦截指示信息”为第二应用程序向音频拦截服务模块发送的拦截指示信息，该第二拦截指示信息用于指示音频拦截服务模块拦截哪个音频数据源。第二应用可以为运行在终端设备上的APP。

其中，这里的“第一”与“第二”仅是为了区分并不构成限定。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

终端设备上一般运行有操作系统，例如Android OS(Operating System，操作系统)，Windows OS或IOS等等。该操作系统主要用来管理和控制计算机硬件与软件资源，是最基本的系统软件，操作系统可理解为用户和计算机的接口以及计算机硬件和其他软件的接口，其他软件在操作系统的支持下才能运行。

在本发明实施例中，可通过操作系统提供音频拦截服务，该音频拦截服务可拦截音频数据源经过解码后的音轨数据。其他软件程序(第二应用程序)可通过调用该音频拦截服务实现对音轨数据的拦截，根据拦截到的音轨数据可进行用户行为分析。

需要说明的是，终端设备可通过拦截服务标识信息区分音频数据源，对有拦截需要的音频数据源，拦截该音频数据源经过软解码得到音轨数据(脉冲编码调制(Pulse Code Modulation，PCM)码流)，根据该音轨数据以及拦截服务标识信息等进行行为分析。例如，根据音轨数据进行语音识别、歌曲识别或者情景感知等等，或进一步根据识别或感知出的信息等等进行综合分析。

本发明实施例涉的终端设备，可以为手机、平板电脑、个人数字助理(英文：Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等等。

图1为一种数据源播放过程示意图，如图1所示，可以通过音频数据源的统一资源标识符(Uniform Resource Identifier，或URI)或文件描述符(file descriptor，Fd)指定需要播放的音频数据源，例如，音频数据源的URI或Fd可以是指，超文本传输协议(HyperText Transfer Protocol，HTTP)或实时流传输协议(Real Time Streaming Protocol，RTSP)的统一资源定位符(URL，Uniform Resource Locator)，本地文件的地址(URI)或者本地文件描述符Fd。

在本发明实施例中，音频数据源可以包括音频数据(例如，音频文件、视频文件、VoIP数据流等等)，还可以包括在播放音频数据时的操作命令(例如，开始、暂停、结束、快进以及快退等等)等。其中，音频数据对应有URI或者fd，动作对应命令。

例如，在基于Android OS的终端设备中，通过setDataSourc确定URI或者fd对应的音频数据源(DataSource)，为下一步的解析(demux)提供数据支持。需要说明的是，一般DataSource是依据一定的编码格式经过编码的，需要通过解析模块(extractor)解析出编码器信息，才能对DataSource进行解码。另外，DataSource可以是音视频数据压缩(封装)在一起的，但音频需要用扬声器播放，视频需要用显示屏显示，所以在播放时，需要解析分别得到独立的音频数据和视频数据以及他们分别对应的解码器信息；DataSource也可以是仅是经过压缩的音频数据，此时也需要经过解析得到该DataSource的解码器信息。

因为经过封装的DataSource的格式有很多种，需通过setDataSourc产生的DataSource来生成不同的解析模块(extractor)。例如，封装格式为WMV(Windows Media Video，是微软开发的一系列视频编解码和其相关的视频编码格式的统称)的DataSource需要WVMExtractor来解复用；封装格式为AMR (Adaptive Multi-Rate，自适应多速率音频压缩)的DataSource需要AMRExtractor来解析；等等。

对于音视频压缩在一起的DataSource经过extractor之后，会得到独立的视频数据以及其对应的解码器信息和音频数据以及其对应的解码器信息，该extractor把封装格式里面的音视频流拆分出来，分别的送给音视频解码器；仅是经过压缩的音频数据对应的DataSource经过extractor之后，会得到音频数据源对应的解码器信息。

接下来终端设备需根据解析到的解码器信息生成解码器。不同类型的DataSource匹配不同的解码器。

另外，对音频数据源的处理过程可分为硬解码和软解码(软解码需要软件形式的解码器，硬解码需要硬件形式的解码器)。

解码完之后得到音轨数据或视频轨数据，经过渲染后便可输出为音频或视频。例如，由于终端设备需要播放的音频数据源可能是多个，所以经过解码便得到多个音轨数据，经过混音器进行混音后，驱动扬声器播放混音后的音频。

在本发明实施例中，通过拦截解码之后，混音之前的音轨数据用于行为分析。

下面结合本发明实施例提供的终端设备的结构，对本发明做进一步的介绍。

图2为本发明实施例提供的一种终端设备结构示意图。如图2所示，本发明实施例涉及的终端设备100包括：应用程序(Application，APP)111(第一应用程序)、媒体服务模块120、音频拦截服务模块130、以及行为分析模块140(可以是第二应用程序，也可是操作系统系统的服务，还可是其他应用程序)。在本发明实施例中，媒体服务模块120、音频拦截服务模块130可为运行在终端设备100上的操作系统提供的服务，运行在终端设备100上的APP111可通过调用操作系统提供的API(Application Programming Interface, 应用程序编程接口)，可调用API对应的服务。另外，还可以包括网络通话(Voice over Internet Protocol，VoIP)模块112(例如，VoIP模块112可以为第一应用程序)，VoIP模块112可由运行在终端设备100上的操作系统提供。

媒体服务模块120可以用于对多种格式的音频数据源进行解码得到音轨数据，并对音轨数据进行混音后传输给硬件抽象层。其中，媒体服务模块120可以包括音频处理模块121、音轨模块122以及混音模块123。音频数据源包括多种格式，终端设备100通过操作系统提供的一个或多个音频处理模块121可对不同格式的音频数据源进行处理得到音轨数据(也就是实现图1所示的将音频数据源经过解码器得到音轨数据的过程)，并提供给音轨模块122，音轨模块122将音轨数据提供给混音模块123，由混音模块123进行混音后，驱动硬件进行播放。其中，音轨模块122输出的为独立的音轨数据，混音模块123输出的为把所有的独立的音轨数据的混音后的音轨数据。

例如，终端设备100可提供用于播放电话信号音、音频或视频文件、流媒体、游戏音效、按键音、与视频同步的音频、与游戏动画交互的音效以及利用麦克风录音等类型的音频数据源的音频处理模块，不同类型的音频数据源可对应不同的编码格式。还例如，在Android OS中提供了，ToneGenerator(音调发生器)用于播放电话信号音；MediaPlayer(媒体播放器)用于播放音频、视频文件以及流媒体；SoundPool(声池)能够低延时播放，可用于播放游戏音效或按键音；AudioPlayer(音频播放器)可用于与视频同步的音频播放；JetPlayer(一种音频播放器)用于播放JETEngine音效，可以与游戏动画交互；AudioRecord用于控制MIC录音。

APP111可通过调用这些模块，通过操作系统来播放需要播放的音频数据源。VoIP模块112一般为操作系统提供的服务，其可将从网络侧接收到的音频数据源直接通过操作系统来实现播放。操作系统也可直接播放需要播放的音频数据源，例如，通过MediaPlayer(系统默认的播放器)来播放音频。

终端设备在利用上述音频处理模块121播放音频数据源时，终端设备需创建音轨模块(例如，Android OS中的AudioTrack)122来播放音频数据源，具体地，音频处理模块121创建音频解码器以及音轨模块122，通过音频解码器对音频数据源进行解码得到脉冲编码调制(Pulse Code Modulation，PCM)码流，该PCM码流即为音轨数据，通过混音模块123对音轨数据进行混音等的处理后，再经过数模转换器进行转换后由扬声器播放。

应用程序111或VoIP模块112也可直接对音频数据源进行解码得到音轨数据，此种情况下，终端设备也需要创建音轨模块122，利用音轨模块122来进行播放。例如，在利用VoIP模块112进行网络通话时，终端设备接收到来自网络(例如，移动通信网)的音频数据源，由VoIP模块112创建解码器，将该音频数据源解码后得到音轨数据。

终端设备还可通过操作系统提供包管理器(PackageManager)，该包管理器可用于确定音频数据源对应的APP包名，通过该包名可确定该音频数据源的应用程序，例如，APP包名为com.baidu.music，可以确定该应用程序为百度音乐播放器。

在本发明实施例中，音频处理设备100可提供用于音频拦截服务的音频拦截服务模块130，该音频拦截服务模块130可设置在操作系统内，所有需要播放的音频数据源需要在音频拦截服务模块130注册，操作系统可提供音频拦截服务模块130的API。具有行为分析模块的APP可通过音频拦截服务模块130的API调用音频拦截服务模块130，对需要拦截的音频数据源进行拦截。例如，音频拦截服务模块130可维护一个需要拦截的音频数据源的标识信息表，当有音频数据源需要在音频拦截服务模块130注册时，确定该音频数据源的频数据源的标识信息是否在需要拦截的音频数据源的标识信息表内，如果在，则对该音频数据源进行拦截。不过不在，则不拦截该音频数据源。该标识信息表可根据接收第二应用程序发送的第二拦截指示信息携带的标识信息确定。其中，在接收到多个第二应用程序发送的第二拦截指示信息时，该标识信息表可包括第二拦截指示信息携带的标识信息与第二应用程序的对应关系。在进行音频拦截服务时，可根据该标识信息表将拦截的音频数据源发送给对应的第二应用程序，以便该第二应用程序进行行为分析。

例如，可在音频处理设备创建音轨模块122时进行音频拦截服务注册，注册信息可以包括音频数据源对应的音轨模块标识、音轨模块中码流类型(StreamType)、进程号(PID)以及音频处理模块标识(ModuleID)等等。

需要说明的是，音频处理设备可包括多个第一应用程序用于确定音频数据源时，可分别创建与每个第一应用程序对应的音轨模块。

其中，音频处理模块标识能够标识前述音频处理模块，例如，安卓系统中的MediaPlayer、Tone Generator、Sound Pool、AudioPlayer、JetPlayer分别通过不同的ModuleID标识。

音频拦截服务模块130可根据注册信息，拦截需要拦截的音频数据源对应的音轨数据(PCM码流)；情景感知模块等其他行为分析模块140根据音轨数据以及注册信息进行行为分析(例如，根据PCM码流进行语音识别、歌曲识别或者情景感知等等，或进一步根据识别或感知出的信息等等进行综合分析)。其中，情景感知模块等其他行为分析模块140还可结合其他的数据进行综合分析，例如，APP包名，或者根据运动传感器提供的数据进行分析用户的状态(例如，跑步)，或者其他应用程序提供的行为分析结果(例如，健身APP提供的用户健身的数据)，进一步地，再例如歌曲识别模块根据音轨数据分析出正在播放的为钢琴曲，根据拦截服务注册信息确定APP为音乐播放器，健身APP提供的行为分析结果为用户在慢跑。其他应用程序或者功能模块便可以根据这些信息分析得到综合的结果，根据这些结果可分析用户的行为习惯等信息。

在另一个实施例中，如图3所示，APP210确定播放音频数据源需求后，可创建音轨模块220，APP210可直接对音频数据源进行解码得到PCM码流，利用音轨模块220来进行播放。在本发明实施例中，可不由音频处理设备100上运行的操作系统提供的音频服务器来实进行播放。具体地，APP210确定播放音频数据源需求可直接创建音轨模块220，并同时向音频拦截服务模块130进行注册，在音频播放时，音频拦截服务模块130对需要拦截的音轨数据进行拦截。

下面结合图4以基于Android OS的音频处理设备提供的各个模块为例，对本方面实施例作进一步地介绍。音频处理设备的操作系统包括应用层、Framework层以及硬件抽象层。其中应用层包括操作系统提供的各个API；Framework层包括音频处理模块、音轨模块、混音模块(AudioFlinger)以及音频拦截服务模块；硬件抽象层包括有线耳机、蓝牙、扬声器以及earpace等硬件的接口。

Android OS提供了MediaPlayer API，AudioTrack API，SoundPool API以及拦截服务API。当然，Android OS还可以提供更多模块的API，本发明实施例仅是以上述API为例进行说明。其中，MediaPlayer，SoundPool以及拦截服务模块为Android OS通过媒体服务模块(MediaServer)提供。

在一个示例中，游戏类APP调用SoundPool API来实现游戏音效的播放。具体地，游戏类APP在运行时会产生音频播放的需求，例如背景音乐或者音效等等，这些背景音乐或音效的文件(音频数据源)一般储存在游戏类APP对应的APP包(该APP包一般包括该APP运行的程序以及数据等)中，游戏类APP一般会在其进程中调用SoundPool API，由SoundPool来对需要播放的音频数据源进行处理。SoundPool在收到游戏类APP的调用请求后，会进行注册，注册需要播放的音频数据源以及对应的APP的进程号等信息，以便执行播放流程。此时，MediaServer会创建AudioTrack用来播放SoundPool传输过来的音频码流，在本发明实施例中，在Media Server创建AudioTrack的同时，通过MediaServer提供的音频拦截服务模块进行拦截服务注册，注册音频数据源的应用程序的PID，音频数据源的URI或Fd，Stream Type(码流类型)(例如，ALARM(闹铃)或MUSIC(音乐)等等)，处理该音频数据源的处理模块的标识(SoundPool的标识)，还可以注册其他能够对音频数据源进行音频拦截服务的标识信息。其中，该音频数据源对应的音频拦截服务的标识信息可用于行为分析。换句话说，一组音频拦截服务的标识信息能够标识音频处理设备的一次音频播放行为，例如，哪个APP在播放哪个音频(网易云音乐听歌中)。

在另一个示例中，VoIP模块不需要经过音频处理模块处理，直接调用AudioTrack API来实现语音播放。具体地，VoIP模块在运行时会产生音频播放的需求，例如，网络电话通话中，需要播放语音，语音对应的音频数据源为通过网络接收到的VoIP数据，音频处理设备将从网络接收的VoIP数据缓存在本地存储器中，VoIP模块对存储器中的VoIP数据进行解码得到音轨数据。Media Server在创建AudioTrack用来播放VoIP模块传输过来的音轨数据的同时，通过Media Server提供的音频拦截服务模块进行拦截服务注册，注册音频数据源的应用程序的PID，音频数据源的URI或Fd，Stream Type(码流类型)，处理该音频数据源的处理模块的标识(AudioTrack的标识)等等。

在又一个示例中，MediaPlayer可以直接用来播放音频数据源，第三方APP也可通过调用MediaPlayer API来实现音频播放。具体地，第三方APP在运行时会产生音频播放的需求，或者用户触发MediaPlayer来播放音频。MediaPlayerService会创建StagefrightPlayer，AwesomePlayer以及AudioTrack用来播放器音频数据源。其中，通过解析模块(Exteractor)对音频数据源进行解析得到解码器信息，由解码器(OMXCodec)对音频数据源进行解码得到音轨数据。在Media Server创建AudioTrack的同时，通过Media Server提供的音频拦截服务进行拦截服务注册，注册音频数据源的应用程序的PID，音频数据源的统一资源标识符(Uniform Resource Identifier，或URI)或文件描述符(file descriptor，Fd)，Stream Type(码流类型)(例如，ALARM(闹铃)或MUSIC(音乐)等等)，处理该音频数据源的处理模块的标识(SoundPool的标识)等等。

音频拦截App通过拦截服务API调用音频拦截服务模块，通过音频拦截服务模块对需要拦截的音频数据源进行拦截。具体地，音频拦截App将需要拦截的音频数据源的音频拦截服务的标识信息提供给音频拦截服务模块，由音频拦截服务模块根据注册的音频拦截服务的标识信息，通知AudioTrack将需要拦截的音频数据源对应的音轨数据通过音频拦截服务模块提供给音频拦截App。

音轨模块将音轨数据提供给混音模块由混音模块混音后提供给硬件抽象层，以便进行播放。

通过本发明实施例，音频处理设备可通过提供音频拦截服务模块来实现对音频数据源进行拦截，且在进行拦截时，可通过音频拦截服务标识信息，对有需要的音频数据源进行拦截，可实现有针对性的对用户行为样本进行收集，通过用户行为样本可分析出用户的行为，降低了用户行为分析的难度。

结合上述模块的划分，以对来自APP(第一应用程序)的音频数据源的拦截为例，对本发明实施例做进一步的介绍。图5为本发明实施例提供的信息交互图。如图5所示，本发明实施例具体可以包括如下步骤：

S201，APP确定播放音频数据源需求，向媒体服务模块注册。具体地，需要向媒体服务模块注册APP的PID以及需要播放的音频数据源的URI或Fd等信息。

APP在运行时一般会有播放音频的需求，例如，游戏类APP需要播放音效，音乐类APP需要播放播放列表中的歌曲，视频类APP也需要与视频同步播放音频或者即使通信APP需要来信提醒等等。APP通过调用媒体服务模块提供的音频处理模块的API可请求到媒体服务模块中的音频处理模块来播放音频(例如，MediaPlayer或SoundPool等等)。音频处理模块收到APP的调用请求后会向媒体服务模块注册，携带该APP的进程号(PID)以及需要播放的音频数据源的URI或Fd等信息。这样媒体服务便可确定需要播放哪个音频数据源。

S202，媒体服务模块对音频数据源进行媒体解析，确定解码器信息。

媒体服务会创建音轨模块(例如，AudioTrack)，建立音轨模块与混音模块(例如，AudioFlinger)的IPC(Inter-Process Communication，进程间通信)通道。

S203，媒体服务向音频拦截服务模块(AudioInterceptor)(例如，图1中的音频拦截服务模块130)进行音频拦截服务注册。

可在音轨模块创建时同时向音频拦截服务模块进行音频拦截服务注册。携带PID、StreamType以及ModuleID等用于音频拦截服务的标识信息。

可以理解的，StreamType可以包括：VOICE_CALL(语音通话)，SYSTEM(系统声音)，RING(来电铃声)，MUSIC(音乐)，ALARM(闹铃)，NOTIFICATION(通知铃声)，BLUETOOTH_SCO(蓝牙音频)，DTMF(dual-tone multifrequency，双音多频)，TTS(Text to Speech，语音合成)等等。

需要说明的是，ModuleID可以标识：ToneGenerator、MediaPlayer、SoundPool、AudioPlayer、以及JetPlayer等音频处理模块和音轨模块。

S204，音频拦截服务模块根据音频拦截服务的标识信息判断是否要拦截音频数据源。

音频拦截服务模块可根据标识信息进行拦截筛选。例如，只拦截特定的标识信息对应的音频数据源。其中，该特定的标识信息可提前设定，也可由行为分析模块设定，通知音频拦截服务模块。

S205，当音频拦截服务模块判断要拦截音频数据源时，向音轨模块发送拦截该音频数据源的指示(第一拦截指示信息)。

S206，媒体服务模块接收APP发送的开始播放指示。

APP可根据自身的需求，向媒体服务模块开始播放、暂停播放、终止播放等音频动作。媒体服务模块根据上述指令进行工作。

S207，媒体服务模块根据解码器信息，根据拦截该音频数据源的指示对需要拦截的音频数据源进行软解码得到音轨数据。

其中，音频数据源的解码方式可包括软解码和硬解码。对于需要拦截的音频数据源如果进行软解码的话无法获取音轨数据，所以可由音频拦截服务模块通知媒体服务模块对需要拦截的音频数据源都进行软解码。另外，对不不需要拦截的音频数据源，音频拦截服务模块可不对其解码方式进行干预。

S208，音轨模块向音频拦截服务模块发送需要拦截的音频数据源解码后的音轨数据(PCM码流)的buffer(副本)。

其中，PCM Buffer到音频拦截服务模块的过程是通过Binder机制写入共享内存，再通知音频拦截服务模块通过共享内存指针读取，该过程可通过进程间通信，也可能是线程间通信来实现。

S209，音频拦截服务模块将音轨数据的buffer发送给行为分析模块，以便行为分析模块根据音轨数据的buffer进行行为分析。例如，通过Speech To Text技术将音轨数据转成文本用于语义分析或歌曲识别模块识别内录音频等等。

S210，媒体服务模块将音轨数据输出到硬件抽象层(Hardware Abstraction Laye，HAL)进行播放。

需要说明的是，S205与S206；S209与S210可以任意的先后顺序或同时执行。

可选地，音频拦截服务模块还可通过下述步骤获取APP数据包的名称，提供给行为分析模块进行分析。

S211，音频拦截服务模块向包管理器查询APP包名。例如，音频拦截服务模块可提供PID，包管理器可根据PID查询APP包名。

S212，包管理器返回APP包名。

另外，音频数据源若不包括音频动作，音频拦截服务模块可从媒体服务模块确定需要拦截的音频数据源对应的音频动作，提供给行为分析模块进行分析。

表1为行为分析模块分析出的结果的一些举例。

表1

Package Name	Module ID	Stream Type	Context
com.netease.cloudmusic	MediaPlayer	MUSIC	网易云音乐听歌中
com.qiyi.video	AudioPlayer	MUSIC	爱奇艺看视频
com.autonavi.minimap	TTS		高德导航中
com.baidu.music	AudioTrack	MUSIC	百度音乐播放中
	AudioPlayer		视频播放器播放中
		VOICE_CALL	IP通话中
		RING	来电状态
com.android.phone		DTMF	拨号中
	ToneGenerator		在IP拨号
com.halfbrick.fruitninjahd	JetPlayer		水果忍者游戏中
tencent.qqgame.lord	SoundPool		玩斗地主
com.htc.task		ALARM	正在日程提醒
com.karakal.musicalarm		ALARM	青橙听闹钟正在提醒

通过本发明实施例可以实现，通过音频拦截服务模块对音频数据源进行拦截，结合该音频数据源对应的其他信息，例如播放该音频数据源的APP包名，可实现用户行为分析。且通过获取音频数据的方式拦截音频数据源，降低了用户行为样本收集的难度，同时也降低了用户行为分析的难度。

需要说明的是，上述实施例中的功能模块以及对应的流程仅为本发明的一种实现方式，并不够成限定。上述实施例中的功能模块可以通过软件与硬件结合的方式实现。

图6，为本发明实施例提供的一种音频处理方法的流程图。具体包括如下步骤：

S610，确定音频数据源，对该音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，该音频拦截服务注册信息包括对该音频数据源进行音频拦截服务的标识信息。

需要说明的是，音频数据源可以是本地存储器或拓展存储器存储的音频文件或视频文件，需要播放的媒体还可以是VoIP的音频数据包，或者应用程序从网络侧接收的音频数据包。可通过URI或Fd确定对应的音频数据源，具体过程参加前述图1所示的实施例，不再赘述。

在确定音频数据源后，需要对该音频数据源进行音频拦截服务注册，在注册时，可提供进程号(Process identifier，PID)，还可提供码流类型、API类型，播放方式等等其他能够标识该音频数据源的信息。其中，播放方式可指音频数据源通过哪个播放音频处理模块播放。具体过程参加前述图2、3所示的实施例，不再赘述。

S620，当根据标识信息确定需要拦截音频数据源时，对音频数据源进行软解码，得到音轨数据。

在对音频数据源进行音频拦截服务注册后，便可以根据注册信息中的标识信息来确定是否需要拦截该音频数据源。

对于不同的播放音频处理模块的播放方式，解码的流程也不尽相同。一些音频数据源在不需要拦截时，可走软解码流程，也可走硬解码流程。对于需要拦截的音频数据源，则需走软解码流程。通过对音频数据源进行解码，可得到PCM码流，也就是音轨数据。

另外，还可通过确定需要拦截的音频数据源的标识信息集；

判断当前音频拦截服务注册信息中的标识信息是否在标识信息集中；

当前音频拦截服务注册信息中的标识信息在标识信息集中时，确定需要拦截该音频数据源。该过程可参见图2所示的实施例中标识信息表的相关描述，不再赘述。

S630，根据音轨数据进行行为分析。

通过对音轨数据进行语音识别，将音轨数据转换成文本，该文本可用于语义分析或歌曲识别模块识别内录音频等等。还可根据音轨数据进行情景感知。

还可以结合注册信息和/或音频数据源的数据包信息等等进行综合分析。

通过本发明实施例，可以实现通过拦截音轨数据栏实现对音频数据源的拦截，降低了收集用户行为样本的难度，且通过音频拦截服务标识有针对性的对音频数据源进行拦截，资源消耗较少，提高了用户体验。

图7为本发明实施例提供的一种终端设备结构示意图。以终端设备为手机为例，图7示出的是与本发明实施例相关的手机500的部分结构的框图。参考图7，手机500包括、RF(Radio Frequency，射频)电路510、存储器520、其他输入设备530、显示屏540、传感器550、音频电路560、I/O子系统570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。本领领域技术人员可以理解显示屏540属于用户界面(UI，User Interface)，且手机500可以包括比图示或者更少的用户界面。

下面结合图5对手机500的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程(例如，VoIP通话)中，信号的接收和发送，特别地，将基站的下行信息(音频数据源)接收后，给处理器580处理；另外，将设计上行的数据(例如，音频数据源获取请求等等)发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器520可用于存储软件程序(例如，音乐播放器、VoIP模块以及操作系统等等)以及数据，处理器580通过运行存储在存储器520的软件程序，从而执行手机500的各种功能以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能(例如，音频播放功能以及视频播放功能等)所需的应用程序等；存储数据区可存储根据手机500的使用所创建的数据(比如音频数据以及VoIP通话时长和时间等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其他输入设备530可用于接收输入的数字或字符信息，以及产生与手机500的用户设置以及功能控制有关的键信号输入(例如，开始、暂停、结束、切换、快进以及快退等等)。具体地，其他输入设备530可包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、光鼠(光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸)等中的一种或多种。其他输入设备530与I/O子系统570的其他输入设备控制器571相连接，在其他设备输入控制器571的控制下与处理器580进行信号交互。应该知道的是，在发明实施例中，其他输入设备530可承担与用户的交互，根据其他输入设备530产生的信息可获得用户行为样本，结合手机500中运行的程序，

显示屏540可用于显示由用户输入的信息或提供给用户的信息以及手机500的各种菜单(例如，播放列表以及播放进度等等)，还可以接受用户输入。具体的显示屏540可包括显示面板541，以及触控面板542。其中显示面板541可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板541。触控面板542，也称为触摸屏、触敏屏等，可收集用户在其上或附近的接触或者非接触操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板542上或在触控面板542附近的操作，也可以包括体感操作；该操作包括单点控制操作、多点控制操作等操作类型。可选的，触控面板542可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位、姿势，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器能够处理的信息，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板542，也可以采用未来发展的任何技术实现触控面板542。进一步的，触控面板542可覆盖显示面板541，用户可以根据显示面板541显示的内容(该显示内容包括但不限于，软键盘、虚拟鼠标、虚拟按键、图标等等)，在显示面板541上覆盖的触控面板542上或者附近进行操作，触控面板542检测到在其上或附近的操作后，通过I/O子系统570传送给处理器580以确定用户输入，随后处理器480根据用户输入通过I/O子系统570在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板542与显示面板541是作为两个独立的部件来实现手机500的输入和输入功能，但是在某些实施例中，可以将触控面板542与显示面板541集成而实现手机500的输入和输出功能。需要说明的是，在本发明实施例中，可根据该

手机500还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机500移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。通过传感器550可以确定用户的行为数据，以便进行分析。

音频电路560、扬声器561，麦克风562可提供用户与手机500之间的音频接口。音频电路560可将接收到的音轨数据数模转换后的模拟信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，麦克风562将收集的声音信号转换为模拟信号，由音频电路560接收后模数转换为音频数据，再将音频数据输出至RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理(例如，进行播放)。

I/O子系统570用来控制输入输出的外部设备，可以包括其他设备输入控制器571、传感器控制器572、显示控制器573。可选的，一个或多个其他输入控制设备控制器571从其他输入设备530接收信号和/或者向其他输入设备530发送信号，其他输入设备530可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮、光鼠(光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸)。值得说明的是，其他输入控制设备控制器571可以与任一个或者多个上述设备连接。所述I/O子系统570中的显示控制器573从显示屏540接收信号和/或者向显示屏540发送信号。显示屏540检测到用户输入后，显示控制器573将检测到的用户输入转换为与显示在显示屏540上的用户界面对象的交互，即实现人机交互。传感器控制器572可以从一个或者多个传感器550接收信号和/或者向一个或者多个传感器550发送信号。

处理器580是手机500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，例如，图1或图3中所示的模块都可运行在处理器580中。以及调用存储在存储器520内的数据，执行以下步骤：确定音频数据源，对所述音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，所述音频拦截服务注册信息包括对所述音频数据源进行音频拦截服务的标识信息。当根据所述标识信息确定需要拦截所述音频数据源时，对所述音频数据源进行软解码，得到音轨数据；根据所述音轨数据进行行为分析。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信(移动通信)。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机500还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

尽管未示出，手机500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本领域的普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域的普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种音频处理方法，其特征在于，包括：

确定音频数据源，对所述音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，所述音频拦截服务注册信息包括对所述音频数据源进行音频拦截服务的标识信息；

当根据所述标识信息确定需要拦截所述音频数据源时，对所述音频数据源进行软解码，得到音轨数据；

根据所述音轨数据进行行为分析。
根据权利要求1所述的方法，其特征在于，所述根据所述音轨数据进行行为分析包括根据所述音轨数据以及下述一项或多项进行行为分析：

操作命令，所述音频数据源对应的音频数据包的名称。
根据权利要求1所述的方法，其特征在于，所述标识信息包括下述一项或多项：码流类型、进程号和播放方式。
根据权利要求1-3任意一项所述的方法，其特征在于，所述根据所述标识信息确定需要拦截所述音频数据源包括：

确定需要拦截的音频数据源的标识信息集；

判断所述标识信息是否在所述标识信息集中；

当所述标识信息在所述标识信息集中时，确定需要拦截所述音频数据源。
一种终端设备，其特征在于，包括：处理器和存储器，存储器用于存储程序，所述处理器通过运行存储器中的程序，用于：

确定音频数据源，对所述音频数据源进行音频拦截服务注册，得到音频拦截服务注册信息，所述音频拦截服务注册信息包括对所述音频数据源进行音频拦截服务的标识信息；

当根据所述标识信息确定需要拦截所述音频数据源时，对所述音频数据源进行软解码，得到音轨数据；

根据所述音轨数据进行行为分析。
根据权利要求5所述的终端设备，其特征在于，所述根据所述音轨数据进行行为分析包括根据所述音轨数据以及下述一项或多项进行行为分析：

音频动作进行行为分析，所述音频数据源对应的音频数据包的名称。
根据权利要求5所述的终端设备，其特征在于，所述标识信息包括下述一项或多项：码流类型、进程号、播放方式。
根据权利要求5-7任意一项所述的终端设备，所述处理器还用于：

确定需要拦截的音频数据源的标识信息集；

判断所述标识信息是否在所述标识信息集中；

当所述标识信息在所述标识信息集中时，确定需要拦截所述音频数据源。
一种音频处理设备，其特征在于，所述音频处理设备包括音频拦截服务模块，音轨模块以及行为分析模块；

所述音频拦截服务模块，用于确定音频拦截服务注册信息，所述音频拦截服务注册信息包括对音频数据源进行音频拦截服务的标识信息；当根据所述标识信息确定需要拦截所述音频数据源时，所述音频拦截服务模块向所述音轨模块发送第一拦截指示信息；

所述音轨模块，用于接收所述第一拦截指示信息，根据所述第一拦截指示信息的指示将所述音频数据源对应的音轨数据发送给所述音频拦截服务模块；

所述音频拦截服务模块，还用于将所述音轨模块发送的音轨数据发送给所述行为分析模块；

所述行为分析模块用于根据所述音轨进行行为分析。
根据权利要求9所述的设备，其特征在于，

所述音频拦截服务模块还用于，将所述音频拦截服务注册信息发送给所述行为分析模块；

所述行为分析模块还用于，根据所述音轨以及音频拦截服务注册信息进行行为分析。
根据权利要求9或10所述的设备，其特征在于，还包括：操作系统，所述操作系统包括所述音频拦截服务模块。
根据权利要求11所述的设备，其特征在于，所述操作系统还包括所述音轨模块。
根据权利要求9-11任意一项所述的设备，其特征在于，还包括第一应用程序，用于确定所述音频数据源，向所述音频拦截服务模块进行音频拦截服务注册。
根据权利要求9-13所述的设备，其特征在于，还包括第二应用程序，用于向所述音频拦截服务模块发送第二拦截指示信息，所述第二拦截指示信息携带有标识信息；在所述音频数据源进行音频拦截服务注册后，所述第二拦截指示信息用于指示所述音频拦截服务模块对音频拦截服务注册信息中包含于所述第二指示信息携带的标识信息中的音频数据源进行拦截。