WO2019227308A1

WO2019227308A1 - 一种从音视频文件中选择音轨的方法及装置

Info

Publication number: WO2019227308A1
Application number: PCT/CN2018/088857
Authority: WO
Inventors: 余艳辉; 李昕
Original assignee: 华为技术有限公司
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2019-12-05
Also published as: US20210219028A1; EP3783906A1; CN112189344A; EP3783906A4

Abstract

本申请的实施例提供一种从音视频文件中选择音轨的方法，包括：终端从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨；终端从支持解码的一个或多个音轨中选择语言相匹配的音轨；在语言相匹配的多个音轨中，终端选择支持的音频格式为第一规格的音频格式；终端从第一规格的音频格式中，选择具备第一码率的音轨；终端根据选择的音轨播放所述音视频文件；其中，支持的音频格式中第一规格高于支持的音频格式中的第二规格；具备第一码率的音轨中的第一码率高于具备第二码率的音轨中的第二码率。

Description

一种从音视频文件中选择音轨的方法及装置

技术领域

本申请实施例涉及与终端设备相关的音视频技术领域，尤其涉及一种在终端设备上从音视频文件中选择音轨的方法及装置。

背景技术

智能手机近年来发展迅速，随着屏幕尺寸增大和音频效果的增强，人们通过手机的音视频播放应用来观看电影、电视等视频也越来越普遍。

视频资源包括视频数据和音频数据。其中音频数据可以为单音轨或多音轨。音轨是记录音频数据的轨道，每条音轨具有一个或多个属性参数，所述属性参数包括音频格式、码率、配音语言、音效、通道数、音量等等。当音频数据为多音轨时，不同的两个音轨至少具有一个不同的属性参数，或者不同的两个音轨中至少一个属性参数具备不同的值。

当用户使用个别专业的播放应用在手机上播放具有多音轨的视频时，该播放应用可以在界面上显示音轨选项，用户可以根据该音轨选项选择一个合适的音轨进行播放。但一般的播放应用大多不具备此功能，导致用户在观看多音轨的视频时会出现实际播放的音轨与用户所想要播放的音轨不匹配的问题。尤其是对于存在多个不同语言音轨的情况，音轨选择的准确性十分重要。

发明内容

本申请的实施例提供一种从音视频文件中选择音轨的方法及装置，可以使终端在播放多音轨视频时能自动选择符合用户需求的音轨。

一方面，本发明实施例提供了一种从音视频文件中选择音轨的方法，包括：

在一个可能的设计中，终端从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨；终端从支持解码的一个或多个音轨中选择一个或多个语言相匹配的音轨；终端在语言相匹配的一个或多个音轨中，选择支持的音频格式为第一规格的一个或多个音轨；终端从支持的音频格式为第一规格的一个或多个音轨中，选择具备第一码率的音轨；终端根据选择的音轨播放所述音视频文件；其中，支持的音频格式中第一规格高于支持的音频格式中的第二规格；具备第一码率的音轨中的第一码率高于具备第二码率的音轨中的第二码率；第二规格是指杜比环绕音频编码AC-3；第二码率是指448千字节每秒。

在一个可能的设计中，将所述一个或多个音轨的解码格式与预设的解码集合相比，如果所述一个或多个音轨的解码格式在预设的解码集合中，则认为一个或多个音轨中存在一个或多个支持解码的音轨。终端从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨包括：终端从音视频文件的一个或多个音轨中选出一个或多个其解码格式在预设的解码集合中的音轨。

在一个可能的设计中，终端从支持解码的一个或多个音轨中选择一个或多个语言相匹配的音轨包括：终端根据系统语言、输入法设置、语音助手输入、历史观影习惯中的一个或多个决定第一语言评价结果；终端根据第一语言评价结果，从支持解码的一个或多个音轨中选择一个或多个语言相匹配的音轨。

在一个可能的设计中，终端在语言相匹配的一个或多个音轨中，终端选择支持的音频格式为第一规格的一个或多个音轨包括：终端在语言相匹配的一个或多个音轨中，终端选择支持的音频格式为采样率比第二规格高的一个或多个音轨。

在一个可能的设计中，终端从支持的音频格式为第一规格的一个或多个音轨中，选择具备第一码率的音轨，包括：终端根据音频格式、码率中的一个或多个决定第二语言评价结果。

在一个可能的设计中，终端根据所述第一语言评价结果和所述第二语言评价结果决定播放的音轨的语言。

另一方面，本发明实施例提供了一种终端设备，包括：显示器；音频播放或输出元件；一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述终端设备执行时，使得所述终端设备执行以下步骤：

从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨；从支持解码的一个或多个音轨中选择一个或多个语言相匹配的音轨；在语言相匹配的一个或多个音轨中，选择支持的音频格式为第一规格的一个或多个音轨；从支持的音频格式为第一规格的一个或多个音轨中，选择具备第一码率的音轨；根据选择的音轨播放所述音视频文件；所述显示器和所述音频播放或输出元件或输出。其中，支持的音频格式中第一规格高于支持的音频格式中的第二规格；具备第一码率的音轨中的第一码率高于具备第二码率的音轨中的第二码率；第二规格是指杜比环绕音频编码AC-3；第二码率是指448千字节每秒。

在一个可能的设计中，终端根据所述第一语言评价结果和所述第二语言评价结果决定播放的音轨的语言。在一个可能的设计中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：终端根据系统语言、输入法设置、语音助手输入、历史观影习惯中的一个或多个决定第一语言评价结果。

在一个可能的设计中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：终端根据音频格式、码率中的一个或多个决定第二语言评价结果。

在一个可能的设计中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：根据所述第一语言评价结果和所述第二语言评价结果决定播放的音轨的语言。

再一方面，本发明实施例提供了一种计算机程序产品，当所述计算机程序产品在终端上运行时，使得所述终端执行上述任一项所述的方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，包括指令，当所述指令在终端上运行时，使得所述终端执行上述任一项所述的方法。

相较于现有技术，本发明提供的方案可以在播放应用没有音轨选择功能的时候，安装有该播放应用的终端能自动选择符合用户需求的音轨。

附图说明

图1为本发明实施例提供的安卓系统中语言和输入法的设置的示意图；

图2为本发明实施例提供的一种安卓系统架构图；

图3为本发明实施例提供的一种终端的结构示意图一；

图4为本发明实施例提供的处理器的结构示意图；

图5为本发明实施例提供的一种终端的结构示意图二。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以下详细描述参考附图对所公开的系统和方法的各种特征和功能进行了描述。在图中，除非上下文另外指出，否则相同的符号标识相同的组件。可容易理解，所公开的系统和方法的某些方面可以按多种不同的配置进行布置和组合，所有这些都在本文中被设想到。

本申请实施例提供的一种选择音轨的方法可应用于终端上。该终端可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer， UMPC)、个人数字助理(personal digital assistant，PDA)等具有显示功能的任意终端，本申请实施例对此不作任何限制。

一般的终端具有一个或多个播放音视频的应用软件，该播放应用软件可以是终端出厂时预装的，也可以是后续安装到终端中的。终端可以通过该播放应用播放音视频文件，即用户可以通过终端来观看电影、电视或其它音视频节目。

音轨是记录音频数据的轨道，每条音轨具有一个或多个属性参数，该属性参数可以包括音频格式、码率、语言、音效、通道数、音量等等。当音频数据为多音轨时，不同的两个音轨至少具有一个不同的属性参数，或者不同的两个音轨中至少一个属性参数具备不同的值。此处语言可以指配音语言。

播放的音视频文件可以是保存在终端中的或即时从网络下载的。播放即时下载的音视频文件称为在线播放，播放保存在终端中的音视频文件称为本地播放。如果播放的音视频是在线的，则网络侧需要告知终端这个音视频是否是多音轨的。具体的，网络侧可以通过通知消息告知终端该音视频是多音轨的。终端在选择了具体的音轨之后，就要将选择告知网络侧。具体的，终端可以以通知消息的方式告知网络侧终端已选择具体的音轨。如果是本地播放，则无需与网络侧交互，终端可在本地选择具体的音轨播放。本发明实施例对通知消息的格式不限定，例如，网络侧通过一个特定的通知消息告知终端该音视频文件是多音轨，也可以是网络侧通过音视频文件里的文件头信息告知终端该音视频文件是多音轨的。

播放音视频需要使用播放应用。播放应用的使用方式各有不同。举例来说，用户打开应用，从应用中的相册(album)选择播放的节目。对于相册中保存的视频的播放，第一次播放可以使用播放应用的默认设置。

按照本发明的实施例提供的方法，终端从音视频文件的多个音轨中，选择一个音轨播放。音视频的音轨选择，包括以下规则：

选择音轨中能够被终端解码的音轨；

选择音轨中语言相匹配的音轨；

选择支持音频格式中高规格的音频格式的音轨(例如，DTS(数字影院系统，Digital Theater Systems)的音频格式的规格高于AC-3(Dolby Surround Audio Coding-3，杜比AC-3)的音频格式的规格)；以及

选择高码率的音轨。

在上述音轨选择的规则中，各个选择之间的先后顺序是没有限定的，任何一个选择先行皆可。

例如可以按照这样的顺序：从音视频文件的所有音轨中选出可被终端解码的音轨；然后从可被终端解码的多个音轨中选择语言相匹配的音轨；再在语言相匹配的多个音轨中，选择支持音频格式中高规格的音频格式的音轨；接着从高规格的音频格式中，选择高码率的音轨。

对于音轨中的语言的选择，有以下几个原则：(1)与用户使用手机时使用的语言相同；或(2)与用户历史观看视频的语言类型相一致。对于历史观看的视频还可以区分不同的场景。比如：如果用户历史观看的视频包括原始版本是第一语言(如中文)的视频和原始版本是第二语言(如英文)的视频，音轨语言的确定就要结合用户当前欲观看的视频本身的特征。例如，用户当前欲观看的是原始版本为中文的视频，而用户历史上曾经看过原始版本为中文的视频，则依据用户的观看历史，选择中文作为音轨的语言。

对于选择音频格式的原则，一般是选终端支持的音频格式，如果终端支持多种音频格式，则选择高规格音频格式的音轨。音轨的规格包括以下几种：无损音频格式，有损压缩损失小的音频格式，有损压缩损失大的音频格式。音轨的规格的高低排序为：无损音频格式>有损压缩损失小的音频格式>有损压缩损失大的音频格式。例如，有DTS解码的音频格式，杜比解码的音频格式，和普通的音频格式。音轨的规格的高低排序为：DTS解码>杜比解码的AC-3解码>普通的有损压缩损失大的音频格式。

对于选择码率的原则，一般是选码率高的，但是也要看终端的硬件或软件是否支持。若终端的硬件或软件不支持，则可以选择码率次高的。若终端的硬件或软件连码率次高的也不能支持，则可以选择码率再低的，依次往下类推。

音轨的确定，还可以取决于除了以上因素之外的别的因素，例如：

音效，可以根据用户历史观影习惯，或者终端根据自带音效的设置情况进行选择。根据历史观影习惯选择，可以记录下之前观看最多的音效，如果有的话就选之前观看最多的音效。其中，历史观影习惯可以指用户在同一个观影应用中的观影习惯，历史观影习惯也可以是指用户在所有不同观影应用中的观影习惯。这里的用户指的是按照不同用户账号使用的用户，或者不同终端对应不同用户。终端根据自带音效的设置情况进行选择，可以这样选择：终端有些有自带音效，比如杜比，里面有分音乐，影院等设置，如有匹配的也可以按这个选。

声道数，可以根据终端支持的声道数，或者选最多的声道数。

音量，可以选择手机当前媒体音量设置情况。

当需要播放一段音视频文件时，终端会从音视频文件中选择合适的音轨来配合音视频文件中的视频播放。而如何选择合适的音轨就要运用本发明实施例中的算法。

终端可以根据如下几种语言参数来选择匹配的语言的音轨，如根据用户的系统语言设置、输入法设置、语音助手输入、历史观影习惯，综合得到的语言判决结果。

同时，终端可以根据音频格式和码率决定播放的语言；而决定音频格式和码率的是系统底层和硬件的情况。

最后，终端综合上面两段的内容，得到最终的选择音轨的播放语言的规则：排除不支持解码的音轨；然后从多个音轨中选择语言相匹配的；再在语言相匹配的多个音轨中，选择支持音频格式中高规格的音频格式(例如本例中DTS的音频格式的规格高于AC-3的音频格式的规格)；接着从高规格的音频格式中，选择高码率的音轨。

该算法可以应用于多种操作系统。包括

操作系统，苹果

操作系统等各种其他操作系统。下面以

操作系统为例来说明该算法是如何运作的。

该算法可以把音轨的选择放在

(下文以安卓代替)操作系统的应用程序框架(application framework)层。具体的，由应用程序框架层接收并存储多条音轨，并由应用程序框架层选择出使用具体的音轨，并将选择出的具体的音轨发给应用层播放。

根据该算法开发的终端软件系统具体地可以包括两个记录模块。例如图2所示，终端的安卓的框架层可以包括两个记录模块，一是语言判定记录模块105，一个是解码能力记录模块106。其中，语言判定记录模块根据应用层的至少三种参数进行输入判定。该至少三个参数包括系统语言设置101的语言，用户输入法的语言102和用户通过语音助手输入的语言103。其中，系统语言设置101包括终端设置里的语言选项。而输入法设置102包括输入法应用的设置。例如，如图1所示的安卓系统中语言和输入法的设置中，最上方的框“语言”是系统语言设置，下方的框中的“百度输入法华为版”是输入法设置。语音助手输入是指，通过与终端的语言交互输入。历史观影习惯是指用户在本次观影的过去的观影习惯。历史观影习惯可以指用户在同一个播放应用中的观影习惯，历史观影习惯也可以是指用户在所有不同播放应用中的观影习惯。这里的用户指的是按照不同用户账号区分的使用播放应用的用户，或者使用不同终端所对应的不同用户。用户语言判决结果是指根据用户的系统语言设置、输入法设置、语音助手输入、历史观影习惯，综合得到的语言判决结果，也可以是选择的音轨应该使用的语言。

具体的，语言判定记录模块根据应用层的至少三种参数进行输入判定。该至少三个参数包括用户设置101的语言，用户输入法的语言102和用户通过语音助手输入的语言103。具体的判断过程可参考下表1：

表1

上表1中还包括用户历史观影习惯，框架层的语言判定记录模块根据上表中中间四列的参数的各种情况，得出语言判决结果。以用户1为例，系统语言设置为中文，输入法设置也是中文，语音助手的输入也是中文，历史观影习惯也是中文，因此语言判决结果是中文。以用户4为例，系统语言设置为中文，输入法设置是英文，语音助手输入为中文，历史观影习惯为英文，当中间四列参数的排列中没有明显优势的语言时，依照用户历史观影习惯来决定语言判决结果为英文。

另外，安卓系统的应用程序框架(application framework)层还包括解码能力记录模块106，这个解码能力记录模块106根据系统底层和硬件108的情况来确定。具体的，可参考下表：

音轨序号	音频格式	码率	语言
1	DTS	1509kbps	英文
2	DTS	1509kbps	中文
3	DTS	754kbps	中文
4	AC-3	448kbps	英文
5	AC-3	448kbps	中文

表2

上表中，音频格式代表的是解码能力，码率代表的是音轨效果。例如，框架层从应用层的播放器获取了所有的音轨信息。上表中，对于音轨序号1，其音频格式是DTS(数字影院系统，Digital Theater Systems)，码率是1509kbps(千字节每秒)，语言是英文。例如，对于音轨序号为2的音轨，和音轨序号为1的音轨的区别在于，语言是中文。例如，对于音轨序号为4的音轨，其音频格式是AC-3(Dolby Surround Audio Coding-3，杜比AC-3)，码率是448kbps，语言是英文。

上表的音频格式和码率决定了播放的语言。

接着，结合表1和表2中语言判定记录和解码能力记录，得到视频的音轨得分排序，如下表所示：

默认音轨序号	用户1	用户2	用户3	用户4
支持DTS解码	2	1	1	1
不支持DTS解码	5	4	4	4

表3

例如，对于用户1，若支持DTS解码，则选择表2中的第二条。对于用户1，若不支持DTS解码，这选择表2中的第五条。上述视频的音轨得分排序，包括以下规则：首先排除不支持解码的音轨；然后从多个音轨中选择语言相匹配的；再在语言相匹配的多个音轨中，选择支持音频格式中高规格的音频格式(例如本例中DTS的音频格式的规格高于AC-3的音频格式的规格)；接着从高规格的音频格式中，选择高码率的音轨。

此处不同的用户可对应不同的终端，也可对应同一终端中的不同账号。当不同的用户不同的用户对应同一终端中的不同账号时，不同的账号作为独立的用户，分别维护数个记录语言判定记录，解码能力记录和视频音轨得分排序的模块。

需要说明的是，框架层的视频音轨得分排序模块107从应用层的播放器104获取视音频文件中的所有音轨信息，经过视频音轨得分排序模块107排序后，得到最优的默认音轨，返回给应用层的播放器104播放。选择最优的默认音轨的过程，和上述视频音轨得分排序的模块实现的功能相同，此处不再赘述。

除上述本发明实施例内容外，本发明实施例还包括如下方案：

可以在选择完成后，在终端的显示界面上提示用户：“该视频包括多音轨，终端已自动选择XX音轨”。其中的XX表示某个的含义。

或者，本发明实施例所述的算法也可以应用在用户能选择的场景下。可以终端首先自动选择，然后提示用户“该视频包括多音轨，终端已自动选择XX音轨”，如用户对已选音轨不满意，可以再手动选择。

这样，不用应用层的播放器做任何改动，只需将视音频文件中的音轨发到框架层进行分析，得到最适合该用户的音轨，发给应用层的播放器播放，能实现不依赖播放器的音轨的自动选择，改善了用户的体验。

如图3所示，是本发明实施例的终端的结构示意图。该终端300中包括处理器301、存储器302、摄像头303、RF电路304、音频电路305、扬声器306、话筒307、输入设备308、其他输入设备309、显示屏310、触控面板311、显示面板312、输出设备313、以及电源314等部件。其中，显示屏310至少由作为输入设备的触控面板311和作为输出设备的显示面板312组成。需要说明的是，图3中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，在此不做限定。

下面结合图3对终端300的各个构成部件进行具体的介绍：

射频(radio frequency，RF)电路304可用于收发信息或通话过程中，信号的接收和发送，比如，若该终端300为车载设备，那么该终端300可以通过RF电路304，将基站发送的下行信息接收后，传送给处理器301处理；另外，将涉及上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，LNA)、双工器等。此外，RF电路304还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system for mobile communication，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access，WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302 的软件程序以及模块，从而执行终端300的各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如，声音播放功能、图像播放功能等)等；存储数据区可存储根据终端300的使用所创建的数据(比如，音频数据、视频数据等)等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其他输入设备309可用于接收输入的数字或字符信息，以及产生与终端300的用户设置以及功能控制有关的键信号输入。具体地，其他输入设备309可包括但不限于物理键盘、功能键(比如，音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、光鼠(光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸)等中的一种或多种。其他输入设备309还可以包括终端300内置的传感器，比如，重力传感器、加速度传感器等，终端300还可以将传感器所检测到的参数作为输入数据。

显示屏310可用于显示由用户输入的信息或提供给用户的信息以及终端300的各种菜单，还可以接受用户输入。此外，显示面板312可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板312；触控面板311，也称为触摸屏、触敏屏等，可收集用户在其上或附近的接触或者非接触操作(比如，用户使用手指、触笔等任何适合的物体或附件在触控面板311上或在触控面板311附近的操作，也可以包括体感操作；该操作包括单点控制操作、多点控制操作等操作类型)，并根据预先设定的程式驱动相应的连接装置。需要说明的是，触控面板311还可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位、姿势，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器301能够处理的信息，再传送给处理器301，并且，还能接收处理器301发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板311，也可以采用未来发展的任何技术实现触控面板311。一般情况下，触控面板311可覆盖显示面板312，用户可以根据显示面板312显示的内容(该显示内容包括但不限于软键盘、虚拟鼠标、虚拟按键、图标等)，在显示面板312上覆盖的触控面板311上或者附近进行操作，触控面板111检测到在其上或附近的操作后，传送给处理器301以确定用户输入，随后处理器301根据用户输入，在显示面板312上提供相应的视觉输出。虽然在图3中，触控面板311与显示面板312是作为两个独立的部件来实现终端300的输入和输出功能，但是在某些实施例中，可以将触控面板311与显示面板312集成，以实现终端300的输入和输出功能。

RF电路304、扬声器306，话筒307可提供用户与终端300之间的音频接口。音频电路305可将接收到的音频数据转换后的信号，传输到扬声器306，由扬声器306转换为声音信号输出；另一方面，话筒307可以将收集的声音信号转换为信号，由音频电路305接收后转换为音频数据，再将音频数据输出至RF电路304以发送给诸如另一终端的设备，或者将音频数据输出至存储器302，以便处理器301结合存储器302中存储的内容进行进一步的处理。另外，摄像头303可以实时采集图像帧，并传送给处理器301处理，并将处理后的结果存储至存储器302和/或将处理后的结果通过显示面板312呈现给用户。

处理器301是终端300的控制中心，利用各种接口和线路连接整个终端300的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行终端300的各种功能和处理数据，从而对终端300进行整体监控。需要说明的是，处理器301可以包括一个或多个处理单元；处理器301还可以集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面(user interface，UI)和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

终端300还可以包括给各个部件供电的电源314(比如，电池)，在本发明实施例中，电源314可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

此外，图3中还存在未示出的部件，比如，终端300还可以包括蓝牙模块、传感器等，在此不再赘述。

终端300中的处理器301，用于选择音轨中支持解码的音轨；选择音轨中语言相匹配的音轨；选择支持音频格式中高规格的音频格式的音轨(例如DTS(数字影院系统，Digital Theater Systems)的音频格式的规格高于AC-3(Dolby Surround Audio Coding-3，杜比AC-3)的音频格式的规格)；选择高码率的音轨。

其中，上述支持解码的音轨是指音轨能够被解码。

关于音视频的音轨的选择的规则，各个选择的依据之间可以没有先后顺序，任何一个依据先判断皆可。例如：从所有音轨中选出支持解码的音轨；然后从支持解码的多个音轨中选择语言相匹配的音轨；再在语言相匹配的多个音轨中，选择支持音频格式中高规格的音频格式的音轨(例如DTS(数字影院系统，Digital Theater Systems)的音频格式的规格高于AC-3(Dolby Surround Audio Coding-3，杜比AC-3)的音频格式的规格)；接着从高规格的音频格式中，选择高码率的音轨。

对于音轨中的语言的选择，对于选择音频格式的原则，对于选择码率的原则，对于别的因素，可以参考本申请文件中的方法实施例中的描述，此处不再赘述。

如图4所示，是一个处理器的内部实现框图。可以从图中看出，处理器中包括4个高速处理核和4个低速处理核。每4个高速处理核和一个相应的二级缓存配合起来，形成一个高速核处理区域。每4个低速处理核和一个相应的二级缓存配合起来，形成一个低速核处理区域。这里高速处理核可以指处理频率为2.1GHz(赫兹)的处理核。这里低速处理核可以指处理频率为1.7GHz(赫兹)的处理核。

而所有处理器301执行的步骤都是由高速处理核或低速处理核完成。

除了高速处理核，低速处理核和相应的二级缓存外，还有其他的组成部分。例如，调制解调器基带部分；和射频收发器连接，用于处理射频信号的基带部分；和显示器相连的显示子系统；和CPU外部相连的图像信号处理子系统；和DDR存储相连的单通道DDR控制器；，和嵌入多媒体卡连接的嵌入多媒体卡接口；和个人电脑连接的USB接口；和短距通信模块相连的SDIO输入输出接口；和蓝牙，GPS相连的UART接口；和传感器相连的I2C接口；和智能卡SIM卡接口的智能卡接口。以及CPU内部还包括的影片处理子系统，Sensor Hub子系统，低功耗微控制器，高分辨率视频编解码器，双安全引擎，图像处理器和二级缓存形成的图像处理单元。还有布局于CPU内部的一致性总线，用于连接CPU中的所有接口及处理单元。

可以理解的是，上述终端等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图5所示，示出了上述实施例中所涉及的终端的一种可能的结构示意图，包括处理模块1001、通信模块1002、输入/输出模块1003以及存储模块1004。

其中，处理模块1001用于对终端的动作进行控制管理。通信模块1002用于支持终端与其他网络实体的通信。输入/输出模块1003用于接收由用户输入的信息或输出提供给用户的信息以及终端的各种菜单。存储模块1004用于保存终端的程序代码和数据。

示例性的，处理模块1001可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，GPU，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

通信模块1002可以是收发器、收发电路、输入输出设备或通信接口等。例如，通信模块1002具体可以是蓝牙装置、Wi-Fi装置、外设接口等等。

存储模块1004可以是存储器，该存储器可以包括高速随机存取存储器(RAM)、DDR，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。

输入/输出模块1003可以为触摸屏、键盘、麦克风以及显示器等输入输出设备。其中，显示器具体可以采用液晶显示器、有机发光二极管等形式来配置显示器。另外，显示器上还可以集成触控板，用于采集在其上或附近的触摸事件，并将采集到的触摸信息发送给其他器件(例如处理器等)。

在上述实施例中，可以全部或部分的通过软件，硬件，固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式出现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘，硬盘、磁带)、光介质(例如，DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种从音视频文件中选择音轨的方法，其特征在于，包括：

终端从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨；

终端从支持解码的一个或多个音轨中选择语言相匹配的音轨；

在语言相匹配的多个音轨中，终端选择支持的音频格式为第一规格的音频格式；

终端从第一规格的音频格式中，选择具备第一码率的音轨；

终端根据选择的音轨播放所述音视频文件；

其中，支持的音频格式中第一规格高于支持的音频格式中的第二规格；

具备第一码率的音轨中的第一码率高于具备第二码率的音轨中的第二码率；

第二规格是指杜比环绕音频编码AC-3；

第二码率是指448千字节每秒。
根据权利要求1所述的方法，其特征在于，终端从支持解码的多个音轨中选择语言相匹配的音轨；在语言相匹配的多个音轨中，终端选择支持音频格式中第一规格的音频格式包括：终端根据系统语言、输入法设置、语音助手输入、历史观影习惯中的一个或多个决定第一语言评价结果。
根据权利要求1所述的方法，其特征在于，终端从第一规格的音频格式中，选择具备第一码率的音轨，包括：终端根据音频格式、码率中的一个或多个决定第二语言评价结果。
根据权利要求2和3所述的方法，其特征在于，还包括：

终端根据所述第一语言评价结果和所述第二语言评价结果决定播放的音轨的语言。
一种终端设备，其特征在于，包括：

触摸屏，其中，所述触摸屏包括触敏表面和显示器；

一个或多个处理器；

存储器；

多个应用程序；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述终端设备执行时，使得所述终端设备执行以下步骤：

从音视频文件的一个或多个音轨中选出一个或多个支持解码的音轨；

从支持解码的一个或多个音轨中选择语言相匹配的音轨；

在语言相匹配的多个音轨中，选择支持的音频格式中为第一规格的音频格式；

从第一规格的音频格式中，选择第一码率的音轨；

根据选择的音轨播放所述音视频文件；其中，支持的音频格式中第一规格高于支持的音频格式中的第二规格；

具备第一码率的音轨中的第一码率高于具备第二码率的音轨中的第二码率；

第二规格是指杜比环绕音频编码AC-3；

第二码率是指448千字节每秒。
根据权利要求5所述的终端，其特征在于，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：终端根据系统语言、输入法设置、语音助手输入、历史观影习惯中的一个或多个决定第一语言评价结果。
根据权利要求5所述的终端，其特征在于，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：

终端根据音频格式、码率中的一个或多个决定第二语言评价结果。
根据权利要求6和7所述的终端，其特征在于，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：根据所述第一语言评价结果和所述第二语言评价结果决定播放的音轨的语言。
一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在终端上运行时，使得所述电子设备执行如权利要求1-4中任一项所述的方法。
一种计算机可读存储介质，包括指令，其特征在于，当所述指令在终端上运行时，使得所述电子设备执行如权利要求1-4中任一项所述的方法。