WO2021093333A1

WO2021093333A1 - 音频播放方法、电子设备及存储介质

Info

Publication number: WO2021093333A1
Application number: PCT/CN2020/097534
Authority: WO
Inventors: 高翔; 孙静
Original assignee: 网易（杭州）网络有限公司
Priority date: 2019-11-14
Filing date: 2020-06-22
Publication date: 2021-05-20
Also published as: CN111128254A; CN111128254B; US20220269724A1

Abstract

本公开提供了一种音频播放方法、电子设备以及计算机可读存储介质，该方法包括：将待播放的音频文件识别为包含有断句符号的文本文件；根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；从所述目标播放点处播放所述音频文件。本公开的一种音频播放方法、电子设备以及计算机可读存储介质，可以在不增加用户操作复杂性的情况下，将音频准确定位至用户想要重听的位置处进行播放，实现了较为精准的循环播放。

Description

音频播放方法、电子设备及存储介质

相关申请的交叉引用

本公开要求于2019年11月14日提交的申请号为201911112611.4、名称为“音频播放方法及装置、存储介质及电子设备”的中国专利申请，以及于2020年1月15日提交的申请号为202010042918.8、名称为“音频播放方法、电子设备及存储介质”的中国专利申请的优先权，上述中国专利申请的全部内容通过引用全部并入本文。

技术领域

本公开涉及音频技术领域，尤其涉及一种音频播放方法、电子设备及存储介质。

背景技术

随着通信技术的发展，目前大多数终端都已支持音频播放，以满足用户学习、工作及娱乐需求。

在一些情况下，需要对特定的音频段进行重复播放，例如，出于学习或兴趣的原因需要重听音频中的某段，或者由于没有听清播放的内容需要返回至该处进行重听。而用来实现这一功能的现有技术存在定位不精准，操作成本高，效率低、固定返回时长不是用户需要的时长，灵活度和准确度低等问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种音频播放方法、电子设备以及存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种音频播放方法，包括：将待播放的音频文件识别为包含有断句符号的文本文件；

根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；

响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

从所述目标播放点处播放所述音频文件。

本示例实施例中，当用户想重听某段音频内容时，只需在终端上进行操作，即可准确定位至合适的目标播放点，无需通过重复滑动播放进度条来进行定位，操作简单便捷。此外，通过将待播放的音频文件识别为含有断句符号的文本文件进行断句，使得在断句过程中不受音频播放语速的限制，即使播放的语速较慢也能实现准确断句，进而定位至合适的播放位置进行重听。

在本公开的一种示例性实施例中，所述响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，查找所述音频文件当前播放位置相邻的前一个断句标记，将所述前一个断句标记在所述音频文件中的位置确定为目标播放点。

本示例实施例中，每触发一次返回上一句的操作，即可准确定位至当前播放位置的上一句话的开头，用户只需简单操作即可查找到目标播放点进行播放，操作便捷。

在本公开的一种示例性实施例中，所述断句符号包括第一断句符号和第二断句符号；

所述响应一触发操作，根据所述音频文件的当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，根据所述音频文件与所述文本文件的对应关系，在所述文本文件中确定与所述当前播放位置对应的文本字符；

判断所述文本字符与所述断句符号之间的字符间隔是否大于预设字符间隔；

若是，则将所述第一断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将所述第二断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

其中，所述第一断句符号为在所述文本文件中所述文本字符相邻的前一个断句符号，所述第二断句符号为在所述文本文件中所述第一断句符号相邻的前一个断句符号。

本示例实施例中，通过比较音频文件的实时播放位置对应的文本字符与前一断句符号的之间的字符间距来判断用户的重播意图，可以智能化地查找到最准确的目标播放点，用户不必重复触发返回操作即可准确定位至想要重听的音频位置处进行播放，进一步提高了操作的便捷性，从而增强了用户体验度。

在本公开的一种示例性实施例中，所述断句标记包括第一断句标记和第二断句标记；

响应一触发操作，判断所述当前播放位置对应的播放时间与所述第一断句标记对应的播放时间之间的时间间隔是否大于预设时间间隔；

若是，则将第一断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将第二断句标记在时间轴上的播放位置确定为目标播放点；

其中，第一断句标记为在所述音频文件中所述当前播放位置相邻的前一个断句标记，第二断句标记为在所述音频文件中所述第一断句标记相邻的前一个断句标记。

本示例实施例，通过比较音频文件的实时播放位置的播放时间与前一断句标记的播放时间之间的时间间隔来判断用户的重播意图，可以智能化地查找到最准确的目标播放点，用户不必重复触发返回操作即可准确定位至想要重听的音频位置处进行播放，进一步提高了操作的便捷性，从而增强了用户体验度。

根据本公开的另一个方面，提供一种音频播放方法，包括：响应第二触发操作，检测待播放的音频文件的语速是否小于预设语速；

若是，将所述待播放的音频文件识别为包含有断句符号的文本文件；

若否，根据音频的停顿时长在所述音频文件中生成对应的断句标记；

响应第一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

从所述目标播放点处播放所述音频文件。

在本公开的一种示例性实施例中，所述在所述音频文件中根据音频的停顿时长生成对应的断句标记，包括：

当检测到音频的停顿时长大于预设时长时，在该音频文件中生成对应的断句标记。

根据本公开的另一个方面，提供一种电子设备，包括：

处理器、显示装置；以及

存储器，被配置为执行存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述音频播放方法。

根据本公开的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上述音频播放方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本公开一示例性实施例的音频播放方法的系统架构的示意图；

图2为本公开一示例性实施例的音频播放方法的流程图；

图3为本公开一示例性实施例的音频播放应用场景中音频应用软件的界面示意图；

图4为本公开另一示例性实施例的音频播放方法的流程图；

图5为本公开一示例性实施例的音频播放流程中确定目标播放点的示意图；

图6为本公开另一示例性实施例的音频播放流程中确定目标播放点的示意图；

图7为本公开一示例性实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本案申请人在长期的研发过程中，发现现有技术中音频播放方法存在以下不足：

1、通过手势滑动音频播放进度条进行返回时，只能靠用户感觉进行滑动，往往需要用户多次滑动才能定位到合适的播放位置，效率低下，用户体验度较低；

2、通过识别音频停顿时长，返回至上一音频停顿处进行播放的方式，可以在一定程度上降低用户操作负担，但此方式往往容易误识别，尤其是在音频播放语速较慢的情况下并不能准确地识别到音频停顿处，也就无法准确定位至用户想要重听的句子开头处进行播放。并且，不能根据播放的语速环境有针对性地调整音频停顿的识别方式，无法实现智能断句。

3、音频播放过程中每播放完一句话，用户想重听上一句话的内容，播放进度条往往已经播放至下一句话的开头，此时如果定位至音频的上一停顿处，并不是用户想要重听的内容，还需要重复进行返回操作，较为繁琐。

为了解决上述问题，本示例实施方式提供了一种新的技术方案，以下对本公开实施例的技术方案进行详细阐述：

图1示出了可以应用本公开实施例的一种音频播放方法的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的音频播放方法可以由终端设备101、102、103执行，相应的，音频播放装置也可以设置于终端设备101、102、103中。本公开实施例所提供的音频播放方法也可以由终端设备101、102、103与服务器105共同执行，相应地，音频播放装置可以设置于终端设备101、102、103与服务器105中。此外，本公开实施例所提供的音频播放方法还可以由服务器105执行，相应的，音频播放装置可以设置于服务器105中，本示例性实施例中对此不做特殊限定。

本公开实施例的一方面，提供了一种音频播放方法，该音频播放方法可以应用于上述终端设备101、102、103中的一个或多个，也可以应用于上述服务器105，还可以应用于终端设备101、102、103与服务器105中。如图2所示，该音频播放方法包括：

步骤S210，将待播放的音频文件识别为包含有断句符号的文本文件；

步骤S220，根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；

步骤S230，响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

步骤S240，从所述目标播放点处播放所述音频文件。

通过本示例性实施例中的音频播放方法，可以在不增加用户操作复杂性的情况下，将音频准确定位至用户想要重听的位置处进行播放，实现了较为精准的循环播放。

下面，将对本示例性实施例中音频播放方法的各步骤作进一步地说明。

在步骤S210中，将待播放的音频文件识别为包含有断句符号的文本文件。

待播放的音频文件为存放音频数据的文件。举例而言，该音频文件可以为音乐，也可以为教学语音，还可以为录音(比如即时通讯工具中用户发的语音信息)，本示例实施方式对此不做特殊限定。

文本文件为通过对上述音频文件进行语音识别后获得的文本文件，包括与音频内容相对应的文本字符。语音识别可以采用现有技术中公知的识别算法来实现，在一种可选的实施例中，语音识别过程具体实现可以如下：首先对上述音频文件中的音频数据进行预加重、加窗分帧及端点检测等预处理操作，然后对经过预处理操作的音频数据进行分析，并提取出所需的特征，最后采用经样本训练后的离散隐马尔可夫模型对特征提取后的语音信号做语音识别，得到该音频文件所对应的文本文件。在具体的应用场景中，如图3所示，音频应用界面上包括文本显示区域307，可用于显示识别后的文本文件内容。

断句符号是用来对上述文本文件进行断句的，举例而言，该断句符号可以是文本文件中的逗号，分号或句号等符号，也可以是其他能起到断句作用的符号，本示例实施方式对此不做特殊限定。

在步骤S220中，根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记。

音频文件与文本文件的对应关系，可以是语音识别过程中，音频内容与识别后的文本各字符之间的一一对应关系。字符可以是文字字符，也可以是数字字符。

断句标记可以是用来标识上述断句符号的特殊标记。举例而言，该断句标记可以是在断句符号处插入特定的特殊字符，也可以是在断句符号在上述音频文件的声音轨道中所在的位置处进行的打点标记，还可以是其他可以实现标识断句符号作用的特殊标记，本示例实施方式对此不做特殊限定。

在步骤S230中，响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点。

触发操作可以是用户在终端设备上的触控操作(例如：在触控屏上点击控件、在显示区域内进行滑动等)，也可是非触控操作(例如：鼠标点击控件、按压机械按钮等)，还可以是根据预先设置的交互条件进行的触发操作(例如：摇晃、声音输入等)。在具体的应用场景中，如图3所示，音频应用界面上包括返回键301、播放暂停键303、播放进度条305，所述触发操作为用户在音频应用的播放界面上对返回键301的触发操作，以发出返回上一句的请求。

音频文件的当前播放位置可以是当前播放至音频文件的某一帧所处的位置，具体地，可以是在音频播放器的播放进度条上对应于该音频帧的实时播放位置。举例而言，一段音频文件包含A、B、C及D共四句话，此刻音频文件正播放到语句B的开头处，则语句B的开头处即为上述当前位置。

目标播放点可以是上述音频文件中要重复播放的部分在该音频文件中的起点。举例而言，一段音频文件包含A、B、C及D共四句话，要从B开始重播该音频文件，则B的开始点即为目标播放点。

根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点，可以是将与音频文件当前播放位置之前相邻最近的一个断句标记作为目标播放点，也可以是将与音频文件当前播放位置之前相邻第二近的一个断句标记作为目标播放点，例如：播放的音频内容依次为“A句，B句。C句，D句。”，当前播放位置为C句开头，则把当前播放位置之前与B句末尾断句符号“。”，或A句末尾断句符号“，”确定为目标播放点。本示例实施方式对此不做特殊限定。

步骤S240，从所述目标播放点处播放所述音频文件。

当定位至目标播放点后，从目标播放点处开始播放音频文件，可以是将音频文件返回至该目标播放点对应于播放进度条的位置处进行播放。举例而言，目标播放点的音频帧对应于播放进度条上1分30秒的位置，则从1分30秒处开始播放。

需要说明的是，本示例实施例中的步骤S210和S220分别可以在播放音频播放前执行(例如：首先在服务器中将待播放的音频文件识别为文本文件，在音频文件中生成断句标记，然后在音频播放过程中，终端设备检测到用户的触发操作时根据音频文件当前播放位置以及所述断句标记的位置来确定一目标播放点，并在目标播放点处播放所述音频文件)，也可以分别在播放音频时执行(例如：检测到用户触发播放音频的控件时，启动语音识别，将待播放的音频文件识别为文本文件，在音频文件中生成断句标记，随后终端设备在检测到用户的触发操作时根据音频文件当前播放位置以及所述断句标记的位置来确定一目标播放点，并在目标播放点处播放所述音频文件)，本示例实施方式对此不做特殊限定。

本示例实施例中，将待播放的音频文件识别为包含有断句符号的文本文件；根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；从所述目标播放点处播放所述音频文件。这样，当用户想重听某段音频内容时，只需在终端上进行操作，即可准确定位至合适的目标播放点，无需通过重复滑动播放进度条来进行定位，操作简单便捷。此外，通过将待播放的音频文件识别为含有断句符号的文本文件进行断句，使得在断句过程中不受音频播放语速的限制，即使播放的语速较慢也能实现准确断句，进而定位至合适的播放位置进行重听。

在本公开的一种示例性实施例中，所述将待播放的音频文件识别为包含有断句符号的文本文件，包括：

将待播放的音频文件识别为文本文件，通过预设的句子模型将所述文本文件分割为多个以句为单位的子文本文件，并在所述子文本文件的末端标记断句符号，以生成包含有断句符号的文本文件。

使用断句模型将文件文件划分为多个子文本文件，每个子文本文件可视为一句话，在每个自文本文件的末端添加断句符号，以形成包含断句符号的文本文件。

在本公开的一种示例性实施例中，所述句子模型以所述句子模型以词汇的特征属性构建训练样本，通过CRF算法训练得到。建训练样本，通过CRF算法训练得到。

句子模型可以预先根据不同的领域的特点分别训练得到，如金融领域，通信领域，电力领域，日常生活领域等。词汇特征属性可以包括词汇的固有属性(如动词、名词、形容词、副词、介词、语气词等)、词汇的语句属性(如主语、谓语、宾语、定语、状语等)、以及词汇在不同领域中的语义属性。

CRF(Conditional random field，条件随机场)算法是基于概率判断的算法，根据词汇的特征属性构建训练样本，通过CRF算法进行训练得到的对应于特定领域的句子模型，可以从文本内容中根据不同领域具有停顿信息的词的停顿规律计算出形成断句位置的概率，并以此进行断句。

可选的，根据所述断句模型确定文本文件的目标断句位置，在所述文本文件的断句位置的置信度大于预设置信度时，将所述断句位置确定为目标断句位置，根据所述目标断句位置将文本文件分割为以句为单位的子文本文件。

在将音频文件识别为文本文件后，断句模型将文本文件划分为各类字符以及词组，顺次从文本文件中读取各个字符、词组，例如：识别的内容为“我下班后去回家”，则依次读取“我”、“下班”、“后”、“回家”，当读取内容“我下班”，断句模型分析该文本的结尾处“下班”的断句位置的置信度为0.2，而预设置信度为0.8，则继续读取下一个字符或词组“后”，以此类推，当读取至文本“我下班后回家”，断句模型分析该文本的结尾处的断句位置的置信度为0.9，超过预设置信度0.8，则可确定“回家”末尾处为目标断句位置。

在本公开的一种示例性实施例中，所述音频文件与所述文本文件的对应关系，包括：

在将待播放的音频文件识别为文本文件的过程中，所述音频文件在时间轴上与识别的所述文本文件的字符建立的对应关系。

通过语音识别技术得到音频文件对应的文本文件后，对音频文件和文本文件进行分析，得出语音识别过程中音频文件在时间轴上与文本文件的各个字符建立的对应关系。比如，文本文件中的某个字符对应于播放进度条上某一秒的音频内容。

以包含A、B、C及D共四句话的一段音频文件为例，若当前音频文件播放至语句C，则当检测到一次触发操作时，在该音频文件中查找语句C之前的一个断句标记，也即语句B结尾处的断句标记所在的位置作为目标播放点。可以通过重复上述查找前一个断句标记的操作来定位上述目标播放点。假设音频文件当前所播放的为语句D，目标播放点为语句B，即要将音频文件从语句B的开头处开始播放，则需要进行三次触发操作，依次查找到语句C、语句B、语句A的断句标记，将查找到的语句A的断句标记所在的位置作为目标播放点。这样，每触发一次返回上一句的操作，即可准确定位至当前播放位置的上一句话的开头，用户只需简单操作即可查找到目标播放点进行播放，操作便捷。需要说明的是，上述场景只是一种示例性说明，并不对本示例实施方式的保护范畴起任何限定作用。

以包含A、B、C及D共四句话的一段音频文件为例，音频播放进度条当前播放至语句C的开头处，在检测到一次触发操作时，根据音频文件与文本文件的对应关系，确定当前播放直至语句C的哪一个文本字符，如果是处于预设的字符间距内，则在文本文件中依次查找语句B、语句A的断句符号，进而相对应地找到音频文件中语句B、语句A的断句标记，将该语句A的断句标记所在的位置(即语句B的开头处)作为目标播放点。如图5所示，如果当前播放至语句C开头的位置501处，对应于文本C开头第2个字符(附图5中文本内容“不要”的虚线所示处)，而预设字符间距为3个字符，此时向前查找到文本A的断句符号，该文本A的断句符号对应于语句A的断句标记，因此将该语句A的断句标记所在的位置505确定为目标播放点。同理，如果不处于预设的字符间距内，则在文本文件中查找到文本B的断句符号，进而相对应地找到音频文件中语句B的断句标记，并将该语句B的断句标记所在的位置(即语句C的开头处)作为目标播放点。如图5所示，如果当前播放至语句C的位置502处，对应于文本C开头第个9字符(附图5中文本内容“电脑”的虚线所示处)，而预设字符间距为3个字符，此时向前查找到文本B的断句符号，该文本B的断句符号对应于语句B的断句标记，因此将该语句B的断句标记所在的位置503确定为目标播放点。

本示例实施例，通过比较音频文件的实时播放位置对应的文本字符与前一断句符号的之间的字符间距来判断用户的重播意图，可以智能化地查找到最准确的目标播放点，用户不必重复触发返回操作即可准确定位至想要重听的音频位置处进行播放，进一步提高了操作的便捷性，从而增强了用户体验度。需要说明的是，上述场景只是一种示例性说明，并不对本示例实施方式的保护范畴起任何限定作用。

以包含A、B、C及D共四句话的一段音频文件为例，音频播放进度条当前播放至语句C的开头处，在检测到一次触发操作时，判断音频播放进度条上当前的播放位置对应的播放时间与语句B的断句标记对应播放之间是否大于预设时间间隔，如果处于预设的时间间隔内，则依次查找到语句B、语句A的断句标记，并将该语句A的断句标记所在的位置(即语句B的开头处)作为目标播放点。如图6所示，若当前播放至语句C开头第2秒的位置601处(图6中播放进度条0:19的位置)，而预设字符间距为3秒，此时向前查找到语句A的断句标记，并将该语句A的断句标记所在的位置605(图6中对应于播放进度条0:06的位置)确定为目标播放点。同理，如果不处于预设的时间间隔内，则查找到语句B的断句标记，并将该语句B的断句标记所在的位置(即语句C的开头处)作为目标播放点。如图6所示，若当前播放至语句C开头第10秒的位置602处(图6中播放进度条0:27的位置)，而预设字符间距为3秒，此时向前查找到语句B的断句标记，并将该语句B的断句标记所在的位置603(图6中播放进度条0:17的位置)确定为目标播放点。

本示例实施例，通过比较音频文件的实时播放位置的播放时间与前一断句标记的播放时间之间的时间间隔来判断用户的重播意图，可以智能化地查找到最准确的目标播放点，用户不必重复触发返回操作即可准确定位至想要重听的音频位置处进行播放，进一步提高了操作的便捷性，从而增强了用户体验度。需要说明的是，上述场景只是一种示例性说明，并不对本示例实施方式的保护范畴起任何限定作用。

在本公开的一种示例性实施例中，所述方法还包括：

若在所述音频文件的所述当前播放位置处查找不到所述前一个断句标记，则从头播放所述待音频文件。

以包含A、B、C及D共四句话的一段音频文件为例，音频文件的首句话(即语句A)之前并未标记有断句标记，在检测到一次触发操作时，如果当前播放的是语句A，则从头开始播放语句A。

在本公开的一种示例性实施例中，所述断句符号为逗号、句号或分号。

断句符号可以是逗号、句号或分号等符号，也可以是其他能起到断句作用的符号，本示例实施例不作特殊限定。

本公开实施例的另一方面，提供了一种音频播放方法，该音频播放方法可以应用于上述终端设备101、102、103中的一个或多个，也可以应用于上述服务器105，还可以应用于终端设备101、102、103与服务器105中。如图4所示，该音频播放方法包括：

步骤S410：响应第二触发操作，检测待播放的音频文件的语速是否小于预设语速；

步骤S420：若是，将所述待播放的音频文件识别为包含有断句符号的文本文件；

步骤S430：根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；

步骤S440：若否，根据音频的停顿时长在所述音频文件中生成对应的断句标记；

步骤S450：响应第一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

步骤S460：从所述目标播放点处播放所述音频文件。

在步骤S410中，响应第二触发操作，检测待播放的音频文件的语速是否小于预设语速。

第二触发操作可以是用户在终端设备上的触控操作(例如：在触控屏上点击控件、在显示区域内进行滑动等)，也可是非触控操作(例如：鼠标点击控件、按压机械按钮等)，还可以是根据预先设置的交互条件进行的触发操作(例如：摇晃、声音输入等)。在具体的应用场景中，如图3所示，第二触发操作为用户在音频应用的播放界面上对播放暂停键303的触发操作，以播放音频文件。

在检测到第二触发操作时，判断音频文件的播放语速是否小于预设语速。

在步骤S420-S430中，若是，将所述待播放的音频文件识别为包含有断句符号的文本文件；根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记。

如果播放语速小于预设语速，则根据语音识别来确定音频文件的断句标记，根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记。

在步骤S440中，若否，根据音频的停顿时长在所述音频文件中生成对应的断句标记；

如果播放语速大于预设语速，则根据音频的停顿时长来确定音频文件的断句标记。举例而言，在检测到音频的无声时长大于预设阈值时，在该无声音频段中插入特定的特殊字符，形成断句标记。

在步骤S450中，响应第一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点。

第一触发操作可以是用户在终端设备上的触控操作(例如：在触控屏上点击控件、在显示区域内进行滑动等)，也可是非触控操作(例如：鼠标点击控件、按压机械按钮等)，还可以是根据预先设置的交互条件进行的触发操作(例如：摇晃、声音输入等)。在具体的应用场景中，如图3所示，所述触发操作为用户在音频应用的播放界面上对返回键301的触发操作，以发出返回上一句的请求。

根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点，可以是将与音频文件当前播放位置之前相邻最近的一个断句标记作为目标播放点，也可以是将与音频文件当前播放位置之前相邻第二近的一个断句标记作为目标播放点，例如：播放的音频内容为“A句，B句。C句，D句。”，当前播放位置为C句开头，则把当前播放位置之前与B句末尾断句符号“。”，或A句末尾断句符号“，”确定为目标播放点。本示例实施方式对此不做特殊限定。

步骤S460，从所述目标播放点处播放所述音频文件。

本示例实施例中，根据不同的音频播放语速智能选择断句标记的生成方式，在播放语速较慢的情况下使用语音识别方式，根据音频文件与文本文件的对应关系，在音频文件中与断句符号对应的位置处生成断句标记，可以准确查找到音频文件中的断句位置。在播放语速较快的情况下使用识别音频停顿的方式生成断句标记，效率较快。本示例实施例的语音播放方法可智能适应各种复杂的播放语速环境，同时兼顾断句识别的准确性与效率性，提高了用户体验度。

在本公开的一种示例性实施例中，所述所述音频文件与所述文本文件的对应关系，包括：

以包含A、B、C及D共四句话的一段音频文件为例，音频播放进度条当前播放至语句C的开头处，在检测到一次触发操作时，判断音频播放进度条上当前的播放位置对应的播放时间与语句B的断句标记对应播放之间是否大于预设时间间隔，如果处于预设的时间间隔内，则依次查找到语句B、语句A的断句标记，并将该语句A的断句标记所在的位置(即语句B的开头处)作为目标播放点。如图6所示，若当前播放至语句C开头第2秒的位置601处(图6中播放进度条0:19的位置)，而预设字符间距为3秒，此时向前查找到语句A的断句标记，并将该语句A的断句标记所在的位置605(图6中播放进度条0:06的位置)确定为目标播放点。同理，如果不处于预设的时间间隔内，则查找到语句B的断句标记，并将该语句B的断句标记所在的位置(即语句C的开头处)作为目标播放点。如图6所示，若当前播放至语句C开头第10秒的位置602处(图6中对应于播放进度条0:27的位置)，而预设字符间距为3秒，此时向前查找到语句B的断句标记，并将该语句B的断句标记所在的位置603(图6中播放进度条0:17的位置)确定为目标播放点。

在本公开的一种示例性实施例中，所述方法还包括：

可以预先设置停顿时长阈值，在音频文件播放过程中，当检测到音频无声段的时长大于预设的停顿时长阈值时，在该无声音频段中插入特定的特殊字符，形成断句标记。

本公开实施例还提供了一种电子设备设备。图7为本公开实施例提供的电子设备的结构示意图。如图7所示，本实施例的电子设备700包括：处理器701以及存储器702；其中，存储器702，用于存储计算机执行指令；处理器701，被配置为执行存储器存储的计算机执行指令，以实现上述实施例中所执行的各个步骤。具体可以上述方法实施例中的相关描述。

本公开实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上述的数据处理方法。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本公开各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本公开各个实施例所述方法的部分步骤。应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本公开附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种音频播放方法，将待播放的音频文件识别为包含有断句符号的文本文件；

根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；

响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

从所述目标播放点处播放所述音频文件。
根据权利要求1所述的方法，其中，所述将待播放的音频文件识别为包含有断句符号的文本文件，包括：

将待播放的音频文件识别为文本文件，通过预设的句子模型将所述文本文件分割为多个以句为单位的子文本文件，并在所述子文本文件的末端标记断句符号，以生成包含有断句符号的文本文件。
根据权利要求2所述的方法，其中，所述句子模型以词汇的特征属性构建训练样本，通过CRF算法训练得到。
根据权利要求1所述的方法，其中，所述所述音频文件与所述文本文件的对应关系，包括：

在将待播放的音频文件识别为文本文件的过程中，所述音频文件在时间轴上与识别的所述文本文件的字符建立的对应关系。
根据权利要求1或4所述的方法，其中，所述响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应于一触发操作，查找所述音频文件当前播放位置相邻的前一个断句标记，将所述前一个断句标记在所述音频文件中的位置确定为目标播放点。
根据权利要求1或4所述的方法，其中，所述断句符号包括第一断句符号和第二断句符号；

所述响应一触发操作，根据所述音频文件的当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，根据所述音频文件与所述文本文件的对应关系，在所述文本文件中确定与所述当前播放位置对应的文本字符；

判断所述文本字符与所述断句符号之间的字符间隔是否大于预设字符间隔；

若是，则将所述第一断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将所述第二断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

其中，所述第一断句符号为在所述文本文件中所述文本字符相邻的前一个断句符号，所述第二断句符号为在所述文本文件中所述第一断句符号相邻的前一个断句符号。
根据权利要求1或4所述的方法，其中，所述断句标记包括第一断句标记和第二断句标记；

所述响应一触发操作，根据所述音频文件的当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，判断所述当前播放位置对应的播放时间与所述第一断句标记对应的播放时间之间的时间间隔是否大于预设时间间隔；

若是，则将第一断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将第二断句标记在时间轴上的播放位置确定为目标播放点；

其中，第一断句标记为在所述音频文件中所述当前播放位置相邻的前一个断句标记，第二断句标记为在所述音频文件中所述第一断句标记相邻的前一个断句标记。
根据权利要求5-7任一项所述的方法，其中，所述方法还包括：

若在所述音频文件的所述当前播放位置处查找不到所述前一个断句标记，则从头播放所述待音频文件。
根据权利要求1-8任一项所述的方法，其中，所述断句符号为逗号、句号或分号。
一种音频播放方法，其中，响应第二触发操作，检测待播放的音频文件的语速是否小于预设语速；

若是，将所述待播放的音频文件识别为包含有断句符号的文本文件；

根据所述音频文件与所述文本文件的对应关系，在所述音频文件中与所述断句符号对应的位置处生成断句标记；

若否，根据音频的停顿时长在所述音频文件中生成对应的断句标记；

响应第一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点；

从所述目标播放点处播放所述音频文件。
根据权利要求10所述的方法，其中，所述将待播放的音频文件识别为包含有断句符号的文本文件，包括：

将待播放的音频文件识别为文本文件，通过预设的句子模型将所述文本文件分割为多个以句为单位的子文本文件，并在所述子文本文件的末端标记断句符号，以生成包含有断句符号的文本文件。
根据权利要求11所述的方法，其中，所述句子模型以词汇的特征属性构建训练样本，通过CRF算法训练得到。
根据权利要求10所述的方法，其中，所述所述音频文件与所述文本文件的对应关系，包括：

在将待播放的音频文件识别为文本文件的过程中，所述音频文件在时间轴上与识别的所述文本文件的字符建立的对应关系。
根据权利要求10或13所述的方法，其中，所述响应一触发操作，根据所述音频文件当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应于一触发操作，查找所述音频文件当前播放位置相邻的前一个断句标记，将所述前一个断句标记在所述音频文件中的位置确定为目标播放点。
根据权利要求13所述的方法，其中，所述断句符号包括第一断句符号和第二断句符号；

所述响应一触发操作，根据所述音频文件的当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，根据所述音频文件与所述文本文件的对应关系，在所述文本文件中确定与所述当前播放位置对应的文本字符；

判断所述文本字符与所述断句符号之间的字符间隔是否大于预设字符间隔；

若是，则将所述第一断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将所述第二断句符号对应的断句标记在时间轴上的播放位置确定为目标播放点；

其中，所述第一断句符号为在所述文本文件中所述文本字符相邻的前一个断句符号，所述第二断句符号为在所述文本文件中所述第一断句符号相邻的前一个断句符号。
根据权利要求10所述的方法，其中，所述断句标记包括第一断句标记和第二断句标记；

所述响应一触发操作，根据所述音频文件的当前播放位置以及所述断句标记的位置确定一目标播放点，包括：

响应一触发操作，判断所述当前播放位置对应的播放时间与所述第一断句标记对应的播放时间之间的时间间隔是否大于预设时间间隔；

若是，则将第一断句标记在时间轴上的播放位置确定为目标播放点；

若否，则将第二断句标记在时间轴上的播放位置确定为目标播放点；

其中，第一断句标记为在所述音频文件中所述当前播放位置相邻的前一个断句标记，第二断句标记为在所述音频文件中所述第一断句标记相邻的前一个断句标记。
根据权利要求14-16任一项所述的方法，其中，所述方法还包括：

若在所述音频文件的所述当前播放位置处查找不到所述前一个断句标记，则从头播放所述待音频文件。
根据权利要求10-17任一项所述的方法，其中，所述断句符号为逗号、句号或分号。
根据权利要求10所述的音频播放方法，其中，所述在所述音频文件中根据音频的停顿时长生成对应的断句标记，包括：

当检测到音频的停顿时长大于预设时长时，在该音频文件中生成对应的断句标记。
一种电子设备，包括：

处理器；以及

存储器，被配置为执行存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-19任一项所述的音频播放方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-19任一项所述的音频播放方法。