WO2020038102A1

WO2020038102A1 - 一种语音播放方法和装置

Info

Publication number: WO2020038102A1
Application number: PCT/CN2019/092772
Authority: WO
Inventors: 柳林东
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-08-23
Filing date: 2019-06-25
Publication date: 2020-02-27
Also published as: CN109213468B; CN109213468A; TW202009742A

Abstract

本申请提供一种语音播放方法。先获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；若能在语音策略库中命中所述待播放语音内容，则获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。本申请预设播放策略并按照播放策略进行播放，避免了当众播放恶意内容，提升用户体验。

Description

一种语音播放方法和装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种语音播放方法和装置。

背景技术

在很多场景下，会通过语音播放的形式将信息告知给用户，例如，在支付类产品中，支付完成后会通过播放语音将支付信息通知商户或者用户。但是有些词语播放出来可能包含恶意。例如，250在很多地区被认为是骂人术语，而包含恶意的词语在公共场合播放出来会导致用户尴尬，影响用户体验。

发明内容

针对上述技术问题，本说明书实施例提供一种语音播放方法和装置，技术方案如下：

根据本说明书实施例的第一方面，提供一种语音播放方法，该方法包括：

获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

若能在语音策略库中命中所述待播放语音内容，则获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。

根据本说明书实施例的第二方面，提供一种语音播放装置，该装置包括：

语音匹配模块：用于获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

语音播放模块：用于在语音策略库中命中所述待播放语音内容后，获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现一种语音播放方法，该方法包括：

本说明书实施例所提供的技术方案，提供了一种语音播放方法，确定待播放的语音内容后，在语音策略库中进行查找，如果语音策略库中存在待播放语音内容，则获取语音策略库中对应的播放策略，按照播放策略进行播放，避免了当众播放恶意内容，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书一示例性实施例示出的语音播放方法的一种流程图；

图2是本说明书一示例性实施例示出的语音播放方法的另一种流程图；

图3是本说明书一示例性实施例示出的语音策略库自定义方法的一种流程图；

图4是本说明书一示例性实施例示出的语音播放装置的一种示意图；

图5是本说明书一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对以上问题，本说明书实施例提供一种语音播放方法，以及一种用于执行该方法的语音播放装置，下面对本实施例涉及的语音播放方法进行详细说明，参见图1所示，该方法可以包括以下步骤：

S101，获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

待播放语音内容的形式可能有很多，举例说明，支付宝等交易软件的商家客户端在交易完成后，会语音播放交易具体信息；导航软件在进行语音导航时，会播放具体的语音信息；电子书阅读软件的有声阅读，会语音播放电子书的具体内容，等等。

本实施例中，待播放语音播放内容可以以语音文件形式存在，也可以不以语音文件形式存在。例如，可以将待播放语音内容存储为文本文件的形式，当需要语音播放时，使用TTS技术将文本文件转化为语音内容进行播放。

语音策略库包含不同敏感内容与对应的播放策略，语音策略库中的敏感内容可为不适宜播放的内容，例如，同样词语的在不同的地区，不同的领域含义可能不同，例如“勺子”一般情况下是中性名词，但在某些地区这个词包含恶意，则可将其设定为不适宜播放的敏感内容。

进一步地，语音策略库中敏感内容也可为非恶意内容，而是根据用户兴趣或网络热点等设定的定向播放内容，例如，将语音内容“可爱”设定为敏感内容，并将其对应的播放策略设定为语音内容“卡哇伊”。

具体地，当待播放语音内容存储为文本文件的形式时，语音策略库也可按照文本内容-播放策略的形式进行存储。其中，播放策略即改变原有播放方式，其可有多种方案，例如，将语音内容进行消音，将语音内容降低/升高音量播放，将原本的语音内容替换为另一种定制内容播放，等等。

S102，若能在语音策略库中命中所述待播放语音内容，则获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。

本说明书实施例还提供一种更为具体的语音播放方法，参见图2所示，该方法可以包括以下步骤：

S201，获取待播放语音内容和播放端用户的语音偏好信息；

S202，根据所述语音偏好信息将待播放语音内容在对应的语音策略库中进行匹配，其中，语音策略库中包含不同敏感内容与对应的播放策略；

具体地，可对语音策略库进行划分，如设定不同的语音策略库分库，或将语音策略库按照不同标签分区，举例说明：

按照地理区域进行划分，如按照省市划分，根据不同地区的不同语言文化设定相应的语音策略库，制定针对不同地区敏感播放内容的播放方式；

按照兴趣属性进行划分，如划分出网络流行词分区，古风分区等，将原本的语音内容替换为定制的网络流行词或古风词语等。

可以理解，以上仅为举例，并不对本说明书构成限定，划分分区的方式可根据实际情况进行设定。

其中，播放端用户的语音偏好信息可由播放端用户自行设定，如，播放端用户将自身的兴趣标签设定为流行，则将待播放语音内容在“流行”对应的语音策略库分区进行匹配；或，播放端用户的语音偏好信息由系统检测设定，如，检测到客户端所在地为辽宁省，则将待播放语音内容在地域“辽宁”对应的语音策略库中进行匹配。

S203，判断能否在语音策略库中命中所述待播放语音内容，若在语音策略库中命中所述待播放语音内容，则执行步骤S204，若在语音策略库中没有命中所述待播放语音内容，则执行步骤S205；

S204，获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容；

S205，直接播放所述待播放语音内容。

语音策略库可以存在于播放端本地，也可以存在于服务器。在本说明书的其中一种实施例中，该语音策略库的内容创建和内容更新可以由用户完成，参考图3，为本说明书实施例提供的语音播放库的更新方法：

S301，服务器接收播放端用户自定义的语音内容和对应所述语音内容的播放策略；

举例说明，播放端用户在自定义接口1输入需要制定自定义播放策略的敏感文本，在自定义接口2输入对应该敏感文本的播放策略。播放策略可以选择消音，改变播放音量，或替换为定制播放内容等。其中，定制播放内容可由用户输入替换文本内容，如，将对某些地区不友好的文本“勺子”替换为文本“汤匙”，进而使用TTS文本转语音播放时，可将语音“勺子”替换为语音“汤匙”。或，定制播放内容可由用户输入替换语音内容，由用户录制语音并通过自定义接口上传到语音策略库。

S302，确定播放端用户的偏好信息，根据所述偏好信息将播放端用户的自定义信息添加到对应的语音策略库。

其中，播放端用户的语音偏好信息可由播放端用户自行设定，如，播放端用户将自身的兴趣标签设定为流行，则将用户的自定义内容添加到“流行”对应的语音策略库分区；或，播放端用户的语音偏好信息由系统检测设定，如，检测到客户端所在地为辽宁省，则将用户的自定义内容添加到“辽宁”对应的语音策略库分区。

相应于上述方法实施例，本说明书实施例还提供一种语音播放装置，参见图4所示，所述装置可以包括：语音匹配模块410，语音播放模块420。

语音匹配模块410：用于获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

语音播放模块420：用于在语音策略库中命中所述待播放语音内容后，获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。

在本说明书提供的一种实施例中，所述确定所述语音策略库中是否存在待播放语音内容后，还包括：

若所述语音策略库中不存在待播放语音内容，则直接播放所述待播放语音内容。

在本说明书提供的一种实施例中，所述语音策略库中的播放策略至少包括对待播放语音内容做出消音处理，对待播放语音内容做出音量变化处理，将待播放语音内容替换为定制声音。

在本说明书提供的一种实施例中，述语音匹配模块，具体用于：

获取播放端用户预设的语音偏好信息，根据所述语音偏好信息在对应的语音策略库中进行匹配。

在本说明书提供的一种实施例中，所述语音匹配模块，具体用于：

获取播放端用户的地区信息，根据所述地区信息在对应的语音策略库中进行匹配。

在本说明书提供的一种实施例中，所述语音策略库的更新方式，包括：

服务器接收播放端用户自定义的语音内容和对应所述语音内容的播放策略；

确定播放端用户的偏好信息，根据所述偏好信息将播放端用户的自定义信息添加到对应的语音策略库。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述语音播放方法，所述方法至少包括：

图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020 可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的语音播放方法，＝所述方法至少包括：

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

一种语音播放方法，所述方法包括：

获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

若能在语音策略库中命中所述待播放语音内容，则获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。
如权利要求1所述的方法，所述确定所述语音策略库中是否存在待播放语音内容后，还包括：

若所述语音策略库中不存在待播放语音内容，则直接播放所述待播放语音内容。
如权利要求1所述的方法，所述语音策略库中的播放策略至少包括对待播放语音内容做出消音处理，对待播放语音内容做出音量变化处理，将待播放语音内容替换为定制声音。
如权利要求1所述的方法，所述在预设的语音策略库中进行匹配，包括：

获取播放端用户的语音偏好信息，根据所述语音偏好信息在对应的语音策略库中进行匹配。
如权利要求1所述的方法，所述在预设的语音策略库中进行匹配，包括：

获取播放端用户的地区信息，根据所述地区信息在对应的语音策略库中进行匹配。
如权利要求1所述的方法，所述语音策略库的更新方式，包括：

服务器接收播放端用户自定义的语音内容和对应所述语音内容的播放策略；

确定播放端用户的偏好信息，根据所述偏好信息将播放端用户的自定义信息添加到对应的语音策略库。
一种语音播放装置，所述装置包括：

语音匹配模块：用于获取待播放语音内容，在预设的语音策略库中进行匹配，确定能否命中所述待播放语音内容，其中，语音策略库中包含不同敏感内容与对应的播放策略；

语音播放模块：用于在语音策略库中命中所述待播放语音内容后，获取语音策略库中对应所述待播放语音内容的播放策略，按照所述播放策略播放待播放语音内容。
如权利要求7所述的装置，所述确定所述语音策略库中是否存在待播放语音内容后，还包括：

若所述语音策略库中不存在待播放语音内容，则直接播放所述待播放语音内容。
如权利要求7所述的装置，所述语音策略库中的播放策略至少包括对待播放语音内容做出消音处理，对待播放语音内容做出音量变化处理，将待播放语音内容替换为定制声音。
如权利要求7所述的装置，所述语音匹配模块，具体用于：

获取播放端用户预设的语音偏好信息，根据所述语音偏好信息在对应的语音策略库中进行匹配。
如权利要求7所述的装置，所述语音匹配模块，具体用于：

获取播放端用户的地区信息，根据所述地区信息在对应的语音策略库中进行匹配。
如权利要求7所述的装置，所述语音策略库的更新方式，包括：

服务器接收播放端用户自定义的语音内容和对应所述语音内容的播放策略；

确定播放端用户的偏好信息，根据所述偏好信息将播放端用户的自定义信息添加到对应的语音策略库。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1所述的方法。