WO2019127112A1

WO2019127112A1 - 一种语音交互方法、装置和智能终端

Info

Publication number: WO2019127112A1
Application number: PCT/CN2017/119039
Authority: WO
Inventors: 张含波
Original assignee: 深圳前海达闼云端智能科技有限公司
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-04
Also published as: CN108369805A; CN108369805B

Abstract

本申请实施例提供了一种语音交互方法、装置和智能终端。其中，所述方法包括：当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；基于所述主频率合成所述应答语音；根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；以所确定的所述音量播放所述应答语音。通过上述技术方案，本申请实施例能够基于声音的掩蔽效应，根据当前的交互环境的噪声信息动态调整其应答语音的主频率和播放音量，使得用户在任意交互环境下都可以获得较好的语音交互体验。

Description

一种语音交互方法、装置和智能终端

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音交互方法、装置和智能终端。

背景技术

随着人工智能技术的不断发展，智能机器人、智能家居、智能手机、智能家电、智能车载设备等智能终端受到了越来越多的用户的青睐，人们的生活已经逐渐走入人工智能时代。

其中，为了方便用户的使用，很多智能终端都配置有语音交互功能，能够向用户作出语音响应。一般地，智能终端可以在接收到语音交互指令时，根据该语音交互指令生成应答文本，然后基于该应答文本进行文本语音转换，即，TTS(Text to Speech)转换，合成应答语音，最后向用户播放所合成的应答语音。

在实现本申请的过程中，发明人发现：目前的智能终端在基于应答文本进行发声的过程中，基本都是以预先设定好的频率合成应答语音，并以固定的音量播放所合成的应答语音，没有考虑交互环境的噪声状况，从而使得有时候用户听到智能终端的应答语音的音量较小，无法听清楚对话内容；或者，有时候用户听到智能终端的应答语音的音量较大，不符合当时的气氛，甚至有可能被吓到。在进行语音交互的过程中，用户听到智能终端的应答语音的音量过大或者过小，均不利于用户的友好体验。

因此，现有的语音交互技术还有待于改进和发展。

发明内容

本申请实施例提供一种语音交互方法、装置和智能终端，能够解决现有人机交互体验受交互环境的噪声状况的影响较大，不利于提升用户体验的问题。

为解决上述技术问题，本申请实施例提供了以下几种技术方案：

第一方面，本申请实施例提供了一种语音交互方法，应用于智能终端，该方法包括：

当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；

根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；

基于所述主频率合成所述应答语音；

根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；

以所确定的所述音量播放所述应答语音。

第二方面，本申请实施例提供一种语音交互装置，运行于智能终端，包括：

噪声检测单元，用于当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；

主频率确定单元，用于根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；

语音合成单元，用于基于所述主频率合成所述应答语音；

音量确定单元，用于根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；

播放单元，用于以所确定的所述音量播放所述应答语音。

第三方面，本申请实施例提供一种智能终端，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语音交互方法。

第四方面，本申请实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使智能终端执行如上所述的语音交互方法。

第五方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被智能终端执行时，使所述智能终端执行如上所述的语音交互方法。

本申请实施例的有益效果在于：本申请实施例提供的语音交互方法、装置和智能终端通过在接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率，然后根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，基于所述主频率合成所述应答语音，并根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量，最后以所确定的所述音量播放所述应答语音，能够基于声音的掩蔽效应，根据当前的交互环境的噪声信息动态调整其应答语音的主频率和播放音量，使得用户在任意交互环境下都可以获得较好的语音交互体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音交互方法的其中一种应用环境的示意图；

图2是本申请实施例提供的一种语音交互方法的流程示意图；

图3是本申请实施例提供的另一种语音交互方法的流程示意图；

图4是本申请实施例提供的一种语音交互装置的结构示意图；

图5是本申请实施例提供的一种智能终端的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。再者，本申请所采用的“第一”“第二”“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

目前，大多数智能终端在进行语音交互时都是以特定的频率合成应答语音并且以固定的音量播放所合成的应答语音，因此，智能终端发出的声音的主频率和音量大小是固定的。然而，当智能终端处于具有不同噪声状况的交互环境时，用户听到智能终端所发出的声音的音量通常会存在时而大，时而小的问题。举例来说，假设智能终端，比如，机器人，所在位置为一商场内；当该商场的人流量较大时，该智能终端所处交互环境比较嘈杂，用户在跟该智能终端进行语音交互时，听到该智能终端发出的声音较小，常常会听不清智能终端的应答内容；而当该商场的人流量较小时，该智能终端所处的交互环境比较安静，用户在跟该智能终端进行语音交互时，听到该智能终端发出的声音较大，容易使用户感到不适或者被吓到。

究其原因，发明人发现：其主要是因为人耳的听觉感受一般会受声音的“掩蔽效应”影响，即：当人们在安静的环境中倾听一个声音时，即使这个声音的音量很小，也可以听到；但是，在倾听这个声音的同时，如果存在另一个声音(掩蔽声)，就会影响到人耳对这个声音的听闻效果，这时，需要把这个声音的音量增大才能让人耳听到，也就是说，人耳对这个声音的听阈提高了，而人耳对这个声音的听阈所提高的分贝数，称为“掩蔽量”。其中，大量的研究表明，一个声音(掩蔽声)对另一个声音(倾听声)的掩蔽效果与很多因素有关，主要取决于这两个声音的相对强度和频率结构。

基于此，本申请实施例提供了一种语音交互方法、一种语音交互装置、一种智能终端、一种非暂态计算机可读存储介质以及一种计算机程序产品。

其中，本申请实施例提供的语音交互方法是一种基于声音的掩蔽效应，根据当前的交互环境的噪声信息动态调整智能终端发出的应答语音的主频率及其播放音量的方法，具体为：在接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率，然后根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，基于所述主频率合成所述应答语音，并根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量，最后以所确定的所述音量播放所述应答语音。从而，在本申请实施例中，能够对应不同交互环境的噪声状况动态调整所合成的应答语音的主频率及其播放音量，使得用户在任意交互环境下都能够听清智能终端的应答内容，并且，不会因为听到的声音过大而被吓到，从而使得用户在任意交互环境下都可以获得较好的语音交互体验。

其中，本申请实施例提供的语音交互装置是由软件程序构成的能够实现本申请实施例提供的语音交互方法的虚拟装置，其与本申请实施例提供的语音交互方法基于相同的发明构思，具有相同的技术特征以及有益效果。

其中，本申请实施例提供的智能终端可以是任意类型的电子设备，比如：机器人、智能手机、个人电脑、平板电脑、可穿戴智能设备、智能家电等等。该智能终端能够执行本申请实施例提供的语音交互方法，或者，运行本申请实施例提供的语音交互装置。

具体地，下面结合附图，对本申请实施例作进一步阐述。

图1是本申请实施例提供的语音交互方法的其中一种应用环境的示意图。其中，该应用环境所处的位置可以是固定的，比如，该应用环境所处的位置可以是一商场内或者户外场所；或者，该应用环境所处的位置也可以是可变的，本申请实施例对此不作具体限定。

具体地，如图1所示，在该应用环境中，可以包括用户10和智能终端20。

其中，用户10可以为任何能够与智能终端20进行语音交互的对象(即，智能终端20的“交互对象”)，其可以通过任何合适的类型的，一种或者多种用户交互设备(比如鼠标、键盘、遥控器、触摸屏、体感摄像头以及音频采集装置等)与智能终端20进行交互，输入指令或者控制智能终端20执行一种或者多种操作。

其中，智能终端20可以为任何合适类型的，具有一定逻辑运算能力，提供一个或者多个能够满足用户意图的功能的电子设备。例如，机器人、个人电脑、平板电脑、智能手机、可穿戴智能设备等。该智能终端20可以包括任何合适类型的，用以存储数据的存储介质，例如磁碟、光盘(CD-ROM)、只读存储记忆体或随机存储记忆体等。该智能终端20还可以包括一个或者多个逻辑运算模块，单线程或者多线程并行执行任何合适类型的功能或者操作，例如接收交互指令、合成用于交互的应答语音等。所述逻辑运算模块可以是任何合适类型的，能够执行逻辑运算操作的电子电路或者贴片式电子器件，例如单核心处理器、多核心处理器、音频处理器。

在实际应用中，用户10可以通过任意合适的方式与智能终端20进行语音交互。比如，用户10可以通过鼠标、键盘、触摸屏、体感操作等交互设备向智能终端20输入语音交互指令，智能终端20在接收到该语音交互指令时，可以采用本申请实施例提供的语音交互方法对用户10作出语音响应。又如，用户10也可以通过智能终端20的声音采集设备向智能终端20输入语音控制信息，智能终端20对该语音控制信息进行解析后可以得到相应的语音交互指令，进而基于该语音交互指令，采用本申请实施例提供的语音交互方法对用户10作出语音响应。

具体地，在本申请实施例中，当智能终端20接收到语音交互指令时，比如，当智能终端20接收到用户10向其输入的语音控制信息“请问第25号大概还要等多久”时，或者，当智能终端20接收到用户10在其触摸屏上输入的语音交互指令“排位查询”时，智能终端20可以首先检测当前交互环境(即，当前用户10与智能终端20进行交互的环境)的噪声信息，其中，所述噪声信息包括噪声音量和噪声频率；然后根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，并基于所述主频率合成所述应答语音，比如，基于所述噪声频率，针对上述相关的语音交互指令，合成具有特定的主频率，并且，内容为“您还需等待30分钟”的应答语音；接着，根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；最后，以所确定的所述音量播放所述应答语音。

其中，需要说明的是，本申请实施例提供的语音交互方法的还可以进一步的拓展到其他合适的应用环境中，而不限于图1中所示的应用环境。虽然图1中仅显示了三个用户10和两个智能终端20，但本领域技术人员可以理解的是，在实际应用过程中，该应用环境还可以包括更多或者更少的用户、智能终端。

图2是本申请实施例提供的一种语音交互方法的流程示意图，该方法可以由如上所述的任一类型的智能终端执行。

具体地，请参阅图2，该方法可以包括但不限于以下步骤：

步骤110：当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率。

在本实施例中，所述“语音交互指令”是指能够指示智能终端作出特定的语音响应的指令。针对不同的语音交互指令，智能终端可以做出不同的语音响应。

其中，该语音交互指令可以由用户向智能终端输入的控制信息触发。根据交互方式的不同，该控制信息可以包括但不限于：触摸控制信息和语音控制信息。比如，用户可以通过该智能终端的触摸屏输入“查询商店A的位置”的触摸控制信息以指示智能终端通过语音的方式给出“商店A的具体位置”；又如，用户也可以通过该智能终端的声音采集设备(比如，麦克风)输入语音“商店A在哪”的语音控制信息以指示智能终端通过语音的方式给出“商店A的具体位置”。

或者，该语音交互指令也可以由智能终端自身在满足预设条件下自动触发。比如，对于迎宾机器人来说，当其检测到有客户走近时，可以自动触发产生一个语音交互指令，指示该迎宾机器人向该客户发出“欢迎光临”的语音响应。又如，对于扫地机器人来说，当其驱动轮被缠绕时，可以自动触发产生一个语音交互指令，指示该扫地机器人发出“驱动轮被缠绕，请检查”的语音提示，以提示用户该扫地机器人当前被缠绕的状态。

在本实施例中，所述“当前交互环境”是指接收到语音交互指令时，智能终端与用户进行交互的环境；所述“噪声信息”是指该交互环境中与交互内容无关的声音的信息，该噪声信息包括噪声音量和噪声频率。其中，所述“噪声音量”即噪声的强度/响度，所述“噪声频率”即噪声中的主要频率成分。

具体地，在本实施例中，当用户通过任意交互方式向智能终端输入控制信息时，或者，当智能终端自身满足预设条件时，智能终端可以接收到相对应的语音交互指令，此时，智能终端需首先检测当前交互环境的噪声，根据该噪声中的声学特征获取当前交互环境的噪声音量和噪声频率，然后再执行下述步骤120。

步骤120：根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率。

在本实施例中，所述“应答语音”是指智能终端向用户作出的语音响应，该应答语音中的语音内容与智能终端接收到的语音交互指令相对应。比如，若智能终端接收到的语音交互指令用于指示智能终端发出“驱动轮被缠绕”的提示声，则，其对应的应答语音的内容即“驱动轮被缠绕，请检查”。又如，若智能终端接收到的语音交互指令用于指示智能终端通过语音的方式回答“商店A的位置在哪里”，则其对应的应答语音的内容可以是“该商店A在前方50米右侧拐角处”。所述“主频率”即应答语音的主要频率成分。

在本实施例中，基于声音的“掩蔽效应”，可以在检测到当前交互环境的噪声频率时，首先根据该噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率。一般地，在“频域掩蔽效应”中，低频声能够掩蔽高频声，因此，可以确定用于合成与所述语音交互指令对应的应答语音的主频率低于所述噪声频率。

其中，由于在“掩蔽效应”中，声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，一般会引入“临界频带”的概念，即：在20Hz到16kHz范围内有24个临界频带，临界频带的单位为Bark(巴克)，1Bark＝一个临界频带的宽度，当f(频率)＜500Hz时，1Bark≈f/100；当f＞500Hz 时，1Bark≈9+4log(f/100)。因此，在本实施例中，所述根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率的具体实施方式可以是：确定所述噪声频率所处的临界频带，然后根据所述临界频带确定用于合成与所述语音交互指令对应的应答语音的主频率。其中，所述噪声频率所处临界频带可参考临界频带表来确定。

又，由于在“掩蔽效应”中，两个频率越接近的声音，彼此的掩蔽量就越大；并且，高频声容易被低频声掩蔽(尤其是当低频声的音量很大时)，而低频声则很难为高频声掩蔽。因此，在本实施例中，所述根据所述临界频带确定用于合成与所述语音交互指令对应的应答语音的主频率的具体实施方式可以是：确定用于合成应答语音的主频率为所述临界频带的上级临界频带中的频率值，以使该用于合成应答语音的主频率低于噪声频率，并且，该用于合成应答语音的主频率所处的临界频带与噪声频率所处的临界频带之间间隔一定的距离，从而实现低频声(应答语音)掩蔽高频声(噪声)，同时，避免两种声音因频率相近而彼此掩蔽。比如，假设噪声频率所处的临界频带为第4级临界频带(经查临界频带划分表可知，该第4级临界频带对应的频率范围为：400Hz～510Hz)，则，可以确定用于合成应答语音的主频率为250Hz(其所处临界频带为第2级临界频带)。

此外，在一些实施例中，若噪声频率所处的临界频带属于低频范围，比如，噪声频率所处的临界频带为第1级临界频带(对应的频率范围为：100Hz～200Hz)，此时，若继续采用低频声掩蔽高频声的方式提升用户对智能终端播放的语音(即，应答语音)的听觉灵敏度会比较困难，并且有可能会给用户带来不好的听觉感受，此时，则可以确定用于合成应答语音的主频率远高于噪声频率，比如，确定用于合成应答语音的主频率为1000Hz(其所在临界频带为第8级临界频带)。

步骤130：基于所述主频率合成所述应答语音。

在本实施例中，当智能终端接收到语音交互指令时，可以首先根据该语音交互指令生成应答文本，其中，该应答文本包括智能终端用于响应该语音交互指令的语音内容；然后，基于步骤120中所确定的主频率对该应答文本进行TTS(Text To Speech)转换，合成一个具有特定的主频率，并且与接收到的语音交互指令对应的应答语音。

其中，在本实施例中，可以在智能终端的数据库中建立语音交互指令和应答文本的映射关系，从而，当智能终端接收到一个语音交互指令时即可查询到与之相对应的应答文本，进而基于所确定的主频率合成与所述语音交互指令对应的应答语音(即，基于所述主频率对所述语音交互指令对应的应答文本进行TTS转换)。

步骤140：根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量。

根据“掩蔽效应”还可知，声音的掩蔽效应还与声音的音量有关，一个声音的音量越大，其对另一个声音的掩蔽量越大。因此，在本实施例中，还通过动态调整智能终端播放应答语音的音量来实现应答语音对交互环境的噪声的掩蔽，使用户能够在任意噪声环境下都可以清楚听到应答语音。

从而，在本实施例中，在以特定的主频率合成应答语音之后，还根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量。其中，由于不同的频率掩蔽方式所产生的掩蔽效果会有所不同，低频声掩蔽高频声的掩蔽效果较强，而高频声掩蔽低频声的掩蔽效果较弱，因此，在本实施例中，可以首先根据噪声频率和应答语音的主频率确定掩蔽量，然后再根据噪声音量和掩蔽量确定播放该应答语音的音量。

具体地，在本实施例中，根据低频声掩蔽高频声的掩蔽效果较强，而高频声掩蔽低频声的掩蔽效果较弱的特性，所述根据噪声频率和应答语音的主频率确定掩蔽量的具体实施方式可以是：如果所述噪声频率低于所述应答语音的主频率，则确定所述掩蔽量为第一掩蔽量；如果所述噪声频率高于所述应答语音的主频率，则确定所述掩蔽量为第二掩蔽量；所述第一掩蔽量大于所述第二掩蔽量。进一步地，根据噪声音量和掩蔽量确定播放该应答语音的音量的具体实施方式可以是：以所述噪声音量和所述掩蔽量之和作为播放应答语音的音量。

此外，在另一些实施例中，根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量的具体实施方式也可以是：首先根据噪声频率和应答语音的主频率确定调整系数，然后再根据噪声音量和该调整系数的乘积作为播放该应答语音的音量，其中，该调整系数大于1。

再者，在又一些实施例中，步骤120至步骤140还可以合并执行。具体为：预先根据“掩蔽效应”建立如表1所示的关系对照表，通过查找该关系对照表即可确定了每一噪声信息(包括噪声频率所处的临界频带以及噪声音量)对应的掩蔽量、合成应答语音的主频率以及播放应答语音的音量。其中，表1中的n 可以为一可变量，其根据实际检测到的噪声音量确定；并且，表1中的数据也仅为示例性说明，并不用于限定本申请实施例。

表1关系对照表

在该实施例中，当检测到当前交互环境的噪声音量和噪声频率时，可以首先确定噪声频率所处的临界频带，然后直接通过查询上述表1，以与该临界频带对应的主频率合成应答语音并确定播放该应答语音的音量。

步骤150：以所确定的所述音量播放所述应答语音。

在本实施例中，智能终端可以在确定了播放应答语音的音量之后，通过任意发声设备，比如，喇叭、扬声器等，以所确定的音量播放该应答语音。

其中，在本实施例中，由于应答语音的主频率避开了噪声频率所处的临界频带的范围，并且，应答语音的播放音量大于噪声音量，从而能够实现应答语音对噪声的掩蔽，使得用户在具有任意噪声情况的交互环境下都能够清楚听到智能终端发出的应答语音，同时，智能终端的应答语音的主频率和播放音量均基于当前交互环境的噪声信息确定，所以也不会存在因为声音过大而吓到用户的问题。

进一步地，声音的“掩蔽效应”中，除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也存在掩蔽现象，称为“时域掩蔽”。其中，所述时域掩蔽包括超前掩蔽和滞后掩蔽。产生时域掩蔽的主要原因在于，人的大脑处理信息需要花费一定的时间，一般地，超前掩蔽很短，只有5～20ms，而滞后掩蔽可以持续50～200ms。

基于此，在另一些实施例中，当智能终端接收到的语音交互指令由用户输入的语音控制信息触发时，为了避免用户说的话对智能终端播放的应答语音造成“时域掩蔽”，所述以所确定的所述音量播放所述应答语音，具体为：获取接收到基于所述语音控制信息触发的所述语音交互指令的时间节点(即，用户问话结束时的时间节点)；在间隔所述时间节点预设时长后，以所确定的所述音量播放所述应答语音。其中，所述预设时长可以是200ms。

通过上述技术方案可知，本申请实施例的有益效果在于：本申请实施例提供的语音交互方法通过在接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率，然后根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，基于所述主频率合成所述应答语音，并根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量，最后以所确定的所述音量播放所述应答语音，能够基于声音的掩蔽效应，根据当前的交互环境的噪声信息动态调整其应答语音的主频率和播放音量，使得用户在任意交互环境下都可以获得较好的语音交互体验。

此外，考虑到每个人的听力敏感度以及个人习惯会有所差异，基于相同的方法调整应答语音的主频率以及播放该应答语音的音量，对于不同的用户有可能会产生不同的语音交互效果，因此，进一步地，在本申请实施例中，还提供了另一种语音交互方法。

具体地，请参阅图3，该方法可以包括但不限于以下步骤：

步骤210：当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率。

步骤220：根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率。

步骤230：基于所述主频率合成所述应答语音。

步骤240：根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量。

步骤250：以所确定的所述音量播放所述应答语音。

步骤260：获取交互体验反馈信息。

在本实施例中，所述“交互体验反馈信息”是指用户对该语音交互体验的评价，用于评估用户与智能终端之间的语音交互体验。比如，该交互体验反馈信息可以包括：应答语音的音量过大、应答语音的音量合适或者应答语音的音量过小。

其中，在一些实施例中，该交互体验反馈信息可以由用户输入智能终端，比如，在进行语音交互的过程中，或者，结束语音交互之后，用户针对该次语音交互体验输入交互体验反馈信息，以便智能终端及时调整播放应答语音的音量，进一步提升用户体验。

或者，在另一些实施例中，该交互体验反馈信息也可以由智能终端通过合适的方式对语音交互体验进行评估，进而根据评估结果得到该交互体验反馈信息。比如，智能终端可以通过评估用户与智能终端之间的交互效果，用户是否能够正确理解应答语音的内容，或者，用户在交互的过程中的面部表情变化等确定用户是否听清楚智能终端播放的应答语音。

步骤270：根据所述交互体验反馈信息调整播放所述应答语音的音量。

在本实施例中，在获取到交互体验反馈信息时，根据该交互体验反馈信息调整播放该应答语音的音量。比如，在获取到“应答语音的音量过大”的交互体验反馈信息时，降低播放该应答语音的音量；在获取到“应答语音的音量合适”的交互体验反馈信息时，维持播放该应答语音的音量不变；在获取到“应答语音的音量过小”的交互体验反馈信息时，增大播放该应答语音的音量。

其中，可以理解的是，在本实施例中，该交互体验反馈信息可以是实时获取到的，从而，可以根据该交互体验反馈信息实时调整播放所述应答语音的音量。或者，该交互体验反馈信息也可以是完成该交互过程时获取到的，从而，智能终端可以在下一次与该用户进行语音交互时，根据该交互体验反馈信息调整播放应答语音的音量，和/或，合成应答语音的主频率。

其中，需说明的是，上述步骤210至250分别与如图2所示的语音交互方法中的步骤110至150具有相同的技术特征，因此，其具体实施方式可以参考上述实施例的步骤110至150中相应的描述，在本实施例中便不再赘述。

通过上述技术方案可知，本申请实施例的有益效果在于：本申请实施例提供的语音交互方法通过在以所确定的所述音量播放所述应答语音之后，获取用户的交互体验反馈信息，并根据所述交互体验反馈信息调整播放所述应答语音的音量，能够针对交互对象的特性不断改善语音交互效果，进一步提升用户体验。

图4是本申请实施例提供的一种语音交互装置的结构示意图，该装置40可以运行在配置有语音交互功能的智能终端上，能够实现上述实施例提供的语音交互方法。

具体地，请参阅图4，该装置40可以包括但不限于：噪声检测单元41、主频率确定单元42、语音合成单元43、音量确定单元44以及播放单元45。

其中，噪声检测单元41用于当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；

主频率确定单元42，用于根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；

语音合成单元43用于基于所述主频率合成所述应答语音；

音量确定单元44用于根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；

播放单元45用于以所确定的所述音量播放所述应答语音。

在实际应用中，当接收到语音交互指令时，可以首先通过噪声检测单元41检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；然后通过主频率确定单元42根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，进而在语音合成单元43中基于所述主频率合成所述应答语音；接着，利用音量确定单元44根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；最后，通过播放单元45以所确定的所述音量播放所述应答语音。

其中，在一些实施例中，主频率确定单元42具体用于：确定所述噪声频率所处的临界频带；根据所述临界频带确定用于合成与所述语音交互指令对应的应答语音的主频率。

其中，在一些实施例中，音量确定单元44，包括：掩蔽量确定模块441和音量确定模块442。

其中，掩蔽量确定模块441用于根据所述噪声频率和所述应答语音的主频率确定掩蔽量；音量确定模块442用于根据所述噪声音量和所述掩蔽量确定播放所述应答语音的音量。具体地，在一些实施例中，掩蔽量确定模块441具体用于：如果所述噪声频率低于所述应答语音的主频率，则确定所述掩蔽量为第一掩蔽量；如果所述噪声频率高于所述应答语音的主频率，则确定所述掩蔽量为第二掩蔽量；所述第一掩蔽量大于所述第二掩蔽量。

其中，在一些实施例中，当所述语音交互指令由语音控制信息触发时，播放单元45具体用于：获取接收到基于所述语音控制信息触发的所述语音交互指令的时间节点；在间隔所述时间节点预设时长后，以所确定的所述音量播放所述应答语音。

其中，在一些实施例中，该装置40还包括：反馈单元46和音量调整单元 47。

反馈单元46用于获取交互体验反馈信息；

音量调整单元47用于根据所述交互体验反馈信息调整播放所述应答语音的音量。

其中，需要说明的是，由于所述语音交互装置与上述方法实施例中的语音交互方法基于相同的发明构思，因此，上述方法实施例的相应内容以及有益效果同样适用于本装置实施例，此处不再详述。

通过上述技术方案可知，本申请实施例的有益效果在于：本申请实施例提供的语音交互装置通过在接收到语音交互指令时，由噪声检测单元41检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率，然后通过主频率确定单元42根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，进而在语音合成单元43中基于所述主频率合成所述应答语音；接着，利用音量确定单元44根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；最后，通过播放单元45以所确定的所述音量播放所述应答语音，能够基于声音的掩蔽效应，根据当前的交互环境的噪声信息动态调整其应答语音的主频率和播放音量，使得用户在任意交互环境下都可以获得较好的语音交互体验。

图5是本申请实施例提供的一种智能终端的结构示意图，该智能终端500可以是任意类型的电子设备，如：智能手机、机器人、个人电脑、可穿戴智能设备、智能家电等，能够执行上述方法实施例提供的语音交互方法，或者，运行上述装置实施例提供的语音交互装置。

具体地，请参阅图5，该智能终端500包括：

一个或多个处理器501以及存储器502，图5中以一个处理器501为例。

处理器501和存储器502可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器502作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本申请实施例中的语音交互方法对应的程序指令/模块(例如，附图4所示的噪声检测单元41、主频率确定单元42、语音合成单元43、音量确定单元44、播放单元45、反馈单元46和音量调整单元47)。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块，从而执行语音交互装置40的各种功能应用以及数据处理，即实现上述任一方法实施例的语音交互方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音交互装置40的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至智能终端500。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器502中，当被所述一个或者多个处理器501执行时，执行上述任意方法实施例中的语音交互方法，例如，执行以上描述的图2中的方法步骤110至150，图3中的方法步骤210至270，实现图4中的单元41-47的功能。

本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，被图5中的一个处理器501执行，可使得上述一个或多个处理器执行上述任意方法实施例中的语音交互方法，例如，执行以上描述的图2中的方法步骤110至150，图3中的方法步骤210至270，实现图4中的单元41-47的功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序产品中的计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非暂态计算机可读取存储介质中，该计算机程序包括程序指令，当所述程序指令被智能终端执行时，可使所述智能终端执行上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

上述产品(包括：智能终端、非暂态计算机可读存储介质以及计算机程序产品)可执行本申请实施例所提供的语音交互方法，具备执行语音交互方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的语音交互方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种语音交互方法，应用于智能终端，其特征在于，包括：

当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；

根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；

基于所述主频率合成所述应答语音；

根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；

以所确定的所述音量播放所述应答语音。
根据权利要求1所述的语音交互方法，其特征在于，所述根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率，包括：

确定所述噪声频率所处的临界频带；

根据所述临界频带确定用于合成与所述语音交互指令对应的应答语音的主频率。
根据权利要求1所述的语音交互方法，其特征在于，所述根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量，包括：

根据所述噪声频率和所述应答语音的主频率确定掩蔽量；

根据所述噪声音量和所述掩蔽量确定播放所述应答语音的音量。
根据权利要求3所述的语音交互方法，其特征在于，所述根据所述噪声频率和所述应答语音的主频率确定掩蔽量，包括：

如果所述噪声频率低于所述应答语音的主频率，则确定所述掩蔽量为第一掩蔽量；

如果所述噪声频率高于所述应答语音的主频率，则确定所述掩蔽量为第二掩蔽量；

所述第一掩蔽量大于所述第二掩蔽量。
根据权利要求1-4任一项所述的语音交互方法，其特征在于，所述以所确定的所述音量播放所述应答语音的步骤之后，还包括：

获取交互体验反馈信息；

根据所述交互体验反馈信息调整播放所述应答语音的音量。
根据权利要求1-4任一项所述的语音交互方法，其特征在于，当所述语音交互指令由语音控制信息触发时，所述以所确定的所述音量播放所述应答语音，包括：

获取接收到基于所述语音控制信息触发的所述语音交互指令的时间节点；

在间隔所述时间节点预设时长后，以所确定的所述音量播放所述应答语音。
一种语音交互装置，运行于智能终端，其特征在于，包括：

噪声检测单元，用于当接收到语音交互指令时，检测当前交互环境的噪声信息，所述噪声信息包括噪声音量和噪声频率；

主频率确定单元，用于根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率；

语音合成单元，用于基于所述主频率合成所述应答语音；

音量确定单元，用于根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量；

播放单元，用于以所确定的所述音量播放所述应答语音。
根据权利要求7所述的语音交互装置，其特征在于，所述主频率确定单元具体用于：

确定所述噪声频率所处的临界频带；

根据所述临界频带确定用于合成与所述语音交互指令对应的应答语音的主频率。
根据权利要求7所述的语音交互装置，其特征在于，所述音量确定单元，包括：

掩蔽量确定模块，用于根据所述噪声频率和所述应答语音的主频率确定掩蔽量；

音量确定模块，用于根据所述噪声音量和所述掩蔽量确定播放所述应答语音的音量。
根据权利要求9所述的语音交互装置，其特征在于，所述掩蔽量确定模块具体用于：

如果所述噪声频率低于所述应答语音的主频率，则确定所述掩蔽量为第一掩蔽量；

如果所述噪声频率高于所述应答语音的主频率，则确定所述掩蔽量为第二掩蔽量；

所述第一掩蔽量大于所述第二掩蔽量。
根据权利要求7-10任一项所述的语音交互装置，其特征在于，所述语音交互装置还包括：

反馈单元，用于获取交互体验反馈信息；

音量调整单元，用于根据所述交互体验反馈信息调整播放所述应答语音的音量。
根据权利要求7-10任一项所述的语音交互装置，其特征在于，当所述语音交互指令由语音控制信息触发时，所述播放单元具体用于：

获取接收到基于所述语音控制信息触发的所述语音交互指令的时间节点；

在间隔所述时间节点预设时长后，以所确定的所述音量播放所述应答语音。
一种智能终端，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使智能终端执行如权利要求1-6任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被智能终端执行时，使所述智能终端执行如权利要求1-6任一项所述的方法。