WO2017000489A1

WO2017000489A1 - 车载语音指令识别方法、装置和存储介质

Info

Publication number: WO2017000489A1
Application number: PCT/CN2015/095269
Authority: WO
Inventors: 旬丽辉; 欧阳能钧; 穆向禹
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-07-02
Filing date: 2015-11-23
Publication date: 2017-01-05
Also published as: KR20170078788A; JP6458149B2; CN105070288A; EP3319081A4; KR101955958B1; JP2018503857A; EP3319081A1; US10446150B2; US20180190283A1; CN105070288B

Abstract

一种车载语音指令识别方法、装置和存储介质。所述方法包括：获取用户输入的语音指令（S11）；根据预先训练的深层神经网络DNN模型确定用户的基本信息（S12）；根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图（S13）；根据所述DNN模型确定用户可能意图的置信度（S14）；根据所述置信度从所述用户可能意图中确定用户真实意图（S15）；根据所述用户真实意图执行对应的动作（S16）。所述车载语音指令识别方法、装置和存储介质能够有效的提高语音指令的正确识别率。

Description

车载语音指令识别方法、装置和存储介质

本专利申请要求于2015年07月02日提交的，申请号为201510382215.9，申请人为百度在线网络技术(北京)有限公司，发明名称为“车载语音指令识别方法和装置”的中国专利申请的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本发明实施例涉及计算机数据处理技术领域，尤其涉及一种车载语音指令识别方法、装置和存储介质。

背景技术

汽车工业的发展以及电子市场的成熟，车载智能终端逐渐成为汽车重要的配套设备。近年来，经济的繁荣也促使国内的汽车数量急剧增加，人们的出行习惯也随之发生变化，人车共处的时间越来越长。因此，车载智能终端的功能也从简单的行车导航向多功能的方向改变。

在新近发展出的众多功能中，语音指令的识别和执行十分引人注目。然而，现有的车载智能终端由于自身配备的指令集有限，经常对用户的语音指令不能准确识别。比如，对于普通话的语音指令，目前的车载智能终端的识别率还比较高，但是对于各种方言识别率则较低。由于对于用户的不同语音的适应性不强，识别率不高，造成用户的使用障碍。这样，用户真正使用车载智能终端的语音指令识别功能的比率很低。

发明内容

针对上述技术问题，本发明实施例提供了一种车载语音指令识别方法、装置和存储介质，以提高语音指令的正确识别率。

第一方面，本发明实施例提供了一种车载语音指令识别方法，所述方法包括：

获取用户输入的语音指令；

根据预先训练的深层神经网络DNN模型确定用户的基本信息；

根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图；

根据所述DNN模型确定用户可能意图的置信度；

根据所述置信度从所述用户可能意图中确定用户真实意图；

根据所述用户真实意图执行对应的动作。

第二方面，本发明实施例还提供了一种车载语音指令识别装置，所述装置包括：

指令获取模块，用于获取用户输入的语音指令；

基本信息确定模块，用于根据预先训练的深层神经网络DNN模型确定用户的基本信息；

意图识别模块，用于根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图；

置信度确定模块，用于根据所述DNN模型确定用户可能意图的置信度；

意图确定模块，用于根据所述置信度从所述用户可能意图中确定用户真实意图；

动作执行模块，用于根据所述用户真实意图执行对应的动作。

第三方面，本发明实施例提供了一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种车载语音指令识别方法，所述方法包括以下步骤：

获取用户输入的语音指令；

根据预先训练的深层神经网络DNN模型确定用户的基本信息；

根据所述DNN模型确定用户可能意图的置信度；

根据所述置信度从所述用户可能意图中确定用户真实意图；

根据所述用户真实意图执行对应的动作。

本发明实施例提供的车载语音指令识别方法、装置和存储介质，通过利用深层神经网络DNN模型获取用户的基本信息，根据用户输入语音指令时的场景页面上下文判断用户可能意图，利用所述深层神经网络DNN模型计算所述可能意图的置信度，并最后根据该置信度确认用户真实意图，执行相应的操作，有效的提高了用户的语音指令的正确识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，当然，以下描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以对这些附图进行修改和替换。

图1是本发明第一实施例提供的车载语音指令识别方法的流程图；

图2是本发明第二实施例提供的车载语音指令识别方法中基本信息确定的流程图；

图3是本发明第三实施例提供的车载语音指令识别方法的流程图；

图4是本发明第四实施例提供的车载语音指令识别方法的流程图；

图5是本发明第五实施例提供的车载语音指令识别方法中置信度确定的流程图；

图6是本发明第六实施例提供的车载语音指令识别方法中意图确定的流程图；

图7是本发明第七实施例提供的车载语音指令识别方法中动作执行的流程图；

图8是本发明第八实施例提供的车载语音指令识别方法的流程示意图；

图9是本发明第九实施例提供的车载语音指令识别装置的结构图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，是为了阐述本发明的原理，而不是要将本发明限制于这些具体的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

本实施例提供了车载语音指令识别方法的一种技术方案。本技术方案可以由车载语音指令识别装置来执行。所述车载语音指令识别装置可以集成在网络侧的服务器内。所述服务器通过互联网接收用户在车机上输入的语音指令，对所接收到的语音指令进行处理，并根据处理的结果，通过互联网指示车机下一步执行的动作。所述车载语音指令识别装置也可以集成在终端侧的计算设备内。此时，所述计算设备对所述语音指令的获取不需要通过互联网。

具体的，参见图1，所述车载语音指令识别方法包括：

S11，获取用户输入的语音指令。

随着车联网概念的兴起，汽车内一般都有具有网络连接功能的车机，用户可以通过汽车内部配备的车机输入语音指令。所述语音指令可以指明用户需要车机执行的下一步操作。例如，如果所述语音指令是：“重温周杰伦的歌曲”，则车机下一步应该执行播放所有周杰伦的歌曲的动作。

S12，根据预先训练的深层神经网络(Deep neutral network，DNN)模型确定用户的基本信息。

在本实施例中，需要根据用户的输入语音确定用户的一些基本信息。所述基本信息包括：输入语音指令的时间、输入语音指令的地点、执行语音执行输入动作的用户的年龄、性别、籍贯，甚至是职业。

为了统一对上述基本信息的存储和解析，定义了用户的“画像”。所述“画像”是用来存储上述基本信息的一种简档式的数据结构。用户的每一种基本信息的属性，被作为所述“画像”的一个字段存储起来。

为了根据用户的输入语音确定用户的基本信息，需要预先训练一个DNN模型。在训练的过程中，可以将训练语音中的过零率、短时能量、倒谱系数和基频等特征作为训练语音的特征参数提取出来，并作为输入参数输入至所述DNN模型，并根据所述DNN模型的输出参数与所述训练语音的标注参数之间的差异来确定所述DNN模型的模型参数。训练完成之后，当接收到用户输入的一段输入语音之后，所述DNN模型能够根据所述输入语音的特征准确的判断用户的年龄、性别、籍贯、职业等基本信息。

S13，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图。

对所述语音指令执行的内容识别是对所述语音指令的语音识别。而对所述语音指令的语音识别是参考用户的基本信息进行的语音识别。例如，可以参考用户的籍贯属性，以及用户的籍贯对应的地区的口音特点，对用户的语音指令进行语音识别。

完成了对所述语音指令的内容识别之后，进一步的对所述语音指令确定用户可能意图。所述用户可能意图是用户输入所述语音指令时的可能的目的。所述用户可能意图对应于车机下一步应该执行的至少一个操作。例如，对所述语音指令“重温周杰伦的歌曲”进行意图识别所得到的用户可能意图，会对应于车机的选取周杰伦的歌曲，以及播放被选择的歌曲的操作。

S14，根据所述DNN模型确定用户可能意图的置信度。

在针对用户的输入语音确定了至少一个用户可能意图之后，根据所述DNN模型确定每个用户可能意图的置信度。进一步的，可以通过分析对所述语音指令进行内容识别的结果，并将该结果输入至所述DNN模型，得到不同的用户可能意图的置信度。

S15，根据所述置信度从所述用户可能意图中确定用户真实意图。

可以理解的是，经过置信度确定的操作之后，不同的用户可能意图对应于不同的置信度。此时，从所述用户可能意图中选择置信度与预先确定的置信度区间之间的匹配度最高的一个用户可能意图，作为所述语音指令所对应的用户真实意图。

S16，根据所述用户真实意图执行对应的动作。

确定了用户真实意图后，执行与所述真实意图相对应的动作。所述动作可以是播放语音、播放视频、显示图片、打开网页等。

本实施例通过获取用户输入的语音指令，根据预先训练的深层神经网络DNN模型确定用户的基本信息，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图，根据所述DNN模型确定用户可能意图的置信度，根据所述置信度从所述用户可能意图中确定用户真实意图，以及根据所述真实意图执行对应的动作，有效的提高了语音指令的正确识别率。

第二实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法中基本信息确定的一种技术方案。在该技术方案中，根据预先训练的深层神经网络DNN模型确定用户的基本信息包括：从所述语音指令中提取语音特征参数，其中，所述语音特征参数包括下述至少一项：过零率、短时能量、倒谱系数以及基频；将所述语音特征参数、所述位置以及所述时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息，其中，所述基本信息包括下述至少一项：用户的性别、年龄、籍贯以及职业。

参见图2，根据预先训练的DNN模型确定用户的基本信息包括：

S21，从所述语音指令中提取语音特征参数。

可以从用户输入的语音指令中提取到若干语音特征参数。所述语音特征参数包括：过零率、短时能量、倒谱系数、基频中的至少一个。从所述语音指令中提取的语音特征参数可以作为所述语音指令的特征而被输入至所述DNN模型。

S22，将所述语音特征参数、位置以及时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息。

所述DNN是一个根据DNN理论而预先训练得到的，用于判断用户的基本信息的模型。所述基本信息包括：用户的性别、年龄、籍贯以及职业。

所述DNN有输入层、隐藏层以及输出层组成。所述输入层用于输入参数的接收；所述输出层用于输出运算结果；所述隐藏层用于根据所述输入参数的取值，计算所述运算结果。

所述输入参数包括：语音特征参数、语音指令输入时用户所在的位置以及输入所述语音指令的时间。在将所述输入参数输入至所述DNN之后，根据所述输入层、隐藏层以及输出层的计算，可以得到对用户的基本信息的判断结果。

进一步优选的，所述输入参数还可以包括：被叫用户识别号(Called user identification number，CUID)。所述CUID在确定用户的性别、年龄等基本信息时具有重要的参考价值。

本实施例通过从所述语音指令中提取语音特征参数，以及将所述语音特征参数、所述位置以及所述时间作为所述DNN的输入参数，并根据所述DNN的输入参数确定用户的基本信息，实现了通过DNN对用户的基本信息的判断。

第三实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法的一种技术方案。在该技术方案中，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图包括：获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

参见图3，所述车载语音指令识别方法包括：

S31，获取用户输入的语音指令。

S32，根据预先训练的深层神经网络DNN模型确定用户的基本信息。

S33，获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

可以通过设置会话(Session)对象，并在所述Session对象中存储用户输入所述语音指令之前预定长度的时间段内出现过的页面，以及用户在所述出现过的页面上的停留时间。需要判断用户可能意图时，从所述Session对象中获取用户输入所述语音指令之前预定长度的时间段内出现过的页面，用户在各个页面上的停留时间，并结合对所述语音指令的识别语料，综合判断用户可能意图。

比如，根据经验，如果在3分钟的预定长度的时间段内出现过的页面是地图导航页面，用户在地图导航页面上的停留时间是3分钟，并且所述识别语料中包含关键词“导航”，用户的实际意图很可能是重新规划导航线路，则出现上述情况时，可以将重新规划导航线路判定为用户可能意图。

S34，根据所述DNN模型确定用户可能意图的置信度。

S35，根据所述置信度从所述用户可能意图中确定用户真实意图。

S36，根据所述用户真实意图执行对应的动作。

本实施例通过在确定用户的基本信息之后，获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图，实现了对用户可能意图的准确判断。

第四实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法的一种技术方案。在该技术方案中，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图包括：获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

参见图4，所述车载语音指令识别方法包括：

S41，获取用户输入的语音指令。

S42，根据预先训练的深层神经网络DNN模型确定用户的基本信息。

S43，获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

与本发明第三实施例相同，可以通过设置Session对象，并在所述Session 对象中存储输入所述语音指令之前预定数量的出现过的页面，以及用户在所述出现过的页面上的停留时间。需要判断用户可能意图时，从所述Session对象中获取之前存储的页面以及停留时间参数，并结合所述语音指令的识别语料，综合判断用户可能的意图。

举例来说，在输入语音指令之前出现过的两个页面分别是音乐播放页面以及地图导航页面。用户在音乐播放页面及地图导航页面上的停留时间分别是3分钟及2至10分钟，并且所述识别语料中包含关键词“导航”。根据经验，这种情况下用户的实际意图很可能是重新规划导航线路。则当出现上述情况时，可以判断用户可能意图为重新规划导航线路。

S44，根据所述DNN模型确定用户可能意图的置信度。

S45，根据所述置信度从所述用户可能意图中确定用户真实意图。

S46，根据所述用户真实意图执行对应的动作。

本实施例通过在确定了用户的基本信息之后，获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图，实现了对用户可能意图的准确判断。

第五实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法中置信度确定的一种技术方案。在该技术方案中，根据所述DNN模型确定用户可能意图的置信度包括：将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态；根据所述情绪状态获取所述用户可能意图的置信度。

参见图5，根据所述DNN模型确定用户可能意图的置信度包括：

S51，将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态。

所述DNN模型不仅能够用于确定用户的基本信息，在确定可能意图的置信度时，还可以被用于评估用户输入所述语音指令时的情绪状态。

具体的，可以预先定义若干个用户可能的情绪状态。比如，用户的情绪状态可能包括：高兴、伤心、愤怒等。确定了用户的情绪状态之后，在所述DNN模型的输出层上设置不同情绪状态所对应的输出单元。这样，在完成了所述DNN的训练之后，所述DNN就可以被用于情绪状态的评估。

S52，根据所述情绪状态获取所述用户可能意图的置信度。

具体的，可以根据经验值指定用户的不同情绪状态所对应的置信度的取值。比如，可以根据经验指定高兴的情绪状态下，所述置信度的取值为最高，指定伤心的情绪状态下，所述置信度的取值为最低。

本实施例通过将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态，以及根据所述情绪状态获取所述可能意图的置信度，从而利用DNN模型对用户输入语音指令时的情绪状态进行了评估，并进一步的根据所述情绪状态确定了用户可能意图的置信度。

第六实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法中置信度确定的一种技术方案。在该技术方案中，根据所述置信度从所述用户可能意图中确定用户真实意图包括：将所述置信度与所述用户可能意图对应的置信度区间进行匹配；将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。

参见图6，根据所述置信度从所述用户可能意图中确定用户真实意图包括：

S61，将所述置信度与所述用户可能意图对应的置信度区间进行匹配。

不同的可能意图对应有相应的置信度区间。比如，意图“重新规划导航线路”可能的置信度区间在0.45至0.6之间。预先采集各个可能意图所对应的置信度区间，并且在得到所述语音指令所对应的可能意图以及所述可能意图的置信度之后，将所述置信度与各个采集到的置信度区间进行匹配。

进一步优选的，可能的意图，也即用户可能意图，还可能还附带有其对应的参数。比如，“改变播放模式”的意图可能附带的参数包括：循环播放、顺序播放、随机播放等目标播放模式。此时，应当将每一个附带的参数作为一个独立的方案，单独采集其对应的置信度区间，并在获取到所述置信度之后，将所述置信度与单独采集的置信度区间进行匹配。

S62，将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。

经过置信度区间的匹配之后，将匹配程度最高的置信度区间对应的可能意图作为用户真实意图。

本实施例通过将所述置信度与所述用户可能意图对应的置信度区间进行匹配，以及将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图，从而实现了根据置信度参数的用户真实意图的识别。

第七实施例

本实施例以本发明的上述实施例为基础，进一步的提供了所述车载语音指令识别方法中意图确定的一种技术方案。在该技术方案中，根据所述用户真实意图执行对应的动作包括：若所述用户真实意图的执行条件成立，则执行所述用户真实意图对应的动作；若所述用户真实意图的执行条件不成立，终止对所述用户真实意图对应的动作的执行，并且提示用户；若所述用户真实意图的执行条件不确定，执行与所述用户真实意图相类似的动作。

参见图7，根据所述用户真实意图执行对应的动作包括：

S71，若所述用户真实意图的执行条件成立，则执行所述用户真实意图对应的动作。

在确定了用户真实意图之后，是否执行所述真实意图对应的动作取决于所述真实意图的执行条件是否成立。比如，真实意图是“查看微信”，则其对应的执行条件应该是在停车的状态下。如果接收到语音指令，并识别出真实意图“查看微信”的时间是在停车状态中，则执行所述真实意图对应的动作，即查看微信。

S72，若所述用户真实意图的执行条件不成立，终止对所述用户真实意图对应的动作的执行，并且提示用户。

以“查看微信”的真实意图为例，如果接收到语音指令，并识别出真实意图“查看微信”的时间是在行车状态中，则不执行查看微信的动作，并且以消息的方式提示用户在当前状态下执行该动作的危险性。

S73，若所述用户真实意图的执行条件不确定，执行与所述用户真实意图相类似的动作。

当用户的情绪状态不好，或者用户真实意图判断不清楚的条件下，对用户真实意图的执行条件的识别可能会不确定。此时，应该执行与所述用户真实意图相类似的动作，但是，务必要保证所述类似的动作是安全的动作。

本实施例通过在所述用户真实意图的执行条件成立时，执行所述用户真实意图对应的动作，在所述用户真实意图的执行条件不成立时，终止对所述用户真实意图对应的动作的执行，以及在所述用户真实意图的执行条件不确定是，执行与所述用户真实意图相类似的动作，从而通过对执行条件的再次确认，保证了所执行的动作的安全性。

第八实施例

本实施例提供了所述车载语音指令识别方法的一种技术方案。在该技术方案中，所述车载语音指令识别方法包括：判断用户的基本信息；根据Session处理，获取用户可能意图；根据意图置信度处理，获取用户的不同可能意图的置信度；根据安全处理，确定应该执行的动作；根据综合判断的结果，确定是否执行相应的动作。

参见图8，所述车载语音指令识别方法包括：

S81，判断用户的基本信息。

本实施例中，通过预先训练的DNN识别用户的基本信息。所述基本信息包括用户的年龄、性别、籍贯、职业等。

S82，根据Session处理，获取用户可能意图。

根据利用Session对象存储用户在发出语音指令之前曾经使用过的页面，获取用户可能意图。

S83，根据意图置信度处理，获取用户的不同可能意图的置信度。

在本实施例中，同样根据预先训练的DNN识别不同的可能意图的置信度。

S84，根据安全处理，确定应该执行的动作。

通过对汽车当前状态的识别，确定需要执行的动作是否是安全动作，从而进一步的确定应该执行的动作。

S85，根据综合判断的结果，确定是否执行相应的动作。

通过对前面几个步骤的结果进行综合判断，确定是否应该执行相应的动作。

本实施例通过判断用户的基本信息，根据Session处理，获取用户可能意图，根据意图置信度处理，获取用户的不同可能意图的置信度，根据安全处理，确定应该执行的动作，以及根据综合判断的结果，确定是否执行相应的动作，从而完成了从语音指令的获取，到相应动作的执行的全过程。

第九实施例

本实施例提供了车载语音指令识别装置的一种技术方案。在该技术方案中，所述车载语音执行识别装置包括：指令获取模块91、基本信息确定模块92、意图识别模块93、置信度确定模块94以及动作执行模块96。

所述指令获取模块91用于获取用户输入的语音指令。

所述基本信息确定模块92用于根据预先训练的深层神经网络DNN模型确定用户的基本信息。

所述意图识别模块93用于根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图。

所述置信度确定模块94用于根据所述DNN模型确定用户可能意图的置信度。

所述意图确定模块95用于根据所述置信度从所述用户可能意图中确定用户真实意图。

所述动作执行模块96用于根据所述用户真实意图执行对应的动作。

进一步的，所述基本信息确定模块92包括：特征提取单元以及DNN识别单元。

所述特征提取单元用于从所述语音指令中提取语音特征参数，其中，所述语音特征参数包括下述至少一项：过零率、短时能量、倒谱系数以及基频。

所述DNN识别单元用于将所述语音特征参数、所述位置以及所述时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息，其中，所述基本信息包括下述至少一项：用户的性别、年龄、籍贯以及职业。

进一步的，所述意图识别模块93包括：第一意图识别单元或者第二意图识别单元。

所述第一意图识别单元用于获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

所述第二意图识别单元用于获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

进一步的，所述置信度确定模块94包括：情绪评估单元以及置信度获取单元。

所述情绪评估单元用于将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态。

所述置信度获取单元用于根据所述情绪状态获取所述用户可能意图的置信度。

进一步的，所述意图确定模块95包括：匹配单元以及真实意图获取单元。

所述匹配单元用于将所述置信度与所述用户可能意图对应的置信度区间进行匹配。

所述真实意图获取单元用于将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。

进一步的，所述动作执行模块96包括：第一动作执行单元、第二动作执行单元以及第三动作执行单元。

所述第一动作执行单元用于当所述用户真实意图的执行条件成立之时，执行所述用户真实意图对应的动作。

所述第二动作执行单元用于当所述用户真实意图的执行条件不成立之时，终止对所述用户真实意图对应的动作的执行，并且提示用户。

所述第三动作执行单元用于当所述用户真实意图的执行条件不确定之时，执行与所述用户真实意图相类似的动作。

上述图片搜索装置可执行本发明任意实施例所提供的图片搜索方法，具备执行方法相应的功能模块和有益效果。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

第十实施例

一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种车载语音指令识别方法，其特征在于，所述方法包括以下步骤：

获取用户输入的语音指令；

根据预先训练的深层神经网络DNN模型确定用户的基本信息；

根据所述DNN模型确定用户可能意图的置信度；

根据所述置信度从所述用户可能意图中确定用户真实意图；

根据所述用户真实意图执行对应的动作。

上述存储介质在执行所述方法时，根据预先训练的深层神经网络DNN模型确定用户的基本信息包括：

从所述语音指令中提取语音特征参数，其中，所述语音特征参数包括下述至少一项：过零率、短时能量、倒谱系数以及基频；

将所述语音特征参数、位置以及时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息，其中，所述基本信息包括下述至少一项：用户的性别、年龄、籍贯以及职业。

上述存储介质在执行所述方法时，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图包括：

获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图；或者

获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。

上述存储介质在执行所述方法时，根据所述DNN模型确定用户可能意图的置信度包括：

将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态；

根据所述情绪状态获取所述用户可能意图的置信度。

上述存储介质在执行所述方法时，根据所述置信度从所述用户可能意图中确定用户真实意图包括：

将所述置信度与所述用户可能意图对应的置信度区间进行匹配；

将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。

上述存储介质在执行所述方法时，根据所述用户真实意图执行对应的动作包括：

若所述用户真实意图的执行条件成立，则执行所述用户真实意图对应的动作；

若所述用户真实意图的执行条件不成立，终止对所述用户真实意图对应的动作的执行，并且提示用户；

若所述用户真实意图的执行条件不确定，执行与所述用户真实意图相类似的动作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通过硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式，基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述车载语音指令识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限定本发明的保护范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围以所述权利要求的保护范围为准。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

Claims

一种车载语音指令识别方法，其特征在于，包括：

获取用户输入的语音指令；

根据预先训练的深层神经网络DNN模型确定用户的基本信息；

根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图；

根据所述DNN模型确定用户可能意图的置信度；

根据所述置信度从所述用户可能意图中确定用户真实意图；

根据所述用户真实意图执行对应的动作。
根据权利要求1所述的方法，其特征在于，根据预先训练的深层神经网络DNN模型确定用户的基本信息包括：

从所述语音指令中提取语音特征参数，其中，所述语音特征参数包括下述至少一项：过零率、短时能量、倒谱系数以及基频；

将所述语音特征参数、位置以及时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息，其中，所述基本信息包括下述至少一项：用户的性别、年龄、籍贯以及职业。
根据权利要求1所述的方法，其特征在于，根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图包括：

获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图；或者

获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。
根据权利要求1所述的方法，其特征在于，根据所述DNN模型确定用户可能意图的置信度包括：

将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态；

根据所述情绪状态获取所述用户可能意图的置信度。
根据权利要求1所述的方法，其特征在于，根据所述置信度从所述用户可能意图中确定用户真实意图包括：

将所述置信度与所述用户可能意图对应的置信度区间进行匹配；

将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。
根据权利要求1所述的方法，其特征在于，根据所述用户真实意图执行对应的动作包括：

若所述用户真实意图的执行条件成立，则执行所述用户真实意图对应的动作；

若所述用户真实意图的执行条件不成立，终止对所述用户真实意图对应的动作的执行，并且提示用户；

若所述用户真实意图的执行条件不确定，执行与所述用户真实意图相类似的动作。
一种车载语音指令识别装置，其特征在于，包括：

指令获取模块，用于获取用户输入的语音指令；

基本信息确定模块，用于根据预先训练的深层神经网络DNN模型确定用户的基本信息；

意图识别模块，用于根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图；

置信度确定模块，用于根据所述DNN模型确定用户可能意图的置信度；

意图确定模块，用于根据所述置信度从所述用户可能意图中确定用户真实意图；

动作执行模块，用于根据所述用户真实意图执行对应的动作。
根据权利要求7所述的装置，其特征在于，所述基本信息确定模块包括：

特征提取单元，用于从所述语音指令中提取语音特征参数，其中，所述语音特征参数包括下述至少一项：过零率、短时能量、倒谱系数以及基频；

DNN识别单元，用于将所述语音特征参数、位置以及时间作为所述DNN的输入参数，并根据所述DNN的输出参数确定用户的基本信息，其中，所述基本信息包括下述至少一项：用户的性别、年龄、籍贯以及职业。
根据权利要求7所述的装置，其特征在于，所述意图识别模块包括：

第一意图识别单元，用于获取用户输入所述语音指令之前预定长度时间段内出现过的页面，并根据所述预定长度时间段内出现过的页面、各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图；或者

第二意图识别单元，用于获取用户输入所述语音指令之前预定数量的出现过的页面，并根据所述预定数量的出现过的页面，各个页面的停留时间以及所述语音指令中关键的识别语料判断用户可能意图。
根据权利要求7所述的装置，其特征在于，所述置信度确定模块包括：

情绪评估单元，用于将所述语音指令的语音特征参数作为输入参数，利用所述DNN模型评估用户输入所述语音指令时的情绪状态；

置信度获取单元，用于根据所述情绪状态获取所述用户可能意图的置信度。
根据权利要求7所述的装置，其特征在于，所述意图确定模块包括：

匹配单元，用于将所述置信度与所述用户可能意图对应的置信度区间进行匹配；

真实意图获取单元，用于将与所述置信度匹配程度最高的置信度区间对应的用户可能意图作为用户真实意图。
根据权利要求7所述的装置，其特征在于，所述动作执行模块包括：

第一动作执行单元，用于当所述用户真实意图的执行条件成立之时，执行所述用户真实意图对应的动作；

第二动作执行单元，用于当所述用户真实意图的执行条件不成立之时，终止对所述用户真实意图对应的动作的执行，并且提示用户；

第三动作执行单元，用于当所述用户真实意图的执行条件不确定之时，执行与所述用户真实意图相类似的动作。
一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种车载语音指令识别方法，其特征在于，所述方法包括以下步骤：

获取用户输入的语音指令；

根据预先训练的深层神经网络DNN模型确定用户的基本信息；

根据所述用户的基本信息对语音指令进行内容识别，并根据识别的内容以及用户输入所述语音指令的场景页面上下文确定至少一个用户可能意图；

根据所述DNN模型确定用户可能意图的置信度；

根据所述置信度从所述用户可能意图中确定用户真实意图；

根据所述用户真实意图执行对应的动作。