WO2020211006A1

WO2020211006A1 - 语音识别方法、装置、存储介质及电子设备

Info

Publication number: WO2020211006A1
Application number: PCT/CN2019/083012
Authority: WO
Inventors: 史晓峰
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2020-10-22
Also published as: CN113330511B; CN113330511A

Abstract

本申请公开了一种语音识别方法，使得电子设备在输入的语音数据之外，还协同语音数据对应的上下文数据作为语义意图理解相关的辅助数据，从而利用输入的语音数据及其对应的上下文数据共同完成对语义意图的识别，能够提高电子设备对语音数据进行意图识别的准确性。

Description

语音识别方法、装置、存储介质及电子设备

技术领域

本申请属于语音识别技术领域，尤其涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术

目前，随着语音识别技术的发展，用户可以通过语音的方式与手机、平板电脑等电子设备进行交互，比如，用户可以说出“我要听**歌曲”，则电子设备对用户的语音进行识别，并识别出用户想要听**歌曲的意图之后，即播放**歌曲。然而，相关技术在对语音数据进行意图识别时，容易识别错误。

发明内容

本申请实施例提供一种语音识别方法、装置、存储介质及电子设备，可以提高电子设备对语音数据进行意图识别的准确性。

第一方面，本申请实施例提供一种语音识别方法，应用于电子设备，包括：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。

第二方面，本申请实施例提供一种语音识别装置，应用于电子设备，包括：

文本获取模块，用于获取输入的语音数据，并将所述语音数据转换为文本数据；

语义识别模块，用于对所述文本数据进行语义识别，得到语义识别结果；

权重获取模块，用于获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

意图分类模块，用于根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行如下步骤：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

第四方面，本申请实施例提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的语音识别方法的一流程示意图。

图2是本申请实施例中将语音数据转换为文本数据的一示意图。

图3是本申请实施例中将语音数据转换为文本数据的另一示意图。

图4是本申请实施例提供的语音识别方法的另一流程示意图。

图5是本申请实施例提供的语音识别装置的结构示意图。

图6是本申请实施例提供的电子设备的一结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

请参照图1，图1是本申请实施例提供的语音识别方法的一流程示意图。该语音识别方法可以应用于电子设备。该语音识别方法的流程可以包括：

在101中，获取输入的语音数据，并将输入的语音数据转换为对应的文本数据。

本申请实施例中，电子设备可以预先获得采集用户语音数据的授权，从而能够获取用户输入的语音数据，并对用户输入的语音数据进行处理，以识别出用户真实的意图。其中，电子设备可以通过多种不同方式来获取用户输入的语音数据，比如，在电子设备未外接麦克风时，电子设备可以通过其内置的麦克风对用户发出的声音进行采集，从而得到用户输入的语音数据；又比如，在电子设备外接有麦克风(可以是有线连接的麦克风，也可以是无线连接的麦克风)时，电子设备可以通过其外接的麦克风对用户发出的声音进行采集，从而得到用户输入的语音数据。

其中，电子设备在通过麦克风采集用户的语音数据时，若麦克风为模拟麦克风，将采集到模拟的语音数据，电子设备需要对模拟的语音数据进行采样，将模拟的语音数据转换为数字化的语音数据，比如，可以16KHz的采样频率对模拟的语音数据进行采样，从而得到数字化的语音数据；此外，若麦克风为数字麦克风，电子设备将通过数字麦克风直接采集到数字化的语音数据，无需进行模数的转换。

本申请实施例中，电子设备在获取到用户输入的语音数据之后，进一步将该语音数据转换为文本数据，以进行后续的识别处理。其中，电子设备可以通过本地内置的语音解析引擎实现语音数据到文本数据的转换，也可以通过远端服务器提供的语音解析服务实现语音数据到文本数据的转换。

比如，电子设备内置有语音解析引擎，请参照图2，用户说出语音形式的“我要听XXX歌曲”，相应的，电子设备将获取到“我要听XXX歌曲”的语音数据，之后，电子设备将该语音数据输入到语音解析引擎进行解析，得到对应该语音数据的解析结果，即文本形式的“我要听XXX歌曲”，由此实现语音数据到文本数据的转换。

又比如，电子设备未内置有语音解析引擎，请参照图3，用户说出语音形式的“我要听XXX歌曲”，相应的，电子设备将获取到“我要听XXX歌曲” 的语音数据，之后，电子设备将该语音数据发送至语音解析服务器(语音解析服务器为提供语音解析服务的服务器)，指示语音解析服务器对语音数据进行语音解析；相应的，电子设备接收语音解析服务器所返回的对语音数据的语音解析结果，也即是语音数据所对应的文本数据。

在102中，对文本数据进行语义识别，得到语义识别结果。

本申请实施例中，电子设备在获取到用户输入的语音数据，并将该语音数据转换为对应的文本数据之后，进一步对转换得到的文本数据进行语义识别，得到对应的语义识别结果，该语义结果即在一定程度上反映了语义意图(或者说，用户的意图)，本申请实施例中，将语音识别结果作为用户的候选意图。

在103中，获取对应语音数据的上下文数据，并根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重。

其中，上下文数据可以理解为除了用户语音数据之外，能够在一定程度上反映语义意图的一些辅助数据，或者说与理解语义意图所相关的辅助数据，比如用户当前所处的场景、历史行为等等。

应当说明的是，本申请实施例中还预先训练有注意力网络，用于分配语义识别结果以及上下文数据与语义意图之间的注意力权重，其中，注意力权重越大，则说明对语义意图的影响越大。比如，假设语义识别结果对应的注意力权重为0.9，而上下文数据对应的注意力权重为0.1，则语义识别结果对语义意图的确定起决定性的作用；又比如，假设语义识别结果对应的注意力权重为0.5，上下文数据对应的注意力权重也为0.5，则语义识别结果和上下文数据对语义意图的确定起同等的作用。相应的，电子设备获取到用户输入的语音数据，并得到对应的语义识别结果之后，还获取对应用户输入的语音数据的上下文数据，并根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重。

应当说明的是，本申请实施例中对于注意力网络的训练不做具体限制，可由本领域普通技术人员根据实际需要进行。比如，可以预先获取包括多条训练样本的样本集，其中一条样本包括语音数据样本所对应的语义识别结果以及其对应的上下文数据样本，对于每条样本，根据专家知识标定其中语义识别结果即上下文数据所对应的注意力权重，然后将样本集划分为训练样本集和测试样本集，根据训练样本集训练注意力网络，根据测试样本集测试注意力网络的准确率，并相应调整注意力网络的参数，直至注意力网络的准确率达到预设准确率，完成注意力网络的训练。

在104中，根据语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语音数据的目标意图。

本申请实施例中，还预先训练有进行意图分类的语义意图分类器，该语义意图分类器可以采用深度学习或者其它方式建立，用于对输入的语音识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语义意图。相应的，电子设备在利用预先训练的注意力网络获取得到前述语义识别及其对应的上下文数据与语义意图之间的注意力权重之后，进一步将语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重输入到语义意图分类器进行语义意图的分类，并将语义意图分类器输出的语义意图作为用户的目标意图。

由上可知，本申请实施例中，电子设备首先获取输入的语音数据，并将输入的语音数据转换为对应的文本数据，之后对转换得到文本数据进行语义识别，得到语义识别结果，再获取对应语音数据的上下文数据，并根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重，最后根据语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语音数据的目标意图，相较于现有技术，本申请在输入的语音数据之外，还协同语音数据的上下文数据作为语义意图理解相关的辅助数据，共同完成对语义意图的识别，能够提高电子设备对语音数据进行意图识别的准确性。

在一实施例中，“对文本数据进行语义识别，得到语义识别结果”，包括：

(1)对文本数据进行向量化处理，得到对应的文本向量；

(2)将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果。

应当说明的是，本申请实施例中预先训练有语义识别模型，该语义识别模型的输入为向量形式的文本数据，输出为向量形式的语义识别结果。其中，语义识别模型所进行的语义识别实质为将一个向量编码为另一个向量，该语义识别模型的架构可以为双向长短期记忆网络，其包括两个隐含层，一个隐含层表示前向长短期记忆网络，另一个隐含层表示后向长短期记忆网络，可以利用反向传播算法进行训练。

相应的，在本申请实施例中，为了能够对语音数据转换得到的文本数据进行语义识别，首先就要对文本数据进行向量化处理，以得到对应的文本向量。其中，电子设备在对文本数据进行向量化处理时，可以通过预先训练的词嵌入模型将从文本数据映射到向量空间，得到对应文本向量。其中，词嵌入模型包括但不限于Word2vec模型、GloVe模型、FastText模型以及ELMo模型等，具体采用何种词嵌入模型实现对前述文本数据的向量化处理，可由本领域普通技术人员根据实际需要选取。

在完成对前述文本数据的向量化处理，并得到对应的文本向量之后，电子设备即将得到的文本向量输入到预先训练的语义识别模型进行语义识别，得到向量形式的语义识别结果。

在一实施例中，“将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果”之前，还包括：

根据预设的知识库对文本向量进行优化。

本申请实施例中，电子设备还利用预设的知识库对文本数据转换得到文本向量进行优化，使得文本向量能够携带有助于语义识别的辅助信息，从而够更好的实现语义识别。其中，知识库包括各种各样的知识，本申请实施例中对其体现形式不做具体限制，可以为知识图谱形式的知识库。

应当说明的是，知识图谱又称为科学知识图谱，其概念演化经过了语义网络、本体论、Web、语义网、链接数据等阶段。在通用意义上，知识图谱主要的目标是用来描述真实世界中存在的各种实体和概念，以及它们之间的关联关系。

在一实施例中，“根据预设的知识库对文本向量进行优化”包括：

(1)识别文本数据中包括的实体；

(2)确定知识库中与文本数据中包括的实体所对应的目标实体，并对目标实体进行向量化处理，得到对应的实体向量；

(3)将实体向量增加至文本向量中。

本申请实施例中，电子设备在根据预设的知识库对文本向量进行优化时，首先识别用户输入的语音数据所转换得到的文本数据中的实体，比如，文本数据为“我想听刘德华”，“刘德华”即为一个实体。

在识别出文本数据中包括的实体之后，电子设备进一步确定知识库中与文本数据中包括的实体所对应的目标实体，比如，文本数据中包括的实体为“刘德华”，根据知识库可以得知“刘德华”是一位歌手，则可确定文本数据中包括的实体“刘德华”在知识库中对应的目标实体为“歌手”。

在确定出知识库中与文本数据中包括的实体所对应的目标实体之后，对该目标实体进行向量化处理，得到对应的实体向量，并将该实体向量增加至文本向量中，实现对文本向量的优化。比如，可以将实体向量插入到文本向量中对应文本数据中包括的实体的向量之前，还可以将实体向量插入到文本向量中对应文本数据中包括的实体的向量之后。

其中，对目标实体的向量化处理可以参照以上对文本数据的向量化处理相应实施，此处不再赘述。

在一实施例中，“将输入的语音数据转换为对应的文本数据”之前，还包括：

(1)提取语音数据的声纹特征，并对声纹特征进行校验；

(3)若校验通过，则将语音数据转换为文本数据。

应当说明的是，在实际生活中，每个人说话时的声音都有自己的特点，熟悉的人之间，可以只听声音而相互辨别出来，这种声音的特点就是声纹特征。声纹特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。第二个决定声纹特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

本申请实施例中，还对语音数据的声纹特征进行校验，以确保语音识别的安全性。其中，电子设备在获取到用户输入的语音数据之后，先提取该语音数据所携带的声纹特征，然后对提取到的声纹特征进行校验，若校验通过，则将用户输入的语音数据转换为对应的文本数据。

其中，电子设备在对提取到的声纹特征进行校验时，可以将从前述语音数据中提取出的声纹特征与预设声纹特征进行比对，以判断该声纹特征是否与预设声纹特征匹配。其中，预设声纹特征可以为机主或者机主授权使用电子设备的其他用户所预先录入的声纹特征，判断输入的语音数据的声纹特征是否与预设声纹特征匹配，也即是判断当前输入语音数据的用户是否为机主或者机主授权使用电子设备的其他用户。

在从语音数据中提取到的声纹特征与预设声纹特征匹配时，电子设备确定当前输入语音数据的用户为机主或机主授权使用电子设备的其他用户，判定声纹特征校验通过，否则校验不通过。

其中，电子设备在判断从前述语音数据中提取的声纹特征是否与预设声纹特征匹配时，可以获取该声纹特征从前述语音数据中提取的声纹特征)与预设声纹特征的相似度，并判断获取到的相似度是否大于或等于预设相似度(可由本领域普通技术人员根据实际需要进行设置，比如，可以设置为95％)。其中，在获取到的相似度大于或等于预设相似度时，确定该声纹特征与预设声纹特征匹配，否则不匹配。

此外，电子设备校验前述声纹特征失败时，丢弃接收到的语音数据，并重新获取输入的语音数据。

在一实施例中，“获取对应语音数据的上下文数据”，包括：

(1)获取对应用户的用户画像信息、用户行为信息以及历史文本数据，以及获取当前场景信息，历史文本数据为用户输入的历史语音数据对应的文本数据；

(2)根据用户画像信息、用户行为信息、历史文本数据以及当前场景信息生成上下文数据。

应当说明的是，在本申请实施例中，电子设备还预先获得采集用户的用户画像信息、用户行为信息以及历史输入的历史语音数据的授权。

其中，用户画像信息是抽象出的用户的典型特征，可以包括姓名、年龄、家庭情况、社交情况、收入、工作以及兴趣偏好等。

用户行为信息描述了用户在预设时间段之内对电子设备的操作行为。

当前场景信息描述了电子设备当前所处的场景，比如家、办公室、室外等。

本申请实施例中，电子设备在获取对应前述语音数据的上下文数据时，获取对应用户的用户画像信息、用户行为信息以及历史文本数据，以及获取当前场景信息，历史文本数据为用户输入的历史语音数据对应的文本数据；然后根据获取到的用户画像信息、用户行为信息、历史文本数据以及当前场景信息来生成对应前述语音数据的上下文数据。

在一实施例中，“在得到前述语音数据的目标意图”之后，还包括：

执行对应目标意图的操作。

本申请实施例中，电子设备在对用户输入的语音数据进行识别，并得到用户的目标意图之后，即执行对应目标意图的操作。

比如，识别到用户的目标意图为“用户想听歌手刘德华的歌”，则电子设备播放刘德华的歌给用户听。

请参照图4，图4为本申请实施例提供的语音识别方法的另一流程示意图。该语音识别方法可以应用于电子设备。该语音识别方法的流程可以包括：

在201中，电子设备获取输入的语音数据，并将输入的语音数据转换为对应的文本数据。

又比如，电子设备未内置有语音解析引擎，请参照图3，用户说出语音形式的“我要听XXX歌曲”，相应的，电子设备将获取到“我要听XXX歌曲”的语音数据，之后，电子设备将该语音数据发送至语音解析服务器(语音解析服务器为提供语音解析服务的服务器)，指示语音解析服务器对语音数据进行语音解析；相应的，电子设备接收语音解析服务器所返回的对语音数据的语音解析结果，也即是语音数据所对应的文本数据。

在202中，电子设备对转换得到的文本数据进行向量化处理，得到对应的文本向量。

相应的，在本申请实施例中，电子设备首先对文本数据进行向量化处理，以得到对应的文本向量。从而利用预先训练的语义识别模型来对向量化的文本数据(即文本向量)进行语义识别。

其中，电子设备在对文本数据进行向量化处理时，可以通过预先训练的词嵌入模型将从文本数据映射到向量空间，得到对应文本向量。其中，词嵌入模型包括但不限于Word2vec模型、GloVe模型、FastText模型以及ELMo模型等，具体采用何种词嵌入模型实现对前述文本数据的向量化处理，可由本领域普通技术人员根据实际需要选取。

在203中，电子设备识别前述文本数据中包括的实体，确定知识库中与文本数据中包括的实体所对应的目标实体，并对目标实体进行向量化处理，得到对应的实体向量，将实体向量增加至文本向量中。

其中，电子设备在根据预设的知识库对文本向量进行优化时，首先识别用户输入的语音数据所转换得到的文本数据中的实体，比如，文本数据为“我想听刘德华”，“刘德华”即为一个实体。

在204中，电子设备将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果。

在完成对文本向量的优化之后，电子设备即将优化后的文本向量输入到预先训练的语义识别模型进行语义识别，得到向量形式的语义识别结果。

在205中，电子设备获取对应前述语音数据的上下文数据。

本申请实施例中，电子设备在获取对应前述语音数据的上下文数据时，获取对应用户的用户画像信息、用户行为信息以及历史文本数据，以及获取当前场景信息，历史文本数据为用户输入的历史语音数据对应的文本数据；然后根据获取到的用户画像信息、用户行为信息、历史文本数据以及当前场景信息来生成对应前述语音数据的上下文数据，也即是辅助理解用户用途的相关数据。

在206中，电子设备根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重。

在207中，电子设备根据语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语音数据的目标意图。

请参照图5，图5为本申请实施例提供的语音识别装置的结构示意图。该语音识别装置可以应用于电子设备。语音识别装置可以包括：文本获取模块401、语义识别模块402、权重获取模块403以及意图分类模块404。

文本获取模块401，用于获取输入的语音数据，并将输入的语音数据转换为对应的文本数据；

语义识别模块402，用于对文本数据进行语义识别，得到语义识别结果；

权重获取模块403，用于获取对应语音数据的上下文数据，并根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重；

意图分类模块404，用于根据语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语音数据的目标意图。

在一实施例中，在对文本数据进行语义识别，得到语义识别结果时，文本语义识别模块402可以用于：

对文本数据进行向量化处理，得到对应的文本向量；

将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果。

在一实施例中，在将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果之前，语义识别模块402可以用于：

根据预设的知识库对文本向量进行优化。

在一实施例中，在根据预设的知识库对文本向量进行优化时，语义识别模块402可以用于：

识别文本数据中包括的实体；

确定知识库中与文本数据中包括的实体所对应的目标实体，并对目标实体进行向量化处理，得到对应的实体向量；

将实体向量增加至文本向量中。

在一实施例中，在将用户输入的语音数据转换为对应的文本数据之前，文本获取模块401还用于：

提取语音数据的声纹特征，并对声纹特征进行校验；

若校验通过，则将语音数据转换为文本数据。

在一实施例中，在对声纹特征进行校验时，文本获取模块401可以用于：

获取前述声纹特征与预设声纹特征的相似度；

判断前述相似度是否大于或等于预设相似度，是则校验通过，否则校验不通过。

在一实施例中，在获取对应语音数据的上下文数据时，权重获取模块403可以用于：

获取对应用户的用户画像信息、用户行为信息以及历史文本数据，以及获取当前场景信息，历史文本数据为用户输入的历史语音数据对应的文本数据；

根据用户画像信息、用户行为信息、历史文本数据以及当前场景信息生成上下文数据。

在一实施例中，语音识别装置还包括执行模块，用于在得到语音数据的目标意图之后，执行对应目标意图的操作。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当其存储的计算机程序在计算机上执行时，使得计算机执行如本申请实施例提供的语音识别方法中的步骤。

本申请实施例还提供一种电子设备，包括存储器和处理器，处理器通过调用存储器中存储的计算机程序，执行本申请实施例提供的语音识别方法中的步骤。

请参照图6，图6为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括存储器602以及处理器601。本领域普通技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器602可用于存储应用程序和数据。存储器602存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器601通过运行存储在存储器602的应用程序，从而执行各种功能应用以及数据处理。

处理器601是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的应用程序，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本申请实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的语音识别程序的进程对应的可执行代码加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而执行：

获取输入的语音数据，并将输入的语音数据转换为对应的文本数据；

对文本数据进行语义识别，得到语义识别结果；

获取对应语音数据的上下文数据，并根据预先训练的注意力网络获取上下文数据以及语义识别结果与语义意图之间的注意力权重；

根据语义识别结果、上下文数据以及语义识别结果各自对应的注意力权重，进行意图分类，得到语音数据的目标意图。

请参照图7，图7为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括输入单元603和输出单元604等组件。

其中，输入单元603可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元604可用于输出由用户输入的信息或提供给用户的信息，如扬声器等。

对文本数据进行语义识别，得到语义识别结果；

在一实施例中，在对文本数据进行语义识别，得到语义识别结果时，处理器601可以执行：

对文本数据进行向量化处理，得到对应的文本向量；

在一实施例中，在将文本向量输入预先训练的语义识别模型进行语义识别，得到语义识别结果之前，处理器601可以执行：

根据预设的知识库对文本向量进行优化。

在一实施例中，在根据预设的知识库对文本向量进行优化时，处理器601可以执行：

识别文本数据中包括的实体；

将实体向量增加至文本向量中。

在一实施例中，在将用户输入的语音数据转换为对应的文本数据之前，处理器601还可以执行：

提取语音数据的声纹特征，并对声纹特征进行校验；

若校验通过，则将语音数据转换为文本数据。

在一实施例中，在对声纹特征进行校验时，处理器601可以执行：

获取前述声纹特征与预设声纹特征的相似度；

在一实施例中，在获取对应语音数据的上下文数据时，处理器601还可以执行：

在一实施例中，在得到语音数据的目标意图之后，处理器601还可以执行：

执行对应目标意图的操作。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对语音识别方法的详细描述，此处不再赘述。

本申请实施例提供的语音识别装置/电子设备与上文实施例中的语音识别方法属于同一构思，在语音识别装置/电子设备上可以运行语音识别方法实施例中提供的任一方法，其具体实现过程详见语音识别方法实施例，此处不再赘述。

需要说明的是，对本申请实施例语音识别方法而言，本领域普通技术人员可以理解实现本申请实施例语音识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如语音识别方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的语音识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种语音识别方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

一种语音识别方法，应用于电子设备，其中，包括：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。
根据权利要求1所述的语音识别方法，其中，所述对所述文本数据进行语义识别，得到语义识别结果，包括：

对所述文本数据进行向量化处理，得到对应的文本向量；

将所述文本向量输入预先训练的语义识别模型进行语义识别，得到所述语义识别结果。
根据权利要求2所述的语音识别方法，其中，在将所述文本向量输入预先训练的语义识别模型进行语义识别之前，还包括：

根据预设的知识库对所述文本向量进行优化。
根据权利要求3所述的语音识别方法，其中，所述根据预设的知识库对所述文本向量进行优化，包括：

识别所述文本数据中包括的实体；

确定所述知识库中与所述实体对应的目标实体，并对所述目标实体进行向量化处理，得到对应的实体向量；

将所述实体向量增加至所述文本向量中。
根据权利要求1所述的语音识别方法，其中，所述将所述语音数据转换为文本数据之前，还包括：

提取所述语音数据的声纹特征，并对所述声纹特征进行校验；

若校验通过，则将所述语音数据转换为文本数据。
根据权利要求5所述的语音识别方法，其中，所述对所述声纹特征进行校验，包括：

获取所述声纹特征与预设声纹特征的相似度；

判断所述相似度是否大于或等于预设相似度，是则校验通过，否则校验不通过。
根据权利要求1所述的语音识别方法，其中，在得到所述语音数据的目标意图之后，还包括：

执行对应所述目标意图的操作。
一种语音识别装置，应用于电子设备，其中，包括：

文本获取模块，用于获取输入的语音数据，并将所述语音数据转换为文本数据；

语义识别模块，用于对所述文本数据进行语义识别，得到语义识别结果；

权重获取模块，用于获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

意图分类模块，用于根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。
根据权利要求8所述的语音识别装置，其中，在对所述文本数据进行语义识别，得到语义识别结果时，所述语义识别模块可以用于：

对所述文本数据进行向量化处理，得到对应的文本向量；

将所述文本向量输入预先训练的语义识别模型进行语义识别，得到所述语义识别结果。
根据权利要求9所述的语音识别装置，其中，在将所述文本向量输入预先训练的语义识别模型进行语义识别之前，所述语义识别模块可以用于：

根据预设的知识库对所述文本向量进行优化。
根据权利要求10所述的语音识别装置，其中，在根据预设的知识库对所述文本向量进行优化时，所述语义识别模块可以用于：

识别所述文本数据中包括的实体；

确定所述知识库中与所述实体对应的目标实体，并对所述目标实体进行向量化处理，得到对应的实体向量；

将所述实体向量增加至所述文本向量中。
根据权利要求8所述的语音识别装置，其中，在将所述语音数据转换为文本数据之前，所述文本获取模块可以用于：

提取所述语音数据的声纹特征，并对所述声纹特征进行校验；

若校验通过，则将所述语音数据转换为文本数据。
一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行如下步骤：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。
一种电子设备，包括存储器，处理器，其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

获取输入的语音数据，并将所述语音数据转换为文本数据；

对所述文本数据进行语义识别，得到语义识别结果；

获取对应所述语音数据的上下文数据，并根据预先训练的注意力网络获取所述上下文数据以及所述语义识别结果与语义意图之间的注意力权重；

根据所述语义识别结果、所述上下文数据以及所述语义识别结果各自对应的注意力权重，进行意图分类，得到所述语音数据的目标意图。
根据权利要求14所述的电子设备，其中，在对所述文本数据进行语义识别，得到语义识别结果时，所述处理器用于执行：

对所述文本数据进行向量化处理，得到对应的文本向量；

将所述文本向量输入预先训练的语义识别模型进行语义识别，得到所述语义识别结果。
根据权利要求15所述的电子设备，其中，在将所述文本向量输入预先训练的语义识别模型进行语义识别之前，所述处理器还用于执行：

根据预设的知识库对所述文本向量进行优化。
根据权利要求16所述的电子设备，其中，在根据预设的知识库对所述文本向量进行优化时，所述处理器用于执行：

识别所述文本数据中包括的实体；

确定所述知识库中与所述实体对应的目标实体，并对所述目标实体进行向量化处理，得到对应的实体向量；

将所述实体向量增加至所述文本向量中。
根据权利要求14所述的电子设备，其中，在将所述语音数据转换为文本数据之前，所述处理器还用于执行：

提取所述语音数据的声纹特征，并对所述声纹特征进行校验；

若校验通过，则将所述语音数据转换为文本数据。
根据权利要求18所述的电子设备，其中，在对所述声纹特征进行校验时，所述处理器用于执行：

获取所述声纹特征与预设声纹特征的相似度；

判断所述相似度是否大于或等于预设相似度，是则校验通过，否则校验不通过。
根据权利要求14所述的电子设备，其中，在得到所述语音数据的目标意图之后，所述处理器还用于执行：

执行对应所述目标意图的操作。