WO2021139108A1

WO2021139108A1 - 情绪智能识别方法、装置、电子设备及存储介质

Info

Publication number: WO2021139108A1
Application number: PCT/CN2020/098963
Authority: WO
Inventors: 蒋江涛; 马骏; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-01-10
Filing date: 2020-06-29
Publication date: 2021-07-15
Also published as: CN111223498A

Abstract

一种情绪智能识别方法，包括：获取用户的语音数据集，将语音数据集转换为文本数据集（S1）；通过预设的清洗规则对文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集（S2）；对标准文本数据集进行文本信息特征提取，得到文本序列向量集（S3）；将文本序列向量集输入至预先构建的情绪识别模型中计算文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出情绪状态的概率分布集中的最大化情绪状态，根据最大化情绪状态识别用户的情绪（S4）。还提出一种情绪智能识别装置（100）、电子设备（1）以及一种计算机可读存储介质。实现了用户情绪的识别。

Description

情绪智能识别方法、装置、电子设备及存储介质

本申请要求于2020年1月10日提交中国专利局、申请号为CN 202010034197.6，发明名称为“情绪智能识别方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种情绪智能识别方法、装置、电子设备及计算机可读存储介质。

背景技术

基于文本的自然语言处理(Natural Language Processing，简称NLP)的相关技术有了飞速发展，尤其是基于深度学习的端到端的模型在某些领域均已超过了人类的水平。为了能够充分利用自然语言处理的相关技术，如句法分析、语义分析、篇章分析、文本分类等，智能客服等方面需要将电话语音经过ASR技术转换成相应的文本数据。但是发明人意识到在ASR进行语音信息转换成文本的过程中可能会受到语音质量的影响，因为存在噪音、语速过快、方言等导致转换出来的文本信息会包含错字、少字、字或词重复的问题。此外，由于用户在与客服沟通的过程中表现的各类情绪，如正面情绪、负面情绪、中性情绪经常是不平衡，进一步加剧了深度学习模型的识别难度。

发明内容

本申请提供一种情绪智能识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于提供一种根据用户的语音数据识别用户情绪的方案。

为实现上述目的，本申请提供的一种情绪智能识别方法，包括：

获取用户的语音数据集，将所述语音数据集转换为文本数据集；

通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

此外，为实现上述目的，本申请还提供一种电子设备，该设备包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的情绪智能识别程序，所述情绪智能识别程序被所述处理器执行时实现如下步骤：

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有情绪智能识别程序，所述情绪智能识别程序可被一个或者多个处理器执行，以实现如下步骤：

此外，为实现上述目的，本申请还提供一种情绪智能识别装置，包括：

语音数据转换模块，用于获取用户的语音数据集，将所述语音数据集转换为文本数据集；

文本数据清洗模块，用于通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

特征提取模块，用于对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

情绪识别模块，用于将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

本申请提出的情绪智能识别方法、装置、电子设备及计算机可读存储介质，获取用户的语音数据集，对语音数据集进行清洗处理从而可以消除语音数据中由于存在噪音、语速过快、方言等导致转换出来的文本信息包含错字、少字、字或词重复的问题；进一步地，本申请利用预先构建的情绪识别模型识别用户当时的情绪，从而为进一步减轻语音识别的难度。

附图说明

图1为本申请一实施例提供的情绪智能识别方法的流程示意图；

图2为本申请一实施例提供的电子设备的内部结构示意图；

图3为本申请一实施例提供的情绪智能识别装置的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种情绪智能识别方法。参照图1所示，为本申请一实施例提供的情绪智能识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，情绪智能识别方法包括：

S1、获取用户的语音数据集，将所述语音数据集转换成文本数据。

本申请较佳实施例中，所述用户的语音数据集通过从企业的人工客服与用户进行通话时进行获取得到。

进一步地，本申请利用自动语音识别技术(Automatic Speech Recognition，ASR)将所述语音数据集转换成文本数据。所述ASR由一个编码器和两个解码器组成，用于提取语音数据和文本数据之间的共同域间特征，同时学习不成对的语音数据和文本数据。

由于语音和文本是不同的数据类型，语音是连续向量的序列，而文本是离散符号的序列，此外，语音的长度比自动语音识别中的文本长度长，因此，本申请在所述编码器的输入层使用嵌入层g(·)进行文本输入，将连续向量表示g(y)转换为字符y的离散id。进一步地，本申请将所述语音数据集输入金字塔双向长短期记忆网络f(·)中，以缩短语音数据长度。在所述ASR语音转换器的编码-解码器网络中，文本数据的自动编码不仅可以增强文本数据的中间表示，还可以在本申请规范这些表示形式时增强语音数据的中间表示，使语音和文本数据的中间域表示在训练期间彼此更加相似。

较佳地，本申请中所述将所述语音数据集转换成文本数据包括：对所述语音数据集进行预加重和加窗分帧处理，得到标准语音数据集，通过预先构建的损失函数计算出所述标准语音数据集的域间损失，利用随机梯度算法计算所述域间损失的最优参数，根据所述最优参数对所述标准语音数据集进行更新操作后得到最优语音数据集，通过回归算法输出所述最优语音数据集对应的文本数据集。

其中，本申请中所述预加重即提高高频部分，使在低频到高频的整个频带中，信号频谱变得平坦，使其信噪比基本一致，以便于后续的一些处理，使音频信号不丢失，同时，还能通过增加语音部分能量，抑制随机噪声和直流漂移的影响。本申请实施例选择数字滤波器对声音频率进行预加重，其公式为：H(z)＝1-μz ^-1，式中，z为声音频率，μ接近于1。

所述加窗分帧即根据语音数据在一个非常小的时间范围内，其特性基本保持不变即相对稳定的特点，对语音数据进行分帧处理。本申请实施例将所述语音数据集进行分帧。较佳地，分帧操作之后得到的每帧数据时长64ms，对应每帧数据的长度为512。进一步地，本申请对部分的帧数据标记是否为静音，其中0为否，1为是，同时使相邻帧数据之间重叠约0-0.5倍帧长，防止了信号丢失。所述加窗与分帧一样，都起到把一段音频信号分割成若干个短时音频段的作用，即使语音数据实现“短时”。此外，加窗的作用不仅限于此，因为对语音数据分帧后，会在信号连续处突然截止(帧结束)，称之为音频帧的截断效应。所以就要对音频信号进行加窗处理，使帧数据的信号平滑降低到零，相当于在帧数据两端增加了坡度，平缓而不突兀。总的来说，加窗就是给音频信号乘以一个窗函数。在本申请实施例中，所选窗函数为汉明窗的窗函数：

其中，N为窗长，n表示音频信号。

较佳地，本申请中所述回归算法包括：

其中，x _j表示输出文本，x _k表示文本数据输出方式，k表示文数据的总量，e表示无限不循环小数。

S2、通过预设的清洗规则，对所述文本数据集中的字符进行删除、替换以及增加操作后得到标准文本数据集。

本申请较佳实施例中，由于所述文本数据集会出现字或词重复的问题，因此本申请采用数据删除方式对所述所述文本数据集进行删除处理，即对连续重复的字或词进行删除操作。其中，为了避免删除错误，本申请收集了一个常用的叠音字和叠音词的词典，以保证删除操作的正确性。

进一步地，本申请通过对智能客服真实数据分析发现，电话中产生的数字、字母绝大部分都与表达的情绪无关，因此需要替换操作，即用一个占位符表示这是一个数字或者字母串。本申请通过一个利用数字、字母表达情感的词典，确保对于替换的正确性。

在对文本数据进行数据删除和替换操作后，文本数据集中还可能出现错字、少字以及样本不均衡的问题，本申请中采用一种数据增强的方式对这些进行解决，其具体解决方式如下所示：

a、对于错字、少字的问题：本申请通过对文本的字符串进行按照一定的策略进行随机删除一定比例的字符，并利用同音字进行随机替换一定比例的字，通过这种方式增强后续情绪识别模型能够更好的兼容这种存在错字、少字的问题，并通过学习文本的上下文语境进行推断出文本情绪

b、对于样本不均衡的问题：本申请通过控制增强参数进行均衡样本，即对于样本少的一类通过更大比例的增强参数，实现训练样本的均衡，同时本申请也对开放的翻译系统实现数据增强，如将中文翻译成英文，再讲英文翻译成中文，得到不同的表达方式，进而实现训练语料的扩充以及样本均衡。

S3、对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集。

由于在利用文本进行用户的情绪识别分析中，文本的上下文表示能够更好的表征当前用户的情绪，因此本申请实施例优先通过预先构建的预训练语言(Bidirectional Encoder Representationsfrom Transformers，BERT)模型对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集，从而将文本上下文信息进行表示。

较佳地，本申请中所述BERT模型包括双向Transformer编码器、“Masked语言模型”以及“下一个句子预测”，利用所述双向Transformer编码器中的注意力机制来对所述标准文本数据集进行建模，通过所述“Masked语言模型”以及“下一个句子预测”捕捉所述标准文本数据集中词级别和句子级别的序列向量表示，从而得到所述文本序列向量集。

其中，所述注意力机制包括：

其中Q、K、V均表示字向量矩阵，d _k表示输入向量维度。其核心思想是计算文本中的每个词对于这句话中所有词的相互关系，通过词与词之间的相互关系展现出在所述文本中不同词之间的关联性以及重要程度。本申请再利用所述相互关系来调整每个词的重要性(权重)，以获得每个词新的表征。其中，所述新的表征不但蕴含了该词本身，还蕴含了与其他词的关系，因此和单纯的词向量相比是一个更加全局的表达。

进一步地，所述“Masked语言模型”用于训练深度双向语言表示向量，该方法采用了一个非常直接的方式，即通过遮住文本里某些文字，让所述编码器预测这个文字，本申请随机遮住15％的文本作为训练样本。所述“下一个句子预测”是指预训练一个二分类的模型，用于学习文本中句子之间的关系。

较佳地，本申请将一个包含n个字的文字序列Char＝(char ₁,char ₂…,char _n)，其中char _n是一个维度为d维的字向量，输入所述预先构建的BERT模型中，从而生成一个包含字序列以及字序列上文信息的向量表示CharF _i，同理使用BERT模型反向读取字序列，将字序列以及字序列的下文信息表示为CharB _i，将CharF _i和CharB _i连接形成一个包含字序列以及上下文信息的词表示Wd，并以同样的方式抽取得到所述文本序列向量为：

Wd＝[CharF _i:CharB _i]。

S4、将所述文本序列向量集输入至预先构建的情绪识别模型中，输出所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

本申请较佳实施例中所述预先构建的情绪识别模型包括：条件随机场(ConditionalRandom Field，CRF)模型以及长短期记忆网络(Long Short-Term Memory，LSTM)。

较佳地，本申请通过所述LSTM计算所述输入的文本序列向量集的分值矩阵，根据所述分值矩阵，得到所述文本序列向量集对应的情绪状态的分布状态，并基于所述分布状态利用所述CRF计算所述情绪状态的概率分布集，根据所述最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

较佳地，所述计算所述文本序列向量集的分值矩阵包括：

其中，S(Wd，y)表示情绪状态的输出分值矩阵，y表示情绪状态的文本序列，n表示文本序列的长度，A表示的是转移分值矩阵，p表示概率值。其中，当j＝0时，即y ₀表示的是一个序列开始的标志，当j＝n时，即y _n+1表示一个序列结束的标志，A转移分值矩阵的大小为k+2。

较佳地，所述计算所述情绪状态的概率分布集的计算方法包括:

其中，p(y|Wd)表示情绪状态概率，Y _Wd代表文本序列y对应的所有可能情绪类别，e表示无限不循环小数。

较佳地，所述最大分值算法包括：

其中，y ^*表示目标文本序列集的概率分布集中的最大化情绪状态。

本申请还提供一种电子设备。参照图2所示，为本申请一实施例提供的电子设备的内部结构示意图。

在本实施例中，所述电子设备1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如情绪智能识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行情绪智能识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及情绪智能识别程序01的电子设备1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子设备1实施例中，存储器11中存储有情绪智能识别程序01；处理器12执行存储器11中存储的情绪智能识别程序01时实现如下步骤：

步骤一、获取用户的语音数据集，将所述语音数据集转换成文本数据。

其中，N为窗长，n表示音频信号。

较佳地，本申请中所述回归算法包括：

步骤二、通过预设的清洗规则，对所述文本数据集中的字符进行删除、替换以及增加操作后得到标准文本数据集。

步骤三、对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集。

其中，所述注意力机制包括：

其中Q、K、V均表示字向量矩阵，d表示输入向量维度。其核心思想是计算文本中的每个词对于这句话中所有词的相互关系，通过词与词之间的相互关系展现出在所述文本中不同词之间的关联性以及重要程度。本申请再利用所述相互关系来调整每个词的重要性(权重)，以获得每个词新的表征。其中，所述新的表征不但蕴含了该词本身，还蕴含了与其他词的关系，因此和单纯的词向量相比是一个更加全局的表达。

Wd＝[CharF _i:CharB _i]。

步骤四、将所述文本序列向量集输入至预先构建的情绪识别模型中，输出所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

较佳地，所述计算所述文本序列向量集的分值矩阵包括：

较佳地，所述最大分值算法包括：

参照图3所示，为本申请情绪智能识别装置100一实施例的模块示意图，该实施例中，所述情绪智能识别装置100包括语音数据转换模块10、文本数据清洗模块20、特征提取模块30以及情绪识别模块40示例性地：

所述语音数据转换模块10用于：获取用户的语音数据集，将所述语音数据集转换为文本数据集。

所述文本数据清洗模块20用于：通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集。

所述特征提取模块30用于：对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集。

所述情绪识别模块40用于：将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。

上述语音数据转换模块10、文本数据清洗模块20、特征提取模块30以及情绪识别模块40等模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有情绪智能识别程序，所述情绪智能识别程序可被一个或多个处理器执行，以实现如下操作：

本申请计算机可读存储介质具体实施方式与上述电子设备和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种情绪智能识别方法，其中，所述方法包括：

获取用户的语音数据集，将所述语音数据集转换为文本数据集；

通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。
如权利要求1所述的情绪智能识别方法，其中，所述将所述语音数据集转换为文本数据集包括：

对所述语音数据集进行预加重和加窗分帧处理，得到标准语音数据集；

通过预先构建的损失函数计算出所述标准语音数据集的域间损失，利用随机梯度算法计算所述域间损失的最优参数，根据所述最优参数对所述标准语音数据集进行更新操作后得到最优语音数据集；

通过回归算法将所述最优语音数据集转换为对应的文本数据集。
如权利要求2所述的情绪智能识别方法，其中，所述回归算法包括：

其中，x _j表示输出文本数据，x _k表示文本数据输出方式，k表示文数据的总量，e表示无限不循环小数。
如权利要求1至3中任意一项所述的情绪智能识别方法，其中，所述预先构建的情绪识别模型包括：条件随机场模型以及长短期记忆网络。
如权利要求4所述的情绪智能识别方法，其中，所述将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪，包括：

通过所述长短期记忆网络计算所述输入的文本序列向量集的分值矩阵，根据所述分值矩阵，得到所述文本序列向量集对应的情绪状态的分布状态，并基于所述分布状态利用所述条件随机场模型计算所述情绪状态的概率分布集，根据所述最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。
如权利要求1至3中任意一项所述的情绪智能识别方法，其中，所述文本序列向量集对应的情绪状态的概率分布集的计算方法包括：

其中，p(y|Wd)表示情绪状态概率，S(Wd，y)表示情绪状态的输出分值矩阵，y表示情绪状态的文本序列，Wd表示包含字序列以及上下文信息的词表示，Y _Wd代表文本序列y对应的所有可能情绪类别，e表示无限不循环小数。
如权利要求6所述的情绪智能识别方法，其中，所述最大分值算法包括：

其中，y ^*表示目标文本序列集的概率分布集中的最大化情绪状态。
一种电子设备，其中，所述设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的情绪智能识别程序，所述情绪智能识别程序被所述处理器执行时实现如下步骤：

获取用户的语音数据集，将所述语音数据集转换为文本数据集；

通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。
如权利要求8所述的电子设备，其中，所述将所述语音数据集转换为文本数据集包括：

对所述语音数据集进行预加重和加窗分帧处理，得到标准语音数据集；

通过预先构建的损失函数计算出所述标准语音数据集的域间损失，利用随机梯度算法计算所述域间损失的最优参数，根据所述最优参数对所述标准语音数据集进行更新操作后得到最优语音数据集；

通过回归算法将所述最优语音数据集转换为对应的文本数据集。
如权利要求9所述的电子设备，其中，所述回归算法包括：

其中，x _j表示输出文本数据，x _k表示文本数据输出方式，k表示文数据的总量，e表示无限不循环小数。
如权利要求8至10中任意一项所述的电子设备，其中，所述预先构建的情绪识别模型包括：条件随机场模型以及长短期记忆网络。
如权利要求11所述的电子设备，其中，所述将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪，包括：

通过所述长短期记忆网络计算所述输入的文本序列向量集的分值矩阵，根据所述分值矩阵，得到所述文本序列向量集对应的情绪状态的分布状态，并基于所述分布状态利用所述条件随机场模型计算所述情绪状态的概率分布集，根据所述最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。
如权利要求8至10中任意一项所述的电子设备，其中，所述计算所述文本序列向量集对应的情绪状态的概率分布集的计算方法包括：

其中，p(y|Wd)表示情绪状态概率，S(Wd，y)表示情绪状态的输出分值矩阵，y表示情绪状态的文本序列，Wd表示包含字序列以及上下文信息的词表示，Y _Wd代表文本序列y对应的所有可能情绪类别，e表示无限不循环小数。
如权利要求13所述的电子设备，其中，所述最大分值算法包括：

其中，y ^*表示目标文本序列集的概率分布集中的最大化情绪状态。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有情绪智能识别程序，所述情绪智能识别程序可被一个或者多个处理器执行，以实现如下步骤：

获取用户的语音数据集，将所述语音数据集转换为文本数据集；

通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。
如权利要求15所述的计算机可读存储介质，其中，所述将所述语音数据集转换为文本数据集包括：

对所述语音数据集进行预加重和加窗分帧处理，得到标准语音数据集；

通过预先构建的损失函数计算出所述标准语音数据集的域间损失，利用随机梯度算法计算所述域间损失的最优参数，根据所述最优参数对所述标准语音数据集进行更新操作后得到最优语音数据集；

通过回归算法将所述最优语音数据集转换为对应的文本数据集。
如权利要求16所述的计算机可读存储介质，其中，所述回归算法包括：

其中，x _j表示输出文本数据，x _k表示文本数据输出方式，k表示文数据的总量，e表示无限不循环小数。
如权利要求15至17中任意一项所述的计算机可读存储介质，其中，所述计算所述文本序列向量集对应的情绪状态的概率分布集的计算方法包括：

其中，p(y|Wd)表示情绪状态概率，S(Wd，y)表示情绪状态的输出分值矩阵，y表示情绪状态的文本序列，Wd表示包含字序列以及上下文信息的词表示，Y _Wd代表文本序列y对应的所有可能情绪类别，e表示无限不循环小数。
如权利要求18所述的计算机可读存储介质，其中，所述最大分值算法包括：

其中，y ^*表示目标文本序列集的概率分布集中的最大化情绪状态。
一种情绪智能识别装置，其中，包括：

语音数据转换模块，用于获取用户的语音数据集，将所述语音数据集转换为文本数据集；

文本数据清洗模块，用于通过预设的清洗规则对所述文本数据集中的字符进行删除、替换以及增强操作后得到标准文本数据集；

特征提取模块，用于对所述标准文本数据集进行文本信息特征提取，得到文本序列向量集；

情绪识别模块，用于将所述文本序列向量集输入至预先构建的情绪识别模型中计算所述文本序列向量集对应的情绪状态的概率分布集，并利用最大分值算法计算出所述情绪状态的概率分布集中的最大化情绪状态，根据所述最大化情绪状态识别所述用户的情绪。