WO2018028077A1

WO2018028077A1 - 一种基于深度学习的中文语义分析的方法及装置

Info

Publication number: WO2018028077A1
Application number: PCT/CN2016/105977
Authority: WO
Inventors: 郑骁庆; 陈军; 吕永; 尚国强
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-08-11
Filing date: 2016-11-15
Publication date: 2018-02-15
Also published as: CN107729309A; CN107729309B

Abstract

一种基于深度学习的中文语义分析的方法及装置，涉及自然语言处理技术领域，其方法包括：移动终端通过对所获取的中文文本进行规范化处理，得到规范中文文本（S101）；移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件(S101)；移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性(S103)；移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析(S104)。

Description

一种基于深度学习的中文语义分析的方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于深度学习的中文语义分析的方法及装置。

背景技术

中文自然语言理解目前已经取得长足进步，特别是在中文分词和词性分析方面产生了大量的研究成果。虽然较英语和日语而言，中文自动化分析技术仍然比较落后，但是之前的研究积累使得研发能够进行高层次语义分析和理解的系统，并且将其应用于实际成为可能。运用语义分析技术的系统将极大地提高系统的智能水平和应对能力。语义分析技术是文本信息分析与处理的关键和难点，也是信息抽取、用户意图分析、信息融合、问题回答、智能推理等基础。

另一方面，深度学习是近期人工智能研究取得突破性的进展，它结束了人工智能长达十年未能有突破性进展的局面，并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟)，作为通用的人工智能技术，可以应对各种情况和问题，已在图像识别、语音识别等领域得到极其成功的应用，在自然语言处理领域(主要是英文)也取得成效。

发明内容

根据本发明实施例提供的方案解决的技术问题是中文语义的自动化分析不准确。

根据本发明实施例提供的一种基于深度学习的中文语义分析的方法，包括：

移动终端通过对所获取的中文文本进行规范化处理，得到规范中文文本；

移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；

移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性；

移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析。

在本发明实施例一实施方式中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：

所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别，得到所述规范中文文本的指定类型词汇识别结果，并将得到的指定类型词汇识别结果作为第一约束条件。

所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别，得到所述规范中文文本的自定义词汇识别结果，并将得到的自定义词汇识别结果作为第二约束条件。

所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别，得到所述规范中文文本的中文命名识别结果，并将所得到的中文命名识别结果作为第三约束条件。

在本发明实施例一实施方式中，所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。

在本发明实施例一实施方式中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：

所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型，对所述规范中文文本进行句子分类，得到所述规范中文文本的句子分类结果。

所述移动终端根据句子分类结果确定双向LSTM(Long-Short Term Memory，长短时记忆)的中文语义角色标注模型，再根据所述规范中文文本的分词、词性和/或命名类型，以及所述双向LSTM的中文语义角色标注模型，对所述规范中文文本的每个分词和符号进行语义角色标注，得到所述规范中文文本的语义角色标注结果。

所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型，对所述规范中文文本进行结构化处理，提取出所述规范中文文本的关键信息。

在本发明实施例一实施方式中，所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。

根据本发明实施例提供的一种基于深度学习的中文语义分析的装置，包括：

规范化处理模块，配置为通过对所获取的中文文本进行规范化处理，得到规范中文文本；

识别模块，配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；

分析模块，配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性，并利用所述规范中文文本的分词和词性和/或命名识别类型，对所规范中文文本进行中文语义分析。

所述规范化处理模块、所述识别模块、所述分析模块在执行处理时，可以采用中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Singnal Processor)或可编程逻辑阵列(FPGA，Field-Programmable Gate Array)实现。

根据本发明实施例提供的方案，对所输入的中文句子，经过语义分析后，输出结构化的分析结果，并利用结构化的分析结果，完成事件分析、信息抽取和情感分析等需要高层语义分析支持的任务。

附图说明

图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图；

图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图；

图3是本发明实施例提供的中文语义分析的模块示意图；

图4是本发明实施例提供的中文序列标注网络模型结构图；

图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图；

图6是本发明实施例提供的双向LSTM的语义角色标注示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是本发明实施例提供的一种基于深度学习的中文语义分析的方法流程图，如图1所示，包括：

步骤S101：移动终端通过对所获取的中文文本进行规范化处理，得到规范中文文本；

步骤S102：移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；

步骤S103：移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性；

步骤S104：移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析。

其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别，得到所述规范中文文本的指定类型词汇识别结果，并将得到的指定类型词汇识别结果作为第一约束条件。

其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别，得到所述规范中文文本的自定义词汇识别结果，并将得到的自定义词汇识别结果作为第二约束条件。

其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别，得到所述规范中文文本的中文命名识别结果，并将所得到的中文命名识别结果作为第三约束条件。

其中，所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。

其中，指定类型词汇识别和/或自定义词汇识别和/或中文命名识别是一种预分词和词性标注，即这个步骤识别出的指定类型词汇和/或自定义词汇和/或中文命名，在下个分词和词性标注步骤中不再重新进行分词和词性标注，因此就构成了一种约束条件。

其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型，对所述规范中文文本进行句子分类，得到所述规范中文文本的句子分类结果。

其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：所述移动终端根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型，再根据规范中文文本的分词、词性和/或命名类型，以及所述双向长短时记忆LSTM的中文语义角色标注模型，对所述规范中文文本的每个分词和符号进行语义角色标注，得到所述规范中文文本的语义角色标注结果。

其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型，对所述规范中文文本进行结构化处理，提取出所述规范中文文本的关键信息。具体地说，所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。

图2是本发明实施例提供的一种基于深度学习的中文语义分析的装置示意图，如图2所示，包括：规范化处理模块201，配置为通过对所获取的中文文本进行规范化处理，得到规范中文文本；识别模块202，配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；分析模块203，配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性，并利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析。

其中，所述分析模块203包括：句子分类单元，配置为根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型，对所述规范中文文本进行句子分类，得到所述规范中文文本的句子分类结果。

其中，所述分析模块203还包括：语义角色标注单元，配置为根据所述句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型，根据规范中文文本的分词、词性和/或命名识别类型，以及所述双向长短时记忆LSTM的中文语义角色标注模型，对所述规范中文文本中的单字、分词、指定类型词汇等元素进行语义角色标注，得到所述规范中文文本的语义角色标注结果。

其中，所述分析模块203还包括：结构化处理单元，配置为所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型，对所述规范中文文本进行结构化处理，提取出所述规范中文文本的关键信息。具体地说，所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。其中，事件名称可对应为句子分类结果。比如对终端接收的短信文本来说，句子分类模型分为银行账单、航班火车、约会、天气预报及其他等。那么可把句子分类的结果类型作为事件名称。关键属性即语义角色标注结果。比如在银行账单短信中，标注为账单日、消费金额、还款日期、还款金额等几种类别，属性值即标注为上述类别所对应的原始短信文本中的具体值，如具体日期、具体金额等。

图3是本发明实施例提供的中文语义分析的模块示意图，如图3所示，利用深度学习技术对于所输入的中文句子经过语义分析后，输出结构化的分析结果，并利用结构化的分析结果，完成事件分析、信息抽取以及情感分析等需要高层语义分析支持的任务，具体包括：

·文本规范化处理：对输入中文语句进行规范化处理，包括：统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换(如：将网络用语替换成规范表示)。

·自定义词汇识别：利用自定义词典对自定义的词汇进行识别，包括：应用领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名。

·指定类型词汇识别：通过定义识别电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词的模板对输入语句包含的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别，并且用指定的字符进行替换。

·中文命名识别：通过准备中文命名识别的语料，采用图4所示的中文序列标注网络模型，并且训练用于进行中文命名识别的中文命名识别模型，对输入语句中的人名、地名、机构名进行识别，即识别出句子中的具体人名、地名、机构名并同时保存对应的命名类型(比如可用“Person”、“Location”、“Organization”分别表示)。

·中文分词和词性标注：以指定类型词汇识别和/或自定义词汇识别、和/或中文命名识别的结果作为约束，并准备联合中文分词和词性标注语料，采用图4所示的中文序列标注网络模型，训练用于进行中文分词和词性分析联合注标的中文分词和词性标注模型，对输入语句进行联合中文分词和词性分析。

·句子分类：在进行语义角色标注之前，采用所图5所示的带动态k-max池化的卷积神经网络所产生的句子语义表示对句子进行分类，同时过滤应用不感兴趣的输入句子。即采用包括各类型平衡的句子和负样本句子(应用不感兴趣的中文句子)的句子分类语料，训练带动态k-max池化的卷积神经网络的中文句子分类模型，以此模型对输入句子进行分类，同时过滤应用不感兴趣的输入句子。

·语义角色标注：根据句子分类结果确定双向LSTM的语义标注网络模型(即不同的句子分类类别采用不同的解析模型)，再对规范文本中的分词、词性和/或命名类型采用所图6所示的双向LSTM的语义标注网络对句子进行语义角色标注。即根据分词、词性和/或命名类型，准备同一个句子类别的语义角色标注语料，并且训练双向LSTM的中文语义角色标注模型，以此模型对句子进行语义角色标注。

·事件分析：根据语义角色标注结果，结合事件模板封装成语义分析后的结构化表示，提取事件的名称、关键属性和属性值。

其中，语义角色标注的训练语料的格式为句子中按词的顺序一个词汇一行，每行共5列，依次分别表示分词本身(电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等用英文标签替换，单字或标点符号等也当成独立的分词)、语义标签(“O”表示与任务无关类)、词性标签、命名识别标签、分词在句子中的原词形式。每一句样本之间由一空行隔开。

其中，在进行中文分词和词性标注、中文命名识别等基于深度学习的序列标注任务时，将指定类型词汇识别和/或自定义词汇识别的结果作为约束进行解码算法(进行中文分词和词性标注时的约束条件还可以增加中文命名识别结果)，包括：

(1)通过模板预先对电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等类型进行识别。

(2)支持对包括领域词汇、成语、食物、地点、作品、设备、人名、地名和机构名等词汇进行自定义。

(3)结合深度学习网络预测输出，将指定类型词汇识别和/或自定义词汇识别的结果作为约束进行维特比解码的算法。

图4是本发明实施例提供的中文序列标注网络模型结构图，可以用于中文命名识别、中文分词及词性标注(注：训练语料不同，训练出的模型数据不同，约束条件也不同)。如图4所示，深度学习的中文序列标注网络模型模型接收一个中文句子作为输入，输出以字符(包括：汉字、标点符号和其它可能出现的句子中的字符)为单位的序列标注结果。标签集合采用分词标签加特定任务标签扩展后的标签。以中文命名识别为例，如果以“PER”表示人名标签，则以下句子：

“诸葛亮是刘备军事集团的军师。”

所相应的标注结果为：

“B_PER I_PER E_PER O B_PER E_PER O O O O O O O O”。

其中：“B”表示词汇的开始字符，“I”表示词汇的中间字符，“E”表示词汇的结束字符，“O”表示与任务无关的字符。另外还有“S”表示能够单独成词的字符(如单字或标点符号)。

一个字符的标签一般与其周围字符相关，因而采用窗口模型，即在估计当前字符属于某个标签的可能性时，将这个字符以及周围的字符作为输入(见图4所示)。如果窗口大小设置成5，则表示将这个字符及其左边和右边各两个字符作为输入窗口。如果左边和右边的字符数量不足于窗口规定的大小，则使用填充符代替。

每一个输入的字符将通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。之后将这些向量进行拼接，表示某一个窗口的特征表示。经过一个线性网络层后(中间隐层)，使用Sigmoid函数进行非线性转换，最后再使用一个线性层，输出与任务标签数量相等的向量，向量每一元素表示对应标签的可能性。

给定一个中文句子，网络会输出一个矩阵，矩阵中的每一个元素fθ(t|i)表示句子中第i个字符属于标签t的可能性的估计，其中θ表示网络的参数。在序列标注任务中，由于前后标签之间有很强的依赖关系，引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定一个含有n个字符的句子s[1：n]，可以为某个等长的标签序列t[1：n]进行估分：

在参数给定的情况下，可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。

训练的方法是在训练集上，要求每一个样本的正确标注序列发生的概率最大：

其中：(s，t)表示训练集中的一个样本。训练采用梯度下降法，网络所有参数使用以下公式进行更新：

其中：λ表示学习步长。

其中，基于深度学习的中文序列标注网络和学习算法的特征在于：

(1)对于输入的中文语句进行了必要的预处理，包括：统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成指定字符。

(2)使用维特比解码时，将自定义词汇识别、指定类型词汇识别和中文命名识别的结果作为约束。

(3)使用字向量100维、窗口大小为3或5、中间隐层神经元数量300的网络配置(具体参数依赖语料样本集大小)。

图5是本发明实施例提供的基于带动态k-max池化的卷积神经网络结构图，如图5所示，以中文句子为输入，由网络产生全句的语义表示，根据该表示预测句子所属的与任务相关的类别。

网络首先将输入句子中每个字符通过查找字向量表的方式转换成相应的向量表示。每一个字符的表示可以随机生成或者采用无监督的方法进行预训练。句子经转换后形成一个特征矩阵。第二步：在特征矩阵的每一维度上，根据设定的窗口大小，采用卷积的方法将窗口特征输入转换成新的特征。窗口在特征矩阵上从左至右依次滑动，产生与特征矩阵列数相同的更高一层的特征表示。不同维度采用不同的卷积核，从而产生输入特征矩阵的一个特征地图。可以同时使用一组不同的卷积核来产生多个特征地图。每一个特征地图上采用k-max池化的方法采出k个最为显著的特征，即在每一维度上提取k个最大的特征值，但这些特征值的顺序保持其在输入特征地图中的顺序。在k-max池化后的结果矩阵上使用hardTanh非线性函数进行特征转换。上述第二步可以叠加多层，新的一层在上一层的结果上进行。最后一层的k-max池化的k值固定(模型的超参数)，而之前每一层的k值取最后一层的k值和公式(H-h/H)×L计算得到的值经过向上取整后两者中的较大值。第三步将最后一层获得的所有特征值进行拼接，来产生全句的语义表示。在语义表示的基础上，通过一个线性层和Softmax层来对句子所属类型进行预测。

由于使用了Softmax层，网络输出可以看成不同类别的概率分布。训练采用梯度下降法，网络训练的目标是在训练集上增大正确预测的概率，同时降低错误预测的概率。

其中，基于带动态k-max池化的卷积神经网络的中文句子分类模型的特征在于：

(2)以字符(包括：汉字、标点和其它可能出现的句子中的字符)级别作为输入，非常适合于中文的情况，避免因中文分词的错误扩展到句子分类任务。

(3)使用单维度的卷积，并且卷积层输出的特征地图的列数与输入特征矩阵列数相同，用于增加网络处理的速度。

(4)网络采用两层的卷积，其中：第一层窗口大小为5、特征地图数量为2，第二层窗口大小为3、特征地图数量为3。最后一层的k-max池化的k取值为5。

图6是本发明实施例提供的双向LSTM的语义角色标注示意图，如图6所示，对不同的句子分类结果采用不同的语义角色标注模型，在语义角色标注时以分词、词性和/或命名识别类型，经整理后作为输入，使用句子类别所关联的语义标签集合，对句子以分词为单位进行语义角色标注。

网络的每个时刻(对应输入句子的每一个词汇)的输入为当前词汇、词性和/或命名识别类型(即在中文命名识别时的类别，如用“Person”、“Location”、“Organization”分别表示的人名、地名、机构名)转换成向量后的拼接向量表示。使用两个LSTM分别从左至右(前向)和从右至左(后向)处理输入句子。对于每一个词汇，LSTM会输出一个向量表示，拼接前向和后向LSTM所产生的输出作为词汇的向量表示(融合了本身及其左右的上下文信息)，以此表示作为输入，使用一个线性层来预测词汇所属的标签。

在双向LSTM模型基础上还可以进一步利用所预测词汇标签之间的依赖关系，即带转移概率的双向LSTM。即给定一个中文句子，网络会输出一个矩阵，矩阵中的每一个元素fθ(t|i)表示句子中第i个词汇属于标签t的可能性的估计，其中θ表示网络的参数。在语义标注任务中，由于前后标签之间也有一定的依赖关系，引入矩阵Aij表示从标签i跳转到标签j的可能性(也包含在参数集合θ内)。给定含有n个词汇的句子s[1：n]，可以为某个等长的标签序列t[1：n]进行估分：

在网络参数给定的情况下，可以采用维特比解码算法得到一个分值最高的标签序列作为标注结果。训练的方法是在训练集上，要求每一个样本所对应的正确语义标注序列发生的概率最大。若当前网络参数产生错误预测时，使用梯度下降法计算各参数对于目标函数的梯度，据此更新参数。

双向LSTM的中文语义角色标注模型的特征在于：

(1)LSTM网络的每一时刻(对应输入句子的每一个词汇)以分词、词性和/或命名类型所对应向量的拼接作为输入。

(2)对于输入的中文语句进行了必要的预处理，包括：统一编码、繁体转简体、全角转半角、指定字符转换、不规范用语替换、将识别到的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词进行识别统一转换成指定字符。

(3)采用双向LSTM来产生每一个中文词汇的特征表示。

(4)模型采用如下关键参数：词汇特征向量维度为30、词性特征向量维度为10、类型特征向量维度为10，每个LSTM的Block数量为50，每个Block包含1个Cell单元。

(5)对于带转移概率的双向LSTM，同时引入语义标签之间的转移概率，然后采用维特比解码来进行中文句子的语义角色标注。

下面以具体实施例来说明本发明实施例的具体内容：

比如手机收到一条短信“您尾号5714的账户于07月16日11时15分完成一笔现存交易，金额为1300.00元，余额3456.03元。[中国农业银行]”。

首先对原始文本进行规范处理，比如有的短信中“[”写成“【”，这就要求进行规范化，全角半角，各种符号的不同形式，统一后便于后续处理。

再对指定类型的词汇进行识别，主要采用正则表达式的方式在文本字符串中搜索识别，这样就能识别出：

3-6：DIGIT 5714

11-16：DATE 07月16日

17-22：TIME 11时15分

35-42：CURRENCY 1300.00元

46-53：CURRENCY 3456.03元

同时还能识别出文本中标点符号“，，。[]”的位置。

根据命名识别单元或自定义词典(通常命名识别单元不能识别出的特定词汇可以添加到自定义词典中，比如在自定义词典中预先添加了银行类的关键词)还能识别出：

56-61：BANK中国农业银行

注：上述第一列的两个数字是指定词汇在原始文本中的起始位置(首字符从0计数)。

那么经过预处理，上述已经识别出的分词就构成下一步的约束(即这些词汇不再被重新分词和词性标注)，约束条件可用一个字符串表示，表示每一个字符的分词及词性，比如“

O O O B_D I_D I_D E_D O O O O B_NT I_NT I_NT I_NT I_NT E_NT B_NT I_NT I_NT I_NT I_NT E_NT O O O O O O O O S_PU O O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU O O B_D I_D I_D I_D I_D I_D I_D E_D S_PU S_PU B_NR I_NR I_NR I_NR I_NR E_NR S_PU”

上述“O”表示其他字符，在下一个步骤进行分词和词性识别。诸如“B_D”表示一个数字词的开始，“I_D”表示数字词的中间，“E_D”表示数字词的结尾。下划线“_”前面表示字符在词中的位置，后面表示词性，这就是进行联合分词和词性标注。“B”、“I”、“E”分别表示字符在分词中的开始、中间、结尾处。“S”符号表示单独的字词，例如标点符号就用“S_PU”表示。“NT”表示时间名词，“NR”表示指定名词，还有诸如其他动词、形容词等等各种词性可以预先规定好。

经过分词和词性标注后，就能将文本中每个字词分辨开来(“/”前是原始字词，后面表示词性)，如：

“您/PN尾号/NN 5714/D的/U账户/NN于/P 07月16日/NT 11时15分/NT完成/V一/D笔/M现存/V交易/V，/PU金额/NN为/V 1300.00元/D，/PU余额/NN 3456.03元/D。/PU[/PU中国农业银行/NR]/PU”。

上述例子中，比如分词“尾号”，其词性是普通名词，用“NN”表示。又如分词“5714”，其词性是数字，用“D”表示，分词“交易”，词性是动词，用“V”表示。分词“[”，其词性是标点符号，以“PU”表示。以此类推，把规范化的文本按照分词为单元切分开来(单字、标点符号也作为单独的分词结构)，并且标记出该分词在文本中词性。

进行语义分析时，指定类型的词汇可以统一表示，即用一个标签符号替换，这样就有：

“您/PN尾号/NN DIGIT/D的/U账户/NN于/P DATE/NT TIME/NT完成/V一/D笔/M现存/V交易/V，/PU金额/NN为/V CURRENCY/D，/PU余额/NN CURRENCY/D。/PU[/PU BANK/NR]/PU”

根据分词、词性和/或命名识别类型通过语义分析，就可以抽取出用户感兴趣的词，比如对银行通知短信，可以抽取日期、时间、帐号、出入金额、余额及银行名称等关键信息，这些关键信息即语义角色标注，标记在对应词后面，用“/”隔开。“/”后面为“O”即不需抽取的内容。

本例的语义分析结果：“您/O尾号/O 5714/ACCOUNT的/O账户/O于/O 07月16日/DATE 11时15分/TIME完成/O一/O笔/O现存/O交易/O，/O金额/O为/O 1300.00元/INCOME，/O余额/O 3456.03元/BALANCE。/O[/O中国农业银行/BANK]/O”。

其中“ACCOUNT”，“DATE”，“TIME”，“INCOME”，“BALANCE”，“BANK”就是语义角色标签并标注在对应的分词上。

最终，根据抽取的关键信息，在界面或应用中进行提示、交互等等。比如，收到上文的短信，可以提示用户：

事件：入账

账号：5714

日期：07月16日

时间：11时15分

入账：1300.00元

余额：3456.03元

银行：中国农业银行

根据本发明实施例提供的方案，基于深度学习的中文序列标注网络和学习算法、基于带动态k-max池化的卷积神经网络的中文句子分类模型、带转移概率的双向LSTM的中文语义角色标注模型，以及这些关键技术的整合和集成方式。使用所开发的系统，可以部署在手机等计算资源相对有限的移动计算平台上，不需要借助额外的计算资源和设备就能够完成复杂的中文语义分析任务，能够较大地提高相关应用的响应速度和用户满意度。

尽管上文对本发明进行了详细说明，但是本发明不限于此，本技术领域技术人员可以根据本发明的原理进行各种修改。因此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

工业实用性

本发明实施例是对所输入的中文句子，经过语义分析后，输出结构化的分析结果，并利用结构化的分析结果，完成事件分析、信息抽取和情感分析等需要高层语义分析支持的任务。

Claims

一种基于深度学习的中文语义分析的方法，包括：

移动终端通过对所获取的中文文本进行规范化处理，得到规范中文文本；

移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；

移动终端根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性；

移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析。
根据权利要求1所述的方法，其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：

所述移动终端利用指定类型词汇模板对规范中文文本进行指定类型词汇识别，得到所述规范中文文本的指定类型词汇识别结果，并将得到的指定类型词汇识别结果作为第一约束条件。
根据权利要求1所述的方法，其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：

所述移动终端利用自定义词典对规范中文文本进行自定义词汇识别，得到所述规范中文文本的自定义词汇识别结果，并将得到的自定义词汇识别结果作为第二约束条件。
根据权利要求1所述的方法，其中，所述移动终端对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件包括：

所述移动终端利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别，得到所述规范中文文本的中文命名识别结果，并将所得到的中文命名识别结果作为第三约束条件。
根据权利要求2-4任一所述的方法，其中，所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
根据权利要求1-4任一所述的方法，其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：

所述移动终端根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型，对所述规范中文文本进行句子分类，得到所述规范中文文本的句子分类结果。
根据权利要求6所述的方法，其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：

所述移动终端根据句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型，再根据所述规范中文文本的分词、词性和/或命名识别类型以及所述双向长短时记忆LSTM的中文语义角色标注模型，对所述规范中文文本的每个分词和符号进行语义角色标注，得到所述规范中文文本的语义角色标注结果。
根据权利要求7所述的方法，其中，所述移动终端利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析包括：

所述移动终端根据所述规范中文文本的语义角色标注结果和事件模型，对所述规范中文文本进行结构化处理，提取出所述规范中文文本的关键信息。
根据权利要求8所述的方法，其中，所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。
一种基于深度学习的中文语义分析的装置，包括：

规范化处理模块，配置为通过对所获取的中文文本进行规范化处理，得到规范中文文本；

识别模块，配置为对规范中文文本进行指定类型词汇识别和/或自定义词汇识别和/或中文命名识别，并将识别结果作为约束条件；

分析模块，配置为根据所述约束条件和利用深度学习得到中文分词和词性标注模型，对所规范中文文本进行中文分词和词性分析，得到规范中文文本的分词和词性，并利用所述规范中文文本的分词、词性和/或命名识别类型，对所规范中文文本进行中文语义分析。
根据权利要求10所述的装置，其中，所述识别模块，进一步用于：

利用指定类型词汇模板对规范中文文本进行指定类型词汇识别，得到所述规范中文文本的指定类型词汇识别结果，并将得到的指定类型词汇识别结果作为第一约束条件。
根据权利要求10所述的装置，其中，所述识别模块，进一步用于：

利用自定义词典对规范中文文本进行自定义词汇识别，得到所述规范中文文本的自定义词汇识别结果，并将得到的自定义词汇识别结果作为第二约束条件。
根据权利要求10所述的装置，其中，所述识别模块，进一步用于：

利用深度学习得到中文命名识别模型对规范中文文本进行中文命名识别，得到所述规范中文文本的中文命名识别结果，并将所得到的中文命名识别结果作为第三约束条件。
根据权利要求11-13任一所述的装置，其中，所述约束条件包括第一约束条件、第二约束条件以及第三约束条件中的至少一种或其组合。
根据权利要求11-13任一所述的装置，其中，所述分析模块，进一步用于：

根据所述规范中文文本的字符和基于带动态k-max池化的卷积神经网络的中文句子模型，对所述规范中文文本进行句子分类，得到所述规范中文文本的句子分类结果。
根据权利要求15所述的装置，其中，所述分析模块，进一步用于：

根据句子分类结果确定双向长短时记忆LSTM的中文语义角色标注模型，再根据所述规范中文文本的分词、词性和/或命名识别类型以及所述双向长短时记忆LSTM的中文语义角色标注模型，对所述规范中文文本的每个分词和符号进行语义角色标注，得到所述规范中文文本的语义角色标注结果。
根据权利要求16所述的装置，其中，所述分析模块，进一步用于：

根据所述规范中文文本的语义角色标注结果和事件模型，对所述规范中文文本进行结构化处理，提取出所述规范中文文本的关键信息。
根据权利要求17所述的装置，其中，所述规范中文文本的关键信息包含事件名称、关键属性以及属性值。