WO2019080864A1

WO2019080864A1 - 一种文本语义编码方法及装置

Info

Publication number: WO2019080864A1
Application number: PCT/CN2018/111628
Authority: WO
Inventors: 王成龙
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2017-10-27
Filing date: 2018-10-24
Publication date: 2019-05-02
Also published as: US20200250379A1; TW201917602A; CN110019793A; JP2021501390A

Abstract

本申请实施例提供一种文本语义编码方法和装置，所述方法包括：根据文本数据生成词向量矩阵；将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。本申请实施例可以挖掘文本的语义关系以及文本与主题的关联，实现了不定长文本数据的固定语义编码。

Description

一种文本语义编码方法及装置

本申请要求2017年10月27日递交的申请号为201711056845.2、发明名称为“一种文本语义编码方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种文本语义编码方法及装置。

背景技术

在许多应用场景中，需要提供用户问答服务。例如，互联网应用会提供有关其功能特点的咨询服务，以便帮助用户更好地了解其产品功能。在这些问答服务中，用户与客服之间主要采用自然语言文本进行沟通。随着应用或服务用户数量的增加，客服的压力也会随之增大。因此，众多服务提供商选择采用文本挖掘或信息检索等技术为用户提供自动问答服务，以代替高昂、可扩展性差的人力资源投入。

为了对问答相关的自然语言文本进行挖掘和处理，需要将其进行数值编码，即进行文本编码处理。目前，有一种方法是采用词袋(bag-of-words)技术对不定长文本进行编码。每个不定长文本采用长度为V的整数值向量进行处理。V为词典大小，向量的每一位代表一个词，其值为该词在该文本中的出现次数。然而，这种编码方法仅仅利用了文本中的词频信息，而忽略了词与词之间的上下文依赖关系，因此难以充分表达文本中蕴含的语义信息。此外，bag-of-words编码长度为整个词典的大小(通常在几十万量级)，其中绝大部分的编码值为0。编码的稀疏性不利于后续的文本挖掘，且过长的编码长度也会大大降低后续的文本处理速度。

为了解决bag-of-words编码方式存在的问题，出现了一种词向量(word embedding)技术用于对文本进行编码。该方法采用固定长度的浮点值向量对文本语义进行表达。Word embedding编码方式是一种压缩数据表达，具体来讲，是采用固定长度(通常在100维)的浮点值向量来表达文本语义。相对于bag-of-word编码方法，维度大大降低，从而有效解决了数据稀疏性问题，而且可以大大提高后续的文本处理速度。但是，word embedding编码通常是需要预训练的，即在离线训练过程中需要确定要对哪些文本进行编码。因此，该算法通常用于对单词或短语这样可穷举的短文本进行编码表达。然而，句子和段落级别的文本是不定长序列数据，这类不定长序列数据无法枚举，因此无法通过预训练获得其编码。因此，现有技术提供的文本编码方法存在无法对不定长文本数据进行准确编码的缺陷。

发明内容

本申请实施例提供了一种文本语义编码方法及装置，旨在解决现有技术存在的无法不定长文本数据进行准确编码的技术问题。

为此，本申请实施例提供如下技术方案：

本申请实施例的第一方面公开了一种文本语义编码方法，包括：根据文本数据生成词向量矩阵；将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

本申请实施例的第二方面，公开了一种文本语义编码装置，包括：词向量矩阵生成单元，用于根据文本数据生成词向量矩阵；预处理单元，用于将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；卷积处理单元，用于对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；池化处理单元，用于对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

本申请实施例的第三方面，公开了一种用于文本语义编码的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据文本数据生成词向量矩阵；将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

本申请实施例的第四方面，公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面所述的文本语义编码方法。

本申请实施例提供的文本语义编码方法及装置，可以对来自于不同数据源的不定长文本数据处理，生成词向量矩阵，，将词向量矩阵输入双向循环神经网络进行预处理，然后对循环神经网络的输出进行线性卷积操作及池化操作，最终得到一个固定长度的浮点值向量，作为不定长文本数据的语义编码，以用于后续的文本挖掘任务。本申请实施例可以挖掘文本的语义关系以及文本与主题的关联，实现了不定长文本数据的固定语义编码。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一个应用场景示意图；

图2为本申请一实施例提供的文本语义编码方法流程图；

图3为本申请另一实施例提供的文本语义编码方法示意图；

图4为本申请一实施例提供的文本语义编码装置示意图；

图5是根据一示例性实施例示出的一种用于文本语义编码装置的框图；

图6为本申请又一实施例提供的文本语义编码方法流程图；

图7为本申请又一实施例提供的文本语义编码装置示意图。

具体实施方式

本申请实施例提供了一种文本语义编码方法及装置，可以实现不定长文本数据的文本语义编码。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

其中，所涉及的技术术语“文本编码”一般是指不定长自然语言文本的向量化表达。在本申请实施例中，通过文本编码可以将一段长度不确定的自然语言文本标识为一个固定长度的浮点值向量。

当然，上述术语的解释仅为方便理解而做出，而不具有任何限制含义。

参见图1，为本申请实施例的示例性应用场景。本申请实施例提供的方法可以应用于如图1所示的场景，实现文本的语义编码。当然，本申请实施例还可以应用到其他场景中，在此不进行限制。如图1所示，在本申请一个示例性应用场景中，可以通过电子设备100采集文本数据，例如不定长文本1、不定长文本2、不定长文3、不定长文本4，各文本数据的长度不尽相同。将采集的各文本数据到文本语义编码装置400后，即通过分词、词向量矩阵生成、双向循环神经网络预处理、卷积、池化处理操作，生成了固定长度的语义编码。其中，文本语义编码1、2、3、4的长度均是相同的，这样即实现了不定长文本数据到固定长度的文本语义编码的转换，并可以通过文本语义编码表征文本所反映的主题，为后续的数据挖掘提供了基础。

需要注意的是，上述应用场景仅是为了便于理解本申请而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

下面将结合附图2、3、6对本申请示例性实施例示出的文本语义编码方法进行介绍。

参见图2，为本申请一实施例提供的文本语义编码方法流程图。如图2所示，可以包括：

S201，根据文本数据生成词向量矩阵。

其中，S201又可以包括以下步骤：

S201A，获取文本数据。

具体实现时，可以采集不同数据源的文本数据作为文本数据。以问答系统为例，可以采用用户输入的问题作为文本数据，例如，用户输入的问题为：“这个功能怎么使用啊？”当然，也可以采集问答系统中客服的反馈作为文本数据，例如，客服反馈的文本为：“商品分享功能的操作步骤为：登录淘宝账号，打开商品页面，点击分享按钮，选择支付宝好友，点击发送按钮即可完成商品分享功能。”当然，也可以采集其他文本数据作为文本数据，在此不进行限定。

其中，所述文本数据为不定长文本数据。也就是说，该文本数据的长度不是固定的，可以是任意自然语言文本。

S201B，对所述文本数据进行分词处理，获得词语序列。

对于输入文本进行分词处理，获得的词语序列可以表示为：

[w ₁,...,w _i...w _|s|]

其中，w _i表示输入文本中的第i个分词后的词语，|s|表示分词后的文本长度。例如，文本数据“这个功能怎么使用啊”经过分词处理后可以表示为[这个，功能，怎么，使用，啊]，词语序列的长度即为5，表示由5个词组成。

S201C，确定所述词语序列中的每个词语对应的词向量，生成词向量矩阵。

对于上述词语序列，使用词向量word embedding进行编码可以得到词向量矩阵：

[v ₁,...,v _i...v _|s|]

其中，第i个词语对应的词向量v _i＝LT _W(w _i)

W∈R ^d×|v|表示预训练的词向量word embedding矩阵，|v|表示词向量矩阵中的词语个数，d表示词向量word embedding编码长度，R代表实数空间，LT代表lookup table函数。该矩阵的每一列代表一个单词的word embedding编码。基于此，任意文本可表示成d×|s|的矩阵S。其中，S用于表示由输入文本中的词语对应的词向量所构成的矩阵。

需要说明的是，词向量word embedding是一种自然语言处理编码技术，该技术可生成一个|v|*d大小的词向量矩阵，该矩阵的每一列代表一个词语，比如“怎么”，这一列向量即代表对“怎么”这个词的编码，|v|即代表词典里词语的个数，d表示编码向量的长度。对于一句话，比如“这个功能怎么使用啊”，会先分词为“这个功能怎么使用啊”，然后针对每个词去查对应的编码向量，比如，“这个”对应的向量为[-0.01,0.03,0.02,...,0.06]，这五个词分别有自己的向量表达，五个向量组合在一起，就是一个矩阵，代表这个句子。

S202，将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量。

在一些实施方式中，所述将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量包括：将所述词向量矩阵输入双向循环神经网络，采用长短期记忆网络LSTM算子进行计算，通过前向处理得到各词向量与上文的语义依赖关系，通过后向处理得到个词向量与下文的语义依赖关系，将各词向量与上、下文的语义依赖关系作为输出向量。

举例说明，对于矩阵S203生成的词向量矩阵S，可以采用双向循环神经网络进行预处理。网络的计算单元采用LSTM(Long-Short Term Memory)算子。双向循环神经网络包括前向过程(处理顺序为w ₁→w _|S|)和后向过程(处理顺序为w _|S|→w ₁)。针对每一个输入向量v _i，前向过程会生成一个输出向量

相应的后向过程同样会生成一个输出向量

这些向量蕴含着对应的单词w _i及其上文(对于前向过程)或下文(对于后向过程)的语义信息。然后，采用如下公式进行处理：

其中，h _i作为相应的w _i的中间编码。

为双向循环神经网络的前向过程中，针对输入词语i处理生成的向量，用于表示词语i与上文的语义依赖关系；

为双向循环神经网络的反向过程中，针对输入词语i处理生成的向量，用于表示词语i与下文的语义依赖关系。

S203，对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关。

其中，所述对所述输出向量进行卷积操作，获得卷积处理结果包括：

S203A，采用卷积核对所述输出向量进行线性卷积操作；所述卷积核与主题相关。

具体实现时，可以采用一个卷积核F∈R ^d×m(m为卷积窗口的大小)对H∈R ^2d×|S|进行线性卷积操作，得到向量C∈R ^|S|-m+1，其中：

c _i＝(H*F) _i＝∑(H _:,i:i+m-1·F)

其中，卷积核F与主题相关。

在一些实施方式中，所述采用卷积核对所述输出向量进行线性卷积操作包括：采用一组卷积核F，利用以下公式对所述输出向量H进行卷积操作：

c _ji＝∑(H _:,i:i+m-1·F _j)+b _i

其中，c _ji为卷积操作的结果向量，H为双向循环神经网络的输出向量，F _j为第j个卷积核，b _i为卷积核F _j对应的偏倚值，i为整数，j为整数，m为卷积窗口大小。

实际应用中，通常采用一组卷积核F∈R ^n×d×m对H进行卷积操作，获得矩阵C∈R ^n×(|S|-m+1)。其中，C表示卷积操作的结果向量。此外，每个卷积核均对应一个偏倚值b _i。

具体实现时，在确定采用的卷积核时，需要确定该卷积核的大小。一般地，每个卷积核为一个二维向量，该向量的大小需要根据不同的应用场景调试获得，而向量的值则是通过监督学习获得。一般采用神经网络训练得到该卷积核，具体可以通过训练样本监督学习得到卷积核对应的向量。

S203B，对所述线性卷积操作结果进行非线性变换处理，获得卷积处理结果。

为使编码具有非线性表达能力，通常在卷积层上添加一个非线性激活函数，如softmax或Relu。以Relu为例，输出结果A∈R ^n×(|S|-m+1)，其中：

a _ij＝max(0,c _ij)

其中，A表示Relu处理后的结果变量。a _ij表示A中的一个变量，经过上述处理，每个a _ij均被处理为大于等于0的数值。

S204，对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

需要说明的是，在这一步骤中，对卷积处理结果进行最大池化操作处理，以消除所述结果的变长，获得固定长度的浮点值向量作为该文本数据的语义编码；其中，所述向量的每个数值用于表示该文本对主题的反映程度。

具体地，对S203得到的矩阵A采用最大池化操作进行处理。在文本编码处理中，池化操作起到了消除“变长”的作用。具体来讲，对于输入矩阵A，矩阵A的每一行，对应通过一个卷积核进行卷积操作所得的一个浮点值向量，取这个向量中的最大值，如下列公式所示：

p _i＝max(A _i,:)

其中，最终的结果P∈R ⁿ作为目标文本的最终编码。

需要说明的是，结果向量P上的每一位代表一个“主题”，这一位上的取值代表对该“主题”的反映程度。

在获取文本数据对应的语义编码后，可以对该语义编码采取不同的处理。例如，由于所获取的文本语义编码为一个浮点值向量，可采用针对向量的常用操作来进行后续处理，如可以计算两个编码的余弦距离，即可表示两段文本的相似度。当然，本申请对获取文本数据的语义编码后，对文本语义编码的后续处理不进行限定。

参见图3，为本申请一实施例提供的文本语义编码方法示意图。如图3所示，对于目标文本“这个功能怎么使用啊”，经过分词处理后可以表示为[这个，功能，怎么，使用，啊]。对每个分词采用词向量进行编码，将词向量矩阵输入双向循环神经网络进行处理，获得输出结果；对输出结果进行线性卷积处理、非线性变换处理、采用最大池化操作消除“变长”，最终得到一个固定长度的向量作为该文本的语义编码。本申请实施例中可对不定长的文本数据进行处理，首先将其表示为词向量矩阵，再利用双向循环神经网络及卷积相关操作获取一个固定长度大小的浮点值编码，用作该文本的语义编码，实现了不定长文本数据到固定长度文本语义编码的转换，并挖掘了文本的语义关系以及主题表达。

参见图6，为本申请又一实施例提供的文本语义编码方法流程图。

S601，根据文本数据生成词向量矩阵。

其中，根据文本数据生成词向量矩阵可以包括：

S601A，获取文本数据。其中，所述文本数据具体为不定长文本数据。具体实现可以参见图2所示的S201A而实现。

S601B，对所述文本数据进行分词处理，获得词语序列。具体实现可以参见图2所示的S201B而实现。

S601C，确定所述词语序列中的每个词语对应的词向量，生成词向量矩阵。具体实现可以参见图2所示的S201C而实现

S602，根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量。

具体实现时，根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量可以包括：将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量。进一步地，可以将所述词向量矩阵输入双向循环神经网络，采用长短期记忆网络LSTM算子进行计算，通过前向处理得到各词向量与上文的语义依赖关系，通过后向处理得到个词向量与下文的语义依赖关系，将各词向量与上、下文的语义依赖关系作为输出向量。当然，也可以采用其他方式获得输出向量，在此不进行限定。

S603，根据所述输出向量，获得与主题相关的卷积处理结果。

具体实现时，可以采用卷积核对所述输出向量进行线性卷积操作；所述卷积核与主题相关；对所述线性卷积操作结果进行非线性变换处理，获得卷积处理结果。

S604，根据所述卷积处理结果，获得固定长度的向量作为所述文本数据的语义编码，以用于表征所述文本数据的主题。

具体实现时，可以对卷积处理结果进行最大池化操作处理，以消除所述结果的变长，获得固定长度的浮点值向量作为该文本数据的语义编码；其中，所述向量的每个数值用于表示该文本对主题的反映程度。

下面对本申请实施例提供的方法对应的设备进行介绍。

参见图4，为本申请一实施例提供的文本语义编码装置示意图。

一种文本语义编码装置400，包括：

词向量矩阵生成单元401，用于根据文本数据，生成词向量矩阵。其中，所述词向量矩阵生成单元401的具体实现可以参照图2所示实施例的S201而实现。

预处理单元402，用于将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量。其中，所述预处理单元402的具体实现可以参照图2所示实施例的S202而实现。

卷积处理单元403，用于对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；其中，所述卷积处理单元403的具体实现可以参照图2所示实施例的S203而实现。

池化处理单元404，用于对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。其中，所述池化处理单元404的具体实现可以参照图2所示实施例的S204而实现。

在一些实施方式中，所述词向量矩阵生成单元401具体可以包括：获取单元，用于获取文本数据。其中，所述获取单元的具体实现可以参照图2所示实施例的S201A而实现。

分词单元，用于对所述文本数据进行分词处理，获得词语序列。其中，所述分词单元的具体实现可以参照图2所示实施例的S201B而实现。

矩阵生成单元，用于确定所述词语序列中的每个词语对应的词向量，生成词向量矩阵。其中，所述矩阵生成单元的具体实现可以参照图2所示实施例的S201C而实现。

在一些实施方式中，所述预处理单元具体用于：将所述词向量矩阵输入双向循环神经网络，采用长短期记忆网络LSTM算子进行计算，通过前向处理得到各词向量与上文的语义依赖关系，通过后向处理得到个词向量与下文的语义依赖关系，将各词向量与上、下文的语义依赖关系作为输出向量。

在一些实施方式中，所述卷积处理单元包括：

卷积单元，用于采用卷积核对所述输出向量进行线性卷积操作；所述卷积核与主题相关；

非线性变换单元，用于对所述线性卷积操作结果进行非线性变换处理，获得卷积处理结果。

在一些实施方式中，所述卷积单元具体用于：采用一组卷积核F，利用以下公式对所述输出向量H进行卷积操作：

c _ji＝∑(H _:,i:i+m-1·F _j)+b _i

在一些实施方式中，所述池化单元具体用于对卷积处理结果进行最大池化操作处理，以消除所述结果的变长，获得固定长度的浮点值向量作为该文本数据的语义编码；其中，所述向量的每个数值用于表示该文本对主题的反映程度。

参见图5，是本申请另一实施例提供的文本语义编码的装置的框图。包括：至少一个处理器501(例如CPU)，存储器502和至少一个通信总线503，用于实现这些装置之间的连接通信。处理器501用于执行存储器502中存储的可执行模块，例如计算机程序。存储器502可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器501执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据文本数据，生成词向量矩阵；将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

在一些实施方式中，处理器501具体用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：将所述词向量矩阵输入双向循环神经网络，采用长短期记忆网络LSTM算子进行计算，通过前向处理得到各词向量与上文的语义依赖关系，通过后向处理得到个词向量与下文的语义依赖关系，将各词向量与上、下文的语义依赖关系作为输出向量。

在一些实施方式中，处理器501具体用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：采用卷积核对所述输出向量进行线性卷积操作；所述卷积核与主题相关；对所述线性卷积操作结果进行非线性变换处理，获得卷积处理结果。

在一些实施方式中，处理器501具体用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：对卷积处理结果进行最大池化操作处理，以消除所述结果的变长，获得固定长度的浮点值向量作为该文本数据的语义编码；其中，所述向量的每个数值用于表示该文本对主题的反映程度。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种机器可读介质，例如该机器可读介质可以为非临时性计算机可读存储介质，当所述介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种文本语义编码方法，所述方法包括：根据文本数据，生成词向量矩阵；将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。

参见图7，为本申请另一实施例提供的文本语义编码装置示意图。

一种文本语义编码装置700，包括：

词向量矩阵生成单元701，用于根据文本数据生成词向量矩阵。其中，词向量矩阵生成单元701的具体实现可以参照图6所示实施例的S601而实现。

输出向量获得单元702，用于根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量。其中，输出向量获得单元702的具体实现可以参照图6所示实施例的S602而实现。

卷积处理单元703，用于根据所述输出向量，获得与主题相关的卷积处理结果。其中，卷积处理单元703的具体实现可以参照图6所示实施例的S603而实现。

语义编码获得单元704，用于根据所述卷积处理结果，获得固定长度的向量作为所述文本数据的语义编码，以用于表征所述文本数据的主题。其中，语义编码获得单元704的具体实现可以参照图6所示实施例的S604而实现。

其中，本申请装置各单元或模块的设置可以参照图2、图3和图6所示的方法而实现，在此不赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种文本语义编码方法，其特征在于，包括：

根据文本数据生成词向量矩阵；

将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；

对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；

对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。
根据权利要求1所述的方法，其特征在于，所述将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量包括：

将所述词向量矩阵输入双向循环神经网络，采用长短期记忆网络LSTM算子进行计算，通过前向处理得到各词向量与上文的语义依赖关系，通过后向处理得到个词向量与下文的语义依赖关系，将各词向量与上、下文的语义依赖关系作为输出向量。
根据权利要求1所述的方法，其特征在于，所述对所述输出向量进行卷积操作，获得卷积处理结果包括：

采用卷积核对所述输出向量进行线性卷积操作；所述卷积核与主题相关；

对所述线性卷积操作结果进行非线性变换处理，获得卷积处理结果。
根据权利要求1所述的方法，其特征在于，所述对所述卷积处理结果进行最大池化操作包括：

对卷积处理结果进行最大池化操作处理，以消除所述结果的变长，获得固定长度的浮点值向量作为该文本数据的语义编码；其中，所述向量的每个数值用于表示该文本对主题的反映程度。
根据权利要求1所述的方法，其特征在于，所述文本数据为不定长文本数据。
一种文本语义编码方法，其特征在于，包括：

根据文本数据生成词向量矩阵；

根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量；

根据所述输出向量，获得与主题相关的卷积处理结果；

根据所述卷积处理结果，获得固定长度的向量作为所述文本数据的语义编码，以用于表征所述文本数据的主题。
一种文本语义编码装置，其特征在于，包括：

词向量矩阵生成单元，用于根据文本数据生成词向量矩阵；

预处理单元，用于将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；

卷积处理单元，用于对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；

池化处理单元，用于对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。
一种文本语义编码装置，其特征在于，包括：

词向量矩阵生成单元，用于根据文本数据生成词向量矩阵；

输出向量获得单元，用于根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量；

卷积处理单元，用于根据所述输出向量，获得与主题相关的卷积处理结果；

语义编码获得单元，用于根据所述卷积处理结果，获得固定长度的向量作为所述文本数据的语义编码，以用于表征所述文本数据的主题。
一种用于文本语义编码的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据文本数据生成词向量矩阵；

将所述词向量矩阵输入双向循环神经网络进行预处理操作，获得用于表示词语上下文语义关系的输出向量；

对所述输出向量进行卷积操作，获得卷积处理结果；所述卷积处理结果与主题相关；

对所述卷积处理结果进行池化操作，以获得固定长度的向量作为所述文本数据的语义编码，所述语义编码用于表征所述文本数据的主题。
一种用于文本语义编码的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据文本数据生成词向量矩阵；

根据所述词向量矩阵，获得用于表示词语上下文语义关系的输出向量；

根据所述输出向量，获得与主题相关的卷积处理结果；

根据所述卷积处理结果，获得固定长度的向量作为所述文本数据的语义编码，以用于表征所述文本数据的主题。
一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至5中一个或多个所述的文本语义编码方法。