WO2022022049A1

WO2022022049A1 - 文本长难句的压缩方法、装置、计算机设备及存储介质

Info

Publication number: WO2022022049A1
Application number: PCT/CN2021/097418
Authority: WO
Inventors: 李小娟; 徐国强
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-27
Filing date: 2021-05-31
Publication date: 2022-02-03
Also published as: CN111898363A; CN111898363B

Abstract

一种文本长难句的压缩方法、装置、计算机设备及计算机可读存储介质，涉及人工智能技术领域。该方法包括：获取待处理的文本信息（S101）；根据第一预置神经网络模型确定所述文本信息的类型（S102）；若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句（S103），所述方法实现了降低意图识别时由于语句过长，长短句语义匹配准确率不高的问题。

Description

文本长难句的压缩方法、装置、计算机设备及存储介质

本申请要求于2020年07月27日提交中国专利局、申请号为CN202010733600.4、发明名称为“文本长难句的压缩方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本长难句的压缩方法、装置、计算机设备及计算机可读存储介质。

背景技术

任务型语音智能对话系统在实际应用中的频率越来越高，用户的输入语音通过语音识别器(ASR)转为文本，然后由自然语言理解组件(NLU)进行语义理解，对话管理器(DM)保持会话历史及状态，管理会话节点的流转，自然语言生成器(NLG)则根据对话管理器的对话策略生成对话的文本，最后通过语音合成器(TTS)合成语音输出给用户。

目前，发明人意识到由于NLG生成的话术存在生涩且不准确的问题，常规的做法是人工整理一批语料库，即问答语料库，系统将客户可能问到的问题整理精简为一个问答库，当用户的输入匹配到语料库中的某条问题时，即返回该问题对应的答案，则将意图识别的问题转化为文本匹配的问题。但在实际过程中发现，在与客户的对话中，当询问一些逾期性的问题时，用户的回答通常会存在口语化严重、逻辑混乱、语句重复，不能准确提取用户语句中的核心句。

发明内容

本申请的主要目的在于提供一种文本长难句的压缩方法、装置、计算机设备及计算机可读存储介质，旨在与客户的对话中，当询问一些逾期性的问题时，用户的回答通常会存在口语化严重、逻辑混乱、语句重复，不能准确提取用户语句中的核心句的技术问题。

第一方面，本申请提供一种文本长难句的压缩方法，所述文本长难句的压缩方法包括以下步骤：

获取待处理的文本信息；

根据第一预置神经网络模型确定所述文本信息的类型；

若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

第二方面，本申请还提供一种文本长难句的压缩装置，所述文本长难句的压缩装置包括：

获取模块，用于获取待处理的文本信息；

确定模块，用于根据第一预置神经网络模型确定所述文本信息的类型；

压缩获取模块，用于若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的文本长难句的压缩方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的文本长难句的压缩方法的步骤。

本申请提供一种文本长难句的压缩方法、装置、计算机设备及计算机可读存储介质，通过获取待处理的文本信息；根据第一预置神经网络模型确定所述文本信息的类型；若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句，实现了降低意图识别时由于语句过长，长短句语义匹配准确率不高的问题。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本长难句的压缩方法的流程示意图；

图2为图1中的文本长难句的压缩方法的子步骤流程示意图；

图3为图1中的文本长难句的压缩方法的子步骤流程示意图；

图4为本申请实施例提供的另一种文本长难句的压缩方法的流程示意图；

图5为本申请实施例提供的一种文本长难句的压缩装置的示意性框图；

图6为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种文本长难句的压缩方法、装置、计算机设备及计算机可读存储介质。其中，该文本长难句的压缩方法可应用于终端设备中，该终端设备可以手机、平板电脑、笔记本电脑、台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种文本长难句的压缩方法的流程示意图。

如图1所示，该文本长难句的压缩方法包括步骤S101至步骤S103。

步骤S101、获取待处理的文本信息；

获取文本信息，将获取到的文本信息作为待处理的文本信息，其中，文本信息包括多段语句，例如，“随你怎么说。你不要，你不要说一个小时，因为，我，因为我不是说我不想给你哈，不想张嘴，就那个如果到账的话，马上就给那个啥了，好不好？给你打电话给你说”。获取方式包括，在接收到用户的语音信息时，将该语音信息转换为文本信息。

步骤S102、根据第一预置神经网络模型确定所述文本信息的类型；

根据第一预置神经网络模型确定文本信息的类型，该类型包括无关类型和核心类型。示范例为，将文本信息输入到第一预置神经网络模型，第一预置神经网络模型识别到文本信息中的关键字词，确定包含该关键字词的语句为无关类型。例如，当识别到文本信息中的语句包含那个、啥了，确定该语句为无关类型。第一预置模型为预先通过标识语句训练得到的神经网络模型。

在一实施例中，具体地，参照图2，步骤S102包括：子步骤S1021至子步骤S1025。

子步骤S1021、将所述文本信息输入第一预置神经网络模型；

在获取到文本信息，将该文本信息输入到预置第一神经网络模型。该文本信息包括语句等。例如，随你怎么说、哎我跟你们说我这个电话是以前单位给的上一位主人是谁我还真不知道等语句。获取第一预置神经网络模型的输入层，将获取到的，随你怎么说、哎我跟你们说我这个电话是以前单位给的上一位主人是谁我还真不知道等语句输入到第一预置神经网络模型的输入层。

子步骤S1022、通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；

在获取到的文本信息为随你怎么说时，通过第一预置神经网络模型中的维度为b的外部预训练的词向量层将输入的我没听清楚转化为特征矩阵表示中的文本，先以字进行分隔，得到“我、没、听、清、楚”，通过外部预训练的中文字向量，将该句话映射到该向量的b维空间，得到该段文本的特征矩阵。

子步骤S1023、基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；

在得到该文该文本信息的特征矩阵上，通过第一预置神经网络模型不同大小的卷积核来进行卷积操作，以提取不同的文本上下文特征信息，类似于N-gram语言模型中的不同的n，例如句子“我没听清楚”，不同的n对应的上下文包括：

n＝2，我没，没听，听清，清楚

n＝3，我没听，没听清，听清楚

n＝4，我没听清，没听清楚

将特征矩阵分别与不同大小的卷积核进行卷积操作，得到每个卷积核卷积操作对应的特征向量，根据每个卷积核卷积操作对应的特征向量，得到该文本信息对应的目标特征向量。

在一实施例中，得到所述文本信息的目标特征向量信息包括：将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。

将特征矩阵分别与不同大小的卷积核进行卷积操作，得到每个卷积核卷积操作对应的特征向量(feature maps)，一个卷积的结果对应一个feature map。例如，其中一个大小为3*5的卷积核，将该卷积核在特征矩阵是进行卷积操作，即将卷积核与特征矩阵对应位置的元素进行相乘并求和，一次计算以后卷积核向下移动一步，继续相同的操作，直到到达底端，将得到的和拼接起来，形成一个feature map。

例如，1×0+1×0+(-1)×0+0×0+(-1)×1+1×0+0×2+1×0+(-1)×0+(-1)×0+1×0+1×1+1×1+(-1)×0＝1，得到第一目标特征，获取下一位置处的元素进行计算，分别得到第二目标特征1和第三目标特征-4从而进行拼接，得到目标特征向量信息。

子步骤S1024、根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；

通过第一预置神经网络模型中一维最大池化(1-max pooling)操作提取每个目标特征向量信息(feature map)中的最大值，然后通过拼接(concat)操作，得到最终的特征表达向量。再对特征表达向量进行分类，得到该文本信息的类型概率值。从而确定第一预置神经网络模型输出该文本信息的概率值。

在一实施例中，确定所述第一预置神经网络模型输出所述文本信息的类型概率值包括：通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。

通过每个目标特征向量信息(feature map)中的最大值，然后通过拼接(concat)操作，得到最终的特征表达向量。获取第一预置神经网络模型中的概率公式

通过该公式对该文本信息的特征向量进行分类，其中，y _i为(1，2)、h为度量、x为输入的类型。得到两种类型，即无关类别和核心类别的概率值。

子步骤S1025、基于所述类型概率值，确定所述文本信息的类型。

在获取到该文文本信息的概率值时，通过该概率值来确定该文本信息的类型。该文本的类型包括无关类型和核心类型。例如，当概率值大于预置概率值时，确定该文本类型为无关类型；当概率值小于或等于预置概率值时，确定该文本类型为核心类型。或者，当概率值大于预置概率值时，确定该文本类型为核心类型；当概率值小于或等于预置概率值时，确定该文本类型为无关类型。

在一实施例中，确定所述文本信息的类型包括：将所述无关类型的概率值和所述核心类型的概率值进行比对；若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。

在分别获取到无关类型和核心类型的概率值时，将获取到的无关类型的概率值和核心类型的概率值进行比对，例如，获取到的无关类型的概率值为0.6、核心类型的概率值为0.4，则确定该文本信息的类型为无关类型；若获取到的无关类型的概率值为0.3，核心类型的概率值为0.7，则确定该文本信息的类型为核心类型。

步骤S103、若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

若确定该文本信息类型为核心类型，通过第二预置模型识别将文本信息进行分词。获取该分词中属性为主语、谓语、宾语等目标分词，将该目标分词进行组合，从而获取该文本信息的核心句。例如，文本信息为“哎我跟你们说我这个电话是以前单位给的上一位主人是谁我还真不知道”，通过第二预置模型将“哎我跟你们说我这个电话是以前单位给的上一位主人是谁我还真不知道”进行分词，分到分词后的文本为“哎、我、跟、你们、说、我、这个、电话、是、以前、单位、给的、上一位主人、是谁、我还真不知”，确定这个句子中的主谓宾，得到组合后的核心句为“我这个电话是以前单位给的，上一位主人是谁不知”。

在一实施例中，具体地，参照图3，步骤S103包括：子步骤S1031至子步骤S1033。

子步骤S1031、将所述文本信息输入第二预置神经网络模型，通过所述第二预置神经网络对所述文本信息进行分词；

在确定该文本信息为核心类型时，将该文本信息输入第二预置神经网络模型，第二预置神将网络模型通过大量待标签的文本信息训练得到的，其中，多大量文本信息中的词进行标注，通过依存句法中各个词之间为位置以及属性关系对文本信息中的词进行标注。依存句法通过分析语言单位内成分之前的依存关系解释其句法结构，主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者。基于第二预置神经网络中的分词表或分词库来对该文本信息进行分词。

子步骤S1032、获取各个所述分词的权重矩阵，以确定各个所述分词之间的属性关系；

通过第二预置神经网络模型中的隐藏层，获取各个分词的权重矩阵。例如，在获取到每一个分词的权重矩阵，基于权重矩阵的映射，获取每一个分词的属性向量特征信息。基于每一个分词的属性向量特征信息，确定各个分词之间属性关系。例如，主谓关系、定中关系、左附加关系、右附加关系、动宾关系。一个句子中只有一个成分是独立的；句子的其他成分都从属于某一成分；任何一个成分都不能依存于两个或两个以上的成分；如果成分A直接从属成分B，而成分C在句子中位于A和B之间，那么，成分C或者从属于A，或者从属于B，或者从属于A和B之间的某一成分；中心成分左右两边的其他成分相互不发生关系。

子步骤S1033、基于各个所述分词之间的属性关系，获取所述第二预置神经网络模型输出所述文本信息的核心句。

在获取到每一个分词主谓关系、定中关系、左附加关系、右附加关系、动宾关系，通过确定各个所述分词之间是否存在的主谓关系、定中关系、左附加关系、右附加关系、动宾关系；将存在所述主谓关系、定中关系、左附加关系、右附加关系、动宾关系的分词进行组合，确定待输出的核心句。通过第二预置神经网络模型输出该待输出的核心句，将待输出的核心句作为该文本信息的核心句。

在本申请实施例中，获取待处理的文本信息，根据第一预置神经网络模型确定该文本信息的类型。若确定该文本信息的类型为核心类型，则根据第二预置神经网络模型对文本信息进行压缩，获取该文本信息的核心句。实现可以降低意图识别时由于语句过长，长短句语义匹配准确率不高的问题；同时通过抽取关键信息，可以去除句子的冗余信息，保留关键信息从而提升意图识别准确率。

请参照图4，图4为本申请实施例提供的另一种数据获取方法的流程示意图。

如图4所示，该数据获取方法包括步骤S201至步骤S205。

步骤S201、获取待处理的文本信息；

步骤S202、根据第一预置神经网络模型确定所述文本信息的类型；

步骤S203、若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

步骤S204、将所述核心句与预置问答库进行匹配，获取与所述核心句相匹配的问答文本；

在获取到文本信息的核心句时，将该核心句与预置问答库进行匹配。预置问答库包括文答文本，其中，问答文本包括提问和对应的话术信息。通过将该核心句与预置问答库中进行匹配，获取与该核心句相匹配的问答文本。若获取到多个问答文本时，获取各个问答文本与该核心句相匹配的频率，将各个问答文本与该核心句相匹配的频率进行对比，获取频率最大对应的问答文本。

步骤S205、基于所述问答文本，向用户发送所述问答文本中的话术信息。

在获取到待核心句相匹配的问答文本时，向用户发送问答文本中的话术信息。发送的方式包括将该话术信息以文字或图片的形式发送给用户，还了可以将该话术信息转换为语音信息，以语音信息的方式发送给用户。

在本申请实施例中，获取待处理的文本信息，根据第一预置神经网络模型确定该文本信息的类型，若确定该文本信息的类型为核心类型，则根据第二预置神经网络模型对文本信息进行压缩，获取该文本信息的核心句。实现可以降低意图识别时由于语句过长，长短句语义匹配准确率不高的问题；同时通过抽取关键信息，可以去除句子的冗余信息，保留关键信息从而提升意图识别准确率，快速向用户发送对应的语音信息。

请参照图5，图5为本申请实施例提供的一种文本长难句的压缩装置的示意性框图。

如图5所示，该文本长难句的压缩装置400，包括：获取模块401、第一确定模块402、压缩获取模块403。

获取模块401，用于获取待处理的文本信息；

确定模块402，用于根据第一预置神经网络模型确定所述文本信息的类型；

压缩获取模块403，用于若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

其中，确定模块402具体还用于：将所述文本信息输入第一预置神经网络模型；通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；基于所述类型概率值，确定所述文本信息的类型。

其中，确定模块402具体还用于：将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。

其中，确定模块402具体还用于：通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。

其中，确定模块402具体还用于：将所述无关类型的概率值和所述核心类型的概率值进行比对；若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。

其中，压缩获取模块403具体还用于：将所述文本信息输入第二预置神经网络模型，通过所述第二预置神经网络对所述文本信息进行分词；获取各个所述分词的权重矩阵，以确定各个所述分词之间的属性关系；基于各个所述分词之间的属性关系，获取所述第二预置神经网络模型输出所述文本信息的核心句。

其中，文本长难句的压缩装置具体还用于：将所述核心句与预置问答库进行匹配，获取与所述核心句相匹配的问答文本；基于所述问答文本，向用户发送所述问答文本中的话术信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述文本长难句的压缩方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种文本长难句的压缩方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种文本长难句的压缩方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待处理的文本信息；根据第一预置神经网络模型确定所述文本信息的类型；若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。

在一个实施例中，所述处理器在所述根据第一预置模型确定所述文本信息的类型实现时，用于实现：

将所述文本信息输入第一预置神经网络模型；通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；基于所述类型概率值，确定所述文本信息的类型。

在一个实施例中，所述处理器在得到所述文本信息的目标特征向量信息实现时，用于实现：

将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。

在一个实施例中，所述处理器在根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本的类型概率值实现时，用于实现：

通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。

在一个实施例中，所述处理器在确定所述文本信息的类型实现时时，用于实现：

将所述无关类型的概率值和所述核心类型的概率值进行比对；若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。

在一个实施例中，所述处理器在所述根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句实现时，用于实现：

将所述文本信息输入第二预置神经网络模型，通过所述第二预置神经网络对所述文本信息进行分词；获取各个所述分词的权重矩阵，以确定各个所述分词之间的属性关系；基于各个所述分词之间的属性关系，获取所述第二预置神经网络模型输出所述文本信息的核心句。

在一个实施例中，所述处理器在根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句之后实现时，用于实现：

将所述核心句与预置问答库进行匹配，获取与所述核心句相匹配的问答文本；基于所述问答文本，向用户发送所述问答文本中的话术信息。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以下步骤：

获取待处理的文本信息；

根据第一预置神经网络模型确定所述文本信息的类型；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机可读存储介质的具体工作过程可参照本申请文本长难句的压缩方法的各个实施例。

其中，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是预置文答文本的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种文本长难句的压缩方法，其中，包括：

获取待处理的文本信息；

根据第一预置神经网络模型确定所述文本信息的类型；

若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。
如权利要求1所述的文本长难句的压缩方法，其中，所述根据第一预置模型确定所述文本信息的类型，包括：

将所述文本信息输入第一预置神经网络模型；

通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；

基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；

根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；

基于所述类型概率值，确定所述文本信息的类型。
如权利要求2所述的文本长难句的压缩方法，其中，所述得到所述文本信息的目标特征向量信息，包括：

将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；

通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；

将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。
如权利要求2所述的文本长难句的压缩方法，其中，所述根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本的类型概率值，包括：

通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；

将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。
如权利要求4所述的文本长难句的压缩方法，其中，所述确定所述文本信息的类型，包括：

将所述无关类型的概率值和所述核心类型的概率值进行比对；

若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；

若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。
如权利要求1所述的文本长难句的压缩方法，其中，所述根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句，包括：

将所述文本信息输入第二预置神经网络模型，通过所述第二预置神经网络对所述文本信息进行分词；

获取各个所述分词的权重矩阵，以确定各个所述分词之间的属性关系；

基于各个所述分词之间的属性关系，获取所述第二预置神经网络模型输出所述文本信息的核心句。
如权利要求1所述的文本长难句的压缩方法，其中，所述根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句之后，还包括：

将所述核心句与预置问答库进行匹配，获取与所述核心句相匹配的问答文本；

基于所述问答文本，向用户发送所述问答文本中的话术信息。
一种文本长难句的压缩装置，其中，包括：

获取模块，用于获取待处理的文本信息；

确定模块，用于根据第一预置神经网络模型确定所述文本信息的类型；

压缩获取模块，用于若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。
一种计算机设备，其中，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现以下步骤：

获取待处理的文本信息；

根据第一预置神经网络模型确定所述文本信息的类型；

若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。
如权利要求9所述计算机设备，其中，所述处理器在实现所述根据第一预置模型确定所述文本信息的类型时，用于实现：

将所述文本信息输入第一预置神经网络模型；

通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；

基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；

根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；

基于所述类型概率值，确定所述文本信息的类型。
如权利要求10所述计算机设备，其中，所述处理器在实现所述得到所述文本信息的目标特征向量信息时，用于实现：

将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；

通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；

将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。
如权利要求10所述计算机设备，其中，所述处理器在实现所述根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本的类型概率值时，用于实现：

通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；

将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。
如权利要求12所述计算机设备，其中，所述处理器在实现确定所述文本信息的类型时，用于实现：

将所述无关类型的概率值和所述核心类型的概率值进行比对；

若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；

若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。
如权利要求9所述计算机设备，其中，所述处理器在实现所述根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句时，用于实现：

将所述文本信息输入第二预置神经网络模型，通过所述第二预置神经网络对所述文本信息进行分词；

获取各个所述分词的权重矩阵，以确定各个所述分词之间的属性关系；

基于各个所述分词之间的属性关系，获取所述第二预置神经网络模型输出所述文本信息的核心句。
如权利要求9所述计算机设备，其中，所述处理器在实现所述根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句之后，还用于实现：

将所述核心句与预置问答库进行匹配，获取与所述核心句相匹配的问答文本；

基于所述问答文本，向用户发送所述问答文本中的话术信息。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现以下步骤：

获取待处理的文本信息；

根据第一预置神经网络模型确定所述文本信息的类型；

若所述文本信息的类型为核心类型，则根据第二预置神经网络模型对所述文本信息进行压缩，获取所述文本信息的核心句。
如权利要求16所述的计算机可读存储介质，其中，所述处理器在实现所述根据第一预置模型确定所述文本信息的类型时，用于实现：

将所述文本信息输入第一预置神经网络模型；

通过所述第一预置神经网络模型的词向量层将所述文本信息转化为特征矩阵；

基于所述第一预置神经网络模型的卷积核对所述特征矩阵进行卷积操作，提取所述文本信息中的上下文特征信息，得到所述文本信息的目标特征向量信息；

根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本信息的类型概率值；

基于所述类型概率值，确定所述文本信息的类型。
如权利要求17所述的计算机可读存储介质，其中，所述处理器在实现所述得到所述文本信息的目标特征向量信息时，用于实现：

将所述卷积核与所述特征矩阵对应位置的元素进行相乘并求和，得到对应的第一目标特征；

通过所述卷积核与所述特征矩阵的下一位置的元素进行相乘并求和，得到对应的第二目标特征；

将得到的所述第一目标特征和所述第二目标特征进行拼接，生成目标特征向量信息。
如权利要求17所述的计算机可读存储介质，其中，所述处理器在实现所述根据所述目标特征向量信息，确定所述第一预置神经网络模型输出所述文本的类型概率值时，用于实现：

通过所述第一神经网络模型的最大池化，提取所述目标特征向量信息中的最大值，得到所述文本信息的特征表达向量；

将所述特征表达向量进行分类，分别得到无关类型的概率值和核心类型的概率值。
如权利要求19所述的计算机可读存储介质，其中，所述处理器在实现所述确定所述文本信息的类型时，用于实现：

将所述无关类型的概率值和所述核心类型的概率值进行比对；

若所述无关类型的概率值大于所述核心类型的概率值，则确定所述文本信息的类型为无关类型；

若所述无关类型的概率值小于或等于所述核心类型的概率值，则确定所述文本信息的类型为核心类型。