WO2020082890A1

WO2020082890A1 - 一种文本还原方法、装置及电子设备

Info

Publication number: WO2020082890A1
Application number: PCT/CN2019/103103
Authority: WO
Inventors: 周书恒; 刘金星; 祝慧佳; 赵智源; 郭亚
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-10-25
Filing date: 2019-08-28
Publication date: 2020-04-30
Also published as: TW202016765A; TWI749349B; CN109597987A

Abstract

本申请实施例涉及一种文本还原方法、装置及电子设备。文本还原方法包括：获取目标文本；对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

Description

一种文本还原方法、装置及电子设备

技术领域

本申请实施例涉及网络安全技术领域，尤其涉及一种文本还原方法、装置及电子设备。

背景技术

随着互联网的兴起，信息传递的便捷性使得互联网信息量成几何级增长。用户常常会收到互联网灰黑产发送的垃圾信息，比如推销信息、诈骗信息、非法宣传信息等。对于这些垃圾信息，一般可以通过网络平台进行拦截。然而，目前灰黑产为了绕过平台的各种防控手段，会以拆字表达的方式传播垃圾信息。比如正常内容是“我是闪电借款，可以强开借呗5000-10000w”，通过拆字方式表达为“我是闪电亻昔款，可以弓虽开亻昔呗5000-10000w”。

有鉴于此，为了提高网络平台针对垃圾信息的识别能力，如何将拆字表达的变异文本还原回正常文本，是本申请所要解决的技术问题。

发明内容

本申请实施例目的是提供一种文本还原方法、装置及电子设备，能够将拆字表达的变异文本还原回正常文本。

为了实现上述目的，本申请实施例是这样实现的：

第一方面，提供一种文本还原方法，包括：

获取目标文本；

对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

第二方面，提供了一种文本还原装置，包括：

获取模块，获取目标文本；

分词模块，对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

匹配模块，基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

评估模块，将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

选取模块，基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

获取目标文本；

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取目标文本；

由以上本申请实施例提供的技术方案可见，本申请实施例首先对目标文本进行分词处理，确定出无法组成分词的字符，这些无法组成分词的字符作为拆字匹配的对象进行匹配还原，得到至少一种匹配后分词文本。之后，通过预设语言模型对至少一种匹配后分词文本进行置信度的评估，并基于置信度择优筛选出最优的匹配后分词文本作为目标文本的还原文本。本申请实施例的方案能够有效将拆字表达的变异文本还原成正常文本，可提高网络平台对垃圾信息的识别能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本还原方法的步骤示意图；

图2为本申请实施例提供的文本还原方法在实际应用中的流程示意图；

图3为本申请实施例提供的电子设备的硬件结构示意图；

图4为本申请实施例提供的文本还原装置的逻辑结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如前所述，目前灰黑产会发送拆字方式表达的垃圾信息，以绕过网络平台的监管。有鉴于此，本申请旨在提供一种能够将拆字表达的变异文本还原回正常文本的技术方案，可提高网络平台对垃圾信息的识别能力。

图1是本申请的一个实施例文本还原方法的流程图。图1的文本还原方法可由文本还原装置执行。该方法包括：

步骤S102，获取目标文本。

针对步骤S102而言：

本申请实施例并不对目标文本的来源作具体限定。

作为示例性介绍，目标文本可以是从网络社交平台中获取到的用户发送的文本信息。

比如，可以从网络购物平台中获取用户发送的评价信息、聊天信息等。

应理解，但凡是网络平台需要监管的信息对象，都可以作为目标文本。

步骤S104，对目标文本进行分词处理，得到目标文本分词后的分词文本，分词文本包含无法组成分词的字符。

针对步骤S104而言：

本实施例可以使用现有任意分词方法，对目标文本进行分词处理，从而确定出目标文本中无法组成分词的字符。

作为示例性介绍，确定出的无法组成分词的字符可以包括：汉字、汉字的偏旁、汉字的字根中任意一者，这些无法组成分词的字符较高概率是以拆字方式表达的，是后续进行拆字识别的重点对象。

步骤S106，基于拆字样本集，对分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本。

针对步骤S106而言：

拆字样本集包括预先设置的拆字表达形式。比如，“花口贝”对应“花呗”、“借口贝”对应“借呗”、“亻昔款”对应“借款”、“亻昔钱”对应“借钱”等针对某些词语的拆字表达形式，也可以是“亻昔”对应借、“口贝”对应“呗”等针对某一汉字的拆字表达形式。

本步骤中，通过拆字样本集，可以对分词文本中无法组成分词的字符进行拆字匹配，还原回正常表达的信息。

具体地，可以对分词文本中行方向相邻的无法组成分词的字符进行匹配。

比如，分词文本为“六合采彡月贝兼百万￥”，拆字样本集记录“采彡”对应为“彩”，“贝兼”对应为“赚”。可以知道的“采”、“彡”、“月”、“贝”、“兼”“￥”是分词文本中无法确定为分子的字符，则基于拆字样本集对上述相邻的“采”、“彡”、“月”、“贝”“、兼”进行匹配，得到的匹配后分子文本为：“六合彩月赚百万”。

同理，也可以对分词文本中列方向相邻的无法组成分词的字符进行匹配；

比如，分词文本为：“加手机号xx，可低自套现

心”；

则可以基于拆字样本集，对列方向相邻的“自”、“心”进行匹配，确定到的匹配后分子文本为：“加手机号xx，可低息套现”。

步骤S108，将至少一组匹配后分词文本输入预设语言模型，得到该至少一组匹配后分词文本的置信度；

针对步骤108而言：

应理解，基于拆字样本集所确定到的匹配后分词文本并不一定是正确的还原文本，因此需要使用预设语言模型评估对匹配后分词文本的置信度进行评估。匹配后分词文本的置信度的大小，能够反映该匹配后分词文本的还原准确率。

应理解，预设语言模型是根据实际的应用场景灵活设置的，本申请实施例对此不作具体限定。

作为示例性介绍，假设本申请实施例的方案用于还原网络中以拆字方式表达的垃圾信息。预设语言模型可以通过垃圾信息样本集训练得到。在将至少一组匹配后分词文本输入预设语言模型后，预设语言模型基于垃圾信息的评估标准，对至少一组匹配后分词文本的置信度进行打分。其中，匹配后分词文本的置信度分值越高，则越可能是垃圾信息，对应的还原准确率也越高。

或者，本申请实施例的预设语言模型将正确语句的表达方式作为评估标准，对至少一组匹配后分词文本的置信度进行打分。比如，基于“主、谓、宾”的正确语句结构，对至少一组匹配后分词文本的置信度进行打分。其中，匹配后分词文本的置信度分值越高，则对应的还原准确率也越高。

由于预设语言模型的实现方式并不唯一，本文不再举例赘述。

步骤S110，基于上述至少一组匹配后分词文本的置信度，从该至少一种匹配后分词文本中选取出目标文本的还原文本。

针对步骤S110而言：

本步骤可以从上述至少一种匹配后分词文本中选取置信度最高的一者作为目标文本的还原文本。

本申请实施例中，首先对目标文本进行分词处理，确定出无法组成分词的字符，这些无法组成分词的字符作为拆字匹配的对象进行匹配还原，得到至少一种匹配后分词文本。之后，通过预设语言模型对至少一种匹配后分词文本进行置信度的评估，并基于置信度择优筛选出最优的匹配后分词文本作为目标文本的还原文本。本申请实施例的方案能够有效将拆字表达的变异文本还原成正常文本，可提高网络平台对垃圾信息的识别能力。

下面对本申请实施例的文本还原方法在实际应用中的流程进行详细介绍。

本申请实施例的文本还原方法的主要流程包括：

步骤一，获取目标文本；

本步骤中，可以从网络社交平台(比如通讯软件、网购软件)中，获取由用户发送的目标文本。

作为示例性介绍，假设目标文本的内容为“需要亻昔钱，力口我手机号”。显然，该目标文本是以拆字方式表达的垃圾信息。

步骤二，确定分词文本；

本步骤中，可以对“需要亻昔钱，力口我手机号”进行分词处理。为方便理解，分词之间以空格分隔，对应得到的分词文本为：“需要亻昔钱，力口我手机号”。

应理解，上述目标文本中“需要”、“我”、“手机号”可以确定为分词，“亻”、“昔”、“钱”、“力”、“口”为无法作为分词的字符。

步骤三，拆字匹配；

本步骤中，利用拆字表资源对上述分词文本进行拆字匹配，其中“亻昔”可以匹配为“借”，“力口”可以匹配为“加”，“口我”可以匹配为匹配“哦”，基于拆字表资源，最终得到的匹配后分词文本包括以下两种：

第一种为“需要借钱，加我手机号”；

第二种为“需要借钱，力哦手机号”。

步骤四，置信度评估；

本步骤中，将步骤三种的两种匹配后分词文本输入预设语言模型，以计算出“需要借钱，加我手机号”的置信度P1以及“需要借钱，力哦手机号”的置信度P2。

其中，预设语言模型可以是分类模型，由非法借钱的垃圾信息样本训练得到。

比如，可以将一些与非法借款常见的特征作为预设语言模型的输入向量，并通过垃圾信息样本对预设语言模型进行训练，从而不断优化输入向量的权重。

在将“需要借钱，加我手机号”和“需要借钱，力哦手机号”输入至训练完成的预设语言模型后，显然前者具有非法借钱常见特征“加我手机号”，因此输入分类模型后，可以得到更高的置信度。

需要说明的是，本申请实施例并不预设语言模型所采用函数作具体限定。但凡是用于分类的函数都可以适用于本申请实施例的预设语言模型。

步骤五，概率比较；

本步骤中，对第一种匹配后分词文本的置信度和第二种匹配后分词文本的置信度进行大小比较(P1＞P2)。显然，置信度较大的一者作为正确的还原文本的概率更高。

步骤六，还原文本输出；

本步骤中，基于步骤五的比较结果(P1＞P2)，最终输出的还原文本为“需要借钱，加我手机号”。

综上所述，本申请实施例的文本还原方法可以识别目标文本的拆字表示的字符，并进行匹配还原。在具体实施时，先对目标文本进行分词处理，可以仅将无法作为分词的字符作为拆字匹配的对象，从而有效降低匹配次数，并提高了匹配的准确率。之后，再结合语言模型进一步择优筛选最佳的匹配后分词文本作为目标文本的文本。整个方案的计算简单，需要占用处理资源相对较少，因此特别适用于网络平台识别拆字表达的垃圾信息。

图3是本申请的一个实施例电子设备的结构示意图。请参考图3，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成问答对数据挖掘装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取目标文本；

本申请图1所示实施例揭示的文本还原方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1所示的方法，并实现文本还原装置在图1、图2所示实施例的功能，本文不再进行赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下方法：

获取目标文本；

应理解，本申请的计算机可读存储介质在本处理执行时，可以实现文本还原装置在图1、图2所示实施例的功能，本文不再进行赘述。

图4是本申请的一个实施例文本还原装置400的结构示意图，包括：

获取模块410，获取目标文本；

分词模块420，对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

匹配模块430，基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

评估模块440，将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

选取模块450，基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

本申请实施例首先对目标文本进行分词处理，确定出无法组成分词的字符，这些无法组成分词的字符作为拆字匹配的对象进行匹配还原，得到至少一种匹配后分词文本。之后，通过预设语言模型对至少一种匹配后分词文本进行置信度的评估，并基于置信度择优筛选出最优的匹配后分词文本作为目标文本的还原文本。本申请实施例的方案能够有效将拆字表达的变异文本还原成正常文本，可提高网络平台对垃圾信息的识别能力。

可选地，作为一个实施例，匹配模块430具体用于：

基于拆字样本资源，对所述分词文本中行方向相邻的无法组成分词的字符进行匹配。

可选地，作为一个实施例，匹配模块430具体用于：

基于拆字样本资源，对所述分词文本中行列向相邻的无法组成分词的字符进行匹配。

可选地，作为一个实施例，选取模块450具体用于：

从所述至少一种匹配后分词文本中选取置信度最高的一者作为所述目标文本的还原文本。

可选地，作为一个实施例，所述分词文本中无法组成分词的字符包括：汉字、汉字的偏旁、汉字的字根中任意一者。

可选地，作为一个实施例，所述预设语言模型基于垃圾信息样本集训练得到。

可选地，作为一个实施例，获取模块410具体用于：

从网络社交平台中，获取用户发送的目标文本。

应理解，本申请实施例的文本还原装置可执行图1的方法，并实现该方法在图1、图2所示实施例的功能，本文不再进行赘述。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

一种文本还原方法，包括：

获取目标文本；

对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。
根据权利要求1所述的文本还原方法，

基于拆字样本资源，对所述分词文本中无法组成分词的字符进行匹配，包括：

基于拆字样本资源，对所述分词文本中行方向相邻的无法组成分词的字符进行匹配。
根据权利要求1所述的文本还原方法，

基于拆字样本资源，对所述分词文本中无法组成分词的字符进行匹配，包括：

基于拆字样本资源，对所述分词文本中列方向相邻的无法组成分词的字符进行匹配。
根据权利要求1所述的文本还原方法，

基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本，包括：

从所述至少一种匹配后分词文本中选取置信度最高的一者作为所述目标文本的还原文本。
根据权利要求1所述的文本还原方法，

所述分词文本中无法组成分词的字符包括：汉字、汉字的偏旁、汉字的字根中任意一者。
根据权利要求1所述的文本还原方法，

所述预设语言模型基于垃圾信息样本集训练得到。
根据权利要求1所述的文本还原方法，

获取目标文本，包括：

从网络社交平台中，获取用户发送的目标文本。
一种文本还原装置，包括：

获取模块，获取目标文本；

分词模块，对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

匹配模块，基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

评估模块，将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

选取模块，基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。
一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：

获取目标文本；

对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取目标文本；

对所述目标文本进行分词处理，得到所述目标文本分词后的分词文本，所述分词文本包含无法组成分词的字符；

基于拆字样本集，对所述分词文本中无法组成分词的字符进行匹配，得到至少一种匹配后分词文本；

将所述至少一组匹配后分词文本输入预设语言模型，得到所述至少一组匹配后分词文本的置信度；

基于所述至少一组匹配后分词文本的置信度，从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。