WO2017117782A1

WO2017117782A1 - 网络信息的分词处理方法及系统

Info

Publication number: WO2017117782A1
Application number: PCT/CN2016/070406
Authority: WO
Inventors: 马岩
Original assignee: 马岩
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2017-07-13
Also published as: CN105723361A

Abstract

一种网络信息的分词处理方法及系统，所述方法包括如下步骤：对网络信息进行初步分词处理得到初步分词结果（101）；将初步分词处理的结果记录在初步结果列表中（102）；将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果（103）。该方法具有分词效果好的优点。

Description

网络信息的分词处理方法及系统

技术领域

本发明涉及互联网领域，尤其涉及一种网络信息的分词处理方法及系统。

背景技术

网络是由节点和连线构成，表示诸多对象及其相互联系。在数学上，网络是一种图，一般认为专指加权图。网络除了数学定义外，还有具体的物理含义，即网络是从某种相同类型的实际问题中抽象出来的模型。在计算机领域中，网络是信息传输、接收、共享的虚拟平台，通过它把各个点、面、体的信息联系到一起，从而实现这些资源的共享，网络是人类发展史来最重要的发明，提高了科技和人类社会的发展。

现有的分词处理的方法对词汇的处理一般都是通过比对或符号等方式来处理，此方式对于正常的词汇处理没有问题，但是对于人名的处理来说，因为人名没有任何的特性，所以其处理会不准确。

技术问题

本申请提供一种网络信息的分词处理方法。其解决现有技术的技术方案对人名识别不准确的缺点。

技术解决方案

一方面，提供一种网络信息的分词处理方法，所述方法包括如下步骤：

对网络信息进行初步分词处理得到初步分词结果；

将初步分词处理的结果记录在初步结果列表中；

将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。

可选的，所述方法还包括：

将最终的人名识别结果替换初步结构列表中的人名的词汇。

可选的，所述方法还包括：

如增加后的人名未出现在初步结构列表中，则初步结构列表中人名为最终的人名识别结果。

第二方面，提供一种网络信息的分词处理系统，所述系统包括：

分词单元，用于对网络信息进行初步分词处理得到初步分词结果；

记录单元，用于将初步分词处理的结果记录在初步结果列表中；

校验单元，用于将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。

可选的，所述系统还包括：

更新单元，用于将最终的人名识别结果替换初步结构列表中的人名的词汇。

可选的，所述校验单元，还用于如增加后的人名未出现在初步结构列表中，则初步结构列表中人名为最终的人名识别结果。

有益效果

本发明提供的技术方案对网络信息进行初步分词处理后，将特定数量的词汇增加后面一个字后再次比对，从来达到对人名进行有效识别的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一较佳实施方式提供的一种网络信息的分词处理方法的流程图；

图2为本发明第二较佳实施方式提供的一种网络信息的分词处理系统的结构图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明第一较佳实施方式提出的一种网络信息的分词处理方法，该方法如图1所示，包括如下步骤：

步骤S101、对网络信息进行初步分词处理得到初步分词结果；

上述步骤中的初步分词处理的方式可以有多种，例如百度分词处理方法，当然也可以为其他的现有技术的方法来进行初步分词处理。

步骤S102、将初步分词处理的结果记录在初步结果列表中；

步骤S103、将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。

可选的，上述方法在步骤S103之后还可以包括：

将最终的人名识别结果替换初步结构列表中的人名的词汇。

可选的，上述方法步骤S103之后还可以包括：

请参考图2，图2是本发明第二较佳实施方式提出的一种网络信息的分词处理系统，该系统包括：

分词单元201，用于对网络信息进行初步分词处理得到初步分词结果；

上述分词单元201中的初步分词处理的方式可以有多种，例如百度分词处理方法，当然也可以为其他的现有技术的方法来进行初步分词处理。

记录单元202，用于将初步分词处理的结果记录在初步结果列表中；

校验单元203，用于将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。

可选的，上述系统还可以包括：

更新单元204，用于将最终的人名识别结果替换初步结构列表中的人名的词汇。

可选的，上述校验单元203，还用于如增加后的人名未出现在初步结构列表中，则初步结构列表中人名为最终的人名识别结果。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（英文：Read-Only Memory ，简称：ROM）、随机存取器（英文：Random Access Memory，简称：RAM）、磁盘或光盘等。

以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种网络信息的分词处理方法，其特征在于，所述方法包括如下步骤：

对网络信息进行初步分词处理得到初步分词结果；

将初步分词处理的结果记录在初步结果列表中；

将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将最终的人名识别结果替换初步结构列表中的人名的词汇。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

如增加后的人名未出现在初步结构列表中，则初步结构列表中人名为最终的人名识别结果。
一种网络信息的分词处理系统，其特征在于，所述系统包括：

分词单元，用于对网络信息进行初步分词处理得到初步分词结果；

记录单元，用于将初步分词处理的结果记录在初步结果列表中；

校验单元，用于将初步结构列表中人名的词汇增加其后一个字得到增加后的人名，如果增加后的人名出现在初步结构列表中，则确认增加后的人名为最终的人名识别结果。
根据权利要求4所述的系统，其特征在于，所述系统还包括：

更新单元，用于将最终的人名识别结果替换初步结构列表中的人名的词汇。
根据权利要求4所述的系统，其特征在于，

所述校验单元，还用于如增加后的人名未出现在初步结构列表中，则初步结构列表中人名为最终的人名识别结果。