WO2021227060A1

WO2021227060A1 - 一种用于关键词搜索的多节点分词系统及方法

Info

Publication number: WO2021227060A1
Application number: PCT/CN2020/090648
Authority: WO
Inventors: 商良磊
Original assignee: 深圳市世强元件网络有限公司
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-18
Also published as: US11914658B2; US20220207097A1

Abstract

一种用于关键词搜索的多节点分词系统及方法。该系统中词元分发代理服务器（10）分别通信连接每个分词节点服务器（30），词元分发代理服务器（10）接收大量词元，按照预设分词规则将每个词元分发至对应的分词节点服务器（30，A）；客户端代理服务器（20）分别通信连接每个分词节点服务器（30），客户端代理服务器（20）接收用户终端（40）上传的待搜索词，按照预设分词规则将待搜索词分发至对应的分词节点服务器（30，b1）；分词节点服务器（30）查询出与待搜索词匹配的词元，并将查询所得词元返回至客户端代理服务器（20，b2）；客户端代理服务器（20）将查询所得词元下发至对应的用户终端（40，b3）。

Description

一种用于关键词搜索的多节点分词系统及方法

技术领域

本发明涉及搜索引擎搜索词推荐领域，更具体地说，涉及一种用于关键词搜索的多节点分词系统及方法。

背景技术

参考图1，为现有技术中分词器的系统结构示意图，现有搜索引擎分词器使用单机内存式存储，自带字典有42万组词汇。在某一领域具体使用时会根据需要添加第三方词汇，达到补充语义的效果。这种方法只能解决50万左右的词汇量需求，若词汇达到百万级别和千万级别时，就需要进行大规模内存扩容，费用会直线上升，成本特别高。例如电子元器件行业，对品类的划分极其细致，并且规格编码的词元量也很大，很容易就会达到百万乃至千万级量级，现有分词器不能满足要求。另外，编程语言对软件的内存有上限要求，如Java虚拟机内存达到一定的大小GB级别时，会引起不可预知的内存泄漏，导致不可用甚至带来系统崩溃的灾难。

技术问题

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种用于关键词搜索的多节点分词系统及方法。

技术解决方案

本发明解决其技术问题所采用的技术方案是：构造一种用于关键词搜索的多节点分词系统，包括词元分发代理服务器、客户端代理服务器和至少两个分词节点服务器；

所述词元分发代理服务器分别通信连接每个所述分词节点服务器，所述词元分发代理服务器接收大量词元，按照预设分词规则将每个所述词元分发至对应的所述分词节点服务器；

所述客户端代理服务器分别通信连接每个所述分词节点服务器，所述客户端代理服务器接收用户终端上传的待搜索词，按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器；所述分词节点服务器查询出与所述待搜索词匹配的词元，并将查询所得词元返回至所述客户端代理服务器；所述客户端代理服务器将查询所得词元下发至对应的所述用户终端。

进一步，在本发明所述的用于关键词搜索的多节点分词系统中，所述预设分词规则为词元属性信息，每个所述分词节点服务器设置对应的词元属性信息；

所述客户端代理服务器根据每个词元的词元属性信息将词元分发至对应的所述分词节点服务器，所述客户端代理服务器根据所述待搜索词的词元属性信息将所述待搜索词分发至对应的所述分词节点服务器。

进一步，在本发明所述的用于关键词搜索的多节点分词系统中，所述词元属性信息为词元对应汉语拼音的首字母；或

所述词元属性信息为词元对应语言拼写的首字母。

进一步，在本发明所述的用于关键词搜索的多节点分词系统中，多个所述分词节点服务器为多个独立的实体服务器；或

多个所述分词节点服务器为多个独立的虚拟服务器；或

多个所述分词节点服务器为多个独立的实体服务器和多个独立的虚拟服务器的混合。

进一步，在本发明所述的用于关键词搜索的多节点分词系统中，所述词元分发代理服务器接收的大量词元为电子元器件相关词汇。

进一步，本发明所述的用于关键词搜索的多节点分词系统还包括备用分词节点服务器，在某一所述分词节点服务器损坏时自动启动与其对应的备用分词节点服务器。

另外，本发明还提供一种用于关键词搜索的多节点分词方法，包括：

A、词库建立过程：词元分发代理服务器接收大量词元，按照预设分词规则将每个所述词元分发至对应的分词节点服务器；

B、待搜索词搜索过程：

b1、客户端代理服务器接收用户终端上传的待搜索词，按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器；

b2、所述分词节点服务器查询出与所述待搜索词匹配的词元，并将查询所得词元返回至所述客户端代理服务器；

b3、所述客户端代理服务器将查询所得词元下发至对应的所述用户终端。

进一步，在本发明所述的用于关键词搜索的多节点分词方法中，所述预设分词规则为词元属性信息，每个所述分词节点服务器设置对应的词元属性信息；

所述步骤A中按照预设分词规则将每个所述词元分发至对应的分词节点服务器包括：所述客户端代理服务器根据每个词元的词元属性信息将词元分发至对应的分词节点服务器；

所述步骤b1中按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器包括：所述客户端代理服务器根据所述待搜索词的词元属性信息将所述待搜索词分发至对应的分词节点服务器。

进一步，在本发明所述的用于关键词搜索的多节点分词方法中，所述词元属性信息为词元对应汉语拼音的首字母；或

所述词元属性信息为词元对应语言拼写的首字母。

进一步，在本发明所述的用于关键词搜索的多节点分词方法中，多个所述分词节点服务器为多个独立的实体服务器；或

多个所述分词节点服务器为多个独立的虚拟服务器；或

进一步，在本发明所述的用于关键词搜索的多节点分词方法中，所述词元分发代理服务器接收的大量词元为电子元器件相关词汇。

进一步，在本发明所述的用于关键词搜索的多节点分词方法中，在所述步骤B中，若某一所述分词节点服务器损坏，则自动启动与其对应的备用分词节点服务器。

进一步，本发明所述的用于关键词搜索的多节点分词方法还包括：

C、词库扩充过程：所述词元分发代理服务器接收扩充词元，按照所述预设分词规则将所述扩充词元分发至对应的分词节点服务器。

D、词元删除过程：所述词元分发代理服务器接收待删除词元，按照所述预设分词规则将所述待删除词元分发至对应的分词节点服务器，所述分词节点服务器删除已存储的所述待删除词元对应的词元。

E、词库更新过程：所述词元分发代理服务器接收待更新词元及其对应的更新词元，按照所述预设分词规则将所述待更新词元分发至对应的分词节点服务器；所述待更新词元所在所述分词节点服务器删除所述待更新词元对应的词元；所述词元分发代理服务器按照所述预设分词规则将所述更新词元分发至对应的分词节点服务器。

有益效果

实施本发明的一种用于关键词搜索的多节点分词系统及方法，具有以下有益效果：本发明使用多个分词节点服务器来分散数据量，且通过设置词汇分发算对待搜索词进行分发，实现大平台大词汇量下的高效低成本检索。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是现有技术中分词器的结构示意图；

图2是实施例1提供的一种用于关键词搜索的多节点分词系统的结构示意图；

图3是实施例2提供的一种用于关键词搜索的多节点分词方法的流程图。

本发明的最佳实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例1

参考图2，本实施例的用于关键词搜索的多节点分词系统包括词元分发代理服务器10、客户端代理服务器20和至少两个分词节点服务器30，其中词元分发代理服务器10分别通信连接每个分词节点服务器30，词元分发代理服务器10接收大量词元，按照预设分词规则将每个词元分发至对应的分词节点服务器30。词元分发代理服务器10接收的大量词汇由用户根据需求提供，例如词元分发代理服务器10接收的大量词元为电子元器件相关词汇，电子元器件相关词汇包括但不限于电子器件名称、编号、各种参数、技术术语等。

客户端代理服务器20分别通信连接每个分词节点服务器30，客户端代理服务器20接收用户终端40上传的待搜索词，按照预设分词规则将待搜索词分发至对应的分词节点服务器30。分词节点服务器30查询出与待搜索词匹配的词元，并将查询所得词元返回至客户端代理服务器20；客户端代理服务器20将查询所得词元下发至对应的用户终端40。可以理解，客户端代理服务器20和用户终端40上的软件和网站需要深度绑定，以保障用户终端40接收的待搜索词能快速发送至客户端代理服务器20，降低响应时间。例如，电子元器件电商软件和网站与客户端代理服务器20进行深度绑定。经过实际测试，本实施例在百万级别和千万级别词元下，平均响应时间小于100ms。

本实施例中词元分发代理服务器10和客户端代理服务器20使用相同的预设分词规则，以保证客户端代理服务器20能将用户输入的待搜索词准确分发到与其对应的分词节点服务器30中，实现待搜索词的查找。其中预设分词规则为词元属性信息，每个分词节点服务器30设置对应的词元属性信息，即每个分词节点服务器30之间的词元属性信息是不同的，每个分词节点服务器30仅负责接收与其词元属性信息对应的词元，从而保证每个分词节点服务器30均衡的承担所有词元，分散数据压力。

可以理解，词元的词元属性信息有多种，凡是能根据某种词元属性信息对词元进行分类的，都属于本实施例的设计构思。例如，词元属性信息为词元对应语言拼写的首字母，这里的语言包括但不限于汉语、英语、日语、德语、法语、阿拉伯数字等，每种语言都有对应的拼写规则，将每种语言的拼写规则作为词元属性信息。优选地，词元属性信息为词元对应汉语拼音的首字母，每个分词节点服务器30对应一个或多个汉语字母，则根据词元对应的首字母将该词元分发至对应的分词节点服务器30。

本实施例的用于关键词搜索的多节点分词系统中多个分词节点服务器30为多个独立的实体服务器；或多个分词节点服务器30为多个独立的虚拟服务器；或多个分词节点服务器30为多个独立的实体服务器和多个独立的虚拟服务器的混合，上述设置方式可根据用户性能需求进行选择。

作为选择，为保障系统的可靠性，一些实施例的用于关键词搜索的多节点分词系统还包括备用分词节点服务器301，在某一分词节点服务器30损坏时自动启动与其对应的备用分词节点服务器301。

本实施例使用多个分词节点服务器来分散数据量，且通过设置词汇分发算对待搜索词进行分发，实现大平台大词汇量下的高效低成本检索。

实施例2

参考图3，本实施例的用于关键词搜索的多节点分词方法包括下述步骤：

A、词库建立过程：词元分发代理服务器10接收大量词元，按照预设分词规则将每个词元分发至对应的分词节点服务器30。作为选择，预设分词规则为词元属性信息，每个分词节点服务器30设置对应的词元属性信息，则客户端代理服务器20根据每个词元的词元属性信息将词元分发至对应的分词节点服务器30。词元分发代理服务器10接收的大量词汇由用户根据需求提供，例如词元分发代理服务器10接收的大量词元为电子元器件相关词汇，电子元器件相关词汇包括但不限于电子器件名称、编号、各种参数、技术术语等。

B、待搜索词搜索过程：

b1、客户端代理服务器20接收用户终端40上传的待搜索词，按照预设分词规则将待搜索词分发至对应的分词节点服务器30。作为选择，预设分词规则为词元属性信息，每个分词节点服务器30设置对应的词元属性信息，则客户端代理服务器20根据待搜索词的词元属性信息将待搜索词分发至对应的分词节点服务器30。可以理解，客户端代理服务器20和用户终端40上的软件和网站需要深度绑定，以保障用户终端40接收的待搜索词能快速发送至客户端代理服务器20，降低响应时间。例如，电子元器件电商软件和网站与客户端代理服务器20进行深度绑定。经过实际测试，本实施例在百万级别和千万级别词元下，平均响应时间小于100ms。

b2、分词节点服务器30查询出与待搜索词匹配的词元，并将查询所得词元返回至客户端代理服务器20。

b3、客户端代理服务器20将查询所得词元下发至对应的用户终端40。

作为选择，本实施例的用于关键词搜索的多节点分词方法中多个分词节点服务器30为多个独立的实体服务器；或多个分词节点服务器30为多个独立的虚拟服务器；或多个分词节点服务器30为多个独立的实体服务器和多个独立的虚拟服务器的混合，上述设置方式可根据用户性能需求进行选择。

实施例3

在实施例2的基础上，本实施例的用于关键词搜索的多节点分词方法中在步骤B中，若某一分词节点服务器30损坏，则自动启动与其对应的备用分词节点服务器301，可提高系统的可靠性。

实施例4

在实施例2的基础上，在词库已建立后，为满足用户对新词元的添加需求，本实施例的用于关键词搜索的多节点分词方法还包括：C、词库扩充过程：词元分发代理服务器10接收扩充词元，按照预设分词规则将扩充词元分发至对应的分词节点服务器30。需要说明的是，本实施例的预设分词规则与上述实施例相同。

实施例5

在实施例2的基础上，为满足用户对已添加词元的删除需求，本实施例的用于关键词搜索的多节点分词方法还包括：D、词元删除过程：词元分发代理服务器10接收待删除词元，按照预设分词规则将待删除词元分发至对应的分词节点服务器30，分词节点服务器30删除已存储的待删除词元对应的词元。

实施例6

在实施例2的基础上，为满足用户为已经存在的词元的更新，本实施例的用于关键词搜索的多节点分词方法还包括：

E、词库更新过程：词元分发代理服务器10接收待更新词元及其对应的更新词元，按照预设分词规则将待更新词元分发至对应的分词节点服务器30；待更新词元所在分词节点服务器30删除待更新词元对应的词元；词元分发代理服务器10按照预设分词规则将更新词元分发至对应的分词节点服务器30。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

Claims

一种用于关键词搜索的多节点分词系统，其特征在于，包括词元分发代理服务器（10）、客户端代理服务器（20）和至少两个分词节点服务器（30）；

所述词元分发代理服务器（10）分别通信连接每个所述分词节点服务器（30），所述词元分发代理服务器（10）接收大量词元，按照预设分词规则将每个所述词元分发至对应的所述分词节点服务器（30）；

所述客户端代理服务器（20）分别通信连接每个所述分词节点服务器（30），所述客户端代理服务器（20）接收用户终端（40）上传的待搜索词，按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器（30）；所述分词节点服务器（30）查询出与所述待搜索词匹配的词元，并将查询所得词元返回至所述客户端代理服务器（20）；所述客户端代理服务器（20）将查询所得词元下发至对应的所述用户终端（40）。
根据权利要求1所述的用于关键词搜索的多节点分词系统，其特征在于，所述预设分词规则为词元属性信息，每个所述分词节点服务器（30）设置对应的词元属性信息；

所述客户端代理服务器（20）根据每个词元的词元属性信息将词元分发至对应的所述分词节点服务器（30），所述客户端代理服务器（20）根据所述待搜索词的词元属性信息将所述待搜索词分发至对应的所述分词节点服务器（30）。
根据权利要求2所述的用于关键词搜索的多节点分词系统，其特征在于，所述词元属性信息为词元对应汉语拼音的首字母；或

所述词元属性信息为词元对应语言拼写的首字母。
根据权利要求1所述的用于关键词搜索的多节点分词系统，其特征在于，多个所述分词节点服务器（30）为多个独立的实体服务器；或

多个所述分词节点服务器（30）为多个独立的虚拟服务器；或

多个所述分词节点服务器（30）为多个独立的实体服务器和多个独立的虚拟服务器的混合。
根据权利要求1所述的用于关键词搜索的多节点分词系统，其特征在于，所述词元分发代理服务器（10）接收的大量词元为电子元器件相关词汇。
根据权利要求1所述的用于关键词搜索的多节点分词系统，其特征在于，还包括备用分词节点服务器（301），在某一所述分词节点服务器（30）损坏时自动启动与其对应的备用分词节点服务器（301）。
一种用于关键词搜索的多节点分词方法，其特征在于，包括：

A、词库建立过程：词元分发代理服务器（10）接收大量词元，按照预设分词规则将每个所述词元分发至对应的分词节点服务器（30）；

B、待搜索词搜索过程：

b1、客户端代理服务器（20）接收用户终端（40）上传的待搜索词，按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器（30）；

b2、所述分词节点服务器（30）查询出与所述待搜索词匹配的词元，并将查询所得词元返回至所述客户端代理服务器（20）；

b3、所述客户端代理服务器（20）将查询所得词元下发至对应的所述用户终端（40）。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，所述预设分词规则为词元属性信息，每个所述分词节点服务器（30）设置对应的词元属性信息；

所述步骤A中按照预设分词规则将每个所述词元分发至对应的分词节点服务器（30）包括：所述客户端代理服务器（20）根据每个词元的词元属性信息将词元分发至对应的分词节点服务器（30）；

所述步骤b1中按照所述预设分词规则将所述待搜索词分发至对应的分词节点服务器（30）包括：所述客户端代理服务器（20）根据所述待搜索词的词元属性信息将所述待搜索词分发至对应的分词节点服务器（30）。
根据权利要求8所述的用于关键词搜索的多节点分词方法，其特征在于，所述词元属性信息为词元对应汉语拼音的首字母；或

所述词元属性信息为词元对应语言拼写的首字母。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，多个所述分词节点服务器（30）为多个独立的实体服务器；或

多个所述分词节点服务器（30）为多个独立的虚拟服务器；或

多个所述分词节点服务器（30）为多个独立的实体服务器和多个独立的虚拟服务器的混合。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，所述词元分发代理服务器（10）接收的大量词元为电子元器件相关词汇。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，在所述步骤B中，若某一所述分词节点服务器（30）损坏，则自动启动与其对应的备用分词节点服务器（301）。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，还包括：

C、词库扩充过程：所述词元分发代理服务器（10）接收扩充词元，按照所述预设分词规则将所述扩充词元分发至对应的分词节点服务器（30）。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，还包括：

D、词元删除过程：所述词元分发代理服务器（10）接收待删除词元，按照所述预设分词规则将所述待删除词元分发至对应的分词节点服务器（30），所述分词节点服务器（30）删除已存储的所述待删除词元对应的词元。
根据权利要求7所述的用于关键词搜索的多节点分词方法，其特征在于，还包括：

E、词库更新过程：所述词元分发代理服务器（10）接收待更新词元及其对应的更新词元，按照所述预设分词规则将所述待更新词元分发至对应的分词节点服务器（30）；所述待更新词元所在所述分词节点服务器（30）删除所述待更新词元对应的词元；所述词元分发代理服务器（10）按照所述预设分词规则将所述更新词元分发至对应的分词节点服务器（30）。