WO2022166828A1

WO2022166828A1 - 数据索引方法和系统以及存储介质

Info

Publication number: WO2022166828A1
Application number: PCT/CN2022/074712
Authority: WO
Inventors: 施瑜; 王景龙; 王泽宇
Original assignee: 易保网络技术(上海)有限公司
Priority date: 2021-02-03
Filing date: 2022-01-28
Publication date: 2022-08-11
Also published as: CN114860864A

Abstract

本申请涉及数据索引方法和系统以及存储介质，所述方法包括：配置模型数据的结构；根据所述结构制定索引方案；以及对所述模型数据进行索引以形成索引数据并存储。通过该方法可以高效地对数据进行索引，降低索引任务工作量。

Description

数据索引方法和系统以及存储介质

技术领域

本申请涉及对数据进行索引的领域，具体而言，涉及数据索引方法、数据索引系统以及计算机可读存储介质。

背景技术

现有技术中已经有诸如Elasticsearch等的索引、搜索方案。Elasticsearch是一种基于Lucene的搜索服务，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。但是此类方案对非专业人员并不友好，同时学习成本也较高。此外，针对特定需求的配置也较为费时耗力。鉴于此，有必要提出一种能够简单、高效实现数据索引的机制。

发明内容

本申请的实施例提供了一种数据索引方法、数据索引系统以及计算机可读存储介质，用于高效地对数据进行索引，降低索引任务工作量。

根据本申请的一方面，提供一种数据索引方法，包括：配置模型数据的结构；根据所述结构制定索引方案；以及对所述模型数据进行索引以形成索引数据并存储。

在本申请的一些实施例中，可选地，方法还包括存储所述模型数据，其中，存储所述模型数据的同时存储所述索引数据。

在本申请的一些实施例中，可选地，配置模型数据的结构包括根据数据字典配置模型数据的结构；并且根据所述结构制定索引方案包括使用所述数据字典定义索引包括的字段。

在本申请的一些实施例中，可选地，根据所述结构制定索引方案包括建立索引配置表，所述索引配置表包括索引、索引字段、字典路径、取值表达式。

在本申请的一些实施例中，可选地，根据所述结构制定索引方案还包括使用DSL定义索引包括的字段。

根据本申请的另一方面，提供一种用于数据索引系统，包括：处理器；以及耦合至所述处理器并且具有存储在其上的指令的计算机可读介质，所述指令在被所述处理器执行时使得所述处理器执行如下操作：配置模型数据的结构；根据所述结构制定索引方案；以及对所述模型数据进行索引以形成索引数据并存储。

在本申请的一些实施例中，可选地，所述处理器还执行操作：存储所述模型数据，其中，存储所述模型数据的同时存储所述索引数据。

根据本申请的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令由处理器执行时，使得所述处理器执行如上文所述的任意一种方法。

附图说明

从结合附图的以下详细说明中，将会使本申请的上述和其他目的及优点更加完整清楚，其中，相同或相似的要素采用相同的标号表示。

图1示出了根据本申请的一个实施例的数据索引方法。

图2示出了根据本申请的一个实施例的数据索引机制。

图3示出了根据本申请的一个实施例的数据索引系统。

具体实施方式

出于简洁和说明性目的，本文主要参考其示范实施例来描述本申请的原理。但是，本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的数据索引方法、数据索引系统以及计算机可读存储介质，并且可以在其中实施这些相同或相似的原理，任何此类变化不背离本申请的真实精神和范围。

根据本申请的一方面，提供一种数据索引方法。如图1所示，数据索引方法10包括如下步骤：在步骤S102中配置模型数据的结构，在步骤S104中根据结构制定索引方案，以及在步骤S106中对模型数据进行索引以形成索引数据并存储。

数据索引方法10在步骤S102中配置模型数据的结构。本发明中的模型数据指代可用于被索引供搜索的数据，例如，可以为格式文本、非格式文本、保单数据、合同数据等。数据索引方法10在步骤S102中可以按照需求设定模型数据的结构，或者说设定需要被索引的内容。需要说明的是，这种设定并不总是完全反映模型数据的完整上下文结构，可以仅是对感兴趣部分的截取。在确定模型数据的结构后，模型数据的部分或者全部内容(例如，感兴趣部分)将被索引，从而可以实现对这些内容的搜索。

对于内容区别不大的多种模型数据，其结构可能是大体相同的。为了结构配置的便利性，可以预先指定若干可能的结构属性备选项供挑选。待需要确定模型数据的结构时，可以从若干备选项中挑选感兴趣的一个或多个选项，并以此构成模型数据的结构。

数据索引方法10在步骤S104中根据在步骤S102中确定的结构来制定索引方案。以上在步骤S102中是根据感兴趣的内容来确定模型数据的结构的，为了实现可以对感兴趣的内容进行搜索，首先需要对这部分内容进行索引。由于指定索引方案是根据感兴趣的内容而定的，而感兴趣的内容也是通过配置结构来确定的，因而可以认为是步骤S102中的“配置”操作直接触发了相应的索引方案的“制定”。这一工作不需要人工参与，因而可以较大程度降低二次开发的工作量。数据加工人员在加工模型数据的时候就能够同步对其进行精确索引，这一方式较传统方案更为高效、精确。

具体而言，在一些示例中，以上在步骤S102中确定的“结构”将在步骤S104中产生与之对应的一个索引字段。在其他示例中，在步骤S102中确定的“结构”可以在步骤S104中产生与之对应的数个索引字段。在其他示例中，在步骤S102中确定的数个“结构”可以在步骤S104中共同产生一个索引字段。

在本申请的一些实施例中，在步骤S102中配置模型数据的结构包括根据数据字典配置模型数据的结构，并且在步骤S104中根据模型数据的结构制定索引方案包括使用数据字典定义索引包括的字段。如图2所示，图中示出了包括若干可选字段的数据字典202。例如，图中示出了勾选A字段、B字段、C字段，但是没有勾选D字段，这些勾选的字段可以用于配置模型数据的结构。如图2所示，如果对模型数据201(在图中又被标示为待索引数据(甲))的感兴趣内容包括其中的第一部分、第二部分和第三部分，而第一部分、第二部分和第三部分在内容上又是与数据字典202中的A字段、B字段和C字段是关联的，那么可以就可以通过在诸如UI界面等中勾选A字段、B字段和C字段实现对模型数据中感兴趣内容的配置，这在本申请中又称为配置模型数据的结构。

需要说明的是，尽管图2中出于方便说明的目的以图示的顺序说明了各个字段和待索引数据的各个部分，但是实际情况中各个字段和待索引数据的各个部分的顺序可以是其他排列情况，并且还可能存在间杂、交叉排列的情况。例如，在一些示例中，待索引数据的各个部分的划分是以其上下文语义进行的。相同语义的内容可能存在于待索引数据的不同位置，这些不同位置的内容构成了待索引数据的一个(语义)部分。如此，多个不同的部分将分别对应到数据字典的字段。

待选择好需要的字段后，可以根据预置的形成索引数据的方法从模型数据中抓取数据。例如，A字段为姓名，B字段为ID证件号码。那么与A字段对应的抓取姓名数据的算法、与B字段对应的抓取ID证件号码数据的算法将可以遍历模型数据中的至少部分并从中抓取姓名数据、ID证件号码数据，以便形成索引数据。

另一方面，图2中示出的索引条目203中将自动包括刚刚勾选的字段。由此，从数据字典中选择需要的字段将触发对模型数据201的配置，还同时触发形成对应字段的内容并形成索引条目。对应字段的内容可以通过上文的方式抓取。

在本申请的一些实施例中，在步骤S104中根据结构制定索引方案包括建立索引配置表，索引配置表包括索引、索引字段、字典路径、取值表达式。

在本申请的一些实施例中，在步骤S104中根据结构制定索引方案还包括使用DSL定义索引包括的字段。尽管直接勾选预置的字段可以满足大部分情况的需求，但是在一些情况下还可以通过DSL语言来定义新的字段来扩展字段选项。当定义好字段后，与勾选字段类似，将触发对模型数据201的配置，还同时触发形成对应字段的内容并形成索引条目。

在本申请的一些实施例中，数据索引方法10还包括存储模型数据，其中，存储模型数据的同时存储索引数据。上文已经描述了可以在加工模型数据的过程中就能够同步对其进行精确索引。有时候需要对模型数据进行修改，或者对索引包括的字段进行修改，此时相应的索引数据可能会适应地变化。如果索引数据不能随着模型数据同时变化，那么二者将存在出入，这可能会影响搜索结果的准确性。在本发明的一些示例中，将模型数据入库的时刻设定为存储索引数据的时刻，由此二者将保持同步。上文已经描述了可以通过确定的结构来制定索引方案，因此，在本发明的一些示例中还可以通过这种自动索引机制实时/准实时地更新索引数据，保证了二者的同步。

通过以上方式建立的索引数据将可以用于诸如Elasticsearch等引擎。以上方式的索引方案屏蔽了底层搜索引擎的细节，并且可以自动索引。这种索引方式尤其适用于模型数据上下类型比较一致的场景。

根据本申请的另一方面，提供一种用于数据索引系统。如图3所示，数据索引系统30包括处理器301以及耦合至处理器301并且具有存储在其上的指令的计算机可读介质302。其中，指令在被处理器301执行时使得处理器301执行如下操作：配置模型数据的结构；根据结构制定索引方案；以及对模型数据进行索引以形成索引数据并存储。

图3中的数据索引系统30还可以包括其他单元模块，例如：用于显示指令执行情况的显示设备；用于输入指令的外部输入设备；用于暂存数据的RAM；用于驱动显示设备、外放设备的显卡、声卡。出于清晰示出本发明原理的角度考虑，图3中省略了这些单元模块。

指令在被处理器301执行时使得处理器301执行的操作包括：配置模型数据的结构。本发明中的模型数据指代可用于被索引供搜索的数据，例如，可以为格式文本、非格式文本、保单数据、合同数据等。在这一步骤中可以按照需求设定模型数据的结构，或者说设定需要被索引的内容。需要说明的是，这种设定并不总是完全反映模型数据的完整上下文结构，可以仅是对感兴趣部分的截取。在确定模型数据的结构后，模型数据的部分或者全部内容(例如，感兴趣部分)将被索引，从而可以实现对这些内容的搜索。

指令在被处理器301执行时使得处理器301执行的操作包括：根据在上文中确定的结构来制定索引方案。上文中是根据感兴趣的内容来确定模型数据的结构的，为了实现可以对感兴趣的内容进行搜索，首先需要对这部分内容进行索引。由于指定索引方案是根据感兴趣的内容而定的，而感兴趣的内容也是通过配置结构来确定的，因而可以认为是上文中的“配置”操作直接触发了相应的索引方案的“制定”。这一工作不需要人工参与，因而可以较大程度降低二次开发的工作量。数据加工人员在加工模型数据的时候就能够同步对其进行精确索引，这一方式较传统方案更为高效、精确。

具体而言，在一些示例中，以上步骤中确定的“结构”将在此步骤中产生与之对应的一个索引字段。在其他示例中，以上步骤中确定的“结构”可以在此步骤中产生与之对应的数个索引字段。在其他示例中，以上步骤中确定的数个“结构”可以在此步骤中共同产生一个索引字段。

在本申请的一些实施例中，配置模型数据的结构包括根据数据字典配置模型数据的结构；并且根据结构制定索引方案包括使用数据字典定义索引包括的字段。如图2所示，图中示出了包括若干可选字段的数据字典202。例如，图中示出了勾选A字段、B字段、C字段，但是没有勾选D字段，这些勾选的字段可以用于配置模型数据的结构。如图2所示，如果对模型数据201(在图中又被标示为待索引数据(甲))的感兴趣内容包括其中的第一部分、第二部分和第三部分，而第一部分、第二部分和第三部分在内容上又是与数据字典202中的A字段、B字段和C字段是关联的，那么可以就可以通过在诸如UI界面等中勾选A字段、B字段和C字段实现对模型数据中感兴趣内容的配置，这在本申请中又称为配置模型数据的结构。

在本申请的一些实施例中，根据结构制定索引方案包括建立索引配置表，索引配置表包括索引、索引字段、字典路径、取值表达式。

在本申请的一些实施例中，根据结构制定索引方案还包括使用DSL定义索引包括的字段。尽管直接勾选预置的字段可以满足大部分情况的需求，但是在一些情况下还可以通过DSL语言来定义新的字段来扩展字段选项。当定义好字段后，与勾选字段类似，将触发对模型数据201的配置，还同时触发形成对应字段的内容并形成索引条目。

在本申请的一些实施例中，指令在被处理器301执行时使得处理器301还执行操作：存储模型数据，其中，存储模型数据的同时存储索引数据。上文已经描述了可以在加工模型数据的过程中就能够同步对其进行精确索引。有时候需要对模型数据进行修改，或者对索引包括的字段进行修改，此时相应的索引数据可能会适应地变化。如果索引数据不能随着模型数据同时变化，那么二者将存在出入，这可能会影响搜索结果的准确性。在本发明的一些示例中，将模型数据入库的时刻设定为存储索引数据的时刻，由此二者将保持同步。上文已经描述了可以通过确定的结构来制定索引方案，在本发明的一些示例中还可以通过这种自动索引机制实时/准实时地更新索引数据，保证了二者的同步。

根据本申请的另一方面，提供一种计算机可读存储介质，其中存储有指令，当所述指令由处理器执行时，使得所述处理器执行如上文所述的任意一种数据索引方法。本申请中所称的计算机可读介质包括各种类型的计算机存储介质，可以是通用或专用计算机能够存取的任何可用介质。举例而言，计算机可读介质可以包括RAM、ROM、EPROM、E ²PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或特定用途计算机、或者通用或特定用途处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的盘通常磁性地复制数据，而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此。本领域的技术人员可以根据本申请所披露的技术范围想到其他可行的变化或替换，此等变化或替换皆涵盖于本申请的保护范围之中。在不冲突的情况下，本申请的实施方式及实施方式中的特征还可以相互组合。本申请的保护范围以权利要求的记载为准。

Claims

一种数据索引方法，包括：

配置模型数据的结构；

根据所述结构制定索引方案；以及

对所述模型数据进行索引以形成索引数据并存储。
根据权利要求1所述的方法，还包括存储所述模型数据，其中，存储所述模型数据的同时存储所述索引数据。
根据权利要求1所述的方法，其中：

配置模型数据的结构包括根据数据字典配置模型数据的结构；并且

根据所述结构制定索引方案包括使用所述数据字典定义索引包括的字段。
根据权利要求3所述的方法，根据所述结构制定索引方案包括建立索引配置表，所述索引配置表包括索引、索引字段、字典路径、取值表达式。
根据权利要求4所述的方法，根据所述结构制定索引方案还包括使用DSL定义索引包括的字段。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令由处理器执行时，使得所述处理器执行如权利要求1-5中任一项所述的方法。
一种用于数据索引系统，包括：

处理器；以及

耦合至所述处理器并且具有存储在其上的指令的计算机可读介质，所述指令在被所述处理器执行时使得所述处理器执行如下操作：

配置模型数据的结构；

根据所述结构制定索引方案；以及

对所述模型数据进行索引以形成索引数据并存储。
根据权利要求7所述的系统，所述处理器还执行操作：存储所述模型数据，其中，存储所述模型数据的同时存储所述索引数据。
根据权利要求7所述的系统，其中：

配置模型数据的结构包括根据数据字典配置模型数据的结构；并且

根据所述结构制定索引方案包括使用所述数据字典定义索引包括的字段。
根据权利要求9所述的系统，根据所述结构制定索引方案包括建立索引配置表，所述索引配置表包括索引、索引字段、字典路径、取值表达式。
根据权利要求10所述的系统，根据所述结构制定索引方案还包括使用DSL定义索引包括的字段。