WO2013097065A1

WO2013097065A1 - 一种索引数据处理方法及设备

Info

Publication number: WO2013097065A1
Application number: PCT/CN2011/084609
Authority: WO
Inventors: 曹俊亮
Original assignee: 华为技术有限公司
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-07-04
Also published as: CN102725754A; CN102725754B

Abstract

一种索引数据处理方法，其中，至少一种属性信息的索引数据存储在一个索引结构中，所述索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头索引中，所述至少一块索引的索引包括存储在所述块索引中的索引数据的属性信息，所述方法包括：接收对指定索引数据的处理指令，所述处理指令中包括指定索引数据的属性信息；若根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一块索引的索引，则根据所述块索引的索引定位所述块索引，并对所述块索引中匹配所述索引数据的数据项进行处理。

Description

一种索引数据处理方法及设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种索引数据处理方法及设备。背景技术

Key-Value数据库提供键值对 <Key,Value 々存储，一般的 Key- Value系统仅提供基于 Key的操作。对于根据 Value 中的属性进行检索的应用，需要在 Key-value 系统的基础上构建适配层来提供结构化的数据检索，通过适配层，将不同 Key的 Value包含的数据模型表格化，即将 Value抽象为属性名称和属性值的方式（或者称为列和值），这样不同的 Key对应的 Value可能具有相同的属性名称，因此可以为按照属性名称进行检索创造了前提。为了提高检索的效率，可以对属性的值建立索引。

现有技术中可以采用 B+树或前缀哈希树的形式来组织索引数据。其中， B+树结构如图 la所示，其中内部节点保存范围的信息，如内部节点 1中表示小于等于 0110的属性值在其左边的子树中，大于 0110的属性值在其右边的子树中；叶子节点中保存真实的索引数据。前缀哈希树构建一个基于字典树的数据结构，其原理是利用字符串的公共前缀来组织数据，以包括 0和 1的字符集为例的前缀哈希树如图 lb所示，每个节点的前缀为从根到此节点的字符组成的字符串，中间节点仅存储了和子节点的关系，叶子节点存储真实的索引数据。

然而，无论是 B+树还是前缀哈希树的索引数据组织形式，对于每一个需要建立索引的属性信息，都需要单独组织一颗 B+树或前缀哈希树结构来存储该属性的索引数据，同时树中的每一个节点对应 Key- Value数据库中的一个键值对，因此，在当对索引数据进行相关数据操作时，例如定位或增加或删除某一索引数据，都需要先从众多 B+树或前缀哈希树中确定该索引数据的属性信息所对应的 B+树或前缀哈希树，然后再从最上级的内部节点或中间节点向下遍历，直到它到达一个叶子节点。因此，基于现有技术中的索引数据组织形式，在对索引数据进行处理时，均需要与 Key-Value系统进行多次交互，效率较低。发明内容本发明实施例提供一种索引数据处理方法及设备，能够在对索引数据进行处理时，减少与 Key- Value系统的交互，提高效率。

为了解决上述技术问题，本发明实施例的技术方案如下：

一种索引数据处理方法，至少一种属性信息的索引数据存储在一个索引结构中，所述索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头索引中，所述至少一块索引的索引包括存储在所述块索引中的索引数据的属性信息，所述方法包括：

接收对指定索引数据的处理指令，所述处理指令中包括指定索引数据的属性信息；

若根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一块索引的索引，则根据所述块索引的索引定位所述块索引，并对所述块索引中匹配所述索引数据的数据项进行处理。

一种索引数据处理设备，至少一种属性信息的索引数据存储在一个索引结构中，所述索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头索引中，所述至少一块索引的索引包括存储在所述块索引中的索引数据的属性信息，所述设备包括：

指令接收模块，用于接收对指定索引数据的处理指令，所述处理指令中包括指定索引数据的属性信息；

数据处理模块，用于当根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一块索引的索引时，根据所述块索引的索引定位所述块索引，并对所述块索引中匹配所述索引数据的数据项进行处理。

本发明实施例通过将具有不同属性信息的索引数据存储在一个索引结构中，使得数据存储更为紧凑，从而一次 Key- Value访问可以获取或者更新更多的数据，所以可以减少数据处理时与 Key-Value系统之间的交互，从而提高了索引建立和查询的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 la是现有技术中索引数据以 B+树结构形式组织的示意图；

图 lb是现有技术中索引数据以前缀哈希树形式组织的示意图；

图 2是本发明实施例一种索引数据处理方法的流程图；

图 3是图 2所示实施例中索引结构的示意图；

图 4a是一种索引结构的示意图；

图 4b是本发明实施例另一种索引数据处理方法的流程图；

图 5是本发明实施例一种删除索引数据的流程图；

图 6是图 5所示实施例中索引结构的示意图；

图 7是本发明另一实施例中块索引的结构示意图；

图 8是本发明实施例一种增加索引数据的流程图；

图 9是本发明另一实施例索引结构的示意图；

图 10是本发明实施例一种索引数据处理设备的结构示意图；

图 11是本发明实施例另一种索引数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图 2, 为本发明实施例一种索引数据处理方法的流程图。

本实施例中，至少一种属性信息的索引数据存储在一个索引结构中，如图 3所示，该索引结构包括一头索引（ head index )31和至少一块索引（ block index ) 32, 该块索引 32可以用于存储数据项数量较大的索引数据，该至少一块索引的索引（block index reference ) 33存储在头索引 31中，至少一块索引的索引 33包括存储在块索引 32中的索引数据的属性信息。

基于上述索引结构，当指定一索引数据时，对该索引数据的处理方法可以包括：

步骤 201 , 接收对指定索引数据的处理指令，该处理指令中包括指定索引数据的属性信息。引结构可以存储在 PC机等终端或服务器的内部或外部的数据库中。其中，索引数据中可以包括属性名称（ attr )、属性值（ value )等属性信息，还包括具体的数据项 ( item ) , 列 ^口 <Attm, Valuen,Itemn>。

步骤 202 , 若根据索引结构中的头索引和指定索引数据的属性信息能确定一块索引的索引，则根据块索引的索引定位块索引，并对块索引中匹配索引数据的数据项进行处理。

PC机等终端或服务器查找头索引 31中存储的块索引的索引 33中的属性信息，如果其中包括指定索引数据的属性信息，则可定位块索引 32, 进而可以对该块索引 32中与该指定索引数据匹配的索引数据的数据项进行处理。

在本发明的另一实施例中，该索引结构可以包括至少一个存储单元，在存储单元中，如图 4a所示，除了可以包括块索引 41夕卜，还可以包括至少一分段索引（segment index ) 42, 用于存储数据项数量较小的索引数据，头索引 43 中存储有块索引的索引 44和分段索引的索引（ segment index reference ) 45 , 分段索引的索引 45包括存储在分段索引 42中的索引数据的属性信息。索引数据根据各自数据项数量的多少，分配在块索引 41和分段索引（ segment index ) 42 中存储，例如当索引数据的数据项数量大于一个预设值时，可以将该索引数据存储在块索引 41中，当小于该预设值时，可以将索引数据存储在分段索引 42中，其中，块索引 41和分段索引 42可以用于区分存储索引数据，当然，在另一实施例中索引数据也可以根据其他信息，例如索引数据的属性信息等，分配在块索引和分段索引中存储。本发明实施例中该属性信息可以包括属性名称及属性值等。当然，在另一实施例中，该索引结构中也可以只包括其中的分段索引。

需要说明的是，本发明所有实施例中的存储单元可以是一种计算机可读存储介质，也可以是一种数据库系统，该数据库系统可以是分布式的数据库系统。上述索引结构可以是存储在上述计算机可读存储介质或数据库系统中的数据结构。

若根据该索引结构中的头索引和指定索引数据的属性信息能确定一分段索引的索引，则根据分段索引的索引定位分段索引，并对分段索引中匹配索引数据的数据项进行处理。具体的， PC机等终端或服务器查找头索引中存储的分段索引的索引中的属性信息，如果其中包括指定索引数据的属性信息，则可定位分段索引，进而可以对该分段索引中与该指定索引数据匹配的索引数据的数据项进行处理。

在确定指定索引数据的属性信息位于分段索引的索引还是块索引的索引时，该确定过程可以是：先查找块索引的索引 44中是否存在指定索引数据的属性信息；若是，则确定该指定索引数据的属性信息属于块索引的索引 44; 若否，则确定指定索引数据的属性信息属于分段索引的索引 45。当然，也可以先查找分段索引的索引 45是否存在指定索引数据的属性信息。

参见图 4b, 为本发明实施例另一种索引数据处理方法的流程图。

本实施例中，基于图 4a所示的索引结构，当指定一索引数据时，对该索

？ I数据的处理方法可以包括：

步骤 401 , 接收对指定索引数据的处理指令，该处理指令中包括指定索引数据的属性信息。引结构可以存储在 PC机等终端或服务器的内部数据库，或存储在独立于 PC 机等终端或服务器的外部数据库中。

步骤 402, 确定指定索引数据的属性信息位于头索引中分段索引的索引还是块索引的索引。

本发明实施例中，索引数据中可以包括属性名称（attr )、属性值（value ) 等属性信息，还包括具体的数据项（item ), 例如 <Attrn,Valuen,Itemn>。当给出一指定索引数据时，首先可以根据其属性信息，确定该指定索引数据的属性信息是属于头索引 43中的块索引的索引 44还是分段索引的索引 45。

该确定过程可以是：先查找块索引的索引 44中是否存在指定索引数据的属性信息；若是，则确定该指定索引数据的属性信息属于块索引的索引 44; 若否，则确定指定索引数据的属性信息属于分段索引的索引 45。当然，也可以先查找分段索引的索引 45是否存在指定索引数据的属性信息。

若该指定索引数据的属性信息属于块索引的索引 44, 则执行步骤 403; 若该指定索引数据的属性信息属于分段索引的索引 45 , 则执行步骤 404。

步骤 403 , 在块索引中，根据指定索引数据的数据项，对匹配索引数据的数据项进行数据处理。

其中，块索引中的匹配索引数据具有与指定索引数据相同的属性信息。该对匹配索引数据中的数据项进行的数据处理可以是指：

在匹配索引数据的数据项中，定位指定索引数据的数据项；或者，在匹配索引数据的数据项中，删除指定索引数据的数据项；或者，在匹配索引数据的数据项中，增加指定索引数据的数据项。

在经过上述数据处理后，还可以进一步对处理后的块索引中的索引数据进行删除，或合并，或划分，或迁移等处理。

步骤 404, 在分段索引中，根据指定索引数据的数据项，对匹配索引数据的数据项进行数据处理。

其中，分段索引中的匹配索引数据具有与指定索引数据相同的属性信息。该对匹配索引数据中的数据项进行的数据处理可以是指：

在经过上述数据处理后，还可以进一步对处理后的分段索引中的索引数据进行删除，或合并，或划分，或迁移等处理。

在另一实施例中，如果索引结构为图 3所示的结构，即其中只包括块索引，则在进行索引数据的处理时，可以在接收到对指定索引数据的处理指令后，查找头索引中存储的块索引的索引中的属性信息，如果其中包括指定索引数据的属性信息，则可定位块索引，进而可以对该块索引中与该指定索引数据匹配的索引数据的数据项进行处理，例如，定位、删除、增加等。

参见图 5 , 为本发明实施例一种删除索引数据的流程图。本实施例中，对索引数据进行的处理以删除一指定的索引数据为例进行说明。

其中，多个属性的索引数据仍以图 4a所示的组织形式进行存储，更具体的，如图 6所示，分段索引 42中包括至少一个分段索引单元，以分段索引单元 421、 422为例，分段索引单元 421、 422并列存储，每个分段索引单元中包含多个索引数据，其中的索引数据可以按照属性信息进行排序，具体过程可以是，先将分段索引 42中的索引数据按照属性信息进行排序，然后再划分为多个分段索引单元，按属性信息进行排序的过程可以是通过比较不同的属性名称和属性值进行排序，具体的排序方法如下，以 (Attrl,Valuel),(Attr2,Value2)两个属性信息对为例，首先判断 Attrl是否大于 Attr2, 如果不相等，则两个属性信息对的大小和 Attrl和 Attr2的次序相同，否则两个属性信息对的大小和 Valuel 和 Value2的大小次序相同。

块索引 41中具有相同属性信息的索引数据的数据项划分为至少一个分段单元，且分段单元之间链式连接形成分段单元链，例如分段单元链 411、 412, 分段单元链的相邻两分段单元中，上一分段单元存储有下一分段单元的访问信息，如 key值等。

在另一实施例中，如图 7所示，该块索引 41中，对具有相同属性信息的索引数据的数据项所划分的至少一个分段单元之间还可以并列存储，块索引 41中还存储有各分段单元的分段信息，例如分段信息 413。

该删除指定索 ^ I数据的方法可以包括：

步骤 501 , 判断该指定索引数据的属性信息是否位于块索引的索引中。在 PC机等终端或服务器接收对指定索引数据的处理指令后，在本步骤中，可以首先查看块索引的索引 44中的属性信息是否包含指定索引数据的属性信息 (Attrn,Valuen), 如果否，则说明分段索引的索引 45 中包含该指定索引数据的属性信息，也即分段索引 42中存储有该指定索引数据，执行步骤 502~506；若是，则说明块索引 41中存储有该指定索引数据，执行步骤 507~509。

步骤 502, 在分段索引的匹配索引数据的数据项中，删除该指定索引数据的数据项。

该匹配索引数据具有与指定索引数据相同的属性信息 (Attrn,Valuen), 可以首先在分段索引的索引 45 中查找该属性信息 (Attrn,Valuen), 以确定该匹配索引数据所在的分段索引单元，例如分段索引单元 421 ,在确定分段索引单元 421 中的匹配索引数据后，将指定索引数据的数据项 Itemn从匹配索引数据的数据项中删除。

步骤 503 , 判断删除数据项后的匹配索引数据的数据项数量是否为 0。如果该匹配索引数据中的数据项完全等同于指定索引数据的数据项，则删除该数据项后，该匹配索引数据的数据项即为 0个，此时需要执行步骤 504。

步骤 504, 在分段索引单元中删除该匹配索引数据。

若删除数据项后，匹配索引数据的数据项为 0, 则可直接在分段索引单元

421中删除该匹配索引数据。之后，还可以对分段索引单元 421执行后续步骤

505。

步骤 505 ,若该分段索引单元中的索引数据为空，则删除该分段索引单元。删除匹配索引数据后，判断该分段索引单元 421中是否还存在索引数据，若不存在，则可以直接将该分段索引单元 421 删除，并修改分段索引的索引 45。进一步，还可以执行步骤 506。

步骤 506, 若分段索引中不存在索引数据，则将该分段索引的索引从头索引中删除。

删除上述分段索引单元 421后，判断该分段索引 42中是否还存在索引数据，如果不存在，也即不存在任何分段索引单元，则可进一步将该分段索引 42删除，并将分段索引的索引 45从其所在的头索引 43中删除。

在另一实施例中，在执行上述删除操作后，如果相邻两分段索引单元中索引数据的数量和小于阈值 a (第一阈值）时，还可以将该相邻两分段索引单元进行合并，即合并为一个分段索引单元，并可进一步修改分段索引的索引。其中，阈值 a可以根据索引结构的具体情况设定，此处不作限定。

步骤 507, 在块索引中，在匹配索引数据的数据项中，删除指定索引数据的数据项。

如果在步骤 501 中判断的结果是该指定索引数据的属性信息位于块索引的索引 44中，则说明该指定索引数据位于块索引 41中，则进一步确定块索引 41 中与该指定索引数据的属性信息相同的匹配索引数据，在匹配索引数据的数据项中删除该指定索引数据的数据项。

在本实施例中，以块索引 41中的分段单元之间链式连接为例进行说明，如图 6所示，可以首先根据指定索引数据的属性信息 (Attrn,Valuen), 确定该匹配索引数据所在的分段单元链 411 ,再确定需要删除的数据项所在的分段单元，假设为分段单元 411a, 然后在确定的分段单元 411a中删除该指定索引数据的数据项 Itemn。进一步执行步骤 508。

在另一实施例中，如果块索引 41中的分段单元为并列存储，如图 7所示，则可以首先根据指定索引数据的属性信息确定该匹配索引数据所属的分段信息，假设为分段信息 413 , 进一步在确定的分段信息 413对应的分段单元中，确定该需要删除的数据项所在的分段单元 413a, 然后在确定的分段单元 413a 中删除该指定索引数据的数据项，并更新该分段信息 413。

步骤 508, 判断块索引中，指定索引数据的数据项所在的分段单元是否为空。

在上述分段单元 411a中删除数据项 Itemn后，如果该分段单元 411a中不存在其它数据项，则执行步骤 509。

步骤 509, 将该空的分段单元从其所在的分段单元链中删除。

删除该分段单元 411a后，还可以重新建立分段单元链，只需要将原分段单元链 411 中分段单元 411a的上一分段单元中的访问信息修改为对该分段单元 411a的下一分段单元的访问信息即可。

在另一实施例中，如果块索引 41中的分段单元为并列存储，则若删除数据项 Itemn后，该数据项所在的分段单元 413a为空，则可以直接将该分段单元 413a删除，并更新其对应的分段信息 413。

在步骤 508后，在另一实施例中，如果该数据项 Itemn所在的分段单元中的数据项数量不为 0, 而且，如果在块索引 41 中，该匹配索引数据的数据项只划分为一个分段单元，则无论块索引 41中的分段单元以链式形式存储，还是以分段式并列存储，在删除数据项 Itemn后，均可以判断该数据项所在的分段单元中的数据项数量是否小于阈值 b (第五阈值）且不为 0 (该阈值 b可以根据索引结构进行设置，此处不作具体限定），若是，则将删除数据项后的匹配索引数据从块索引 41迁移至分段索引 42中，并更新头索引 43中分段索引的索引 45以及块索引的索引 44。进一步的，在该删除数据项的匹配索引数据迁移至分段索引 42后，可以将该删除数据项的匹配索引数据增加至某一分段索引单元中，也可以另外增设一分段索引单元来存储该删除数据项的匹配索引数据。

在步骤 508后，在另一实施例中，如果该数据项 Itemn所在的分段单元中的数据项数量不为 0, 对于块索引 41 中分段单元以链式存储的方式，当删除该数据项后，如果其所在的分段单元链 411中，相邻两分段单元中数据项的数量和小于阈值 c (第四阈值），则将相邻两分段单元合并，还可以进一步更新该分段单元链 411中各分段单元中的访问信息，其中，该阈值 c可以根据该索引结构进行设置，具体不作限定。对于块索引 41中分段单元并列存储的方式，当删除该数据项后，如果相邻两分段单元的数据项的数量和小于阈值 c, 则将该相邻两分段单元进行合并，并更新对应的分段信息 413 , 其中，阈值 c可以根据该索引结构进行设置，具体不作限定。

在另一实施例中，如果索引结构为图 3所示的结构，即其中只包括块索引，则在进行索 ^ I数据的删除操作时，可以在接收到对指定索引数据的处理指令后，查找头索引中存储的块索引的索引中的属性信息，如果其中包括指定索引数据的属性信息，则可定位块索引，进而可以对该块索引中与该指定索引数据匹配的索引数据的数据项进行删除。

本发明实施例通过将具有不同属性信息的索引数据存储在一个索引结构中，使得数据存储更为紧凑，从而在执行索引数据的删除操作时，可以减少与 Key-Value系统之间的交互，从而提高了索引建立和查询的性能。

参见图 8, 为本发明实施例一种增加索引数据的流程图。

本实施例中，对索引数据进行的处理以增加一指定的索引数据为例进行说明。

其中，多个属性的索引数据仍以图 4a所示的组织形式进行存储，具体的块索引 41和分段索引 42中的索引数据仍以图 6、 7所示的方式存储。

该增加指定索引数据的方法可以包括：步骤 801 , 判断该指定索引数据的属性信息是否位于块索引的索引中。本步骤中，可以首先查看块索引的索引 44中的属性信息是否包含指定索引数据的属性信息 (Attrn,Valuen), 如果否，则说明分段索引的索引 45 中包含该指定索引数据的属性信息，也即该指定索引数据需要增加至分段索引 42中，执行步骤 802~803；若是，则说明块索引的索引 44中包含该指定索引数据的属性信息，也即该指定索引数据需要增加至块索引 41中，执行步骤 804~806。

步骤 802, 在分段索引的匹配索引数据的数据项中，增加该指定索引数据的数据项。

该匹配索引数据具有与指定索引数据相同的属性信息 (Attrn,Valuen), 可以首先在分段索引的索引 45 中查找该属性信息 (Attrn,Valuen), 以确定该匹配索引数据所在的分段索引单元，例如分段索引单元 421 ,在确定分段索引单元 421 中的匹配索引数据后，将指定索引数据的数据项 Itemn增加至匹配索引数据的数据项中。

803 , 判断增加数据项后的匹配索引数据的数据项的数量是否大于阈值 d。其中，阈值 d (第二阈值）用于划分索引数据适于存储于分段索引还是块索引，其具体数值可以根据索引结构进行设置，具体不作限定。

若增加数据项后的匹配索引数据中，数据项数量超过该阈值 d, 则执行步骤 8031 , 若否，不超过该阈值 d, 则执行步骤 8032。

步骤 8031 , 将增加数据项后的匹配索引数据从分段索引迁移至块索引中，首先，将该匹配索引数据从分段索引 42的分段索引单元 421中删除，修改该分段索引的索引 45 , 然后将该增加数据项的匹配索引数据增加至块索引中。

在增加至块索引 41时，首先根据预设的分段单元的数据项数量，将该增加数据项的匹配索引数据划分为一个或多个分段单元，如果该块索引 41中的分段单元以链式方式存储，则建立该分段单元间的链式连接，即增加各分段单元的访问信息，创建分段单元链进行存储，并修改该块索引的索引 44; 如果该块索引 41中的分段单元以并列方式存储，则将划分后的分段单元并列存储，并在块索引 41中增设该匹配索引数据对应的分段信息，并修改该块索引的索引 44。

步骤 8032, 判断增加数据项后的匹配索引数据所在的分段索引单元的大小是否大于阈值 e,若是，则将该分段索引单元划分为两个新的分段索引单元。

该阈值 e (第三阈值）用于确定分段索引单元的大小，如果存储在该分段索引单元中的索引数据大于该阈值 e, 则需要将该分段索引单元进行划分，否则无需划分。该阈值 e可以根据索引结构进行设置，具体数值，此处不作限定。

在增加数据项后，如果该匹配索引数据所在的分段索引单元 421内的数据过多，占据空间过大，超过阈值 e, 则需要将该分段索引单元 421重新划分为两个新的分段索引单元来替代原分段索引单元 421 , 划分后，还可进一步更新该分段索引的索引 45。

步骤 804, 在块索引中，在匹配索引数据的数据项中，增加指定索引数据的数据项。

如果在步骤 801 中判断的结果是该指定索引数据的属性信息位于块索引的索引 44中，则说明需要将该指定索引数据增加至块索引 41中，则进一步确定块索引 41中与该指定索引数据的属性信息相同的匹配索引数据，在匹配索引数据的数据项中增加该指定索引数据的数据项。

在本实施例中，以块索引 41中的分段单元之间链式连接为例进行说明，如图 6所示，首先根据指定索引数据的属性信息 (Attrn,Valuen), 确定该匹配索引数据所在的分段单元链 411 , 再确定需要增加的数据项所在的分段单元，假设为分段单元 411a, 然后在确定的分段单元 411a中增加该指定索引数据的数据项 Itemn。进一步执行步骤 805。

在另一实施例中，如果块索引 41中的分段单元为并列存储，如图 7所示，则可以首先根据指定索引数据的属性信息确定该匹配索引数据所属的分段信息，假设为分段信息 413 , 进一步在确定的分段信息 413对应的分段单元中，确定该需要增加的数据项所在的分段单元 413a, 然后在确定的分段单元 413a 中增加该指定索引数据的数据项，并更新该分段信息 413。

步骤 805 , 判断指定索引数据的数据项所在的分段单元中，数据项的数量是否超过阈值 f。

在分段单元 411a中增加数据项 Itemn后，判断该分段单元 411a中的数据项数量是否超过阈值 f (第六阈值），若超过，则执行步骤 806, 若不超过，则增加数据项操作结束。

该阈值 f用于确定分段单元的大小，如果存储在该分段单元中的数据项大于该阈值 f, 则需要将该分段单元进行划分，否则无需划分。该阈值 f可以根据索引结构进行设置，具体数值，此处不作限定。

步骤 806, 将指定索引数据的数据项所在的分段单元划分为两个新的分段在本步骤中，需要将分段单元 411a划分为两个新的分段单元，然后将两个新的分段单元替换分段单元链 411 中的分段单元 411a, 并更新该分段单元链 411中各分段单元的访问信息。

在另一实施例中，如果该块索引 41中的分段单元以并列方式存储，则增加数据项 Itemn后的分段单元 413a, 如果其数据项的数量超过阈值 f, 则将该增加数据项后的分段单元 413a 划分为两个新的分段单元来替代原分段单元 413a, 两个新的分段单元并列存储，并更新块索引 41中的分段信息 413。

在另一实施例中，如果索引结构为图 3所示的结构，即其中只包括块索引，则在进行索 ^ I数据的增加操作时，可以在接收到对指定索引数据的处理指令后，查找头索引中存储的块索引的索引中的属性信息，如果其中包括指定索引数据的属性信息，则可定位块索引，进而可以在该块索引中与该指定索引数据匹配的索引数据里增加指定索引数据的数据项。

本发明实施例通过将具有不同属性信息的索引数据存储在一个索引结构中，使得数据存储更为紧凑，从而在执行索引数据的增加操作时，可以减少与 Key-Value系统之间的交互，从而提高了索引建立和查询的性能。

本发明实施例中，基于上述索引结构，在进行数据处理后，对于块索引中的任何分段单元或索引数据均可执行以下操作：当分段单元中的数据项为空时，删除该分段单元；当相邻两分段单元中数据项的数量和小于第四阈值时，将所述相邻两分段单元合并；当索引数据的数据项只划分为一个分段单元时，若该分段单元中的数据项数量小于第五阈值，则将该索引数据从块索引迁移至分段索引中；当分段单元中数据项的数量大于第六阈值时，将该分段单元划分为两个新的分段单元。本发明实施例中，基于上述索引结构，在进行数据处理后，对于分段索引中的任何分段索引单元或索引数据均可执行以下操作：当分段索引单元中的索引数据为 0时，删除该分段索引单元；当相邻两分段索引单元中索引数据的数量和小于第一阈值时，将所述相邻两分段索引单元进行合并；当分段索引单元中索引数据的数据项数量超过第二阈值时，将该索引数据从其所在的分段索 ) 单元迁移至块索引中；当分段索引单元的大小大于第三阈值时，将该分段索引单元划分为两个新的分段索引单元。

在本发明的另一实施例中，该索引结构被存储在多个如图 4a所示的存储单元中，该索引结构中还包括多个存储单元的存储信息，具体的如图 9所示，各存储单元 91之间可以并列存储，该索引结构中还可以包括各存储单元的存储信息 92, 存储信息 92与其下级存储单元 91之间形成级联结构，该存储信息 91可以是各存储单元的存储数据的属性信息等，该存储信息 92用于在确定指定索引数据位置时，首先根据指定索引数据的属性信息查找各存储单元 91 的存储信息 92, 以确定指定索引数据所在存储单元 91 , 然后再在确定的存储单元 91中根据前述实施例的方法进行数据处理。而且，当存储信息 92为多个时，存储信息 92之间可以并列存储，并与其上一级的索引节点 93形成级联结构，该索引节点 93中可以包括其下级存储信息 92的索引信息，例如存储信息 92中的属性信息等，该索引结构还可以是由包括存储单元 91、存储信息 92、索引节点 93在内的多级节点形成的大规模级联结构。基于该索引结构，在进行数据处理时，如定位、删除、增加数据等，在根据该数据的属性信息等确定该数据处理所针对的存储单元后，即可基于该存储单元执行与前述实施例类似的步骤，进行数据处理，此处不再重复描述。

以上是对本发明方法实施例的描述，下面对实现上述方法的设备进行介绍。

参见图 10, 为本发明实施例一种索引数据处理设备的结构示意图。

本实施例中，至少一种属性信息的索引数据存储在一个索引结构中，该索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头信息。上述索引结构可以存储在 PC机等终端或服务器的内部或外部的数据库中。基于上述索引结构，该设备可以包括：

指令接收模块 1001 , 用于接收对指定索引数据的处理指令，所述处理指令中包括指定索引数据的属性信息。

数据处理模块 1002, 用于当根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一块索引的索引时，根据所述块索引的索引定位所述块索引，并对所述块索引中匹配所述索引数据的数据项进行处理。

指令接收模块 1001接收到指定索引数据的指令后，由数据处理模块 1002 根据指定索引数据的属性信息，对指定索引数据所在的位置进行定位，然后对其中与指定索引数据匹配的索引数据的数据项进行数据处理，。该数据处理可以是定位、删除、增加指定索引数据的数据项等，其具体操作请参见前述图 5-8对应的实施例。

在另一实施例中，该索引结构也还可以包括至少一分段索引，该至少一分段索引的索引存储在所述头索引中，至少一分段索引的索引包括存储在分段索引中的索引数据的属性信息，数据处理模块，还可以用于当根据索引结构中的头索引和指定索引数据的属性信息能确定一分段索引的索引时，根据分段索引的索引定位分段索引，并对分段索引中匹配索引数据的数据项进行处理，该索引结构可以才采用如图 3或图 4a或图 9中的形式等。

本发明实施例通过将具有不同属性信息的索引数据存储在一个索引结构中，使得数据存储更为紧凑，从而通过上述模块可以在一次 Key- Value访问中获取或者更新更多的数据，所以可以减少数据处理时与 Key- Value系统之间的交互，从而提高了索引建立和查询的性能。

参见图 11 , 为本发明实施例另一种索引数据处理设备的结构示意图。本发明实施例的索引结构中，分段索引中包括至少一个分段索引单元，分段索引单元并列存储，每个分段索引单元中包含多个索引数据；块索引中，具有相同属性信息的索引数据的数据项划分为至少一个分段单元。分段单元之间链式连接形成分段单元链，该分段单元链的相邻两分段单元中，上一分段单元存储有下一分段单元的访问信息；或者，分段单元之间并列存储，块索引中还存储有各分段单元的分段信息。

该设备也可以包括指令接收模块 1101和数据处理模块 1102, 其中指令接收模块 1101与指令接收模块 1001类似。

本实施例中，该数据处理模块 1102可以进一步包括：

第一合并单元 11021 , 用于当相邻两分段索引单元中索引数据的数量和小于第一阈值时，将所述相邻两分段索 ^ I单元进行合并；

第一迁移单元 11022, 用于当分段索引单元中索引数据的数据项数量超过第二阈值时，将该索引数据从其所在的分段索引单元迁移至块索引中；

第一划分单元 11023 , 用于当分段索引单元的大小大于第三阈值时，将该分段索引单元划分为两个新的分段索引单元。

第二合并单元 11024, 用于当相邻两分段单元中数据项的数量和小于第四阈值时，将所述相邻两分段单元合并；

第二迁移单元 11025,用于当索引数据的数据项只划分为一个分段单元时，若该分段单元中的数据项数量小于第五阈值，则将该索引数据从块索引迁移至分段索引中；

第二划分单元 11026, 用于当分段单元中数据项的数量大于第六阈值时，将该分段单元划分为两个新的分段单元。

在该实施例中，该数据处理模块 1102可以包括以上单元的任意组合，不作具体限定。

在本发明的另一实施例中，该数据处理模块 1102还可以进一步包括如下单元：

定位单元，用于在所述匹配索引数据的数据项中，定位所述指定索引数据的数据项；

第一删除单元，用于在所述匹配索引数据的数据项中，删除所述指定索引数据的数据项；

增加单元，用于在所述匹配索引数据的数据项中，增加所述指定索引数据的数据项。

第二删除单元，用于当分段索引单元中的索引数据为 0时，删除该分段索引单元；

第三删除单元，用于当分段单元中的数据项为空时，删除该分段单元。该数据处理模块可以同时包括上述单元的任意组合。在另一实施例中，若该索引结构中存储有多个存储单元，则存储单元之间可以并列存储，该索引结构中还包括各存储单元的存储信息，以形成大规模数据的级联结构。在该索引结构下，数据处理模块在进行数据处理时，如定位、删除、增加数据等，在根据该数据的属性信息等确定该数据处理所针对的存储单元后，即可基于该存储单元执行与前述实施例类似的步骤，进行数据处理，此处不再重复描述。

通过上述本发明实施例的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明实施例或者实施例的某些部分所述的方法。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上设备中各模块及单元的具体实现过程请参见前述方法实施例的相应描述，此处不再赘述。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

权利要求

1. 一种索引数据处理方法，其特征在于，至少一种属性信息的索引数据存储在一个索引结构中，所述索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头索引中，所述至少一块索引的索引包括存储在所述块索引中的索引数据的属性信息，所述方法包括：

2.根据权利要求 1 所述的方法，其特征在于，所述索引结构还包括至少一分段索引，所述至少一分段索引的索引存储在所述头索引中，所述至少一分若根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一分段索引的索引，则根据所述分段索引的索引定位所述分段索引，并对所述分段索引中匹配所述索引数据的数据项进行处理。

3.根据权利要求 1或 2所述的方法，其特征在于，所述索引结构被存储在多个存储单元中，所述索引结构中还包括所述多个存储单元的存储信息。

4、根据权利要求 2或 3所述的方法，其特征在于，所述分段索引中包括至少一个分段索引单元，所述分段索引单元并列存储，每个分段索引单元中包含多个索引数据。

5、根据权利要求 4所述的方法，其特征在于，所述方法还包括：当相邻两分段索引单元中索引数据的数量和小于第一阈值时，将所述相邻两分段索引单元进行合并；或者，

当分段索引单元中索引数据的数据项数量超过第二阈值时，将该索引数据从其所在的分段索引单元迁移至块索引中；或者，

当分段索引单元的大小大于第三阈值时，将该分段索引单元划分为两个新的分段索引单元。

6、根据权利要求 1至 5中任意一项所述的方法，其特征在于，所述块索引中，具有相同属性信息的索引数据的数据项划分为至少一个分段单元。

7、根据权利要求 6所述的方法，其特征在于，

所述分段单元之间链式连接形成分段单元链，该分段单元链的相邻两分段单元中，上一分段单元存储有下一分段单元的访问信息；或者，

所述分段单元之间并列存储，所述块索引中还存储有各分段单元的分段信息。

8、根据权利要求 6所述的方法，其特征在于，所述方法还包括：当相邻两分段单元中数据项的数量和小于第四阈值时，将所述相邻两分段单元合并；或者，

当索引数据的数据项只划分为一个分段单元时，若该分段单元中的数据项数量小于第五阈值，则将该索引数据从块索引迁移至分段索引中；或者，当分段单元中数据项的数量大于第六阈值时，将该分段单元划分为两个新的分段单元。

9、一种索引数据处理设备，其特征在于，至少一种属性信息的索引数据存储在一个索引结构中，所述索引结构包括一头索引和至少一块索引，所述至少一块索引的索引存储在所述头索引中，所述至少一块索引的索引包括存储在所述块索引中的索引数据的属性信息，所述设备包括：

10、根据权利要求 9所述的设备，其特征在于，所述索引结构还包括至少一分段索引，所述至少一分段索引的索引存储在所述头索引中，所述至少一分所述数据处理模块，还用于当根据所述索引结构中的头索引和所述指定索引数据的属性信息能确定一分段索引的索引时，根据所述分段索引的索引定位所述分段索引，并对所述分段索引中匹配所述索引数据的数据项进行处理。

11、根据权利要求 9或 10所述的设备，其特征在于，所述索引结构被存储在多个存储单元中，所述索引结构中还包括所述多个存储单元的存储信息。

12、根据权利要求 10所述的设备，其特征在于，所述分段索引中包括至少一个分段索引单元，所述分段索引单元并列存储，每个分段索引单元中包含多个索引数据。

13、根据权利要求 12所述的设备，其特征在于，所述数据处理模块包括如下至少一项：

第一合并单元，用于当相邻两分段索引单元中索引数据的数量和小于第一阈值时，将所述相邻两分段索引单元进行合并；

第一迁移单元，用于当分段索引单元中索引数据的数据项数量超过第二阈值时，将该索引数据从其所在的分段索引单元迁移至块索引中；

第一划分单元，用于当分段索引单元的大小大于第三阈值时，将该分段索引单元划分为两个新的分段索引单元。

14、根据权利要求 9至 13中任意一项所述的设备，其特征在于，所述块索引中，具有相同属性信息的索引数据的数据项划分为至少一个分段单元。

15、根据权利要求 14所述的设备，其特征在于，

16、根据权利要求 14或 15所述的设备，其特征在于，所述数据处理模块包括如下至少一项：

第二合并单元，用于当相邻两分段单元中数据项的数量和小于第四阈值时，将所述相邻两分段单元合并；

第二迁移单元，用于当索引数据的数据项只划分为一个分段单元时，若该分段单元中的数据项数量小于第五阈值，则将该索引数据从块索引迁移至分段索引中；

第二划分单元，用于当分段单元中数据项的数量大于第六阈值时，将该分段单元划分为两个新的分段单元。