WO2012174906A1

WO2012174906A1 - 一种数据存储、查找方法及装置

Info

Publication number: WO2012174906A1
Application number: PCT/CN2012/072846
Authority: WO
Inventors: 孙鸣; 邓辉
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-06-21
Filing date: 2012-03-22
Publication date: 2012-12-27
Also published as: CN102222099A

Abstract

本发明公开了一种数据存储、查找方法及装置。数据存储方法包括：将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中；将每类性能数据归类对应的索引信息存储在与性能文件对应的归类索引文件中。数据查找方法包括：根据待查性能数据，确定待查性能数据所属的性能数据归类；在归类索引文件中，查找与性能数据归类对应的索引信息；根据索引信息，在性能文件中查找待查性能数据。本发明可以对性能数据进行快速查找，查询效率高，并且减少IO操作，降低了查找的复杂性，提升了磁盘随机读写的性能，从而提升了系统的可用性。

Description

一种数据存储、查找方法及装置技术领域

本发明涉及数据存储技术领域，特别是涉及一种数据存储、查找方法及装置。背景技术

在性能采集系统中，往往需要周期性地从设备的多个采集点上采集多种性能数据。采集点是指设备上可以提供性能数据采集和统计的物理实体，是设备上指定的获取性能数据的来源。这些性能数据会以某种持久化的方式被存储起来，采集规模较大时，存储的数据是海量的。在海量的数据中常常需要进行一些查询，这些查询条件包括某个或者少量采集点标识、性能数据的采集时间范围、以及性能数据的数值范围等，这些数据被查询出来将以图形或图表的形式显示在图形用户界面（GUI , Graphical User Interface )上，这些都涉及到性能数据的随机读取。这里，所述采集点标识是指能唯一标识某个采集点的编号，可以为字串等

目前的系统往往都是将性能数据保存在关系数据库中，比如 SQLSERVER, ORACLE等，可是由于这些数据表最终都是存储在同一个或者少数几个文件（当支持对物理表的逻辑分表时）中。一般来讲，由于受到磁头移动和寻道的影响，在这样的大数据文件中基于磁盘的随机读写性能往往比较低效。数据库虽然可以帮助建立相应的索引，但是性能采集系统的数据具有自身的业务特征，这样的索引不足以提高随机查询时的效率，不能确保查询数据的集中性，从而不能减少相应的输入输出（10, Input Output )操作，以至于效率较低；同时所占的空间开销也较大。数据库的数据插入对文件来说也不能保证顺序追加，从而产生磁头移动和寻道，而这些对一次写入、多次读取的性能数据来说都是不必要的。特别是查询某些给定查询条件的性能数据时，为了要读出性能数据，会有大量的随机读取操作，导致查询性能极为低下，用户体验不好；关系型数据库对数据的存储方式、以及结构^ i查询语言（SQL, Structured Query Language ) 的查询已经不适合目前海量级别的性能数据。发明内容

本发明要解决的技术问题是提供一种数据存储、查找方法及装置，用以解决现有技术中由于性能数据随机存储而造成在海量级数据中查询数据效率低下的问题。

为解决上述技术问题，一方面，本发明提供一种数据存储方法，该方法包括：

将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中；

将每个所述性能数据归类对应的索引信息存储在与所述性能文件对应的归类索引文件中。

进一步，所述性能数据归类对应的索引信息包括：与所述性能数据归类对应的归类业务类别标识、所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小。

进一步，在将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中时，该方法进一步包括：

每条性能数据只存储于一类性能数据归类中；且属于同一性能数据归类中的性能数据按照数据采集的前后顺序依次存入。

另一方面，本发明还提供一种数据查找方法，该方法包括：

根据待查性能数据，确定所述待查性能数据所属的性能数据归类；在归类索引文件中，查找与所述性能数据归类对应的索引信息；根据所述索弓！信息，在性能文件中查找所述待查性能数据。

进一步，所述根据所述索引信息，在性能文件中查找所述待查性能数据，包括：

根据所述索引信息，获取所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小；

将所述第一条性能数据在所述性能文件中的存储位置作为查询起始位置，并将所述第一条性能数据在所述性能文件中的存储位置偏移所述性能数据归类大小之后所处的位置作为查询结束位置，在所述查询起始位置与查询结束位置之间查找所述待查性能数据。

再一方面，本发明还提供一种数据存储装置，包括：性能数据存储单元及索引信息存储单元；其中，

性能数据存储单元，用于将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中；

索引信息存储单元，用于将每个所述性能数据归类对应的索引信息存储在与所述性能文件对应的归类索引文件中。

进一步，所述性能数据存储单元进一步用于：将每条性能数据只存储于一类性能数据归类中；且将属于同一性能数据归类中的性能数据按照数据采集的前后顺序依次存入。

再一方面，本发明还提供一种数据查询装置，包括：性能数据归类确定单元、索引信息查找单元、以及待查性能数据查找单元；其中，

性能数据归类确定单元，用于根据待查性能数据，确定所述待查性能数据所属的性能数据归类；索引信息查找单元，用于在归类索引文件中查找与所述性能数据归类对应的索引信息；

待查性能数据查找单元，用于根据所述索引信息，在性能文件中查找所述待查性能数据。

进一步，所述待查性能数据查找单元进一步包括：索引信息获取子单元及查找子单元；其中，

索引信息获取子单元，用于根据所述索引信息，获取所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小；

查找子单元，用于将所述第一条性能数据在所述性能文件中的存储位置作为查询起始位置，并将所述第一条性能数据在所述性能文件中的存储位置偏移所述性能数据归类大小之后所处的位置作为查询结束位置，在所述查询起始位置与查询结束位置之间查找所述待查性能数据。

本发明有益效果如下：

本发明通过对性能数据归类存储在性能文件中，并将每类性能数据在性能文件中的存储位置存储在归类索引文件中，这样，查找性能数据时，就可以在归类索引文件中查找到这一类性能数据在性能文件中的存储位置，进而可以快速查找到待查的性能数据，使得查询的数据较为集中，从而提高查询效率，减少 10操作，降低了查找的复杂性。另外，避免了在超大数据文件中绝大多数的磁头移动和寻道的开销，极大地提升了磁盘随机读写的性能，从而提升了系统的可用性。附图说明

图 1 是本发明实施例中一种数据存储方法的流程图；

图 1是本发明实施例中一种数据查找方法的流程图；

图 3 是本发明实施例中一种数据存储装置的结构示意图；图 4是本发明实施例中一种数据查找装置的结构示意图。具体实施方式

为了解决现有技术中由于性能数据随机存储而造成在海量级数据中查询数据效率低下的问题，本发明提供了一种数据存储、查找方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明为克服现有技术中由于性能数据采用关系数据库作为永久存储介质 , 性能数据条件查询以及周期性地性能数据增加涉及到的随机读写带来的大量寻址消耗，从而引起的系统性能低下的问题，提供一种符合性能采集系统这样一种特定应用特色的进行性能数据的存储方法，根据性能数据一次写入、多次读取的特性，用两类文件来进行存储，具体地，性能文件用来存储性能记录，归类索引文件用来保存性能文件中的性能记录的位置信息。每个性能文件都配备一个归类索引文件，归类索引文件以性能记录归类，而不是一条性能记录为单位来计算。在写入性能文件前对性能记录进行归类，按照归类将记录顺序地追加（append )到文件尾部，或者，非随机写入；且一次写入、多次随机查询读取；这种算法通过在写入磁盘前对性能数据进行归类，使其顺序地追加到文件的末尾，从而避免了在超大数据文件中绝大多数的磁头移动和寻道的开销，另外，根据业务特征有针对性的建立以归类，而不是以一条性能数据为单位的索引方法，在保证高写入性能的同时，也大大提升了随机查询的效率，使得查询的数据较为集中从而提高命中率，减少 10操作，降低了查找的复杂性，同时索引本身的空间开销也非常小；在索引规模和复杂性以及查找效率上取得平衡。

如图 1所示，本发明实施例涉及一种数据存储方法，包括以下步驟：步驟 S101 , 将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中；本步驟中，每个采集周期内或者为数据的采集时间点或时间段内采集的性能数据都储存在同一个性能文件中，不同采集周期内采集的性能数据存储在不同的性能文件中。这里，性能数据也可以称为性能记录。

在存储采集的性能数据之前，首先需要对存储在性能文件中的性能数据进行归类设置。由于采集的每一条性能数据都带有性能记录标识，因此，可以根据性能纪录标识对所有性能数据进行归类，即：将性能数据分成不同的性能数据归类。归类的方式根据业务特征来制定，原则上尽量保证每个归类中记录的个数平均分配，且一个性能记录仅能隶属于一个归类。一条性能数据指的是某个采集点的性能数据，归类的方式根据业务特征来制定，例如：可以根据采集点编号的简单运算、采集点所在的设备 ΙΡ、采集点所在的设备名称、采集点所在设备的框号、采集点所在设备的槽位等，但是要保证一个采集点上的性能数据仅能隶属于一个归类。

在进行归类设置之后，为了保证性能文件随机读取的性能，还需要为每个性能文件配备一个归类索引文件，用来存放性能文件中性能记录归类的索引，也就是位置信息。为了保证性能文件与归类索引文件的对应关系，需要设置好性能文件名称和对应的归类索引文件名称的对应关系；为了保证能快速找到性能文件对应的归类索引文件，两个文件名称作好约定，例如：性能文件为 *****.dat , 那么索引文件名称为 *****.idx, 除后缀名外，文件名称一致，当然还可以选择其它的对应方式。

按照归类依次存储所有性能数据：对于每一类性能数据归类，依次在性能文件中储存该归类的剩余记录，即：属于同一性能数据归类中的性能数据按照数据采集的前后顺序依次存入。所有归类存储完毕，则性能文件存储完毕。

步驟 S102, 将每个所述性能数据归类对应的索引信息存储在与所述性能文件对应的归类索引文件中。本步驟中，每一个性能文件都有一个与其对应的归类索引文件。

由于需要对每一类性能数据归类进行识别，因此，需要为每个归类定义归类业务类别标识，标识的命名以能够快速判断一个性能数据是否隶属于该归类。例如：假设采集点编号为 Entryid— i— s_p (性能记录标识），其中 i为设备 ip地址，字串，例如 10.32.35.67, s为槽位号，为 1到 64, p为端口号为 1到 32, 采集点形如： Entryid_10.32.35.67_l_l。如果选择一个槽位作为一个归类，归类业务类别标识为 grp— i— s , i和 s的含义同上。那么归类业务类别标识形如 grp_10.3².35.67_l。

性能文件中的每一个性能数据归类都在归类索引文件中对应有一条索引信息，每类性能数据归类对应的索引信息包括：与该性能数据归类对应的归类业务类别标识、该性能数据归类中第一条性能数据在性能文件中的存储位置、以及该性能数据归类的大小。该性能数据归类的大小是指：该性能数据归类中包含的性能数据在性能文件中所占的字节数。

在存储性能数据时，开始存储每个性能数据归类（简称归类）第一条性能数据时，在归类索引文件中与该归类对应的索引信息中存储归类业务类别标识以及该性能数据在性能文件中的位移，然后依次在性能文件中储存该归类的剩余记录。存储该性能数据归类的最后一条性能数据完毕后，用最后一条性能数据在性能文件中的存储位移和该归类中第一条性能数据在性能文件中的存储位移求差，所得差值作为该性能数据归类的大小存入上述索引信息中。以此方法，对所有归类进行存储。

以上实施例与现有技术直接用关系数据库的数据库表格来保存性能记录的方案相比，根据采集系统的采集数据的业务特性，用两类文件来进行存储，性能文件用来存储性能记录，记录归类索引文件用来保存性能文件中的性能记录的位置信息；对性能记录进行归类，保证性能记录按照归类以追加的方式写入；用记录归类索引文件来协助定位性能文件的相应读取位置；极大地提升了磁盘随机读写的性能，从而极大地提升了系统的可用性。

如图 2所示，本发明实施例还涉及一种数据查找方法，包括以下步驟：步驟 S201 , 根据待查性能数据，确定所述待查性能数据所属的性能数据归类；

本步驟中，由于采集的每一条性能数据都带有性能记录标识，而性能文件中的归类也是依据性能记录标识进行分类的，因此，根据待查性能数据的性能记录标识，就可以知道该待查性能数据的归类业务类别标识，进而可以知道该待查性能数据属于哪一类性能数据归类。

步驟 S202, 在归类索引文件中，查找与所述性能数据归类对应的索引信息；

步驟 S203 , 根据索引信息，在性能文件中查找待查性能数据。

本步驟中，具体为：

根据所述索引信息，获取所述性能数据归类中第一条性能数据在性能文件中的存储位置、以及所述性能数据归类的大小；

将第一条性能数据在性能文件中的存储位置作为查询起始位置，将第一条性能数据在性能文件中的存储位置偏移性能数据归类大小之后所处的位置，作为查询结束位置，在性能文件中查找待查性能数据。可以采用随机读取的方式进行查找，也可以采用依次遍历的读取方式进行查找，由于已经限定了具体的查询位置，因此，查找速度很快，大大提高了查找效率。

本发明上述实施例提供的方案中，归类索引文件用来描述性能数据归类的索引信息，包括：与该归类对应的归类业务类别标识、该归类中第一条记录在性能文件中的位移、以及该归类的大小等。有了这些索引信息，读取性能记录时就可以直接定位到性能文件的相应位置，而不需要从文件头一直遍历寻找到文件尾进行查找，使得查找效率高。例如，某个采集时刻，对 50 万个采集点即 50 万条性能记录来说，假设采集点编号为 Entryid— i—s_p, 其中 i为设备 ip地址，字串，例如 10.32.35.67, s为槽位号，为 1 到 64 , p 为端口号为 1 到 32 , 采集点形如：依次为 Entryid_10.32.35.67 1 L 50万采集点分布在大约 250个设备上，也就是 250 个 IP地址上。如果选择一个槽位作为一个归类，那么归类索引共 16000条，归类业务类别标识为 grp— i— s , i和 s的含义同上。那么归类业务类别标识形如： grp— 10.32.35.67— 1 。那么， Entryid— 10.32.35.67— 1—1 , Entryid_10.32.35.67_l_2, …直到 Entryid_10.32.35.67_l_32将被归类到业务类别标识 grp— 10.32.35.67— 1 中；假设现在要找采集点编号为 Entryid_10.32.35.67_l_17 的性能数据，就可以直接定位到业务类别标识 grp— 10.32.35.67— 1的归类中。通过读取归类索引文件获取 grp— 10.32.35.67— 1 归类信息中标识的位移，即该归类在性能文件中的起始位置，然后根据归类大小读出整个归类的内容，再从其中找出 Entryid_10.32.35.67_l_17对应的性能记录即可。如果这 50万记录不加归类，随机存放，那么对某个采集点的记录查询时间就是不确定的，如果这个采集点存储在文件最后，那么就要遍历完文件才能找到，每个记录的查找时间都是相对稳定且较快的。

本发明实施例提供的上述方案中，以性能数据归类的方式进行存储和查询，而不是以每一条性能数据进行存储和查询，使得归类索引文件，在占用空间和磁盘寻道中取得一个平衡，例如： 25个性能数据属于一个归类，与现有技术的一个性能数据属于一个归类相比，使得索引文件的大小是现有技术的二十五分之一，而这个值可以根据具体应用的业务特性以及机器的内存和一条性能记录的占用字节数来决定。

本发明实施例的方案，性能记录的归类是按照业务特征来制定的，能够尽量保证每个归类的性能记录个数平均，在索引规模和查询效率上取得平衡，不至于某个归类较大，某个归类较小。避免了较大的归类由于读取时比较占用内存，影响效率的问题；同时也避免了较小的归类由于需要读取较多的归类，导致 10频繁引发的低效问题。例如，某个槽位上所有的端口采集点作为一个性能归类，这样每个归类包含的性能个数较为均勾。并且由于按照业务特征来归类，符合业务查询特性，也能保证在随机查询时的命中率较高、降低复杂性，例如对某个槽位上的某些端口的查询在按照槽位归类时，只需要读取一个归类就能获取到所有合适的记录。

如图 3所示，本发明实施例还涉及一种数据存储装置，包括：性能数据存储单元 301 ,用于将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中；

索引信息存储单元 302 ,用于将每类所述性能数据归类对应的索引信息存储在与所述性能文件对应的归类索引文件中。

其中，每类所述性能数据归类对应的索引信息包括：与该性能数据归类对应的归类业务类别标识、该性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及该性能数据归类的大小。

性能数据存储单元 301 将每一条性能数据只存储于一类性能数据归类中；且将属于同一性能数据归类中的性能数据按照数据采集的前后顺序依次存入。

如图 4所示，本发明实施例还涉及一种数据查询装置，包括：性能数据归类确定单元 401 , 用于根据待查性能数据，确定所述待查性能数据所属的性能数据归类；

索引信息查找单元 402 ,用于在归类索引文件中查找与所述性能数据归类对应的索引信息；

待查性能数据查找单元 403 , 用于根据所述索引信息，在性能文件中查找所述待查性能数据。

其中，待查性能数据查找单元 403还可以进一步包括：索引信息获取子单元 4031 , 用于根据索引信息，获取所述性能数据归类中第一条性能数据在性能文件中的存储位置、以及所述性能数据归类的大小；

查找子单元 4032, 用于将第一条性能数据在所述性能文件中的存储位置作为查询起始位置，将所述第一条性能数据在所述性能文件中的存储位置偏移所述性能数据归类大小之后所处的位置作为查询结束位置，在所述性能文件中查找所述待查性能数据。

由上述实施例可以看出，本发明通过对性能数据归类存储在性能文件中，并将每类性能数据在性能文件中的存储位置存储在归类索引文件中，这样，查找性能数据时，就可以在归类索引文件中查找到这一类性能数据在性能文件中的存储位置，进而可以快速查找到待查的性能数据，使得查询的数据较为集中从而提高查询效率，减少 10操作，降低了查找的复杂性。另外，避免了在超大数据文件中绝大多数的磁头移动和寻道的开销，极大地提升了磁盘随机读写的性能，从而提升了系统的可用性。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

权利要求书

1、一种数据存储方法，其特征在于，该方法包括：

2、根据权利要求 1所述的数据存储方法，其特征在于，所述性能数据归类对应的索引信息包括：与所述性能数据归类对应的归类业务类别标识、所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小。

3、根据权利要求 1或 2所述的数据存储方法，其特征在于，在将每个数据采集周期内采集的性能数据按业务特征分类存储在性能文件中不同的性能数据归类中时，该方法进一步包括：

4、一种数据查找方法，其特征在于，该方法包括：

根据待查性能数据，确定所述待查性能数据所属的性能数据归类；在归类索引文件中，查找与所述性能数据归类对应的索引信息；根据所述索！信息 , 在性能文件中查找所述待查性能数据。

5、根据权利要求 4所述的数据查找方法，其特征在于，所述根据所述索引信息，在性能文件中查找所述待查性能数据，包括：

6、一种数据存储装置，其特征在于，该装置包括：性能数据存储单元及索引信息存储单元；其中，

7、根据权利要求 6所述的数据存储装置，其特征在于，所述性能数据归类对应的索引信息包括：与所述性能数据归类对应的归类业务类别标识、所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小。

8、根据权利要求 6或 7所述的数据存储装置，其特征在于，所述性能数据存储单元进一步用于：将每条性能数据只存储于一类性能数据归类中；且将属于同一性能数据归类中的性能数据按照数据采集的前后顺序依次存入。

9、一种数据查询装置，其特征在于，包括：性能数据归类确定单元、索引信息查找单元、以及待查性能数据查找单元；其中，

性能数据归类确定单元，用于根据待查性能数据，确定所述待查性能数据所属的性能数据归类；

索引信息查找单元，用于在归类索引文件中查找与所述性能数据归类对应的索引信息；

10、根据权利要求 9所述的数据查询装置，其特征在于，所述待查性能数据查找单元进一步包括：索引信息获取子单元及查找子单元；其中，索引信息获取子单元，用于根据所述索引信息，获取所述性能数据归类中第一条性能数据在所述性能文件中的存储位置、以及所述性能数据归类的大小；