WO2023216575A1

WO2023216575A1 - 数据页处理的方法及其装置

Info

Publication number: WO2023216575A1
Application number: PCT/CN2022/137287
Authority: WO
Inventors: 纪德东; 尼古拉·科夫里日尼赫; 王建朋
Original assignee: 华为技术有限公司
Priority date: 2022-05-11
Filing date: 2022-12-07
Publication date: 2023-11-16

Abstract

数据页处理的方法及其装置，该方法包括: 根据第一数据页，得到第二数据页（S210）；对所述第二数据页进行压缩，得到压缩后的数据页（S220）；其中，所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量，所述第二数据是对第一数据进行预处理后得到的数据，所述第二组偏移量是对所述第一组偏移量进行所述预处理后得到的组偏移量，所述预处理包括基于字节级的行列转换。上述对数据页处理的方法，不仅压缩率较高，还能和现有压缩方法的压缩耗时基本持平。

Description

数据页处理的方法及其装置

本申请要求于2022年5月11日提交俄罗斯联邦专利局、申请号为2022112514、申请名称为“数据页处理的方法及其装置”的俄罗斯联邦专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及信息技术领域，并且更具体地，涉及一种数据页处理的方法及其装置。

背景技术

由于数据压缩技术不仅可以节省存储空间，还可以增加数据传输的速率，因此，其已经广泛地应用于信息技术领域。

目前，现有的数据压缩通常是基于字典压缩算法、前缀压缩算法或通用压缩算法(如，zlib、lz4、zstd等)来实现数据的压缩。但是，这些压缩算法均没有考虑数据分布的特点，进而使得压缩率较低。

发明内容

本申请实施例提供一种数据页处理的方法及其装置，该数据页处理的方法不仅压缩率(或解压缩率)较高，还能和现有压缩(或解压缩)方法的压缩耗时(或解压缩耗时)基本持平。

第一方面，提供了一种数据页处理的方法，包括：根据第一数据页，得到第二数据页；对所述第二数据页进行压缩，得到压缩后的数据页；其中，所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量，所述第二数据是对第一数据进行预处理后得到的数据，所述第二组偏移量是对所述第一组偏移量进行所述预处理后得到的组偏移量，所述预处理包括基于字节级的行列转换。

在本申请实施例中，对基于行存储方式的第一数据页中存储的数据进行基于字节级的行列转换，也就是说，将基于行存储方式的数据以一种有序可逆的方式转换为基于列存储方式的数据的形式，使数据在数据页内原地更新。然后再对转换后的第二数据页进行压缩。而由于得到的第二数据页中存储的每行数据具有相似性、重复度和一定规律性，这样对第二数据页进行压缩的压缩率比直接对第一数据页进行压缩的压缩率要高，进而提高了数据页的压缩率。此外，本申请实施例和现有压缩方法的压缩耗时基本持平。

结合第一方面，在第一方面的某些实现方式中，所述根据所述第一数据页，得到第二数据页，包括：从所述第一数据页中分别获取所述第一数据和所述第一组偏移量；按照字节对所述第一数据进行所述预处理得到所述第二数据；按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量；根据所述第二数据和所述第二组偏移量，得到所述第二数据页。

结合第一方面，在第一方面的某些实现方式中，所述第一数据页包括第一行数据部和第一目录部，所述第一行数据部用于存储所述第一数据，所述第一目录部用于存储所述第一组偏移量；所述根据所述第二数据和所述第二组偏移量，得到所述第二数据页，包括：将所述第一行数据部中存储的所述第一数据更新为所述第二数据，并将所述第一目录部中存储的所述第一组偏移量更新为第二组偏移量，得到所述第二数据页。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第一数据进行所述预处理得到所述第二数据，包括：获取所述第一数据的偏移量的起始点和结束点；根据所述第一数据的偏移量的起始点和结束点，以及所述第一组偏移量的单位偏移量长度，得到所述第一组偏移量包括的偏移量的数量M；从所述M个偏移量中去除无效的偏移量，得到N个偏移量，所述N小于或等于所述M，所述N和所述M均为正整数；将所述N个偏移量按照从小到大的顺序进行排列，得到排序后的N个偏移量；根据所述排序后的N个偏移量，将所述第一行数据部划分为N个区域，并得到所述第一数据的每行数据的长度，其中所述N个区域中的第n个区域中的数据的个数为所述第一数据的第n行数据的长度；按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第二数据第i行第N列的数据，所述i依次从1取至L1，所述i为正整数，所述L1为所述第一数据的最大行长度，所述N个偏移量的排列顺序为所述N个偏移量按照从小到大的排列顺序或所述N个偏移量在所述第一组偏移量中的排列顺序；所述按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量包括：按照字节对所述第一组偏移量中的所述N个偏移量进行所述预处理得到所述第二组偏移量。

结合第一方面，在第一方面的某些实现方式中，在所述按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为第二数据第i行第N列的数据之前，所述方法还包括：确定所述第一数据的每行数据的长度之间的差异小于或等于第一阈值。

在本申请实施例中，在确定第一数据的每行数据的长度之间的差异小于或等于第三阈值的情况下，再按照N个偏移量的排列顺序，依次从N个区域中，取第i个字节对应的数据作为第二数据第i行第N列的数据。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，所述预处理还包括基于字节级的差分处理，所述差分处理包括列数据之间进行差分。

在本申请实施例中，将列数据之间进行基于字节级的差分处理后，能够制造出更多的重复数据，这样可以充分利用数据结构特点，进一步地提升数据重复度和规律性，进而可以提高数据页的压缩率。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第一数据进行所述预处理得到所述第二数据包括：按照字节对所述第一数据进行行列转换得到所述第三数据；将所述第三数据的第a1行上的相邻列的数据按照字节进行差分，得到所述第二数据，所述1≤a1≤a2，所述a1和a2均为正整数，所述a2等于所述第一数据的最大行长度或所述a2等于所述第一数据的最小行长度；所述按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量包括：按照字节对所述第一组偏移量进行行列转换得到所述第三组偏移量；将所述第三组偏移量的第b1行上的相邻列的数据按照字节进行差分，得到所述第二组偏移量，所述1≤b1≤b2，所述b1和b2均为正整数，所述b2等于所述第一组偏移量的最大行长度或所述b2等于所述第一组偏移量的最小行长度。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第一数据进行行列转换得到所述第三数据，包括：获取所述第一数据的偏移量的起始点和结束点；根据所述第一数据的偏移量的起始点和结束点，以及所述第一组偏移量的单位偏移量长度，得到所述第一组偏移量包括的偏移量的数量M；从所述M个偏移量中去除无效的偏移量，得到N个偏移量，所述N小于或等于所述M，所述N和所述M均为正整数；将所述N个偏移量按照从小到大的顺序进行排列，得到排序后的N个偏移量；根据所述排序后的N个偏移量，将所述第一行数据部划分为N个区域，并得到所述第一数据的每行数据的长度，其中所述N个区域中的第n个区域中的数据的个数为所述第一数据的第n行数据的长度；按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第三数据第i行第N列的数据，所述i依次从1取至L1，所述i为正整数，所述L1为所述第一数据的最大行长度，所述N个偏移量的排列顺序为所述N个偏移量按照从小到大的排列顺序或所述N个偏移量在所述第一组偏移量中的排列顺序；所述按照字节对所述第一组偏移量进行行列转换得到所述第三组偏移量包括：按照字节对所述第一组偏移量中的所述N个偏移量进行行列转换得到所述第三组偏移量。

结合第一方面，在第一方面的某些实现方式中，在所述按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第三数据第i行第N列的数据之前，所述方法还包括：确定所述第一数据的每行数据的长度之间的差异小于或等于第一阈值。

在本申请实施例中，在确定第一数据的每行数据的长度之间的差异小于或等于第一阈值的情况下，再按照N个偏移量的排列顺序，依次从N个区域中，取第i个字节对应的数据作为第三数据第i行第N列的数据。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，在所述根据所述N个偏移量，将所述第一行数据部划分为N个区域之前，所述方法还包括：确定所述N小于或等于第二阈值。

在本申请实施例中，在确定N小于或等于第二阈值的情况下，再根据N个偏移量，将第一行数据部划分为N个区域。这样，只有在第一数据行数不多的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页；其中，所述第三数据页包括基于行存储方式的第四数据和第四组偏移量，所述第四组偏移量用于指示所述第四数据的每行数据的偏移量，所述第一数据包括多个所述第三数据页对应的多个所述第四数据，且多个所述第四数据的最大行长度相同，第一组偏移量包括多个所述第三数据页对应的多个所述第四组偏移量。

在本申请实施例中，在对数据页进行基于字节级的行列转换之前，可以将连续的且结构相同的多个数据页进行重组得到一个数据页。这样，可以充分利用数据页结构特点，将相似度较高的多个数据页重组成一个数据页，进而可以进一步提高数据页的压缩率。此外，压缩耗时基本和现有压缩方法的压缩耗时也是基本持平。

结合第一方面，在第一方面的某些实现方式中，所述将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页，包括：分别获取与多个所述第三数据页对应的多个所述第四数据和多个所述第四组偏移量；分别将多个所述第四数据按照目标顺序进行排列，得到所述第一数据；以及，分别将多个所述第四组偏移量按照所述目标顺序进行排列，得到所述第一组偏移量，所述目标顺序为多个所述第三数据页的排列顺序；将所述第一数据和所述第一组偏移量分别存储至所述第一数据页。

结合第一方面，在第一方面的某些实现方式中，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。

结合第一方面，在第一方面的某些实现方式中，所述第二数据页包括用于指示所述第二数据页进行过所述预处理的信息。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：对所述压缩后的数据页进行解压缩，得到所述第二数据页；根据所述第二数据页，得到所述第一数据页，所述第一数据是对第二数据进行所述预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。

在本申请实施例中，由于第二数据页中存储的每行数据具有相似性、重复度和一定规律性，这样对第二数据页进行解压缩的解压缩率就比较高，进而提高了数据页的解压缩率。此外，本申请实施例和现有解压缩方法的解压缩率耗时基本持平。

结合第一方面，在第一方面的某些实现方式中，所述根据所述第二数据页，得到所述第一数据页，包括：从所述第二数据页中分别获取所述第二数据和所述第二组偏移量；按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据；根据所述第一数据和所述第一组偏移量，得到所述第一数据页。

结合第一方面，在第一方面的某些实现方式中，所述第二数据页包括第二行数据部和第二目录部，所述第二行数据部用于存储所述第二数据，所述第二目录部用于存储所述第二组偏移量；所述根据所述第一数据和所述第一组偏移量，得到所述第一数据页，包括：将所述第二行数据部中存储的所述第二数据更新为所述第一数据，并将所述第二目录部中存储的所述第二组偏移量更新为第一组偏移量，得到所述第一数据页。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量，包括：根据所述第二组偏移量的单位偏移量长度，按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据，包括：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第二行数据部中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述 s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；将所述第二行数据部中存储的所述第二数据更新为所述第一数据包括：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第一方面，在第一方面的某些实现方式中，在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，所述方法还包括：确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

在本申请实施例中，在确定第一数据的每行数据的长度之间的差异小于或等于第三阈值的情况下，再依次按顺序从第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第二数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，所述预处理还包括基于字节级的累加处理，所述累加处理包括列数据之间进行累加。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量，包括：将所述第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量，所述1≤c1≤c2，所述c1和c2均为正整数，所述c2等于所述第二组偏移量的最大行长度或所述c2等于所述第二组偏移量的最小行长度；按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据，包括：将所述第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据，所述1≤d1≤d2，所述d1和d2均为正整数，所述d2等于所述第二数据的最大行长度或所述d2等于所述第二数据的最小行长度；根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据。

结合第一方面，在第一方面的某些实现方式中，所述按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量，包括：根据所述第三组偏移量的单位偏移量长度，按照字节对所述第三组偏移量进行行列转换处理得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据，包括：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第三数据中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1 取值L2，所述L2为所述第一数据的最大行长度；将所述第二行数据部中存储的所述第二数据更新为所述第一数据包括：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

在本申请实施例中，在确定第一数据的每行数据的长度之间的差异小于或等于第三阈值的情况下，再依次按顺序从第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第三数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，在所述根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度之前，所述方法还包括：确定所述P小于或等于第四阈值。

在本申请实施例中，在确定P小于或等于第四阈值的情况下，再根据排序后的P个偏移量，创建P个区域。这样，只有在第一数据行数不多的情况下，才去对第三数据进行基于字节级的行列转换，进而可以避免资源的浪费。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：将所述第一数据页进行拆分，得到所述多个第三数据页。

结合第一方面，在第一方面的某些实现方式中，所述将所述第一数据页进行拆分，得到所述多个第三数据页，包括：获取多个所述第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点；根据多个所述第四数据的起始点和结束点，从所述第一数据页中得到多个所述第四数据；以及，根据多个所述第四组偏移量的起始点和结束点，从所述第一数据页中得到多个所述第四组偏移量；分别将多个所述第四数据和多个所述第四组偏移量分别存储至多个所述第三数据页。

第二方面，提供了一种数据页处理的方法，包括：对所述压缩后的数据页进行解压缩，得到所述第二数据页；根据所述第二数据页，得到所述第一数据页；其中，所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量；所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；所述第一数据是对第二数据进行预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。

结合第二方面，在第二方面的某些实现方式中，所述根据所述第二数据页，得到所述第一数据页，包括：从所述第二数据页中分别获取所述第二数据和所述第二组偏移量；按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据；根据所述第一数据和所述第一组偏移量，得到所述第一数据页。

结合第二方面，在第二方面的某些实现方式中，所述第二数据页包括第二行数据部和第二目录部，所述第二行数据部用于存储所述第二数据，所述第二目录部用于存储所述第二组偏移量；所述根据所述第一数据和所述第一组偏移量，得到所述第一数据页，包括：将所述第二行数据部中存储的所述第二数据更新为所述第一数据，并将所述第二目录部中存储的所述第二组偏移量更新为第一组偏移量，得到所述第一数据页。

结合第二方面，在第二方面的某些实现方式中，所述按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量，包括：根据所述第二组偏移量的单位偏移量长度，按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据，包括：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第二行数据部中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；将所述第二行数据部中存储的所述第二数据更新为所述第一数据包括：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第二方面，在第二方面的某些实现方式中，在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，所述方法还包括：确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

结合第二方面，在第二方面的某些实现方式中，所述预处理还包括基于字节级的累加处理，所述累加处理包括列数据之间进行累加。

结合第二方面，在第二方面的某些实现方式中，所述按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量，包括：将所述第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量，所述1≤c1≤c2，所述c1和c2均为正整数，所述c2等于所述第二组偏移量的最大行长度或所述c2等于所述第二组偏移量的最小行长度；按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据，包括：将所述第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据，所述1≤d1≤d2，所述d1和d2均为正整数，所述d2等于所述第二数据的最大行长度或所述d2等于所述第二数据的最小行长度；根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据。

结合第二方面，在第二方面的某些实现方式中，所述按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量，包括：根据所述第三组偏移量的单位偏移量长度，按照字节对所述第三组偏移量进行行列转换处理得到所述第一组偏移量；所述根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据，包括：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第三数据中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；将所述第二行数据部中存储的所述第二数据更新为所述第一数据包括：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第二方面，在第二方面的某些实现方式中，在所述根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度之前，所述方法还包括：确定所述P小于或等于第四阈值。

结合第二方面，在第二方面的某些实现方式中，所述方法还包括：将所述第一数据页进行拆分，得到所述多个第三数据页。

结合第二方面，在第二方面的某些实现方式中，所述将所述第一数据页进行拆分，得到所述多个第三数据页，包括：获取多个所述第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点；根据多个所述第四数据的起始点和结束点，从所述第一数据页中得到多个所述第四数据；以及，根据多个所述第四组偏移量的起始点和结束点，从所述第一数据页中得到多个所述第四组偏移量；分别将多个所述第四数据和多个所述第四组偏移量分别存储至多个所述第三数据页。

结合第二方面，在第二方面的某些实现方式中，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。

第三方面，提供了一种数据页处理的装置，所述装置包括处理单元，所述处理单元用于：根据第一数据页，得到第二数据页；对所述第二数据页进行压缩，得到压缩后的数据页；其中，所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量，所述第二数据是对第一数据进行预处理后得到的数据，所述第二组偏移量是对所述第一组偏移量进行所述预处理后得到的组偏移量，所述预处理包括基于字节级的行列转换。

在本申请实施例中，该数据页处理的装置的处理单元对基于行存储方式的第一数据页中存储的数据进行基于字节级的行列转换，也就是说，将基于行存储方式的数据以一种有序可逆的方式转换为基于列存储方式的数据的形式，使数据在数据页内原地更新。然后再对转换后的第二数据页进行压缩。而由于得到的第二数据页中存储的每行数据具有相似性、重复度和一定规律性，这样对第二数据页进行压缩的压缩率比直接对第一数据页进行压缩的压缩率要高，进而提高了数据页的压缩率。此外，该该数据页处理的装置和现有压缩装置的压缩耗时基本持平。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：从所述第一数据页中分别获取所述第一数据和所述第一组偏移量；按照字节对所述第一数据进行所述预处理得到所述第二数据；按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量；根据所述第二数据和所述第二组偏移量，得到所述第二数据页。

结合第三方面，在第三方面的某些实现方式中，所述第一数据页包括第一行数据部和第一目录部，所述第一行数据部用于存储所述第一数据，所述第一目录部用于存储所述第一组偏移量；所述处理单元还具体用于：将所述第一行数据部中存储的所述第一数据更新为所述第二数据，并将所述第一目录部中存储的所述第一组偏移量更新为第二组偏移量，得到所述第二数据页。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：获取所述第一数据的偏移量的起始点和结束点；根据所述第一数据的偏移量的起始点和结束点，以及所述第一组偏移量的单位偏移量长度，得到所述第一组偏移量包括的偏移量的数量M；从所述M个偏移量中去除无效的偏移量，得到N个偏移量，所述N小于或等于所述M，所述N和所述M均为正整数；将所述N个偏移量按照从小到大的顺序进行排列，得到排序后的N个偏移量；根据所述排序后的N个偏移量，将所述第一行数据部划分为N个区域，并得到所述第一数据的每行数据的长度，其中所述N个区域中的第n个区域中的数据的个数为所述第一数据的第n行数据的长度；按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第二数据第i行第N列的数据，所述i依次从1取至L1，所述i为正整数，所述L1为所述第一数据的最大行长度，所述N个偏移量的排列顺序为所述N个偏移量按照从小到大的排列顺序或所述N个偏移量在所述第一组偏移量中的排列顺序；所述处理单元还具体用于：按照字节对所述第一组偏移量中的所述N个偏移量进行所述预处理得到所述第二组偏移量。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：在所述按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为第二数据第i行第N列的数据之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第一阈值。

结合第三方面，在第三方面的某些实现方式中，所述预处理还包括基于字节级的差分处理，所述差分处理包括列数据之间进行差分。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：按照字节对所述第一数据进行行列转换得到所述第三数据；将所述第三数据的第a1行上的相邻列的数据按照字节进行差分，得到所述第二数据，所述1≤a1≤a2，所述a1和a2均为正整数，所述a2等于所述第一数据的最大行长度或所述a2等于所述第一数据的最小行长度；所述处理单元还具体用于：按照字节对所述第一组偏移量进行行列转换得到所述第三组偏移量；将所述第三组偏移量的第b1行上的相邻列的数据按照字节进行差分，得到所述第二组偏移量，所述1≤b1≤b2，所述b1和b2均为正整数，所述b2等于所述第一组偏移量的最大行长度或所述b2等于所述第一组偏移量的最小行长度。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：获取所述第一数据的偏移量的起始点和结束点；根据所述第一数据的偏移量的起始点和结束点，以及所述第一组偏移量的单位偏移量长度，得到所述第一组偏移量包括的偏移量的数量M；从所述M个偏移量中去除无效的偏移量，得到N个偏移量，所述N小于或等于所述M，所述N和所述M均为正整数；将所述N个偏移量按照从小到大的顺序进行排列，得到排序后的N个偏移量；根据所述排序后的N个偏移量，将所述第一行数据部划分为N个区域，并得到所述第一数据的每行数据的长度，其中所述N个区域中的第n个区域中的数据的个数为所述第一数据的第n行数据的长度；按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第三数据第i行第N列的数据，所述i依次从1取至L1，所述i为正整数，所述L1为所述第一数据的最大行长度，所述N个偏移量的排列顺序为所述N个偏移量按照从小到大的排列顺序或所述N个偏移量在所述第一组偏移量中的排列顺序；所述处理单元还具体用于：按照字节对所述第一组偏移量中的所述N个偏移量进行行列转换得到所述第三组偏移量。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：在所述按照所述N个偏移量的排列顺序，依次从所述N个区域中，取第i个字节对应的数据作为所述第三数据第i行第N列的数据之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第一阈值。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：在所述根据所述N个偏移量，将所述第一行数据部划分为N个区域之前，确定所述N小于或等于第二阈值。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页；其中，所述第三数据页包括基于行存储方式的第四数据和第四组偏移量，所述第四组偏移量用于指示所述第四数据的每行数据的偏移量，所述第一数据包括多个所述第三数据页对应的多个所述第四数据，且多个所述第四数据的最大行长度相同，第一组偏移量包括多个所述第三数据页对应的多个所述第四组偏移量。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：分别获取与多个所述第三数据页对应的多个所述第四数据和多个所述第四组偏移量；分别将多个所述第四数据按照目标顺序进行排列，得到所述第一数据；以及，分别将多个所述第四组偏移量按照所述目标顺序进行排列，得到所述第一组偏移量，所述目标顺序为多个所述第三数据页的排列顺序；将所述第一数据和所述第一组偏移量分别存储至所述第一数据页。

结合第三方面，在第三方面的某些实现方式中，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。

结合第三方面，在第三方面的某些实现方式中，所述第二数据页包括用于指示所述第二数据页进行过所述预处理的信息。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：对所述压缩后的数据页进行解压缩，得到所述第二数据页；根据所述第二数据页，得到所述第一数据页，所述第一数据是对第二数据进行所述预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：从所述第二数据页中分别获取所述第二数据和所述第二组偏移量；按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据；根据所述第一数据和所述第一组偏移量，得到所述第一数据页。

结合第三方面，在第三方面的某些实现方式中，所述第二数据页包括第二行数据部和第二目录部，所述第二行数据部用于存储所述第二数据，所述第二目录部用于存储所述第二组偏移量；所述处理单元还具体用于：将所述第二行数据部中存储的所述第二数据更新为所述第一数据，并将所述第二目录部中存储的所述第二组偏移量更新为第一组偏移量，得到所述第一数据页。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：根据所述第二组偏移量的单位偏移量长度，按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；所述处理单元还具体用于：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第二行数据部中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；所述处理单元还具体用于：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

结合第三方面，在第三方面的某些实现方式中，所述预处理还包括基于字节级的累加处理，所述累加处理包括列数据之间进行累加。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：将所述第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量，所述1≤c1≤c2，所述c1和c2均为正整数，所述c2等于所述第二组偏移量的最大行长度或所述c2等于所述第二组偏移量的最小行长度；按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量；所述处理单元还具体用于：将所述第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据，所述1≤d1≤d2，所述d1和d2均为正整数，所述d2等于所述第二数据的最大行长度或所述d2等于所述第二数据的最小行长度；根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：根据所述第三组偏移量的单位偏移量长度，按照字节对所述第三组偏移量进行行列转换处理得到所述第一组偏移量；所述处理单元还具体用于：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第三数据中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；所述处理单元还具体用于：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：在所述根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度之前，确定所述P小于或等于第四阈值。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还用于：将所述第一数据页进行拆分，得到所述多个第三数据页。

结合第三方面，在第三方面的某些实现方式中，所述处理单元还具体用于：获取多个所述第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点；根据多个所述第四数据的起始点和结束点，从所述第一数据页中得到多个所述第四数据；以及，根据多个所述第四组偏移量的起始点和结束点，从所述第一数据页中得到多个所述第四组偏移量；分别将多个所述第四数据和多个所述第四组偏移量分别存储至多个所述第三数据页。

第四方面，提供了一种数据页处理的装置，所述装置包括处理单元，所述处理单元用于：对所述压缩后的数据页进行解压缩，得到所述第二数据页；根据所述第二数据页，得到所述第一数据页；其中，所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量；所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；所述第一数据是对第二数据进行预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。

在本申请实施例中，由于第二数据页中存储的每行数据具有相似性、重复度和一定规律性，这样该数据页处理的装置的处理单元对第二数据页进行解压缩的解压缩率就比较高，进而提高了数据页的解压缩率。此外，该该数据页处理的装置和现有解压缩装置的压缩耗时基本持平。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：从所述第二数据页中分别获取所述第二数据和所述第二组偏移量；按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据；根据所述第一数据和所述第一组偏移量，得到所述第一数据页。

结合第四方面，在第四方面的某些实现方式中，所述第二数据页包括第二行数据部和第二目录部，所述第二行数据部用于存储所述第二数据，所述第二目录部用于存储所述第二组偏移量；所述处理单元还具体用于：将所述第二行数据部中存储的所述第二数据更新为所述第一数据，并将所述第二目录部中存储的所述第二组偏移量更新为第一组偏移量，得到所述第一数据页。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：根据所述第二组偏移量的单位偏移量长度，按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；所述处理单元还具体用于：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第二行数据部中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；所述处理单元还具体用于：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

结合第四方面，在第四方面的某些实现方式中，所述预处理还包括基于字节级的累加处理，所述累加处理包括列数据之间进行累加。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：将所述第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量，所述1≤c1≤c2，所述c1和c2均为正整数，所述c2等于所述第二组偏移量的最大行长度或所述c2等于所述第二组偏移量的最小行长度；按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量；所述处理单元还具体用于：将所述第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据，所述1≤d1≤d2，所述d1和d2均为正整数，所述d2等于所述第二数据的最大行长度或所述d2等于所述第二数据的最小行长度；根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：根据所述第三组偏移量的单位偏移量长度，按照字节对所述第三组偏移量进行行列转换处理得到所述第一组偏移量；所述处理单元还具体用于：从所述第一组偏移量中去除无效的偏移量，得到第五组偏移量，所述第五组偏移量包括P个偏移量；将所述P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量；根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度，所述P个区域与所述P个偏移量一一对应；依次按顺序从所述第三数据中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至所述P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写，其中，所述p为正整数，且所述p从1取至R，所述R为所述P个区域中未被写满数据的区域的数量，在所述第s个区域被写满数据的情况下，所述第s个区域中的数据的数量为所述第一数据的第s行数据的长度，所述s为正整数，所述第s个区域对应的偏移量为第s个偏移量，所述第s个偏移量位于所述第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量；所述q从1取值L2，所述L2为所述第一数据的最大行长度；所述处理单元还具体用于：依次将所述P个区域中的数据覆盖所述第二行数据部中存储的所述第二数据。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还用于：在所述依次按顺序从所述第二行数据部中读取P个字节对应的数据，并依次将P个字节中第p个字节对应的数据存储至第s个区域的第q个字节对应的数据，完成第q次数据的读写之前，确定所述第一数据的每行数据的长度之间的差异小于或等于第三阈值。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还用于：在所述根据所述排序后的P个偏移量，创建P个区域，并得到所述第一数据的每行数据的长度之前，确定所述P小于或等于第四阈值。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还用于：将所述第一数据页进行拆分，得到所述多个第三数据页。

结合第四方面，在第四方面的某些实现方式中，所述处理单元还具体用于：获取多个所述第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点；根据多个所述第四数据的起始点和结束点，从所述第一数据页中得到多个所述第四数据；以及，根据多个所述第四组偏移量的起始点和结束点，从所述第一数据页中得到多个所述第四组偏移量；分别将多个所述第四数据和多个所述第四组偏移量分别存储至多个所述第三数据页。

结合第四方面，在第四方面的某些实现方式中，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。

第五方面，提供了一种数据页处理的装置，该装置包括：处理器和存储器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行上述第一方面或第二方面中任一项可能的实现中所述的方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述第一方面或第二方面中任一项可能的实现中所述的方法。

第七方面，提供了一种芯片系统，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片系统的装置执行上述第一方面或第二方面中任一项可能的实现中所述的方法。

第八方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在装置上运行时，使得所述装置执行上述第一方面或第二方面中任一项可能的实现中所述的方法。

附图说明

图1为本申请实施例提供的一例数据页压缩的方法200的示意性流程图。

图2为本申请实施例提供的一例数据页的示意图。

图3至图6均为本申请实施例提供的得到第二数据页的示意性流程图。

图7为本申请实施例提供的一例多个数据页重组的示意图。

图8为本申请实施例提供的数据页压缩的方法和现有的压缩方法的压缩性能的一例示意图。

图9为本申请实施例提供的数据页压缩的方法和现有的压缩方法的压缩性能的另一例示意图。

图10为本申请实施例提供的数据页压缩的方法和现有的压缩方法的压缩性能的又一例示意图。

图11为本申请实施例提供的数据页压缩的方法和现有的压缩方法的压缩性能的又一例示意图。

图12为本申请实施例提供的另一例数据页解压的方法的示意性流程图。

图13为本申请实施例提供的一例第二数据读写的过程示意图。

图14为本申请实施例提供的另一例第二数据读写的过程示意图。

图15为本申请实施例提供的一例数据页处理的装置的示意性框图。

图16为本申请实施例提供的一例数据页处理的装置的示意性结构图。

具体实施方式

例如，在MySQL涉及的透明压缩中，单个数据页的所有数据在落盘前，先交给数据压缩库，该数据压缩库基于通用压缩算法(例如zlib、lz4、或者zstd等)对单个数据页进行压缩，再将压缩后的数据存储到原始地址。随后，利用文件系统的打洞技术(文件系统特性，打洞单位是4K)对空闲空间进行打洞处理。但是，在Linux系统上打洞单位是4K，且当数据页大小为32K和64K时，该数据页不支持压缩，最大是16K的数据页支持这种压缩，因此，压缩比最大能到4:1。

又例如，在Oracle涉及的字典压缩中，在块级别(数据页概念)创建行字段的字典，字段存储字典元素的引用。当字典发生更新、插入，删除操作的时候，通过一个阈值控制是否进行压缩。但是，该字典压缩是基于存储块的字典压缩算法，在页面内维护一块符号表，所有操作都基于此符号表做变换及逆变换，实现复杂。而且字典压缩很容易受到数据本身特征的影响，如果是重复度不高的数据，压缩率就很低。

又例如，DB2支持页面级压缩字典算法和表级字典压缩算法。页面级字典和表级字典存储在表的隐藏行中。一旦建立起字典，除非使字段表重建，否则不会更新字典。该压缩算法的压缩率强依赖于数据的特征。如果初期数据特征很差且不具有代表性，那么此压缩算法不会有比较好的压缩结果。

因此，本申请实施例提供了一种数据页处理的方法，其中数据页处理可以包括数据页压缩和/或数据页解压缩。通过该数据页处理的方法不仅压缩率(或解压缩率)较高，还能和现有压缩(或解压缩)方法的压缩耗时(或解压缩耗时)基本持平。

本申请实施例对本申请实施例提供的数据页处理的方法的应用场景可不作限定。

例如，本申请实施例提供的数据页处理的方法的可以但不限于应用于在线生产环境(如联机事务处理过程(on-line transaction processing，OLTP))、数据库文件压缩备份存储、主备物流文件复制的场景中。

因此，本申请实施例提供了一种数据页压缩的方法，通过该数据页压缩的方法不仅压缩率较高，还能和现有压缩方法的压缩耗时基本持平。

下面将结合附图，对本申请实施例中的技术方案进行描述。

例如，如图1所示，该方法200包括S210和S220，S220在S210之后执行。下面对S210和S220进行详细介绍。

S210，根据第一数据页，得到第二数据页。

第一数据页包括基于行存储方式的第一数据和第一组偏移量，第一组偏移量用于指示第一数据的每行数据的偏移量。

本申请实施例对偏移量的形式不作限定。示例性地，偏移量可以是相对于数据页的头部的位置(例如字节数)。

图2为本申请实施例提供的一例数据页的示意图。例如，如图2所示，该数据页可以包括行数据部和目录部。其中，行数据部用于存储数据；目录部用于存储行数据部存储的数据的每行数据的偏移量。

可选地，在一些实施例中，如图2所示，该数据页还可以包括头部、空闲部和/或尾部。其中，头部和/或尾部用于存储与该数据页相关的信息。例如，与该数据页相关的信息可以但不限于包括：数据页的编号，数据页的类型，该数据页的行数据部存储的数据的行数、该数据页的行数据部存储的数据的开始点和结束点、该数据页的目录部存储的偏移量的数量、该数据页的目录部存储的偏移量的开始点和结束点。空闲部主要用于行数据部和/或尾部的扩充。

示例性地，第一数据页可以包括第一头部、第一行数据部和第一目录部。第一头部用于存储与第一数据页相关的信息；第一行数据部用于存储第一数据，第一目录部用于存储第一组偏移量。

表1为第一数据的一个示例。例如，如表1所示，该第一数据包括三行数据，其中，第一行数据占用了3个字节，且该3个字节上的数据依次为a、b、c；第二行数据占用了4个字节，且该4个字节上的数据依次为a、b、c、d；第三行数据占用了5个字节，且该5个字节上的数据依次为a、b、c、d、e。

表1

表2为第一数据的另一个示例。例如，如表2所示，该第一数据包括三行数据，其中，第一行数据占用了5个字节，且该5个字节上的数据依次为a、b、c、d、e；第二行数据占用了3个字节，且该3个字节上的数据依次为a、b、c；第三行数据占用了4个字节，且该4个字节上的数据依次为a、b、c、d。

表2

本申请实施例对第一组偏移量中偏移量的排列顺序不作限定。

在一个示例中，第一组偏移量中偏移量是按照从小到大的顺序进行排列的。

表3为第一组偏移量的一个示例。其中，表3所示的第一组偏移量中偏移量是按照从小到大的顺序进行排列的，表3所示的第一组偏移量为表1所示的第一数据对应的偏移量。

例如，如表1所示的第一数据包括三行，因此，如表3所示的第一组偏移量包括三个偏移量，其中，第一个偏移量(第一数据的第一行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x01；第二个偏移量(第二数据的第二行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x04；第三个偏移量(第三数据的第三行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x08。

表3

在另一个示例中，第一组偏移量中偏移量是乱序进行排列的。

表4为第一组偏移量的另一个示例。其中，表4所示的第一组偏移量中偏移量是乱序进行排列的，表4所示的第一组偏移量为表2所示的第一数据对应的偏移量。

例如，如表4所示的第一数据包括三行，因此，如表3所示的第一组偏移量包括三个偏移量，其中，第一个偏移量(第一数据的第二行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x06；第二个偏移量(第一数据的第三行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x09；第三个偏移量(第一数据的第一行数据的偏移量)占用2个字节，且该2个字节上的数据依次为0x00、0x01。

表4

需要说明的是，本申请实施例中都是以偏移量用16进制表示为例进行描述，其不应对本申请实施例构成限制。

第二数据页包括基于行存储方式的第二数据和第二组偏移量，第二组偏移量用于指示第二数据的每行数据的偏移量。

其中，第二数据是对第一数据进行预处理后得到的数据，第二组偏移量是对第一组偏移量进行预处理后得到的组偏移量。也就是说，在S210中，对第一数据页包括的各部分数据进行预处理，得到第二数据页。

在一个示例中，预处理仅包括基于字节级的行列转换。

在另一个示例中，预处理不仅包括基于字节级的行列转换，预处理还包括基于字节级的差分处理。其中，差分处理包括列数据之间进行差分。

需要说明的是，基于字节级的行列转换可以理解为以字节为单位进行的行列转换。基于字节级的差分处理可以理解为以字节为单位进行差分。

在又一个示例中，预处理仅包括基于字节级的差分处理。

为了方便描述，将预处理仅包括基于字节级的行列转换的情况记为情况1，将预处理不仅包括基于字节级的行列转换，预处理还包括基于字节级的差分处理的情况记为情况2。将预处理仅包括基于字节级的差分处理的情况记为情况3。

下面，结合图3至图13，分别以预处理为情况1、情况2和情况3为例，对S210进行详细描述。其中，图3为预处理为情况1时本申请实施例提供的一例得到第二数据页的示意性流程图。图4为预处理为情况1时本申请实施例提供的一例得到第二数据的示意性流程图。图5为预处理为情况2时本申请实施例提供的一例得到第二数据的示意性流程图。图6为预处理为情况2时本申请实施例提供的一例得到第二组偏移量的示意性流程图。

情况1，预处理仅包括基于字节级的行列转换

在情况1中，如图3所示，S210具体包括S211至S214。

S211，从第一数据页中分别获取第一数据和第一组偏移量。

具体地，可以先从第一头部分别获取第一数据的起始点(rows_begin)和结束点(rows_end)以及第一数据对应的偏移量的起始点(dirs_begin)和结束点(dirs_end)。然后，根据第一数据的起始点(rows_begin)和结束点(rows_end)从第一数据页的第一行数据部获取第一数据，以及根据第一数据对应的偏移量的起始点(dirs_begin)和结束点(dirs_end)从第一数据页的第一目录部获取第一组偏移量。

本申请实施例对起始点和/或结束点的形式不作限定。示例性地，起始点和/或结束点可以是相对于数据页的头部的位置(例如字节数)。

本申请实施例对获取第一数据和第一组偏移量的执行顺序不作限定。例如，可以先获取第一数据，后获取第一组偏移量；也可以先获取第一组偏移量，后获取第一数据；也可以同时获取第一数据和第一组偏移量。

S212，按照字节对第一数据进行预处理得到第二数据。

例如，如图4所示，该S212包括S2121至S2125。下面详细介绍S2121至S2125。

S2121，根据第一数据的偏移量的起始点(rows_begin)和结束点(rows_end)，以及第一组偏移量的单位偏移量长度，得到第一组偏移量包括的偏移量的数量(total_dir_cnt)M。其中，第一数据的偏移量的起始点(rows_begin)和结束点(rows_end)可以是从第一头部中获取的。

具体地，M满足以下公式：

其中，第一组偏移量的单位偏移量长度。

本申请实施例对第一组偏移量的单位偏移量长度的大小不作限定。下文均以第一组偏移量的单位偏移量长度为2字节为例进行描述。

例如，若第一数据的偏移量的起始点(rows_begin)为第a个字节，结束点(rows_end)为第a+5个字节，则M＝(a+5-a+1)÷2＝3，即第一数据对应的第一组偏移量包括3个偏移量。

需要说明的是，第一组偏移量包括的偏移量的数量M即可以理解为是第一数据的行数。

S2122，从M个偏移量中去除无效的偏移量，得到N个偏移量，N小于或等于M，N和M均为正整数。

在一个示例中，可以根据指示无效的偏移量的信息即可实现S2122。

若指示无效的偏移量的信息中指示有(M-N)个偏移量是无效的，那么此时需要从S2121得到的偏移量的数量M中去除该(M-N)个偏移量，得到有效的N个偏移量。

本申请实施例对指示无效的偏移量的信息的存储位置不做限定。例如，指示无效的偏移量的信息可以存储在目录部、头部或尾部。

在另一个示例中，也可以根据第一组偏移量中每个偏移量，以及S211中获取的第一数据的起始点(rows_begin)和结束点(rows_end)，即可实现S2122。

具体的，若M个偏移量中有N个偏移量在第一数据的起始点(rows_begin)和结束点(rows_end)之间，(M-N)个偏移量不在第一数据的起始点(rows_begin)和结束点(rows_end)之间，即M个偏移量中有N个偏移量是有效的，(M-N)个偏移量是无效的。

在该示例下，需要从S2121得到的偏移量的数量M中去除不在第一数据的起始点(rows_begin)和结束点(rows_end)之间的(M-N)个偏移量，得到有效的N个偏移量。

S2123，将N个偏移量按照从小到大的顺序进行排列，得到排序后的N个偏移量。

本申请实施例对N个偏移量在目录部中的排列顺序不作限定。

在一个示例中，该N个偏移量在目录部中按照从小到大或者从大到小的顺序进行排列。在另一个示例中，该N个偏移量在目录部中可以是乱序排列。

需要说明的是，若N个偏移量已经是按照从小到大的顺序排列，此时，可以无需再执行对该N个偏移量按照从小到大的顺序进行排列的步骤，即可得到排序后的N个偏移量。

例如，如表3所示的3个偏移量按照从小到大的顺序进行排列，得到的排序后的3个偏移量依次为0x01、0x04、0x08。

又例如，如表4所示的3个偏移量按照从小到大的顺序进行排列，得到的排序后的3个偏移量依次为0x01、0x06、0x09。

本申请实施例对将N个偏移量进行排列的方式不作限定。例如，可以通过插入排序的方式对N个偏移量进行排序。

S2124，根据排序后的N个偏移量，将第一行数据部划分为N个区域，并得到第一数据的每行数据的长度。

其中，N个区域中的第n个区域中的数据的个数为第一数据的第n行数据的长度，N个区域中的第n个区域中的数据为第一数据的第n行的数据。

具体地，将第一行数据部中第n个偏移量对应的数据至第(n+1)个偏移量对应的数据的前一个数据作为N个区域中的第n个区域中的数据，也即第n个区域中的数据为第一数据的第n行的数据，其中，n依次从1取至(N-1)。并将第一行数据部中第N个偏移量对应的数据以及第N个偏移量至第一数据的偏移量的结束点的数据作为N个区域中的第N个区域中的数据。这样，便可以将第一行数据部划分为N个区域，也即第N个区域中的数据为第一数据的第N行的数据。

具体地，将第(n+1)个偏移量与第n个偏移量的差值作为第n个区域中的数据的长度，其中，n依次从1取至(N-1)；并将第一数据的偏移量的结束点与第N个偏移量的差值加1作为第N个区域中的数据的长度。这样，便可以得到第一数据的每行数据的长度。

例如，如表3所示的3个偏移量排序后依次为0x01、0x04、0x08，首先，将第一行数据部中第1个偏移量(0x01)对应的数据(表1所示的第一行的a)至第2个偏移量(0x04)对应的数据(表1所示的第二行的a)的前一个数据(表1所示的第一行的c)作为第1个区域中的数据。此时，如表1所示的第一数据的第1个区域中的数据即为表1中所示的第一行的数据(abc)。并将第2个偏移量(0x04)和第1个偏移量(0x01)的差值作为第1 个区域中的数据的长度，即该第1个区域中的数据的长度为(0x04-0x01)＝0x03(字节)。

其次，将第一行数据部中第2个偏移量(0x04)对应的数据(表1所示的第二行的a)至第3个偏移量(0x08)对应的数据(表1所示的第三行的a)的前一个数据(表1所示的第二行的d)作为第2个区域中的数据。此时，如表1所示的第一数据的第2个区域中的数据即为表1中所示的第二行的数据(abcd)。并将第3个偏移量(0x08)和第2个偏移量(0x04)的差值作为第2个区域中的数据的长度，即该第2个区域中的数据的长度为(0x08-0x04)＝0x04(字节)。

最后，将第一行数据部中第3个偏移量(0x08)对应的数据(表1所示的第三行的a)以及第一行数据部中第3个偏移量(0x08)至第一数据的偏移量的结束点(例如为0x0C)的数据作为第3个区域中的数据(表1所示的第三行的b至e)。此时，如表1所示的第一数据的第3个区域中的数据即为表1中所示的第三行的数据(abcde)。并将第一数据的偏移量的结束点和第3个偏移量(0x08)的差值加1作为第3个区域中的数据的长度，即该第3个区域中的数据的长度为(0x0C-0x08+0x01)＝0x05(字节)。

又例如，如表4所示的3个偏移量排序后依次为0x01、0x06、0x09，首先，将第一行数据部中第1个偏移量(0x01)对应的数据(表1所示的第一行的a)至第2个偏移量(0x06)对应的数据(表1所示的第二行的a)的前一个数据(表1所示的第一行的e)作为第1个区域中的数据。此时，如表1所示的第一数据的第1个区域中的数据即为表2中所示的第一行的数据(abcde)。并将第2个偏移量(0x06)和第1个偏移量(0x01)的差值作为第1个区域中的数据的长度，即该第1个区域中的数据的长度为(0x06-0x01)＝0x05(字节)。

其次，将第一行数据部中第2个偏移量(0x06)对应的数据(表1所示的第二行的a)至第3个偏移量(0x09)对应的数据(表1所示的第三行的a)的前一个数据(表1所示的第二行的c)作为第2个区域中的数据。此时，如表1所示的第一数据的第2个区域中的数据即为表1中所示的第二行的数据(abc)。并将第3个偏移量(0x09)和第2个偏移量(0x06)的差值作为第2个区域中的数据的长度，即该第2个区域中的数据的长度为(0x09-0x06)＝0x03(字节)。

最后，将第一行数据部中第3个偏移量(0x09)对应的数据(表1所示的第三行的a)以及第一行数据部中第3个偏移量(0x09)至第一数据的偏移量的结束点(例如为0x0C)的数据作为第3个区域中的数据(表1所示的第三行的b至d)。此时，如表1所示的第一数据的第3个区域中的数据即为表1中所示的第三行的数据(abcd)。并将第一数据的偏移量的结束点和第3个偏移量(0x09)的差值加1作为第3个区域中的数据的长度，即该第3个区域中的数据的长度为(0x0C-0x09+0x01)＝0x04(字节)。

本申请实施例对将第一行数据部划分为N个区域和得到第一数据的每行数据的长度之间的执行顺序不作限定。例如，可以是先将第一行数据部划分为N个区域，然后得到第一数据的每行数据的长度；或者，可以是先得到第一数据的每行数据的长度，然后将第一行数据部划分为N个区域；或者，可以是同时将第一行数据部划分为N个区域，并得到第一数据的每行数据的长度。

可选地，在一些实施例中，在执行S2124之前，可以先确定N是否小于或等于第二阈值。并在N是否小于或等于第二阈值的情况下，才执行S2124，以及S2125、S213和S214。这样，只有在第一数据行数不多的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

本申请实施例对第二阈值的具体取值不作限定，其可以根据实际情况进行设置。

S2125，按照N个偏移量的排列顺序，依次从N个区域中，取第i个字节对应的数据作为第二数据第i行第N列的数据，i依次从1取至L1，i为正整数，L1为第一数据的最大行长度，N个偏移量的排列顺序为N个偏移量按照从小到大的排列顺序或N个偏移量在第一组偏移量中的排列顺序。

在一个示例中，若第一数据页中存储的数据是表数据，那么，N个偏移量的排列顺序为N个偏移量按照从小到大的排列顺序。

例如，若第1个区域中的数据为表1中所示的第一行的数据(abc)，第2个区域中的数据为表1中所示的第二行的数据(abcd)，第3个区域中的数据为表1中所示的第三行的数据(abcde)，第一数据的最大行长度L1为5，S2125具体包括：

在i＝1时，按照N(此时N＝3)个偏移量按照从小到大的排列顺序，即按照第1个区域(第1个偏移量0x01对应的区域)、第2个区域(第2个偏移量0x04对应的区域)和第3个区域(第3个偏移量0x08对应的区域)的顺序，依次从第1个区域取第1个字节对应的数据(a)作为第二数据第1行第1列的数据、从第2个区域取第1个字节对应的数据(a)作为第二数据第1行第2列的数据、从第3个区域取第1个字节对应的数据(a)作为第二数据第1行第3列的数据。也就是说，通过第一次数据的读取，即可从3个区域中取出第二数据第一行的数据即aaa。

在i＝2时，按照N(此时N＝3)个偏移量按照从小到大的排列顺序，即按照第1个区域(第1个偏移量0x01对应的区域)、第2个区域(第2个偏移量0x04对应的区域)和第3个区域(第3个偏移量0x08对应的区域)的顺序，依次从第1个区域取第2个字节对应的数据(b)作为第二数据第2行第1列的数据、从第2个区域取第2个字节对应的数据(b)作为第二数据第2行第2列的数据、从第3个区域取第2个字节对应的数据(b)作为第二数据第2行第3列的数据。也就是说，通过第二次数据的读取，即可从3个区域中取出第二数据第二行的数据即bbb。

在i＝3时，按照N(此时N＝3)个偏移量按照从小到大的排列顺序，即按照第1个区域(第1个偏移量0x01对应的区域)、第2个区域(第2个偏移量0x04对应的区域)和第3个区域(第3个偏移量0x08对应的区域)的顺序，依次从第1个区域取第3个字节对应的数据(c)作为第二数据第3行第1列的数据、从第2个区域取第3个字节对应的数据(c)作为第二数据第3行第2列的数据、从第3个区域取第3个字节对应的数据(c)作为第二数据第3行第3列的数据。也就是说，通过第三次数据的读取，即可从3个区域中取出第二数据第三行的数据即ccc。

在i＝4时，按照N(此时N＝3)个偏移量按照从小到大的排列顺序，即按照第1个区域(第1个偏移量0x01对应的区域)、第2个区域(第2个偏移量0x04对应的区域)和第3个区域(第3个偏移量0x08对应的区域)的顺序，依次从第1个区域取第4个字节对应的数据(没有数据)作为第二数据第4行第1列的数据、从第2个区域取第4个字节对应的数据(d)作为第二数据第4行第2列的数据、从第3个区域取第4个字节对应的数据(d)作为第二数据第4行第3列的数据。也就是说，通过第四次数据的读取，即可从3个区域中取出第二数据第四行的数据即*dd。

在i＝5时，按照N(此时N＝3)个偏移量按照从小到大的排列顺序，即按照第1个区域(第1个偏移量0x01对应的区域)、第2个区域(第2个偏移量0x04对应的区域)和第3个区域(第3个偏移量0x08对应的区域)的顺序，依次从第1个区域取第5个字节对应的数据(没有数据)作为第二数据第5行第1列的数据、从第2个区域取第5个字节对应的数据(没有数据)作为第二数据第5行第2列的数据、从第3个区域取第5个字节对应的数据(e)作为第二数据第5行第3列的数据。也就是说，通过第五次数据的读取，即可从3个区域中取出第二数据第五行的数据即**e。

在该示例中，经过五次数据的读取，便可完成为对如表1所示的第一数据进行基于字节级的行列转换，得到如表5所示的第二数据。例如，如表5所示，该第二数据包括五行数据，其中，该五行数据中的每行数据都占用了3个字节，且第一行的3字节上的数据依次为a、a、a；第二行的3字节上的数据依次为b、b、b；第三行的3字节上的数据依次为c、c、c；第四行的3字节上的数据依次为*、d、d；第五行的3字节上的数据依次为*、*、e。

需要说明的是，本申请实施例中所述的*即为该字节上没有数据。

表5

在另一个示例中，若第一数据也中存储的数据是索引数据，那么，N个偏移量的排列顺序为N个偏移量在第一组偏移量中的排列顺序。

例如，若第1个区域中的数据为表2中所示的第一行的数据(abcde)，第2个区域中的数据为表1中所示的第二行的数据(abc)，第3个区域中的数据为表1中所示的第三行的数据(abcd)，第一数据的最大行长度L1为5，S2125具体包括：

在i＝1时，按照N(此时N＝3)个偏移量在第一组偏移量中的排列顺序，即按照第2个区域(第1个偏移量0x06对应的区域)、第3个区域(第2个偏移量0x09对应的区域)和第1个区域(第3个偏移量0x01对应的区域)的顺序，依次从第2个区域取第1个字节对应的数据(a)作为第二数据第1行第1列的数据、从第3个区域取第1个字节对应的数据(a)作为第二数据第1行第2列的数据、从第1个区域取第1个字节对应的数据(a)作为第二数据第1行第3列的数据。也就是说，通过第一次数据的读取，即可从3个区域中取出第二数据第一行的数据即aaa。

在i＝2时，按照N(此时N＝3)个偏移量在第一组偏移量中的排列顺序，即按照第2个区域(第1个偏移量0x06对应的区域)、第3个区域(第2个偏移量0x09对应的区域)和第1个区域(第3个偏移量0x01对应的区域)的顺序，依次从第2个区域取第2个字节对应的数据(b)作为第二数据第2行第1列的数据、从第3个区域取第2个字节对应的数据(b)作为第二数据第2行第2列的数据、从第1个区域取第2个字节对应的数据(b)作为第二数据第2行第3列的数据。也就是说，通过第二次数据的读取，即可从3个区域中取出第二数据第二行的数据即bbb。

在i＝3时，按照N(此时N＝3)个偏移量在第一组偏移量中的排列顺序，即按照第2个区域(第1个偏移量0x06对应的区域)、第3个区域(第2个偏移量0x09对应的区域)和第1个区域(第3个偏移量0x01对应的区域)的顺序，依次从第2个区域取第3个字节对应的数据(c)作为第二数据第3行第1列的数据、从第3个区域取第3个字节对应的数据(c)作为第二数据第3行第2列的数据、从第1个区域取第3个字节对应的数据(c)作为第二数据第3行第3列的数据。也就是说，通过第三次数据的读取，即可从3个区域中取出第二数据第三行的数据即ccc。

在i＝4时，按照N(此时N＝3)个偏移量在第一组偏移量中的排列顺序，即按照第2个区域(第1个偏移量0x06对应的区域)、第3个区域(第2个偏移量0x09对应的区域)和第1个区域(第3个偏移量0x01对应的区域)的顺序，依次从第2个区域取第4个字节对应的数据(没有数据)作为第二数据第4行第1列的数据、从第3个区域取第4个字节对应的数据(d)作为第二数据第4行第2列的数据、从第1个区域取第4个字节对应的数据(d)作为第二数据第4行第3列的数据。也就是说，通过第四次数据的读取，即可从3个区域中取出第二数据第四行的数据即*dd。

在i＝5时，按照N(此时N＝3)个偏移量在第一组偏移量中的排列顺序，即按照第2个区域(第1个偏移量0x06对应的区域)、第3个区域(第2个偏移量0x09对应的区域)和第1个区域(第3个偏移量0x01对应的区域)的顺序，依次从第2个区域取第5个字节对应的数据(没有数据)作为第二数据第5行第1列的数据、从第3个区域取第5个字节对应的数据(没有数据)作为第二数据第5行第2列的数据、从第1个区域取第5个字节对应的数据(e)作为第二数据第5行第3列的数据。也就是说，通过第五次数据的读取，即可从3个区域中取出第二数据第五行的数据即**e。

在该示例中，经过五次数据的读取，便可完成为对如表2所示的第一数据进行基于字节级的行列转换，得到如表5所示的第二数据。关于表5的描述可以参见上文的相关描述，这里不再赘述。

可选地，在一些实施例中，在执行S2125之前，可以先确定第一数据的每行数据的长度之间的差异是否小于或等于第一阈值，即S2126。并在第一数据的每行数据的长度之间的差异小于或等于第一阈值的情况下，才执行S2125，以及S213和S214。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

本申请实施例对第一阈值的具体取值不作限定，其可以根据实际情况进行设置。

S213，按照字节对第一组偏移量进行预处理得到第二组偏移量。

具体的，按照字节对第一组偏移量中的N个偏移量进行基于字节级的行列转换得到第二组偏移量。

需要说明的是，按照字节对第一组偏移量中的N个偏移量进行基于字节级的行列转换得到第二组偏移量可以理解为：按照字节对该N个偏移量在第一组偏移量中的排列顺序进行基于字节级的行列转换得到第二组偏移量。

例如，表6为对如表3所示的第一组偏移量中的N个偏移量进行基于字节级的行列转换得到的第二组偏移量的一个示例。例如，如表6所示，第二组偏移量包括两行数据，其中，第一行占用3个字节，且该3个字节上的数据依次为0x00、0x00、0x00；第二行占用3个字节，且该3个字节上的数据依次为0x01、0x04、0x08。

表6

例如，表7为对如表4所示的第一组偏移量中的N个偏移量进行基于字节级的行列转换得到的第二组偏移量的一个示例。例如，如表7所示，第二组偏移量包括两行数据，其中，第一行占用3个字节，且该3个字节上的数据依次为0x00、0x00、0x00；第二行占用3个字节，且该3个字节上的数据依次为0x06、0x09、0x01。

表7

S214，根据第二数据和第二组偏移量，得到第二数据页。

在一个示例中，可以新创建一个数据页，将该第二数据和第二组偏移量存储至新重建的数据页中，以形成第二数据页。

例如，可以新创建一个数据页，该数据页包括第二行数据部和第二目录部，将第二数据存储至第二行数据部，并将第二组偏移量存储至第二目录部。这样，该新创建的数据页即为第二数据页。

在另一个示例中，可以在原有的第一数据页的基础上，得到第二数据页。

例如，将第一行数据部中存储的第一数据更新为第二数据，并将第一目录部中存储的第一组偏移量更新为第二组偏移量，得到第二数据页。

情况2，预处理包括基于字节级的行列转换和基于字节级的差分处理

在情况2中，S210具体包括S211至S214。情况2中S211和S214的具体过程，与情况1中S211和S214的具体过程是相同的，这里不再赘述。情况2中S212和S213的具体过程，与情况1中S212和S213的具体过程是不同的，下面详细介绍情况2中S212和S213的具体过程。

在该情况2中，如图5所示，该S212具体包括S212A和S212B。下面详细介绍S212A和S212B。

S212A，按照字节对第一数据进行行列转换得到第三数据。

具体的，S212A包括S2121至S2124、以及S2125A。其中，关于S2121至S2124的描述可以参见上文的相关描述，这里不再赘述。这里着重介绍S2125A。

S2125A，按照N个偏移量的排列顺序，依次从N个区域中，取第i个字节对应的数据作为第三数据第i行第N列的数据，i依次从1取至L1，i为正整数，L1为第一数据的最大行长度，N个偏移量的排列顺序为N个偏移量按照从小到大的排列顺序或N个偏移量在第一组偏移量中的排列顺序。

根据上文对该S2125A的描述，可以看出该S2125A和上文所述的S2125的过程类似，两者的区别仅在于：S2125A得到的是第三数据，S2125得到的是第二数据。故关于该S2125A的详细描述可以参考上文S2125的相关描述，这里不再赘述。

S212B，将第三数据的第a1行上的相邻列的数据按照字节进行差分，得到第二数据，1≤a1≤a2，a1和a2均为正整数，a2等于第一数据的最大行长度或a2等于第一数据的最小行长度。

例如，若根据S212A得到的第三数据如表5所示，表8为将表5所示的第三数据的第a1行上的相邻列的数据按照字节进行差分得到的第二数据的一个示例。其中，表8以a2等于第一数据(表1或表2所示)的最小行长度(3个字节)为例。

表8

可选地，在一些实施例中，在执行S2125A之前，可以先确定第一数据的每行数据的长度之间的差异是否小于或等于第一阈值，即S2126A。并在第一数据的每行数据的长度之间的差异小于或等于第一阈值的情况下，才执行S2125A，以及S213和S214。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

在该情况2中，如图6所示，S213具体包括S213A和S213B。下面详细介绍S213A和S213B。

S213A，按照字节对第一组偏移量进行行列转换得到第三组偏移量。

根据上文对该S213A的描述，可以看出该S213A和上文所述的S213的过程类似，两者的区别仅在于：S213A得到的是第三组偏移量，S213得到的是第二组偏移量。故关于该：S213A的详细描述可以参考上文S213的相关描述，这里不再赘述。

S213B，将第三组偏移量的第b1行上的相邻列的数据按照字节进行差分，得到第二组偏移量，1≤b1≤b2，b1和b2均为正整数，b2等于第一组偏移量的最大行长度或b2等于第一组偏移量的最小行长度。

例如，若根据S213A得到的第三组偏移量如表6所示，表9为将表6所示的第三组偏移量的第b1行上的相邻列的数据按照字节进行差分得到的第二组偏移量的一个示例。其中，以b2等于第一组偏移量(表3所示)的最小行长度(2个字节)为例。

表9

例如，若根据S213A得到的第三组偏移量如表7所示，表10为将表7所示的第三组偏移量的第b1行上的相邻列的数据按照字节进行差分得到的第二组偏移量的一个示例。其中，以b2等于第一组偏移量(表4所示)的最小行长度(2个字节)为例。

表10

可选地，在一些实施例中，第二数据页包括用于指示第二数据页进行过预处理的信息。例如，在预处理仅包括基于字节级的行列转换的情况下，该信息可以指示第二数据页进行过基于字节级的行列转换处理。又例如，在预处理仅包括基于字节级的行列转换和基于字节级的差分处理的情况下，该信息不仅可以指示第二数据页进行过基于字节级的行列转换处理和基于字节级的差分处理，还可以指示基于字节级的行列转换处理和基于字节级的差分处理的先后顺序。

本申请实施例对用于指示第二数据页进行过预处理的信息在第二数据页的存储位置不作限定。例如，用于指示第二数据页进行过预处理的信息可以是存储在第二数据页的头部或尾部。

情况3，预处理仅包括基于字节级的差分处理

在该情况3中，S210具体包括S211至S214。情况3中S211和S214的具体过程，与情况2中S211和S214的具体过程是相同的，这里不再赘述。情况3中S212和S213的具体过程，与情况2中S212和S213的具体过程是不同的，下面详细介绍情况3中S212和S213的具体过程。

在该情况3中，S212具体包括：将第一数据的第e1行上的相邻列的数据按照字节进行差分，得到第二数据，1≤e1≤a2，e1为正整数。其中，a2可以参考上文的相关描述。

在该情况3中，S212的具体过程和情况2中S212B的过程类似，关于情况3中S212的具体过程可以参考情况2中S212B的相应的描述，这里不再详细描述。

在该情况3中，S213具体包括：将第一组偏移量的第f1行上的相邻列的数据按照字节进行差分，得到第二组偏移量，1≤f1≤b2，f1为正整数，其中b2可以参考上文的相关描述。

在该情况3中，S213的具体过程和情况2中S213B的过程类似，关于情况3中S212的具体过程可以参考情况2中S213B的相应的描述，这里不再详细描述。

可选地，在一些实施例中，S210中所述的第一数据页可以是将连续的且结构相同的多个第三数据页进行重组后得到的第一数据页。也就是说，在S210之前，所述方法200还包括：

S230，将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页。

其中，第三数据页包括基于行存储方式的第四数据和第四组偏移量，第四组偏移量用于指示第四数据的每行数据的偏移量，第一数据包括多个第三数据页对应的多个第四数据，且多个第四数据的最大行长度相同，第一组偏移量包括多个第三数据页对应的多个第四组偏移量。

需要说明的是，数据页结构相同可以理解为数据页的组成部分是一致的。

具体的，S230包括：S231，分别获取与多个第三数据页对应的多个第四数据和多个第四组偏移量。S232，分别将多个第四数据按照目标顺序进行排列，得到第一数据；以及，分别将多个第四组偏移量按照目标顺序进行排列，得到第一组偏移量，目标顺序为多个第三数据页的排列顺序。S233，将第一数据和第一组偏移量分别存储至第一数据页。换句话说，按照多个第三数据页的排列顺序，依次将获取的多个第三数据页中的每个第三数据页的行数据部存储的第四数据存放在一起即可得到第一数据，以及依次将获取的多个第三数据页中的每个第三数据页的目录部存储的第四组偏移量存放在一起即可得到第一组偏移量，这样，第一数据页就是汇聚了多个第三数据页的数据的数据页，此时可认为第一数据页是一个巨型数据页。

本申请实施对上文S232中所述的得到第一数据和得到第一组偏移量的步骤的执行顺序不作限定，例如，可以先得到第一数据后得到第一组偏移量，或者，可以先得到第一组偏移量后得到第一数据，或者，可以同时得到第一数据和第一组偏移量。

可选地，在一些实施例中，若数据页除了包括行数据部和目录部外，数据页还包括：头部和/或尾部，在执行S230的过程中，还需要执行以下步骤：首先，分别获取与多个第三数据页对应的多个头部和/或尾部中存储的数据。其次，分别将多个头部和/或尾部中存储的数据按照目标顺序进行排列，得到第一头部和/或第一尾部中存储的数据。最后，将第一头部和/或第一尾部中存储的数据分别存储至第一数据页的头部和/或尾部。换句话说，按照多个第三数据页的排列顺序，依次将获取的多个第三数据页中的每个第三数据页的头部和/或尾部中存储的数据存放在一起即可得到第一头部和/或第一尾部中存储的数据，这样就形成了一个巨型数据页即第一数据页。

可选地，在一些实施例中，该多个第三数据页是可以进行基于字节的行列转换的。

示例性地，可以通过以下两个条件判断每个第三数据页是否可以进行基于字节的行列转换。条件1：每个第三数据页中存储的第四组偏移量中有效的偏移量的个数是否小于或等于第五阈值；条件2：每个第三数据页中存储的第四数据的每行数据的长度之间的差异是否小于或等于第六阈值。

本申请实施例对第五阈值的具体取值不作限定，其可以根据实际情况进行设置。

本申请实施例对第五阈值分别与第四阈值和第二阈值的关系不作限定。例如，第五阈值、第四阈值和第二阈值可以均相等。

本申请实施例对第六阈值的具体取值不作限定，其可以根据实际情况进行设置。

本申请实施例对第六阈值分别与第三阈值和第一阈值的关系不作限定。例如，第六阈值、第三阈值和第一阈值可以均相等。

图7为本申请实施例提供的一例多个数据页重组的示意图。

例如，如图7中上方图所示，7个数据页包括数据页10至数据页70。其中，数据页10可以被行列转换，数据页10中行数据部所存储的数据的最大行长度为40。数据页20和数据页30都可以被行列转换，且数据页20中行数据部所存储的数据的最大行长度和数据页30中行数据部所存储的数据的最大行长度都为50。数据页40不可以被行列转换，数据页40中行数据部所存储的数据的最大行长度为50。数据页50可以被行列转换，数据页50中行数据部所存储的数据的最大行长度为50。数据页60和数据页70都可以被行列转换，且数据页60中行数据部所存储的数据的最大行长度和数据页70中行数据部所存储的数据的最大行长度都为60。

根据如图7中上方图所示的数据页10至数据页70可知，数据页20和数据页30可以重组成一个数据页，数据页60和数据页70可以重组成一个数据页，数据页10、数据页40、数据页50均不能重组。

进一步，将如图7中上方图所示的数据页10至数据页70进行重组可得到如图7中下方图所示的5个数据页，该5个数据页包括数据页10、数据页20-30、数据页40、数据页50、和数据页60-70。其中，数据页20-30是数据页20和数据页30重组后得到的数据页，数据页60-70是数据页60和数据页70重组后得到的数据页。

可选地，在一些实施例中，第一数据页包括用于指示第一数据页进行过重组的信息。

本申请实施例对用于指示第一数据页进行过重组的信息在第一数据页的存储位置不作限定。例如，用于指示第一数据页进行过重组的信息可以是存储在第一数据页的头部或尾部。

S220，对第二数据页进行压缩，得到压缩后的数据页。

本申请实施例对第二数据页进行压缩所使用的压缩算法不作限定。

示例性地，可以使用通用压缩算法(如，zlib、lz4、zstd等)对第二数据页进行压缩，得到压缩后的数据页。

需要说明的是，用户在采用上文所述的数据页压缩的方法200对数据页压缩前，可以自己先设置压缩参数，进而通过用户设置的压缩参数，并基于采用上文所述的数据页压缩的方法200对数据页压缩来完成数据页的压缩。

本申请实施例对压缩参数具体包括的内容不作限定。例如，压缩参数可以包括以下至少一项：一次压缩的数据页的页数、预处理的方式、S220中涉及的压缩算法的类型。其中，一次压缩的数据页的页数的最小值为1。预处理的方式包括行列转换和/或差分处理。S220中涉及的压缩算法的类型可以包括zlib、lz4、zstd等。

本申请实施例对压缩参数具体表现形式不作限定。例如，压缩参数可设计成表空间级别、文件级别、表级别、或者用户可自行设计。

一方面，一般列存的数据一般具有相似性、重复度和一定规律性，因此，基于列存储方式的数据压缩比要比基于行存储方式的数据会更高。在方法200中所述的预处理包括基于字节级的行列转换的实施例中，将基于行存储方式的数据以一种有序可逆的方式转换为基于列存储方式的数据的形式，使该数据在数据页内原地更新后再对数据页进行压缩，这样可以充分利用数据结构特点，进而提高数据页的压缩率。此外，本申请实施例提供的数据压缩的方法200和现有压缩方法的压缩耗时基本持平。

另一方面，一般同一列的数据大概率是有很高的重复度以及规律性，因此，在方法200中所述的预处理包括基于字节级的差分处理的实施例中，将列数据之间进行基于字节级的差分处理后，能够制造出更多的重复数据，这样可以充分利用数据结构特点，进一步地提升数据重复度和规律性，进而可以提高数据页的压缩率。此外，本申请实施例提供的数据压缩的方法200和现有压缩方法的压缩耗时基本持平。

又一方面，一般数据页也是有一定规律性，因此，在对数据页进行基于字节级的行列转换之前，可以将连续的且结构相同的多个数据页进行重组得到一个数据页。这样，可以充分利用数据页结构特点，将相似度较高的多个数据页重组成一个数据页，进而可以提高数据页的压缩率。此外，本申请实施例提供的数据压缩的方法200和现有压缩方法的压缩耗时基本持平。

下面结合表11至表16，对本申请实施例提供的数据压缩的方法200的压缩性能(例如，压缩率或压缩耗时)进行具体详细的介绍。

基于本申请实施例提供的数据压缩的方法200和现有的压缩方法，本申请实施例对基于行存储方式的多个数据进行了TPCC测试，详见表11至表16。

其中，表11至表12中处理方式中：①：采用现有通用压缩算法进行压缩的处理方式；②：数据页内进行基于字节级的行列转换+采用现有通用压缩算法进行压缩的处理方式；③：数据页内进行基于字节级的行列转换+差分处理+采用现有通用压缩算法进行压缩的处理方式；④：数据页重组+数据页内进行基于字节级的行列转换+采用现有通用压缩算法进行压缩的处理方式；⑤：数据页重组+数据页内进行基于字节级的行列转换+差分处理+采用现有通用压缩算法进行压缩的处理方式。

表11和表12是以数据库GaussDB V3中的各个索引数据为例，表11对应的压缩等级为9，表12对应的压缩等级为1。

表13是以数据库PG中的各个索引数据为例，且表13是对一个数据页进行压缩的示例。

表14和表15是以数据库GaussDB V3中的各个表数据为例，表14对应的压缩等级为9，表15对应的压缩等级为1。

表16是以数据库PG中的各个表数据为例，且表16是对一个数据页进行压缩的示例。

表11至表15均以方法200的S220中采用zstd通用算法为例。表16除了以方法200的S220中采用zstd通用算法为例，还以方法200的S220中采用lz4通用算法为例。

表11

表12

表13

表14

表15

表16

由表11至表16可知：

1、在方法200的S220中采用zstd通用算法的情况下，压缩等级越低，压缩耗时越短，压缩率相对越低。

2、单次压缩的数据页越多，压缩性能越好。如单次压缩的数据页越多，压缩率越高，压缩耗时越短。

由表16可知，在本申请实施例中，方法200的S220中采用lz4通用算法和方法200的S220中采用zstd通用算法相比，采用lz4通用算法的实施例的总体压缩性能(压缩率和压缩耗时)不如采用zstd通用算法的实施例的压缩性能。

下面，结合图8至图11，详细描述表11和表14中分别采用本申请实施例提供的数据页压缩的方法200和现有的压缩方法对数据库GaussDB V3中的数据进行压缩的过程中两者各自的压缩性能。关于表11至表16中未描述的部分具体可以参见表中所示，这里不再多述。

需要说明的是，图8至图11仅是为了对比①～⑤处理方式的压缩性能，其中具体数值仍以表11至表16中为准。

图8至图11分别为本申请实施例提供的四例压缩性能的示意图。

在图8中的(a)、图9中的(a)、图10中的(a)、和图11中的(a)所示的图中，横坐标表示数据页的个数，纵坐标表示压缩后的数据页的大小(单位：M(兆))。

在图8中的(b)、图9中的(b)、图10中的(b)、和图11中的(b)所示的图中，横坐标表示数据页的个数，纵坐标表示压缩耗时(单位：s(秒))。

图8至图11的相同之处在于：1、均以方法200的S220中采用zstd通用算法为例。2、均是以对1G(千兆字节)的数据进行压缩为例，且均是以压缩等级为9为例。

图8至图11的不同之处在于：图8中是以数据库GaussDB V3中的索引数据idx_bmsql_oorder_pkey为例，图9中是以数据库GaussDB V3中的索引数据idx_bmsql_order_line_pkey为例，图10中是以数据库GaussDB V3中的表数据tbl_bmsql_oorder为例，图11中是以数据库GaussDB V3中的表数据tbl_bmsql_stock为例。

一方面，由图8至图10可知，在压缩数据之前，对数据做的处理不同，压缩后得到的数据页的大小和压缩耗时也不同。但总体上来说，无论是索引数据还是表数据，采用本申请实施例提供的数据页压缩的方法200对数据进行压缩后得到的数据页的大小均比采用现有的压缩方法对数据进行压缩后得到的数据页的大小要小。换句话说，本申请实施例提供的数据页压缩的方法200的压缩率均比采用现有的压缩方法的压缩率要高。另一方面，由图8至图11可知，本申请实施例提供的数据页压缩的方法200压缩过程的耗时均和采用现有的压缩方法对数据进行压缩的耗时差不多。由此可见，本申请实施例提供的数据页压缩的方法200不仅压缩率较高，而且和现有压缩方法的压缩耗时基本持平。

此外，由于表数据bmsql_order中随机数较多，因此，在对表数据bmsql_order进行的预处理的包括差分处理的情况下，某些采用本申请实施例提供的数据页压缩的方法200对数据进行压缩后得到的数据页的大小比采用现有的压缩方法对数据进行压缩后得到的数据页的大小要大。

上面对数据页压缩的过程进行了介绍。下面对数据页解压的过程进行介绍。

应理解，数据页压缩的过程和数据页解压的过程可以分开实施也可以结合实施，本申请实施例对此不作限定。

需要说明的是，下文以数据页解压的过程和数据页压缩的过程是结合实施为例进行描述，其不应对本申请构成限制。

图12为本申请实施例提供的一例数据页解压的方法300的示意性流程图。

例如，如图12所示，该方法300包括S310和S320，S320在S310之后执行。下面对S310和S320进行详细介绍。

S310，对压缩后的数据页进行解压缩，得到第二数据页。

本申请实施例对压缩后的数据页进行解压缩所使用的解压缩方法不作限定。

示例性地，可以使用通用解压缩算法(如，zlib、lz4、zstd等)对压缩后的数据页进行解压缩进行解压缩得到第二数据页。

S320，根据第二数据页，得到第一数据页。

第一数据页的结构可以参见上文的描述，这里不再赘述。

第二数据页可以包括第二行数据部和第二目录部，其中，第二行数据部用于存储第二数据，第二目录部用于存储第二组偏移量。

在S320中，第一数据页中的第一数据是对第二数据页中的第二数据进行预处理后得到的数据。第一数据页中的第一组偏移量是对第二数据页中的第二组偏移量进行预处理后得到的组偏移量。

在一个示例中，预处理仅包括基于字节级的行列转换。

在另一个示例中，预处理不仅包括基于字节级的行列转换，预处理还包括基于字节级的累加处理。其中，累加处理包括列数据之间进行累加。

需要说明的是，基于字节级的累加处理可以理解为以字节为单位进行累加。

在又一个示例中，预处理仅包括累加处理。

为了方便描述，将预处理仅包括基于字节级的行列转换的情况记为情况1，将预处理不仅包括基于字节级的行列转换，预处理还包括基于字节级的累加处理的情况记为情况3。将预处理仅包括累加处理记为情况4。

下面，分别以预处理为情况1、情况3和情况4为例，对S320进行详细描述。

情况1，预处理仅包括基于字节级的行列转换

在情况1中，S320具体包括S321至S324。

S321，从第二数据页中分别获取第二数据和第二组偏移量。

示例性地，可以先从第二头部分别获取第二数据的起始点和结束点以及第二数据对应的偏移量的起始点和结束点。然后，根据第二数据的起始点和结束点从第二数据页的第二行数据部获取第二数据，以及根据第二数据对应的偏移量的起始点和结束点从第二数据页的第二目录部获取第二组偏移量。

关于起始点和结束点的相关描述可以参见上文的相关描述，这里不再赘述。

S322，按照字节对第二组偏移量进行预处理得到第一组偏移量。

具体地，根据第二组偏移量的单位偏移量长度，按照字节对第二组偏移量进行预处理得到第一组偏移量。

本申请实施例对第二组偏移量的单位偏移量长度的大小不作限定。下文均以第二组偏移量的单位偏移量长度为2字节为例进行描述。

例如，对表6所示的第二组偏移量进行基于字节级的行列转换可得到如表3所示的第一组偏移量。关于表3和表6的描述可以参考上文的相关描述，这里不再赘述。

又例如，对表7所示的第二组偏移量进行基于字节级的行列转换可得到如表4所示的第一组偏移量。关于表4和表7的描述可以参考上文的相关描述，这里不再赘述。

S323，根据第一组偏移量，按照字节对第二数据进行预处理得到第一数据。

具体地，该S323包括：

S3231，从第一组偏移量中去除无效的偏移量，得到第五组偏移量，第五组偏移量包括P个偏移量。

在一个示例中，可以根据指示无效的偏移量的信息即可实现S3231。

若指示无效的偏移量的信息中指示有(N-P)个偏移量是无效的，那么此时需要从第一组偏移量中去除该(N-P)个偏移量，得到有效的P个偏移量，即第五组偏移量。

本申请实施例对指示无效的偏移量的信息的存储位置不做限定。例如，指示无效的偏移量的信息可以存储在第二数据页的目录部、头部或尾部。

在另一个示例中，也可以根据第一组偏移量中每个偏移量，以及第二数据的起始点和结束点，即可实现3231。

其中，第二数据的起始点和结束点可以根据第二数据页的头部或尾部获取。

具体的，若N个偏移量中有P个偏移量在第二数据的起始点和结束点之间，(N-P)个偏移量不在第二数据的起始点和结束点之间，即N个偏移量中有P个偏移量是有效的，(N-P)个偏移量是无效的。

在该示例下，需要从第一组偏移量中去除不在第二数据的起始点和结束点之间的(N-P)个偏移量，得到有效的P个偏移量。

S3232，将P个偏移量按照从小到大的顺序进行排列，得到排序后的P个偏移量。

例如，若第五组偏移量为如表3所示，该P个偏移量分别为0x01、0x04、0x08，该P个偏移量按照从小到大的顺序进行排列得到排序后的P个偏移量依次为0x01、0x04、0x08。

又例如，若第五组偏移量为如表4所示，该P个偏移量分别为0x06、0x09、0x01，该P个偏移量按照从小到大的顺序进行排列得到排序后的P个偏移量依次为0x01、0x06、0x09。

S3233，根据排序后的P个偏移量，创建P个区域，并得到第一数据的每行数据的长度，P个区域与P个偏移量一一对应。

该P个偏移量和P个区域具有一一对应的关系。例如，P个区域中排在第k个位置的区域对应的偏移量为第k个偏移量，所述第k个偏移量为P个偏移量按照从小到大的排列顺序中排在第k个位置的偏移量。

例如，若P＝3，3个区域中排在第1个位置的区域对应的偏移量为表3所示的3个偏移量中排在第1个位置的偏移量，即0x01；3个区域中排在第2个位置的区域对应的偏移量为表3所示的3个偏移量中排在第2个位置的偏移量，即0x04；3个区域中排在第3个位置的区域对应的偏移量为表3所示的3个偏移量中排在第3个位置的偏移量，即0x08。

又例如，若P＝3，3个区域中排在第1个位置的区域对应的偏移量为表4所示的3个偏移量中排在第3个位置的偏移量，即0x01；3个区域中排在第2个位置的区域对应的偏移量为表3所示的3个偏移量中排在第1个位置的偏移量，即0x06；3个区域中排在第3个位置的区域对应的偏移量为表3所示的3个偏移量中排在第2个位置的偏移量，即0x09。

将第(d+1)个偏移量与第d个偏移量的差值作为第一数据的第d行数据的长度。其中，d依次从1取至(P-1)。并将第P个偏移量与第一数据的偏移量的结束点的差值加1作为第一数据的第P行数据的长度。

例如，如表3所示的3个偏移量排序后依次为0x01、0x04、0x08，将第2个偏移量(0x04)和第1个偏移量(0x01)的差值作为第一数据第1行数据的长度，即该第一数据第1行数据的长度为(0x04-0x01)＝0x03(字节)；将第3个偏移量(0x08)和第2个偏移量(0x04)的差值作为第一数据第2行数据的长度，即该第一数据第2行数据的长度为(0x08-0x04)＝0x04(字节)；以及将第一数据的偏移量的结束点(例如，0x0C)和第3个偏移量(0x08)的差值作为第一数据第3行数据的长度，即该第一数据第3行数据的长度为(0x0C-0x08+0x01)＝0x05(字节)。

又例如，如表4所示的3个偏移量排序后依次为0x01、0x06、0x09，将第2个偏移量(0x06)和第1个偏移量(0x01)的差值作为第一数据第1行数据的长度，即该第一数据第1行数据的长度为(0x06-0x01)＝0x05(字节)；将第3个偏移量(0x09)和第2个偏移量(0x06)的差值作为第一数据第2行数据的长度，即该第一数据第2行数据的长度为(0x09-0x06)＝0x03(字节)；以及将第一数据的偏移量的结束点(例如，0x0C)和第3个偏移量(0x09)的差值加1作为第一数据第3行数据的长度，即该第一数据第3行数据的长度为(0x0C-0x09+0x01)＝0x04(字节)。

本申请实施对P个区域的位置不作限定以及该P个区域的位置是否在第二数据页或第一数据页也不作限定。

可选地，在一些实施例中，在执行S3233之前，可以先确定P是否小于或等于第四阈值。并在P小于或等于第四阈值的情况下，才执行S3233，以及S3234和S324。这样，只有在第一数据行数不多的情况下，才去对第二数据进行基于字节级的行列转换，进而可以避免资源的浪费。

本申请实施例对第四阈值的具体取值不作限定，其可以根据实际情况进行设置。

本申请实施例对第四阈值和第二阈值的关系不作限定。例如，第四阈值可以等于第二阈值。

S3234，依次按顺序从第二行数据部中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写。

其中，p为正整数，且p从1取至R。

R为P个区域中未被写满数据的区域的数量，在第s个区域被写满数据的情况下，第s个区域中的数据的数量为第一数据的第s行数据的长度，s为正整数，第s个区域对应的偏移量为第s个偏移量，第s个偏移量位于第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中的第p个偏移量。

需要说明的是，第p个偏移量可以理解为排在第五组偏移量中除被写满数据的区域对应的偏移量之外的偏移量中第p个位置的偏移量。

q从1取值L2，L2为第一数据的最大行长度。

下面，结合图13和图14为S3234进行详细描述。

图13为本申请实施例提供的一例第二数据读写的过程示意图。图13中所述的第二数据如表5所示，该第二数据对应的第五组偏移量如表3所示。那么，S3234中所述的P＝3，3个区域中排在第1个位置的区域为区域401，该区域401对应的偏移量为表3所示的3个偏移量中排在第1个位置的偏移量，即0x01；3个区域中排在第2个位置的区域为区域402，该区域402对应的偏移量为表3所示的3个偏移量中排在第2个位置的偏移量，即0x04；3个区域中排在第3个位置的区域为区域403，该区域403对应的偏移量为表3所示的3个偏移量中排在第3个位置的偏移量，即0x08。可见，在图13的示例中，3个区域对应的偏移量的排列顺序为表3所示的3个偏移量的排列顺序。第一数据第1行数据的长度为＝0x03(字节)，第一数据第2行数据的长度为0x04(字节)，以及第一数据第3行数据的长度为0x05(字节)。

如图13所示，在q＝1时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(aaa)，并依次将3个字节中第1个字节对应的数据(a)存储至区域401(表3所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第1个字节对应的数据，将3个字节中第2个字节对应的数据(a)存储至区域402(3个区域中排在第2个位置的区域)的第1个字节对应的数据，以及将3个字节中第3个字节对应的数据(a)存储至区域403(3个区域中排在第3个位置的区域)的第1个字节对应的数据，这样，便完成第1次数据的读写。

在q＝2时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(bbb)，并依次将3个字节中第1个字节对应的数据(b)存储至区域401(表3所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第2个字节对应的数据，将3个字节中第2个字节对应的数据(b)存储至区域402(表3所示的3个偏移量中排在第2个位置的偏移量对应的区域)的第2个字节对应的数据，以及将3个字节中第3个字节对应的数据(b)存储至区域403(表3所示的3个偏移量中排在第3个位置的偏移量对应的区域)的第2个字节对应的数据，这样，便完成第2次数据的读写。

在q＝3时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(ccc)，并依次将3个字节中第1个字节对应的数据(c)存储至区域401(表3所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第3个字节对应的数据，将3个字节中第2个字节对应的数据(c)存储至区域402(表3所示的3个偏移量中排在第2个位置的偏移量对应的区域)的第3个字节对应的数据，以及将3个字节中第3个字节对应的数据(c)存储至区域403(表3所示的3个偏移量中排在第3个位置的偏移量对应的区域)的第3个字节对应的数据，这样，便完成第3次数据的读写。

在完成第3次数据的读写后，3个区域中的3个区域中排在第1个位置的区域401(表3所示的3个偏移量中排在第1个位置的偏移量对应的区域)中的数据的数量(3个字节) 已达到第一数据的第1行数据的长度(0x03)，此时，区域401即可认为已被写满数据。

在q＝4时，由于3个区域中未被写满数据的区域为2个，则此时R＝2。此外，该2个未被写满数据的区域包括：3个区域中除表3所示的3个偏移量中排在第1个位置的偏移量之外的偏移量中排在第1个位置的偏移量对应的区域(区域402)，以及3个区域中除表3所示的3个偏移量中排在第1个位置的偏移量之外的偏移量中排在第2个位置的偏移量对应的区域(区域403)。这样，依次按顺序从如表5所示的第二数据中读取2个字节对应的数据(dd)，并依次将2个字节中第1个字节对应的数据(d)存储至区域402的第4个字节对应的数据，并将2个字节中第2个字节对应的数据(d)存储至区域403的第4个字节对应的数据，这样，便完成第4次数据的读写。

在完成第4次数据的读写后，3个区域中的3个区域中排在第2个位置的区域402(表3所示的3个偏移量中排在第2个位置的偏移量对应的区域)中的数据的数量(4个字节)已达到第一数据的第2行数据的长度(0x04)，此时，区域402即可认为已被写满数据。

在q＝5时，由于3个区域中未被写满数据的区域为1个，则此时R＝1。此外，该1个未被写满数据的区域为除表3所示的3个偏移量中排在第1个位置的偏移量和第2个位置的偏移量之外的偏移量中排在第1个位置的偏移量对应的区域(区域403)。这样，按顺序从如表5所示的第二数据中读取1个字节对应的数据(e)，并依次将1个字节对应的数据(e)存储至区域403(未被写满数据区域)的第5个字节对应的数据，这样，便完成第5次数据的读写。

经过如图13所示的上述5次数据的读写过程，便可实现从第二数据页中读取第二数据，并将读取的第二数据写入3个区域(区域401、区域402和区域403)。其中，3个区域中的3个区域中排在第1个位置的区域写入的数据为abc，其占用了3个字节；3个区域中的3个区域中排在第2个位置的区域写入的数据为abcd，其占用了4个字节；3个区域中的3个区域中排在第3个位置的区域写入的数据为abcde，其占用了5个字节。

图14为本申请实施例提供的另一例第二数据读写的过程示意图。图14中所述的第二数据如表5所示，该第二数据对应的第五组偏移量如表4所示，第五组偏移量的偏移量中排在第1个位置的偏移量是0x06，排在第2个位置的偏移量是0x09、排在第3个位置的偏移量是0x01。那么，S3234中所述的P＝3，3个区域中排在第1个位置的区域为区域501，该区域501对应的偏移量为表4所示的3个偏移量中排在第3个位置的偏移量，即0x01；3个区域中排在第2个位置的区域为区域502，该区域502对应的偏移量为表3所示的3个偏移量中排在第1个位置的偏移量，即0x06；3个区域中排在第3个位置的区域为区域503，该区域503对应的偏移量为表3所示的3个偏移量中排在第2个位置的偏移量，即0x09。可见，在图14的示例中，3个区域对应的偏移量的排列顺序为表4所示的3个偏移量按照从到大的排列顺序。第一数据第1行数据的长度为＝0x05(字节)，第一数据第2行数据的长度为0x03(字节)，以及第一数据第3行数据的长度为0x04(字节)。

如图14所示，在q＝1时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(aaa)，并依次将3个字节中第1个字节对应的数据(a)存储至区域502(表4所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第1个字节对应的数据，将3个字节中第2个字节对应的数据(a)存储至区域503(表4所示的3个偏移量中排在第2个位置的偏移量对应的区域)的第1个字节对应的数据，以及将3个字节中第3个字节对应的数据(a)存储至区域501(表4所示的3个偏移量中排在第3个位置的偏移量对应的区域)的第1个字节对应的数据，这样，便完成第1次数据的读写。

在q＝2时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(bbb)，并依次将3个字节中第1个字节对应的数据(b)存储至区域502(表4所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第2个字节对应的数据，将3个字节中第2个字节对应的数据(b)存储至区域503(表4所示的3个偏移量中排在第2个位置的偏移量对应的区域)的第2个字节对应的数据，以及将3个字节中第3个字节对应的数据(b)存储至区域501(表4所示的3个偏移量中排在第3个位置的偏移量对应的区域)的第2个字节对应的数据，这样，便完成第2次数据的读写。

在q＝3时，由于3个区域中未被写满数据的区域为3个，则此时R＝3。这样，依次按顺序从如表5所示的第二数据中读取3个字节对应的数据(ccc)，并依次将3个字节中第1个字节对应的数据(c)存储至区域502(表4所示的3个偏移量中排在第1个位置的偏移量对应的区域)的第3个字节对应的数据，将3个字节中第2个字节对应的数据(c)存储至区域503(表4所示的3个偏移量中排在第2个位置的偏移量对应的区域)的第3个字节对应的数据，以及将3个字节中第3个字节对应的数据(c)存储至区域501(表4所示的3个偏移量中排在第3个位置的偏移量对应的区域)的第3个字节对应的数据，这样，便完成第3次数据的读写。

在完成第3次数据的读写后，3个区域中的3个区域中排在第2个位置的区域502(表4所示的3个偏移量中排在第1个位置的偏移量对应的区域)中的数据的数量(3个字节)已达到第一数据的第2行数据的长度(0x03)，此时，区域502即可认为已被写满数据。

在q＝4时，由于3个区域中未被写满数据的区域为2个，则此时R＝2。此外，该2个未被写满数据的区域：3个区域中除表4所示的3个偏移量中排在第1个位置的偏移量之外的偏移量中排在第1个位置的偏移量对应的区域(区域503)，以及3个区域中除表4所示的3个偏移量中排在第1个位置的偏移量之外的偏移量中排在第2个位置的偏移量对应的区域(区域501)。这样，依次按顺序从如表5所示的第二数据中读取2个字节对应的数据(dd)，并依次将2个字节中第1个字节对应的数据(d)存储至区域503的第4个字节对应的数据，并将2个字节中第2个字节对应的数据(d)存储至区域501的第4个字节对应的数据，这样，便完成第4次数据的读写。

在完成第4次数据的读写后，3个区域中的3个区域中排在第3个位置的区域503(表4所示的3个偏移量中排在第2个位置的偏移量对应的区域)中的数据的数量(4个字节)已达到第一数据的第3行数据的长度(0x04)，此时，区域503即可认为已被写满数据。

在q＝5时，由于3个区域中未被写满数据的区域为1个，则此时R＝1。此外，该1个未被写满数据的区域为3个区域中除表4所示的3个偏移量中排在第1个位置的偏移量和第2个位置的偏移量之外的偏移量中排在第1个位置的偏移量对应的区域(区域501)。这样，按顺序从如表5所示的第二数据中读取1个字节对应的数据(e)，并依次将1个字节对应的数据(e)存储至区域501的第5个字节对应的数据，这样，便完成第5次数据的读写。

经过如图14所示的5次数据的读写过程，便可实现从第二数据页中读取第二数据，并将读取的第二数据写入3个区域(区域501、区域502和区域503)。其中，3个区域中的3个区域中排在第1个位置的区域写入的数据为abcde，其占用了5个字节；3个区域中的3个区域中排在第2个位置的区域写入的数据为abc，其占用了3个字节；3个区域中的3个区域中排在第3个位置的区域写入的数据为abcd，其占用了4个字节。

可选地，在一些实施例中，在执行S3234之前，可以先确定第一数据的每行数据的长度之间的差异是否小于或等于第三阈值，即S3235。并在第一数据的每行数据的长度之间的差异小于或等于第三阈值的情况下，才执行S3234，以及S324。这样，只有在第一数据的每行数据的长度之间的差异不大的情况下，才去对第一数据进行基于字节级的行列转换，进而可以避免资源的浪费。

本申请实施例对第三阈值的具体取值不作限定，其可以根据实际情况进行设置。

本申请实施例对第三阈值和第一阈值的关系不作限定。例如，第三阈值可以等于第一阈值。

S324，根据第一数据和第一组偏移量，得到第一数据页。

在一个示例中，可以新创建一个数据页，将该第一数据和第一组偏移量存储至新重建的数据页中，以形成第一数据页。

例如，可以新创建一个数据页，该数据页包括第一行数据部和第一目录部，将第一数据存储至第一行数据部，并将第一组偏移量存储至第一目录部。这样，该新创建的数据页即为第一数据页。

在另一个示例中，可以在原有的第二数据页的基础上，得到第一数据页。

例如，将第二行数据部中存储的第二数据更新为第一数据，并将第二目录部中存储的第二组偏移量更新为第一组偏移量，得到第一数据页。

其中，将第二行数据部中存储的第二数据更新为第一数据具体包括依次将S3234中得到的P个区域中的数据覆盖第二行数据部中存储的第二数据。

例如，如图13所述的3个区域中的数据依次为abcabcdabcde，即第二数据为abcabcdabcde。又例如，如图14所述的3个区域中的数据依次为abcdeabcabcd，即第二数据为abcabcdabcde。

情况3，预处理包括基于字节级的行列转换和基于字节级的累加处理

在情况3中，S320具体包括S321至S324。情况3中S321和S324的具体过程，与情况1中S321和S324的具体过程是相同的，这里不再赘述。情况3中S322和S323的具体过程，与情况1中S322和S323具体过程是不同的，下面详细介绍情况3中S322和S323的具体过程。

在该情况3中，S322具体包括S322A和S322B。

S322A，将第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量。

其中，1≤c1≤c2，c1和c2均为正整数，c2等于第二组偏移量的最大行长度或c2等于第二组偏移量的最小行长度。

例如，若根据S321得到的第二组偏移量如表9所示，表6为将表9所示的第二组偏移量的第c1行上的相邻列的数据按照字节进行累加得到的第三组偏移量的一个示例。其中，以c2等于第二组偏移量的最小行长度(3个字节)为例。

又例如，若根据S321得到的第二组偏移量如表10所示，表6为将表7所示的第二组偏移量的第c1行上的相邻列的数据按照字节进行累加得到的第三组偏移量的一个示例。其中，以c2等于第二组偏移量的最小行长度(3个字节)为例。

S322B，按照字节对第三组偏移量进行行列转换，得到第一组偏移量。

具体地，根据第三组偏移量的单位偏移量长度，按照字节对第三组偏移量进行预处理得到第一组偏移量。

本申请实施例对第三组偏移量的单位偏移量长度的大小不作限定。下文均以第三组偏移量的单位偏移量长度为2字节为例进行描述。

例如，对表6所示的第三组偏移量进行基于字节级的行列转换可得到如表3所示的第一组偏移量。关于表3和表6的描述可以参考上文的相关描述，这里不再赘述。

又例如，对表7所示的第三组偏移量进行基于字节级的行列转换可得到如表4所示的第一组偏移量。关于表4和表7的描述可以参考上文的相关描述，这里不再赘述。

在该情况3中，S323具体包括S323A和S323B。

S323A，将第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据。

其中，1≤d1≤d2，d1和d2均为正整数，d2等于第二数据的最大行长度或d2等于第二数据的最小行长度。

例如，若根据S321得到的第二数据如表8所示，表5为将表8所示的第二数据的第c1行上的相邻列的数据按照字节进行累加得到的第三数据的一个示例。其中，以d2等于第二数据的最小行长度(3个字节)为例。

S323B，根据第一组偏移量，按照字节对第三数据进行行列转换得到第一数据。

具体地，S323B包括S3231至S3233和S3234A。其中，关于S3231至S3233的描述可以参见上文的相关描述，这里不再赘述。这里着重介绍S3234A。

S3234A，依次按顺序从第三数据中读取R个字节对应的数据，并依次将R个字节中第p个字节对应的数据存储至P个区域中第s个区域的第q个字节对应的数据，完成第q次数据的读写。

其中，p为正整数，且p从1取至R。

q从1取值L2，L2为第一数据的最大行长度；

根据上文对该S3234A的描述，可以看出该S3234A和上文所述的S3234的过程类似，两者的区别仅在于：S3234A是从第三数据中读取R个字节对应的数据，S3234是从第二行数据部即第二数据中读取R个字节对应的数据。故关于该S3234A的详细描述可以参考上文S3234的相关描述，这里不再赘述。

情况4，预处理仅包括基于字节级的累加处理

在该情况4中，S320具体包括S321至S324。情况4中S321和S324的具体过程，与情况3中S321和S324的具体过程是相同的，这里不再赘述。情况4中S322和S323的具体过程，与情况3中S322和S323具体过程是不同的，下面详细介绍情况4中S322和S323的具体过程。

在该情况4中，S322具体包括：将第二组偏移量的第g1行上的相邻列的数据按照字节进行累加，得到第一组偏移量。

其中，1≤g1≤c2，g1为正整数。其中，c2可以参考上文的相关描述。

在该情况4中，S322的具体过程和情况3中S322A的过程类似，关于情况4中S322的具体过程可以参考情况3中S322A的相应的描述，这里不再详细描述。

在该情况4中，S323具体包括：将第二数据的第h1行上的相邻列的数据进行按照字节累加，得到第一数据。

其中，1≤h1≤d2，h1为正整数，其中d2可以参考上文的相关描述。

在该情况4中，S323的具体过程和情况3中S323A的过程类似，关于情况4中S323的具体过程可以参考情况3中S323A的相应的描述，这里不再详细描述。

可选地，在一些实施例中，若第一数据页是由多个数据页重组而成的，还需将第一数据页进行拆分以得到多个数据页。

可选地，在一些实施例中，第一数据页包括用于指示第一数据页进行过重组的信息。这样，通过第一数据页便可获知该第一数据页是否重组过。

关于用于指示第一数据页进行过重组的信息的描述可以参见上文的相关描述，这里不再赘述。

也就是说，在S320之后，所述方法300还可以包括：

S330，将第一数据页进行拆分，得到多个第三数据页。

S330中所述的第一数据页和第三数据页的描述可以参见上文中的相关描述，这里不再赘述。

具体的，S330包括：S331，根据第一数据页的头部，获取多个第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点。

可选地，在一些实施例中，若数据页除了包括行数据部和目录部外，数据页还包括：头部和/或尾部，在执行S331的过程中，还需要执行以下步骤：首先，分别获取与多个第三数据页对应的多个头部和/或尾部中存储的数据。其次，分别将多个头部和/或尾部中存储的数据按照目标顺序进行拆分，得到多个第三数据页中的头部和/或尾部中存储的数据，并将多个第三数据页中的头部和/或尾部中存储的数据分别存储至多个第三数据页的头部和/或尾部。最后，根据每个第三数据页中的头部和/或尾部中存储的数据，得到每个第三数据页对应的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点。

S332，根据多个第四数据的起始点和结束点，从第一数据页中得到多个第四数据；以及，根据多个第四组偏移量的起始点和结束点，从第一数据页中得到多个第四组偏移量。

本申请实施对上文S332中所述的得到第四数据和得到第四组偏移量的步骤的执行顺序不作限定，例如，可以先得到第四数据后得到第四组偏移量，或者，可以先得到第四组偏移量后得到第四数据，或者，可以同时得到第四数据和第四组偏移量。

S333，分别将多个第四数据和多个第四组偏移量分别存储至多个第三数据页。

在上文所述的方法300中，由于第二数据页中存储的每行数据具有相似性、重复度和一定规律性，这样对第二数据页进行解压缩的解压缩率就比较高，进而提高了数据页的解压缩率。此外，本申请实施例和现有解压缩方法的解压缩率耗时基本持平。

下面，结合图15和图16，对本申请实施例提供的数据页处理的装置进行描述。

图15是本申请实施例提供的数据页处理的装置的示意性框图。

如图15所示，该装置600包括：处理单元610。

在一种可实现的方式中，该处理单元610用于实现上文方法200中所述的各个步骤，这里不再赘述。

在另一种可实现的方式中，该处理单元610用于实现上文方法300中所述的各个步骤，这里不再赘述。

图16示出了本申请实施例提供的另一例数据页处理的装置的示意性结构图。

如图16所示，该数据页处理的装置700包括：一个或多个处理器710，一个或多个存储器720，该一个或多个存储器存储720存储有一个或多个计算机程序，该一个或多个计算机程序包括指令。当该指令被所述一个或多个处理器710运行时，使得所述的数据页处理的装置执行上述方法200或方法300中所述的各个步骤。

本申请实施例提供一种计算机程序产品，当所述计算机程序产品在数据页处理的装置运行时，使得数据页处理的装置执行上述方法200或方法300中所述的各个步骤。其实现原理和技术效果与上述方法相关实施例类似，此处不再赘述。

本申请实施例提供一种可读存储介质，所述可读存储介质包含指令，当所述指令在数据页处理的装置运行时，使得所述数据页处理的装置执行上述方法200或方法300中所述的各个步骤。其实现原理和技术效果类似，此处不再赘述。

本申请实施例提供一种芯片系统，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片系统地装置执行上述方法200或方法300中所述的各个步骤。其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据页处理的方法，其特征在于，包括：

根据第一数据页，得到第二数据页；

对所述第二数据页进行压缩，得到压缩后的数据页；

其中，所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；

所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量，所述第二数据是对所述第一数据进行预处理后得到的数据，所述第二组偏移量是对所述第一组偏移量进行所述预处理后得到的组偏移量，所述预处理包括基于字节级的行列转换。
根据权利要求1所述的方法，其特征在于，所述根据所述第一数据页，得到第二数据页，包括：

从所述第一数据页中分别获取所述第一数据和所述第一组偏移量；

按照字节对所述第一数据进行所述预处理得到所述第二数据；

按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量；

根据所述第二数据和所述第二组偏移量，得到所述第二数据页。
根据权利要求2所述的方法，其特征在于，所述第一数据页包括第一行数据部和第一目录部，所述第一行数据部用于存储所述第一数据，所述第一目录部用于存储所述第一组偏移量；

所述根据所述第二数据和所述第二组偏移量，得到所述第二数据页，包括：

将所述第一行数据部中存储的所述第一数据更新为所述第二数据，并将所述第一目录部中存储的所述第一组偏移量更新为第二组偏移量，得到所述第二数据页。
根据权利要求2或3所述的方法，其特征在于，所述预处理还包括基于字节级的差分处理，所述差分处理包括列数据之间进行差分。
根据权利要求4所述的方法，其特征在于，

所述按照字节对所述第一数据进行所述预处理得到所述第二数据包括：

按照字节对所述第一数据进行行列转换得到所述第三数据；

将所述第三数据的第a1行上的相邻列的数据按照字节进行差分，得到所述第二数据，所述1≤a1≤a2，所述a1和a2均为正整数，所述a2等于所述第一数据的最大行长度或所述a2等于所述第一数据的最小行长度；

所述按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量包括：

按照字节对所述第一组偏移量进行行列转换得到所述第三组偏移量；

将所述第三组偏移量的第b1行上的相邻列的数据按照字节进行差分，得到所述第二组偏移量，所述1≤b1≤b2，所述b1和b2均为正整数，所述b2等于所述第一组偏移量的最大行长度或所述b2等于所述第一组偏移量的最小行长度。
根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页；

其中，所述第三数据页包括基于行存储方式的第四数据和第四组偏移量，所述第四组偏移量用于指示所述第四数据的每行数据的偏移量，所述第一数据包括多个所述第三数据页对应的多个所述第四数据，且多个所述第四数据的最大行长度相同，第一组偏移量包括多个所述第三数据页对应的多个所述第四组偏移量。
根据权利要求6所述的方法，其特征在于，

所述将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页，包括：

分别获取与多个所述第三数据页对应的多个所述第四数据和多个所述第四组偏移量；

分别将多个所述第四数据按照目标顺序进行排列，得到所述第一数据；以及，分别将多个所述第四组偏移量按照所述目标顺序进行排列，得到所述第一组偏移量，所述目标顺序为多个所述第三数据页的排列顺序；

将所述第一数据和所述第一组偏移量分别存储至所述第一数据页。
根据权利要求6或7所述的方法，其特征在于，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。
根据权利要求1至8中任一项所述的方法，其特征在于，所述第二数据页包括用于指示所述第二数据页进行过所述预处理的信息。
根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

对所述压缩后的数据页进行解压缩，得到所述第二数据页；

根据所述第二数据页，得到所述第一数据页，所述第一数据是对第二数据进行所述预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。
根据权利要求10所述的方法，其特征在于，所述根据所述第二数据页，得到所述第一数据页，包括：

从所述第二数据页中分别获取所述第二数据和所述第二组偏移量；

按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量；

根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据；

根据所述第一数据和所述第一组偏移量，得到所述第一数据页。
根据权利要求11所述的方法，其特征在于，所述第二数据页包括第二行数据部和第二目录部，所述第二行数据部用于存储所述第二数据，所述第二目录部用于存储所述第二组偏移量；

所述根据所述第一数据和所述第一组偏移量，得到所述第一数据页，包括：

将所述第二行数据部中存储的所述第二数据更新为所述第一数据，并将所述第二目录部中存储的所述第二组偏移量更新为第一组偏移量，得到所述第一数据页。
根据权利要求11或12所述的方法，其特征在于，所述预处理还包括基于字节级的累加处理，所述累加处理包括列数据之间进行累加。
根据权利要求13所述的方法，其特征在于，

所述按照字节对所述第二组偏移量进行所述预处理得到所述第一组偏移量，包括：

将所述第二组偏移量的第c1行上的相邻列的数据按照字节进行累加，得到第三组偏移量，所述1≤c1≤c2，所述c1和c2均为正整数，所述c2等于所述第二组偏移量的最大行长度或所述c2等于所述第二组偏移量的最小行长度；

按照字节对所述第三组偏移量进行行列转换，得到所述第一组偏移量；

所述根据所述第一组偏移量，按照字节对所述第二数据进行所述预处理得到所述第一数据，包括：

将所述第二数据的第d1行上的相邻列的数据进行按照字节累加，得到第三数据，所述1≤d1≤d2，所述d1和d2均为正整数，所述d2等于所述第二数据的最大行长度或所述d2等于所述第二数据的最小行长度；

根据所述第一组偏移量，按照字节对所述第三数据进行行列转换得到所述第一数据。
根据权利要求1至14中任一项所述的方法，其特征在于，所述方法还包括：

将所述第一数据页进行拆分，得到所述多个第三数据页。
根据权利要求15所述的方法，其特征在于，

所述将所述第一数据页进行拆分，得到所述多个第三数据页，包括：

获取多个所述第三数据页的第四数据的起始点和结束点，以及第四组偏移量的起始点和结束点；

根据多个所述第四数据的起始点和结束点，从所述第一数据页中得到多个所述第四数据；以及，根据多个所述第四组偏移量的起始点和结束点，从所述第一数据页中得到多个所述第四组偏移量；

分别将多个所述第四数据和多个所述第四组偏移量分别存储至多个所述第三数据页。
根据权利要求15或16所述的方法，其特征在于，所述第一数据页包括用于指示所述第一数据页进行过重组的信息。
一种数据页处理的装置，其特征在于，所述装置包括处理单元，所述处理单元用于：

根据第一数据页，得到第二数据页；

对所述第二数据页进行压缩，得到压缩后的数据页；

其中，所述第一数据页包括基于行存储方式的第一数据和第一组偏移量，所述第一组偏移量用于指示所述第一数据的每行数据的偏移量；

所述第二数据页包括基于行存储方式的第二数据和第二组偏移量，所述第二组偏移量用于指示所述第二数据的每行数据的偏移量，所述第二数据是对所述第一数据进行预处理后得到的数据，所述第二组偏移量是对所述第一组偏移量进行所述预处理后得到的组偏移量，所述预处理包括基于字节级的行列转换。
根据权利要求18所述的装置，其特征在于，所述处理单元还具体用于：

从所述第一数据页中分别获取所述第一数据和所述第一组偏移量；

按照字节对所述第一数据进行所述预处理得到所述第二数据；

按照字节对所述第一组偏移量进行所述预处理得到所述第二组偏移量；

根据所述第二数据和所述第二组偏移量，得到所述第二数据页。
根据权利要求18或19所述的装置，其特征在于，所述预处理还包括基于字节级的差分处理，所述差分处理包括列数据之间进行差分。
根据权利要求18至20中任一项所所述的装置，其特征在于，所述处理单元还用于：

将连续的且结构相同的多个第三数据页进行重组，得到所述第一数据页；

其中，所述第三数据页包括基于行存储方式的第四数据和第四组偏移量，所述第四组偏移量用于指示所述第四数据的每行数据的偏移量，所述第一数据包括多个所述第三数据页对应的多个所述第四数据，且多个所述第四数据的最大行长度相同，第一组偏移量包括多个所述第三数据页对应的多个所述第四组偏移量。
根据权利要求18至21中任一项所述的装置，其特征在于，所述处理单元还用于：

对所述压缩后的数据页进行解压缩，得到所述第二数据页；

根据所述第二数据页，得到所述第一数据页，所述第一数据是对第二数据进行所述预处理后得到的数据，所述第一组偏移量是对所述第二组偏移量进行所述预处理后得到的组偏移量。
根据权利要求18至22中任一项所述的装置，其特征在于，所述处理单元还用于：

将所述第一数据页进行拆分，得到所述多个第三数据页。
一种数据页处理的装置，其特征在于，所述装置包括：处理器和存储器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行权利要求1至17中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至17中任一项所述方法。
一种芯片系统，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片系统的装置执行如权利要求1至17中任一项所述的方法。