WO2011082616A1

WO2011082616A1 - 处理数据的方法和装置

Info

Publication number: WO2011082616A1
Application number: PCT/CN2010/079706
Authority: WO
Inventors: 付新刚; 贾学力; 李建军
Original assignee: 北京世纪高通科技有限公司
Priority date: 2010-01-11
Filing date: 2010-12-13
Publication date: 2011-07-14
Also published as: CN101814112B; CN101814112A

Description

处理数据的方法和装置

本申请要求于 2 01 0 年 1 月 1 1 日提交中国专利局、申请号为 201 01 003 388 1. 9、发明名称为 "处理数据的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及智能交通领域，尤其涉及一种处理数据的方法和装置。背景技术

动态交通信息 Λ良务是目前智能交通系统的核心研究方向之一。在动态交通信息服务技术中，需要采集大量的车速数据，通过对这些车速数据的分析处理，能够智能地引导人们的出行路线、提高道路的使用效率。

在实现本发明的过程中，发明人发现，大量的车速数据不仅存储、管理困难，而且使后续分析车速等工作操作复杂。发明内容

本发明的实施例提供一种处理数据的方法和装置，能够有效地压缩数据量。

为达到上述目的，本发明的实施例采用如下技术方案：

一种处理数据的方法，包括：

获取两个以上待处理的数据集合；

根据预先获取的所述两个以上待处理的数据集合之间的相似度，将所述两个以上待处理的数据集合划分为一个以上类别；

将所述一个以上类别中同一类别中的两个以上数据集合按照预先设置的合并规则进行合并。

一种处理数据的装置，包括：

第一获取单元，用于获取两个以上待处理的数据集合；

划分单元，用于根据预先获取的所述两个以上待处理的数据集合之间的相似度，将由所述第一获取单元获取的两个以上待处理的数据集合划分为一个以上类别；

合并单元，用于将由所述划分单元获取的一个以上类别中同一类别中的两个以上数据集合按照预先设置的合并规则进行合并。

本发明实施例提供的处理数据的方法和装置，通过获取待处理数据集合之间的相似度，根据所述相似度将待处理数据分类，并将同一类别中的数据集合合并，有效减少了数据集合的数量，使得对于数据的存储和管理比原来未经处理时更容易；由于数据量的减少，使得后续工作也变得更简单。本发明的实施例提供的处理数据的方法和装置，能够有效地压缩数据量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例提供的处理数据的方法流程图；

图 2为本发明另一实施例提供的处理数据的方法流程图；

图 3为本发明实施例提供的 H检验的方法流程图；

图 4为本发明实施例提供的样本容量的设置方法流程图；

图 5为本发明实施例提供的处理数据的装置的结构示意图一；

图 6为图 5所示的第一获取单元 501的结构示意图；

图 7为图 5所示的划分单元 502的结构示意图；

图 8为图 5所示的划分单元 502的另一个结构示意图；

图 9为图 6所示的第二划分单元 5014的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有阶段存在大量的车速数据，使得存储、管理困难，而且使后续分析车速等工作操作复杂的问题，本发明实施例提供一种处理数据的方法和装置。

如图 1所示，本发明实施例提供的处理数据的方法，包括：

步骤 101 , 获取两个以上待处理的数据集合；

在本实施例中，所述两个以上待处理的数据集合可以为从预先建立的历史数据库中提取的若干天的交通流数据，也可以是将某一天的交通流数据经过时间段的划分后 , 获得的若干个时间段的交通流数据。

步骤 102, 根据预先获取的所述两个以上待处理的数据集合之间的相似度，将所述两个以上待处理的数据集合划分为一个以上类别；

在本实施例中，获取两个数据集合之间的相似度采用的是 H检验法，它包括 F检验和 T检验，即检验两个集合之间的均方差和均值是否相等。 H检验通过，表明两个集合相似，可以归为一个类别；反之， H检验没通过，表明两个集合不相似，不属于一个类别。

步骤 103 ,将所述一个以上类别中同一类别中的两个以上数据集合按照预先设置的合并规则进行合并。

在本实施例中，将相似的若干天的交通流数据集合，通过求取平均值，合并为一天的交通流数据集合；或者，将一天中相似的若干个时间段交通流数据集合，通过求取平均值，合并为一个数据，用此数据来代表合并后的整个时间段的交通流。

本发明实施例提供的处理数据的方法，通过获取待处理数据集合之间的相似度，根据所述相似度将待处理数据分类，并将同一类别中的数据集合合并，有效减少了数据集合的数量，使得对于数据的存储和管理比原来未经处理时更容易；由于数据量的减少，使得后续工作也变得更简单。为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面通过具体的实施例，对本发明另一个实施例提供的处理数据的方法进行详细说明。

如图 2所示，本发明另一个实施例提供的处理数据的方法，包括：步骤 201 , 获取预先采集的两天以上交通流数据集合，此集合即为待处理的数据集合；

在本实施例中，将历史数据库中的交通流数据先按特征日进行划分，将具有相同特征的交通流数据合并成一天的交通流数据；再按每一天中的时间段进行划分，将几个时间段合并成一个数据。当然，也可以先进行时间段的划分，再进行特征日的划分；还可以将待处理的数据集合只进行特征日或时间段的划分，此处不再——贅述。其中，特征日的含义为在所分析的历史数据研究对象中重复发生的对交通流产生重要影响的因素，如节假日、星期、天气等。对于一条道路而言，若把"星期"作为特征日来划分，可分为七种：周一、周二、周三、周四、周五、周六、周日；若把"节假日"作为特征日来划分，可分为三种： "十一 "黄金周、一般节日、春节等长期连休；若把"天气"作为特征日来划分，可分为四种：晴天、阴雨天、暴雨天、大雪天。

在已建立的历史数据库中随机抽取 L条链路,共 M月的历史交通流数据。随机抽取原则为：保证链路均等地覆盖各等级链路、均等地覆盖不同的地理区域，并且链路长度大于 200 米；其次，考虑到计算的复杂度和可行性， L 通常取历史数据库中总链路数的 1%, 通常要大于 100条； M通常取 12个月。在计算条件允许的情况下，可以适当增大 L和 M的数值。在本实施例中，选用"星期"作为特征日，并且取 100条链路的 12个月的交通流数据作为待处理的数据集合。

步骤 202,计算所述两天以上交通流数据集合中具有相同指定特征的数据集合的相关系数，获取两个以上相关系数列；

在本实施例中，首先对一条链路的数据进行处理，相同指定特征为周几的相同性。例如，一条链路的 12个月中所有的周一、所有的周二等。要计算这 12个月中所有周一的数据集合两两集合之间的相关系数，例如，假设这 12 个月中周一有 8个集合，则要计算这 8个集合中每两个集合之间的相关系数，共获得 28个相关系数值，将这 28个相关系数值作为周一的相关系数列；同理，可以获得周二到周日的相关系数列。将这 7 个相关系数列组合到一起形成一个相关系数列表。具体地计算两个集合之间的相关系数的公式为：

其中，《为一个集合中数据的个数， X,和分别为一天内交通流数据，即一天内车速随时间变化的取值。通过此公式计算的相关系数列表如下表所示：表一：

步骤 203 , 将所述两个以上相关系数列中每两个相关系数列进行 H检验，获取第一检验结果；

在本实施例中，假设通过步骤 202所获得的相关系数列中的数据集合均符合正态分布，则可用 H检验来判断两个相关系数列之间的相似度。 H检验包括 F检验和 T检验。其中， F检验是为了判断两个相关系数列的均方差是否相同； T检验是为了判断两个相关系数列的均值是否相同。如图 3所示， H 检验的具体方法包括：

步骤 301 , 读取两个相关系数列；

步骤 302, 标准化所述相关系数列，将其转变为标准正态分布；

在本实施例中，为了表示方便，将步骤 202 中所得到的 A用 χ,.和来表示。 4叚设一个相关系数列为： X Ν{μ,σ , ，^，…^：^为的样本，即相关系数列其中的数据， ^为的均值， _σι ²为 X的方差；另一个相关系数列为 y Ν{μ₂,σ₂ ²), ^,3¾, .：^₂为_ 的样本， /₂为的均值， σ₂ ²为：的方差。并且 X和这两个样本相互独立。可用以下公式来标准化 X和 _y：

;_=Ji^〜 (l<i<n₂) 因为和 σ₂实际上是未知的，故需要用 S和 S₂来代替：

其中，和分别为和 ,^,…； ^的均值。

步骤 303 , 将标准化后的相关系数列进行 F检验；

构造 F检验的统计量：

设 Η： σ² =σ² ^ Η_λ： σ²≠ σ²

由于当 /。成立时， F=^ ~F(n_l -\,n₂ -\) 故 F检验的拒绝域为：

= {F < F_a(_ni—l,n₂—1)或者 F > ^ _α(η_ι-\,η₂-\)} , 当检验结果在此拒绝域中，表示两个集合的方差不等，不满足 F检验，直接输出检验结果，不需要进行 Τ检验了。在本实施例中，设置不满足 Η检验的输出结果为 "1", 满足 Η检验的输出结果为" 0", 所以当检验结果在上述拒绝域中时，输出结果 1。步骤 304, 当 F检验通过，进行 T检验;

构造 T检验的统计量：

x-y

T t n_x +n₂-2)

("「i)S +("₂-ι) 1 1

«₁ + «2 - 2 ^ηί ^Η2

设 ₀： /j = /₂ , H_l： μ_χ≠μ₂

则当 Η。成立时， Τ检验的拒绝域为：

当检验结果在此拒绝域中，表示两个集合的均值不等，不满足 T检验。在本实施例中，设置不满足 H检验的输出结果为" , 满足 H检验的输出结果为" 0"。所以当检验结果在上述拒绝域中时，输出检验结果 1

在本实施例中，对于表一中的相关系数列两两之间在《 = 0.05的显著水平下用上述步骤进行 H检验，检验结果用/ z,₇表示， h_h.的值为 0或 1, 并且， h. =h_;i。检验结果统计表如表二所示：

表二：

上表为一条链路的检验结果，将步骤 201 中所取出的 100条链路按照步骤 202至 203的方法进行 H检验，分别获得如表二所示的检验结果。由于对不同的链路而言，上述统计结果可能不同，故需要对所有的统计结果进行析，汇总成表三所示的结果：

只要满足 > 0.7 ,便可以认为 H检验结果为 0所占总检验数的百分比远大于 H检验结果为 1所占的百分比，即第列与第列是相似的。

步骤 204, 根据所述 H检验结果获取所述两天以上交通流数据集合之间的相似度；

由表二和表三可以清晰地看出哪两天的数据集合是相似的。例如，如果 α₂₃ > 0.7, 表明周二和周三的数据集合相似；如果 α₁₂≤0.7 , 表明周一和周二的数据集合不相似。

步骤 205 ,根据所述两天以上交通流数据集合之间的相似度，将所述两天以上交通流数据集合划分为一个以上类别；

在本实施例中，当两个数据集合相似时，可以归为一个类别。假设在表二中， α₁₅ > 0.7 , α₂₃ > 0.7 , α₃₄ > 0.7 , α_6Ί > 0.7 , 表明可以将七天的数据归为三个类别，分别是：周一和周五，周二、周三和周四，周六和周曰。

步骤 206,将所述一个以上类别中同一类别中的两天以上交通流数据集合按照预先设置的合并规则合并为一天的交通流数据；

在本实施例中，将几天的交通流数据合并为一天的数据的规则为取对应时刻的平均值。例如，将周二、周三和周四中午 12点的交通流数据合并的方法为：求取三天 12点数据的平均值。同理可计算出其它时刻的平均值。这些平均值构成合并后的交通流数据。

步骤 207 , 获取一天的交通流数据；

在本实施例中，所述一天的交通流数据为将原始交通流数据经过"星期" 合并后的交通流数据。当然，也可以直接从历史数据库中取出未经过特征日合并的数据集合，此处不再贅述。

步骤 208 ,将所述一天的交通流数据按照预先设置的样本容量划分为两个以上相等时间段数据集合；

在本实施例中，首先要设置一个时间长度来划分一天的交通流数据。这个时间长度里面包含的数据个数就是样本容量。如图 4所示，样本容量的具体设置方法包括：

步骤 401 , 获取所述样本容量的取值集合；

在本实施例中，采样间隔为 5分钟，因此一天的交通流数据为 288个。如果把每个采样时刻作为一个时间长度，则样本容量为 1 , 可以把一天的交通流数据划分为 288个连续时间段；如果样本容量为 2, 可以把一天的交通流数据划分为 287个连续时间段，依此类推。如果样本容量为 n,则可以把一天的交通流数据划分为 288- ( n-1 )个连续时间段。理论上，样本容量值可以取到 277 , 即把一天的交通流数据划分为 2个连续时间段。但实际上， n超过一天内总数据个数的一半时就没有意义了。由此可以获取样本容量的取值集合为 {n I l≤n≤N/2}，其中 N为一天内交通流数据的个数，本实施例中为 288 , n和 N 均取整数值。

步骤 402, 当所述样本容量取所述取值集合中的每一个样本容量值时，获取所述每一个样本容量值对应的时间段数据集合之间的相似度；

在本实施例中，η从 1开始取值到 144。例如，当 η=1时， 7 ={ } , Τ₂={ χ₂ } , T₃ ={ x₃ } , …… Γ₂₈₈ ={ χ₂₈₈ } ；当 η=2 时，

={ x x₂ } , T₂={ x₂,x₃ j , Γ₂₈₇ ={ χ₂₈₇,χ₂₈₈ } ; 7的一般表达式如下： Ά = {^Xi,^Xi+\, · · · ^Xi+n-l } ^i+l ⁼ i^Xi+l,^Xi+2, · · · ^Xi+n )

其中， \≤i≤N_n。对 7和 η₊₁进行 H检验，并记录检验结果/^ 当从 1 变动到时 H检验结束，即为所述每一个样本容量值对应的相等时间段数据集合之间的相似度。

步骤 403,根据所述相似度获取所述每一个样本容量值对应的时间段数据集合之间相似个数集合；

在本实施例中，统计 n取每一个值时，对应的的值，并统计出所有结果中 .₊₁)=0的个数。例如，当 n=l时， ^₊₁)=0的个数为当 n=2 时， +ι) = 0的个数为；当 n=144时， = 0的个数为 S₁₄₄。所有的个数组成集合{ ，... ₄}。步骤 404,将所述相似个数集合中的最大数值对应的样本容量值设置为样本容量。

在本实施例中，取集合 { s_xs₂ ---s_U } 中的最大值，记为 ^max = max {s_x,s₂,--- s_U4 } , 将 S_max作为样本容量。

需要说明的是，也可以根据样本容量尽量少的原则来获取样本容量。通常随着 n从 1变动到 N/2, s都会先逐渐增大再逐渐减小，再往后也可能会出现增大的可能，但最终都会减小。因此，可选取出现第一次转折点对应的样本容量，此时样本容量都较小，一般为 3或 4。

步骤 209,将所述两个以上相等时间段数据集合中每相邻两个时间段数据集合进行 H检验，获取第二检验结果；

在本实施例中，假设由步骤 208 所述的方法获取的样本容量为 3, 则

η 的一般表达式为： 1； =( ， ₁，... x_i+n__x) , Y_b =(x_i+n,x_i+n+l,--- x_i+2n^) ， i^\ + nj, 0< j≤([N/n]_+∞-2) , 其中 [']_+∞表示正无穷方向取整。随着 i的变动，对每对 1；和!做 H检验，获得检验结果。

步骤 210,根据所述第二检验结果获取所述两个以上相等时间段数据集合之间的相似度；

在本实施例中，当 ¾ =0时，表明两个时间段的数据集合是相似的；反之，当 . =1时，两个时间段的数据集合不相似。

步骤 211 , 根据所述两个以上相等时间段数据集合之间的相似度，将所述两个以上相等时间段数据集合划分为一个以上类别；

在本实施例中，当两个数据集合相似时，可以归为一个类别。需要说明的是，所述数据集合为在时间上连续的数据集合。

步骤 212,将所述一个以上类别中同一类别中的两个以上相等时间段数据集合按照预先设置的合并规则合并为一个数据。

在本实施例中，将几个时间段的数据集合合并为一个数据的规则为取这几个时间段中所有数据的平均值。例如， 0: 00到 6: 00的交通流数据合并方法为：求取 0: 00到 6: 00之间所有数据的平均值。其它时间段的合并方法相同，不再贅述。

本发明实施例提供的处理数据的方法，通过获取待处理数据集合之间的相似度，根据所述相似度将待处理数据分类，并将同一类别中的数据集合合并，有效减少了数据集合的数量，使得对于数据的存储和管理比原来未经处理时更容易；由于数据量的减少，使得后续工作也变得更简单。

如图 5所示，本发明实施例还提供一种处理数据的装置，包括：第一获取单元 501 , 用于获取两个以上待处理的数据集合；

划分单元 502,用于根据预先获取的所述两个以上待处理的数据集合之间的相似度，将由所述第一获取单元 501 获取的两个以上待处理的数据集合划分为一个以上类别；

合并单元 503 ,用于将由所述划分单元 502获取的一个以上类别中同一类别中的两个以上数据集合按照预先设置的合并规则进行合并。进一步地，如图 6所示，所述第一获取单元 501包括：

第一获取子单元 5011 , 用于获取预先采集的两天以上交通流数据集合；第一设置单元 5012,用于将由所述第一获取子单元 5011获取的两天以上交通流数据集合设置为所述两个以上待处理的数据集合；或者，

第二获取子单元 5013 , 用于获取预先采集的一天交通流数据；第二划分单元 5014,用于将由所述第二获取子单元 5013获取的一天交通流数据按照预先设置的样本容量划分为两个以上相等时间段数据集合；第二设置单元 5015 , 用于将由所述第二划分单元 5014划分的两个以上相等时间段数据集合设置为所述两个以上待处理的数据集合。

进一步地，如图 7 所示，当所述两个以上待处理的数据集合为所述两天以上交通流数据集合时，所述划分单元 502包括：

第一计算单元 5021 ,用于计算由所述第一获取子单元 5011获取的两天以上交通流数据集合中具有相同指定特征的数据集合的相关系数，获取两个以上相关系数列；

第一检验单元 5022,用于将由所述第一计算单元 5021计算的两个以上相关系数列中每两个相关系数列进行 H检验，获取第一检验结果；

第二获取单元 5023 ,用于根据由所述第一检验单元 5022获取的第一检验结果获取所述两天以上交通流数据集合之间的相似度。

进一步地，如图 8 所示，当所述两个以上待处理的数据集合为所述两个以上相等时间段数据集合时，所述划分单元 502包括：

第二检验单元 5024,用于将由所述第二获取子单元 5013获取的两个以上相等时间段数据集合中每相邻两个时间段数据集合进行 H检验，获取第二检验结果；

第三获取单元 5025,用于根据由所述第二检验单元 5024获取的第二检验结果获取所述两个以上相等时间段数据集合之间的相似度。

进一步地，如图 9所示，所述第二划分单元 5014包括：第四获取单元 601 , 用于获取所述样本容量的取值集合；

第二计算单元 602,用于当所述样本容量取所述取值集合中的每一个样本容量值时，计算所述每一个样本容量值对应的相等时间段数据集合之间的相似度；

第五获取单元 603 ,用于根据由所述第二计算单元 602计算的相似度获取所述每一个样本容量值对应的相等时间段数据集合之间相似个数集合；

第三设置单元 604,用于将由所述第五获取单元 603获取的相似个数集合中的最大数值对应的样本容量值设置为样本容量。

以上装置的具体实现方法可以参见如图 2至图 4所示的步骤 201〜212所述，此处不再赘述„

本发明实施例提供的处理数据的装置，通过获取待处理数据集合之间的相似度，根据所述相似度将待处理数据分类，并将同一类别中的数据集合合并，有效减少了数据集合的数量，使得对于数据的存储和管理比原来未经处理时更容易；由于数据量的减少，使得后续工作也变得更简单。

本发明提供的技术方案可以应用在对大量数据进行压缩的技术领域中。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一计算机可读存储介质中，如 ROM/RAM、磁碟或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求书

1、一种处理数据的方法，其特征在于，包括：

获取两个以上待处理的数据集合；

2、根据权利要求 1所述的处理数据的方法，其特征在于，所述获取两个以上待处理的数据集合包括：

获取预先采集的两天以上交通流数据集合；将所述两天以上交通流数据集合设置为所述两个以上待处理的数据集合；或者，

获取预先采集的一天交通流数据；将所述一天交通流数据按照预先设置的样本容量划分为两个以上相等时间段数据集合；将所述两个以上相等时间段数据集合设置为所述两个以上待处理的数据集合。

3、根据权利要求 2所述的处理数据的方法，其特征在于，当所述两个以上待处理的数据集合为所述两天以上交通流数据集合时，所述获取所述两个以上待处理的数据集合之间的相似度的步骤包括：

计算所述两天以上交通流数据集合中具有相同指定特征的数据集合的相关系数，获取两个以上相关系数列；

将所述两个以上相关系数列中每两个相关系数列进行 H检验，获取第一检验结果；

根据所述第一检验结果获取所述两天以上交通流数据集合之间的相似度。

4、根据权利要求 2所述的处理数据的方法，其特征在于，当所述两个以上待处理的数据集合为所述两个以上相等时间段数据集合时，所述获取所述两个以上待处理的数据集合之间的相似度的步骤包括：

将所述两个以上相等时间段数据集合中每相邻两个时间段数据集合进行 H 检验，获取第二检验结果；

根据所述第二检验结果获取所述两个以上相等时间段数据集合之间的相似度。

5、根据权利要求 2所述的处理数据的方法，其特征在于，所述样本容量的设置步骤包括：

获取所述样本容量的取值集合；

当所述样本容量取所述取值集合中的每一个样本容量值时，获取所述每一个样本容量值对应的时间段数据集合之间的相似度；

根据所述相似度获取所述每一个样本容量值对应的时间段数据集合之间相似个数集合；

将所述相似个数集合中的最大数值对应的样本容量值设置为样本容量。

6、一种处理数据的装置，其特征在于，包括：

第一获取单元，用于获取两个以上待处理的数据集合；

7、根据权利要求 6所述的处理数据的装置，其特征在于，所述第一获取单元包括：

第一获取子单元，用于获取预先采集的两天以上交通流数据集合；第一设置单元，用于将由所述第一获取子单元获取的两天以上交通流数据集合设置为所述两个以上待处理的数据集合；或者，

第二获取子单元，用于获取预先采集的一天交通流数据；第二划分单元，用于将由所述第二获取子单元获取的一天交通流数据按照预先设置的样本容量划分为两个以上相等时间段数据集合；第二设置单元，用于将由所述第二划分单元划分的两个以上相等时间段数据集合设置为所述两个以上待处理的数据集合。

8、根据权利要求 7所述的处理数据的装置，其特征在于，当所述两个以上待处理的数据集合为所述两天以上交通流数据集合时，所述划分单元包括：第一计算单元，用于计算由所述第一获取子单元获取的两天以上交通流数据集合中具有相同指定特征的数据集合的相关系数，获取两个以上相关系数列；第一检验单元，用于将由所述第一计算单元计算的两个以上相关系数列中每两个相关系数列进行 H检验，获取第一检验结果；

第二获取单元，用于根据由所述第一检验单元获取的第一检验结果获取所述两天以上交通流数据集合之间的相似度。

9、根据权利要求 7所述的处理数据的装置，其特征在于，当所述两个以上待处理的数据集合为所述两个以上相等时间段数据集合时，所述划分单元包括：第二检验单元，用于将由所述第二获取子单元获取的两个以上相等时间段数据集合中每相邻两个时间段数据集合进行 H检验，获取第二检验结果；

第三获取单元，用于根据由所述第二检验单元获取的第二检验结果获取所述两个以上相等时间段数据集合之间的相似度。

10、根据权利要求 7 所述的处理数据的装置，其特征在于，所述第二划分单元包括：

第四获取单元，用于获取所述样本容量的取值集合；

第二计算单元，用于当所述样本容量取所述取值集合中的每一个样本容量值时，计算所述每一个样本容量值对应的相等时间段数据集合之间的相似度；第五获取单元，用于根据由所述第二计算单元计算的相似度获取所述每一个样本容量值对应的相等时间段数据集合之间相似个数集合；

第三设置单元，用于将由所述第五获取单元获取的相似个数集合中的最大数值对应的样本容量值设置为样本容量。