WO2011082616A1 - 处理数据的方法和装置 - Google Patents

处理数据的方法和装置 Download PDF

Info

Publication number
WO2011082616A1
WO2011082616A1 PCT/CN2010/079706 CN2010079706W WO2011082616A1 WO 2011082616 A1 WO2011082616 A1 WO 2011082616A1 CN 2010079706 W CN2010079706 W CN 2010079706W WO 2011082616 A1 WO2011082616 A1 WO 2011082616A1
Authority
WO
WIPO (PCT)
Prior art keywords
data sets
data
unit
processed
traffic flow
Prior art date
Application number
PCT/CN2010/079706
Other languages
English (en)
French (fr)
Inventor
付新刚
贾学力
李建军
Original Assignee
北京世纪高通科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京世纪高通科技有限公司 filed Critical 北京世纪高通科技有限公司
Publication of WO2011082616A1 publication Critical patent/WO2011082616A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Definitions

  • the present invention relates to the field of intelligent transportation, and in particular, to a method and apparatus for processing data. Background technique
  • Dynamic Traffic Information ⁇ ⁇ is one of the core research directions of the current intelligent transportation system.
  • a large amount of vehicle speed data needs to be collected, and by analyzing and processing these vehicle speed data, it is possible to intelligently guide people's travel routes and improve road use efficiency.
  • Embodiments of the present invention provide a method and apparatus for processing data that is capable of efficiently compressing data.
  • a method of processing data including:
  • Two or more data sets in the same category in the one or more categories are merged according to a preset merge rule.
  • a device for processing data comprising:
  • a first acquiring unit configured to acquire two or more data sets to be processed
  • a dividing unit configured to divide the two or more data sets to be processed acquired by the first acquiring unit into one according to the similarity between the two or more data sets to be processed acquired in advance More than one category;
  • a merging unit configured to merge two or more data sets in the same category in one or more categories acquired by the dividing unit according to a preset merging rule.
  • the method and device for processing data provided by the embodiment of the present invention by acquiring similarity between data sets to be processed, classifying data to be processed according to the similarity, and combining data sets in the same category, effectively reducing data
  • the number of collections makes it easier to store and manage data than it was originally unprocessed; as the amount of data is reduced, subsequent work becomes easier.
  • the method and apparatus for processing data provided by the embodiments of the present invention are capable of efficiently compressing the amount of data.
  • FIG. 1 is a flowchart of a method for processing data according to an embodiment of the present invention
  • FIG. 2 is a flowchart of a method for processing data according to another embodiment of the present invention.
  • FIG. 3 is a flowchart of a method for checking an H test according to an embodiment of the present invention.
  • FIG. 4 is a flowchart of a method for setting a sample capacity according to an embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram 1 of an apparatus for processing data according to an embodiment of the present disclosure
  • FIG. 6 is a schematic structural diagram of the first acquiring unit 501 shown in FIG. 5;
  • FIG. 7 is a schematic structural diagram of the dividing unit 502 shown in FIG. 5;
  • FIG. 8 is another schematic structural view of the dividing unit 502 shown in FIG. 5;
  • FIG. 9 is a schematic structural view of the second dividing unit 5014 shown in FIG. 6.
  • the embodiment of the present invention provides a method and device for processing data.
  • a method for processing data includes:
  • Step 101 Obtain two or more data sets to be processed
  • the two or more data sets to be processed may be traffic flow data of several days extracted from a pre-established historical database, or may be after dividing a traffic flow data of a certain day by a time period. , obtained traffic flow data for several time periods.
  • Step 102 Divide the two or more data sets to be processed into one or more categories according to the similarity between the two or more data sets to be processed acquired in advance;
  • the similarity between the two data sets is obtained by the H test method, which includes the F test and the T test, that is, whether the mean square error and the mean value between the two sets are equal.
  • the H test passes, indicating that the two sets are similar and can be classified into one category; otherwise, the H test fails, indicating that the two sets are not similar and do not belong to one category.
  • Step 103 Combine two or more data sets in the same category in the one or more categories according to a pre-set merge rule.
  • a similar number of days of traffic flow data sets are combined into one day's traffic flow data set by averaging; or, a plurality of time-phase traffic flow data sets of the same day are collected.
  • the averages are combined into one data, which is used to represent the traffic flow over the entire time period after the merger.
  • the method for processing data according to the embodiment of the present invention by acquiring the similarity between the data sets to be processed, classifying the data to be processed according to the similarity, and merging the data sets in the same category, thereby effectively reducing the data set.
  • the quantity makes it easier to store and manage data than it was originally unprocessed; as the amount of data is reduced, subsequent work becomes easier.
  • a method for processing data includes: Step 201: Acquire a pre-acquired traffic stream data set of two days or more, and the set is a data set to be processed;
  • the traffic flow data in the historical database is first divided according to the feature date, and the traffic flow data having the same feature is merged into one-day traffic flow data; and then divided according to the time period in each day, The time periods are combined into one data.
  • the time segment can be divided first, and then the feature day can be divided.
  • the data set to be processed can only be divided into feature days or time segments, which is not repeated here.
  • the characteristic day means the factors that have a significant impact on the traffic flow, such as holidays, weeks, weather, etc., which are repeated in the analyzed historical data research objects.
  • week For a road, if "week” is divided into characteristic days, it can be divided into seven types: Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, Sunday; if "holiday” is used as a feature day
  • the division can be divided into three types: “11” Golden Week, general festival, Spring Festival and other long-term breaks; if "weather” is divided into characteristic days, it can be divided into four types: sunny, rainy, rainy, heavy snow day.
  • L links are randomly selected in the established historical database for a total of M month historical traffic flow data.
  • the principle of random extraction is as follows: Ensure that the link covers all levels of links equally, covering different geographical areas equally, and the link length is greater than 200 meters.
  • L is usually taken from the historical database. 1% of the total number of links, usually greater than 100; M usually takes 12 months. The values of L and M can be appropriately increased if the calculation conditions permit.
  • "week" is selected as the feature day, and 12 months of traffic flow data of 100 links is taken as the data set to be processed.
  • Step 202 Calculate a correlation coefficient of a data set having the same specified feature in the traffic flow data set of the two or more days, and obtain two or more correlation coefficient columns;
  • the data of one link is first processed, and the same designated feature is the day of the week. The sameness. For example, all the Mondays, all Tuesdays, etc. of a link in 12 months.
  • To calculate the correlation coefficient between the two sets of data sets for all Mondays in the 12 months for example, assuming that there are 8 sets in the middle of the 12 months, calculate between each of the 8 sets. Correlation coefficient, a total of 28 correlation coefficient values were obtained, and the 28 correlation coefficient values were listed as the correlation coefficient on Monday. Similarly, the correlation coefficient column from Tuesday to Sunday can be obtained. These 7 correlation coefficient columns are combined to form a correlation coefficient list.
  • the formula for specifically calculating the correlation coefficient between two sets is:
  • Step 203 Perform an H test on each of the two correlation coefficient columns of the two or more correlation coefficient columns to obtain a first test result
  • the H-test can be used to determine the similarity between the two correlation coefficient columns.
  • the H test includes the F test and the T test. Among them, the F test is to determine whether the mean square error of the two correlation coefficient columns is the same; the T test is to determine whether the mean values of the two correlation coefficient columns are the same.
  • the specific methods of the H test include:
  • Step 301 reading two correlation coefficient columns
  • Step 302 Standardize the correlation coefficient column, and convert it into a standard normal distribution
  • the A obtained in step 202 is used for ⁇ , .
  • Show. 4 Let a correlation coefficient be listed as: X ⁇ ⁇ , ⁇ , , ⁇ , ... ⁇ : ⁇ for the sample, that is, the data in the correlation coefficient column, ⁇ is the mean, ⁇ 2 is the variance of X; The coefficients are listed as y ⁇ 2 , ⁇ 2 2 ), ⁇ , 33 ⁇ 4, .: ⁇ 2 are samples of _, / 2 is the mean, and ⁇ 2 2 is the variance of: . And X and the two samples are independent of each other. The following formulas can be used to normalize X and _y:
  • Step 303 performing a F test on the normalized correlation coefficient column
  • Step 304 when the F test passes, perform a T test;
  • test result When the test result is in this rejected domain, it means that the mean of the two sets is not equal, and the T test is not satisfied.
  • the output result that does not satisfy the H test is ", and the output of the H test is "0.” Therefore, when the test result is in the above-mentioned rejection domain, the test result is output.
  • Table 2 The statistical results of the test results are shown in Table 2:
  • the above table is the test result of a link.
  • the 100 links taken in step 201 are subjected to the H test according to the methods of steps 202 to 203, and the test results as shown in Table 2 are respectively obtained. Due to For different links, the above statistics may be different. Therefore, all the statistical results need to be analyzed and summarized into the results shown in Table 3:
  • the percentage of the total test number of the H test is 0 is far greater than the percentage of the H test result of 1, that is, the column is similar to the first column.
  • Step 204 Acquire, according to the H test result, a similarity between the traffic flow data sets of the two days or more;
  • Step 205 Divide the two-day traffic flow data set into one or more categories according to the similarity between the two-day traffic flow data sets;
  • Step 206 Combine two or more traffic flow data sets in the same category in the one or more categories into one-day traffic flow data according to a preset merge rule;
  • the rule of combining the traffic flow data of several days into the data of one day is the average value of the corresponding time.
  • the method of combining traffic flow data at 12 noon on Tuesday, Wednesday, and Thursday is: Find the average of the 12-day data for three days.
  • the average value at other times can be calculated. These ones The average constitutes the combined traffic flow data.
  • Step 207 Obtain traffic flow data of one day
  • the traffic flow data of the day is the traffic flow data after the original traffic flow data is merged by "week".
  • the data collection that has not been merged by the feature date can also be directly taken out from the history database, and will not be described here.
  • Step 208 The traffic flow data of the day is divided into two equal time period data sets according to a preset sample capacity.
  • a time length is first set to divide the traffic flow data for one day.
  • the number of data contained in this length of time is the sample size.
  • the specific method of setting the sample capacity includes:
  • Step 401 Obtain a value set of the sample capacity.
  • the sampling interval is 5 minutes, so the traffic flow data for one day is 288. If each sampling time is taken as a time length, the sample capacity is 1, and the traffic flow data of one day can be divided into 288 consecutive time segments; if the sample capacity is 2, the traffic flow data of one day can be divided into 287 consecutive Time period, and so on. If the sample size is n, the traffic flow data for one day can be divided into 288- (n-1) consecutive time segments. In theory, the sample capacity value can be taken as 277, that is, the traffic flow data of one day is divided into two consecutive time segments. But in fact, n is meaningless when it is more than half of the total number of data in a day. Therefore, the value set of the sample capacity can be obtained as ⁇ n I l ⁇ n ⁇ N/2 ⁇ , where N is the number of traffic flow data in one day, and in this embodiment, 288, n and N take integer values.
  • Step 402 When the sample capacity takes each sample capacity value in the set of values, obtain a similarity between the time segment data sets corresponding to each sample capacity value;
  • takes a value from 1 to 144.
  • Step 403 Acquire, according to the similarity, a similar set of numbers between the time period data sets corresponding to each sample capacity value;
  • Step 404 Set a sample capacity value corresponding to the largest value in the similar number set to a sample capacity.
  • sample size can also be obtained according to the principle that the sample size is as small as possible. Usually, as n changes from 1 to N/2, s will gradually increase and then gradually decrease, and then there may be an increase in the likelihood, but eventually it will decrease. Therefore, you can select the sample capacity corresponding to the first turning point, and the sample size is small, usually 3 or 4.
  • Step 209 Perform an H test on each of the two adjacent time period data sets in the two or more equal time period data sets to obtain a second test result.
  • ['] + ⁇ indicates that the infinite direction is rounded.
  • Step 210 Acquire a similarity between the two or more equal time period data sets according to the second test result
  • Step 211 Divide the two or more equal time period data sets into one or more categories according to the similarity between the two or more equal time period data sets;
  • the data set is a data set that is continuous in time.
  • Step 212 Combine two or more equal time period data sets in the same category in the one or more categories into one data according to a preset merge rule.
  • the rule of combining data sets of several time periods into one data is to take the average of all the data in these time periods.
  • the traffic flow data merging method from 0: 00 to 6: 00 is: Find the average of all data between 0: 00 and 6: 00.
  • the merge methods of other time periods are the same and will not be described again.
  • the method for processing data according to the embodiment of the present invention by acquiring the similarity between the data sets to be processed, classifying the data to be processed according to the similarity, and merging the data sets in the same category, thereby effectively reducing the data set.
  • the quantity makes it easier to store and manage data than it was originally unprocessed; as the amount of data is reduced, subsequent work becomes easier.
  • an embodiment of the present invention further provides an apparatus for processing data, including: a first acquiring unit 501, configured to acquire two or more data sets to be processed;
  • the dividing unit 502 is configured to divide the two or more data sets to be processed acquired by the first acquiring unit 501 into one or more categories according to the similarity between the two or more data sets to be processed acquired in advance;
  • the merging unit 503 is configured to combine two or more data sets in the same category among the one or more categories acquired by the dividing unit 502 according to a preset merging rule. Further, as shown in FIG. 6, the first acquiring unit 501 includes:
  • the first obtaining sub-unit 5011 is configured to acquire the pre-acquired traffic stream data set for more than two days.
  • the first setting unit 5012 is configured to set the traffic flow data set acquired by the first acquiring sub-unit 5011 to be more than two days. Describe two or more data sets to be processed; or,
  • the second acquisition sub-unit 5013 is configured to acquire the pre-acquired one-day traffic flow data.
  • the second dividing unit 5014 is configured to divide the one-day traffic flow data acquired by the second acquisition sub-unit 5013 into two according to a preset sample capacity. And a plurality of equal time period data sets; the second setting unit 5015 is configured to set the two or more equal time period data sets divided by the second dividing unit 5014 as the two or more data sets to be processed.
  • the dividing unit 502 includes:
  • a first calculating unit 5021 configured to calculate a correlation coefficient of a data set having the same specified feature in the traffic flow data set obtained by the first acquiring subunit 5011, and obtain two or more correlation coefficient columns;
  • a first checking unit 5022 configured to perform an H test on each of two or more correlation coefficient columns calculated by the first calculating unit 5021 to obtain a first test result
  • the second obtaining unit 5023 is configured to acquire the similarity between the two-day traffic flow data sets according to the first verification result acquired by the first verification unit 5022.
  • the dividing unit 502 when the two or more data sets to be processed are the two or more equal time period data sets, the dividing unit 502 includes:
  • the second checking unit 5024 is configured to perform an H test on each adjacent two time period data sets in the two or more equal time period data sets acquired by the second obtaining subunit 5013, to obtain a second test result;
  • the third obtaining unit 5025 is configured to acquire the similarity between the two or more equal time period data sets according to the second check result acquired by the second checking unit 5024.
  • the second dividing unit 5014 includes:
  • the fourth obtaining unit 601 is configured to obtain a value set of the sample capacity.
  • the second calculating unit 602 is configured to calculate a similarity between the equal time period data sets corresponding to each of the sample capacity values when the sample capacity takes each sample capacity value in the set of values;
  • the fifth obtaining unit 603 is configured to obtain, according to the similarity calculated by the second calculating unit 602, a similar number set between the equal time period data sets corresponding to each sample capacity value;
  • the third setting unit 604 is configured to set a sample capacity value corresponding to the largest value in the similar number set acquired by the fifth obtaining unit 603 as the sample capacity.
  • the device for processing data by acquiring the similarity between the data sets to be processed, classifying the data to be processed according to the similarity, and combining the data sets in the same category, effectively reducing the data set.
  • the quantity makes it easier to store and manage data than it was originally unprocessed; as the amount of data is reduced, subsequent work becomes easier.
  • the technical solution provided by the present invention can be applied to the technical field of compressing a large amount of data.
  • a person skilled in the art can understand that all or part of the steps of implementing the above embodiments can be completed by a program to instruct related hardware, and the program can be stored in a computer readable storage medium, such as ROM/RAM, magnetic. Disc or CD.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)

Description

处理数据的方法和装置
本申请要求于 2 01 0 年 1 月 1 1 日提交中国专利局、 申请号为 201 01 003 388 1. 9、 发明名称为 "处理数据的方法和装置" 的中国专利申 请的优先权, 其全部内容通过引用结合在本申请中。
技术领域
本发明涉及智能交通领域, 尤其涉及一种处理数据的方法和装置。 背景技术
动态交通信息 Λ良务是目前智能交通系统的核心研究方向之一。 在动态交 通信息服务技术中, 需要采集大量的车速数据, 通过对这些车速数据的分析 处理, 能够智能地引导人们的出行路线、 提高道路的使用效率。
在实现本发明的过程中, 发明人发现, 大量的车速数据不仅存储、 管理 困难, 而且使后续分析车速等工作操作复杂。 发明内容
本发明的实施例提供一种处理数据的方法和装置, 能够有效地压缩数据 量。
为达到上述目的, 本发明的实施例采用如下技术方案:
一种处理数据的方法, 包括:
获取两个以上待处理的数据集合;
根据预先获取的所述两个以上待处理的数据集合之间的相似度, 将所述 两个以上待处理的数据集合划分为一个以上类别;
将所述一个以上类别中同一类别中的两个以上数据集合按照预先设置的 合并规则进行合并。
一种处理数据的装置, 包括:
第一获取单元, 用于获取两个以上待处理的数据集合;
划分单元, 用于根据预先获取的所述两个以上待处理的数据集合之间的 相似度, 将由所述第一获取单元获取的两个以上待处理的数据集合划分为一 个以上类别;
合并单元, 用于将由所述划分单元获取的一个以上类别中同一类别中的 两个以上数据集合按照预先设置的合并规则进行合并。
本发明实施例提供的处理数据的方法和装置, 通过获取待处理数据集合 之间的相似度, 根据所述相似度将待处理数据分类, 并将同一类别中的数据 集合合并, 有效减少了数据集合的数量, 使得对于数据的存储和管理比原来 未经处理时更容易; 由于数据量的减少, 使得后续工作也变得更简单。 本发 明的实施例提供的处理数据的方法和装置, 能够有效地压缩数据量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面 描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不 付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明实施例提供的处理数据的方法流程图;
图 2为本发明另一实施例提供的处理数据的方法流程图;
图 3为本发明实施例提供的 H检验的方法流程图;
图 4为本发明实施例提供的样本容量的设置方法流程图;
图 5为本发明实施例提供的处理数据的装置的结构示意图一;
图 6为图 5所示的第一获取单元 501的结构示意图;
图 7为图 5所示的划分单元 502的结构示意图;
图 8为图 5所示的划分单元 502的另一个结构示意图;
图 9为图 6所示的第二划分单元 5014的结构示意图。
具体实施方式
为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。
为了解决现有阶段存在大量的车速数据, 使得存储、 管理困难, 而且使 后续分析车速等工作操作复杂的问题, 本发明实施例提供一种处理数据的方 法和装置。
如图 1所示, 本发明实施例提供的处理数据的方法, 包括:
步骤 101 , 获取两个以上待处理的数据集合;
在本实施例中, 所述两个以上待处理的数据集合可以为从预先建立的历 史数据库中提取的若干天的交通流数据, 也可以是将某一天的交通流数据经 过时间段的划分后 , 获得的若干个时间段的交通流数据。
步骤 102, 根据预先获取的所述两个以上待处理的数据集合之间的相似 度, 将所述两个以上待处理的数据集合划分为一个以上类别;
在本实施例中, 获取两个数据集合之间的相似度采用的是 H检验法, 它 包括 F检验和 T检验, 即检验两个集合之间的均方差和均值是否相等。 H检 验通过, 表明两个集合相似, 可以归为一个类别; 反之, H检验没通过, 表 明两个集合不相似, 不属于一个类别。
步骤 103 ,将所述一个以上类别中同一类别中的两个以上数据集合按照预 先设置的合并规则进行合并。
在本实施例中, 将相似的若干天的交通流数据集合, 通过求取平均值, 合并为一天的交通流数据集合; 或者, 将一天中相似的若干个时间段交通流 数据集合, 通过求取平均值, 合并为一个数据, 用此数据来代表合并后的整 个时间段的交通流。
本发明实施例提供的处理数据的方法, 通过获取待处理数据集合之间的 相似度, 根据所述相似度将待处理数据分类, 并将同一类别中的数据集合合 并, 有效减少了数据集合的数量, 使得对于数据的存储和管理比原来未经处 理时更容易; 由于数据量的减少, 使得后续工作也变得更简单。 为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方 案, 下面通过具体的实施例, 对本发明另一个实施例提供的处理数据的方法 进行详细说明。
如图 2所示, 本发明另一个实施例提供的处理数据的方法, 包括: 步骤 201 , 获取预先采集的两天以上交通流数据集合, 此集合即为待处理 的数据集合;
在本实施例中, 将历史数据库中的交通流数据先按特征日进行划分, 将 具有相同特征的交通流数据合并成一天的交通流数据; 再按每一天中的时间 段进行划分, 将几个时间段合并成一个数据。 当然, 也可以先进行时间段的 划分, 再进行特征日的划分; 还可以将待处理的数据集合只进行特征日或时 间段的划分, 此处不再——贅述。 其中, 特征日的含义为在所分析的历史数 据研究对象中重复发生的对交通流产生重要影响的因素, 如节假日、 星期、 天气等。 对于一条道路而言, 若把"星期"作为特征日来划分, 可分为七种: 周 一、周二、 周三、 周四、 周五、 周六、 周日; 若把"节假日"作为特征日来划分, 可分为三种: "十一 "黄金周、 一般节日、 春节等长期连休; 若把"天气"作为特 征日来划分, 可分为四种: 晴天、 阴雨天、 暴雨天、 大雪天。
在已建立的历史数据库中随机抽取 L条链路,共 M月的历史交通流数据。 随机抽取原则为: 保证链路均等地覆盖各等级链路、 均等地覆盖不同的地理 区域, 并且链路长度大于 200 米; 其次, 考虑到计算的复杂度和可行性, L 通常取历史数据库中总链路数的 1%, 通常要大于 100条; M通常取 12个月。 在计算条件允许的情况下, 可以适当增大 L和 M的数值。 在本实施例中, 选 用"星期"作为特征日, 并且取 100条链路的 12个月的交通流数据作为待处理 的数据集合。
步骤 202,计算所述两天以上交通流数据集合中具有相同指定特征的数据 集合的相关系数, 获取两个以上相关系数列;
在本实施例中, 首先对一条链路的数据进行处理, 相同指定特征为周几 的相同性。 例如, 一条链路的 12个月中所有的周一、 所有的周二等。 要计算 这 12个月中所有周一的数据集合两两集合之间的相关系数, 例如,假设这 12 个月中周一有 8个集合, 则要计算这 8个集合中每两个集合之间的相关系数, 共获得 28个相关系数值, 将这 28个相关系数值作为周一的相关系数列; 同 理, 可以获得周二到周日的相关系数列。 将这 7 个相关系数列组合到一起形 成一个相关系数列表。 具体地计算两个集合之间的相关系数的公式为:
Figure imgf000007_0001
其中, 《为一个集合中数据的个数, X,和 分别为一天内交通流数据, 即 一天内车速随时间变化的取值。 通过此公式计算的相关系数列表如下表所示: 表一:
Figure imgf000007_0002
步骤 203 , 将所述两个以上相关系数列中每两个相关系数列进行 H检验, 获取第一检验结果;
在本实施例中, 假设通过步骤 202所获得的相关系数列中的数据集合均 符合正态分布, 则可用 H检验来判断两个相关系数列之间的相似度。 H检验 包括 F检验和 T检验。 其中, F检验是为了判断两个相关系数列的均方差是 否相同; T检验是为了判断两个相关系数列的均值是否相同。 如图 3所示, H 检验的具体方法包括:
步骤 301 , 读取两个相关系数列;
步骤 302, 标准化所述相关系数列, 将其转变为标准正态分布;
在本实施例中, 为了表示方便, 将步骤 202 中所得到的 A用 χ,.和 来表 示。 4叚设一个相关系数列为: X Ν{μ,σ , ,^,…^:^为 的样本, 即相关 系数列其中的数据, ^为 的均值, σι 2为 X的方差; 另一个相关系数列为 y Ν{μ22 2), ^,3¾, .:^2为_ 的样本, /2为 的均值, σ2 2为: 的方差。 并 且 X和 这两个样本相互独立。 可用以下公式来标准化 X和 _y:
Figure imgf000008_0001
;=Ji^〜 (l<i<n2) 因为 和 σ2实际上是未知的, 故需要用 S和 S2来代替:
Figure imgf000008_0002
其中, 和 分别为 和 ,^,…; ^的均值。
步骤 303 , 将标准化后的相关系数列进行 F检验;
构造 F检验的统计量:
Figure imgf000008_0003
设 Η: σ22 ^ Ηλ: σ2≠ σ2
由于当 /。成立时, F=^ ~F(nl -\,n2 -\) 故 F检验的拒绝域为:
= {F < Fa(ni—l,n2—1)或者 F > ^ αι-\,η2-\)} , 当检验结果在此拒绝域中, 表示两个集合的方差不等, 不满足 F检验, 直接输出检验结果, 不需要进行 Τ检验了。 在本实施例中, 设置不满足 Η检 验的输出结果为 "1", 满足 Η检验的输出结果为" 0", 所以当检验结果在上述 拒绝域中时, 输出结果 1。 步骤 304, 当 F检验通过, 进行 T检验;
构造 T检验的统计量:
x-y
T t nx +n2-2)
("「i)S +("2-ι) 1 1
«1 + «2 - 2 ηί Η2
0: /j = /2 , Hl: μχ≠μ2
则当 Η。成立时, Τ检验的拒绝域为:
Figure imgf000009_0001
当检验结果在此拒绝域中, 表示两个集合的均值不等, 不满足 T检验。 在本实施例中,设置不满足 H检验的输出结果为" , 满足 H检验的输出结果 为" 0"。 所以当检验结果在上述拒绝域中时, 输出检验结果 1
在本实施例中, 对于表一中的相关系数列两两之间在《 = 0.05的显著水平 下用上述步骤进行 H检验, 检验结果用/ z,7表示, hh.的值为 0或 1, 并且, h. =h;i。 检验结果统计表如表二所示:
表二:
Figure imgf000009_0002
上表为一条链路的检验结果, 将步骤 201 中所取出的 100条链路按照步 骤 202至 203的方法进行 H检验, 分别获得如表二所示的检验结果。 由于对 不同的链路而言, 上述统计结果可能不同, 故需要对所有的统计结果进行 析, 汇总成表三所示的结果:
Figure imgf000010_0001
只要满足 > 0.7 ,便可以认为 H检验结果为 0所占总检验数的百分比远 大于 H检验结果为 1所占的百分比, 即第 列与第 列是相似的。
步骤 204, 根据所述 H检验结果获取所述两天以上交通流数据集合之间 的相似度;
由表二和表三可以清晰地看出哪两天的数据集合是相似的。例如,如果 α23 > 0.7, 表明周二和周三的数据集合相似; 如果 α12≤0.7 , 表明周一和周二的数 据集合不相似。
步骤 205 ,根据所述两天以上交通流数据集合之间的相似度, 将所述两天 以上交通流数据集合划分为一个以上类别;
在本实施例中, 当两个数据集合相似时, 可以归为一个类别。 假设在表 二中, α15 > 0.7 , α23 > 0.7 , α34 > 0.7 , α > 0.7 , 表明可以将七天的数据归为 三个类别, 分别是: 周一和周五, 周二、 周三和周四, 周六和周曰。
步骤 206,将所述一个以上类别中同一类别中的两天以上交通流数据集合 按照预先设置的合并规则合并为一天的交通流数据;
在本实施例中, 将几天的交通流数据合并为一天的数据的规则为取对应 时刻的平均值。 例如, 将周二、 周三和周四中午 12点的交通流数据合并的方 法为: 求取三天 12点数据的平均值。 同理可计算出其它时刻的平均值。 这些 平均值构成合并后的交通流数据。
步骤 207 , 获取一天的交通流数据;
在本实施例中, 所述一天的交通流数据为将原始交通流数据经过"星期" 合并后的交通流数据。 当然, 也可以直接从历史数据库中取出未经过特征日 合并的数据集合, 此处不再贅述。
步骤 208 ,将所述一天的交通流数据按照预先设置的样本容量划分为两个 以上相等时间段数据集合;
在本实施例中, 首先要设置一个时间长度来划分一天的交通流数据。 这 个时间长度里面包含的数据个数就是样本容量。 如图 4所示, 样本容量的具 体设置方法包括:
步骤 401 , 获取所述样本容量的取值集合;
在本实施例中, 采样间隔为 5分钟, 因此一天的交通流数据为 288个。 如果把每个采样时刻作为一个时间长度, 则样本容量为 1 , 可以把一天的交通 流数据划分为 288个连续时间段; 如果样本容量为 2, 可以把一天的交通流数 据划分为 287个连续时间段, 依此类推。 如果样本容量为 n,则可以把一天的 交通流数据划分为 288- ( n-1 )个连续时间段。 理论上, 样本容量值可以取到 277 , 即把一天的交通流数据划分为 2个连续时间段。 但实际上, n超过一天 内总数据个数的一半时就没有意义了。 由此可以获取样本容量的取值集合为 {n I l≤n≤N/2},其中 N为一天内交通流数据的个数,本实施例中为 288 , n和 N 均取整数值。
步骤 402, 当所述样本容量取所述取值集合中的每一个样本容量值时, 获 取所述每一个样本容量值对应的时间段数据集合之间的相似度;
在本实施例中,η从 1开始取值到 144。例如,当 η=1时, 7 ={ } , Τ2={ χ2 } , T3 ={ x3 } , …… Γ288 ={ χ288 } ; 当 η=2 时 ,
Figure imgf000011_0001
={ x x2 } , T2={ x2,x3 j , Γ287 ={ χ287288 } ; 7的一般表达式如下: Ά = {Xi,Xi+\, · · · Xi+n-l } ^i+l = iXi+l,Xi+2, · · · Xi+n )
其中, \≤i≤N_n。 对 7和 η+1进行 H检验, 并记录检验结果/^ 当 从 1 变动到 时 H检验结束, 即为所述每一个样本容量值对应的相等时 间段数据集合之间的相似度。
步骤 403,根据所述相似度获取所述每一个样本容量值对应的时间段数据 集合之间相似个数集合;
在本实施例中, 统计 n取每一个值时,对应的 的值, 并统计出所有 结果中 .+1)=0的个数。 例如, 当 n=l时, ^+1)=0的个数为 当 n=2 时, +ι) = 0的个数为 ; 当 n=144时, = 0的个数为 S144。 所有的个数 组成集合{ ,... 4}。 步骤 404,将所述相似个数集合中的最大数值对应的样本容量值设置为样 本容量。
在本实施例 中 , 取集合 { sxs2 ---sU } 中 的最大值 , 记为 ^max = max {sx,s2,--- sU4 } , 将 Smax作为样本容量。
需要说明的是, 也可以根据样本容量尽量少的原则来获取样本容量。 通 常随着 n从 1变动到 N/2, s都会先逐渐增大再逐渐减小, 再往后也可能会出 现增大的可能, 但最终都会减小。 因此, 可选取出现第一次转折点对应的样 本容量, 此时样本容量都较小, 一般为 3或 4。
步骤 209,将所述两个以上相等时间段数据集合中每相邻两个时间段数据 集合进行 H检验, 获取第二检验结果;
在本实施例中, 假设由步骤 208 所述的方法获取的样本容量为 3, 则
Figure imgf000012_0001
η 的一般表达式为 : 1; =( , 1,... xi+n_x) , Yb =(xi+n,xi+n+l,--- xi+2n^) , i^\ + nj, 0< j≤([N/n]+∞-2) , 其中 [']+∞表示正无穷方向取整。 随着 i的变动, 对每对 1;和!做 H检验, 获得检验结果 。
步骤 210,根据所述第二检验结果获取所述两个以上相等时间段数据集合 之间的相似度;
在本实施例中, 当 ¾ =0时, 表明两个时间段的数据集合是相似的; 反之, 当 . =1时, 两个时间段的数据集合不相似。
步骤 211 , 根据所述两个以上相等时间段数据集合之间的相似度, 将所述 两个以上相等时间段数据集合划分为一个以上类别;
在本实施例中, 当两个数据集合相似时, 可以归为一个类别。 需要说明 的是, 所述数据集合为在时间上连续的数据集合。
步骤 212,将所述一个以上类别中同一类别中的两个以上相等时间段数据 集合按照预先设置的合并规则合并为一个数据。
在本实施例中, 将几个时间段的数据集合合并为一个数据的规则为取这 几个时间段中所有数据的平均值。 例如, 0: 00到 6: 00的交通流数据合并方 法为: 求取 0: 00到 6: 00之间所有数据的平均值。 其它时间段的合并方法 相同, 不再贅述。
本发明实施例提供的处理数据的方法, 通过获取待处理数据集合之间的 相似度, 根据所述相似度将待处理数据分类, 并将同一类别中的数据集合合 并, 有效减少了数据集合的数量, 使得对于数据的存储和管理比原来未经处 理时更容易; 由于数据量的减少, 使得后续工作也变得更简单。
如图 5所示, 本发明实施例还提供一种处理数据的装置, 包括: 第一获取单元 501 , 用于获取两个以上待处理的数据集合;
划分单元 502,用于根据预先获取的所述两个以上待处理的数据集合之间 的相似度, 将由所述第一获取单元 501 获取的两个以上待处理的数据集合划 分为一个以上类别;
合并单元 503 ,用于将由所述划分单元 502获取的一个以上类别中同一类 别中的两个以上数据集合按照预先设置的合并规则进行合并。 进一步地, 如图 6所示, 所述第一获取单元 501包括:
第一获取子单元 5011 , 用于获取预先采集的两天以上交通流数据集合; 第一设置单元 5012,用于将由所述第一获取子单元 5011获取的两天以上交通 流数据集合设置为所述两个以上待处理的数据集合; 或者,
第二获取子单元 5013 , 用于获取预先采集的一天交通流数据; 第二划分 单元 5014,用于将由所述第二获取子单元 5013获取的一天交通流数据按照预 先设置的样本容量划分为两个以上相等时间段数据集合;第二设置单元 5015 , 用于将由所述第二划分单元 5014划分的两个以上相等时间段数据集合设置为 所述两个以上待处理的数据集合。
进一步地, 如图 7 所示, 当所述两个以上待处理的数据集合为所述两天 以上交通流数据集合时, 所述划分单元 502包括:
第一计算单元 5021 ,用于计算由所述第一获取子单元 5011获取的两天以 上交通流数据集合中具有相同指定特征的数据集合的相关系数, 获取两个以 上相关系数列;
第一检验单元 5022,用于将由所述第一计算单元 5021计算的两个以上相 关系数列中每两个相关系数列进行 H检验, 获取第一检验结果;
第二获取单元 5023 ,用于根据由所述第一检验单元 5022获取的第一检验 结果获取所述两天以上交通流数据集合之间的相似度。
进一步地, 如图 8 所示, 当所述两个以上待处理的数据集合为所述两个 以上相等时间段数据集合时, 所述划分单元 502包括:
第二检验单元 5024,用于将由所述第二获取子单元 5013获取的两个以上 相等时间段数据集合中每相邻两个时间段数据集合进行 H检验, 获取第二检 验结果;
第三获取单元 5025,用于根据由所述第二检验单元 5024获取的第二检验 结果获取所述两个以上相等时间段数据集合之间的相似度。
进一步地, 如图 9所示, 所述第二划分单元 5014包括: 第四获取单元 601 , 用于获取所述样本容量的取值集合;
第二计算单元 602,用于当所述样本容量取所述取值集合中的每一个样本 容量值时, 计算所述每一个样本容量值对应的相等时间段数据集合之间的相 似度;
第五获取单元 603 ,用于根据由所述第二计算单元 602计算的相似度获取 所述每一个样本容量值对应的相等时间段数据集合之间相似个数集合;
第三设置单元 604,用于将由所述第五获取单元 603获取的相似个数集合 中的最大数值对应的样本容量值设置为样本容量。
以上装置的具体实现方法可以参见如图 2至图 4所示的步骤 201〜212所 述, 此处不再赘述„
本发明实施例提供的处理数据的装置, 通过获取待处理数据集合之间的 相似度, 根据所述相似度将待处理数据分类, 并将同一类别中的数据集合合 并, 有效减少了数据集合的数量, 使得对于数据的存储和管理比原来未经处 理时更容易; 由于数据量的减少, 使得后续工作也变得更简单。
本发明提供的技术方案可以应用在对大量数据进行压缩的技术领域中。 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤 是可以通过程序来指令相关的硬件完成, 所述的程序可以存储于一计算机可 读存储介质中, 如 ROM/RAM、 磁碟或光盘等。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护 范围应所述以权利要求的保护范围为准。

Claims

权利 要求 书
1、 一种处理数据的方法, 其特征在于, 包括:
获取两个以上待处理的数据集合;
根据预先获取的所述两个以上待处理的数据集合之间的相似度, 将所述两 个以上待处理的数据集合划分为一个以上类别;
将所述一个以上类别中同一类别中的两个以上数据集合按照预先设置的合 并规则进行合并。
2、 根据权利要求 1所述的处理数据的方法, 其特征在于, 所述获取两个以 上待处理的数据集合包括:
获取预先采集的两天以上交通流数据集合; 将所述两天以上交通流数据集 合设置为所述两个以上待处理的数据集合; 或者,
获取预先采集的一天交通流数据; 将所述一天交通流数据按照预先设置的 样本容量划分为两个以上相等时间段数据集合; 将所述两个以上相等时间段数 据集合设置为所述两个以上待处理的数据集合。
3、 根据权利要求 2所述的处理数据的方法, 其特征在于, 当所述两个以上 待处理的数据集合为所述两天以上交通流数据集合时, 所述获取所述两个以上 待处理的数据集合之间的相似度的步骤包括:
计算所述两天以上交通流数据集合中具有相同指定特征的数据集合的相关 系数, 获取两个以上相关系数列;
将所述两个以上相关系数列中每两个相关系数列进行 H检验, 获取第一检 验结果;
根据所述第一检验结果获取所述两天以上交通流数据集合之间的相似度。
4、 根据权利要求 2所述的处理数据的方法, 其特征在于, 当所述两个以上 待处理的数据集合为所述两个以上相等时间段数据集合时, 所述获取所述两个 以上待处理的数据集合之间的相似度的步骤包括:
将所述两个以上相等时间段数据集合中每相邻两个时间段数据集合进行 H 检验, 获取第二检验结果;
根据所述第二检验结果获取所述两个以上相等时间段数据集合之间的相似 度。
5、 根据权利要求 2所述的处理数据的方法, 其特征在于, 所述样本容量的 设置步骤包括:
获取所述样本容量的取值集合;
当所述样本容量取所述取值集合中的每一个样本容量值时, 获取所述每一 个样本容量值对应的时间段数据集合之间的相似度;
根据所述相似度获取所述每一个样本容量值对应的时间段数据集合之间相 似个数集合;
将所述相似个数集合中的最大数值对应的样本容量值设置为样本容量。
6、 一种处理数据的装置, 其特征在于, 包括:
第一获取单元, 用于获取两个以上待处理的数据集合;
划分单元, 用于根据预先获取的所述两个以上待处理的数据集合之间的相 似度, 将由所述第一获取单元获取的两个以上待处理的数据集合划分为一个以 上类别;
合并单元, 用于将由所述划分单元获取的一个以上类别中同一类别中的两 个以上数据集合按照预先设置的合并规则进行合并。
7、 根据权利要求 6所述的处理数据的装置, 其特征在于, 所述第一获取单 元包括:
第一获取子单元, 用于获取预先采集的两天以上交通流数据集合; 第一设 置单元, 用于将由所述第一获取子单元获取的两天以上交通流数据集合设置为 所述两个以上待处理的数据集合; 或者,
第二获取子单元, 用于获取预先采集的一天交通流数据; 第二划分单元, 用于将由所述第二获取子单元获取的一天交通流数据按照预先设置的样本容量 划分为两个以上相等时间段数据集合; 第二设置单元, 用于将由所述第二划分 单元划分的两个以上相等时间段数据集合设置为所述两个以上待处理的数据集 合。
8、 根据权利要求 7所述的处理数据的装置, 其特征在于, 当所述两个以上 待处理的数据集合为所述两天以上交通流数据集合时, 所述划分单元包括: 第一计算单元, 用于计算由所述第一获取子单元获取的两天以上交通流数 据集合中具有相同指定特征的数据集合的相关系数, 获取两个以上相关系数列; 第一检验单元, 用于将由所述第一计算单元计算的两个以上相关系数列中 每两个相关系数列进行 H检验, 获取第一检验结果;
第二获取单元, 用于根据由所述第一检验单元获取的第一检验结果获取所 述两天以上交通流数据集合之间的相似度。
9、 根据权利要求 7所述的处理数据的装置, 其特征在于, 当所述两个以上 待处理的数据集合为所述两个以上相等时间段数据集合时, 所述划分单元包括: 第二检验单元, 用于将由所述第二获取子单元获取的两个以上相等时间段 数据集合中每相邻两个时间段数据集合进行 H检验, 获取第二检验结果;
第三获取单元, 用于根据由所述第二检验单元获取的第二检验结果获取所 述两个以上相等时间段数据集合之间的相似度。
10、 根据权利要求 7 所述的处理数据的装置, 其特征在于, 所述第二划分 单元包括:
第四获取单元, 用于获取所述样本容量的取值集合;
第二计算单元, 用于当所述样本容量取所述取值集合中的每一个样本容量 值时, 计算所述每一个样本容量值对应的相等时间段数据集合之间的相似度; 第五获取单元, 用于根据由所述第二计算单元计算的相似度获取所述每一 个样本容量值对应的相等时间段数据集合之间相似个数集合;
第三设置单元, 用于将由所述第五获取单元获取的相似个数集合中的最大 数值对应的样本容量值设置为样本容量。
PCT/CN2010/079706 2010-01-11 2010-12-13 处理数据的方法和装置 WO2011082616A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2010100338819A CN101814112B (zh) 2010-01-11 2010-01-11 处理数据的方法和装置
CN201010033881.9 2010-01-11

Publications (1)

Publication Number Publication Date
WO2011082616A1 true WO2011082616A1 (zh) 2011-07-14

Family

ID=42621364

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/079706 WO2011082616A1 (zh) 2010-01-11 2010-12-13 处理数据的方法和装置

Country Status (2)

Country Link
CN (1) CN101814112B (zh)
WO (1) WO2011082616A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814112B (zh) * 2010-01-11 2012-05-23 北京世纪高通科技有限公司 处理数据的方法和装置
CN101950483B (zh) * 2010-09-15 2013-03-20 青岛海信网络科技股份有限公司 交通数据故障的修复方法及装置
CN101982820B (zh) * 2010-11-22 2011-12-07 北京航空航天大学 一种大数据量的曲线显示查询方法
CN103366017B (zh) * 2013-08-02 2016-11-23 人民搜索网络股份公司 一种微博信息抓取方法及装置
CN104679970B (zh) * 2013-11-29 2018-11-09 高德软件有限公司 一种数据检测方法及装置
CN104699056B (zh) * 2015-02-13 2017-03-15 北京金控数据技术股份有限公司 一种对污水处理工艺单元运行性能进行监控的方法
CN106407215B (zh) * 2015-07-31 2019-08-13 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN107133549B (zh) 2016-02-29 2020-11-24 上海联影医疗科技有限公司 Ect运动门控信号获取方法及ect图像重建方法
CN106251381B (zh) * 2016-07-29 2020-02-04 上海联影医疗科技有限公司 图像重建方法
CN108120450B (zh) * 2016-11-29 2020-06-26 华为技术有限公司 一种静止状态的判断方法及装置
CN106850336B (zh) * 2016-12-28 2019-12-03 中国科学院信息工程研究所 一种监控系统的数据流合并方法及服务端
CN107305209B (zh) * 2017-01-24 2019-08-06 浙江农林大学 基于leif模型的挥发性毒害试剂检漏方法
CN106970180B (zh) * 2017-01-24 2019-06-25 浙江农林大学 毒害试剂泄露监测方法
CN112347113B (zh) * 2020-09-16 2021-12-14 北京中兵数字科技集团有限公司 航空数据融合方法、航空数据融合装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592464A (zh) * 2003-08-26 2005-03-09 三星电子株式会社 用于移动终端中的处理数据备份服务的装置和方法
CN101013501A (zh) * 2006-01-31 2007-08-08 索尼株式会社 图像处理设备
CN101296373A (zh) * 2007-04-27 2008-10-29 新奥特硅谷视频技术有限责任公司 一种基于素材交换格式的多媒体数据处理系统及方法
CN101814112A (zh) * 2010-01-11 2010-08-25 北京世纪高通科技有限公司 处理数据的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100570664C (zh) * 2008-01-11 2009-12-16 孟小峰 一种基于聚类来监控交通拥堵状况的系统及其方法
CN101309125B (zh) * 2008-07-10 2011-04-06 浙江大学 一种多路并发接入的多媒体数据传输方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592464A (zh) * 2003-08-26 2005-03-09 三星电子株式会社 用于移动终端中的处理数据备份服务的装置和方法
CN101013501A (zh) * 2006-01-31 2007-08-08 索尼株式会社 图像处理设备
CN101296373A (zh) * 2007-04-27 2008-10-29 新奥特硅谷视频技术有限责任公司 一种基于素材交换格式的多媒体数据处理系统及方法
CN101814112A (zh) * 2010-01-11 2010-08-25 北京世纪高通科技有限公司 处理数据的方法和装置

Also Published As

Publication number Publication date
CN101814112B (zh) 2012-05-23
CN101814112A (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
WO2011082616A1 (zh) 处理数据的方法和装置
CN108346292B (zh) 基于卡口数据的城市快速路实时交通指数计算方法
CN107610469B (zh) 一种考虑多因素影响的日维度区域交通指数预测方法
JP3897169B2 (ja) 決定木生成方法およびモデル構造生成装置
CN111260156B (zh) 现金流预测模型的构建方法及现金流预测方法及装置
CN103699601A (zh) 基于时空数据挖掘的地铁乘客分类方法
CN110852476A (zh) 客流预测方法、装置、计算机设备和存储介质
CN112508237B (zh) 基于数据分析的雨型区域划分方法和实时雨型预测方法
Pamuła Classification and prediction of traffic flow based on real data using neural networks
CN110889092A (zh) 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法
CN105426441A (zh) 一种时间序列自动预处理方法
CN115982611A (zh) 基于聚类算法的电力用户用能特点分析方法
CN111291216B (zh) 一种基于人脸结构化数据的落脚点分析方法和系统
JP2004164373A (ja) 交通渋滞情報変換方法、交通渋滞情報変換装置、交通渋滞情報変換プログラムおよびそのプログラムを記録した記録媒体
CN111897810B (zh) 建立定量化不同尺度区域间大气污染联防联控方案的方法
CN113221472A (zh) 一种基于lstm的客流预测方法
CN109241320A (zh) 基于时间序列聚类的未成年犯罪地区簇的划分方法
CN113516850B (zh) 基于空间句法分析的管道沿线交通流量数据采集方法
Hasani et al. Developing models for matching of short-term and long-term data collection sites to improve the estimation of average annual daily bicyclists
CN114519388A (zh) 一种基于高速etc收费数据的用户细分方法
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN111027599A (zh) 基于随机抽样的聚类可视化方法及装置
CN111752991A (zh) 一种表计数据统计方法、装置和获取表计统计数据方法
CN117596551B (zh) 一种基于手机信令数据的绿道网用户行为还原方法及装置
Goldstein et al. Real-time compression of time series building performance data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10841959

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10841959

Country of ref document: EP

Kind code of ref document: A1