WO2010095459A1 - Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program - Google Patents

Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program Download PDF

Info

Publication number
WO2010095459A1
WO2010095459A1 PCT/JP2010/001108 JP2010001108W WO2010095459A1 WO 2010095459 A1 WO2010095459 A1 WO 2010095459A1 JP 2010001108 W JP2010001108 W JP 2010001108W WO 2010095459 A1 WO2010095459 A1 WO 2010095459A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
buffer
stored
identification information
Prior art date
Application number
PCT/JP2010/001108
Other languages
French (fr)
Japanese (ja)
Inventor
喜田弘司
藤山健一郎
今井照之
中村暢達
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011500529A priority Critical patent/JPWO2010095459A1/en
Publication of WO2010095459A1 publication Critical patent/WO2010095459A1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D1/00Measuring arrangements giving results other than momentary value of variable, of general application
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D15/00Component parts of recorders for measuring arrangements not specially adapted for a specific variable

Definitions

  • the present invention relates to an analysis preprocessing system, an analysis preprocessing method, and an analysis preprocessing program for performing preprocessing on data to be analyzed.
  • FIG. 22 shows an example of a general configuration for collecting data to be analyzed by analysis data.
  • Each Web server 202 serving as a data generation source is accessed by the client 201 to generate data (log).
  • Each Web server 202 transmits the log to the log collection unit 203.
  • the log collection unit 203 Upon receipt of the data, the log collection unit 203 stores the data in the storage unit as a database or a file. Then, the log collection unit 203 converts the data into a data format for data analysis and passes it to the data analysis device 204, and the data analysis device 204 performs data analysis.
  • the time series data generation source 1 continuously generates data to be analyzed.
  • the time-series data generation source 1 may be a sensor, and sensor data to be analyzed may be continuously generated. Further, the time-series data generation source 1 may be a server device such as a Web server, and a log to be analyzed may be continuously generated.
  • a case where the time series data generation source 1 is mounted on a vehicle (probe car) and is a sensor that measures, for example, speed, position, traveling direction, and the like will be described as an example. Traffic information can be generated by running tens of thousands of probe cars and collecting and analyzing data from the sensors of each probe car. However, the present invention is applicable to other than data analysis of probe cars.
  • FIG. 3 shows a case where each PC operates as the time-series data generation source 1 and the data transmission unit 2. In this example, a base station provided separately from the probe car corresponds to the data transmission unit 2.
  • the base station is provided for each area, but is arranged so that corresponding areas partially overlap each other.
  • the base stations 2a and 2b corresponding to the areas receive the same data. Since both the base stations 2a and 2b transmit the received data to the pre-analysis processing system, the data receiving means 3 receives a plurality of the same data. The data replicated in this way is unnecessary in the analysis by the time series data analysis means 5 and is excluded by the filtering means 407.
  • Data acquisition means 71 (for example, data reception means 3) acquires a data group generated by a plurality of data generation sources.
  • the above embodiment discloses a configuration in which the analysis data output means 76 deletes each data belonging to the analysis data group sent to the data analysis means from the buffer 74.
  • the present invention is preferably applied to an analysis preprocessing system that collects data to be collected for analysis.

Abstract

Provided is an analysis preprocessing system capable of passing large amounts of data to a means for analyzing data at high speed while preventing the data from overflowing even if the data is transmitted from a plurality of data generation sources. A data acquisition means (71) acquires the data constellation generated by the plurality of data generation sources. A data clipping means (72) clips each data from the data constellation acquired by the data acquisition means (71). A filtering means (73) determines whether or not a predetermined condition is satisfied for each of the data clipped by the data clipping means (72), stores data which satisfies the predetermined condition in a buffer (74), and discards data which does not satisfy the predetermined condition. An analysis data determination means (75) determines an analysis data constellation which is a set of data used for analysis from the data stored in the buffer (74). An analysis data output means (76) transmits the analysis data constellation to a data analysis means for analyzing data.

Description

解析前処理システム、解析前処理方法および解析前処理プログラムAnalysis preprocessing system, analysis preprocessing method, and analysis preprocessing program
 本発明は、データ解析の対象となるデータに対して前処理を行う解析前処理システム、解析前処理方法および解析前処理プログラムに関する。 The present invention relates to an analysis preprocessing system, an analysis preprocessing method, and an analysis preprocessing program for performing preprocessing on data to be analyzed.
 複数のセンサや地理的に分散しているサーバのログ等を対象としてデータを時系列に解析する時系列解析装置がある。このような時系列解析装置では、解析対象となるデータを一旦、データベースやファイルとして保存し、バッチ処理等で解析する。 There is a time series analysis device that analyzes data in a time series for multiple sensors and geographically distributed server logs. In such a time series analysis apparatus, data to be analyzed is temporarily stored as a database or a file and analyzed by batch processing or the like.
 このようなデータを蓄積するデータベースが非特許文献1に記載されている。非特許文献1に記載された技術では、センサネットワークで観測されたセンサデータをネットワーク上の単一のデータベースに蓄積する。過去のデータを参照する場合には、SQLで問い合わせを行うことでデータを参照する。 Non-patent document 1 describes a database for storing such data. In the technique described in Non-Patent Document 1, sensor data observed by a sensor network is stored in a single database on the network. When referring to past data, the data is referred to by making an inquiry using SQL.
 また、Webサーバとして広く利用されているapache(Apacheソフトウェア財団)のログを解析する例を説明する。通常、クライアントからのアクセスを分散させるために複数のWebサーバが用意されている。各Webサーバはそれぞれ独立に、アクセスやエラーのログをファイルとして保存する。apacheのデフォルトの設定では、エラーログは、/usr/local/apache/logs/error.logファイルに記録される。解析装置がこれらのログを解析する場合、解析装置はFTP(File Transfer Protocol)等を利用して、複数のサーバに記録されたログを収集し、そのログを解析する。 In addition, an example of analyzing logs of apache (Apache Software Foundation) widely used as a Web server will be described. Usually, a plurality of Web servers are prepared to distribute access from clients. Each Web server independently stores access and error logs as files. In the default configuration of apache, error logs are recorded in the /usr/local/apache/logs/error.log file. When the analysis apparatus analyzes these logs, the analysis apparatus collects logs recorded in a plurality of servers by using FTP (File Transfer 等 Protocol) or the like, and analyzes the logs.
 解析データが解析対象とするデータを収集する一般的な構成の例を図22に示す。データ発生源となる各Webサーバ202は、それぞれクライアント201にアクセスされ、データ(ログ)を生成する。各Webサーバ202は、そのログをログ収集手段203に送信し、ログ収集手段203はそのデータを受信すると、記憶手段にデータベースあるいはファイルとして記憶する。そして、ログ収集手段203はそのデータをデータ解析用のデータ形式に変換してデータ解析装置204に渡し、データ解析装置204がデータ解析を行う。 FIG. 22 shows an example of a general configuration for collecting data to be analyzed by analysis data. Each Web server 202 serving as a data generation source is accessed by the client 201 to generate data (log). Each Web server 202 transmits the log to the log collection unit 203. Upon receipt of the data, the log collection unit 203 stores the data in the storage unit as a database or a file. Then, the log collection unit 203 converts the data into a data format for data analysis and passes it to the data analysis device 204, and the data analysis device 204 performs data analysis.
 データ発生源(図22に示す例ではWebサーバ202)とデータ解析装置とがそれぞれ独立に動作する構成を実現するための簡易な構成として、発生したデータをデータベースやファイルとして保存して、データ解析装置がそのデータを解析する構成が挙げられる。また、データ発生源とデータ解析装置とが互いにコミュニケーションを取りながら非同期に処理を進める構成では、双方が相手からのコミュニケーションの依頼の有無を判定する必要があり、煩雑なシステムとなる。このような煩雑な動作を回避するため、発生したデータをデータベースやファイルとして保存する構成が採用されている。 As a simple configuration for realizing a configuration in which a data generation source (Web server 202 in the example shown in FIG. 22) and a data analysis device operate independently, the generated data is saved as a database or file, and data analysis is performed. A configuration in which the apparatus analyzes the data is mentioned. Further, in the configuration in which the data generation source and the data analysis apparatus advance the processing asynchronously while communicating with each other, it is necessary for both parties to determine whether or not there is a request for communication from the other party, resulting in a complicated system. In order to avoid such a complicated operation, a configuration in which generated data is stored as a database or a file is employed.
 また、データ発生源からデータを送信する処理、そのデータを受信する処理、受信するデータを一時保存する処理に利用できるライセンスフリーのライブラリが多く存在する。例えば、ファイルを転送する場合にはFTPサーバを利用すればよい。また、データベースにおいてODBC(Open Database Connectivity)ドライバを利用してもよい。このようなライブラリを利用できることからも、発生したデータをデータベースやファイルとして保存する構成が採用されている。 Also, there are many license-free libraries that can be used for the process of transmitting data from the data generation source, the process of receiving the data, and the process of temporarily storing the received data. For example, when transferring a file, an FTP server may be used. Further, an ODBC (Open Database Connectivity) driver may be used in the database. Since such a library can be used, a configuration in which generated data is stored as a database or a file is employed.
 また、特許文献1には、振動センサや脈拍センサ等の複数のセンサの計測したデータをマイコンが収集し、マイコンがPDA等にデータを出力する構成が記載されている。マイコンは、生体信号の原データに対して、外乱信号の除去を目的としたフィルタリング処理や、秒単位・分単位での集計処理等を施し、加工データを生成する。マイコンは、加工データをPDAに送信する。また、特許文献1には、計測データに変動がなく、被験者の状態が未だ生体信号を計測すべきでないと判断したときに、所定時間が経過するまで、生体信号の計測動作を待機することが記載されている。 Patent Document 1 describes a configuration in which a microcomputer collects data measured by a plurality of sensors such as a vibration sensor and a pulse sensor, and the microcomputer outputs data to a PDA or the like. The microcomputer performs processing for removing the disturbance signal on the original data of the biological signal, totaling processing in units of seconds and minutes, and the like, and generates processed data. The microcomputer transmits the processing data to the PDA. Further, in Patent Document 1, when it is determined that there is no change in measurement data and the state of the subject is not yet to measure a biological signal, the measurement operation of the biological signal is waited until a predetermined time elapses. Are listed.
 また、特許文献2には、センサネットワークにおいて、センサが出力する単位時間あたりのデータ量を抑制する処理が記載されている。具体的には、センサノードの測定間隔を増大したり、観測情報のまとめ送りを行ったり、あるいは、センサノードとルータノードの間で見なし通信を行って、単位時間当たりの送出データ量を抑えることが記載されている。 Patent Document 2 describes a process for suppressing the amount of data per unit time output by a sensor in a sensor network. Specifically, increase the measurement interval of sensor nodes, perform batch transmission of observation information, or perform communication between sensor nodes and router nodes to reduce the amount of data transmitted per unit time Is described.
 また、特許文献3には、受信したデータが再び後続のストリームで受信される場合、後続のデータストリームを中断することが記載されている。また、顧客の組織やユーザの組織に関するフィルタリングをデータストリームに行うことが記載されている。 Patent Document 3 describes that when the received data is received again in the subsequent stream, the subsequent data stream is interrupted. Further, it is described that filtering related to a customer organization or a user organization is performed on a data stream.
 特許文献4には、1回目の測定データと2回目の測定データの差の絶対値が所定値を越える場合に測定データを削除する荷電ビーム測長装置が記載されている。 Patent Document 4 describes a charged beam length measuring device that deletes measurement data when the absolute value of the difference between the first measurement data and the second measurement data exceeds a predetermined value.
特開2003-30775号公報(段落0037,0048-0050,0063、図1)Japanese Unexamined Patent Publication No. 2003-30775 (paragraphs 0037, 0048-0050, 0063, FIG. 1) 特開2008-42458号公報(段落0051)JP 2008-42458 A (paragraph 0051) 特開2002-77277号公報(段落0033,0035)JP 2002-77277 A (paragraphs 0033, 0035) 特開2002-62123号公報(段落0021)JP 2002-62123 A (paragraph 0021)
 センサやWebサーバ等のデータ発生源が複数存在し、それらのデータを一旦、データベースやファイルとして記憶し、データ解析装置に渡す構成(例えば、図22に示す構成)では、データ発生源の数が多くなると、データを収集する手段(例えば、図22に示すログ収集手段203)へのアクセス集中により、データを収集する手段での処理が間に合わなくなる可能性がある。例えば、データベースあるいはファイルとしてデータを保存する場合、データ保存のためのI/Oが低速であるため、データを保存する処理等が間に合わなくなる可能性がある。 In a configuration in which there are a plurality of data generation sources such as sensors and web servers, and these data are temporarily stored as a database or file and passed to the data analysis device (for example, the configuration shown in FIG. 22), the number of data generation sources is If the number increases, processing by the data collecting means may not be in time due to concentration of access to the data collecting means (for example, the log collecting means 203 shown in FIG. 22). For example, when data is stored as a database or a file, the I / O for data storage is low speed, so there is a possibility that the process of storing the data may not be in time.
 また、データ発生源の数が多くなると、データを収集する手段(例えば、図22に示すログ収集手段203)に送られるデータ量も多くなってしまい、保存可能なデータの容量を越えてしまうおそれがある。特許文献2には、センサノードが計測間隔を増大させたり、センサノードとルータノードとの間で見なし通信を行うこと等が記載されている。また、特許文献1では、センサでの計測を待機することが記載されている。しかし、センサノード等のデータ発生源の数が多いと、データ発生源を個別に制御することは難しい。例えば、プローブカーがデータ発生源であるとすると、何万台ものプローブカーに対してデータ送信の待機などを個別に命令することは処理負荷の点等から難しい。 Further, when the number of data generation sources increases, the amount of data sent to the data collecting means (for example, the log collecting means 203 shown in FIG. 22) also increases, which may exceed the storable data capacity. There is. Patent Document 2 describes that a sensor node increases a measurement interval, performs communication between a sensor node and a router node, and the like. Japanese Patent Application Laid-Open No. H10-228707 describes waiting for measurement by a sensor. However, if the number of data generation sources such as sensor nodes is large, it is difficult to individually control the data generation sources. For example, if a probe car is a data generation source, it is difficult to individually instruct tens of thousands of probe cars to wait for data transmission and the like from the viewpoint of processing load.
 そこで、本発明は、多数のデータ発生源から大量のデータが送信されても、データが溢れることを防止しつつ、データを解析する手段に対して高速にデータを渡すことができる解析前処理システム、解析前処理方法および解析前処理プログラムを提供することを目的とする。 Therefore, the present invention provides an analysis preprocessing system capable of passing data to a means for analyzing data at high speed while preventing data from overflowing even when a large amount of data is transmitted from a large number of data generation sources. An object of the present invention is to provide an analysis preprocessing method and an analysis preprocessing program.
 本発明による解析前処理システムは、複数のデータ発生源で生成されたデータ群を取得するデータ取得手段と、データ取得手段が取得したデータ群から個々のデータを切り出すデータ切り出し手段と、解析に用いられるデータを記憶するバッファと、データ切り出し手段が切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング手段と、バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定手段と、データを解析するデータ解析手段に解析データ群を送る解析用データ出力手段とを備えることを特徴とする。 A pre-analysis processing system according to the present invention uses a data acquisition means for acquiring a data group generated by a plurality of data generation sources, a data cutout means for cutting out individual data from the data group acquired by the data acquisition means, and used for analysis. For each of the data that is stored by the data extraction unit and the data extracted by the data extraction unit, whether or not a predetermined condition is satisfied is stored, and the data that satisfies the predetermined condition is stored in the buffer, and the predetermined condition is satisfied Filtering means for discarding unresolved data, analysis data determining means for determining an analysis data group that is a set of data used for analysis from data stored in the buffer, and data analysis means for analyzing data And an analysis data output means for sending the data group.
 また、本発明による解析前処理方法は、複数のデータ発生源で生成されたデータ群を取得し、取得したデータ群から個々のデータを切り出し、切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄し、バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定め、データを解析するデータ解析手段に解析データ群を送ることを特徴とする。 In addition, the pre-analysis processing method according to the present invention acquires a data group generated by a plurality of data generation sources, cuts out individual data from the acquired data group, and satisfies a predetermined condition for each cut out data The data that satisfies the predetermined condition is stored in the buffer, the data that does not satisfy the predetermined condition is discarded, and from the data stored in the buffer, a set of data used for analysis A certain analysis data group is defined, and the analysis data group is sent to the data analysis means for analyzing the data.
 また、本発明による解析前処理プログラムは、コンピュータに、複数のデータ発生源で生成されたデータ群を取得するデータ取得処理、データ取得処理で取得したデータ群から個々のデータを切り出すデータ切り出し処理、データ切り出し処理で切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング処理、バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定処理、データを解析するデータ解析手段に解析データ群を送る解析用データ出力処理を実行させることを特徴とする。 The analysis preprocessing program according to the present invention is a data acquisition process for acquiring a data group generated by a plurality of data generation sources in a computer, a data cutout process for cutting out individual data from the data group acquired by the data acquisition process, A filtering process that determines whether or not a predetermined condition is satisfied for each data cut out by the data cut-out process, stores data that satisfies the predetermined condition in a buffer, and discards data that does not satisfy the predetermined condition Analytical data decision processing for determining an analytical data group that is a set of data used for analysis from the data stored in the buffer, and analytical data output processing for sending the analytical data group to the data analyzing means for analyzing the data It is made to perform.
 本発明によれば、多数のデータ発生源から大量のデータが送信されても、データが溢れることを防止しつつ、データを解析する手段に対して高速にデータを渡すことができる。 According to the present invention, even when a large amount of data is transmitted from a large number of data generation sources, the data can be transferred at high speed to the means for analyzing the data while preventing the data from overflowing.
本発明の第1の実施形態の解析前処理システムの例を示すブロック図である。It is a block diagram which shows the example of the analysis pre-processing system of the 1st Embodiment of this invention. データストリーム生成手段の構成例を示すブロック図である。It is a block diagram which shows the structural example of a data stream production | generation means. 解析前処理システムの物理構成の一例を示す説明図である。It is explanatory drawing which shows an example of the physical structure of an analysis pre-processing system. 時系列データ発生源が生成するデータの例を示す説明図である。It is explanatory drawing which shows the example of the data which a time series data generation source produces | generates. データ送信手段が送信するデータの例を示す説明図である。It is explanatory drawing which shows the example of the data which a data transmission means transmits. 解析ウィンドウを模式的に示す説明図である。It is explanatory drawing which shows an analysis window typically. データストリーム生成手段の入出力の例を示す説明図である。It is explanatory drawing which shows the example of the input / output of a data stream production | generation means. 切り出されたデータの例を示す説明図である。It is explanatory drawing which shows the example of the cut out data. 送信データバッファにおけるメモリイメージの例を示す模式図である。It is a schematic diagram which shows the example of the memory image in a transmission data buffer. フィルタリング手段の構成例を示すブロック図である。It is a block diagram which shows the structural example of a filtering means. 本発明の第1の実施形態の処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the process progress of the 1st Embodiment of this invention. フィルタリング処理の処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the process progress of a filtering process. 第2の実施形態におけるフィルタリング手段の構成例を示すブロック図である。It is a block diagram which shows the structural example of the filtering means in 2nd Embodiment. 有効データ定義手段が記憶する基準の例を示す説明図である。It is explanatory drawing which shows the example of the reference | standard which an effective data definition means memorize | stores. 第2の実施形態におけるフィルタリング処理の処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the process progress of the filtering process in 2nd Embodiment. データの複製が生じる状況の具体例を示す説明図である。It is explanatory drawing which shows the specific example of the condition where replication of data arises. 第3の実施形態におけるフィルタリング手段の構成例を示すブロック図である。It is a block diagram which shows the structural example of the filtering means in 3rd Embodiment. データ識別情報の例を示す説明図である。It is explanatory drawing which shows the example of data identification information. 第3の実施形態におけるフィルタリング処理の処理経過の例を示すフローチャートである。It is a flowchart which shows the example of the process progress of the filtering process in 3rd Embodiment. 参考実施形態におけるデータストリーム生成手段の構成例を示すブロック図である。It is a block diagram which shows the structural example of the data stream production | generation means in reference embodiment. 本発明の最小構成を示す説明図である。It is explanatory drawing which shows the minimum structure of this invention. 解析対象データを収集するシステムの一般的な構成例を示すブロック図である。It is a block diagram which shows the general structural example of the system which collects analysis object data.
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態の解析前処理システムの例を示すブロック図である。本発明の解析前処理システム7は、時系列データ発生源1が発生させたデータを受信するデータ受信手段3と、受信したデータを加工して時系列データ解析手段5に送るデータストリーム生成手段4とを備える。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
Embodiment 1. FIG.
FIG. 1 is a block diagram illustrating an example of a pre-analysis processing system according to the first embodiment of this invention. The analysis preprocessing system 7 of the present invention includes a data receiving means 3 for receiving data generated by the time series data generation source 1 and a data stream generating means 4 for processing the received data and sending it to the time series data analyzing means 5. With.
 時系列データ発生源1は、時間の経過とともにデータを順次、発生させるデータ発生源である。データ送信手段2は、時系列データ発生源1が発生させたデータを解析前処理システム7に送信する。また、時系列データ解析手段5は、データストリーム生成手段4から入力されるデータを対象に解析処理を行う。図1に示すように、時系列データ発生源1およびデータ送信手段2は複数設けられていてよい。 The time-series data generation source 1 is a data generation source that sequentially generates data with the passage of time. The data transmission means 2 transmits the data generated by the time series data generation source 1 to the analysis preprocessing system 7. The time-series data analysis unit 5 performs analysis processing on the data input from the data stream generation unit 4. As shown in FIG. 1, a plurality of time-series data generation sources 1 and data transmission means 2 may be provided.
 データ受信手段3は、時系列データ発生源1が発生させたデータを各データ送信手段2から受信する。データストリーム生成手段4は、受信したデータに対してフィルタリング処理を行う。そして、データストリーム生成手段4は、時系列データ解析手段5における1回分の解析毎に、フィルタリングで得たデータの中から、1回分の解析の対象となるデータの集合を定め、時系列データ解析手段5に送る。時系列データ解析手段5は、このデータを用いて解析を行う。データストリーム生成手段4の動作は、解析の前処理に相当する。 The data receiving means 3 receives the data generated by the time series data generating source 1 from each data transmitting means 2. The data stream generation unit 4 performs a filtering process on the received data. The data stream generation means 4 determines a set of data to be analyzed for one time out of the data obtained by filtering for each analysis in the time series data analysis means 5, and performs time series data analysis. Send to means 5. The time series data analysis means 5 performs analysis using this data. The operation of the data stream generation unit 4 corresponds to preprocessing for analysis.
 なお、時系列データ発生源1およびデータ送信手段2が解析前処理システムに含まれていてもよい。同様に、時系列データ解析手段5が解析前処理システムに含まれていてもよい。 The time-series data generation source 1 and the data transmission means 2 may be included in the analysis preprocessing system. Similarly, the time series data analysis means 5 may be included in the analysis preprocessing system.
 図2は、データストリーム生成手段4の構成例を示すブロック図である。図1で示した要素と同一の要素については、図1と同一の符号を付す。データストリーム生成手段4は、ストリームデータ生成手段401と、フィルタリング手段407と、送信データバッファ402と、解析ウィンドウ生成手段403と、ストリームデータ送信手段404とを備える。ストリームデータ生成手段401は、データ受信手段3が受信したデータを、解析のためのデータフォーマットに変換する。フィルタリング手段407は、データに対するフィルタリング処理を行い、フィルタリングによって得たデータを送信データバッファ402に記憶させる。送信データバッファ402は、データを一時的に記憶するメモリである。解析ウィンドウ生成手段403は、送信データバッファにデータが登録されたことを通知されると、時系列データ解析装置5が一度に解析するデータの集合を生成する。ストリームデータ送信手段404は、解析ウィンドウ生成手段403からの命令に応じて、送信データバッファ402から時系列データ解析手段5にデータを送信する。 FIG. 2 is a block diagram showing a configuration example of the data stream generation means 4. The same elements as those shown in FIG. 1 are denoted by the same reference numerals as those in FIG. The data stream generation unit 4 includes a stream data generation unit 401, a filtering unit 407, a transmission data buffer 402, an analysis window generation unit 403, and a stream data transmission unit 404. The stream data generating unit 401 converts the data received by the data receiving unit 3 into a data format for analysis. The filtering unit 407 performs a filtering process on the data, and stores the data obtained by the filtering in the transmission data buffer 402. The transmission data buffer 402 is a memory that temporarily stores data. When notified that the data has been registered in the transmission data buffer, the analysis window generation means 403 generates a set of data that the time-series data analysis device 5 analyzes at a time. The stream data transmission unit 404 transmits data from the transmission data buffer 402 to the time-series data analysis unit 5 in response to a command from the analysis window generation unit 403.
 図3は、解析前処理システムの物理構成の一例を示す説明図である。典型的には、時系列データ発生源1は物理的に分散した位置に存在し、サーバがデータを収集して解析を行う。図3に示す例では、n台のクライアントPC1,PC2,・・・,PCnがそれぞれ、時系列データ発生源1とデータ送信手段2とを備える。各クライアントは、例えば、PC(パーソナルコンピュータ)等の情報処理装置である。また、図3に示す例では、データ解析を行うサーバPC8にデータ受信手段3、データストリーム生成手段4、および時系列データ解析手段5が設けられている。 FIG. 3 is an explanatory diagram showing an example of a physical configuration of the analysis preprocessing system. Typically, the time-series data generation source 1 exists at physically dispersed positions, and the server collects and analyzes the data. In the example shown in FIG. 3, each of the n clients PC1, PC2,..., PCn includes a time-series data generation source 1 and a data transmission unit 2. Each client is an information processing apparatus such as a PC (personal computer). In the example shown in FIG. 3, the data receiving means 3, the data stream generating means 4, and the time series data analyzing means 5 are provided in the server PC 8 that performs data analysis.
 ただし、図3に示す物理構成は例示であり、図3に示す例に限定されない。例えば、複数の時系列データ発生源が、一つの計算機で実現されていてもよい。また、データ受信手段3、データストリーム生成手段4、および時系列データ解析手段5がそれぞれ異なる計算機で実現されてもよい。図3に示す各手段をどのような装置で実現するかは、発生するデータの数、計算機の処理能力、時系列データ発生源1の物理的な分散状況に応じて、適宜定めればよい。時系列データ発生源1、データ送信手段2、データ受信手段3、データストリーム生成手段4、および時系列データ解析手段5を1台の計算機に設ける構成であってもよい。 However, the physical configuration shown in FIG. 3 is an example, and is not limited to the example shown in FIG. For example, a plurality of time-series data generation sources may be realized by a single computer. Further, the data receiving means 3, the data stream generating means 4, and the time series data analyzing means 5 may be realized by different computers. What kind of apparatus implements each unit shown in FIG. 3 may be determined as appropriate according to the number of data to be generated, the processing capability of the computer, and the physical distribution of the time-series data generation source 1. The time series data generation source 1, the data transmission means 2, the data reception means 3, the data stream generation means 4, and the time series data analysis means 5 may be provided in one computer.
 以下の説明では、複数のクライアントがデータを発生させ、このデータをサーバPCに送信して、サーバPCが前処理、および解析を行う場合を例にして説明する。 In the following description, a case where a plurality of clients generate data, transmit this data to the server PC, and the server PC performs preprocessing and analysis will be described as an example.
 各手段の詳細を説明する。 Details of each means will be explained.
 時系列データ発生源1は、解析対象となるデータを継続的に発生させる。時系列データ発生源1がセンサであり、解析対象となるセンサデータを継続的に生成してもよい。また、時系列データ発生源1がWebサーバ等のサーバ装置であり、解析対象となるログを継続的に生成してもよい。本実施形態では、時系列データ発生源1が、車両(プローブカー)に搭載され、例えば速度、位置、進行方向等を測定するセンサである場合を例にして説明する。何万台ものプローブカーを走行させ、各プローブカーのセンサからデータを収集して解析することで、渋滞情報を生成することができる。ただし、本発明は、プローブカーのデータ解析以外にも適用可能である。図3では、各PCが時系列データ発生源1およびデータ送信手段2として動作する場合を示しているが、本例では、プローブカーとは別に設けられる基地局がデータ送信手段2に相当する。 The time series data generation source 1 continuously generates data to be analyzed. The time-series data generation source 1 may be a sensor, and sensor data to be analyzed may be continuously generated. Further, the time-series data generation source 1 may be a server device such as a Web server, and a log to be analyzed may be continuously generated. In the present embodiment, a case where the time series data generation source 1 is mounted on a vehicle (probe car) and is a sensor that measures, for example, speed, position, traveling direction, and the like will be described as an example. Traffic information can be generated by running tens of thousands of probe cars and collecting and analyzing data from the sensors of each probe car. However, the present invention is applicable to other than data analysis of probe cars. FIG. 3 shows a case where each PC operates as the time-series data generation source 1 and the data transmission unit 2. In this example, a base station provided separately from the probe car corresponds to the data transmission unit 2.
 図4は、個々のプローブカーに設けられたセンサ(時系列データ発生源1)が生成するデータの例を示す説明図である。本例において、個々のプローブカーに設けられた時系列データ発生源1は、日時、車両ID、緯度、経度、速度を含むデータを生成する。日時は、データの発生日時である。車両IDは、時系列データ発生源1が搭載されているプローブカーのID(識別情報)である。各プローブカーには、それぞれユニークな車両IDが割り当てられている。緯度は、プローブカーの位置の緯度であり、経度は、プローブカーの位置の経度である。また、速度は、プローブカーの速度であり、図4に示す例では時速である。よって、図4に示すデータは、「2008/7/20 12:00:00」に生成されたデータであり、プローブカー「CID0001」が「緯度35.000」、「経度135.000」に存在し、時速60.0kmで走行していることを示している。本例では、日時、車両ID、緯度、経度、速度の組を1つのデータとする。 FIG. 4 is an explanatory diagram showing an example of data generated by a sensor (time-series data generation source 1) provided in each probe car. In this example, the time-series data generation source 1 provided in each probe car generates data including date and time, vehicle ID, latitude, longitude, and speed. The date and time is the date and time when the data occurred. The vehicle ID is an ID (identification information) of a probe car on which the time-series data generation source 1 is mounted. Each probe car is assigned a unique vehicle ID. The latitude is the latitude of the probe car position, and the longitude is the longitude of the probe car position. The speed is the speed of the probe car, and is the speed in the example shown in FIG. Therefore, the data shown in FIG. 4 is data generated at “2008/7/20 12:00:00”, the probe car “CID0001” exists at “latitude 35.000”, “longitude 135.000”, and the speed is 60 It indicates that the vehicle is traveling at 0.0 km. In this example, a set of date / time, vehicle ID, latitude, longitude, and speed is set as one data.
 データ送信手段2は、時系列データ発生源1が生成したデータを解析前処理システム(サーバPC)に送信する。本例では、プローブカーとは別に設けられた基地局がデータ送信手段2に相当する。また、プローブカーには基地局に対してデータを送信する送信手段(図示略)も設けられている。プローブカーに設けられた送信手段(図示略)は、無線LANを介して基地局(データ送信手段2)にデータを送信し、基地局(データ送信手段2)は、そのデータをサーバPCに送信する。基地局(データ送信手段2)は、例えば、有線LANを介してサーバPCに接続される。本発明は、プローブカーから収集するデータ以外を対象とする場合にも適用可能であり、データ送信手段2のデータ送信方法は特に限定されない。例えば、FTP(FILE TRANSFER PROTOCOL RFC 959)を利用して、データを送信してもよい。 The data transmission means 2 transmits the data generated by the time series data generation source 1 to the analysis preprocessing system (server PC). In this example, a base station provided separately from the probe car corresponds to the data transmission means 2. The probe car is also provided with transmission means (not shown) for transmitting data to the base station. Transmitting means (not shown) provided in the probe car transmits data to the base station (data transmitting means 2) via the wireless LAN, and the base station (data transmitting means 2) transmits the data to the server PC. To do. The base station (data transmission means 2) is connected to the server PC via a wired LAN, for example. The present invention is also applicable to cases other than data collected from a probe car, and the data transmission method of the data transmission means 2 is not particularly limited. For example, data may be transmitted using FTP (FILE | TRANSFER | PROTOCOL | RFC | 959).
 図5は、データ送信手段2が送信するデータの例を示す説明図である。データ送信手段2は、一つ一つのデータを個別にサーバPCに送信するのではなく、一定個数のデータをまとめて送信することが好ましい。このように複数のデータをまとめて送信することにより、通信コストを下げることができる。データ送信手段2は、図5に例示するように、区切り107でデータを連結し、ヘッダ106を付加して、データをサーバPCに送信する。ヘッダ106は、通信プロトコルで定められたヘッダであり、例えば、送信データのサイズ等のパラメータを含む。区切り107は、個々のデータの境界を示す情報である。 FIG. 5 is an explanatory diagram showing an example of data transmitted by the data transmission means 2. It is preferable that the data transmission means 2 does not transmit each piece of data individually to the server PC, but transmits a certain number of data collectively. Thus, by transmitting a plurality of data collectively, communication cost can be reduced. As illustrated in FIG. 5, the data transmission unit 2 concatenates data at a delimiter 107, adds a header 106, and transmits the data to the server PC. The header 106 is a header defined by a communication protocol, and includes parameters such as the size of transmission data, for example. The delimiter 107 is information indicating the boundaries of individual data.
 データ受信手段3は、データ送信手段2が送信したデータ(例えば、図5に例示するデータ)を受信する。データ受信手段3は、データ送信手段2と同じ通信プロトコルに従って、データを受信すればよい。例えば、FTPによってデータを受信してもよい。 The data receiving unit 3 receives the data transmitted by the data transmitting unit 2 (for example, data illustrated in FIG. 5). The data receiving unit 3 may receive data according to the same communication protocol as the data transmitting unit 2. For example, data may be received by FTP.
 データストリーム生成手段4は、データ受信手段3が受信したデータを一つずつのデータに分け、時系列データ手段5が解析を行うためのデータの集合にまとめる。また、データストリーム生成手段4は、データに対してフィルタリング処理を行い、その結果得たデータから解析ウィンドウを生成する。通常、時系列データ解析手段5は、データを一つずつ解析するのではなく、データの集合の解析を繰り返す。解析ウィンドウとは、この1回の解析において解析対象となるデータの集合である。図6は、解析ウィンドウを模式的に示す説明図である。図6に示す各丸印は、時間経過に伴い生成されたデータを表している。このデータ110の集合が解析ウィンドウ120であり、時系列データ解析手段5は、一つの解析ウィンドウを用いて、1回の解析処理を行う。データストリーム生成手段4は、フィルタリングによって得たデータから解析ウィンドウを定める処理を行い、解析ウィンドウを時系列データ解析手段5に送る。 The data stream generating unit 4 divides the data received by the data receiving unit 3 into data one by one and collects the data for analysis by the time-series data unit 5. The data stream generation means 4 performs a filtering process on the data, and generates an analysis window from the data obtained as a result. Usually, the time-series data analysis means 5 does not analyze data one by one, but repeatedly analyzes a set of data. The analysis window is a set of data to be analyzed in this one analysis. FIG. 6 is an explanatory diagram schematically showing an analysis window. Each circle shown in FIG. 6 represents data generated over time. The set of data 110 is an analysis window 120, and the time-series data analysis means 5 performs one analysis process using one analysis window. The data stream generation unit 4 performs processing for determining an analysis window from data obtained by filtering, and sends the analysis window to the time-series data analysis unit 5.
 解析ウィンドウの種類として、例えば、タイムベースウィンドウ(Time-Base Window)やトプルベースウィンドウ(Topple-Base Window)が挙げられる。タイムベースウィンドウは、一定時間毎に、その時間内に属するデータをまとめた解析ウィンドウである。トプルベースウィンドウは、時系列順に一定個数ずつデータを特定して、そのデータをまとめた解析ウィンドウである。図6は、トプルベースウィンドウの例を示し、2個のデータずつ解析ウィンドウを生成した場合を示している。 Examples of analysis window types include time-base window (Time-Base Window) and top-base window (Topple-Base Window). The time base window is an analysis window in which data belonging to a certain time is collected. The topple base window is an analysis window in which a certain number of data is specified in time series and collected. FIG. 6 shows an example of a tuple base window and shows a case where an analysis window is generated for each two pieces of data.
 データストリーム生成手段4は、解析ウィンドウ毎に、解析ウィンドウを識別するためのID(ウィンドウID)を定め、ウィンドウIDをデータに挿入し、時系列データ解析手段5に渡す。 The data stream generation means 4 determines an ID (window ID) for identifying the analysis window for each analysis window, inserts the window ID into the data, and passes it to the time-series data analysis means 5.
 図7は、データストリーム生成手段4の入出力の例を示す説明図である。データストリーム生成手段4には、データ受信手段3から、複数のデータが区切り107で連結され、通信用のヘッダ106を含むデータが入力される。データストリーム生成手段4は、入力されたデータから、一つ一つのデータを切り出し、ウィンドウIDを割り当て、ウィンドウIDを割り当てたデータを時系列データ解析手段5に渡す。データストリーム生成手段4は、一つの解析ウィンドウに含める各データに共通のウィンドウIDを割り当てる。共通のウィンドウIDが割り当てられたデータの集合が、1回の解析で同時に解析される。また、ウィンドウIDが割り当てられる個々のデータは、時系列データ発生源1が生成したデータであり、本例では、日時、車両ID、緯度、経度、速度を含む。 FIG. 7 is an explanatory diagram showing an example of input / output of the data stream generating means 4. The data stream generating unit 4 receives data including a communication header 106 from the data receiving unit 3, in which a plurality of pieces of data are concatenated 107. The data stream generation means 4 cuts out each piece of data from the input data, assigns a window ID, and passes the data assigned the window ID to the time-series data analysis means 5. The data stream generation means 4 assigns a common window ID to each data to be included in one analysis window. A set of data to which a common window ID is assigned is analyzed simultaneously in one analysis. The individual data to which the window ID is assigned is data generated by the time-series data generation source 1, and in this example includes date and time, vehicle ID, latitude, longitude, and speed.
 図2等を参照して、データストリーム生成手段4が備える各要素を説明する。ストリームデータ生成手段401は、データ受信手段3がデータ送信手段2(図2において図示略。図1参照。)から受信したデータに対してフォーマット変換を行い、一つ一つのデータに分割する。ストリームデータ生成手段401は、ヘッダ106および区切り107(図7参照)を判別し、ヘッダ106と区切り107との間のデータや、区切り107間のデータをそれぞれ切り出せばよい。データのフォーマットは、RFC(Request for Comments)等で標準化されており、受信したデータがRFCの仕様に従っている場合、その仕様に従って、ヘッダとデータとの境界やデータ間の区切りを判別し、各データを切り出せばよい。図8は、ストリームデータ生成手段401によって切り出されたデータの例を示す。図5に例示するデータが入力されると、ストリームデータ生成手段401は、図8に示すように3つのデータを切り出す。 Each element provided in the data stream generation unit 4 will be described with reference to FIG. The stream data generating means 401 performs format conversion on the data received by the data receiving means 3 from the data transmitting means 2 (not shown in FIG. 2, refer to FIG. 1), and divides the data into individual data. The stream data generation unit 401 may determine the header 106 and the break 107 (see FIG. 7), and cut out the data between the header 106 and the break 107 and the data between the breaks 107, respectively. The format of the data is standardized by RFC (Request for Comments) etc., and when the received data conforms to the RFC specification, the boundary between the header and the data and the delimiter between the data are determined according to the specification, and each data Can be cut out. FIG. 8 shows an example of data cut out by the stream data generating unit 401. When the data illustrated in FIG. 5 is input, the stream data generation unit 401 cuts out three pieces of data as shown in FIG.
 フィルタリング手段407は、データ受信手段3が受信したデータからストリームデータ生成手段401が切り出した一つ一つのデータに対してフィルタリング処理を行う。換言すれば、フィルタリング手段407は、ストリームデータ生成手段401に切り出された各データが所定の条件を満たしているか否かをデータ毎に判定し、所定の条件を満たしているデータを送信データバッファ402に記憶させ、所定の条件を満たしていないデータを破棄する。この所定の条件とは、データが解析に有用であることを示す条件である。 The filtering unit 407 performs a filtering process on each piece of data cut out by the stream data generating unit 401 from the data received by the data receiving unit 3. In other words, the filtering unit 407 determines for each data whether each piece of data extracted by the stream data generation unit 401 satisfies a predetermined condition, and transmits data that satisfies the predetermined condition to the transmission data buffer 402. The data that does not satisfy the predetermined condition is discarded. The predetermined condition is a condition indicating that the data is useful for analysis.
 所定の条件の例として、例えば、「既に送信バッファ402に記憶されているいずれのデータともデータの内容が異なる」という条件を用いてもよい。仮に、送信データバッファ402に既に記憶されているデータと同内容のデータを送信データバッファ402に記憶させたとする。この場合、ストリームデータ送信手段404は、同内容の複数のデータを時系列データ解析手段5に送信する。しかし、時系列データ解析手段5は解析を行うときに同内容のデータを複数個必要としない場合がある。 As an example of the predetermined condition, for example, a condition that “the data content is different from any data already stored in the transmission buffer 402” may be used. Assume that data having the same contents as data already stored in the transmission data buffer 402 is stored in the transmission data buffer 402. In this case, the stream data transmission unit 404 transmits a plurality of data having the same content to the time-series data analysis unit 5. However, the time series data analysis means 5 may not require a plurality of data having the same contents when performing analysis.
 例えば、個々のプローブカーに設けられたセンサ(時系列データ発生源1)がプローブカーの位置、速度、車両IDを含むデータ(図4参照)を一定時間間隔で発生させ、時系列データ解析手段5がそのデータに関する解析を行うものとする。この場合、停止しているプローブカーは、位置、速度、車両IDが同内容となっているデータを繰り返し発生させる。一方、時系列データ解析手段5の解析処理では、あるプローブカーの状況(位置や速度)が変化したときに、その変化した内容を必要とし、内容が変化していないデータは参照する必要がないことがある。このような場合、位置、速度、車両IDが同内容となっているデータは冗長なデータであり、解析には用いられない。具体例を挙げると、解析において各車両の平均速度を求める場合、停止している車両のデータは平均速度算出には不要であり、そのようなデータを複数個、時系列データ解析手段5に送る必要はない。 For example, a sensor (time-series data generation source 1) provided in each probe car generates data (see FIG. 4) including the position, speed, and vehicle ID of the probe car at regular time intervals, and time-series data analysis means Assume that 5 performs analysis on the data. In this case, the stopped probe car repeatedly generates data having the same content in position, speed, and vehicle ID. On the other hand, in the analysis process of the time-series data analysis means 5, when the situation (position or speed) of a certain probe car changes, the changed contents are required and it is not necessary to refer to the data whose contents have not changed. Sometimes. In such a case, the data with the same contents of position, speed, and vehicle ID is redundant data and is not used for analysis. As a specific example, when calculating the average speed of each vehicle in the analysis, the data of the stopped vehicle is not necessary for calculating the average speed, and a plurality of such data is sent to the time-series data analysis means 5. There is no need.
 フィルタリング手段407は、「既に送信バッファ402に記憶されているいずれのデータともデータの内容が異なる」という条件を満たしているデータを送信データバッファ402に記憶させ、条件を満たしていないデータ(すなわち、既に送信データバッファ402に記憶済みのデータと同内容のデータ)を破棄する。この結果、冗長のデータを時系列解析手段5に送ることを防止できる。 The filtering unit 407 stores data satisfying the condition that “the content of the data is different from any data already stored in the transmission buffer 402” in the transmission data buffer 402, and data that does not satisfy the condition (that is, The data having the same contents as the data already stored in the transmission data buffer 402 is discarded. As a result, it is possible to prevent redundant data from being sent to the time series analysis means 5.
 以下、所定の条件として、「既に送信バッファ402に記憶されているいずれのデータともデータの内容が異なる」という条件を用いる場合を例にして説明する。この条件を第1の条件と記す。第1の条件は、データが解析に有用であることを示す所定の条件の一例であり、第2の実施形態や第3の実施形態で説明するように、他の条件を用いてもよい。 Hereinafter, a case will be described as an example in which a condition that “the data content is different from any data already stored in the transmission buffer 402” is used as the predetermined condition. This condition is referred to as a first condition. The first condition is an example of a predetermined condition indicating that the data is useful for analysis, and other conditions may be used as will be described in the second embodiment or the third embodiment.
 送信データバッファ402は、フィルタリング手段407によって所定の条件を満たしていると判定されたデータを記憶するメモリである。図9は、送信データバッファ402におけるメモリイメージの例を示す模式図である。図9では、リスト構造を採用した場合を例示している。1つのデータを記憶するメモリ領域131に1つのデータが記憶される。また、各メモリ領域を連結するポインタ132が定められる。なお、フィルタリング手段407は、各データを記憶させたときに各ポインタを、ストリームデータ生成手段401を介して解析ウィンドウ生成手段403に通知する。あるいは、解析ウィンドウ生成手段403に直接、ポインタを通知してもよい。ポインタを辿ることで、各データに順にアクセスできる。ただし、送信データバッファ402がデータを記憶する態様は、図9の例に限定されない。例えば、送信データバッファ402は、リスト構造ではなく、テーブル構造でデータを記憶してもよい。 The transmission data buffer 402 is a memory that stores data determined by the filtering unit 407 as satisfying a predetermined condition. FIG. 9 is a schematic diagram illustrating an example of a memory image in the transmission data buffer 402. FIG. 9 illustrates a case where a list structure is employed. One data is stored in the memory area 131 for storing one data. In addition, a pointer 132 that connects the memory areas is defined. The filtering unit 407 notifies each pointer to the analysis window generation unit 403 via the stream data generation unit 401 when each data is stored. Alternatively, the pointer may be notified directly to the analysis window generation unit 403. By following the pointer, each data can be accessed in order. However, the manner in which the transmission data buffer 402 stores data is not limited to the example of FIG. For example, the transmission data buffer 402 may store data in a table structure instead of a list structure.
 解析ウィンドウ生成手段403は、フィルタリング手段407が送信データバッファにデータを記憶させたタイミングで、そのデータを記憶させたメモリ領域へのポインタの通知を受け、ポインタを基に解析ウィンドウを生成する。解析ウィンドウ生成手段403には、解析ウィンドウの仕様が予め設定されている。解析ウィンドウの仕様には、解析ウィンドウの種類やウィンドウのサイズが含まれている。解析ウィンドウの種類として、タイムベースウィンドウで解析するか、トプルベースウィンドウで解析するかが定められる。ウィンドウサイズとして、タイムベースウィンドウの場合には時間が定められ、トプルベースウィンドウの場合にはデータの個数が定められる。 The analysis window generation unit 403 receives a notification of a pointer to the memory area storing the data at the timing when the filtering unit 407 stores the data in the transmission data buffer, and generates an analysis window based on the pointer. In the analysis window generation means 403, the specification of the analysis window is set in advance. The analysis window specifications include the type of analysis window and the size of the window. As the type of the analysis window, it is determined whether the analysis is performed in the time base window or the top base window. As the window size, time is determined in the case of a time base window, and the number of data is determined in the case of a top base window.
 解析ウィンドウ生成手段403は、定められた仕様に従って解析ウィンドウを生成する。例えば、タイムベースウィンドウで解析を行うと定められ、ウィンドウサイズとして時間が定められているとする。この場合、解析ウィンドウ生成手段403は、解析ウィンドウを生成したときに、その解析ウィンドウの生成日時を記憶し、その日時にウィンドウサイズを加算することによって、次の解析ウィンドウを生成するタイミングを算出する。そして、解析ウィンドウ生成手段403は、新たなデータが追加されたことに伴い、ポインタの通知をフィルタリング手段407から受けると、通知されたポインタが示すメモリ領域のデータにおける日時のフィールドにアクセスする。そして、次の解析ウィンドウの生成タイミングを越えている日時が記憶されているか否かを判定する。次の解析ウィンドウの生成タイミングを越える日時が記憶されている場合、解析ウィンドウ生成手段403は、送信データバッファに記憶された各データに対して新たなウィンドウIDを割り当てることによって、それらの一つの解析ウィンドウと定め、ストリームデータ送信手段404にそのデータの集合(解析ウィンドウ)の送信命令を発行する。 The analysis window generation means 403 generates an analysis window according to the defined specifications. For example, assume that analysis is performed using a time base window, and time is defined as the window size. In this case, when generating the analysis window, the analysis window generating unit 403 stores the generation date and time of the analysis window, and calculates the timing for generating the next analysis window by adding the window size to the date and time. . When the notification of the pointer is received from the filtering unit 407 as new data is added, the analysis window generation unit 403 accesses the date / time field in the data in the memory area indicated by the notified pointer. Then, it is determined whether or not the date and time exceeding the generation timing of the next analysis window is stored. When the date and time exceeding the generation timing of the next analysis window is stored, the analysis window generation means 403 assigns a new window ID to each data stored in the transmission data buffer, thereby analyzing one of those analysis. A window is defined, and a transmission command for the collection of data (analysis window) is issued to the stream data transmission unit 404.
 また、例えば、トプルベースウィンドウで解析を行うと定められ、ウィンドウサイズとしてデータ数が定められているとする。解析ウィンドウ生成手段403は、新たなデータが追加されたことに伴ってポインタの通知を受ける度に、その通知を受けた回数をカウントする。通知を受けた回数は、送信データバッファ402に追加されたデータ数を意味する。ウィンドウサイズで定められた個数分の通知を受けると、解析ウィンドウ生成手段403は、送信データバッファに記憶された各データに対して新たなウィンドウIDを割り当てることによって、それらの一つの解析ウィンドウと定め、ストリームデータ送信手段404にそのデータの集合(解析ウィンドウ)の送信命令を発行する。このとき、通知を受けた回数のカウント値を0に初期化する。 Also, for example, it is determined that the analysis is performed in a top base window, and the number of data is determined as the window size. The analysis window generation unit 403 counts the number of times the notification is received each time the pointer notification is received as new data is added. The number of times the notification is received means the number of data added to the transmission data buffer 402. Upon receiving notifications for the number of windows determined by the window size, the analysis window generation means 403 assigns a new window ID to each data stored in the transmission data buffer, thereby determining that one analysis window. The stream data transmission means 404 issues a command to transmit the data set (analysis window). At this time, the count value of the number of times of notification is initialized to zero.
 なお、タイムベースウィンドウの場合も、トプルベースウィンドウの場合も、データの集合の送信命令として、新たに定めた解析ウィンドウに属する各データを記憶するメモリ領域へのポインタの集合を発行する。 In both the time base window and the tuple base window, a set of pointers to memory areas for storing data belonging to the newly defined analysis window is issued as a data set transmission command.
 ストリームデータ送信手段404は、データの集合の送信命令(すなわち、送信対象のデータを記憶するメモリ領域へのポインタ)を解析ウィンドウ生成手段403から受け取ると、その各ポインタが示すメモリ領域に記憶されたデータを時系列データ解析手段5に送信する。ストリームデータ送信手段404は、データを送信すると、そのデータを送信データバッファ402から削除する。 When the stream data transmission unit 404 receives a transmission command for a set of data (that is, a pointer to a memory area for storing data to be transmitted) from the analysis window generation unit 403, the stream data transmission unit 404 stores the instruction in the memory area indicated by each pointer. Data is transmitted to the time series data analysis means 5. When the data is transmitted, the stream data transmission unit 404 deletes the data from the transmission data buffer 402.
 時系列データ解析手段5は、データストリーム生成手段4から受信するデータを解析する。時系列データ解析手段5は、データストリーム生成手段4から受信したデータを記憶するための記憶手段(図示せず)を備え、受信したデータをその記憶手段に記憶させる。そして、時系列データ解析手段5は、同一のウィンドウIDが付加されているデータを読み込み、そのデータを対象にして解析を行う。また、読み込んだデータは、記憶手段から削除する。プローブカーのデータの解析を行う場合、時系列データ解析手段5は、例えば、プローブカーのデータを道路地図にマッチングさせて、プローブカーの平均速度から、どの位置で渋滞が生じているかを示す渋滞情報を生成する。この処理を、一定間隔(例えば、5分間隔)で行う。この場合、タイムベースウィンドウで解析を行うと定めておけばよい。時系列データ解析手段5が行う処理は、データ発生源1が発生させるデータや、解析目的に応じて決めておけばよく、特定の解析処理に限定されない。 The time series data analysis means 5 analyzes the data received from the data stream generation means 4. The time series data analysis means 5 includes storage means (not shown) for storing the data received from the data stream generation means 4, and stores the received data in the storage means. Then, the time-series data analysis unit 5 reads the data to which the same window ID is added and analyzes the data. The read data is deleted from the storage means. When analyzing the probe car data, the time-series data analysis means 5 matches the probe car data with a road map, for example, and shows the traffic jam at which position the traffic jam occurs from the average speed of the probe car. Generate information. This process is performed at regular intervals (for example, every 5 minutes). In this case, it may be determined that the analysis is performed in the time base window. The processing performed by the time-series data analysis unit 5 may be determined according to the data generated by the data generation source 1 and the analysis purpose, and is not limited to a specific analysis process.
 図10は、フィルタリング手段407の構成例を示すブロック図である。フィルタリング手段407は、データ選別手段40701と同一性判定手段40702とを備える。 FIG. 10 is a block diagram illustrating a configuration example of the filtering unit 407. The filtering unit 407 includes a data selection unit 40701 and an identity determination unit 40702.
 同一性判定手段40702は、ストリームデータ生成手段401から入力される各データと、送信データバッファ402に既に記憶されている各データとの間で、データ同士の内容が同一となっているか否かを判定する。ストリームデータ生成手段401から入力される個々のデータは、フィルタリングの判定対象となるデータであり、以下、フィルタリング判定対象データと記す。 The identity determination unit 40702 determines whether or not the contents of the data are the same between the data input from the stream data generation unit 401 and the data already stored in the transmission data buffer 402. judge. Each piece of data input from the stream data generation unit 401 is data to be subjected to filtering determination, and is hereinafter referred to as filtering determination target data.
 本例では、データの内容が同一であるというために、時系列データ発生源1が同一であることは必須であるものとする。例えば、図4に例示するプローブカーに関するデータの場合、車両IDが同一であることは必須である。車両IDが異なっているデータ同士は、たとえ、緯度、経度、速度が一致していても同一内容のデータではない。また、時系列データ発生源1が同一であることをデータ同一の必須条件とする場合、時間の経過に伴って発生する各データ間では日時は異なる。従って、内容が同一か否かを判定する場合、日時が同一であるか否かは無視してよい。データに含まれる項目の中に、日時のように、同一であるか否かを無視してよい項目があってもよい。 In this example, since the data contents are the same, it is essential that the time series data source 1 is the same. For example, in the case of data relating to the probe car illustrated in FIG. 4, it is essential that the vehicle IDs are the same. Data with different vehicle IDs are not data of the same content even if the latitude, longitude, and speed match. In addition, when it is assumed that the same time-series data generation source 1 is the same data, the date and time are different among the data generated with the passage of time. Therefore, when determining whether or not the contents are the same, whether or not the dates and times are the same may be ignored. Among the items included in the data, there may be items such as date and time that can be ignored whether or not they are the same.
 また、データ中の誤差を含む項目(例えば、図4に例示する緯度、経度、速度)に関しては、完全に一致している必要はない。この場合、同一性判定手段40702は、送信データバッファ402に記憶されているデータに含まれる値と、フィルタリング判定対象データに含まれている値との差を計算し、その差が予め定められた範囲内であるか否かを判定すればよい。例えば、速度に関しては、送信データバッファ402に記憶されているデータ中の速度と、フィルタリング判定対象データ中の速度との差を計算し、その差が-5~+5の範囲内であれば、速度が同一と判定する。本例で示した-5,+5の単位は「km/h」である。緯度や経度に関しても、データ間の値の差が、予め定められた範囲内に収まっているか否かを判定して、収まっていれば同内容と判定すればよい。 Also, items including errors in the data (for example, the latitude, longitude, and speed illustrated in FIG. 4) do not need to match completely. In this case, the identity determination unit 40702 calculates the difference between the value included in the data stored in the transmission data buffer 402 and the value included in the filtering determination target data, and the difference is determined in advance. What is necessary is just to determine whether it is in the range. For example, regarding the speed, the difference between the speed in the data stored in the transmission data buffer 402 and the speed in the filtering determination target data is calculated, and if the difference is within the range of −5 to +5, the speed Are determined to be the same. The unit of −5, +5 shown in this example is “km / h”. Regarding latitude and longitude, it is determined whether or not the difference in value between the data is within a predetermined range, and if it is within the range, it may be determined that the content is the same.
 このように、同一性判定手段40702は、フィルタリング判定対象データと、送信データバッファ402に記憶されたデータとの間で、時系列データ発生源1のID(例えば車両ID)が合致し、他の項目(例えば、緯度、経度、速度)の内容も同内容であると判定した場合に、データが同内容であると判定すればよい。また、時系列データ発生源1のIDが一致しなかったり、あるいは、他のいずれかの項目(例えば、緯度、経度、速度のいずれか)に同内容でないと判定した項目があったりした場合に、データが同内容でないと判定すればよい。 As described above, the identity determination unit 40702 matches the ID of the time-series data generation source 1 (for example, the vehicle ID) between the filtering determination target data and the data stored in the transmission data buffer 402. If it is determined that the contents of the items (for example, latitude, longitude, and speed) are the same, the data may be determined to be the same. Also, when the IDs of the time-series data source 1 do not match or there are items that are determined not to have the same content in any of the other items (for example, latitude, longitude, or speed) What is necessary is just to determine that data is not the same content.
 データ選別手段40701は、フィルタリング判定対象データ毎に、フィルタリング判定対象データの内容が、送信データバッファ402中のいずれのデータとも同内容でないと判定されたか否かを確認する。そして、データ選別手段40701は、その確認結果に応じて、フィルタリング判定対象データを送信データバッファ402に記憶させるか、あるいは、破棄する。 The data selection means 40701 checks for each filtering determination target data whether or not the content of the filtering determination target data is determined not to be the same as any data in the transmission data buffer 402. Then, the data selection means 40701 stores the filtering determination target data in the transmission data buffer 402 or discards it according to the confirmation result.
 フィルタリング判定対象データの内容が、送信データバッファ402中のいずれのデータとも同内容でないと判定された場合、そのフィルタリング対象データは上記の第1の条件を満たしていることになる。この場合、データ選別手段40701は、フィルタリング判定対象データを送信データバッファ402に記憶させる。そして、データ選別手段40701は、フィルタリング判定対象データを送信データバッファ402に記憶させたときに、そのメモリ領域のポインタを解析ウィンドウ生成手段403に通知する。 When it is determined that the content of the filtering determination target data is not the same as any data in the transmission data buffer 402, the filtering target data satisfies the first condition. In this case, the data selection unit 40701 stores the filtering determination target data in the transmission data buffer 402. When the filtering selection target data is stored in the transmission data buffer 402, the data selection unit 40701 notifies the analysis window generation unit 403 of the pointer of the memory area.
 一方、フィルタリング判定対象データの内容が送信データバッファ402中のいずれかのデータと同内容であると判定された場合、そのフィルタリング対象データは上記の第1の条件を満たしていないことになる。この場合、データ選別手段40701は、フィルタリング判定対象データを破棄する。 On the other hand, when it is determined that the content of the filtering determination target data is the same as any data in the transmission data buffer 402, the filtering target data does not satisfy the first condition. In this case, the data selection unit 40701 discards the filtering determination target data.
 本実施形態において、データ受信手段3、データストリーム生成手段4のストリームデータ生成手段401、フィルタリング手段407(データ選別手段40701、同一性判定手段40702)、解析ウィンドウ生成手段403、ストリームデータ送信手段404は、例えば、解析前処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、解析前処理システムが解析前処理プログラムを記憶するプログラム記憶手段(図示略)を備え、CPUがそのプログラムを読み込み、そのプログラムに従って、データ受信手段3、データストリーム生成手段4のストリームデータ生成手段401、フィルタリング手段407、解析ウィンドウ生成手段403、ストリームデータ送信手段404として動作すればよい。また、これらの各手段が別々の専用回路によって実現されていてもよい。 In this embodiment, the data receiving means 3, the stream data generating means 401 of the data stream generating means 4, the filtering means 407 (data selecting means 40701, identity determining means 40702), the analysis window generating means 403, and the stream data transmitting means 404 are: For example, it is realized by a CPU of a computer that operates according to an analysis preprocessing program. In this case, the analysis preprocessing system includes program storage means (not shown) for storing the analysis preprocessing program, and the CPU reads the program, and in accordance with the program, the data receiving means 3 and the data stream generating means 4 generate stream data. The unit 401, the filtering unit 407, the analysis window generation unit 403, and the stream data transmission unit 404 may be operated. Each of these means may be realized by separate dedicated circuits.
 また、時系列データ発生源1、データ送信手段2、時系列データ解析手段5も、例えば、プログラムに従って動作するCPUによって実現される。 Further, the time-series data generation source 1, the data transmission means 2, and the time-series data analysis means 5 are also realized by a CPU that operates according to a program, for example.
 次に、動作について説明する。
 図11は、本発明の第1の実施形態の処理経過の例を示すフローチャートである。各時系列データ発生源1がデータを発生し、データ送信手段2が解析前処理システムにデータを送信する処理を時系列データ発生送信ステップ(ステップS1)と記す。また、データを受信した解析前処理システム(例えばサーバPC)がデータを受信し、データに対するフィルタリング処理を行い、データを送信データバッファ402に記憶させ、解析ウィンドウを生成する処理を、データストリーム生成ステップ(ステップS2)と記す。また、時系列データ解析手段5がデータを解析する処理を時系列データ受信解析ステップ(ステップS3)と記す。ステップS1,S2,S3は、互いに独立した処理であり、並行して実行される。すなわち、ステップS1,S2,S3は、非同期に実行される。
Next, the operation will be described.
FIG. 11 is a flowchart illustrating an example of processing progress according to the first embodiment of this invention. A process in which each time-series data generation source 1 generates data and the data transmission means 2 transmits data to the pre-analysis processing system is referred to as a time-series data generation / transmission step (step S1). A data stream generation step includes a process in which the analysis preprocessing system (for example, server PC) receiving the data receives the data, performs a filtering process on the data, stores the data in the transmission data buffer 402, and generates an analysis window. This is described as (Step S2). A process in which the time series data analyzing means 5 analyzes the data is referred to as a time series data reception analyzing step (step S3). Steps S1, S2, and S3 are independent processes and are executed in parallel. That is, steps S1, S2, and S3 are executed asynchronously.
 時系列データ発生送信ステップ(ステップS1)では、個々の時系列データ発生源1は、時間経過に伴って継続的にデータを発生させる(ステップS101)。個々の時系列データ発生源1は、発生させるデータに発生時刻(データ生成時刻)を含めてもよい。各時系列データ発生源1は、データをデータ送信手段2に送り、データ送信手段2は、データをまとめて送信するためにデータをバッファ(図示略)に記憶させる(ステップS102)。このバッファはデータ送信手段2側でデータをバッファリングするためのバッファである。また、データ送信手段2は、バッファに蓄積したデータを送信するタイミングになったか否かを判定する(ステップS103)。例えば、所定個数のデータが蓄積されたならば、データを送信すると判定し、蓄積されたデータが所定個数に達していなければデータを送信しないと判定してもよい。あるいは、前回のデータ送信から一定期間経過したならばデータを送信すると判定し、また一定期間経過していなければ送信しないと判定してもよい。データを送信するタイミングになったと判定した場合(ステップS103におけるYes)、データ送信手段2は、データを結合して解析前処理システム7に送信し(ステップS104)、送信したデータをバッファから削除する(ステップS105)。データを送信するタイミングになっていない場合、ステップS101,S102を繰り返す。 In the time-series data generation and transmission step (step S1), each time-series data generation source 1 continuously generates data as time passes (step S101). Each time-series data generation source 1 may include the generation time (data generation time) in the data to be generated. Each time-series data generation source 1 sends data to the data transmission unit 2, and the data transmission unit 2 stores the data in a buffer (not shown) in order to transmit the data collectively (step S102). This buffer is a buffer for buffering data on the data transmission means 2 side. Further, the data transmission means 2 determines whether or not it is time to transmit the data accumulated in the buffer (step S103). For example, if a predetermined number of data has been accumulated, it may be determined that data is to be transmitted, and if the accumulated data has not reached a predetermined number, it may be determined that no data will be transmitted. Alternatively, it may be determined that data will be transmitted if a certain period has elapsed since the previous data transmission, and may not be transmitted if the certain period has not elapsed. If it is determined that it is time to transmit data (Yes in step S103), the data transmission unit 2 combines the data and transmits it to the pre-analysis processing system 7 (step S104), and deletes the transmitted data from the buffer. (Step S105). If it is not time to transmit data, steps S101 and S102 are repeated.
 なお、時系列データ発生源1とデータ送信手段2とが同一の装置において実現されている場合、ステップS101,S102,S103,S105の処理を時系列データ発生源1が実行してもよい。 In addition, when the time series data generation source 1 and the data transmission means 2 are realized in the same device, the time series data generation source 1 may execute the processes of steps S101, S102, S103, and S105.
 データストリーム生成ステップ(ステップS2)では、データ受信手段3は、データ送信手段2が送信したデータを受信する(ステップS201)。データ受信手段3も、バッファ(図示略)を備え、受信したデータを一旦バッファに記憶させる。そして、データの受信タイミングとは非同期に、バッファのデータをデータストリーム生成手段4に入力する。このため、ステップS2をステップS1とは非同期に行うことができる。 In the data stream generation step (step S2), the data reception means 3 receives the data transmitted by the data transmission means 2 (step S201). The data receiving means 3 also includes a buffer (not shown), and temporarily stores the received data in the buffer. Then, the data in the buffer is input to the data stream generation means 4 asynchronously with the data reception timing. For this reason, step S2 can be performed asynchronously with step S1.
 ストリームデータ生成手段401は、データ受信手段3から入力されたデータをフォーマット変換し、結合されたデータから一つ一つのデータを切り出す(ステップS202)。ストリームデータ生成手段401は、切り出した個々のデータをフィルタリング手段407に入力する。フィルタリング手段407は、入力されたデータに対するフィルタリング処理を行う(ステップS203)。すなわち、フィルタリング手段407は、入力されたデータが所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータを送信データバッファ402に記憶させ、所定の条件を満たしていないデータを破棄する。また、フィルタリング手段407は、データを記憶させたメモリ領域へのポインタを、解析ウィンドウ生成手段403に通知する。 The stream data generating unit 401 converts the format of the data input from the data receiving unit 3 and cuts out each piece of data from the combined data (step S202). The stream data generation unit 401 inputs the cut out individual data to the filtering unit 407. The filtering unit 407 performs a filtering process on the input data (step S203). That is, the filtering unit 407 determines whether or not the input data satisfies a predetermined condition, stores the data that satisfies the predetermined condition in the transmission data buffer 402, and does not satisfy the predetermined condition. Is discarded. The filtering unit 407 notifies the analysis window generation unit 403 of a pointer to the memory area in which the data is stored.
 解析ウィンドウ生成手段403はポインタを通知されると、解析ウィンドウを生成する条件が満たされたか否かを判定する(ステップS204)。例えば、トプルベースウィンドウで解析を行うと指定されている場合では、ウィンドウサイズで定められた個数分の通知を受けたか否かを判定する。あるいは、タイムベースウィンドウで解析を行うと指定されている場合では、前回の解析ウィンドウ生成時以降、ウィンドウサイズで定められた期間が経過しているか否かを判定する。解析ウィンドウを生成する条件が満たされている場合(ステップS204のYes)、解析ウィンドウに含める各データに対して、共通のウィンドウIDを追加し、解析ウィンドウの送信命令を発行する(ステップS205)。ストリームデータ送信手段404は、この送信命令に応じて、共通のウィンドウIDが割り当てられたデータ群(すなわち、解析ウィンドウ)を時系列データ解析手段5に送信する(ステップS206)。そして、ストリームデータ送信手段404は、ステップS206で送信したデータを送信データバッファ402から削除する(ステップS207)。 When the analysis window generation unit 403 is notified of the pointer, the analysis window generation unit 403 determines whether or not a condition for generating the analysis window is satisfied (step S204). For example, in the case where it is specified that the analysis is performed in the top base window, it is determined whether or not the number of notifications determined by the window size has been received. Alternatively, when the analysis is specified to be performed in the time base window, it is determined whether or not the period determined by the window size has elapsed since the last analysis window generation. If the conditions for generating the analysis window are satisfied (Yes in step S204), a common window ID is added to each data to be included in the analysis window, and an analysis window transmission command is issued (step S205). In response to the transmission command, the stream data transmission unit 404 transmits a data group (that is, an analysis window) to which a common window ID is assigned to the time-series data analysis unit 5 (step S206). Then, the stream data transmission unit 404 deletes the data transmitted in step S206 from the transmission data buffer 402 (step S207).
 一つ一つのデータを切り出して解析ウィンドウとする処理が解析の前処理に相当する。 The process of cutting out each piece of data and using it as an analysis window corresponds to the pre-processing of analysis.
 時系列データ受信解析ステップ(ステップS3)では、時系列データ解析手段5は、ストリームデータ送信手段404が送信したデータ(解析ウィンドウ)を受信する(ステップS301)。時系列データ解析手段5は、解析用バッファ(図示略)を備え、ストリームデータ送信手段404が送信したデータを一旦解析用バッファに記憶させる。そして、時系列データ解析手段5は、データの受信タイミングとは非同期に解析用バッファに記憶したデータを解析する(ステップS302)。このため、ステップS2とステップS3も非同期に行うことができる。具体的には、ストリームデータ送信手段404が解析ウィンドウを送信する動作とは非同期にデータ解析を行うことができる。時系列データ解析手段5は、ステップS302での解析が終了したデータを時系列データ解析手段5のバッファから削除する(ステップS303)。 In the time-series data reception analysis step (step S3), the time-series data analysis unit 5 receives the data (analysis window) transmitted by the stream data transmission unit 404 (step S301). The time-series data analysis unit 5 includes an analysis buffer (not shown), and temporarily stores the data transmitted by the stream data transmission unit 404 in the analysis buffer. Then, the time-series data analysis means 5 analyzes the data stored in the analysis buffer asynchronously with the data reception timing (step S302). For this reason, step S2 and step S3 can also be performed asynchronously. Specifically, data analysis can be performed asynchronously with the operation in which the stream data transmission unit 404 transmits the analysis window. The time-series data analyzing unit 5 deletes the data that has been analyzed in step S302 from the buffer of the time-series data analyzing unit 5 (step S303).
 図12は、フィルタリング処理(ステップS203)の処理経過の例を示すフローチャートである。ストリームデータ生成手段401は、一つ一つのデータを切り出すと、(ステップS202、図11参照)、そのデータをフィルタリング手段407に入力する。この個々のデータはフィルタリング判定対象データである。 FIG. 12 is a flowchart showing an example of processing progress of the filtering process (step S203). When the stream data generation unit 401 cuts out each piece of data (see step S202, FIG. 11), the stream data generation unit 401 inputs the data to the filtering unit 407. Each piece of data is filtering determination target data.
 同一性判定手段40702は、フィルタリング判定対象データが入力されると、フィルタリング判定対象データ毎に、送信データバッファ402に記憶された個々のデータとの間で、同内容であるか否かを判定する(ステップS701)。 When the filtering determination target data is input, the identity determination unit 40702 determines whether or not the content is the same with each piece of data stored in the transmission data buffer 402 for each filtering determination target data. (Step S701).
 データ選別手段40701は、送信データバッファ402中のいずれのデータとも同内容でないと判定されたフィルタリング判定対象データを、送信データバッファ402に記憶させ、データを記憶させたメモリ領域へのポインタを、解析ウィンドウ生成手段403に通知する(ステップS702)。一方、送信データバッファ402中のいずれかのデータと同内容であると判定されたフィルタリング判定対象データを破棄する(ステップS702)。そして、図11に示すステップS204以降の動作を行う。 The data selection unit 40701 stores the filtering determination target data determined not to have the same content as any data in the transmission data buffer 402 in the transmission data buffer 402, and analyzes the pointer to the memory area in which the data is stored. The window generation unit 403 is notified (step S702). On the other hand, the filtering determination target data determined to have the same content as any data in the transmission data buffer 402 is discarded (step S702). And the operation | movement after step S204 shown in FIG. 11 is performed.
 本実施形態によれば、各時系列データ発生源1が発生させたデータをデータ受信手段3が受信すると、そのデータをデータベースやファイルとしてではなく、メモリ(送信データバッファ402)に記憶させる。SQLでデータベースにアクセスする場合や、ファイルにアクセスする場合には、処理時間がかかってしまうが、本願発明では、メモリにデータを記憶させるので迅速にデータを時系列データ解析手段5に送ることができる。 According to this embodiment, when the data receiving means 3 receives the data generated by each time-series data generation source 1, the data is stored in the memory (transmission data buffer 402), not as a database or a file. When accessing a database by SQL or accessing a file, processing time is required. However, in the present invention, since data is stored in the memory, the data can be sent to the time-series data analysis means 5 quickly. it can.
 また、特に本実施形態では、データ受信手段3が受信したデータを全て送信データバッファ402に記憶させるのではなく、フィルタリング処理で選別したデータを送信データバッファ402に記憶させる。従って、時系列データ発生源1が多数存在し、大量のデータを受信したとしても、解析前処理システムにおいてデータが溢れることを防止して、前処理を行ったデータを時系列データ解析手段5に送ることができる。 In particular, in the present embodiment, not all data received by the data receiving unit 3 is stored in the transmission data buffer 402, but data selected by the filtering process is stored in the transmission data buffer 402. Therefore, even if there are a large number of time-series data generation sources 1 and a large amount of data is received, it is possible to prevent the data from overflowing in the analysis pre-processing system and to send the pre-processed data to the time-series data analysis means 5 Can send.
 また、フィルタリング手段407は、解析で用いない冗長なデータを破棄する。従って、冗長なデータを送信データバッファ402に記憶させることを防止でき、送信データバッファ402を有効に活用することができる。 Also, the filtering unit 407 discards redundant data that is not used in the analysis. Accordingly, it is possible to prevent redundant data from being stored in the transmission data buffer 402, and the transmission data buffer 402 can be used effectively.
 さらに、個々のデータ送信手段2あるいは時系列データ発生源1にフィルタリング処理を実行させるのではなく、解析前処理システムが備えるフィルタリング手段407が、データ送信手段2および時系列データ発生源1とは非同期にフィルタリング処理を実行する。従って、データ送信手段2あるいは時系列データ発生源1に対して個別にフィルタリング処理を行わせるような制御を行う必要がない。 Further, the filtering means 407 included in the pre-analysis processing system is not synchronized with the data transmission means 2 and the time series data generation source 1 instead of causing the individual data transmission means 2 or the time series data generation source 1 to perform the filtering process. Execute the filtering process. Therefore, it is not necessary to perform control for causing the data transmission means 2 or the time-series data generation source 1 to perform filtering processing individually.
実施形態2.
 本発明の第2の実施形態の解析前処理システムも第1の実施形態と同様に、データ受信手段3とデータストリーム生成手段4とを備え(図1参照)、時系列データ発生源1が発生させたデータをデータ送信手段2から受信すると、データの前処理を行い、時系列データ解析手段5に送る。
Embodiment 2. FIG.
Similarly to the first embodiment, the analysis preprocessing system of the second embodiment of the present invention includes a data receiving means 3 and a data stream generating means 4 (see FIG. 1), and a time-series data generation source 1 is generated. When the received data is received from the data transmission means 2, the data is preprocessed and sent to the time series data analysis means 5.
 また、第2の実施形態においても、第1の実施形態と同様に、データストリーム生成手段4は、ストリームデータ生成手段401と、フィルタリング手段407と、送信データバッファ402と、解析ウィンドウ生成手段403と、ストリームデータ送信手段404とを備える(図2参照)。ただし、フィルタリング手段407の動作が第1の実施形態と異なる。他の各手段は上記の第1の実施形態と同様である。 Also in the second embodiment, as in the first embodiment, the data stream generation unit 4 includes a stream data generation unit 401, a filtering unit 407, a transmission data buffer 402, and an analysis window generation unit 403. And stream data transmission means 404 (see FIG. 2). However, the operation of the filtering unit 407 is different from that of the first embodiment. Other means are the same as those in the first embodiment.
 上記の第1の実施形態では、フィルタリング処理で用いる所定の条件として、「既に送信バッファ402に記憶されているいずれのデータともデータの内容が異なる」という条件(第1の条件)を用いる場合を説明した。第2の実施形態では、所定の条件として他の条件を用いる。 In the first embodiment described above, a case where the condition (first condition) that “the content of the data is different from any data already stored in the transmission buffer 402” is used as the predetermined condition used in the filtering process. explained. In the second embodiment, other conditions are used as the predetermined conditions.
 第2の実施形態では、フィルタリング処理で用いる所定の条件として、「データの内容が予め定められた基準を満たしている」という条件を用いる。この条件を、第2の条件と記す。例えば、データに含まれる内容に誤差が含まれることがあるが、誤差を含むデータであっても、基準を満たすデータであれば、解析に有効に用いることができる。このように解析に用いることができる有効なデータを判別するための基準を予め定めておき、フィルタリング手段407は、フィルタリング判定対象データの内容がこの基準を満たしているか否かを判定し、満たしていないデータを破棄する。 In the second embodiment, as the predetermined condition used in the filtering process, a condition that “the content of the data satisfies a predetermined standard” is used. This condition is referred to as a second condition. For example, an error may be included in the contents included in the data. Even if the data includes an error, it can be effectively used for analysis if the data satisfies the criteria. In this way, a criterion for discriminating valid data that can be used for analysis is determined in advance, and the filtering unit 407 determines whether or not the content of the filtering determination target data satisfies this criterion, and satisfies the criterion. Discard no data.
 個々のプローブカーに設けられたセンサ(時系列データ発生源1)が発生させるデータを例に説明すると、データは位置、速度、方向等を含むことが多い。ただし、これらの値は誤差を含む。特に位置(例えば、緯度、経度)は、GPS(Global Positioning System)によって取得することが一般的であり、建物等の影響を受けると位置の計算に大きな誤差を含むことがある。そのような大きな誤差を含むデータは解析に利用できないので、フィルタリング手段407が排除する。 Referring to an example of data generated by a sensor (time-series data generation source 1) provided in each probe car, the data often includes position, speed, direction, and the like. However, these values include errors. In particular, the position (for example, latitude and longitude) is generally acquired by GPS (Global Positioning System), and if it is affected by a building or the like, the position calculation may include a large error. Since the data including such a large error cannot be used for analysis, the filtering unit 407 eliminates it.
 図13は、第2の実施形態におけるフィルタリング手段407の構成例を示すブロック図である。第2の実施形態におけるフィルタリング手段407は、有効データ定義手段40713と、有効性判定手段40712と、データ選別手段40711とを備える。 FIG. 13 is a block diagram illustrating a configuration example of the filtering unit 407 according to the second embodiment. The filtering means 407 in the second embodiment includes valid data definition means 40713, validity determination means 40712, and data selection means 40711.
 有効データ定義手段40713は、有効に用いることができるデータの内容の基準を記憶する記憶装置である。図14は、有効データ定義手段40713が記憶する基準の例を示す説明図である。図14に例示する基準は、図4に例示するデータに対応し、日時、車両ID、緯度、経度、速度が満たすべき基準を示している。図4に示す「最小」、「最大」は、これらの項目の値の範囲を規定する。データに含まれる項目の値が、「最小」から「最大」までの範囲に含まれていれば、その項目の値は有効である。例えば、図14に示す例において、日時に関しては、「現在時刻から1日前」~「現在時刻」までの範囲に含まれていれば有効である。同様に、車両IDに関しては、「CID0001」~「CID9999」の範囲に含まれていれば有効である。このように、項目の値が文字列と数値の組み合わせである場合、その数値の範囲を規定してもよい。緯度に関しては、34.000~36.000の範囲に含まれていれば有効である。経度に関しては、134.000~136.000の範囲に含まれていれば有効である。速度に関しては、0~120の範囲に含まれていれば有効である。本例では、「最小」、「最大」を定めているが、いずれか一方のみを定めていてもよい。 The valid data definition unit 40713 is a storage device that stores a reference for data contents that can be used effectively. FIG. 14 is an explanatory diagram illustrating an example of the criteria stored in the valid data definition unit 40713. The standard illustrated in FIG. 14 corresponds to the data illustrated in FIG. 4 and indicates the standard that should be satisfied by the date, vehicle ID, latitude, longitude, and speed. “Minimum” and “maximum” shown in FIG. 4 define the range of values of these items. If the value of an item included in the data is included in the range from “minimum” to “maximum”, the value of the item is valid. For example, in the example shown in FIG. 14, the date and time are valid if they are included in the range from “one day before the current time” to “the current time”. Similarly, the vehicle ID is valid if it is included in the range of “CID0001” to “CID9999”. Thus, when the value of the item is a combination of a character string and a numerical value, the numerical value range may be defined. As for latitude, it is effective if it falls within the range of 34.000 to 36.000. As for longitude, it is effective if it falls within the range of 134.000 to 136.000. Regarding the speed, it is effective if it is within the range of 0 to 120. In this example, “minimum” and “maximum” are defined, but only one of them may be defined.
 図14に示す「差分」は、直前のデータ(時系列データ発生源が同一の直前のデータ)との関係を規定する基準である。例えば、図14に示す例において、日時に関しては、車両IDが同一の直前のデータとの日時の差分が1時間以内であれば有効である。車両IDに関しては、「差分」は規定されない。緯度に関しては、車両IDが同一の直前のデータとの緯度の差分が0.01以下であれば有効である。経度に関しては、車両IDが同一の直前のデータとの経度の差分が0.01以下であれば有効である。速度に関しては、車両IDが同一の直前のデータとの速度の差分が120以下であれば有効である。 The “difference” shown in FIG. 14 is a standard that defines the relationship with the immediately preceding data (the immediately preceding data with the same time-series data generation source). For example, in the example shown in FIG. 14, the date and time are valid if the date and time difference from the immediately preceding data with the same vehicle ID is within one hour. For the vehicle ID, “difference” is not defined. Regarding the latitude, it is effective if the difference in latitude from the immediately preceding data with the same vehicle ID is 0.01 or less. Regarding the longitude, it is effective if the difference in longitude from the immediately preceding data with the same vehicle ID is 0.01 or less. Regarding the speed, it is effective if the difference in speed from the immediately preceding data with the same vehicle ID is 120 or less.
 「最小」、「最大」が規定する基準は、データに含まれる項目が満たすべき絶対的な基準である。「差分」は、データに含まれる項目が他のデータとの関係において満たすべき相対的な基準である。図14に示す例では、絶対的な基準(最小、最大)と、相対的な基準(差分)とを定めているが、いずれか一方のみを定めていてもよい。 The standards defined by “Minimum” and “Maximum” are absolute standards that should be satisfied by the items included in the data. “Difference” is a relative standard that items included in data should satisfy in relation to other data. In the example shown in FIG. 14, an absolute reference (minimum, maximum) and a relative reference (difference) are set, but only one of them may be set.
 有効性判定手段40712は、ストリームデータ生成手段401からフィルタリング判定対象データが入力されると、そのフィルタリング判定対象データ中の各項目が、有効データ定義手段40713に記憶されている各基準を満足しているか否かを判定する。例えば、図14に例示する基準が記憶されているとする。有効性判定手段40712は、フィルタリング判定対象データ中の日時、車両ID、緯度、経度、速度がそれぞれ最小値から最大値までの範囲に属しているか否かを判定する。また、日時、緯度、経度、速度それぞれに関し、直前のフィルタリング判定対象データにおける値との差を計算し、その計算結果が「差分」として規定された基準を満たしているか否かを判定する。 When the filtering determination target data is input from the stream data generation unit 401, the validity determination unit 40712 satisfies each criterion stored in the effective data definition unit 40713 for each item in the filtering determination target data. It is determined whether or not. For example, assume that the criteria illustrated in FIG. 14 are stored. The validity determination unit 40712 determines whether the date, vehicle ID, latitude, longitude, and speed in the filtering determination target data belong to a range from the minimum value to the maximum value. Further, for each of the date, latitude, longitude, and speed, the difference from the value in the immediately preceding filtering determination target data is calculated, and it is determined whether or not the calculation result satisfies the standard defined as “difference”.
 有効性判定手段40712は、相対的な基準について判定するため、あるフィルタリング判定対象データについて、有効性の判定を行ったならば、そのフィルタリング判定対象データを、同じ時系列データ発生源で発生した次のフィルタリング判定対象データが入力されるまで記憶しておく。あるいは、送信データバッファ402に記憶されている直前のデータを参照して相対的な基準について判定してもよい。 In order to determine relative criteria, the effectiveness determination means 40712 determines the effectiveness of certain filtering determination target data, and if the filtering determination target data is generated at the same time-series data generation source, This is stored until the filtering determination target data is input. Alternatively, the relative reference may be determined with reference to the immediately preceding data stored in the transmission data buffer 402.
 データ選別手段40711は、フィルタリング判定対象データ毎に、有効性判定手段40712による判定結果を確認する。そして、データ選別手段40711は、その確認結果に応じて、フィルタリング判定対象データを送信データバッファ402に記憶させるか、あるいは、破棄する。 The data selection unit 40711 confirms the determination result by the validity determination unit 40712 for each filtering determination target data. Then, the data selection unit 40711 stores the filtering determination target data in the transmission data buffer 402 or discards it according to the confirmation result.
 フィルタリング判定対象データの各項目について有効データ定義手段40713に規定されている基準を満たしていると判定された場合、そのフィルタリング対象データは上記の第2の条件を満たしていることになる。この場合、データ選別手段40711は、フィルタリング判定対象データを送信データバッファ402に記憶させる。そして、データ選別手段40711は、フィルタリング判定対象データを送信データバッファ402に記憶させたときに、そのメモリ領域のポインタを解析ウィンドウ生成手段403に通知する。 When it is determined that the criteria defined in the effective data definition unit 40713 are satisfied for each item of the filtering determination target data, the filtering target data satisfies the second condition. In this case, the data selection unit 40711 stores the filtering determination target data in the transmission data buffer 402. Then, the data selection unit 40711 notifies the analysis window generation unit 403 of the pointer of the memory area when the filtering determination target data is stored in the transmission data buffer 402.
 一方、フィルタリング判定対象データの各項目のいずれかについて、有効データ定義手段40713に規定されている基準を満たしていないと判定された場合、そのフィルタリング対象データは上記の第2の条件を満たしていないことになる。この場合、データ選別手段40711は、フィルタリング判定対象データを破棄する。例えば、いずれかの項目について、絶対的な基準あるいは相対的な基準を満たしていないと判定されたならば、データ選別手段40711は、そのフィルタリング判定対象データを破棄する。 On the other hand, when it is determined that any of the items of the filtering determination target data does not satisfy the standard defined in the valid data definition unit 40713, the filtering target data does not satisfy the second condition. It will be. In this case, the data selection unit 40711 discards the filtering determination target data. For example, if it is determined that any item does not satisfy the absolute criterion or the relative criterion, the data selection unit 40711 discards the filtering determination target data.
 第2の実施形態のフィルタリング手段407のデータ選別手段40711、有効性判定手段40712は、例えば、解析前処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUが、解析前処理プログラムに従って、データ選別手段40711、有効性判定手段40712や、他の各手段として動作すればよい。また、データ選別手段40711、同一性判定手段40712がそれぞれ別々の専用回路によって実現されていてもよい。 The data selection unit 40711 and the validity determination unit 40712 of the filtering unit 407 of the second embodiment are realized by, for example, a CPU of a computer that operates according to a pre-analysis processing program. In this case, the CPU may operate as the data selection unit 40711, the validity determination unit 40712, and other units according to the analysis preprocessing program. Further, the data selection means 40711 and the identity determination means 40712 may be realized by separate dedicated circuits.
 第2の実施形態の処理経過は、第1の実施形態と同様である(図11参照)。ただし、フィルタリング処理(ステップS203)における処理が異なる。図15は、第2の実施形態におけるフィルタリング処理の処理経過の例を示すフローチャートである。有効性判定手段40712は、ストリームデータ生成手段401からフィルタリング判定対象データを入力されると、フィルタリング判定対象データ内の各項目が絶対的な基準を満足しているか否かを判定する(ステップS711)。例えば、図14に例示する基準が定められている場合、日時、車両ID、緯度、経度、速度に関して、それぞれ最小値から最大値までの範囲内に含まれているか否かを判定する。全ての項目に関して絶対的な基準を満足していると判定した場合(ステップS712のYes)、有効性判定手段40712は、フィルタリング判定対象データ内の各項目が相対的な基準を満足しているか否かを判定する(ステップS713)。例えば、時、緯度、経度、速度に関して、車両IDが同一の直前のフィルタリング判定対象データとの差を計算し、その差が、定められた基準(図14に例示する「差分」)を満たしているか否かを判定する。 The processing progress of the second embodiment is the same as that of the first embodiment (see FIG. 11). However, the process in the filtering process (step S203) is different. FIG. 15 is a flowchart illustrating an example of processing progress of filtering processing in the second embodiment. When the filtering determination target data is input from the stream data generation unit 401, the validity determination unit 40712 determines whether each item in the filtering determination target data satisfies an absolute criterion (step S711). . For example, when the standard illustrated in FIG. 14 is determined, it is determined whether date / time, vehicle ID, latitude, longitude, and speed are included in the range from the minimum value to the maximum value. When it is determined that the absolute standard is satisfied for all items (Yes in step S712), the validity determination unit 40712 determines whether each item in the filtering determination target data satisfies the relative standard. Is determined (step S713). For example, with respect to time, latitude, longitude, and speed, the difference from the previous filtering determination target data having the same vehicle ID is calculated, and the difference satisfies a predetermined standard ("difference" illustrated in FIG. 14). It is determined whether or not.
 データ選別手段40711は、絶対的基準に関する判定結果、および相対的基準に関する判定結果を確認する。そして、絶対的基準に関する判定(ステップS711)または相対的基準に関する判定(ステップS713)において、いずれかの項目が基準を満たしていないと判定されている場合(ステップS712のNo、あるいはステップS714のNo)、データ選別手段40711は、そのフィルタリング判定対象データを破棄する(ステップS716)。また、絶対的基準に関する判定(ステップS711)および相対的基準に関する判定(ステップS713)において、各項目が基準を満足していると判定されている場合(ステップS714のYes)、データ選別手段40711は、フィルタリング判定対象データを送信データバッファ402に記憶させ、フィルタリング判定対象データを記憶させたメモリ領域のポインタを解析ウィンドウ生成手段403に通知する。(ステップS715)。この結果、所定の条件(本実施形態では第2の条件)を満たすデータが選別される。 The data selection means 40711 confirms the determination result regarding the absolute reference and the determination result regarding the relative reference. Then, in the determination regarding the absolute reference (step S711) or the determination regarding the relative reference (step S713), when any item is determined not to satisfy the reference (No in step S712 or No in step S714). ), The data selection means 40711 discards the filtering determination target data (step S716). In addition, when each item is determined to satisfy the criterion in the determination regarding the absolute criterion (step S711) and the determination regarding the relative criterion (step S713) (Yes in step S714), the data selection unit 40711 The filtering determination target data is stored in the transmission data buffer 402, and the pointer of the memory area in which the filtering determination target data is stored is notified to the analysis window generation unit 403. (Step S715). As a result, data satisfying a predetermined condition (second condition in the present embodiment) is selected.
 フィルタリング処理(ステップS203、図11参照)以降の動作は、第1の実施形態と同様である。 The operations after the filtering process (step S203, see FIG. 11) are the same as those in the first embodiment.
 第2の実施形態においても、第1の実施形態と同様の効果を得ることができる。 Also in the second embodiment, the same effect as in the first embodiment can be obtained.
実施形態3.
 次に、第3の実施形態として、「既にストリームデータ生成手段401から入力されたいずれかのデータの複製ではない」という条件をフィルタリング処理で用いる実施形態を示す。この条件を第3の条件と記す。
Embodiment 3. FIG.
Next, as a third embodiment, an embodiment in which a condition “not a copy of any data already input from the stream data generation unit 401” is used in the filtering process will be described. This condition is referred to as a third condition.
 本発明の第3の実施形態の解析前処理システムも前述の各実施形態と同様に、データ受信手段3とデータストリーム生成手段4とを備え(図1参照)、時系列データ発生源1が発生させたデータをデータ送信手段2から受信すると、データの前処理を行い、時系列データ解析手段5に送る。 The analysis preprocessing system according to the third embodiment of the present invention also includes a data receiving means 3 and a data stream generating means 4 (see FIG. 1), as in the above-described embodiments, and a time-series data generation source 1 is generated. When the received data is received from the data transmission means 2, the data is preprocessed and sent to the time series data analysis means 5.
 また、第3の実施形態においても、前述の各実施形態と同様に、データストリーム生成手段4は、ストリームデータ生成手段401と、フィルタリング手段407と、送信データバッファ402と、解析ウィンドウ生成手段403と、ストリームデータ送信手段404とを備える(図2参照)。ただし、フィルタリング手段407の動作が第1の実施形態や第2の実施形態と異なる。他の各手段は上記の第1の実施形態と同様である。 Also in the third embodiment, the data stream generation unit 4 includes a stream data generation unit 401, a filtering unit 407, a transmission data buffer 402, an analysis window generation unit 403, as in the above-described embodiments. And stream data transmission means 404 (see FIG. 2). However, the operation of the filtering unit 407 is different from that of the first embodiment or the second embodiment. Other means are the same as those in the first embodiment.
 時系列データ発生源1がデータを発生させ、データ受信手段3がデータを受信するまでの過程で、時系列データ発生源1の複製が生じて、データ受信手段3が同一のデータを複数受信することがある。例えば、複数のデータ送信手段2が同一の時系列データ発生源1から同一データを受信し、その複数のデータ送信手段2がそのデータを解析前処理システムに送信した場合、このようなことが生じる。図16は、この状況の具体例を示す説明図である。時系列データ発生源1がプローブカーに設けられたセンサであり、データ送信手段2a,2bが、時系列データ発生源1とデータ受信手段3との間でデータを中継する基地局であるとする。基地局は、エリア毎に設けられるが、対応するエリア同士が一部重なるように配置される。基地局に対応するエリア同士が重なっている部分にプローブカーが存在し、その位置からデータを無線発信すると、その各エリアに対応する基地局2a,2bがそれぞれ同一のデータを受信する。基地局2a,2bはいずれも受信したデータを解析前処理システムに送信するので、データ受信手段3は、同一のデータを複数受信することになる。このように複製されたデータは、時系列データ解析手段5での解析においては不要であり、フィルタリング手段407が排除する。 In the process until the time series data generation source 1 generates data and the data reception means 3 receives the data, the time series data generation source 1 is duplicated, and the data reception means 3 receives a plurality of the same data. Sometimes. For example, this occurs when a plurality of data transmission means 2 receive the same data from the same time-series data generation source 1 and the plurality of data transmission means 2 transmit the data to the pre-analysis processing system. . FIG. 16 is an explanatory diagram showing a specific example of this situation. The time-series data generation source 1 is a sensor provided in the probe car, and the data transmission means 2a and 2b are base stations that relay data between the time-series data generation source 1 and the data reception means 3. . The base station is provided for each area, but is arranged so that corresponding areas partially overlap each other. When a probe car exists in a portion where the areas corresponding to the base stations overlap each other and data is transmitted wirelessly from the position, the base stations 2a and 2b corresponding to the areas receive the same data. Since both the base stations 2a and 2b transmit the received data to the pre-analysis processing system, the data receiving means 3 receives a plurality of the same data. The data replicated in this way is unnecessary in the analysis by the time series data analysis means 5 and is excluded by the filtering means 407.
 図17は、第3の実施形態におけるフィルタリング手段407の構成例を示すブロック図である。第3の実施形態におけるフィルタリング手段407は、処理済みデータ記憶手段40723と、有効性判定手段40722と、データ選別手段40721とを備える。 FIG. 17 is a block diagram illustrating a configuration example of the filtering unit 407 according to the third embodiment. The filtering unit 407 according to the third embodiment includes a processed data storage unit 40723, an effectiveness determination unit 40722, and a data selection unit 40721.
 処理済みデータ記憶手段40723は、ストリームデータ生成手段401から入力された各データを識別するためのデータ識別情報を記憶する記憶装置である。図18は、処理済みデータ記憶手段40723が記憶するデータ識別情報の例を示す。データの発生源および発生時刻が同一であるデータが2個以上存在する場合、2個目以降のデータは複製である。従って、図18に示すように、日時と、時系列データ発生源のID(例えば車両ID)との組み合わせを、データ識別情報とすればよい。図18の第1レコードは、プローブカー「CID0001」で日時「2008/7/20 12:00:00」に生成されたデータは、既に受信済みであることを意味する。 The processed data storage unit 40723 is a storage device that stores data identification information for identifying each data input from the stream data generation unit 401. FIG. 18 shows an example of data identification information stored in the processed data storage unit 40723. When there are two or more data having the same data generation source and the same generation time, the second and subsequent data are duplicates. Therefore, as shown in FIG. 18, the combination of the date and time and the ID of the time series data generation source (for example, vehicle ID) may be used as the data identification information. The first record in FIG. 18 means that the data generated by the probe car “CID0001” on the date “2008/7/20 12:00:00” has already been received.
 有効性判定手段40722は、ストリームデータ生成手段401からフィルタリング判定対象データを入力されると、処理済みデータ記憶手段40723に記憶されたデータ識別情報を参照して、そのフィルタリング判定対象データが未だ入力されていなかったデータであるか否かを判定する。フィルタリング判定対象データが未だ入力されていなかったデータであるならば、有効性判定手段40722は、そのフィルタリング判定対象データのデータ識別情報(例えば、日時と車両IDの組)を処理済みデータ記憶手段40723に記憶させる。 When the filtering determination target data is input from the stream data generation unit 401, the validity determination unit 40722 refers to the data identification information stored in the processed data storage unit 40723, and the filtering determination target data is still input. It is determined whether or not the data has not been received. If the filtering determination target data is data that has not yet been input, the validity determination unit 40722 processes the data identification information (for example, the combination of the date and vehicle ID) of the filtering determination target data, and the processed data storage unit 40723. Remember me.
 データ選別手段40721は、フィルタリング判定対象データ毎に、有効性判定手段40722による判定結果を確認する。そして、データ選別手段40721は、その確認結果に応じて、フィルタリング判定対象データを送信データバッファ402に記憶させるか、あるいは、破棄する。 The data selection unit 40721 confirms the determination result by the validity determination unit 40722 for each filtering determination target data. Then, the data selection unit 40721 stores or discards the filtering determination target data in the transmission data buffer 402 according to the confirmation result.
 フィルタリング判定対象データが未だ入力されていなかったデータであると判定されたということは、そのフィルタリング判定対象データが初めて入力されたということであり、第3の条件を満たしていることになる。この場合、データ選別手段40721は、フィルタリング判定対象データを送信データバッファ402に記憶させる。そして、データ選別手段40721は、フィルタリング判定対象データを送信データバッファ402に記憶させたときに、そのメモリ領域のポインタを解析ウィンドウ生成手段403に通知する。 It is determined that the filtering determination target data is data that has not been input yet, that means that the filtering determination target data has been input for the first time, and the third condition is satisfied. In this case, the data selection unit 40721 stores the filtering determination target data in the transmission data buffer 402. Then, the data selection unit 40721 notifies the analysis window generation unit 403 of the pointer of the memory area when the filtering determination target data is stored in the transmission data buffer 402.
 一方、フィルタリング判定対象データが既に入力済みのデータであると判定されたということは、第3の条件を満たしていないことになる。この場合、データ選別手段40721は、フィルタリング判定対象データを破棄する。 On the other hand, when it is determined that the filtering determination target data is already input data, the third condition is not satisfied. In this case, the data selection unit 40721 discards the filtering determination target data.
 第3の実施形態のフィルタリング手段407のデータ選別手段40721、有効性判定手段40722は、例えば、解析前処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUが、解析前処理プログラムに従って、データ選別手段40721、有効性判定手段40722や、他の各手段として動作すればよい。また、データ選別手段40721、有効性判定手段40722がそれぞれ別々の専用回路によって実現されていてもよい。 The data selection unit 40721 and the validity determination unit 40722 of the filtering unit 407 of the third embodiment are realized by, for example, a CPU of a computer that operates according to a pre-analysis processing program. In this case, the CPU may operate as the data selection unit 40721, the validity determination unit 40722, and other units according to the analysis preprocessing program. Further, the data selection means 40721 and the validity determination means 40722 may be realized by separate dedicated circuits.
 第3の実施形態の処理経過は、第1の実施形態や第2の実施形態と同様である(図11参照)。ただし、フィルタリング処理(ステップS203)における処理が異なる。図19は、第3の実施形態におけるフィルタリング処理の処理経過の例を示すフローチャートである。 The process progress of the third embodiment is the same as that of the first embodiment and the second embodiment (see FIG. 11). However, the process in the filtering process (step S203) is different. FIG. 19 is a flowchart illustrating an example of processing progress of filtering processing according to the third embodiment.
 有効性判定手段40722は、ストリームデータ生成手段401からフィルタリング判定対象データを入力されると、そのフィルタリング判定対象データが未だ入力されていなかったデータであるか否かを判定する(ステップS721)。具体的には、入力されたフィルタリング判定対象データのデータ識別情報(例えば、日時と車両IDの組)が、既に処理済みデータ記憶手段40723に記憶されているかどうかを判定する。データ識別情報が記憶されていなければ(ステップS722のNo)、そのフィルタリング判定対象データは、未だ入力されていなかったデータ(初めて入力されたデータ)である。一方、データ識別情報が記憶されていれば(ステップS722のYes)、そのフィルタリング判定対象データは、すでに入力されている。 When the filtering determination target data is input from the stream data generation unit 401, the validity determination unit 40722 determines whether the filtering determination target data is data that has not yet been input (step S721). Specifically, it is determined whether or not data identification information (for example, a combination of date and vehicle ID) of the input filtering determination target data is already stored in the processed data storage unit 40723. If no data identification information is stored (No in step S722), the filtering determination target data is data that has not been input yet (data that has been input for the first time). On the other hand, if the data identification information is stored (Yes in step S722), the filtering determination target data has already been input.
 フィルタリング判定対象データが初めて入力されたデータであるならば(ステップS722のNo)、有効性判定手段40722は、そのフィルタリング判定対象データのデータ識別情報を処理済みデータ記憶手段40723に追加記憶させる(ステップS723)。 If the filtering determination target data is data input for the first time (No in step S722), the validity determination unit 40722 additionally stores the data identification information of the filtering determination target data in the processed data storage unit 40723 (step S722). S723).
 データ選別手段40721は、有効性判定手段40722の判定結果を確認する。そして、入力されたフィルタリング判定対象データが入力済みであったならば(ステップS722のYes)、データ選別手段40721は、そのフィルタリング判定対象データを破棄する(ステップS725)。また、入力されたフィルタリング判定対象データが初めて入力されたデータであるならば(ステップS722のNo)、データ選別手段40721は、そのフィルタリング判定対象データを送信データバッファ402に記憶させ、フィルタリング判定対象データを記憶させたメモリ領域のポインタを解析ウィンドウ生成手段403に通知する(ステップS724)。この結果、所定の条件(本実施形態では第3の条件)を満たすデータが選別される。 The data selection unit 40721 confirms the determination result of the validity determination unit 40722. If the input filtering determination target data has been input (Yes in step S722), the data selection unit 40721 discards the filtering determination target data (step S725). If the input filtering determination target data is data input for the first time (No in step S722), the data selection unit 40721 stores the filtering determination target data in the transmission data buffer 402, and the filtering determination target data. Is sent to the analysis window generation means 403 (step S724). As a result, data satisfying a predetermined condition (the third condition in the present embodiment) is selected.
 フィルタリング処理(ステップS203、図11参照)以降の動作は、第1の実施形態や第2の実施形態と同様である。 The operations after the filtering process (step S203, see FIG. 11) are the same as those in the first embodiment and the second embodiment.
 第3の実施形態においても、第1の実施形態と同様の効果を得ることができる。 Also in the third embodiment, the same effect as in the first embodiment can be obtained.
 また、フィルタリング手段407は、前述の第1から第3の条件のうち、複数の条件を組み合わせ、その複数の条件を満たしているデータのみを送信データバッファ402に記憶させ、他のデータを破棄する構成であってもよい。例えば、第1と第2の条件を満たしているデータのみを送信データバッファ402に記憶させ、他のデータを破棄する構成であってもよい。条件の組み合わせ方は特に限定されない。 Further, the filtering unit 407 combines a plurality of conditions from the first to third conditions described above, stores only data satisfying the plurality of conditions in the transmission data buffer 402, and discards other data. It may be a configuration. For example, only the data satisfying the first and second conditions may be stored in the transmission data buffer 402 and other data may be discarded. The method of combining conditions is not particularly limited.
 上記の各実施形態では、プローブカーに設けられた時系列データ発生源1がデータを発生させ、そのデータに対して、フィルタリング処理を行い解析ウィンドウを作成する前処理を行う場合を例示した。このような解析ウィンドウは、渋滞情報の生成の他にも、例えば、ヒヤリハットマップを用いて警告を行うといった解析に利用できる。同様に、人が時系列データ発生源1となるセンサを所持して、人に対して、ヒヤリハットマップを用いて警告するといった解析にも利用できる。また、データの種類は、上記のような解析に利用されるデータに限定されず、本発明は、解析対象となる種々のデータに対する前処理に適用可能である。 In each of the above-described embodiments, the case where the time series data generation source 1 provided in the probe car generates data and performs preprocessing for performing filtering processing and creating an analysis window on the data is illustrated. Such an analysis window can be used for, for example, generating warning information using a near-miss map in addition to the generation of traffic jam information. Similarly, the present invention can be used for an analysis in which a person possesses a sensor serving as the time-series data generation source 1 and warns the person using a near-miss map. The type of data is not limited to the data used for the analysis as described above, and the present invention can be applied to preprocessing for various data to be analyzed.
 また、フィルタリング処理を行わない実施形態も考えられ、以下、この実施形態を説明する。本実施形態の解析前処理システムは、図1に示す第1の実施形態と同様に、データ受信手段3とデータストリーム生成手段4とを備える。図20は、フィルタリング処理を行わない実施形態におけるデータストリーム生成手段4の構成例を示すブロック図である。この実施形態において、データストリーム生成手段4は、ストリームデータ生成手段401と、送信データバッファ402と、解析ウィンドウ生成手段403と、ストリームデータ送信手段404とを備える。これらの各手段は、第1の実施形態と同様である。ただし、フィルタリング手段407は設けられておらず、ストリームデータ生成手段401は、切り出したデータを全て送信データバッファ402に記憶させる。また、ストリームデータ生成手段401は、データを送信データバッファ402に記憶させた場合、その旨の通知として、例えば、記憶させたメモリ領域へのポインタを解析ウィンドウ生成手段403に通知する。 Also, an embodiment in which filtering processing is not performed is conceivable, and this embodiment will be described below. Similar to the first embodiment shown in FIG. 1, the pre-analysis processing system of the present embodiment includes a data receiving unit 3 and a data stream generating unit 4. FIG. 20 is a block diagram illustrating a configuration example of the data stream generation unit 4 in the embodiment that does not perform the filtering process. In this embodiment, the data stream generation unit 4 includes a stream data generation unit 401, a transmission data buffer 402, an analysis window generation unit 403, and a stream data transmission unit 404. Each of these means is the same as in the first embodiment. However, the filtering unit 407 is not provided, and the stream data generation unit 401 stores all the cut out data in the transmission data buffer 402. In addition, when the data is stored in the transmission data buffer 402, the stream data generation unit 401 notifies the analysis window generation unit 403 of, for example, a pointer to the stored memory area as a notification to that effect.
 この構成の場合、データストリーム生成ステップ(ステップS2、図11参照)において、ステップS203(フィルタリング処理)が行われないが、他の点に関しては、第1の実施形態と同様である。 In the case of this configuration, step S203 (filtering processing) is not performed in the data stream generation step (see step S2, FIG. 11), but the other points are the same as those in the first embodiment.
 図20に示す構成としても、データをデータベースやファイルとして記憶させておく場合よりも、迅速にデータを時系列データ解析手段5に送ることができる。ただし、送信データバッファ402でのデータ溢れを防止するために、第1から第3の各実施形態で示したようにフィルタリング手段407を設けることが好ましい。 20, the data can be sent to the time-series data analyzing means 5 more quickly than when the data is stored as a database or a file. However, in order to prevent data overflow in the transmission data buffer 402, it is preferable to provide the filtering means 407 as shown in the first to third embodiments.
 次に、本発明の最小構成を説明する。図21は、本発明の最小構成を示す説明図である。本発明の解析前処理システムは、データ取得手段71と、データ切り出し手段72と、バッファ74と、フィルタリング手段73と、解析用データ決定手段75と、解析用データ出力手段76とを備える。 Next, the minimum configuration of the present invention will be described. FIG. 21 is an explanatory diagram showing the minimum configuration of the present invention. The analysis preprocessing system of the present invention includes data acquisition means 71, data cutout means 72, buffer 74, filtering means 73, analysis data determination means 75, and analysis data output means 76.
 データ取得手段71(例えばデータ受信手段3)は、複数のデータ発生源で生成されたデータ群を取得する。 Data acquisition means 71 (for example, data reception means 3) acquires a data group generated by a plurality of data generation sources.
 データ切り出し手段72(例えばストリームデータ生成手段401)は、データ取得手段71が取得したデータ群から個々のデータを切り出す。 The data cutout unit 72 (for example, the stream data generation unit 401) cuts out individual data from the data group acquired by the data acquisition unit 71.
 バッファ74(例えば送信データバッファ402)は、解析に用いられるデータを記憶する。 The buffer 74 (for example, the transmission data buffer 402) stores data used for analysis.
 フィルタリング手段73(例えばフィルタリング手段407)は、データ切り出し手段72が切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファ74に記憶させ、所定の条件を満たしていないデータを破棄する。 The filtering unit 73 (for example, the filtering unit 407) determines whether or not a predetermined condition is satisfied for each piece of data cut out by the data cutout unit 72, and stores data satisfying the predetermined condition in the buffer 74. Discard data that does not meet the prescribed conditions.
 解析用データ決定手段75(例えば解析ウィンドウ生成手段403)は、バッファ74に記憶されたデータの中から、解析に用いられるデータの集合である解析データ群(例えば解析ウィンドウ)を定める。 Analysis data determination means 75 (for example, analysis window generation means 403) determines an analysis data group (for example, analysis window), which is a set of data used for analysis, from the data stored in the buffer 74.
 解析用データ出力手段76(例えばストリームデータ生成手段404)は、データを解析するデータ解析手段(例えば時系列データ解析手段5)に解析データ群を送る。 The analysis data output means 76 (for example, the stream data generation means 404) sends the analysis data group to the data analysis means for analyzing the data (for example, the time series data analysis means 5).
 そのような構成により、多数のデータ発生源から大量のデータが送信されても、データが溢れることを防止しつつ、データを解析する手段に対して高速にデータを渡すことができる。 With such a configuration, even if a large amount of data is transmitted from a large number of data generation sources, the data can be passed to the means for analyzing the data at high speed while preventing the data from overflowing.
 また、上記の実施形態には、フィルタリング手段73が、データ切り出し手段72が切り出したデータ毎に、既にバッファ74に記憶されているいずれのデータともデータの内容が異なるという条件を満たしているか否かを判定する内容一致不一致判定手段(例えば同一性判定手段40702)と、条件を満たしてないデータを破棄し、条件を満たすデータをバッファ74に記憶させるデータ選別手段(例えばデータ選別手段40701)とを有する構成が開示されている。 In the above-described embodiment, whether the filtering unit 73 satisfies the condition that the data content differs from any data already stored in the buffer 74 for each piece of data cut out by the data cutout unit 72. Content match / mismatch determination means (for example, identity determination means 40702), and data selection means (for example, data selection means 40701) for discarding data that does not satisfy the condition and storing data that satisfy the condition in the buffer 74. The structure which has is disclosed.
 また、上記の実施形態には、フィルタリング手段73が、データに含まれる内容が有効であることを示す基準を記憶する基準記憶手段(例えば有効データ定義手段40713)と、データ切り出し手段72が切り出したデータ毎に、データの内容が基準を満たしているか否かを判定する基準判定手段(例えば有効性判定手段40712)と、データの内容が基準を満たしていないデータを破棄し、基準を満たしているデータをバッファ74に記憶させるデータ選別手段(例えばデータ選別手段40711)とを有する構成が開示されている。 Further, in the above embodiment, the filtering unit 73 includes a reference storage unit (for example, valid data definition unit 40713) that stores a criterion indicating that the content included in the data is valid, and the data cutout unit 72 cut out the data. For each data, a reference determination unit (for example, validity determination unit 40712) that determines whether or not the content of the data satisfies the standard, and discards data that does not satisfy the standard and satisfies the standard A configuration having data selection means (for example, data selection means 40711) for storing data in the buffer 74 is disclosed.
 また、上記の実施形態には、フィルタリング手段73が、データ切り出し手段72から入力された各データのデータ識別情報を記憶するデータ識別情報記憶手段(例えば処理済みデータ記憶手段40723)と、データ切り出し手段72からデータが入力されたときにそのデータのデータ識別情報がデータ識別情報記憶手段に記憶されているか否かを判定し、記憶されていないときにはそのデータのデータ識別情報をデータ識別情報記憶手段に記憶させる重複判定手段(例えば有効性判定手段40722)と、データ識別情報がデータ識別情報記憶手段に記憶されていたと判定されたデータを破棄し、データ識別情報がデータ識別情報記憶手段に記憶されていなかったと判定されたデータをバッファ74に記憶させるデータ選別手段(例えばデータ選別手段40721)とを有する構成が開示されている。 In the above embodiment, the filtering unit 73 includes a data identification information storage unit (for example, processed data storage unit 40723) that stores data identification information of each data input from the data extraction unit 72, and a data extraction unit. When data is input from 72, it is determined whether or not the data identification information of the data is stored in the data identification information storage means. If not, the data identification information of the data is stored in the data identification information storage means. Duplicate determination means (for example, validity determination means 40722) to be stored and data determined that the data identification information is stored in the data identification information storage means are discarded, and the data identification information is stored in the data identification information storage means Data selection means for storing data determined to have not been stored in the buffer 74 (for example, Configuration is disclosed comprising data sorting means 40721) and.
 また、上記の実施形態には、解析用データ決定手段75が、一定期間毎に、一定期間内にバッファ74に記憶されたデータの集合を解析データ群として定める構成が開示されている。 Further, the above embodiment discloses a configuration in which the analysis data determining means 75 determines a set of data stored in the buffer 74 within a certain period as an analysis data group every certain period.
 また、上記の実施形態には、解析用データ決定手段75が、バッファ74に記憶されたデータ数が所定個に達する毎に、所定個のデータの集合を解析データ群として定める構成が開示されている。 Further, the above embodiment discloses a configuration in which the analysis data determination means 75 determines a set of a predetermined number of data as an analysis data group every time the number of data stored in the buffer 74 reaches a predetermined number. Yes.
 また、上記の実施形態には、解析用データ出力手段76が、データ解析手段に送った解析データ群に属する各データをバッファ74から削除する構成が開示されている。 Further, the above embodiment discloses a configuration in which the analysis data output means 76 deletes each data belonging to the analysis data group sent to the data analysis means from the buffer 74.
 また、上記の実施形態には、データを解析するデータ解析手段(例えば時系列データ解析手段5)を備え、データ解析手段が、解析用データ出力手段76が出力した解析データ群を保持し、解析を終えた解析データ群を削除することで解析用データ出力手段76とは非同期に解析を行う構成が開示されている。 Further, the above embodiment includes data analysis means (for example, time-series data analysis means 5) for analyzing data, and the data analysis means holds the analysis data group output by the analysis data output means 76 for analysis. A configuration is disclosed in which analysis is performed asynchronously with the analysis data output means 76 by deleting the analysis data group that has been completed.
 なお、上記の実施の形態では、以下の(1)~(9)に示すような解析前処理システムの特徴的構成が示されている。 In the above embodiment, the characteristic configuration of the analysis preprocessing system as shown in the following (1) to (9) is shown.
(1)複数のデータ発生源で生成されたデータ群を取得するデータ取得部と、データ取得部が取得したデータ群から個々のデータを切り出すデータ切り出し部と、解析に用いられるデータを記憶するバッファと、データ切り出し部が切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング部と、バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定部と、データを解析するデータ解析部に解析データ群を送る解析用データ出力部とを備えることを特徴とする解析前処理システム。 (1) A data acquisition unit that acquires a data group generated by a plurality of data generation sources, a data extraction unit that extracts individual data from the data group acquired by the data acquisition unit, and a buffer that stores data used for analysis For each piece of data cut out by the data cutout unit, it is determined whether or not a predetermined condition is satisfied, data that satisfies the predetermined condition is stored in a buffer, and data that does not satisfy the predetermined condition is discarded. For analysis that sends the analysis data group to the filtering unit, the analysis data determination unit that determines the analysis data group that is a set of data used for analysis from the data stored in the buffer, and the data analysis unit that analyzes the data An analysis preprocessing system comprising a data output unit.
(2)フィルタリング部が、データ切り出し部が切り出したデータ毎に、既にバッファに記憶されているいずれのデータともデータの内容が異なるという条件を満たしているか否かを判定する内容一致不一致判定部と、条件を満たしてないデータを破棄し、条件を満たすデータをバッファに記憶させるデータ選別部とを有する解析前処理システム。 (2) a content match / mismatch determination unit that determines whether or not the filtering unit satisfies a condition that the data content is different from any data already stored in the buffer for each data cut out by the data cutout unit; A pre-analysis system including a data selection unit that discards data that does not satisfy the condition and stores data that satisfies the condition in a buffer.
(3)フィルタリング部が、データに含まれる内容が有効であることを示す基準を記憶する基準記憶部と、データ切り出し部が切り出したデータ毎に、データの内容が基準を満たしているか否かを判定する基準判定部と、データの内容が基準を満たしていないデータを破棄し、基準を満たしているデータをバッファに記憶させるデータ選別部とを有する解析前処理システム。 (3) A filtering unit stores a reference storage unit that stores a reference indicating that the content included in the data is valid, and whether or not the data content satisfies the reference for each piece of data cut out by the data cutout unit An analysis preprocessing system comprising: a reference determination unit for determining; and a data selection unit that discards data whose data content does not satisfy the criterion and stores data satisfying the criterion in a buffer.
(4)フィルタリング部が、データ切り出し部から入力された各データのデータ識別情報を記憶するデータ識別情報記憶部と、データ切り出し部からデータが入力されたときに当該データのデータ識別情報がデータ識別情報記憶部に記憶されているか否かを判定し、記憶されていないときには当該データのデータ識別情報をデータ識別情報記憶部に記憶させる重複判定部と、データ識別情報がデータ識別情報記憶部に記憶されていたと判定されたデータを破棄し、データ識別情報がデータ識別情報記憶部に記憶されていなかったと判定されたデータをバッファに記憶させるデータ選別部とを有する解析前処理システム。 (4) A data identification information storage unit in which the filtering unit stores data identification information of each data input from the data extraction unit, and data identification information of the data when the data is input from the data extraction unit It is determined whether or not the information is stored in the information storage unit. If not stored, the data determination information is stored in the data identification information storage unit, and the data identification information is stored in the data identification information storage unit. An analysis preprocessing system comprising: a data selection unit that discards data determined to have been stored and stores data determined to have not been stored in the data identification information storage unit in a buffer.
(5)解析用データ決定部が、一定期間毎に、一定期間内にバッファに記憶されたデータの集合を解析データ群として定める解析前処理システム。 (5) An analysis preprocessing system in which the analysis data determination unit determines a set of data stored in the buffer within a certain period as an analysis data group for each certain period.
(6)解析用データ決定部が、バッファに記憶されたデータ数が所定個に達する毎に、その所定個のデータの集合を解析データ群として定める解析前処理システム。 (6) An analysis preprocessing system in which the analysis data determination unit determines a set of a predetermined number of data as an analysis data group each time the number of data stored in the buffer reaches a predetermined number.
(7)解析用データ出力部が、データ解析部に送った解析データ群に属する各データをバッファから削除する解析前処理システム。 (7) An analysis preprocessing system in which the analysis data output unit deletes each data belonging to the analysis data group sent to the data analysis unit from the buffer.
(8)データを解析するデータ解析部を備え、データ解析部が、解析用データ出力部が出力した解析データ群を保持し、解析を終えた解析データ群を削除することで解析用データ出力部とは非同期に解析を行う解析前処理システム。 (8) A data analysis unit for analyzing data is provided, the data analysis unit holds the analysis data group output by the analysis data output unit, and the analysis data output unit is deleted by deleting the analysis data group that has been analyzed Is an analysis preprocessing system that performs analysis asynchronously.
(9)複数のデータ発生源で生成されたデータ群を取得するデータ取得手段と、データ取得手段が取得したデータ群から個々のデータを切り出すデータ切り出し手段と、解析に用いられるデータを記憶するバッファと、データ切り出し手段が切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング手段と、バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定手段と、データを解析するデータ解析手段に解析データ群を送る解析用データ出力手段とを備えることを特徴とする解析前処理システム。 (9) Data acquisition means for acquiring a data group generated by a plurality of data generation sources, data cutout means for cutting out individual data from the data group acquired by the data acquisition means, and a buffer for storing data used for analysis For each piece of data cut out by the data cutout means, it is determined whether or not a predetermined condition is satisfied, data that satisfies the predetermined condition is stored in the buffer, and data that does not satisfy the predetermined condition is discarded. Filtering means, analysis data determining means for determining an analysis data group that is a set of data used for analysis from the data stored in the buffer, and sending the analysis data group to the data analysis means for analyzing the data An analysis preprocessing system comprising data output means.
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 The present invention has been described above with reference to the embodiments, but the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
 この出願は、2009年2月20日に出願された日本出願特願2009-038413を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2009-038413 filed on Feb. 20, 2009, the entire disclosure of which is incorporated herein.
産業上の利用の可能性Industrial applicability
 本発明は、解析のために収集させるデータを解析用にまとめる解析前処理システムに好適に適用される。 The present invention is preferably applied to an analysis preprocessing system that collects data to be collected for analysis.
 1 時系列データ発生源
 2 データ送信手段
 3 データ受信手段
 4 データストリーム生成手段
 5 時系列データ解析手段
 7 解析前処理システム
 401 ストリームデータ生成手段
 402 送信データバッファ
 403 解析ウィンドウ生成手段
 404 ストリームデータ送信手段
 407 フィルタリング手段
 40701 データ選別手段
 40702 同一性判定手段
 40711,40721 データ選別手段
 40712,40722 有効性判定手段
 40713 有効データ定義手段
 40723 処理済みデータ記憶手段
DESCRIPTION OF SYMBOLS 1 Time series data generation source 2 Data transmission means 3 Data reception means 4 Data stream generation means 5 Time series data analysis means 7 Analysis preprocessing system 401 Stream data generation means 402 Transmission data buffer 403 Analysis window generation means 404 Stream data transmission means 407 Filtering means 40701 Data selection means 40702 Identity determination means 40711, 40721 Data selection means 40712, 40722 Validity determination means 40713 Effective data definition means 40723 Processed data storage means

Claims (16)

  1.  複数のデータ発生源で生成されたデータ群を取得するデータ取得手段と、
     データ取得手段が取得したデータ群から個々のデータを切り出すデータ切り出し手段と、
     解析に用いられるデータを記憶するバッファと、
     データ切り出し手段が切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータを前記バッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング手段と、
     前記バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定手段と、
     データを解析するデータ解析手段に解析データ群を送る解析用データ出力手段とを備える
     ことを特徴とする解析前処理システム。
    Data acquisition means for acquiring a data group generated by a plurality of data generation sources;
    Data cutout means for cutting out individual data from the data group acquired by the data acquisition means;
    A buffer for storing data used for analysis;
    Filtering for determining whether or not a predetermined condition is satisfied for each piece of data cut out by the data cutout unit, storing data satisfying the predetermined condition in the buffer, and discarding data not satisfying the predetermined condition Means,
    Analysis data determination means for determining an analysis data group that is a set of data used for analysis from the data stored in the buffer;
    An analysis preprocessing system comprising: an analysis data output means for sending an analysis data group to a data analysis means for analyzing data.
  2.  フィルタリング手段は、
     データ切り出し手段が切り出したデータ毎に、既にバッファに記憶されているいずれのデータともデータの内容が異なるという条件を満たしているか否かを判定する内容一致不一致判定手段と、
     前記条件を満たしてないデータを破棄し、前記条件を満たすデータをバッファに記憶させるデータ選別手段とを有する
     請求項1に記載の解析前処理システム。
    Filtering means
    Content match / mismatch determination means for determining whether or not the data content is different from any data already stored in the buffer for each data cut out by the data cutout means;
    The analysis preprocessing system according to claim 1, further comprising: a data selection unit that discards data that does not satisfy the condition and stores data that satisfies the condition in a buffer.
  3.  フィルタリング手段は、
     データに含まれる内容が有効であることを示す基準を記憶する基準記憶手段と、
     データ切り出し手段が切り出したデータ毎に、データの内容が前記基準を満たしているか否かを判定する基準判定手段と、
     データの内容が基準を満たしていないデータを破棄し、基準を満たしているデータをバッファに記憶させるデータ選別手段とを有する
     請求項1または請求項2に記載の解析前処理システム。
    Filtering means
    Reference storage means for storing a reference indicating that the content included in the data is valid;
    For each piece of data cut out by the data cutout means, a reference determination means for determining whether or not the content of the data satisfies the reference;
    The analysis preprocessing system according to claim 1, further comprising: a data selection unit that discards data whose data content does not satisfy the standard and stores data satisfying the standard in a buffer.
  4.  フィルタリング手段は、
     データ切り出し手段から入力された各データのデータ識別情報を記憶するデータ識別情報記憶手段と、
     データ切り出し手段からデータが入力されたときに当該データのデータ識別情報がデータ識別情報記憶手段に記憶されているか否かを判定し、記憶されていないときには当該データのデータ識別情報をデータ識別情報記憶手段に記憶させる重複判定手段と、
     データ識別情報がデータ識別情報記憶手段に記憶されていたと判定されたデータを破棄し、データ識別情報がデータ識別情報記憶手段に記憶されていなかったと判定されたデータをバッファに記憶させるデータ選別手段とを有する
     請求項1から請求項3のうちのいずれか1項に記載の解析前処理システム。
    The filtering means is
    Data identification information storage means for storing data identification information of each data input from the data cutout means;
    When data is input from the data cutout means, it is determined whether or not the data identification information of the data is stored in the data identification information storage means. If not, the data identification information of the data is stored in the data identification information storage. Duplicate determination means for storing in the means;
    Data selecting means for discarding data determined that the data identification information is stored in the data identification information storage means and storing in the buffer the data determined that the data identification information is not stored in the data identification information storage means; The analysis preprocessing system according to any one of claims 1 to 3.
  5.  解析用データ決定手段は、一定期間毎に、前記一定期間内にバッファに記憶されたデータの集合を解析データ群として定める
     請求項1から請求項4のうちのいずれか1項に記載の解析前処理システム。
    5. The analysis data determination unit determines a set of data stored in the buffer within the predetermined period as an analysis data group for each predetermined period. 5. Before analysis according to claim 1. Processing system.
  6.  解析用データ決定手段は、バッファに記憶されたデータ数が所定個に達する毎に、前記所定個のデータの集合を解析データ群として定める
     請求項1から請求項4のうちのいずれか1項に記載の解析前処理システム。
    The analysis data determination means determines the set of the predetermined number of data as an analysis data group every time the number of data stored in the buffer reaches the predetermined number. The analysis pretreatment system described.
  7.  解析用データ出力手段は、データ解析手段に送った解析データ群に属する各データをバッファから削除する
     請求項1から請求項6のうちのいずれか1項に記載の解析前処理システム。
    The analysis preprocessing system according to any one of claims 1 to 6, wherein the analysis data output means deletes each data belonging to the analysis data group sent to the data analysis means from the buffer.
  8.  データを解析するデータ解析手段を備え、
     前記データ解析手段は、解析用データ出力手段が出力した解析データ群を保持し、解析を終えた解析データ群を削除することで解析用データ出力手段とは非同期に解析を行う
     請求項1から請求項7のうちのいずれか1項に記載の解析前処理システム。
    Equipped with data analysis means for analyzing data,
    The data analysis means holds the analysis data group output by the analysis data output means, and performs analysis asynchronously with the analysis data output means by deleting the analysis data group that has been analyzed. The analysis preprocessing system according to any one of items 7 to 9.
  9.  複数のデータ発生源で生成されたデータ群を取得し、
     取得したデータ群から個々のデータを切り出し、
     切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄し、
     前記バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定め、
     データを解析するデータ解析手段に解析データ群を送る
     ことを特徴とする解析前処理方法。
    Acquire data groups generated by multiple data sources,
    Cut out individual data from the acquired data group,
    For each cut out data, it is determined whether or not a predetermined condition is satisfied, data that satisfies the predetermined condition is stored in the buffer, and data that does not satisfy the predetermined condition is discarded,
    From the data stored in the buffer, an analysis data group that is a set of data used for analysis is determined,
    A pre-analysis method of analysis characterized by sending analysis data groups to a data analysis means for analyzing data.
  10.  切り出したデータ毎に、既にバッファに記憶されているいずれのデータともデータの内容が異なるという条件を満たしているか否かを判定し、
     前記条件を満たしてないデータを破棄し、前記条件を満たすデータをバッファに記憶させる
     請求項9に記載の解析前処理方法。
    For each piece of data that has been cut out, it is determined whether or not the condition that the data content differs from any data already stored in the buffer,
    The analysis preprocessing method according to claim 9, wherein data that does not satisfy the condition is discarded and data that satisfies the condition is stored in a buffer.
  11.  切り出したデータ毎に、データに含まれる内容が有効であることを示す基準をデータの内容が満たしているか否かを判定し、
     データの内容が基準を満たしていないデータを破棄し、基準を満たしているデータをバッファに記憶させる
     請求項9または請求項10に記載の解析前処理方法。
    For each piece of cut out data, determine whether the content of the data meets the criteria indicating that the content included in the data is valid,
    The pre-analysis processing method according to claim 9 or 10, wherein data whose data content does not satisfy a criterion is discarded, and data that satisfies the criterion is stored in a buffer.
  12.  個々のデータを切り出したときに当該データのデータ識別情報がデータ識別情報記憶手段に記憶されているか否かを判定し、記憶されていないときには当該データのデータ識別情報をデータ識別情報記憶手段に記憶させ、
     データ識別情報がデータ識別情報記憶手段に記憶されていたと判定されたデータを破棄し、データ識別情報がデータ識別情報記憶手段に記憶されていなかったと判定されたデータをバッファに記憶させる
     請求項9から請求項11のうちのいずれか1項に記載の解析前処理方法。
    When each piece of data is cut out, it is determined whether or not the data identification information of the data is stored in the data identification information storage means. If not, the data identification information of the data is stored in the data identification information storage means. Let
    The data determined that the data identification information is stored in the data identification information storage means are discarded, and the data determined that the data identification information is not stored in the data identification information storage means are stored in the buffer. The analysis pre-processing method according to claim 11.
  13.  コンピュータに、
     複数のデータ発生源で生成されたデータ群を取得するデータ取得処理、
     データ取得処理で取得したデータ群から個々のデータを切り出すデータ切り出し処理、
     データ切り出し処理で切り出したデータ毎に、所定の条件を満たしているか否かを判定し、所定の条件を満たしているデータをバッファに記憶させ、所定の条件を満たしていないデータを破棄するフィルタリング処理、
     前記バッファに記憶されたデータの中から、解析に用いられるデータの集合である解析データ群を定める解析用データ決定処理、
     データを解析するデータ解析手段に解析データ群を送る解析用データ出力処理
     を実行させるための解析前処理プログラム。
    On the computer,
    Data acquisition processing to acquire data groups generated by multiple data sources,
    Data cut-out process for cutting out individual data from the data group acquired in the data acquisition process,
    A filtering process that determines whether or not a predetermined condition is satisfied for each data cut out by the data cut-out process, stores data that satisfies the predetermined condition in a buffer, and discards data that does not satisfy the predetermined condition ,
    Analysis data determination processing for determining an analysis data group that is a set of data used for analysis from among the data stored in the buffer,
    An analysis preprocessing program for executing analysis data output processing for sending analysis data groups to a data analysis means for analyzing data.
  14.  コンピュータに、
     フィルタリング処理で、
     データ切り出し処理で切り出したデータ毎に、既にバッファに記憶されているいずれのデータともデータの内容が異なるという条件を満たしているか否かを判定する内容一致不一致判定処理、および、
     前記条件を満たしてないデータを破棄し、前記条件を満たすデータをバッファに記憶させるデータ選別処理
     を実行させる請求項13に記載の解析前処理プログラム。
    On the computer,
    In the filtering process,
    Content match / mismatch determination processing for determining whether or not the data content is different from any data already stored in the buffer for each data cut out by the data cut-out processing, and
    The pre-analysis processing program according to claim 13, wherein a data selection process for discarding data not satisfying the condition and storing data satisfying the condition in a buffer is performed.
  15.  コンピュータに、
     フィルタリング処理で、
     データ切り出し処理で切り出したデータ毎に、データに含まれる内容が有効であることを示す基準をデータの内容が満たしているか否かを判定する基準判定処理、および、
     データの内容が基準を満たしていないデータを破棄し、基準を満たしているデータをバッファに記憶させるデータ選別処理
     を実行させる請求項13または請求項14に記載の解析前処理プログラム。
    On the computer,
    In the filtering process,
    For each piece of data cut out by the data cut-out process, a reference determination process for determining whether or not the data contents satisfy a reference indicating that the contents included in the data are valid, and
    The pre-analysis processing program according to claim 13 or 14, wherein a data selection process for discarding data whose data content does not satisfy a criterion and storing the data satisfying the criterion in a buffer is executed.
  16.  コンピュータに、
     フィルタリング処理で、
     データ切り出し処理で切り出したデータ毎に、当該データのデータ識別情報がデータ識別情報記憶手段に記憶されているか否かを判定し、記憶されていないときには当該データのデータ識別情報をデータ識別情報記憶手段に記憶させる重複判定処理、および、
     データ識別情報がデータ識別情報記憶手段に記憶されていたと判定されたデータを破棄し、データ識別情報がデータ識別情報記憶手段に記憶されていなかったと判定されたデータをバッファに記憶させるデータ選別処理
     を実行させる請求項13から請求項15のうちのいずれか1項に記載の解析前処理プログラム。
    On the computer,
    In the filtering process,
    For each piece of data cut out by the data cut-out process, it is determined whether or not the data identification information of the data is stored in the data identification information storage means. If not, the data identification information of the data is stored in the data identification information storage means. Duplicate determination process to be stored in, and
    Data selection processing for discarding data determined to have data identification information stored in the data identification information storage means and storing data determined to have not been stored in the data identification information storage means in a buffer The analysis preprocessing program according to any one of claims 13 to 15, which is executed.
PCT/JP2010/001108 2009-02-20 2010-02-19 Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program WO2010095459A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011500529A JPWO2010095459A1 (en) 2009-02-20 2010-02-19 Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-038413 2009-02-20
JP2009038413 2009-02-20

Publications (1)

Publication Number Publication Date
WO2010095459A1 true WO2010095459A1 (en) 2010-08-26

Family

ID=42633746

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/001108 WO2010095459A1 (en) 2009-02-20 2010-02-19 Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program

Country Status (2)

Country Link
JP (1) JPWO2010095459A1 (en)
WO (1) WO2010095459A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228894A (en) * 2013-05-17 2014-12-08 富士通株式会社 Data extraction program, data extraction method, and data extraction device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004058747A (en) * 2002-07-26 2004-02-26 Toyoda Mach Works Ltd Steering control system for vehicle
JP2005006081A (en) * 2003-06-12 2005-01-06 Denso Corp Image server, image collection device, and image display terminal
JP2005149465A (en) * 2003-10-21 2005-06-09 Matsushita Electric Ind Co Ltd Method and device for generating traffic information
WO2005093688A1 (en) * 2004-03-25 2005-10-06 Xanavi Informatics Corporation Traffic information collecting system for navigation device
JP2007241987A (en) * 2006-02-07 2007-09-20 Matsushita Electric Ind Co Ltd Method and device for generating traffic information
JP2008512662A (en) * 2004-09-10 2008-04-24 コタレス・リミテッド Apparatus and method for predicting future movement of an object

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004058747A (en) * 2002-07-26 2004-02-26 Toyoda Mach Works Ltd Steering control system for vehicle
JP2005006081A (en) * 2003-06-12 2005-01-06 Denso Corp Image server, image collection device, and image display terminal
JP2005149465A (en) * 2003-10-21 2005-06-09 Matsushita Electric Ind Co Ltd Method and device for generating traffic information
WO2005093688A1 (en) * 2004-03-25 2005-10-06 Xanavi Informatics Corporation Traffic information collecting system for navigation device
JP2008512662A (en) * 2004-09-10 2008-04-24 コタレス・リミテッド Apparatus and method for predicting future movement of an object
JP2007241987A (en) * 2006-02-07 2007-09-20 Matsushita Electric Ind Co Ltd Method and device for generating traffic information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOJI KIDA ET AL.: "Data-stream Shori ni yoru Daikibo Probe Car System no Kaihatsu to Hyoka", IPSJ SIG NOTES, vol. 2008, no. 83, 3 September 2008 (2008-09-03), pages 1 - 8 *
NOBUTATSU NAKAMURA ET AL.: "Data-stream Shori Kiban o Mochiita Kosoku Probe Joho Shushu, Bunseki", NEC TECHNICAL JOURNAL, vol. 61, no. 1, 25 January 2008 (2008-01-25), pages 40 - 43 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228894A (en) * 2013-05-17 2014-12-08 富士通株式会社 Data extraction program, data extraction method, and data extraction device

Also Published As

Publication number Publication date
JPWO2010095459A1 (en) 2012-08-23

Similar Documents

Publication Publication Date Title
WO2010095458A1 (en) Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program
US20210407221A1 (en) Big telematics data constructing system
US9872125B2 (en) Data collection and management system, data collection and management method, terminal, and management apparatus
JP2018084854A (en) Sensor data processing method
DK2781979T3 (en) Real-time monitoring of a vehicle
US20180067995A1 (en) Sensor Data Search System, Sensor Data Search Method and Management Computer
CN109460339B (en) Log streaming computing system
US10291732B2 (en) Computer systems and methods for sharing asset-related information between data platforms over a network
IES20130043A2 (en) A rail train diagnostics system
JP2018136934A (en) System and method for driver's profiling according to vehicle driving
WO2019113677A1 (en) Snapshots buffering service
US20190140859A1 (en) Method and Apparatus for Processing Signals from Messages on at Least Two Data Buses, Particularly Can Buses; Preferably in a Vehicle; And System
CN112688822A (en) Edge computing fault or security threat monitoring system and method based on multi-point cooperation
CN113595888A (en) Information processing apparatus and information processing method
WO2010095457A1 (en) Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program
CN110516129B (en) Data processing method and device
GB2510561A (en) Wireless interface for train diagnostics system comprising backfill channel to retransmit unacknowledged messages
JPWO2018105321A1 (en) Information processing apparatus and information processing method
EP4123618A1 (en) System and method for processing vehicle event data for journey analysis
WO2010095459A1 (en) Analysis preprocessing system, analysis preprocessing method, and analysis preprocessing program
CN108476151A (en) For capturing and being shown in local control network network(LCN)In grouping and other message system and method
CN108886489B (en) Information processing apparatus and information processing method
JP4829194B2 (en) Network analysis system
CN115391429A (en) Time sequence data processing method and device based on big data cloud computing
CN210490919U (en) Terminal access unit

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10743588

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011500529

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10743588

Country of ref document: EP

Kind code of ref document: A1