WO2022113273A1 - 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム - Google Patents

時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム Download PDF

Info

Publication number
WO2022113273A1
WO2022113273A1 PCT/JP2020/044233 JP2020044233W WO2022113273A1 WO 2022113273 A1 WO2022113273 A1 WO 2022113273A1 JP 2020044233 W JP2020044233 W JP 2020044233W WO 2022113273 A1 WO2022113273 A1 WO 2022113273A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
series data
distance matrix
data analysis
integrated
Prior art date
Application number
PCT/JP2020/044233
Other languages
English (en)
French (fr)
Inventor
昭宏 千葉
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/044233 priority Critical patent/WO2022113273A1/ja
Publication of WO2022113273A1 publication Critical patent/WO2022113273A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the disclosed techniques relate to time-series data analyzers, time-series data analysis methods, and time-series data analysis programs.
  • a system that inputs health care data such as height, weight, and body fat percentage of a person and outputs the health condition of the person is becoming widespread.
  • health care data such as height, weight, and body fat percentage of a person
  • time-series information is important information that represents the condition and nature of the person. For example, a person who is gaining weight and heading for overweight and a person who is losing weight and heading for proper weight may have different risks of future illness even if they have the same weight. Therefore, by clustering a group of similar data based on the information of the time series data, it is possible to create an accurate prediction model for each group. The important point is that clustering based on multiple time series data is required. For example, when focusing only on the increase or decrease in body weight, it is not clear whether the increase or decrease in body weight is due to the increase or decrease in muscle mass or the increase or decrease in fat. Therefore, when predicting the health condition from the value of body weight, it is necessary to consider both the time-series data of body weight and the time-series data of body fat percentage.
  • Non-Patent Document 1 discloses a technique in which two time-series data having different properties of accelerator and brake are clustered for each data.
  • Non-Patent Document 1 it is difficult for the technique disclosed in Non-Patent Document 1 to cluster by considering both properties of the two data at the same time. This corresponds to considering only one of the time-series data of body weight and the time-series data of body fat percentage in the above-mentioned example of healthcare data, and appropriate clustering can be performed when clustering a group of similar data. do not have.
  • the disclosed technique has been made in view of the above points, and is a time-series data analyzer capable of appropriately clustering a group of similar time-series data, a time-series data analysis method, and a time-series data analysis.
  • the purpose is to provide a program.
  • the first aspect of the present disclosure is a time-series data analyzer for M (M is an integer of 2 or more) time-series data composed of N variables (N is an integer of 2 or more).
  • M is an integer of 2 or more
  • N is an integer of 2 or more.
  • the element is the norm of each element of the individual distance matrix created by the individual distance matrix creation unit and the individual distance matrix creation unit that creates the individual distance matrix whose elements are the similarity between the M time series data. It is provided with an integrated distance matrix creation unit that creates the integrated distance matrix, and a classification unit that classifies the M time-series data based on the integrated distance matrix created by the integrated distance matrix creation unit.
  • the second aspect of the present disclosure is a time-series data analysis method, wherein the variable is obtained for M (M is an integer of 2 or more) time-series data composed of N variables (N is an integer of 2 or more). For each, an individual distance matrix was created with the similarity between the M time-series data as an element, and an integrated distance matrix was created with the norm of each element of the created individual distance matrix as an element.
  • the computer performs classification of the M time-series data based on the integrated distance matrix.
  • a third aspect of the present disclosure is a time-series data analysis program, wherein the variables are for M (M is an integer of 2 or more) time-series data composed of N variables (N is an integer of 2 or more). For each, an individual distance matrix was created with the similarity between the M time-series data as an element, and an integrated distance matrix was created with the norm of each element of the created individual distance matrix as an element. Have the computer perform the classification of the M time series data based on the integrated distance matrix.
  • a time series data analyzer a time series data analysis method, and a time series capable of appropriately clustering a group of similar time series data by considering the properties of a plurality of time series data.
  • a series data program can be provided.
  • FIG. 1 is a diagram showing an outline of the time series data analysis device of the present embodiment.
  • the time-series data analyzer 10 shown in FIG. 1 takes a plurality of time-series data as inputs and classifies (clusters) them in consideration of the properties between the time-series data. Further, the time-series data analysis device 10 performs machine learning on the classified time-series data. Then, the time-series data analysis device 10 makes a prediction from the time-series data using the prediction model generated as a result of machine learning, and outputs the prediction result.
  • the time-series data analyzer 10 of the present embodiment uses human health care data such as body weight and body fat percentage as time-series data. Then, the time-series data analyzer 10 of the present embodiment predicts and outputs the health risk of the person from the healthcare data.
  • FIG. 2 is a block diagram showing a hardware configuration of the time series data analyzer 10.
  • the time-series data analyzer 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and a display unit 16. It has a communication interface (I / F) 17.
  • the configurations are connected to each other via a bus 19 so as to be communicable with each other.
  • the CPU 11 is a central arithmetic processing unit that executes various programs and controls each part. That is, the CPU 11 reads the program from the ROM 12 or the storage 14, and executes the program using the RAM 13 as a work area. The CPU 11 controls each of the above configurations and performs various arithmetic processes according to the program stored in the ROM 12 or the storage 14. In the present embodiment, the ROM 12 or the storage 14 stores a time-series data analysis program for analyzing the time-series data.
  • the ROM 12 stores various programs and various data.
  • the RAM 13 temporarily stores a program or data as a work area.
  • the storage 14 is composed of a storage device such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for performing various inputs.
  • the display unit 16 is, for example, a liquid crystal display and displays various information.
  • the display unit 16 may adopt a touch panel method and function as an input unit 15.
  • the communication interface 17 is an interface for communicating with other devices.
  • a wired communication standard such as Ethernet (registered trademark) or FDDI
  • a wireless communication standard such as 4G, 5G, or Wi-Fi (registered trademark) is used.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the time series data analysis device 10.
  • the time-series data analysis device 10 has an individual distance matrix creation unit 101, an integrated distance matrix creation unit 102, a classification unit 103, and a learning unit 104 as functional configurations.
  • Each functional configuration is realized by the CPU 11 reading out the time-series data analysis program stored in the ROM 12 or the storage 14, expanding the time-series data analysis program into the RAM 13, and executing the program.
  • the individual distance matrix creation unit 101 has M time series data consisting of N variables (N is an integer of 2 or more) (M is an integer of 2 or more), and M time series data for each variable. Create an individual distance matrix with similarity as an element.
  • FIG. 4 is a diagram showing an example of time-series data handled by the time-series data analyzer 10.
  • FIG. 4 shows the health diagnosis data for each year as time-series data consisting of N variables.
  • FIG. 4 exemplifies the values of body weight and body fat percentage as data for health diagnosis.
  • the individual distance matrix creation unit 101 calculates the degree of similarity of the time series between users for each variable of the time series data.
  • the degree of similarity referred to here represents the degree of similarity in the tendency between one time-series data and another time-series data.
  • the similarity is a value calculated by a method such as a dynamic time expansion method (Dynamic Time Warping, DTW).
  • DTW Dynamic Time Warping
  • FIG. 5 is a diagram showing an example of an individual distance matrix created by the individual distance matrix creating unit 101.
  • the individual distance matrix creating unit 101 in the case of the variable 1 (body weight), the individual distance matrix creating unit 101 generates the individual distance matrix D 1 as shown in FIG.
  • the individual distance matrix creating unit 101 in the case of the variable 2 (body fat percentage), the individual distance matrix creating unit 101 generates the individual distance matrix D 2 as shown in FIG.
  • the weight of variable 1 will be described as an example.
  • the elements of the individual distance matrix D1 of the variable 1 are the similarity between the weight of the user A and the weight of the user A in the first row and the first column, and the similarity between the weight of the user A and the weight of the user B in the first row and the second column.
  • the degree, 1st row and 3rd column is the degree of similarity between the weight of user A and the weight of user C. That is, it is assumed that the elements of the individual distance matrix D 1 correspond to the combination of each user. That is, the elements of the 1st row and 1st column of the individual distance matrix D1 are the similarity of the data of the same person, and are 0 because they completely match. Similarly, the elements of the other diagonal components of the individual distance matrix D1 are 0 .
  • the integrated distance matrix creation unit 102 creates an integrated distance matrix with the norms of each element of the individual distance matrix created by the individual distance matrix creation unit 101 as elements.
  • FIG. 6 is a diagram showing an example of creating an integrated distance matrix by the integrated distance matrix creating unit 102.
  • the integrated distance matrix creating unit 102 obtains the integrated distance matrix D obtained by calculating the norms of each element of the individual distance matrices D 1 , D 2 , ..., DN .
  • FIG. 7 is a diagram showing the creation of the integrated distance matrix D by the integrated distance matrix creating unit 102. Specifically, the integrated distance matrix creating unit 102 obtains an integrated distance matrix D such that the elements di and j are the following mathematical formulas (1).
  • the classification unit 103 classifies (clusters) M time-series data based on the integrated distance matrix D created by the integrated distance matrix creation unit 102.
  • the clustering method may be based on the integrated distance matrix D, and for example, K-means or hierarchical clustering may be used.
  • the classification unit 103 assigns the same label to similar data.
  • FIG. 7 is a diagram illustrating the result of clustering by the classification unit 103. As shown in FIG. 7, if, for example, user A and user C are similar, the classification unit 103 assigns the same label number to user A and user C. Similarly, if the user B and the user D are similar, the classification unit 103 assigns the same label number to the user B and the user D.
  • the learning unit 104 learns a prediction model for each of the classified groups for the M time-series data classified by the classification unit 103.
  • FIG. 8 is a diagram showing an example of learning of a prediction model by the learning unit 104. It is assumed that M users are divided into a group of label 1 (T 1 person) and label 2 (T 2 people) by clustering by the classification unit 103. FIG. 8 shows a situation in which four users are divided into a group of label 1 (2 people) and label 2 (2 people). For example, consider predicting the severity of a disease in 2012 from S variables. It is assumed that the severity y i of the i-th user is represented by the sum of the variables shown in the mathematical formula (2).
  • w 1 , w 2 , ..., W S are coefficients multiplied by each variable and are obtained by minimizing the error function E k (w) shown in the equation (3).
  • the learning unit 104 minimizes the error function E for each clustered group and obtains the coefficients w 1 , w 2 , ..., W S , so that the optimum prediction model (w 1 , w 2 ) for each group is obtained. , ..., an expression including w S ) is obtained.
  • the learning unit 104 may introduce ranking learning into the learning of the prediction model.
  • the rank score s (i) is expressed by the mathematical formula (4).
  • w 1 , w 2 , ..., W S are coefficients to be multiplied by each variable.
  • the coefficients w 1 , w 2 , ..., W S are obtained by minimizing the error function E shown in the equation (5).
  • the sign function is a function that returns 1 when the argument is positive, -1 when the argument is negative, and 0 when the argument is negative
  • di and j are elements of the above-mentioned integrated distance matrix D.
  • the elements di and j are variables that have small values if the user i and the user j are similar users. That is, the above formula (5) is an error function that increases the error when the error of similar users is large.
  • the time-series data analyzer 10 can appropriately cluster a group of similar time-series data.
  • the time-series data analysis device 10 has the configuration shown in FIG. 3, and can generate a highly accurate prediction model by performing machine learning on appropriately clustered time-series data.
  • the functional configuration shown in FIG. 3 has a configuration in which the learning unit 104 is provided in the time series data analysis device 10, but the present disclosure is not limited to such an example.
  • the training of the prediction model may be performed by a device different from the time-series data analysis device 10 that has acquired the classification result by the time-series data analysis device 10.
  • FIG. 9 is a flowchart showing the flow of time-series data analysis processing by the time-series data analysis device 10.
  • the time-series data analysis process is performed by the CPU 11 reading the time-series data analysis program from the ROM 12 or the storage 14, expanding the time-series data analysis program into the RAM 13, and executing the program.
  • step S101 the CPU 11 acquires M time series data (M is an integer of 2 or more) composed of N variables (N is an integer of 2 or more).
  • step S102 the CPU 11 acts as the individual distance matrix creating unit 101 for the individual distance matrix having the similarity between the M time series data for each variable as an element for the M time series data.
  • step S102 The process of generating the individual distance matrix in step S102 has been described as described above as the operation of the individual distance matrix creating unit 101.
  • step S103 the CPU 11 creates an integrated distance matrix with the norms of each element of the individual distance matrix created in step S102 as elements as the integrated distance matrix creating unit 102.
  • the process of generating the integrated distance matrix in step S103 has been described as described above as the operation of the integrated distance matrix creating unit 102.
  • step S104 the CPU 11 classifies the M time-series data as the classification unit 103 based on the integrated distance matrix created in step S103.
  • the classification process in step S104 has been described as described above as the operation of the classification unit 103.
  • step S105 the CPU 11 learns a prediction model for each of the classified groups with respect to the above M time-series data classified as the learning unit 104.
  • the learning process in step S105 has been described as described above as the operation of the learning unit 104.
  • the CPU 11 of the time-series data analysis device 10 can appropriately cluster a group of similar data by executing the operation shown in FIG. Then, the CPU 11 of the time-series data analysis device 10 can generate a highly accurate prediction model by performing machine learning on appropriately clustered data by executing the operation shown in FIG.
  • the CPU 11 of the time series data analysis device 10 is configured to execute the learning process of the prediction model, but the present disclosure is not limited to such an example.
  • the training of the prediction model may be performed by a device different from the time-series data analysis device 10 that has acquired the classification result by the time-series data analysis device 10.
  • clustering based on an integrated distance matrix considering the properties of a plurality of time series data is realized, and a time series that separates groups that could not be separated by a single data is separated.
  • the data analyzer 10 is provided. Then, by machine learning the data of the group classified by the time series data analysis device 10 according to the present embodiment, highly accurate machine learning becomes possible.
  • processors other than the CPU may execute the time-series data analysis process in which the CPU reads the software (program) and executes it in each of the above embodiments.
  • a processor in this case a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing an FPGA (Field-Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), or the like for specifying an ASIC.
  • An example is a dedicated electric circuit or the like, which is a processor having a circuit configuration designed exclusively for it.
  • time series data analysis processing may be performed by one of these various processors, or a combination of two or more processors of the same type or different types (for example, a plurality of FPGAs, and a CPU and an FPGA). It may be executed by the combination of).
  • the hardware-like structure of these various processors is, more specifically, an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the mode in which the time-series data analysis processing program is stored (installed) in the storage 14 in advance has been described, but the present invention is not limited to this.
  • the program is stored in a non-temporary medium such as a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital Versaille Disk Online Memory), and a USB (Universal Serial Bus) memory. It may be provided in the form. Further, the program may be downloaded from an external device via a network.
  • Appendix 1 With memory With at least one processor connected to the memory Including The processor For M time series data (M is an integer of 2 or more) consisting of N variables (N is an integer of 2 or more), an individual distance matrix between the M time series data is created for each variable. , Create an integrated distance matrix with the norm of each element of the created individual distance matrix as an element. A time-series data analyzer configured to classify the M time-series data based on the created integrated distance matrix.
  • a non-temporary storage medium that stores a program that can be executed by a computer to perform time-series data analysis processing.
  • the time series data analysis process is For M time series data (M is an integer of 2 or more) consisting of N variables (N is an integer of 2 or more), an individual distance matrix between the M time series data is created for each variable. , Create an integrated distance matrix with the norm of each element of the created individual distance matrix as an element.
  • a non-temporary storage medium that classifies the M time-series data based on the created integrated distance matrix.
  • Time-series data analyzer 101 Individual distance matrix creation unit 102 Integrated distance matrix creation unit 103 Classification unit 104 Learning unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成する個別距離行列作成部101と、個別距離行列作成部101が作成した個別距離行列の各要素のノルムを要素とした統合距離行列を作成する統合距離行列作成部102と、統合距離行列作成部102が作成した統合距離行列に基づいてM個の時系列データを分類する分類部103と、を備える、時系列データ分析装置10が提供される。

Description

時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム
 開示の技術は、時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラムに関する。
 人の身長、体重、体脂肪率等のヘルスケアデータを入力として、その人の健康状態を出力とするようなシステムが世の中に普及しつつある。そのようなシステムを用いて、例えば、健康診断の結果から将来の生活習慣病の発症確率を機械学習によって予測し、システムが予測した結果を基に保健指導を実施することが考えられる。
 ヘルスケアデータのように個人差が大きいデータから予測モデルを作る場合、類似するユーザの集団ごとにモデルを作ることが望ましい。例えば、骨粗しょう症の発症リスクは男性よりも女性の方が高いことが知られている。そのため、骨粗しょう症の発症リスクを予測するためには、性別で分けた集団ごとに予測モデルを作ることが妥当である。
 また、ヘルスケアデータの分析において、時系列の情報は、その人の状態及び性質を表す重要な情報である。例えば、体重が増加し過体重に向かっている人と、減少し適正体重に向かっている人とでは、同じ体重であっても将来の疾病リスクが異なり得る。従って、時系列データの情報に基づいて、類似するデータの集団をクラスタリングすることで、集団ごとに精度の良い予測モデルを作ることができる。重要なのは複数の時系列データに基づいたクラスタリングが必要である点である。例えば、体重の増減だけに着目した場合、体重の増減が筋肉量の増減によるものなのか、脂肪の増減によるものなのかがわからない。従って、体重の値から健康状態を予測する場合においては、体重の時系列データと体脂肪率の時系列データとの両方を考慮することが必要である。
 非特許文献1では、アクセルとブレーキという異なる性質を持った2つの時系列データに対して、それぞれのデータ毎にクラスタリングしている技術が開示されている。
岡田 将吾,人見 謙太郎,チャンドラシリ ナイワラ P.,呂 有為,新田 克己、O-015 車載センサログの時系列データマイニングに基づく運転挙動の分析(分析とモデリング,O分野:情報システム) 情報科学技術フォーラム講演論文集 FIT(電子情報通信学会・情報処理学会)運営委員会 2012-09-04 11 4 pp387-390
 しかし、非特許文献1で開示されている技術は、2つのデータの両方の性質を同時に考慮してクラスタリングすることは困難である。これは上述したヘルスケアデータの例では、体重の時系列データと体脂肪率の時系列データの片方のみを考慮することに該当し、類似するデータの集団をクラスタリングする際に適切なクラスタリングが行えない。
 開示の技術は、上記の点に鑑みてなされたものであり、類似する時系列データの集団を適切にクラスタリングすることが可能な時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラムを提供することを目的とする。
 本開示の第1態様は、時系列データ分析装置であって、N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成する個別距離行列作成部と、前記個別距離行列作成部が作成した前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成する統合距離行列作成部と、前記統合距離行列作成部が作成した前記統合距離行列に基づいて前記M個の時系列データを分類する分類部と、を備える。
 本開示の第2態様は、時系列データ分析方法であって、N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成し、作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、作成された前記統合距離行列に基づいて前記M個の時系列データを分類することをコンピュータが実行する。
 本開示の第3態様は、時系列データ分析プログラムであって、N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成し、作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、作成された前記統合距離行列に基づいて前記M個の時系列データを分類することをコンピュータに実行させる。
 開示の技術によれば、複数の時系列データの性質を考慮することで、類似する時系列データの集団を適切にクラスタリングすることが可能な時系列データ分析装置、時系列データ分析方法、及び時系列データプログラムを提供することができる。
本実施形態の時系列データ分析装置の概要を示す図である。 時系列データ分析装置のハードウェア構成を示すブロック図である。 時系列データ分析装置の機能構成の例を示すブロック図である。 時系列データ分析装置が扱う時系列データの例を示す図である。 個別距離行列作成部が作成する個別距離行列の例を示す図である。 統合距離行列作成部の動作例を説明する。 統合距離行列作成部による統合距離行列の作成について示す図である。 学習部による予測モデルの学習の例を示す図である。 時系列データ分析装置による時系列データ分析処理の流れを示すフローチャートである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 図1は、本実施形態の時系列データ分析装置の概要を示す図である。図1に示した時系列データ分析装置10は、複数の時系列データを入力とし、時系列データ間の性質を考慮して分類(クラスタリング)する。また、時系列データ分析装置10は、分類された時系列データに対する機械学習を行う。そして時系列データ分析装置10は、機械学習の結果生成される予測モデルを用いて、時系列データから予測を行って、予測結果を出力する。
 本実施形態の時系列データ分析装置10は、時系列データとして、体重、体脂肪率その他の人間のヘルスケアデータが用いられる。そして、本実施形態の時系列データ分析装置10は、ヘルスケアデータから、その人の健康リスクを予測して出力する。
 図2は、時系列データ分析装置10のハードウェア構成を示すブロック図である。
 図2に示すように、時系列データ分析装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
 CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、時系列データを分析するための時系列データ分析プログラムが格納されている。
 ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
 通信インタフェース17は、他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
 次に、時系列データ分析装置10の機能構成について説明する。
 図3は、時系列データ分析装置10の機能構成の例を示すブロック図である。
 図3に示すように、時系列データ分析装置10は、機能構成として、個別距離行列作成部101、統合距離行列作成部102、分類部103、及び学習部104を有する。各機能構成は、CPU11がROM12又はストレージ14に記憶された時系列データ分析プログラムを読み出し、RAM13に展開して実行することにより実現される。
 個別距離行列作成部101は、N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、変数ごとにM個の時系列データ間の類似度を要素とする個別距離行列を作成する。
 個別距離行列作成部101の動作例を説明する。図4は、時系列データ分析装置10が扱う時系列データの例を示す図である。図4には、N個の変数からなる時系列データとして、ユーザごとの各年度の健康診断のデータが示されている。図4には健康診断のデータとして体重及び体脂肪率の値が例示されている。
 個別距離行列作成部101は、各時系列データの変数毎に、ユーザ間の時系列の類似度を計算する。ここで言う類似度とは、ある時系列データと別の時系列データとの傾向の類似度合いを表すものである。本実施形態では、類似度は、動的時間伸縮法(Dynamic Time Warping、DTW)等の手法によって計算される値である。類似度は、傾向が似ているもの同士ほど小さな値となる。従って、類似度は各時系列データの変数間の距離と同義である。
 図5は、個別距離行列作成部101が作成する個別距離行列の例を示す図である。例えば変数1(体重)の場合、個別距離行列作成部101は、個別距離行列Dを図5のように生成する。同様に、変数2(体脂肪率)の場合、個別距離行列作成部101は、個別距離行列Dを図5のように生成する。
 ここで変数1の体重を例に説明する。変数1の個別距離行列Dの要素は、1行1列目がユーザAの体重とユーザAの体重との類似度、1行2列目がユーザAの体重とユーザBの体重との類似度、1行3列目がユーザAの体重とユーザCの体重との類似度である。すなわち、個別距離行列Dの要素は、それぞれのユーザの組み合わせに対応しているとする。つまり、個別距離行列Dの1行1列目の要素は同一人物のデータの類似度であり、完全に一致するので0となる。同様に個別距離行列Dの他の対角成分の要素は0となる。
 統合距離行列作成部102は、個別距離行列作成部101が作成した個別距離行列の各要素のノルムを要素とした統合距離行列を作成する。
 統合距離行列作成部102の動作例を説明する。図6は、統合距離行列作成部102による統合距離行列の作成例を示す図である。
 統合距離行列作成部102は、個別距離行列D、D、・・・、Dの各要素のノルムを計算した統合距離行列Dを求める。図7は、統合距離行列作成部102による統合距離行列Dの作成について示す図である。具体的には、統合距離行列作成部102は、要素di,jが下記の数式(1)となるような統合距離行列Dを求める。
Figure JPOXMLDOC01-appb-M000001
 分類部103は、統合距離行列作成部102が作成した統合距離行列Dに基づいて、M個の時系列データを分類(クラスタリング)する。クラスタリングの方法としては、統合距離行列Dに基づくものであればよく、例えば、K-means又は階層クラスタリングなどが用いられ得る。そして分類部103は、クラスタリングの結果、類似するデータ同士に同一のラベルを付与する。図7は分類部103によるクラスタリングの結果を例示する図である。図7に示したように、例えばユーザAとユーザCとが類似しているとすれば、分類部103は、ユーザAとユーザCとには同一のラベル番号を付与する。同様に、ユーザBとユーザDとが類似しているとすれば、分類部103は、ユーザBとユーザDとには同一のラベル番号を付与する。
 学習部104は、分類部103が分類したM個の時系列データに対して、分類した集団ごとに予測モデルを学習する。
 図8は、学習部104による予測モデルの学習の例を示す図である。分類部103によるクラスタリングによって、M人のユーザがラベル1(T人)とラベル2(T人)の集団に分けられているとする。図8では、4人のユーザがラベル1(2人)とラベル2(2人)の集団に分けられている状況を示している。例えば、2012年の疾病の重症度をS個の変数から予測することを考える。i番目のユーザの重症度yが数式(2)で示す変数の和で表されるとする。
Figure JPOXMLDOC01-appb-M000002
 ここで、w、w、・・・、wは、それぞれの変数に掛け合わせる係数で、数式(3)に示す誤差関数E(w)を最小化することによって得られる。
Figure JPOXMLDOC01-appb-M000003
 学習部104は、クラスタリングされた集団ごとに誤差関数Eを最小化して、係数w、w、・・・、wを求めることによって、集団ごとに最適な予測モデル(w、w、・・・、wを含む式)を求める。
 学習部104は、予測モデルの学習にランキング学習を導入してもよい。ランキング学習において、ランクスコアs(i)が数式(4)で表される。
Figure JPOXMLDOC01-appb-M000004
 ここで、w、w、・・・、wは、それぞれの変数に掛け合わせる係数である。係数w、w、・・・、wは、数式(5)に示す誤差関数Eを最小化することによって得られる。
Figure JPOXMLDOC01-appb-M000005
 ここで、sign関数は、引数が正の場合に1、負の場合に-1、0の場合に0を返す関数であり、di,jは、上記の統合距離行列Dの要素である。要素di,jは、ユーザiとユーザjとが類似したユーザであれば小さな値となる変数である。つまり上記の数式(5)は、類似するユーザの誤差が大きい場合はその誤差をより大きくするような誤差関数になっている。
 時系列データ分析装置10は、図3に示した構成を有することで、類似する時系列データの集団を適切にクラスタリングすることが可能となる。そして、時系列データ分析装置10は、図3に示した構成を有することで、適切にクラスタリングされた時系列データに対する機械学習を行うことで、精度の高い予測モデルを生成することができる。
 なお、図3に示した機能構成では、時系列データ分析装置10に学習部104が備わった構成となっているが、本開示は係る例に限定されるものではない。予測モデルの学習は、時系列データ分析装置10による分類結果を取得した、時系列データ分析装置10とは異なる装置が行ってもよい。
 次に、時系列データ分析装置10の作用について説明する。
 図9は、時系列データ分析装置10による時系列データ分析処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から時系列データ分析プログラムを読み出して、RAM13に展開して実行することにより、時系列データ分析処理が行なわれる。
 ステップS101において、CPU11は、N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データを取得する。
 ステップS101に続いて、ステップS102において、CPU11は、個別距離行列作成部101として、M個の時系列データに対し、変数ごとにM個の時系列データ間の類似度を要素とする個別距離行列を作成する。ステップS102における個別距離行列の生成処理は、個別距離行列作成部101の動作として上述の通り説明したものである。
 ステップS102に続いて、ステップS103において、CPU11は、統合距離行列作成部102として、ステップS102で作成された個別距離行列の各要素のノルムを要素とした統合距離行列を作成する。ステップS103における統合距離行列の生成処理は、統合距離行列作成部102の動作として上述の通り説明したものである。
 ステップS103に続いて、ステップS104において、CPU11は、分類部103として、ステップS103で作成された統合距離行列に基づいて上記M個の時系列データを分類する。ステップS104における分類処理は、分類部103の動作として上述の通り説明したものである。
 ステップS104に続いて、ステップS105において、CPU11は、学習部104として、分類された上記M個の時系列データに対して、分類した集団ごとに予測モデルを学習する。ステップS105における学習処理は、学習部104の動作として上述の通り説明したものである。
 時系列データ分析装置10のCPU11は、図9に示した動作を実行することで、類似するデータの集団を適切にクラスタリングすることが可能となる。そして、時系列データ分析装置10のCPU11は、図9に示した動作を実行することで、適切にクラスタリングされたデータに対する機械学習を行うことで、精度の高い予測モデルを生成することができる。
 図9に示した動作例では、時系列データ分析装置10のCPU11が予測モデルの学習処理を実行する構成となっているが、本開示は係る例に限定されるものではない。予測モデルの学習は、時系列データ分析装置10による分類結果を取得した、時系列データ分析装置10とは異なる装置が行ってもよい。
 以上説明したように、本実施形態によれば、複数の時系列データの性質を考慮した統合距離行列に基づくクラスタリングを実現し、単一のデータでは分離不可能であった群を分離する時系列データ分析装置10が提供される。そして、本実施形態に係る時系列データ分析装置10によって分類された群のデータが機械学習されることによって、高精度な機械学習が可能となる。
 本実施形態に係る時系列データ分析装置10によって生成された、複数の時系列データの性質を考慮した統合距離行列が、学習時の誤差関数に明示的に組み込まれることで、類似するデータを効率的に学習できる。従って、本実施形態に係る時系列データ分析装置10によって時系列データが分類されることで、分類された時系列データを用いた高精度な機械学習が可能となる。
 なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した時系列データ分析処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、時系列データ分析処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記各実施形態では、時系列データ分析処理プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の個別距離行列を作成し、
 作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、
 作成された前記統合距離行列に基づいて前記M個の時系列データを分類する
 ように構成されている時系列データ分析装置。
 (付記項2)
 時系列データ分析処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記時系列データ分析処理は、
 N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の個別距離行列を作成し、
 作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、
 作成された前記統合距離行列に基づいて前記M個の時系列データを分類する
 非一時的記憶媒体。
 10 時系列データ分析装置
 101 個別距離行列作成部
 102 統合距離行列作成部
 103 分類部
 104 学習部

Claims (7)

  1.  N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成する個別距離行列作成部と、
     前記個別距離行列作成部が作成した前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成する統合距離行列作成部と、
     前記統合距離行列作成部が作成した前記統合距離行列に基づいて前記M個の時系列データを分類する分類部と、
    を備える、時系列データ分析装置。
  2.  前記分類部が分類した前記M個の時系列データに対して、分類した集団ごとに予測モデルを学習する学習部を更に備える、請求項1に記載の時系列データ分析装置。
  3.  前記学習部は、所定の誤差関数が最小化するような、前記変数ごとに掛け合わされる係数を決定することで前記予測モデルを学習する、請求項2に記載の時系列データ分析装置。
  4.  前記学習部は、前記変数と前記係数との積を全ての前記変数で合計したスコア及び前記統合距離行列の要素を用いたランキング学習により前記予測モデルを学習する、請求項3に記載の時系列データ分析装置。
  5.  前記時系列データは、人間の健康に関するデータである、請求項1~請求項4の何れか1項に記載の時系列データ分析装置。
  6.  N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成し、
     作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、
     作成された前記統合距離行列に基づいて前記M個の時系列データを分類する
    ことをコンピュータが実行する、時系列データ分析方法。
  7.  N個(Nは2以上の整数)の変数からなるM個(Mは2以上の整数)の時系列データに対し、前記変数ごとに前記M個の時系列データ間の類似度を要素とする個別距離行列を作成し、
     作成された前記個別距離行列の各要素のノルムを要素とした統合距離行列を作成し、
     作成された前記統合距離行列に基づいて前記M個の時系列データを分類する
    ことをコンピュータに実行させる、時系列データ分析プログラム。
PCT/JP2020/044233 2020-11-27 2020-11-27 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム WO2022113273A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/044233 WO2022113273A1 (ja) 2020-11-27 2020-11-27 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/044233 WO2022113273A1 (ja) 2020-11-27 2020-11-27 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム

Publications (1)

Publication Number Publication Date
WO2022113273A1 true WO2022113273A1 (ja) 2022-06-02

Family

ID=81755439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/044233 WO2022113273A1 (ja) 2020-11-27 2020-11-27 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム

Country Status (1)

Country Link
WO (1) WO2022113273A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684878A (zh) * 2023-07-10 2023-09-01 北京中科网芯科技有限公司 一种5g信息传输数据安全监测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127815A1 (ja) * 2011-03-22 2012-09-27 パナソニック株式会社 移動体検出装置および移動体検出方法
US20200082013A1 (en) * 2018-09-10 2020-03-12 Ciena Corporation Systems and methods for automated feature selection and pattern discovery of multi-variate time-series

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127815A1 (ja) * 2011-03-22 2012-09-27 パナソニック株式会社 移動体検出装置および移動体検出方法
US20200082013A1 (en) * 2018-09-10 2020-03-12 Ciena Corporation Systems and methods for automated feature selection and pattern discovery of multi-variate time-series

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684878A (zh) * 2023-07-10 2023-09-01 北京中科网芯科技有限公司 一种5g信息传输数据安全监测系统
CN116684878B (zh) * 2023-07-10 2024-01-30 北京中科网芯科技有限公司 一种5g信息传输数据安全监测系统

Similar Documents

Publication Publication Date Title
Habehh et al. Machine learning in healthcare
Petersen et al. A generic method for assignment of reliability scores applied to solvent accessibility predictions
Huang et al. Feature selection and cancer classification via sparse logistic regression with the hybrid L1/2+ 2 regularization
Glaab et al. ArrayMining: a modular web-application for microarray analysis combining ensemble and consensus methods with cross-study normalization
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
Lee et al. Big data and artificial intelligence (AI) methodologies for computer-aided drug design (CADD)
Blagus et al. Boosting for high-dimensional two-class prediction
Moteghaed et al. Biomarker discovery based on hybrid optimization algorithm and artificial neural networks on microarray data for cancer classification
Thomas et al. Predicting breast cancer using an expression values weighted clinical classifier
Wu et al. Predicting prolonged length of ICU stay through machine learning
WO2022113273A1 (ja) 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム
Mulder et al. Dynamic digital twin: Diagnosis, treatment, prediction, and prevention of disease during the life course
WO2022113274A1 (ja) 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム
Hou et al. Regularization method for predicting an ordinal response using longitudinal high-dimensional genomic data
Chen et al. D3GRN: a data driven dynamic network construction method to infer gene regulatory networks
Lee et al. Survival prediction and variable selection with simultaneous shrinkage and grouping priors
Iuliano et al. Cosmonet: An r package for survival analysis using screening-network methods
Das et al. Explainability based on feature importance for better comprehension of machine learning in healthcare
JP2019159918A (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
Thareja et al. A detailed survey on data mining based optimization schemes for bioinformatics applications
Li et al. scMultiSim: simulation of single cell multi-omics and spatial data guided by gene regulatory networks and cell-cell interactions
Giang et al. A combination model of robust principal component analysis and multiple kernel learning for cancer patient stratification
Işık et al. The Determination of Distinctive Single Nucleotide Polymorphism Sets for the Diagnosis of Behçet's Disease
Hsieh et al. Molecular descriptors selection and machine learning approaches in protein-ligand binding affinity with applications to molecular docking
Mahmoud et al. Analysis of machine learning techniques for gene selection and classification of microarray data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20963537

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20963537

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP