TWI757915B

TWI757915B - 高效率異質性時序資料表示法辨別系統

Info

Publication number: TWI757915B
Application number: TW109135557A
Authority: TW
Inventors: 黃智遠; 曾翊昇
Original assignee: 國立中央大學
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-03-11
Also published as: TW202215269A; US20220114460A1

Abstract

一種高效率異質性時序資料表示法辨別系統，包括一模型訓練機構及一資料分類機構所構成，可根據壓縮效率及資訊損失之需求，針對一特定時序資料找出何種時序資料表示法最為合適。具體而言，該模型訓練機構可針對每個訓練時序資料進行不同表示法的效能評估，進而確定每個訓練時序資料最合適的表示法，再將訓練時序資料進行群聚並選出各群聚最具代表性時序資料；爾後，每當系統獲取未辨識之時序資料時，該資料分類機構將計算此時序資料與每個群聚代表的相似性，用以間接識別此時序資料最合適的表示法。其實驗結果顯示，本系統在不同的參數設定下，能夠為46%至76%的時序資料辨別出最合適的表示法。對於其餘的時序資料，本系統所選之表示法與實際上最合適表示法相比差異僅小於2.19%。此外，本系統在辨識最合適的表示法上，係較傳統方法快17至300倍的效率。

Description

高效率異質性時序資料表示法辨別系統

本發明係有關於一種高效率異質性時序資料表示法辨別系統，特別係指可根據壓縮效率及資訊損失之需求，針對一特定時序資料找出何種時序資料表示法最為合適者。

時間序列資料為按時間順序儲存的一連串測量相同事件類型的資料，時間序列資料存在於許多領域中，例如股票市場的波動、感測器的數據、醫學與生物資訊等。由於時間序列資料的特性包含資料持續產製、高維度、及龐大的資料量，若直接使用原始時序資料進行分析及儲存，其效率低且成本高。因此，為了有效管理時間序列資料，採用時序資料表示法（representation）取代原始時間序列，可以減少原始時間序列的資料量及維度，但同時保留其時序資料特徵。然而，針對時序資料表示法的壓縮效率及資訊損失表現而言，不同時序資料表示法適合於某些特定時序資料類型，且時間序列資料類型廣泛且多樣，如溫度、溼度、速度、位置、震動、及壓力等，這代表無法僅使用單一種表示法有效管理所有類型的時間序列資料。

為了解決高維度問題，目前已有許多時間序列資料表示法被提出，然而不同時序資料表示法有各自的特性，且時間序列資料類型廣泛且多樣，如溫度、溼度、速度、位置、震動、壓力、流量及氣體等，這代表無法僅使用單一種表示法有效管理所有類型的物聯網時間序列資料。而且使用時序資料表示法必定會造成某些資料特性的損失，因此在資料的壓縮率及失真度上取得平衡點是一個重要的課題。

由於無法僅以單一種表示法即可對所有的時間序列資料都表現出最佳的效果，而目前確定最合適的表示法的最直接解決方案是在接收新的時間序列資料時直接檢查所有可能的表示法。儘管此種傳統方法可以保證找出最合適的表示法，但是在處理大量時間序列資料時，此種傳統方法逐一測試不同的時序資料表示法非常耗時。職是之故，鑑於既有研究多使用單一或特定時序資料集進行幾種時序資料表示法之比較，實有急待改進之必要，針對既有之缺失加以改良，發展一套系統挑選最合適的時序資料表示法可解決前案技術缺點之發明實有必要。

本發明之主要目的係在於，克服習知技藝所遭遇之上述問題並提供一種可根據壓縮效率及資訊損失之需求，針對一特定時序資料找出何種時序資料表示法最為合適之高效率異質性時序資料表示法辨別系統。

本發明之另一目的係在於，提供一種在辨識最合適的表示法上，較傳統方法快17至300倍之效率，並且可擴展性為傳統方法的10倍之高效率異質性時序資料表示法辨別系統。

本發明之另一目的係在於，提供一種可在不同的參數設定下，能夠為46%至76%的時序資料辨別出最合適的表示法，對於其餘的時序資料，所選之表示法與實際上最合適表示法相比差異僅小於2.19%之高效率異質性時序資料表示法辨別系統。

為達以上之目的，本發明係一種高效率異質性時序資料表示法辨別系統，係包括：一模型訓練機構，係針對每個訓練時序資料以一由壓縮效率（compression rate）及資訊損失（information loss）加權總合而得之合適指標（suitability score）進行不同時序資料表示法的效能評估，以辨認出每個訓練時序資料最合適之時序資料表示法，然後將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料；以及一資料分類機構，連接該模型訓練機構，每當獲取未辨識之新時序資料時，係與該代表性時序資料進行比對，通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類，從而間接識別該新時序資料最合適之時序資料表示法。

於本發明上述實施例中，該模型訓練機構包括一訓練資料單元、一與該訓練資料單元連接之表示法判定單元、一與該表示法判定單元連接之群聚單元、及一與該群聚單元連接之原型提取單元。

於本發明上述實施例中，該訓練資料單元係以一時序分類資料庫提供每個時間序列的訓練資料集與測試資料集，將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。

於本發明上述實施例中，該訓練資料單元在開始處理該些訓練時序資料前，係以最小值最大值正規化將該些訓練時序資料進行正規化處理為0～100之範圍。

於本發明上述實施例中，該表示法判定單元使用六種時序資料表示法，對於每個訓練時序資料測試四種資料長度（128、256、512及1024）及五種係數（2、4、8、16及32），以測試各種時序資料表示法應用在每個訓練時序資料之壓縮效率及資訊損失，一時序資料表示法對應一訓練時序資料共有20個組合，通過加權總合處理，計算20個壓縮效率與20個資訊損失的平均值，取得一範圍在0到100之間的合適指標以評估一時序資料表示法對一訓練時序資料的效能，令具有最大合適指標之時序資料表示法被判定為此訓練時序資料最合適之時序資料表示法。

於本發明上述實施例中，該六種時序資料表示法包含離散傅立葉轉換（Discrete Fourier Transformation, DFT）、離散餘弦轉換（Discrete Cosine Transformation, DCT）、分段聚合近似（Piecewise Aggregate Approximation, PAA）、分段線性聚合近似（Piecewise Linear Aggregate Approximation, PLAA）、自適應分段常數近似（Adaptive Piecewise Constant Approximation, APCA）、及離散小波轉換（Discrete Wavelet Transform, DWT）。

於本發明上述實施例中，該群聚單元在進行群聚處理前，先根據每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組，令同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法，再使用動態時間校正（Dynamic Time Warping, DTW）距離量測來識別具有相似特徵之訓練時序資料。

於本發明上述實施例中，該原型提取單元係使用中心點（medoid）作為每個群聚之原型，當原型檢索時，給定一群聚中的訓練時序資料，以計算出所有訓練時序資料對之距離，在所有訓練時序資料中，其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心，從而為每個群聚找到一最具代表性時序資料。

於本發明上述實施例中，該資料分類機構包括一相似度計算單元、及一與該相似度計算單元連接之表示法運行單元。

於本發明上述實施例中，該相似度計算單元係將未辨識之新時序資料與通過群聚及原型提取之代表性時序資料使用DTW距離量測計算相似性，找到最相似的訓練時序資料及此訓練時序資料最合適之時序資料表示法，並假設此最相似的訓練時序資料與該新時序資料最合適之時序資料表示法是相同的，以間接識別該新時序資料最合適之時序資料表示法。

於本發明上述實施例中，該表示法運行單元係使用已識別之時序資料表示法對新時序資料進行壓縮處理。

請參閱『第１圖～第１１圖』所示，係分別為本發明高效率異質性時序資料表示法辨別系統之架構示意圖、本發明對時間序列正規化之示意圖、本發明係數時間序列資料集之壓縮效率分析示意圖、本發明係數時間序列資料集之資訊損失分析示意圖、本發明群聚之流程示意圖、本發明以第一種權重設定之群聚原型示意圖、本發明以第二種權重設定之群聚原型示意圖、本發明以第三種權重設定之群聚原型示意圖、本發明各台灣民用物聯網時間序列之原始資料示意圖、本發明所提系統與傳統方法之效率分析示意圖、及本發明對不同長度但特徵相同之時序資料進行DTW分析示意圖。如圖所示：本發明係一種高效率異質性時序資料表示法辨別系統，該系統可以有效率地判斷不同類型之時間序列最合適之表示方法。該系統主要技術在於，預先確定訓練時序資料最合適之時序資料表示法，然後通過計算新時序資料與訓練時序資料之相似性，可以間接確定該新時序資料最合適之時序資料表示法。與檢查新時序資料上所有可能表示法之傳統方法相比，本發明所提之系統效率更高，可考慮到快速生成大量異質性時序資料的一個重要特點。本發明所提系統係包括一模型訓練機構１、以及一資料分類機構２所構成。

上述所提之模型訓練機構１係針對每個訓練時序資料以一由壓縮效率（compression rate）及資訊損失（information loss）加權總合而得之合適指標（suitability score）進行不同時序資料表示法的效能評估，以辨認出每個訓練時序資料最合適之時序資料表示法，然後為了提高系統效率，將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料。其中，由於時序資料之行為具有很大的多樣性，本發明係盡可能廣泛地收集各領域之訓練時序資料。

該資料分類機構２連接該模型訓練機構１，每當獲取未辨識之新時序資料時，係與該代表性時序資料進行比對，通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類，從而間接識別該新時序資料最合適之時序資料表示法。如是，藉由上述揭露之結構構成一全新之高效率異質性時序資料表示法辨別系統。

當運用時，上述模型訓練機構１係包括一訓練資料單元１１、一與該訓練資料單元１１連接之表示法判定單元１２、一與該表示法判定單元１２連接之群聚單元１３、及一與該群聚單元１３連接之原型提取單元１４。而該資料分類機構２包括一相似度計算單元２１、及一與該相似度計算單元２１連接之表示法運行單元２２。

本發明應用來自UEA（東安格里亞大學）與UCR（加利福尼亞大學河濱分校）時間序列分類資料庫的85個時序資料。該85個時序資料收集自各領域，例如生物學、醫學、圖像識別、食品科學、運動檢測與傳感器記錄。該訓練資料單元１１係以此時序分類資料庫提供每個時間序列的訓練資料集與測試資料集，將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。該UEA與UCR時序分類資料庫中提供數種不同的訓練時序資料集，如表一所示本發明中使用的85個時序資料之名稱。表一

資料集1-22	資料集23-43
50words	ECGFiveDays
Adiac	ElectricDevices
ArrowHead	FaceAll
Beef	FaceFour
BeetleFly	FacesUCR
BirdChicken	FISH
Car	FordA
CBF	FordB
ChlorineConcentration	Gun_Point
CinC_ECG_torso	Ham
Coffee	HandOutlines
Computers	Haptics
Cricket_X	Herring
Cricket_Y	InlineSkate
Cricket_Z	InsectWingbeatSound
DiatomSizeReduction	ItalyPowerDemand
DistalPhalanxOutlineAgeGroup	LargeKitchenAppliances
DistalPhalanxOutlineCorrect	Lighting2
DistalPhalanxTW	Lighting7
Earthquakes	MALLAT
ECG200	Meat
ECG5000
資料集44-64	資料集65-85
MedicalImages	SonyAIBORobotSurface
MiddlePhalanxOutlineAgeGroup	StarLightCurves
MiddlePhalanxOutlineCorrect	Strawberry
MiddlePhalanxTW	SwedishLeaf
MoteStrain	Symbols
NonInvasiveFetalECG_Thorax1	synthetic_control
NonInvasiveFetalECG_Thorax2	ToeSegmentation1
OliveOil	ToeSegmentation2
OSULeaf	Trace
PhalangesOutlinesCorrect	TwoLeadECG
Phoneme	Two_Patterns
Plane	UWaveGestureLibraryAll
ProximalPhalanxOutlineAgeGroup	uWaveGestureLibrary_X
ProximalPhalanxOutlineCorrect	uWaveGestureLibrary_Y
ProximalPhalanxTW	uWaveGestureLibrary_Z
RefrigerationDevices	wafer
ScreenType	Wine
ShapeletSim	WordsSynonyms
ShapesAll	WormsTwoClass
SmallKitchenAppliances	Worms
SonyAIBORobotSurfaceII	yoga

該訓練資料單元１１在開始處理該些訓練時序資料之前，係以最小值最大值正規化將該些訓練時序資料進行正規化處理為0～100之範圍，使該些訓練時序資料在值域中的振幅與偏移量保持不變。於其中，若兩個訓練時序資料以不同的振幅測量或具有偏移，則計算出的距離就不會具有相同的基線可供比較。因此，在使用距離測量之前，需進行正規化處理。為了控制基線，將該些訓練時序資料在值域中正規化為0～100之範圍，如第２圖所示，圖(a)顯示振幅正規化，圖(b)顯示偏移量正規化。

以最小值最大值正規化對原始訓練時序資料執行線性轉換。將數值正規化到給定範圍，例如0～100。最小值最大值正規化只會放大或縮小值域中的訓練時序資料，而不會改變其形狀。為了將輸入

的值

從原始範圍[

,

]映射到新範圍[

,

]，可通過以下公式實現最小值最大值正規化：

(1)

如前所述，一些獨立的研究表明，在某些時間序列類型（例如：週期性、突變、不規律性等）上，不同的時序資料表示法優於其它的時序資料表示法。通常從兩個角度評估時序資料表示法之效能，即減少的數據大小與損失的資訊量。這兩個因素即為壓縮效率與資訊損失，已被用於驗證時序資料表示法的有效性。

壓縮效率定義為時序資料表示法所減少的資料百分比，範圍為0 ～100，值越高表示壓縮效率越高。以下為計算壓縮效率之公式：

(2)

另一方面，資訊損失表示壓縮後的資訊丟失，即表示資料與原始資料之間的距離。時序資料之間的距離係通過曼哈頓距離量測來估計的，其中距離越小表示資訊損失就越小。於其中，使用曼哈頓距離量測原因在於，該曼哈頓距離量測是直觀的，其僅計算每個時間點的時序之間的差異，不同於其他需要額外計算的Lp範數距離量測；並且，與DTW相比，曼哈頓距離量測採用一致的基線計算，而DTW則嘗試識別兩個時序資料之間的最佳映射。

公式3顯示用於估計資訊損失之等式。將時序資料正規化為0～ 100之範圍時，資訊損失的範圍也在0～100之間，並且值越大表示資訊損失越大。

(3) 其中

分別為原始時序資料與表示長度為n之時序資料，而

與

為

的第 ith個值。

為了判定最合適之時序資料表示法，本發明通過表示法判定單元１２使用六種時序資料表示法，其包含離散傅立葉轉換（Discrete Fourier Transformation, DFT）、離散餘弦轉換（Discrete Cosine Transformation, DCT）、分段聚合近似（Piecewise Aggregate Approximation, PAA）、分段線性聚合近似（Piecewise Linear Aggregate Approximation, PLAA）、自適應分段常數近似（Adaptive Piecewise Constant Approximation, APCA）、及離散小波轉換（Discrete Wavelet Transform, DWT）。對於每個訓練時序資料測試四種資料長度（128、256、512及1024）及五種係數（2、4、8、16及32），以提供對各種時序資料表示法的全面分析。在評估一表示法對應一訓練時序資料之合適性時，總共有20種組合。由於在壓縮效率與資訊損失之間需要取得平衡點，因此，為了估計訓練時序資料的可靠且穩定的時序資料表示法，本發明係計算20個壓縮效率與20個資訊損失的平均值，以表示一時序資料表示法對一訓練時序資料的效能。

本發明設計一簡單的加權總和機制，可對壓縮效率與資訊損失應用這兩個權重來計算合適指標，如公式4所示。該合適指標的範圍在0～100之間。

(4) 其中

與

為壓縮效率與資訊損失之權重，範圍從0～1，並且其總和必須等於1。

與

為時序資料表示法之平均壓縮效率與平均資訊損失。由第３、４圖中可看出，壓縮效率與資訊損失之數值範圍大約相差4至5倍，其中壓縮效率通常接近90%，資訊損失通常低於25%。因此，設定這兩個因素的權重需非常謹慎。最後，具有最大合適指標之時序資料表示法被確定為訓練時序資料最合適之時序資料表示法。

如前所述，本系統之主要技術係使用一新時序資料找到最相似之訓練時序資料，並假設它們最合適之時序資料表示法是相同的。與通過直接檢查所有可能之表示法來識別最合適的表示法之傳統方法相比，本發明所提之系統更加有效。由於已經為每個訓練時序資料確定了最合適的時序資料表示法，因此可以直接計算出新時間序列資料與訓練時序資料之間的距離，從而為新時序資料確定最合適之時序資料表示法。但是，由於可能要比較許多訓練時序資料，因此本發明通過群聚單元１３對訓練時序資料進行群聚以減少相似性計算量，從而進一步提高系統效能。

一般而言，群聚之主要目的係將具有相同特徵之時序資料分組到同一群聚中，以避免不必要的相似性計算。在實施群聚處理前，先根據每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組，以確保同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法。然後，使用動態時間校正（Dynamic Time Warping, DTW）距離量測來識別具有相似特徵之訓練時序資料。該群聚單元１３執行群聚之處理流程如第５圖所示。此處理流程遵循聚合式階層分群法之程序。

首先如步驟s11，以升序計算訓練時序資料與排序距離之間的 DTW距離，代表此過程從小距離開始到大距離。步驟s12，定義一閾值以判斷兩個訓練時序資料是否足夠相似。可以調整此閾值以找到效率與準確性之間的平衡。較大之閾值表示訓練時序資料之間的相似性要求較低。群聚之數量也將減少以提高效率，但可能會導致準確性降低，反之亦然。步驟s13，如果距離大於閾值，代表這兩個訓練時序資料不相似，則系統將為尚未群聚的訓練時序資料創建一新的群聚。另一步驟s14，如果距離小於閾值，系統將查看兩個訓練時序資料是否都已群聚，是則無需群聚如步驟s15。步驟s16、s17，如果兩個訓練時序資料都尚未群聚，系統會將它們聚集到同一群聚中；或者如步驟s18，如果只有一個訓練時序資料尚未群聚，則系統會將此訓練時序資料添加到另一個訓練時序資料所屬的群聚中。

上述群聚單元１３執行的群聚流程主要目的是通過收集相似的時序資料來減少訓練資料集的規模。由於同一群聚中的訓練時序資料足夠相似，因此可以使用單一個訓練時序資料來表示。具體而言，原型提取單元１４係為各群聚找到一個最具代表性時序資料。

一旦代表性時序資料被識別出來，只需將一新時序資料與該些代表性時序資料進行比較，而無需與所有的訓練時序資料進行比較，如此即可大幅降低系統之複雜度。本發明在該原型提取單元１４中，係使用中心點（medoid）作為每個群聚之原型，以保留訓練時序資料的特徵。當原型檢索時，給定一群聚中的訓練時序資料，可以計算出所有訓練時序資料對之距離，在所有訓練時序資料中，其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心，從而為每個群聚找到一最具代表性時序資料。

如前所述，本發明旨在提出一種系統，該系統可有效且自適應地識別出每個訓練時序資料最合適之時序資料表示法。根據前述說明，確定每個訓練時序資料最合適的時序資料表示法，並通過群聚與原型提取來減少訓練時序資料的規模。因此，當要壓縮一新的時間序列時，可通過該相似度計算單元２１計算與群聚原型的相似性來對訓練時序資料進行分類，從而間接地找到該新時序資料最合適之時序資料表示法。

而在計算一新時序資料與代表性時序資料（即原型）之間的相似性時，會發生時間序列轉換，例如時間扭曲、偏移與縮放。因此，使用DTW距離量測來計算相似性。之後，新時序資料被認為與最相似的代表性時序資料具有相同的行為。由於模型訓練機構１已經為每個訓練時序資料確定了最合適的時序資料表示法，因此對於代表性時序資料的最合適時序資料表示法也被認為是最適合新時序資料的表示法。最後，通過該表示法運行單元２２使用已識別之時序資料表示法對新時序資料進行壓縮處理。

本發明主要重點係提出一種高效率異質性時序資料表示法辨別系統，該系統可以高效率且自適應地為每個時序資料選擇最合之時序資料表示法。為了證明本發明之功效，以下將說明模型訓練結果、準確性分析、以及比較本系統與傳統方法之效率分析。並且，以下實施例僅舉例以供了解本發明之細節與內涵，但不用於限制本發明之申請專利範圍。

一、模型訓練結果 [表示法的測定結果] 本發明以UEA與UCR時序分類資料庫中的85個時序資料集作為訓練資料。首先，根據上述公式4中定義的合適指標，確定每個訓練時序資料最合適之表示法。為說明壓縮效率與資訊損失的不同權重要求之間的差異，本發明在合適指標計算中應用了三種加權設定： (1)

； (2)

；及 (3)

。這兩個權重的範圍係從0到1，且其總和必須等於1。第一種設定代表僅通過考慮不同表示法之壓縮效率來確定最合適之表示法，第二種設定同時考慮壓縮效率與資訊損失，而第三種設定僅考慮資訊損失。三種不同權重設定在表示法判定中的結果如表二所示，表中顯示出每種表示法最適合訓練多少個時序資料。表二


APCA	0	53	28
DCT	0	17	0
DFT	0	0	34
DWT	11	2	0
PAA	74	13	0
PLAA	0	0	23

根據表二，對於第一種設定，PAA為74個訓練時序資料之最合適表示法，而DWT為11個訓練時序資料之最合適表示法。由於PAA僅使用一個值來形成係數，與其它表示法（即APCA、DFT與PLAA）使用兩個值來形成係數不同，因此PAA表示法之壓縮效率高於其它表示法。

對於第二種設定，APCA優於其它表示法。一APCA係數包含兩個值，一個係一整數段之長度，另一個係每段之平均值，這代表APCA比DCT、DWT與PAA需要更多的存儲空間。然而，APCA表示的資料與原始資料更吻合（即資訊損失更少）。DFT與PLAA使用兩個非整數值來形成一個係數，因此它們的壓縮效率低於其它表示法。

對於第三種設定，若僅考慮資訊損失，則具有二值式係數的表示法要優於具有一值式係數的表示法（即DCT、DWT與PAA）。由於具有二值式係數的表示法具有更多的資訊來表示時間序列，因此所表示的資料通常與原始資料具有較高的相似性。在確定每個訓練時序資料的表示法之後，系統再將訓練時序資料以相同的最合適的表示法進行群聚。

[群聚與原型提取結果] 如果收集到的訓練時序資料有相似的時間序列類型，係將相似類型的訓練時序資料進行群聚以避免後續步驟的重複計算，從而可以提高效率。群聚亦應用上述三個不同之權重設定。

在此群聚中，本發明使用128個資料點大小，閾值為250。由於DTW 計算的是整個時間序列的距離，因此可以將閾值除以資料長度，以得到兩個時間序列之間的平均差。由於資料點大小與閾值是使用者定義的，因此在此實驗結果中，係以人工確定一理想群聚之閾值數。在不同權重設定下的群聚數量（閾值=250）結果如表三所示。表三


APCA	0	14	11
DCT	0	6	0
DFT	0	0	13
DWT	6	1	0
PAA	21	8	0
PLAA	0	0	8
總計	27	29	32

群聚數量代表在同一合適表示法中有多少個不同的時序資料類型。在第一種設定下，有27種不同的時序資料類型，其中DWT適用於6種類型的時序資料，PAA適用於21種類型的時序資料。在第二種設定下，有29種不同的時序資料類型，其中APCA適用於14種類型的時序資料，PAA適用於8種類型的時序資料，DCT適用於6種類型的時序資料，DWT適用於1種類型的時序資料。在第三種設定下，有32種不同的時序資料類型，其中DFT適用於13種類型的時序資料，APCA適用於11種類型的時序資料，PLAA適用於8種類型的時序資料。群聚後，將為每個群聚生成一個原型。第６、７及８圖分別來自三個權重設定的群聚之一。其中黑線表示一群聚的已識別原型，灰線表示同一群聚中的其它時間序列。

二、準確性分析 [測試UEA與UCR時序資料庫中的資料] 本發明使用UEA與UCR時序分類資料庫中的85個時序資料集。在此資料庫中，其為每個時序資料集提供訓練資料集與測試資料集。本實施例使用所有85個訓練時序資料集進行模型訓練。為了進行準確性分析，從每個測試時序資料集中隨機選取6個測試時序資料，每個測試時序資料長度為128。本發明從資料庫中總共應用了510個不同的時間序列，在三種權重設定下檢查本系統之準確性。

每個測試時序資料均視為本系統的輸入時序資料。本系統將為每個測試時序資料判定最合適之表示法，然後將本系統之結果與驗證結果進行比較。該驗證結果係由相同的表示法判定步驟過程產生，具有相同的參數設定，但只有一個資料長度128。此一簡易的程序可以在相同的參數設定下為每個測試時序資料識別最合適的表示法。對UEA與UCR時序分類庫資料在三種不同權重設定下的準確性分析結果顯示在表四、五及六中，其中1 ^st代表本系統為此時序資料選擇最合適的表示法，2 ^nd代表本系統選擇第二合適的表示法，依此類推。N為時間序列的數量。百分比符號（%）代表每個類別中時間序列的百分比。Delta符號（△）代表與最合適的表示法相比較的合適指標差。表四

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	356	148	6	0	0	0	510
%	69.80	29.02	1.18	0	0	0	100
Σ△/ N	0	0.04	0.30	0	0	0	0.01

表五

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	249	85	51	125	0	0	510
%	48.82	16.67	10	24.51	0	0	100
Σ△/ N	0	0.30	0.33	0.82	0	0	0.28

表六

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	289	140	81	0	0	0	510
%	56.67	27.45	15.88	0	0	0	100
Σ△/ N	0	0.65	1.30	0	0	0	0.38

從表四中可見，本系統有69.8%的機會為時序資料選擇最合適的表示法。對於其餘31.2%的時序資料，評估結果顯示所選的表示法可以產生小於0.3的合適指標差的結果。由於在第一種設定下的合適指標僅考慮壓縮效率，因此，與最合適的表示法相比，本系統提供的壓縮效率差異小於0.3%。

根據表五與表六，本系統有48.82%與56.67%的機會為時序資料選擇最適合的表示法。對於本系統沒有選擇最合適的表示法的情況，系統仍然可以以非常小的合適指標差獲得可接受的結果。

此外，在表四中，我們注意到3 ^rd有6個測試時序資料，只有兩種表示法（即DWT與PAA）被選為該設定下最合適的表示法（參見表二）。該結果顯示，還有其他表示法適用於這6個測試時序資料。經過仔細研究，可發現DCT係這6個測試時序資料中的三個最適合的表示法，2 ^nd適合於其餘三個測試時序資料。這說明這6個測試時序資料無法從訓練時間序列中找到相似的代表性原型時序資料。為了解決此問題，本發明提出一種通過指定閾值來擴展原型的解決方案。

[台灣民用物聯網測試資料] 為了進行更全面的評估，本發明還收集台灣民用物聯網數據服務平台的時間序列，該平台提供高質量的公共可用傳感器觀測值，包括空氣質量、災害事件與水資源。本發明選擇五個不同的時序資料集來測試本系統，即溫度、濕度、風速、PM2.5與降雨量。對於這五個時序資料中的每一個，係隨機選擇六個具有相同資料長度128的不同節段。總共有30個來自台灣民用物聯網之測試時序資料。

每個時間序列的原始資料如第９圖所示，圖(a)顯示雲林北港每小時的濕度資料；圖(b)顯示桃園龍潭每小時的PM2.5資料；圖(c)顯示雲林北港每小時的風速資料；圖(d)顯示雲林北港每小時的溫度資料；及圖(e)顯示雲林北港每10分鐘的降雨量資料。並且，訓練時間序列仍來自於UEA與UCR時序分類資料庫。

對UEA與UCR時序分類庫資料在三種不同權重設定下來自台灣民用物聯網數據之準確性分析結果顯示於表七、八及九。與表四、五及六之結果相比，結果相似，甚至更好。例如，表七中之結果表明，本系統在第一種設定下有76.67%的機會為時序資料選擇最合適的表示法。因此，本系統即使對不同來源之資料也能達到穩定的準確度。表七

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	23	7	0	0	0	0	30
%	76.67	23.33	0	0	0	0	100
Σ△/ N	0	0.10	0	0	0	0	0.02

表八

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	14	3	3	10	0	0	30
%	46.67	10	10	33.33	0	0	100
Σ△/ N	0	0.12	0.17	0.65	0	0	0.25

表九

	1 ^st	2 ^nd	3 ^rd	4 ^th	5 ^th	6 ^th	總計
N	20	4	6	0	0	0	30
%	66.67	13.33	20	0	0	0	100
Σ△/ N	0	0.37	2.19	0	0	0	0.49

三、效率分析如上述先前技術所言，傳統方法在判定最合適的表示法上係採用逐一測試不同的時序資料表示法。儘管此種傳統方法可以保證為最合適的表示法，但是在處理大量時序資料時，此種方法非常耗時。為了比較本系統與傳統方法在處理時間上之效能，本發明實驗不同資料長度（128、256、512、1024）下之傳統方法與本系統。對於每五分鐘採集一次的傳感器資料，在3.5天內觀察到1024個資料長度，而對於每小時的傳感器資料，1024個資料長度可以描述超過一個月的觀測。

評估測試係在一台配備Intel 2.9GHz CPU與8GB RAM之計算機上進行。對於每個資料長度，本發明已經測試了850次，平均結果如第１０圖所示。如圖所示，本系統比傳統方法要快得多，處理時間的增長速度幾乎比傳統方法慢10倍。對於128個資料長度，本系統之處理時間平均比傳統方法快300倍。即使對於1024個資料長度，本系統仍然比傳統方法快17倍之效率。

結果顯示，對於1024個資料長度的資料，傳統方法與本系統之間的處理時間的絕對差異約為1秒。然而，在許多應用程序中，本發明可能需要同時處理數千個時間序列。利用如此大量的時序資料，本系統可以節省大量時間並提供可接受的表示法結果。

另外，DTW的時間複雜度為O（mn），這代表在處理較大的資料長度時，本系統的處理時間將呈指數增長。儘管DTW的時間複雜度很高，但DTW仍具有優勢。DTW可計算兩個不同長度的時序資料之間的相似性。在這種情況下，本發明可以儲存較短的原型資料長度，以計算帶有較長的新時序資料長度的相似性。例如，輸入時序資料的長度可能是本系統中原型的兩倍，但具有相似的特性，DTW仍可以辨別出它們之間的強相似性。範例如第１１圖所示。

具體而言，本發明主要提出一種高效率異質性時序資料表示法辨別系統，該系統可根據壓縮效率及資訊損失之需求，針對一特定時序資料找出何種時序資料表示法最為合適。模型訓練機構可針對每個訓練時序資料進行不同表示法的效能評估，進而確定每個訓練時序資料最合適的表示法。為了進一步提升系統效率，將訓練時序資料進行群聚並選出各群聚最具代表性時序資料。爾後，每當系統獲取未辨識之時序資料時，資料分類機構將計算此時序資料與每個群聚代表的相似性，用以間接識別此時序資料最合適的表示法。而由上述實驗結果顯示，本發明所提之系統在不同的參數設定下，能夠為46%至76%的時序資料辨別出最合適的表示法。對於其餘的時序資料，本系統所選之表示法與實際上最合適表示法相比差異僅小於2.19%。此外，所提系統在辨識最合適的表示法上，較傳統方法快17至300倍的效率，並且可擴展性為傳統方法的10倍。

整體而言，本發明之特點包含： 1. 可根據不同使用者需求條件，如高壓縮率、低失真率、壓縮效率及失真率平衡等，辨別最合適的時序資料表示法。 2. 相較於傳統方法逐一測試不同的時序資料表示法，本發明所提系統在辨別最合適的時序資料表示法可達17至300倍之效率。

綜上所述，本發明係一種高效率異質性時序資料表示法辨別系統，可有效改善習用之種種缺點，可針對多種時序資料表示法進行測試，找出該表示法最具代表性之時序資料，並在獲得新的時序資料時，與此代表性時序資料進行比對，以判斷出最相似之時序資料及表示法，進而使本發明之產生能更進步、更實用、更符合使用者之所須，確已符合發明專利申請之要件，爰依法提出專利申請。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍；故，凡依本發明申請專利範圍及發明說明書內容所作之簡單的等效變化與修飾，皆應仍屬本發明專利涵蓋之範圍內。

１:模型訓練機構１１:訓練資料單元１２:表示法判定單元１３:群聚單元１４:原型提取單元２:資料分類機構２１:相似度計算單元２２:表示法運行單元 s11～s18:步驟

第１圖，係本發明高效率異質性時序資料表示法辨別系統之架構示意圖。第２圖，係本發明對時間序列正規化之示意圖。第３圖，係本發明係數時間序列資料集之壓縮效率分析示意圖。第４圖，係本發明係數時間序列資料集之資訊損失分析示意圖。第５圖，係本發明群聚之流程示意圖。第６圖，係本發明以第一種權重設定之群聚原型示意圖。第７圖，係本發明以第二種權重設定之群聚原型示意圖。第８圖，係本發明以第三種權重設定之群聚原型示意圖。第９圖，係本發明各台灣民用物聯網時間序列之原始資料示意圖。第１０圖，係本發明所提系統與傳統方法之效率分析示意圖第１１圖，係本發明對不同長度但特徵相同之時序資料進行DTW分析示意圖。

1:模型訓練機構

11:訓練資料單元

12:表示法判定單元

13:群聚單元

14:原型提取單元

2:資料分類機構

21:相似度計算單元

22:表示法運行單元

Claims

一種高效率異質性時序資料表示法辨別系統，係包括：一模型訓練機構，包括一訓練資料單元、一與該訓練資料單元連接之表示法判定單元、一與該表示法判定單元連接之群聚單元、及一與該群聚單元連接之原型提取單元，該模型訓練機構係針對每個訓練時序資料以一由壓縮效率(compression rate)及資訊損失(information loss)加權總合而得之合適指標(suitability score)進行不同時序資料表示法的效能評估，以辨認出每個訓練時序資料最合適之時序資料表示法，然後將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料，其中，該原型提取單元係使用中心點(medoid)作為每個群聚之原型，當原型檢索時，給定一群聚中的訓練時序資料，以計算出所有訓練時序資料對之距離，在所有訓練時序資料中，其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心，從而為每個群聚找到一最具代表性時序資料；以及一資料分類機構，連接該模型訓練機構，每當獲取未辨識之新時序資料時，係與該代表性時序資料進行比對，通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類，從而間接識別該新時序資料最合適之時序資料表示法。
依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統，其中，該訓練資料單元係以一時序分類資料庫提供每個時間序列的訓練資料集與測試資料集，將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。
依申請專利範圍第2項所述之高效率異質性時序資料表示法辨別系統，其中，該訓練資料單元在開始處理該些訓練時序資料前，係以最小值最大值正規化將該些訓練時序資料進行正規化處理為0~100之範圍。
依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統，其中，該表示法判定單元使用六種時序資料表示法，對於每個訓練時序資料測試四種資料長度(128、256、512及1024)及五種係數(2、4、8、16及32)，以測試各種時序資料表示法應用在每個訓練時序資料之壓縮效率及資訊損失，一時序資料表示法對應一訓練時序資料共有20個組合，通過加權總合處理，計算20個壓縮效率與20個資訊損失的平均值，取得一範圍在0到100之間的合適指標以評估一時序資料表示法對一訓練時序資料的效能，令具有最大合適指標之時序資料表示法被判定為此訓練時序資料最合適之時序資料表示法。
依申請專利範圍第4項所述之高效率異質性時序資料表示法辨別系統，其中，該六種時序資料表示法包含離散傅立葉轉換(Discrete Fourier Transformation,DFT)、離散餘弦轉換(Discrete Cosine Transformation,DCT)、分段聚合近似(Piecewise Aggregate Approximation,PAA)、分段線性聚合近似(Piecewise Linear Aggregate Approximation,PLAA)、自適應分段常數近似(Adaptive Piecewise Constant Approximation,APCA)、及離散小波轉換(Discrete Wavelet Transform,DWT)。
依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統，其中，該群聚單元在進行群聚處理前，先根據每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組，令同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法，再使用動態時間校正(Dynamic Time Warping,DTW)距離量測來識別具有相似特徵之訓練時序資料。
依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統，其中，該資料分類機構包括一相似度計算單元、及一與該相似度計算單元連接之表示法運行單元。
依申請專利範圍第7項所述之高效率異質性時序資料表示法辨別系統，其中，該相似度計算單元係將未辨識之新時序資料與通過群聚及原型提取之代表性時序資料使用DTW距離量測計算相似性，找到最相似的訓練時序資料及此訓練時序資料最合適之時序資料表示法，並假設此最相似的訓練時序資料與該新時序資料最合適之時序資料表示法是相同的，以間接識別該新時序資料最合適之時序資料表示法。
依申請專利範圍第7項所述之高效率異質性時序資料表示法辨別系統，其中，該表示法運行單元係使用已識別之時序資料表示法對新時序資料進行壓縮處理。