TWI757915B - 高效率異質性時序資料表示法辨別系統 - Google Patents

高效率異質性時序資料表示法辨別系統 Download PDF

Info

Publication number
TWI757915B
TWI757915B TW109135557A TW109135557A TWI757915B TW I757915 B TWI757915 B TW I757915B TW 109135557 A TW109135557 A TW 109135557A TW 109135557 A TW109135557 A TW 109135557A TW I757915 B TWI757915 B TW I757915B
Authority
TW
Taiwan
Prior art keywords
series data
time series
training
representation
data
Prior art date
Application number
TW109135557A
Other languages
English (en)
Other versions
TW202215269A (zh
Inventor
黃智遠
曾翊昇
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW109135557A priority Critical patent/TWI757915B/zh
Priority to US17/084,890 priority patent/US20220114460A1/en
Application granted granted Critical
Publication of TWI757915B publication Critical patent/TWI757915B/zh
Publication of TW202215269A publication Critical patent/TW202215269A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種高效率異質性時序資料表示法辨別系統,包括一模型訓練機構及一資料分類機構所構成,可根據壓縮效率及資訊損失之需求,針對一特定時序資料找出何種時序資料表示法最為合適。具體而言,該模型訓練機構可針對每個訓練時序資料進行不同表示法的效能評估,進而確定每個訓練時序資料最合適的表示法,再將訓練時序資料進行群聚並選出各群聚最具代表性時序資料;爾後,每當系統獲取未辨識之時序資料時,該資料分類機構將計算此時序資料與每個群聚代表的相似性,用以間接識別此時序資料最合適的表示法。其實驗結果顯示,本系統在不同的參數設定下,能夠為46%至76%的時序資料辨別出最合適的表示法。對於其餘的時序資料,本系統所選之表示法與實際上最合適表示法相比差異僅小於2.19%。此外,本系統在辨識最合適的表示法上,係較傳統方法快17至300倍的效率。

Description

高效率異質性時序資料表示法辨別系統
本發明係有關於一種高效率異質性時序資料表示法辨別系統,特 別係指可根據壓縮效率及資訊損失之需求,針對一特定時序資料找出何種時序資料表示法最為合適者。
時間序列資料為按時間順序儲存的一連串測量相同事件類型的 資料,時間序列資料存在於許多領域中,例如股票市場的波動、感測器的數據、醫學與生物資訊等。由於時間序列資料的特性包含資料持續產製、高維度、及龐大的資料量,若直接使用原始時序資料進行分析及儲存,其效率低且成本高。因此,為了有效管理時間序列資料,採用時序資料表示法(representation)取代原始時間序列,可以減少原始時間序列的資料量及維度,但同時保留其時序資料特徵。然而,針對時序資料表示法的壓縮效率及資訊損失表現而言,不同時序資料表示法適合於某些特定時序資料類型,且時間序列資料類型廣泛且多樣,如溫度、溼度、速度、位置、震動、及壓力等,這代表無法僅使用單一種表示法有效管理所有類型的時間序列資料。
為了解決高維度問題,目前已有許多時間序列資料表示法被提 出,然而不同時序資料表示法有各自的特性,且時間序列資料類型廣泛且多樣,如溫度、溼度、速度、位置、震動、壓力、流量及氣體等,這代表無法僅使用單一種表示法有效管理所有類型的物聯網時間序列資料。而且使用時序資料表 示法必定會造成某些資料特性的損失,因此在資料的壓縮率及失真度上取得平 衡點是一個重要的課題。
由於無法僅以單一種表示法即可對所有的時間序列資料都表現 出最佳的效果,而目前確定最合適的表示法的最直接解決方案是在接收新的時間序列資料時直接檢查所有可能的表示法。儘管此種傳統方法可以保證找出最合適的表示法,但是在處理大量時間序列資料時,此種傳統方法逐一測試不同的時序資料表示法非常耗時。職是之故,鑑於既有研究多使用單一或特定時序資料集進行幾種時序資料表示法之比較,實有急待改進之必要,針對既有之缺失加以改良,發展一套系統挑選最合適的時序資料表示法可解決前案技術缺點之發明實有必要。
本發明之主要目的係在於,克服習知技藝所遭遇之上述問題並提 供一種可根據壓縮效率及資訊損失之需求,針對一特定時序資料找出何種時序資料表示法最為合適之高效率異質性時序資料表示法辨別系統。
本發明之另一目的係在於,提供一種在辨識最合適的表示法上, 較傳統方法快17至300倍之效率,並且可擴展性為傳統方法的10倍之高效率異質性時序資料表示法辨別系統。
本發明之另一目的係在於,提供一種可在不同的參數設定下,能 夠為46%至76%的時序資料辨別出最合適的表示法,對於其餘的時序資料,所選之表示法與實際上最合適表示法相比差異僅小於2.19%之高效率異質性時序資料表示法辨別系統。
為達以上之目的,本發明係一種高效率異質性時序資料表示法辨 別系統,係包括:一模型訓練機構,係針對每個訓練時序資料以一由壓縮效率(compression rate)及資訊損失(information loss)加權總合而得之合適指標(suitability score)進行不同時序資料表示法的效能評估,以辨認出每個訓練時序資料最合適之時序資料表示法,然後將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料;以及一資料分類機構,連接該模型訓練機構,每當獲取未辨識之新時序資料時,係與該代表性時序資料進行比對,通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類,從而間接識別該新時序資料最合適之時序資料表示法。
於本發明上述實施例中,該模型訓練機構包括一訓練資料單元、 一與該訓練資料單元連接之表示法判定單元、一與該表示法判定單元連接之群聚單元、及一與該群聚單元連接之原型提取單元。
於本發明上述實施例中,該訓練資料單元係以一時序分類資料庫 提供每個時間序列的訓練資料集與測試資料集,將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。
於本發明上述實施例中,該訓練資料單元在開始處理該些訓練時 序資料前,係以最小值最大值正規化將該些訓練時序資料進行正規化處理為0~100之範圍。
於本發明上述實施例中,該表示法判定單元使用六種時序資料表 示法,對於每個訓練時序資料測試四種資料長度(128、256、512及1024)及五種係數(2、4、8、16及32),以測試各種時序資料表示法應用在每個訓練時序資料之壓縮效率及資訊損失,一時序資料表示法對應一訓練時序資料共有20個組合,通過加權總合處理,計算20個壓縮效率與20個資訊損失的平均值,取得一範圍在0到100之間的合適指標以評估一時序資料表示法對一訓練時序資料的效能,令具有最大合適指標之時序資料表示法被判定為此訓練時序資料最合適之時序資料表示法。
於本發明上述實施例中,該六種時序資料表示法包含離散傅立葉 轉換(Discrete Fourier Transformation, DFT)、離散餘弦轉換(Discrete Cosine Transformation, DCT)、分段聚合近似(Piecewise Aggregate Approximation, PAA)、分段線性聚合近似(Piecewise Linear Aggregate Approximation, PLAA)、自適應分段常數近似(Adaptive Piecewise Constant Approximation, APCA)、及離散小波轉換(Discrete Wavelet Transform, DWT)。
於本發明上述實施例中,該群聚單元在進行群聚處理前,先根據 每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組,令同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法,再使用動態時間校正(Dynamic Time Warping, DTW)距離量測來識別具有相似特徵之訓練時序資料。
於本發明上述實施例中,該原型提取單元係使用中心點(medoid) 作為每個群聚之原型,當原型檢索時,給定一群聚中的訓練時序資料,以計算出所有訓練時序資料對之距離,在所有訓練時序資料中,其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心,從而為每個群聚找到一最具代表性時序資料。
於本發明上述實施例中,該資料分類機構包括一相似度計算單 元、及一與該相似度計算單元連接之表示法運行單元。
於本發明上述實施例中,該相似度計算單元係將未辨識之新時序 資料與通過群聚及原型提取之代表性時序資料使用DTW距離量測計算相似性,找到最相似的訓練時序資料及此訓練時序資料最合適之時序資料表示法,並假設此最相似的訓練時序資料與該新時序資料最合適之時序資料表示法是相同的,以間接識別該新時序資料最合適之時序資料表示法。
於本發明上述實施例中,該表示法運行單元係使用已識別之時序 資料表示法對新時序資料進行壓縮處理。
請參閱『第1圖~第11圖』所示,係分別為本發明高效率異質 性時序資料表示法辨別系統之架構示意圖、本發明對時間序列正規化之示意圖、本發明係數時間序列資料集之壓縮效率分析示意圖、本發明係數時間序列資料集之資訊損失分析示意圖、本發明群聚之流程示意圖、本發明以第一種權重設定之群聚原型示意圖、本發明以第二種權重設定之群聚原型示意圖、本發明以第三種權重設定之群聚原型示意圖、本發明各台灣民用物聯網時間序列之原始資料示意圖、本發明所提系統與傳統方法之效率分析示意圖、及本發明對不同長度但特徵相同之時序資料進行DTW分析示意圖。如圖所示:本發明係一種高效率異質性時序資料表示法辨別系統,該系統可以有效率地判斷不同類型之時間序列最合適之表示方法。該系統主要技術在於,預先確定訓練時序資料最合適之時序資料表示法,然後通過計算新時序資料與訓練時序資料之相似性,可以間接確定該新時序資料最合適之時序資料表示法。與檢查新時序資料上所有可能表示法之傳統方法相比,本發明所提之系統效率更高,可考慮到快速生成大量異質性時序資料的一個重要特點。本發明所提系統係包括一模型訓練機構1、以及一資料分類機構2所構成。
上述所提之模型訓練機構1係針對每個訓練時序資料以一由壓 縮效率(compression rate)及資訊損失(information loss)加權總合而得之合適指標(suitability score)進行不同時序資料表示法的效能評估,以辨認出每個訓練時序資料最合適之時序資料表示法,然後為了提高系統效率,將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料。其中,由於時序資料之行為具有很大的多樣性,本發明係盡可能廣泛地收集各領域之訓練時序資料。
該資料分類機構2連接該模型訓練機構1,每當獲取未辨識之新 時序資料時,係與該代表性時序資料進行比對,通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類,從而間接識別該新時序資料最合適之時序資料表示法。如是,藉由上述揭露之結構構成一全新之高效率異質性時序資料表示法辨別系統。
當運用時,上述模型訓練機構1係包括一訓練資料單元11、一 與該訓練資料單元11連接之表示法判定單元12、一與該表示法判定單元12連接之群聚單元13、及一與該群聚單元13連接之原型提取單元14。而該資料分類機構2包括一相似度計算單元21、及一與該相似度計算單元21連接之表示法運行單元22。
本發明應用來自UEA(東安格里亞大學)與UCR(加利福尼亞大 學河濱分校)時間序列分類資料庫的85個時序資料。該85個時序資料收集自各領 域,例如生物學、醫學、圖像識別、食品科學、運動檢測與傳感器記錄。該訓練資料單元11係以此時序分類資料庫提供每個時間序列的訓練資料集與測試資料集,將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。該UEA與UCR時序分類資料庫中提供數種不同的訓練時序資料集,如表一所示本發明中使用的85個時序資料之名稱。 表一
資料集1-22 資料集23-43
50words ECGFiveDays
Adiac ElectricDevices
ArrowHead FaceAll
Beef FaceFour
BeetleFly FacesUCR
BirdChicken FISH
Car FordA
CBF FordB
ChlorineConcentration Gun_Point
CinC_ECG_torso Ham
Coffee HandOutlines
Computers Haptics
Cricket_X Herring
Cricket_Y InlineSkate
Cricket_Z InsectWingbeatSound
DiatomSizeReduction ItalyPowerDemand
DistalPhalanxOutlineAgeGroup LargeKitchenAppliances
DistalPhalanxOutlineCorrect Lighting2
DistalPhalanxTW Lighting7
Earthquakes MALLAT
ECG200 Meat
ECG5000  
資料集44-64 資料集65-85
MedicalImages SonyAIBORobotSurface
MiddlePhalanxOutlineAgeGroup StarLightCurves
MiddlePhalanxOutlineCorrect Strawberry
MiddlePhalanxTW SwedishLeaf
MoteStrain Symbols
NonInvasiveFetalECG_Thorax1 synthetic_control
NonInvasiveFetalECG_Thorax2 ToeSegmentation1
OliveOil ToeSegmentation2
OSULeaf Trace
PhalangesOutlinesCorrect TwoLeadECG
Phoneme Two_Patterns
Plane UWaveGestureLibraryAll
ProximalPhalanxOutlineAgeGroup uWaveGestureLibrary_X
ProximalPhalanxOutlineCorrect uWaveGestureLibrary_Y
ProximalPhalanxTW uWaveGestureLibrary_Z
RefrigerationDevices wafer
ScreenType Wine
ShapeletSim WordsSynonyms
ShapesAll WormsTwoClass
SmallKitchenAppliances Worms
SonyAIBORobotSurfaceII yoga
該訓練資料單元11在開始處理該些訓練時序資料之前,係以最 小值最大值正規化將該些訓練時序資料進行正規化處理為0~100之範圍,使該些訓練時序資料在值域中的振幅與偏移量保持不變。於其中,若兩個訓練時序資料以不同的振幅測量或具有偏移,則計算出的距離就不會具有相同的基線可供比較。因此,在使用距離測量之前,需進行正規化處理。為了控制基線,將該些訓練時序資料在值域中正規化為0~100之範圍,如第2圖所示,圖(a)顯示振幅正規化,圖(b)顯示偏移量正規化。
以最小值最大值正規化對原始訓練時序資料執行線性轉換。將數 值正規化到給定範圍,例如0~100。最小值最大值正規化只會放大或縮小值域中的訓練時序資料,而不會改變其形狀。為了將輸入
Figure 02_image001
的值
Figure 02_image003
從原始範圍[
Figure 02_image005
,
Figure 02_image007
]映射到新範圍[
Figure 02_image009
,
Figure 02_image011
],可通過以下公式實現最小值最大值正規化:
Figure 02_image013
(1)
如前所述,一些獨立的研究表明,在某些時間序列類型(例如: 週期性、突變、不規律性等)上,不同的時序資料表示法優於其它的時序資料表示法。通常從兩個角度評估時序資料表示法之效能,即減少的數據大小與損失的資訊量。這兩個因素即為壓縮效率與資訊損失,已被用於驗證時序資料表示法的有效性。
壓縮效率定義為時序資料表示法所減少的資料百分比,範圍為0 ~100,值越高表示壓縮效率越高。以下為計算壓縮效率之公式:
Figure 02_image015
(2)
另一方面,資訊損失表示壓縮後的資訊丟失,即表示資料與原始 資料之間的距離。時序資料之間的距離係通過曼哈頓距離量測來估計的,其中距離越小表示資訊損失就越小。於其中,使用曼哈頓距離量測原因在於,該曼哈頓距離量測是直觀的,其僅計算每個時間點的時序之間的差異,不同於其他需要額外計算的Lp範數距離量測;並且,與DTW相比,曼哈頓距離量測採用一致的基線計算,而DTW則嘗試識別兩個時序資料之間的最佳映射。
公式3顯示用於估計資訊損失之等式。將時序資料正規化為0~ 100之範圍時,資訊損失的範圍也在0~100之間,並且值越大表示資訊損失越大。
Figure 02_image017
(3) 其中
Figure 02_image019
分別為原始時序資料與表示長度為n之時序資料,而
Figure 02_image021
Figure 02_image023
Figure 02_image019
的第 ith個值。
為了判定最合適之時序資料表示法,本發明通過表示法判定單元 12使用六種時序資料表示法,其包含離散傅立葉轉換(Discrete Fourier Transformation, DFT)、離散餘弦轉換(Discrete Cosine Transformation, DCT)、分段聚合近似(Piecewise Aggregate Approximation, PAA)、分段線性聚合近似(Piecewise Linear Aggregate Approximation, PLAA)、自適應分段常數近似(Adaptive Piecewise Constant Approximation, APCA)、及離散小波轉換(Discrete Wavelet Transform, DWT)。對於每個訓練時序資料測試四種資料長度(128、256、512及1024)及五種係數(2、4、8、16及32),以提供對各種時序資料表示法的全面分析。在評估一表示法對應一訓練時序資料之合適性時,總共有20種組合。由於在壓縮效率與資訊損失之間需要取得平衡點,因此,為了估計訓練時序資料的可靠且穩定的時序資料表示法,本發明係計算20個壓縮效率與20個資訊損失的平均值,以表示一時序資料表示法對一訓練時序資料的效能。
本發明設計一簡單的加權總和機制,可對壓縮效率與資訊損失應 用這兩個權重來計算合適指標,如公式4所示。該合適指標的範圍在0~100之間。
Figure 02_image025
(4) 其中
Figure 02_image027
Figure 02_image029
為壓縮效率與資訊損失之權重,範圍從0~1,並且其總和必須等於1。
Figure 02_image031
Figure 02_image033
為時序資料表示法之平均壓縮效率與平均資訊損失。由第3、4圖中可看出,壓縮效率與資訊損失之數值範圍大約相差4至5倍,其中壓縮效率通常接近90%,資訊損失通常低於25%。因此,設定這兩個因素的權重需非常謹慎。最後,具有最大合適指標之時序資料表示法被確定為訓練時序資料最合適之時序資料表示法。
如前所述,本系統之主要技術係使用一新時序資料找到最相似之 訓練時序資料,並假設它們最合適之時序資料表示法是相同的。與通過直接檢查所有可能之表示法來識別最合適的表示法之傳統方法相比,本發明所提之系統更加有效。由於已經為每個訓練時序資料確定了最合適的時序資料表示法,因此可以直接計算出新時間序列資料與訓練時序資料之間的距離,從而為新時序資料確定最合適之時序資料表示法。但是,由於可能要比較許多訓練時序資料,因此本發明通過群聚單元13對訓練時序資料進行群聚以減少相似性計算量,從而進一步提高系統效能。
一般而言,群聚之主要目的係將具有相同特徵之時序資料分組到 同一群聚中,以避免不必要的相似性計算。在實施群聚處理前,先根據每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組,以確保同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法。然後,使用動態時間校正(Dynamic Time Warping, DTW)距離量測來識別具有相似特徵之訓練時序資料。該群聚單元13執行群聚之處理流程如第5圖所示。此處理流程遵循聚合式階層分群法之程序。
首先如步驟s11,以升序計算訓練時序資料與排序距離之間的 DTW距離,代表此過程從小距離開始到大距離。步驟s12,定義一閾值以判斷兩個訓練時序資料是否足夠相似。可以調整此閾值以找到效率與準確性之間的平衡。較大之閾值表示訓練時序資料之間的相似性要求較低。群聚之數量也將減少以提高效率,但可能會導致準確性降低,反之亦然。步驟s13,如果距離大於閾值,代表這兩個訓練時序資料不相似,則系統將為尚未群聚的訓練時序資料創建一新的群聚。另一步驟s14,如果距離小於閾值,系統將查看兩個訓練時序資料是否都已群聚,是則無需群聚如步驟s15。步驟s16、s17,如果兩個訓練時序資料都尚未群聚,系統會將它們聚集到同一群聚中;或者如步驟s18,如果只有一個訓練時序資料尚未群聚,則系統會將此訓練時序資料添加到另一個訓練時序資料所屬的群聚中。
上述群聚單元13執行的群聚流程主要目的是通過收集相似的 時序資料來減少訓練資料集的規模。由於同一群聚中的訓練時序資料足夠相似,因此可以使用單一個訓練時序資料來表示。具體而言,原型提取單元14係為各群聚找到一個最具代表性時序資料。
一旦代表性時序資料被識別出來,只需將一新時序資料與該些代 表性時序資料進行比較,而無需與所有的訓練時序資料進行比較,如此即可大幅降低系統之複雜度。本發明在該原型提取單元14中,係使用中心點(medoid)作為每個群聚之原型,以保留訓練時序資料的特徵。當原型檢索時,給定一群聚中的訓練時序資料,可以計算出所有訓練時序資料對之距離,在所有訓練時序資料中,其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心,從而為每個群聚找到一最具代表性時序資料。
如前所述,本發明旨在提出一種系統,該系統可有效且自適應地 識別出每個訓練時序資料最合適之時序資料表示法。 根據前述說明,確定每個訓練時序資料最合適的時序資料表示法,並通過群聚與原型提取來減少訓練時序資料的規模。因此,當要壓縮一新的時間序列時,可通過該相似度計算單元21計算與群聚原型的相似性來對訓練時序資料進行分類,從而間接地找到該新時序資料最合適之時序資料表示法。
而在計算一新時序資料與代表性時序資料(即原型)之間的相似 性時,會發生時間序列轉換,例如時間扭曲、偏移與縮放。因此,使用DTW距離量測來計算相似性。之後,新時序資料被認為與最相似的代表性時序資料具有相同的行為。由於模型訓練機構1已經為每個訓練時序資料確定了最合適的時序資料表示法,因此對於代表性時序資料的最合適時序資料表示法也被認為是最適合新時序資料的表示法。最後,通過該表示法運行單元22使用已識別之時序資料表示法對新時序資料進行壓縮處理。
本發明主要重點係提出一種高效率異質性時序資料表示法辨別 系統,該系統可以高效率且自適應地為每個時序資料選擇最合之時序資料表示法。為了證明本發明之功效,以下將說明模型訓練結果、準確性分析、以及比較本系統與傳統方法之效率分析。並且,以下實施例僅舉例以供了解本發明之細節與內涵,但不用於限制本發明之申請專利範圍。
一、模型訓練結果 [表示法的測定結果] 本發明以UEA與UCR時序分類資料庫中的85個時序資料集作為訓練資料。首先,根據上述公式4中定義的合適指標,確定每個訓練時序資料最合適之表示法。為說明壓縮效率與資訊損失的不同權重要求之間的差異,本發明在合適指標計算中應用了三種加權設定: (1)
Figure 02_image035
; (2)
Figure 02_image037
;及 (3)
Figure 02_image039
。 這兩個權重的範圍係從0到1,且其總和必須等於1。第一種設定代表僅通過考慮不同表示法之壓縮效率來確定最合適之表示法,第二種設定同時考慮壓縮效率與資訊損失,而第三種設定僅考慮資訊損失。三種不同權重設定在表示法判定中的結果如表二所示,表中顯示出每種表示法最適合訓練多少個時序資料。 表二
   
Figure 02_image041
Figure 02_image043
Figure 02_image045
Figure 02_image047
Figure 02_image049
Figure 02_image051
APCA 0 53 28
DCT 0 17 0
DFT 0 0 34
DWT 11 2 0
PAA 74 13 0
PLAA 0 0 23
根據表二,對於第一種設定,PAA為74個訓練時序資料之最合適 表示法,而DWT為11個訓練時序資料之最合適表示法。由於PAA僅使用一個值來形成係數,與其它表示法(即APCA、DFT與PLAA)使用兩個值來形成係數不同,因此PAA表示法之壓縮效率高於其它表示法。
對於第二種設定,APCA優於其它表示法。一APCA係數包含兩個 值,一個係一整數段之長度,另一個係每段之平均值,這代表APCA比DCT、DWT與PAA需要更多的存儲空間。然而,APCA表示的資料與原始資料更吻合(即資訊損失更少)。DFT與PLAA使用兩個非整數值來形成一個係數,因此它們的壓縮效率低於其它表示法。
對於第三種設定,若僅考慮資訊損失,則具有二值式係數的表示 法要優於具有一值式係數的表示法(即DCT、DWT與PAA)。由於具有二值式係數的表示法具有更多的資訊來表示時間序列,因此所表示的資料通常與原始資料具有較高的相似性。在確定每個訓練時序資料的表示法之後,系統再將訓練時序資料以相同的最合適的表示法進行群聚。
[群聚與原型提取結果] 如果收集到的訓練時序資料有相似的時間序列類型,係將相似類型的訓練時序 資料進行群聚以避免後續步驟的重複計算,從而可以提高效率。群聚亦應用上 述三個不同之權重設定。
在此群聚中,本發明使用128個資料點大小,閾值為250。由於DTW 計算的是整個時間序列的距離,因此可以將閾值除以資料長度,以得到兩個時間序列之間的平均差。由於資料點大小與閾值是使用者定義的,因此在此實驗結果中,係以人工確定一理想群聚之閾值數。在不同權重設定下的群聚數量(閾值=250)結果如表三所示。 表三
   
Figure 02_image041
Figure 02_image043
Figure 02_image045
Figure 02_image047
Figure 02_image049
Figure 02_image051
APCA 0 14 11
DCT 0 6 0
DFT 0 0 13
DWT 6 1 0
PAA 21 8 0
PLAA 0 0 8
總計 27 29 32
群聚數量代表在同一合適表示法中有多少個不同的時序資料類 型。在第一種設定下,有27種不同的時序資料類型,其中DWT適用於6種類型的時序資料,PAA適用於21種類型的時序資料。在第二種設定下,有29種不同的時序資料類型,其中APCA適用於14種類型的時序資料,PAA適用於8種類型的時序資料,DCT適用於6種類型的時序資料,DWT適用於1種類型的時序資料。在第三種設定下,有32種不同的時序資料類型,其中DFT適用於13種類型的時序資料,APCA適用於11種類型的時序資料,PLAA適用於8種類型的時序資料。群聚後,將為每個群聚生成一個原型。第6、7及8圖分別來自三個權重設定的群聚之一。其中黑線表示一群聚的已識別原型,灰線表示同一群聚中的其它時間序列。
二、準確性分析 [測試UEA與UCR時序資料庫中的資料] 本發明使用UEA與UCR時序分類資料庫中的85個時序資料集。在此資料庫中,其為每個時序資料集提供訓練資料集與測試資料集。本實施例使用所有85個訓練時序資料集進行模型訓練。為了進行準確性分析,從每個測試時序資料集中隨機選取6個測試時序資料,每個測試時序資料長度為128。本發明從資料庫中總共應用了510個不同的時間序列,在三種權重設定下檢查本系統之準確性。
每個測試時序資料均視為本系統的輸入時序資料。本系統將為每 個測試時序資料判定最合適之表示法,然後將本系統之結果與驗證結果進行比較。該驗證結果係由相同的表示法判定步驟過程產生,具有相同的參數設定,但只有一個資料長度128。此一簡易的程序可以在相同的參數設定下為每個測試時序資料識別最合適的表示法。對UEA與UCR時序分類庫資料在三種不同權重設定下的準確性分析結果顯示在表四、五及六中,其中1 st代表本系統為此時序資料選擇最合適的表示法,2 nd代表本系統選擇第二合適的表示法,依此類推。N為時間序列的數量。百分比符號(%)代表每個類別中時間序列的百分比。Delta符號(△)代表與最合適的表示法相比較的合適指標差。 表四
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 356 148 6 0 0 0 510
% 69.80 29.02 1.18 0 0 0 100
Σ△/ N 0 0.04 0.30 0 0 0 0.01
表五
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 249 85 51 125 0 0 510
% 48.82 16.67 10 24.51 0 0 100
Σ△/ N 0 0.30 0.33 0.82 0 0 0.28
表六
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 289 140 81 0 0 0 510
% 56.67 27.45 15.88 0 0 0 100
Σ△/ N 0 0.65 1.30 0 0 0 0.38
從表四中可見,本系統有69.8%的機會為時序資料選擇最合適的 表示法。對於其餘31.2%的時序資料,評估結果顯示所選的表示法可以產生小於0.3的合適指標差的結果。由於在第一種設定下的合適指標僅考慮壓縮效率,因此,與最合適的表示法相比,本系統提供的壓縮效率差異小於0.3%。
根據表五與表六,本系統有48.82%與56.67%的機會為時序資料選 擇最適合的表示法。對於本系統沒有選擇最合適的表示法的情況,系統仍然可以以非常小的合適指標差獲得可接受的結果。
此外,在表四中,我們注意到3 rd有6個測試時序資料,只有兩種 表示法(即DWT與PAA)被選為該設定下最合適的表示法(參見表二)。該結果顯示,還有其他表示法適用於這6個測試時序資料。經過仔細研究,可發現DCT係這6個測試時序資料中的三個最適合的表示法,2 nd適合於其餘三個測試時序資料。這說明這6個測試時序資料無法從訓練時間序列中找到相似的代表性原型時序資料。為了解決此問題,本發明提出一種通過指定閾值來擴展原型的解決方案。
[台灣民用物聯網測試資料] 為了進行更全面的評估,本發明還收集台灣民用物聯網數據服務平台的時間序列,該平台提供高質量的公共可用傳感器觀測值,包括空氣質量、災害事件與水資源。本發明選擇五個不同的時序資料集來測試本系統,即溫度、濕度、風 速、PM2.5與降雨量。對於這五個時序資料中的每一個,係隨機選擇六個具有相 同資料長度128的不同節段。總共有30個來自台灣民用物聯網之測試時序資料。
每個時間序列的原始資料如第9圖所示,圖(a)顯示雲林北港每小 時的濕度資料;圖(b)顯示桃園龍潭每小時的PM2.5資料;圖(c)顯示雲林北港每小時的風速資料;圖(d)顯示雲林北港每小時的溫度資料;及圖(e)顯示雲林北港每10分鐘的降雨量資料。並且,訓練時間序列仍來自於UEA與UCR時序分類資料庫。
對UEA與UCR時序分類庫資料在三種不同權重設定下來自台灣 民用物聯網數據之準確性分析結果顯示於表七、八及九。與表四、五及六之結果相比,結果相似,甚至更好。例如,表七中之結果表明,本系統在第一種設定下有76.67%的機會為時序資料選擇最合適的表示法。因此,本系統即使對不同來源之資料也能達到穩定的準確度。 表七
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 23 7 0 0 0 0 30
% 76.67 23.33 0 0 0 0 100
Σ△/ N 0 0.10 0 0 0 0 0.02
表八
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 14 3 3 10 0 0 30
% 46.67 10 10 33.33 0 0 100
Σ△/ N 0 0.12 0.17 0.65 0 0 0.25
表九
  1 st 2 nd 3 rd 4 th 5 th 6 th 總計
N 20 4 6 0 0 0 30
% 66.67 13.33 20 0 0 0 100
Σ△/ N 0 0.37 2.19 0 0 0 0.49
三、效率分析 如上述先前技術所言,傳統方法在判定最合適的表示法上係採用逐一測試不同的時序資料表示法。儘管此種傳統方法可以保證為最合適的表示法,但是在處理大量時序資料時,此種方法非常耗時。為了比較本系統與傳統方法在處理時間上之效能,本發明實驗不同資料長度(128、256、512、1024)下之傳統方法與本系統。對於每五分鐘採集一次的傳感器資料,在3.5天內觀察到1024個資料長度,而對於每小時的傳感器資料,1024個資料長度可以描述超過一個月的觀測。
評估測試係在一台配備Intel 2.9GHz CPU與8GB RAM之計算機上 進行。對於每個資料長度,本發明已經測試了850次,平均結果如第10圖所示。如圖所示,本系統比傳統方法要快得多,處理時間的增長速度幾乎比傳統方法慢10倍。 對於128個資料長度,本系統之處理時間平均比傳統方法快300倍。即使對於1024個資料長度,本系統仍然比傳統方法快17倍之效率。
結果顯示,對於1024個資料長度的資料,傳統方法與本系統之間 的處理時間的絕對差異約為1秒。然而,在許多應用程序中,本發明可能需要同時處理數千個時間序列。利用如此大量的時序資料,本系統可以節省大量時間並提供可接受的表示法結果。
另外,DTW的時間複雜度為O(mn),這代表在處理較大的資料 長度時,本系統的處理時間將呈指數增長。儘管DTW的時間複雜度很高,但DTW仍具有優勢。DTW可計算兩個不同長度的時序資料之間的相似性。在這種情況下,本發明可以儲存較短的原型資料長度,以計算帶有較長的新時序資料長度的相似性。例如,輸入時序資料的長度可能是本系統中原型的兩倍,但具有相似的特性,DTW仍可以辨別出它們之間的強相似性。範例如第11圖所示。
具體而言,本發明主要提出一種高效率異質性時序資料表示法辨 別系統,該系統可根據壓縮效率及資訊損失之需求,針對一特定時序資料找出 何種時序資料表示法最為合適。模型訓練機構可針對每個訓練時序資料進行不同表示法的效能評估,進而確定每個訓練時序資料最合適的表示法。為了進一步提升系統效率,將訓練時序資料進行群聚並選出各群聚最具代表性時序資料。爾後,每當系統獲取未辨識之時序資料時,資料分類機構將計算此時序資料與每個群聚代表的相似性,用以間接識別此時序資料最合適的表示法。而由上述實驗結果顯示,本發明所提之系統在不同的參數設定下,能夠為46%至76%的時序資料辨別出最合適的表示法。對於其餘的時序資料,本系統所選之表示法與實際上最合適表示法相比差異僅小於2.19%。此外,所提系統在辨識最合適的表示法上,較傳統方法快17至300倍的效率,並且可擴展性為傳統方法的10倍。
整體而言,本發明之特點包含: 1. 可根據不同使用者需求條件,如高壓縮率、低失真率、壓縮效率及失真率平衡等,辨別最合適的時序資料表示法。 2. 相較於傳統方法逐一測試不同的時序資料表示法,本發明所提系統在辨別最合適的時序資料表示法可達17至300倍之效率。
綜上所述,本發明係一種高效率異質性時序資料表示法辨別系 統,可有效改善習用之種種缺點,可針對多種時序資料表示法進行測試,找出該表示法最具代表性之時序資料,並在獲得新的時序資料時,與此代表性時序資料進行比對,以判斷出最相似之時序資料及表示法,進而使本發明之產生能更進步、更實用、更符合使用者之所須,確已符合發明專利申請之要件,爰依法提出專利申請。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定 本發明實施之範圍;故,凡依本發明申請專利範圍及發明說明書內容所作之簡 單的等效變化與修飾,皆應仍屬本發明專利涵蓋之範圍內。
1:模型訓練機構 11:訓練資料單元 12:表示法判定單元 13:群聚單元 14:原型提取單元 2:資料分類機構 21:相似度計算單元 22:表示法運行單元 s11~s18:步驟
第1圖,係本發明高效率異質性時序資料表示法辨別系統之架構示意圖。 第2圖,係本發明對時間序列正規化之示意圖。 第3圖,係本發明係數時間序列資料集之壓縮效率分析示意圖。 第4圖,係本發明係數時間序列資料集之資訊損失分析示意圖。 第5圖,係本發明群聚之流程示意圖。 第6圖,係本發明以第一種權重設定之群聚原型示意圖。 第7圖,係本發明以第二種權重設定之群聚原型示意圖。 第8圖,係本發明以第三種權重設定之群聚原型示意圖。 第9圖,係本發明各台灣民用物聯網時間序列之原始資料示意圖。 第10圖,係本發明所提系統與傳統方法之效率分析示意圖 第11圖,係本發明對不同長度但特徵相同之時序資料進行DTW分析示意圖。
1:模型訓練機構
11:訓練資料單元
12:表示法判定單元
13:群聚單元
14:原型提取單元
2:資料分類機構
21:相似度計算單元
22:表示法運行單元

Claims (9)

  1. 一種高效率異質性時序資料表示法辨別系統,係包括:一模型訓練機構,包括一訓練資料單元、一與該訓練資料單元連接之表示法判定單元、一與該表示法判定單元連接之群聚單元、及一與該群聚單元連接之原型提取單元,該模型訓練機構係針對每個訓練時序資料以一由壓縮效率(compression rate)及資訊損失(information loss)加權總合而得之合適指標(suitability score)進行不同時序資料表示法的效能評估,以辨認出每個訓練時序資料最合適之時序資料表示法,然後將各訓練時序資料進行群聚並選出各群聚最具代表性時序資料,其中,該原型提取單元係使用中心點(medoid)作為每個群聚之原型,當原型檢索時,給定一群聚中的訓練時序資料,以計算出所有訓練時序資料對之距離,在所有訓練時序資料中,其中一訓練時序資料與其他訓練時序資料的距離之和最小者被定義為該群聚之中心,從而為每個群聚找到一最具代表性時序資料;以及一資料分類機構,連接該模型訓練機構,每當獲取未辨識之新時序資料時,係與該代表性時序資料進行比對,通過距離量測來計算該新時序資料與各群聚代表性時序資料之間的相似性以對該新時序資料進行分類,從而間接識別該新時序資料最合適之時序資料表示法。
  2. 依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統,其中,該訓練資料單元係以一時序分類資料庫提供每個時間序列的訓練資料集與測試資料集,將該些訓練資料集作為訓練時序資料與該些測試資料集進行評估。
  3. 依申請專利範圍第2項所述之高效率異質性時序資料表示法辨別系統,其中,該訓練資料單元在開始處理該些訓練時序資料前,係以最小 值最大值正規化將該些訓練時序資料進行正規化處理為0~100之範圍。
  4. 依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統,其中,該表示法判定單元使用六種時序資料表示法,對於每個訓練時序資料測試四種資料長度(128、256、512及1024)及五種係數(2、4、8、16及32),以測試各種時序資料表示法應用在每個訓練時序資料之壓縮效率及資訊損失,一時序資料表示法對應一訓練時序資料共有20個組合,通過加權總合處理,計算20個壓縮效率與20個資訊損失的平均值,取得一範圍在0到100之間的合適指標以評估一時序資料表示法對一訓練時序資料的效能,令具有最大合適指標之時序資料表示法被判定為此訓練時序資料最合適之時序資料表示法。
  5. 依申請專利範圍第4項所述之高效率異質性時序資料表示法辨別系統,其中,該六種時序資料表示法包含離散傅立葉轉換(Discrete Fourier Transformation,DFT)、離散餘弦轉換(Discrete Cosine Transformation,DCT)、分段聚合近似(Piecewise Aggregate Approximation,PAA)、分段線性聚合近似(Piecewise Linear Aggregate Approximation,PLAA)、自適應分段常數近似(Adaptive Piecewise Constant Approximation,APCA)、及離散小波轉換(Discrete Wavelet Transform,DWT)。
  6. 依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統,其中,該群聚單元在進行群聚處理前,先根據每個訓練時序資料最合適之時序資料表示法對每個訓練時序資料進行分組,令同一群聚中的所有訓練時序資料都具有相同合適之時序資料表示法,再使用動態時間校正(Dynamic Time Warping,DTW)距離量測來識別具有相似特徵之訓練時序資料。
  7. 依申請專利範圍第1項所述之高效率異質性時序資料表示法辨別系統,其中,該資料分類機構包括一相似度計算單元、及一與該相似度計算單元連接之表示法運行單元。
  8. 依申請專利範圍第7項所述之高效率異質性時序資料表示法辨別系統,其中,該相似度計算單元係將未辨識之新時序資料與通過群聚及原型提取之代表性時序資料使用DTW距離量測計算相似性,找到最相似的訓練時序資料及此訓練時序資料最合適之時序資料表示法,並假設此最相似的訓練時序資料與該新時序資料最合適之時序資料表示法是相同的,以間接識別該新時序資料最合適之時序資料表示法。
  9. 依申請專利範圍第7項所述之高效率異質性時序資料表示法辨別系統,其中,該表示法運行單元係使用已識別之時序資料表示法對新時序資料進行壓縮處理。
TW109135557A 2020-10-14 2020-10-14 高效率異質性時序資料表示法辨別系統 TWI757915B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109135557A TWI757915B (zh) 2020-10-14 2020-10-14 高效率異質性時序資料表示法辨別系統
US17/084,890 US20220114460A1 (en) 2020-10-14 2020-10-30 Apparatus of Identifying Heterogeneous Time-Series Data Expression with High Efficiency

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109135557A TWI757915B (zh) 2020-10-14 2020-10-14 高效率異質性時序資料表示法辨別系統

Publications (2)

Publication Number Publication Date
TWI757915B true TWI757915B (zh) 2022-03-11
TW202215269A TW202215269A (zh) 2022-04-16

Family

ID=81079092

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109135557A TWI757915B (zh) 2020-10-14 2020-10-14 高效率異質性時序資料表示法辨別系統

Country Status (2)

Country Link
US (1) US20220114460A1 (zh)
TW (1) TWI757915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116760908B (zh) * 2023-08-18 2023-11-10 浙江大学山东(临沂)现代农业研究院 基于数字孪生的农业信息优化管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275671A1 (en) * 2005-03-31 2008-11-06 International Business Machines Corporation Systems and methods for structural clustering of time sequences
TW201926105A (zh) * 2017-12-05 2019-07-01 香港商阿里巴巴集團服務有限公司 異常資料存取的識別方法和裝置
CN111008224A (zh) * 2019-11-13 2020-04-14 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275671A1 (en) * 2005-03-31 2008-11-06 International Business Machines Corporation Systems and methods for structural clustering of time sequences
TW201926105A (zh) * 2017-12-05 2019-07-01 香港商阿里巴巴集團服務有限公司 異常資料存取的識別方法和裝置
CN111008224A (zh) * 2019-11-13 2020-04-14 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
;Miaomiao Zhang, D. Pi, "A New Time Series Representation Model and Corresponding Similarity Measure for Fast and Accurate Similarity Detection," IEEE, vol. 5, pp.21503-24519, October 20, 2017(https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8076822) *
C. Ratanamahatana, E. Keogh, A. J. Bagnall, and S. Lonardi, "A Novel Bit Level Time Series Representation with Implication of Similarity Search and Clustering," Adv. Knowl. Discov. Data Min., pp. 771–777, 2005(https://www.cs.ucr.edu/~stelo/papers/pakdd05.pdf) *
Miaomiao Zhang, D. Pi, "A New Time Series Representation Model and Corresponding Similarity Measure for Fast and Accurate Similarity Detection," IEEE, vol. 5, pp.21503-24519, October 20, 2017(https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8076822)。

Also Published As

Publication number Publication date
US20220114460A1 (en) 2022-04-14
TW202215269A (zh) 2022-04-16

Similar Documents

Publication Publication Date Title
CN110633725B (zh) 训练分类模型的方法和装置以及分类方法和装置
CN109783879B (zh) 一种雷达辐射源信号识别效能评估方法及系统
Zhu et al. Iterative Laplacian score for feature selection
CN103617429A (zh) 一种主动学习分类方法和系统
CN110706823A (zh) 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法
CN108427713A (zh) 一种用于自制视频的视频摘要方法及系统
CN105975518A (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
TWI757915B (zh) 高效率異質性時序資料表示法辨別系統
CN110458189A (zh) 压缩感知和深度卷积神经网络电能质量扰动分类方法
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
CN111291824A (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN117782198B (zh) 一种基于云边端架构的公路机电设备运行监测方法及系统
CN105894032A (zh) 一种针对样本性质提取有效特征的方法
CN104331711B (zh) 基于多尺度模糊测度与半监督学习的sar图像识别方法
KR101064256B1 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
CN116561569A (zh) 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法
CN115982621A (zh) 一种基于时间卷积网络的旋转机械剩余使用寿命预测方法
CN112801163B (zh) 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN115018007A (zh) 一种基于改进id3决策树的敏感数据分类方法
CN116933119A (zh) 一种基于卷积神经网络的信号数据去除趋势方法
Choi et al. Comparison of various statistical methods for detecting disease outbreaks
CN113408579A (zh) 一种基于用户画像的内部威胁预警方法
CN112668617A (zh) 一种电网员工工作满意度评估方法及装置