TWI550416B - 利用高維度子空間產生取樣之方法 - Google Patents

利用高維度子空間產生取樣之方法 Download PDF

Info

Publication number
TWI550416B
TWI550416B TW104126844A TW104126844A TWI550416B TW I550416 B TWI550416 B TW I550416B TW 104126844 A TW104126844 A TW 104126844A TW 104126844 A TW104126844 A TW 104126844A TW I550416 B TWI550416 B TW I550416B
Authority
TW
Taiwan
Prior art keywords
subspace
vector
value
data value
data
Prior art date
Application number
TW104126844A
Other languages
English (en)
Other versions
TW201709086A (zh
Inventor
林進燈
謝宗佑
劉宇庭
Original Assignee
國立交通大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立交通大學 filed Critical 國立交通大學
Priority to TW104126844A priority Critical patent/TWI550416B/zh
Application granted granted Critical
Publication of TWI550416B publication Critical patent/TWI550416B/zh
Publication of TW201709086A publication Critical patent/TW201709086A/zh

Links

Landscapes

  • Complex Calculations (AREA)

Description

利用高維度子空間產生取樣之方法
本發明係為有關一種產生取樣資料之方法,特別是指一種利用智慧演算法,以產生更接近原始資料值之利用高維度子空間產生取樣之方法。
目前的資料科學研究中,不同族群資料間比例失衡所造成的問題已經引起廣大的研究注目,以醫學的領域,並以病患與健康人類為例,通常病患的比例會較健康人類少,因此病患可取樣的數據相對於健康人類來說,可取樣的數據會比健康人類少很多。且在針對這兩個不同族群做研究時,其資料樣本數應相同,才能較精確地比較兩者的不同,以研究出正確的資料,但若在研究時,病患族群的資料明顯不足,此時資料研究的過程就會產生比例失衡的問題,導致研究的準確度降低。
因此為了提高研究的準確度以及解決兩族群之間比例失衡的問題,必須自行產生病患族群的取樣資料,以增加病患族群的取樣資料數目,來平衡健康人類以及病患兩個不同族群的數量,但製造取樣的過程中,若在非理想狀態可能導致產生的取樣資料失真,使取樣資料的數值與原始作為基礎資料數值相差太多,以至於資料不正確,導致研究結果準確度降低。再者,先前技術在取樣資料與原始之資料差太多時,也無法針對取樣資料進行調整,導致重複產生錯誤的取樣資料,使研究產生錯誤。
有鑑於此,本發明遂針對上述習知技術之缺失,提出一種利用高維度子空間產生取樣之方法,以有效克服上述之該等問題。
本發明之主要目的在提供一種利用高維度子空間產生取樣之方法,其可將原始資料投影至高維度子空間,以產生與原始資料相似的取樣資料,且高維度子空間下所產生的取樣資料可與原始資料的特性幾乎完全相同,故能做為平衡數據之資料,以補足資料庫中資料的不足,解決不同族群的資料間比例失衡的問題。
本發明之另一目的在提供一種利用高維度子空間產生取樣之方法,其係可結合梯度演算法調整高維度子空間之維度,藉由不斷調整高維度子空間之維度,產生更接近原始資料的取樣資料。
為達上述之目的,本發明提供一種利用高維度子空間產生取樣之方法,包括下列步驟,利用一計算機將一向量資料值投影於複數高維度子空間上,以產生複數向量子空間資料值;由複數向量子空間資料值中,擷取具有最大值之向量子空間資料值,成為最佳向量子空間資料值;擷取最佳向量子空間資料值所屬之子空間之維度,成為基準維度;將基準維度進入一梯度演算,以計算其餘的向量子空間資料值所屬之子空間的維度調整值,並根據維度調整值調整其餘子空間之維度,以分別產生一新的高維度子空間;將向量資料值投影至每一新高維度子空間上,產生複數新向量子空間資料值;判斷每一新向量子空間資料值與向量資料值之比值是否大於或等於一預設值,若是,新向量子空間資料值則成為取樣值,若否,則回覆至將一向量資料值投影於複數高維度子空間之步驟,並重複進行上述步驟。
底下藉由具體實施例詳加說明,當更容易瞭解本發明之目的、技術內容、特點及其所達成之功效。
第一圖係為本發明之方法流程圖。
第二圖係為本發明之向量資料值與向量子空間資料值分布示意圖。
本發明可應用於計算機中,如電腦等可供計算之工具,請參照第一圖,以說明本發明應用於計算機時的演算方法及步驟,如圖所示,首先進入步驟S10,操作計算機以調整所需高維度子空間的數目、維度以及空間參數後,將一向量資料值投影於複數高維度子空間上,以產生複數向量子空間資料值。接著進入步驟S12,由複數向量子空間資料值中,擷取具有最大值的向量子空間資料值,成為最佳向量子空間資料值,其中擷取具有最大值之向量子空間資料值的步驟演算係透過一最佳向量子空間資料值方程式(1),取得最大值的向量子空間資料值成為最佳向量子空間資料值,其中最佳向量子空間資料值方程式(1)如下所示: 其中C係為最佳向量子空間資料值,係為向量子空間資料值。
經由上述方程式(1)取得最佳向量子空間資料值後,接著進入步驟S14,擷取最佳向量子空間資料值所屬之子空間之維度,成為基準維度。接著進入步驟S16,將基準維度進行梯度演算,以逐一計算其餘向量子空間資料值所屬之子空間的維度調整值,使每一向量子空間的維度可根據維度調整值進行調整,分別產生出一新高維度子空間,以利投影出較佳的向量子空間資料值,其中梯度演算使用之方程式(2)如下所示: 其中係為子空間,L係為目前所調整之子空間,σ係為常數參數,D(xj)係為維度調整值。
接著進入步驟S18,將向量資料值投影至每一新高維度子空間 上,產生複數新向量子空間資料值。進入步驟S20,計算每一新向量子空間資料值與向量資料值之比值,其中計算新向量子空間資料值與向量資料值之比值係利用方程式(3)計算,方程式(3)如下所示: 其中φ(xn)係為向量資料值,係為新向量子空間資料值,ε係為預設值,N係為新向量子空間資料值的總數。計算出比值後並判斷是否大於或等於一預設值,本實施例舉例預設值係為0.98,若是,計算出來的比值大於或等於0.98,則進入步驟S22,將新向量子空間資料值成為取樣值,並將取樣值儲存至一資料庫中,以增加資料庫的取樣資料;但若否,則回覆至步驟S10,重複將向量資料值投影於複數高維度子空間之,以計算出更精確的向量子空間資料值。
接下來請參照第二圖,其係為向量資料值與向量子空間資料值分布示意圖,其中圓形的點係為向量資料值,X形的點係為向量子空間資料值,由第二圖可知,利用本發明之方法可產生出與原始的向量資料值相當相近的向量子空間資料值,產生出的向量子空間資料值加入資料庫中,以補足原本資料庫缺少的數目,來平衡不同族群之間的樣本數,藉此提供較佳的實驗數據。
綜上所述,本發明可將原始資料投影至高維度子空間,以產生與原始資料相似的取樣資料,且高維度子空間下所產生的取樣資料可與原始資料的特性幾乎完全相同,故做為補足資料庫中不足的資料,以解決不同族群的資料間比例失衡的問題。除此之外,本發明更結合梯度演算法,來調整高維度子空間之維度,藉由不斷調整高維度子空間之維度,產生更接近原始資料的取樣資料。
唯以上所述者,僅為本發明之較佳實施例而已,並非用來限定本發明實施之範圍。故即凡依本發明申請範圍所述之特徵及精神所為之均等變化 或修飾,均應包括於本發明之申請專利範圍內。

Claims (8)

  1. 一種利用高維度子空間產生取樣之方法,包括下列步驟:利用一計算機將一向量資料值投影於複數高維度子空間上,以產生複數向量子空間資料值;由該等向量子空間資料值中,擷取具有最大值之該向量子空間資料值,成為最佳向量子空間資料值;擷取該最佳向量子空間資料值所屬之該子空間之維度,成為基準維度;將該基準維度進行梯度演算,以計算其餘該向量子空間資料值所屬之該子空間的維度調整值,並根據該維度調整值調整其餘該子空間之維度,以分別產生一新高維度子空間;將該向量資料值投影至每一該新高維度子空間上,產生複數新向量子空間資料值;以及判斷每一該新向量子空間資料值與該向量資料值之比值是否大於或等於一預設值:若是,該新向量子空間資料值則成為取樣值;及若否,則回覆至將該向量資料值投影於該等高維度子空間之步驟,以重覆進行上述之步驟。
  2. 如請求項1所述之利用高維度子空間產生取樣之方法,其中在擷取最接近該向量資料值之該向量子空間資料值之步驟中,係由該等向量子空間資料值中擷取具最大值的該向量子空間資料,為該最佳向量子空間資料值。
  3. 如請求項2所述之利用高維度子空間產生取樣之方法,其中在擷取具有最大值之該向量子空間資料值之步驟中,係透過一最佳向量子空 間資料值方程式取得該最佳向量子空間資料值,該最佳向量子空間資料值方程式如下所示: 其中該C係為該最佳向量子空間資料值,該係為該向量子空間資料值。
  4. 如請求項1所述之利用高維度子空間產生取樣之方法,其中該梯度演算使用方程式為: 其中係為該子空間,該L係為目前所調整之子空間,該σ係為常數參數,該D(xj)係為該維度調整值。
  5. 如請求項1所述之利用高維度子空間產生取樣之方法,其中在將該向量資料值投影於該等高維度子空間上之步驟之前,可定義高維度子空間數目、維度以及空間參數。
  6. 如請求項1所述之利用高維度子空間產生取樣之方法,其中在成為該取樣值之步驟之後,更包括將該取樣值儲存至一取樣資料庫中,以增加該資料庫之取樣資料。
  7. 如請求項1所述之利用高維度子空間產生取樣之方法,其中在計算該新向量子空間資料值與該向量資料值之比值是否大於或等於該預設值之步驟中,係利用下列方程式進行判斷: 其中該φ(x n )係為該向量資料值,其中該係為新向量子空間資料值,其中該ε係為該預設值,其中該N係為該新向量子空間資料值的總數。
  8. 如請求項7所述之利用高維度子空間產生取樣之方法,其中該預設值係為0.98。
TW104126844A 2015-08-18 2015-08-18 利用高維度子空間產生取樣之方法 TWI550416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW104126844A TWI550416B (zh) 2015-08-18 2015-08-18 利用高維度子空間產生取樣之方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104126844A TWI550416B (zh) 2015-08-18 2015-08-18 利用高維度子空間產生取樣之方法

Publications (2)

Publication Number Publication Date
TWI550416B true TWI550416B (zh) 2016-09-21
TW201709086A TW201709086A (zh) 2017-03-01

Family

ID=57445141

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104126844A TWI550416B (zh) 2015-08-18 2015-08-18 利用高維度子空間產生取樣之方法

Country Status (1)

Country Link
TW (1) TWI550416B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW421973B (en) * 1999-03-16 2001-02-11 Academia Sinica Fast global optimal template comparing method and program
TW200400471A (en) * 2002-06-20 2004-01-01 Microsoft Corp Systems and methods for providing controllable texture sampling
US20050187849A1 (en) * 2004-02-20 2005-08-25 Srinivas Bollapragada Systems and methods for initial sampling in multi-objective portfolio analysis
TWI307057B (en) * 2006-01-25 2009-03-01 Univ Nat Taiwan A method for rendering three-dimension volume data
US20110307438A1 (en) * 2010-06-14 2011-12-15 Fern E Acu A Ee Ndez Mart E Acu I Ee Nez Juan Luis High-dimensional data analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW421973B (en) * 1999-03-16 2001-02-11 Academia Sinica Fast global optimal template comparing method and program
TW200400471A (en) * 2002-06-20 2004-01-01 Microsoft Corp Systems and methods for providing controllable texture sampling
US20050187849A1 (en) * 2004-02-20 2005-08-25 Srinivas Bollapragada Systems and methods for initial sampling in multi-objective portfolio analysis
TWI307057B (en) * 2006-01-25 2009-03-01 Univ Nat Taiwan A method for rendering three-dimension volume data
US20110307438A1 (en) * 2010-06-14 2011-12-15 Fern E Acu A Ee Ndez Mart E Acu I Ee Nez Juan Luis High-dimensional data analysis

Also Published As

Publication number Publication date
TW201709086A (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
Seshadhri et al. Triadic measures on graphs: The power of wedge sampling
Fu et al. Quantile regression for longitudinal data with a working correlation model
CN104102836B (zh) 一种电力系统快速抗差状态估计方法
Keszthelyi et al. Modeling the early evolution of massive OB stars with an experimental wind routine-The first bi-stability jump and the angular momentum loss problem
Belardinelli et al. Analysis of the convergence of the 1∕ t and Wang-Landau algorithms in the calculation of multidimensional integrals
Loh A valid and fast spatial bootstrap for correlation functions
CN104298737B (zh) 应用于计算机视觉和摄影测量的几何对象参数获取方法
CN105891585B (zh) 一种正弦波频率缓慢变化时的有效值计算方法与装置
CN112365044A (zh) 一种基于k近邻算法和支持向量机的隧道掌子面失效概率预测方法
Bartel et al. Force calibration using errors-in-variables regression and Monte Carlo uncertainty evaluation
Rabelo et al. On stochastic Kaczmarz type methods for solving large scale systems of ill-posed equations
TWI550416B (zh) 利用高維度子空間產生取樣之方法
Shan et al. Unconditional tests for association in 2× 2 contingency tables in the total sum fixed design
CN108319717B (zh) 一种矢量点转换为栅格点时最佳栅格尺寸范围的计算方法
CN105224806B (zh) 一种获取非晶态物质径向分布的方法
TW200929412A (en) Model modification method for a semiconductor device
Shen et al. Evaluation of multi-order derivatives by local radial basis function differential quadrature method
CN114675221A (zh) 磁共振梯度校正补偿因子的确定方法、校正方法和装置
Chiu et al. Stationarity tests for spatial point processes using discrepancies
JP2008124075A (ja) イオン注入シミュレーション方法、イオン注入シミュレータ、及びイオン注入シミュレーションプログラム
CN111950123A (zh) 一种陀螺仪误差系数曲线拟合预测方法及系统
Musso et al. Towards uncertainty in dimensional metrology of surface features for advanced manufacturing
JP6507512B2 (ja) 推定プログラム、推定方法および推定装置
Du et al. Variable selection for partially linear varying coefficient quantile regression model
CN108304630A (zh) 半导体器件闪烁噪声表征数据筛选方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees