TWI649660B - 資料分析系統及其分析方法 - Google Patents
資料分析系統及其分析方法 Download PDFInfo
- Publication number
- TWI649660B TWI649660B TW106114896A TW106114896A TWI649660B TW I649660 B TWI649660 B TW I649660B TW 106114896 A TW106114896 A TW 106114896A TW 106114896 A TW106114896 A TW 106114896A TW I649660 B TWI649660 B TW I649660B
- Authority
- TW
- Taiwan
- Prior art keywords
- parameter
- event
- data
- algorithm
- statistical
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一種資料分析系統,包含:傳輸單元接收事件研究資料。儲存單元儲存事件研究資料。控制單元依據操作指令生成事件研究方案、第一參數與第二參數。處理單元連接傳輸單元、儲存單元與控制單元。處理單元根據事件研究方案、第一參數與第二參數經由傳輸單元自欲分析資料中取得事件研究資料。以使用統計演算法分析第一參數、第二參數與事件研究資料而生成統計資訊。接著根據檢定演算法分析關於第一參數、第二參數與各事件研究資料以生成統計檢定。顯示單元連接處理單元,以顯示整合資訊。整合資訊是處理單元根據整合演算法整合相關於第一參數、第二參數、統計資訊與統計檢定。
Description
一種資料分析系統,特別是指能探討資料中各事件之間的關聯性的資料分析系統。
近年來大數據(或稱巨量資料、大資料,Big Data)之議題經常被提及,其指的是所涉及的資料量規模巨大,且無法透過人工以合理時間內達到擷取、管理、處理,並整理成為人類所能解讀的形式的資訊。
因此如何處理大數據資料,並分析研究後且整理成為人類能快速理解的資訊是相當重要的課題。
坊間對於大數據資料的分析方式很多種,其中有利用關鍵字搜尋方式取得資料,接著再分析具有相同關鍵字的資料中且對應於某一特定事項的相關內容。換句話說,先自大數據資料中取得相同特徵的資料,再對應的分析此相同特徵的資料對應於特定事項的關係,而能得出對應於特定事項的分析結果。
然而,若有不同的特定事項,則需重複前述的分析,而能分別得到分屬不同特定事項之分析結果,但卻難以看出兩個不同特定事項之間的關聯性。因此有必要提出一解決方案,以能快速分析不同特定事項,以及不同特定事項之間的關係。
鑑於上述問題,本發明提供一種資料分析系統及其分析方法,能讓使用者快速理解不同事件之間的關聯性,以探求不同事件之間的各種可能性。
本發明一實施例提供一種資料分析系統,包含:傳輸單元、儲存單元、控制單元、處理單元以及顯示單元。傳輸單元接收事件研究資料。儲存單元儲存事件研究資料。控制單元依據操作指令生成事件研究方案、第一參數與第二參數。處理單元連接傳輸單元、儲存單元與控制單元。
處理單元根據事件研究方案、第一參數與第二參數經由傳輸單元自欲分析資料中取得事件研究資料。處理單元依據事件研究方案使用統計演算法分析第一參數、第二參數與事件研究資料而生成統計資訊。該處理單元根據檢定演算法分析關於第一參數、第二參數與各事件研究資料以生成統計檢定。顯示單元連接處理單元,以顯示整合資訊。整合資訊是處理單元根據整合演算法整合相關於第一參數、第二參數、統計資訊與統計檢定。
本發明一實施例提供一種資料分析的分析方法,包含:以控制單元根據操作指令生成第一參數、第二參數與事件研究方案。自一欲分析資料中取得對應於第一參數與第二參數的至少一事件研究資料。以傳輸單元接收各事件研究資料。以處理單元根據事件研究方案使用統計演算法分析第一參數、第二參數與各事件研究資料生成統計資訊。以處理單元根據檢定演算法分析相關於第一參數、第二參數與各事件研究資料以生成統計檢定。以處理單元根據整合演算法整合第一參數、第二參數、統計資訊與統計檢定為整合資訊。以顯示單元顯示整合資訊。
依據上述實施例,本發明能供使用者能經由顯示單元顯示的
整合資訊而快速得知事件研究資料中相關與第一參數與第二參數彼此之間的關聯程度。換言之,處理單元自欲分析資料中取得的事件研究資料,經過相關於第一參數與第二參數的分析演算後,能得知於事件研究資料中對應於第一參數與第二參數之間是否具有較高的關聯程度。因此,使用者能藉由整合資訊快速得知所選擇的第一參數與第二參數是否具有研究參考價值,如此能增進研究效率,提升研究成果。
10‧‧‧傳輸單元
20‧‧‧儲存單元
30‧‧‧控制單元
40‧‧‧處理單元
50‧‧‧顯示單元
60‧‧‧資料庫
S01~S06‧‧‧步驟
[圖1]是本發明一實施例的事件關聯性的分析系統的架構示意圖。
[圖2]是本發明一實施例的事件關聯性的分析方法的流程圖。
[圖3]是本發明一實施例之計算統計資訊之發生率的流程圖。
[圖4]是本發明一實施例之計算統計資訊之發生密度的流程圖。
[圖5]是本發明步驟S03的一實施例的詳細流程圖。
[圖6]是本發明步驟S03的另一實施例的詳細流程圖。
[圖7]是本發明步驟S03的又一實施例的詳細流程圖。
[圖8]是本發明步驟S05的一詳細流程圖。
圖1是本發明一實施例之分析系統架構示意圖。圖2是本發明一實施例之分析方法的流程圖。請參閱圖1與圖2,本發明的事件關聯性分析系統包含傳輸單元10、儲存單元20、控制單元30、處理單元40與顯示單元50,處理單元40連接於傳輸單元10、儲存單元20、控制單元30與顯示單元50之間。
傳輸單元10是能自資料庫60接收事件研究資料。於一實施例中,傳輸單元10是能接收一個或多個事件研究資料,本發明並非以此為限制。於一實施例中,資料庫60是儲存有欲分析資料,以自欲分析資料中擷取事件研究資料而傳送至傳輸單元10。
於一實施例中,傳輸單元10是能以有線或無線方式與資料庫60連接,藉以自資料庫60中儲存的欲分析資料中取得事件研究資料。
於一實施例中,傳輸單元10能以符合WiFi、GSM、藍牙、紅外線、WiMAX、Zigbee、Zwave、射頻(RF)或其他等無線傳輸方式進行傳輸。或傳輸單元10能以符合Ethernet、RF232或其他等有線傳輸方式進行傳輸。
於一實施例中,資料庫60可以是儲存有大數據(或稱巨量資料、大資料,Big Data)資料。是以,資料庫60中是具有儲存單元,其可以為唯讀記憶體、隨機訪問記憶體、非永久性記憶體、永久性記憶體、靜態記憶體、動態記憶體、快閃記憶體和/或任何存儲數位資訊的設備。
於一實施例中,本發明能具有多個資料庫60,其能位於同一機房中,本發明非以此為限制,於一些實施例中,各資料庫60是可以分散於不同的地方。另,資料庫60亦可位於雲端中,以供便於隨時方便取得欲分析資料。
儲存單元20是儲存來自資料庫60的事件研究資料。於一實施例中,儲存單元20可以為唯讀記憶體、隨機訪問記憶體、非永久性記憶體、永久性記憶體、靜態記憶體、動態記憶體、快閃記憶體和/或任何存儲數位資訊的設備。
於一實施例中,資料庫60是可以整合儲存單元20。亦即處理單元40將第一參數與第二參數透過傳輸單元10傳送至資料庫後60,資料庫60隨即將其內部的欲分析資料中取得對應的事件研究資料,其中,事件研究資料可以區分為第一事件研究資料、第二事件研究資料或其他等事件研究資料,本發明非以此為限制。
控制單元30是能根據操作指令而生成事件研究方案、第一參數與第二參數(即如圖2中的步驟S01)。於一實施例中,操作指令是經由使用者操作產生,換言之,使用者能經由操作介面下達操作指令,以選擇事件研究方案、欲分析的原因事項(即第一參數)與結果事項(即第二參數)。其中,操作介面是可以顯示在電腦或手持裝置上,再透過鍵盤、按鍵或觸碰方式下達操作指令。於一些實施例中,操作指令亦能透過語音方式下達,即透過語音辨識使用者的聲音而生成操作指令。
顯示單元50是經由處理單元40接收整合資訊,並將整合資訊顯示於顯示螢幕中。也就是說,使用者透過顯示單元50能快速得知原因事項與結果事項的分析結果,詳情容後詳述。
於此,處理單元40自控制單元30接收事件研究方案、第一參數與第二參數後,處理單元40能經由傳輸單元10連接至資料庫60,並自資料庫60接收對應事件研究方案、第一參數與第二參數的事件研究資料(即步驟S02),並儲存事件研究資料於儲存單元20中。
接著,處理單元40再根據事件研究方案而使用一統計演算法以分析計算事件研究資料、第一參數與第二參數而生成統計資訊(即步驟S03),以及依據檢定演算法分析第一參數、第二參數,以生成統計檢定
(即步驟S04)。接著,處理單元40根據整合演算法將第一參數、第二參
數、統計資訊與統計檢定整合為整合資訊(即步驟S05),並傳送至顯示單元50,以供顯示單元50顯示整合資訊(即步驟S06)。
於一實施例中,控制單元30的第一參數與第二參數是泛指一種分類條件,例如,是否有接觸苯乙烯(第一參數)以及是否有白血病(第二參數)、是否位於高溫地區(第一參數)以及是否有購買刨冰機(第二參數)、是否有抽菸者(第一參數)以及是否會得到肺癌(第二參數)、是否習慣喝咖啡者(第一參數)以及是否有骨質疏鬆症(第二參數)或其他任意條件之分類條件,本發明並非以此為限制。換句話說,使用者可以選擇欲分析的原因事項(第一參數)與結果事項(第二參數),而藉此探討原因事項與結果事項彼此之間的關聯性。
顯示單元50顯示的整合資訊是能顯示出事件研究資料中符合第一參數與第二參數之間的關聯程度,能供使用者快速理解第一參數與第二參數對應於事件研究資料是否有研究參考價值。
於一些實施例中,使用者亦能透過控制單元30生成包含第三參數或第四參數。透過處理單元40以分析研究而能分別探討第一參數、第二參數、第三參數與第四參數彼此之間的關聯程度。如此能快速分析事件研究資料,以提升研究人員的研究效率。
於一實施例中,事件研究方案包含第一事件研究方案、第二事件研究方案與第三事件研究方案。第一事件研究方案、第二事件研究方案與第三事件研究方案之詳細內容容後詳述。
以下以數個實施例做為本發明之應用說明,但本發明之應用
並非以此些實施例為限制。
於第一實施例中,研究人員欲研究於職業中接觸苯乙烯是否會增加白血病罹病的風險。首先,資料庫60已儲存有:於1990年~2012年之間,受雇於1000家中小型企業的70000位員工為研究對象(欲分析資料)。因此,研究人員(即使用者)即能操作控制單元30而選擇第一事件研究方案,且選擇第一參數為於職業中是否有接觸苯乙烯的員工,選擇第二參數為員工是否具有白血病之患者(即步驟S01)。
表1是第一實施例之第一事件研究方案的一統計表。請參閱表1,處理單元40經由控制單元30接收第一事件研究方案、第一參數與第二參數,能經由傳輸單元10自資料庫60查找並接收到對應第一事件研究方案、第一參數以及第二參數的事件研究資料(即步驟S02)。於本實施例中,處理單元40能自資料庫60中取得職業上有接觸苯乙烯(第一參數)且有白血病(第二參數)者有120人,而職業上有接觸苯乙烯且未有白血病者有29880人。相同地,處理單元40亦能職業上未有接觸苯乙烯且有白血病者有80人,而職業上未有接觸苯乙烯且未有白血病者有39920人。於一實施例中,處理單元40經由傳輸單元10連接至資料庫60時,資料庫60隨
即自欲分析資料中取得相符於第一事件研究方案、第一參數與第二參數的事件研究資料,再將事件研究資料經由傳輸單元10傳輸至處理單元40。
接著,處理單元40能依據統計演算法將前述各事件研究資料、第一參數、第二參數分析計算而能生成統計資訊(即步驟S03)。其中,統計資訊可以為發生率、發生密度、相對風險性、勝算比或其他等具統計意義之參數。本發明並非以此為限制,於一些實施例中,統計資訊可以為發生率、發生密度、相對風險性、勝算比、其他等具統計意義之參數中任意組合。換句話說,統計演算法是相關於發生率演算法、發生密度演算法、相對風險性演算法、勝算比演算法或其他等具統計意義的演算法,本發明非以此為限制。
圖3是本發明一實施例之計算統計資訊之發生率的流程圖。
請參閱圖3,處理單元40根據發生率演算法計算對應於第一參數與第二參數的發生率(即步驟S031)。其中,於一實施例中,發生率演算法可以為(發生研究事件的新案例數/可能發生研究事件的所有案例數)×1000‰以計算出的發生率。
舉例來說,職業上有接觸苯乙烯且具有白血病的發生率為(120/30,000)×1000‰=4‰,其統計資訊為每一千人於職業上有暴露於苯乙烯的人之中,有4人罹患白血病。相同地,職業上沒有接觸苯乙烯且具有白血病的發生率為(80/40,000)×1000‰=2‰,亦即統計資訊為每一千人於職業上沒有暴露於苯乙烯的人之中,有2人罹患白血病。另,全人群之中的白血病發生率則為(200/70,000)×1000‰=2.86‰,即統計資訊為每一千人中有2.86人罹患白血病。
圖4是本發明一實施例之計算統計資訊之發生密度的流程圖。請參閱圖4,於一實施例中,處理單元40還能根據發生密度演算法分析計算得知對應於第一參數與第二參數的發生密度(即步驟S032),其計算得出的統計資訊能得知一段時間(研究期間)內有潛力發生事件但還沒有發生事件的時間人年數總和。亦即能藉此探究研究對象(人群)中的新發事件案例數、人群的大小和發生這些案例數所經歷的時間。於本實施例中,欲分析資料中是儲存有整個世代被追蹤觀察23年(研究調查期間自1990年為起始點,追蹤至2012年),一旦研究個案被診斷出罹患白血病,則視為發生事件,反之至2012年底仍未被偵測出該疾病,則視為未發生事件。
表2是第一實施例之第一事件研究方案的另一統計表。請參閱表2,處理單元40即能依據上表計算得出有暴露於苯乙烯的員工中具有白血病的發生密度為(120/1,000,000)×1000=0.12,即統計資訊是表示暴露於苯乙烯的員工中,每一千人年有0.12人罹患白血病。相同地,無暴露於苯乙烯的員工中具有白血病的發生密度為(80/1,600,000)×1000=0.05,即統計資訊為無暴露於苯乙烯的員工中,每一千人年有0.05人罹患
白血病。另外,全人群的白血病發生密度為(200/2,600,000)×1000=0.08,即統計資訊在每一千人年中有0.08人罹患白血病。
圖5是本發明步驟S03的一實施例的詳細流程圖。請參閱圖5,處理單元40於分析計算以生成統計資訊的步驟中,處理單元40能根據前述各發生率(即步驟S031)分析計算得出發生率比(即步驟S0311)。
亦即暴露於苯乙烯者患有白血病發生率/無暴露於苯乙烯者患有白血病發生率為4‰/2‰=2,其表示為暴露於苯乙烯者罹患白血病的風險比無暴露於苯乙烯者高2倍。換言之,處理單元40能根據發生率得知暴露於苯乙烯者比無暴露於苯乙烯者的罹患白血病的相對風險性(統計資訊)。其中,發生率比是暴露於因子組(群)的事件發生率與未暴露於因子組(群)的事件發生率之對比值。也就是說,於本實施例中,發生率比是暴露於苯乙烯的事件發生率與未暴露於苯乙烯的事件發生率之對比值。
圖6是本發明步驟S03的另一實施例的詳細流程圖。請參閱圖6,於一實施例中,處理單元40分析計算以生成統計資訊的步驟中是能根據前述各發生密度(即步驟S032)分析計算得出發生密度比(即步驟S0321)。亦即暴露於苯乙烯者患有白血病發生密度/無暴露於苯乙烯者患有白血病發生密度為0.12/0.05=2.4,其表示為暴露於苯乙烯者罹患白血病的發生密度比無暴露於苯乙烯者高2.4倍。換言之,暴露於苯乙烯者比無暴露苯乙烯者的罹患白血病的發生密度高2.4倍。其中,發生密度比是暴露於因子組(群)的事件發生密度與未暴露於因子組(群)的事件發生密度之對比值。也就是說,於本實施例中,發生密度比是暴露於苯乙烯的事件發生密度與未暴露於苯乙烯的事件發生密度之對比值。
圖7是本發明步驟S03的又一實施例的詳細流程圖。請參閱圖7,於一實施例中,處理單元40能根據勝算比演算法分析計算得知對應於第一參數與第二參數的勝算比(統計資訊)(即步驟S033),其為處理單元40能根據前述暴露於因子組(群)的事件發生勝算與未暴露於因子組(群)的事件發生勝算之比值。亦即暴露於苯乙烯者患有白血病的發生數除以無發生數與未暴露於苯乙烯者而患有白血病的發生數除以無發生數之間的比值為勝算比((120/29,880)/(80/39,920)=2),其統計資訊表示暴露於苯乙烯的人罹患白血病的勝算是無暴露於苯乙烯者的2倍。也就是說,研究人員得以依據需求而自行選擇統計資訊的種類或其組合而進行分析判斷,本發明非以此為限制。
於一實施例中,請回頭參閱圖2,處理單元40能根據檢定演算法分析計算對應於第一參數與第二參數之間的統計檢定(即步驟S04)。
其中,統計檢定是第一參數與第二參數之間的關聯性與因果關係。也就是說,處理單元40利用檢定演算法分析計算的統計檢定之結果是能推論出於事件研究資料中,第一參數與第二參數之間的關聯性與因果關係。
其中,檢定演算法包含統計假設檢定演算法、單因子/多因子分析演算法、其他相關檢定演算法中之一者或其任意組合,本發明非以此為限制。
於一實施例中,統計假設檢定演算法包含有卡方檢定演算法(Chi-Square test)、費雪精確性檢定演算法(Fisher exact test)、獨立雙樣本T檢定演算法(Two-sample T-test)、威爾考克森序數和檢定演算法(Wilcoxon rank-sum test)中之一者。
其中,卡方檢定演算法是探討兩個類別變項(categorical
variables)間是否有關聯性存在,只檢定兩者的相關性,並不指出彼此間的因果關係。
其中,費雪精確性檢定演算法目的在檢定兩個類別變項之相關性,適用於2×2列聯表檢定相關性的問題。此方法係直接根據資料所賦予的機率理論,考慮所有隨機排列來計算我們觀察到的樣本數在兩個變數獨立無關的情況下出現的機率。
其中,獨立雙樣本T檢定演算法是探討兩組互相獨立的樣本間,連續變項(continuous variables)之母體平均數的差異(是否大於、小於或等於某一特定數值),即比較兩組連續變項的差異。
其中,威爾考克森序數和檢定演算法是當兩組的連續變項分佈不為常態、樣本數過小或有極端值時,則會利用中位數當作兩組的集中趨勢指標,即可以使用威爾考克森序數和檢定比較兩組中位數是否有差異。
表3是第一實施例之對應於第一事件研究方案的描述性與推論性的統計表。請參閱表3,描述性統計以平均數、標準差呈現連續性變項資料之分佈情形,其是以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以t檢定探討有無暴露於苯乙烯的年齡平均數差異,其是以卡方檢定探討有無暴露於苯乙烯與除年齡以外之其他屬性因子之間有無關聯性。因此,由表3可知,年齡、抽菸習慣、飲酒習慣在有無暴露於苯乙烯之間的分佈均具有統計上的顯著差異或顯著有關聯性(亦即當p<0.05時,則相對應的項目則和第一參數是具有顯著的關聯性。其中p值是根據統計假設檢定演算法計算得知)。其中,p-value欄位中的註記a是依據卡方檢定演算法得出。p-value欄位中的註記b是依據t檢定演算法得出。其中,顯著水準為5%。
於一實施例中,單因子/多因子分析演算法包含存活分析
(Survival Analysis)、Cox比例風險模型(Cox Proportional Hazards
Model)、卜瓦松迴歸模型(Poisson Regression Model)、邏輯斯迴歸模型(Logistic Regression Model)、其他相關因子分析演算法中之一者,本發明非以此為限制。
表4為第一實施例之Cox迴歸分析結果。請參閱表4,根據單因子分析演算法結果顯示,抽菸習慣、接觸苯乙烯均與罹患白血病具有統計上相關(p<0.05)。而根據多因子分析演算法結果顯示,只有接觸苯乙烯為罹患白血病之顯著危險因素,兩者具有統計上關聯性(p<0.05),即接觸苯乙烯者的白血病罹病風險是無接觸苯乙烯者的1.263倍,換言之,接觸苯乙烯者罹患白血病的風險增加了26.3%,此風險比的信賴區間上限,顯示增加的風險可能達165.1%。
表5為第一實施例之白血病發生率與年齡的卜瓦松迴歸結果。請參閱表5,其是將年齡區分為49歲以下、50~59歲及60歲以上三個年齡層。其中,基準年齡層(49歲以下)的每人年(每人每年)白血病發生率估計為=e-5.863=0.003。50~59歲、60歲以上各年齡層的每人年白血病發生率分別估計為e-5.863+1.847=0.018、e-5.863+1.325=0.011。而各年齡層相較於基準年齡層(49歲以下)的每人年白血病發生率比值(IRR)分別為6.341、3.762。因此,由表5中能得知60歲以上的年齡層是與白血病的發生率有顯著相關(p<0.05)。
表6是第一實施例之白血病相關危險因子之邏輯斯迴歸結果之統計表。請參閱表6,其單因子分析演算法結果顯示,年齡、抽菸習慣、接觸苯乙烯均與罹患白血病具有統計上相關(p<0.05)。而多因子分析演算法結果顯示,只有接觸苯乙烯為罹患白血病之顯著危險因素,兩者具有統計上關聯性(p<0.05),接觸苯乙烯者的白血病罹病勝算是無接觸苯乙烯者的1.696倍。換言之,接觸苯乙烯者罹患白血病的勝算增加了69.6%,而勝算比的信賴區間上限,顯示增加的勝算可達100.7%。
圖8是本發明步驟S05的一詳細流程圖。表7是本發明第一實施例之整合資訊的示意表。請參閱圖8與表7,處理單元40透過整合演算法以將前述第一參數、第二參數、統計資訊與統計檢定整合為整合資訊(即步驟S051),並且傳送並顯示於顯示單元50。於一實施例中,整合演算法會適當地根據第一參數、第二參數、統計資訊與統計檢定之結果加入文字、數據、表格等,以藉此做為輔助說明。舉例來說,整合資訊會顯示前述的各發生率(暴露者的白血病發生率=4‰,即每千人職業暴露於苯乙烯的人中,有4人罹患白血病、無暴露者的白血病發生率=2‰,即每千人職業無暴露於苯乙烯的人中,有2人罹患白血病、全人群的白血病發生率=2.86‰,即每千人中有2.86人罹患白血病)、各統計資訊(發生率比=2,表示暴露於苯乙烯者得白血病的風險比無暴露者高2倍;暴露者比無暴露者得白血病的風險高2倍、勝算比=2,表示暴露於苯乙烯的人罹患白血
病的勝算是無暴露者的2倍。)與各統計檢定(年齡、抽菸習慣、飲酒習慣在有無暴露於苯乙烯之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)、單因子/多因子分析(存活分析、卜瓦松迴歸模型、邏輯斯迴歸模型))。因此透過整合演算法能讓整合資訊藉以搭配對應於第一參數與第二參數的表格資訊或文字說明,能讓研究人員快速理解,更可讓不具有相關專業知識的一般民眾能輕易理解研究結果。
於第二實施例中,與第一實施例相似,其是研究人員欲利用第二事件研究方案研究於職業中接觸苯乙烯(第一參數)是否會增加白血病罹病(第二參數)的風險。是以,資料庫60已儲存有:於1990年~2012年之間,受雇於1000家中小型企業的70000位員工為研究對象(欲分析資料)。第一參數為於職業中是否有接觸苯乙烯的員工(即步驟S01),第二參數選擇為員工是否具有白血病之患者(即步驟S01),並且選擇第二事件研究方案。其中,於本實施例中,處理單元40自資料庫60取得的事件研究資料分為第一事件研究資料與第二事件研究資料(即步驟S02),第
一事件研究資料是選擇自1990年~2012年間經病理學檢查證實為新診斷白血病病患之受雇員工200人作為病例研究組,以及作為對照控制組的則選自1990年~2012年同期間同資料庫非白血病病患之受雇員工500人。以及第二事件研究資料是選自1990年~2012年間經病理學檢查證實為新診斷白血病病患之受雇員工200人為病例研究組。以1:1配對選擇與病例個案同性別、年齡相差不超過2歲,並排除有其他惡性腫瘤者的非病例個案之受雇員工200人為對照控制組,共200對。是以,第一事件研究方案於各事件研究資料的內容是與第二事件研究方案中取得的各事件研究資料的內容是為不同。
表8是本發明中第二實施例之第二事件研究方案中關於第一事件研究資料的統計表。表9是本發明中第二實施例之第二事件研究方案的第二事件研究資料的統計表。請參閱表8與表9,處理單元40能針對第一資料與第二資料能分別根據統計演算法計算其統計資訊(即步驟S03)。
於本實施例中,處理單元40能分別以暴露演算法計算第一事件研究資料與第二事件研究資料的暴露率。
因此,由表8能得知,第一事件研究資料的病例研究組的暴
露率=(120/200)×100%=60%,即200位白血病病患中,有120人暴露於苯乙烯下,暴露率為百分之60。而第一事件研究資料的對照控制組的暴露率=(100/500)×100%為20%,即500位無白血病的人中,有100人暴露於苯乙烯下,暴露率為百分之20。
因此,由表9能得知,第二事件研究資料的病例研究組的暴露率=(130/200)×100%=65%,即200位白血病病患中,有130人暴露於苯乙烯下,暴露率為百分之65。第二事件研究資料的對照控制組的暴露率=(80/200)×100%=40%,即200位無白血病的人中,有80人暴露於苯乙烯下,暴露率為百分之40。
接著,處理單元40能繼續根據第二事件研究方案、第一事件研究資料、第二事件研究資料、第一參數與第二參數以分析且生成統計資訊(即步驟S03)。舉例來說,第一事件研究資料中的勝算比(統計資訊)=(120*400)/(100*80)=6,表示白血病暴露勝算是無白血病的6倍;有白血病比無白血病的人暴露於苯乙烯勝算高6倍。而第二事件研究資料中的勝算比(統計資訊)=100/50=2,表示白血病暴露勝算是無白血病的2
倍;白血病比無白血病的人暴露於苯乙烯勝算高2倍。其中,統計資訊均雷同於第一實施例中所述而生成,於此不再贅述。
表10是第二實施例之對應第二事件研究方案中的一描述性與推論性的統計表。處理單元40根據檢定演算法分別分析第一事件研究資料與第二事件研究資料中分別對應於第二參數的統計檢定。也就是說,處理單元40利用檢定演算法分析計算的統計檢定之結果,其是能推論出第一事件研究資料與第二事件研究資料對應於第二參數之間的關聯性。
請參閱表10,描述性統計是以平均數、標準差呈現連續性變項資料之分佈情形,其是以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以t檢定探討病例研究組及對照控制組的年齡平均數差異,並以卡方檢定演算法探討有無白血病與除年齡外之其他屬性因子之間有無關聯性。因此,由表10能得知年齡、抽菸習慣在有無白血病之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。其中,p-value欄位中的註記a是依據卡方檢定演算法得出。p-value欄位中的註記b是依
據t檢定演算法得出。其中,顯著水準為5%。
表11是第二實施例之對應第二事件研究方案的另一描述性與推論性的統計表。請參閱表11,描述性統計是以平均數、標準差呈現連續性變項資料之分佈情形,其以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以t檢定探討病例研究組及對照控制組的年齡平均數差異,並以卡方檢定演算法探討有無白血病與除年齡外之其他屬性因子之間有無關聯性。因此,由表11能得知年齡、抽菸習慣在有無白血病之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。其中,p-value欄位中的註記a是依據卡方檢定演算法得出。p-value欄位中的註記b是依據t檢定演算法得出。其中,顯著水準為5%。
接著,處理單元40亦能根據單因子/多因子分析演算法進行分析演算,能藉此理解在統計上的關聯性。
舉例來說,第一事件研究資料的單因子分析演算法結果顯示,年齡、抽菸習慣、接觸苯乙烯均與罹患白血病具有統計上相關(p<
0.05)。而多因子分析演算法結果顯示,年齡、接觸苯乙烯與罹患白血病具有統計上關聯性(p<0.05)。因此,於第一事件研究資料中,年齡每增加1歲,罹患白血病的勝算會增加67.5%,接觸苯乙烯者的白血病罹病勝算是無接觸苯乙烯者的1.364倍。換言之,接觸苯乙烯者罹患白血病的勝算增加了36.4%,此勝算比的信賴區間上限,顯示增加的勝算可能多達116.3%。
另,於第二事件研究資料的單因子分析演算法結果顯示,性別、抽菸習慣、接觸苯乙烯均與罹患白血病具有統計上相關(p<0.05)。
而多因子分析演算法結果顯示,只有接觸苯乙烯與罹患白血病具有統計上關聯性(p<0.05)。因此,於第二事件研究資料中,接觸苯乙烯者的白血病罹病勝算是無接觸苯乙烯者的2.764倍。換言之,接觸苯乙烯者罹患白血病的勝算增加了176.4%,此勝算比的信賴區間上限,顯示增加的勝算可能多達200.6%。
於此,處理單元40透過整合演算法以將前述第一參數、第二參數、各統計資訊與各統計檢定整合為整合資訊(與第一實施例的表7相似,其顯示結果能視實際需求顯示),並且傳送並顯示於顯示單元50。即整合資訊會顯示前述的各統計資訊與各統計檢定,並且搭配對應於第一參數與第二參數的表格資訊或文字說明,能讓研究人員快速理解,更可讓不具有相關專業知識的一般民眾能輕易理解研究結果。
於第三實施例中,與第一、二實施例相似,研究人員欲利用第三事件研究方案研究於職業中接觸苯乙烯(第一參數)是否會增加白血病罹病(第二參數)的風險(即步驟S01)。第三事件研究資料是選自1990
年~2012年間經病理學檢查證實為新診斷白血病病患之受雇員工200人為病例研究組(即步驟S02)。對照控制組則選自同期間同資料庫非白血病病患之受雇員工500人(即步驟S02)。第四事件研究資料是選自某職業健康調查資料庫中自1990年~2012年間經病理學檢查證實為新診斷白血病病患之受雇員工200人為病例研究組(即步驟S02)。以1:1配對選擇與病例個案同性別、年齡相差不超過2歲,並排除有其他惡性腫瘤者的非病例個案之受雇員工200人為對照控制組,共200對(即步驟S02)。是以,第三事件研究方案的第三事件研究資料與第四事件研究資料是不同於第一事件研究方案的各事件研究資料與第二事件研究方案的各事件研究資料。
表12為第三實施例之第三事件研究方案中關於第三事件研究資料的統計表。請參閱表12,第三事件研究資料中是觀察23年(研究調查期間自1990年為起始點,追蹤至2012年)的過程中,一旦研究個案被診斷出罹患白血病,則視為發生事件,反之至2012年底仍未被偵測出該疾病,則視為未發生事件。
根據於第三事件研究資料,處理單元40能依據統計演算法
(如發生率演算法)計算得出白血病發生率=(200/700)×1000‰=
285.71‰(即步驟S03),即表示每一千人中有285.71人罹患白血病。另,於一實施例中,處理單元40亦能依據統計演算法(如發生密度演算法)計算白血病發生密度=(200/42,000)×1000=4.76(即步驟S032),即每一千人中有4.76人罹患白血病。
表13為第三實施例之第三事件研究方案中關於第四事件研究資料的統計表。相同地,處理單元40亦能依據發生率演算法計算出白血病發生率=(200/400)×1000‰=500‰(即步驟S031),即每一千人中有500人罹患白血病。
換言之,處理單元40能分別根據統計演算法以分別分析計算第三事件研究資料與第四事件研究資料的統計資訊(即步驟S03)。舉例來說,於本實施例中,處理單元40還可以根據勝算比演算法計算第三事件研究資料與第四事件研究資料的勝算比。如第三事件研究資料的勝算比可以為(130*280)/(220*70)=2.36,其表示白血病暴露勝算是無白血病的2.36倍,換句話說,有白血病比無白血病的人暴露於苯乙烯勝算高2.36
倍。另,於第四事件研究資料的勝算比可以為110/30=3.67,其表示白血病暴露勝算是無白血病的3.67倍,換句話說,有白血病比無白血病的人暴露於苯乙烯勝算高3.67倍。其中,其他類型(如相對風險性或其他)的統計資訊於此不再贅述。
表14為第三事件研究資料的另一統計表。表15為第四事件研究資料的另一統計表。請參閱表14至表15,於本實施例中,處理單元40
能根據檢定演算法分析計算第三事件研究資料與第四事件研究資料分別對應於第二參數之間的統計檢定(即步驟S04)。其中,p-value欄位中的註記a是依據卡方檢定演算法得出。p-value欄位中的註記b是依據t檢定演算法得出。其中,顯著水準為5%。
舉例來說,表14是一種描述性與推論性統計,描述性統計是以平均數、標準差呈現連續性變項資料之分佈情形,其以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以t檢定探討病例研究組及對照控制組的年齡平均數差異,並能以卡方檢定探討有無白血病與除年齡外之其他屬性因子之間有無關聯性。是以,根據表14顯示結果發現,年齡、抽菸習慣在有無白血病之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。另,表15亦是一種描述性與推論性統計,根據表15顯示結果能發現,年齡、抽菸習慣、飲酒習慣在有無白血病之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。
表16是第三事件研究資料的邏輯斯迴歸結果之統計表。表17是第四事件研究資料的條件式邏輯斯迴歸結果之統計表。於一實施例
中,處理單元40亦能根據統計假設檢定演算法、單因子/多因子分析演算法或其他檢定演算法以得出對應的結果。舉例來說,於第三事件研究資料中,請參閱表16,以邏輯斯迴歸分析法探討單一因子及多個因子與白血病關聯之結果,就單因子分析結果顯示,年齡、抽菸習慣、接觸苯乙烯均與罹患白血病具有統計上相關(p<0.05)。而多因子分析結果顯示,年齡、接觸苯乙烯與罹患白血病具有統計上關聯性(p<0.05)。年齡每增加1歲,罹患白血病的勝算會增加26.7%;接觸苯乙烯者的白血病罹病勝算是無接觸苯乙烯者的1.888倍。換言之,接觸苯乙烯者罹患白血病的勝算增加了88.8%,此勝算比的信賴區間上限,顯示增加的勝算可能多達100.1%。相同的,於第四事件研究資料中,請參閱表17,以條件式邏輯斯迴歸分析法探討單一因子及多個因子與白血病關聯之結果,就單因子分析結果顯示,年齡、家族病史、接觸苯乙烯均與罹患白血病具有統計上相關(p<0.05)。
而多因子分析結果顯示,只有接觸苯乙烯與罹患白血病具有統計上關聯性(p<0.05),接觸苯乙烯者的白血病罹病勝算是無接觸苯乙烯者的1.812倍。換言之,接觸苯乙烯者罹患白血病的勝算增加了81.2%,此勝算比的信賴區間上限,顯示增加的勝算可能多達110.3%。
最後,處理模組40再根據前述各分析計算結果,透過整合演算法以將前述第一參數、第二參數、統計資訊與統計檢定整合為整合資訊(與第一實施例的表7相似,其顯示結果視實際需求顯示),並且傳送並顯示於顯示單元50。
於第四實施例中,研究人員欲研究是否居住於高溫地區(第一參數)與是否有購買刨冰機(第二參數)的關聯性。首先,資料庫60
儲存有於2010年1月~2014年12月之間的會員為研究觀察對象,扣除非研究期間內曾購買刨冰機的會員人數後,實際研究對象為5,000位。因此,研究人員能操作控制單元30而選擇第一事件研究方案,並且選擇第一參數為是否居住於高溫地區的人,選擇第二參數為是否有購買刨冰機的人(步驟S01)。
表18是第四實施例之第一事件研究方案的一統計表。於此,處理單元40能自資料庫60查找並接收對應於第一事件研究方案、第一參數與第二參數的各事件研究資料(如表18所示)(步驟S02)。接著,處理單元40能根據統計演算法計算以生成統計資訊(步驟S03)。例如,處理單元40能依據發生率演算法計算各事件研究資料的發生率。如,居住於高溫地區的刨冰機購買發生率=(200/1,000)×1000‰=200‰,即每千人暴露居住於高溫地區(日均溫28℃)者中,有200人會購買刨冰機。無居住於高溫地區者的刨冰機購買發生率=(600/4,000)×1000‰=150‰,即每千人無暴露居住於高溫地區(日均溫<28℃)者中,有150人會購買刨冰機。全人群的刨冰機購買發生率=(800/5,000)×1000‰=160‰,即每千人中有160人會購買刨冰機。
於一些實施例中,處理單元40亦能依據相對風險性演算法、勝算比演算法或其他統計演算法計算以生成統計資訊。舉例來說,相對風險性演算法是居住於高溫地區者的刨冰機購買發生率/無居住於高溫地區者的刨冰機購買發生率=200‰/150‰=1.33,表示暴露居住於高溫地區者會購買刨冰機的可能性比無暴露者高1.33倍;暴露者比無暴露者會購買刨冰機的可能性高1.33倍。另,處理單元40能利用勝算比演算法計算出勝算比=(200/800)/(600/3,400)=1.42,表示暴露居住於高溫地區者會購買刨冰機的勝算是無暴露者的1.42倍。
表19是第四實施例之對應於第一事件研究方案的描述性與推論性統計表。其中,p-value是依據卡方檢定演算法得知。描述性統計以個案數、百分比呈現類別性變項資料之分佈情形;推論性統計以卡方檢定探討有無暴露居住於高溫地區與屬性因子之間有無關聯性。
接著,處理單元40即能依據檢定演算法分析計算,以生成統
計檢定(步驟S04)。舉例來說,請參閱表19,處理單元40經由卡方檢定演算法能得出各p-value。其能得知性別、年齡、居住地區與有無暴露居住於高溫地區皆在統計上有顯著關聯性(p<0.05),即有無暴露居住於高溫地區在性別、年齡、居住地區的分佈均具有統計上的顯著差異。
表20是第四實施例的Cox迴歸分析結果統計表。請參閱表20,其能得知單因子分析結果顯示,居住地區、居住地區日均溫與購買刨冰機具有統計上相關(p<0.05)。而多因子分析結果顯示,只有居住地區日均溫為購買刨冰機之顯著影響因素,兩者具有統計上關聯性(p<
0.05),居住地區日均溫每增加1℃會增加刨冰機購買機率(可能性)101.3%。
表21是第四實施例中刨冰機購買發生率與年齡的卜瓦松回歸結果之統計表。請參閱表21,處理單元40進一步將年齡區分為29歲以下、30~49歲及50歲以上三個年齡層。基準年齡層(29歲以下)的刨冰機購買發生率估計為=e-5.863=0.003。30~49歲、50歲以上各年齡層的刨冰機購買發生率分別估計為e-5.863+1.501=0.013、e-5.863+1.324=0.011。而各年齡層相較於基準年齡層(29歲以下)的刨冰機購買發生率比值(IRR)分別為4.486、3.758,因此,由表21中的p-value來看,年齡層與刨冰機購買發生率並無顯著相關。
表22是第四實施例之刨冰機相關購買因素之邏輯斯迴歸結果之統計表。是以,由表22能得知單因子分析結果顯示,居住地區日均溫與購買刨冰機具有統計上相關(p<0.05)。而多因子分析結果顯示,居住地區日均溫為購買刨冰機之顯著影響因素,兩者具有統計上關聯性(p<0.05),居住地區日均溫每增加1℃會增加刨冰機購買勝算105.2%。
接著,處理單元40依據整合演算法將前述第一參數、第二參數、各統計資訊與統計檢定整合為整合資訊(步驟S05)。並將整合資訊傳送至顯示單元50,以供顯示單元50顯示整合資訊。讓研究人員能快速理解第一參數與第二參數之間的關聯性,更能讓一般民眾了解其研究結果所代表的涵義。
表23是第五實施例之第二事件研究方案中關於第五事件研究資料之統計表。表24是第五實施例之第二事件研究方案中關於第六事件
研究資料統計表。於第五實施例中,與第二實施例相同,研究人員能操作控制單元30而選擇第二事件研究方案,並且選擇第一參數為是否居住於高溫地區的人,選擇第二參數為是否購買刨冰機的人(步驟S01)。其中,第五事件研究資料為選自某網路賣場中於2010年1月~2014年12月之間有購買刨冰機的會員800人為案例研究組。對照控制組則選自同網路賣場同期間無購買刨冰機的會員2,000人。第六事件研究資料為選自某網路賣場中於2010年1月~2014年12月之間有購買刨冰機的會員800人為案例研究組。以1:1配對選擇與案例個案同性別、年齡相差不超過2歲的非案例個案會員800人為對照控制組,共800對(步驟S02)。
接著,處理單元40即能藉此依據暴露演算法(統計演算法)
計算第五事件研究資料的暴露率(統計資訊)與第六事件研究資料的暴露率(統計資訊)(步驟S03)。如,第五事件研究資料中的案例研究組的暴露率=(440/800)×100%=55%,即800位有購買刨冰機的會員中,有440人暴露居住於高溫地區下,暴露率為百分之55。而其對照控制組的暴露率=(1,000/2,000)×100%=50%,即2,000位無購買刨冰機的會員中,有1,000人暴露居住於高溫地區下,暴露率為百分之50。如,第六事件研究資料中的案例研究組的暴露率=(450/800)×100%=56.25%,即800位有購買刨冰機的會員中,有450人暴露居住於高溫地區下,暴露率為百分之56.25。而其照控制組的暴露率=(330/800)×100%=41.25%,即800位無購買刨冰機的會員中,有330人暴露居住於高溫地區下,暴露率為百分之41.25。
另外,處理單元40亦能使用其他種類的統計演算法分別計算其統計資訊(步驟S03)。如第五事件研究資料中的勝算比=(440*1000)/(1000*360)=1.2,表示購買刨冰機暴露勝算是無購買刨冰機的1.2倍,而有購買刨冰機比無購買刨冰機的人暴露居住於高溫地區勝算高1.2倍。第六事件研究資料中的勝算比=270/150=1.8,表示購買刨冰機暴露勝算是無購買刨冰機的1.8倍,而有購買刨冰機比無購買刨冰機的人暴露居住於高溫地區勝算高1.8倍。其餘統計資訊的演算方式於此不再贅述。
表25是第五實施例之對應第二事件研究方案中的一描述性與推論性統計表。表26是第五實施例之對應第二事件研究方案中的另一描述性與推論性統計表。接著,處理單元40根據檢定演算法分別分析第五事
件研究資料、第六事件研究資料、第二參數而得知統計檢定(步驟S04)。
舉例來說,表25中的描述性統計是以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以卡方檢定探討有無購買刨冰機與屬性因子之間有無關聯性。由表25的顯示結果能發現,年齡、居住地區在有無購買刨冰機之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。表26中的描述性統計是以個案數、百分比呈現類別性變項資料之分佈情形。
推論性統計是以卡方檢定探討有無購買刨冰機與屬性因子之間有無關聯性。由表26的顯示結果能發現,年齡、居住地區在有無購買刨冰機之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。
表27是第五實施例中的第五事件研究資料的邏輯斯迴歸分析統計表。表28是第五實施例中的第六事件研究資料的條件式邏輯斯迴歸分析統計表。由表27能得知,就單因子分析結果顯示,居住地區、居住地區日均溫與購買刨冰機具有統計上相關(p<0.05)。而多因子分析結果顯示,只有居住地區日均溫與購買刨冰機具有統計上關聯性(p<0.05),居住地區日均溫每增加1℃會增加刨冰機購買勝算222.3%。而由表27能得知,就單因子分析結果顯示,居住地區、居住地區日均溫與購買刨冰機具有統計上相關(p<0.05)。而多因子分析結果顯示,只有居住地區日均溫與購買刨冰機具有統計上關聯性(p<0.05),居住地區日均溫每增加1℃會增加刨冰機購買勝算198.6%。
接著,處理單元40即能利用整合演算法整合上述取得的第五事件研究資料、第六事件研究資料、第一參數、第二參數、統計資訊與統計檢定,以生成整合資訊(步驟S05),以供顯示單元50顯示整合資訊。
表29是第六實施例中之第三事件研究方案中關於第七事件
研究資料之統計表。表30是第六實施例中之第三事件研究方案中關於第八事件研究資料統計表。於第六實施例中,與第三實施例相同,研究人員能操作控制單元30而選擇第三事件研究方案,並且選擇第一參數為是否居住於高溫地區的人,選擇第二參數為是否購買刨冰機的人(步驟S01)。其中,資料庫60儲存有某網路賣場中,於2010年1月~2014年12月之間的會員(扣除非研究期間內曾購買刨冰機的會員數)為研究對象。是以,第七事件研究資料為選自某網路賣場中於2010年1月~2014年12月之間有購買刨冰機的會員800人為案例研究組。對照控制組則選自同網路賣場同期間無購買刨冰機的會員2,000人。第八事件研究資料為選自某網路賣場中於2010年1月~2014年12月之間有購買刨冰機的會員800人為案例研究組。以1:1配對選擇與案例個案同性別、年齡相差不超過2歲的非案例個案會員800人為對照控制組,共800對(如步驟S02)。
接著,處理單元40能依據統計演算法計算第七事件研究資料與第八事件研究資料的統計資訊(如步驟S03)。舉例來說,處理單元40能依據發生率演算法計算第七事件研究資料的刨冰機的購買發生率,其發生率=(800/2,800)×1000‰=285.7‰,即每千人中有285.7人會購買刨冰機。相同地,第八事件研究資料的刨冰機購買發生率=(800/1,600)×1000‰=500‰,即每千人中有500人會購買刨冰機。
於一些實施例中,處理單元40亦能根據勝算比演算法計算第七事件研究資料與第八事件研究資料,以得出勝算比之統計資訊。舉例來說,處理單元40依據勝算比演算法計算第七事件研究資料時,其勝算比=(480*1,100)/(900*320)=1.83,表示購買刨冰機暴露勝算是無購買刨冰機的1.83倍;有購買刨冰機比無購買刨冰機的人暴露居住於高溫地區勝算高1.83倍。相同地,第八事件研究資料的勝算比=300/100=3,表示購買刨冰機暴露勝算是無購買刨冰機的3倍;有購買刨冰機比無購買刨冰機的人暴露居住於高溫地區勝算高3倍。於一些實施例中,處理單元40還能根據其他種類的統計演算法對第七事件研究資料或第八事件研究資料進行演算,以生成對應的統計資訊,本發明非以此為限制。
表31是第六實施例中的第七事件研究資料的統計檢定表。表32是第六實施例中的第八事件研究資料的統計檢定表。處理單元40能根據檢定演算法計算第七事件研究資料與第八事件研究資料而生成統計檢定(如步驟S04)。舉例來說,表31是第七事件研究資料經卡方檢定演算法演算之後的統計表,其包含描述性與推論性統計。描述性統計是以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計是以卡方檢定探討有無購買刨冰機與屬性因子之間有無關聯性。結果發現,年齡、居住地區在有無購買刨冰機之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。相同地,表32亦是第八事件研究資料經卡方檢定演算法演算之後的統計表,其包含描述性與推論性統計,描述性統計以個案數、百分比呈現類別性變項資料之分佈情形。推論性統計,以卡方檢定探討有無購買刨冰機與屬性因子之間有無關聯性。結果發現,年齡、居住地區在有無購買刨冰機之間的分佈均具有統計上的顯著差異或顯著有關聯性(p<0.05)。
表32
另於一些實施例中,處理單元40能根據邏輯斯迴歸分析演算法(檢定演算法)分析演算第七事件研究資料,以及處理單元40能根據條件式邏輯斯迴歸分析演算法(檢定演算法)分析第八事件研究資料,以進一步得到其對應的統計檢定。其中,表33是第六實施例中第七事件研究資料的另一統計檢定表。表34是第六實施例中第八事件研究資料的另一統計檢定表。
請參閱表33與表34,處理單元40是根據邏輯斯迴歸分析演算法分析購買刨冰機相關因子的統計結果表。由表33的單因子分析結果能顯示居住地區日均溫與購買刨冰機亦具有統計上相關(p<0.05)。而多因子分析結果顯示,居住地區日均溫與購買刨冰機亦具有統計上關聯性(p<0.05),居住地區日均溫每增加1℃會增加刨冰機購買勝算276.4%。另,處理單元40是根據條件式邏輯斯迴歸分析演算法分析購買刨冰機相關因子
的統計結果表。由表34能得知就單因子分析結果顯示,性別、居住地區、居住地區日均溫均與購買刨冰機具有統計上相關(p<0.05)。而多因子分析結果顯示,只有居住地區日均溫與購買刨冰機具有統計上關聯性(p<0.05),居住地區日均溫每增加1℃會增加刨冰機購買勝算199.6%。其他種類之檢定演算法於此不再贅述。
接著,處理單元40即能依據整合演算法將前述之第一參數、第二參數、各事件研究資料、各統計資訊與各統計檢定整合為整合資訊(如步驟S05),再傳送整合資訊至顯示單元50,以供顯示單元50顯示(如步驟S06)。其中,透過整合演算法整合為整合資訊之技術特徵與前述各實施例雷同,於此不再贅述。其中,顯示單元50顯示的整合資訊之技術特徵與前述各實施例雷同,於此不再贅述。
其中,第一參數與第二參數的選擇於本發明中並非為限制,除前述各實施例之外,亦可選擇第一參數為於職業中是否有接觸苯乙烯者,而第二參數為是否購買刨冰機的人、第一參數為是否居住於高溫地區,而第二參數為是否得到白血病者。換句話說,本發明能根據使用者需求隨意選擇第一參數與第二參數。
依據上述各實施例,處理單元40能依據研究人員(或使用者)選擇事件研究方案與欲研究的事件(即第一參數與第二參數),藉此能快速地透過整合演算法將多種研究結論整合為整合資訊。供研究人員(或使用者)能透過顯示單元50快速且直覺地理解事件研究資料對應於第一參數與第二參數之間的關聯程度,更能探求傳統上認為毫無相關的第一參數與第二參數之間是否真的毫無關聯。因此能藉此快速研究分析,以提升研究
效率,並且能快速地衍生應用規畫,另外,本發明更能提供非專業領域的使用者能快速理解研究議題的結果,能讓非專業領域的人員能理解專業領域的研究結果。
Claims (18)
- 一種資料分析系統,包含:一傳輸單元,接收至少一事件研究資料,於該至少一事件研究資料為二者以上時,該等事件研究資料分屬相異的內容;一儲存單元,儲存各該事件研究資料;一控制單元,依據一操作指令生成一事件研究方案、一第一參數與一第二參數,該第一參數為一欲分析的事件原因事項,該第二參數為一事件結果事項;一處理單元,連接該傳輸單元、該儲存單元與該控制單元,該處理單元根據該事件研究方案、該第一參數與該第二參數經由該傳輸單元取得各該事件研究資料,該處理單元依據該事件研究方案使用一統計演算法分析該第一參數、該第二參數與各該事件研究資料而生成一統計資訊,該處理單元還根據一檢定演算法計算相關於該第一參數、該第二參數與各該事件研究資料以生成一統計檢定,該統計檢定包含該第一參數與該第二參數之間的一關聯性與一因果關係;以及一顯示單元,連接該處理單元,該顯示單元顯示一整合資訊,該整合資訊係由該處理單元根據一整合演算法整合該第一參數、該第二參數、該統計資訊與該統計檢定而成。
- 如請求項1所述的資料分析系統,更包含一資料庫,與該傳輸單元連接,該資料庫儲存一欲分析資料,該處理單元根據該事件研究方案、該第一參數與該第二參數經由該傳輸單元自該欲分析資料中取得該事件研究資料。
- 如請求項1所述的資料分析系統,其中該統計資訊為一發生率、一發生密度比、一相對風險性、一勝算比中之一者或其任意結合。
- 如請求項3所述的資料分析系統,其中該處理單元根據一發生率演算法計算相關於各該事件研究資料的至少一發生率,並根據各該發生率分析計算出一發生率比。
- 如請求項4所述的資料分析系統,其中該事件研究方案包含一第一事件研究方案、一第二事件研究方案與一第三事件研究方案;其中,該控制單元選擇該第一事件研究方案時,該處理單元計算相關於該第一參數、該第二參數與各該事件研究資料的該統計資訊,該統計資訊包含至少一發生率;其中,該控制單元選擇該第二事件研究方案時,該處理單元分析計算相關於該第一參數、該第二參數與各該事件研究資料以生成該統計資訊;其中,該控制單元選擇該第三事件研究方案時,該處理單元計算相關於該第一參數、該第二參數與各該事件研究資料的該統計資訊,該統計資訊包含各該發生率;其中,該統計資訊為一相對風險性、一勝算比中之一者或其結合。
- 如請求項5所述的資料分析系統,其中該控制單元選擇該第一事件研究方案時,該統計資訊為相關於各該發生率、該相對風險性與該勝算比中之一者或其任意組合,該控制單元選擇該第二事件研究方案時,該統計資訊為相關於該勝算比,該控制單元選擇該第三事件研究方案時,該統計資訊為相關於各該發生率、該勝算比之一者或其組合。
- 如請求項3所述的資料分析系統,其中該處理單元更依據一發生密度演算法分析計算對應於該第一參數與該第二參數以生成至少一發生密度,且該處理單元依據各該發生密度分析計算得出至少一發生密度比。
- 如請求項1所述的資料分析系統,其中該檢定演算法包含一統計假設檢定演算法、一單因子/多因子分析演算法中之一者或其組合。
- 如請求項8所述的資料分析系統,其中該統計假設檢定演算法包含一卡方檢定、一費雪精確性檢定、一獨立雙樣本T檢定、威爾考克森排序和檢定演算法中之一者或其任意組合。
- 如請求項8所述的資料分析系統,其中該單因子/多因子分析演算法包含一存活分析演算法、一Cox比例風險模型演算法、一卜瓦松迴歸模型演算法、一邏輯斯迴歸模型演算法中之一者或其任意組合。
- 一種資料分析方法,包含:以一控制單元根據一操作指令生成一第一參數、一第二參數與一事件研究方案,其中,該第一參數為一欲分析的事件原因事項,該第二參數為一事件結果事項;自一欲分析資料中取得對應該第一參數與該第二參數的至少一事件研究資料,該至少一事件研究資料分屬相異的內容;以一傳輸單元接收各該事件研究資料;以一處理單元依據一統計演算法分析該第一參數、該第二參數與各該事件研究資料生成一統計資訊; 以該處理單元根據一檢定演算法計算相關於該第一參數、該第二參數與各該事件研究資料以生成一統計檢定,該統計檢定包含該第一參數與該第二參數之間的一關聯性與一因果關係;以該處理單元根據一整合演算法整合該第一參數、該第二參數、該統計資訊與該統計檢定為一整合資訊;以及於一顯示單元顯示該整合資訊。
- 如請求項11所述之資料分析方法,其中該統計演算法為一發生率演算法,該處理單元根據該發生率演算法計算相關於各該事件研究資料對應於該第一參數與該第二參數的至少一發生率;以及該處理單元以各該發生率分析計算一發生率比。
- 如請求項12所述之資料分析方法,其中該事件研究方案包含一第一事件研究方案、一第二事件研究方案與一第三事件研究方案;其中,以該控制單元選擇該第一事件研究方案時;以該處理單元計算相關於該第一參數、該第二參數與各該事件研究資料的該統計資訊,該統計資訊包含至少一發生率;其中,以該控制單元選擇該第二事件研究方案時;以該處理單元計算相關於該第一參數、該第二參數與各該事件研究資料的該統計資訊;其中,以該控制單元選擇該第三事件研究方案時;以該處理單元計算相關於該第一參數、該第二參數與各該事件研究資料的該統計資訊,該統計資訊包含各該發生率;其中,該統計資訊為一相對風險性、一勝算比中之一者或其結合。
- 如請求項13所述之資料分析方法,其中該控制單元選擇該第一事件研究方案時,該統計資訊為相關於各該發生率、該相對風險性與該勝算比中之一者或其任意組合,該控制單元選擇該第二事件研究方案時,該統計資訊為相關於該勝算比,該控制單元選擇該第三事件研究方案時,該統計資訊為相關於各該發生率與該勝算比中之一者或其結合。
- 如請求項11所述之資料分析方法,更包含:以該處理單元依據一發生密度演算法分析計算對應於該第一參數與該第二參數的至少一發生密度;以及以該處理單元依據各該發生密度分析計算得出至少一發生密度比。
- 如請求項11所述之資料分析方法,其中該檢定演算法包含一統計假設檢定演算法、一單因子/多因子分析演算法中之一者或其組合。
- 如請求項16所述之資料分析方法,其中該統計假設檢定演算法包含一卡方檢定、一費雪精確性檢定、一獨立雙樣本T檢定、威爾考克森排序和檢定演算法中之一者或其任意組合。
- 如請求項16所述之資料分析方法,其中該單因子/多因子分析演算法包含一存活分析演算法、一Cox比例風險模型演算法、一卜瓦松迴歸模型演算法、一邏輯斯迴歸模型演算法中之一者或其任意組合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106114896A TWI649660B (zh) | 2017-05-05 | 2017-05-05 | 資料分析系統及其分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106114896A TWI649660B (zh) | 2017-05-05 | 2017-05-05 | 資料分析系統及其分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201843602A TW201843602A (zh) | 2018-12-16 |
TWI649660B true TWI649660B (zh) | 2019-02-01 |
Family
ID=65431121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106114896A TWI649660B (zh) | 2017-05-05 | 2017-05-05 | 資料分析系統及其分析方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI649660B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538934B2 (en) * | 2011-10-28 | 2013-09-17 | Microsoft Corporation | Contextual gravitation of datasets and data services |
US20140006338A1 (en) * | 2012-06-29 | 2014-01-02 | Applied Materials, Inc. | Big data analytics system |
TWI560635B (en) * | 2013-03-15 | 2016-12-01 | Univ Nat Cheng Kung | System and method for rating and selecting models |
TW201706884A (zh) * | 2015-03-31 | 2017-02-16 | Ubic股份有限公司 | 資料分析系統、資料分析方法、資料分析程式及記錄媒體 |
-
2017
- 2017-05-05 TW TW106114896A patent/TWI649660B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538934B2 (en) * | 2011-10-28 | 2013-09-17 | Microsoft Corporation | Contextual gravitation of datasets and data services |
US20140006338A1 (en) * | 2012-06-29 | 2014-01-02 | Applied Materials, Inc. | Big data analytics system |
TWI560635B (en) * | 2013-03-15 | 2016-12-01 | Univ Nat Cheng Kung | System and method for rating and selecting models |
TW201706884A (zh) * | 2015-03-31 | 2017-02-16 | Ubic股份有限公司 | 資料分析系統、資料分析方法、資料分析程式及記錄媒體 |
Also Published As
Publication number | Publication date |
---|---|
TW201843602A (zh) | 2018-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Norén et al. | Shrinkage observed-to-expected ratios for robust and transparent large-scale pattern discovery | |
Tosteson et al. | A general regression methodology for ROC curve estimation | |
DiBardino et al. | Effect of sex and race on outcome in patients undergoing congenital heart surgery: an analysis of the society of thoracic surgeons congenital heart surgery database | |
Anderson et al. | Synthetic data generation for the internet of things | |
Baby et al. | Statistical analysis and predicting kidney diseases using machine learning algorithms | |
Kanis et al. | A cautionary note about the use of estimated homicide data for cross-national research | |
US11450434B2 (en) | Implementation of machine-learning based query construction and pattern identification through visualization in user interfaces | |
US20190065550A1 (en) | Query optimizer for combined structured and unstructured data records | |
Toljander et al. | Public health burden due to infections by verocytotoxin-producing Escherichia coli (VTEC) and Campylobacter spp. as estimated by cost of illness and different approaches to model disability-adjusted life years | |
Chen et al. | The current landscape in biostatistics of real-world data and evidence: clinical study design and analysis | |
Bodnar et al. | On the ground validation of online diagnosis with Twitter and medical records | |
Rowlingson et al. | Mapping English GP prescribing data: a tool for monitoring health-service inequalities | |
US12063202B2 (en) | Privacy firewalls for identified information detection | |
Zhu et al. | Joint modeling of longitudinal zero-inflated count and time-to-event data: A Bayesian perspective | |
Vrotsou et al. | Are we what we do? Exploring group behaviour through user-defined event-sequence similarity | |
Wang et al. | Testing measurement invariance across unobserved groups: The role of covariates in factor mixture modeling | |
Jurczyk et al. | Fine‐grained record integration and linkage tool | |
Lawson | Bayesian point event modeling in spatial and environmental epidemiology | |
Hu et al. | A meta-regression on the effect of online ratings on hotel room rates | |
US20230253078A1 (en) | Apparatus, method, and computer-readable storage medium for selecting clinical trial subject | |
Lee et al. | Evaluation of two types of differential item functioning in factor mixture models with binary outcomes | |
US11868504B2 (en) | Ownership determination in privacy firewalls | |
CN108804479B (zh) | 数据分析系统及其分析方法 | |
TWI649660B (zh) | 資料分析系統及其分析方法 | |
Chen et al. | Population-specific prognostic models are needed to stratify outcomes for African-Americans with diffuse large B-cell lymphoma |