TW202101477A - 一種抽樣後標記應用在類神經網絡訓練模型之方法 - Google Patents

一種抽樣後標記應用在類神經網絡訓練模型之方法 Download PDF

Info

Publication number
TW202101477A
TW202101477A TW109115354A TW109115354A TW202101477A TW 202101477 A TW202101477 A TW 202101477A TW 109115354 A TW109115354 A TW 109115354A TW 109115354 A TW109115354 A TW 109115354A TW 202101477 A TW202101477 A TW 202101477A
Authority
TW
Taiwan
Prior art keywords
data
sampling
feature points
vector
neural network
Prior art date
Application number
TW109115354A
Other languages
English (en)
Other versions
TWI723868B (zh
Inventor
楊智惠
洪暐傑
郭泓霆
林義隆
暐霖 鄭
Original Assignee
義守大學
義大醫療財團法人義大醫院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 義守大學, 義大醫療財團法人義大醫院 filed Critical 義守大學
Publication of TW202101477A publication Critical patent/TW202101477A/zh
Application granted granted Critical
Publication of TWI723868B publication Critical patent/TWI723868B/zh

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一種抽樣後標記應用在類神經網絡訓練模型之方法,包含下列步驟︰首先,進行轉換步驟,輸入疾病相關資料進行資料轉換,提取疾病資料中的特徵,並進行資料編碼,以得到待訓練資料;接著,進行分群步驟,將待訓練資料依特徵不同進行資料分群,以得到分群資料;再者,進行抽樣步驟,從各分群資料抽樣的複數個特徵點與各分群資料的群核心的向量和接近於零;再者,進行標記步驟,將取樣後的複數個特徵點進行標記;再者,進行擴散步驟,將已經標記的複數特徵點擴散至未標記的特徵點將其標記,形成欲訓練資料;最後,進行訓練步驟,將欲訓練資料透過類神經網絡得到訓練模型。

Description

一種抽樣後標記應用在類神經網絡訓練模型之方法
本發明主張中華民國發明專利申請號第108122416號衍生之國內優先權,其申請日2019年6月26日,發明名稱為「一種抽樣後標記應用在類神經網絡訓練模型之方法」。
本發明是有關一種類神經網絡訓練模型之方法,特別是指一種抽樣後標記應用在類神經網絡訓練模型之方法。
近年來,人工智慧(AI)於醫療照護的應用已被廣泛的研究與討論,越來越多的研究顯示AI在未來人類的醫療健康領域應用中,將扮演著關鍵性的角色。
機器學習模型的準確度在很大程度上取決於用於訓練模型的數據量。機器學習又分為監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning),及加強式學習(Reinforcement Learning)。無論採用哪種學習策略,目標皆是為網路中的每一個神經元找出適當的參數供日後使用。
訓練機器學習模型時,技術上有資料清整(Data Cleaning)、特徵萃取(Feature Extraction)與特徵選擇(Feature Selection),及模型選取等重要的部分,為了訓練機器會蒐集資料樣本作為訓練資料(Training Data)。從訓練資料中擷取出資料的特徵(Features)幫助我們判讀出目標。
許多醫療的資料現階段皆以文字呈現,無法直接作為特徵輸入訓練模型,而該文字資料對於疾病及治療的預測卻十分重要,由人工將大量醫療文字資料逐筆標記將過於浪費人力資源與造成錯誤率增加,如何藉由神經網絡輔助,在最節約醫療人力資源需求下,直接將大量文字資料轉換為可輸入訓練模型的特徵為目前待努力的方向。
針對大量的醫療資訊無法進行全部標記後訓練的情況下,僅選取部分資料進行訓練將有可能因為選取偏差,訓練模型於實際運用時效果不佳,文字資訊較數值或類別變項之資訊困難判斷是否抽樣樣本足以代表母群體。
特徵會影響所得結果,有一些特徵其實不是很重要,分群時沒有足夠的線索知道各個特徵的重要性,因此很容易對某些分布的特徵產生偏誤,造成無意義的分群結果,同時模型所需的特徵若過多,將導致實際運用上的困難。如何選取真實而有用的影響參數,進而提升神經網絡預測的準確性,是一個非常值得努力的目標,並且如何定義與比較模型的預測準確性也是另一重要待研發之議題。
本發明技術主要解決兩問題,第一問題是使族群抽樣足夠代表性,換言之,就是抽樣是否代表母群體;第二問題是在標記後的樣本怎麼擴散至未標記的樣品,並且去訓練出模型,同時兼具方法快速、節省人力、精準度與效度高。
本發明之目的,是在於給予標記之後,用相對較好的方式給予足夠代表母群體的樣本進行標記,標記之後藉由訓練模式達到較好的訓練模型。
本發明之抽樣後標記應用在類神經網絡訓練模型之方法,包含下列步驟︰(A)進行轉換步驟,輸入疾病相關資料進行資料轉換,提取疾病資料中的特徵,並進行資料編碼,以得到待訓練資料;(B)進行分群步驟,將該待訓練資料依特徵不同進行資料分群,以得到分群資料;(C)進行抽樣步驟,從各該分群資料抽樣的複數個特徵點與各該分群資料的群核心的向量和接近於0,實地執行方式有二種,第一種為鏡像法:其中,複數個特徵點中的一半以隨機的方式抽樣,另外的一半與隨機抽樣的特徵點以群核心為中心點相互鏡像匹配,而鏡像匹配是相對於群核心之向量數值最接近但正負相反;第二種為鐘擺法,其中,複數個特徵點中,以隨機方式抽取第一個樣本,爾後每一樣本之抽取皆以前一樣本之相對於群核心之正負相反向量數值,再同時以先前所有樣本之總向量和加入修正後,最接近之樣本進行抽取;(D)進行標記步驟,將取樣後的該複數個特徵點進行標記;(E)進行擴散步驟,將已經標記的該複數特徵點擴散至未標記的特徵點將其標記,形成欲訓練資料;及(F)進行訓練步驟,將該欲訓練資料透過類神經網絡得到訓練模型。
較佳者,在步驟(A)進行轉化步驟中,疾病相關資料可以是文字型報告資料或是X光、心電圖等圖片型資料,將文字或圖片型的疾病資料轉換為特徵訊號,文字型資料使用文章/文字向量轉換,將文章/文字型資料中的每文章/單字轉換一個向量,所有文章/單字轉換的單字可以表示一個向量空間(Vector Space),在該空間中可計算文章/單字間的向量距離。
較佳者,在該步驟(B)進行分群步驟中,該待訓練資料採用聚合式階層分群法(Hierarchical Agglomerative Clustering, HAC)依特徵不同進行資料分群,以得到分群資料,每該分群資料都有其群核心,該群核心的向量為零,每該分群資料包含複數個特徵點,該複數個特徵點距離群核心都具有向量差值,而將每一分群中該複數個特徵的總向量和加總為最小時,代表最佳分群模式。
較佳者,在該步驟(C) 進行抽樣步驟中,從各該分群資料抽樣的複數個特徵點,抽樣數量從各該分群資料總數的萬分之一至二分之一,該被抽取複數個特徵點與各該分群資料的群核心的向量和接近於0。
較佳者,在該步驟(E) 進行擴散步驟中,包含半監督方式、歐式距離分類方式、支持向量機 (SVM; Support Vector Machines) 分類方式及群體統一之分類方式。
較佳者,該半監督方式,將已標記的該複數特徵點進行初步訓練模型(Model Training),訓練好的模型再放入未標記的特徵點,利用該初步訓練模型把該未標記的特徵點給予標記。
較佳者,該歐式距離分類方式,將已標記的特徵點以歐式距離分類,接著把所有未標記的特徵點依據歐式距離的遠近進行標記。
較佳者,該支持向量機 (SVM; Support Vector Machines) 分類方式係要找出一個超平面(hyperplane),將兩個不同的集合分開,將已標記的特徵點進行SVM分類,接著把未標記的特徵點根據SVM的分類給予標記。
較佳者,該群體統一之分類方式,在該分群資料抽樣進行標記時,若在同一分群中抽取的特徵點給予的標記都相同時,則將該分群中未標記的特徵點給予上述相同標記,若在同一分群中抽取的特徵點給予的標記不相同時,該分類方式下包含另外兩個獨立步驟,分別為再分子群方式以及強制重分群方式。
較佳者,該再分子群方式,若在同一分群中抽取的特徵點給予的標記不相同時,則該同一分群中再分成子群,直到再分出的每一個子群當中都僅有一種標記為止,接著把所有未標記的特徵點依據上述的分群標記。
較佳者,該強制重分群方式,若在同一分群中抽取的特徵點給予的標記不相同時,則令系統給予強制規則,規範不相同的標記不能存在同一分群中,再重新分群一次,接著把未標記的特徵點依據重新分群的結果給予標記。
較佳者,該方法應用在整合式個案管理系統,該系統包含:影像檢查髖骨及脊椎骨折自動辨識系統、影像檢查骨質疏鬆症自動辨識系統、脆弱性骨折及其高風險族群自動辨識及提示系統、骨質疏鬆症藥物檢視系統、重複用藥自動鎖定系統、雙向溝通留言系統、住院骨折聯合照護服務收案提示系統、檢驗資訊系統、放射科資訊系統、臨床資訊系統、醫院資訊系統。
本發明之有益功效在於,使用上述抽樣後標記應用在類神經網絡訓練模型之方法,可以提升訓練模型之精準度與效度,該方法同時可以節省時間及人力成本。
有關本發明之相關申請專利特色與技術內容,在以下配合參考圖式之較佳實施例的詳細說明中,將可清楚的呈現。
以神經網絡進行疾病預測醫療院所第一階段需將文字或圖片報告資料轉化為數字,例如X光、心電圖都是文字報告,以作為後續建立預測模型之使用。
本發明針對文字與圖片樣本進行具代表性之重要樣本抽樣技術,能夠於母群體中抽取出少量具代表性的樣本進行訓練探勘模型,將可以顯著減少以全部樣本標記所需花費之時間及增加探勘模型的準確度。
參閱圖1,本發明提供一種抽樣後標記應用在類神經網絡訓練模型之方法,包含下列步驟︰進行轉換步驟11、進行分群步驟12、進行抽樣步驟13、進行標記步驟14、進行擴散步驟15,及進行訓練步驟16。
首先,進行轉換步驟11,藉由神經網絡訓練疾病相關資料進行資料轉換,提取疾病資料中的特徵,並進行資料編碼,以得到待訓練資料。
其中,在該轉換步驟11中,疾病相關資料可以是文字型報告資料或是X光、心電圖等圖片型資料,將文字或圖片型的疾病資料轉換為特徵訊號,文字型資料使用文章/詞向量轉換,將文字型資料中的每文章/單字轉換一個向量,所有轉換的文章/單字可以表示一個向量空間 (Vector Space),在該空間中可計算文章/單字間的向量距離。例如:統計單字在文件出現的次數,進而計算兩個單字共同出現的機率大小,以決定其相似性,單字間的向量距離越短越相似。
詞向量的技術將每個單字賦予一個向量,用來表示這個單字在各種維度所代表的相對特徵,以向量區分每個單字與其他單字的相似程度。詞向量(word vector,也被稱為 word embedding 或 representation)是近年在自然語言處理(Natural Language Processing, NLP)中被廣泛使用的一種技術。一言以蔽之,想使用一個向量來表示每一個詞(vector representation),如此一來,就能把一段由許多詞組成的文句,轉換成一個個詞向量來表示,並把這樣數值化的資料,送到模型裡做後續的應用。
舉例來說有3萬份X光報告,若內容不超過200字,每份皆設定以空白補滿共200字,每個字就是一個向量表示,每一個向量以100維表示,每份報告相當就有2萬個特徵。
接下來進行分群步驟12,依特徵不同進行資料分群,在這裡的分群方式可以採用聚合式階層分群法(Hierarchical Agglomerative Clustering, HAC)等,但不以此為限,可以是K-means 集群分析(又稱C-means Clustering,中文: k-平均演算法),將所有的樣本以文章向量直接進行分群,每一群都有其群核心,群核心的向量為零,每個特徵點距離群核心都具有向量差值,而將所有群的總向量和加總為最小時,代表是最良好的分群模式。
進一步地,依特徵不同的比例權重,再進行資料分群。2萬個特徵可視為2萬個輸入層的神經元,向量設定100個重要訊號,每個訊號佔了多少權重,中間隱藏層做運算,輸出層為表示有骨折1或沒有骨折0,透過在輸入層加入比例權重,提升判別精準度。基本上每個東西的空間向量有不同的重要性,部分資料存在雜訊時,分群就變得非常重要,舉例來說:報告裡寫到有些微的collapse,或文字排列組合有點不同,可整體看起來文字相似,所以給予權重,例如有些字只有寫fracture,但骨折有可能是髖骨骨折,或是其它部位骨折,因此針對要辨識出脊椎有骨折,雖然是有關可沒有那麼重要。
給予特定特徵不同的比例權重也有著另一方面的重要性,如fracture常見的字是collapse、compress,fracture,系統把它當成裡面最重要,且在他附近的也跟著很重要,因為在過去判斷文字過程中有一大堆字,有些字被覺得不重要沒給定位點,先定義權重告知重要性就會被給定位點,像是「no」 bony collapse中no這個字詞會是非常重要的辨識關鍵,會影響辨識結果,而不可以被忽略。
接下來進行抽樣步驟13,抽取的樣本必須具有族群代表性,抽樣數量從該分群資料總數的萬分之一至二分之一,從各分群抽樣的特徵點與群核心的向量和需接近於0。舉例來說,若需要取十分之一的樣本,就取各群總數的十分之一,即A分群有100個特徵點,則取10個與A群核心的向量和接近於0的特徵點,另外的B分群有200個特徵點,就再取20個與B群核心的向量和接近於0的特徵點。透過上述的取樣方法,代表在這個分群的空間中採用分布均勻的方式取樣,而取樣的結果具有族群抽樣代表性且能代表母體。實地執行方式有二種,第一種為鏡像法:上述其中一個分群的複數個特徵點中的一半以隨機的方式抽樣,另外的一半與隨機抽樣的特徵點以群核心為中心點相互鏡像匹配,而鏡像匹配是相對於群核心之向量數值最接近但正負相反;第二種為鐘擺法,其中,複數個特徵點中,以隨機方式抽取第一個樣本,爾後每一樣本之抽取皆以前一樣本之相對於群核心之正負相反向量數值再同時以先前所有樣本之總向量和修正後,最接近之樣本進行抽取。
接下來進行標記步驟14,針對抽樣的樣本進行標記(labelling) ,以此進行探勘模型的訓練時,將可以大幅提升模型準確性。
實地操作是對上述舉例中的3萬份X光報告開始做人工標記(labelling),例如1代表有骨折,0代表沒有骨折,爾後再以神經網絡模型之長短期記憶(Long Short-Term Memory, LSTM)方法進行訓練,訓練後即可得到文字辨識模型,未來只要將X光報告文字輸入,模型即可告知是否有骨折,同理可將此方法運用到髖骨骨折、脊椎骨骨折、雙能量X光吸光式測定儀(Dual energy x-ray absorptiometry, DXA)骨質密度報告等的辨識。
參閱圖2,接下來進行擴散步驟15,將已經標記的特徵點擴散到未標記的特徵點,有六種不同的步驟,分別為半監督方式151、歐式距離分類方式152、支持向量機 (SVM; Support Vector Machines) 分類方式153及群體統一分類方式154,其中群體統一分類方式154下包含另外獨立的兩個步驟,分別為再分子群方式1541以及強制重分群方式1542,以下將個別介紹6種不同步驟。
上述半監督方式151,將已經進行標記的特徵點進行初步訓練模型(Model Training),訓練好的模型再放入大部分未標記的特徵點,利用該初步訓練模型把未標記的特徵點給予標記,最後再進行訓練步驟16訓練模型(Model Training)。舉例來說,將已經進行標記的資料點,先進行模型訓練,訓練完的結果假設上面為黑點資料,下面為白點資料,中間形成一條線。接著運用訓練完的模型把未標記的資料標記,換句話說,就是透過上述線將線條上面未標記的資料都標記為黑點資料,把線條下面未標記的資料都標記為白色資料,將此結果再重新跑一次模型訓練,或許系統又會重新畫線,線條位置可能與先前的線條有一點不同。
上述152歐式距離分類方式,將已經進行標記的特徵點進行歐式距離分類152,接著把所有未標記的特徵點依據歐式距離遠近進行標記,最後再進行訓練步驟16訓練模型。舉例某個已經標記特徵點黑點以及標記特徵點白點之間有一個未標示特徵點A,在系統上特徵點A的歐式距離靠近特徵點黑點,直接將特徵點A標記為特徵點黑點,透過歐式距離分類將所有未標記特徵點標記,最後再進行訓練模型步驟。
上述支持向量機(SVM; Support Vector Machines) 分類方式153,SVM係要找出一個超平面(hyperplane),使之將兩個不同的集合分開。將已經進行標記的特徵點進行SVM分類,接著把未標記的特徵點給予標記,最後再進行訓練步驟16訓練模型(Model Training)。
所述群體統一分類方式154,在分群抽樣進行標記時,若在同一分群中抽取的樣本之標記都相同時,將上述分群中未標記的資料都給予相同的之標記。舉例來說,若在某分群抽取10個樣本,這10個樣本的標記都是1,這分群其他未標記的資料都標記為1。若另外分群抽取20個樣本,這20個樣本的標記都是0,這分群其他未標記的資料也都會標記為0,最後再進行訓練步驟16訓練模型(Model Training)。
所述群體統一分類方式154,如果同群卻有不同標記,兩種解決方式,分別為再分子群方式1541以及強制重分群方式1542,所述再分子群方式1541,舉例而言如A分群中取樣10個樣品中,標記1的為7票,標記0的為3票時,就代表這分群雖然在一開始可能覺得上述10個樣本是在同一分群,可是他們可能不是真的在同一群,他或許可以分成好幾群,因此我們再將A分群中,再次已K-means的方法再次分成子群,直到再分出來的每一個子群當中能統一為一種標記為止。最後再進行訓練步驟16訓練模型(Model Training)。
所述強制重分群方式1542,如果同群卻有不同標記,例如同分群中同時有1及0時,強制性把所有分群重新再次分群,但給予強制規則,規定0跟1不能在同一組,再重新分群一次。最後再進行訓練步驟16訓練模型(Model Training)。
於此,實驗數據以X光放射科醫師所發之文字報告為例,總樣本數為三萬筆,目標為進行文字探勘,建立探勘模型主動分析出已被放射科醫師於報告中診斷為脊椎壓迫性骨折之個案,在取得樣本後先以文章向量(Document to vector)進行轉換,將每一份文字資訊樣本轉為向量,再以聚合式階層分群法(Hierarchical Agglomerative Clustering, HAC),將所有的樣本進行分群,如圖3所示為降維後之顯示圖,分群後進行抽樣動作,抽樣數量為總樣本數之八十分之一(三百七十五筆),每個模型建置前會先進行如圖4所示之文章向量轉換(document to vector) 。參閱圖5,接著依照文字探勘模型建立流程,進行模型建置,於此使用三種不同方式進行抽樣:(1)將全部樣本以聚合式階層分群法,於每一群皆抽樣八十分之一的樣本,而各樣本離該群中心向量總和需最貼近零、(2)將全部樣本以聚合式階層分群法分群後,刻意抽樣向量總和最大之樣本、(3)全部樣本直接進行隨機抽樣,藉由三種不同抽樣方式進行樣本取得後,給予人工標記,以相同條件與方式進行探勘模型訓練,建立模型後以未使用於訓練之樣本進行驗證準確度。
參閱圖6係為X光檢查骨折透過類神經網絡辨識,參閱圖7,係為含有雙能量X光吸收儀(DXA)檢測數值透過類神經網絡辨識完成的資料庫。
執行上向量和趨近零之抽樣方式關鍵困難點在於若由系統進行排列取合,以總樣本數為N,取出M個樣本下需運算C(N,M)次,再同時考量高維度的運算下,要使整體距群中心之向量和趨近於零,需要所有組合皆運算後再進行比較,系統進行運算之時間複雜度極高,現實上難以執行,故本發明之技術手段進行向量和趨近零的抽樣方法有二,鏡像法與鐘擺法:第一,鏡像法為先於每一群之樣本隨機抽取目標總抽取量一半,如原先預定抽出樣本數之二十分之一,則先抽出四十分之一,抽出樣本後,於同群剩餘之樣本中進行鏡像匹配(case matching)的方式配對抽樣,將樣本於該維度的數值進行正負號轉換,爾後選取於該群中與此向量貼近之樣本,如隨機抽取出之樣本與群中心在之向量為(-3, 4, -6, 2)則配對貼近(3, -4, 6, -2)之資料。
由於在配對時雖是選取貼近鏡像之樣本,但也非完全吻合,因此在所有樣本都配對完成後,將需執行檢定,確認配對選取出之樣本的適當性,檢定方式為先將配對出之樣本離群中心向量進行正負號轉換,轉換後與隨機抽出之樣本進行T檢定,在α error為0.05的設定下,確認兩組是否有顯著差異,若無顯著差異則視為配對良好,為原始隨機抽樣樣本之鏡像資料,也因此隨機抽出之樣本與配對樣本共同組成的樣本群,與群中心的向量和將會是貼近於零。而最大向量和之抽樣方式為確認群中心後,選取距群中心最大向量之樣本,選取該樣本後,接著從離該樣本最近之資料進行取樣至目標數。
本發明之技術手段,第二實地執行抽樣方法鐘擺法:於每一群中,先以隨機方式抽取第一個樣本,第二個樣本抽取方式為依據第一個樣本相對於群核心之正負相反的向量數值最接近者,第三個樣本為第二個樣本相對於群核心之正負相反的向量數值,再以前兩個樣本的向量和加入作為修正,選取將總向量和趨近0之樣本,爾後每個樣本的抽取,皆已前一個樣本的相對於群核心之正負相反的向量數值作為基礎,合併目前為止有抽取出之所有樣本的總向量和做為修正使總向量和趨近0,以此抽取出最接近之樣本,舉例而如第一個樣本之向量為A點(4,-7,9,3),第二個樣本抽取則貼近(-4,7,-9,-3),假設實際最最貼近此項量之樣本為B點(-3,4,-8,-5),抽取此樣本後,第三個樣本抽取基礎為第二個樣本B點之正負相反向量(3,-4,8,5),然而需加入先前已抽取樣本的向量總和進行修正,此例中為A點+B點之向量和(1,-3,1,-2),為使總合趨近0,修正後為(3-1,-4-(-3),8-1,5-(-2))=(2,-1,7,7),選取貼近此向量的最接近點,在此種方法下抽取偶數樣本將可使各分群抽取之樣本向量總和趨近0,此種方式自第一個抽取出樣本開始,以群中心為中心點恰似鐘擺擺動來回進行抽樣。
實際執行以不同方法抽出樣本於整群樣本中,參閱圖8-1~8-3,黃色點為所有樣本,黑色點為抽出之樣本。其中,圖8-1使用本發明之抽樣方式,將全部樣本以聚合式階層分群法進行分群後,依比例於每群抽樣八十分之一,而樣本離該群中心之向量總和最趨近零。圖8-2將全部樣本以聚合式階層分群法分群後,刻意抽樣向量總和最大之樣本。圖8-3將全部樣本直接進行隨機抽樣。
上述三組抽樣方式建立之探勘模型結果以area under receiver operating characteristic curve(AUROC)進行表示,抽樣結果顯示本發明之群向量和趨近零的抽樣方式(圖8-1)(群向量和趨近零)結果顯著高於隨機抽樣(圖8-3),而為驗證向量和對於抽樣效果之影響,同時刻意進行群向量和最大之抽樣法(圖8-2),預期此方法將會有最差之探勘模型結果,實地驗證結果也顯示,向量和最大之抽樣法,效果明顯低於隨機抽樣與群向量和趨近零之方式,綜合上述本發明之抽樣向量和趨近零方式為最佳方法。
參閱下表1,為上述三種不同抽樣方式產出之探勘模型辨識準確度,可知本發明之抽樣向量和趨近零方式的準確度為0.981,優於其他兩者。
Figure 02_image001
表1
再以不同方式抽樣之探勘模型於驗證之AUC圖,參閱圖9-1,使用本發明之抽樣方式,將全部樣本以聚合式階層分群法進行分群後,依比例於每群抽樣八十分之一,而樣本離該群中心之向量總和最趨近零,參閱圖9-2,將全部樣本以聚合式階層分群法分群後,刻意抽樣向量總和最大之樣本,參閱圖9-3,將全部樣本直接進行隨機抽樣,可知本發明之抽樣方式向量和趨近零為最佳方法。
本發明係為一種分群後抽樣方法,此抽樣方式類似於研究中分層抽樣的原理,而分層抽樣需針對某種樣本的重要特徵進行分層,如年齡、性別等,爾後抽出樣本將會更具有代表性,而本研究中所使用的分群後抽樣則是依據文字樣本的文章向量(document vector)將樣本進行分群,而分群方式則是使用HAC方法,HAC分群是運算出群中心後,計算每個樣本與每個群中心的歐式距離(Euclidean distance),將樣本歸類至最近距離的群,在分群後於每群進行固定比例的隨機抽樣,以此方式抽出樣本後,進行文字探勘辨識模型建立。參閱圖9-4,結果顯示分群後隨機抽樣方法(AUROC:0.916)建立的辨識模型明顯優於不分群隨機抽樣方法(AUROC:0.889),此結果說明了在文字探勘辨識模型建立中,以文章向量(document vector)分群是有意義的。
參閱圖9-4,另外設計分群後向量和最小化抽樣方法同時,也加入分群後向量和最大化方法做為對比,研究結果顯示,以向量和最小化抽樣方法(AUROC:0.963)選取出的樣本所建立的文字探勘模型有著最佳辨識效果,也優於分群後隨機抽樣(AUROC:0.916)及不分群隨機抽樣方法(AUROC:0.889),在先前的敘述說明向量是可以做為文字樣本的前提下,以向量分群後進一步以不同的抽樣方法仍會影響後續建立模型的效果。結果顯示,在所建立模型的辨識效果中,向量和最小化方法為最佳(AUROC:0.963),分群後隨機抽樣次之(AUROC:0.916),而向量和最大化為最差(AUROC:0.684),此結果說明了以向量分群後,各分群中各樣本距離群中心的向量總和與後續模型的建立效果有著相關。在以抽樣方式建立文字探勘辨識模型時,所挑選的樣本若具有代表性,在後續建立的模型將會有較好的辨識效果。因此,用機器學習(machine learning)方式建立辨識模型時,會盡量選取不同並且具有代表性的樣本加入模型中訓練,以建立較佳的辨識模型。而挑選代表性樣本的方法上,先前內容說明向量作為文字樣本的重要特性,而以向量分群後,若是以向量和最大化的抽樣方法進行,代表被挑選出的都會是彼此向量相互接近的樣本,這樣的文字樣本具有類似的敘述方式,若僅選取相似的文字樣本建立模型,將會忽略其他敘述方式的文字樣本,這也說明了向量和最大化抽樣方法製作的模型辨識效果最差的原因,而相反的,若是以向量和最小化抽樣方法,代表樣本是散布在離群中心的各個不同方位,也因此彼此向量正負值加總才會是最小化,而散布在群中不同方位的樣本,將會具有較不同的文字樣本敘述方式,以此抽樣方法才能將樣本中各種不同的敘述方式都加入模型訓練。向量化最小化抽樣方式建立的模型辨識效果為最佳,說明了以此抽樣方法能夠更有效的選取出具有代表性的文字樣本,以此做為模型訓練能取得最佳的辨識模型。
而在以向量和最小化為抽樣方法時,若為確認為最小化之向量總和,會需將分群中所有樣本進行排列組合,如於60個樣本中取出2個樣本,則有1770種方式,再逐一加總每一組合中之向量和後進行比對,爾後比對出向量和最小之組合方式,然而由於每一樣本在被設定具有400維度之向量,同時又有多種排列組合方式,一旦分群樣本數大時,演算時的時間複雜度(Time complexity)就會過大,導致抽樣方式的效率較差。另在以HAC方式進行分群時,樣本本身於各維度的向量代表著樣本本身的特性,歐式距離(Euclidean distance)相近的樣本表示有著相似的特性,因此若單純以向量和最小化方法進行抽樣,可能所抽取之樣本皆是靠近群中心者,無法均勻分布於該群向量空間之各處,所抽取出樣本皆有著類似特性同時較無法充分顯示該分群之樣本特性。因上述兩個原因,此本研究所採用方式為於分群所需抽取出樣本數一半先以隨機方式取樣,爾後再以群中心為中心點,將隨機抽取出之樣本對應中心點所產生的鏡像點最接近之樣本抽取出,在鏡像抽取的概念下,樣本與其對應之鏡像樣本向量和會是較趨近於0,同時以此方式抽樣之時間複雜度(Time complexity)會大幅減小。而本研究顯示以此項方式執行向量和最小化抽樣時,所建立的模型辨識效果較單純分群後隨機抽樣方法為佳。
參閱圖10,利用上述的訓練出來的模組,可以應用在整合式個案管理系統,提供主動辨識出骨折及骨質疏鬆症病患與其高危險族群,自動為其提取評估病患所需的資料如抽血檢查、X光檢查等,針對個案接受藥物治療狀況進行資料辨識後自動匯總,相關整合之個案管系統包含:影像檢查髖骨及脊椎骨折自動辨識系統、影像檢查骨質疏鬆症自動辨識系統、脆弱性骨折及其高風險族群自動辨識及提示系統、骨質疏鬆症藥物檢視系統、重複用藥自動鎖定系統、雙向溝通留言系統、住院骨折聯合照護服務收案提示系統、檢驗資訊系統、放射科資訊系統、臨床資訊系統、醫院資訊系統等。
整合式個案管理系統,包含下列具體的功能。參閱圖11為提醒前次藥物使用時間的系統功能。參閱圖12為系統一鍵查詢骨鬆用藥的功能。參閱圖13為系統自動抓取檢驗數據的功能。參閱圖14為系統自動抓取X光檢查報告的功能。參閱圖15為系統自動抓取DXA檢查報告的功能。參閱圖16為系統建立類神經網絡預測模型的一個案例。
綜上所述,本發明藉由神經網絡協助資料探勘與大數據之資料辨識進行疾病預測的方法,為提升實用上之可行性與提升訓練用之樣本的代表性,本發明提供了良好的抽樣方式,爾後透過輸入疾病相關資料進行資料轉換,提取疾病資料中的特徵,並進行資料編碼,以得到待訓練資料,再將該待訓練資料進行資料分群,以得到欲訓練模型,最後,本發明提供多項方式將此標記擴散至未標記之樣本,以得到待訓練之資料,其後進行訓練模型之步驟,良好抽樣及擴散標記之方式可提升模型的準確度與穩定度,故確實可以達成本發明之目的。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍,即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
11~16:步驟 151~154:步驟 1541~1542:步驟
圖1是一示意圖,說明本發明抽樣後標記應用在類神經網絡訓練模型之方法的較佳實施例; 圖2是一示意圖,說明本發明抽樣後標記應用在類神經網絡訓練模型之方法的另一較佳實施例; 圖3是一示意圖,係為利用聚合式階層分群法所做出的分群顯示圖; 圖4是一示意圖,係為模型進行詞向量的轉換; 圖5是一示意圖,係為依照文字探勘模型建立流程; 圖6是一示意圖,係為X光檢查骨折透過類神經網絡辨識; 圖7是一示意圖,係為含有雙能量X光吸收儀(DXA)檢測數值透過類神經網絡辨識完成的資料庫; 圖8-1~8-3是一示意圖,係為以不同方法抽出樣本於整群樣本之態樣; 圖9-1~9-4是一示意圖,係為以不同方式抽樣之探勘模型於驗證之AUROC圖; 圖10是一示意圖,係為利用上述較佳實施例訓練出來的模組; 圖11是一示意圖,係為提醒前次藥物使用時間的系統功能; 圖12是一示意圖,係為系統一鍵查詢骨鬆用藥的功能; 圖13是一示意圖,係為系統自動抓取檢驗數據的功能; 圖14是一示意圖,係為系統自動抓取X光檢查報告的功能; 圖15是一示意圖,係為系統自動抓取DXA檢查報告的功能;及 圖16是一示意圖,係為系統建立類神經網絡預測模型的一個案例。
11~16:步驟

Claims (13)

  1. 一種抽樣後標記應用在類神經網絡訓練模型之方法,包含下列步驟︰ (A)進行轉換步驟,輸入疾病相關資料進行資料轉換,提取疾病資料中的特徵,並進行資料編碼,以得到待訓練資料; (B)進行分群步驟,將該待訓練資料依特徵不同進行資料分群,以得到分群資料; (C) 進行抽樣步驟,從各該分群資料中抽樣的複數個特徵點與各該分群資料的群核心的向量和接近於0,其中,複數個特徵點中的一半以隨機的方式抽樣,另外的一半與隨機抽樣的特徵點以群核心為中心點相互鏡像匹配,而鏡像匹配是相對於群核心之向量數值相等或最接近但正負相反; (D)進行標記步驟,將取樣後的該複數個特徵點進行標記; (E)進行擴散步驟,將已經標記的該複數特徵點擴散至未標記的特徵點將其標記,形成欲訓練資料;及 (F)進行訓練步驟,將該欲訓練資料透過類神經網絡得到訓練模型。
  2. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中,在該步驟(C) 進行抽樣步驟中,從各該分群資料中抽樣的複數個特徵點與各該分群資料的群核心的向量和接近於0,其中,複數個特徵點中,以隨機方式抽取第一個樣本,爾後每一樣本之抽取皆以前一樣本之相對於群核心之正負相反向量數值,再同時以先前所有樣本之總向量和加入修正後,最接近之樣本進行抽取。
  3. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中,在該步驟(A)進行轉化步驟中,疾病相關資料可以是文字型報告資料或是X光、心電圖等圖片型資料,將文字或圖片型的疾病資料轉換為特徵訊號,文字型資料使用詞向量轉換,將文字型資料中的每單字轉換一個向量,所有單字轉換的單字可以表示一個向量空間 (Vector Space),在該空間中可計算單字間的向量距離。
  4. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中,在該步驟(B) 進行分群步驟中,該待訓練資料採用聚合式階層分群法(Hierarchical Agglomerative Clustering, HAC)依特徵不同進行資料分群,以得到分群資料,每該分群資料都有其群核心,該群核心的向量為零,每該分群資料包含複數個特徵點,該複數個特徵點距離群核心都具有向量差值,而將每一分群中該複數個特徵的總向量和加總為最小時,代表最佳分群模式。
  5. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中,在該步驟(C) 進行抽樣步驟中,從各該分群資料抽樣的複數個特徵點,抽樣數量從各該分群資料總數的萬分之一至二分之一,該被抽取複數個特徵點與各該分群資料的群核心的向量和接近於0。
  6. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中,在該步驟(E) 進行擴散步驟中,包含半監督方式、歐式距離分類方式、支持向量機 (SVM; Support Vector Machines) 分類方式及群體統一分類方式。
  7. 依據申請專利範圍第5項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該半監督方式,將已標記的該複數特徵點進行初步訓練模型(Model Training),訓練好的模型再放入未標記的特徵點,利用該初步訓練模型把該未標記的特徵點給予標記。
  8. 依據申請專利範圍第5項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該歐式距離分類方式,將已標記的特徵點以歐式距離分類,接著把所有未標記的特徵點依據歐式距離的遠近進行標記。
  9. 依據申請專利範圍第5項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該支持向量機 (SVM; Support Vector Machines) 分類方式係要找出一個超平面(hyperplane),將兩個不同的集合分開,將已標記的特徵點進行SVM分類,接著把未標記的特徵點根據SVM的分類給予標記。
  10. 依據申請專利範圍第5項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該群體統一分類方式,在該分群資料抽樣進行標記時,若在同一分群中抽取的特徵點給予的標記都相同時,則將該分群中未標記的特徵點給予上述相同標記,若在同一分群中抽取的特徵點給予的標記不相同時,該群體統一分類方式下包含另外兩個獨立步驟,分別為再分子群方式以及強制重分群方式。
  11. 依據申請專利範圍第9項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該再分子群方式,若在同一分群中抽取的特徵點給予的標記不相同時,則該同一分群中再分成子群,直到再分出的每一個子群當中都僅有一種標記為止,接著把所有未標記的特徵點依據上述的分群標記。
  12. 依據申請專利範圍第9項所述抽樣後標記應用在類神經網絡訓練模型之方法,其中該強制重分群方式,若在同一分群中抽取的特徵點給予的標記不相同時,則令系統給予強制規則,規範不相同的標記不能存在同一分群中,再重新分群一次,接著把未標記的特徵點依據重新分群的結果給予標記。
  13. 依據申請專利範圍第1項所述抽樣後標記應用在類神經網絡訓練模型之方法,該方法應用在整合式個案管理系統,該系統包含:影像檢查髖骨及脊椎骨折自動辨識系統、影像檢查骨質疏鬆症自動辨識系統、脆弱性骨折及其高風險族群自動辨識及提示系統、骨質疏鬆症藥物檢視系統、重複用藥自動鎖定系統、雙向溝通留言系統、住院骨折聯合照護服務收案提示系統、檢驗資訊系統、放射科資訊系統、臨床資訊系統、醫院資訊系統。
TW109115354A 2019-06-26 2020-05-08 一種抽樣後標記應用在類神經網絡訓練模型之方法 TWI723868B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW108122416 2019-06-26
TW108122416 2019-06-26

Publications (2)

Publication Number Publication Date
TW202101477A true TW202101477A (zh) 2021-01-01
TWI723868B TWI723868B (zh) 2021-04-01

Family

ID=75234892

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115354A TWI723868B (zh) 2019-06-26 2020-05-08 一種抽樣後標記應用在類神經網絡訓練模型之方法

Country Status (1)

Country Link
TW (1) TWI723868B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819527A (zh) * 2021-01-29 2021-05-18 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
TWI751022B (zh) * 2021-02-09 2021-12-21 阿物科技股份有限公司 有價字詞判斷及再分類之方法及其系統
TWI752822B (zh) * 2021-02-09 2022-01-11 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之方法及其系統
TWI769798B (zh) * 2021-04-28 2022-07-01 國立勤益科技大學 立式切削中心機之加工策略分析系統

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI811179B (zh) * 2023-02-09 2023-08-01 國立中山大學 提供文字探勘工作流程編輯的方法與系統

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI578977B (zh) * 2011-04-07 2017-04-21 香港中文大學 視網膜圖像分析裝置
WO2018017467A1 (en) * 2016-07-18 2018-01-25 NantOmics, Inc. Distributed machine learning systems, apparatus, and methods
CN108364006B (zh) * 2018-01-17 2022-03-08 超凡影像科技股份有限公司 基于多模式深度学习的医学图像分类装置及其构建方法
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819527A (zh) * 2021-01-29 2021-05-18 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
CN112819527B (zh) * 2021-01-29 2024-05-24 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
TWI751022B (zh) * 2021-02-09 2021-12-21 阿物科技股份有限公司 有價字詞判斷及再分類之方法及其系統
TWI752822B (zh) * 2021-02-09 2022-01-11 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之方法及其系統
TWI769798B (zh) * 2021-04-28 2022-07-01 國立勤益科技大學 立式切削中心機之加工策略分析系統

Also Published As

Publication number Publication date
TWI723868B (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
TWI723868B (zh) 一種抽樣後標記應用在類神經網絡訓練模型之方法
Pereira et al. COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios
Khobahi et al. Coronet: A deep network architecture for semi-supervised task-based identification of covid-19 from chest x-ray images
Pandey et al. A comprehensive survey of deep learning in the field of medical imaging and medical natural language processing: Challenges and research directions
CN109920501B (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN110459287B (zh) 来自医学文本报告的结构化报告数据
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
Madhavan et al. Res-CovNet: an internet of medical health things driven COVID-19 framework using transfer learning
WO2023065858A1 (zh) 基于异构图神经网络的医疗术语规范化系统及方法
López-Úbeda et al. Automatic medical protocol classification using machine learning approaches
Podder et al. Lddnet: a deep learning framework for the diagnosis of infectious lung diseases
CN111651991A (zh) 一种利用多模型融合策略的医疗命名实体识别方法
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
Aria et al. ADA-COVID: adversarial deep domain adaptation-based diagnosis of COVID-19 from lung CT scans using triplet embeddings
CN112466462A (zh) 一种基于图深度学习的emr信息关联及演化方法
CN110164519B (zh) 一种基于众智网络的用于处理电子病历混合数据的分类方法
Dahl et al. Applications of machine learning in document digitisation
Soundrapandiyan et al. AI-based wavelet and stacked deep learning architecture for detecting coronavirus (COVID-19) from chest X-ray images
CN114093507A (zh) 边缘计算网络中基于对比学习的皮肤病智能分类方法
CN112927797A (zh) 一种基于贝叶斯概率推断的急诊临床诊断分析系统
Mohapatra et al. Automated invasive cervical cancer disease detection at early stage through deep learning
Peng et al. Multi-view weighted feature fusion using cnn for pneumonia detection on chest x-rays
CN110415791A (zh) 一种病种库建立系统及方法