TWI827409B - 自動化組織值域映射方法、電子裝置及電腦可讀媒介 - Google Patents
自動化組織值域映射方法、電子裝置及電腦可讀媒介 Download PDFInfo
- Publication number
- TWI827409B TWI827409B TW111149019A TW111149019A TWI827409B TW I827409 B TWI827409 B TW I827409B TW 111149019 A TW111149019 A TW 111149019A TW 111149019 A TW111149019 A TW 111149019A TW I827409 B TWI827409 B TW I827409B
- Authority
- TW
- Taiwan
- Prior art keywords
- attributes
- value
- value ranges
- value range
- matching
- Prior art date
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008520 organization Effects 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000003491 array Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明揭露一種自動化組織值域映射方法、電子裝置及電腦可讀媒介,係選擇同一或不同組織之二個值域組以計算出複數個值域之字向量,再依據複數個值域之字向量比對出二個相近之值域,以計算出具有唯一性之值之屬性及二個屬性之陣列的距離。繼之,利用複數對匹配之屬性的值計算屬性之信息熵與權重以取得二個相近之值域的自動匹配、人工匹配與未匹配之分數區間,再將屬性之相似度分數乘以權重後進行加總以得到總相似度分數,然後依據總相似度分數選擇自動匹配、人工匹配與未匹配之一者,以進行值域之屬性的映射。
Description
本發明係關於一種組織值域映射(匹配)技術,特別是指一種自動化組織值域映射(匹配)方法、電子裝置及電腦可讀媒介。
值域系統亦可稱為編碼(coding)系統、術語(terminology)系統或詞彙(vocabulary)系統等,在各行各業之同一或不同組織(如公司/單位/機構/系統)中皆會有各式各樣之值域系統(值域),有些值域系統(值域)會整合在一起,有些值域系統(值域)則分散在不同地方,而不管是整合在一起或分散在不同地方,相同性質之值域系統(值域)為了彼此間之同步或對照,便產生了值域匹配或值域映射之需求。
在一現有技術中,常見之值域匹配方法為採用人工匹配方法,但此種人工匹配方法僅適用於少量之資料,且曠日廢時,亦會造成值域匹配之效率低落問題。
在另一現有技術中,值域匹配方法為人工先選擇二個值域,以由人工依照二個值域之每個屬性給予權重,再依照人工所給予之權重對二
個值域之所有屬性進行各種匹配來自動映射。
惟,在各行各業之同一或不同組織(如公司/單位/機構/系統)中,少的有幾百個值域系統(值域),多的有上萬個值域系統(值域),甚至還有各種樹狀分類之值域系統(值域),且每個值域系統(值域)又有眾多的屬性。若所有值域系統(值域)之眾多屬性皆由使用者以人工方式逐一給予權重並劃分各種匹配之標準,會讓使用者無法下手,也會造成二個組織間之值域系統(值域)之映射困難問題。
此外,值域系統(值域)之維護雖不是經常更新版本,但仍有更新值域系統(值域)之版本之需求,此時若皆由人工介入值域系統(值域)之更新版本之維護更是十分困難。
因此,如何提供一種創新之組織值域映射(匹配)技術,以解決上述之任一問題或提供相關之方法/裝置/電腦可讀媒介,已成為本領域技術人員之一大研究課題。
本發明之自動化組織值域映射方法,包括:選擇同一或不同組織之二個值域組,且二個值域組各自包括複數個值域;自動計算二個值域組之複數個值域的字向量,以依據二個值域組之複數個值域的字向量比對出二個值域組之二個相近的值域;自動批次或逐對計算二個值域組之二個相近的值域中具有唯一性之值的屬性以去除二個相近的值域中不適合之屬性,且計算二個值域組之二個相近的值域中已去除不適合之屬性後所剩下之屬性中二個屬性之陣列的距離,其中,若二個屬性之陣列的距離大於
所剩下之屬性之陣列的平均距離,則將二個屬性列為二個相近的值域中一對匹配之屬性;自動依據二個相近的值域中複數對匹配之屬性的值計算複數對匹配之屬性的信息熵與權重,以依據複數對匹配之屬性的信息熵與權重計算二個相近的值域之自動匹配、人工匹配與未匹配三者之分數區間;以及將二個相近的值域中所有需計算分數區間之屬性的相似度分數乘以各自之權重後進行加總以得到所有需計算分數區間之屬性的總相似度分數,再依據所有需計算分數區間之屬性的總相似度分數選擇自動匹配、人工匹配與未匹配之一者以進行二個相近的值域之屬性之映射。
此外,本發明之電子裝置包括:記憶體,係儲存有指令;以及處理器,係執行記憶體所儲存之指令,以實現上述之自動化組織值域映射方法。
另外,本發明之電腦可讀媒介應用於電子裝置中,係儲存有指令,以執行上述之自動化組織值域映射方法。
因此,本發明提供一種創新之自動化組織值域映射方法、電子裝置及電腦可讀媒介,係能從二個值域組之複數個值域的字向量中快速比對出二個相近之值域,再自動批次(逐對)分別去除不適合之屬性及選出複數對匹配之屬性,然後自動計算出複數對匹配之屬性的信息熵/權重與自動匹配/人工匹配/未匹配三者之分數區間。
再者,本發明能自動將二個相近之值域中所有需計算分數區間之屬性的相似度分數乘以各自之權重後進行加總,以利得到需計算分數區間之屬性的總相似度分數,再依據需計算分數區間之屬性的總相似度分數選擇自動匹配、人工匹配與未匹配之一者,以利迅速進行二個相近的值域之屬性之映射。
為使本發明之上述特徵與優點能更明顯易懂,下文特舉實施例,幷配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點,且此等特徵及優點將部分自所述描述內容可得而知,或可藉由對本發明之實踐習得。應理解,前文一般描述與以下詳細描述二者均為例示性及解釋性的,且不欲約束本發明所欲主張之範圍。
1:電子裝置
10:電腦可讀媒介
11:指令
20:處理器
30:記憶體
40:同義詞庫
50:反義詞庫
A,B:值域組
A1,A2,A3,Am:值域
A11,A12,A13,A1x:屬性
B1,B2,B3,Bn:值域
B21,B22,B23,B2y:屬性
G1,G2:組織
S1至S11:步驟
圖1為本發明之電子裝置之架構示意圖。
圖2為本發明之自動化組織值域映射方法之流程示意圖。
圖3為本發明之電子裝置及自動化組織值域映射方法中,有關使用字向量比對出二個值域組中相近之值域之實施例示意圖。
圖4為本發明之電子裝置及自動化組織值域映射方法中,有關使用唯一性演算法去除不適合之屬性並使用餘弦演算法計算各屬性之相似度之實施例示意圖。
圖5為本發明之電子裝置及自動化組織值域映射方法中,有關可能匹配映射之二個值域組之值域及屬性之實施例示意圖。
圖6為本發明之電子裝置及自動化組織值域映射方法中,有關自動匹配之演算法、自動匹配之條件與人工匹配之條件等之實施例示意圖。
圖7為本發明之電子裝置及自動化組織值域映射方法中,有關選擇自動匹配、人工匹配與未匹配等之實施例示意圖。
以下藉由特定的具體實施形態說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容瞭解本發明之其他優點與功效,亦可因而藉由其他不同具體等同實施形態加以施行或運用。
圖1為本發明之電子裝置1之架構示意圖。如圖所示,電子裝置1可包括互相通訊連接之一電腦可讀媒介10、至少一(如複數)處理器20與至少一(如複數)記憶體30。此外,電子裝置1可進一步通訊連接同義詞庫40與反義詞庫50,且同義詞庫40與反義詞庫50可設置於電子裝置1之內部或外部。
在一實施例中,電子裝置1可為電腦、計算機、伺服器、個人數位助理(PDA)或智慧型手機等,電腦可為平板電腦、筆記型電腦、個人電腦或桌上型電腦等,伺服器可為中央伺服器、通用伺服器、雲端伺服器、遠端伺服器或網路伺服器等。電腦可讀媒介10可為電腦可讀儲存媒介、計算機可讀媒介或計算機可讀儲存媒介等,指令11可為程式或程式碼等。處理器20可為微處理器、中央處理器(CPU)、圖形處理器(GPU)、微控制器(MCU)等,記憶體30可為隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快取記憶體(cache)、快閃記憶體(flash)、記憶卡、硬碟(如雲端/網路硬碟/外接式硬碟)、光碟、隨身碟或資料庫等。同義詞庫40可為用於儲存同義詞或同義詞組之資料庫,反義詞庫50可為用於儲存反義詞或反義詞組之資料庫,且資料庫可為資料儲存器、記憶體、記憶卡、硬碟、光碟或隨身碟等所構成。
在一實施例中,本發明所述「組織」可為公司、單位、機構、系統等,例如醫學組織、醫療院所、生技公司、科技公司、研究單位、政
府機構、軟體系統、資訊系統等。「值域」可為具有複數個屬性之值域系統,例如編碼系統、術語系統或語彙系統等。「屬性」可為值域所屬之名稱、編碼、描述、備註、性質、說明、電話、地址、性別、特徵等,例如名稱可為物件名稱、產品名稱、姓名等,編碼可為編號、代碼、型號等。在各行各業之同一或不同組織(如公司/單位/機構/系統)中,可能會有複數個(如數十/百/千/萬個)不同之值域(值域系統),且每個值域(值域系統)通常會有複數個不同屬性。
具體而言,電子裝置1之記憶體30儲存有指令11(如複數指令),且電子裝置1之處理器20執行記憶體30所儲存之指令11,以實現如圖2所示之自動化組織值域映射方法之內容。同時,電腦可讀媒介10可應用於具有處理器20與記憶體30之電子裝置1中,且電腦可讀媒介10亦可儲存有指令11(如複數指令),並利用電子裝置1透過處理器20及/或記憶體30執行電腦可讀媒介10,以於執行電腦可讀媒介10時,執行如圖2所示之自動化組織值域映射方法之內容。
圖2為本發明之自動化組織值域映射方法(或稱為自動化組織值域匹配方法)之流程示意圖,圖3為本發明之電子裝置1及自動化組織值域映射方法中有關使用字向量比對出二個(不同)值域組(A,B)中相近之值域之實施例示意圖,圖4為本發明之電子裝置1及自動化組織值域映射方法中有關使用唯一性演算法(如屬性唯一性演算法)去除不適合之屬性並使用餘弦(Cosine)演算法等計算各屬性之相似度(如相似度分數)之實施例示意圖,圖5為本發明之電子裝置1及自動化組織值域映射方法中有關可能匹配映射之二個值域組(A,B)之值域及屬性之實施例示意圖,圖6為本
發明之電子裝置1及自動化組織值域映射方法中有關自動匹配之演算法、自動匹配之條件與人工匹配之條件等之實施例示意圖,圖7為本發明之電子裝置1及自動化組織值域映射方法中有關選擇自動匹配、人工匹配與未匹配等之實施例示意圖,並參閱圖1予以說明。
在一實施例中,自動化組織值域映射方法可包括:自動選擇同一或不同組織(G1,G2)之二個值域組(A,B),且二個值域組(A,B)各自包括複數個值域(A1-Am,B1-Bn);自動計算二個值域組(A,B)之複數個值域(A1-Am,B1-Bn)的字向量,以依據二個值域組(A,B)之複數個值域(A1-Am,B1-Bn)的字向量比對出二個值域組(A,B)之二個相近的值域(如A1,B2);自動使用唯一性演算法批次或逐對計算二個值域組(A,B)之二個相近的值域(如A1,B2)中具有唯一性之值之屬性以去除二個相近的值域(如A1,B2)中不適合之屬性,且使用餘弦(Cosine)演算法計算二個值域組(A,B)之二個相近的值域(如A1,B2)中已去除不適合之屬性後所剩下之屬性中二個屬性之陣列的距離,其中,若二個屬性之陣列的距離大於所剩下之屬性之陣列的平均距離,則將二個屬性列為二個相近的值域(如A1,B2)中一對匹配之屬性;自動依據二個相近的值域(如A1,B2)中複數對匹配之屬性的值計算複數對匹配之屬性的信息熵與權重,以依據複數對匹配之屬性的信息熵與權重計算二個相近的值域(如A1,B2)之自動匹配、人工匹配與未匹配三者之分數區間;以及將二個相近的值域(如A1,B2)中所有需計算分數區間之屬性的相似度分數乘以各自之權重後進行加總以得到所有需計算分數區間之屬性的總相似度分數,再依據所有需計算分數區間之屬性的總相似度分數選擇自動匹配、人工匹配與未匹配之一者以進行二個相近
的值域(如A1,B2)之屬性之映射。
詳言之,如圖2所示,自動化組織值域映射方法可包括例如下列步驟S1至步驟S11之內容。
[1]步驟S1:選擇同一或不同組織之二個值域組(A,B)。亦即,電子裝置1可自動選擇同一或不同組織之二個(不同)值域組(A,B),且二個值域組(A,B)各自包括複數個不同之值域。
舉例而言,如圖3之實施例所示,電子裝置1分別選擇組織G1之一個值域組A與組織G2之一個值域組B,組織G1之值域組A可包括複數個不同之值域A1至值域Am,且組織G2之值域組B可包括複數個不同之值域B1至值域Bn,其中,前述m或n代表正整數,且m與n可以相等或不相等,亦即值域組A之值域(A1-Am)之數量與值域組B之值域(B1-Bn)之數量可以相等或不相等。
[2]步驟S2:使用字向量比對出二個值域組(A,B)之相近(相似)的值域。亦即,電子裝置1可自動計算二個值域組(A,B)之每個值域的字向量,以將二個值域組(A,B)之每個值域的字向量進行縱向求和(而非橫向求和)之計算後加以比對,且將二個值域組(A,B)之每個值域的字向量與不同值域的字向量進行求和之計算後加以比對,以依據比對之結果找出二個值域組(A,B)之二個相近的值域(如A1,B2),俾依據二個值域組(A,B)之二個相近的值域(如A1,B2)求出一值域向量對應列表(圖未示)。
舉例而言,如圖4與圖5之實施例所示,電子裝置1可使用字向量比對出值域組A之值域A1與值域組B之值域B2為二個相近的值域(如A1,B2),值域組A之值域A1包括複數個不同之屬性A11至屬性
A1x,且值域組B之值域B2包括複數個不同之屬性B21至屬性B2y。
因此,在上述步驟S2中,本發明能利用字向量(如字向量集合)從二個組織(如二個公司/單位/機構/系統)中找出二個值域組(A,B)之二個值域之相關性(相似性),以利自動依據二個值域之相關性(相似性)查出二個值域依照字向量表示為二個相近之值域(如A1,B2)。前述二個相近的值域(如A1,B2)可包括同一種類或相似種類的值域,例如二個相近的值域(如A1,B2)皆為醫療、生技、軟體、資訊或通訊等種類的值域。
[3]步驟S3:計算具有唯一性之值之屬性及選出複數對匹配之屬性。亦即,電子裝置1可自動使用唯一性演算法(如屬性唯一性演算法),並依照值域向量對應列表批次或逐對(每二個屬性為一對)計算二個值域組(A,B)之二個相近的值域(如A1,B2)中具有唯一性之值之屬性,以去除二個值域組(A,B)之二個相近的值域(如A1,B2)中不適合之屬性,例如不適合之屬性可代表二個相近的值域(如A1,B2)中屬性之值為空值(Null)或至少二個屬性之值完全相同。繼之,電子裝置1可自動使用餘弦(Cosine)演算法計算二個值域組(A,B)之二個相近的值域(如A1,B2)中已去除不適合之屬性後所剩下之屬性中二個屬性之陣列的距離,若二個屬性之陣列的距離大於剩下之屬性之陣列的平均距離,則將此二個屬性列為二個相近的值域(如A1,B2)中一對匹配之屬性,以據此選出複數對匹配之屬性作為適合之屬性。
舉例而言,如圖4與圖5之實施例所示,電子裝置1可使用唯一性演算法(如屬性唯一性演算法)以去除二個值域組(A,B)之二個相近的值域(如A1,B2)中不適合之屬性,例如不適合之屬性可包括屬性之值為
空值(如空值太多)、或至少二個屬性之值完全相同(即完全一致/一模一樣)。
[4]步驟S4:計算屬性之信息熵(Information Entropy)、權重以及自動匹配、人工匹配與未匹配三者之分數區間。亦即,電子裝置1可自動依據二個相近的值域(如A1,B2)中複數對匹配之屬性的值計算複數對匹配之屬性的信息熵與權重(如權重分數),再由電子裝置1依據複數對匹配之屬性的信息熵與權重(如權重分數)計算二個相近的值域(如A1,B2)之自動匹配、人工匹配(如手動匹配)與未匹配(如無法匹配)三者之分數區間。
舉例而言,如圖6與圖7所示之實施例,二個相近的值域(如A1,B2)中,自動匹配之演算法可選擇餘弦(Cosine)演算法、杰卡德(Jaccard)演算法、曼哈頓(Manhattan)演算法與漢明(Hamming)距離演算法等之其中一者,自動匹配之條件或分數區間可高於第一相似度門檻值(如70%以上或70%-100%),人工匹配之條件或分數區間可介於第一相似度門檻值與第二相似度門檻值之間(如10%-70%),且未匹配之條件可低於第二相似度門檻值(如10%以下或0%-10%)。
又,若二個相近的值域(如A1,B2)之屬性(如備註/性質)之值重複出現,則電子裝置1可自動調降或按照百分比(%)降低二個相近的值域(如A1,B2)之屬性之權重(如權重分數)。
舉例而言,如圖5之實施例所示,二個相近的值域(如A1,B2)中,複數對匹配之屬性的值重覆於屬性之「備註」或「性質」中出現諸如超音波、非侵入、侵入式、機械侵入等,則電子裝置1可自動調降或按照百分比(%)降低屬性之「備註」或「性質」的權重。又如圖5與圖6之實施例所示,複數對匹配之屬性中「描述」的權重為90%,且複數對匹配之
屬性中「備註」的權重(如調降權重)為10%。
因此,在上述步驟S2至步驟S4中,本發明能快速將二個值域組(A,B)之二個相近的值域(如A1,B2)進行字向量之比對以找出二個相近的值域(如A1,B2)之相近性,再批次(逐對)透過唯一性演算法(如屬性唯一性演算法)與餘弦(Cosine)演算法以分別去除不適合之屬性及選出複數對匹配之屬性(適合之屬性),然後映射屬性之信息熵以計算出各屬性之權重(如權重分數)與自動匹配/人工匹配/未匹配三者之分數區間。
[5]步驟S5:將需計算權重之屬性的值經由同義詞庫40或同義詞組之比對以找出相應之同義詞進行置換。亦即,電子裝置1可自動將二個相近的值域(如A1,B2)中需計算權重(如權重分數)之屬性的值經由同義詞庫40或同義詞組之比對以找出相應之同義詞,再將需計算權重(如權重分數)之屬性的值置換(替換)成相應之同義詞。舉例而言,如圖5之實施例所示,假定屬性之備註的值為「超音波」,則超音波之同義詞可為「超聲」或「超聲波」等。
[6]步驟S6:將需計算權重之屬性的值經由反義詞庫50或反義詞組之比對以找出相應之反義詞進行置換。亦即,電子裝置1可自動將二個相近的值域(如A1,B2)中需計算權重(如權重分數)之屬性的值經由反義詞庫50或反義詞組之比對以找出相應之反義詞,再將需計算權重(如權重分數)之屬性的值置換(替換)成相應之反義詞。舉例而言,如圖5之實施例所示,假定屬性之性質的值為「侵入式」,則侵入式之反義詞可為「非侵入式」或「未侵入」等。
因此,在上述步驟S5或步驟S6中,本發明能自動對二個相
近之值域(如A1,B2)之各屬性的值進行同義詞庫40或同義詞組之同向置換或比對置換,亦自動能對二個相近的值域(如A1,B2)之各屬性的值進行反義詞庫50或反義詞組之反向置換或反向對映。
[7]步驟S7:將每一對屬性之值進行完全相等之計算,以將完全相同之值進行篩查變成自動匹配。亦即,電子裝置1可自動將二個相近的值域(如A1,B2)中每一對(兩兩一對)屬性之值進行完全相等(即等於等於(==)或100%相等)之計算,以將二個相近的值域(如A1,B2)中每一對屬性之完全相等(完全相同)的值進行篩查變成自動匹配,進而增加(加速)二個相近的值域(如A1,B2)中每一對屬性之值之匹配速度或查詢速度。
因此,在上述步驟S7中,本發明能計算自動匹配之條件,先將二個相近的值域(如A1,B2)中每一對屬性(如名稱/描述/備註/性質等)之值進行完全相等(即等於等於(==))之計算,以對二個相近的值域(如A1,B2)中每一對屬性之值進行完全吻合之自動匹配,進而增加(加速)二個相近的值域(如A1,B2)中每一對屬性之值之匹配速度或查詢速度。
[8]步驟S8:使用相似度演算法計算出每個屬性之相似度分數。亦即,電子裝置1可自動使用餘弦(Cosine)演算法、杰卡德(Jaccard)演算法、曼哈頓(Manhattan)演算法與漢明(Hamming)距離演算法等各種相似度演算法之其中一者,以計算出二個相近的值域(如A1,B2)中每個屬性之相似度分數。
舉例而言,如圖4與圖5所示之實施例,電子裝置1可使用上述各種相似度演算法之一者,以計算出二個相近的值域(如A1,B2)中每個屬性(A11-A1x,B21-B2y)之相似度分數。
[9]步驟S9:將每個屬性之相似度分數乘以每個屬性之權重以得到每個屬性之分數。亦即,電子裝置1可自動將二個相近的值域(如A1,B2)中每個屬性之相似度分數乘以每個屬性之權重(如權重分數)以得到每個屬性之分數。
因此,在上述步驟S8至步驟S9中,本發明能自動使用餘弦(Cosine)演算法、杰卡德(Jaccard)演算法、曼哈頓(Manhattan)演算法與漢明(Hamming)距離演算法等各種相似度演算法之其中一者,以利計算出二個相近的值域(如A1,B2)中每個屬性之相似度分數,再自動將二個相近的值域(如A1,B2)中每個屬性之相似度分數乘以每個屬性之權重(如權重分數),以利進一步得到每個屬性之分數。
[10]步驟S10:將屬性之相似度分數乘以權重後進行加總,以供選擇自動匹配、人工匹配與未匹配之一者。亦即,電子裝置1可自動將二個相近的值域(如A1,B2)中所有需計算分數區間之屬性的相似度分數乘以各自之權重(如權重分數)後進行加總,以得到所有需計算分數區間之屬性的總相似度分數,再由電子裝置依據所有需計算分數區間之屬性的總相似度分數選擇(決定)自動匹配、人工匹配(手動匹配)或未匹配,以利迅速進行二個相近的值域(如A1,B2)之屬性之映射。
舉例而言,如圖6與圖7之實施例所示,電子裝置1可執行二個相近的值域(如A1,B2)之智能匹配,以將二個相近的值域(如A1,B2)中需計算分數區間之屬性的總相似度分數高於第一相似度門檻值(如70%以上或70%-100%)時歸類於自動匹配,並將二個相近的值域(如A1,B2)中需計算分數區間之屬性的總相似度分數介於第一相似度門檻值與第二相
似度門檻值之間(如10%-70%)時歸類於人工匹配(手動匹配),且將二個相近的值域(如A1,B2)中需計算分數區間之屬性的總相似度分數低於第二相似度門檻值(如10%以下)時歸類於未匹配。
因此,在上述步驟S10中,本發明能自動將二個相近的值域(如A1,B2)中所有需計算分數區間之屬性的相似度分數乘以各自之權重(如權重分數)後進行加總以得到需計算分數區間之屬性的總相似度分數,再依據需計算分數區間之屬性的總相似度分數選擇(決定)自動匹配、人工匹配與未匹配之一者,以利迅速進行二個相近的值域(如A1,B2)之屬性之映射。
[11]步驟S11:將二個相近的值域(如A1,B2)之計算結果進行版本之控制及更新。亦即,在上述步驟S1至步驟S10中,電子裝置1可依據二個相近的值域(如A1,B2)之所有計算結果進行二個相近的值域(如A1,B2)之版本之控制,以於二個相近的值域(如A1,B2)之版本有所改變時,由電子裝置1自動重新計算或更新二個相近的值域(如A1,B2)之版本,有利於達成二個相近的值域(如A1,B2)之版本之自動控制及更新作業。
申言之,本發明能自動使用唯一性演算法(如屬性唯一性演算法)與餘弦(Cosine)演算法對二個值域組(A,B)的二個值域(如A1,B2)之屬性進行對映或對比,再自動依照二個值域組(A,B)的二個值域(如A1,B2)之屬性的信息熵進行權重(如權重分數)之計算及分數區間之匹配,然後自動對二個值域(如A1,B2)之各屬性的值進行同義詞庫40(同義詞組)之同向置換及/或反義詞庫50(反義詞組)之反向置換。
本發明能將二個相近的值域(如A1,B2)之屬性中完全相同之
值進行自動匹配,再利用餘弦(Cosine)演算法/杰卡德(Jaccard)演算法/曼哈頓(Manhattan)演算法/漢明(Hamming)距離演算法等各種相似度演算法,將每一對(兩兩一對)屬性之值進行相似度運算以得到每個屬性之相似度分數,接著將每個屬性之相似度分數乘以各自之權重(如權重分數)後進行加總以得到總相似度分數,然後依據屬性之總相似度分數進行值域(如編碼)之分數區間落於自動匹配、人工分配(如手動匹配)或未匹配(如無法匹配),俾利於進行二個相近的值域(如A1,B2)之屬性之自動化映射。
本發明能自動經由同義詞庫40之比對置換及/或反義詞庫50之反向對映,以將二個相近的值域(如A1,B2)中每一對屬性之值使用完全相等(即等於等於(==)或100%吻合)之比對以加快比對速度,再自動使用相似度演算法計算每個屬性之相似度分數,然後自動計算出每個屬性之權重以提高匹配之正確性,有利於大幅提升值域之映射(對碼)的效率,也能减少值域之映射(對碼)的人工參與。
本發明能對同一或不同組織(如公司/單位/機構/系統)中任何值域組(A,B)之值域及屬性進行自動匹配映射,尤其當二個值域組(A,B)之值域及屬性有高度之相似性時,能執行自動化運算以大幅减化人工作業。
本發明具有「自動化」之效果,能利用上述演算法將二個值域組(A,B)之值域直接進行自動化映射(對碼),以利用演算法計算出適當之屬性權重與匹配結果,亦能達到二個值域組(A,B)之值域及屬性之自動化映射功能。
本發明具有「即時性」之效果,能於二個值域組(A,B)具有大量值域及屬性等各種資料時,藉由二個值域組(A,B)之值域及屬性之相
似度比對,以利減少人工介入二個值域組(A,B)之值域及屬性之匹配,亦能增加二個值域組(A,B)之值域及屬性之匹配速度。
本發明具有「準確性」之效果,能利用分數區間之匹配功能將自動匹配之相似度門檻值設定較高(如高於人工匹配之相似度門檻值),剩下部分才進行人工匹配(手動匹配),以利增加二個值域組(A,B)之值域間之自動化映射(對碼)之準確性。
本發明之電子裝置1、電腦可讀媒介及自動化組織值域映射方法能用於醫療業、生技業、軟體業、資訊業、通訊業、科技產業等各種領域,亦可以擴展至任何領域。
上述實施形態僅例示性說明本發明之原理、特點及其功效,幷非用以限制本發明之可實施範疇,任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾,均仍應為申請專利範圍所涵蓋。因此,本發明之權利保護範圍應如申請專利範圍所列。
S1至S11:步驟
Claims (11)
- 一種自動化組織值域映射方法,包括:選擇同一或不同組織之二個值域組,其中,該二個值域組各自包括複數個值域;自動計算該二個值域組之複數個值域的字向量,以依據該二個值域組之複數個值域的字向量比對出該二個值域組之二個相近的值域;由電子裝置批次或逐對計算該二個值域組之該二個相近的值域中具有唯一性之值的屬性以去除該二個相近的值域中不適合之屬性,且使用餘弦演算法計算該二個值域組之該二個相近的值域中已去除不適合之屬性後所剩下之屬性中二個屬性之陣列的距離,其中,若該二個屬性之陣列的距離大於所剩下之屬性之陣列的平均距離,則將該二個屬性列為該二個相近的值域中一對匹配之屬性;自動依據該二個相近的值域中複數對匹配之屬性的值計算該複數對匹配之屬性的信息熵與權重,以依據該複數對匹配之屬性的信息熵與權重計算該二個相近的值域之自動匹配、人工匹配與未匹配三者之分數區間;以及由該電子裝置將該二個相近的值域中所有需計算該分數區間之屬性的相似度分數乘以各自之權重後進行加總以得到所有需計算該分數區間之屬性的總相似度分數,再依據所有需計算該分數區間之屬性的總相似度分數選擇該自動匹配、人工匹配與未匹配之一者以進行該二個相近的值域之屬性之映射。
- 如請求項1所述之自動化組織值域映射方法,更包括自動計算該二個值域組之每個值域的字向量,以將該二個值域組之每個值域的字向量進行縱向求和之計算後加以比對,且將該二個值域組之每個值域的 字向量與不同值域的字向量進行求和之計算後加以比對,以依據比對之結果找出該二個值域組之該二個相近的值域。
- 如請求項1所述之自動化組織值域映射方法,更包括自動依據該二個值域組之該二個相近的值域求出一值域向量對應列表,以依照該值域向量對應列表批次或逐對計算該二個值域組之該二個相近的值域中具有該唯一性之值的屬性,以去除該二個值域組之該二個相近的值域中不適合之屬性。
- 如請求項1所述之自動化組織值域映射方法,更包括若該二個相近的值域之屬性之值重複出現,則自動調降或按照百分比降低該二個相近的值域之屬性之權重。
- 如請求項1所述之自動化組織值域映射方法,更包括自動將該二個相近的值域中需計算該權重之屬性之值經由同義詞庫或同義詞組之比對以找出相應之同義詞,再將需計算該權重之屬性之值置換成相應之該同義詞。
- 如請求項1所述之自動化組織值域映射方法,更包括自動將該二個相近的值域中需計算該權重之屬性之值經由反義詞庫或反義詞組之比對以找出相應之反義詞,再將需計算該權重之屬性之值置換成相應之該反義詞。
- 如請求項1所述之自動化組織值域映射方法,更包括自動將該二個相近的值域中每一對屬性之值進行完全相等之計算,以將該二個相近的值域中每一對屬性之完全相等之值進行篩查變成自動匹配,進而增加該二個相近的值域中每一對屬性之值之匹配速度或查詢速度。
- 如請求項1所述之自動化組織值域映射方法,更包括將該二個相近的值域中需計算該分數區間之屬性的總相似度分數高於一第一相 似度門檻值時歸類於該自動匹配,並將該二個相近的值域中需計算該分數區間之屬性的總相似度分數介於該第一相似度門檻值與一第二相似度門檻值之間時歸類於該人工匹配,且將該二個相近的值域中需計算該分數區間之屬性的總相似度分數低於該第二相似度門檻值時歸類於該未匹配。
- 如請求項1所述之自動化組織值域映射方法,更包括依據該二個相近的值域之計算結果進行該二個相近的值域之版本之控制,以於該二個相近的值域之版本有所改變時,自動更新該二個相近的值域之版本。
- 一種電子裝置,包括:記憶體,係儲存有指令;以及處理器,係執行該記憶體所儲存之該指令,以實現如請求項1至9中任一項所述之自動化組織值域映射方法。
- 一種電腦可讀媒介,應用於電子裝置中,係儲存有指令,以執行如請求項1至9中任一項所述之自動化組織值域映射方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111149019A TWI827409B (zh) | 2022-12-20 | 2022-12-20 | 自動化組織值域映射方法、電子裝置及電腦可讀媒介 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111149019A TWI827409B (zh) | 2022-12-20 | 2022-12-20 | 自動化組織值域映射方法、電子裝置及電腦可讀媒介 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWI827409B true TWI827409B (zh) | 2023-12-21 |
Family
ID=90053519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111149019A TWI827409B (zh) | 2022-12-20 | 2022-12-20 | 自動化組織值域映射方法、電子裝置及電腦可讀媒介 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI827409B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI685761B (zh) * | 2017-01-22 | 2020-02-21 | 香港商阿里巴巴集團服務有限公司 | 詞向量處理方法及裝置 |
US10698977B1 (en) * | 2014-12-31 | 2020-06-30 | Guangsheng Zhang | System and methods for processing fuzzy expressions in search engines and for information extraction |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN115203208A (zh) * | 2022-07-15 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 值域表匹配方法、装置、设备及存储介质 |
-
2022
- 2022-12-20 TW TW111149019A patent/TWI827409B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10698977B1 (en) * | 2014-12-31 | 2020-06-30 | Guangsheng Zhang | System and methods for processing fuzzy expressions in search engines and for information extraction |
TWI685761B (zh) * | 2017-01-22 | 2020-02-21 | 香港商阿里巴巴集團服務有限公司 | 詞向量處理方法及裝置 |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN115203208A (zh) * | 2022-07-15 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 值域表匹配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3683758A1 (en) | Feature vector determination of documents | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109906450A (zh) | 用于通过相似性关联对电子信息排名的方法和装置 | |
WO2019041520A1 (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN110569289B (zh) | 基于大数据的列数据处理方法、设备及介质 | |
US11537905B2 (en) | Inference-based assignment of data type to data | |
JP6987209B2 (ja) | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム | |
US20190238564A1 (en) | Method of cyberthreat detection by learning first-order rules on large-scale social media | |
Suh et al. | L-ensnmf: Boosted local topic discovery via ensemble of nonnegative matrix factorization | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN107832319B (zh) | 一种基于语义关联网络的启发式查询扩展方法 | |
CN107515904B (zh) | 一种职位搜索方法和计算设备 | |
Gao et al. | Star-structured high-order heterogeneous data co-clustering based on consistent information theory | |
CN111415167A (zh) | 网络欺诈交易检测方法及装置、计算机存储介质和终端 | |
WO2021174924A1 (zh) | 信息生成方法、装置、电子设备及存储介质 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
WO2019120169A1 (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
US20170109402A1 (en) | Automated join detection | |
TWI827409B (zh) | 自動化組織值域映射方法、電子裝置及電腦可讀媒介 | |
CN114556367A (zh) | 使用序列稀疏注意的可解释性表格数据学习 | |
CN111222032A (zh) | 舆情分析方法及相关设备 | |
CN117009621A (zh) | 信息搜索方法、装置、电子设备、存储介质及程序产品 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
JP7151730B2 (ja) | 推論規則自動発見方法およびシステム、データベースおよび検索方法 |