TWI811179B - 提供文字探勘工作流程編輯的方法與系統 - Google Patents
提供文字探勘工作流程編輯的方法與系統 Download PDFInfo
- Publication number
- TWI811179B TWI811179B TW112104622A TW112104622A TWI811179B TW I811179 B TWI811179 B TW I811179B TW 112104622 A TW112104622 A TW 112104622A TW 112104622 A TW112104622 A TW 112104622A TW I811179 B TWI811179 B TW I811179B
- Authority
- TW
- Taiwan
- Prior art keywords
- text mining
- target
- source
- tuple
- task
- Prior art date
Links
- 238000005065 mining Methods 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 239000000463 material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008676 import Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本發明提出一種提供文字探勘工作流程編輯的方法,包括:定義文字探勘工作流程為元組,包含資料物件的集合、文字探勘任務的集合、文字探勘鍊接的集合以及閘道的集合;定義資料物件為包含主鍵、屬性、以及資料的元組;定義文字探勘任務為包含輸入、控制變數、輸出、執行狀態、與例外處理機制的元組;定義文字探勘鍊接為包含來源與目標的元組;定義閘道為包含輸入、輸出以及種類的元組;以及提供使用者介面以編輯文字探勘工作流程。
Description
本揭露是有關於文字探勘的工作流程。
科學工作流程(scientific workflow)的主要目的是讓科學家快速的建立一個可以執行的工作流程,讓使用者可以重複使用已經開發完成的程式碼,藉此減少進行實驗所需要的時間。雖然文字探勘是機器學習的一個分支,但是文字探勘與一般的機器學習任務不相同,一般的機器學習任務處理的是結構化的資料,而文字探勘處理的是非結構化的資料,因此通常需要對這些非結構化的資料進行前處理。
本揭露的實施例提出一種提供文字探勘工作流程編輯的方法,適用於電腦系統。此方法包括:定義文字探勘工作流程為第一元組(tuple),第一元組包含資料物件的集合、文字探勘任務的集合、文字探勘鍊接的集合以及閘道的集合;定義資料物件為第二元組,第二元組包含主鍵、屬性、以及資料;定義文字探勘任務為第三元組,第三元組包含第一輸入、控制變數、第一輸出、執行狀態、例外處理機制,其中第一輸入與第一輸出屬於資料物件;定義文字探勘鍊接為第四元組,第四元組包含來源與目標,其中來源與目標屬於文字探勘任務或是閘道;定義閘道為第五元組,第五元組包含第二輸入、第二輸出以及種類;以及提供使用者介面以編輯文字探勘工作流程。
在一些實施例中,當文字探勘任務為合併任務時,第一輸入的個數大於一,第一輸出包含第一輸入中的資料。
在一些實施例中,閘道中的第二輸入屬於文字探勘任務,第二輸出包含目標任務以及條件,種類為互斥分裂或及分裂。上述的方法還包括:當種類為互斥分裂時,對於每個第二輸出,當條件滿足時執行對應的目標任務;以及當種類為及分裂,對於每個第二輸出,執行對應個目標任務。
在一些實施例中,上述方法還包括:透過本體論驗證文字探勘鍊接中的來源與目標是否合法。
在一些實施例中,本體論定義了多種邊與多種節點,這些邊包含is-a邊、inputOf邊以及dataflow邊,節點則包含文字探勘任務、資料物件以及文字探勘建構子。上述驗證文字探勘鍊接中的來源與目標是否合法的步驟包括:當來源為閘道時,驗證來源的輸入與目標是否合法;當目標為閘道時,判斷為合法;如果來源與目標的其中之一屬於文字探勘建構子,根據dataflow邊驗證來源與目標的合法性;以及如果來源與目標都不屬於文字探勘建構子,根據inputOf邊驗證來源與目標的合法性。
以另一個角度來說,本揭露也提出一種提供文字探勘工作流程編輯的系統,包括資料庫與電腦系統,電腦系統用以執行上述的方法。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
關於本文中所使用之「第一」、「第二」等,並非特別指次序或順位的意思,其僅為了區別以相同技術用語描述的元件或操作。
圖1是根據一實施例繪示提供文字探勘工作流程編輯的系統架構圖。請參照圖1,此系統包括了電腦系統110與資料庫120,其中電腦系統110可透過任意有線或無線的手段通訊連接至資料庫120。電腦系統110可為個人電腦、伺服器、分散式電腦、工業電腦或具有計算能力的各種電子裝置等。資料庫120中儲存有關於文字探勘的各種模組、訓練好的訓練模型、以及訓練集等。電腦系統110用以根據資料庫120中的資料提供使用者介面130,使用者141、142可以在使用者介面130中編輯工作流程。舉例來說,圖2是根據一實施例繪示使用者介面的範例示意圖。請參照圖2,使用者介面包括了工具列210、資料匯入匯出欄位220、處理欄位230以及流程顯示版面240。工具列210中可包括多個圖標,用以開新檔案、讀取舊檔、刪除、放大、縮小、回到上一步、下一步、執行流程、停止流程等等,本揭露並不限於此。資料匯入匯出欄位220可顯示多個方塊,這些方塊對應至資料庫中事先建立的模組,用以進行資料的匯入與匯出,例如方塊221是用以進行CSV檔案的匯入。處理欄位230中的方塊231可以是關於文字探勘的任意模組,例如用來替換字串、文章斷句、中文斷詞、英文斷詞、清除停用詞、轉為文件矩陣格式(document-term matrix,DTM)格式、執行主成分分析(principle component analysis,PCA)等等,本揭露並不限於此。在一些實施例中方塊231上顯示了模組的名稱,但為了簡化起見這些文字說明並未繪示於圖2中。流程顯示版面240中是用以編輯工作流程,使用者可以從資料匯入匯出欄位220以及處理欄位230選取任意的方塊,將這些方塊拖曳到流程顯示版面240中,再加上箭頭以表示流程順序,如此一來便可以執行文字探勘的工作。
在此例子中,流程顯示版面240顯示了組件(component)241~250,其中組件241代表流程的開始,組件242是用以匯入CSV檔,組件243用以替換字串,組件244用以執行文章斷句,組件245用以執行中文斷詞,組件246用以清除停用詞。組件247是一個閘道(gateway),用以提供流程的分支,其中一個分支進行組件248,進行詞頻計算,另一個分支進行組件249,進行情緒分析。最後的組件250是用以表示流程的結束。這些組件241~250都可以從資料匯入匯出欄位220以及處理欄位230中選取,或者有些組件(例如組件241與組件250)可以在建立新流程時便預先顯示在螢幕上。然而,圖2僅是一範例,本揭露並不限制使用者介面中的版面配置,也不限制所提供模組的種類與數量。
本揭露是要提供一個通用(general)的介面,讓使用者可以透過視覺化的編輯方式來建立所需要的文字探勘工作流程。為了達到此目的,必須定義工作流程中的資料、任務等。首先定義資料物件,資料物件為一個元組(tuple),表示為<K、A、D>,其中K表示主鍵(primary key),A表示資料物件的屬性。D表示資料內容,可以是工作流程的輸入或者是一個任務的輸出。在一些實施例中,資料物件可以用一個表格來記錄,其中每一行代表一個文件。表格中有多個欄位來記錄上述的主鍵K、屬性A與資料內容D等。舉例來說,當資料物件為網路文章時,主鍵K為URL網址(Uniform Resource Locator),屬性A記錄了文章日期、文章來源、文章類別等,而資料內容D則記錄了文章的內容(多個字串)。
文字探勘流程包含多個任務組成,例如圖2中的組件242~246、248、249都是文字探勘任務。在此,文字探勘任務定義為元組<I、C、O、R、X>。I表示任務的輸入,屬於上述的資料物件。C為任務的控制變數(或稱參數)。O為任務的輸出,也屬於上述的資料物件。R為執行狀態,例如為成功、例外或是失敗。X為例外處理機制,例如為Javascript的函式。在一些實施例中,控制變數C可以進一步定義為多個元組,表示為<k、v>,其中k表示變數名稱,而v表示變數的數值。
接下來定義文字探勘鍊接(link),用以連接不同的任務,或是連接在任務與閘道之間。文字探勘鍊接為一個元組,表示為<st、dt>,其中st表示來源,可屬於文字探勘任務或是閘道;而dt表示目標,也可以屬於文字探勘任務或是閘道。
閘道也是一個元組,表示為<st、dts、type>。其中st表示輸入。dts代表多個輸出,每個輸出dts可以進一步表示為元組<dt、condition>,其中dt為目標任務,屬於上述的文字探勘任務。condition指的是條件,是一個合式公式(well-formed formula,WFF)。此外type指的是閘道的種類,可為互斥分裂(exclusive-split)或者是及分裂(and-split)。當閘道的種類為互斥分裂時,對於每一個輸出dts都會判斷條件condition是否滿足,如果滿足則執行對應的目標任務dt。當閘道的種類為及分裂時,對於每一個輸出dts,不論條件是否滿足都會執行目標任務dt,此類閘道可用於平行處理等,但本揭露並不限於此。
結合上述的定義,文字探勘工作流程可以定義為一個元組,表示為<D、T、L、G>,其中D為資料物件的集合,T為文字探勘任務的集合,L為文字探勘鍊接的集合,而G為閘道的集合。以下將舉例子來說明。
圖3是根據一實施例繪示使用者介面上文字探勘工作流程的示意圖。在圖3的實施例中文字探勘工作流程包含了組件301~309。除了組件301、309,其餘每個組件都會產生資料物件傳遞給下一個組件。組件301屬於特別的文字探勘任務,稱為工作流程建構子(ControlFlow construct),用以表示工作流程的開始。組件302~304都為文字探勘任務,分別用來執行CSV檔匯入、文章斷句以及中文斷詞。組件305為閘道,種類為及分裂,因此後續的組件306、307都會執行。組件306、307為文字探勘任務,分別用以執行情緒分析以及清除停用詞。組件306、307所產生的資料物件都會傳送給組件308,組件308為文字探勘任務,用以執行合併(組件308又稱為合併任務),組件308的輸入個數會大於1。如上所述,資料物件的元組表示為<K、A、D>,在此例子中組件306所產生的資料物件中的主鍵K為URL網址,屬性A為文章日期,而資料D包含了文章的情緒數值。組件307所產生的資料物件中的主鍵K為URL網址,屬性A為文章日期,而資料D包含了文章清除停用字後的斷詞結果(token)。組件308用以結合所輸入的兩筆資料D,因此這個文字探勘任務的輸出包含了所有輸入的資料D,例如可用兩個表格來分別儲存來自組件306、607的資料D。最後,組件309也是工作流程建構子,用以表示工作流程的結束。此外,相鄰兩個組件之間都有一個文字探勘鍊接,例如組件302與組件303之間存在文字探勘鍊接320,這個文字探勘鍊接320的來源是組件302,目標為組件303,以此類推。
圖4是根據一實施例繪示使用者介面上文字探勘工作流程的示意圖。在圖4的實施例中文字探勘流程包含了組件401~409,其中組件401與組件409為工作流程建構子,分別表示工作流程的開始與結束。組件402~405都是文字探勘任務,分別用以執行PTT爬蟲、文章斷句、中文斷詞、以及把資料轉換為DTM格式。組件406為閘道,種類為互斥分裂,當所擷取的資料物件的時間小於一預設時間(圖中表示為“T”)時進行組件407,反之進行組件408。組件407用以建立k最近鄰居(k nearest neighbor,KNN)的機器學習模型,組件408用以根據機器學習模型來預測文章的種類。因此,當處理舊資料時,這些舊資料會傳遞至組件407以建立模型,當處理新資料時,這些新資料會傳遞至組件408進行預測。同樣的,資料物件的元組表示為<K、A、D>,組件405所產生的資料物件中的主鍵K為URL網址,屬性A為文章日期與文章類別,資料D則為DTM矩陣。組件407所產生的資料物件的主鍵K為機器學習模型的辨識碼,屬性A為空值(null),資料D為訓練好的機器學習模型。組件408所產生的資料物件中的主鍵為URL網址,屬性A為文章日期,資料D為所預測的文章類別。
電腦系統110除了提供使用者介面來編輯文字探勘工作流程,另有一文字探勘工作流程驗證本體論(Ontology)用來驗證個別工作流程實例是否合法(valid)。在驗證本體論中定義了三種節點與三種邊,這三種節點分別是文字探勘任務、資料物件以及文字探勘建構子。上述工作流程中的每個組件都可以被分類別其中一種節點。此外,三種邊則分別是is-a(資料合法)邊、inputOf(輸入合法)邊以及dataflow(流程合法)邊。其中is-a邊連接兩個資料物件,inputOf邊連接文字探勘任務以及資料物件,而dataflow邊則連接文字探勘建構子與資料物件/文字探勘任務。圖5A為根據一實施例繪示文字探勘工作流程驗證本體論(Ontology)的示意圖。請參照圖5A,其中繪示了節點501~505、511~516、521、522。節點501~505屬於文字探勘任務,分別用以執行PTT爬蟲、文章斷句、中文斷詞、文章分類與PCA。節點511~516屬於資料物件,分別代表DataObject、RawData、Tokens、DocVector、DTM與Tf_idf等不同的資料型態。節點521、522屬於文字探勘建構子,分別代表開始(Start)與結束(End)。
圖5A中也繪示了邊531~534、541~545、561、562。例如,邊531連接了節點502與節點512,邊541連接節點512與節點511,以此類推。邊531~534屬於inputOf邊,用以定義每個文字探勘任務的合法輸入,可用以驗證一個資料物件是否為一個文字探勘任務的合法輸入。inputOf邊是從資料物件指向文字探勘任務,對於文字探勘流程中的每個文字探勘鍊接,可以用事先定義的inputOf邊來判斷來源之資料物件與目標文字探勘任務是否合法。具體來說,文字探勘鍊接表示為<st、dt>,如果目標dt為文字探勘任務,則可以判斷來源st所產生的資料物件是否為目標dt的合法輸入。例如,如果來源st的輸出資料型態為“RawData”,目標dt為“文章斷句”,則可參照邊531,因此這樣的文字探勘鍊接是合法。如果來源st的輸出資料型態為“RawData”,目標dt為“PCA”,則參照邊533,“RawData”並不是“PCA”的合法輸入,表示這個文字探勘鍊接並不合法。
接下來請參照邊541~545,這些邊屬於is-a邊,是用以定義資料物件的繼承關係,在系統中可以使用上述之驗證本體論來描述所有資料物件的關係。is-a邊的來源可稱為子節點,目標可稱為父節點,子節點繼承了父節點的所有屬性。舉例來說,is-a邊543從節點515(DTM資料)指向節點514(DocVector資料),節點515為子節點,節點514為父節點,這表示DTM資料繼承了DocVector資料的所有屬性。如果一個任務的輸入定義為DocVector資料,則輸入也可以是DTM資料。
請參照邊561、562,這兩個邊屬於dataflow邊,用來驗證文字探勘建構子的位置是否合法。邊561連接節點521與節點501,用以定義“Start”的文字探勘建構子可連接的文字探勘任務為“PTT爬蟲”。邊562連接至節點522與節點511,用以定義“End”的文字探勘建構子只能接受“DataObject”的資料類別。由於節點512~516都直接或間接的繼承節點511,因此“End”的文字探勘建構子也能接受節點512~516的資料類別。在一個文字探勘鍊接中,如果來源或目標是文字探勘建構子,則可以套用上述規則來判斷是否合法。圖5A中的本體論僅是範例,在其他實施例中可加入其他的資料類型以及文字探勘任務,本揭露並不限於此。
圖5B是根據一實施例繪示驗證文字探勘鍊接的虛擬碼(pseudo code)。請參照圖5B,在此驗證的是文字探勘鍊接<st、dt>。在虛擬碼500的第1~2行,當來源屬於閘道時,將來源st的輸入當作目前的來源,也就是說判斷來源st的輸入與目標dt是否合法。舉例來說,在圖3的實施例中,當驗證組件305與組件306之間的文字探勘鍊接時,由於組件305是閘道,會把組件305的輸入(即組件304)作為來源st,因此所驗證的是組件304與組件306之間的合法性。在虛擬碼的第3~4行,當目標為閘道時,則判斷為合法。
在虛擬碼500的第6~7行,當來源st或是目標dt屬於工作流程建構子時,利用上述的dataflow邊來判斷來源與目標之間的合法性,如果合法則變數r就不會是空值(null)。舉例來說,可以檢查圖5A中的邊561、562,如果來源st或是目標dt的其中一者為“Start”或“End”,則檢查與另一者間之鏈結是否為圖5A本體論裡所表示的合法dataflow,以此類推。
在虛擬碼500的第9~11行,當來源st與目標dt都不是工作流程建構子時,利用上述的inputOf邊來驗證來源st與目標dt的合法性。其中“DataType”代表資料類別,“engName”代表任務的名稱,如果是合法輸入則變數r就不會是空值。舉例來說,當“DataType”為“RawData”,而“engName”為“文章斷句”時,則依照圖5A的邊531來驗證,屬於合法。
在虛擬碼500的第13~16行,根據變數r是否為空值回傳“TRUE”或是“FALSE”。
圖6是根據一實施例繪示提供文字探勘工作流程編輯的方法流程圖。請參照圖6,在步驟601中,定義文字探勘工作流程為第一元組(tuple),第一元組包含資料物件的集合、文字探勘任務的集合、文字探勘鍊接的集合以及閘道的集合。在步驟602,定義資料物件為第二元組,第二元組包含主鍵、屬性、以及資料。在步驟603,定義文字探勘任務為第三元組,第三元組包含第一輸入、控制變數、第一輸出、執行狀態、例外處理機制,其中第一輸入與第一輸出屬於資料物件。在步驟604,定義文字探勘鍊接為第四元組,第四元組包含來源與目標,其中來源與目標屬於文字探勘任務或是閘道。在步驟605,定義閘道為第五元組,第五元組包含第二輸入、第二輸出以及種類。在步驟606,提供使用者介面以編輯文字探勘工作流程。圖6中各步驟已詳細說明如上,在此便不再贅述。值得注意的是,圖6中各步驟可以實作為多個程式碼或是電路,本發明並不在此限。此外,圖6的方法可以搭配以上實施例使用也可以單獨使用,換言之,圖6的各步驟之間也可以加入其他的步驟。
在上述的系統與方法中,科學研究人員可以透過使用者介面輕鬆的呼叫文字探勘任務,建立工作流程來進行實驗或開發軟體,可以節省所需要的時間。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
110:電腦系統
120:資料庫
130:使用者介面
141,142:使用者
210:工具列
220:資料匯入匯出欄位
221,231:方塊
230:處理欄位
240:流程顯示版面
241~250,301~309,401~409:組件
320:文字探勘鍊接
531~534,541~545,561、562:邊
501~505,511~516,521,522:節點
500:虛擬碼
601~606:步驟
圖1是根據一實施例繪示提供文字探勘工作流程的系統架構圖。
圖2是根據一實施例繪示使用者介面的範例示意圖。
圖3是根據一實施例繪示使用者介面上文字探勘工作流程的示意圖。
圖4是根據一實施例繪示使用者介面上文字探勘工作流程的示意圖。
圖5A為根據一實施例繪示文字探勘工作流程驗證本體論(Ontology)的示意圖。
圖5B是根據一實施例繪示驗證文字探勘鍊接的虛擬碼。
圖6是根據一實施例繪示提供文字探勘工作流程的方法的流程圖。
601~606:步驟
Claims (10)
- 一種提供文字探勘工作流程編輯的方法,適用於一電腦系統,該方法包括: 定義該文字探勘工作流程為第一元組(tuple),該第一元組包含一資料物件的集合、一文字探勘任務的集合、一文字探勘鍊接的集合以及一閘道的集合; 定義該資料物件為第二元組,該第二元組包含一主鍵、至少一屬性、以及資料; 定義該文字探勘任務為第三元組,該第三元組包含第一輸入、控制變數、第一輸出、執行狀態、例外處理機制,其中該第一輸入與該第一輸出屬於該資料物件; 定義該文字探勘鍊接為第四元組,該第四元組包含來源與目標,其中該來源與該目標屬於該文字探勘任務或是該閘道; 定義該閘道為第五元組,該第五元組包含第二輸入、多個第二輸出以及種類;以及 提供一使用者介面以編輯該文字探勘工作流程。
- 如請求項1所述之提供文字探勘工作流程編輯的方法,其中當該文字探勘任務為合併任務時,該第一輸入的個數大於一,該第一輸出包含該些第一輸入中的該資料。
- 如請求項1所述之提供文字探勘工作流程編輯的方法,其中該第二輸入屬於該文字探勘任務,每一該些第二輸出包含目標任務以及條件,該種類為互斥分裂或及分裂,該方法還包括: 當該種類為該互斥分裂,對於每一該些第二輸出,當該條件滿足時執行對應的該目標任務;以及 當該種類為及分裂,對於每一該些第二輸出,執行對應個該目標任務。
- 如請求項1所述之提供文字探勘工作流程編輯的方法,還包括: 透過本體論驗證該文字探勘鍊接中的該來源與該目標是否合法。
- 如請求項4所述之提供文字探勘工作流程編輯的方法,其中該本體論定義了多種邊與多種節點,該些邊包含is-a邊、inputOf邊以及dataflow邊,該些節點包含該文字探勘任務、該資料物件以及文字探勘建構子,驗證該文字探勘鍊接中的該來源與該目標是否合法的步驟包括: 當該來源為該閘道時,驗證該來源的輸入與該目標是否合法; 當該目標為該閘道時,判斷為合法; 如果該來源與該目標的其中之一屬於該文字探勘建構子,根據該dataflow邊驗證該來源與該目標的合法性;以及 如果該來源與該目標都不屬於該文字探勘建構子,根據該inputOf邊驗證該來源與該目標的合法性。
- 一種提供文字探勘工作流程編輯的系統,包括: 一資料庫:及 一電腦系統,通訊連接至該資料庫,用以執行多個步驟: 定義該文字探勘工作流程為第一元組(tuple),該第一元組包含一資料物件的集合、一文字探勘任務的集合、一文字探勘鍊接的集合以及一閘道的集合; 定義該資料物件為第二元組,該第二元組包含一主鍵、至少一屬性、以及資料; 定義該文字探勘任務為第三元組,該第三元組包含第一輸入、控制變數、第一輸出、執行狀態、例外處理機制,其中該第一輸入與該第一輸出屬於該資料物件; 定義該文字探勘鍊接為第四元組,該第四元組包含來源與目標,其中該來源與該目標屬於該文字探勘任務或是該閘道; 定義該閘道為第五元組,該第五元組包含第二輸入、多個第二輸出以及種類;以及 提供一使用者介面以編輯該文字探勘工作流程。
- 如請求項6所述之提供文字探勘工作流程編輯的系統,其中當該文字探勘任務為合併任務時,該第一輸入的個數大於一,該第一輸出包含該些第一輸入中的該資料。
- 如請求項6所述之提供文字探勘工作流程編輯的系統,其中該第二輸入屬於該文字探勘任務,每一該些第二輸出包含目標任務以及條件,該種類為互斥分裂或及分裂,該些步驟還包括: 當該種類為該互斥分裂,對於每一該些第二輸出,當該條件滿足時執行對應的該目標任務;以及 當該種類為及分裂,對於每一該些第二輸出,執行對應個該目標任務。
- 如請求項6所述之提供文字探勘工作流程編輯的系統,其中該些步驟還包括: 透過本體論驗證該文字探勘鍊接中的該來源與該目標是否合法。
- 如請求項9所述之提供文字探勘工作流程編輯的系統,其中該本體論定義了多種邊與多種節點,該些邊包含is-a邊、inputOf邊以及dataflow邊,該些節點包含該文字探勘任務、該資料物件以及文字探勘建構子,驗證該文字探勘鍊接中的該來源與該目標是否合法的步驟包括: 當該來源為該閘道時,驗證該來源的輸入與該目標是否合法; 當該目標為該閘道時,判斷為合法; 如果該來源與該目標的其中之一屬於該文字探勘建構子,根據該dataflow邊驗證該來源與該目標的合法性;以及 如果該來源與該目標都不屬於該文字探勘建構子,根據該inputOf邊驗證該來源與該目標的合法性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112104622A TWI811179B (zh) | 2023-02-09 | 2023-02-09 | 提供文字探勘工作流程編輯的方法與系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112104622A TWI811179B (zh) | 2023-02-09 | 2023-02-09 | 提供文字探勘工作流程編輯的方法與系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI811179B true TWI811179B (zh) | 2023-08-01 |
TW202433311A TW202433311A (zh) | 2024-08-16 |
Family
ID=88585501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112104622A TWI811179B (zh) | 2023-02-09 | 2023-02-09 | 提供文字探勘工作流程編輯的方法與系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI811179B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012918B (zh) * | 2010-11-26 | 2012-11-21 | 中金金融认证中心有限公司 | 一种规律挖掘和执行系统及其方法 |
TW201545104A (zh) * | 2014-02-04 | 2015-12-01 | Ubic Inc | 資料分析系統、資料分析方法、及資料分析程式 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
CN112214554A (zh) * | 2019-07-10 | 2021-01-12 | 北京宸瑞科技股份有限公司 | 一种Excel数据整合分析系统和方法 |
TWI723868B (zh) * | 2019-06-26 | 2021-04-01 | 義守大學 | 一種抽樣後標記應用在類神經網絡訓練模型之方法 |
TWM634003U (zh) * | 2022-05-27 | 2022-11-11 | 智慧價值股份有限公司 | 多維度關聯文字雲系統 |
-
2023
- 2023-02-09 TW TW112104622A patent/TWI811179B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012918B (zh) * | 2010-11-26 | 2012-11-21 | 中金金融认证中心有限公司 | 一种规律挖掘和执行系统及其方法 |
TW201545104A (zh) * | 2014-02-04 | 2015-12-01 | Ubic Inc | 資料分析系統、資料分析方法、及資料分析程式 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
TWI723868B (zh) * | 2019-06-26 | 2021-04-01 | 義守大學 | 一種抽樣後標記應用在類神經網絡訓練模型之方法 |
CN112214554A (zh) * | 2019-07-10 | 2021-01-12 | 北京宸瑞科技股份有限公司 | 一种Excel数据整合分析系统和方法 |
TWM634003U (zh) * | 2022-05-27 | 2022-11-11 | 智慧價值股份有限公司 | 多維度關聯文字雲系統 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amparore et al. | 30 years of GreatSPN | |
Chang et al. | TokensRegex: Defining cascaded regular expressions over tokens | |
TW498201B (en) | System and method for generating year 2000 test cases | |
Song et al. | Efficient alignment between event logs and process models | |
Carmona et al. | New region-based algorithms for deriving bounded Petri nets | |
US9928288B2 (en) | Automatic modeling of column and pivot table layout tabular data | |
US20200074019A1 (en) | Scalable boolean methods in a modern synthesis flow | |
Biermann et al. | Lifting parallel graph transformation concepts to model transformation based on the eclipse modeling framework | |
Beutner et al. | AutoHyper: Explicit-state model checking for HyperLTL | |
US20160292305A1 (en) | System, method, and program for storing and analysing a data graph | |
Ehrig et al. | Transformations of Petri nets | |
TWI811179B (zh) | 提供文字探勘工作流程編輯的方法與系統 | |
US8166453B2 (en) | Method and system for inconsistency resolution with cycle detection in a model-driven software environment | |
TW202433311A (zh) | 提供文字探勘工作流程編輯的方法與系統 | |
Mafazi et al. | Conflict resolution for on-the-fly change propagation in business processes | |
Kautz et al. | Semantic Differencing of Activity Diagrams by a Translation into Finite Automata. | |
Jacquemard et al. | Term rewriting with prefix context constraints and bottom-up strategies | |
JP2010122716A (ja) | 改修作業範囲分割プログラム,改修作業範囲分割装置,及び改修作業範囲分割方法 | |
Yoshizumi et al. | A graph grammar for entity relationship diagrams | |
JP2005115498A (ja) | ソフトウェア開発前処理方法、ソフトウェア制御方法、ソフトウェア開発方法並びにソフトウェア開発装置 | |
Visochek | Practical Data Wrangling: Expert techniques for transforming your raw data into a valuable source for analytics | |
Kluza et al. | Integration of business processes with visual decision modeling. presentation of the hades toolchain | |
US20240111922A1 (en) | System and method for managing simulation artifacts | |
de Jesus et al. | Business Rules: From SBVR to Information Systems | |
Kohlhase | A Glossary for IWGS (Auto-Generated) |