TWI807400B - 產生實體關係抽取模型的裝置及方法 - Google Patents
產生實體關係抽取模型的裝置及方法 Download PDFInfo
- Publication number
- TWI807400B TWI807400B TW110131864A TW110131864A TWI807400B TW I807400 B TWI807400 B TW I807400B TW 110131864 A TW110131864 A TW 110131864A TW 110131864 A TW110131864 A TW 110131864A TW I807400 B TWI807400 B TW I807400B
- Authority
- TW
- Taiwan
- Prior art keywords
- entity
- relationship
- information
- labeled
- generating
- Prior art date
Links
Images
Landscapes
- Machine Translation (AREA)
- Paper (AREA)
Abstract
一種產生實體關係抽取模型的裝置及方法。該裝置接收待標註文本,基於待標註文本中的複數個字段以及實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊。該裝置根據改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註。該裝置由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至實體關係資料庫。以預訓練語言模型為基礎,該裝置將該等組合輸入至預訓練語言模型,以產生實體關係抽取模型。
Description
本發明係關於一種產生實體關係抽取模型的裝置及方法。具體而言,本發明係關於一種執行預標註程序及訓練模型程序以產生實體關係抽取模型的裝置及方法。
知識抽取是知識管理中最重要的第一步,知識抽取是在大量文件中萃取有用的知識,其中包含實體與關係。透過這些知識,能使得各種應用服務在遇到需要作出判斷的場景時,能快速並且精準的做出決定,完成該場景的任務。許多應用及解決方案都仰賴結構化文本資訊的知識來完成特定的功能,例如:搜尋引擎、自動導航、智慧問答、推薦系統以及對話機器人等等,若欲進一步提升其智慧程度則需要利用知識圖譜及語義知識庫,因此實體關係抽取是建構知識庫的關鍵技術之一。
現有的實體關係抽取方法,主要以人工規則模板及句法結構分析為主。具體而言,人工規則模板是利用領域專家設計的模板規則進行匹配,在面對新的領域或資料時需要重新設計新的模板,除了設計耗時之外,亦僅適用於小的領域。句法結構則是由語言分析學家剖析單一語言的句法規則及結構來構建句法,針對輸入文本句子進行結構拆分並辨別實體名詞與動詞關係,然而存在全句標註的成本極高且無法快速轉換領域或語言等缺點。因此,不論採用前述的哪種實體關係抽取方法,均需要專家或學者的介入,耗費大量的人工標註成本及時間,亦無法快速且彈性的針對不同領域轉換。
有鑑於此,如何有效率且自動化的產生實體關係抽取模型,乃業界亟需努力之目標。
本發明之一目的在於提供一種產生實體關係抽取模型的裝置。該裝置包含一儲存器及一處理器,該處理器電性連接至該儲存器。該儲存器用以儲存一實體關係資料庫,其中該實體關係資料庫至少包含複數個實體資訊及複數個關係資訊。該處理器用以執行一預標註程序及一訓練模型程序,其中該預標註程序包含下列步驟:該處理器接收一待標註文本。該處理器基於該待標註文本中的複數個字段以及該實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊。該處理器根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊。該處理器由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至該實體關係資料庫。該訓練模型程序包含下列步驟:該處理器以一預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
本發明之另一目的在於提供一種產生實體關係抽取模型的方法。該方法用於一產生實體關係抽取模型的裝置,該產生實體關係抽取模型的裝置包含一儲存器及一處理器,該儲存器儲存一實體關係資料庫,其中該實體關係資料庫至少包含複數個實體資訊及複數個關係資訊,該產生實體關係抽取模型的方法由該處理器所執行且包含下列步驟: 執行一預標註程序及一訓練模型程序,其中該預標註程序包含下列步驟:接收一待標註文本; 基於該待標註文本中的複數個字段以及該實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊; 根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊; 由該至少一標註後實體資訊與該至少一標註後關係資訊的複數個組合且儲存至該實體關係資料庫; 其中,該訓練模型程序包含下列步驟: 以一預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
由上述說明可知,傳統的實體關係抽取模型訓練通常需要重頭開始訓練,且需要經過大量的人工標註/介入所產生的輸入資料才能達成效果。有別於傳統的模型產生方式,本發明所提供之產生實體關係抽取模型技術(至少包含裝置及方法)架構在預訓練模型上,並透過預標註程序的機制,快速標註輸入資料並擴增實體關係資料庫,自動化的產生大量的資料,而不需要人力的介入,因而使得實體關係抽取模型能夠快速地被訓練。此外,本發明更透過改良式標註格式的資訊,加速實體關係抽取模型的訓練速度。因而解決了習知技術中,實體關係抽取模型均需要專家或學者的介入,耗費大量的人工標註成本及時間,亦無法快速且彈性的針對不同領域轉換的缺點。
以下將結合圖式闡述本發明之詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。
以下將透過實施方式來解釋本發明所提供之產生實體關係抽取模型的裝置及方法。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述之任何環境、應用或方式方能實施。因此,關於實施方式之說明僅為闡釋本發明之目的,而非用以限制本發明之範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關之元件已省略而未繪示,且各元件之尺寸以及元件間之尺寸比例僅為例示而已,而非用以限制本發明之範圍。
本發明之第一實施方式為一產生實體關係抽取模型的裝置1,其架構示意圖係描繪於第1圖。於本實施方式中,產生實體關係抽取模型的裝置1包含一儲存器11、一收發介面13及一處理器15,處理器15電性連接至儲存器11及收發介面13。儲存器11可為一記憶體、一通用串列匯流排(Universal Serial Bus;USB)碟、一硬碟、一光碟、一隨身碟或本發明所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體或電路。收發介面13為一可接收及傳輸資料之介面或本發明所屬技術領域中具有通常知識者所知悉之其他可接收及傳輸資料之介面,收發介面13可透過例如:外部裝置、外部網頁、外部應用程式等等來源接收資料。處理器15可為各種處理單元、中央處理單元(Central Processing Unit;CPU)、微處理器或本發明所屬技術領域中具有通常知識者所知悉之其他計算裝置。於某些實施方式中,產生實體關係抽取模型的裝置1可為但不限於是移動式電子裝置、桌上型電腦、可攜式電腦等等的電子裝置。
於本實施方式中,儲存器11儲存實體關係資料庫400,實體關係資料庫400至少包含複數個實體資訊及複數個關係資訊。為便於理解,第2圖例示了實體關係資料庫400的一種態樣。如第2圖所示,實體關係資料庫400紀錄了輸入資料、實體1、關係、實體2及信心分數等欄位。以第2圖中實體關係資料庫400的第1筆資料為例,實體關係資料庫400記錄了輸入資料為「Tom was born in Honolulu, Hawaii」,對應該輸入資料的實體1為「Tom」、關係為「was born in」、實體2為「 Honolulu」及信心分數為「1.0」。
於某些實施方式中,實體關係資料庫400是由處理器15執行一爬蟲程序及一實體關係資料庫建構程序產生。該爬蟲程序包含下列步驟:處理器15收集複數個知識庫資料內容,各該知識庫資料內容包含複數個條目名稱及對應各該條目名稱之一條目內文。處理器15對該各該條目內文進行一斷句處理,以產生一輸入資料。該實體關係資料庫建構程序包含下列步驟:處理器15將該輸入資料輸入至一實體關係抽取系統,以產生一輸出資料,其中該輸出資料包含複數筆三元組資料,各該三元組資料包含複數個實體資訊、至少一關係資訊及一信心分數。處理器15基於該信心分數,將輸出資料中該信心分數超越一預設值的該等三元組資料儲存至該實體關係資料庫。
舉例而言,在爬蟲程序中可透過處理器15執行爬蟲程式,從通用知識庫(例如:dbpedia、YAGO、freebase、Wikipedia等)、領域知識庫(例如:專利知識庫、製造業用語知識庫等)、標準實體關係資料集知識庫(例如:OPIEC、OIE2016)等資料來源,抓取各該知識庫的條目名稱(例如:與某類別相關的資料庫)及條目內文(例如:與某類別相關的文章)。接著,處理器15以句號為斷句的規則,對各該條目內文執行斷句處理,產生以單句為單位之複數個輸入資料。須說明者,在爬蟲程式抓取各該知識庫的條目名稱及條目內文後,處理器15可進一步對條目內文執一前處理運作,例如:提取文本段落、去除Html標籤、去除重複句子、去除不正常亂碼訊息等資料清理運作。
又舉例而言,處理器15在實體關係資料庫400的建構程序中,處理器15將輸入資料輸入至一實體關係抽取系統,該實體關係抽取系統可為已基於機器學習訓練而成的開源實體關係抽取工具,例如:OpenIE5、RnnOIE等。接著,處理器15透過該實體關係抽取系統將斷句處理後的條目內文(即,輸入資料),抽取出包含複數個實體資訊、至少一關係資訊及一信心分數的複數個三元組資料。如第2圖所示,各該三元組資料包含實體1、關係及實體2及一信心分數,其中信心分數代表對於該筆三元組資料抽取結果的信心程度,信心分數可由實體關係抽取系統自動產生。最後,處理器15可透過將信心分數的預設值設為0.85,將信心分數大於0.85的該等三元組資料儲存至該實體關係資料庫400。
於某些實施方式中,實體關係資料庫400亦可由外部裝置產生,由處理器15透過收發介面13接收實體關係資料庫400儲存至儲存器11。須說明者,第2圖僅方便作為例示,但其非用以限制本發明之範圍,實際運作中實體關係資料庫400亦可包含其他欄位(例如:資料來源)。
接著繼續說明,產生實體關係抽取模型的裝置1的具體運作,請參考第1圖。於本實施方式中,處理器15將執行預標註程序及訓練模型程序。首先,於該預標註程序中,處理器15先透過該收發介面13接收一待標註文本133。須說明者,待標註文本133是尚未進行實體及關係標註的文章,可例如是某類別的文章、或是與本次訓練模型領域相關的文章,而待標註文本133將用於後續擴增實體關係資料庫400的資料。
於某些實施方式中,處理器15會對於待標註文本133執行斷句處理,產生以單句為單位之複數個字段。於某些實施方式中,處理器15會對於待標註文本133進行一文本前處理運作,例如:提取文本段落、去除Html標籤、去除重複句子、去除不正常亂碼訊息等資料清理運作。
接著,處理器15基於待標註文本133中的複數個字段以及實體關係資料庫400中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊。具體而言,產生對應各該字段之該至少一待標註實體資訊以及對應各該字段之該至少一待標註關係資訊可包含下列步驟。首先,由處理器15比對待標註文本133中的該等字段以及實體關係資料庫400中的該等實體資訊,以產生對應各該字段之該至少一待標註實體資訊。接著,由處理器15比對包含至少二個待標註實體資訊的各該字段以及實體關係資料庫400中的該等關係資訊,以產生對應各該字段之該至少一待標註關係資訊。
隨後,處理器15根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊。處理器15由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至實體關係資料庫400。於某些實施方式中,由該至少一標註後實體資訊與該至少一標註後關係資訊產生該等組合係由處理器15根據各該字段之該至少一標註後實體資訊及該至少一標註後關係資訊於該字段的一先後順序,產生各該字段中的該至少一標註後實體資訊與該至少一標註後關係資訊的該等個組合。於某些實施方式中,該改良式標註格式是由一傳統序列標註格式(例如:BMES、BIO、BIOES等等)及對應該傳統序列標註格式之一實體標籤及關係標籤所組成。
為便於理解,以一具體範例舉例說明執行預標註程序的流程,請參考第1圖、第2圖及第3圖,但其非用以限制本發明之範圍。於本範例中,待標註文本133包含其中一個句子為「Wang was born in Taiwan, Tainan, Zhongshan street」的字段A。首先,處理器15將字段A與第2圖中實體關係資料庫400中的各個實體資訊比對(即,實體1及實體2欄位),以判斷字段A中哪些單詞/短語是屬於實體。於本範例中,由於字段A中的「Wang」、「Taiwan」、「Tainan」及「Zhongshan street」分別已在實體關係資料庫400中的第4、5、6筆中被標註為實體,因此經由比對後,處理器15產生對應字段A的待標註實體資訊為「Wang」、「Taiwan」、「Tainan」及「Zhongshan street」(依於字段A中出現的順序)。
接著,處理器15判斷哪些字段包含至少二個待標註實體資訊(即,有機會能透過二個實體及一關係形成一組合;因為若沒有二個實體,即使有關係,仍無法形成組合)。於本範例中,由於字段A具有超過二個待標註實體資訊,處理器15將字段A與第2圖中實體關係資料庫400中的各個關係資訊比對(即,關係欄位),以判斷字段A中哪些單詞/短語是屬於關係。於本範例中,由於「was born in」已在實體關係資料庫400中的第1、2筆中被標註為關係,因此經由比對後,處理器15產生對應字段A的待標註關係資訊為「was born in」。
隨後,處理器15根據改良式標註格式對各該字段之該至少一標註後實體資訊及該至少一標註後關係資訊進行標註。於本範例中,採用BMES標註(即,B為一個詞的詞首位置、M為一個詞的中間位置、E為一個詞的末尾位置、S為一個單獨的字詞)。以前述字段A的待標註實體資訊及待標註關係資訊舉例而言,處理器15對待標註實體資訊「Wang」標註,並在傳統序列標註格式S之前,加上前綴 Entity 成為「Wang [Entity-S] 」、對「Taiwan」標註「Taiwan [Entity-S] 」、對「Tainan」標註「Tainan [Entity-S] 」、對「Zhongshan street」標註「Zhongshan [Entity-B] street [Entity-E] 」,標註後的「Wang [Entity-S]、「Taiwan [Entity-S] 」、「Tainan [Entity-S]、「Zhongshan [Entity-B] street [Entity-E]即為標註後實體資訊。處理器15對待標註關係資訊「was born in」標註,並在傳統序列標註格式B、M或E之前,加上前綴 Relation 成為「was [Relation-B] born [Relation-M] in [Relation-E]」,標註後的「was [Relation-B] born [Relation-M] in [Relation-E]即為標註後實體資訊。
接著,處理器15依於字段A中出現的先後順序,由各該字段中的該標註後實體資訊與該標註後關係資訊產生複數個組合且儲存至實體關係資料庫400。依前述字段A的標註後實體資訊及標註後關係資訊舉例而言,請參考第3圖,處理器15基於字段A的標註後實體資訊「Wang [Entity-S] 」、「Taiwan [Entity-S] 」、「Tainan [Entity-S]及「Zhongshan [Entity-B] street [Entity-E] 」以及標註後關係資訊「was [Relation-B] born [Relation-M] in [Relation-E]」,處理器15產生分別符合實體1、關係、實體2的排列的「Wang was born in Taiwan」、「Wang was born in Tainan」、「Wang was born in Zhongshan street」組合,並儲存至第3圖的實體關係資料庫400的第7、8、9筆(於本範例中,產生的信心分數預設為1)。
據此,處理器15對標註文本133中包含的複數個字段都可進行同樣的運作,處理器15藉由實體關係資料庫400的字串比對來進行自動標註,並可產生倍數於原字段的多種組合,進以擴充實體關係資料庫400中的資料內容。此外,由於處理器15透過改良式標註格式對於各該字段中的實體及關係進行標註,使得實體關係資料庫400中的資料內容除了實體及關係的資訊外更帶有位置的特徵資訊,將有利於後續訓練模型的效率及時間。
於某些實施方式中,處理器15亦可以其他排列方式以產生組合,本領域具有通常知識者應可根據前述說明內容理解如何根據其他排列產生組合,茲不贅言。須說明者,為簡明表示,第3圖中所例示的改良式標註格式僅示出部分內容,但其非用以限制本發明之範圍,本領域具有通常知識者應可根據前述說明內容理解運作的內容,茲不贅言。
以下將說明,處理器15執行訓練模型程序的步驟,請參考第4圖。於本實施方式中,處理器15以一預訓練語言模型413為基礎,將該等組合輸入至預訓練語言模型413,以產生一實體關係抽取模型,其中該實體抽取模型用以識別一文本段落中之該實體資訊及該關係資訊。須說明者,預訓練語言模型413至少包含一已訓練完成的語言層模型,由於已基於大量文本訓練複數層的網絡結構,該語言層已包含多個已訓練權重的參數,例如:Google提出的預訓練語言模型 BERT(Bidirectional Encoder Representations from Transformers),其中的各該「Transformers」是一個利用自我注意力機制以加強關注序列內部關聯的模型。
具體而言,訓練模型程序可包含以下步驟。首先,如第4圖所示,處理器15將一輸入層411及一序列層415與預訓練語言模型413串接以有效降低模型訓練之一複雜度,其中輸入層411用以將該等字段切分為複數個詞彙以作為預訓練語言模型413的輸入,序列層415基於該改良式標註格式執行一分析運作以產生該文本段落中之該實體資訊及該關係資訊。接著,處理器15將實體關係資料庫400中的該等組合輸入至該輸入層411,配合該預訓練語言模型413及該序列層415,以產生該實體關係抽取模型。
須說明者,輸入層411是輸入複數個文字序列(即,實體關係資料庫400中的輸入資料),將文字序列拆成複數個詞彙(Token)序列,再將詞彙序列輸入至預訓練語言模型413(即,BERT層),序列層415則接收預訓練語言模型413的輸出,最後產生對應各該文字序列的實體關係及傳統序列標註格式(例如:BMES、BIO、BIOES等等)的標註結果。由於序列層(CRF Layer)可對於序列化標籤添加一些約束條件(即,規範下一個字產生的可能性限制),進而保證預測標籤的有效性,且有效減少模型訓練的複雜度。因此,將序列層串接在語言層(即,BERT層)後面能夠加強序列分析的效果。須說明者,為簡明表示,第4圖中僅示出部分內容,本領域具有通常知識者應可根據前述說明內容,理解透過類神經網路串接以進行機器學習訓練的運作內容,茲不贅言。
於某些實施方式中,如第4圖所示,可透過由輸入層411、預訓練語言模型413、序列層415三個網路串接的一神經網路(Neural Network)409進行機器學習,基於實體關係資料庫400的資料對預訓練語言模型413進行模型微調(fine-tuning),以訓練實體關係抽取模型,該實體關係抽取模型輸入為一段文字序列及標註資訊,其訓練完畢的模型可預測新的文字序列當中有哪些字詞為實體及關係。
由上述說明可知,產生實體關係抽取模型的裝置1執行包含預標註程序及訓練模型程序。在預標註程序中,由處理器15基於待標註文本133中的複數個字段以及實體關係資料庫400中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊,並根據改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊,且由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至實體關係資料庫400。在訓練模型程序中,由處理器15以預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
由上述說明可知,傳統的實體關係抽取模型訓練通常需要重頭開始訓練,且需要經過大量的人工標註/介入所產生的輸入資料才能達成效果。有別於傳統的模型產生方式,本發明所提供之產生實體關係抽取模型裝置架構在預訓練模型上,並透過預標註程序的機制,快速標註輸入資料並擴增實體關係資料庫,自動化的產生大量的資料,而不需要人力的介入,因而使得實體關係抽取模型能夠快速地被訓練。此外,本發明更透過改良式標註格式的資訊,加速實體關係抽取模型的訓練速度。因而解決了習知技術中,實體關係抽取模型均需要專家或學者的介入,耗費大量的人工標註成本及時間,亦無法快速且彈性的針對不同領域轉換的缺點。
本發明之第二實施方式為一種產生實體關係抽取模型的方法,其流程圖係描繪於第5圖。產生實體關係抽取模型的方法用於一產生實體關係抽取模型的裝置(下稱:該裝置),例如:第一實施方式所述之產生實體關係抽取模型的裝置1。該裝置包含一儲存器、一收發介面及一處理器,該儲存器儲存一實體關係資料庫,例如:第一實施方式所述之實體關係資料庫400,其中該實體關係資料庫至少包含複數個實體資訊及複數個關係資訊。產生實體關係抽取模型的方法透過預標註程序的步驟S501至步驟S507及訓練模型程序步驟S509,產生實體關係抽取模型。
於某些實施方式中,該實體關係資料庫是由一爬蟲程序及一實體關係資料庫建構程序產生,其中執行該爬蟲程序包含下列步驟:收集複數個知識庫資料內容,各該知識庫資料內容包含複數個條目名稱及對應各該條目名稱之一條目內文;對該各該條目內文進行一斷句處理,以產生一輸入資料;其中,該實體關係資料庫建構程序包含下列步驟:將該輸入資料輸入至一實體關係抽取系統,以產生一輸出資料,其中該輸出資料包含複數筆三元組資料,各該三元組資料包含複數個實體資訊、至少一關係資訊及一信心分數;基於該信心分數,將輸出資料中該信心分數超越一預設值的該等三元組資料儲存至該實體關係資料庫。
以下先說明預標註程序的步驟S501至步驟S507。首先,於步驟S501,由該裝置接收一待標註文本。
接著,於步驟S503,由該裝置根基於該待標註文本中的複數個字段以及該實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊。於某些實施方式中,產生對應各該字段之該至少一待標註實體資訊以及對應各該字段之該至少一待標註關係資訊係包含下列步驟:比對該待標註文本中的該等字段以及該實體關係資料庫中的該等實體資訊,以產生對應各該字段之該至少一待標註實體資訊;以及比對包含至少二個待標註實體資訊的各該字段以及該實體關係資料庫中的該等關係資訊,以產生對應各該字段之該至少一待標註關係資訊。
隨後,於步驟S505,由該裝置根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊。於某些實施方式中,該改良式標註格式是由一傳統序列標註格式及對應該傳統序列標註格式之一實體標籤及關係標籤所組成。
接著,於步驟S507,由該裝置由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至該實體關係資料庫。於某些實施方式中,由該至少一標註後實體資訊與該至少一標註後關係資訊產生該等組合係包含下列步驟:根據各該字段之該至少一標註後實體資訊及該至少一標註後關係資訊於該字段的一先後順序,產生各該字段中的該至少一標註後實體資訊與該至少一標註後關係資訊的該等個組合。
以下接著說明訓練模型程序步驟S509。於步驟S509中,由該裝置以一預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
於某些實施方式中,該訓練模型程序更包含:將一輸入層及一序列層與該預訓練語言模型串接以有效降低模型訓練之一複雜度,其中該輸入層用以將該等字段切分為複數個詞彙以作為該預訓練語言模型的輸入,該序列層基於該改良式標註格式執行一分析運作以產生該文本段落中之該實體資訊及該關係資訊;以及將實體關係資料庫中包含該改良式標註格式的該等組合輸入至該輸入層,配合該預訓練語言模型及該序列層,以產生該實體關係抽取模型。
除了上述步驟,第二實施方式亦能執行第一實施方式所描述之產生實體關係抽取模型的裝置1之所有運作及步驟,具有同樣之功能,且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述第一實施方式以執行此等運作及步驟,具有同樣之功能,並達到同樣之技術效果,故不贅述。
綜上所述,傳統的實體關係抽取模型訓練通常需要重頭開始訓練,且需要經過大量的人工標註/介入所產生的輸入資料才能達成效果。有別於傳統的模型產生方式,本發明所提供之產生實體關係抽取模型方法架構在預訓練模型上,並透過預標註程序的機制,快速標註輸入資料並擴增實體關係資料庫,自動化的產生大量的資料,而不需要人力的介入,因而使得實體關係抽取模型能夠快速地被訓練。此外,本發明更透過改良式標註格式的資訊,加速實體關係抽取模型的訓練速度。因而解決了習知技術中,實體關係抽取模型均需要專家或學者的介入,耗費大量的人工標註成本及時間,亦無法快速且彈性的針對不同領域轉換的缺點。
上述實施方式僅用來例舉本發明之部分實施態樣,以及闡釋本發明之技術特徵,而非用來限制本發明之保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,而本發明之權利保護範圍以申請專利範圍為準。
1:產生實體關係抽取模型的裝置
11:儲存器
13:收發介面
15:處理器
133:待標註文本
400:實體關係資料庫
409:神經網路
411:輸入層
413:預訓練語言模型
415:序列層
S501-S509:步驟
第1圖係描繪依據本發明一實施例之產生實體關係抽取模型的裝置之架構示意圖;
第2圖係描繪第一實施方式中實體關係資料庫之示意圖;
第3圖係描繪第一實施方式中擴增後的實體關係資料庫之示意圖;
第4圖係描繪第一實施方式中訓練實體關係抽取模型的架構之示意圖;以及
第5圖係描繪第二實施方式之產生實體關係抽取模型的方法之流程圖。
S501~S509:步驟
Claims (10)
- 一種產生實體關係抽取模型的裝置,包含:一儲存器,用以儲存一實體關係資料庫,其中該實體關係資料庫至少包含複數個實體資訊及複數個關係資訊;以及一處理器,電性連接至該儲存器,用以執行一預標註程序及一訓練模型程序,其中該預標註程序包含下列步驟:接收一待標註文本,對該待標註文本執行一斷句處理,以產生該待標註文本之複數個字段;基於該待標註文本中的該等字段以及該實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊;根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊;以及由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至該實體關係資料庫;其中,由該至少一標註後實體資訊與該至少一標註後關係資訊產生該等組合係包含下列步驟:根據各該字段之該至少一標註後實體資訊及該至少一標註後關係資訊於該字段的一先後順序,產生各該字段中的該至少一標註後實體資訊與該至少一標註後關係資訊的該等個組合;其中,該訓練模型程序包含下列步驟: 以一預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
- 如請求項1所述之產生實體關係抽取模型的裝置,其中該實體關係資料庫是由一爬蟲程序及一實體關係資料庫建構程序產生,其中執行該爬蟲程序包含下列步驟:收集複數個知識庫資料內容,各該知識庫資料內容包含複數個條目名稱及對應各該條目名稱之一條目內文;以及對該各該條目內文進行一斷句處理,以產生一輸入資料;其中,該實體關係資料庫建構程序包含下列步驟:將該輸入資料輸入至一實體關係抽取系統,以產生一輸出資料,其中該輸出資料包含複數筆三元組資料,各該三元組資料包含複數個實體資訊、至少一關係資訊及一信心分數;以及基於該信心分數,將輸出資料中該信心分數超越一預設值的該等三元組資料儲存至該實體關係資料庫。
- 如請求項1所述之產生實體關係抽取模型的裝置,其中產生對應各該字段之該至少一待標註實體資訊以及對應各該字段之該至少一待標註關係資訊係包含下列步驟:比對該待標註文本中的該等字段以及該實體關係資料庫中的該等實體資訊,以產生對應各該字段之該至少一待標註實體資訊;以及 比對包含至少二個待標註實體資訊的各該字段以及該實體關係資料庫中的該等關係資訊,以產生對應各該字段之該至少一待標註關係資訊。
- 如請求項1所述之產生實體關係抽取模型的裝置,其中該訓練模型程序更包含:將一輸入層及一序列層與該預訓練語言模型串接;以及將該實體關係資料庫中包含該改良式標註格式的該等組合輸入至該輸入層,配合該預訓練語言模型及該序列層,以產生該實體關係抽取模型。
- 如請求項1所述之產生實體關係抽取模型的裝置,其中該改良式標註格式是由一傳統序列標註格式及對應該傳統序列標註格式之一實體標籤及關係標籤所組成。
- 一種產生實體關係抽取模型的方法,用於一產生實體關係抽取模型的裝置,該產生實體關係抽取模型的裝置包含一儲存器及一處理器,該儲存器儲存一實體關係資料庫,其中該實體關係資料庫至少包含複數個實體資訊及複數個關係資訊,該產生實體關係抽取模型的方法由該處理器所執行且包含下列步驟:執行一預標註程序及一訓練模型程序,其中該預標註程序包含下列步驟:接收一待標註文本,對該待標註文本執行一斷句處理,以產生該待標註文本之複數個字段; 基於該待標註文本中的該等字段以及該實體關係資料庫中的該等實體資訊與該等關係資訊,產生對應各該字段之至少一待標註實體資訊以及對應各該字段之至少一待標註關係資訊;根據一改良式標註格式對各該字段之該至少一待標註實體資訊及該至少一待標註關係資訊進行標註,以產生至少一標註後實體資訊及至少一標註後關係資訊;以及由該至少一標註後實體資訊與該至少一標註後關係資訊產生複數個組合且儲存至該實體關係資料庫;其中,由該至少一標註後實體資訊與該至少一標註後關係資訊產生該等組合係包含下列步驟:根據各該字段之該至少一標註後實體資訊及該至少一標註後關係資訊於該字段的一先後順序,產生各該字段中的該至少一標註後實體資訊與該至少一標註後關係資訊的該等個組合;其中,該訓練模型程序包含下列步驟:以一預訓練語言模型為基礎,將該等組合輸入至該預訓練語言模型,以產生一實體關係抽取模型。
- 如請求項6所述之產生實體關係抽取模型的方法,其中該實體關係資料庫是由一爬蟲程序及一實體關係資料庫建構程序產生,其中執行該爬蟲程序包含下列步驟:收集複數個知識庫資料內容,各該知識庫資料內容包含複數個條目名稱及對應各該條目名稱之一條目內文;以及 對該各該條目內文進行一斷句處理,以產生一輸入資料;其中,該實體關係資料庫建構程序包含下列步驟:將該輸入資料輸入至一實體關係抽取系統,以產生一輸出資料,其中該輸出資料包含複數筆三元組資料,各該三元組資料包含複數個實體資訊、至少一關係資訊及一信心分數;以及基於該信心分數,將輸出資料中該信心分數超越一預設值的該等三元組資料儲存至該實體關係資料庫。
- 如請求項6所述之產生實體關係抽取模型的方法,其中產生對應各該字段之該至少一待標註實體資訊以及對應各該字段之該至少一待標註關係資訊係包含下列步驟:比對該待標註文本中的該等字段以及該實體關係資料庫中的該等實體資訊,以產生對應各該字段之該至少一待標註實體資訊;以及比對包含至少二個待標註實體資訊的各該字段以及該實體關係資料庫中的該等關係資訊,以產生對應各該字段之該至少一待標註關係資訊。
- 如請求項6所述之產生實體關係抽取模型的方法,其中該訓練模型程序更包含:將一輸入層及一序列層與該預訓練語言模型串接;以及將該實體關係資料庫中包含該改良式標註格式的該等組合輸入至該輸入層,配合該預訓練語言模型及該序列層,以產生該實體關係抽取模型。
- 如請求項6所述之產生實體關係抽取模型的方法,其中該改良式標註格式是由一傳統序列標註格式及對應該傳統序列標註格式之一實體標籤及關係標籤所組成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110131864A TWI807400B (zh) | 2021-08-27 | 2021-08-27 | 產生實體關係抽取模型的裝置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110131864A TWI807400B (zh) | 2021-08-27 | 2021-08-27 | 產生實體關係抽取模型的裝置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202309771A TW202309771A (zh) | 2023-03-01 |
TWI807400B true TWI807400B (zh) | 2023-07-01 |
Family
ID=86690780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110131864A TWI807400B (zh) | 2021-08-27 | 2021-08-27 | 產生實體關係抽取模型的裝置及方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI807400B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918348B2 (en) * | 2010-04-09 | 2014-12-23 | Microsoft Corporation | Web-scale entity relationship extraction |
TW201734759A (zh) * | 2016-02-26 | 2017-10-01 | Alibaba Group Services Ltd | 一種區分主題的方法及裝置 |
CN110442725A (zh) * | 2019-08-14 | 2019-11-12 | 科大讯飞股份有限公司 | 实体关系抽取方法及装置 |
CN111639185A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 关系信息抽取方法、装置、电子设备和可读存储介质 |
CN111881256A (zh) * | 2020-07-17 | 2020-11-03 | 中国人民解放军战略支援部队信息工程大学 | 文本实体关系抽取方法、装置及计算机可读存储介质设备 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN113011161A (zh) * | 2020-12-29 | 2021-06-22 | 中国航天科工集团第二研究院 | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 |
CN113051922A (zh) * | 2021-04-20 | 2021-06-29 | 北京工商大学 | 一种基于深度学习的三元组抽取方法及系统 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
-
2021
- 2021-08-27 TW TW110131864A patent/TWI807400B/zh active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918348B2 (en) * | 2010-04-09 | 2014-12-23 | Microsoft Corporation | Web-scale entity relationship extraction |
TW201734759A (zh) * | 2016-02-26 | 2017-10-01 | Alibaba Group Services Ltd | 一種區分主題的方法及裝置 |
CN110442725A (zh) * | 2019-08-14 | 2019-11-12 | 科大讯飞股份有限公司 | 实体关系抽取方法及装置 |
CN111639185A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 关系信息抽取方法、装置、电子设备和可读存储介质 |
CN111881256A (zh) * | 2020-07-17 | 2020-11-03 | 中国人民解放军战略支援部队信息工程大学 | 文本实体关系抽取方法、装置及计算机可读存储介质设备 |
CN113011161A (zh) * | 2020-12-29 | 2021-06-22 | 中国航天科工集团第二研究院 | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 |
CN112328812A (zh) * | 2021-01-05 | 2021-02-05 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN113051922A (zh) * | 2021-04-20 | 2021-06-29 | 北京工商大学 | 一种基于深度学习的三元组抽取方法及系统 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202309771A (zh) | 2023-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145153B (zh) | 意图类别的识别方法和装置 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN104050256B (zh) | 基于主动学习的问答方法及采用该方法的问答系统 | |
WO2019137033A1 (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN112651234A (zh) | 一种半开放信息抽取的方法及装置 | |
CN111737498A (zh) | 一种应用于离散制造业生产过程的领域知识库建立方法 | |
TWI807400B (zh) | 產生實體關係抽取模型的裝置及方法 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN114328863A (zh) | 一种基于高斯核函数的长文本检索方法及系统 | |
Bhuiyan et al. | An effective approach to generate Wikipedia infobox of movie domain using semi-structured data | |
Phan et al. | Automated data extraction from the web with conditional models | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
Banerjee et al. | Natural language querying and visualization system |