TWI814396B - 知識圖譜建立方法及系統以及新聞事件對話方法及系統 - Google Patents

知識圖譜建立方法及系統以及新聞事件對話方法及系統 Download PDF

Info

Publication number
TWI814396B
TWI814396B TW111119394A TW111119394A TWI814396B TW I814396 B TWI814396 B TW I814396B TW 111119394 A TW111119394 A TW 111119394A TW 111119394 A TW111119394 A TW 111119394A TW I814396 B TWI814396 B TW I814396B
Authority
TW
Taiwan
Prior art keywords
event
target
knowledge graph
sub
summaries
Prior art date
Application number
TW111119394A
Other languages
English (en)
Other versions
TW202347141A (zh
Inventor
盧文祥
林承緯
黃柏洋
董家銘
Original Assignee
國立成功大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立成功大學 filed Critical 國立成功大學
Priority to TW111119394A priority Critical patent/TWI814396B/zh
Priority to US17/836,647 priority patent/US12086182B2/en
Priority to JP2022101329A priority patent/JP7495145B2/ja
Application granted granted Critical
Publication of TWI814396B publication Critical patent/TWI814396B/zh
Publication of TW202347141A publication Critical patent/TW202347141A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一種知識圖譜建立方法,包括以處理裝置執行:將多篇新聞文章歸類至關聯於多個子事件的主事件;以主事件作為知識圖譜中的第一節點,以該些子事件分別作為知識圖譜中的多個第二節點,將該些第二節點連接於第一節點,依據樣板規則從該些新聞文章分別抽取出多個事件摘要,將該些事件摘要分別作為知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的相關性,將該些第三節點各連接至該些第二節點中之一者,從該些事件摘要抽取出多個發言人身分作為知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。

Description

知識圖譜建立方法及系統以及新聞事件對話方法及系統
本發明係關於一種知識圖譜建立方法及系統以及新聞事件對話方法及系統,特別係關於一種可應用於聊天機器人(chatbot)的知識圖譜建立方法及系統以及新聞事件對話方法及系統。
在資訊爆炸的時代,除了傳統紙本的報章雜誌,網路上更是有許多來自不同媒體的新聞,且同樣的主題也會因受訪人不同而產生不同的資訊。然而,儘管閱聽者可以因而接收多方面的訊息,但並不是每個受訪者對於其受訪的主題都有專業、詳盡的了解,故閱聽者反而可能接收到不完全正確甚或是錯誤的資訊。
鑒於上述,本發明提供一種知識圖譜建立方法及系統以及新聞事件對話方法及系統。
依據本發明一實施例的一種知識圖譜建立方法,包含以處理裝置執行:將多篇新聞文章歸類至關聯於多個子事件的主事件;以主事件作為知識圖譜中的第一節點;以該些子事件分別作為知識圖譜中的多個第二節點;將該些第二節點連接於第一節點;依據樣板規則從該些新聞文章分別抽取出多個事件摘要;將該些事件摘要分別作為知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的相關性,將該些第三節點各連接至該些第二節點中之一者;從該些事件摘要抽取出多個發言人身分;以及將該些發言人身分作為知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。
依據本發明一實施例的一種新聞事件對話方法,包含以處理裝置執行:剖析使用者問題以取得目標問題;從以如上述實施例的知識圖譜建立方法所產生的多個新聞事件知識圖譜中判定匹配於目標問題的目標事件知識圖譜;從目標事件知識圖譜的該些子事件中判定匹配於目標問題的目標子事件;以目標子事件連接的事件摘要作為目標摘要;以及依據目標摘要及該些發言人身分中對應於目標摘要的一或多個發言人身分輸出完整回答。
依據本發明一實施例的一種知識圖譜建立系統,包含:記憶體以及處理裝置。記憶體儲存了主事件及多個子事件,主事件關聯於該些子事件。處理裝置連接於記憶體,其中處理裝置用於執行:將多篇新聞文章歸類至主事件;以主事件作為知識圖譜中的第一節點;以該些子事件分別作為知識圖譜中的多個第二節點;將該些第二節點連接於第一節點;依據樣板規則從該些新聞文章分別抽取出多個事件摘要;將該些事件摘要分別作為知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的相關性,將該些第三節點各連接至該些第二節點中之一者;從該些事件摘要抽取出多個發言人身分;以及將該些發言人身分作為知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。
依據本發明一實施例的一種新聞事件對話系統,包含:使用者介面、記憶體以及處理裝置。使用者介面用於接收使用者問題,記憶體儲存以如上述實施例的知識圖譜建立方法所產生的多個新聞事件知識圖譜。處理裝置連接於使用者介面及記憶體,其中處理裝置用於執行:剖析使用者問題以取得目標問題;從該些新聞事件知識圖譜中判定匹配於目標問題的目標事件知識圖譜;從目標事件知識圖譜的該些子事件中判定匹配於目標問題的目標子事件;以目標子事件連接的事件摘要作為目標摘要;以及依據目標摘要及該些發言人身分中對應於目標摘要的一或多個發言人身分輸出完整回答。
綜上所述,依據本發明一或多個實施例所示的知識圖譜建立方法及系統,可提供結構化且詳細的資訊,讓使用該知識圖譜的系統(例如,搜尋引擎,及本發明實施例之新聞事件對話系統)能夠根據知識圖譜更快速地搜尋到相關資訊。依據本發明一或多個實施例所示的新聞事件對話方法及系統,當使用者透過使用者介面提出問題時,能夠判斷該問題所屬領域並提供回覆使用者問題的事件摘要,讓使用者不需花費大量時間搜尋即可獲得簡要且相關的資訊。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
請參考圖1及圖2,其中圖1係依據本發明一實施例所繪示的知識圖譜(Knowledge Graph)建立系統的方塊圖,圖2係依據本發明一實施例所繪示的知識圖譜建立方法的流程圖。本發明一實施例之知識圖譜建立系統1可包含處理裝置11及記憶體12,處理裝置11可電性連接於記憶體12或通訊連接於記憶體12。處理裝置11可以處理器、可程式化邏輯裝置(Programmable Logic Device,PLD)或特殊應用積體電路(Application Specific Integrated Circuit,ASIC)等實現,但本發明不予以限制。記憶體12較佳為非揮發性記憶體(Non-Volatile Memory,NVM),例如為唯讀記憶體(Read-only Memory,ROM)、電子抹除式可複寫唯讀記憶體(Electrically-Erasable Programmable Read-Only Memory, EEPROM)或快閃記憶體等,但本發明不予以限制。
本發明一實施例之知識圖譜建立方法可由知識圖譜建立系統1執行,尤其是由知識圖譜建立系統1的處理裝置11執行。如圖2所示,知識圖譜建立方法可包含以處理裝置11執行以下步驟:步驟S11:將多篇新聞文章歸類至主事件,該主事件關聯於多個子事件;步驟S12:以主事件作為知識圖譜中的第一節點;步驟S13:以該些子事件分別作為知識圖譜中的多個第二節點;步驟S14:將該些第二節點連接於第一節點;步驟S15:依據樣板規則從該些新聞文章分別抽取出多個事件摘要;步驟S16:將該些事件摘要分別作為知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的相關性,將該些第三節點各連接至該些第二節點中之一者;步驟S17:從該些事件摘要抽取出多個發言人身分;以及步驟S18:將該些發言人身分作為知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。在此實施例中,步驟S12及步驟S13可同時執行,步驟S12可執行在步驟S13之前,且步驟S12到步驟S14可執行於步驟S11之前,本發明不予以限制。
為了詳細說明以上內容,請一併參考圖1到圖3,其中圖3係依據本發明一實施例所繪示的知識圖譜的示例圖,且圖3的知識圖譜KG係以關於2019冠狀病毒(Coronavirus Disease 2019,COVID-19)的疫苗的新聞為例而繪示。另需先說明的是,記憶體12可預存步驟S11所述的主事件及多個子事件,且主事件關聯於該些子事件。具體而言,處理裝置11或連接於記憶體12的另一處理裝置可預先建立主事件與子事件之間的關聯性,而建立主事件與子事件之間的關聯性的方法可包含從含有主事件的多篇新聞標題及該些新聞的第一段內文抽取多個子事件,其中子事件的格式可為一對的「主詞-動詞」或一對的「動詞-受詞」,且主詞與動詞之間的字數及動詞與受詞之間的間隔字數較佳不大於10字,本發明不對間隔字數的具體數值予以限制。舉例而言,假設某篇新聞的新聞標題為「家長別急!77.76萬劑兒童疫苗到貨,最快下週開打」,而第一段內文包含「與疫苗公司簽約採購400萬劑新型冠狀病毒病成人與兒童劑型疫苗,繼首批185.7萬劑成人疫苗到貨後,兒童劑型疫苗第一批採購77.76萬劑也於今天上午到貨」,則從新聞標題抽取出的子事件可包含「疫苗到貨(主詞-動詞)」及「疫苗開打(主詞-動詞)」,從第一段內文抽取出的子事件可包含「疫苗公司簽約(主詞-動詞)」、「採購疫苗(動詞-受詞)」及「疫苗到貨(主詞-動詞)」。此外,由於可能可從該些新聞可取出多個子事件,故在將子事件存入記憶體12之前,還可先根據每個子事件在該些新聞的內文中的出現頻率排序該些子事件,並將出現頻率低於頻率閾值的子事件予以刪除,其中出現頻率例如為將每個子事件在該些新聞的內文中的出現次數除以該些新聞的篇數,而頻率閾值例如為0.5,但本發明不對頻率閾值的具體數值予以限制。
於步驟S11,處理裝置11可透過網路爬蟲(web crawler)從網路、雲端等處抓取與主事件相關的多篇新聞文章。舉例而言,若主事件為疫苗,子事件則可為關聯於疫苗的主題(topic),包括A牌疫苗的保護力未經實證、混打疫苗及青少年暫緩接種第二劑疫苗等,則處理裝置11可透過網路爬蟲抓取與疫苗(主事件)及疫苗主題(子事件)相關的多篇新聞文章。具體地,處理裝置11抓取的該些新聞文章可為:標題含有主事件的文字及/或子事件的文字的文章、內文出現主事件的文字及/或子事件的文字的次數達預設次數的文章等。處理裝置11在判定疫苗相關的多篇新聞文章後,可將該些新聞文章歸類至主事件「疫苗」。於步驟S12、S13及S14,處理裝置11將主事件「疫苗」作為知識圖譜KG的第一節點N1,將上述列舉的多個子事件作為知識圖譜KG的多個第二節點N2a、N2b及N2c及將該些第二節點N2a到N2c連接於第一節點N1。另需說明的是,本文中所述「將主事件作為知識圖譜的第一節點」是指將主事件儲存為知識圖譜的第一節點,下文所述的第二節點、第三節點及第四節點同理。另外,處理裝置11亦可先抓取標題含有主事件的多篇新聞文章,再以如上建立主事件與子事件之間的關聯性的方法從每篇新聞文章的標題及第一段內文取得一或多個子事件,且在經過如上所述的出現頻率的篩選後,若剩餘的子事件與既存的子事件相符,則處理裝置11可對此篇新聞執行以下步驟;若剩餘的子事件與既存的子事件皆不相符,則處理裝置11可依據剩餘的子事件於知識圖譜建立新的子事件。
接著,於步驟S15,處理裝置11依據樣板規則從隸屬於主事件的該些新聞文章分別抽取出多個事件摘要,其中所述樣板規則可為「人名–說/表示–文字內容」,而根據樣板規則擷取出的內容即可作為事件摘要。舉例而言,若隸屬於主事件的其中一篇新聞文章記載了「…張鑾英指出,四十歲以上成人、年長者或第九類高風險患者可考慮混打,保護力會比二劑AZ高出許多」,則處理裝置11根據樣板規則可擷取出人名「張鑾英」及文字內容「四十歲以上成人、年長者或第九類高風險患者可考慮混打,保護力會比二劑AZ高出許多」作為事件摘要。換言之,此時事件摘要含新聞文章中的發言人身分及其發言內容。
於步驟S16,以圖3為例,處理裝置11可將該些事件摘要分別作為知識圖譜KG中的多個第三節點N3a、N3b、N3c及N3d,將該些事件摘要的第三節點N3a~N3d與具有相關性的該些子事件的第二節點N2a~N2c中之一者彼此連接,其中所述相關性例如為事件摘要含有子事件之所有文字,或含有子事件之部分文字,且所述部分文字佔子事件之所有文字達預設比例(例如,50%),但本發明不予以限制。進一步而言,以第三節點N3c為例,第三節點N3c的事件摘要含有第二節點N2b的子事件之部分文字(即「混打」)且達預設比例,故處理裝置11判斷第三節點N3c的事件摘要與第二節點N2b的子事件具相關性而將第三節點N3c連接至第二節點N2b。
於步驟S17及S18,處理裝置11根據事件摘要從對應的新聞文章抽取出發言人身分,將發言人身分作為第四節點,及將第四節點連接至對應的第三節點。如前所述,於步驟S15抽取之事件摘要含新聞文章中的發言人身分及其發言內容,而於步驟S17及S18,處理裝置11係進一步從事件摘要抽取出發言人身分作為第四節點。以圖3為例,在抽取出發言人身分後之事件摘要即為如圖3所示的第三節點N3a~N3d代表的事件摘要,處理裝置11可將例如為人名的發言人身分作為知識圖譜KG中的第四節點N4a、N4b、N4c及N4d,及將第四節點N4a~N4d各連接至對應的第三節點N3a~N3d。同樣以前述的新聞文章為例,第三節點N3c之事件摘要對應的發言人身分為「張鑾英」,處理裝置11可將發言人身分「張鑾英」作為第四節點N4c,並將第四節點N4c連接至第三節點N3c。據此,經上述實施例所建立的知識圖譜可提供結構化且詳細的資訊,讓使用該知識圖譜的系統(例如,搜尋引擎)能夠根據知識圖譜更快速地搜尋到相關資訊。
另外,在完成建立知識圖譜KG後,處理裝置11還可動態地刪減知識圖譜KG上的第二節點N2a~N2c中之一或多者。具體地,處理裝置12可透過爬蟲判斷在一段時間內(例如,一週、一個月、三個月等)與第一節點的主事件相關的新聞總篇數,以及每個第二節點的子事件在與主事件相關的該些新聞中出現的篇數,並將第二節點對應的篇數除以第一節點對應的總篇數以取得比值,若比值小於預設比值,則處理裝置12可將該第二節點及其後所連接之第三節點及第四節點予以刪除,其中預設比值可例如為0.2,但本發明不對預設比值的實際數值予以限制。
為了更詳細說明抽取發言人身分的內容,請一併參考圖1及圖4,其中圖4係繪示圖2的步驟S17的細部流程圖。如圖4所示,圖2的步驟S17可包含:步驟S171:從該些事件摘要抽取出多個發言人姓名;步驟S172:以該些發言人姓名從專業度資料庫搜尋該些發言人姓名的多個發言人職位;步驟S173:依據該些發言人職位與主事件之間的多個相關度分別賦予該些發言人姓名對應的多個權重值,其中相關度與權重值係呈正相關;以及步驟S174:以該些發言人姓名各與該些權重值中的對應權重值組成該些發言人身分之一。
於步驟S171及S172,處理裝置11係從事件摘要抽取出發言人姓名,並從專業度資料庫搜尋出發言人姓名對應的職位作為發言人職位,其中專業度資料庫存有多個姓名及分別對應該些姓名的職位,專業度資料庫可為儲存於記憶體12中的資料庫,亦可為外部資料庫,例如是維基百科等。以前述的新聞文章為例,處理裝置11抽取出的發言人姓名為「張鑾英」,從專業度資料庫搜尋出「張鑾英」的職位包含小兒部感染科主治醫師,則其對應的發言人職位即為「小兒部感染科主治醫師」。
接著於步驟S173,處理裝置11依據發言人職位與主事件之間的相關度賦予發言人姓名對應的權重值,其中當發言人職位與主事件的相關度越高,則其對應的權重值亦會越高。處理裝置11可預存對應於主事件的相關專業職位的詞典,該詞典記錄在主事件的領域具專業度的職位。以主事件為疫苗為例,對應於主事件的相關專業職位的詞典可記錄官方衛生單位的長官、小兒科醫師及免疫學系的教授等。因此,在賦予發言人姓名對應的權重值時,處理裝置11可依據以下規則賦予對應的權重值:若發言人的職位與所述詞典中的該些相關專業職位的其中一者相符,且該發言人在維基百科頁面上的職位與所述詞典中的該相關專業職位相符,給予該發言人最高的權重值;若發言人的職位與所述詞典中的該些相關專業職位的其中一者相符,但該發言人無對應的維基百科頁面,給予該發言人次高的權重值;以及若發言人的職位與所述詞典中的該些相關專業職位的任一者皆不相符,給予該發言人最低的權重值。在一實施態樣中,多個發言人可有相同的權重值,本發明不予以限制。
此外,在多個第三節點連接同一個第二節點的情況中,處理裝置11可先根據所述詞典從該些發言人的該些職位中篩去與主事件不相關的職業,並直接給予被篩去的發言人預設的最低權重值(例如,權重值為0),處理裝置11便可不需另外查找維基百科以賦予該發言人對應的權重值。又或者,以發言人職位「小兒部感染科主治醫師」為例,處理裝置11可透過在網路上爬蟲判得「小兒部感染科」或「小兒部感染科主治醫師」與主事件「疫苗」共同出現的次數,並將所述共同次數除以預設數值作為權重值;又或者,處理裝置11可透過Google搜尋引擎搜尋「小兒部感染科」或「小兒部感染科主治醫師」與主事件「疫苗」,並將搜尋結果的總資料筆數除以預設數值作為權重值。反之,若處理裝置11從第三節點N3c的事件摘要抽取出的發言人姓名為「王小明」,且處理裝置11從專業度資料庫搜尋出「王小明」的發言人職位為「歌手」,則其權重值應會低於「小兒部感染科主治醫師」的權重值。簡言之,權重值代表了發言人在其發言內容所屬的領域的專業度,當權重值越高,表示該發言人在其發言內容所屬的領域的專業度越高,其發言內容便更具參考性。
接著,於步驟S174,處理裝置11將發言人姓名與對應的權重值匹配而組成作為第四節點的發言人身分。以圖3為例,第四節點N4c的第三發言人身分包含了發表第三節點N3c的事件摘要之言論的發言人姓名及對應的權重值,其中該權重值代表了該發言人姓名對應的發言人職位與第一節點N1的主事件之間的相關度。換言之,第四節點N4c的第三發言人身分包含了發言人姓名「張鑾英」以及其關於主事件的權重值。
於另一實施例中,處理裝置11除了可以執行上述實施例所述的運作,更可進一步以發言時間及新聞網址組成發言人身分。請參考圖5,其中圖5係依據本發明另一實施例所繪示的知識圖譜的示例圖。具體地,於圖2的步驟S15所取出之事件摘要除了包含發言人姓名之外,還可包含發言時間(即刊登該新聞文章的時間)及新聞網址(即刊登該新聞文章的網址),且可更包含新聞媒體(即發表該新聞文章的媒體名稱);又或者,事件摘要亦可包含發言人姓名、發言時間、新聞網址及新聞媒體的一或多者,本發明不予以限制。因此,於圖2的步驟S17,處理裝置11在從事件摘要抽取出發言人姓名時,更可一併從事件摘要抽取出發言時間、新聞媒體及新聞網址,並以發言人姓名及其對應的發言時間、新聞媒體及新聞網址組成發言人身分。以圖5為例,知識圖譜KG’中的第三節點N3c的事件摘要連接到的第四節點N4c的第二發言人姓名SN2為「張鑾英」,而第三節點N3c的事件摘要係取自發言時間為2021年11月18日及新聞網址為第三網址的新聞文章,且該新聞文章係由第三媒體發表,故處理裝置11將「張鑾英」作為第四節點N4c的發言人姓名SN2,日期「2021年11月18日」作為第四節點N4c的發言時間N41c,「第三媒體」作為第四節點N4c的新聞媒體N42c,及將刊登該新聞文章的「第三網址」作為第四節點N4c的新聞網址N43c。另需說明的是,如圖5所示,同一個發言人姓名可連結至多個事件摘要,即多個第四節點可指示相同的發言人姓名但不同的發言時間、新聞媒體及/或新聞網址。另外,同一個子事件可連接多個不同的事件摘要,且每個事件摘要連接的發言人身分可彼此相同或相異。
請一併參考圖6及圖7,其中圖6係依據本發明一實施例所繪示的新聞事件對話系統的方塊圖,圖7係依據本發明一實施例所繪示的新聞事件對話方法的流程圖。本發明一實施例之新聞事件對話系統2可包含處理裝置21、記憶體22以及使用者介面23,處理裝置21可電性連接於記憶體22及使用者介面23或通訊連接於記憶體22及使用者介面23。處理裝置21及記憶體22可與為圖1之處理裝置11及記憶體12,亦可與圖1之處理裝置11及記憶體12為不同元件但以同樣的方式實現,本發明不予以限制。使用者介面23用於接收使用者輸入的指令(例如,下述的使用者問題)及呈現對應的結果(例如,下述的完整回答)予使用者,使用者介面23例如包含麥克風、喇叭、鍵盤、滑鼠及螢幕等,且較佳為觸控式螢幕,但本發明不予以限制。
本發明一實施例之新聞事件對話系統2及新聞事件對話方法可應用於聊天機器人(chatbot),根據使用者輸入的問題提供對應的回答。本發明一實施例之新聞事件對話方法可由新聞事件對話系統2執行,尤其係由新聞事件對話系統2的處理裝置21執行,且如圖7所示,本發明一實施例之新聞事件對話方法包含:步驟S21:剖析使用者問題以取得目標問題;步驟S22:從以知識圖譜建立方法所產生的多個新聞事件知識圖譜中判定匹配於目標問題的目標事件知識圖譜;步驟S23:從目標事件知識圖譜的該些子事件中判定匹配於目標問題的目標子事件;步驟S24:以目標子事件連接的事件摘要作為目標摘要;以及步驟S25:依據目標摘要及該些發言人身分中對應於目標摘要的一或多個發言人身分輸出完整回答。
於步驟S21,處理裝置21可透過使用者介面23接收使用者問題,剖析使用者問題以取得目標問題,例如係透過自然語言理解(Natural Language Understanding,NLU)剖析使用者問題以取得目標問題。舉例而言,若使用者問題為「為什麼青少年暫不接種第二劑」,處理裝置21可透過自然語言理解取得「青少年暫不接種第二劑」的目標問題。又或者,處理裝置21可判定目標問題中的預設關鍵字,將連接於預設關鍵字後的文字作為目標問題。舉例而言,預設關鍵字可包含「為什麼」、「誰」、「什麼時候」、「如何」、「哪裡」等,處理裝置21可判定使用者問題「為什麼青少年暫不接種第二劑疫苗」中含預設關鍵字「為什麼」,並將連接於預設關鍵字後的文字「青少年暫不接種第二劑疫苗」作為目標問題。
於步驟S22,處理裝置21從多個新聞事件知識圖譜判定匹配於目標問題的目標事件知識圖譜,其中該些新聞事件知識圖譜係儲存於記憶體22中,且該些新聞事件知識圖譜可以是透過上述知識圖譜建立方法及系統的一或多個實施例產生。該些新聞事件知識圖譜可分別對應到不同的主事件,例如為疫苗、口罩或奧運等不同的主事件,處理裝置21可比對目標問題與各新聞事件知識圖譜的主事件,並將相匹配(例如,目標問題涵蓋該主事件)的新聞事件知識圖譜作為選定的目標事件知識圖譜。以目標問題「為什麼青少年暫不接種第二劑疫苗」為例,處理裝置21判斷此目標問題涵蓋主事件「疫苗」,故將主事件「疫苗」之新聞事件知識圖譜作為目標事件知識圖譜,例如為圖4所示的知識圖譜KG。
於步驟S23及S24,處理裝置21將目標事件知識圖譜中的多個子事件與目標問題進行比對,以選出匹配於目標問題的目標子事件,並將目標子事件連接的事件摘要作為目標摘要,其中處理裝置21選出匹配於目標問題的子事件可以是:判斷目標問題含有該些子事件其中一者之所有文字,或含有該些子事件其中一者之部分文字,且所述部分文字佔目標問題之所有文字達預設比例(例如,50%),但本發明不予以限制。以圖4為例,處理裝置21可從第二節點N2a~N2c的子事件中判定匹配於目標問題的一者為第二節點N2c的目標子事件,並將第二節點N2c的目標子事件所連接之第三節點N3d的事件摘要作為目標摘要。
接著,於步驟S25,處理裝置21依據目標摘要及對應的發言人身分輸出完整回答至使用者介面23,即完整答案至少包含發言人身分及其發言內容(即目標摘要),其中處理裝置21可以係透過自然語言產生(Natural Language Generation,NLG)技術而產生完整回答。同樣以圖4為例,第三節點N3d的目標摘要係對應到第四發言人身分N4d,故完整答案可為「第四發言人身分:疫情控制不錯、第二劑心肌炎風險是第一劑的5到10倍」。據此,當使用者透過使用者介面提出問題時,處理裝置能夠判斷該問題所屬領域並提供回覆使用者問題的事件摘要,讓使用者不需花費大量時間搜尋即可獲得簡要且相關的資訊。此外,透過先從多個新聞事件知識圖譜中判定匹配於目標問題的目標事件知識圖譜,再依據目標事件知識圖譜的目標子事件產生完整答案,能夠讓處理裝置快速搜尋出與目標問題匹配的子事件,而不需從所有的知識圖譜的所有子事件搜尋出與目標問題匹配的一者,有效降低了處理裝置產生完整答案的時間。
請接著參考圖6及圖8,其中圖8係繪示圖7的步驟S25的細部流程圖。如圖8所示,圖7的步驟S25可包含:步驟S251:依據該些目標摘要連接的該些發言人身分對應的該些權重值排序該些目標摘要;步驟S252:依據該些發言人身分及對應的該些目標摘要的每一者產生多個子回答;以及步驟S253:依據該些目標摘要的排序結果排序該些子回答作為完整回答。
如前所述,發言人身分可包含發言人姓名及對應的權重值,且同一個子事件可連接多個不同的事件摘要,且每個事件摘要連接的發言人身分可彼此相同或相異,而圖8的實施例即是在說明於圖7的步驟S24取得的目標摘要為多個目標摘要的實施態樣。因此,於步驟S251,處理裝置21依據該些目標摘要分別連接的發言人身分對應的權重值排序該些目標摘要;於步驟S252,處理裝置21將該些發言人身分及對應的目標摘要一一匹配而產生多個子回答;及於步驟S253,處理裝置21依據步驟S251的排序結果排序該些子回答作為輸出至使用者介面23的完整回答。
為了更詳細說明圖8的實施例,請一併參考圖6、圖8及圖9,其中圖9係繪示將本發明一或多個實施例之新聞事件對話系統及方法應用於聊天機器人的示意圖。假設使用者介面23取得的使用者問題Q為「為什麼青少年暫不接種第二劑疫苗」,而透過圖7實施例匹配出的目標摘要包含第一目標摘要「疫情控制不錯、第二劑心肌炎風險是第一劑的5到10倍」及第二目標摘要「目前沒有適合青少年打的疫苗」,且第一目標摘要對應的發言人身分包含第一發言人姓名及第一權重值,第二目標摘要對應的發言人身分包含第二發言人姓名及第二權重值,其中第一權重值及第二權重值係根據圖4的實施例產生,且第一權重值高於第二權重值。因此,於步驟S251,處理裝置21可依據第一權重值及第二權重值將第一目標摘要排序在第二目標摘要之前;於步驟S252,處理裝置21可產生第一子回答A1「第一發言人姓名:疫情控制不錯、第二劑心肌炎風險是第一劑的5到10倍」及第二子回答A2「第二發言人姓名:目前沒有適合青少年打的疫苗」;及於步驟S253,處理裝置21依據步驟S251的排序結果,將第一子回答A1排序在第二子回答A2之前,並將排序完成之第一子回答A1及第二子回答A2作為完整回答A輸出至使用者介面23呈現。由於使用者介面23呈現的多個子回答係根據發言人對應的權重值排序,而權重值係指示該發言人在發表事件摘要內容所對應之主事件的專業度,故使用者即可根據排序後的多個子回答判斷排序在前的子回答相較於排序在後的子回答更具參考性及正確性。
綜上所述,依據本發明一或多個實施例所示的知識圖譜建立方法及系統,可提供結構化且詳細的資訊,讓使用該知識圖譜的系統(例如,搜尋引擎,及本發明實施例之新聞事件對話系統)能夠根據知識圖譜更快速地搜尋到相關資訊。依據本發明一或多個實施例所示的新聞事件對話方法及系統,當使用者透過使用者介面提出問題時,能夠判斷該問題所屬領域並提供回覆使用者問題的事件摘要,讓使用者不需花費大量時間搜尋即可獲得簡要且相關的資訊,且使用者可根據排序後的多個子回答判斷排序在前的子回答相較於排序在後的子回答更具參考性及正確性。此外,本發明一或多個實施例所示的新聞事件對話方法及系統係透過先從多個新聞事件知識圖譜中判定匹配於目標問題的目標事件知識圖譜,再依據目標事件知識圖譜的目標子事件產生完整答案,能夠讓系統(例如,本發明實施例之處理裝置)快速搜尋出與目標問題匹配的子事件,而不需從所有的知識圖譜的所有子事件搜尋出與目標問題匹配的一者,有效降低了產生完整答案的時間。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
1:知識圖譜建立系統 2:新聞事件對話系統 11,21:處理裝置 12,22:記憶體 23:使用者介面 KG,KG’:知識圖譜 N1:第一節點 N2a,N2b,N2c:第二節點 N3a,N3b,N3c,N3d:第三節點 N4a,N4b,N4c,N4d:第四節點 N41a,N41b,N41c,N41d:發言時間 N42a,N42b,N42c,N42d:新聞媒體 N43a,N43b,N43c,N43d:新聞網址 SN1,SN2:發言人姓名 Q:使用者問題 A1:第一子回答 A2:第二子回答 A:完整回答 S11,S12,S13,S14,S15,S16,S17,S18,S21,S22,S23,S24,S25,S171,S172,S173,S174,S251,S252,S253:步驟
圖1係依據本發明一實施例所繪示的知識圖譜(Knowledge Graph)建立系統的方塊圖。 圖2係依據本發明一實施例所繪示的知識圖譜建立方法的流程圖。 圖3係依據本發明一實施例所繪示的知識圖譜的示例圖。 圖4係繪示圖2的步驟S17的細部流程圖。 圖5係依據本發明另一實施例所繪示的知識圖譜的示例圖。 圖6係依據本發明一實施例所繪示的新聞事件對話系統的方塊圖。 圖7係依據本發明一實施例所繪示的新聞事件對話方法的流程圖。 圖8係繪示圖7的步驟S25的細部流程圖。 圖9係繪示將本發明一或多個實施例之新聞事件對話系統及方法應用於聊天機器人的示意圖。
S11,S12,S13,S14,S15,S16,S17,S18:步驟

Claims (10)

  1. 一種知識圖譜建立方法,包含以一處理裝置執行:將多篇新聞文章歸類至一主事件,該主事件關聯於多個子事件;以該主事件作為一知識圖譜中的一第一節點;以該些子事件分別作為該知識圖譜中的多個第二節點;將該些第二節點連接於該第一節點;依據一樣板規則從該些新聞文章分別抽取出多個事件摘要,其中該樣板規則包含「人名-表達動詞-文字內容」的一句型結構;將該些事件摘要分別作為該知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的多個相關性,將該些第三節點各連接至該些第二節點中之一者,其中該些相關性中的每一者關聯於該些事件摘要中之一者含有該些子事件中之一者的至少部分文字的比例;從該些事件摘要抽取出多個發言人身分;以及將該些發言人身分作為該知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。
  2. 如請求項1所述的知識圖譜建立方法,其中從該些事件摘要抽取出該些發言人身分包含:從該些事件摘要抽取出多個發言人姓名;以該些發言人姓名從一專業度資料庫搜尋該些發言人姓名的多個發言人職位; 依據該些發言人職位與該主事件之間的多個相關度分別賦予該些發言人姓名對應的多個權重值,其中相關度與權重值係呈正相關;以及以該些發言人姓名各與該些權重值中的對應權重值組成該些發言人身分之一,其中該些相關度各取決於該些發言人職位中的對應者是否與多個預存相關專業職位的其中一者相符。
  3. 如請求項2所述的知識圖譜建立方法,其中從該些事件摘要抽取出該些發言人身分更包含:從該些事件摘要抽取出多個發言時間及多個新聞網址;以及以該些發言人姓名各與該些發言時間及該些新聞網址中的對應發言時間及新聞網址組成該些發言人身分之一。
  4. 一種新聞事件對話方法,包含以一處理裝置執行:剖析一使用者問題以取得一目標問題;從以如請求項1~3任一項所述的知識圖譜建立方法所產生的多個新聞事件知識圖譜中判定匹配於該目標問題的一目標事件知識圖譜;從該目標事件知識圖譜的該些子事件中判定匹配於該目標問題的一目標子事件;以該目標子事件連接的該事件摘要作為一目標摘要;以及依據該目標摘要及該些發言人身分中對應於該目標摘要的一或多個發言人身分輸出一完整回答。
  5. 如請求項4所述的新聞事件對話方法,其中該目標摘要係多個目標摘要,依據該目標摘要及該些發言人身分中對應於該目標摘要的一或多個發言人身分輸出該完整回答包含:依據該些目標摘要分別連接的該些發言人身分對應的該些權重值排序該些目標摘要;依據該些發言人身分及對應的該些目標摘要的每一者產生多個子回答;以及依據該些目標摘要的排序結果排序該些子回答作為該完整回答。
  6. 一種知識圖譜建立系統,包含:一記憶體,儲存一主事件及多個子事件,該主事件關聯於該些子事件;以及一處理裝置,連接於該記憶體,其中該處理裝置用於執行:將多篇新聞文章歸類至該主事件;以該主事件作為一知識圖譜中的一第一節點;以該些子事件分別作為該知識圖譜中的多個第二節點;將該些第二節點連接於該第一節點;依據一樣板規則從該些新聞文章分別抽取出多個事件摘要,其中該樣板規則包含「人物名稱-表達動詞-文字內容」的一句型結構;將該些事件摘要分別作為該知識圖譜中的多個第三節點,並依據該些事件摘要與該些子事件的相關性,將該些第三節點 各連接至該些第二節點中之一者,其中該些相關性中的每一者關聯於該些事件摘要中之一者含有該些子事件中之一者的至少部分文字的比例;從該些事件摘要抽取出多個發言人身分;以及將該些發言人身分作為該知識圖譜中的多個第四節點,並將該些第四節點各連接至該些第三節點中之至少一者。
  7. 如請求項6所述的知識圖譜建立系統,其中該處理裝置更連接於一專業度資料庫,該處理裝置執行從該些事件摘要抽取出該些發言人身分包含:從該些事件摘要抽取出多個發言人姓名;以該些發言人姓名從該專業度資料庫搜尋該些發言人姓名的多個發言人職位;依據該些發言人職位與該主事件之間的多個相關度分別賦予該些發言人姓名對應的多個權重值,其中相關度與權重值係呈正相關;以及以該些發言人姓名各與該些權重值中的對應權重值組成該些發言人身分之一,其中該些相關度各取決於該些發言人職位中的對應者是否與多個預存相關專業職位的其中一者相符。
  8. 如請求項7所述的知識圖譜建立系統,其中該處理裝置執行從該些事件摘要抽取出該些發言人身分包含:從該些事件摘要抽取出多個發言時間及多個新聞網址;以及 以該些發言人姓名各與該些發言時間及該些新聞網址中的對應發言時間及新聞網址組成該些發言人身分之一。
  9. 一種新聞事件對話系統,包含:一使用者介面,用於接收一使用者問題;一記憶體,儲存以如請求項1~3任一項所述的知識圖譜建立方法所產生的多個新聞事件知識圖譜;以及一處理裝置,連接於該使用者介面及該記憶體,其中該處理裝置用於執行:剖析該使用者問題以取得一目標問題;從該些新聞事件知識圖譜中判定匹配於該目標問題的一目標事件知識圖譜;從該目標事件知識圖譜的該些子事件中判定匹配於該目標問題的一目標子事件;以該目標子事件連接的該事件摘要作為一目標摘要;以及依據該目標摘要及該些發言人身分中對應於該目標摘要的一或多個發言人身分輸出一完整回答。
  10. 如請求項9所述的新聞事件對話系統,其中該目標摘要係多個目標摘要,該處理裝置執行依據該目標摘要及該些發言人身分中對應於該目標摘要的一或多個發言人身分輸出該完整回答包含:依據該些目標摘要分別連接的該些發言人身分對應的該些權重值排序該些目標摘要; 依據該些發言人身分及對應的該些目標摘要的每一者產生多個子回答;以及依據該些目標摘要的排序結果排序該些子回答作為該完整回答。
TW111119394A 2022-05-25 2022-05-25 知識圖譜建立方法及系統以及新聞事件對話方法及系統 TWI814396B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW111119394A TWI814396B (zh) 2022-05-25 2022-05-25 知識圖譜建立方法及系統以及新聞事件對話方法及系統
US17/836,647 US12086182B2 (en) 2022-05-25 2022-06-09 Method and system of building knowledge graph and method and system of conversing news event
JP2022101329A JP7495145B2 (ja) 2022-05-25 2022-06-23 ナレッジグラフの構築方法及びシステムならびにニュースイベントの会話方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111119394A TWI814396B (zh) 2022-05-25 2022-05-25 知識圖譜建立方法及系統以及新聞事件對話方法及系統

Publications (2)

Publication Number Publication Date
TWI814396B true TWI814396B (zh) 2023-09-01
TW202347141A TW202347141A (zh) 2023-12-01

Family

ID=88965848

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111119394A TWI814396B (zh) 2022-05-25 2022-05-25 知識圖譜建立方法及系統以及新聞事件對話方法及系統

Country Status (3)

Country Link
US (1) US12086182B2 (zh)
JP (1) JP7495145B2 (zh)
TW (1) TWI814396B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238674A (zh) * 2021-04-23 2022-10-25 伊姆西Ip控股有限责任公司 文章处理方法、电子设备和程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931027A (zh) * 2020-08-17 2020-11-13 深圳新闻网传媒股份有限公司 一种智能新闻舆情预警系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117155A (ja) 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 電子会議データ取得方法、装置、プログラム、および記録媒体ならびに電子会議データ検索方法、装置、プログラム、および記録媒体
GB201200158D0 (en) * 2012-01-05 2012-02-15 Rugerro Gramatica Dott Information network with linked information
US10482390B2 (en) * 2014-10-24 2019-11-19 Salesforce.Com, Inc. Information discovery system
CN107220352B (zh) 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置
US11177937B1 (en) * 2018-03-08 2021-11-16 Anonyome Labs, Inc. Apparatus and method for establishing trust of anonymous identities
US11562592B2 (en) * 2019-01-28 2023-01-24 International Business Machines Corporation Document retrieval through assertion analysis on entities and document fragments
US11314930B2 (en) * 2019-02-11 2022-04-26 Google Llc Generating and provisioning of additional content for source perspective(s) of a document
JP7031079B2 (ja) 2019-12-19 2022-03-07 三菱電機株式会社 推論装置、推論方法、及び推論プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931027A (zh) * 2020-08-17 2020-11-13 深圳新闻网传媒股份有限公司 一种智能新闻舆情预警系统

Also Published As

Publication number Publication date
US20230409637A1 (en) 2023-12-21
JP7495145B2 (ja) 2024-06-04
JP2023174429A (ja) 2023-12-07
TW202347141A (zh) 2023-12-01
US12086182B2 (en) 2024-09-10

Similar Documents

Publication Publication Date Title
JP5346841B2 (ja) 文書分類システムおよび文書分類プログラムならびに文書分類方法
CN102722558B (zh) 一种为用户推荐提问的方法和装置
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
JP4429236B2 (ja) 分類ルール作成支援方法
US8793259B2 (en) Information retrieval device, information retrieval method, and program
CA2727537C (en) System and method for compending blogs
CN110399470B (zh) 会话消息处理
CN106777331A (zh) 知识图谱生成方法及装置
TWI814396B (zh) 知識圖譜建立方法及系統以及新聞事件對話方法及系統
JP5692074B2 (ja) 情報分類装置、情報分類方法、及びプログラム
KR20210043283A (ko) 기계 독해 기반 지식 추출을 위한 시스템 및 방법
TW202121230A (zh) 自然語言處理方法與其計算裝置
CN110110218A (zh) 一种身份关联方法及终端
CN111091883A (zh) 一种医疗文本处理方法、装置、存储介质及设备
JP2004515837A (ja) サーチプロファイルの比較方法
JP6882975B2 (ja) 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
CN112528046A (zh) 新的知识图谱的构建方法、装置和信息检索方法、装置
CN117171292A (zh) 知识图谱建立方法及系统以及新闻事件对话方法及系统
CN110008352A (zh) 实体发现方法及装置
CN114579733A (zh) 一种主题脉落的生成方法和系统
WO2021103859A1 (zh) 一种信息搜索方法、装置、设备及存储介质
JPH11282874A (ja) 情報フィルタリング方法および装置
JP2002073644A (ja) 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体
TWI477996B (zh) 自動分析個人化輸入之方法