TW201807602A - 基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統 - Google Patents
基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統 Download PDFInfo
- Publication number
- TW201807602A TW201807602A TW106127958A TW106127958A TW201807602A TW 201807602 A TW201807602 A TW 201807602A TW 106127958 A TW106127958 A TW 106127958A TW 106127958 A TW106127958 A TW 106127958A TW 201807602 A TW201807602 A TW 201807602A
- Authority
- TW
- Taiwan
- Prior art keywords
- industry
- data
- entity
- entities
- event
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明提供一種構建行業知識圖譜資料庫的方法,包括以下步驟:從資料來源獲取行業資料;對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性及/或實體關係;基於所提取的實體、實體屬性及/或實體關係構建所述行業知識圖譜資料庫。本發明還提供一種基於所構建的行業知識圖譜資料庫對與行業相關的特定媒體事件進行監測的方法,包括以下步驟:獲取互聯網媒體資料;基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選,以獲取所述與行業相關的特定媒體事件;識別與所述特定媒體事件對應的直接相關實體;基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;向所述直接相關實體和/或所述非直接相關實體發送預警消息。
Description
本發明涉及互聯網媒體監測領域,具體而言,涉及一種構建行業知識圖譜資料庫的技術以及一種基於所構建的行業知識圖譜資料庫對互聯網媒體事件進行監測的技術。
電腦、通信以及網路技術的迅速發展使包括PC、平板電腦、智慧手機、網路電視等在內的終端設備的性能不斷提高。相應地,互聯網媒體,特別是互聯網社交媒體,憑藉其多元性、迅捷性、交互性、易複製性、多媒體化等特點,已逐漸成為大眾獲取新聞資訊的主要途徑之一。
然而,互聯網媒體資訊在具有時效性強、獲取方式靈活便捷等優勢的同時,其資訊源和傳播方式的開放性特點也導致了以下問題的存在:在未經授權或證實的情況下,一些敏感消息(例如,商業秘密)甚至虛假消息在互聯網媒體平臺上被大量用戶快速傳播,從而演變為對相關的個人、企業/機構、行業乃至社會造成不良影響的媒體事件。因此,需要對互聯網媒體中的媒體事件進行監測,並在監測到滿足一定條件的媒體事件後採取相應的措施,以降低或消除其潛在的影響。
現有的互聯網媒體監測技術則存在以下缺陷:1)使用興趣匹配的方式為使用者提供互聯網媒體監測,使用者需要自訂感興趣的內容主題、相關實體等,因此在監測中僅能夠識別與使用
者已定義的實體直接相關的事件,而無法識別用戶未定義但是與使用者所感興趣的實體間接相關的事件;2)監測物件的屬性單一,僅能夠提供針對單一媒體類別和資料來源(例如,特定的社交媒體、新聞媒體、論壇、博客等)、單一資料類型(一般為文本)、單一語言的監測。
本發明的一個目的是提供一種構建行業知識圖譜資料庫的技術,將針對特定行業或領域的相關資料提取並保存在知識圖譜資料庫中,所構建的行業知識圖譜資料庫可以應用於互聯網媒體監測中,以實現對相關互聯網媒體事件的自動化、深層次監測。
本發明的另一個目的是提供一種基於所構建的行業知識圖譜資料庫對互聯網媒體事件進行監測的技術,在監測中能夠識別出與特定媒體事件對應的非直接相關實體,並且能夠對多種類型的互聯網媒體資料進行監測。
為了實現上述發明目的,本發明提供的具體技術方案如下。
本發明提供一種構建行業知識圖譜資料庫的方法,包括以下步驟:從資料來源獲取行業資料;對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫。
較佳地,所述獲取行業資料的步驟通過以下方式實現:從協力廠商行業資料庫獲取結構化行業資料,所述結構化行業資料包括多個欄位;所述對行業資料進行資料處理的步驟通過以下方式實現:對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述構建行業知識圖譜資料庫的步驟通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
較佳地,所述獲取行業資料的步驟通過以下方式實現:利用網路爬蟲技術,從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述對行業資料進行資料處理的步驟通過以下方式實現:利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;所述構建行業知識圖譜資料庫的步驟通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。進一步較佳地,上述步驟是以預定的週期定期執行的。
較佳地,所述獲取行業資料的步驟通過以下方式實現:利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源;所述對行業資料進行資料處理的步驟通過以下方式實現:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述構建行業知識圖譜資料庫的步驟通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。進一步較佳地,上述步驟是以預定的週期定期執行的。
較佳地,所述獲取行業資料的步驟通過以下方式實現:利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述對行業資料進行資料處理的步驟通過以下方式實現:對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;所述構建行業知識圖譜資料庫的步驟通過以下方式實現:基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜
資料庫中。進一步較佳地,在所述對行業資料進行資料處理的步驟中通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者,基於語音辨識處理從音訊或視頻資料中識別實體。進一步較佳地,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。進一步較佳地,上述步驟是即時不間斷執行的。
較佳地,所述構建行業知識圖譜資料庫的步驟包括:對所提取的實體進行語義消歧和實體連結。進一步較佳地,所述對所提取的實體進行語義消歧和實體連結的步驟進一步通過以下方式中的至少一種實現:基於實體知識,對每個所提取的實體指代逐一獨立地進行語義消歧和實體連結;基於主題一致性假設,利用候選實體在知識庫中的關聯,對所提取的實體指代進行一致性地語義消歧和實體連結。
本發明還提供一種基於本發明中所構建的行業知識圖譜資料庫對與行業相關的特定媒體事件進行監測的方法,包括以下步驟:獲取互聯網媒體資料;基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選,以獲取所述與行業相關的特定媒體事件;識別與所述特定媒體事件對應的直接相關實體;基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;向所述直接相關實體和/或所述非直接相關實體發送預警消息。
較佳地,所述進行事件檢測、事件評價和篩選步驟中的事件檢測包括以下步驟:對所獲取的互聯網媒體資料中的內容進行話題分類,以獲得針對特定話題的內容;從所獲得的內容中識別涉及的實體;對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾;基於過濾後的內容
進行事件發現,以對媒體事件進行聚類並發現新的媒體事件。進一步較佳地,所述事件檢測還包括以下步驟:基於媒體事件的屬性對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
較佳地,在所述識別與特定媒體事件對應的直接相關實體的步驟中通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者,基於語音辨識處理從音訊或視頻資料中識別實體。
較佳地,所述訪問行業知識圖譜資料庫的步驟通過以下方式實現:基於所述直接相關實體,在所述行業知識圖譜資料庫中查詢,以確定所述非直接相關實體。
較佳地,所述訪問行業知識圖譜資料庫的步驟通過以下方式實現:基於所述直接相關實體,在所述行業知識圖譜資料庫中使用資料採擷技術,以確定所述非直接相關實體。
本發明還提供一種構建行業知識圖譜資料庫的裝置,包括:資料獲取模組,用於從資料來源獲取行業資料;資料處理模組,用於對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;資料庫構建模組,用於基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫。
較佳地,所述資料獲取模組通過以下方式獲取行業資料:從協力廠商行業資料庫獲得結構化行業資料,所述結構化行業資料包括多個欄位;所述資料處理模組通過以下方式進行資料處理:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係生成所
述行業知識圖譜資料庫。
較佳地,所述資料獲取模組通過以下方式獲取行業資料:利用網路爬蟲技術,從互聯網資料來源獲得與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述資料處理模組通過以下方式進行資料處理:利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
較佳地,所述資料獲取模組通過以下方式獲取行業資料:利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源;所述資料處理模組通過以下方式進行資料處理:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
較佳地,所述資料獲取模組通過以下方式獲取行業資料:用於利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述資料處理模組通過以下方式進行資料處理:對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
較佳地,所述資料庫構建模組進一步通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者基於語音辨識處理從音訊或視頻資料中識別實體。
較佳地,所述資料庫構建模組包括:用於對所提取的實體進行語義消歧和實體連結的模組。進一步較佳地,所述用於對所提取的實體進行語義消歧和實體連結的模組進一步通過以下方式中的至少一種進行語義消歧和實體連結:基於實體知識,對每個所提取的實體指代逐一獨立地進行語義消歧和實體連結;基於主題一致性假設,利用候選實體在知識庫中的關聯,對所提取的實體指代進行一致性地語義消歧和實體連結。
較佳地,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
本發明還提供一種對與行業相關的特定媒體事件進行監測的系統,包括:資料獲取單元,用於從資料來源獲得行業資料;資料處理單元,用於對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;資料庫構建單元,用於基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫;資料庫存儲單元:用於存儲所構建的行業知識圖譜資料庫;媒體事件監測單元:用於獲取互聯網媒體資料,基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選以獲得所述與行業相關的特定媒體事件,並且識別與所述特定媒體事件對應的直接相關實體;資料庫訪問單元:用於基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;消息發送單元,用於向所述直接相關實體和/或所述非直接相關實體發送預警消息。
較佳地,所述資料獲取單元包括:結構化資料獲取單
元,用於從協力廠商行業資料庫獲得結構化行業資料,所述結構化行業資料包括多個欄位;所述資料處理單元包括:結構化資料處理單元,用於在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建單元包括:資料庫生成單元,用於基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
較佳地,所述資料獲取單元包括:行業相關資料獲取單元,用於利用網路爬蟲技術,從互聯網資料來源獲得與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述資料處理單元包括:行業相關資料處理單元,用於利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
較佳地,所述資料獲取單元包括:行業相關資料獲取單元,用於利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源;所述資料處理單元包括:行業相關資料處理單元,用於在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
較佳地,所述資料獲取單元包括:媒體資料獲取單元,用於利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述資料處理單元包
括:媒體資料處理單元,用於對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
較佳地,所述資料庫補充/更新單元進一步用於:對所提取的實體進行語義消歧和實體連結。
較佳地,所述媒體事件監測單元進一步用於:對所獲取的互聯網媒體資料中的內容進行話題分類,以獲得針對特定話題的內容;從所獲得的內容中識別涉及的實體;對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾;基於過濾後的內容進行事件發現,以對媒體事件進行聚類並發現新的媒體事件。進一步較佳地,所述媒體事件監測單元進一步用於:基於媒體事件的屬性對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
較佳地,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中查詢,以確定所述非直接相關實體。
較佳地,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中使用資料採擷技術,以確定所述非直接相關實體。
較佳地,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
通過實施本發明提供的技術方案可以獲得以下技術效果:1)針對一個或多個目標領域或行業,實現了對相關互聯網媒體事件的自動化、深層次監測,能夠識別出與特定媒體事件對應
的非直接相關實體;2)在監測中實現了對多個資料來源、多種資料類型、多種語言的互聯網媒體資料的自動化處理。
S11-S15‧‧‧步驟
S31-S35‧‧‧步驟
S51-S53‧‧‧步驟
第一圖是本發明提供的一種構建行業知識圖譜資料庫的方法的示例性流程圖;第二圖是本發明提供的示例性結構化行業資料;第三圖是本發明提供的一種對媒體事件進行監測的方法的示例性流程圖;第四圖是本發明提供的另一種構建行業知識圖譜資料庫的方法的示例性流程圖;第五圖是本發明提供的另一種構建行業知識圖譜資料庫的方法的示例性流程圖;第六圖是本發明提供的一種對媒體事件進行監測的系統的示例性功能方塊圖。
以下結合附圖通過實施例的形式來描述本發明的具體實施方式,以便於本領域技術人員理解本發明的目的、技術方案和優點。本領域技術人員可以理解,以實施例的形式描述的具體實施方式僅僅是示例性的,而在不具備這些具體內容的情況下也能夠實現本發明的構思。
本發明提供一種構建行業知識圖譜資料庫的技術以及一種基於所構建的行業知識圖譜資料庫對互聯網媒體事件進行監測的技術,以實現本發明的目的。
本發明涉及知識圖譜(Knowledge Graph)資料庫技術的應用。知識圖譜資料庫是用於知識管理的一種特殊的資料庫,便於在相關領域中對知識進行採集、整理和提取。在知識圖譜資料庫中定義了實體、實體屬性以及實體關係。其中,實體對應於現實
世界中的事物(例如,一個公司A,一個人物X),每個實體可以用全域唯一的ID來標識。實體屬性用於描述實體的內在特性(例如,公司A、人物X的中、英文名稱)。實體關係用於連接實體,以描述實體之間的聯繫(例如,人物X與公司A的任職關係)。通過構建知識圖譜資料庫,可以更加高效、深入地利用由實體、實體屬性、實體關係組成的知識,發現事物之間的複雜聯繫。
作為一種資料庫,知識圖譜資料庫可以採用多種形式進行存儲。舉例而言,知識圖譜資料庫可以採用傳統的關係型數據庫,使用語義網路RDF(Resource Description Framework)三元組的方式存儲,也可以採用新型的非關係型數據庫。較佳地,知識圖譜資料庫可以採用圖資料庫進行存儲,例如Neo4j、OrientDB、Titan-BerkeleyDB、HyperGraphDB等。
取決於知識圖譜資料庫的規模和用途,用於構建知識圖譜資料庫的資料來源可以是多種多樣的。舉例而言,資料來源可以是開放式的百科類資料來源(例如,百度百科、維琪百科等),也可以是結構化的資料庫(例如,維琪資料、DBpedia、垂直網站或特定行業的專業資料庫等),還可以是任何相關的協力廠商半結構化或非結構化資料來源(例如,專業網站、在互聯網媒體中發佈的內容,包括新聞、公司年報、企業公告等)。
本領域技術人員應當理解,本發明中所構建的知識圖譜資料庫在構建過程中是以特定的領域或行業為導向的,但不局限於單個行業。所構建的知識圖譜資料庫實現了將與一個或多個行業相關的實體和事件、實體和事件的屬性以及實體與實體、實體與事件、事件與事件之間的關係整合聯接成為一個知識的圖譜。
第一圖是本發明提供的一種構建行業知識圖譜資料庫的方法的示例性流程圖,該方法可以包括步驟S11-S15。
在步驟S11中,從行業資料來源獲得行業資料,並從所述行業資料中提取實體以及對應的實體屬性和實體關係,以生成
所述行業知識圖譜資料庫。
行業資料來源是針對一個或多個特定領域或行業的基本資料的來源,其中,這些領域或行業被作為監測的目標。在一個實施例中,行業資料來源可以是結構化的行業資料庫,以盡可能獲得高品質的行業基本資料。可以通過應用程式介面(API)來訪問結構化資料庫,以查詢方式(例如,通過查詢命令)獲得資料。
通過“抽取-轉換-載入(Extraction-Transform-Load,ETL)”處理,可以對所獲得的行業資料進行轉換,然後從轉換後的資料中提取實體、實體屬性和實體關係並將其載入至本發明提出的行業知識圖譜資料庫中。ETL操作的具體執行步驟可以通過現有的資料整合手段來實現。舉例而言,在基於本體的資料整合方法中,以預定的方式定義不同資料庫中的各個欄位與各種實體資訊之間的映射關係,從而根據所述欄位及其內容提取實體、實體屬性及實體關係,完成構建基本行業知識圖譜資料庫。另外,由於行業資料庫在結構上存在差異,並可能存在資料雜訊、資料缺失或資料錯誤等問題,所以在對行業資料進行資料處理的過程中可能還需要對其進行資料清洗操作。可以採用本領域已知的技術手段,與ETL處理相結合來實現資料清洗操作。
作為一個實例,第二圖示出示例性的結構化行業資料,如上文所述,該資料可以是從結構化的行業資料庫獲得的。在第一圖中,表1是上市公司結構化資料的示例,其包括公司A和公司B兩個資料條目,每個資料條目又包括公司中英文名稱、註冊位址、股票代碼、董事會主席等多個欄位。通過對該結構化資料進行ETL操作,可以提取其中的實體(即公司A、公司B、人物X、人物Y)、實體屬性(即公司A和公司的B的具體資訊)以及實體關係(即公司A與人物X以及公司B與人物Y的任職關係),從而生成了針對所屬行業的知識圖譜資料庫。
在另一個實施例中,行業資料來源也可以是來自互聯
網的半結構化或非機構化資料來源,並且可以通過網路爬蟲技術從資料來源中抓取行業資料,並採用基於自然語言處理技術的資訊抽取操作來提取實體、實體屬性以及實體關係。
在步驟S12中,從互聯網資料來源獲得與所述行業相關的資料,並從所述資料中提取與所述行業相關的實體以及對應的實體屬性和實體關係。
在該步驟中,首先從互聯網資料來源中獲得與上述特定領域或行業相關的資料。互聯網資料來源可以是結構化、半結構化或非結構化的資料來源。因此,針對互聯網資料來源的不同結構特性,可以採用不同的方式獲得與行業相關的資料。然後,從與行業相關的資料中提取實體以及對應的實體屬性和實體關係。
對於結構化的互聯網資料來源,可以通過API查詢對應的資料內容並獲得實體、實體屬性和實體關係。對於半結構化的資料來源,則可以在抓取資料內容後,通過自然語言處理技術中的資訊抽取操作對內容進行分析,從而提取出與行業相關的實體、實體屬性和實體關係。半結構化的資料來源即包含部分結構化、部分非結構化資料的資料來源,因此可以分別按照處理結構化和非結構化資料的方式來處理半結構化資料中的對應部分。舉例而言,HTML和XML檔是最常見的半結構化資料。在處理HTML和XML檔的過程中,一方面可以使用其中基於標記符的結構化資訊,另一方面可以結合資訊抽取技術與機器學習技術來提取所需的資訊。
資訊抽取操作包括實體識別操作和關係抽取操作。
實體識別操作可以採用現有自然語言處理工具(例如,詞性標注或命名實體識別工具),或者以機器學習方法針對特定標注資料對實體識別模型進行訓練。需要指出的是,一些自然語言處理任務和處理工具是與語言相關的(例如,中文資料需要進行分詞處理,英文資料則不需要)。機器學習方法以數位化方式表示不同語言和格式的資料,然後採用通用的、與語言無關的演算法(例
如,條件隨機場演算法和隱瑪律可夫模型)進行模型訓練。
關係抽取操作可以通過多種現有統計學習或機器學習方法實現。例如,可以採用範本學習方法,以知識圖譜資料庫中符合某種關係的實體作為實例,在大量文本中抽取並統計現有實例在文本中出現的句式、語境等形成關係抽取範本,然後將所形成的範本應用在文本資料中以抽取新的實例。如果抽取到知識圖譜資料庫中尚不存在的實例,則可以將其補充到知識圖譜資料庫中。
在步驟S13中,基於所述與行業相關的實體以及對應的實體屬性和實體關係,對所述行業知識圖譜資料庫進行補充或更新。
在提取與行業相關的實體以及對應的實體屬性和實體關係之後,可以將其與知識圖譜資料庫中的對應資訊進行關聯和比對,並按需要將新的實體、實體屬性和實體關係加入到知識圖譜資料庫中,並且可以對現有的實體屬性和實體關係進行更新。
如上文所述,本發明所提出的行業知識圖譜資料庫可以採用傳統的關係型數據庫,RDF三元組資料庫,也可以採用新型的非關係型數據庫(例如,圖資料庫)。對應地,補充或更新知識圖譜資料庫的具體操作可以利用資料庫查詢語言以定制化的方式實現,例如,這些資料庫查詢語言包括針對關聯式資料庫的SQL語言、RDF三元組查詢語言SPARQL、用於Neo4j圖資料庫的Cypher語言等。
繼續結合第二圖中的實例進行說明。假設通過API查詢的方式從結構化的互聯網資料來源獲得了表2的上市公司高管結構化資料,則可以對行業知識圖譜資料庫進行以下補充和更新:1)將人物Z、人物Z的實體屬性以及人物Z與公司B的任職關係補充到知識圖譜資料庫中;2)補充人物X和人物Y的實體屬性;3)更新人物Y和公司B的任職關係(即從“現任職”更新為“曾任職”)。
在補充或更新行業知識圖譜資料庫的過程中需要進行實體連結操作和語義消歧操作。
實體連結操作旨在將資料內容中出現的某個實體指代(或實體指稱、entity mention)對應到知識圖譜資料庫中的相關實體概念。例如,在“約伯斯是蘋果的創辦人之一”以及“史蒂夫.約伯斯於1985年在美國創建NeXT”這兩個句子中,“約伯斯”和“史蒂夫.約伯斯”這兩個實體指代都應該對應到知識圖譜資料庫中的同一人物實體概念“史蒂夫.約伯斯(Steve Jobs,ex-CEO of Apple)”,因此需要通過實體連結操作將這個兩個實體指代關聯到同一個實體。語義消歧旨在對有歧義的實體指代進行消歧操作。例如,“蘋果”這個實體指代可以對應多個有歧義的實體,例如“蘋果(水果)”、“蘋果公司(Apple Inc.)”、“蘋果日報”、“蘋果(電影)”等,而上述例子中第一個句子裡的“蘋果”應該對應到知識圖譜資料庫中的公司實體概念“蘋果公司(Apple Inc.)”而不是“蘋果(水果)”、“蘋果(電影)”、或“蘋果日報”。實體連結和語義消歧通常都是一起進行的。因為語義消歧是實體連結的手段,而實體連結是語義消歧的目的;所以兩者經常在不同場合互換使用或互相表示。
任何現有的實體連結和語義消歧技術均可用于本發明中。舉例而言,其中一類方法基於實體知識對實體指代逐一獨立地進行消歧與連結。實體知識包括但不局限於,實體的出現概率、實體的名字分佈(全名、別名、縮寫等)、實體的上下文語境(如詞的共現資訊、詞分佈等)、及實體在知識庫中的類別資訊(如公司實體、個人實體、地點實體等)等。可以使用基於概率的(如線性回歸或邏輯回歸等)或機器學習的(如支持向量機(Support Vector Machines)、隨機森林(Random Forest)等)手段來學習並訓練基於實體知識的語義消歧和實體連結模型。另一類方法基於主題一致性的假設(即文章中的實體通常與文本主題相關,所以這些實體之
間也具有語義相關性),利用文本內容中所有實體指代的候選實體在知識庫(如維琪百科或本發明構建的知識圖譜)中的關聯對一篇文章中的所有實體指代進行一致性地消歧與連結。這一類方法在計算過程中通常使用基於圖資料結構的協同推理,即將文章內容中所有實體指代的候選實體,利用其在知識庫中的關係構建成一個候選實體圖,圖的稠密分佈反映了圖中不同候選實體結點之間的語義關聯程度。實體連結的過程就是,通過將證據(不同實體間可能的關聯度)按照候選實體圖的依存結構反覆運算傳遞以協同增強證據,直至收斂。上述兩類方法也可以靈活地或有機地進行組合來提高消歧和連結的性能。
在步驟S14中,從互聯網資料來源獲得與所述行業相關的互聯網媒體資料,並從所述互聯網媒體資料中提取與所述行業相關的特定媒體事件以及對應的直接相關實體。
可以通過多種方式從互聯網資料來源獲取互聯網媒體資料。例如,一些社交媒體網站(例如,新浪微博、Facebook、Twitter等)都開放了用於獲取其資料的API。也可以利用網路爬蟲技術和內容抽取技術來抓取新聞網站或行業媒體網站資料。
在本領域中已有多種對互聯網媒體進行監測以獲得特定媒體事件的技術實現方式。舉例而言,在一種實現方式中,先對互聯網媒體資料進行檢測,以發現感興趣的特定領域或行業中媒體事件的內容以及事件所涉及的實體,然後再對新發現的媒體事件按不同指標(例如,事件的負面性、重大性、突發性、傳播速度與範圍、可信度等)進行評價,以篩選出符合要求的媒體事件。
針對不同類型的互聯網媒體資料,可以採用不同的處理技術識別與媒體事件對應的直接相關實體。例如,可以使用基於自然語言處理的實體識別技術從文本資料中識別實體,可以使用圖像或視頻識別處理技術從圖像或視頻資料中識別實體,並且可以使用語音辨識處理技術從音訊或視頻資料中識別實體。本領域技術人
員可以理解,本發明並不對互聯網媒體資料的媒體類型以及語言種類做出限制。
在步驟S15中,基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
在獲得與行業相關的特定媒體事件以及對應的直接相關實體(例如,某上市公司主席貪腐醜聞事件以及該事件中涉及的公司、人物、地點)之後,把該事件作為抽象實體補充到行業知識圖譜資料庫中,同時對事件所涉及的直接相關實體進行實體連結和語義消歧,即找出所述實體在行業知識圖譜資料庫中對應的實體,並將其與代表所述事件的抽象實體進行關聯。如發現事件所涉及實體並不存在於行業知識圖譜資料庫中,則可以按上述步驟S13中說明的方式進行補充。在完成對行業知識圖譜資料庫的補充之後,即可基於所述事件的直接相關實體在知識圖譜資料庫中與其他實體之間的關係,找出代表媒體事件的抽象實體在行業知識圖譜資料庫中的其他非直接相關實體。
在通過以上方式構建行業知識圖譜資料庫之後,就可以基於所構建的資訊對互聯網媒體事件進行自動化、深層次的監測。較佳地,在完成行業知識圖譜資料庫的首次構建後,為了保持資訊的完整性和有效性,還可以對行業知識圖譜資料庫進行更新,例如,可以以預定的週期定期執行步驟S12和S13,還可以以即時不間斷的方式執行步驟S14和S15。
另外,本領域技術人員可以理解,本發明中所涉及的行業資料、與行業相關的資料以及互聯網媒體資料等各種資料的內容可以是多種語言的,也可以是多種類型的(例如,文本、圖像、視頻、語音等),本發明並不對此做出任何限制。
第三圖是本發明提供的一種對媒體事件進行監測的方法的示例性流程圖,該方法可以基於本發明中所構建的行業知識
圖譜資料庫對與行業相關的特定媒體事件進行監測。該方法可以包括步驟S31-S35。
在步驟S31中,獲取互聯網媒體資料。
如上文所述,可以通過多種方式從互聯網資料來源獲取互聯網媒體資料。例如,一些社交媒體網站(例如,新浪微博、Facebook、Twitter等)都開放了用於獲取其資料的API。也可以利用網路爬蟲技術和內容抽取技術來抓取新聞網站或行業媒體網站資料。
在步驟S32中,基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選,以獲得所述與行業相關的特定媒體事件。
如上文所述,在本領域中已有多種對互聯網媒體進行監測以獲得特定媒體事件的技術實現方式。舉例而言,在一種實現方式中,先對互聯網媒體資料進行檢測,以發現感興趣的特定領域或行業中媒體事件的內容以及事件所涉及的實體,然後再對新發現的媒體事件按不同指標(例如,事件的負面性、重大性、突發性、傳播速度與範圍、可信度等)進行評價,以篩選出符合要求的媒體事件。
具體而言,在一個實施例中,事件檢測涉及的技術實現步驟可以包括:話題分類、實體識別、情感分析和事件發現。
在話題分類的步驟中,對所獲取的互聯網媒體資料中的內容進行話題分類以獲得針對特定話題的內容。話題分類的目的是從所獲取的內容中篩選出屬於某種感興趣話題或與客戶需求相關種類的文本。話題分類是一種文本挖掘技術,一般採用機器學習或深度學習方法在標注資料上訓練分類模型,然後應用到文本上以判斷其話題類別。任何現有分類模型(例如,樸素貝葉斯模型、決策樹、支援向量機、人工神經網路等)都可用于本發明中。
在實體識別的步驟中,從所獲得的內容中識別涉及的實體。實體抽取的目的是找出文章中涉及的實體作進一步分析。舉
例而言,實體識別可以包括以自然語言處理中的資訊抽取技術從文本資訊中抽取實體,以圖像識別技術從圖像(含視頻)資訊中識別實體,以及以語音辨識技術從語音資訊中識別實體,還可以對從文本、圖像、與語音中識別的實體進行合併處理。
在情感分析的步驟中,對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾。情感分析用於判斷內容全文以及針對不同實體所表達的情感極性,以找出符合監測條件的內容。現有技術一般以文本分類方法(例如,將情感歸類為正面、中性或負面)或回歸分析方法(例如,將情感表示成-5到+5之間的分數)實現情感分析。判斷內容中針對某一實體的情感則可利用實體在文本中的上下文資訊,或者採用依存句法分析工具找出文本中跟該實體相關的文字部份以進行針對實體的情感分析。
在事件發現的步驟中,基於過濾後的內容進行事件發現以對媒體事件進行聚類並發現新的媒體事件。事件發現的目的是從不同文本提取出事件資訊(例如,事件發生的時間、地點等),然後將相關的資訊聚類、合併成為抽象“事件”,通過與現有事件進行比對以判斷新出現的事件,並根據內容的相似性或相關性對事件進行聚類。
可選地,在事件檢測的過程中,還可以基於媒體事件的屬性(例如,事件發生的時間、地點,媒體事件發佈者及其相關屬性等)對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
本領域技術人員可以理解,在上述步驟中針對各項操作所列舉的實現方式僅僅是示例性的,本領域現有的一些其他方式也可以實現這些操作,本發明並不對實現上述操作的具體方式做出任何限制。
在步驟S33中,識別與所述特定媒體事件對應的直接
相關實體。
在一個實施例中,通過事件監測中的實體識別和事件發現操作就可以獲得每個媒體事件中的各個直接相關實體。同時,如上文所述,可以通過實體連結和語義消歧處理將各個直接相關實體關聯到行業知識圖譜資料庫中對應的實體概念或補充到行業知識圖譜資料庫中。
在步驟S34中,基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體。
在一種實施例中,可以通過預設的各種條件,在行業知識圖譜資料庫上直接查詢與事件直接相關實體有關聯關係的其它非直接相關實體。例如,預設的條件可以是:1)與事件直接相關實體在N層內有關聯關係的實體(N可以為1,2,3...);2)與事件直接相關實體關聯程度滿足某種條件(如大於某個指定閾值)的其它實體;3)與事件直接相關實體具有某種特定關係(例如,供貨關係、投資關係等)的實體;4)具有某種特定屬性(例如,屬於某個指定行業、位於某個地點、擁有某個職位等)的實體。這些預設的條件可以單獨或隨意組合使用。
在另一個實施例中,可以採用資料採擷的方法,在行業知識圖譜資料庫的基礎之上利用多種條件來挖掘事件的非直接相關實體。舉例而言,具體實施方法可以採用針對圖資料的連結預測技術(link prediction),即把檢測某事件的非直接相關實體問題表示成“預測行業知識圖譜資料庫中代表該事件的節點與直接相關實體節點以外的其他實體節點之間是否存在連邊”這一技術問題。可用於連結預測的條件包括但不局限於事件本身的特徵(例如,事件的類型、時間與地點屬性、負面性等)、該事件與歷史事件的關係(包括關係種類與關係強度)、事件直接相關實體與其他實體之間的關係(包括關係種類和關係強度)以及實體類型和屬性等所有可
以在知識圖譜資料庫中挖掘到的知識,從而實現對特定媒體事件的非直接相關實體的綜合判斷。
在步驟S35中,向所述直接相關實體和/或所述非直接相關實體發送預警消息。
在識別出與特定媒體事件對應的直接和非直接相關實體後,可以利用多種途徑(例如,電子郵件、手機短信、即時聊天工具、社交網路平臺等)向對應的實體使用者發送預警消息。預警消息可以包含對事件本身的文字描述、圖片、傳播相關統計資訊、事件評估指標以及相關實體可能如何受到該事件影響的途徑等等。
本領域技術人員可以理解,本發明中所述的特定媒體事件可以是符合用戶所設定條件並且可以從互聯網媒體中獲得的各種類型的事件,例如,負面事件、突發事件、危機事件、群體性事件或輿情事件等。本發明並不對此做出任何限制。
作為一個較佳的實施例,第四圖示出本發明提供的另一種構建行業知識圖譜資料庫的方法的示例性流程圖。該方法可以包括步驟S41、S421/S422以及S43-S45。
在步驟S41中,從行業資料來源獲得行業資料,並從所述行業資料中提取實體以及對應的實體屬性和實體關係,以生成行業知識圖譜資料庫。
在步驟S421中,基於結構化資料來源,利用應用程式介面以查詢方式獲得與所述行業相關的實體、實體屬性和實體關係。在一個實施例中,所述結構化資料來源可以如維琪資料、DBPedia這樣的結構化開放資料平臺,並且可以通過API從中獲得與行業相關的資料。
在步驟S422中,基於半結構化或非結構化資料來源,利用自然語言處理技術對資料進行實體識別和關係抽取,以提取與所述行業相關的實體、實體屬性和實體關係。在一個實施例
中,所述半結構化或非結構化資料來源可以諸如維琪百科、百度百科這樣的開放資料平臺,也可以是任何相關的協力廠商資料來源(例如,專業網站、在互聯網媒體中發佈的內容等),並且可以通過網路爬蟲或內容抽取技術獲得與行業相關的資料。
較佳地,可以以預定的週期定期執行步驟S421和/或S422、S43。
在步驟S43中,基於所述與行業相關的實體以及對應的實體屬性和實體關係,對行業知識圖譜資料庫進行補充或更新。
在步驟S44中,從互聯網資料來源獲得互聯網媒體資料,並從所述互聯網媒體資料中提取與所述行業相關的特定媒體事件以及對應的直接相關實體。
在步驟S45中,基於所述特定媒體事件以及對應的直接相關實體,對行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
較佳地,可以以即時不間斷的方式執行步驟S44和S45
第五圖是本發明提供的另一種構建行業知識圖譜資料庫的方法的示例性流程圖。該方法可以包括步驟S51-S53:在步驟S51中,從資料來源獲取行業資料;在步驟S52中,對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;在步驟S53中,基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫。
如上文所述,行業知識圖譜資料庫的資料來源可以是多種多樣的,包括但不限於開放式的百科類資料來源、結構化的資料庫以及任何相關的協力廠商半結構化或非結構化互聯網資料來源。同時,如上文所述,行業知識圖譜資料庫的資料來源還可以是互聯網媒體資料來源。
在一個實施例中,所述資料來源可以是結構化的行業資料庫,並且所述方法可以通過以下具體方式實現:在步驟S51(1)中,從協力廠商行業資料庫獲取包括多個欄位的結構化行業資料;在步驟S52(1)中,在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;在步驟S53(1)中,基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
在另一個實施例中,所述資料來源可以是非結構化或半結構化的互聯網資料來源,並且所述方法可以通過以下具體方式實現:在步驟S51(2)中,利用網路爬蟲技術,從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;在步驟S52(2)中,利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;在步驟S53(2)中,基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
此外,所述步驟S51(2)-S53(2)可以是以預定的週期定期執行的。
在另一個實施例中,所述資料來源可以是開放式的互聯網資料來源,並且所述方法可以通過以下具體方式實現:在步驟S51(3)中,利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料;在步驟S52(3)中,在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;在步驟S53(3)中,基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
此外,所述步驟S51(3)-S53(3)可以是以預定的週期定期執行的。
在另一個實施例中,所述資料來源可以是互聯網媒體資料來源,並且所述方法可以通過以下具體方式實現:在步驟S51(4)中,利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取互聯網媒體資料;在步驟S52(4)中,對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;在步驟S53(4)中,基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
舉例而言,在步驟S52(4)中可以通過以下方式中的至少一種識別與特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者,基於語音辨識處理從音訊或視頻資料中識別實體。
舉例而言,所述特定媒體事件可以包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
此外,所述步驟S51(4)-S53(4)可以是即時不間斷執行的。
在另一個實施例中,上述步驟S53(2)、S53(3)、S53(4)中對所述行業知識圖譜資料庫進行補充或更新的步驟可以包括:對所提取的實體進行語義消歧和實體連結。舉例而言,可以通過以下方式中的至少一種進行所述語義消歧和實體連結:基於實體知識,對每個所提取的實體指代逐一獨立地進行語義消歧和實體連結;基於主題一致性假設,利用候選實體在知識庫中的關聯,對所提取的實體指代進行一致性地語義消歧和實體連結。
以上以實施例的方式描述了本發明提供的一種構建行業知識圖譜資料庫的方法。本領域技術人員可以理解,這些實施
例的各種組合也包括在這種構建行業知識圖譜資料庫的方法的構思之內。
第六圖是本發明提供的一種對媒體事件進行監測的系統的示例性功能方塊圖。該系統包括資料獲取單元、資料獲取單元、資料庫構建單元、資料庫存儲單元、媒體事件監測單元、資料庫訪問單元以及消息發送單元。
資料獲取單元,用於從資料來源獲得行業資料。
資料處理單元,用於對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;資料庫構建單元,用於基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫;資料庫存儲單元:用於存儲所構建的行業知識圖譜資料庫;媒體事件監測單元:用於獲取互聯網媒體資料,基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選以獲得所述與行業相關的特定媒體事件,並且識別與所述特定媒體事件對應的直接相關實體;資料庫訪問單元:用於基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;消息發送單元,用於向所述直接相關實體和/或所述非直接相關實體發送預警消息。
在一個實施例中,所述資料獲取單元包括:結構化資料獲取單元,用於從協力廠商行業資料庫獲得結構化資料,所述結構化資料包括多個欄位;所述資料處理單元包括:結構化資料處理單元,用於對所述結構化資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建單元包括:資料庫生成單元,用於
基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
在另一個實施例中,所述資料獲取單元包括:行業相關資料獲取單元,用於利用網路爬蟲技術,從互聯網資料來源獲得與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述資料處理單元包括:行業相關資料處理單元,用於利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
在另一個實施例中,所述資料獲取單元包括:行業相關資料獲取單元,用於利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源;所述資料處理單元包括:行業相關資料處理單元,用於在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
在另一個實施例中,所述資料獲取單元包括:媒體資料獲取單元,用於利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述資料處理單元包括:媒體資料處理單元,用於對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行
補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
在一個實施例中,所述資料庫補充/更新單元進一步用於:對所提取的實體進行語義消歧和實體連結。
在一個實施例中,所述媒體事件監測單元進一步用於:對所獲取的互聯網媒體資料中的內容進行話題分類,以獲得針對特定話題的內容;從所獲得的內容中識別涉及的實體;對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾;基於過濾後的內容進行事件發現,以對媒體事件進行聚類並發現新的媒體事件。在另一個實施例中,所述媒體事件監測單元進一步用於:基於媒體事件的屬性對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
在一個實施例中,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中查詢,以確定所述非直接相關實體。在另一個實施例中,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中使用資料採擷技術,以確定所述非直接相關實體。
以上以實施例的方式描述本發明提供的一種對媒體事件進行監測的系統。本領域技術人員可以理解,上文結合附圖1、3-5所描述的各種方法中的操作步驟可以應用在所述系統的組成單元中,因此這裡不再贅述。
本領域技術人員還應當理解,結合本發明公開的各個實施例所描述的各種示例性的方法步驟和單元均可以實現成電子硬體、電腦軟體或二者的組合。為了清楚地表示硬體和軟體的可交換性,上文中各種示例性的步驟和單元均圍繞其功能進行了總體描述。至於這種功能是實現成硬體還是實現成軟體,則取決於特定的應用和對整個系統所施加的設計約束條件。本領域技術人員可以針對每個特定應用,以變通的方式實現所描述的功能,但是,這種實
現決策不應解釋為引起與本公開內容的範圍的偏離。
本發明說明書中使用的“示例/示例性”表示用作例子、例證或說明。說明書中被描述為“示例性”的任何技術方案不應被解釋為比其它技術方案更較佳或更具優勢。
本發明提供對所公開的技術內容的以上描述,以使本領域技術人員能夠實現或使用本發明。對於本領域技術人員而言,對這些技術內容的很多修改和變形都是顯而易見的,並且本發明所定義的總體原理也可以在不脫離本發明的精神或範圍的基礎上適用於其它實施例。因此,本發明並不限於上文所示的具體實施方式,而是應與符合本發明公開的發明構思的最廣範圍相一致。
S31-S35‧‧‧步驟
Claims (37)
- 一種構建行業知識圖譜資料庫的方法,其特徵在於,包括以下步驟:步驟101,從資料來源獲取行業資料;步驟102,對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;及步驟103,基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫。
- 根據申請專利範圍第1項所述的方法,其特徵在於,所述步驟101通過以下方式實現:從協力廠商行業資料庫獲取結構化行業資料,所述結構化行業資料包括多個欄位;所述步驟102通過以下方式實現:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及所述步驟103通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
- 根據申請專利範圍第1所述的方法,其特徵在於,所述步驟101通過以下方式實現:利用網路爬蟲技術,從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述步驟102通過以下方式實現:利用自然語言處理中的資訊抽取技術,對所述與行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;及所述步驟103通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第1所述的方法,其特徵在於,所述步驟101通過以下方式實現:利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網 資料來源包括開放式資料來源;所述步驟102通過以下方式實現:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及所述步驟103通過以下方式實現:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第1所述的方法,其特徵在於,所述步驟101通過以下方式實現:利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述步驟102通過以下方式實現:對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;及所述步驟103通過以下方式實現:基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
- 根據申請專利範圍第5所述的方法,其特徵在於,在所述步驟102中進一步通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者基於語音辨識處理從音訊或視頻資料中識別實體。
- 根據申請專利範圍第3至5項中任一項所述的方法,其特徵在於,所述步驟103包括:對所提取的實體進行語義消歧和實體連結。
- 根據申請專利範圍第7所述的方法,其特徵在於,所述對所提取的實體進行語義消歧和實體連結的步驟進一步通過以下方式中的至少一種實現:基於實體知識,對每個所提取的實體指代逐一獨立地進行語義消歧和實體連結;及基於主題一致性假設,利用候選實體在知識庫中的關聯,對所提取的實體指代進行一致性地語義消歧和實體連結。
- 根據申請專利範圍第5所述的方法,其特徵在於,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
- 根據申請專利範圍第3或4項所述的方法,其特徵在於,所述步驟101-103是以預定的週期定期執行的。
- 根據申請專利範圍第第5項所述的方法,其特徵在於,所述步驟101-103是即時不間斷執行的。
- 一種根據申請專利範圍第1至11項中任一項所述的行業知識圖譜資料庫對與行業相關的特定媒體事件進行監測的方法,其特徵在於,包括以下步驟:步驟1201,獲取互聯網媒體資料;步驟1202,基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選,以獲取所述與行業相關的特定媒體事件;步驟1203,識別與所述特定媒體事件對應的直接相關實體;步驟1204,基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;及步驟1205,向所述直接相關實體和/或所述非直接相關實體發送預警消息。
- 根據申請專利範圍第12項所述的方法,其特徵在於,所述步驟1202中的事件檢測包括以下步驟:對所獲取的互聯網媒體資料中的內容進行話題分類,以獲得 針對特定話題的內容;從所獲得的內容中識別涉及的實體;對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾;及基於過濾後的內容進行事件發現,以對媒體事件進行聚類並發現新的媒體事件。
- 根據申請專利範圍第13項所述的方法,其特徵在於,所述步驟1202中的事件檢測還包括以下步驟:基於媒體事件的屬性對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
- 根據申請專利範圍第12項所述的方法,其特徵在於,在所述步驟1203中通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者基於語音辨識處理從音訊或視頻資料中識別實體。
- 根據申請專利範圍第12項所述的方法,其特徵在於,所述步驟1204通過以下方式實現:基於所述直接相關實體,在所述行業知識圖譜資料庫中查詢,以確定所述非直接相關實體。
- 根據申請專利範圍第12項所述的方法,其特徵在於,所述步驟1204通過以下方式實現:基於所述直接相關實體,在所述行業知識圖譜資料庫中使用資料採擷技術,以確定所述非直接相關實體。
- 一種構建行業知識圖譜資料庫的裝置,其特徵在於,包括:資料獲取模組,用於從資料來源獲取行業資料;資料處理模組,用於對所述行業資料進行資料處理,以提取 與所述行業相關的實體以及對應的實體屬性和/或實體關係;及資料庫構建模組,用於基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫。
- 根據申請專利範圍第18項所述的裝置,其特徵在於,所述資料獲取模組通過以下方式獲取行業資料:從協力廠商行業資料庫獲得結構化行業資料,所述結構化行業資料包括多個欄位;所述資料處理模組通過以下方式進行資料處理:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
- 根據申請專利範圍第18項所述的裝置,其特徵在於,所述資料獲取模組通過以下方式獲取行業資料:利用網路爬蟲技術,從互聯網資料來源獲得與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述資料處理模組通過以下方式進行資料處理:利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;及所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第18項所述的裝置,其特徵在於,所述資料獲取模組通過以下方式獲取行業資料:利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源; 所述資料處理模組通過以下方式進行資料處理:在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第18項所述的裝置,其特徵在於,所述資料獲取模組通過以下方式獲取行業資料:用於利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述資料處理模組通過以下方式進行資料處理:對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;及所述資料庫構建模組通過以下方式構建行業知識圖譜資料庫:基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
- 根據申請專利範圍第22項所述的裝置,其特徵在於,所述資料庫構建模組進一步通過以下方式中的至少一種識別與所述特定媒體事件對應的直接相關實體:基於自然語言處理中的實體識別從文本資料中識別實體;基於圖像或視頻識別處理從圖像或視頻資料中識別實體;或者基於語音辨識處理從音訊或視頻資料中識別實體。
- 根據申請專利範圍第20至22項中任一項所述的裝置,其特徵在於,所述資料庫構建模組包括:用於對所提取的實體進行語 義消歧和實體連結的模組。
- 根據申請專利範圍第24項所述的裝置,其特徵在於,所述用於對所提取的實體進行語義消歧和實體連結的模組進一步通過以下方式中的至少一種進行語義消歧和實體連結:基於實體知識,對每個所提取的實體指代逐一獨立地進行語義消歧和實體連結;及基於主題一致性假設,利用候選實體在知識庫中的關聯,對所提取的實體指代進行一致性地語義消歧和實體連結。
- 根據申請專利範圍第22項所述的方法,其特徵在於,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
- 一種對與行業相關的特定媒體事件進行監測的系統,其特徵在於,包括:資料獲取單元,用於從資料來源獲得行業資料;資料處理單元,用於對所述行業資料進行資料處理,以提取與所述行業相關的實體以及對應的實體屬性和/或實體關係;資料庫構建單元,用於基於所提取的實體、實體屬性和/或實體關係構建所述行業知識圖譜資料庫;資料庫存儲單元:用於存儲所構建的行業知識圖譜資料庫;媒體事件監測單元:用於獲取互聯網媒體資料,基於所獲取的互聯網媒體資料進行事件檢測、事件評價和篩選以獲得所述與行業相關的特定媒體事件,並且識別與所述特定媒體事件對應的直接相關實體;資料庫訪問單元:用於基於所述直接相關實體,訪問所述行業知識圖譜資料庫,以確定與所述特定媒體事件對應的非直接相關實體;及消息發送單元,用於向所述直接相關實體和/或所述非直接相關實體發送預警消息。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料獲取單元包括:結構化資料獲取單元,用於從協力廠商行業資料庫獲得結構化行業資料,所述結構化行業資料包括多個欄位;所述資料處理單元包括:結構化資料處理單元,用於在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述結構化行業資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及所述資料庫構建單元包括:資料庫生成單元,用於基於所提取的實體、實體屬性和/或實體關係生成所述行業知識圖譜資料庫。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料獲取單元包括:行業相關資料獲取單元,用於利用網路爬蟲技術,從互聯網資料來源獲得與行業相關的資料,所述互聯網資料來源包括非結構化或半結構化資料來源;所述資料處理單元包括:行業相關資料處理單元,用於利用自然語言處理中的資訊抽取技術,對所述行業相關的資料進行實體識別和關係抽取,以提取所述實體、實體屬性和/或實體關係;及所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料獲取單元包括:行業相關資料獲取單元,用於利用應用程式介面(API)以查詢方式從互聯網資料來源獲取與行業相關的資料,所述互聯網資料來源包括開放式資料來源;所述資料處理單元包括:行業相關資料處理單元,用於在提取與所述行業相關的實體以及對應的實體屬性和/或實體關係之前,對所述與行業相關的資料進行資料清洗以及抽取-轉換-載入(ETL)處理;及 所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所提取的實體、實體屬性和/或實體關係對所述行業知識圖譜資料庫進行補充或更新。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料獲取單元包括:媒體資料獲取單元,用於利用應用程式介面(API)或網路爬蟲技術,從互聯網資料來源獲取與行業相關的互聯網媒體資料;所述資料處理單元包括:媒體資料處理單元,用於對所述互聯網媒體資料進行事件檢測、事件評價和篩選,以提取與所述行業相關的特定媒體事件,並從所述互聯網媒體資料中識別對應的直接相關實體;及所述資料庫構建單元包括:資料庫補充/更新單元,用於基於所述特定媒體事件以及對應的直接相關實體,對所述行業知識圖譜資料庫進行補充,其中,所述特定媒體事件作為抽象實體被補充到所述行業知識圖譜資料庫中。
- 根據申請專利範圍第29至31項中任一項所述的系統,其特徵在於,所述資料庫補充/更新單元進一步用於:對所提取的實體進行語義消歧和實體連結。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述媒體事件監測單元進一步用於:對所獲取的互聯網媒體資料中的內容進行話題分類,以獲得針對特定話題的內容;從所獲得的內容中識別涉及的實體;對所獲得的內容和所識別的實體進行情感分析,並且基於情感分析的結果對所獲得的內容進行過濾;及基於過濾後的內容進行事件發現,以對媒體事件進行聚類並發現新的媒體事件。
- 根據申請專利範圍第33項所述的系統,其特徵在於,所述媒體事件監測單元進一步用於:基於媒體事件的屬性對事件的真實性進行分析,並根據分析結果對媒體事件進行排序和/或過濾。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中查詢,以確定所述非直接相關實體。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述資料庫訪問單元進一步用於:基於所述直接相關實體,在所述行業知識圖譜資料庫中使用資料採擷技術,以確定所述非直接相關實體。
- 根據申請專利範圍第27項所述的系統,其特徵在於,所述特定媒體事件包括負面事件、突發事件、危機事件、群體性事件、輿情事件或其它具有行業意義的事件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610716109.4A CN107783973B (zh) | 2016-08-24 | 2016-08-24 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
??201610716109.4 | 2016-08-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201807602A true TW201807602A (zh) | 2018-03-01 |
TWI664539B TWI664539B (zh) | 2019-07-01 |
Family
ID=61246067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106127958A TWI664539B (zh) | 2016-08-24 | 2017-08-17 | 基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN107783973B (zh) |
TW (1) | TWI664539B (zh) |
WO (1) | WO2018036239A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
US20220114215A1 (en) * | 2020-10-09 | 2022-04-14 | Cherre, Inc. | Neighborhood-based entity disambiguation system and method |
TWI767192B (zh) * | 2020-02-26 | 2022-06-11 | 傑睿資訊服務股份有限公司 | 智慧分析系統之應用方法 |
US11556896B2 (en) | 2019-09-26 | 2023-01-17 | Fulian Precision Electronics (Tianjin) Co., Ltd. | Employment recruitment method based on face recognition and terminal device using same |
US12039268B2 (en) | 2021-10-29 | 2024-07-16 | Industrial Technology Research Institute | Graph-based natural language optimization method and electronic apparatus |
Families Citing this family (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108829858B (zh) * | 2018-06-22 | 2021-09-17 | 京东数字科技控股有限公司 | 数据查询方法、装置及计算机可读存储介质 |
CN109086316B (zh) * | 2018-06-27 | 2021-09-14 | 南京邮电大学 | 面向工业物联网资源的知识图谱自主构建系统 |
CN108549731A (zh) * | 2018-07-11 | 2018-09-18 | 中国电子科技集团公司第二十八研究所 | 一种基于本体模型的知识图谱构建方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109614495B (zh) * | 2018-08-08 | 2023-11-28 | 深圳市宏骏大数据服务有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
CN108959270B (zh) * | 2018-08-10 | 2022-08-19 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
CN109242548A (zh) * | 2018-08-20 | 2019-01-18 | 北京众标智能科技有限公司 | 一种基于知识图谱的销售线索识别方法及装置 |
CN109255037B (zh) * | 2018-08-31 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109255035B (zh) * | 2018-08-31 | 2024-03-26 | 北京字节跳动网络技术有限公司 | 用于构建知识图谱的方法和装置 |
CN110895568B (zh) * | 2018-09-13 | 2023-07-21 | 阿里巴巴集团控股有限公司 | 处理庭审记录的方法和系统 |
CN109299362B (zh) * | 2018-09-21 | 2023-04-14 | 平安科技(深圳)有限公司 | 相似企业推荐方法、装置、计算机设备及存储介质 |
CN109597894B (zh) * | 2018-09-30 | 2023-10-03 | 创新先进技术有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109522396B (zh) * | 2018-10-22 | 2020-12-25 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及系统 |
CN109376202B (zh) * | 2018-10-30 | 2021-08-03 | 青岛理工大学 | 一种基于nlp的企业供应关系自动抽取分析方法 |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109670048B (zh) * | 2018-11-19 | 2023-06-23 | 平安科技(深圳)有限公司 | 基于风控管理的图谱构建方法、装置和计算机设备 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN111291191B (zh) * | 2018-12-07 | 2024-05-03 | 国家新闻出版广电总局广播科学研究院 | 一种广电知识图谱构建方法及装置 |
CN109635298B (zh) * | 2018-12-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 团体状态识别方法、装置、计算机设备及存储介质 |
CN109684313A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种数据清洗加工方法及系统 |
CN109669994B (zh) * | 2018-12-21 | 2023-03-14 | 吉林大学 | 一种健康知识图谱的构建方法及系统 |
CN111368145A (zh) * | 2018-12-26 | 2020-07-03 | 沈阳新松机器人自动化股份有限公司 | 一种知识图谱的创建方法、创建系统及终端设备 |
CN111382277B (zh) * | 2018-12-28 | 2023-08-01 | 上海汽车集团股份有限公司 | 面向汽车领域的知识图谱构建方法及装置 |
CN109726819B (zh) * | 2018-12-29 | 2021-09-14 | 东软集团股份有限公司 | 一种实现事件推理的方法及装置 |
CN109783484A (zh) * | 2018-12-29 | 2019-05-21 | 北京航天云路有限公司 | 基于知识图谱的数据服务平台的构建方法及系统 |
CN109828965B (zh) * | 2019-01-09 | 2021-06-15 | 千城数智(北京)网络科技有限公司 | 一种数据处理的方法及电子设备 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN109918452A (zh) * | 2019-02-14 | 2019-06-21 | 北京明略软件系统有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN109947952B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于英语知识图谱的检索方法、装置、设备及存储介质 |
CN109977291B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
CN110175239A (zh) * | 2019-04-23 | 2019-08-27 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法及系统 |
CN111984737A (zh) * | 2019-05-23 | 2020-11-24 | 楼荣平 | 一种智能主体以及事务能力构建系统 |
CN110347811A (zh) * | 2019-06-11 | 2019-10-18 | 福建奇点时空数字科技有限公司 | 一种基于人工智能的专业知识问答机器人系统 |
CN110309234B (zh) * | 2019-06-14 | 2023-06-09 | 广发证券股份有限公司 | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110287338B (zh) * | 2019-06-21 | 2022-04-29 | 北京百度网讯科技有限公司 | 行业热点确定方法、装置、设备和介质 |
CN110334220A (zh) * | 2019-07-15 | 2019-10-15 | 中国人民解放军战略支援部队航天工程大学 | 一种基于多数据源的知识图谱构建方法 |
CN110413784A (zh) * | 2019-07-23 | 2019-11-05 | 国家计算机网络与信息安全管理中心 | 基于知识图谱的舆情关联分析方法及系统 |
CN110363449B (zh) * | 2019-07-25 | 2022-04-15 | 中国工商银行股份有限公司 | 一种风险识别方法、装置及系统 |
CN110489565B (zh) * | 2019-08-15 | 2023-05-16 | 广州拓尔思大数据有限公司 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
CN110781311B (zh) * | 2019-09-18 | 2024-02-27 | 上海合合信息科技股份有限公司 | 一种企业一致行动人运算系统及方法 |
CN110781249A (zh) * | 2019-10-16 | 2020-02-11 | 华电国际电力股份有限公司技术服务分公司 | 基于知识图谱的火电厂多源数据融合方法与装置 |
CN111061883B (zh) * | 2019-10-25 | 2023-12-08 | 珠海格力电器股份有限公司 | 更新知识图谱的方法、装置、设备及存储介质 |
CN110866123B (zh) * | 2019-11-06 | 2023-10-27 | 浪潮软件集团有限公司 | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 |
CN111538842B (zh) * | 2019-11-15 | 2023-10-03 | 国家电网有限公司 | 网络空间态势的智能感知和预测方法、装置和计算机设备 |
CN110837566B (zh) * | 2019-11-15 | 2022-05-13 | 北京邮电大学 | 一种针对cnc机床故障诊断的知识图谱的动态构建方法 |
CN110866126A (zh) * | 2019-11-22 | 2020-03-06 | 福建工程学院 | 一种高校网络舆情风险评估方法 |
CN111046189A (zh) * | 2019-11-27 | 2020-04-21 | 广东电网有限责任公司 | 一种配电网知识图谱模型的建模方法 |
CN110928963B (zh) * | 2019-11-28 | 2023-10-24 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN111339310B (zh) * | 2019-11-28 | 2023-05-16 | 哈尔滨工业大学(深圳) | 一种面向社交媒体的在线争辩生成方法、系统及存储介质 |
CN111090683B (zh) * | 2019-11-29 | 2023-12-22 | 上海勘察设计研究院(集团)股份有限公司 | 一种工程领域知识图谱构建方法及其生成装置 |
CN110990748B (zh) * | 2019-12-18 | 2023-06-27 | 成都迪普曼林信息技术有限公司 | 一种国别舆情数据采集与发布系统 |
CN111339311A (zh) * | 2019-12-30 | 2020-06-26 | 智慧神州(北京)科技有限公司 | 基于生成式网络抽取结构化事件的方法、装置与处理器 |
CN111221978A (zh) * | 2019-12-31 | 2020-06-02 | 北京明略软件系统有限公司 | 一种构建知识图谱的方法、装置、计算机存储介质及终端 |
CN111191046A (zh) * | 2019-12-31 | 2020-05-22 | 北京明略软件系统有限公司 | 一种实现信息搜索的方法、装置、计算机存储介质及终端 |
CN111159411B (zh) * | 2019-12-31 | 2023-04-14 | 哈尔滨工业大学(深圳) | 一种融合知识图谱的文本立场分析方法、系统及存储介质 |
CN111177284A (zh) * | 2019-12-31 | 2020-05-19 | 清华大学 | 应急预案模型生成方法、装置及设备 |
CN111339214B (zh) * | 2020-02-18 | 2023-09-15 | 北京航空航天大学 | 一种知识库自动构建方法与系统 |
CN113326381A (zh) * | 2020-02-28 | 2021-08-31 | 拓尔思天行网安信息技术有限责任公司 | 基于动态本体的语义和知识图谱分析方法、平台及设备 |
CN111475612A (zh) * | 2020-03-02 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
CN111325355B (zh) * | 2020-03-19 | 2023-12-19 | 中国建设银行股份有限公司 | 企业实际控制人的确定方法、装置、计算机设备及介质 |
CN111309827A (zh) * | 2020-03-23 | 2020-06-19 | 平安医疗健康管理股份有限公司 | 知识图谱构建方法、装置、计算机系统及可读存储介质 |
CN111582488A (zh) * | 2020-04-23 | 2020-08-25 | 傲林科技有限公司 | 一种事件推演方法及装置 |
CN113761971B (zh) * | 2020-06-02 | 2023-06-20 | 中国人民解放军战略支援部队信息工程大学 | 一种遥感影像目标知识图谱构建方法及装置 |
CN111737488B (zh) * | 2020-06-12 | 2021-02-02 | 南京中孚信息技术有限公司 | 基于领域实体提取和关联分析的信息溯源方法及装置 |
CN111930956B (zh) * | 2020-06-17 | 2023-05-30 | 西安交通大学 | 一种采用知识图谱的多创新方法推荐与流驱动的集成系统 |
CN111899089A (zh) * | 2020-07-01 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 基于知识图谱的企业风险预警方法及系统 |
CN111914096B (zh) * | 2020-07-06 | 2024-02-02 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112035672B (zh) * | 2020-07-23 | 2023-05-09 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN111897947A (zh) * | 2020-07-30 | 2020-11-06 | 杭州橙鹰数据技术有限公司 | 一种基于开源信息的数据分析处理方法及装置 |
CN112131392A (zh) * | 2020-08-01 | 2020-12-25 | 赛飞特工程技术集团有限公司 | 基于知识图谱的公共卫生疫情预警方法及系统 |
CN111967761B (zh) * | 2020-08-14 | 2024-04-02 | 国网数字科技控股有限公司 | 一种基于知识图谱的监控预警方法、装置及电子设备 |
CN112015908A (zh) * | 2020-08-19 | 2020-12-01 | 新华智云科技有限公司 | 知识图谱的构建方法及系统、查询方法及系统 |
CN111984931B (zh) * | 2020-08-20 | 2022-06-03 | 上海大学 | 一种社会事件网络文本的舆情计算与推演方法及系统 |
CN112100324B (zh) * | 2020-08-28 | 2023-05-05 | 广州探迹科技有限公司 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
CN111966836A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 知识图谱向量表示方法、装置、计算机设备及存储介质 |
CN112182235A (zh) * | 2020-08-29 | 2021-01-05 | 深圳呗佬智能有限公司 | 一种构建知识图谱的方法、装置、计算机设备及存储介质 |
CN111768869B (zh) * | 2020-09-03 | 2020-12-11 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
CN112073415B (zh) * | 2020-09-08 | 2022-11-15 | 北京天融信网络安全技术有限公司 | 一种网络安全知识图谱的构建方法及装置 |
CN112100156B (zh) * | 2020-09-15 | 2024-02-20 | 北京百度网讯科技有限公司 | 基于用户行为构建知识库的方法、装置、介质、系统 |
CN112328876B (zh) * | 2020-11-03 | 2023-08-11 | 平安科技(深圳)有限公司 | 基于知识图谱的电子卡片生成推送方法、装置 |
CN112633889A (zh) * | 2020-11-12 | 2021-04-09 | 中科金审(北京)科技有限公司 | 一种企业基因测序系统及方法 |
CN112417456B (zh) * | 2020-11-16 | 2022-02-08 | 中国电子科技集团公司第三十研究所 | 一种基于大数据的结构化敏感数据还原检测的方法 |
CN112269885B (zh) * | 2020-11-16 | 2024-05-10 | 北京百度网讯科技有限公司 | 用于处理数据的方法、装置、设备以及存储介质 |
CN112711705B (zh) * | 2020-11-30 | 2023-05-09 | 泰康保险集团股份有限公司 | 舆情数据处理方法、设备及存储介质 |
CN112380298B (zh) * | 2020-12-03 | 2024-06-18 | 成都航天科工大数据研究院有限公司 | 一种油气管道缺陷修复的知识图谱构建方法及系统 |
CN112487208B (zh) * | 2020-12-14 | 2023-06-30 | 杭州安恒信息技术股份有限公司 | 一种网络安全数据关联分析方法、装置、设备及存储介质 |
CN112685405A (zh) * | 2020-12-21 | 2021-04-20 | 福建新大陆软件工程有限公司 | 一种基于知识图谱的数据管理方法、系统、设备及介质 |
CN112686054B (zh) * | 2020-12-30 | 2024-08-02 | 湖北省地震局(中国地震局地震研究所) | 一种基于地震内容热点的舆情分析方法及其系统 |
CN113204636B (zh) * | 2021-01-08 | 2023-12-05 | 北京欧拉认知智能科技有限公司 | 基于知识图谱的用户动态个性化画像方法 |
CN112765368B (zh) * | 2021-01-29 | 2023-08-22 | 索为技术股份有限公司 | 基于工业app的知识图谱建立方法、装置、设备及介质 |
CN113140134B (zh) * | 2021-03-12 | 2022-07-08 | 北京航空航天大学 | 一种面向智慧空管系统的航班延误智能预测框架 |
CN113282703B (zh) * | 2021-04-01 | 2022-05-06 | 中科雨辰科技有限公司 | 新闻数据的事件关联图谱构建方法及装置 |
CN113342987B (zh) * | 2021-04-21 | 2024-05-14 | 国网浙江省电力有限公司杭州供电公司 | 配电dtu验收专用语料库的复合网络构建方法 |
CN113010696A (zh) * | 2021-04-21 | 2021-06-22 | 上海勘察设计研究院(集团)有限公司 | 基于元数据模型的工程领域知识图谱构建方法 |
CN113094516A (zh) * | 2021-04-27 | 2021-07-09 | 东南大学 | 一种基于多源数据融合的电网监控领域知识图谱构建方法 |
CN113468340B (zh) * | 2021-06-28 | 2024-05-07 | 北京众标智能科技有限公司 | 一种产业知识图谱的构建系统及构建方法 |
CN113656590B (zh) * | 2021-07-16 | 2023-12-15 | 北京百度网讯科技有限公司 | 行业图谱的构建方法、装置、电子设备及存储介质 |
CN113610626A (zh) * | 2021-07-26 | 2021-11-05 | 建信金融科技有限责任公司 | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 |
CN113704467B (zh) * | 2021-07-29 | 2024-07-02 | 大箴(杭州)科技有限公司 | 基于数据模板的海量文本监控方法及装置、介质、设备 |
CN113627535B (zh) * | 2021-08-12 | 2024-06-28 | 福建中信网安信息科技有限公司 | 基于数据安全和隐私保护的数据分级分类方法 |
CN113706002A (zh) * | 2021-08-20 | 2021-11-26 | 华中农业大学 | 一种基于食品安全知识库的监管平台、方法及存储介质 |
CN113868508B (zh) * | 2021-09-23 | 2022-09-27 | 北京百度网讯科技有限公司 | 写作素材查询方法、装置、电子设备和存储介质 |
CN113836293B (zh) * | 2021-09-23 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的数据处理方法、装置、设备及存储介质 |
CN114090771B (zh) * | 2021-10-19 | 2024-07-23 | 广州数说故事信息科技有限公司 | 一种基于大数据的传播主张和消费者故事分析方法及系统 |
CN113987210B (zh) * | 2021-11-09 | 2024-08-02 | 江苏科技大学 | 一种船舶产业知识图谱构建与分析方法 |
CN114417012A (zh) * | 2022-01-20 | 2022-04-29 | 上海弘玑信息技术有限公司 | 一种生成知识图谱的方法和电子设备 |
CN115907144A (zh) * | 2022-11-21 | 2023-04-04 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种事件的预测方法、装置、终端设备以及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201118619A (en) * | 2009-11-30 | 2011-06-01 | Inst Information Industry | An opinion term mining method and apparatus thereof |
CN102708096B (zh) * | 2012-05-29 | 2014-10-15 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
US8966064B2 (en) * | 2012-07-09 | 2015-02-24 | Parentsware, Llc | Agreement compliance controlled electronic device throttle |
CN102831220B (zh) * | 2012-08-23 | 2015-01-07 | 江苏物联网研究发展中心 | 一种面向主题定制的新闻情报提取系统 |
CN103136352B (zh) * | 2013-02-27 | 2016-02-03 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
US10073840B2 (en) * | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
CN103955505B (zh) * | 2014-04-24 | 2017-09-26 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN104091054B (zh) * | 2014-06-26 | 2017-12-05 | 中国科学院自动化研究所 | 面向短文本的群体性事件预警方法和系统 |
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
CN105550190B (zh) * | 2015-06-26 | 2019-03-29 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN105183869B (zh) * | 2015-09-16 | 2018-11-02 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN105630901A (zh) * | 2015-12-21 | 2016-06-01 | 清华大学 | 一种知识图谱表示学习方法 |
-
2016
- 2016-08-24 CN CN201610716109.4A patent/CN107783973B/zh active Active
-
2017
- 2017-06-02 WO PCT/CN2017/087000 patent/WO2018036239A1/zh active Application Filing
- 2017-08-17 TW TW106127958A patent/TWI664539B/zh active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979592A (zh) * | 2019-03-25 | 2019-07-05 | 广东邮电职业技术学院 | 心理健康预警方法、用户终端、服务器与系统 |
US11556896B2 (en) | 2019-09-26 | 2023-01-17 | Fulian Precision Electronics (Tianjin) Co., Ltd. | Employment recruitment method based on face recognition and terminal device using same |
TWI804696B (zh) * | 2019-09-26 | 2023-06-11 | 新加坡商鴻運科股份有限公司 | 基於人臉識別的人才招募方法、終端伺服器及存儲介質 |
TWI767192B (zh) * | 2020-02-26 | 2022-06-11 | 傑睿資訊服務股份有限公司 | 智慧分析系統之應用方法 |
US20220114215A1 (en) * | 2020-10-09 | 2022-04-14 | Cherre, Inc. | Neighborhood-based entity disambiguation system and method |
US11615150B2 (en) * | 2020-10-09 | 2023-03-28 | Cherre, Inc. | Neighborhood-based entity disambiguation system and method |
US12039268B2 (en) | 2021-10-29 | 2024-07-16 | Industrial Technology Research Institute | Graph-based natural language optimization method and electronic apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN107783973A (zh) | 2018-03-09 |
WO2018036239A1 (zh) | 2018-03-01 |
CN107783973B (zh) | 2022-02-25 |
TWI664539B (zh) | 2019-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI664539B (zh) | 基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統 | |
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
US20230333919A1 (en) | Flexible and scalable artificial intelligence and analytics platform with advanced content analytics and data ingestion | |
US9361317B2 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
CN102779114B (zh) | 利用自动规则生成的非结构化数据支持 | |
US20220083949A1 (en) | Method and apparatus for pushing information, device and storage medium | |
WO2019196226A1 (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
US20140143234A1 (en) | Contextual search history in collabrative archives | |
US20170109358A1 (en) | Method and system of determining enterprise content specific taxonomies and surrogate tags | |
US20140195532A1 (en) | Collecting digital assets to form a searchable repository | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
US20240176798A1 (en) | Generating and presenting a searchable graph based on a graph query | |
US20190244175A1 (en) | System for Inspecting Messages Using an Interaction Engine | |
US20160246794A1 (en) | Method for entity-driven alerts based on disambiguated features | |
US12093222B2 (en) | Data tagging and synchronisation system | |
Narmadha et al. | A survey on online tweet segmentation for linguistic features | |
SCALIA | Network-based content geolocation on social media for emergency management | |
US11726972B2 (en) | Directed data indexing based on conceptual relevance | |
Javed et al. | Framework for participative and collaborative governance using social media mining techniques | |
Narayanasamy et al. | Crisis and disaster situations on social media streams: An ontology-based knowledge harvesting approach | |
US9317565B2 (en) | Alerting system based on newly disambiguated features | |
Subramanian et al. | Twitter Data for Syndromic Surveillance: Insights and Methods | |
Derczynski et al. | D6. 2.1 Evaluation report-Interim Results | |
CN114841668A (zh) | 一种生产策略确定方法、装置、电子设备及存储介质 | |
Pitchandi et al. | Content based segregation of pertinent documents using adaptive progression |