TWI723528B - 電腦執行的事件風險評估方法及裝置、電腦可讀儲存媒體以及計算設備 - Google Patents
電腦執行的事件風險評估方法及裝置、電腦可讀儲存媒體以及計算設備 Download PDFInfo
- Publication number
- TWI723528B TWI723528B TW108132023A TW108132023A TWI723528B TW I723528 B TWI723528 B TW I723528B TW 108132023 A TW108132023 A TW 108132023A TW 108132023 A TW108132023 A TW 108132023A TW I723528 B TWI723528 B TW I723528B
- Authority
- TW
- Taiwan
- Prior art keywords
- event
- node
- sample
- feature
- risk
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本說明書實施例提供一種電腦執行的事件風險評估方法和裝置。在上述方法中,首先採用自然語言處理模型,從內容文字庫中提取多個樣本事件,其中包括,識別第一樣本事件及其對應的事件類型,並根據該事件類型,提取第一樣本事件的第一事件要素;然後,在與第一樣本事件相關聯的知識圖譜中,獲取與所述第一事件要素相關聯的第一關聯要素;接著,根據所述事件類型,第一事件要素,以及第一關聯要素,確定出第一樣本事件的事件特徵。基於多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,可以訓練得到GBDT模型。於是,可以利用該訓練的GBDT模型,對待分析的第二事件的風險值進行評估,還可以對評估的風險值進行特徵解釋。
Description
本說明書一個或多個實施例涉及機器學習領域,尤其涉及利用機器學習對事件風險進行評估的方法和裝置。
隨著電腦技術的發展,機器學習已經應用到各種各樣的技術領域,用於分析、預測各種業務資料。在許多應用場景中,需要對各種業務事件進行分析和預測,特別是預測各類事件的風險度,例如輿情風險度,安全風險度等,以便於提前預警,輔助相關業務人員進行業務準備。
因此,希望提供改進的方案,能夠有效地對事件風險度進行評估。
本說明書一個或多個實施例描述了電腦執行的事件風險評估方法和裝置,藉由擴展事件的要素而構建事件特徵,並訓練GBDT模型,實現事件風險度的有效評估,並可以對評估的風險值提供相應的特徵解釋。
根據第一方面,提供了一種電腦執行的事件風險評估方法,包括:
採用自然語言處理模型,從內容文字庫中提取多個樣本事件,所述多個樣本事件包括第一樣本事件,所述提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取所述第一樣本事件的至少一個第一事件要素;在與所述第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與所述至少一個第一事件要素相關聯的至少一個第一關聯要素;根據所述第一事件類型,所述至少一個第一事件要素,以及所述至少一個第一關聯要素,確定所述第一樣本事件的事件特徵;根據所述多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型;利用所述訓練的GBDT模型,對待分析的第二事件進行風險評估。
在一個實施例中,藉由以下方式提取第一樣本事件的至少一個事件要素:確定所述第一事件類型對應的第一模板;利用所述第一模板,從所述內容文字庫中提取所述第一樣本事件的至少一個第一事件要素。
在一個實施例中,至少一個第一事件要素包括以下中的至少一個:事件時間、事件地點、實施主體、事件客體、事實類型、事件等級。
根據一種實施方式,藉由以下方式獲取關聯要素:
將所述至少一個第一事件要素映射為所述至少一個知識圖譜中的第一節點;將所述至少一個知識圖譜中與所述第一節點直接連接的節點作為所述至少一個關聯要素。
在一個實施例中,上述知識圖譜可以包括:企業知識圖譜,產品知識圖譜,人物知識圖譜,資訊知識圖譜,股票知識圖譜,基金知識圖譜,機構知識圖譜。
根據一種實施方式,在訓練GBDT模型之後,對待分析的第二事件進行風險評估具體包括:
獲取第二事件的事件類型,以及至少一個第二事件要素;
在所述至少一個知識圖譜中,獲取與所述至少一個第二事件要素相關聯的至少一個第二關聯要素;
根據所述第二事件的事件類型,所述至少一個第二事件要素,以及所述至少一個第二關聯要素,確定所述第二事件的事件特徵;
將所述第二事件的事件特徵輸入所述訓練的GBDT模型,根據模型輸出確定所述第二事件的風險值。
進一步的,在一個實施例中,藉由以下方式獲取第二事件要素:
從輸入文字中識別出所述第二事件以及第二事件類型;
根據第二事件類型,從所述輸入文字中提取所述至少一個第二事件要素。
或者,可以直接接收輸入的第二事件,以及所述至少一個第二事件要素。
在一個實施例中,訓練的GBDT模型包括至少一棵決策樹,所述決策樹包括枝幹節點和葉子節點,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,所述節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定。在這樣的情況下,對待分析的第二事件進行風險評估還包括:
根據所述第二事件的事件特徵確定所述第二事件在所述決策樹中的決策路徑;
確定所述決策路徑所經過的各個枝幹節點,並獲取各個枝幹節點對應的特徵以及節點權重;
對於所述第二事件的事件特徵中包含的第一特徵,根據所述各個枝幹節點中對應於該第一特徵的至少一個枝幹節點的節點權重,確定該第一特徵的特徵權重,作為該第一特徵對於所述風險值的重要性。
根據另一種實施方式,訓練得到的GBDT模型包括至少一棵決策樹,所述決策樹包括枝幹節點和葉子節點;在得到這樣的GBDT模型後,對待分析的第二事件進行風險評估具體包括:
獲取第二事件的至少一個第二事件要素;
根據所述至少一個第二事件要素在所述決策樹中對第二事件進行劃分,基於劃分的停止節點確定所述決策樹的子樹;
確定所述子樹中滿足預定條件的第一葉子節點,以及從根節點到該第一葉子節點的條件路徑;
獲取所述條件路徑中包含的枝幹節點所對應的特徵組合,將所述特徵組合作為所述第二事件在所述預定條件下的影響特徵。
進一步的,在一個實施例中,決策樹中每個葉子節點藉由訓練得到有風險分值,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,所述節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;相應的,在一個實施例中,對待分析的第二事件進行風險評估還包括以下中的一項或多項:
確定所述第一葉子節點對應的第一風險分值,作為所述預定條件下第二事件的風險值;
根據所述條件路徑中各個枝幹節點的節點權重,確定所述特徵組合中與所述各個枝幹節點對應的各項特徵的重要度。
根據第二方面,提供一種電腦執行的事件風險評估裝置,包括:
提取單元,配置為採用自然語言處理模型,從內容文字庫中提取多個樣本事件,所述多個樣本事件包括第一樣本事件,所述提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取所述第一樣本事件的至少一個第一事件要素;
關聯單元,配置為在與所述第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與所述至少一個第一事件要素相關聯的至少一個第一關聯要素;
特徵確定單元,配置為根據所述第一事件類型,所述至少一個第一事件要素,以及所述至少一個第一關聯要素,確定所述第一樣本事件的事件特徵;
訓練單元,配置為根據所述多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型;
評估單元,配置為利用所述訓練的GBDT模型,對待分析的第二事件進行風險評估。
根據第三方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一方面的方法。
根據第四方面,提供了一種計算設備,包括儲存器和處理器,其特徵在於,所述儲存器中儲存有可執行程式碼,所述處理器執行所述可執行程式碼時,實現第一方面的方法。
根據本說明書實施例提供的方法和裝置,藉由在相關領域的知識圖譜中對事件要素進行擴展,構建更為全面的事件特徵。基於樣本事件的事件特徵和標定風險值,可以訓練得到包含決策樹的GBDT模型。利用這樣的GBDT模型,不僅可以對未知風險的待評估事件進行風險值的評估,還可以對風險值進行特徵解釋,如此,在實現定量預測的同時,還可以使得預測結果具有更強的邏輯表達和可解釋性。
下面結合圖式,對本說明書提供的方案進行描述。
如前所述,在多種應用場景中,需要對各類事件進行研究和風險評估,例如,確定某網際網路公司用戶資訊洩露事件對網路安全方面的影響度和風險度等等。總體來說,在這樣的事件研究領域進行分析的方法主要包括兩類:定量的方法和定性的方法。定量的方法常常使用量化方式進行輿情因子挖掘,構建基於AI演算法的輿情量化因子,也就是,先將事件因子化,並藉由一些定量指標,例如該事件後預定時間內歷史投資收益的高低,來衡量事件的影響和風險度。然而,這樣的方案往往缺少對事件類型的細緻劃分,丟失了事件的邏輯脈絡,可解釋性不強。並且,事件的影響和風險度依賴於因子化時事件的劃分粒度,往往由於事件定義中沒有區分事件的某個關鍵屬性特徵,導致難以發掘出真正有意義的因子或特徵。
定性的方法往往藉由人工標註的方式,由人工完成事件的定義、風險程度分析。這個過程需要很強的專業分析,需要逐個事件單獨分析,未能系統化、自動化,導致分析效率低。並且,分析結果是否正確依賴於分析人員的主觀經驗是否能覆蓋事件的關鍵屬性特徵。此外,定性分析的結論往往只能到正負面的方向判斷,對於影響程度的判斷無法量化,帶有很強的主觀性。
在此基礎上,本說明書的實施例提供改進的方案對事件風險進行評估,在提供客觀、定量預測分析的同時,還可以使得預測結果有更強的可解釋性。圖1為本說明書披露的一個實施例的實施過程示意圖。如圖1所示,根據實施例的方案,首先抽取樣本事件,並為樣本事件構建特徵。在對事件進行特徵構建時,不僅考慮事件本身的要素,還結合相關領域的知識圖譜,從知識圖譜中挖掘出相關要素,共同構成事件特徵,如此使得事件特徵更加全面更加豐富。在此基礎上,利用多個樣本事件的事件特徵和標定的風險度訓練梯度提升決策樹GBDT模型,藉由訓練得到決策樹。在該決策樹中,從根節點到葉子節點的路徑對應一種特徵組合。如此,不僅可以使用訓練得到的GBDT模型對於待分析事件評估出其風險度,還可以藉由決策樹中決策路徑所對應的特徵組合,對各種特徵對事件風險度的貢獻和影響進行解釋,使得事件分析具有更強的邏輯脈絡和可解釋性。下面具體描述以上構思的實現方式。
圖2示出根據一個實施例的事件風險評估方法的流程圖。可以理解,該方法可以藉由任何具有計算、處理能力的裝置、設備、平臺、設備集群來執行。如圖2所示,該風險評估方法至少包括以下步驟:步驟21,採用自然語言處理模型,從內容文字庫中提取多個樣本事件,所述多個樣本事件包括第一樣本事件,所述提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取所述第一樣本事件的至少一個第一事件要素;步驟22,在與所述第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與所述至少一個第一事件要素相關聯的至少一個第一關聯要素;步驟23,根據所述第一事件類型,至少一個第一事件要素,以及所述至少一個第一關聯要素,確定所述第一樣本事件的事件特徵;步驟24,根據所述多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型;步驟25,利用所述訓練的GBDT模型,對待分析的第二事件進行風險評估。
可以理解,在以上步驟中,步驟21-24涉及對用於事件評估的GBDT模型的訓練過程,步驟25涉及使用訓練得到的模型進行預測和評估的過程。下面結合具體例子,描述以上各個步驟的執行方式。
首先,在步驟21,採用自然語言處理模型,從內容文字庫中提取多個事件作為樣本事件,用於模型訓練。根據要分析事件的領域,上述內容文字庫可以包括,財經新聞,科技新聞,科研文章,等等。可以理解,已經存在多種基於自然語言處理的事件提取模型,這些模型都可以用於在步驟21中進行事件提取。
一般的,事件提取過程至少包含以下步驟:首先基於自然語言處理對文字中的句子進行分詞,去停用詞等預處理,得到分詞集合;可選的,還對分詞集合中的分詞進行實體識別;然後,從分詞集合中確定出事件的觸發詞。一般的,觸發詞的類型與事件類型相對應,一旦確定出觸發詞以及觸發詞類型,就可以確定出事件類型。進一步地,為了對事件進行表述,還從分詞集合中確定出作為論元的論元詞,以及各個論元詞的角色。藉由提取和確定觸發詞和論元詞,就可以識別出一個事件,並確定出該事件的事件類型。
根據本說明書的實施例,在步驟21,提取各個事件還包括,提取各個事件的要素。下面以其中的任意一個事件,下文稱為第一樣本事件為例,描述提取事件要素的過程。需要理解,本文中的“第一”、“第二”的描述,僅僅是用於區分相似的對象,而不具有其他限定意義。
如前所述,藉由從內容文字庫提取和確定觸發詞和論元詞,可以識別出第一樣本事件,同時確定出該第一樣本事件的事件類型。相應地,根據第一樣本事件的事件類型,以下稱為第一事件類型,從前述的內容文字庫提取第一樣本事件的事件要素。事件要素可以包括,事件時間、事件地點、實施主體、事件客體、事實類型、事件等級等等。根據一個實施例,要提取的事件要素與事件類型相關,不同事件類型對應於不同的事件要素。
例如,在一個具體例子中,從內容文字庫中識別出的第一樣本事件為“XY公司疫苗造假事件”,該事件對應的事件類型為“產品造假”。對於這樣的事件類型,需要提取的事件要素可以包括,實施主體,產品類別,事件等級,等等。
在另一個具體例子中,識別出的第一樣本事件為“傳某某人增持AB公司股票”,該事件對應的事件類型為“高管增持”。對於這樣的事件類型,需要提取的事件要素可以包括,事件時間,人物,事實類型,數值要素(增持比例),等等。
根據一個實施例,可以預先針對各個事件類型提供要素模板,該要素模板可以定義對應事件類型下要提取的各個要素。可選的,要素模板還可以定義各個要素的資料格式。於是,對於上述第一樣本事件,可以確定上述第一事件類型對應的要素模板;利用該要素模板,從內容文字庫中提取第一樣本事件的事件要素。
如此,從內容文字庫中識別出第一樣本事件和對應的事件類型,並提取出與該事件類型對應的各個事件要素。下文中,將從內容文字庫中提取的第一樣本事件的事件要素稱為第一事件要素。
為了更全面更豐富地表徵該第一樣本事件,在步驟22,在與第一樣本事件相關聯的領域所對應的至少一個知識圖譜中,獲取與第一事件要素相關聯的關聯要素。
可以理解,現有技術中已經針對各種領域或各種主題,整理有各種形式的知識圖譜。這些知識圖譜可以包括,企業知識圖譜,產品知識圖譜,人物知識圖譜,資訊知識圖譜,股票知識圖譜,基金知識圖譜,機構知識圖譜,等等。在步驟22,可以根據第一樣本事件所關聯的領域,選擇出至少一個知識圖譜。例如,在第一樣本事件為“產品造假”類事件時,可以獲取的相關領域的知識圖譜包括,企業知識圖譜,機構知識圖譜,產品知識圖譜,等等。在第一樣本事件為“高管增持”類事件時,可以獲取的相關領域的知識圖譜可以包括,人物知識圖譜,企業知識圖譜,股票知識圖譜,基金知識圖譜,等等。
如此,在確定出與第一樣本事件相關聯的領域所對應的知識圖譜後,就可以在這些知識圖譜中,對事件要素進行擴展,得到與步驟21提取的第一事件要素相關聯的關聯要素。
一般的,知識圖譜可以整理為節點連接圖的形式,其中包括多個節點,每個節點對應一個知識點,具有關聯關係的知識點所對應的節點之間,藉由連接邊進行連接。從某個節點出發,藉由一條連接邊可以到達的節點稱為該節點的一度關聯節點,藉由至少k條連接邊可以到達的節點稱為k度關聯節點,或k階鄰居節點。
基於此,在步驟22中,可以將步驟21中提取的第一事件要素映射為上述知識圖譜中的節點,稱為第一節點;然後,從第一節點出發,將知識圖譜中與第一節點相關聯的節點作為第一樣本事件的關聯要素。
具體的,在一個實施例中,可以選擇與第一節點直接連接的節點,也就是一度關聯節點,作為關聯要素。在另一實施例中,還可以選擇與第一節點最大k度關聯的節點作為關聯要素,其中k的值可以根據需要預先設定,例如k=3。
例如,假定第一樣本事件為“產品造假”類事件,提取的事件要素包括實施主體:公司,產品類別:醫藥,等等。對於“公司”這一事件要素,在企業知識圖譜中可以確定出其一度關聯的節點包括,例如“板塊”、“地域”,對於“醫藥”這一事件要素,在產品知識圖譜中可以確定出其一度關聯的節點包括,例如“副作用”等,於是,可以將以上關聯的節點:“板塊”、“地域”,“副作用”等,作為第一樣本事件的關聯要素。
如此,藉由相關領域的知識圖譜,擴展了第一樣本事件的要素表達。
接著,在步驟23,根據上述第一樣本事件的事件類型,步驟21中提取的第一事件要素,以及步驟22中擴展得到的關聯要素,確定第一樣本事件的事件特徵。
具體地,在一個實施例中,可以將第一樣本事件的事件特徵藉由特徵向量F來表示,F=<f1,f2,f3,…,fn>。特徵向量F中的n項特徵f1-fn中,包括第一樣本事件的事件類型,也包括與步驟21中提取的第一事件要素對應的特徵,還包括與步驟22得到的關聯要素對應的特徵。這些特徵既可以是離散型特徵,也可以是連續型特徵。如此,為第一樣本事件構建了全面的事件特徵。
另一方面,還可以獲取該第一樣本事件的標定風險值作為該樣本的標籤,該標定風險值用於反映,該第一樣本事件歷史上真實的事件影響程度。在一個實施例中,標定風險值藉由人工標註確定,也就是,人為衡量該第一樣本事件所造成的影響程度,並給出影響程度/風險程度的等級或評分。在另一實施例中,將一些已有的指標值作為標定風險值。例如,對於經濟領域的事件,可以藉由對應企業股價的變動反映事件的影響,相應的,可以將一些股價指標作為標定風險值。更具體的,例如,可以將事件發生後3天內的累積股價漲/跌幅作為標定風險值,或者將事件發生後,5日最大回撤指標作為標定風險值。
如此,還獲取了第一樣本事件的標定風險值作為樣本的標籤。第一樣本事件的事件特徵與標籤,共同構成一個訓練樣本。
如前所述,第一樣本事件為前述多個樣本事件中的任意一個樣本事件。因此,對於上述多個樣本事件的每一個,均可以採用前述步驟21-23的過程,確定各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,如此獲得多個訓練樣本。
於是,在步驟24,根據上述各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型。
GBDT模型包括至少一顆決策樹,這些決策樹藉由以下過程訓練得到。首先,根據前述步驟,已經獲取到訓練樣本集,其中N為樣本事件的數目。其中,為第i個樣本事件的特徵向量,其例如為n維向量,即F=(f1
,f2
,…,fn
),為第i個樣本事件的標定風險值。然後,藉由決策樹對所述N個樣本事件進行分割,在決策樹的每個枝幹節點設定分裂特徵和特徵閾值,藉由在枝幹節點處將樣本事件的對應特徵與特徵閾值比較而將樣本事件分割到相應的子節點中。藉由這樣的過程,最後將N個樣本事件分割到各個葉子節點中。於是,可以得到各個葉子節點的分值,即為該葉子節點中各個樣本事件的標定風險值(即)的均值。
在此基礎上,還可以在殘差減小的方向繼續訓練進一步的決策樹。即,在獲取上述決策樹之後,藉由將每個樣本事件的標定風險值與該樣本事件在前述決策樹中的葉子節點的分值相減,獲取每個樣本事件的殘差,以為新的訓練集,其與D1對應於相同的樣本事件集合。以與上述相同的方法,可獲取進一步的決策樹,在該決策樹中,N個樣本事件同樣被分割到各個葉子節點中,並且每個葉子節點的分值為各個樣本事件的殘差值的均值。類似地,可順序獲取多個決策樹,每個決策樹都基於前一個決策樹的殘差獲得。從而可獲得包括多個決策樹的GBDT模型。
圖3示出根據一個實施例訓練得到的決策樹。如圖3所示,訓練得到的決策樹包括枝幹節點和葉子節點,每個枝幹節點設定有分裂特徵和特徵閾值,各個樣本事件藉由在枝幹節點處將分裂特徵與特徵閾值進行比較,而進入下一枝幹節點,最終被劃分到葉子節點。例如,節點0通向節點1的箭頭上標出“f1≤0.5”,節點0通向節點2的箭頭上標出“f1>0.5”,這裡的f1表示特徵1,更具體的,特徵1例如是“事件類型”,其為節點0的分裂特徵,0.5就是節點0的分裂閾值。
可以看到,在訓練得到的決策樹中,從根節點到葉子節點的路徑經過若干枝幹節點的組合,每個枝幹節點對應有分裂特徵,於是該路徑對應一種特徵組合,該特徵組合反映出,一個樣本事件被劃分到對應葉子節點所基於的特徵。
一般的,決策樹中的葉子節點藉由訓練會得到對應分值,該分值例如是該葉子節點中各個樣本事件的標定風險值的均值,或殘差的均值。
根據本說明書的實施例,為每個枝幹節點也賦予一定的分值,該分值基於該枝幹節點所覆蓋的葉子節點的分值而確定。例如,在一個實施例中,枝幹節點的分值可以確定為,該枝幹節點所覆蓋的葉子節點的分值的平均值。
在另一個實施例中,基於以下公式確定枝幹節點的分值:
其中,Nc1
和Nc2
為在模型訓練中分別落入該枝幹節點的子節點c1和c2的樣本數。即,父節點的分值為其兩個子節點的分值的加權平均值,所述兩個子節點的權重為模型訓練過程中落入其中的樣本數。如此,可以從葉子節點開始,逐層向上確定出各個枝幹節點的分值。
為了示例的目的,圖3在部分節點下方標出了該節點的分值,其中,枝幹節點的分值為覆蓋的葉子節點的分值的平均。
如此,為每個枝幹節點也賦予相應分值。以上分值也可以稱為節點的風險分值。
在此基礎上,還可以藉由訓練過程為各個枝幹節點賦予節點權重。對於某個枝幹節點A,可以基於該枝幹節點A分裂前後的各個節點各自的節點損失值而確定,所述節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值的差值而確定。
具體的,假定從枝幹節點A分裂為兩個子節點L和R(L和R可以是葉子節點,也可以是枝幹節點)。那麼,節點A的權重可以定義為:
節點L的損失值+節點R的損失值-A的損失值。
其中,節點L的損失值基於落入節點L的樣本事件的標定風險值與節點L的風險分值的差值而確定。更具體的,該損失值可以是各個樣本的標定風險值與節點的風險分值的差值的平方和。或者,在其他例子中,也可以是上述差值的方均根。類似可以得出節點R的損失值,節點A的損失值,進而得到節點A的權重。
藉由以上方式為每個枝幹節點賦予了節點權重。由於每個枝幹節點還對應一項特徵,節點權重可以從一定意義上反映,在本次分裂時,該特徵所起的作用,並在一定程度上反映該特徵對決策路徑的貢獻度。
基於以上訓練得到的GBDT模型,就可以對未知結果的事件進行風險評估。並且,由於以上GBDT模型中決策樹的特點,還可以更好地對風險評估結果進行解釋。
下面描述使用GBDT模型進行風險評估的過程。也就是,在圖2的步驟25,利用訓練得到的GBDT模型,對待分析的事件進行風險評估。為了描述的清楚和簡單,將待分析的事件稱為第二事件。
圖4示出在一個實施例中對第二事件進行風險評估的流程圖,也就是上述步驟25的子步驟。可以理解,為了對第二事件進行評估,首先要構建第二事件的事件特徵,事件特徵的構建過程與GBDT模型訓練階段中樣本事件的事件特徵的構建方式相對應。
具體的,在步驟251,獲取第二事件的事件類型,以及至少一個第二事件要素。
在一個實施例中,可以由用戶直接輸入第二事件的事件類型和事件要素。例如,當用戶想要查詢或評估某個事件的風險度或影響度時,可以直接在查詢介面中輸入第二事件的描述,例如“FF公司用戶資料洩露”,然後選擇事件類型“資訊洩露”,接著,在根據事件類型提供的要素模版中,輸入該事件的事件要素,例如,實施主體,資料類別,事件等級,等等。
在另一實施例中,可以將描述第二事件的文字輸入到評估系統,由評估系統進行事件識別和要素提取。上述輸入文字例如可以是財經資訊等新聞報道,或者網際網路上的各種文章等等。事件識別和要素提取的過程與前述的步驟21相似。也就是,採用自然語言處理模型,從輸入文字中識別出第二事件以及第二事件類型;並根據第二事件類型,從所述輸入文字中提取第二事件的事件要素。
在得到第二事件的事件要素後,在步驟252,在與第二事件的領域相關的至少一個知識圖譜中,獲取與第二事件的事件要素相關聯的關聯要素。具體的,可以在知識圖譜中,將第二事件的事件要素映射為第二節點,然後將與第二節點關聯的節點作為關聯要素。這個過程與前述步驟22相似,不再贅述。
然後,在步驟253,根據第二事件的事件類型,事件要素,以及關聯要素,確定第二事件的事件特徵,下文稱為第二事件特徵。第二事件特徵可以表示為特徵向量V。如此,為第二事件構建了事件特徵。
接著,在步驟254,將第二事件的事件特徵V輸入到前述訓練得到的GBDT模型,根據模型輸出確定第二事件的風險值。
如前所述,訓練得到的GBDT模型包括至少一棵決策樹,決策樹中的枝幹節點對應有分裂特徵和特徵閾值。在將第二事件特徵V輸入GBDT模型後,在決策樹的每個枝幹節點i處,將特徵向量V中與枝幹節點的分裂特徵對應的特徵的特徵值與特徵閾值比對,根據比對結果,將第二事件劃分到下一層級的節點,直到劃分到葉子節點。
圖5示出在一個實施例中第二事件在決策樹中的劃分過程,該決策樹與圖3所示的決策樹相同。具體的,假定節點0處的分裂特徵為f1“事件類型”,特徵閾值為0.5;節點2處的分裂特徵為f3“實施主體”,特徵閾值為0.6。將第二事件的事件特徵向量V輸入該決策樹。在節點0處,假定第二事件特徵V中,“事件類型”對應的特徵值為0.8,大於該分裂特徵的特徵閾值0.5,於是第二事件從節點0被劃分到節點2。接著,在節點2處,判斷分裂特徵“實施主體”。假定第二事件特徵向量V中“實施主體”這一特徵的特徵值為0.2,小於該分裂特徵的特徵閾值0.6,於是,第二事件被接著劃分到節點5。如此繼續,直到第二事件被劃分到葉子節點16。
如前所述,藉由訓練,每個葉子節點得到有對應分值,因此,GBDT模型可以輸出第二事件所劃分到的葉子節點的分值,於是,在步驟254,可以將模型輸出的葉子節點的分值作為第二事件的風險值。例如,圖5中葉子節點16的分值0.062即可作為第二事件的風險值。在GBDT模型包括多個決策樹的情況下,在每棵決策樹中第二事件都會被劃分到對應葉子節點。此時,GBDT模型可以確定出在各個決策樹中第二事件所在的葉子節點的對應分值,並將各個葉子節點對應分值的和值,即總分值,作為輸出結果。於是,可以將GBDT模型輸出的該總分值作為第二事件的風險值。
以上,藉由將第二事件的事件特徵輸入訓練的GBDT模型,即可根據模型輸出確定出第二事件的風險值,從而對第二事件進行定量的風險評估。
此外,在一個實施例中,步驟25中對第二事件進行風險評估還可以包括,在步驟254給出第二事件的風險值之後,對第二事件的風險值進行特徵解釋。
圖6示出在一個實施例中進行特徵解釋的步驟流程。如圖6所示,在步驟61,根據第二事件的事件特徵確定第二事件在決策樹中的決策路徑。如前所述,為了給出第二事件的風險值,在決策樹的各個枝幹節點處,根據第二事件的對應特徵的特徵值,將第二事件劃分到子節點,直到到達葉子節點。如此,在決策樹中從根節點到第二事件所劃分到的葉子節點所經過的路徑即為決策路徑。
例如,如圖5所示,第二事件最終被劃分到了葉子節點16,從根節點0,經過節點2,節點5,節點11,到達節點16的路徑即為第二事件的決策路徑。
可以理解,在GBDT模型包含多個決策樹的情況下,可以在每個決策樹中都確定出對應的決策路徑。
接著在步驟62,確定決策路徑所經過的各個枝幹節點,並獲取各個枝幹節點對應的特徵以及節點權重。
可以理解,決策路徑的起點為決策樹的根節點,終點為第二事件所劃分到的葉子節點,除葉子節點之外的節點可以作為枝幹節點。如此,可以確定出決策路徑所包含的各個枝幹節點。在決策路徑為多條路徑的情況下,確定出多條路徑中包含的各個枝幹節點。
如前所述,根據本說明書的實施例,為決策樹中的各個枝幹節點賦予了一定的節點權重。如此,可以確定出決策路徑中各個枝幹節點的節點權重。
於是,在步驟63,對於第二事件的事件特徵中包含的某項特徵,稱為第一特徵,根據上述各個枝幹節點中對應於該第一特徵的至少一個枝幹節點的節點權重,確定該第一特徵的特徵權重,作為該第一特徵對於所述風險值的重要性。
需要理解的是,決策樹中每個枝幹節點對應一項特徵,但是一項特徵可以出現在多個決策樹的多個枝幹節點中,甚至同一棵決策樹的多個枝幹節點中。因此,對於上述第一特徵,可以首先從決策路徑包含的枝幹節點中確定出與該第一特徵對應的至少一個枝幹節點,獲取該至少一個枝幹節點的節點權重,據此確定該特徵的特徵權重。具體的,在一個例子中,第一特徵的特徵權重可以是,與該第一特徵對應的上述至少一個枝幹節點的節點權重的平均值。如此,獲取到了第一特徵的特徵權重,該特徵權重就可以反映第一特徵對於第二事件的風險值的貢獻度或重要性。相應的,可以獲取第二事件的事件特徵中各個特徵的特徵權重,作為對第二事件的風險值的貢獻度或重要性。
在一個實施例中,可以根據各個特徵的特徵權重的排序,對相應的特徵進行排序,從而表示出,對第二事件的風險值產生影響的特徵的重要性排序。
例如,在一個具體例子中,第二事件為“上市公司歷史財務造假”。藉由以上實施例的方法,可以得出,對該事件的風險值產生影響的特徵按照重要性依次為:“處罰類型”,“事實類型”,“股票表現”和“處罰組織”。
簡而言之,在GBDT模型包含的決策樹中,第二事件經由決策路徑被劃分到葉子節點,進而藉由葉子節點的分值確定出第二事件的風險值。此外,決策路徑經過多個枝幹節點,每個枝幹節點對應一項特徵,因此決策路徑可以對應於,所經過的各個枝幹節點的分裂特徵的特徵組合。藉由各個枝幹節點的節點權重,可以衡量對應特徵對於最終的風險值結果的貢獻度或重要性,也就是,對風險值結果進行了特徵解釋。因此,在以上過程中,不僅藉由GBDT模型確定出第二事件的風險值,還可以對該風險值進行特徵解釋,也就是說明,得出這樣的風險值,各項特徵所起的作用的大小。
以上描述了對於待評估的第二事件,藉由知識圖譜對事件要素進行擴展後得到第二事件的全面的事件特徵,將事件特徵輸入訓練好的GBDT模型得到第二事件的風險值的過程。在此基礎上,還可以利用GBDT模型中的參數對得到的風險值進行特徵解釋。以上評估過程適用於能夠獲得第二事件的對應要素,進而能夠構建事件特徵的情況。
根據一種實施方式,以上訓練得到的GBDT模型還可以適用於,對於無法獲得完整事件特徵的事件進行條件預測,也就是,當只能獲得事件的很少一部分要素時,給出不同條件或不同情況下事件的不同風險走向的評估。
例如,想要評估“某公司疫苗造假”事件的可能影響。假定只能獲得該事件的事件類型為“產品造假”,實施主體為某公司,其他要素難以獲取。此時,也可以利用以上訓練得到的GBDT模型,給出該事件在不同情況下的風險走向評估,例如,在滿足什麼條件的情況下,該事件會產生極大的輿論風險影響,在滿足什麼條件的情況下,該事件的影響會最小化。下面描述對於這樣的第二事件的評估過程。
圖7示出根據一個實施例對第二事件進行評估的步驟流程圖。
如圖7所示,首先,在步驟71,獲取第二事件的至少一個事件要素。如上所述,該步驟流程適用於第二事件要素不完整的情況,因此,該步驟71中獲取的事件要素可以是少量的、不完整的事件要素,例如只有實施主體,甚至只能得到事件類型。例如,對於上述“某公司疫苗造假”事件,假定只能獲得該事件的事件類型為“產品造假”,實施主體為某公司。
接著,在步驟72,根據所述至少一個事件要素,在決策樹中對第二事件進行劃分,基於劃分的停止節點確定決策樹的子樹。
可以理解,由於事件要素不完整,事件特徵不完整,因此,往往無法在決策樹中得到從根節點到葉子節點的完整的決策路徑。此時,可以根據已得到的要素,在決策樹中對第二事件進行劃分,確定出無法繼續劃分而劃分停止的停止節點,並基於該停止節點確定出決策樹的子樹,該子樹即為停止節點所覆蓋的節點區域。
結合圖3的決策樹示意圖進行描述。首先在節點0處,判斷分裂特徵“事件類型”。假定第二事件“某公司疫苗造假”的事件類型為0.3,小於特徵閾值0.5,於是,第二事件被劃分到節點1。節點1處的分裂特徵為f2“處罰類型”。然而,如上所述,由於第二事件的要素不完整,無法獲得到該項特徵,於是第二事件無法繼續劃分,節點1即為停止節點。節點1覆蓋的節點區域即為上述的子樹。
然後,在步驟73,確定上述子樹中滿足預定條件的第一葉子節點,以及從根節點到該第一葉子節點的條件路徑。
上述預定條件可以根據評估需要設定,例如可以是,風險最大,風險最小,風險值滿足一定閾值,等等。
如果預定條件為風險最大,那麼,就從子樹所包含的各個葉子節點中,選擇分值最大的葉子節點作為上述第一葉子節點。從根節點到該葉子節點的路徑即為上述條件路徑。
沿用上例並結合圖3,停止節點為節點1,確定出的子樹包含葉子節點7,8,9,10,假定其中節點8的分值最大,那麼可以將節點8確定為風險最大條件下的葉子節點,將從節點0到節點8的路徑,即包含節點0,1,3,8的路徑作為上述條件路徑。
其他預定條件的情況下,則相應地根據各個葉子節點的分值選擇出相應的葉子節點作為第一葉子節點。
接著在步驟74,獲取所述條件路徑中包含的枝幹節點所對應的特徵組合,將所述特徵組合作為所述第二事件在所述預定條件下的影響特徵。
可以理解,條件路徑對應於,在假設出現的預定條件下,第二事件的劃分路徑。因此,該路徑中包含的枝幹節點對應的特徵組合即為,對第二事件產生影響、使其滿足上述預定條件的那些特徵。例如,如果預定條件為風險最大,那麼此時條件路徑對應的特徵組合即為,導致第二事件出現最大風險的影響特徵。如此,對第二事件進行條件預測和解釋,給出不同條件下的不同影響特徵,幫助預測事件的後續走向。
進一步的,根據一種實施方式,還可以提供以下資訊作為第二事件的評估。例如,在一個實施例中,可以提供上述第一葉子節點的分值,作為預定條件下第二事件的風險值。例如,在預定條件為風險最大的情況下,可以提供節點8的分值,作為第二事件的可能的最大風險值。
在一個實施例中,可以根據上述條件路徑中枝幹節點的節點權重,確定上述特徵組合中各項特徵的重要度。這一過程與前述步驟63類似。
藉由以上方式,可以對於要素較少、特徵不完整的第二事件進行評估,給出出現不同風險結果時第二事件對應滿足的特徵條件,從而更好地利用GBDT模型的特點,對事件未來的風險性進行解釋和預測。
根據另一方面的實施例,提供了一種事件風險評估的裝置,該裝置可以部署在任何具有計算、處理能力的設備、平臺或設備集群中。圖8示出根據一個實施例的事件評估裝置的示意性方塊圖。如圖8所示,該評估裝置800包括:
提取單元81,配置為採用自然語言處理模型,從內容文字庫中提取多個樣本事件,所述多個樣本事件包括第一樣本事件,所述提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取所述第一樣本事件的至少一個第一事件要素;
關聯單元82,配置為在與所述第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與所述至少一個第一事件要素相關聯的至少一個第一關聯要素;
確定單元83,配置為根據所述第一事件類型,所述至少一個第一事件要素,以及所述至少一個第一關聯要素,確定所述第一樣本事件的事件特徵;
訓練單元84,配置為根據所述多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型;
評估單元85,配置為利用所述訓練的GBDT模型,對待分析的第二事件進行風險評估。
在一個實施例中,所述提取單元81具體配置為:確定所述第一事件類型對應的第一模板;利用所述第一模板,從所述內容文字庫中提取所述第一樣本事件的至少一個第一事件要素。
根據一個實施例,上述第一事件要素包括以下中的至少一個:事件時間、事件地點、實施主體、事件客體、事實類型、事件等級。
在一個實施例中,所述關聯單元82具體配置為:
將所述至少一個第一事件要素映射為所述至少一個知識圖譜中的第一節點;將所述至少一個知識圖譜中與所述第一節點直接連接的節點作為所述至少一個第一關聯要素。
根據一個實施例,上述知識圖譜可以包括以下中的一個或多個:企業知識圖譜,產品知識圖譜,人物知識圖譜,資訊知識圖譜,股票知識圖譜,基金知識圖譜,機構知識圖譜。
根據一種實施方式,所述評估單元85包括:
要素獲取模組851,配置為獲取第二事件的事件類型,以及至少一個第二事件要素;
要素關聯模組852,配置為在所述至少一個知識圖譜中,獲取與所述至少一個第二事件要素相關聯的至少一個第二關聯要素;
第一確定模組853,配置為根據所述第二事件的事件類型,所述至少一個第二事件要素,以及所述至少一個第二關聯要素,確定所述第二事件的事件特徵;
第二確定模組854,配置為將所述第二事件的事件特徵輸入所述訓練的GBDT模型,根據模型輸出確定所述第二事件的風險值。
具體的,在一個實施例中,所述要素獲取模組851配置為:
從輸入文字中識別出所述第二事件以及第二事件類型;
根據第二事件類型,從所述輸入文字中提取所述至少一個第二事件要素。
在另一實施例中,所述要素獲取模組851配置為:
接收輸入的第二事件,以及所述至少一個第二事件要素。
根據一個實施例,訓練得到的GBDT模型包括至少一棵決策樹,所述決策樹包括枝幹節點和葉子節點,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,所述節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;
相應的,在一個實施例中,評估單元85還包括(未示出):
決策路徑確定模組,配置為根據所述第二事件的事件特徵確定所述第二事件在所述決策樹中的決策路徑;
節點權重確定模組,配置為確定所述決策路徑所經過的各個枝幹節點,並獲取各個枝幹節點對應的特徵以及節點權重;
重要性確定模組,配置為對於所述第二事件的事件特徵中包含的第一特徵,根據所述各個枝幹節點中對應於該第一特徵的至少一個枝幹節點的節點權重,確定該第一特徵的特徵權重,作為該第一特徵對於所述風險值的重要性。
根據另一種實施方式,評估單元85包括(未示出):
要素獲取模組,配置為獲取第二事件的至少一個第二事件要素;
子樹確定模組,配置為根據所述至少一個第二事件要素在所述決策樹中對第二事件進行劃分,基於劃分的停止節點確定所述決策樹的子樹;
條件路徑確定模組,配置為確定所述子樹中滿足預定條件的第一葉子節點,以及從根節點到該第一葉子節點的條件路徑;
特徵確定模組,配置為獲取所述條件路徑中包含的枝幹節點所對應的特徵組合,將所述特徵組合作為所述第二事件在所述預定條件下的影響特徵。
在一個實施例中,所述決策樹中每個葉子節點藉由訓練得到有風險分值,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,所述節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;
相應的,所述評估單元還包括以下中的一項或多項:
第三確定模組,配置為確定所述第一葉子節點對應的第一風險分值,作為所述預定條件下第二事件的風險值;
第四確定模組,配置為根據所述條件路徑中各個枝幹節點的節點權重,確定所述特徵組合中與所述各個枝幹節點對應的各項特徵的重要度。
藉由以上的裝置,實現GBDT模型的訓練和使用,對事件風險進行有效的評估和解釋。
根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2,所描述的方法。
根據再一方面的實施例,還提供一種計算設備,包括儲存器和處理器,所述儲存器中儲存有可執行程式碼,所述處理器執行所述可執行程式碼時,實現結合圖2和圖4所述的方法。
本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或程式碼進行傳輸。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
101:步驟
102:步驟
103:步驟
104:步驟
S201:步驟
S202:步驟
S203:步驟
S204:步驟
S205:步驟
301:大屏資料獲取模組
302:節點狀態資訊確定模組
303:鏈路狀態資訊確定模組
304:鏈路系統狀態資訊確定模組
305:異常鏈路系統處理模組
400:設備
410:處理器
420:指令
430:記憶體
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域具有通常知識者來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。
圖1為本說明書披露的一個實施例的實施過程示意圖;
圖2示出根據一個實施例的事件風險評估方法的流程圖;
圖3示出根據一個實施例訓練得到的決策樹;
圖4示出在一個實施例中對第二事件進行風險評估的流程圖;
圖5示出在一個實施例中第二事件在決策樹中的劃分過程;
圖6示出在一個實施例中進行特徵解釋的步驟流程;
圖7示出根據一個實施例對第二事件進行評估的步驟流程圖;
圖8示出根據一個實施例的事件評估裝置的示意性方塊圖。
Claims (18)
- 一種電腦執行的事件風險評估方法,包括:採用自然語言處理模型,從內容文字庫中提取多個樣本事件,該多個樣本事件包括第一樣本事件,該提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取該第一樣本事件的至少一個第一事件要素;在與該第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與該至少一個第一事件要素相關聯的至少一個第一關聯要素;根據該第一事件類型,該至少一個第一事件要素,以及該至少一個第一關聯要素,確定該第一樣本事件的事件特徵;根據該多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型,其中,該訓練的GBDT模型包括至少一棵決策樹,該決策樹包括枝幹節點和葉子節點,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,該節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;利用該訓練的GBDT模型,對待分析的第二事件進行 風險評估,包括:獲取第二事件的事件類型,以及至少一個第二事件要素;在該至少一個知識圖譜中,獲取與該至少一個第二事件要素相關聯的至少一個第二關聯要素;根據該第二事件的事件類型,該至少一個第二事件要素,以及該至少一個第二關聯要素,確定該第二事件的事件特徵;將該第二事件的事件特徵輸入該訓練的GBDT模型,根據模型輸出確定該第二事件的風險值;根據該第二事件的事件特徵確定該第二事件在該決策樹中的決策路徑;確定該決策路徑所經過的各個枝幹節點,並獲取各個枝幹節點對應的特徵以及節點權重;以及對於該第二事件的事件特徵中包含的第一特徵,根據該各個枝幹節點中對應於該第一特徵的至少一個枝幹節點的節點權重,確定該第一特徵的特徵權重,作為該第一特徵對於該風險值的重要性。
- 根據請求項1所述的方法,其中,該根據第一事件類型,提取該第一樣本事件的至少一個第一事件要素,包括:確定該第一事件類型對應的第一模板;利用該第一模板,從該內容文字庫中提取該第一樣本 事件的至少一個第一事件要素。
- 根據請求項1或2所述的方法,其中,該至少一個第一事件要素包括以下中的至少一個:事件時間、事件地點、實施主體、事件客體、事實類型、事件等級。
- 根據請求項1所述的方法,其中,獲取與該至少一個第一事件要素相關聯的至少一個第一關聯要素,包括:將該至少一個第一事件要素映射為該至少一個知識圖譜中的第一節點;將該至少一個知識圖譜中與該第一節點直接連接的節點作為該至少一個第一關聯要素。
- 根據請求項1或4所述的方法,其中,該至少一個知識圖譜包括,企業知識圖譜,產品知識圖譜,人物知識圖譜,資訊知識圖譜,股票知識圖譜,基金知識圖譜,機構知識圖譜。
- 根據請求項1所述的方法,其中,獲取第二事件的事件類型,以及至少一個第二事件要素,包括:從輸入文字中識別出該第二事件以及第二事件類型;根據第二事件類型,從該輸入文字中提取該至少一個第二事件要素。
- 根據請求項1所述的方法,其中,獲取第二事件的事件類型,以及至少一個第二事件要素,包括:接收輸入的第二事件,以及該至少一個第二事件要素。
- 一種電腦執行的事件風險評估方法,包括:採用自然語言處理模型,從內容文字庫中提取多個樣本事件,該多個樣本事件包括第一樣本事件,該提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取該第一樣本事件的至少一個第一事件要素;在與該第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與該至少一個第一事件要素相關聯的至少一個第一關聯要素;根據該第一事件類型,該至少一個第一事件要素,以及該至少一個第一關聯要素,確定該第一樣本事件的事件特徵;根據該多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型,其中,該訓練的GBDT模型包括至少一棵決策樹,該決策樹包括枝幹節點和葉子節點,並且其中,該決策樹中每個葉子節點具有訓練得到的風險分值,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該 枝幹節點以及分裂後節點各自的節點損失值確定,該節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;利用該訓練的GBDT模型,對待分析的第二事件進行風險評估,包括:獲取第二事件的至少一個第二事件要素;根據該至少一個第二事件要素,在該決策樹中對第二事件進行劃分,基於劃分的停止節點確定該決策樹的子樹;確定該子樹中滿足預定條件的第一葉子節點,以及從根節點到該第一葉子節點的條件路徑;以及獲取該條件路徑中包含的枝幹節點所對應的特徵組合,將該特徵組合作為該第二事件在該預定條件下的影響特徵;該利用該訓練的GBDT模型,對待分析的第二事件進行風險評估,還包括以下中的一項或多項:確定該第一葉子節點對應的第一風險分值,作為該預定條件下第二事件的風險值;根據該條件路徑中各個枝幹節點的節點權重,確定該特徵組合中與該各個枝幹節點對應的各項特徵的重要度。
- 一種電腦執行的事件風險評估裝置,包括:提取單元,配置為採用自然語言處理模型,從內容文字庫中提取多個樣本事件,該多個樣本事件包括第一樣本 事件,該提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取該第一樣本事件的至少一個第一事件要素;關聯單元,配置為在與該第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與該至少一個第一事件要素相關聯的至少一個第一關聯要素;確定單元,配置為根據該第一事件類型,該至少一個第一事件要素,以及該至少一個第一關聯要素,確定該第一樣本事件的事件特徵;訓練單元,配置為根據該多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型,其中,該訓練的GBDT模型包括至少一棵決策樹,該決策樹包括枝幹節點和葉子節點,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,該節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定;評估單元,配置為利用該訓練的GBDT模型,對待分析的第二事件進行風險評估,其中,該評估單元包括:要素獲取模組,配置為獲取第二事件的事件類型,以及至少一個第二事件要素;要素關聯模組,配置為在該至少一個知識圖譜中,獲取與該至少一個第二事件要素相關聯的至少一個第二關聯 要素;第一確定模組,配置為根據該第二事件的事件類型,該至少一個第二事件要素,以及該至少一個第二關聯要素,確定該第二事件的事件特徵;第二確定模組,配置為將該第二事件的事件特徵輸入該訓練的GBDT模型,根據模型輸出確定該第二事件的風險值決策路徑確定模組,配置為根據該第二事件的事件特徵確定該第二事件在該決策樹中的決策路徑;節點權重確定模組,配置為確定該決策路徑所經過的各個枝幹節點,並獲取各個枝幹節點對應的特徵以及節點權重;以及重要性確定模組,配置為對於該第二事件的事件特徵中包含的第一特徵,根據該各個枝幹節點中對應於該第一特徵的至少一個枝幹節點的節點權重,確定該第一特徵的特徵權重,作為該第一特徵對於該風險值的重要性。
- 根據請求項9所述的裝置,其中,該提取單元配置為:確定該第一事件類型對應的第一模板;利用該第一模板,從該內容文字庫中提取該第一樣本事件的至少一個第一事件要素。
- 根據請求項9或10所述的裝置,其中,該至少一個第 一事件要素包括以下中的至少一個:事件時間、事件地點、實施主體、事件客體、事實類型、事件等級。
- 根據請求項9所述的裝置,其中,該關聯單元配置為:將該至少一個第一事件要素映射為該至少一個知識圖譜中的第一節點;將該至少一個知識圖譜中與該第一節點直接連接的節點作為該至少一個第一關聯要素。
- 根據請求項9或12所述的裝置,其中,該至少一個知識圖譜包括,企業知識圖譜,產品知識圖譜,人物知識圖譜,資訊知識圖譜,股票知識圖譜,基金知識圖譜,機構知識圖譜。
- 根據請求項9所述的裝置,其中,該要素獲取模組配置為:從輸入文字中識別出該第二事件以及第二事件類型;根據第二事件類型,從該輸入文字中提取該至少一個第二事件要素。
- 根據請求項9所述的裝置,其中,該要素獲取模組配置為:接收輸入的第二事件,以及該至少一個第二事件要 素。
- 一種電腦執行的事件風險評估裝置,包括:提取單元,配置為採用自然語言處理模型,從內容文字庫中提取多個樣本事件,該多個樣本事件包括第一樣本事件,該提取多個樣本事件包括,識別第一樣本事件及其對應的第一事件類型,並根據第一事件類型,提取該第一樣本事件的至少一個第一事件要素;關聯單元,配置為在與該第一樣本事件相關聯的至少一個領域所對應的至少一個知識圖譜中,獲取與該至少一個第一事件要素相關聯的至少一個第一關聯要素;確定單元,配置為根據該第一事件類型,該至少一個第一事件要素,以及該至少一個第一關聯要素,確定該第一樣本事件的事件特徵;訓練單元,配置為根據該多個樣本事件中各個樣本事件的事件特徵,以及各個樣本事件的標定風險值,訓練梯度提升決策樹GBDT模型,得到訓練的GBDT模型,其中,該訓練的GBDT模型包括至少一棵決策樹,該決策樹包括枝幹節點和葉子節點,並且其中,該決策樹中每個葉子節點具有訓練得到的風險分值,每個枝幹節點對應一項特徵,並具有訓練得到的風險分值以及節點權重,其中節點權重基於該枝幹節點以及分裂後節點各自的節點損失值確定,該節點損失值基於落入該節點的樣本事件的標定風險值與該節點的風險分值之差而確定; 評估單元,配置為利用該訓練的GBDT模型,對待分析的第二事件進行風險評估,該評估單元包括:要素獲取模組,配置為獲取第二事件的至少一個第二事件要素;子樹確定模組,配置為根據該至少一個第二事件要素在該決策樹中對第二事件進行劃分,基於劃分的停止節點確定該決策樹的子樹;條件路徑確定模組,配置為確定該子樹中滿足預定條件的第一葉子節點,以及從根節點到該第一葉子節點的條件路徑;以及特徵確定模組,配置為獲取該條件路徑中包含的枝幹節點所對應的特徵組合,將該特徵組合作為該第二事件在該預定條件下的影響特徵,並且該評估單元還包括以下中的一項或多項:第三確定模組,配置為確定該第一葉子節點對應的第一風險分值,作為該預定條件下第二事件的風險值;第四確定模組,配置為根據該條件路徑中各個枝幹節點的節點權重,確定該特徵組合中與該各個枝幹節點對應的各項特徵的重要度。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,當該電腦程式在電腦中執行時,令電腦執行請求項1-8中任一項的所述的方法。
- 一種計算設備,包括儲存器和處理器,其特徵在於,該儲存器中儲存有可執行程式碼,該處理器執行該可執行程式碼時,實現請求項1-8中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910105245.3A CN110008349B (zh) | 2019-02-01 | 2019-02-01 | 计算机执行的事件风险评估的方法及装置 |
CN201910105245.3 | 2019-02-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202030685A TW202030685A (zh) | 2020-08-16 |
TWI723528B true TWI723528B (zh) | 2021-04-01 |
Family
ID=67165700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108132023A TWI723528B (zh) | 2019-02-01 | 2019-09-05 | 電腦執行的事件風險評估方法及裝置、電腦可讀儲存媒體以及計算設備 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN110008349B (zh) |
TW (1) | TWI723528B (zh) |
WO (1) | WO2020156000A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008349B (zh) * | 2019-02-01 | 2020-11-10 | 创新先进技术有限公司 | 计算机执行的事件风险评估的方法及装置 |
CN110516075B (zh) * | 2019-07-22 | 2022-04-15 | 平安科技(深圳)有限公司 | 基于机器学习的预警报告生成方法、装置和计算机设备 |
CN110704742B (zh) * | 2019-09-30 | 2021-04-27 | 北京三快在线科技有限公司 | 一种特征提取方法及装置 |
CN112580916B (zh) * | 2019-09-30 | 2024-05-28 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
CN110968700B (zh) * | 2019-11-01 | 2023-04-07 | 数地工场(南京)科技有限公司 | 融合多类事理与实体知识的领域事件图谱构建方法和装置 |
CN111191853B (zh) * | 2020-01-06 | 2022-07-15 | 支付宝(杭州)信息技术有限公司 | 风险预测方法及装置、风险查询方法及装置 |
CN111401914B (zh) * | 2020-04-02 | 2022-07-22 | 支付宝(杭州)信息技术有限公司 | 风险评估模型的训练、风险评估方法及装置 |
CN111915207B (zh) * | 2020-08-11 | 2021-07-30 | 中国民航科学技术研究院 | 基于知识图谱的民航安全风险分析方法及装置 |
CN113190682B (zh) * | 2021-06-30 | 2021-09-28 | 平安科技(深圳)有限公司 | 基于树模型的事件影响度获取方法、装置及计算机设备 |
CN118103834A (zh) * | 2021-10-21 | 2024-05-28 | 华为技术有限公司 | 一种信息获取方法以及装置 |
CN114328907A (zh) * | 2021-10-22 | 2022-04-12 | 浙江嘉兴数字城市实验室有限公司 | 用于预警风险升级事件的自然语言处理方法 |
CN113992429B (zh) * | 2021-12-22 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种事件的处理方法、装置及设备 |
CN115935265B (zh) * | 2023-03-03 | 2023-05-26 | 支付宝(杭州)信息技术有限公司 | 训练风险识别模型的方法、风险识别方法及对应装置 |
CN117573814B (zh) * | 2024-01-17 | 2024-05-10 | 中电科大数据研究院有限公司 | 一种舆论态势评估方法、装置、系统以及存储介质 |
CN118013053B (zh) * | 2024-04-08 | 2024-08-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种改进的三维文本分析系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785058A (zh) * | 2017-07-24 | 2018-03-09 | 平安科技(深圳)有限公司 | 反欺诈识别方法、存储介质和承载平安脑的服务器 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
TW201835819A (zh) * | 2017-03-15 | 2018-10-01 | 香港商阿里巴巴集團服務有限公司 | 神經網路模型訓練、交易行為風險識別方法及裝置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6334192B1 (en) * | 1998-03-09 | 2001-12-25 | Ronald S. Karpf | Computer system and method for a self administered risk assessment |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
CN108009229A (zh) * | 2017-11-29 | 2018-05-08 | 厦门市美亚柏科信息股份有限公司 | 舆情事件数据发现的方法、终端设备及存储介质 |
CN108399509A (zh) * | 2018-04-12 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 确定业务请求事件的风险概率的方法及装置 |
CN108681750A (zh) * | 2018-05-21 | 2018-10-19 | 阿里巴巴集团控股有限公司 | Gbdt模型的特征解释方法和装置 |
CN110008349B (zh) * | 2019-02-01 | 2020-11-10 | 创新先进技术有限公司 | 计算机执行的事件风险评估的方法及装置 |
-
2019
- 2019-02-01 CN CN201910105245.3A patent/CN110008349B/zh active Active
- 2019-09-05 TW TW108132023A patent/TWI723528B/zh active
- 2019-12-30 WO PCT/CN2019/129863 patent/WO2020156000A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201835819A (zh) * | 2017-03-15 | 2018-10-01 | 香港商阿里巴巴集團服務有限公司 | 神經網路模型訓練、交易行為風險識別方法及裝置 |
CN107785058A (zh) * | 2017-07-24 | 2018-03-09 | 平安科技(深圳)有限公司 | 反欺诈识别方法、存储介质和承载平安脑的服务器 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020156000A1 (zh) | 2020-08-06 |
CN110008349A (zh) | 2019-07-12 |
TW202030685A (zh) | 2020-08-16 |
CN110008349B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI723528B (zh) | 電腦執行的事件風險評估方法及裝置、電腦可讀儲存媒體以及計算設備 | |
US10692019B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
US11429878B2 (en) | Cognitive recommendations for data preparation | |
US10347019B2 (en) | Intelligent data munging | |
JP7090936B2 (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
US7606784B2 (en) | Uncertainty management in a decision-making system | |
CN109543925B (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN114389834B (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
WO2018184518A1 (zh) | 微博数据处理方法、装置、计算机设备及存储介质 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
CN109886554B (zh) | 违规行为判别方法、装置、计算机设备和存储介质 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
JP2018198045A (ja) | 自然言語処理イベントの生成のための装置および方法 | |
CN115098389B (zh) | 一种基于依赖模型的rest接口测试用例生成方法 | |
CN112232944A (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN111694957A (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
US12026467B2 (en) | Automated learning based executable chatbot | |
WO2020255414A1 (ja) | 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
CN112990989A (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
JP2023145767A (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
Yi-bin et al. | Improvement of ID3 algorithm based on simplified information entropy and coordination degree | |
US11922326B2 (en) | Data management suggestions from knowledge graph actions | |
CN116739764A (zh) | 一种基于机器学习的交易风险检测方法、装置、设备及介质 | |
CN107886233B (zh) | 客服的服务质量评价方法和系统 |