TW201814556A - 資訊匹配方法及相關裝置 - Google Patents

資訊匹配方法及相關裝置 Download PDF

Info

Publication number
TW201814556A
TW201814556A TW106127140A TW106127140A TW201814556A TW 201814556 A TW201814556 A TW 201814556A TW 106127140 A TW106127140 A TW 106127140A TW 106127140 A TW106127140 A TW 106127140A TW 201814556 A TW201814556 A TW 201814556A
Authority
TW
Taiwan
Prior art keywords
information
branch
matching degree
matching
node
Prior art date
Application number
TW106127140A
Other languages
English (en)
Inventor
張一昌
趙爭超
張建偉
蔡仁貴
林君
肖謙
潘林林
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201814556A publication Critical patent/TW201814556A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施例提供了一種資訊匹配方法及相關裝置,所述方法包括:獲取待匹配的第一資訊和第二資訊;獲取標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述第二資訊的內容相匹配;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度。可見,本發明實施例計算出的匹配度能夠反映資訊之間的關聯性,從而提高匹配準確率。

Description

資訊匹配方法及相關裝置
本發明關於電腦技術領域,尤其是關於一種資訊匹配方法及相關裝置。
資訊匹配技術是一種常用的電腦技術,用於獲得多條資訊之間的匹配度。資訊匹配技術廣泛應用在多種互聯網場景中,例如,對於買家在電子商務等網站輸入的多條評價資訊,透過資訊匹配技術獲得各條評價資訊與商家訂閱資訊的匹配度,從而能夠快速地定位到商家感興趣的評價資訊。
目前一種常用的資訊匹配方式包括:將待匹配的多條資訊分詞,判斷是否存在相同的分詞結果,根據相同的分詞結果計算多條資訊之間的匹配度。
顯然,上述資訊匹配方式只能判斷出多條資訊之間是否存在相同的分詞結果,而無法反映多條資訊之間是否存在關聯性。例如,買家輸入的評價資訊為“服務不好”,而商家訂閱資訊為“客服態度”,雖然“服務不好”和“客服態度”都是在描述服務,具有一定的關聯性,但是按照上述資訊匹配方式計算出的匹配度為0,顯然匹配準確率較 低。
本發明解決的技術問題在於提供一種資訊匹配方法及相關裝置,使得計算出的匹配度能夠反映資訊之間的關聯性,從而提高匹配準確率。
為此,本發明解決技術問題的技術方案是:本發明提供了一種資訊匹配方法,包括:獲取待匹配的商家訂閱資訊和用戶評價資訊;獲取標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述用戶評價資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述商家訂閱資訊的內容相匹配;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度; 至少根據所述第一匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
可選的,所述方法還包括:獲取訓練後的統計模型;根據所述統計模型計算所述用戶評價資訊的情感指數;計算所述用戶評價資訊的情感指數與目標情感指數的近似度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,所述方法還包括:根據所述統計模型計算所述商家訂閱資訊的情感指數,所述商家訂閱資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價 資訊和所述商家訂閱資訊的匹配度,包括:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,獲取訓練後的統計模型,包括:獲取所述用戶評價資訊對應的類目;獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述用戶評價資訊對應的類目,包括:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,所述方法還包括:獲取所述用戶評價資訊的詞向量和所述商家訂閱資訊的詞向量;計算所述用戶評價資訊的詞向量與所述商家訂閱資訊的詞向量的匹配度,作為第二匹配度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述用戶評價資訊和所述商家訂閱資訊 的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,所述方法還包括:獲取所述標籤類目樹中多個標籤節點之間的匹配度;根據所述多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
本發明還提供了一種資訊匹配方法,包括:獲取待匹配的商家訂閱資訊和用戶評價資訊;獲取訓練後的統計模型;根據所述統計模型計算所述用戶評價資訊的情感指數;至少根據所述用戶評價資訊的情感指數與目標情感指數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,所述方法還包括:獲取所述用戶評價資訊與所述商家評價資訊的初始匹配度;至少根據所述用戶評價資訊的情感指數與目標情感指數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度,包括:至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度,包括:若所述近似度大於或等於第一閾值,至少根據所述初始匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,獲取訓練後的統計模型,包括:獲取所述用戶評價資訊對應的類目;獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述用戶評價資訊對應的類目,包括:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,所述方法還包括:根據所述統計模型計算所述商家訂閱資訊的情感指數,將所述商家訂閱資訊的情感指數作為所述目標情感指數。
本發明還提供了一種資訊輸入方法,包括: 用戶端獲取用戶輸入的用戶評價資訊或者商家訂閱資訊;所述用戶端將所述用戶評價資訊或者商家訂閱資訊發送至計算單元,所述計算單元用於計算用戶評價資訊和商家訂閱資訊的匹配度。
本發明還提供了一種資訊匹配方法,包括:獲取待匹配的第一資訊和第二資訊;獲取標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述第二資訊的內容相匹配;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度;至少根據所述第一匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
可選的,所述方法還包括:獲取訓練後的統計模型;根據所述統計模型計算所述第一資訊的情感指數;計算所述第一資訊的情感指數與目標情感指數的近似度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,所述方法還包括:根據所述統計模型計算所述第二資訊的情感指數,所述第二資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度,包括:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述第一資訊和所述第二資訊的匹配度; 若所述近似度小於所述第一閾值,所述第一資訊和所述第二資訊的匹配度為0。
可選的,獲取訓練後的統計模型,包括:獲取所述第一資訊對應的類目;獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述第一資訊對應的類目,包括:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述第一資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述第一資訊對應的類目。
可選的,所述訓練後的統計模型的訓練特徵包括輸入資訊的分詞結果;所述方法還包括:對所述第一資訊進行分詞,得到第一資訊的分詞結果;根據所述統計模型計算所述第一資訊的情感指數,包括:將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述輸入資訊的分詞結果為對所述輸入資訊中每兩個相鄰字元進行分詞所得到的分詞結果;所述對所述第一資訊進行分詞,包括:對所述第一資訊中每兩個相鄰字元進行分詞。
可選的,所述訓練後的統計模型的訓練特徵還包括上下文的情感特徵;所述方法還包括:提取所述第一資訊的上下文的情感特徵;將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數,包括:將所述第一資訊的分詞結果和所述第一資訊的上下文的情感特徵,輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述上下文的情感特徵包括以下任一項或者多項:前一句的情感指數、前一句與目前句的主題相似度,上文的整體情感分佈、以及上文中的至少一條相關句的情感分佈,所述至少一條相關句與目前句的主題相似度大於第二閾值。
可選的,所述訓練後的統計模型包括訓練後的第一統計模型和第二統計模型,所述第一統計模型的訓練特徵包括輸入資訊的分詞結果,所述第二統計模型的訓練特徵包括上下文的情感特徵。
可選的,所述訓練後的統計模型為訓練後的最大熵模型。
可選的,所述方法還包括:獲取所述第一資訊的詞向量和所述第二資訊的詞向量;計算所述第一資訊的詞向量與所述第二資訊的詞向量 的匹配度,作為第二匹配度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度,包括:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,所述方法還包括:獲取所述標籤類目樹中多個標籤節點之間的匹配度;根據所述多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
本發明還提供了一種資訊匹配裝置,包括:資訊獲取單元,用於獲取待匹配的商家訂閱資訊和用戶評價資訊;類目樹獲取單元,用於標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;樹枝獲取單元,用於從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述用戶評價資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述商家訂閱資訊的內容相匹配;匹配度計算單元,用於至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度,至少根據所述第一匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
可選的,還包括:模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據所述統計模型計算所述用戶評價資訊的情感指數;近似度計算單元,用於計算所述用戶評價資訊的情感指數與目標情感指數的近似度;所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,所述情感計算單元,還用於根據所述統計模型計算所述商家訂閱資訊的情感指數,所述商家訂閱資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價 資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,所述模型獲取單元具體用於,獲取所述用戶評價資訊對應的類目,獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述用戶評價資訊對應的類目時,所述模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,還包括:詞向量獲取單元,用於獲取所述用戶評價資訊的詞向量和所述商家訂閱資訊的詞向量;匹配度計算單元,還用於計算所述用戶評價資訊的詞向量與所述商家訂閱資訊的詞向量的匹配度,作為第二匹配度; 至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,還包括:修正單元,用於獲取所述標籤類目樹中多個標籤節點之間的匹配度,根據所述多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
本發明還提供了一種資訊匹配裝置,包括:資訊獲取單元,用於獲取待匹配的商家訂閱資訊和用戶評價資訊;模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據所述統計模型計算所述用戶評價資訊的情感指數;匹配度計算單元,用於至少根據所述用戶評價資訊的情感指數與目標情感指數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,還包括:匹配度獲取單元,用於獲取所述用戶評價資訊與所述商家評價資訊的初始匹配度;至少根據所述用戶評價資訊的情感指數與目標情感指 數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於,至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於:若所述近似度大於或等於第一閾值,至少根據所述初始匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,模型獲取單元具體用於,獲取所述用戶評價資訊對應的類目,獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述用戶評價資訊對應的類目時,所述模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,情感計算單元還用於,根據所述統計模型計算所述商家訂閱資訊的情感指數,將所述商家訂閱資訊的情感指數作為所述目標情感指數。
本發明還提供了一種用戶端,包括:資訊獲取單元,用於獲取用戶輸入的用戶評價資訊或者商家訂閱資訊;發送單元,用於將所述用戶評價資訊或者商家訂閱資訊發送至計算單元,所述計算單元用於計算用戶評價資訊和商家訂閱資訊的匹配度。
本發明還提供了一種資訊匹配裝置,包括:資訊獲取單元,用於獲取待匹配的第一資訊和第二資訊;類目樹獲取單元,用於標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;樹枝獲取單元,用於從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述第二資訊的內容相匹配;匹配度計算單元,用於至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計 算第一匹配度;至少根據所述第一匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
可選的,還包括:模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據所述統計模型計算所述第一資訊的情感指數;近似度計算單元,用於計算所述第一資訊的情感指數與目標情感指數的近似度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,情感計算單元還用於,根據所述統計模型計算所述第二資訊的情感指數,所述第二資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度時,所述匹配度計算單元具體用 於:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述第一資訊和所述第二資訊的匹配度;若所述近似度小於所述第一閾值,所述第一資訊和所述第二資訊的匹配度為0。
可選的,模型獲取單元具體用於,獲取所述第一資訊對應的類目,獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述第一資訊對應的類目時,模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述第一資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述第一資訊對應的類目。
可選的,所述訓練後的統計模型的訓練特徵包括輸入資訊的分詞結果;所述裝置還包括:分詞單元,用於對所述第一資訊進行分詞,得到第一資訊的分詞結果;情感計算單元具體用於,將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述輸入資訊的分詞結果為對所述輸入資訊 中每兩個相鄰字元進行分詞所得到的分詞結果;對所述第一資訊進行分詞時,分詞單元具體用於,對所述第一資訊中每兩個相鄰字元進行分詞。
可選的,所述訓練後的統計模型的訓練特徵還包括上下文的情感特徵;所述裝置還包括:情感提取單元,用於提取所述第一資訊的上下文的情感特徵;將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數時,情感計算單元具體用於,將所述第一資訊的分詞結果和所述第一資訊的上下文的情感特徵,輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述上下文的情感特徵包括以下任一項或者多項:前一句的情感指數、前一句與目前句的主題相似度,上文的整體情感分佈、以及上文中的至少一條相關句的情感分佈,所述至少一條相關句與目前句的主題相似度大於第二閾值。
可選的,所述訓練後的統計模型包括訓練後的第一統計模型和第二統計模型,所述第一統計模型的訓練特徵包括輸入資訊的分詞結果,所述第二統計模型的訓練特徵包括上下文的情感特徵。
可選的,其特徵在於,所述訓練後的統計模型為訓練後的最大熵模型。
可選的,還包括:詞向量獲取單元,用於獲取所述第一資訊的詞向量和所述第二資訊的詞向量;匹配度計算單元,還用於計算所述第一資訊的詞向量與所述第二資訊的詞向量的匹配度,作為第二匹配度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度時,匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,還包括:修正單元,用於獲取所述標籤類目樹中多個標籤節點之間的匹配度,根據所述多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
透過上述技術方案可知,本發明實施例中在匹配第一資訊和第二資訊時,不再將第一資訊和第二資訊分詞後直接匹配,而是從標籤類目樹中獲取第一資訊對應的第一樹枝和第二資訊對應的第二樹枝。其中,第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,並且所述標籤類目樹中每個標籤節點的父標籤節點為該標籤節點的父類目,因此所述第一樹枝不僅包括與第一資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目,同樣地,所述第二樹枝不僅包括與第二資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目,因此,根據所述第一樹枝與所述第二樹枝在每層分別對應 的匹配度計算出的第一資訊和第二資訊的匹配度,不僅能夠反映第一資訊和第二資訊的匹配度,還能夠反映第一資訊和第二資訊的逐層父類目的匹配度,相當於反映出第一資訊和第二資訊的逐層父類目之間的關聯性,從而提高了匹配準確率。
S101、S202、S203‧‧‧方法步驟
S301、S302、S303‧‧‧方法步驟
S501、S502、S503、S504、S505、S506、S507、S508、S509‧‧‧方法步驟
S601、S602、S603、S604‧‧‧方法步驟
S701、S702‧‧‧方法步驟
801‧‧‧資訊獲取單元
802‧‧‧類目樹獲取單元
803‧‧‧樹枝獲取單元
804‧‧‧匹配度計算單元
901‧‧‧資訊獲取單元
902‧‧‧模型獲取單元
903‧‧‧情感計算單元
904‧‧‧匹配度計算單元
1001‧‧‧資訊獲取單元
1002‧‧‧發送單元
1101‧‧‧資訊獲取單元
1102‧‧‧類目樹獲取單元
1103‧‧‧樹枝獲取單元
1104‧‧‧匹配度計算單元
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其它的附圖。
圖1為本發明提供的一種方法實施例的流程示意圖;圖2為本發明提供的標籤類目樹的一種示意圖;圖3為本發明提供的另一種方法實施例的流程示意圖;圖4為本發明提供的場景類目樹的一種示意圖;圖5為本發明提供的另一種方法實施例的流程示意圖;圖6為本發明提供的一種裝置實施例的結構示意圖;圖7為本發明提供的另一種裝置實施例的結構示意圖;圖8為本發明提供的另一種裝置實施例的結構示意圖; 圖9為本發明提供的另一種裝置實施例的結構示意圖;圖10為本發明提供的另一種裝置實施例的結構示意圖;圖11為本發明提供的另一種裝置實施例的結構示意圖。
評價資訊指的是用戶在網站、APP(應用程式)等網路平台輸入的回饋資訊。例如,買家在電子商務網站上購買了商品後,可以對該商品、商家提供的物流、服務等服務流程進行評價。商家透過輸入商家訂閱資訊,能夠提取出商家感興趣的評價資訊並推送給商家。具體過程包括:買家輸入多條評價資訊,商家輸入商家訂閱資訊,將商家訂閱資訊與評價資訊分別進行分詞,判斷兩者是否存在相同的分詞結果,根據相同的分詞結果計算多條資訊之間的匹配度。
顯然,上述資訊匹配方式只能判斷出評價資訊和商家訂閱資訊之間是否存在相同的分詞結果,而無法反映兩者之間是否存在關聯性,例如無法判斷出兩者的父類目之間的關聯性。舉例說明,買家輸入的評價資訊為“服務不好”,而商家訂閱資訊為“客服態度”,雖然“服務不好”和“客服態度”的父類目都是服務,具有一定的關聯性,但是按照上述資訊匹配方式計算出的匹配度為0,顯然匹配準 確率較低,導致商家需要透過額外的演算法獲取具有關聯性的評價資訊,造成系統資源的浪費。
本發明實施例提供一種資訊匹配方法及相關裝置,使得計算出的匹配度能夠反映資訊之間的關聯性,具體是反映多條資訊的逐層父類目之間的關聯性,從而提高匹配準確率。
為了使本技術領域的人員更好地理解本發明中的技術方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
請參閱圖1,本發明實施例提供了資訊匹配方法的一種方法實施例,本實施例的所述方法包括:
S101:獲取待匹配的第一資訊和第二資訊。
其中,所述第一資訊和/或所述第二資訊可以是用戶輸入的詞語、短句等資訊。例如,所述第一資訊可以為買家輸入的用戶評價資訊,所述第二資訊可以為商家輸入的商家訂閱資訊。
S102:獲取標籤類目樹。
本發明實施例中的所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目。
例如圖2所示的標籤類目樹包括三層,第一層包括一個標籤節點:“服務”,即所述標籤類目樹的根節點;第二層包括兩個標籤節點:“售前”和“售後”;第三層包括四個標籤節點:“客服態度”、“回應速度”、“返現”和“保修”。其中,所述標籤類目樹按照逐層遞增的順序,對應的類目逐層細化,也就是說,每個標籤節點的父標籤節點是該標籤節點的父類目。例如,“售前”是“客服態度”的父類目,“服務”是“售前”的父類目。
S103:從所述標籤類目樹中獲取第一樹枝和第二樹枝。所述第一樹枝和/或所述第二樹枝包括至少一個標籤節點。
其中,所述第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,由於所述標籤類目樹中每個標籤節點的父標籤節點為該標籤節點的父類目。因此,若所述第一資訊匹配的不是根節點,則所述第一樹枝不僅包括與第一資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目。
所述第一樹枝的獲取過程可以包括:將所述第一資訊與所述標籤類目樹中的各個節點進行匹配,獲得匹配的標籤節點,將該匹配的標籤節點以及該匹配的標籤節點的逐層父節點作為所述第一樹枝。其中,在與所述標籤類目樹匹配之前,可以將所述第一資訊進行分詞,將分詞結果與所述標籤類目樹進行匹配。
例如,所述第一資訊為:“服務不好”,將第一資訊分 詞後得到分詞結果“服務”和“不好”,將分詞結果“服務”和“不好”與標籤類目樹中的各個節點進行匹配,獲得匹配的標籤節點“服務”,由於該標籤節點“服務”是根節點,沒有父節點,則將“服務”作為第一樹枝。又例如,所述第一資訊為:“客服態度不好”,根據上述類似的方式獲得匹配的標籤節點“客服態度”,將“客服態度”以及“客服態度”的逐層父節點:“售前”和“服務”作為第一樹枝。
同樣的,所述第二樹枝的最低層的標籤節點與所述第二資訊的內容相匹配。若所述第二資訊匹配的不是根節點,則所述第二樹枝不僅包括與第二資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目。所述第二樹枝的獲取過程與所述第一資訊的獲取過程類似,可以包括:將所述第二資訊與所述標籤類目樹中的各個節點進行匹配,獲得匹配的節點,將該匹配的節點以及該匹配的節點的逐層父節點作為所述第二樹枝。其中,在與所述標籤類目樹匹配之前,可以將所述第二資訊進行分詞,將分詞結果與所述標籤類目樹進行匹配。
S104:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度。
具體地,本步驟可以包括:所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度;至少根據所述第一匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。本發明實施例中可以直接將所述第一匹 配度作為第一資訊和第二資訊的匹配度,也可以根據第一匹配度,並結合其他參數計算第一資訊和第二資訊的匹配度。
由於所述第一樹枝包括至少一層標籤節點,所述第二樹枝包括至少一層標籤節點,將所述第一樹枝和所述第二樹枝每層對應的標籤節點進行匹配,獲得每層分別對應的匹配度,並根據每層分別對應的匹配度計算所述第一資訊和所述第二資訊的匹配度。
例如,所述第一樹枝依次包括:“服務”,所述第二樹枝依次包括:“服務”、“售前”,第一層的匹配度為100%,第二層的匹配度為0,根據這兩層的匹配度計算出第一匹配度。例如將這兩層的匹配度之和的1/2作為所述第一資訊和所述第二資訊的匹配度,上述例子中計算出的匹配度為50%。又例如,所述第一樹枝依次包括:“服務”、“售前”、“客服態度”,所述第二樹枝依次包括:“服務”、“售前”、“回應速度”,將這三層的匹配度之和的1/3作為所述第一資訊和所述第二資訊的匹配度,計算出的匹配度為67%。
其中在根據每層分別對應的匹配度計算第一匹配度時,還可以考慮每層的權重值,例如,所述第一匹配度Tagsim為:
其中,w i 為第i層的權重值,P i 為所述第一樹枝與所述第二樹枝在第i層對應的匹配度,P i =100%時函數I等於1,P i ≠100%時,函數I等於0。其中,各層的權重值可以全部等於1,或者也可以逐層遞增,權重值可以透過機器學習的方式進行設定和/或調整。需要說明的是,上述公式僅是第一匹配度的一種可選的計算方式,本領域技術人員可以對上述公式進行擴展和變形,例如P i =100%時函數I可以等於其他數值,或者函數I也可以在滿足其他條件時,例如大於一定的數值時等於1,本發明實施例對此不加以限定。
透過上述技術方案可知,本發明實施例中在匹配第一資訊和第二資訊時,不再將第一資訊和第二資訊分詞後直接匹配,而是從標籤類目樹中獲取第一資訊對應的第一樹枝和第二資訊對應的第二樹枝。其中,所述第一樹枝不僅包括與第一資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目,同樣地,所述第二樹枝不僅包括與第二資訊的內容相匹配的標籤節點,還包括該相匹配的標籤節點的逐層父類目,因此,根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算出的第一資訊和第二資訊的匹配度,不僅能夠反映第一資訊和第二資訊的匹配度,還能夠反映第一資訊和第二資訊的逐層父類目的匹配度,相當於反映出第一資訊和第二資訊的逐層父類目之間的關聯性,從而提高了匹配準確率。
可見,本發明實施例實際上相當於對第一資訊和第二 資訊加上了至少一層的類目標籤,根據對應層的類目標籤的匹配度計算第一資訊和第二資訊的匹配度。因此,應用本發明實施例能夠計算出所屬類目具有一定關聯性的資訊之間的匹配度,例如,同義詞之間的匹配度,屬於同一類目的多條資訊之間的匹配度等等。
舉例說明,買家輸入的評價資訊為“服務不好”,而商家訂閱資訊為“客服態度”,雖然“服務不好”和“客服態度”都是在描述服務,具有一定的關聯性,然而將兩者直接匹配時,匹配度為0,匹配準確率較低。而透過本發明實施例計算兩者匹配度時,所述第一樹枝依次包括:“服務”,所述第二樹枝依次包括:“服務”、“售前”,第一層的匹配度為100%,第二層的匹配度為0,最終計算出的匹配度可以為50%。可見,本發明實施例中計算的匹配度能夠反映這兩者之間的關聯性,因此提高了匹配準確率。
需要說明的是,本發明實施例中,除了用戶評價資訊和商家訂閱資訊之外,所述第一資訊和所述第二資訊也可以為其他應用場景下的資訊。例如,所述第一資訊為用戶在微信群、釘釘群中輸入的聊天資訊,所述第二資訊為特定訂閱資訊,例如群管理員輸入的訂閱詞或者訂閱短語等等,本發明實施例中對此並不加以限定。下面透過一個具體例子加以說明。
對於一個電影興趣小組的微信群,標籤類目樹包括兩層,第一層包括一個標籤節點:“電影”,第二層包括兩個標籤節點:“喜劇”和“動作劇”。其中,所述標籤類目樹按 照逐層遞增的順序,對應的類目逐層細化,也就是說,每個標籤節點的父標籤節點是該標籤節點的父類目。例如,“電影”是“喜劇”和“動作劇”的父類目。若群管理員輸入的訂閱詞為:“電影”,用戶輸入的聊天資訊為:“我喜歡看喜劇”,將兩者直接匹配時,匹配度為0,匹配準確率較低。而透過本發明實施例計算兩者匹配度時,所述第一樹枝依次包括:“電影”、“喜劇”,所述第二樹枝包括:“電影”,最終計算出的匹配度可以為50%,提高了匹配準確率。
需要說明的是,若所述第一資訊和/或所述第二資訊從所述標籤類目樹中匹配到多條樹枝,則可以從所述第一資訊匹配的樹枝中選取一個樹枝,從所述第二資訊匹配的樹枝中選取一個樹枝,計算兩兩樹枝之間的匹配度,將計算出的最高的匹配度作為所述第一資訊和所述第二資訊的匹配度。
背景技術中描述的資訊匹配方式,由於只判斷是否存在相同的分詞結果,因此無法計算出同義詞之間的匹配度,進一步導致匹配準確率較低。為了解決這一問題,還提出了一種基於word embedding(中文:詞向量)技術的資訊匹配方式,透過word2vec(一種處理文本的雙層神經網路)等方法計算出資訊的詞向量,根據詞向量之間的相似性計算匹配度。因此本發明實施例在計算第一資訊和第二資訊的匹配度時,還可以結合第一資訊和第二資訊的詞向量之間的相似性。下面具體說明。
所述方法還可以包括:獲取所述第一資訊的詞向量和所述第二資訊的詞向量;計算所述第一資訊的詞向量與所述第二資訊的詞向量的匹配度,作為第二匹配度;S104中至少根據所述第一匹配度,即所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,和所述第二匹配度,計算所述第一資訊和所述第二資訊的匹配度。
具體實現時,可以將所述第一資訊分詞後,提取每個詞的詞向量,將各個詞的詞向量相加得到第一資訊的詞向量,按照類似的方式可以獲得第二資訊的詞向量,透過計算余弦相似度等方式計算第一資訊的詞向量與第二資訊的詞向量的匹配度。其中,詞向量可以為利用word2vec等技術所提取的詞向量。
在根據第一匹配度和第二匹配度計算第一資訊和第二資訊的匹配度時,可以將第一匹配度和第二匹配度之和作為最終的匹配度,同時也可以設定相應的權重值。例如,第一資訊和第二資訊的匹配度sim可以為:sim1 Vecsim1 Tagsim,其中,Tagsim為第一匹配度,Vecsim為第二匹配度,λ1和λ2為對應的權重值,該權重值可以透過機器學習的方式進行設定和/或調整。
其中,word embedding技術的原理就是利用機器學習技術對大量的資訊進行學習,從而將詞語透過對應的詞向量表示,而詞向量實際上表示的是詞語所處的語境,但是在一些情況下根據詞向量計算出的匹配度會存在準確率較低的問題。例如一種情況,有些詞語的語境雖然相同,但 是語義卻有較大差別,因此詞向量在很多情況下並不能準確地表示詞語的語義。例如,“好”和“壞”的語義相反,但是詞向量之間的余弦相似度卻很高。例如另一種情況,相同詞語在不同環境下所表達的含義不同。例如,“很薄”在描述手機時就是正面詞,而在描述羽絨服時就是負面詞,而透過詞向量這種方式計算出的匹配度都是相同的。此外,由於很難證明詞向量中的數值分別對應的含義,因此無法對詞向量本身進行調整以解決上述問題。
為了解決上述問題,本發明實施例還可以根據統計模型計算資訊的情感指數,該情感指數可以指示出該資訊是正面詞、負面詞還是中性詞,並且在計算最終的匹配度時考慮情感指數。
具體地,如圖3所示,本發明實施例的所述方法還可以包括:
S301:獲取訓練後的統計模型。
其中,所述統計模型可以根據對大量的訓練資料訓練得到,每個訓練資料都標記了對應的情感指數。例如,訓練資料為20萬條語句,每條語句都標記了對應的情感指數。
可選的,統計模型可以為最大熵模型等任一種數學模型。經過發明人大量的實驗發現,採用最大熵模型時,能夠使得計算出的情感指數更貼合語義,從而能夠提高資訊匹配的準確率。
S302:根據所述統計模型計算所述第一資訊的情感指 數。
將第一資訊輸入到訓練後的統計模型,能夠獲得第一資訊的情感指數。其中,根據情感指數所位於的區間,能夠指示出第一資訊對應的情感分別為正面、負面還是中性。
S303:計算所述第一資訊的情感指數與目標情感指數的近似度。
在本發明實施例中,目標情感指數可以是預設的情感指數,也可以根據第二資訊計算得出。例如,根據所述統計模型計算所述第二資訊的情感指數,所述第二資訊的情感指數作為所述目標情感指數。目標情感指數能夠指示出目標情感為正面、負面還是中性。
其中,所述近似度可以表現為差值或者占比等任一種形式,或者也可以根據所述第一資訊的情感指數和所述目標情感指數指示的情感是否相同計算,例如,若所述第一資訊的情感指數和所述目標情感指數指示的情感均為負面,則表示兩者的近似度較高。
S104中至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度。
本實施例中,在計算第一資訊和第二資訊的匹配度時,還考慮了第一資訊的情感指數和目標情感指數的近似度,並且該近似度越大時,也就是說第一資訊的情感與目標情感越接近時,計算出的匹配度越高,反之則越低,從 而能夠解決語境相同但是語義差別很大時造成的匹配準確率低的問題。例如對於“大”和“小”,由於情感相差很大,因此計算出的匹配度也就越低,與語義相符,從而提高了匹配準確率。
因此在本實施例中,假設商家關心的是用戶評價資訊中的負面評價資訊,因此,可以預設目標情感指數為負面對應的情感指數,若用戶評價資訊與目標情感指數比較接近時,則最終計算出的匹配度較高,從而根據這種方式提取出商家關心的負面評價資訊。
在具體計算匹配度時,可以採用以下方式:
若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述第一資訊和所述第二資訊的匹配度。例如所述第一資訊的情感指數和所述目標情感指數指示的情感均為負面,sim=Tagsim,其中sim為第一資訊和第二資訊的匹配度,Tagsim為第一匹配度。
若所述近似度小於所述第一閾值,所述第一資訊和所述第二資訊的匹配度為0。例如所述第一資訊的情感指數和所述目標情感指數指示的情感不同,sim=0。此時所述第一資訊和所述第二資訊的匹配度還可以為其他較低的數值,本發明實施例對此不做限定。
本發明實施例中,針對相同詞語在不同環境下所表達的含義不同,還可以設置多個類目分別對應的統計模型,每個統計模型能夠計算出在該類目下,第一資訊的情感指 數。不同的統計模型根據不同的場景類目對應的訓練資料訓練得到,例如對於同一語句,在不同場景類目下標記的情感指數不同,從而使得不同的統計模型計算出的情感指數與場景類目對應。
具體地,獲取訓練後的統計模型可以包括:獲取所述第一資訊對應的類目,獲取所述類目對應的訓練後的統計模型。其中,所述第一資訊對應的類目,可以指的是所述第一資訊的評價物件所屬的類目,舉例說明,買家在電子商務網站上購買了服裝類的商品,並輸入了用戶評價資訊用於評價該服裝類的商品,即該用戶評價資訊所對應的類目為服裝類。
其中,可以透過場景類目樹的方式獲取所述第一資訊對應的類目。具體地,獲取所述第一資訊對應的類目包括:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述第一資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述第一資訊對應的類目。其中,上一級或多級父場景節點可以指的是根場景節點,即直接獲取根場景節點作為對應的類目。
舉例說明,買家在電子商務網站上購買了裙子,並輸入了用戶評價資訊用於評價該裙子,因此從場景類目樹中獲取到匹配的場景節點:裙子,確定出該場景節點對應的 根場景節點:服裝類,獲取服裝類對應的訓練後的統計模型,利用該統計模型計算第一資訊的情感指數。因此,本實施例在計算“很薄”的情感指數時,根據“很薄”對應的場景類目具體是手機還是服裝類,選取對應的統計模型,從而根據場景類目計算出“很薄”的情感指數,提高了資訊匹配的準確率。
可選的,本實施例中的統計模型的訓練特徵包括輸入資訊的分詞結果;
所述方法還包括:對所述第一資訊進行分詞,得到第一資訊的分詞結果;根據所述統計模型計算所述第一資訊的情感指數,包括:將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數。
經過發明人大量的實驗表明,在進行分詞時,可以基於bigram模式進行分詞,也就是對所述第一資訊中每兩個相鄰字元進行分詞,得到第一資訊的分詞結果。例如:“服務不好”的分詞結果為“服務”、“務不”和“不好”。基於該方式進行分詞能夠獲得較高的資訊匹配的準確率。
除了分詞結果之外,統計模型的訓練特徵還可以包括上下文的情感特徵,從而能夠綜合詞語本身和上下文資訊對情感指數進行計算。具體地,所述方法還包括:提取所述第一資訊的上下文的情感特徵;將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數,包括:將所述第一資訊的分詞結果和所述第一資訊的上下文的情感特徵,輸入到所述統計模型,得到所述第一 資訊的情感指數。
其中,所述上下文的情感特徵包括以下任一項或者多項:
前一句的情感指數、前一句與目前句的主題相似度,上文的整體情感分佈、以及上文中的至少一條相關句的情感分佈,所述至少一條相關句與目前句的主題相似度大於第二閾值。下面分別說明。前一句的情感指數可以指示前一句的情感是正面、負面還是中性;前一句與目前句的主題相似度能夠表示前一句和目前句描述的是否是相同或相似主題;上文的整體情感分佈可以指的是上文中,情感分別為正面、負面和中性的語句的數量;相關句用於表示與目前句描述相同或相似主題的句子,而上文中的至少一條相關句的情感分佈可以指的是上文描述相同或相似主題的句子中,分別為正面、負面和中性的語句的數量。
本發明實施例具體可以採用兩個統計模型計算第一資訊的情感指數。也就是說,所述訓練後的統計模型包括訓練後的第一統計模型和第二統計模型,所述第一統計模型的訓練特徵包括輸入資訊的分詞結果,所述第二統計模型的訓練特徵包括上下文的情感特徵。
下面以電子商務網站對應的場景為例,描述本發明提供的一種具體實施例。
請參閱圖5,本發明實施例提供了資訊匹配方法的另一種方法實施例,本實施例的所述方法包括:
S501:獲取買家輸入的用戶評價資訊和商家輸入的商 家訂閱資訊。其中,買家輸入的用戶評價資訊用於評價買家購買的裙子,即評價物件為裙子。
例如,該用戶評價為“回應速度慢”,商家訂閱資訊為“客服態度”
S502:獲取如圖2所示的標籤類目樹。其中,可以透過手動添加等方式對本發明實施例中的標籤類目樹進行修改。
S503:從所述標籤類目樹中獲取第一樹枝和第二樹枝。所述第一樹枝的最低層的標籤節點與所述用戶評價資訊匹配,具體包括:服務、售前、回應速度;所述第二樹枝的最低層的標籤節點與所述商家訂閱資訊匹配,具體包括:服務、售前、客服態度。
S504:至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度。
例如,所述第一匹配度的計算公式為:,其中,w i 為第i層的權重值,P i 為所述第一樹枝與所述第二樹枝在第i層對應的匹配度,P i =100%時函數I等於1,P i ≠100%時,函數I等於0。
S504:分別獲取用戶評價資訊的詞向量和商家訂閱資訊的詞向量,計算詞向量的匹配度,作為第二匹配度。
S505:獲取如圖4所示的場景類目樹。其中,可以透過手動添加等方式對本發明實施例中的場景類目樹進行修改。
S506:從場景類目樹中獲取與所述評價對象匹配的場 景節點:裙子,確定出該場景節點對應的根場景節點:服裝類。
S507:獲取服裝類對應的訓練後的最大熵模型A和最大熵模型B。該最大熵模型A的訓練特徵包括基於bigram模式的分詞結果,該最大熵模型B的訓練特徵包括上下文的情感特徵。
S508:對用戶評價資訊基於bigram模式進行分詞,將分詞結果輸入到最大熵模型A,得到用戶評價資訊的情感指數。
S509:提取用戶評價資訊的上下文的情感特徵,將該上下文的情感特徵和S508中得到的情感指數輸入到最大熵模型B,得到修正後的情感指數。
其中,如表1所示,所述上下文的情感特徵包括以下多項:
前一句的情感指數(分別為正面、負面還是中性,以及相應的強度)、前一句和目前句描述的是否是相同主題、上文中情感分別為正面、負面和中性的語句的數量、以及上文描述相同主題的句子中,分別為正面、負面和中性的語句的數量。
S510:根據修正後的情感指數、第一匹配度和第二匹配度計算用戶評價資訊和商家訂閱資訊的匹配度。
其中,目標情感為負面,若S509中得到的修正後的情感指數指示的情感不為負面,則匹配度為0。
若S509中得到的修正後的情感指數指示的情感為負面,則匹配度為:sim1 Vecsim1 Tagsim
Tagsim為S503中計算出的第一匹配度,Vecsim為S504中計算出的第二匹配度,λ1和λ2為對應的權重值。
請參閱圖6,本發明實施例還提供了資訊匹配方法的另一種實施例。本實施例的所述方法包括:
S601:獲取待匹配的第一資訊和第二資訊。
其中,所述第一資訊和/或所述第二資訊可以是用戶 輸入的詞語、短句等資訊。例如,所述第一資訊可以為買家輸入的用戶評價資訊,所述第二資訊可以為商家輸入的商家訂閱資訊。
S602:獲取訓練後的統計模型。
S603:根據所述統計模型計算所述第一資訊的情感指數。
S604:至少根據所述第一資訊的情感指數與目標情感指數的近似度,計算所述第一資訊和第二資訊的匹配度。
可選的,所述方法還包括:獲取所述第一資訊與所述第二資訊的初始匹配度;步驟S604包括:至少根據所述近似度和所述初始匹配度,計算所述第一資訊和所述第二資訊的匹配度。
其中,所述初始匹配度可以是上述實施例中的所述第一匹配度,即所述第一樹枝與所述第二樹枝在每層分別對應的匹配度。
可選的,至少根據所述近似度和所述初始匹配度,計算所述第一資訊和所述第二資訊的匹配度,包括:若所述近似度大於或等於第一閾值,至少根據所述初始匹配度計算所述第一資訊和所述第二資訊的匹配度;若所述近似度小於所述第一閾值,所述第一資訊和所述第二資訊的匹配度為0。
可選的,獲取訓練後的統計模型,包括:獲取所述第一資訊對應的類目;獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述第一資訊對應的類目,包括:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述第一資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述第一資訊對應的類目。
可選的,所述方法還包括:根據所述統計模型計算所述第二資訊的情感指數,將所述第二資訊的情感指數作為所述目標情感指數。
本實施例的相關內容請參閱圖1、3、5所示實施例中的相關描述,這裡不再贅述。
請參閱圖7,本發明還提供了資訊輸入方法的一種實施例。本實施例的所述方法包括:
S701:用戶端獲取第一資訊或者第二資訊。
S702:所述用戶端將所述第一資訊或者第二資訊發送至計算單元,所述計算單元用於計算第一資訊和第二資訊的匹配度。
其中,計算單元可以採用上述資訊匹配方法的任一種實施例,計算第一資訊和第二資訊的匹配度。本實施例的相關內容請參閱圖1、3、5所示實施例中的相關描述,這裡不再贅述。
對應上述方法實施例,本發明還提供了相應的裝置實 施例,下面具體說明。
請參閱圖8,本發明實施例提供了資訊匹配裝置的一種裝置實施例。本實施例的所述裝置包括:
資訊獲取單元801,用於獲取待匹配的商家訂閱資訊和用戶評價資訊。
類目樹獲取單元802,用於標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目。
樹枝獲取單元803,用於從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述用戶評價資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述商家訂閱資訊的內容相匹配。
匹配度計算單元804,用於至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度,至少根據所述第一匹配度,計算所述商家訂閱資訊和所述用戶評價資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
可選的,還包括:模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據所述統計模型計算所述用戶評價資訊的情感指數;近似度計算單元,用於計算所述用戶評價資訊的情感指數與目標情感指數的近似度;所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,所述情感計算單元,還用於根據所述統計模型計算所述商家訂閱資訊的情感指數,所述商家訂閱資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,所述模型獲取單元具體用於,獲取所述用戶評價資訊對應的類目,獲取所述類目對應的訓練後的統計 模型。
可選的,獲取所述用戶評價資訊對應的類目時,所述模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,還包括:詞向量獲取單元,用於獲取所述用戶評價資訊的詞向量和所述商家訂閱資訊的詞向量;匹配度計算單元,還用於計算所述用戶評價資訊的詞向量與所述商家訂閱資訊的詞向量的匹配度,作為第二匹配度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,還包括:修正單元,用於獲取所述標籤類目樹中多個標籤節點之間的匹配度,根據所述多個標籤節點之間的匹配度進行 機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
請參閱圖9,本發明實施例提供了資訊匹配裝置的另一種裝置實施例。本實施例的所述裝置包括:資訊獲取單元901,用於獲取待匹配的商家訂閱資訊和用戶評價資訊;模型獲取單元902,用於獲取訓練後的統計模型;情感計算單元903,用於根據所述統計模型計算所述用戶評價資訊的情感指數;匹配度計算單元904,用於至少根據所述用戶評價資訊的情感指數與目標情感指數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,還包括:匹配度獲取單元,用於獲取所述用戶評價資訊與所述商家評價資訊的初始匹配度;至少根據所述用戶評價資訊的情感指數與目標情感指數的近似度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於,至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度。
可選的,至少根據所述近似度和所述初始匹配度,計算所述用戶評價資訊和所述商家訂閱資訊的匹配度時,所述匹配度計算單元具體用於:若所述近似度大於或等於第一閾值,至少根據所述初 始匹配度計算所述用戶評價資訊和所述商家訂閱資訊的匹配度;若所述近似度小於所述第一閾值,所述用戶評價資訊和所述商家訂閱資訊的匹配度為0。
可選的,模型獲取單元具體用於,獲取所述用戶評價資訊對應的類目,獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述用戶評價資訊對應的類目時,所述模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述用戶評價資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述用戶評價資訊對應的類目。
可選的,情感計算單元還用於,根據所述統計模型計算所述商家訂閱資訊的情感指數,將所述商家訂閱資訊的情感指數作為所述目標情感指數。
請參閱圖10,本發明實施例提供了用戶端的一種裝置實施例。本實施例的所述裝置包括:資訊獲取單元1001,用於獲取用戶輸入的用戶評價資訊或者商家訂閱資訊;發送單元1002,用於將所述用戶評價資訊或者商家訂 閱資訊發送至計算單元,所述計算單元用於計算用戶評價資訊和商家訂閱資訊的匹配度。
請參閱圖11,本發明實施例提供了資訊匹配裝置的另一種裝置實施例。本實施例的所述裝置包括:資訊獲取單元1101,用於獲取待匹配的第一資訊和第二資訊;類目樹獲取單元1102,用於標籤類目樹,所述標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;樹枝獲取單元1103,用於從所述標籤類目樹中獲取第一樹枝和第二樹枝,所述第一樹枝的最低層的標籤節點與所述第一資訊的內容相匹配,所述第二樹枝的最低層的標籤節點與所述第二資訊的內容相匹配;匹配度計算單元1104,用於至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度;至少根據所述第一匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算第一匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一 匹配度。
可選的,還包括:模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據所述統計模型計算所述第一資訊的情感指數;近似度計算單元,用於計算所述第一資訊的情感指數與目標情感指數的近似度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度時,所述匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,情感計算單元還用於,根據所述統計模型計算所述第二資訊的情感指數,所述第二資訊的情感指數作為所述目標情感指數。
可選的,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度以及所述近似度,計算所述第一資訊和所述第二資訊的匹配度時,所述匹配度計算單元具體用於:若所述近似度大於或等於第一閾值,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度計算所述第一資訊和所述第二資訊的匹配度;若所述近似度小於所述第一閾值,所述第一資訊和所述第二資訊的匹配度為0。
可選的,模型獲取單元具體用於,獲取所述第一資訊對應的類目,獲取所述類目對應的訓練後的統計模型。
可選的,獲取所述第一資訊對應的類目時,模型獲取單元具體用於:獲取場景類目樹,所述場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;從所述場景類目樹中獲取與所述第一資訊匹配的場景節點,確定出所述匹配的場景節點對應的上一級或多級父場景節點,將所述上一級或多級父場景節點作為所述第一資訊對應的類目。
可選的,所述訓練後的統計模型的訓練特徵包括輸入資訊的分詞結果;所述裝置還包括:分詞單元,用於對所述第一資訊進行分詞,得到第一資訊的分詞結果;情感計算單元具體用於,將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述輸入資訊的分詞結果為對所述輸入資訊中每兩個相鄰字元進行分詞所得到的分詞結果;對所述第一資訊進行分詞時,分詞單元具體用於,對所述第一資訊中每兩個相鄰字元進行分詞。
可選的,所述訓練後的統計模型的訓練特徵還包括上下文的情感特徵;所述裝置還包括:情感提取單元,用於提取所述第一 資訊的上下文的情感特徵;將所述第一資訊的分詞結果輸入到所述統計模型,得到所述第一資訊的情感指數時,情感計算單元具體用於,將所述第一資訊的分詞結果和所述第一資訊的上下文的情感特徵,輸入到所述統計模型,得到所述第一資訊的情感指數。
可選的,所述上下文的情感特徵包括以下任一項或者多項:
前一句的情感指數、前一句與目前句的主題相似度,上文的整體情感分佈、以及上文中的至少一條相關句的情感分佈,所述至少一條相關句與目前句的主題相似度大於第二閾值。
可選的,所述訓練後的統計模型包括訓練後的第一統計模型和第二統計模型,所述第一統計模型的訓練特徵包括輸入資訊的分詞結果,所述第二統計模型的訓練特徵包括上下文的情感特徵。
可選的,其特徵在於,所述訓練後的統計模型為訓練後的最大熵模型。
可選的,還包括:詞向量獲取單元,用於獲取所述第一資訊的詞向量和所述第二資訊的詞向量;匹配度計算單元,還用於計算所述第一資訊的詞向量與所述第二資訊的詞向量的匹配度,作為第二匹配度;至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度,計算所述第一資訊和所述第二資訊的匹配度 時,匹配度計算單元具體用於,至少根據所述第一樹枝與所述第二樹枝在每層分別對應的匹配度和所述第二匹配度,計算所述第一資訊和所述第二資訊的匹配度。
可選的,還包括:修正單元,用於獲取所述標籤類目樹中多個標籤節點之間的匹配度,根據所述多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正所述標籤類目樹。
所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以透過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以整合到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是透過一些介面,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者 全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以整合在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元整合在一個單元中。上述整合的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
所述整合的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存媒體中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的儲存媒體包括:U盤、移動硬碟、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或者光碟等各種可以儲存程式碼的媒體。
以上所述,以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的 精神和範圍。

Claims (37)

  1. 一種資訊匹配方法,其特徵在於,該方法包括:獲取待匹配的商家訂閱資訊和用戶評價資訊;獲取標籤類目樹,該標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;從該標籤類目樹中獲取第一樹枝和第二樹枝,該第一樹枝的最低層的標籤節點與該用戶評價資訊的內容相匹配,該第二樹枝的最低層的標籤節點與該商家訂閱資訊的內容相匹配;以及至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該商家訂閱資訊和該用戶評價資訊的匹配度。
  2. 根據申請專利範圍第1項所述的方法,其中,至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該商家訂閱資訊和該用戶評價資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算第一匹配度;以及至少根據該第一匹配度,計算該商家訂閱資訊和該用戶評價資訊的匹配度。
  3. 根據申請專利範圍第2項所述的方法,其中,至少根 據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算第一匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
  4. 根據申請專利範圍第1項所述的方法,其中,該方法還包括:獲取訓練後的統計模型;根據該統計模型計算該用戶評價資訊的情感指數;計算該用戶評價資訊的情感指數與目標情感指數的近似度;至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該用戶評價資訊和該商家訂閱資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度以及該近似度,計算該用戶評價資訊和該商家訂閱資訊的匹配度。
  5. 根據申請專利範圍第4項所述的方法,其中,該方法還包括:根據該統計模型計算該商家訂閱資訊的情感指數,該商家訂閱資訊的情感指數作為該目標情感指數。
  6. 根據申請專利範圍第4項所述的方法,其中,至少根 據該第一樹枝與該第二樹枝在每層分別對應的匹配度以及該近似度,計算該用戶評價資訊和該商家訂閱資訊的匹配度,包括:若該近似度大於或等於第一閾值,至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度計算該用戶評價資訊和該商家訂閱資訊的匹配度;以及若該近似度小於該第一閾值,該用戶評價資訊和該商家訂閱資訊的匹配度為0。
  7. 根據申請專利範圍第4項所述的方法,其中,獲取訓練後的統計模型,包括:獲取該用戶評價資訊對應的類目;以及獲取該類目對應的訓練後的統計模型。
  8. 根據申請專利範圍第7項所述方法,其中,獲取該用戶評價資訊對應的類目,包括:獲取場景類目樹,該場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;以及從該場景類目樹中獲取與該用戶評價資訊匹配的場景節點,確定出該匹配的場景節點對應的上一級或多級父場景節點,將該上一級或多級父場景節點作為該用戶評價資訊對應的類目。
  9. 根據申請專利範圍第1項所述的方法,其中,該方法還包括:獲取該用戶評價資訊的詞向量和該商家訂閱資訊的詞向量;計算該用戶評價資訊的詞向量與該商家訂閱資訊的詞向量的匹配度,作為第二匹配度;至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該用戶評價資訊和該商家訂閱資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度和該第二匹配度,計算該用戶評價資訊和該商家訂閱資訊的匹配度。
  10. 根據申請專利範圍第1項所述的方法,其中,該方法還包括:獲取該標籤類目樹中多個標籤節點之間的匹配度;以及根據該多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正該標籤類目樹。
  11. 一種資訊匹配方法,其特徵在於,該方法包括:獲取待匹配的商家訂閱資訊和用戶評價資訊;獲取訓練後的統計模型;根據該統計模型計算該用戶評價資訊的情感指數;以 及至少根據該用戶評價資訊的情感指數與目標情感指數的近似度,計算該用戶評價資訊和該商家訂閱資訊的匹配度。
  12. 根據申請專利範圍第11項所述的方法,其中,該方法還包括:獲取該用戶評價資訊與該商家評價資訊的初始匹配度;至少根據該用戶評價資訊的情感指數與目標情感指數的近似度,計算該用戶評價資訊和該商家訂閱資訊的匹配度,包括:至少根據該近似度和該初始匹配度,計算該用戶評價資訊和該商家訂閱資訊的匹配度。
  13. 根據申請專利範圍第12項所述的方法,其中,至少根據該近似度和該初始匹配度,計算該用戶評價資訊和該商家訂閱資訊的匹配度,包括:若該近似度大於或等於第一閾值,至少根據該初始匹配度計算該用戶評價資訊和該商家訂閱資訊的匹配度;以及若該近似度小於該第一閾值,該用戶評價資訊和該商家訂閱資訊的匹配度為0。
  14. 根據申請專利範圍第11項所述的方法,其中,獲取訓練後的統計模型,包括:獲取該用戶評價資訊對應的類目;以及獲取該類目對應的訓練後的統計模型。
  15. 根據申請專利範圍第14項所述的方法,其中,獲取該用戶評價資訊對應的類目,包括:獲取場景類目樹,該場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;以及從該場景類目樹中獲取與該用戶評價資訊匹配的場景節點,確定出該匹配的場景節點對應的上一級或多級父場景節點,將該上一級或多級父場景節點作為該用戶評價資訊對應的類目。
  16. 根據申請專利範圍第11項所述的方法,其中,該方法還包括:根據該統計模型計算該商家訂閱資訊的情感指數,將該商家訂閱資訊的情感指數作為該目標情感指數。
  17. 一種資訊輸入方法,其特徵在於,該方法包括:用戶端獲取用戶輸入的用戶評價資訊或者商家訂閱資訊;以及該用戶端將該用戶評價資訊或者商家訂閱資訊發送至 計算單元,該計算單元用於計算用戶評價資訊和商家訂閱資訊的匹配度。
  18. 一種資訊匹配方法,其特徵在於,該方法包括:獲取待匹配的第一資訊和第二資訊;獲取標籤類目樹,該標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;從該標籤類目樹中獲取第一樹枝和第二樹枝,該第一樹枝的最低層的標籤節點與該第一資訊的內容相匹配,該第二樹枝的最低層的標籤節點與該第二資訊的內容相匹配;以及至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該第一資訊和該第二資訊的匹配度。
  19. 根據申請專利範圍第18項所述的方法,其中,至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該第一資訊和該第二資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算第一匹配度;以及至少根據該第一匹配度,計算該第一資訊和該第二資訊的匹配度。
  20. 根據申請專利範圍第19項所述的方法,其中,至少根 據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算第一匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,以及每層的權重值,計算第一匹配度。
  21. 根據申請專利範圍第18項所述的方法,其中,該方法還包括:獲取訓練後的統計模型;根據該統計模型計算該第一資訊的情感指數;計算該第一資訊的情感指數與目標情感指數的近似度;至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該第一資訊和該第二資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度以及該近似度,計算該第一資訊和該第二資訊的匹配度。
  22. 根據申請專利範圍第21項所述的方法,其中,該方法還包括:根據該統計模型計算該第二資訊的情感指數,該第二資訊的情感指數作為該目標情感指數。
  23. 根據申請專利範圍第21項所述的方法,其中,至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度以及 該近似度,計算該第一資訊和該第二資訊的匹配度,包括:若該近似度大於或等於第一閾值,至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度計算該第一資訊和該第二資訊的匹配度;以及若該近似度小於該第一閾值,該第一資訊和該第二資訊的匹配度為0。
  24. 根據申請專利範圍第21項所述的方法,其中,獲取訓練後的統計模型,包括:獲取該第一資訊對應的類目;以及獲取該類目對應的訓練後的統計模型。
  25. 根據申請專利範圍第24項所述方法,其中,獲取該第一資訊對應的類目,包括:獲取場景類目樹,該場景類目樹包括至少兩層,每層包括至少一個場景節點,每個場景節點的父場景節點為該場景節點的父類目;以及從該場景類目樹中獲取與該第一資訊匹配的場景節點,確定出該匹配的場景節點對應的上一級或多級父場景節點,將該上一級或多級父場景節點作為該第一資訊對應的類目。
  26. 根據申請專利範圍第21所述的方法,其中,該訓練後 的統計模型的訓練特徵包括輸入資訊的分詞結果;該方法還包括:對該第一資訊進行分詞,得到第一資訊的分詞結果;根據該統計模型計算該第一資訊的情感指數,包括:將該第一資訊的分詞結果輸入到該統計模型,得到該第一資訊的情感指數。
  27. 根據申請專利範圍第26項所述的方法,其中,該輸入資訊的分詞結果為對該輸入資訊中每兩個相鄰字元進行分詞所得到的分詞結果;以及該對該第一資訊進行分詞,包括:對該第一資訊中每兩個相鄰字元進行分詞。
  28. 根據申請專利範圍第26項所述的方法,其中,該訓練後的統計模型的訓練特徵還包括上下文的情感特徵;該方法還包括:提取該第一資訊的上下文的情感特徵;以及將該第一資訊的分詞結果輸入到該統計模型,得到該第一資訊的情感指數,包括:將該第一資訊的分詞結果和該第一資訊的上下文的情感特徵,輸入到該統計模型,得到該第一資訊的情感指數。
  29. 根據申請專利範圍第28項所述的方法,其中,該上下文的情感特徵包括以下任一項或者多項: 前一句的情感指數、前一句與目前句的主題相似度,上文的整體情感分佈、以及上文中的至少一條相關句的情感分佈,該至少一條相關句與目前句的主題相似度大於第二閾值。
  30. 根據申請專利範圍第28項所述的方法,其中,該訓練後的統計模型包括訓練後的第一統計模型和第二統計模型,該第一統計模型的訓練特徵包括輸入資訊的分詞結果,該第二統計模型的訓練特徵包括上下文的情感特徵。
  31. 根據申請專利範圍第21至30項中任一項所述的方法,其中,該訓練後的統計模型為訓練後的最大熵模型。
  32. 根據申請專利範圍第18項所述的方法,其中,該方法還包括:獲取該第一資訊的詞向量和該第二資訊的詞向量;計算該第一資訊的詞向量與該第二資訊的詞向量的匹配度,作為第二匹配度;至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該第一資訊和該第二資訊的匹配度,包括:至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度和該第二匹配度,計算該第一資訊和該第二資訊的匹配度。
  33. 根據申請專利範圍第18項所述的方法,其中,該方法還包括:獲取該標籤類目樹中多個標籤節點之間的匹配度;以及根據該多個標籤節點之間的匹配度進行機器學習,根據機器學習的結果產生或者修正該標籤類目樹。
  34. 一種資訊匹配裝置,其特徵在於,該裝置包括:資訊獲取單元,用於獲取待匹配的商家訂閱資訊和用戶評價資訊;類目樹獲取單元,用於標籤類目樹,該標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;樹枝獲取單元,用於從該標籤類目樹中獲取第一樹枝和第二樹枝,該第一樹枝的最低層的標籤節點與該用戶評價資訊的內容相匹配,該第二樹枝的最低層的標籤節點與該商家訂閱資訊的內容相匹配;以及匹配度計算單元,用於至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該商家訂閱資訊和該用戶評價資訊的匹配度。
  35. 一種資訊匹配裝置,其特徵在於,該裝置包括:資訊獲取單元,用於獲取待匹配的商家訂閱資訊和用戶評價資訊; 模型獲取單元,用於獲取訓練後的統計模型;情感計算單元,用於根據該統計模型計算該用戶評價資訊的情感指數;以及匹配度計算單元,用於至少根據該用戶評價資訊的情感指數與目標情感指數的近似度,計算該用戶評價資訊和該商家訂閱資訊的匹配度。
  36. 一種用戶端,其特徵在於,該用戶端包括:資訊獲取單元,用於獲取用戶輸入的用戶評價資訊或者商家訂閱資訊;以及發送單元,用於將該用戶評價資訊或者商家訂閱資訊發送至計算單元,該計算單元用於計算用戶評價資訊和商家訂閱資訊的匹配度。
  37. 一種資訊匹配裝置,其特徵在於,該裝置包括:資訊獲取單元,用於獲取待匹配的第一資訊和第二資訊;類目樹獲取單元,用於標籤類目樹,該標籤類目樹包括至少兩層,每層包括至少一個標籤節點,每個標籤節點的父標籤節點為該標籤節點的父類目;樹枝獲取單元,用於從該標籤類目樹中獲取第一樹枝和第二樹枝,該第一樹枝的最低層的標籤節點與該第一資訊的內容相匹配,該第二樹枝的最低層的標籤節點與該第二資訊的內容相匹配;以及 計算單元,用於至少根據該第一樹枝與該第二樹枝在每層分別對應的匹配度,計算該第一資訊和該第二資訊的匹配度。
TW106127140A 2016-10-11 2017-08-10 資訊匹配方法及相關裝置 TW201814556A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610887444.0A CN107918778B (zh) 2016-10-11 2016-10-11 一种信息匹配方法及相关装置
??201610887444.0 2016-10-11

Publications (1)

Publication Number Publication Date
TW201814556A true TW201814556A (zh) 2018-04-16

Family

ID=61891935

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106127140A TW201814556A (zh) 2016-10-11 2017-08-10 資訊匹配方法及相關裝置

Country Status (3)

Country Link
CN (1) CN107918778B (zh)
TW (1) TW201814556A (zh)
WO (1) WO2018068648A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034938B (zh) * 2018-06-11 2022-07-05 广东因特利信息科技股份有限公司 信息快速筛选匹配方法、装置、电子设备及存储介质
CN109062986A (zh) * 2018-06-29 2018-12-21 深圳市彬讯科技有限公司 一种标签的分类处理方法及装置
CN109255000B (zh) * 2018-07-17 2022-10-11 土巴兔集团股份有限公司 一种标签数据的维度管理方法及装置
CN109614494B (zh) * 2018-12-29 2021-10-26 东软集团股份有限公司 一种文本分类方法及相关装置
CN110335131B (zh) * 2019-06-04 2023-12-05 创新先进技术有限公司 基于树的相似度匹配的金融风险控制方法及装置
CN111797898B (zh) * 2020-06-03 2022-03-15 武汉大学 一种基于深度语义匹配的在线评论自动回复方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429106B2 (en) * 2008-12-12 2013-04-23 Atigeo Llc Providing recommendations using information determined for domains of interest
CN103679462B (zh) * 2012-08-31 2019-01-15 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
CN103810192A (zh) * 2012-11-09 2014-05-21 腾讯科技(深圳)有限公司 一种用户的兴趣推荐方法和装置
CN103207914B (zh) * 2013-04-16 2016-02-24 武汉理工大学 基于用户反馈评价的偏好向量生成方法和系统
CN104636386A (zh) * 2013-11-14 2015-05-20 华为技术有限公司 信息监控方法及装置
US20150186790A1 (en) * 2013-12-31 2015-07-02 Soshoma Inc. Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews
CN103778214B (zh) * 2014-01-16 2017-08-01 北京理工大学 一种基于用户评论的商品属性聚类方法
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN105095288B (zh) * 2014-05-14 2020-02-07 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN105786838B (zh) * 2014-12-22 2019-07-12 阿里巴巴集团控股有限公司 一种信息匹配处理方法和装置
CN109308357B (zh) * 2015-05-04 2023-07-18 上海智臻智能网络科技股份有限公司 一种用于获得答案信息的方法、装置和设备
CN105183847A (zh) * 2015-09-07 2015-12-23 北京京东尚科信息技术有限公司 网络评论数据的特征信息采集方法和装置
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN105740228B (zh) * 2016-01-25 2019-06-04 云南大学 一种互联网舆情分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置

Also Published As

Publication number Publication date
CN107918778B (zh) 2022-03-15
WO2018068648A1 (zh) 2018-04-19
CN107918778A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
Dou Capturing user and product information for document level sentiment analysis with deep memory network
Zhao et al. Connecting social media to e-commerce: Cold-start product recommendation using microblogging information
TW201814556A (zh) 資訊匹配方法及相關裝置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
Zhang et al. Mining users trust from e-commerce reviews based on sentiment similarity analysis
US20190147231A1 (en) Predictive analysis of target behaviors utilizing rnn-based user embeddings
US11429405B2 (en) Method and apparatus for providing personalized self-help experience
CN105809473B (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
US12073451B2 (en) Systems for e-commerce recommendations
CN110516033B (zh) 一种计算用户偏好的方法和装置
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN118250516B (zh) 一种针对用户的分级处理方法
CN117764669A (zh) 物品推荐方法、装置、设备、介质及产品
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
CN107665442B (zh) 获取目标用户的方法及装置
Suryana et al. Dynamic convolutional neural network for eliminating item sparse data on recommender system.
CN112818082A (zh) 评价文本推送方法和装置
US11778049B1 (en) Machine learning to determine the relevance of creative content to a provided set of users and an interactive user interface for improving the relevance
Hanafi et al. Word Sequential Using Deep LSTM and Matrix Factorization to Handle Rating Sparse Data for E‐Commerce Recommender System
CN113327145B (zh) 一种物品推荐方法和装置
Pandiaraj et al. A Comparative Study on Emotion AI using Machine Learning and Deep Learning Models
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
JP2022090562A (ja) 情報処理装置及びプログラム