TW201800987A - 問題推薦方法及設備 - Google Patents

問題推薦方法及設備 Download PDF

Info

Publication number
TW201800987A
TW201800987A TW106102678A TW106102678A TW201800987A TW 201800987 A TW201800987 A TW 201800987A TW 106102678 A TW106102678 A TW 106102678A TW 106102678 A TW106102678 A TW 106102678A TW 201800987 A TW201800987 A TW 201800987A
Authority
TW
Taiwan
Prior art keywords
feature
characteristic
probability
features
numerical
Prior art date
Application number
TW106102678A
Other languages
English (en)
Other versions
TWI772287B (zh
Inventor
姜曉燕
代斌
楊旭
褚崴
趙耀
Original Assignee
阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集團服務有限公司 filed Critical 阿里巴巴集團服務有限公司
Publication of TW201800987A publication Critical patent/TW201800987A/zh
Application granted granted Critical
Publication of TWI772287B publication Critical patent/TWI772287B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Pens And Brushes (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Telephone Function (AREA)

Abstract

本發明公開了一種問題推薦方法及設備,該方法包括:在樣本採集週期內,獲取問題並獲取所述問題對應的問題特徵;對所述問題特徵進行處理,處理後的問題特徵在預設的數值區間內;根據各個所述問題及其在所述問題中的第二機率和指定的推薦閾值確定推薦的問題;其中,各個所述問題及其在所述問題中的第二機率是透過所述處理後的問題特徵和第一機率得到的;所述第一機率是透過所述問題特徵得到的。應用本申請的方法,透過對以往問題特徵計算得到需要向使用者推薦的問題,提高了向用戶推薦問題的準確率。

Description

問題推薦方法及設備
本申請關於通信技術領域,特別關於一種問題推薦方法,本申請同時還關於一種問題推薦設備。
隨著雙十一、雙十二等電商節日的興起,越來越多人開始網上購物,但“節日經濟”對電商也造成了雙重衝擊即銷量和客服的壓力暴增。企業的客服一般分為人工客服和自助客服,客服壓力的增加促使企業使用更多的人工客服,投人的成本也隨之越來越多。
因此,需要自助客服系統具有更大的處理能力,才能滿足客服需求。自助客服系統,能夠自動處理解決用戶的問題。而自助客服的系統中待處理資料量的增加,使現有的方法已經不能夠處理全量資料。現有的演算法隨著問題增加,其計算效率下降。並且大部分特徵是稀疏的,而現有技術適用於處理稠密特徵,這樣,系統中問題特徵量增加的同時,對用戶問題的預測精度就會下降。另外現有技術中的模型單一,效果受限。所以,隨著資訊的不斷爆炸,現在的機器學習模型已經不能滿足需求。
因此,本領域技術人員極待解決的技術問題就是如何透過對以往問題特徵計算得到需要向使用者推薦的問題,提高向用戶推薦問題的準確率,進而在自助客服節點解決用戶問題,減少使用者進入人工客服,降低人工客服成本。
本發明提供了一種問題推薦方法,用於提高向用戶推薦問題的準確率。所述方法包括以下步驟:在樣本採集週期內,獲取問題並獲取所述問題對應的問題特徵;對所述問題特徵進行處理,處理後的問題特徵在預設的數值區間內;根據各個所述問題及其在所述問題中的第二機率和指定的推薦閾值確定推薦的問題;其中,各個所述問題及其在所述問題中的第二機率是透過所述處理後的問題特徵和第一機率得到的;所述第一機率是透過所述問題特徵得到的。
較佳地,所述問題特徵包括數值型特徵和文本型特徵,所述數值型特徵為連續的,所述文本型特徵為不連續的。
較佳地,所述獲取問題,具體包括:在特徵獲取週期內獲取所述問題;若存在特徵獲取週期內未獲取的問題,則所述未獲取 的問題的值為空;若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為所述問題。
較佳地,所述獲取所述問題對應的問題特徵,具體包括:在特徵獲取週期內獲取問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵;若不存在特徵獲取週期內未獲取的問題特徵,則以獲取的問題特徵作為所述問題特徵。
較佳地,對所述問題特徵進行處理,具體包括:若所述問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理;若所述問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,向量化處理後的問題特徵為數值型問題特徵。
較佳地,所述第二機率是透過對所述處理後的問題特徵和所述第一機率進行深度神經網路DNN計算得到的。
相應的本申請還提出了一種問題推薦設備,所述設備包括: 獲取模組:在樣本採集週期內,獲取問題並獲取所述問題對應的問題特徵;處理模組:對所述問題特徵進行處理,處理後的問題特徵在指定的數值區間內;確定模組:根據各個所述問題及其在所述問題中的第二機率和指定的推薦閾值確定推薦的問題;其中,各個所述問題及其在所述問題中的第二機率是透過所述處理後的問題特徵和第一機率得到的;所述第一機率是透過所述問題特徵得到的。
較佳地,所述問題特徵包括數值型特徵和文本型特徵,所述數值型特徵為連續的,所述文本型特徵為不連續的。
較佳地,所述獲取模組具體用於:在特徵獲取週期內獲取所述問題;若存在特徵獲取週期內未獲取的問題,則所述未獲取的問題的值為空;若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為所述問題。
較佳地,所述獲取模組具體用於:在特徵獲取週期內獲取問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題 特徵為所述文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵;若不存在特徵獲取週期內未獲取的問題特徵,則以獲取的問題特徵作為所述問題特徵。
較佳地,所述處理模組具體用於:若所述問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理;若所述問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,向量化處理後的問題特徵為數值型問題特徵。
較佳地,所述第二機率是透過對所述處理後的問題特徵和所述第一機率進行深度神經網路DNN計算得到的。
由此可見,透過應用本申請的技術方案,對問題特徵進行處理和分類計算,然後對得到的結果進行進一步的深度計算,即可準確地輸出各個所述問題和第二機率。本申請提高了向用戶推薦問題的準確率。本申請可處理稠密性的問題特徵值,同時適合處理大規模的稀疏資料,提高了預測精度。
310‧‧‧獲取模組
320‧‧‧處理模組
330‧‧‧確定模組
圖1為本申請提出的一種問題推薦方法的流程示意圖;圖2為本申請具體實施例所提出的一種DNN模型示意圖; 圖3為本申請提出的一種問題推薦設備的結構示意圖。
有鑒於現有技術中的問題,本發明提出了問題推薦方法,該方法應用於問題推薦系統中,結合機器學習模型和深度神經網路模型DNN進行模型訓練。該系統能夠根據歷史記錄為使用者推薦其所需的問題,並且擅長處理稀疏型和稠密性的問題特徵,可用於提高向用戶推薦問題的準確率。
如圖1所示,為本申請提出了的一種核驗資訊處理方法流程示意圖,包括以下步驟:
S101,在樣本採集週期內,獲取問題並獲取所述問題對應的問題特徵。
本申請旨在向需要問題推薦服務的使用者推薦問題。使用者可以是該需要問題推薦的使用者和其他用戶。本發明的系統中存在使用者的歷史記錄,在歷史記錄中包含各個問題以及對應的問題特徵。問題推薦系統通常包括收集層、處理層、儲存層和輸出層。收集層負責收集其他設備發送的問題及問題特徵。處理層利用收集到的問題及問題特徵進行模型訓練。儲存層負責資料儲存,其中儲存了使用者的歷史記錄。輸出層進行問題及問題特徵的輸出。本申請中的問題推薦系統可以在伺服器上實現,較佳採用分散式伺服器。並且本申請可以使用一個伺服器,也可以使 用多個伺服器組成的集群。
所述問題特徵包括數值型特徵和文本型特徵,所述數值型特徵為連續的,比如,數值型特徵為使用過某個應用軟體的次數,數值9代表使用過9次,所述文本型特徵為不連續的,比如,文本型特徵為發票狀態,對應未開發票和已開發票。因為歷史記錄中的問題和問題特徵都具有一定的時效性,所以設置樣本採集週期,以採集一段時期之內問題及問題特徵,比如一周內、一個月內。其他設備向系統發送問題及問題特徵時,由於不同設備的IP不同,一些問題、問題特徵的獲取時間較長,可能導致系統在很長時間內不能獲取完畢。
為了更高效地對資料進行處理,在本申請的較佳實施例中,設定特徵獲取週期,在特徵獲取週期內獲取所述問題。若存在特徵獲取週期內未獲取的問題,則所述未獲取的問題的值為空,若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為所述問題。在特徵獲取週期內獲取問題特徵,若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵,若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵,若不存在特徵獲取週期內未獲取的問題特徵,則以獲取的問題特徵作為所述問題特徵。
在獲取問題及其對應的問題特徵之後,推薦系統透過 對問題特徵進行篩選,以刪除一些特徵,比如刪除所有使用者都相同的問題特徵、容易超出特徵獲取週期的問題特徵和與經營業務無關的問題特徵。經過篩選得到的特徵可以為後續建立分類模型作準備。
S102,對所述問題特徵進行處理,處理後的問題特徵在預設的數值區間內。
在獲取問題和對應的問題特徵後,問題推薦系統對問題特徵進行處理。若所述問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理以使處理後的問題特徵在指定的數值區間內;若所述問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,以使處理後的問題特徵為數值型問題特徵並在指定的數值區間內。
在本申請的較佳實施例中,若問題特徵是數值型特徵,可以採用百分位分箱演算法進行歸一化處理,使所有問題特徵在經過處理後都處在指定的數值區間內。在進行百分位分箱演算法處理時,將原始數值歸納到100個箱中,然後對箱進行編碼,比如0.01,0.02......1.00。經過處理的數值型問題特徵處於0至1的數值區間內。
由於文本型問題特徵是以文字的形式呈現的,無法參與計算。所以,需要對文本型問題特徵進行向量化處理,將問題特徵由文本型特徵轉化為數值型特徵。可以採用one hot編碼處理文本型特徵,計算各個特徵的頻率,從而按頻率給出one hot編碼。舉例來說,文本型特徵為發票狀態,對應未開發票和已開發票,經過向量化處理後, 得到數值型特徵0和1,處於0至1的數值區間內。
問題特徵經過處理後,處於指定的數值區間內,以便於參與後續計算。需要說明的是,本申請需要得到處於指定數值區域內的問題特徵,故進行上述百分位分箱演算法和向量化處理方法僅為本申請較佳實施例提出的示例,本申請的保護範圍並不限於此,以上僅為本申請較佳實施例提出的示例,在此基礎上還可以選擇其他方式來進行計算,以使本申請適用於更多的應用領域,這些改進都屬於本發明的保護範圍。
S103,根據各個所述問題及其在所述問題中的第二機率和指定的推薦閾值確定推薦的問題。
在獲取問題和對應的問題特徵後,本申請還需要對問題特徵進行簡單分類模型計算,可以採用決策樹演算法,從而得到第一機率。在進行決策樹計算時,首先需要有兩輪採樣過程。第一輪對問題特徵進行隨機採樣,得到決策樹可處理的問題特徵。第二輪進行重要特徵採樣,根據所述可處理的問題特徵計算權重。
在當今資料介面越來越多的情況下,資料集的原始變數、衍生變數會越來越多,因此資訊值IV(Information Value)在實際資料應用中十分重要。資訊值IV用來表示每一個變數對目標變數來說有多少“資訊”的量,從而使得特徵選擇變得簡單快速。
在進行特徵選擇時,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵,就成了各種方法間 最大的不同。在資訊增益中,重要性的衡量標準就是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。因此對於一個特徵而言,資訊增益為系統存在該特徵和不存在該特徵時候的資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即資訊增益IG(Information Gain)。
因為資訊值IV和資訊增益IG都可以表示問題特徵對應的權重,所以,所述權重為資訊值IV和/或資訊增益IG,根據權重選出重要特徵,然後根據所述重要特徵建立分類模型。然後,透過分類模型對篩選得到的問題特徵進行分析得到第一機率。將各個問題特徵經過決策樹計算後得到的相應機率作為所述第一機率。
需要說明的是,本申請進行以上基於決策樹演算法得到的各個問題特徵對應機率值的過程僅為本申請較佳實施例提出的示例,除此之外還可以選擇比如邏輯回歸計算等的其他計算方法,以使本申請適用於更多的應用領域,這些改進都屬於本發明的保護範圍。
在得到處理後的問題特徵和第一機率後,對這兩者進行計算,得到各個所述問題及其在所述問題中的第二機率。在較佳的實施例中,所述各個所述問題及其在所述問題中的第二機率透過DNN計算得到。問題推薦系統中的深度神經網路DNN(Deep Neural Network),包括輸入節點和計算節點。DNN計算包括以下步驟:(1)輸入節點獲取所述處理後的問題特徵和第一機率。(2)計算節 點透過全連接層、啟動函數ReLu和多分類損失函數softmax loss對處理後的問題特徵和第一機率進行計算,得到第二機率。
在具體的應用場景中,操作步驟如圖2所示:
a.由輸入層獲取所述處理後的問題特徵和第一機率。
在DNN訓練前,可以使用決策樹對資料進行初步分類,同時可以透過第一機率控制深度神經網路DNN中網路節點所占的權重。
b.由中間層即計算層進行問題推薦,計算層透過全連接層、啟動函數ReLu和多分類損失函數softmax loss對所述處理後的問題特徵和第一機率進行計算,得到各個問題特徵對應的問題及第二機率。
利用啟動函數ReLu進行計算,使一部分網路中神經元的輸出為0,因而造就了網路的稀疏性,並且減少了參數的相互依存關係,緩解了過擬合問題的發生。同時,使計算節點的計算量較小,有利於提高系統推薦問題的效率。另外,DNN訓練可以使用GPU,能夠針對矩陣計算進行加速,進一步提高計算速度。除啟動函數ReLu之外,還可以使用sigmoid層進行計算。
c.輸出層輸出各個所述問題及其對應的第二機率。
需要說明的是,本申請是由第一機率和處理後得到的數值型問題特徵,得到第二機率,本申請提出的計算方式是DNN計算,本申請的保護範圍並不限於此,以上僅為較佳實施例提出的示例,在此基礎上還可以選擇其他方式 來進行計算,以使本申請適用於更多的應用領域,這些改進都屬於本發明的保護範圍。
在本申請的較佳實施例中,問題推薦系統根據各個所述問題及其在所述問題中的第二機率和指定的的推薦閾值,確定推薦的問題。然後根據閾值得到閾值內的問題特徵,進而以該問題特徵對應的問題作為推薦的問題。比如在閾值內得到六個問題的問題特徵,則系統推薦這六個問題。本發明在針對各個使用者對應的歷史記錄中的問題和問題特徵進行計算,進而確定待推薦的問題之後,當使用者訪問問題推薦系統的時候直接調用相應的結果。透過本申請中的問題推薦系統,使用者能夠直接獲取與之相關性非常高的問題。
為達到以上技術目的,本申請還提出了一種問題推薦設備,如圖3所示,所述設備包括:獲取模組310:在樣本採集週期內,獲取問題並獲取所述問題對應的問題特徵;處理模組320:對所述問題特徵進行處理,處理後的問題特徵在指定的數值區間內;確定模組330:根據各個所述問題及其在所述問題中的第二機率和指定的推薦閾值確定推薦的問題;其中,各個所述問題及其在所述問題中的第二機率是透過所述處理後的問題特徵和第一機率得到的;所述第一機率是透過所述問題特徵得到的。
在較佳的實施例中,所述問題特徵包括數值型特徵和 文本型特徵,所述數值型特徵為連續的,所述文本型特徵為不連續的。
在較佳的實施例中,所述獲取模組具體用於:在特徵獲取週期內獲取所述問題;若存在特徵獲取週期內未獲取的問題,則所述未獲取的問題的值為空;若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為所述問題。
在較佳的實施例中,所述獲取模組具體用於:在特徵獲取週期內獲取問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為所述文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵;若不存在特徵獲取週期內未獲取的問題特徵,則以獲取的問題特徵作為所述問題特徵。
在較佳的實施例中,所述處理模組具體用於:若所述問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理;若所述問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,向量化處理後的問題特徵為數值型問題特徵。
在較佳的實施例中,所述第二機率是透過對所述處理後的問題特徵和所述第一機率進行深度神經網路DNN計算得到的。
透過以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到本申請可以透過硬體實現,也可以借助軟體加必要的通用硬體平臺的方式來實現。基於這樣的理解,本申請的技術方案可以以軟體產品的形式體現出來,該軟體產品可以儲存在一個非揮發性儲存媒體(可以是CD-ROM,隨身碟,移動硬碟等)中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本申請各個實施場景所述的方法。
本領域技術人員可以理解附圖只是一個較佳實施場景的示意圖,附圖中的模組或流程並不一定是實施本申請所必須的。
本領域技術人員可以理解實施場景中的裝置中的模組可以按照實施場景描述進行分佈於實施場景的裝置中,也可以進行相應變化位於不同於本實施場景的一個或多個裝置中。上述實施場景的模組可以合併為一個模組,也可以進一步拆分成多個子模組。
上述本申請序號僅僅為了描述,不代表實施場景的優劣。
以上公開的僅為本申請的幾個具體實施場景,但是,本申請並非局限於此,任何本領域的技術人員能思及的變化都應落入本申請的保護範圍。

Claims (12)

  1. 一種問題推薦方法,其特徵在於,該方法包括:在樣本採集週期內,獲取問題並獲取該問題對應的問題特徵;對該問題特徵進行處理,處理後的問題特徵在預設的數值區間內;根據各個該問題及其在該問題中的第二機率和指定的推薦閾值確定推薦的問題;其中,各個該問題及其在該問題中的第二機率是透過該處理後的問題特徵和第一機率得到的;該第一機率是透過該問題特徵得到的。
  2. 如申請專利範圍第1項所述的方法,其中,該問題特徵包括數值型特徵和文本型特徵,該數值型特徵為連續的,該文本型特徵為不連續的。
  3. 如申請專利範圍第1項所述的方法,其中,該獲取問題,具體包括:在特徵獲取週期內獲取該問題;若存在特徵獲取週期內未獲取的問題,則所述未獲取的問題的值為空;若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為該問題。
  4. 如申請專利範圍第2項所述的方法,其中,該獲取該問題對應的問題特徵,具體包括:在特徵獲取週期內獲取問題特徵; 若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為該數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為該文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵;若不存在特徵獲取週期內未獲取的問題特徵,則以獲取的問題特徵作為該問題特徵。
  5. 如申請專利範圍第2項所述的方法,其中,對該問題特徵進行處理,具體包括:若該問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理;若該問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,向量化處理後的問題特徵為數值型問題特徵。
  6. 如申請專利範圍第1項所述的方法,其中,該第二機率是透過對該處理後的問題特徵和該第一機率進行深度神經網路DNN計算得到的。
  7. 一種問題推薦設備,其特徵在於,該設備包括:獲取模組:在樣本採集週期內,獲取問題並獲取該問題對應的問題特徵;處理模組:對該問題特徵進行處理,處理後的問題特徵在指定的數值區間內;確定模組:根據各個該問題及其在該問題中的第二機 率和指定的推薦閾值確定推薦的問題;其中,各個該問題及其在該問題中的第二機率是透過該處理後的問題特徵和第一機率得到的;該第一機率是透過該問題特徵得到的。
  8. 如申請專利範圍第7項所述的問題推薦設備,其中,該問題特徵包括數值型特徵和文本型特徵,該數值型特徵為連續的,該文本型特徵為不連續的。
  9. 如申請專利範圍第7項所述的問題推薦設備,其中,該獲取模組具體用於:在特徵獲取週期內獲取該問題;若存在特徵獲取週期內未獲取的問題,則該未獲取的問題的值為空;若不存在特徵獲取週期內未獲取的問題,則以獲取的問題作為該問題。
  10. 如申請專利範圍第8項所述的問題推薦設備,其中,該獲取模組具體用於:在特徵獲取週期內獲取問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為該數值型特徵時,則以獲取的與問題對應的問題特徵的數值的均值作為問題特徵;若存在特徵獲取週期內未獲取的問題特徵,且該問題特徵為該文本型問題特徵時,則以獲取的與問題對應的問題特徵中出現頻率最高的作為問題特徵;若不存在特徵獲取週期內未獲取的問題特徵,則以獲 取的問題特徵作為該問題特徵。
  11. 如申請專利範圍第8項所述的問題推薦設備,其中,該處理模組具體用於:若該問題特徵為數值型問題特徵,則對問題特徵進行歸一化處理;若該問題特徵為文本型問題特徵,則對問題特徵進行向量化處理,向量化處理後的問題特徵為數值型問題特徵。
  12. 如申請專利範圍第7項所述的問題推薦設備,其中,該第二機率是透過對該處理後的問題特徵和該第一機率進行深度神經網路DNN計算得到的。
TW106102678A 2016-01-29 2017-01-24 問題推薦方法及設備 TWI772287B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201610065638.2 2016-01-29
CN201610065638.2 2016-01-29
CN201610065638.2A CN107025228B (zh) 2016-01-29 2016-01-29 一种问题推荐方法及设备

Publications (2)

Publication Number Publication Date
TW201800987A true TW201800987A (zh) 2018-01-01
TWI772287B TWI772287B (zh) 2022-08-01

Family

ID=59397449

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106102678A TWI772287B (zh) 2016-01-29 2017-01-24 問題推薦方法及設備

Country Status (6)

Country Link
US (1) US20180330226A1 (zh)
EP (1) EP3410310A4 (zh)
JP (1) JP7007279B2 (zh)
CN (1) CN107025228B (zh)
TW (1) TWI772287B (zh)
WO (1) WO2017129033A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698830B (zh) * 2018-01-26 2020-07-11 香港商阿里巴巴集團服務有限公司 機器人客服轉人工客服的方法和裝置及其電腦設備與電腦可讀儲存媒體
TWI731542B (zh) * 2019-11-15 2021-06-21 財團法人資訊工業策進會 分類模型生成裝置及其分類模型生成方法
TWI804684B (zh) * 2018-09-28 2023-06-11 美商高通公司 用於在深度神經網路中利用啟動稀疏性的方法與裝置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764273B (zh) * 2018-04-09 2023-12-05 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN111353093B (zh) * 2018-12-24 2023-05-23 北京嘀嘀无限科技发展有限公司 问题推荐方法、装置、服务器及可读存储介质
CN109711982A (zh) * 2019-01-04 2019-05-03 深圳壹账通智能科技有限公司 面核提问方法、装置、计算机设备和可读存储介质
CN110263133B (zh) * 2019-05-07 2023-11-24 平安科技(深圳)有限公司 基于知识图谱的问答方法、电子装置、设备及存储介质
CN112528010B (zh) * 2020-12-15 2022-09-02 建信金融科技有限责任公司 知识推荐方法、装置、计算机设备及可读存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128401A (ja) * 1995-10-27 1997-05-16 Sharp Corp 動画像検索装置及びビデオ・オン・デマンド装置
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US6922680B2 (en) * 2002-03-19 2005-07-26 Koninklijke Philips Electronics N.V. Method and apparatus for recommending an item of interest using a radial basis function to fuse a plurality of recommendation scores
US20050089878A1 (en) * 2003-02-14 2005-04-28 Debe Derek A. Method for determining functional sites in a protein
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9249287B2 (en) * 2012-02-24 2016-02-02 Nec Corporation Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
US8938438B2 (en) * 2012-10-11 2015-01-20 Go Daddy Operating Company, LLC Optimizing search engine ranking by recommending content including frequently searched questions
CN104462156B (zh) * 2013-09-25 2018-12-28 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐方法和系统
CN104572734B (zh) * 2013-10-23 2019-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统
US9911088B2 (en) * 2014-05-01 2018-03-06 Microsoft Technology Licensing, Llc Optimizing task recommendations in context-aware mobile crowdsourcing
US10943181B2 (en) * 2015-06-26 2021-03-09 Microsoft Technology Licensing, Llc Just in time classifier training
CN105095477A (zh) * 2015-08-12 2015-11-25 华南理工大学 一种基于多指标评分的推荐算法
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105279288B (zh) * 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法
US10861106B1 (en) * 2016-01-14 2020-12-08 Intuit Inc. Computer generated user interfaces, computerized systems and methods and articles of manufacture for personalizing standardized deduction or itemized deduction flow determinations

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698830B (zh) * 2018-01-26 2020-07-11 香港商阿里巴巴集團服務有限公司 機器人客服轉人工客服的方法和裝置及其電腦設備與電腦可讀儲存媒體
US10977664B2 (en) 2018-01-26 2021-04-13 Advanced New Technologies Co., Ltd. Method and apparatus for transferring from robot customer service to human customer service
TWI804684B (zh) * 2018-09-28 2023-06-11 美商高通公司 用於在深度神經網路中利用啟動稀疏性的方法與裝置
US12131130B2 (en) 2018-09-28 2024-10-29 Qualcomm Incorporated Exploiting activation sparsity in deep neural networks
TWI731542B (zh) * 2019-11-15 2021-06-21 財團法人資訊工業策進會 分類模型生成裝置及其分類模型生成方法

Also Published As

Publication number Publication date
EP3410310A1 (en) 2018-12-05
CN107025228A (zh) 2017-08-08
EP3410310A4 (en) 2019-01-02
JP2019511764A (ja) 2019-04-25
WO2017129033A1 (zh) 2017-08-03
US20180330226A1 (en) 2018-11-15
TWI772287B (zh) 2022-08-01
JP7007279B2 (ja) 2022-01-24
CN107025228B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
TWI772287B (zh) 問題推薦方法及設備
CN110503531B (zh) 时序感知的动态社交场景推荐方法
Bi et al. A big data clustering algorithm for mitigating the risk of customer churn
CN102075352B (zh) 一种网络用户行为预测的方法和装置
US20160210554A1 (en) Dynamic model data facility and automated operational model building and usage
CN108133418A (zh) 实时信用风险管理系统
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
US20230139783A1 (en) Schema-adaptable data enrichment and retrieval
CN109034960B (zh) 一种基于用户节点嵌入的多属性推断的方法
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN109242250A (zh) 一种基于模糊熵权法与云模型的用户行为可信度检测方法
CA3114298C (en) Recommendation method and system and method and system for improving a machine learning system
CN114490065A (zh) 一种负载预测方法、装置及设备
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
CN116883065A (zh) 商户风险预测方法及装置
Xu et al. Prediction and big data impact analysis of telecom churn by backpropagation neural network algorithm from the perspective of business model
CN113138977A (zh) 交易转化分析方法、装置、设备及存储介质
Parkhimenka et al. Heuristic approach to online purchase prediction based on internet store visitors classification using data mining methods
Feng et al. Web service QoS classification based on optimized convolutional neural network
US9336249B2 (en) Decision tree with just-in-time nodal computations
CN113656692B (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN110443374B (zh) 一种资源信息处理方法、装置及设备
Huang et al. Clustering analysis on e-commerce transaction based on k-means clustering