TWI743558B

TWI743558B - 基於強化學習模型的業務用戶分流方法和裝置

Info

Publication number: TWI743558B
Application number: TW108132245A
Authority: TW
Inventors: 龍翀; 王雅芳
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2019-02-13
Filing date: 2019-09-06
Publication date: 2021-10-21
Also published as: TW202034674A; CN109993314B; CN109993314A; WO2020164333A1

Abstract

本說明書實施例提供一種對請求業務的用戶進行分流的方法和裝置，所述方法包括：獲取第一時刻的狀態作為第一狀態，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量；將第一狀態輸入Q學習模型，以基於模型的輸出獲取在第一狀態下與第一業務及至少一個第二業務中的各個業務分別對應的各個第一Q值；以及基於各個第一Q值，在第一業務及至少一個第二業務中確定分配給第一用戶的業務，並基於確定的業務回覆第一用戶。

Description

基於強化學習模型的業務用戶分流方法和裝置

本說明書實施例涉及機器學習技術領域，更具體地，涉及一種基於強化學習對請求業務的用戶進行分流的方法和裝置。

隨著公司業務的不斷擴大，如何為顧客提供優質的客戶服務體驗是大多數公司都關心的問題。熱線客服和線上客服是客戶服務的重中之重。然而在不同的日期(工作日、週末、或“雙十一”)，或者同一天不同的時間段(白天或晚上)，客戶撥打熱線或使用線上的頻率是不一樣的，高峰時間段必然會給客服人員造成巨大的壓力。如果調度不好的話，會延長用戶的等待時間，甚至讓用戶的訴求無法得到及時的解決，從而極大影響用戶體驗。通用的解決高峰時間段的方法是，按照用戶特點的不同以及接受能力的不同，推薦一部分合適的用戶退出熱線，採用APP、自助、線上客服等方式得到他們想要的答案。這樣能夠減輕高峰時段客服的壓力，縮短用戶等待時間，提高用戶的滿意度。傳統的調度方法有基於規則的、機器學習的方法等。因此，需要一種更有效的對公司業務的用戶進行分流的方案。

本說明書實施例旨在提供一種更有效的基於強化學習對請求業務的用戶進行分流的方案，以解決現有技術中的不足。為實現上述目的，本說明書一個方面提供一種對請求第一業務的用戶進行分流的方法，其中，所述第一業務與至少一個第二業務相對應，所述至少一個第二業務用於分流請求所述第一業務的用戶，所述方法包括：獲取該第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對所述第一業務的請求的時刻，其中，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量；將所述第一狀態輸入Q學習模型，以基於所述模型的輸出獲取在所述第一狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第一Q值；以及基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務，並基於所述確定的業務回覆所述第一用戶。在一個實施例中，基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務包括，將所述第一業務及至少一個所述第二業務中對應的第一Q值最大的業務確定為分配給所述第一用戶的業務。在一個實施例中，所述第一業務為電話客服，所述至少一個第二業務包括以下至少一種業務：人工線上客服、機器人電話客服、機器人線上客服、知識庫自助查詢。在一個實施例中，所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率基於以下至少一項確定：所述第一用戶的用戶畫像、所述第一用戶的歷史行為。在一個實施例中，所述Q學習模型透過以下步驟訓練：當在基於所述確定的業務回覆所述第一用戶之後，獲取所述第一用戶的反饋，以確定所述第一用戶是否接受所述確定的業務；獲取該回覆對應的回報值，所述回報值基於如下兩項獲取：在所述第一用戶接受所述確定的業務的情況下的預定獎勵分值、所述第一業務及至少一個所述第二業務各自的在所述反饋之後的可接入的用戶數量；獲取第二時刻的狀態作為第二狀態，所述第二時刻為第二用戶進行對所述第一業務的請求的時刻，所述第二用戶的請求為緊接著所述第一用戶的請求的下一個請求，其中，所述第二狀態至少包括：所述第二用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第二時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第二時刻開始的預定時段內的預估用戶增量；將所述第二狀態輸入所述Q學習模型，以基於所述模型的輸出獲取在第二狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第二Q值；基於所述回報值和所述各個第二Q值中的最大值，計算與所述第一狀態和所述確定的業務對應的Q值標籤值，以及基於所述第一狀態、所述確定的業務、及所述Q值標籤值訓練所述Q學習模型，以使得所述Q學習模型基於所述第一狀態輸出的與所述確定的業務對應的第一Q值更接近所述Q值標籤值。在一個實施例中，在所述確定的業務為第一業務的情況中，在用戶接受所述確定的業務的情況下的預定獎勵分值為第一分值，在所述確定的業務為任一第二業務的情況中，在用戶接受所述確定的業務的情況下的預定獎勵分值大於所述第一分值。在一個實施例中，在所述第一業務及至少一個所述第二業務中任一業務的在所述反饋之後的可接入的用戶數量小於0的情況中，所述回報值減小。在一個實施例中，在所述第一業務及至少一個所述第二業務中任一業務的在所述反饋之後的可接入的用戶數量小於0的情況中，所述第一業務及至少一個所述第二業務中任一業務的在所述反饋之後的可接入的用戶數量越小，所述回報值越小。本說明書另一方面提供一種對請求第一業務的用戶進行分流的裝置，其中，所述第一業務與至少一個第二業務相對應，所述至少一個第二業務用於分流請求所述第一業務的用戶，所述裝置包括：獲取單元，配置為，獲取第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對所述第一業務的請求的時刻，其中，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量；輸入單元，配置為，將所述第一狀態輸入Q學習模型，以基於所述模型的輸出獲取在所述第一狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第一Q值；以及確定單元，配置為，基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務，並基於所述確定的業務回覆所述第一用戶。在一個實施例中，所述確定單元還配置為，將所述第一業務及至少一個所述第二業務中對應的第一Q值最大的業務確定為分配給所述第一用戶的業務。在一個實施例中，所述Q學習模型透過訓練裝置訓練，所述訓練裝置包括：第一獲取單元，配置為，當在基於所述確定的業務回覆所述第一用戶之後，獲取所述第一用戶的反饋，以確定所述第一用戶是否接受所述確定的業務；第二獲取單元，配置為，獲取該回覆對應的回報值，所述回報值基於如下兩項獲取：在所述第一用戶接受所述確定的業務的情況下的預定獎勵分值、所述第一業務及至少一個所述第二業務各自的在所述反饋之後的可接入的用戶數量；第三獲取單元，配置為，獲取第二時刻的狀態作為第二狀態，所述第二時刻為第二用戶進行對所述第一業務的請求的時刻，所述第二用戶的請求為緊接著所述第一用戶的請求的下一個請求，其中，所述第二狀態至少包括：所述第二用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第二時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第二時刻開始的預定時段內的預估用戶增量；輸入單元，配置為，將所述第二狀態輸入所述Q學習模型，以基於所述模型的輸出獲取在第二狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第二Q值；計算單元，配置為，基於所述回報值和所述各個第二Q值中的最大值，計算與所述第一狀態和所述確定的業務對應的Q值標籤值，以及訓練單元，配置為，基於所述第一狀態、所述確定的業務、及所述Q值標籤值訓練所述Q學習模型，以使得所述Q學習模型基於所述第一狀態輸出的與所述確定的業務對應的第一Q值更接近所述Q值標籤值。本說明書另一方面提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行上述任一項方法。本說明書另一方面提供一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現上述任一項方法。在根據本說明書實施例的業務用戶分流方案，透過使用強化學習模型，可綜合考慮環境因素及決策後的反饋，及時持續地對模型進行調整，從而提高決策的精度，以提高用戶的體驗。

下面將結合圖式描述本說明書實施例。圖1示出根據本說明書實施例用於業務客戶引流的裝置100的示意圖。如圖1所示，裝置100中包括：Q學習模型11、決策模組12、以及訓練模組13。所述業務例如為平臺(例如淘寶平臺)的電話客服業務，在高峰時段，撥入客服電話的客戶過多時，為提高客戶體驗，減輕客服壓力，需要對部分撥入的客戶進行引流。可以將客戶引流到多個其它業務中，如人工線上客服、機器人電話客服、機器人線上客服、知識庫自助查詢等，所述人工線上客服、機器人線上客服、知識庫自助查詢例如可透過平臺APP進行。假設，採用兩個用於引流的其它業務，如線上客服和自助查詢。可將電話客服、線上客服和自助查詢示為Q學習模型中可採用的三個動作b₁ 、b₂ 和b₃ 。例如，在第一用戶撥入客服電話時，在透過Q學習模型11進行對該第一用戶的引流時，首先向Q學習模型11輸入第一時刻的環境狀態s₁ ，第一時刻即為第一用戶撥入電話的時刻，該狀態s₁ 例如包括：第一用戶在第一時刻對上述各個業務的傾向度(接受概率)、每個業務在第一時刻的接待容量、以及每個業務的在自第一時刻開始的預定時段內的預估的用戶增量等等。Q學習模型11基於該狀態s₁ 計算與每個動作對應的Q值，即Q(s₁ ,b₁ )、Q(s₁ ,b₂ )和Q(s₁ ,b₃ )。在決策模組12中，可基於這三個Q值，透過預定的決策演算法進行動作的決策，即確定在電話客服、線上客服和自助查詢中選擇哪個業務分配給該第一用戶，從而獲取a₁ ，a₁ 為b₁ 、b₂ 和b₃ 中選定的一個。在確定a₁ 之後，可在客服電話中基於a₁ 進行對該第一用戶的撥入電話的處理。例如，所述a₁ 可能為電話客服，則可直接為該第一用戶接通電話客服。例如，所述a₁ 可能為線上客服，則可在電話中語音建議該第一用戶改用線上客服的方式進行詢問。該第一用戶針對上述建議可能有不同的反饋，其例如接受該建議或不接受該建議，在第一用戶不接受上述建議的情況中，該第一用戶仍在客服電話中等待。第一客戶的反饋對環境狀態產生影響，例如對各個業務的容量產生影響。基於用戶對該建議的是否接受、以及各個業務的容量變化，可確定由動作a₁ 引起的該Q學習模型的回報值r₁ 。緊接著第一用戶的撥入電話之後，在平臺接到下一個撥入電話時，可獲取環境狀態s₂ ，該下一個撥入電話例如是第二用戶在第二時刻撥入的。則，狀態s₂ 包括第二用戶在第二時刻對上述各個業務的傾向度(接受概率)、每個業務在第二時刻的接待容量、以及每個業務的在自第二時刻開始的預定時段內的預估的用戶增量等等。在訓練階段，透過將狀態s₂ 輸入Q學習模型11，可同樣獲取與三個業務分別對應的三個Q值，基於該三個Q值中的最大值和上述回報值r₁ ，可在訓練模組13中計算Q(s₁ ,a₁ )的標籤值

，基於該標籤值、s₁ 和a₁ 可透過梯度下降法訓練Q學習模型，從而更新Q學習模型的參數。可以理解，本說明書實施例中的需要引流的業務不限於上述電話客服業務，而可以任何具有有限可接收用戶總數的業務。例如，各種線上遊戲、訂票業務等等。另外，本說明書實施例中的可選的動作也不限於為3個，而可以根據具體的場景需要進行設定。下面對上述用戶分流方法進行詳細描述。圖2示出根據本說明書實施例的一種對請求第一業務的用戶進行分流的方法流程圖，其中，所述第一業務與至少一個第二業務相對應，所述至少一個第二業務用於分流請求所述第一業務的用戶，所述方法包括：在步驟S202，獲取第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對所述第一業務的請求的時刻，其中，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量；在步驟S204，將所述第一狀態輸入Q學習模型，以基於所述模型的輸出獲取在所述第一狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第一Q值；以及在步驟S206，基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務，並基於所述確定的業務回覆所述第一用戶。首先，在步驟S202，獲取第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對所述第一業務的請求的時刻，其中，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量。如參考圖1中所述，所述第一業務例如為電話客服業務，所述第二業務例如包括線上客服和自助查詢兩個業務。第一用戶可為平臺的任一用戶。需要理解，本文中的“第一”，“第二”等描述，僅僅為了描述的簡單而對相似概念進行區分，並不具有其他限定作用。在第一用戶撥入客服電話時，也即請求該電話客服業務。平臺在接到該請求之後，可獲取整個環境的當前狀態作為用於輸入Q學習模型的s₁ 。在本說明書實施例中，環境狀態s與時刻相對應，包括三個方面的特徵U、C、e，即，可將t時刻的狀態s_t 表示為s_t =(U_t ,C_t ,e_t )。其中，U_t 、C_t 和e_t 都是N維的向量，N為Q學習模型中的動作總數，例如如參考圖1中所述，為3，也就是說U_t 和C_t 的每個維度與一個動作相對應。U_t 表示在t時刻的相關用戶的用戶傾向度，每一維度上的值(例如在0到1之間)表示該用戶對對應動作的接受概率。例如，對於上述客服電話的場景，U_t 表示在t時刻撥入客服電話的用戶的用戶傾向度。在總共有電話客服、線上客服和自助查詢三個動作選項的情況中，一般說來，可以認為所有用戶接受“人工熱線”的概率很高(例如100%)。在其他維度(線上客服和自助查詢)上，不同用戶的接受概率基於其以下至少一項確定：用戶畫像、歷史行為。所述用戶畫像例如可透過相應模型定期獲取，例如所述用戶畫像中包括“老人”特徵，通常，老人不善於透過使用手機、電腦等進行線上的客服諮詢或自助查詢，因此，該用戶對“線上客服”和“自助查詢”的接受概率都可以設定為較低。所述用戶的歷史行為例如為用戶在過去撥入客服電話時對這些客服和自助查詢的接受或拒絕接受的歷史，基於用戶在過去接受例如線上客服的占比，可估計該用戶在本次接受線上客服引流的概率。或者，可綜合考慮用戶畫像和用戶歷史行為，例如可將用戶畫像轉換為數值，並基於用戶畫像數值與接受次數占比的加權和，獲取用戶對相應動作的接受概率。 C_t 表示在t時刻每個動作維度上接待能力的剩餘參考值(可以稱之為每個維度上的“容量”)。該值允許為負，在該值為負的情況中，表示在這個維度上出現了用戶擁擠等待的情況；在該值為正的情況中，表示這個維度接待能力尚有剩餘。例如，對於電話客服、線上客服和自助查詢三種情況，可基於電話客服、線上客服在t時刻實際可接待的用戶數目確定C_t 中這兩個維度的值，並可將C_t 中在對應於自助查詢的維度的值設定為較大值。 e_t 表示在下一個時間區間(t, t+T_d )內，每個維度上的用戶增量(預計新撥進來的用戶數減去通話結束用戶數)，T_d 表示時間間隔長度，例如每5分鐘的時間間隔。e_t 可基於歷史數據估計，或者可透過預定演算法預測獲取。可以理解，所述狀態s不限於僅包括上述三個方面的特徵U、C、e，還可以包括其他特徵，例如，還可以包括用戶畫像特徵、每個動作維度對應的動作特徵(如業務接入成本、業務營業時間)等等。假設第一用戶進行對所述第一業務的請求的時刻為時刻1，則可獲取與該時刻1對應的狀態s₁ =(U₁ ,C₁ ,e₁ )，其中，U₁ 、C₁ 和e₁ 可分別基於上述方法獲取。在步驟S204，將所述第一狀態輸入Q學習模型，以基於所述模型的輸出獲取在所述第一狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第一Q值。如本領域技術人員所知，Q學習模型透過神經網路實現，透過向該神經網路輸入狀態s和動作a，可從該神經網路輸出與狀態s和動作a對應的Q值(即，Q(s,a))。在獲取上述狀態s₁ 之後，假設上述電話客服、線上客服和自助查詢三個動作分別以b₁ 、b₂ 和b₃ 表示，在一個實施例中，可將(s₁ ，b₁ )、(s₁ ，b₂ )和(s₁ ，b₃ )分別輸入Q學習模型，從而基於所述神經網路分別輸出與(s₁ ，b₁ )、(s₁ ，b₂ )和(s₁ ，b₃ )分別對應的各個第一Q值Q₁ 、Q₂ 和Q₃ ，即，Q₁ =Q(s₁ ，b₁ )、Q₂ =Q(s₁ ，b₂ )、Q₃ =Q(s₁ ，b₃ )。在一個實施例中，可僅將s₁ 輸入Q學習模型，從而基於所述神經網路分別輸出與(s₁ ，b₁ )、(s₁ ，b₂ )和(s₁ ，b₃ )分別對應的Q₁ 、Q₂ 和Q₃ 。在步驟S206，基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務，並基於所述確定的業務回覆所述第一用戶。在獲取各個第一Q值(例如上述Q₁ 、Q₂ 和Q₃ )之後，可基於預定的決策演算法確定將要執行的動作a₁ ，即，確定分配給第一用戶的業務。在一個實施例中，可將與Q₁ 、Q₂ 和Q₃ 中的最大值對應的業務分配給第一用戶。在一個實施例中，可基於ε-貪婪策略確定動作a₁ 。在確定動作a₁ 之後，可基於動作a₁ 進行對所述第一用戶的請求的回覆，也即，在環境中實施動作a₁ 。例如，在上述第一用戶撥入客服電話的情況中，如果a₁ 為b₁ ，即電話客服，則將第一用戶電話轉接至電話客服，如果a₁ 為b₂ ，即線上客服，則在電話中透過語音建議第一用戶透過線上客服的方式進行諮詢。在透過圖2所示方法基於Q學習模型確定與狀態s₁ 對應的a₁ ，並在環境中實施動作a₁ 之後，可確定該動作a₁ 的回報值r₁ 。在接收與第一用戶請求緊接的下一個用戶的請求的時刻，可獲取s₂ ，從而可基於s₁ 、a₁ 、r₁ 和s₂ 進行對Q學習模型的一次訓練。圖3示出根據本說明書實施例的訓練Q學習模型的方法流程圖，包括以下步驟：在步驟S302，當在基於所述確定的業務回覆所述第一用戶之後，獲取所述第一用戶的反饋，以確定所述第一用戶是否接受所述確定的業務；在步驟S304，獲取該回覆對應的回報值，所述回報值基於如下兩項獲取：在所述第一用戶接受所述確定的業務的情況下的預定獎勵分值、所述第一業務及至少一個所述第二業務各自的在所述反饋之後的可接入的用戶數量；在步驟S306，獲取第二時刻的狀態作為第二狀態，所述第二時刻為第二用戶進行對所述第一業務的請求的時刻，所述第二用戶的請求為緊接著所述第一用戶的請求的下一個請求，其中，所述第二狀態至少包括：所述第二用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第二時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第二時刻開始的預定時段內的預估用戶增量；在步驟S308，將所述第二狀態輸入所述Q學習模型，以基於所述模型的輸出獲取在第二狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第二Q值；在步驟S310，基於所述回報值和所述各個第二Q值中的最大值，計算與所述第一狀態和所述確定的業務對應的Q值標籤值，以及在步驟S312，基於所述第一狀態、所述確定的業務、及所述Q值標籤值訓練所述Q學習模型，以使得所述Q學習模型基於所述第一狀態輸出的與所述確定的業務對應的第一Q值更接近所述Q值標籤值。首先，在步驟S302，當在基於所述確定的業務回覆所述第一用戶之後，獲取所述第一用戶的反饋，以確定所述第一用戶是否接受所述確定的業務。所述第一用戶的反饋可以是接受a₁ ，或者不接受a₁ 。例如，a₁ 為上述b₁ ，即轉接至電話客服，在該情況中，可以認為第一用戶的反饋100%為接受。在一種情況中，a₁ 例如為b₂ ，即建議第一用戶透過線上客服進行諮詢，在該情況中，如果第一用戶的反饋是接受該a₁ ，則第一用戶退出該撥入的電話，並透過例如app聯繫線上客服，如果第一用戶的反饋為不接受該a₁ ，則第一用戶仍然等待接入電話客服。在步驟S304，獲取該回覆對應的回報值，所述回報值基於如下兩項獲取：在所述第一用戶接受所述確定的業務的情況下的預定獎勵分值、所述第一業務及至少一個所述第二業務各自的在所述反饋之後的可接入的用戶數量。也就是說，在該步驟中，獲取透過在環境中實施上述動作a₁ 所獲取的回報值r₁ 。在本說明書實施例中，可透過以下公式(1)獲取與s₁ 、a₁ 對應的回報值r₁ ：

(1) 其中，

為第一用戶接受動作

的獎勵，如果第一用戶不接受，則該值為0。在一個實施例中，例如，當確定的業務a₁ 為b₁ 時，即電話客服，在該情況中，可以認為用戶會100%接受a₁ ，在該情況中，可將

設定為

，當確定的業務a₁ 為b₂ 或b₃ 時，可將對應的

分別設定為

和

。由於模型(agent)讓用戶接受b₂ 或b₃ 的難度相比於接受b₁ 的難度更大，因此，可將

和

都設定為大於

，另外，可根據用戶分別接受b₂ 和b₃ 的難度，確定

和

的相對大小。在一個實施例中，可將

設為0，將

和

都設定為正數。

也為N維的向量，表示在實施動作

後N個動作維度每個維度的容量變化。在上述N=3的電話客服場景中，例如，a₁ =b₃ ，即在電話中向第一用戶建議使用自助查詢，在該情況中，如果第一用戶接受該建議，則自助查詢的容量減1，即

；如果第一用戶拒絕自助查詢並繼續等待直到被轉接至客服電話，則客服電話的容量減1，即，

。透過公式(1)中的Relu函數，當

中的任一維度值大於等於零時，該維度值經Relu函數作用為0，對回報值r₁ 不產生影響。當

中至少一個維度值小於零時，該至少一個維度值的每個經Relu函數作用為至少一個正數，對該至少一個正數取最大值，並基於該最大值減小回報值r₁ ，也即，將該最大值乘以預定參數λ，並從r₁ 中減去該乘積。由於通常等待用戶數目比較大，可將λ設定為0.7～0.9，以與公式(1)中的第一項相平衡。也就是說，當

中任一維度值小於零時，表示該維度出現了用戶擁擠等待的情況，因此對該結果給與負的回報值，以使得模型減少該情況的出現。可以理解，公式(1)僅是本說明書實施例中對回報值r1的示例計算方法，本說明書實施例中不限於該公式，例如，啟動函數不限於使用Relu函數，而可以使用σ函數等，從而不限於在

小於零時，對回報值r1起作用，在

大於零時，也可以透過比較各個維度值的大小而對回報值r1起作用。在步驟S306，獲取第二時刻的狀態作為第二狀態，所述第二時刻為第二用戶進行對所述第一業務的請求的時刻，所述第二用戶的請求為緊接著所述第一用戶的請求的下一個請求，其中，所述第二狀態至少包括：所述第二用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第二時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第二時刻開始的預定時段內的預估用戶增量。在如上文所述，在第一用戶進行對第一業務的請求時，獲取該時刻的環境狀態s₁ (即時刻t=1的第一狀態)，在平臺接收到與該第一用戶的請求緊接著的第二用戶的請求時，可獲取該時刻的環境狀態s₂ (即時刻t=2的第二狀態)。與s₁ 中各項相對應的，s₂ 中可包括如下三項：

。其中，

表示第二用戶在時刻2分別對所述第一業務及至少一個所述第二業務的接受概率，

表示在經過上述動作

之後所述第一業務及至少一個所述第二業務各自在時刻2的可接入的用戶數量、以及

表示所述第一業務及至少一個所述第二業務各自的在從時刻2開始的預定時段內的預估用戶增量。其中，

和

可透過與上文中對

和

的獲取方式相同的方式獲取，

可在上述對公式(1)的計算中獲取，從而可獲取模型的第二狀態s2。可以理解，這裡第二用戶可以是平臺中的任一用戶，其也可能是上述第一用戶。在步驟S308，將所述第二狀態輸入所述Q學習模型，以基於所述模型的輸出獲取在第二狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第二Q值。與上文中向模型輸入狀態s₁ 類似地，透過向Q學習模型輸入s₂ ，可獲取模型輸出Q(s₂ ,b₁ )、Q(s₂ ,b₂ )和Q(s₂ ,b₃ )，將其都稱為第二Q值，以與上文中與狀態s₁ 對應的各個第一Q值相區分。在步驟S310，基於所述回報值和所述各個第二Q值中的最大值，計算與所述第一狀態和所述確定的業務對應的Q值標籤值。在Q學習演算法中，通常透過以下公式(2)更新Q值：

(2) 在一個實施例中，透過將參數α設定為1從而可獲取如下公式(3)：

(3) 其中，

為預定參數。可以理解，在參數α不等於1的情況中，同樣可透過將公式(2)右側的

移到公式左側，從而使得

的標籤值可基於

計算獲取。從而，基於公式(3)，透過將上述計算的r₁ 和各個第二Q值中的最大值代入公式(3)，可將計算的

值作為透過圖2所示方法獲取的

預測值的標籤值。在步驟S312，基於所述第一狀態、所述確定的業務、及所述Q值標籤值訓練所述Q學習模型，以使得所述Q學習模型基於所述第一狀態輸出的與所述確定的業務對應的第一Q值更接近所述Q值標籤值。在獲取Q值標籤值之後，可基於例如如公式(4)所示的損失函數進行對Q學習模型的訓練：

(4) 其中，

代表Q學習模型中的當前全部參數。在該Q學習模型初始進行模型預測時，模型中的各個參數可隨機初始化。透過梯度下降法調整參數

，從而可使得Q學習模型的輸出值

更接近如公式(3)所示的預測值，從而使得模型預測更加準確。可以理解，在本說明書實施例中，不限於透過如公式(4)所示的損失函數進行模型訓練，而可以採用本領域技術人員熟知的各種損失函數的形式，例如可以採用差的絕對值等形式。該強化學習模型可隨著更多的用戶請求(例如撥通的客服電話)，而不斷透過圖3所示方法進行多次訓練，如果系統將結束(終止或重啟)，可以把當前訓練出的模型保存起來，並在下次系統啟動時重新載入以繼續訓練。在訓練次數達到足夠多之後，該學習模型可趨於收斂，從而可停止訓練。圖4示出根據本說明書實施例的對請求第一業務的用戶進行分流的裝置400，其中，所述第一業務與至少一個第二業務相對應，所述至少一個第二業務用於分流請求所述第一業務的用戶，所述裝置包括：獲取單元41，配置為，獲取第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對所述第一業務的請求的時刻，其中，所述第一狀態至少包括：所述第一用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第一時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第一時刻開始的預定時段內的預估用戶增量；輸入單元42，配置為，將所述第一狀態輸入Q學習模型，以基於所述模型的輸出獲取在所述第一狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第一Q值；以及確定單元43，配置為，基於所述各個第一Q值，在所述第一業務及至少一個所述第二業務中確定分配給所述第一用戶的業務，並基於所述確定的業務回覆所述第一用戶。在一個實施例中，所述確定單元43還配置為，將所述第一業務及至少一個所述第二業務中對應的第一Q值最大的業務確定為分配給所述第一用戶的業務。圖5示出根據本說明書實施例的用於訓練Q學習模型的訓練裝置500，包括：第一獲取單元51，配置為，當在基於所述確定的業務回覆所述第一用戶之後，獲取所述第一用戶的反饋，以確定所述第一用戶是否接受所述確定的業務；第二獲取單元52，配置為，獲取該回覆對應的回報值，所述回報值基於如下兩項獲取：在所述第一用戶接受所述確定的業務的情況下的預定獎勵分值、所述第一業務及至少一個所述第二業務各自的在所述反饋之後的可接入的用戶數量；第三獲取單元53，配置為，獲取第二時刻的狀態作為第二狀態，所述第二時刻為第二用戶進行對所述第一業務的請求的時刻，所述第二用戶的請求為緊接著所述第一用戶的請求的下一個請求，其中，所述第二狀態至少包括：所述第二用戶分別對所述第一業務及至少一個所述第二業務的接受概率、所述第一業務及至少一個所述第二業務各自在所述第二時刻的可接入的用戶數量、以及所述第一業務及至少一個所述第二業務各自的在從所述第二時刻開始的預定時段內的預估用戶增量；輸入單元54，配置為，將所述第二狀態輸入所述Q學習模型，以基於所述模型的輸出獲取在第二狀態下與所述第一業務及至少一個所述第二業務中的各個業務分別對應的各個第二Q值；計算單元55，配置為，基於所述回報值和所述各個第二Q值中的最大值，計算與所述第一狀態和所述確定的業務對應的Q值標籤值，以及訓練單元56，配置為，基於所述第一狀態、所述確定的業務、及所述Q值標籤值訓練所述Q學習模型，以使得所述Q學習模型基於所述第一狀態輸出的與所述確定的業務對應的第一Q值更接近所述Q值標籤值。本說明書另一方面提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行上述任一項方法。本說明書另一方面提供一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現上述任一項方法。在根據本說明書實施例的業務用戶分流方案，透過使用強化學習模型，可綜合考慮環境因素及決策後的反饋，及時持續地對模型進行調整，從而提高決策的精度，以提高用戶的體驗。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。上述對本說明書特定實施例進行了描述。其它實施例在申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。本領域普通技術人員應該還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道，取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本發明的範圍。結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、內部記憶體、唯讀記憶體(ROM)、電可程式化ROM、電可擦除可程式化ROM、暫存器、硬碟、抽取式磁碟、CD-ROM、或技術領域內所公知的任意其它形式的儲存媒體中。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

11:Q學習模型 12:決策模組 13:訓練模組 41:獲取單元 42:輸入單元 43:確定單元 51:第一獲取單元 52:第二獲取單元 53:第三獲取單元 54:輸入單元 55:計算單元 56:訓練單元 100:裝置 400:裝置 500:訓練裝置

透過結合圖式描述本說明書實施例，可以使得本說明書實施例更加清楚：圖1示出根據本說明書實施例用於業務客戶引流的裝置100的示意圖；圖2示出根據本說明書實施例的一種對請求第一業務的用戶進行分流的方法流程圖；圖3示出根據本說明書實施例的訓練Q學習模型的方法流程圖；圖4示出根據本說明書實施例的對請求第一業務的用戶進行分流的裝置400；圖5示出根據本說明書實施例的用於訓練Q學習模型的訓練裝置500。

Claims

一種對請求第一業務的用戶進行分流的方法，其中，所述第一業務與至少一個第二業務相對應，所述至少一個第二業務用於分流請求所述第一業務的用戶，所述方法包括：獲取第一時刻的狀態作為第一狀態，所述第一時刻為第一用戶進行對該第一業務的請求的時刻，其中，該第一狀態至少包括：該第一用戶分別對該第一業務及至少一個該第二業務的接受概率、該第一業務及至少一個該第二業務各自在該第一時刻的可接入的用戶數量、以及該第一業務及至少一個該第二業務各自的在從該第一時刻開始的預定時段內的預估用戶增量；將該第一狀態輸入Q學習模型，以基於該模型的輸出獲取在該第一狀態下與該第一業務及至少一個該第二業務中的各個業務分別對應的各個第一Q值；以及基於該各個第一Q值，在該第一業務及至少一個該第二業務中確定分配給該第一用戶的業務，並基於該確定的業務回覆該第一用戶；其中，該Q學習模型透過以下步驟訓練：當在基於該確定的業務回覆該第一用戶之後，獲取該第一用戶的反饋，以確定該第一用戶是否接受該確定的業務；獲取該回覆對應的回報值，該回報值基於如下兩項獲取：在該第一用戶接受該確定的業務的情況下的預定獎勵分值、該第一業務及至少一個該第二業務各自的在該反饋之後的可接入的用戶數量；獲取第二時刻的狀態作為第二狀態，該第二時刻為第二用戶進行對該第一業務的請求的時刻，該第二用戶的請求為緊接著該第一用戶的請求的下一個請求，其中，該第二狀態至少包括：該第二用戶分別對該第一業務及至少一個該第二業務的接受概率、該第一業務及至少一個該第二業務各自在該第二時刻的可接入的用戶數量、以及該第一業務及至少一個該第二業務各自的在從該第二時刻開始的預定時段內的預估用戶增量：將該第二狀態輸入該Q學習模型，以基於該模型的輸出獲取在第二狀態下與該第一業務及至少一個該第二業務中的各個業務分別對應的各個第二Q值；基於該回報值和該各個第二Q值中的最大值，計算與該第一狀態和該確定的業務對應的Q值標籤值，以及基於該第一狀態、該確定的業務、及該Q值標籤值訓練該Q學習模型，以使得該Q學習模型基於該第一狀態輸出的與該確定的業務對應的第一Q值更接近該Q值標籤值。
根據申請專利範圍第1項所述的方法，其中，基於該各個第一Q值，在該第一業務及至少一個該第二業務中確定分配給該第一用戶的業務包括，將該第一業務及至少一個該第二業務中對應的第一Q值最大的業務確定為分配給該第一用戶的業務。
根據申請專利範圍第1項所述的方法，其中，該第一業務為電話客服，該至少一個第二業務包括以下至少一種業務：人工線上客服、機器人電話客服、機器人線上客服、知識庫自助查詢。
根據申請專利範圍第1項所述的方法，其中，該第一用戶分別對該第一業務及至少一個該第二業務的接受概率基於以下至少一項確定：該第一用戶的用戶畫像、該第一用戶的歷史行為。
根據申請專利範圍第1項所述的方法，其中，在該確定的業務為第一業務的情況中，在用戶接受該確定的業務的情況下的預定獎勵分值為第一分值，在該確定的業務為任一第二業務的情況中，在用戶接受該確定的業務的情況下的預定獎勵分值大於該第一分值。
根據申請專利範圍第1項所述的方法，其中，在該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量小於0的情況中，該回報值減小。
根據申請專利範圍第6項所述的方法，其中，在該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量小於0的情況中，該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量越小，該回報值越小。
一種對請求第一業務的用戶進行分流的裝置，其中，該第一業務與至少一個第二業務相對應，該至少一個第二業務用於分流請求該第一業務的用戶，該裝置包括：獲取單元，配置為，獲取第一時刻的狀態作為第一狀態，該第一時刻為第一用戶進行對該第一業務的請求的時刻，其中，該第一狀態至少包括：該第一用戶分別對該第一業務及至少一個該第二業務的接受概率、該第一業務及至少一個該第二業務各自在該第一時刻的可接入的用戶數量、以及該第一業務及至少一個該第二業務各自的在從該第一時刻開始的預定時段內的預估用戶增量；輸入單元，配置為，將該第一狀態輸入Q學習模型，以基於該模型的輸出獲取在該第一狀態下與該第一業務及至少一個該第二業務中的各個業務分別對應的各個第一Q值；以及確定單元，配置為，基於該各個第一Q值，在該第一業務及至少一個該第二業務中確定分配給該第一用戶的業務，並基於該確定的業務回覆該第一用戶；其中，該Q學習模型透過訓練裝置訓練，該訓練裝置包括：第一獲取單元，配置為，當在基於該確定的業務回覆該第一用戶之後，獲取該第一用戶的反饋，以確定該第一用戶是否接受該確定的業務；第二獲取單元，配置為，獲取該回覆對應的回報值，該回報值基於如下兩項獲取；在該第一用戶接受該確定的業務的情況下的預定獎勵分值、該第一業務及至少一個該第二業務各自的在該反饋之後的可接入的用戶數量；第三獲取單元，配置為，獲取第二時刻的狀態作為第二狀態，該第二時刻為第二用戶進行對該第一業務的請求的時刻，該第二用戶的請求為緊接著該第一用戶的請求的下一個請求，其中，該第二狀態至少包括：該第二用戶分別對該第一業務及至少一個該第二業務的接受概率、該第一業務及至少一個該第二業務各自在該第二時刻的可接入的用戶數量、以及該第一業務及至少一個該第二業務各自的在從該第二時刻開始的預定時段內的預估用戶增量；輸入單元，配置為，將該第二狀態輸入該Q學習模型，以基於該模型的輸出獲取在第二狀態下與該第一業務及至少一個該第二業務中的各個業務分別對應的各個第二Q值；計算單元，配置為，基於該回報值和該各個第二Q值中的最大值，計算與該第一狀態和該確定的業務對應的Q值標籤值，以及訓練單元，配置為，基於該第一狀態、該確定的業務、及該Q值標籤值訓練該Q學習模型，以使得該Q學習模型基於該第一狀態輸出的與該確定的業務對應的第一Q值更接近該Q值標籤值。
根據申請專利範圍第8項所述的裝置，其中，該確定單元還配置為，將該第一業務及至少一個該第二業務中對應的第一Q值最大的業務確定為分配給該第一用戶的業務。
根據申請專利範圍第8項所述的裝置，其中，該第一業務為電話客服，該至少一個第二業務包括以下至少一種業務：人工線上客服、機器人電話客服、機器人線上客服、知識庫自助查詢。
根據申請專利範圍第8項所述的裝置，其中，該第一用戶分別對該第一業務及至少一個該第二業務的接受概率基於以下至少一項確定：該第一用戶的用戶畫像、該第一用戶的歷史行為。
根據申請專利範圍第8項所述的裝置，其中，在該確定的業務為第一業務的情況中，在用戶接受該確定的業務的情況下的預定獎勵分值為第一分值，在該確定的業務為任一第二業務的情況中，在用戶接受該確定的業務的情況下的預定獎勵分值大於該第一分值。
根據申請專利範圍第8項所述的裝置，其中，在該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量小於0的情況中，該回報值減小。
根據申請專利範圍第13項所述的裝置，其中，在該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量小於0的情況中，該第一業務及至少一個該第二業務中任一業務的在該反饋之後的可接入的用戶數量越小，該回報值越小。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行申請專利範圍第1至7項中任一項的所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行程式碼，該處理器執行該可執行程式碼時，實現申請專利範圍第1至7項中任一項所述的方法。