TW202008265A

TW202008265A - 透過深度強化學習進行行銷成本控制的方法及裝置

Info

Publication number: TW202008265A
Application number: TW108119717A
Authority: TW
Inventors: 何建杉
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-08-07
Filing date: 2019-06-06
Publication date: 2020-02-16
Also published as: US11295332B2; CN109087142A; SG11202010564YA; WO2020029688A1; US20210117999A1

Abstract

本說明書實施例提供一種透過深度強化學習系統進行行銷成本控制的方法，其中深度強化學習系統包括智慧體和執行環境，智慧體用於根據行銷策略，針對執行環境的狀態資訊確定行銷行為。上述方法包括：確定行銷行為的成本；接著，至少根據確定出的成本，確定強化學習的獎勵分數，以使獎勵分數與成本負相關；接著，將獎勵分數傳回給智慧體，用於智慧體最佳化其行銷策略。

Description

透過深度強化學習進行行銷成本控制的方法及裝置

本說明書一個或多個實施例涉及機器學習領域，尤其涉及透過深度強化學習進行行銷成本控制的方法及裝置。

在一項業務場景的業務流程中，不僅要考慮到業務的業務效果，還需要考慮執行該業務所耗費的成本。在推薦行銷，特別是金融行銷的場景中，為了促使用戶使用金融產品，通常會在行銷資訊中向用戶提供一定的激勵，如優惠券等。例如，可以向用戶推送申購某基金的手續費折扣券，以促使用戶申購該基金。顯然，激勵的力度越大，如折扣越高，則用戶使用對應金融產品的可能性越大。但是，激勵的力度過大，行銷成本越高，甚至會導致超預算。因此，需要一種合理的方案，可以在保證行銷效果的同時，盡可能地壓低成本。

本說明書一個或多個實施例描述了一種利用深度強化學習進行行銷成本控制的方法和裝置，可以在保證行銷效果的同時，最大限度地壓低行銷成本。根據第一態樣，提供了一種透過深度強化學習系統進行行銷成本控制的方法，所述深度強化學習系統包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對所述執行環境的狀態資訊確定行銷行為，所述方法包括：確定所述行銷行為的成本；至少根據所述成本，確定強化學習的獎勵分數，以使所述獎勵分數與所述成本負相關；將所述獎勵分數傳回給所述智慧體，用於所述智慧體最佳化其行銷策略。根據一個實施例，上述行銷行為包括發放資源包，所述資源包包括紅包、優惠券、帳單免息券中的至少一種；所述確定所述行銷行為的成本，包括：確定所述資源包對應的資源份額，並將所述資源份額作為所述成本。根據一個實施例，所述確定強化學習的獎勵分數，包括：獲取針對所述成本構造的函數，至少基於所述函數確定獎勵分數，所述函數被構造為，負相關於所述成本。根據一個實施例，在所述確定強化學習的獎勵分數之前，還包括：從所述執行環境中獲取，用戶響應於所述智慧體確定的行銷行為而產生的執行結果，以及行銷行為所針對的目標效果。在一個實施例中，透過分數評估函數確定所述獎勵分數，所述分數評估函數以所述執行結果和所述成本為變量，並被設計為，正相關於所述執行結果與所述目標效果的匹配度，以及負相關於所述行銷行為的成本。在另一實施例中，獲取基於所述執行結果構造的第一函數，所述第一函數被設計為，正相關於所述執行結果與所述目標效果的匹配度；獲取基於所述成本構造的第二函數，所述第二函數被設計為正相關於所述成本；至少基於所述第一函數和所述第二函數確定獎勵分數。進一步地，在一個可能的實施例中，基於所述第一函數與所述第二函數的比值確定獎勵分數；或者，基於所述第一函數與所述第二函數的差值確定獎勵分數。在另一個可能的實施例中，獲取預先建立的第一函數的多個取值區間和第二函數的多個取值區間所形成的多個區間組合與獎勵分數的映射關係；根據所述執行結果確定所述第一函數的函數值所落入的第一區間，以及根據所述成本確定所述第二函數的函數值所落入的第二區間，所述第一區間和第二區間形成特定區間組合；根據所述映射關係，確定與所述特定區間組合相對應的獎勵分數。根據第二態樣，提供一種透過深度強化學習系統進行行銷成本控制的裝置，所述深度強化學習系統包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對所述執行環境的狀態資訊確定行銷行為，所述裝置包括：第一確定單元，配置為確定所述行銷行為的成本；第二確定單元，配置為至少根據所述成本，確定強化學習的獎勵分數，以使所述獎勵分數與所述成本負相關；傳回單元，配置為將所述獎勵分數傳回給所述智慧體，用於所述智慧體最佳化其行銷策略。根據第三態樣，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一態樣的方法。根據第四態樣，提供了一種計算設備，包括儲存器和處理器，其中，所述儲存器中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現第一態樣的方法。透過本說明書實施例提供的方法和裝置，利用深度強化學習系統來進行行銷成本控制，對每一個用戶學習能帶來轉化且成本最低的行銷行為，這樣在保證用戶轉化的同時，可以最大限度壓低行銷成本，從而有效地控制總體成本。

下面結合圖式，對本說明書提供的方案進行描述。根據本說明書的一個或多個實施例，採用深度強化學習的方式，來控制推薦行銷的業務成本。圖1為本說明書披露的一個實施例的推薦行銷的執行示意圖。在推薦行銷的場景中，首先，系統根據一些推薦演算法，選擇一些當前用戶適合的行銷資訊準備進行推薦。這些行銷資訊可以包括，廣告，資源包（例如紅包，折扣券，帳單免息券等），行銷通知訊息等。接著，這些推薦行銷資訊被發送到行銷投放平臺進行投放。如圖1所示，當用戶打開用戶端App（例如支付寶）時，可以向該用戶推送領取資源包的行銷資訊110，用戶可以透過點擊該訊息110領取資源包，接著跳轉至頁面120，其中包括資源包的使用方法，用戶透過點擊頁面120中的“立即體驗”，可以進入新的頁面130，並透過130完成行銷內容的目標操作，例如，註冊、轉發、授權目標應用、使用行銷資訊中的資源包進行消費等，這時，可以認為該用戶得到了轉化，且通常情況下，用戶轉化是推薦行銷的最終目標。可以理解，對於行銷業務的執行，在考慮行銷效果（如用戶轉化率）的同時，通常需要將行銷成本控制在預算範圍內。傳統的控制行銷成本的方法有約束求解的方法，即，將總體預算作為一種約束條件，建立約束方程組進行求解。採用此方法，當預算有變化時需要重新求解，且隨著預算的消耗，局部最佳和全域最佳如何協調是個難以解決的問題。此外，還有獨立的成本控制方法，如廣告中的預算平滑（budget smoothing），其基本思想是不要讓預算消耗過快，因為靠後來的用戶可能也有轉化意願，所以需要對流量進行預測，對當前的消耗做即時更新，接著根據流量預估、預算餘額以及用戶轉化的可能性綜合考慮是否投放，這種方法的工作量大。進一步地，在將行銷成本控制在預算範圍內的同時，通常還會希望最大限度地壓低行銷成本。例如，在行銷過程中，透過向某些用戶發放5元紅包，實現了對這些用戶的轉化，然而對其中部分用戶，僅需發放2元紅包，或者不需要發放現金紅包，即可實現用戶轉化，對這部分用戶發放5元紅包無疑造成了成本的浪費。基於以上考慮，本說明書實施例提出一種方案，利用深度強化學習系統來進行行銷成本控制，此方案的基本思想是，對每一個用戶學習能帶來轉化且成本最低的行銷行為，這樣在保證用戶轉化的同時，可以最大限度壓低行銷成本，從而有效地控制總體成本。圖2A顯示典型的深度強化學習系統。一般地，深度強化學習系統包括智慧體和執行環境，智慧體透過與執行環境的互動和反饋，不斷進行學習，最佳化其策略。具體而言，智慧體觀察並獲得執行環境的狀態（state），根據一定策略，針對當前執行環境的狀態確定要採取的行為或動作（action）。這樣的行為作用於執行環境，會改變執行環境的狀態，同時產生一個反饋給智慧體，該反饋又稱為獎勵分數（reward）。智慧體根據獲得的獎勵分數來判斷，之前的行為是否正確，策略是否需要調整，進而更新其策略。透過反復不斷地觀察狀態、確定行為、收到反饋，使得智慧體可以不斷更新策略，最終目標是能夠學習到一個策略，使得獲得的獎勵分數累積最大化。這就是典型的強化學習過程。在學習和調整策略過程中，如果智慧體採取的是包括神經網路在內的一些深度學習的演算法，那麼這樣的系統則稱為深度強化學習系統。圖2B顯示根據一個實施例的深度強化學習推薦行銷系統，也就是將深度強化學習應用到推薦行銷系統中。在推薦行銷的場景下，執行環境即為推薦行銷環境，可觀測的環境狀態包括，有待推薦的行銷資訊，當前用戶資訊等。智慧體基於一些行銷策略，針對行銷環境的當前狀態確定適合的行銷行為。該行銷行為進而改變行銷環境的狀態，並產生一個獎勵分數反饋到智慧體。智慧體進而可以根據獎勵分數調整、更新其行銷策略。根據本說明書一個或多個實施例，對獎勵分數的生成過程進行最佳化，至少基於行銷行為的成本，確定獎勵分數，從而實現對行銷行為的成本（可以簡稱行銷成本）的控制。進一步地，還可以結合用戶響應於行銷行為而產生的執行結果，如點擊、領取、轉化等，來確定綜合獎勵分數，如此可以在考慮行銷效果的同時，直接考慮行銷成本，而不需要分別針對行銷效果和行銷成本設計不同的方法，或者單獨建立模型。此外，本說明書實施例是根據千人千面的思想，針對不同用戶分別選擇既能帶來轉化且成本又比較低的行銷行為，所以，可以在保證用戶轉化的同時，最大限度壓低行銷成本，另一方面，當大盤預算的消耗和流量變化時，推薦所受的影響不大，穩定性更好。下面描述以上構思的實現方式。圖3顯示根據一個實施例透過深度強化學習系統進行行銷成本控制的方法。可以理解，上述深度強化學習系統可以是如圖2B所示的深度強化學習推薦行銷系統，其包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對執行環境的狀態確定行銷行為，並根據針對該行銷行為反饋得到的獎勵分數更新行銷策略。上述方法可以由任何具有資料計算、處理能力的裝置、設備、平臺、設備叢集等來執行。如圖3所示，該方法至少包括：步驟31，確定行銷行為的成本；步驟33，至少根據行銷行為的成本，確定強化學習的獎勵分數，以使獎勵分數與成本負相關；步驟35，將獎勵分數傳回給智慧體，用於智慧體最佳化其行銷策略。下面描述以上各個步驟的具體執行方式。如前所述，在利用深度強化學習的推薦行銷系統中，智慧體不斷觀察和獲取推薦行銷環境的當前狀態，並根據行銷策略確定當前狀態下應該採取的行銷行為。在一種實施方式下，智慧體獲取的行銷環境的狀態資訊可以包括，可選的行銷資訊和當前用戶的用戶資訊。更具體地，可選的行銷資訊可以包括可選的行銷內容，例如備選的廣告、利益包（例如紅包，購物券，折扣券等）、行銷通知訊息等。可選的行銷資訊還可以包括，可選的行銷管道，例如訊息推送、廣告banner、角標提醒等等。另一方面，行銷環境的狀態資訊還包括當前用戶的用戶資訊，用戶資訊可以包括用戶屬性特徵，例如註冊時間長短、年齡、性別、收入等等。在一個實施例中，用戶資訊還包括用戶歷史行為資訊，例如歷史操作序列、最近瀏覽頁面列表、最近接受的行銷資訊列表等等。在一個實施例中，用戶資訊可以包括用戶畫像資訊。可以理解，在一些實施方式中，已經根據一些演算法，基於用戶的基本屬性資訊和/或歷史行為資訊，為用戶賦予了對應的用戶畫像。用戶畫像資訊例如可以包括，基於屬性資訊將用戶劃分到一定人群的人群標籤，對用戶進行叢集的類簇標籤，基於用戶歷史行為構建的用戶行為習慣標籤，等等。上述各種用戶資訊可以構成當前用戶的用戶特徵。在一個具體例子中，以行銷資訊對應的行銷特徵和當前用戶對應的用戶特徵為基礎，構建行銷環境的當前狀態的狀態向量，輸入到智慧體。智慧體基於一些行銷策略，針對行銷環境的當前狀態，確定要採取的行銷行為。可以理解，對於強化學習系統來說，智慧體中的策略用於將環境的狀態映射為接下來的行為。在圖2B所示的深度強化學習推薦行銷系統中，智慧體是進行決策的實體，根據行銷策略，將當前行銷環境狀態映射為接下來採取的行銷行為。其中的行銷策略透過複雜的深度學習演算法來實現，例如Q-learning，DQN等，這些演算法中通常包括一些深度神經網路的結構。如上所述，行銷環境的當前狀態反映了當前用戶的用戶特徵和可選的行銷資訊的特徵，一旦獲取到這樣的當前狀態資訊，智慧體就透過深度學習演算法確定應該針對當前用戶採取怎樣的行銷行為，例如，用什麼樣的管道向其傳送什麼樣的行銷內容。這樣的行銷行為可以作用於執行環境。因此，在步驟31，可以確定作用於執行環境的行銷行為的成本。在一個實施例中，行銷行為包括投放行銷資訊。在一個具體的實施例中，行銷資訊可以根據其投放管道的不同，被劃分為通知訊息，頁面廣告等，其中通知訊息可以包括在任意時段均可以主動推送至用戶終端的行銷通知訊息，用戶可以透過點擊此通知訊息進入對應的APP頁面或網站頁面，而頁面廣告可以包括在用戶使用APP或瀏覽網站的有限時間內，透過介面中心區域展示的行銷廣告。一般來說，行銷資訊因其投放管道的不同而具有不同的成本，例如，投放頁面廣告的成本高於推送通知訊息的成本。由此，可以基於行銷資訊的投放管道，確定投放成本，並將投放成本作為對應的行銷成本。在一個實施例中，行銷行為可以包括發放資源包。在一個具體的實施例中，可以單獨發放該資源包，相應地，確定行銷行為的成本可以包括：確定資源包對應的資源份額，並將該資源份額作為行銷行為的成本。在一個例子中，資源包為現金紅包，由此可以將現金紅包的具體金額，例如2元或5元，確定為行銷成本。在另一個例子中，資源包為優惠券，由此可以將優惠券對應的優惠金額，確定為行銷成本。例如，可以結合具體的帳單資訊，確定優惠券的優惠金額，如原價為1000元的服飾在使用8.8折的折扣券以後，優惠了120元，則120元為對應的行銷成本。在又一個例子中，資源包為帳單免息券，用於當用戶使用分期付款的方式支付帳單時，免除其還款手續費，由此可以將帳單免息券對應的免除金額，確定為行銷成本。在另一個具體的實施例中，還可以將資源包嵌入行銷資訊，一併推送給用戶，以使用戶可以在瀏覽行銷資訊時點擊其中的資源包連結來領取對應的資源包。此時，可以確定行銷資訊的投放成本，以及其中資源包對應的資源成本，並將二者的和值作為行銷行為的成本，或者，還可以僅將投放成本或者資源成本作為行銷成本。對於以上確定的行銷行為的成本，在步驟33，可以至少根據行銷行為的成本，確定強化學習的獎勵分數，以使獎勵分數與成本負相關。在一個實施例中，至少以行銷行為的成本為變量，構造函數，用於確定獎勵分數。該函數被設計為，負相關於行銷成本，也就是說，行銷成本越高，函數的輸出值越小，即獎勵分數越低。即：

其中cost為行銷行為的成本，並且，函數F被設計為，cost越低，Rt分數越高。進一步地，函數F中還可以包括其他變量X，即：

其中X可以為與行銷效果相關的變量，相應地，函數F可以被設計為，與行銷效果正相關，與成本cost負相關，即，行銷效果越好，cost越低，F輸出值越大。在一個實施例中，行銷效果透過用戶的執行結果與預定效果目標之間的匹配度來衡量。因此，在確定強化學習的獎勵分數之前還需要從執行環境中獲取，用戶響應於智慧體確定的行銷行為而產生的執行結果，以及行銷行為所針對的目標效果，其中執行結果與目標效果的匹配度越高，對應的行銷效果越好。在一個例子中，目標效果可以為實現用戶轉化，執行結果可以為用戶轉化或用戶未轉化，則相較於“用戶未轉化”，“用戶轉化”的執行結果與目標效果的匹配度更高，對應的行銷效果更好。在一個例子中，X可以為與目標效果對應的執行結果，相應地，函數F還可以被設計為，正相關於執行結果與目標效果的匹配度，且所述匹配度越高，Rt分數越高。在另一個實施例中，可以基於上述執行結果構造第一函數f1，且第一函數被設計為，正相關於執行結果與目標效果的匹配度。另外，基於行銷行為的成本構造第二函數f2，且第二函數被設計為正相關於所述成本。再基於第一函數和第二函數確定獎勵分數。在一個具體的實施例中，可以基於第一函數f1與第二函數f2的比值確定獎勵分數：

其中f1(X)為第一函數，f2(cost)為第二函數。當f1(X)的輸出值不變時， cost越小，f2(cost)越小，則相應的獎勵分數越高，反之cost越大，相應的獎勵分數越低。因此，透過式（3）確定獎勵分數，可以在控制行銷效果的同時，實現對成本的控制。在一個例子中，可以為f1(X)和f2(cost)中的任一函數賦予權重，以加強或削弱該項的重要程度，例如，可以為f2(cost)賦予權重，即：

其中α為權重值，當α大於1時，將增加成本在確定獎勵分數時所占的比重。在另一個具體的實施例中，可以基於第一函數f1與第二函數f2的差值確定獎勵分數：

在一個例子中，可以為f1(X)和f2(cost)中的任一函數賦予權重，以加強或削弱該項的重要程度，例如，可以為f1(X)賦予權重，即：

其中β為權重值，當β小於1時，將減少行銷效果在確定獎勵分數時所占的比重。在又一個具體的實施例中，預先建立第一函數的多個取值區間和第二函數的多個取值區間所形成的區間組合與獎勵分數的映射關係。接著，根據用戶的執行結果確定第一函數的函數值所落入的第一區間，以及根據成本cost確定第二函數的函數值所落入的第二區間，第一區間與第二區間形成特定區間組合，進而根據上述映射關係，確定對應的獎勵分數。在一個具體的例子中，預先建立的映射關係可以如下式：

其中a、b、c、d、h、i、j、k、A、B、C為常數，對應的具體數值可以根據經驗進行設置調整。需要理解，式（3）-（7）僅僅是針對第一函數和第二函數確定獎勵分數的幾個範例，基於第一函數和第二函數構造的獎勵分數函數Rt，只需要滿足正相關於執行結果與目標效果的匹配度，以及負相關於行銷行為的成本即可。以上，至少根據行銷行為的成本，確定了強化學習的獎勵分數。於是，接下來在步驟35，將該獎勵分數傳回給智慧體，用於所述智慧體最佳化其行銷策略。如前所述，智慧體不斷從環境獲得獎勵分數的反饋，以此確定之前的行銷策略和行銷行為是否恰當，據此最佳化行銷策略。需要說明的是，此處的最佳化行銷策略不僅包括在確定發出的行銷行為不恰當時修改或調整之前的行銷策略，還包括在確定行銷行為效果良好時增強或者維持原有的行銷策略。在本說明書的一個或多個實施例中，由於獎勵分數的確定考慮到了用戶成本，因此，可以實現對行銷行為的成本的控制。在一種實施方式中，獎勵分數的確定還可以考慮用戶響應於行銷行為而產生的執行結果，如此可以同時實現對行銷效果和行銷成本的控制，而不需要分別針對行銷效果和行銷成本設計不同的方法，或者單獨建立模型。此外，本說明書實施例是根據千人千面的思想，針對不同用戶分別選擇既能帶來轉化且成本又比較低的行銷行為，所以，可以在保證用戶轉化的同時，最大限度壓低行銷成本，另一方面，當大盤預算的消耗和流量變化時，推薦所受的影響不大，穩定性更好。另一方面，本說明書實施例還提供一種裝置，該裝置應用於透過深度強化學習進行行銷成本控制的系統，其中深度強化學習系統如圖2B所示包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對所述執行環境的狀態資訊確定行銷行為。上述裝置可以由任何具有計算、處理能力的軟體、硬體或其組合來實現。在一個實施例中，上述裝置可以集成到深度強化學習系統的執行環境中；在另一實施例中，上述裝置可以集成到深度強化學習系統中用於實現智慧體的實體裝置中；在又一實施例中，上述裝置作為獨立裝置，從執行環境中提取資料進行處理，得到獎勵分數，傳回到智慧體。圖4顯示根據一個實施例的裝置的示意性方塊圖。如圖4所示，該裝置400包括：第一確定單元410，配置為確定所述行銷行為的成本；第二確定單元430，配置為至少根據所述成本，確定強化學習的獎勵分數，以使所述獎勵分數與所述成本負相關；傳回單元450，配置為將所述獎勵分數傳回給所述智慧體，用於所述智慧體最佳化其行銷策略。在一個實施例中，所述行銷行為包括發放資源包，所述資源包包括紅包、優惠券、帳單免息券中的至少一種；所述第一確定單元410配置為：確定所述資源包對應的資源份額，並將所述資源份額作為所述成本。在一個實施例中，所述第二確定單元430配置為：獲取針對所述成本構造的函數，至少基於所述函數確定獎勵分數，所述函數被構造為，負相關於所述成本。在一個實施例中，所述第一確定單元410還配置為，從所述執行環境中獲取，用戶響應於所述智慧體確定的行銷行為而產生的執行結果，以及行銷行為所針對的目標效果。進一步地，在一個具體的實施例中，其中所述第二確定單元430配置為：透過分數評估函數確定所述獎勵分數，所述分數評估函數以所述執行結果和所述成本為變量，並被設計為，正相關於所述執行結果與所述目標效果的匹配度，以及負相關於所述行銷行為的成本。在另一個具體的實施例中，其中所述第二確定單元430包括：第一獲取模組431，配置為獲取基於所述執行結果構造的第一函數，所述第一函數被設計為，正相關於所述執行結果與所述目標效果的匹配度；第二獲取模組432，配置為獲取基於所述成本構造的第二函數，所述第二函數被設計為正相關於所述成本；確定模組433，配置為至少基於所述第一函數和所述第二函數確定獎勵分數。更進一步地，在一個例子中，其中所述確定模組433配置為：基於所述第一函數與所述第二函數的比值確定獎勵分數；或者，基於所述第一函數與所述第二函數的差值確定獎勵分數。在另一個例子中，其中所述確定模組433配置為：獲取預先建立的第一函數的多個取值區間和第二函數的多個取值區間所形成的多個區間組合與獎勵分數的映射關係；根據所述執行結果確定所述第一函數的函數值所落入的第一區間，以及根據所述成本確定所述第二函數的函數值所落入的第二區間，所述第一區間和第二區間形成特定區間組合；根據所述映射關係，確定與所述特定區間組合相對應的獎勵分數。由於第二確定單元430至少基於行銷成本來確定獎勵分數，因此，智慧體在最佳化行銷策略時，會對每一個用戶學習能帶來轉化且成本最低的行銷行為，這樣在保證用戶轉化的同時，可以最大限度壓低行銷成本，從而有效地控制總體成本。根據又一態樣的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行圖3所述的方法。根據再一態樣的實施例，還提供一種計算設備，包括儲存器和處理器，所述儲存器中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現結合圖3所述的方法。本領域技術人員應該可以意識到，在上述一個或多個範例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

110‧‧‧行銷資訊 120‧‧‧頁面 130‧‧‧頁面 31〜35‧‧‧步驟 400‧‧‧裝置 410‧‧‧第一確定單元 430‧‧‧第二確定單元 450‧‧‧傳回單元 431‧‧‧第一獲取模組 432‧‧‧第二獲取模組 433‧‧‧確定模組

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。圖1為本說明書披露的一個實施例的推薦行銷的執行示意圖；圖2A顯示典型的深度強化學習系統；圖2B顯示根據一個實施例的深度強化學習推薦行銷系統；圖3顯示根據一個實施例透過深度強化學習系統進行行銷成本控制的方法；圖4顯示根據一個實施例的裝置的示意性方塊圖。

Claims

一種透過深度強化學習系統進行行銷成本控制的方法，所述深度強化學習系統包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對所述執行環境的狀態資訊確定行銷行為，所述方法包括：確定所述行銷行為的成本；至少根據所述成本，確定強化學習的獎勵分數，以使所述獎勵分數與所述成本負相關；將所述獎勵分數傳回給所述智慧體，用於所述智慧體最佳化其行銷策略。
根據申請專利範圍第1項所述的方法，其中，所述行銷行為包括發放資源包，所述資源包包括紅包、優惠券、帳單免息券中的至少一種；所述確定所述行銷行為的成本，包括：確定所述資源包對應的資源份額，並將所述資源份額作為所述成本。
根據申請專利範圍第1項所述的方法，其中，所述確定強化學習的獎勵分數，包括：獲取針對所述成本構造的函數，至少基於所述函數確定獎勵分數，所述函數被構造為負相關於所述成本。
根據申請專利範圍第1項所述的方法，其中，在所述確定強化學習的獎勵分數之前，還包括：從所述執行環境中獲取，用戶響應於所述智慧體確定的行銷行為而產生的執行結果，以及行銷行為所針對的目標效果。
根據申請專利範圍第4項所述的方法，其中，所述確定強化學習的獎勵分數，包括：透過分數評估函數確定所述獎勵分數，所述分數評估函數以所述執行結果和所述成本為變量，並被設計為正相關於所述執行結果與所述目標效果的匹配度，以及負相關於所述行銷行為的成本。
根據申請專利範圍第4項所述的方法，其中，所述確定強化學習的獎勵分數，包括：獲取基於所述執行結果構造的第一函數，所述第一函數被設計為正相關於所述執行結果與所述目標效果的匹配度；獲取基於所述成本構造的第二函數，所述第二函數被設計為正相關於所述成本；至少基於所述第一函數和所述第二函數確定獎勵分數。
根據申請專利範圍第6項所述的方法，其中，所述至少基於所述第一函數和所述第二函數確定獎勵分數，包括：基於所述第一函數與所述第二函數的比值確定獎勵分數；或者基於所述第一函數與所述第二函數的差值確定獎勵分數。
根據申請專利範圍第6項所述的方法，其中，所述至少基於所述第一函數和所述第二函數確定獎勵分數，包括：獲取預先建立的第一函數的多個取值區間和第二函數的多個取值區間所形成的多個區間組合與獎勵分數的映射關係；根據所述執行結果確定所述第一函數的函數值所落入的第一區間，以及根據所述成本確定所述第二函數的函數值所落入的第二區間，所述第一區間和第二區間形成特定區間組合；根據所述映射關係，確定與所述特定區間組合相對應的獎勵分數。
一種透過深度強化學習系統進行行銷成本控制的裝置，所述深度強化學習系統包括智慧體和執行環境，所述智慧體用於根據行銷策略，針對所述執行環境的狀態資訊確定行銷行為，所述裝置包括：第一確定單元，配置為確定所述行銷行為的成本；第二確定單元，配置為至少根據所述成本，確定強化學習的獎勵分數，以使所述獎勵分數與所述成本負相關；傳回單元，配置為將所述獎勵分數傳回給所述智慧體，用於所述智慧體最佳化其行銷策略。
根據申請專利範圍第9項所述的裝置，其中，所述行銷行為包括發放資源包，所述資源包包括紅包、優惠券、帳單免息券中的至少一種；所述第一確定單元配置為：確定所述資源包對應的資源份額，並將所述資源份額作為所述成本。
根據申請專利範圍第9項所述的裝置，其中所述第二確定單元配置為：獲取針對所述成本構造的函數，至少基於所述函數確定獎勵分數，所述函數被構造為負相關於所述成本。
根據申請專利範圍第9項所述的裝置，其中所述第一確定單元還配置為從所述執行環境中獲取用戶響應於所述智慧體確定的行銷行為而產生的執行結果，以及行銷行為所針對的目標效果。
根據申請專利範圍第12項所述的裝置，其中所述第二確定單元配置為：透過分數評估函數確定所述獎勵分數，所述分數評估函數以所述執行結果和所述成本為變量，並被設計為正相關於所述執行結果與所述目標效果的匹配度，以及負相關於所述行銷行為的成本。
根據申請專利範圍第12項所述的裝置，其中所述第二確定單元包括：第一獲取模組，配置為獲取基於所述執行結果構造的第一函數，所述第一函數被設計為正相關於所述執行結果與所述目標效果的匹配度；第二獲取模組，配置為獲取基於所述成本構造的第二函數，所述第二函數被設計為正相關於所述成本；確定模組，配置為至少基於所述第一函數和所述第二函數確定獎勵分數。
根據申請專利範圍第14項所述的裝置，其中所述確定模組配置為：基於所述第一函數與所述第二函數的比值確定獎勵分數；或者基於所述第一函數與所述第二函數的差值確定獎勵分數。
根據申請專利範圍第14項所述的裝置，其中所述確定模組配置為：獲取預先建立的第一函數的多個取值區間和第二函數的多個取值區間所形成的多個區間組合與獎勵分數的映射關係；根據所述執行結果確定所述第一函數的函數值所落入的第一區間，以及根據所述成本確定所述第二函數的函數值所落入的第二區間，所述第一區間和第二區間形成特定區間組合；根據所述映射關係，確定與所述特定區間組合相對應的獎勵分數。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行申請專利範圍第1至8項中任一項的所述的方法。
一種計算設備，包括儲存器和處理器，其中，所述儲存器中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現申請專利範圍第1至8項中任一項所述的方法。