WO2020164333A1

WO2020164333A1 - 基于强化学习模型的业务用户分流方法和装置

Info

Publication number: WO2020164333A1
Application number: PCT/CN2020/070055
Authority: WO
Inventors: 龙翀; 王雅芳
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-02-13
Filing date: 2020-01-02
Publication date: 2020-08-20
Also published as: CN109993314A; CN109993314B; TW202034674A; TWI743558B

Abstract

一种对请求业务的用户进行分流的方法和装置，所述方法包括：获取第一时刻的状态作为第一状态(S202)，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；将第一状态输入Q学习模型，以基于模型的输出获取在第一状态下与第一业务及至少一个第二业务中的各个业务分别对应的各个第一Q值(S204)；以及基于各个第一Q值，在第一业务及至少一个第二业务中确定分配给第一用户的业务，并基于确定的业务回复第一用户(S206)。

Description

基于强化学习模型的业务用户分流方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种基于强化学习对请求业务的用户进行分流的方法和装置。

背景技术

随着公司业务的不断扩大，如何为顾客提供优质的客户服务体验是大多数公司都关心的问题。热线客服和在线客服是客户服务的重中之重。然而在不同的日期(工作日、周末、或“双十一”)，或者同一天不同的时间段(白天或晚上)，客户拨打热线或使用在线的频率是不一样的，高峰时间段必然会给客服人员造成巨大的压力。如果调度不好的话，会延长用户的等待时间，甚至让用户的诉求无法得到及时的解决，从而极大影响用户体验。通用的解决高峰时间段的方法是，按照用户特点的不同以及接受能力的不同，推荐一部分合适的用户退出热线，采用APP、自助、在线客服等方式得到他们想要的答案。这样能够减轻高峰时段客服的压力，缩短用户等待时间，提高用户的满意度。传统的调度方法有基于规则的、机器学习的方法等。

因此，需要一种更有效的对公司业务的用户进行分流的方案。

发明内容

本说明书实施例旨在提供一种更有效的基于强化学习对请求业务的用户进行分流的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种对请求第一业务的用户进行分流的方法，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述方法包括：

获取该第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。

在一个实施例中，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定用于接入所述第一用户的业务包括，将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为用于接入所述第一用户的业务。

在一个实施例中，所述第一业务为电话客服，所述至少一个第二业务包括以下至少一种业务：人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。

在一个实施例中，所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定：所述第一用户的用户画像、所述第一用户的历史行为。

在一个实施例中，所述Q学习模型通过以下步骤训练：

当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。

在一个实施例中，在所述确定的业务为第一业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值为第一分值，在所述确定的业务为任一第二业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。

在一个实施例中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述回报值减小。

在一个实施例中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小，所述回报值越小。

本说明书另一方面提供一种对请求第一业务的用户进行分流的装置，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述装置包括：

获取单元，配置为，获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

输入单元，配置为，将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

确定单元，配置为，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。

在一个实施例中，所述确定单元还配置为，将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为用于接入所述第一用户的业务。

在一个实施例中，所述Q学习模型通过训练装置训练，所述训练装置包括：

第一获取单元，配置为，当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

第二获取单元，配置为，获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

第三获取单元，配置为，获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

输入单元，配置为，将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

计算单元，配置为，基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

训练单元，配置为，基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

在根据本说明书实施例的业务用户分流方案，通过使用强化学习模型，可综合考虑环境因素及决策后的反馈，及时持续地对模型进行调整，从而提高决策的精度，以提高用户的体验。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出根据本说明书实施例用于业务客户引流的装置100的示意图；

图2示出根据本说明书实施例的一种对请求第一业务的用户进行分流的方法流程图；

图3示出根据本说明书实施例的训练Q学习模型的方法流程图；

图4示出根据本说明书实施例的对请求第一业务的用户进行分流的装置400；

图5示出根据本说明书实施例的用于训练Q学习模型的训练装置500。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示出根据本说明书实施例用于业务客户引流的装置100的示意图。如图1所示，装置100中包括：Q学习模型11、决策模块12、以及训练模块13。所述业务例如为平台(例如淘宝平台)的电话客服业务，在高峰时段，拨入客服电话的客户过多时，为提高客户体验，减轻客服压力，需要对部分拨入的客户进行引流。可以将客户引流到多个其它业务中，如人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询等，所述人工在线客服、机器人在线客服、知识库自助查询例如可通过平台APP进行。假设，采用两个用于引流的其它业务，如在线客服和自助查询。可将电话客服、在线客服和自助查询示为Q学习模型中可采用的三个动作b ₁、b ₂和b ₃。

例如，在第一用户拨入客服电话时，在通过Q学习模型11进行对该第一用户的引流时，首先向Q学习模型11输入第一时刻的环境状态s ₁，第一时刻即为第一用户拨入电话的时刻，该状态s ₁例如包括：第一用户在第一时刻对上述各个业务的倾向度(接受概率)、每个业务在第一时刻的接待容量、以及每个业务的在自第一时刻开始的预定时段内的预估的用户增量等等。Q学习模型11基于该状态s ₁计算与每个动作对应的Q值，即Q(s ₁,b ₁)、Q(s ₁,b ₂)和Q(s ₁,b ₃)。在决策模块12中，可基于这三个Q值，通过预定的决策算法进行动作的决策，即确定在电话客服、在线客服和自助查询中选择哪个业务分配给该第一用户，从而获取a ₁，a ₁为b ₁、b ₂和b ₃中选定的一个。

在确定a ₁之后，可在客服电话中基于a ₁进行对该第一用户的拨入电话的处理。例如，所述a ₁可能为电话客服，则可直接为该第一用户接通电话客服。例如，所述a ₁可能为在线客服，则可在电话中语音建议该第一用户改用在线客服的方式进行询问。该第一用户针对上述建议可能有不同的反馈，其例如接受该建议或不接受该建议，在第一用户不接受上述建议的情况中，该第一用户仍在客服电话中等待。第一客户的反馈对环境状态产生影响，例如对各个业务的容量产生影响。基于用户对该建议的是否接受、以及各个业务的容量变化，可确定由动作a ₁引起的该Q学习模型的回报值r ₁。

紧接着第一用户的拨入电话之后，在平台接到下一个拨入电话时，可获取环境状态s ₂，该下一个拨入电话例如是第二用户在第二时刻拨入的。则，状态s ₂包括第二用户在第二时刻对上述各个业务的倾向度(接受概率)、每个业务在第二时刻的接待容量、以及每个业务的在自第二时刻开始的预定时段内的预估的用户增量等等。

在训练阶段，通过将状态s ₂输入Q学习模型11，可同样获取与三个业务分别对应的三个Q值，基于该三个Q值中的最大值和上述回报值r ₁，可在训练模块13中计算Q(s ₁，a ₁)的标签值

基于该标签值、s ₁和a ₁可通过梯度下降法训练Q学习模型，从而更新Q学习模型的参数。

可以理解，本说明书实施例中的需要引流的业务不限于上述电话客服业务，而可以任何具有有限可接收用户总数的业务。例如，各种在线游戏、订票业务等等。另外，本说明书实施例中的可选的动作也不限于为3个，而可以根据具体的场景需要进行设定。

下面对上述用户分流方法进行详细描述。

图2示出根据本说明书实施例的一种对请求第一业务的用户进行分流的方法流程图，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述方法包括：

在步骤S202，获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

在步骤S204，将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

在步骤S206，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。

首先，在步骤S202，获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量。

如参考图1中所述，所述第一业务例如为电话客服业务，所述第二业务例如包括在线客服和自助查询两个业务。第一用户可为平台的任一用户。需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。在第一用户拨入客服电话时，也即请求该电话客服业务。平台在接到该请求之后，可获取整个环境的当前状态作为用于输入Q学习模型的s ₁。

在本说明书实施例中，环境状态s与时刻相对应，包括三个方面的特征U、C、e，即，可将t时刻的状态s _t表示为s _t＝(U _t,C _t,e _t)。其中，U _t、C _t和e _t都是N维的向量，N为Q学习模型中的动作总数，例如如参考图1中所述，为3，也就是说U _t和C _t的每个维度与一个动作相对应。U _t表示在t时刻的相关用户的用户倾向度，每一维度上的值(例如在0到1之间)表示该用户对对应动作的接受概率。例如，对于上述客服电话的场景，U _t表示在t时刻拨入客服电话的用户的用户倾向度。在总共有电话客服、在线客服和自助查询三个动作选项的情况中，一般说来，可以认为所有用户接受“人工热线”的概率很高(例如100％)。在其他维度(在线客服和自助查询)上，不同用户的接受概率基于其以下至少一项确定：用户画像、历史行为。所述用户画像例如可通过相应模型定期获取，例如所述用户画像中包括“老人”特征，通常，老人不善于通过使用手机、计算机等进行在线的客服咨询或自助查询，因此，该用户对“在线客服”和“自助查询”的接受概率都可以设定为较低。所述用户的历史行为例如为用户在过去拨入客服电话时对这些客服和自助查询的接受或拒绝接受的历史，基于用户在过去接受例如在线客服的占比，可估计该用户在本次接受在线客服引流的概率。或者，可综合考虑用户画像和用户历史行为，例如可将用户画像转换为数值，并基于用户画像数值与接受次数占比的加权和，获取用户对相应动作的接受概率。

C _t表示在t时刻每个动作维度上接待能力的剩余参考值(可以称之为每个维度上的“容量”)。该值允许为负，在该值为负的情况中，表示在这个维度上出现了用户拥挤等待的情况；在该值为正的情况中，表示这个维度接待能力尚有剩余。例如，对于电话客服、在线客服和自助查询三种情况，可基于电话客服、在线客服在t时刻实际可接待的用户数目确定C _t中这两个维度的值，并可将C _t中在对应于自助查询的维度的值设定为较大值。

e _t表示在下一个时间区间(t,t+T _d)内，每个维度上的用户增量(预计新拨进来的用户数减去通话结束用户数)，T _d表示时间间隔长度，例如每5分钟的时间间隔。e _t可基于历史数据估计，或者可通过预定算法预测获取。可以理解，所述状态s不限于仅包括上述三个方面的特征U、C、e，还可以包括其他特征，例如，还可以包括用户画像特征、每个动作维度对应的动作特征(如业务接入成本、业务营业时间)等等。

假设第一用户进行对所述第一业务的请求的时刻为时刻1，则可获取与该时刻1对应的状态s ₁＝(U ₁,C ₁,e ₁)，其中，U ₁、C ₁和e ₁可分别基于上述方法获取。

在步骤S204，将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值。

如本领域技术人员所知，Q学习模型通过神经网络实现，通过向该神经网络输入状态s和动作a，可从该神经网络输出与状态s和动作a对应的Q值(即，Q(s,a))。在获取上述状态s ₁之后，假设上述电话客服、在线客服和自助查询三个动作分别以b ₁、b ₂和b ₃表示，在一个实施例中，可将(s ₁，b ₁)、(s ₁，b ₂)和(s ₁，b ₃)分别输入Q学习模型，从而基于所述神经网络分别输出与(s ₁，b ₁)、(s ₁，b ₂)和(s ₁，b ₃)分别对应的各个第一Q值Q ₁、Q ₂和Q ₃，即，Q ₁＝Q(s ₁，b ₁)、Q ₂＝Q(s ₁，b ₂)、Q ₃＝Q(s ₁，b ₃)。在一个实施例中，可仅将s ₁输入Q学习模型，从而基于所述神经网络分别输出与(s ₁，b ₁)、(s ₁，b ₂)和(s ₁，b ₃)分别对应的Q ₁、Q ₂和Q ₃。

在获取各个第一Q值(例如上述Q ₁、Q ₂和Q ₃)之后，可基于预定的决策算法确定将要执行的动作a ₁，即，确定分配给第一用户的业务。在一个实施例中，可将与Q ₁、Q ₂和Q ₃中的最大值对应的业务分配给第一用户。在一个实施例中，可基于ε-贪婪策略确定动作a ₁。在确定动作a ₁之后，可基于动作a ₁进行对所述第一用户的请求的回复，也即，在环境中实施动作a ₁。例如，在上述第一用户拨入客服电话的情况中，如果a ₁为b ₁，即电话客服，则将第一用户电话转接至电话客服，如果a ₁为b ₂，即在线客服，则在电话中通过语音建议第一用户通过在线客服的方式进行咨询。

在通过图2所示方法基于Q学习模型确定与状态s ₁对应的a ₁，并在环境中实施动作a ₁之后，可确定该动作a ₁的回报值r ₁。在接收与第一用户请求紧接的下一个用户的请求的时刻，可获取s ₂，从而可基于s ₁、a ₁、r ₁和s ₂进行对Q学习模型的一次训练。

图3示出根据本说明书实施例的训练Q学习模型的方法流程图，包括以下步骤：

在步骤S302，当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

在步骤S304，获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

在步骤S306,获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

在步骤S308，将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

在步骤S310，基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

在步骤S312，基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。

首先，在步骤S302，当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务。

所述第一用户的反馈可以是接受a ₁，或者不接受a ₁。例如，a ₁为上述b ₁，即转接至电话客服，在该情况中，可以认为第一用户的反馈100％为接受。在一种情况中，a ₁例如为b ₂，即建议第一用户通过在线客服进行咨询，在该情况中，如果第一用户的反馈是接受该a ₁，则第一用户退出该拨入的电话，并通过例如app联系在线客服，如果第一用户的反馈为不接受该a ₁，则第一用户仍然等待接入电话客服。

在步骤S304，获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量。

也就是说，在该步骤中，获取通过在环境中实施上述动作a ₁所获取的回报值r ₁。在本说明书实施例中，可通过以下公式(1)获取与s ₁、a ₁对应的回报值r ₁：

其中，

为第一用户接受动作a ₁的奖励，如果第一用户不接受，则该值为0。在一个实施例中，例如，当确定的业务a ₁为b ₁时，即电话客服，在该情况中，可以认为用户会100％接受a ₁，在该情况中，可将

设定为

当确定的业务a ₁为b ₂或b ₃时，可将对应的

分别设定为

和

由于模型(agent)让用户接受b ₂或b ₃的难度相比于接受b ₁的难度更大，因此，可将

和

都设定为大于

另外，可根据用户分别接受b ₂和b ₃的难度，确定

和

的相对大小。在一个实施例中，可将

设为0，将

和

都设定为正数。

也为N维的向量，表示在实施动作a ₁后N个动作维度每个维度的容量变化。在上述N＝3的电话客服场景中，例如，a ₁＝b ₃，即在电话中向第一用户建议使用自助查询，在该情况中，如果第一用户接受该建议，则自助查询的容量减1，即ΔC _b3＝-1；如果第一用户拒绝自助查询并继续等待直到被转接至客服电话，则客服电话的容量减1，即，ΔC _b1＝-1。

通过公式(1)中的Relu函数，当

中的任一维度值大于等于零时，该维度值经Relu函数作用为0，对回报值r ₁不产生影响。当

中至少一个维度值小于零时，该至少一个维度值的每个经Relu函数作用为至少一个正数，对该至少一个正数取最大值，并基于该最大值减小回报值r ₁，也即，将该最大值乘以预定参数λ，并从r ₁中减去该乘积。由于通常等待用户数目比较大，可将λ设定为0.7～0.9,以与公式(1)中的第一项相平衡。也就是说，当

中任一维度值小于零时，表示该维度出现了用户拥挤等待的情况，因此对该结果给与负的回报值，以使得模型减少该情况的出现。

可以理解，公式(1)仅是本说明书实施例中对回报值r1的示例计算方法，本说明书实施例中不限于该公式，例如，激活函数不限于使用Relu函数，而可以使用σ函数等，从而不限于在

小于零时，对回报值r1起作用，在

大于零时，也可以通过比较各个维度值的大小而对回报值r1起作用。

在步骤S306,获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量。

在如上文所述，在第一用户进行对第一业务的请求时，获取该时刻的环境状态s ₁(即时刻t＝1的第一状态)，在平台接收到与该第一用户的请求紧接着的第二用户的请求时，可获取该时刻的环境状态s ₂(即时刻t＝2的第二状态)。与s ₁中各项相对应的，s ₂中可包括如下三项：

其中，U ₂表示第二用户在时刻2分别对所述第一业务及至少一个所述第二业务的接受概率，

表示在经过上述动作a ₁之后所述第一业务及至少一个所述第二业务各自在时刻2的可接入的用户数量、以及e ₂表示所述第一业务及至少一个所述第二业务各自的在从时刻2开始的预定时段内的预估用户增量。其中，U ₂和e ₂可通过与上文中对U ₁和e ₁的获取方式相同的方式获取，

可在上述对公式(1)的计算中获取，从而可获取模型的第二状态s2。可以理解，这里第二用户可以是平台中的任一用户，其也可能是上述第一用户。

在步骤S308，将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值。

与上文中向模型输入状态s ₁类似地，通过向Q学习模型输入s ₂，可获取模型输出Q(s ₂,b ₁)、Q(s ₂,b ₂)和Q(s ₂,b ₃)，将其都称为第二Q值，以与上文中与状态s ₁对应的各个第一Q值相区分。

在步骤S310，基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值。

在Q学习算法中，通常通过以下公式(2)更新Q值：

Q(s _t，a _t)←Q(s _t，a _t)+α(r _t+γmax _NQ(s _t+1，a _t+1)-Q(s _t，a _t)) (2)

在一个实施例中，通过将参数α设定为1从而可获取如下公式(3)：

Q(s _t，a _t)←r _t+γmax _NQ(s _t+1，a _t+1) (3)

其中，γ为预定参数。可以理解，在参数α不等于1的情况中，同样可通过将公式 (2)右侧的Q(s _t，a _t)移到公式左侧，从而使得Q(s _t，a _t)的标签值可基于r _t+γmax _MQ(s _t+1，a _t+1)计算获取。

从而，基于公式(3)，通过将上述计算的r ₁和各个第二Q值中的最大值代入公式(3)，可将计算的Q(s ₁，a ₁)值作为通过图2所示方法获取的

预测值的标签值。

在获取Q值标签值之后，可基于例如如公式(4)所示的损失函数进行对Q学习模型的训练：

L＝(Q(s ₁，a ₁，θ)-(r ₁+γmax _NQ(s ₂，a ₂))) ² (4)

其中，θ代表Q学习模型中的当前全部参数。在该Q学习模型初始进行模型预测时，模型中的各个参数可随机初始化。通过梯度下降法调整参数θ，从而可使得Q学习模型的输出值

更接近如公式(3)所示的预测值，从而使得模型预测更加准确。可以理解，在本说明书实施例中，不限于通过如公式(4)所示的损失函数进行模型训练，而可以采用本领域技术人员熟知的各种损失函数的形式，例如可以采用差的绝对值等形式。

该强化学习模型可随着更多的用户请求(例如拨通的客服电话)，而不断通过图3所示方法进行多次训练，如果系统将结束(终止或重启)，可以把当前训练出的模型保存起来，并在下次系统启动时重新载入以继续训练。在训练次数达到足够多之后，该学习模型可趋于收敛，从而可停止训练。

图4示出根据本说明书实施例的对请求第一业务的用户进行分流的装置400，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述装置包括：

获取单元41，配置为，获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

输入单元42，配置为，将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

确定单元43，配置为，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。

在一个实施例中，所述确定单元43还配置为，将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为用于接入所述第一用户的业务。

图5示出根据本说明书实施例的用于训练Q学习模型的训练装置500，包括：

第一获取单元51，配置为，当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

第二获取单元52，配置为，获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

第三获取单元53，配置为，获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

输入单元54，配置为，将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

计算单元55，配置为，基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

训练单元56，配置为，基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种对请求第一业务的用户进行分流的方法，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述方法包括：

获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。
根据权利要求1所述的方法，其中，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定用于接入所述第一用户的业务包括，将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为用于接入所述第一用户的业务。
根据权利要求1所述的方法，其中，所述第一业务为电话客服，所述至少一个第二业务包括以下至少一种业务：人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。
根据权利要求1所述的方法，其中，所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定：所述第一用户的用户画像、所述第一用户的历史行为。
根据权利要求1所述的方法，其中，所述Q学习模型通过以下步骤训练：

当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
根据权利要求5所述的方法，其中，在所述确定的业务为第一业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值为第一分值，在所述确定的业务为任一第二业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。
根据权利要求5所述的方法，其中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述回报值减小。
根据权利要求7所述的方法，其中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小，所述回报值越小。
一种对请求第一业务的用户进行分流的装置，其中，所述第一业务与至少一个第二业务相对应，所述至少一个第二业务用于分流请求所述第一业务的用户，所述装置包括：

获取单元，配置为，获取第一时刻的状态作为第一状态，所述第一时刻为第一用户进行对所述第一业务的请求的时刻，其中，所述第一状态至少包括：所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量；

输入单元，配置为，将所述第一状态输入Q学习模型，以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值；以及

确定单元，配置为，基于所述各个第一Q值，在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务，并基于所述确定的业务回复所述第一用户。
根据权利要求9所述的装置，其中，所述确定单元还配置为，将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为用于接入所述第一用户的业务。
根据权利要求9所述的装置，其中，所述第一业务为电话客服，所述至少一个第二业务包括以下至少一种业务：人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。
根据权利要求9所述的装置，其中，所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定：所述第一用户的用户画像、所述第一用户的历史行为。
根据权利要求9所述的装置，其中，所述Q学习模型通过训练装置训练，所述训练装置包括：

第一获取单元，配置为，当在基于所述确定的业务回复所述第一用户之后，获取所述第一用户的反馈，以确定所述第一用户是否接受所述确定的业务；

第二获取单元，配置为，获取该回复对应的回报值，所述回报值基于如下两项获取：在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量；

第三获取单元，配置为，获取第二时刻的状态作为第二状态，所述第二时刻为第二用户进行对所述第一业务的请求的时刻，所述第二用户的请求为紧接着所述第一用户的请求的下一个请求，其中，所述第二状态至少包括：所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量；

输入单元，配置为，将所述第二状态输入所述Q学习模型，以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值；

计算单元，配置为，基于所述回报值和所述各个第二Q值中的最大值，计算与所述第一状态和所述确定的业务对应的Q值标签值，以及

训练单元，配置为，基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型，以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
根据权利要求13所述的装置，其中，在所述确定的业务为第一业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值为第一分值，在所述确定的业务为任一第二业务的情况中，在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。
根据权利要求13所述的装置，其中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述回报值减小。
根据权利要求15所述的装置，其中，在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中，所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小，所述回报值越小。
一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。
一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。