WO2019001120A1

WO2019001120A1 - 商品动态定价数据处理方法和系统

Info

Publication number: WO2019001120A1
Application number: PCT/CN2018/084382
Authority: WO
Inventors: 宋磊
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2017-06-29
Filing date: 2018-04-25
Publication date: 2019-01-03
Also published as: CN107123004A

Abstract

本公开提供了一种商品动态定价数据处理方法和系统，涉及数据处理领域。该方法包括：获取商品的历史销售数据；根据历史销售数据，确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法迭代计算，确定商品的最优价格；其中，预期目标为在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益。本公开基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，能够最大限度的提高商品的收益。

Description

商品动态定价数据处理方法和系统

相关申请的交叉引用

本申请是以CN申请号为201710510912.7，申请日为2017年6月29的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及数据处理领域，尤其涉及一种商品动态定价数据处理方法和系统。

背景技术

随着电子商务的发展，大型电子商务公司通常经营数百万的商品，其中大部分商品是自采自销，并存储在自有的仓库中。在数量众多的商品中，难免会有很多商品由于各种原因产生了滞销，滞销产品一方面占用了公司的大量流动资金，另一方面也占用了宝贵的库存资源。相较于传统零售行业，电子商务公司对库存效率的要求更高，标准更严格。库存成本的精细化控制对于整个公司的运营有着很大的影响，因此对于滞销产品的有效处理对于公司的发展有着重大的影响。

发明内容

发明人认识到，相关技术中，可以利用算法拟合出每个商品的价格弹性参数，并据此预测出某个商品在给定价格条件下的销量，然后，结合现有的库存水平以及期望清仓的时长自动推荐一个最合理的定价，但相关算法无法对建议价格进行动态调整。价格弹性参数在确定后，在整个滞销清仓期间都不会改变，因而缺乏根据最新数据进行自我更新的能力。由于商品在正常销售期间和滞销清仓期间的量价关系很有可能是不同的，而相关算法采用的是正常销售期间的价格弹性参数，因此，这对定价准确度会有一定的影响。另外，因为任何预测都难免会出现误差，在预测销量和实际销量出现偏差时，现有静态模型无法得到反馈并做出相应的调整，所以即使商品的量价关系在滞销清仓期间变化不大，采用静态的量价关系也会影响定价的准确度。再者，相关算法不支持对建议价格进行人为干预。在算法给出建议价格后，出于种种原因，用户有可能对价格进行调整，从而导致相关算法对接下来的清仓效果评估产生偏差，同时，相关算法无法根据当前价格调整未来的定价策略。

本公开要解决的一个技术问题是：提供一种商品动态定价数据处理方法和系统，在清库存的前提下，最大限度的提高商品的收益。

根据本公开的一些实施例，提出一种商品动态定价数据处理方法，包括：获取商品的历史销售数据；根据历史销售数据，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，确定商品的最优价格；其中，预期目标为商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益。

可选地，确定商品的销量均值；基于当前库存量、预期库存量和销量均值，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。

可选地，根据预定价格确定第一价格区间；判断在第一价格区间的历史销售数据的数量是否大于等于阈值；若在第一价格区间的历史销售数据的数量大于等于阈值，则根据第一价格区间的每天的历史销量数据确定商品的销量均值；若在第一价格区间的历史销售数据的数量小于阈值，则将第一价格区间逐渐扩大到第二价格区间，以使第二价格区间的历史销售数据的数量大于等于阈值，利用量价模型确定商品在第二价格区间的价格弹性参数，根据价格弹性参数确定商品的销量均值。

可选地，利用最大似然估计算法若确定商品的销量服从正太分布，则基于销量均值和销量标准差确定销量概率密度函数，以当前库存量与预期库存量之差减预定值为下限，以当前库存量与预期库存量之差为上限，对所述销量概率密度函数进行积分计算，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，所示销量标准差根据销量均值利用标准差公式确定。

可选地，利用最大似然估计算法若确定商品的销量服从拿泊松分布，则利用公式

确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，S为当前库存量，S'为预期库存量，μ为销量均值。

可选地，根据以下公式确定商品的最优价格；F(S,0)＝0；F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格，T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，当前库存量为S时的累计收益，F(S',i-1)为剩余清仓时长为i-1，预期库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。

根据本公开的另一些实施例，还提出一种商品动态定价数据处理系统，包括：数据获取单元，用于获取商品的历史销售数据；概率确定单元，用于根据历史销售数据，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；最优价格确定单元，用于以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，确定商品的最优价格；其中，预期目标为商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益。

可选地，概率确定单元用于确定商品的销量均值；基于当前库存量、预期库存量和销量均值，确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。

可选地，概率确定单元还用于根据预定价格确定第一价格区间；判断在第一价格区间的历史销售数据的数量是否大于等于阈值；若在第一价格区间的历史销售数据的数量大于等于阈值，则根据第一价格区间的每天的历史销量数据确定商品的销量均值；若在第一价格区间的历史销售数据的数量小于阈值，则将第一价格区间逐渐扩大到第二价格区间，以使第二价格区间的历史销售数据的数量大于等于阈值，利用量价模型确定商品在第二价格区间的价格弹性参数，根据价格弹性参数确定商品的销量均值。

可选地，概率确定单元还用于利用最大似然估计算法若确定商品的销量服从正太分布，则基于销量均值和销量标准差确定销量概率密度函数，以当前库存量与预期库存量之差减预定值为下限，以当前库存量与预期库存量之差为上限，对销量概率密度函数进行积分计算，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，所示销量标准差根据销量均值利用标准差公式确定。

可选地，概率确定单元还用于利用最大似然估计算法若确定商品的销量服从拿泊松分布，则利用公式

确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，S为当前库存量，S'为预期库存量，μ为销量均值。

可选地，最优价格确定单元用于根据以下公式确定商品的最优价格；F(S,0)＝0；F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格，T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，当前库存量为S'时的累计收益，F(S',i-1)为剩余清仓时长为i-1，预期库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。

根据本公开的另一些实施例，还提出一种商品动态定价数据处理系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的方法。

根据本公开的另一些实施例，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的方法的步骤。

与相关技术相比，本公开实施例基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，能够最大限度的提高商品的收益。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开商品动态定价数据处理方法的一些实施例的流程示意图。

图2为本公开商品动态定价数据处理方法的另一些实施例的流程示意图。

图3为本公开商品动态定价数据处理系统的一些实施例的结构示意图。

图4为本公开商品动态定价数据处理系统的一些实施例的应用架构图。

图5为本公开商品动态定价数据处理系统的另一些实施例的结构示意图。

图6为本公开商品动态定价数据处理系统的再一些实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

图1为本公开商品动态定价数据处理方法的一些实施例的流程示意图。该方法包括以下步骤110-140。

在步骤110，获取商品的历史销售数据。例如，可以提取预定时间段内该商品成交价在α-0.5到α+0.5之间的销售记录，其中，α为商品销售的价格，销售数据包括销量数据、售价等。

在步骤120，根据历史销售数据，确定商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。

在步骤130，以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型。预期目标为商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益，其中，预期收益可以是预期销售额也可以是预期最大毛利。马尔科夫决策过程(Markov Decision Process，简称MDP)是一种数学模型，用于处理部分随机、部分有决策者控制系统的最优化调度问题。马尔科夫决策过程可以表示为一个如下的元组：

M＝(Sta,Act,T,R)

其中，Sta为一个状态集合；Act是一个包含所有决策的集合；T对所有形如(S,α,S')的状态转移规则指定一个合适的概率，即给定一个状态S、一个决策α和一个后续状态S'，T(S,α,S')表示在执行决策α的情况下，从S转移到S'的概率；R为奖励函数，即执行某个规则的时候，系统能够获得的奖励。具体到滞销模型中，状态为某商品所有可能的库存量，决策为该商品所有可能的定价。奖励函数R的设定取决于给定的目标，如目标为最大化销售额，则规则(S,α,S')对应的奖励为(S-S')×α，其中(S-S')表示库存量的变化，即当天该商品销售的数量，α为商品在当天的售价。如目标设定为最大化毛利，则对应的奖励应为(S-S')×(α-P _cost)，其中P _cost为该商品的成本价。

该马尔科夫决策模型的主要任务是确定状态转移概率T(S,α,S')，即每条规则(S,α,S')对应的概率，也即在价格为α的情况下，一天销售(S-S')的概率。

在步骤140，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，动态确定商品的最优价格。增强学习又称为强化学习，属于机器学习领域，强调如何基于外部环境的变化动态调整策略，以最大化预期的收益。例如，以价格α为变量，以为剩余清仓时长为i，库存量为S时的累计收益F(S,i)为目标函数进行迭代计算，使得F(S,i)取得最大值，当F(S,i)取得最大值时的α的取值为商品的最优价格。

在一些实施例中，可以利用如下公式计算商品的最优价格，该公式可以称为Bellman(最短路径算法)等式。

F(S,0)＝0；

F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格， T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，库存量为S时的累计收益，F(S',i-1)为剩余清仓时长为i-1，库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。

在该实施例中，基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，在针对滞销品时，能够在清库存的前提下，最大限度的提高商品的收益。

图2为本公开商品动态定价数据处理方法的另一些实施例的流程示意图。本公开在滞销品销售环节能够起到良好效果，下面将以滞销品为例进行说明，该方法包括以下步骤210-290。

在步骤210，获取滞销品的历史销售数据。

在步骤220，根据预定价格确定第一价格区间。例如，预定价格为α，则可以确定第一价格区间为α-0.5到α+0.5。本领域的技术人员应当理解，根据不同滞销品价值的不同，可以设定不同的价格区间。

在步骤230，判断在第一价格区间的历史销售数据的数量是否大于等于阈值，若大于阈值，则执行步骤240，否则，执行步骤250。例如，若销售记录的数量超过30天，则认为数据可用，否则，认为数据过少。

在步骤240，根据第一价格区间的每天的历史销量数据确定滞销品的销量均值。其中，在价格变动不大的情况下，可以假设销量符合正太分布，这种假设在大部分滞销品销售中能够得到验证。其中，可以利用最大似然估计算法确定滞销品的销量服从正太分布。若历史销量表示为(Q _N,Q _N-1,...,Q ₁)，其中，N为销售的天数。拟合的正太分布的均值μ如下所示：

在步骤250，将第一价格区间逐渐扩大到第二价格区间，以使第二价格区间的历史销售数据的数量大于等于阈值。例如，当在给定的价格区间销售记录的数量少于30，无法拟合出可信的分布时，则逐步增大价格区间直到有足够数量的历史记录。

在步骤251，利用量价模型确定滞销品在第二价格区间的价格弹性参数。量价模型是一种经济模型，用于衡量滞销品对于价格变动的敏感度。量价模型具体如下所示：

Q＝a×P ^b

其中，Q为销量参数、P为价格参数、a和b为价格弹性参数，该公式需要通过历史信息，利用最小二乘法拟合。以滞销品A为例，详细步骤如下：

将公式Q＝a×P ^b两边取自然对数，转换为logQ＝b×logP+loga。取滞销品A前N天的历史销量和历史成交价，分别记为(P _N,P _N-1,...P ₁)和(Q _N,Q _N-1,...,Q ₁)。将历史销量和历史成交价分别取自然对数，取得以下数据(P' _N,P' _N-1,...,P ₁')和(Q' _N,Q' _N-1,...,Q ₁')，其中，P′ _i＝logP _i,Q′ _i＝logQ _i,1≤i≤N。再利用最小二乘法拟合系数a'，b'使得

的取值最小，最后，使a＝e ^a′，b＝e ^b′。

在步骤252，根据价格弹性参数确定滞销品的销量均值。利用公式μ＝a×α ^b，确定销量均值。

在步骤260，根据销量均值利用标准差公式计算销量标准差δ。例如：

在步骤270，基于当前库存量、预期库存量、销量均值和销量标准差，确定滞销品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。

例如，基于销量均值和销量标准差确定销量概率密度函数，以当前库存量与预期库存量之差减预定值为下限，以当前库存量与预期库存量之差为上限，对销量概率密度函数进行积分计算，确定滞销品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，预定值例如为1，则具体公式可以为

其中，S为当前库存量，S'为预期库存量，μ为销量均值，δ为销量标准差。

在一些实施例中，若经过步骤240-260不能取得满意的拟合结果时，可以参考同一品类下的其他相似商品的历史销量，用以填充当前滞销品的销量数据，在获得足够销量的数据后，重新利用步骤240-260对规则概率进行拟合。

在步骤280，以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型。

在步骤290，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，动态确定滞销品的最优价格。

其中，拟合MDP主要体现的是给定滞销品库存量、价格、销量之间的动态转换关系。利用增强学习技术，可以自动计算出一个最优的定价策略，使得给定的目标最大化。

通过上述方法，可以确定出某滞销品在任意给定库存水平、价格和清仓周期条件下的最优定价策略和预期达到的目标，避免人为决策带来的主观性和不准确性，能够为企业节省大量的库存成本，也避免了不必要的损失。

另外，该实施例在历史信息缺失的情况下，利用经典量价模型对缺失的信息进行回填，提升了模型拟合的准确度，解决信息缺失情况下的滞销定价问题。

在上述实施例中，当在人为设定一个价格的情况下，在系统监控到出现偏差时，可以支持动态调整最优策略，对预期的销量进行更为准确的预测，并据此建议一个最佳的调整策略，从而达到同时支持人工干预和动态调整的目的。

在本公开的另一些实施例中，利用最大似然估计算法若确定滞销品的销量服从拿泊松分布，则在步骤260中，利用公式

确定滞销品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，S为当前库存量，S'为预期库存量，μ为销量均值。

本领域的技术人员应当理解，在滞销品的销量可以拟合出服从正太分布，也可以使拿泊松分布，还可以是拟合为其他分布，利用相应的公式计算出滞销品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率即可。

图3为本公开商品动态定价数据处理系统的一些实施例的结构示意图。该系统包括数据获取单元310、概率确定单元320和最优价格确定单元330，其中：

数据获取单元310用于获取商品的历史销售数据。例如，可以提取预定时间段内该商品成交价在α-0.5到α+0.5之间的销售记录，其中，α为销售的价格。

概率确定单元320用于根据历史销售数据，确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率，即确定马尔科夫决策模型的输入。状态转移概率T(S,α,S')，即每条规则(S,α,S')对应的概率，也即在价格为α的情况下，一天销售(S-S')的概率。

最优价格确定单元330用于以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，动态确定商品的最优价格。其中，预期目标为在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益，其中，预期收益可以是预期销售额也可以是预期最大毛利。增强学习又称为强化学习，属于机器学习领域，强调如何基于外部环境的变化动态调整策略，以最大化预期的收益。

在一些实施例中，可以利用如下公式计算商品的最优价格，该公式可以称为Bellman等式。

F(S,0)＝0；

F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格，T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，库存量为S时的累计收益，F(S',i-1)为剩余清仓时长为i-1，库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。

在该实施例中，基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，在清库存的前提下，最大限度的提高商品的收益。

在本公开的另一些实施例中，概率确定单元320还用于根据预定价格确定第一价格区间，判断在第一价格区间的历史销售数据的数量是否大于等于阈值；若在第一价格区间的历史销售数据的数量大于等于阈值，则根据第一价格区间的每天的历史销量数据确定商品的销量均值。例如，预定价格为α，则可以确定第一价格区间为α-0.5到α+0.5。本领域的技术人员应当理解，根据不同商品价值的不同，可以设定不同的价格区间。在价格变动不大的情况下，可以假设销量符合正太分布，这种假设在大部分商品销售中能够得到验证。其中，可以利用最大似然估计算法确定商品的销量服从正太分布。若历史销量表示为(Q _N,Q _N-1,...,Q ₁)，其中，N为销售的天数。拟合的正太分布的均值μ如下所示：

概率确定单元320还用于若在第一价格区间的历史销售数据的数量小于阈值，则将第一价格区间逐渐扩大到第二价格区间，以使第二价格区间的历史销售数据的数量大于等于阈值；利用量价模型确定商品在第二价格区间的价格弹性参数；根据价格弹性参数确定商品的销量均值。例如，当在给定的价格区间销售记录的数量少于30，无法拟合出可信的分布时，则逐步增大价格区间直到有足够数量的历史记录。具体可以利用公式μ＝a×α ^b，确定销量均值，其中，a和b为价格弹性参数。

概率确定单元320根据销量均值利用标准差公式计算销量标准差δ。例如

并基于当前库存量、预期库存量、销量均值和销量标准差，确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。

例如，根据公式

确定在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率T(S,α,S')；其中，S为当前库存量，S'为预期库存量，μ为销量均值，δ为销量标准差。

在上述实施例中，可以确定出某商品在任意给定库存水平、价格和清仓周期条件下的最优定价策略和预期达到的目标，避免人为决策带来的主观性和不准确性，能够为企业节省大量的库存成本，也避免了不必要的损失。

另外，由于信息缺失等各种原因，模型构建过程中也会出现偏差，给出用户认为不合理的定价。这种情况下，该技术支持对结果进行人工调整，并能在调整的基础上，重新快速计算出新的最优策略，极大的增强了灵活性。

在本公开的另一些实施例中，利用最大似然估计算法若确定商品的销量服从拿泊松分布，则概率确定单元320还用于利用公式

本领域的技术人员应当理解，在商品的销量可以拟合出服从正太分布，也可以使拿泊松分布，还可以是拟合为其他分布，利用相应的公式计算出在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率即可。

图4为本公开商品动态定价数据处理系统的一些实施例的应用架构图。架构图中可以包括应用平台410、机器学习平台420和大数据平台430。本公开在应用到滞销品的销售领域，能够取得良好效果。

应用平台410能够实现信息录入、模型调用、结果输出、实时监控以及人工调整等功能。其中，信息录入主要输入包括滞销商品的库存数量、允许的最低价格、商品当前的售价、滞销清仓的时长、目标(最大化销售额或最大化毛利)。如果目标选择的是最大化毛利，输入还要包括成本价。模型调用指调用机器学习平台420所构造的模型和相应算法，得出某个商品的建议价格和预测销量。结果输出指输出的结果经人工确认后(可选)，同步商品信息到下游滞销系统，同时把商品价格修改为建议价格。实时监控和人工调整指在滞销清仓期间，系统会实时抓取商品的销量和库存数据，并对建议的最优策略和定价进行调整，以更大程度实现滞销清仓的目标，在有人工干预存在的情况下，模型的策略也会相应的调整，从而计算出在给定输入下的最优策略。

机器学习平台420能够实现数据同步、调用量价模块、进行马尔科夫决策模型构造和增强学习的功能。其中，数据同步指在输入需要的信息后，系统会自动从大数据平台430同步该商品的历史信息，主要包括销量和成交价等。量价模型、马尔科夫决策模型和机器学习具体实现方式已在上述实施例中进行了详细介绍，此处不再进一步阐述。

大数据平台430中包括商品数据库、销量数据以及库存数据库等。

本公开的实施例中，能够实时监控滞销效果，并根据实际销量、实时库存及时调整价格，从而提升滞销清仓的效果，提高销售额或者毛利等。另一方面，该系统还支持对建议价格进行人为干预，即在人为设定一个价格的情况下，对预期的销量进行更为准确的预测，并据此建议一个最佳的调整策略。

图5为本公开商品动态定价数据处理系统的另一些实施例的结构示意图。该系统包括存储器510和处理器520，其中：

存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-2所对应实施例中的指令。

处理器520耦接至存储器510，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令，能够基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，在清库存的前提下，最大限度的提高商品的收益。

在一些实施例中，还可以如图6所示，该系统600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该系统600还可以通过存储接口640连接至外部存储装置650以便调用外部数据，还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够基于马尔科夫决策模型和增强学习算法利用历史销售数据进行数据处理，得到商品的最优定价策略，在清库存的前提下，最大限度的提高商品的收益。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1-2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

一种商品动态定价数据处理方法，包括：

获取商品的历史销售数据；

根据所述历史销售数据，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；

以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型；

基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，确定所述商品的最优价格；

其中，所述预期目标为所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益。
根据权利要求1所述的方法，其中，

确定所述商品的销量均值；

基于当前库存量、预期库存量和销量均值，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。
根据权利要求2所述的方法，其中，

根据预定价格确定第一价格区间；

判断在所述第一价格区间的历史销售数据的数量是否大于等于阈值；

若在所述第一价格区间的历史销售数据的数量大于等于阈值，则根据所述第一价格区间的每天的历史销量数据确定所述商品的销量均值；

若在所述第一价格区间的历史销售数据的数量小于阈值，则将所述第一价格区间逐渐扩大到第二价格区间，以使所述第二价格区间的历史销售数据的数量大于等于阈值，利用量价模型确定所述商品在所述第二价格区间的价格弹性参数，根据价格弹性参数确定所述商品的销量均值。
根据权利要求2或3所述的方法，其中，

利用最大似然估计算法若确定所述商品的销量服从正太分布，则基于销量均值和销量标准差确定销量概率密度函数，以当前库存量与预期库存量之差减预定值为下限，以当前库存量与预期库存量之差为上限，对所述销量概率密度函数进行积分计算，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；

其中，所示销量标准差根据销量均值利用标准差公式确定。
根据权利2或3所述的方法，其中，

利用最大似然估计算法若确定所述商品的销量服从拿泊松分布，则利用公式
确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；

其中，S为当前库存量，S'为预期库存量，μ为销量均值。
根据权利要求1所述的方法，其中，根据以下公式确定商品的最优价格：

F(S,0)＝0；

F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格，T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，当前库存量为S时的累计收益，F(S',i-1)为剩余清仓时长为i-1，预期库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。
一种商品动态定价数据处理系统，包括：

数据获取单元，用于获取商品的历史销售数据；

概率确定单元，用于根据所述历史销售数据，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；

最优价格确定单元，用于以预期目标为奖励函数，根据状态转移概率、预期累计收益和奖励函数构建马尔科夫决策模型，基于马尔科夫决策模型确定预期累计收益表达式，以预定价格为变量，利用增强学习算法进行迭代计算，确定所述商品的最优价格；

其中，所述预期目标为所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的预期收益。
根据权利要求7所述的系统，其中，所述概率确定单元用于确定所述商品的销量均值；基于当前库存量、预期库存量和销量均值，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率。
根据权利要求8所述的系统，其中，所述概率确定单元还用于根据预定价格确定第一价格区间；判断在所述第一价格区间的历史销售数据的数量是否大于等于阈值；若在所述第一价格区间的历史销售数据的数量大于等于阈值，则根据所述第一价格区间的每天的历史销量数据确定所述商品的销量均值；若在所述第一价格区间的历史销售数据的数量小于阈值，则将所述第一价格区间逐渐扩大到第二价格区间，以使所述第二价格区间的历史销售数据的数量大于等于阈值，利用量价模型确定所述商品在所述第二价格区间的价格弹性参数，根据价格弹性参数确定所述商品的销量均值。
根据权利要求8或9所述的系统，其中，所述概率确定单元还用于利用最大似然估计算法若确定所述商品的销量服从正太分布，则基于销量均值和销量标准差确定销量概率密度函数，以当前库存量与预期库存量之差减预定值为下限，以当前库存量与预期库存量之差为上限，对所述销量概率密度函数进行积分计算，确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，所示销量标准差根据销量均值利用标准差公式确定。
根据权利要求8或9所述的系统，其中，所述概率确定单元还用于利用最大似然估计算法若确定所述商品的销量服从拿泊松分布，则利用公式
确定所述商品在执行预定价格策略的情况下从当前库存量状态到预期库存量状态的状态转移概率；其中，S为当前库存量，S'为预期库存量，μ为销量均值。
根据权利要求7所述的系统，其中，所述最优价格确定单元用于根据以下公式确定商品的最优价格；

F(S,0)＝0；

F(0,i)＝0,1≤i≤L；

其中，S为当前库存量，S'为预期库存量，L为剩余清仓时长，α为商品的可能价格，P _i为商品第i天的最优价格，P _min为商品的最小价格，P _max为商品的最大价格，T(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，T(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的状态转移概率，F(S,i)为剩余清仓时长为i，当前库存量为S时的累计收益，F(S',i-1)为剩余清仓时长为i-1，预期库存量为S'时的预期累计收益，R(S,α,S')为执行价格α的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，R(S,P _i,S')为执行最优价格P _i的情况下从当前库存量状态S到预期库存量状态S'的预期最大收益，F(S,0)和F(0,i)为初始值。
一种商品动态定价数据处理系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至6任一项所述的方法的步骤。