WO2019183973A1

WO2019183973A1 - 基于机器学习的服装销售的预测方法和预测装置

Info

Publication number: WO2019183973A1
Application number: PCT/CN2018/081470
Authority: WO
Inventors: 葛仪文; 姚磊; 廖骁; 任智锋
Original assignee: 香港纺织及成衣研发中心有限公司
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-10-03

Abstract

一种基于机器学习的服装销售的预测方法和预测装置，计算机可读存储介质。上述预测方法包括以下步骤：将销售历史数据存储到销售历史数据库；从社交媒体网络收集社交媒体数据，并将收集的社交媒体数据存储到社交媒体数据库；利用销售历史数据和社交媒体数据建立服装销售预测模型，并利用该模型对服装销量进行预测。上述方法有效地利用机器学习技术，提高社交媒体发言与颜色和潮流服饰关系的预测准确性。

Description

基于机器学习的服装销售的预测方法和预测装置

技术领域

本发明涉及信息处理技术领域，特别涉及基于机器学习的服装销售的预测方法和预测装置。

背景技术

对服装销售的预测是时装企业做预算和规划的重要参考，其对于企业减少库存从而提高企业的竞争力和利润率具有重要的意义。但是，对于服装企业来说，由于各种原因，有效的历史数据往往很少，因此时装企业在生产控制中难以制定合理的生产量以满足市场需求且扩大企业利润。一旦出现销售问题，企业难以及时做出反应，其决策具有延迟性，相比于迅速变换的服装市场，该延迟性是不利的。此外，服装企业可能还难以准确定位销售问题的原因点，往往需要很长时间的排查才发现出现问题的原因。

现有针对时装产品色彩流行趋势的预测，主要依靠人工筛选信息，输入系统进行预测，从而无法自动获取信息并进行筛选、再输入系统进行预测。人工筛选信息对结果的影响很大，无法进行自动化预测。现有方法的预测结果也仅限于时装色彩流行趋势的潮流分析，并不能对不同的颜色的时装产品的未来销售情况进行定量预测。而且，现有的方法也无法对用户不同的产品进行差异化预测，而仅仅是针对整个时装市场进行普通情况下的预测。用户在获得预测潮流趋势后，仍然需要自行进行生产销售安排。

近年来，随着信息科技的发展，媒体信息传播方便快捷，目前在很多社交媒体上，品牌、设计师、杂志以及网络红人都可以影响服装的流行趋势，进而影响服装的销售。传统的方法无法满足预测的准确性和可靠性。因此非常有必要寻找一种高准确性和高可靠性的服装销售的预测方法，以有效地指导时装企业的生产。

发明内容

本发明透过采集社交媒体发言，再利用统计学知识及人工智能系统的方法，去建造一个能够被广泛应用的时装产品销售预测模型，例如各颜色销售预测模型。

本发明要解决的一个技术问题在于有效地利用自然语言处理的方法及机器学习和统计机器模型技术，提高社交媒体发言与颜色和潮流服饰关系的准确性，建造一个基于机器学习的时装产品颜色销售预测模型。

本发明提出一种基于机器学习的服装销售的预测方法，包括以下步骤：

将销售历史数据存储到销售历史数据库；

从社交媒体网络收集社交媒体数据，并将收集的社交媒体数据存储到社交媒体数据库；

利用销售历史数据和社交媒体数据建立服装销售预测模型；以及

利用该模型对服装销量进行预测。

在一个方面，所述社交媒体数据至少包括在社交媒体上公开发言的内容和各条发言的信息，所述信息包括例如发布者、阅读量、转发量、评论量和点赞数中的一种或多种或全部。在进一步的方面，所述发布者至少包括品牌、设计师、杂志和网络红人中的一个或多个或全部。

在一个方面，还包括在预测中计算社交媒体数据与实际产品销售时间滞后的关系。在一个方面，通过对历史销量数据Z _i根据Z _i＝(M _i-μ)/σ进行标准化，其中，i＝特定时期的特定产品的序号；M _i＝特定产品在特定时期的实际销售数据；μ＝取值于特定产品在更长时期内的实际销售数据的平均值；σ＝取值于特定产品在更长时期内的实际销售数据的的标准偏差。

在一个方面，所述社交媒体数据至少包括社交媒体发言数据﹑谷歌趋势数据和颜色销售数据。

在一个方面，通过对社交媒体数据X _ij根据X _ij＝(L _ij-μ _j)/σ _j进行标准化，其中，i＝特定时期的特定产品的序号；j＝特定类型的社交媒体数据，L _i＝特定产品在特定时期的某一社交媒体数据；μ＝取值于特定产品在更长时期内的社交媒体数据的平均值；σ＝取值于特定产品在更长时期内的上述社交媒体数据的标准偏差。

在一个方面，还包括求取销售数据的均方误差MSE以获得最合适的最佳滞后时间的步骤：

其中X _i是指特定产品在特定时期的标准化的某一类社交媒体数据，Y _i是特定产品在在时间滞后的另一特定时期的标准化的实际销售数据，n表示所求和的社交媒体数据的种类的数目。

在一个方面，所述服装销售预测模型为线性模型，预测的标准化的销售量Y _i通过以下方程得到：

Y _i＝A-W _i1X _i1+W _i2X _i2+W _i3X _i3–W _i4X _i4+W _i5X _i5+W _i6X _i6–W _i7X _i7–W _i8X _i8–W _i9X _i9+W _i10X _i10+W _i11X _i11+W _i12X _i12-W _i13X _i13+W _i14X _i14

其中，i表示特定时期的特定产品的序号，X _ij(j＝1，2，3…14)表示特定产品在特定时期的标准化的某一类型的社交媒体数据，W _ij(j＝1，2，3…14)表示各标准化的社交媒体数据的权重，且A表示模型配比值。

在一个方面，在预测的标准化的销售量Y _i的方程中，X _i1＝折扣率；X _i2＝建议的零售价；X _i3＝社交媒体中的品牌的出现计数；X _i4＝社交媒体中的品牌的喜爱或被点赞数；X _i5＝社交媒体中的品牌的被评论数；X _i6＝社交媒体中的设计师的被分享数；X _i7＝社交媒体中的杂志的计数；X _i8＝社交媒体中的杂志的被分享数；X _i9＝社交媒体中的杂志的喜爱或被点赞数；X _i10＝社交媒体中的杂志的被评论数；X _i11＝社交媒体中的网络红人的计数；X _i12＝社交媒体中的网络红人的喜爱或被点赞数；X _i13＝社交媒体中的网络红人的评论数；X _i14＝SVI。

在一个方面，对于预测的标准化的销售量Y _i，Y _i＝0.60-1.44X _i1+0.001X _i2+0.30X _i3–4.64X _i4+4.71X _i5+0.10X _i6–0.13X _i7–0.05X _i8–0.86X _i9+1.03X _i10+0.09X _i11+5.14X _i12-5.12X _i13+0.28X _i14，其中，X _i1＝折扣率；X _i2＝建议的零售价；X _i3＝社交媒体中的品牌的出现计数；X _i4＝社交媒体中的品牌的喜爱或被点赞数；X _i5＝社交媒体中的品牌的被评论数；X _i6＝社交媒体中的设计师的被分享数；X _i7＝社交媒体中的杂志的计数；X _i8＝社交媒体中的杂志的被分享数；X _i9＝社交媒体中的杂志的喜爱或被点赞数；X _i10＝社交媒体中的杂志的被评论数；X _i11＝社交媒体中的网络红人的计数；X _i12＝社交媒体中的网络红人的喜爱或被点赞数；X _i13＝社交媒体中的网络红人的评论数；X _i14＝SVI。

在一个方面，所述预测方法还包括利用支持向量回归方法进行预测。

在一个方面，采用两组数据以及其线性函数f(x)＝∑w·x+b进行预测，并且

其中，i＝特定时期的特定颜色产品的序号，x _ij(j＝1，2，3…14)表示特定产品在特定时期的标准化的某一类型的社交媒体数据，w _ij(j＝1，2，3…14)表示各标准化的社交媒体数据的权重，d代表两组数据的最优化超平面H到最近的正点和负点的最短距离，所述最短距离表示为1/||w||，并且通过最小化||w||来将d值最大化，从而优化所述线性函数。

在一个方面，X ₁＝折扣率；X ₂＝建议的零售价；X ₃＝社交媒体中的品牌的出现计数；X ₄＝社交媒体中的品牌的喜爱或被点赞数；X ₅＝社交媒体中的品牌的被评论数；X ₆＝社交媒体中的设计师的被分享数；X ₇＝社交媒体中的杂志的计数；X ₈＝社交媒体中的杂志的被分享数；X ₉＝社交媒体中的杂志的喜爱或被点赞数；X ₁₀＝社交媒体中的杂志的被评论数；X ₁₁＝社交媒体中的网络红人的计数；X ₁₂＝社交媒体中的网络红人的喜爱或被点赞数；X ₁₃＝社交媒体中的网络红人的评论数；X ₁₄＝SVI；w和b是待预测的参数，其用拉格朗乘数来计算；而y _i指代销售量。

在一个方面，加插两个松弛变量ξi和ξi*以解决误差的存在，以

最小化:1/2||w|| ²+C∑(ξ _i+ξi*)

其中

ξ _i,ξ _i ^*≥0

其中，C是拉格朗日方程式中一个正规化项的常数，X ₁＝折扣率；X ₂＝建议的零售价；X ₃＝社交媒体中的品牌的出现计数；X ₄＝社交媒体中的品牌的喜爱或被点赞数；X ₅＝社交媒体中的品牌的被评论数；X ₆＝社交媒体中的设计师的被分享数；X ₇＝社交媒体中的杂志的计数；X ₈＝社交媒体中的杂志的被分享数；X ₉＝社交媒体中的杂志的喜爱或被点赞数；X ₁₀＝社交媒体中的杂志的被评论数；X ₁₁＝社交媒体中的网络红人的计数；X ₁₂＝社交媒体中的网络红人的喜爱或被点赞数；X ₁₃＝社交媒体中的网络红人的评论数；X ₁₄＝SVI；w和b是待预测的参数，其用拉格朗乘数来计算；而y _i指代销售量。

在一个方面，所述方法利用所述服装销售预测模型对服装产品各颜色的销量进行预测。

本发明还提供了一种采用以上方法的基于机器学习的服装销售的预测装置，包括以下模块：

第一存储模块，所述第一存储模块中存储有包括销售历史数据的销售历史数据库；

收集模块，所述收集模块从社交媒体网络收集社交媒体数据；

第二存储模块，所述第二存储模块中存储有包括收集的社交媒体数据的社交媒体数据库；

模型构件模块，所述模型构件模块利用销售历史数据和社交媒体数据建立服装销售预测模型；

预测模块，所述预测模块利用构建的模型对服装销量进行预测。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现以下步骤：

将销售历史数据存储到销售历史数据库；

利用该服装销售预测模型对服装销量进行预测。

在一个方面，所述计算机程序在被处理器执行时实现根据以上所述的方法。

附图说明

通过参考下面的详细描述，可以最好地理解本公开的实施例及其优点。应该理解的是，相似的附图标记用于表示在一个或多个附图中示出的相似元件。

图1示出了根据本发明一个实施例的一种基于机器学习的服装销售的预测方法。

图2示出了根据本发明一个实施例的社交媒体数据跟颜色销量是否具有线性相关性的示意图。

图3显示由2015至2016年各颜色服装的销售的百分比。

图4显示由2015至2016年各颜色类别在每一周销售的百分比。

图5显示根据本发明一个实施例的各标准化的变量分别在2至52周与颜色销售的时间滞后的均方误差。

图6显示了根据本发明一个实施例的出现的社交媒体数据的系数。

图7A-7D显示了根据本发明一个实施例的为了检测颜色销售预测模型线性模型的假设的合法性而进行的诊断分析的示意图。

图8A和8B显示了根据本发明一个实施例的最优化的超平面将数据分离的示意图。

图9显示了根据本发明一个实施例的采用支持向量回归方法创建的由机器学习主导的颜色销售预测模型。

图10显示了根据本发明一个实施例的对颜色销售数量与社交媒体发言变量和谷歌趋势的数据进行10次交叉验证的示意图。

图11显示了根据本发明一个实施例的另一个10次交叉验证的结果的示意图。

具体实施方式

本发明提供一种基于社交媒体发言数据对时装产品颜色销量进行预测的人工智能方法，其通过分析这些媒体信息和时装产品各颜色销售数据，建模，从而找到两者之间的关系。换句话说，本发明的一个目的是找出由社交媒体发言发布的反应到真实产品销售的时间的相差，然后在该时间相差的基础上去建造一个销售预测模型。

本发明一个较佳实施例提供一种对服装销量，特别是颜色销量进行预测的方法。图1示出了根据本发明一个较佳实施例的一种基于机器学习的服装销售的预测方法，包括以下步骤：将销售历史数据存储到销售历史数据库；从社交媒体网络收集社交媒体数据，并将收集的社交媒体数据存储到社交媒体数据库；利用销售历史数据和社交媒体数据建立服装销售预测模型，并利用该模型对服装销量进行预测。

首先，例如通过社交媒体的应用程序接口和自动化测试工具例如Selenium WebDriver根据设定的关键词从网络上收集与服装预测相关的媒体信息，以作为建立服装颜色销售预测的根据。通过网络收集社交媒体发言数据的信息，社交媒体例如是Facebook(脸书)、微博、Twitter(推特)、博客、QQ空间、网站留言等任何通过其在网络上发表数据的媒体，所述数据包括公开发言的内容，以及各条发言的信息，包括发布者、阅读量、转发量、评论量、以及点赞数。公开发言的内容可包括中文和英文以文本形式发布的内容。将从互联网上抓取的数据录入数据库。这些社交媒体发言主要来自以下四类的发布者：品牌﹑设计师﹑杂志及网络红人。

对以上获取到的数据进行数据分析，检测社交媒体发言和时装产品销售的关系。数据分析包括通过自然语言处理的方法，将在以上步骤收集的信息，包括所收集的文本形式数据内容，转换为对应的关键词。关键词包括服装产品特性的描述以及服装产品本身的表述，其中服装产品特性的描述包括对颜色、款式、以及面料的描述性词语，服装产品本身的表述为表述服装类产品的名词。

根据本发明一具体实施方式，信息分析还包括分析所存储数据中的关键词以及每条发言的信息，并统计各关键词的出现总次数、总转发数、总评论数、以及总点赞数。统计可以以周为单位。统计可以以发布者类别做分组统计。发布者类别包含例如品牌、设计师、杂志、以及网络红人等四类。统计数据存储在存储器内，特别是存储在数据库中，例如位于服务器端的存储器内。

根据一个具体实施方式，设定被“喜欢”数目的门槛来选择发布者，例如下表1和表2所示的门槛:

脸书

表1

微博

表2

通过设定“喜欢”数目的门槛，可以获得社交媒体例如脸书和微博中满足该“门槛”的各发布者类别的账号数目。根据一个具体实施例的发布者类别和账号数目如以下表3和表4所示:

脸书

表3

微博

表4

从以上所获得的账号内，可以挖掘由二零一三年一月一日开始至二零一七年九月三十日的社交媒体发言的总数，参见如下表5所示。

表5

除了以上的统计各关键词的出现总次数﹑总转发数﹑总评论数以及总点赞数的方法，还可以运用谷歌趋势(Search Volume Index)的数据，去检测这些数据跟颜色销量是否具有线性的相关性。谷歌趋势的数据是基于谷歌搜索的公共网络工具，它显示了相对于世界各地区以及各种语言的总搜索量输入特定搜索词的频率，从而可以在本申请中用于挖掘不同颜色在颜色销量时段内它们的搜索词的频率。通过统计的方式可以看出谷歌趋势的数据与颜色销量具有一定的关系。颜色越深，代表线性的关系越强。统计的方式可以是利用统计软件。如图2所示。

再然后，基于针对个别用户个别产品所挖掘到的数据，建立人工智能预测模型，例如利用分析软件去建立销售预测模型。针对用户产品市场特征进行时装产品颜色销量预测，发现社交媒体发言与真实产品颜色销售时间滞后的关系，并利用最新的社交媒体发言去预测服装产品颜色未来销量，从而给出对服装产品销量的预测结果。再应用实际销售数据对模型进行优化，使模型预测更符合产品市场特性。

基于个别用户个别产品的人工智能预测模型的建立，其具体方法可以为：

(1)建立历史销量数据库：在历史销量数据库中存储个别用户个别产品的历史销量数据，包括颜色、款式、以及面料等三种时装产品的特性，以及建议销售单价、销量、实际销售单价、以及库存情况等四种商业经营信息。所述的历史销售数据包含时期可以是半年，或多于半年，例如1年，优选为2年。

(2)预定义个别用户个别产品的实际生产所需时长，以周为单位。

(3)建立社交媒体统计数据库：在社交媒体统计数据库中存储从网络收集的社交媒体发言数据，该数据包括的时期至少为1周，例如10周、20周、1年、或0.5年等。

(4)依据实际生产所需时长，依次将数据库中的每周历史销量数据、在实际生产所需时长前一周的存储的社交媒体统计数据调出。

(5)运用人工智能中机器学习算法，例如人工神经网络、决策树、支持向量机等方法，建立针对个别用户个别产品的预测模型。

优选地，运用人工智能中机器学习算法建立预测模型，还包括对社交媒体发言中四类发布者类别的权重调整，并应用实际销售数据对模型实行检验及优化。举例而言，首先判断对于销量具有影响的数据，其中数据包括社交媒体上每条发言的信息，包括总次数、总转发数、总评论数、以及总点赞数等。相对于历史数据，构件模型，例如线性模型、支持向量机模型，参照历史数据对该模型进行训练，并利用历史数据进行拟合，得到针对于社交媒体数据的销售模型。此外，每隔一段时间，例如每周，参照历史数据对该销售模型进行调整训练，使该销售模型得到的该周的预测销量结果与历史数据进行比较，并且调整销售模型其中的参数，使得得到的预测销量与实际销量更接近。由此实现销售模型的训练。

自然语言处理方法

根据本发明一具体实施方式，对服装销量进行预测的方法包括以下步骤。首先，从网络上不同社交媒体渠道，找出所有关于颜色和潮流服饰的关键词(英文和中文)，例如牛仔﹑外套和西装等，再根据这些关键词对已挖掘的社交媒体发言作出筛选(见表6)。根据统计，在颜色的关键词获取上脸书和微博分别有955个和563个，而在潮流服饰的关键词获取上脸书和微博分别有872个和447个。与表5相比，利用颜色和潮流服饰的关键词筛选后，脸书和微博的数据保留率分别是4.7％和4.1％。

表6

作为检测，分别对以上从脸书和微博的发言中抽样进行人工鉴定。结果显示52％和65％的发言是与颜色和潮流服饰相关。

对已既定的颜色和潮流服饰的关键词作出筛选，以除去无相关的社交媒体发言，目的在于提高销售预测模型的预测准确率。自然语言处理的方法主要有三个方向，第一，将5％出现频率最高的词语除去；第二，将部分形容词和副词等或没有直接与颜色和潮流服饰相关的关键词除去；第三，将部分错误的颜色短语例如黑胶和黄金除去。通过上述自然语言处理的方法后，对社交媒体发言再作出筛选。表7显示在自然语言处理后脸书和微博在各发布者类别上发言的数目。对比在表6社交媒体发言的数目，通过自然语言处理后，脸书和微博的数据保留率分别是85％和73％。

表7

在表7中对脸书和微博的发言分别抽样10％来再次进行鉴定。结果显示79％和84％的发言是与颜色和潮流服饰相关，与从表6的抽样结果相比，脸书和微博的相关准确率分别提高了27％和19％。

利用机器学习的方法，将10％的数据分开，其中80％用作训练数据，而20％用作验证数据，然后利用自然语言处理的机器学习进行模型的训练。结果显示脸书的机器学习的准确率为81％，而微博的准确率为85％。通过机器学习的训练，本发明能够用该自然语言处理的机器模型来预测其他社交媒体发言是否与颜色和潮流服饰相关。

销售数量统计

获得了社交媒体和时尚及颜色相关的发言信息后，通过上述自然语言处理的方法来除去与颜色和潮流服饰无关的社交媒体发言，以提高销售预测模型的预测准确率。在建立预测产品颜色销售模型之前，可以对用户所提供的销售数据进行颜色分类，例如黑﹑灰﹑红﹑绿﹑黄﹑紫﹑橙﹑棕﹑蓝和白。根据上述颜色类别的规划，将销售数据进行合计。图3显示各颜色的销售数量百分比，可见，黑﹑灰和蓝的销售百分比已占总和的50％以上。图4显示由2015至2016年各颜色类别在每一周销售的百分比。

社交媒体发言与真实产品销售时间滞后的关系

通常地，社交媒体发言与真实产品销售时间会存在滞后的关系。换句话说，为了更准确地预测销售情况，需要找出由在社交媒体的反应直到买下货品的一段时间的滞后。为有效地建造出具预测力的颜色销售预测模型，根据本发明一较佳实施例，运用均方误差的方法来找出该时间滞后的关系。在一个例子中，本发明利用标准正态变量来处理社交媒体发言变量。标准正态变量是一种数据预处理的方法，目的在于通过去均值和方差缩放，将各社交媒体发言变量标准化，包括将各关键词的出现总次数﹑总转发数﹑总评论数以及总点赞数和谷歌趋势的数据进行标准化，以及颜色销售数据标准化。对于挖掘的社交媒体数据，对其进行分类，例如对于给定样式其转发量是多少，点赞量是多少，再通过关键词的抓取得到社交媒体数据的分类。

对于历史销量数据Z _i，其标准正态变量(即标准化)的方程式可以例如为:

Z _i＝(M _i-μ)/σ (1.1)

其中，i＝年﹑周和颜色类别在特定时期的特定产品的序号，其中i的最大长度为2(2015-2016年)*52周*10(种颜色)，即1040；

M _i＝特定产品在特定时期的实际销售数据的数值，例如某种颜色(如红色)的服装例如连衣裙在某年某一周的实际销售数据的数值；

μ＝取值于特定产品在更长时期内的实际销售数据的平均值，该更长时期长于所述特定时期并且最好包括该特定时期，例如取值为某种颜色(如红色)的服装例如连衣裙在连续八周、十周等时期内的平均销售数据；以及

σ＝取值于特定产品在更长时期内的实际销售数据的的标准偏差，该更长时期长于所述特定时期并且最好包括该特定时期，例如取值为某种颜色(如红色)的服装例如连衣裙在连续八周、十周等时期内的销售数据的标准偏差。

σ表示的标准偏差可以通过目前已有的标准偏差的计算方法进行计算，例如，通过标准偏差S为

计算，其中，

代表所采用的样本X1,X2,...,Xn的均值。

通过对社交媒体数据X _ij根据下列方程进行标准化

X _ij＝(L _ij-μ _j)/σ _j (1.2)

。

j＝特定类型的社交媒体数据；

Li＝特定产品在特定时期的某一社交媒体数据，例如某种颜色(如红色)的服装例如连衣裙在某年某一周的某一社交媒体数据的数值，包括社交媒体发言数据﹑谷歌趋势数据和颜色销售数据；

μ＝取值于特定产品在更长时期内的社交媒体数据的平均值，该更长时期长于所述特定时期并且最好包括该特定时期，例如取值为某种颜色(如红色)的连衣裙在连续八周、十周等时期内的平均社交媒体数据；

σ＝取值于特定产品在更长时期内的上述社交媒体数据的标准偏差，该更长时期长于所述特定时期并且最好包括该特定时期，例如取值为某种颜色(如红色)的连衣裙在连续八周、十周等时期内的社交媒体数据的标准偏差。

其后，求取均方误差(Mean Square Error)以获得最合适的最佳滞后时间。最佳滞后时间用于计算利用抓取的媒体数据进行预测时，预测的销售量具体预测的是未来哪一周的销售量。对于某一个媒体数据，可以得出，均方误差越小，表示该周的实际销售量与社交媒体数据的对应性越强。将得到的实际销售量所在的周与抓取社交媒体数据的所在的周之间的差，作为预测结果是哪一周的表示。例如实际销售量所在的周与抓取社交媒体数据的所在的周之间的相差8周时，MSE最小，则预测销量值为8周后的销量值。将各标准化的变量(以统计方式得到的关键词的出现总次数﹑总转发数﹑总评论数以及总点赞数和谷歌趋势)与时间滞后的颜色销售数据相减，以求其均方误差(Mean Square Error)：

其中，∑是代表所需计算的特定时期相加；X _i是指特定产品在特定时期的标准化的某一类社交媒体数据，根据上式(1.2)计算；Y _i是特定产品在特定时期的标准化的实际销售数据，根据上式(1.1)计算；n表示所求和的社交媒体数据的种类的数目。

以出现总次数为例，将其每一年(2015/2016)中每一周(共52周)中十种颜色类别的数据进行合计，理论上应共有2x 52x 10＝1,040种不同的数据组合。然后将标准化的颜色销售数据用时间滞后的方法后退2至52周，与其标准化的出现总次数作逐点比较，并用上述方程(2)求其每一周的均方误差。图5显示各标准化的变量分别在2至52周与颜色销售的时间滞后的均方误差，而表8则显示从上述图5中这些变量的最小均方误差及其最适合的时间滞后的统计。

表8

线性预测模型的建立

利用所得的时间滞后关系，对颜色销售与这些变量进行线性模型的建立。线性模型的建立，是基于以下的假设：其一，线性关系--社交媒体发言变量(关键词的出现总次数、总转发数、总评论数以及总点赞数和谷歌趋势的数据)和颜色销售之间存在线性关系；其二，常态分布--误差项ε _i是独立和同样的常态分布；和其三，ε _i方差的均匀性--对于所有的i＝1,...,N，误差ε _i的变化是均匀的。

根据本发明一具体实施例，对于一特定品牌特定颜色的特定服装，利用统计方法建立线性模型后，结果如图6所示，其显示了出现总次数(品牌)、总点赞数(品牌)、总评论数(品牌)、出现总次数(杂志)和谷歌趋势的数据高度重要，品牌数据似乎比其他变量更加重要。其多元线性回归的方程为: Y _i＝0.60-1.44X _i1+0.001X _i2+0.30X _i3–4.64X _i4+4.71X _i5+0.10X _i6–0.13X _i7–0.05X _i8–0.86X _i9+1.03X _i10+0.09X _i11+5.14X _i12-5.12X _i13+0.28X _i14 (3)

其中，X ₁-X ₁₄表示不同类型的社交媒体数据通过上面的公式(1.2)被转化成/标准化为统计数据(例如总次数、总转发数、总评论数、以及总点赞数等)以用作模型训练的统计数据，其中，X _i1＝折扣率；X _i2＝建议的零售价；X _i3＝社交媒体中的品牌的出现计数；X _i4＝社交媒体中的品牌的喜爱或被点赞数；X _i5＝社交媒体中的品牌的被评论数；X _i6＝社交媒体中的设计师的被分享数；X _i7＝社交媒体中的杂志的计数；X _i8＝社交媒体中的杂志的被分享数；X _i9＝社交媒体中的杂志的喜爱或被点赞数；X _i10＝社交媒体中的杂志的被评论数；X _i11＝社交媒体中的网络红人的计数；X _i12＝社交媒体中的网络红人的喜爱或被点赞数；X _i13＝社交媒体中的网络红人的评论数；X _i14＝SVI(Search Volume Index，是基于一项基于Google搜索的公共网络工具，它显示了相对于世界各地区以及各种语言的总搜索量输入特定搜索词的频率)；i所指的是上述方程式(3)中的年、周和颜色类别的数字合计。例如，Y _i表示某周或某年的某一颜色的被标准化的销售量。W _ij是基于线性模型的假设，利用训练数据进行训练而得出的权重，并且可以是根据以下最小平方估计式:(X ^TX) ^-1X ^TY得出的，其中X指代至少上述X _i1-X _i14中的一个，X ^T是X的转置(Transpose)，而(X ^TX) ^-1是其矩阵的倒数(Inverse)。

Y _i表示特定产品在特定时期(例如某周或某年的某一颜色)的被标准化的销售量，实际的销售量通过下式(4)计算

Y' _i＝Y _i·σ+μ (4)

其中，i＝特定时期的特定产品的序号；Y’ _i＝特定产品在特定时期的实际销售数据；μ＝取值于特定产品在之前的更长时期内的已得到的标准化的销售数据的平均值；σ＝取值于特定产品在之前的更长时期内的已得到的实际销售数据的标准偏差。其中，对于之前的更长时期内的已得到的标准化的销售数据，可以根据需要进行更新，并且重新进行以上各公式(1.1)-(4)的计算以使得模型更准确。

各个社交媒体数据是通过社交媒体的应用程序接口和自动化测试工具例如Selenium WebDriver根据设定的关键词从网络上收集。由于所有数据编排的模式是以年﹑周和颜色作为总量的基准，其社交媒体数据数值例如出现总次数﹑总转发数﹑总评论数以及总点赞数是根据上述而作统计。该公式中的0.60表示截距(Intercept)，其是通过现有数据对该模型进行多次训练得到的结果。在实际处理过程中，首先利用通过自然语言处理后社交媒体例如脸书和微博的数据作训练。例如表6中的时尚品牌的脸书中“36009”，其只是代表社交媒体发言的数目，要把它转化成统计数据(例如总次数、总转发数、总评论数、以及总点赞数等)才可以用作模型训练。

如上所示，对于待预测的不同的产品，各个参数的权重是根据其重要程度变化的。对于销售量具有正面影响的数据，对其进行相加的操作，而对于销售量具有负面影响的数据，对其进行相减的操作。根据本发明的一个实施方式，可具有如下的权重范围。例如，X _i1的权重在1-2之间，在如该具体实施方式的预测中为1.44；X _i2的权重在0.0005-0.002之间，在如该具体实施方式的预测中为0.001；X _i3的权重在0.1-0.4之间，在如该具体实施方式的预测中为0.3；X _i4的权重在3-5之间，在如该具体实施方式的预测中为4.64；X _i5的权重在3-5之间，在如该具体实施方式的预测中为4.71；X _i6的权重在0.05-0.2之间，在如该具体实施方式的预测中为0.10；X _i7的权重在0.05-0.2之间，在如该具体实施方式的预测中为0.13；X _i8的权重在0.02-0.1之间，在如该具体实施方式的预测中为0.05；X _i9的权重在0.3-1之间，在如该具体实施方式的预测中为0.86；X _i10的权重在0.5-1.5之间，在如该具体实施方式的预测中为1.03；X _i11的权重在0.05-0.15之间，在如该具体实施方式的预测中为0.09；X _i12的权重在3-8之间，在如该具体实施方式的预测中为5.14；X _i13的权重在3-8之间，在如该具体实施方式的预测中为5.12；X _i14的权重在0.1-0.7之间，在如该具体实施方式的预测中为0.28。

品牌的计数代表该品牌在社交媒体上被提及的次数；关于杂志的评论和网络红人的评论，既抓取正面评论也抓取负面评论，只要该条社交媒体发言是关于颜色和潮流服饰相关的，就将数据纳入统计内。在高维的线性模型建立过程中，利用机器学习的方法找出关于多个变量的一个最适的模型预测。

图7A-7D显示为了检测颜色销售预测模型线性模型的假设的合法性而进行的诊断分析。上角的残差与因变量估计值的散点图，显示点与中轴(残差＝0)的距离不远，这符合了正态分布和方差的均匀性的假设。同时，通过去除离群的数据，右上方常态分布的Q-Q图显示点几乎成一直线，这符合常态分布的假设。结果显示决定系数由0.433增加到0.44。

机器学习预测模型的建立

本发明采用支持向量回归(Support Vector Regression)法去创建一个由机器学习主导的颜色销售预测模型。在机器学习中，支持向量机是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。它在用作回归方法方面，保留了所有表征算法的主要特征(例如最大余量)。简单来说，支持向量回归法是通过利用支持向量机(Support Vector Machine)中的非线性映射函数将训练数据映射到更高维的空间，然后执行线性回归以分离数据及作回归分析。上述的数据映像是使用预定的内核函数来执行的，而数据分离是通过找到最优化的超平面(Optimal Hyperplane)来完成的。图8A和图8B说明了最优化的超平面怎样将数据分离，其中图8A显示不同可能性的超平面的边界分离，其两组数据分离的边界比较细，而图8B显示最优化的超平面将数据分离的边界最大化。

所以，目标是要找出一个线性函数f(x)＝<w,x>+b，也表示为f(x)＝∑w·x+b，以将两组数据点最大化。在一较佳实施例中，采用绿红两组数据以及它们各自的线性函数f(x)＝<w,x>+b。图9显示绿红两组数据及其各自的线性函数平面H1和H2，在H1和H2线上的绿红点是支持向量(Support Vector)，而H是这两组数据的最优化的超平面。值得注意的是d+和d-是从平面H到最近的正点和负点的最短距离，它们的相加代表这超平面边界的最大化值。由于H和H1的距离是1/||w||，则H1和H2的距离为2/||w||。因此，为了将d值最大化，需要将||w||最小化。换句话说，需要将欧氏范数(Euclidean Norm)||w|| ²最小化，而优化问题是:

最小化1/2||w|| ²

其中:

i＝特定时期的特定颜色产品的序号，y _i指代特定时期的特定颜色产品的标准化的销售量，x _ij(j＝1，2，3…14)表示特定产品在特定时期的标准化的某一类型的社交媒体数据，例如代表在线性方式中使用的社交媒体数据X ₁-X ₁₄，w _ij(j＝1，2，3…14)表示各标准化的社交媒体数据的权重，w和b是待预测的参数。w、b用以下的拉格朗乘数(Lagrangian Multipliers)来计算。结果可以用于与线性方式获得的结果比较。其中，X ₁＝折扣率；X ₂＝建议的零售价；X ₃＝社交媒体中的品牌的出现计数；X ₄＝社交媒体中的品牌的喜爱或被点赞数；X ₅＝社交媒体中的品牌的被评论数；X ₆＝社交媒体中的设计师的被分享数；X ₇＝社交媒体中的杂志的计数；X ₈＝社交媒体中的杂志的被分享数；X ₉＝社交媒体中的杂志的喜爱或被点赞数；X ₁₀＝社交媒体中的杂志的被评论数；X ₁₁＝社交媒体中的网络红人的计数；X ₁₂＝社交媒体中的网络红人的喜爱或被点赞数；X ₁₃＝社交媒体中的网络红人的评论数；X ₁₄＝SVI，

以上的优化问题是在f(x)实际地存在和所有(x _i,y _i)都被前述公式(5)清析地界定下而成立的。然而，出现一些误差是可能的。在支持向量机分析中，利用历史数据进行验证时会发现，以上公式(5)的方式会导致误差。为了解决误差的存在，加插了两个松弛变量ξi和ξi*。而优化问题就变成为将1/2||w|| ²+C∑(+ξi*)最小化，以:

最小化:1/2||w|| ²+C∑(ξ _i+ξi*)

其中

ξ _i,ξ _i ^*≥0 (6)

公式(5)与公式(6)一起使用，利用拉格朗乘数(Lagrangian Multipliers)来找出最适的参数。

C是拉格朗日方程式中一个正规化项的常数，它代表对大过d的预测错误的惩罚，用来平衡模型训练错误和模型的平整度。采用该方法的目标是找出一个C的数值去作为线性函数平坦度与d之间的折衷。上述带约束的优化问题可以通过拉格朗乘数(Lagrangian Multipliers)来进行一元二次的规划问题。通过相关的算法和优化的过程，获得以下回归估计的方程式:

f(x)＝∑(α _i-α _i ^*)K(x _i,x)+b (7)

α _i和α _i ^*是拉格朗乘数(Lagrangian Multipliers)。K(.)则是内核函数(Kernel Function)，作用是把训练数据投影到一个三维空间，让其变得可以被线性分割。表8显示三种最常用的内核函数，通常地，因基函数核(Radial basis function kernel)能处理非线性的情况，所以最常被取用。该公式中α _i和α _i ^*利用拉格朗乘数(Lagrangian Multipliers)选取；x _i代表以上记载的社交媒体数据X ₁-X ₁₄；b通过拉格朗乘数选取；f(x)代表Y _i的销售数据，实际上利用公式(5)与(6)建立该回归方程。

多项式内核函数	K(x _i,x _j)＝(x _i.x _j+1)d
双曲内切正核	K(x _i,x _j)＝tanh(c ₁(x _i.x _j)+c ₂)
基函数核	K(x _i,x _j)＝exp(\|x _j-x _i\|/2p ²)

表8

通过运用支持向量回归法，对颜色销售数量与社交媒体发言变量和谷歌趋势的数据进行10次交叉验证。结果如图10所示，颜色越浅，其模型的最适度越高，而符合该结果的相关的d和C分别是0.1和256。

为了提高支持向量回归的性能，可以进一步进行网格搜寻(Grid Search)来选择模型的最佳参数。通过网格搜寻，将d设置在(0.0,0.2)之间的距离，然后再进行10次交叉验证，结果如图11所述，其中最适度的d和C分别是0.11和256。

为了比较线性模型和支持向量回归的表现，我们利用平方均方误差(Root Mean Square Error)去作基准:

MSE＝√1/n∑(Y ^*-Y) ² (8)

其中，Y*和Y分别是预测值和历史数据中未用于建模，而是用于测试的测试集的数值。例如对于100个历史数据，其中80个用于建模和对模型训练，20个作为测试集的数值用于测试。

预测与实时销售对比

通过运用实时的社交媒体发言数据，预测颜色销售的情况。采用了2015年第十周黑色衣服销售的社交媒体发言数据，来预测8周(最适时间滞后)之后的销售情况。表9显示各发布者类别与其社交媒体发言的数据分布，谷歌趋势的数据值为43。线性模型的结果显示其销售数量大约为2428件，支持向量回归的机器学习结果大约为2127件，而其真实销售数量为3608。表10总结以上两种机器学习预测销售数量以及与真实销售数相差的结果。

表9

机器学习方法	线性模型	支持向量回归
预测销售数量	2,428	2127
与真实销售数量相差	1,180	1,481

表10

除非上下文清楚地另外要求，在整个说明书和权利要求书中，词语“包括”，“包含”等将被解释为包含性的意思，而不是排他的或穷举的意思；也就是说，具有“包括、但不限于”的意思。

当本文中使用时，除非另外指出，使用序数形容词“第一”，“第二”，“第三”等来描述共同的对象仅仅指示相似对象的不同实例被引用，而不是旨在暗示所描述的对象必须在时间上、在空间上、按排名或以任何其他方式按照给定的顺序。

贯穿本说明书对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此，贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在实施例中”并不一定全部指的是相同的实施例，但是可以指的是相同的实施例。此外，本领域普通技术人员从本公开显而易见，在一个或多个实施例中，特定的特征、结构或特性可以以任何合适的方式进行组合。

此外，尽管本文中描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征，但是不同实施例的特征的组合意味着在本发明的范围内，并且形成不同的实施例，如本领域技术人员将理解。例如，在以下权利要求中，任何要求保护的实施例可以以任何组合被使用。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，公知的方法、结构和技术未被详细示出以免混淆对本描述的理解。尽管已参考具体示例描述了本发明，但是本领域技术人员应当领会，本发明可以以许多其他形式来体现。

应当领会，本发明的实施例可以基本上由本文中公开的特征组成。替代地，本发明的实施例可以由本文中公开的特征组成。本文中示例性公开的发明适当地可以在不存在本文中未具体公开的任何要素的情况下实施。

Claims

一种基于机器学习的服装销售的预测方法，其特征在于，包括以下步骤：

将销售历史数据存储到销售历史数据库；

从社交媒体网络收集社交媒体数据，并将收集的社交媒体数据存储到社交媒体数据库；

利用销售历史数据和社交媒体数据建立服装销售预测模型；以及

利用该服装销售预测模型对服装销量进行预测。
根据权利要求1所述的预测方法，其特征在于，所述社交媒体数据至少包括在社交媒体上公开发言的内容和各条发言的信息，所述信息包括发布者、阅读量、转发量、评论量和点赞数中的一种或多种。
根据权利要求2所述的预测方法，其特征在于，所述发布者至少包括品牌、设计师、杂志和网络红人中的一个或多个。
根据权利要求1所述的预测方法，其特征在于，还包括在预测中计算社交媒体数据与实际产品销售时间滞后的关系。
根据权利要求4所述的预测方法，其特征在于，通过对历史销量数据Z _i根据Z _i＝(M _i-μ)/σ进行标准化，其中，i＝特定时期的特定产品的序号；M _i＝特定产品在特定时期的实际销售数据；μ＝取值于特定产品在更长时期内的实际销售数据的平均值；σ＝取值于特定产品在更长时期内的实际销售数据的标准偏差。
根据权利要求5所述的预测方法，其特征在于，所述社交媒体数据至少包括社交媒体发言数据﹑谷歌趋势数据和颜色销售数据。
根据权利要求4所述的预测方法，其特征在于，通过对社交媒体数据X _ij根据X _ij＝(L _ij-μ _j)/σ _j进行标准化，其中，i＝特定时期的特定产品的序号；j＝特定类型的社交媒体数据，L _i＝特定产品在特定时期的某一社交媒体数据；μ＝取值于特定产品在更长时期内的社交媒体数据的平均值；σ＝取值于特定产品在更长时期内的上述社交媒体数据的标准偏差。
根据权利要求5所述的预测方法，其特征在于，还包括求取销售数据的均方误差MSE以获得最合适的最佳滞后时间的步骤：

其中X _i是指特定产品在特定时期的标准化的某一类社交媒体数据，Y _i是特定产品在时间滞后的另一特定时期的标准化的实际销售数据，n表示所求和的社交媒体数据的种类的数目。
根据权利要求5所述的预测方法，其特征在于，所述服装销售预测模型为线性模型，预测的标准化的销售量Y _i通过以下方程得到：

Y _i＝A-W _i1X _i1+W _i2X _i2+W _i3X _i3–W _i4X _i4+W _i5X _i5+W _i6X _i6–W _i7X _i7–W _i8X _i8–W _i9X _i9+W _i10X _i10+W _i11X _i11+W _i12X _i12-W _i13X _i13+W _i14X _i14

其中，i表示特定时期的特定产品的序号，X _ij(j＝1，2，3…14)表示特定产品在特定时期的标准化的某一类型的社交媒体数据，W _ij(j＝1，2，3…14)表示各标准化的社交媒体数据的权重，且A表示模型配比值。
根据权利要求9所述的预测方法，其特征在于，在预测的标准化的销售量Y _i的方程中，X _i1＝折扣率；X _i2＝建议的零售价；X _i3＝社交媒体中的品牌的出现计数；X _i4＝社交媒体中的品牌的喜爱或被点赞数；X _i5＝社交媒体中的品牌的被评论数；X _i6＝社交媒体中的设计师的被分享数；X _i7＝社交媒体中的杂志的计数；X _i8＝社交媒体中的杂志的被分享数；X _i9＝社交媒体中的杂志的喜爱或被点赞数；X _i10＝社交媒体中的杂志的被评论数；X _i11＝社交媒体中的网络红人的计数；X _i12＝社交媒体中的网络红人的喜爱或被点赞数；X _i13＝社交媒体中的网络红人的评论数；X _i14＝SVI。
根据权利要求9所述的预测方法，其特征在于，对于预测的标准化的销售量Y _i，Y _i＝0.60-1.44X _i1+0.001X _i2+0.30X _i3–4.64X _i4+4.71X _i5+0.10X _i6–0.13X _i7–0.05X _i8–0.86X _i9+1.03X _i10+0.09X _i11+5.14X _i12-5.12X _i13+0.28X _i14，其中，X _i1＝折扣率；X _i2＝建议的零售价；X _i3＝社交媒体中的品牌的出现计数；X _i4＝社交媒体中的品牌的喜爱或被点赞数；X _i5＝社交媒体中的品牌的被评论数；X _i6＝社交媒体中的设计师的被分享数；X _i7＝社交媒体中的杂志的计数；X _i8＝社交媒体中的杂志的被分享数；X _i9＝社交媒体中的杂志的喜爱或被点赞数；X _i10＝社交媒体中的杂志的被评论数；X _i11＝社交媒体中的网络红人的计数；X _i12＝社交媒体中的网络红人的喜爱或被点赞数；X _i13＝社交媒体中的网络红人的评论数；X _i14＝SVI。
根据权利要求1所述的预测方法，其特征在于，所述预测方法还包括利用支持向量回归方法进行预测。
根据权利要求12所述的预测方法，其特征在于，采用两组数据以及其线性函数f(x)＝∑w·x+b进行预测，并且

其中，i＝特定时期的特定颜色产品的序号，x _ij(j＝1，2，3…14)表示特定产品在特定时期的标准化的某一类型的社交媒体数据，w _ij(j＝1，2，3…14)表示各标准化的社交媒体数据的权重，d代表两组数据的最优化超平面H到最近的正点和负点的最短距离，所述最短距离表示为1/||w||，并且通过最小化||w||来将d值最大化，从而优化所述线性函数。
根据权利要求13所述的预测方法，其特征在于，X ₁＝折扣率；X ₂＝建议的零售价；X ₃＝社交媒体中的品牌的出现计数；X ₄＝社交媒体中的品牌的喜爱或被点赞数；X ₅＝社交媒体中的品牌的被评论数；X ₆＝社交媒体中的设计师的被分享数；X ₇＝社交媒体中的杂志的计数；X ₈＝社交媒体中的杂志的被分享数；X ₉＝社交媒体中的杂志的喜爱或被点赞数；X ₁₀＝社交媒体中的杂志的被评论数；X ₁₁＝社交媒体中的网络红人的计数；X ₁₂＝社交媒体中的网络红人的喜爱或被点赞数；X ₁₃＝社交媒体中的网络红人的评论数；X ₁₄＝SVI；w和b是待预测的参数，其用拉格朗乘数来计算；而y _i指代销售量。
根据权利要求14所述的预测方法，其特征在于，加插两个松弛变量ξi和ξi*以解决误差的存在，以

最小化:1/2||w|| ²+C∑(ξ _i+ξi*)

其中

ξ _i,ξ _i ^*≥0

其中，C是拉格朗日方程式中一个正规化项的常数，X ₁＝折扣率；X ₂＝建议的零售价；X ₃＝社交媒体中的品牌的出现计数；X ₄＝社交媒体中的品牌的喜爱或被点赞数；X ₅＝社交媒体中的品牌的被评论数；X ₆＝社交媒体中的设计师的被分享数；X ₇＝社交媒体中的杂志的计数；X ₈＝社交媒体中的杂志的被分享数；X ₉＝社交媒体中的杂志的喜爱或被点赞数；X ₁₀＝社交媒体中的杂志的被评论数；X ₁₁＝社交媒体中的网络红人的计数；X ₁₂＝社交媒体中的网络红人的喜爱或被点赞数；X ₁₃＝社交媒体中的网络红人的评论数；X ₁₄＝SVI；w和b是待预测的参数，其用拉格朗乘数来计算；而y _i指代销售量。
根据权利要求1-15任一项所述的预测方法，其特征在于，所述方法利用所述服装销售预测模型对服装产品各颜色的销量进行预测。
一种采用权利要求1-16中任一项所述方法的基于机器学习的服装销售的预测装置，其特征在于，包括以下模块：

第一存储模块，所述第一存储模块中存储有包括销售历史数据的销售历史数据库；

收集模块，所述收集模块从社交媒体网络收集社交媒体数据；

第二存储模块，所述第二存储模块中存储有包括收集的社交媒体数据的社交媒体数据库；

模型构件模块，所述模型构件模块利用销售历史数据和社交媒体数据建立服装销售预测模型；

预测模块，所述预测模块利用构建的模型对服装销量进行预测。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现以下步骤：

将销售历史数据存储到销售历史数据库；

从社交媒体网络收集社交媒体数据，并将收集的社交媒体数据存储到社交媒体数据库；

利用销售历史数据和社交媒体数据建立服装销售预测模型；以及

利用该服装销售预测模型对服装销量进行预测。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。