WO2017148266A1

WO2017148266A1 - 一种机器学习系统的训练方法和训练系统

Info

Publication number: WO2017148266A1
Application number: PCT/CN2017/073719
Authority: WO
Inventors: 周俊
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2016-02-29
Filing date: 2017-02-16
Publication date: 2017-09-08
Also published as: JP2019512126A; TW201737115A; US20180365523A1; JP6991983B2; TWI796286B; US20230342607A1; US11720787B2; CN107133190A

Abstract

一种机器学习系统的训练方法和训练系统，利用多个样本数据对机器学习系统进行训练，该方法包括：获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据(S101)；根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率(S102)；获得多个根据采样率采样后的样本集合(S103)；分别确定所述多个采样后的样本集合的重要程度值(S104)；利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据(S105)；将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练(S106)。将样本数据输入机器学习系统之前对样本数据进行处理，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

Description

一种机器学习系统的训练方法和训练系统

本申请要求2016年02月29日递交的申请号为201610113716.1、发明名称为“一种机器学习系统的训练方法和训练系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据处理领域，尤其涉及一种机器学习系统的训练方法和训练系统。

背景技术

在如今的大数据时代，互联网公司获取超大规模数据已非常容易。据不完全统计，谷歌2012年每天30亿query/300亿广告，脸书用户2013年每天分享43亿内容，阿里巴巴2015双十一当天就有超过7亿笔交易。这些公司通过机器学习系统，去挖掘数据里面的金矿，包括用户兴趣/行为/习惯等等。

机器学习系统设计为模仿人脑的神经网络，用于预测用户的行为。在机器学习系统上线之前，需要通过大规模的数据进行训练。然而在训练过程中，大规模的数据必然要求大规模的机器资源才能有效处理，例如腾讯的广告数据，都是PB级别，必然要用到千台机器以上，这对大部分公司来说，都是个巨大的成本。

为了降低成本，提高机器学习系统的效率，通常的处理方式是通过随机样本采样的手段减少机器学习系统处理的数据量。随机样本采样就是以一定概率丢弃样本，例如对每一个样本随机生成1个0-1范围内的浮点数，当浮点数大于阈值时则直接丢弃该样本。然而，随机丢弃样本的方式会丢弃大量的有用数据，损害机器学习系统的训练效果，降低预测的精度。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的机器学习系统的训练方法和训练系统。

为解决上述问题，本申请一实施例公开一种机器学习系统的训练方法，利用多个样本数据对机器学习系统进行训练，所述训练方法包括：

获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

获得多个根据采样率采样后的样本集合；

分别确定所述多个采样后的样本集合的重要程度值；

利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

本申请另一实施例公开一种机器学习系统的训练系统，利用多个样本数据对机器学习系统进行训练，所述训练系统包括：

第一获取模块，用于获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

采样率设置模块，用于根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

第二获取模块，用于获得多个根据采样率采样后的样本集合；

重要程度值确定模块，用于分别设置所述多个采样后的样本集合的重要程度值；

样本数据修正模块，用于利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

训练模块，用于将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

本申请实施例至少具有以下优点：本申请实施例公开一种机器学习系统的训练方法和训练系统，在将样本数据输入机器学习系统之前对样本数据进行处理，包括获取根据取样时间段划分的样本集合、根据取样时间段设置每个样本集合的采样率、根据采样率进行采样、确定采样后样本集合的重要程度值以及利用该重要程度值将样本数据进行修正，并将样本数据输入机器学习系统进行训练，在降低机器学习系统处理的数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

附图说明

图1是本申请第一实施例的机器学习系统的训练方法的流程图。

图2是本申请第二实施例的机器学习系统的训练方法的流程图。

图3是本申请第三实施例的机器学习系统的训练方法的流程图。

图4是本申请第四实施例的机器学习系统的训练系统的方框图。

图5是本申请第五实施例的机器学习系统的训练系统的方框图。

图6是本申请第六实施例的机器学习系统的训练系统的方框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的核心思想之一在于，提出一种机器学习系统的训练方法和训练系统，利用多个样本数据对机器学习系统进行训练，包括根据样本数据的取样时间段将样本数据划分为多个样本集合；根据取样时间段设置每一个样本集合的采样率；根据采样率对每一个样本集合采样，并修改每一个采样后的样本集合对应的重要程度值；利用重要程度值修正每一个样本数据，并将该修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

第一实施例

本申请第一实施例提出一种机器学习系统的训练方法，如图1所示为本申请一实施例的机器学习系统的训练方法的流程图，本实施例提出的机器学习系统的训练方法包括如下步骤：

S101，获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

在这一步骤中，每一个样本数据例如为一个向量，该向量中的其中一个维度例如为该样本数据的取样时间。在本步骤中可以将所有样本数据的取样时间划分为多个取样时间段，并将多个样本数据根据取样时间段划分为多个样本集合，每一个样本集合对应一个取样时间段。

例如，所有样本数据的取样时间是从1月24日至1月29日，则可以将这一取样时间划分为多个取样时间段，例如1月29日、1月27日至1月28日、1月24日至1月26日三个取样时间段。按照上述三个取样时间段，将样本数据划分为1月29日取样的样本集合、1月27日至1月28日取样的样本数据集合、1月24日至1月26日取样的样本集合。因此，每一个样本集合对应一个取样时间段。

值得注意的是，上述取样时间段可以是依据开发者或使用者设定的规则划分，可以平均分布或者不平均分布，本申请并不以此为限。

S102，根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

在这一步骤中，可以根据取样时间段设置对应的每一个取样集合的样本率。例如，可以按照取样时间段越新的样本集合对应的采样率越高的原则设置采样率。即，所述样本集合的采样率随着该样本集合对应的取样时间段从旧到新而增加。例如在上述示例中，可以将1月29日取样的样本数据对应的样本集合的采样率设置为1.0，将1月27日至1月28日取样的样本数据对应的样本集合的采样率设置为0.5，将1月24日至1月26日取样的样本数据对应的样本集合的采样率设置为0.1。

S103，获得多个根据采样率采样后的样本集合；

在这一步骤中，可以根据上一步骤中设置的采样率，对每一个样本集合内的样本进行采样。例如某一个样本集合中包含的样本数据为1000个，采样率为0.1，则采样后该样本集合中包含的样本数据的个数为1000*0.1＝100个。通过采样后，样本集合中的样本数据为100个，这100个样本数据对应的集合可以称为采样后的样本集合。

S104，分别确定所述多个采样后的样本集合的重要程度值；

在一实施例中，重要程度值可以是人为或者机器算法设定的系数，每一个采样后的样本集合对应的重要程度值分别可以人为设定或通过机器以一定规则设定。在上述步骤中，可以在该样本集合原重要程度值的基础上，设置新的重要程度值。

S105，利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

在这一步骤中，可以利用该重要程度值修正多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

利用该重要程度值修正每一个样本数据，可以是将每一个向量的每一个特征维度与重要程度值相乘，使该向量等比例放大，获得修正后的样本数据。

例如，该样本集合原有的或者默认的重要程度值为1，在这一步骤中可以修正为2，因此某个原来为a(1,1,1,2,……..n)的样本数据在这一步骤中可以修正为a(2,2,2,4,……..2n)，即为修正后的样本数据。

然而，正如本领域技术人员可以得知的，重要程度值并不限于人为或者机器算法设定的系数，在其他实施例，还可以有多种方法，例如对样本数据a(,1,1,2,……..n)进行数学运算，a1＝f(a)等等，这里的函数f可以为等比相乘函数，或者类似指数运算等等各种数学函数，也可以对样本进行修正。

S106，将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

在这一步骤中，可以将修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。在训练中，首先对损失函数求导，计算出梯度，再结合初始的权重以及设置的步长，根据公式“新的权重＝旧的权重+步长*梯度”通过迭代的方式计算出接近最优解的权重值。

综上所述，本申请第一实施例公开一种机器学习系统的训练方法，在将样本数据输入机器学习系统之前对样本数据进行处理，降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

第二实施例

本申请第二实施例提出一种机器学习系统的训练方法，如图2所示为本申请第二实施例的机器学习系统的训练方法的流程图，本实施例提出的机器学习系统的训练方法包括如下步骤：

S201，获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

S202，根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

S203，获得多个根据采样率采样后的样本集合；

上述三个步骤与第一实施例中的步骤S101、S102、S103相同或相似，在此不再赘述。

S204，分别确定所述多个采样后的样本集合的重要程度值；

步骤S204例如可以包括：

子步骤S204a：基于对应的采样率对所述采样后的样本集合的初始重要程度值进行修正，得到所述采样后的样本集合的重要程度值；

所述重要程度值和初始重要程度值为正比关系，和所述采样后的样本集合的采样率为反比关系。

在子步骤S204a中，例如可以通过该样本集合原先对应的重要程度值与采样率的比值，计算新的重要程度值。例如，可以按照下述公式初次设置每一个样本集合的重要程度值：

Y1＝Y/a；

其中Y1为对应于该样本集合的设置后的重要程度值；

Y为对应于该样本集合的原始的重要程度值；

a为所述样本集合的采样率。

举例来说，在第一实施例所提供的示例中，如果针对1月24日至1月26日这一取样时间段的采样率为0.1，并且该集合对应的重要程度值设为0.2；针对1月29日这一取样时间段的采样率为0.5，并且该集合对应的重要程度值设为1；针对1月27日至1月28日这一取样时间段的采样率为1，并且该集合对应的重要程度值设为5，则根据Y1＝Y/a，可以得出按照取样时间段由旧到新排列的这三个集合的重要程度值分别为2、2、5。

步骤S204例如还可以包括：

子步骤S204b，按照预置规则，提高最新的取样时间段对应的样本集合的重要程度值。

在子步骤S204b中，这一预置规则例如可以包括：

提高后的最新的取样时间段对应的样本集合的重要程度值与提高前的最新的取样时间段对应的样本集合的重要程度值成正比，并与样本集合的总个数成正比。

在这一子步骤中，例如可以按照下述公式再次设置最新的取样时间段对应的样本集合的重要程度值：

Z1＝Z*b；

其中Z1为对应于该样本集合的再次修改后的重要程度值；

Z为对应于该样本集合的初次修改后的重要程度值；

b为样本集合的总个数。

举例来说，根据步骤S204b得出的按照取样时间段由旧到新排列的三个样本集合对应的重要程度值分别为2、2、5，在这一步骤中，可以针对取样时间段最新的采样后的样本集合，即第三个样本集合，再次提升其重要程度值。

例如，可以按照下述公式再次设置最新的取样时间段对应的样本集合的重要程度值：

Z1＝Z*b；

其中Z1为对应于该样本集合的再次设置后的重要程度值；

Z为对应于该样本集合的初次设置后的重要程度值；

b为样本集合的总个数。

举例来说，在子步骤S204a中获得的取样时间段最新的样本集合对应的初次设置后的重要程度值为5，在这一子步骤中，可以通过Z1＝Z*b的公式，获取再次设置后的重要程度值为5*3＝15。

值得注意的是，子步骤S204b可以在子步骤S204a之前或之后执行，或者是单独执行。即，子步骤S204b相对于子步骤S204a是独立的，并不依赖于子步骤S204a。

S205，利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

在这一步骤例如可以包括如下子步骤：

S205a，将每一个所述重要程度值与对应的采样后的样本集合中的每一个样本数据相乘，获得修正后的样本数据。

S206，将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

这一步骤可以与第一实施例中的步骤S106相同或相似，在此不再赘述。

综上所述，本申请第二实施例公开一种机器学习系统的训练方法，在将样本数据输入机器学习系统之前对样本数据进行处理，通过对不同样本集合的重要程度值的设置，在降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

第三实施例

本申请第三实施例提出一种机器学习系统的训练方法，如图3所示为本申请第三实施例的机器学习系统的训练方法的流程图，本实施例提出的机器学习系统的训练方法包括如下步骤：

S301，获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

S302，根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

S303，获得多个根据采样率采样后的样本集合；

S304，分别确定所述多个采样后的样本集合的重要程度值；

S305，利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

上述步骤S301至S305可以与第一实施例公开的步骤S101至S105相同或相似，也可以与第二实施例公开的步骤S201至S205相同或相似，在此不再赘述。

本实施例还可以包括如下步骤：

S306，将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

这一步骤可以包括如下子步骤：

S306a，计算出每一个所述修正后的样本数据的梯度；

S306b，降低每一个所述样本数据的梯度的精度；

S306c，将降低精度后的梯度输入所述机器学习系统，对该机器模型进行训练。

在步骤S306a中，可以首先计算每一个修正后的样本数据的梯度，该梯度为损失函数的导数，通过对损失函数求导，可以获得梯度。

在步骤S306b中，机器学习系统的训练一般采用梯度下降法，每一台机器都需要计算出梯度。如果储存1个梯度需要8byte(字节)，则100亿个梯度需要10000000000*8/1024/1024/1024＝74.5G的存储空间。如果将储存一个梯度的字节数压缩至4byte，则100亿的梯度仅仅需要32.25G内存。

在步骤S306b中，可以使用下述公式，减少每一个本数据的梯度的存储字节，以实现降低精度：

X1＝floor(c*X+(rand())/d)/c

其中floor为向下取整；rand()为产生0-d之间的浮点数；X1为低精度浮点数，例如为计算机存储需要4个字节的float，在这里表示减少后每一个所述样本数据的梯度的存储字节；X为高精度浮点数，例如为计算机存储需要8个字节的double，为减少前每一个所述样本数据的梯度的存储字节。

另外，通过利用rand函数引入随机因素，来尽量降低浮点数的累计误差。例如，利用(c*X+(rand())/d)的算法，让X乘以一个固定的数，然后加上一个在0-1范围内的浮点数，目的在于在引入随机因素。C的值是个经验值，例如可以为536870912。D例如可以为232-1，即2147483647，是rand函数所能产生的上限。

通过上述公式，可以实现将一个高精度的浮点数，转成一个低精度的浮点数，并且尽可能减低累计误差。

综上所述，本申请第三实施例公开一种机器学习系统的训练方法，在将样本数据输入机器学习系统之前对样本数据进行处理，通过对不同样本集合的重要程度值的设置，以及在降低梯度精度时的处理，在降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

第四实施例

本申请第四实施例提出一种机器学习系统的训练系统，如图4所示为本申请第四实施例的机器学习系统的训练系统的方框图，本实施例提出的机器学习系统的训练系统利用多个样本数据对机器学习系统进行训练，所述训练系统400包括：

第一获取模块401，用于获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

采样率设置模块402，用于根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

第二获取模块403，用于获得多个根据采样率采样后的样本集合；

重要程度值确定模块404，用于分别设置所述多个采样后的样本集合的重要程度值；

样本数据修正模块405，用于利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

训练模块406，用于将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

优选地，在本实施例中，所述样本集合的采样率随着该样本集合对应的取样时间段从旧到新而增加。

综上所述，本申请第四实施例公开一种机器学习系统的训练系统，在将样本数据输入机器学习系统之前对样本数据进行处理，降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

第五实施例

本申请第五实施例提出一种机器学习系统的训练系统，如图5所示为本申请第五实施例的机器学习系统的训练系统的方框图，本实施例提出的机器学习系统的训练系统利用多个样本数据对机器学习系统进行训练，所述训练系统500包括：

第一获取模块501，用于获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

采样率设置模块502，用于根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

第二获取模块503，用于获得多个根据采样率采样后的样本集合；

重要程度值确定模块504，用于分别设置所述多个采样后的样本集合的重要程度值；

样本数据修正模块505，用于利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

训练模块506，用于将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

在本实施例中，所述样本数据修正模块505用于：

将每一个所述重要程度值与对应的采样后的样本集合中的每一个样本数据相乘，获得修正后的样本数据。

在本实施例中，所述重要程度值确定模块504包括：

初次修正子模块504a，用于基于对应的采样率对所述采样后的样本集合的初始重要程度值进行修正，得到所述采样后的样本集合的重要程度值；

例如，所述初次修正子模块可以按照下述公式初次设置每一个所述样本集合的重要程度值：

Y1＝Y/a；

其中Y1为对应于该样本集合的设置后的重要程度值；

Y为对应于该样本集合的原始的重要程度值；

a为所述样本集合的采样率。

在本实施例中，所述重要程度值确定模块504还可以包括：

二次修正子模块504b，用于按照预置规则，提高最新的取样时间段对应的样本集合的重要程度值。

优选地，所述预置规则包括：

Z1＝Z*b；

其中Z1为对应于该样本集合的再次设置后的重要程度值；

Z为对应于该样本集合的初次设置后的重要程度值；

b为样本集合的总个数。

在本实施例中，所述样本集合的采样率随着该样本集合对应的取样时间段从旧到新而增加。

综上所述，本申请第五实施例公开一种机器学习系统的训练系统，在将样本数据输入机器学习系统之前对样本数据进行处理，通过对不同样本集合的重要程度值的设置，在降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

第六实施例

本申请第六实施例提出一种机器学习系统的训练系统，如图6所示为本申请第六实施例的机器学习系统的训练系统的方框图，本实施例提出的机器学习系统的训练系统利用多个样本数据对机器学习系统进行训练，所述训练系统600包括：

第一获取模块601，用于获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

采样率设置模块602，用于根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

第二获取模块603，用于获得多个根据采样率采样后的样本集合；

重要程度值确定模块604，用于分别设置所述多个采样后的样本集合的重要程度值；

样本数据修正模块605，用于利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

训练模块606，用于将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。

在本实施例中，所述训练模块606包括：

计算子模块606a，用于计算出每一个所述修正后的样本数据的梯度；

精度降低子模块606b，用于降低每一个所述梯度的精度；

训练子模块606c，用于将降低精度后的梯度输入所述机器学习系统，对该机器模型进行训练。

在本实施例中，所述精度降低子模块606b用于：

利用下述公式，减少每一个梯度的存储字节，以实现降低精度：

X1＝floor(c*X+(rand())/d)/c

其中floor为向下取整；rand()为产生0-d之间的浮点数；X1为减少后的存储字节数；X为减少前的存储字节数。

综上所述，本申请第六实施例公开一种机器学习系统的训练系统，在将样本数据输入机器学习系统之前对样本数据进行处理，通过对不同样本集合的重要程度值的设置，以及在降低梯度精度时的处理，在降低数据量的同时保证了重要数据的采用率和利用程度，在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信号存储。信号可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信号。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种针对混淆脚本语言的定位方法和系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种机器学习系统的训练方法，利用多个样本数据对机器学习系统进行训练，其特征在于，所述训练方法包括：

获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

获得多个根据采样率采样后的样本集合；

分别确定所述多个采样后的样本集合的重要程度值；

利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。
如权利要求1所述的机器学习系统的训练方法，其特征在于，所述利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据的步骤包括：

将每一个所述重要程度值与对应的采样后的样本集合中的每一个样本数据相乘，获得修正后的样本数据。
如权利要求1所述的机器学习系统的训练方法，其特征在于，所述将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练的步骤包括：

计算出每一个所述修正后的样本数据的梯度；

降低每一个所述梯度的精度；

将降低精度后的梯度输入所述机器学习系统，对该机器模型进行训练。
如权利要求3所述的机器学习系统的训练方法，其特征在于，所述降低每一个所述梯度的精度的步骤包括：

利用下述公式，减少每一个梯度的存储字节，以实现降低精度：

X1＝floor(c*X+(rand())/d)/c

其中floor为向下取整；rand()为产生0-d之间的浮点数；X1为减少后的存储字节数；X为减少前的存储字节数。
如权利要求1所述的机器学习系统的训练方法，其特征在于，所述分别确定所述多个采样后的样本集合的重要程度值步骤包括：

基于对应的采样率对所述采样后的样本集合的初始重要程度值进行修正，得到所述采样后的样本集合的重要程度值；

所述重要程度值和初始重要程度值为正比关系，和所述采样后的样本集合的采样率为反比关系。
如权利要求5所述的机器学习系统的训练方法，其特征在于，所述分别设置所述多个采样后的样本集合的重要程度值步骤还包括：

按照预置规则，提高最新的取样时间段对应的样本集合的重要程度值。
如权利要求6所述的机器学习系统的训练方法，其特征在于，所述预置规则包括：

提高后的最新的取样时间段对应的样本集合的重要程度值与提高前的最新的取样时间段对应的样本集合的重要程度值成正比，并与样本集合的总个数成正比。
如权利要求1所述的机器学习系统的训练方法，其特征在于，在根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率的步骤中，所述样本集合的采样率随着该样本集合对应的取样时间段从旧到新而增加。
一种机器学习系统的训练系统，利用多个样本数据对机器学习系统进行训练，其特征在于，所述训练系统包括：

第一获取模块，用于获得多个样本集合，每个样本集合包括对应取样时间段内的样本数据；

采样率设置模块，用于根据每一个样本集合对应的采样时间段，设置该样本集合对应的采样率；

第二获取模块，用于获得多个根据采样率采样后的样本集合；

重要程度值确定模块，用于分别设置所述多个采样后的样本集合的重要程度值；

样本数据修正模块，用于利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据，获得修正后的样本数据；

训练模块，用于将每一个所述修正后的样本数据输入机器学习系统，对该机器学习系统进行训练。
如权利要求9所述的机器学习系统的训练系统，其特征在于，所述样本数据修正模块用于：

将每一个所述重要程度值与对应的采样后的样本集合中的每一个样本数据相乘，获得修正后的样本数据。
如权利要求9所述的机器学习系统的训练系统，其特征在于，所述训练模块包括：

计算子模块，用于计算出每一个所述修正后的样本数据的梯度；

精度降低子模块，用于降低每一个所述梯度的精度；

训练子模块，用于将降低精度后的梯度输入所述机器学习系统，对该机器模型进行训练。
如权利要求11所述的机器学习系统的训练系统，其特征在于，所述精度降低子模块用于：

利用下述公式，减少每一个梯度的存储字节，以实现降低精度：

X1＝floor(c*X+(rand())/d)/c

其中floor为向下取整；rand()为产生0-d之间的浮点数；X1为减少后的存储字节数；X为减少前的存储字节数。
如权利要求9所述的机器学习系统的训练系统，其特征在于，所述重要程度值确定模块包括：

初次修正子模块，用于基于对应的采样率对所述采样后的样本集合的初始重要程度值进行修正，得到所述采样后的样本集合的重要程度值；

所述重要程度值和初始重要程度值为正比关系，和所述采样后的样本集合的采样率为反比关系。
如权利要求13所述的机器学习系统的训练系统，其特征在于，所述重要程度值确定模块还包括：

二次修正子模块，用于按照预置规则，提高最新的取样时间段对应的样本集合的重要程度值。
如权利要求14所述的机器学习系统的训练系统，其特征在于，所述预置规则包括：

提高后的最新的取样时间段对应的样本集合的重要程度值与提高前的最新的取样时间段对应的样本集合的重要程度值成正比，并与样本集合的总个数成正比。
如权利要求9所述的机器学习系统的训练系统，其特征在于，所述采样率设置模块用于，将所述样本集合的采样率设置为随着该样本集合对应的取样时间段从旧到新而增加。