WO2019223104A1

WO2019223104A1 - 确定事件影响因素的方法、装置、终端设备及可读存储介质

Info

Publication number: WO2019223104A1
Application number: PCT/CN2018/097557
Authority: WO
Inventors: 卢少烽; 洪博然; 徐亮; 阮晓雯; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-22
Filing date: 2018-07-27
Publication date: 2019-11-28
Also published as: CN108681751A; CN108681751B

Abstract

本方案适用于数据处理技术领域，提供了确定事件影响因素的方法、终端设备及计算机可读存储介质，包括：获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。本方案通过构建因素结构树，提升了对事件的影响因素确定的准确性和适用性。

Description

确定事件影响因素的方法、装置、终端设备及可读存储介质

本申请要求于2018年05月22日提交中国专利局、申请号为201810496726.7、发明名称为“确定事件影响因素的方法及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据处理技术领域，尤其涉及一种确定事件影响因素的方法、装置、终端设备及计算机可读存储介质。

背景技术

在现实生活中，事件的结果往往与某些影响因素相关，例如某地区的降雨量与该地区的海陆位置、地形、气压带和风带等影响因素有关。统计学是关于认识客观现象总体数量特征和数量关系的科学，在确定事件的影响因素时，需要利用统计学，获取大量的与事件相关的样本，并对样本进行观察和计算，从而得到与事件相关的影响因素。

在现有技术中，往往是提取出与样本与单个因素相关的部分，并根据该部分样本在该因素影响下是否发生改变，来判断该因素是否为事件的影响因素。但是，事件可能与多个影响因素有关，并且多个影响因素之间可能会互相影响，从而改变事件的结果。综上，现有的确定事件影响因素的方法无法适用于存在多个影响因素的场景，并且确定影响因素的准确性低。

技术问题

有鉴于此，本申请实施例提供了一种确定事件影响因素的方法、装置、终端设备及计算机可读存储介质，以解决现有技术中事件的影响因素确定不准确，且确定方法的适用性低的问题。

技术解决方案

本申请实施例的第一方面提供了一种确定事件影响因素的方法，包括：

获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。

本申请实施例的第二方面提供了一种确定事件影响因素的装置，可以包括用于实现上述确定事件影响因素的方法的步骤的单元。

本申请实施例的第三方面提供了一种终端设备，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述确定事件影响因素的方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述确定事件影响因素的方法的步骤。

有益效果

本申请实施例通过获取与事件相关的多个数据样本，每个数据样本包括标签特征值和多个因素特征值，其中，标签特征值指示数据样本处于的事件结果，多个因素特征值是数据样本对应的多个样本因素的量化值，接下来将多个数据样本与学习模型进行拟合，并将拟合完成的学习模型作为因素结构树，最后从因素结构树中的结构节点确定出因素节点，将因素节点对应的样本因素输出为事件的影响因素，本申请实施例通过构建因素结构树，涵盖了多个影响因素存在互相影响，从而对事件造成影响的情况，提升了影响因素确定的准确性和适用性。

附图说明

图1是本申请实施例一中确定事件影响因素的方法的实现流程图；

图2是本申请实施例二中确定事件影响因素的方法的实现流程图；

图3是本申请实施例三中确定事件影响因素的方法的实现流程图；

图4是本申请实施例四中确定事件影响因素的方法的实现流程图；

图5是本申请实施例五中确定事件影响因素的方法的实现流程图；

图6是本申请实施例六中自动查找物流信息的装置的结构框图；

图7是本申请实施例七中终端设备的示意图。

本发明的实施方式

为了对本申请的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本申请的具体实施方式。

请参阅图1，图1是本申请实施例提供的一种确定事件影响因素的方法的实现流程图。如图1所示，该方法包括以下步骤：

S101：获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应。

通常来说，一个事件被影响因素影响，事件结果因影响因素的改变而发生变化，而在实际场景中，往往存在多个样本因素，故需要从多个样本因素中确定与事件关联的影响因素。比如在事件为年平均降雨量的情况下，样本因素可能有海陆位置、地形、气压带、居民人数和居民受教育程度等，故需要从上述的样本因素中确定与年平均降雨量相关的影响因素。在本申请实施例中，首先获取与事件相关的多个数据样本，每个数据样本包括标签特征值和多个因素特征值，标签特征值指示事件结果，如上述的年平均降雨量的数值，每个因素特征值与一个样本因素对应，指示该样本因素的具体数值。由于在数据样本都为具体的数值，故获取每个数据样本之前，对该数据样本对应的事件结果和多个样本因素进行数值化处理，将事件结果转换为标签特征值，并将多个样本因素转换为多个因素特征值，以年平均降雨量举例，为了计算方便，一般不以年平均降雨量的具体数值作为标签特征值，而是设置三个区值区间，将年平均降雨量小于或等于100毫米对应的标签特征值置为0，将年平均降雨量大于100毫米且小于或等于500毫米对应的标签特征值置为1，将年平均降雨量大于500毫米对应的标签特征值置为2；再比如预设所有的海陆位置包括A种，数值分别为1、2、……、A，则判断数据样本中的海陆位置属于的种类，并将种类对应的数值赋予至海陆位置对应的因素特征值，其中，A为大于零的整数。当然，上述例子并不构成对本申请实施例的限定。在某些应用场景下，多个数据样本在记录时已进行了数值化处理，并存储在数据库中，故在本申请实施例中，可直接在数据库中获取多个数据样本。

可选地，根据样本条件选定多个数据样本。由于可能存在与事件相关的大量样本，故可依照预设的样本条件从大量样本中选取数据样本。样本条件可以与地域和数量级等相关，例如在大量样本中选取经纬度在一定范围的地区内的样本，且选取数量为一千个，并将选取出的样本作为数据样本。样本条件可根据实际应用场景进行确定，提升了数据样本选择对不同应用场景的适用性。

S102：将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树。

在传统的方法中，往往是根据理论推断或者提取多个数据样本中与单个因素相关的部分进行比对，来分别确定多个样本因素中对事件存在影响的影响因素。比如单独提取数据样本中的标签特征值以及与海陆位置对应的因素特征值进行分析，从而可以判断靠近大海的位置的年平均降雨量更高，故将海陆位置作为年平均降雨量的影响因素。但是，对单个因素单独提取进行分析的方法，可能会因事件被其他因素影响，造成分析不准确，并且多个样本因素之间可能互相影响，故传统的方法不适用于分析存在多个样本因素的情况。在本申请实施例中，将多个数据样本与预设的学习模型进行拟合，生成因素结构树。在拟合过程中，首先将多个数据样本构建为因素结构树的根节点，并根据多个数据样本计算将某一类因素特征值取值范围内的某个数值作为分裂条件，将根节点分裂为左节点和右节点(如将因素特征值小于或等于该数值的数据样本归至左节点，将因素特征值大于该数值的数据样本归至右节点)，再根据多个数据样本进行计算，进而对左节点和右节点进行分裂，直到达到预设的停止条件，则因素结构树生成，其中，某一类因素特征值是指与某个样本因素对应的因素特征值。

S103：从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。

将因素结构树中除开根节点的所有节点作为结构节点，并从结构节点中确定因素节点，其中，因素节点可以是所有的结构节点，也可以根据预设的筛选条件筛选出部分的结构节点作为因素节点，具体过程在后文进行阐述。由于结构节点是根据某一类因素特征值取值范围内的某个数值对上一级节点进行分裂得到的，故在确定出因素节点后，查找到与因素节点对应的某类因素特征值，从而确定与该因素特征值对应的样本因素，并将该样本因素输出为事件的影响因素。

通过图1所示实施例可知，在本申请实施例中，在存在多个样本因素的情况下，通过获取与事件相关的多个数据样本，每个数据样本包括标签特征值和多个因素特征值，标签特征值用于指示事件结果，每个因素特征值分别与一个预设的样本因素对应，然后将多个数据样本与预设的学习模型进行拟合，以训练该学习模型，将拟合完成的学习模型作为因素结构树，并且从因素结构树的结构节点中确定出因素节点，将因素节点对应的样本因素作为与事件相关的影响因素进行输出，可适用于存在多个影响因素的场景，提升了确定事件影响因素的方法的适用性和准确性。

请参阅图2，图2是本申请实施例二提供的一种确定事件影响因素的方法的实现流程图。相对于图1对应的实施例，本实施例对S102进行细化后得到S201～S205，详述如下：

S201：根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数。

在根据多个数据样本训练学习模型时，首先根据多个数据样本构建数据样本集，其中，每个所述数据样本的标签特征值构成数据样本集的标签参数，每个数据样本的多个因素特征值构成数据样本集的输入参数。举例来说，数据样本集为(Eigenvalue _label1，Eigenvalue _factor1)，(Eigenvalue _label2，Eigenvalue _factor2)……(Eigenvalue _labeln，Eigenvalue _factorn)，其中，Eigenvalue _labeli代表第i个数据样本的标签特征值，在本申请实施例中Eigenvalue _factori用于表示第i个数据样本的多个因素特征值，n代表数据样本的总数。

S202：获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数。

在数据样本集构建成功后，即所有数据样本都输入完毕后，统计数据样本集的所有输入参数中与每一种样本因素对应的一类因素特征值的最大值和最小值，即取值范围，并通过二分法，对该取值范围进行二分操作，直到得到N个二分点，N为大于零的整数，可根据实际应用场景进行制定，通常来说，N越大，生成的因素结构树效果更好，但同时训练时间也会对应增长。比如对于海陆位置对应的因素特征值，最大值为10，最小值为0，要获得三个二分点，则对最大值与最小值构成的取值范围进行三次二分操作，得到的二分点为2.5、5和7.5。值得一提的是，若N为偶数，则在二分操作的最后一步时，根据预设的取值范围进行二分，例如可制定优先选取边界点数值最小的取值范围进行二分，在上述对取值范围为0到10的取值范围进行二分的例子中，若要获得四个二分点，则在最后一次二分操作时，对0到2.5的取值范围进行二分，即得到的二分点为1.25、2.5、5和7.5。

S203：根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益。

为了便于说明，首先对学习模型(因素结构树)的训练过程进行介绍，学习模型对输入参数的计算公式为：

在上述公式中，

代表对输入参数为Eigenvalue _factori的预测值，即是将Eigenvalue _factori作为输入参数输入至学习模型后，学习模型计算后的输出结果。公式中的f()指示一个存在于函数空间的函数，函数空间指的是从一个集合到另一个集合的给定种类的函数的集合，即f()函数最初处于未知状态。K则表示学习模型中存在K个上述的f()函数，需要将所有的f()函数计算出的结果累加后，才能得到最终的预测值。值得一提的是，训练完成的学习模型的K个f()函数即为因素结构树，即因素结构树存在K个。

计算公式确定后，在本申请实施例中，采用前向预测的方法对f()函数进行训练，以使最终得到的K个f()函数最大限度地符合数据样本集中的数据。举例来说，在输入参数为Eigenvalue _factori的基础上，对输入参数进行t轮的预测，并在进行第t轮的预测时，保留第t-1轮的预测结果，即依据前次训练的结果训练因素结构树，使得预测值

与实际的标签参数(Eigenvalue _labeli)之间的差距逐渐减小，具体的前向预测的公式见下：

在本申请实施例中，t和K的数值相同，上述公式中的

是在给出输入参数为Eigenvalue _factori的基础上，进行第t轮预测后的预测值。为了确定在前向预测过程中的f()函数，使其尽量贴近于数据样本集，故构建目标函数，具体公式见下：

在上述公式中，Eigenvalue _labeli是数据样本集中与输入参数Eigenvalue _factori对应的标签参数，即是数据样本中的标签特征值。目标函数公式中的Ω(f _t)为正则项，D为常数项，其中，正则项控制f()函数的训练程度，防止数据样本集与学习模型过拟合；常数项为一个常量，设置常数项是为了限制目标函数的数值范围。值得一提的是，

为误差函数，对目标函数进行优化的过程，即是确定合适的f()函数使得上述误差函数的值尽量减小的过程。

在本申请实施例中，为了在计算层面上方便对目标函数进行优化，对上述的

进行展开，并定义：

第一依赖数

第二依赖数

展开后的目标函数为：

由于常数项实质并不影响目标函数的优化过程，故提取出展开后的目标函数中的常数项，可生成展开后的目标函数在第t轮的训练函数，公式如下：

在最终的训练函数中，训练函数得到的输出值依赖于g _i和h _i的值。基于数据样本集中每一个数据样本对应的标签参数Value _i和输入参数Eigenvalue _factori，都存在与该数据样本对应的第一分裂数据g _i和第二分裂数据h _i。在确定根节点和每个样本因素对应的N个二分点后，根据多个样本因素对应的N个二分点对根节点进行分裂。举例来说，若根据其中一个二分点对根节点进行分裂，则将该二分点作为分裂条件，将根节点分裂为第一样本集和第二样本集(可将输入参数中对应的因素特征值小于或等于该二分点的数据样本归至第一样本集，将输入参数中对应的因素特征值大于该二分点的数据样本归至第二样本集)，并根据第一样本集下数据样本的第一分裂数据和第二分裂数据，第二样本集下数据样本的第一分裂数据和第二分裂数据进行计算，即可计算得到该二分点对应的分裂收益。统计多个样本因素对应的N个二分点的多个分裂收益，将其中数值最大的分裂收益作为最佳分裂收益。

S204：若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作。

在本申请实施例中，对于因素结构树的构建过程，设置收益阈值，并判断最佳分裂收益是否大于收益阈值。若最佳分裂收益大于收益阈值，则根据该二分点对根结点进行二分操作，得到左节点和右节点；若最佳分裂收益小于或等于收益阈值，则说明多个样本因素对应的N个二分点都不适于进行二分操作，则判断对因素结构树的预测是否达到第t轮，若未达到第t轮，则进行下一轮的预测，若已达到第t轮，则停止对因素结构树的预测。

S205：对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。

对根节点进行二分操作得到左节点和右节点后，对左节点和右节点继续按照步骤S203和S204的方法，即计算根据每个所述样本因素对应的所述N个二分点对左节点(右节点)进行分裂得到的最佳分裂收益，若最佳分裂收益大于收益阈值，则根据最佳分裂收益对应的二分点对左节点(右节点)进行二分操作，不断迭代上述过程，直到构建的因素结构树达到预设的停止条件。其中，停止条件包含第1至t-1轮预测过程中的第一停止条件和第t轮预测过程中的第二停止条件，比如，第1至t-1轮预测过程中的第一停止条件可设置为当该轮预测过程中的因素结构树的节点达到预设的个数，或因素结构树的深度达到预设深度时，停止该轮的预测，并进行下一轮的预测；第t轮预测过程中的第二停止条件可设置为当该轮预测过程中的因素结构树的节点达到预设的个数，或因素结构树的深度达到预设深度时，停止进行预测，因素结构树预测完成。

通过图2所示实施例可知，在本申请实施例中，通过根据多个数据样本构建数据样本集，分别将数据样本的标签特征值和多个因素特征值设置为数据样本集的标签参数和输入参数，并获取输入参数中每个样本因素对应的因素特征值的取值范围，对取值范围进行二分操作得到N个二分点，N为大于零的整数，根据数据样本集构建根节点，计算根据多个样本因素对应的N个二分点对根节点进行分裂得到的最佳分裂收益，若最佳分裂收益大于预设的收益阈值，则根据最佳分裂收益对应的二分点对根节点进行二分操作，然后对进行二分操作后的左节点和右节点继续进行二分操作，直到构建的因素结构树达到预设的停止条件，因素结构树生成完毕，提升了生成的因素结构树对于多个数据样本的准确性。

请参阅图3，图3是本申请实施例三提供的一种确定事件影响因素的方法的实现流程图。相对于图2对应的实施例，本实施例对S203进行细化后得到S301～S302，详述如下：

S301：根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益。

以多个样本因素对应的N个二分点中的其中一个二分点进行举例，根据该二分点将数据样本集分为第一样本集和第二样本集，举例来说，若数据样本集包括4个数据样本，根据二分点分隔后，将第一样本集称为I _L，其内含2个数据样本，为(Eigenvalue _label1，Eigenvalue _factor1)，(Eigenvalue _label2，Eigenvalue _factor2)；将第二样本集称为I _R，其内包含2个数据样本，为(Eigenvalue _label3，Eigenvalue _factor3)，(Eigenvalue _label4，Eigenvalue _factor4)。然后分别计算第一样本集I _L内各个数据样本的第一依赖数和第二依赖数，以标签参数为Eigenvalue _label1的数据样本举例：

第一依赖数

第二依赖数

故可计算出第一样本集I _L的g ₁，h ₁，g ₂，h ₂，第二样本集I _R的g ₃，h ₃，g ₄，h ₄，并根据预设的收益算式计算出分裂收益：

其中，Value _P1为常数项，用于在分裂收益的计算过程中进行减少误差的处理，防止生成的分裂收益的误差过大；Value _P2为另一个常数项，用于使分裂收益在一定的取值范围内，方便将基于多个分裂收益产生的最佳分裂收益与预设的收益阈值进行比较。

将数据样本集称为I，可得到更通用的收益算式，如下：

S302：获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。

由于每个样本因素都对应N个二分点，故根据上述的收益算式计算出多个样本因素对应所有二分点的多个分裂收益，并将其中数值最大的分裂收益作为最佳分裂收益。

通过图3所示实施例可知，在本申请实施例中，通过根据二分点将数据样本集分为第一样本集和第二样本集，并将第一样本集下的数据样本和第二样本集下的数据样本输入至预设的收益算式，得到与该二分点对应的分裂收益，将所有样本因素的N个二分点对应的多个分裂收益进行比较，并将数值最大的分裂收益作为最佳分裂收益，通过收益算式提升了分裂收益与数据样本集的贴合程度，提升了分裂收益的准确性。

请参阅图4，图4是本申请实施例四提供的一种自动查找物流信息的方法的实现流程图。相对于图1对应的实施例，本实施例在存在多个影响因素的基础上，对S103进行细化后得到S401～S402，详述如下：

S401：统计所述因素节点在所述因素结构树中出现的出现次数。

在从因素结构树的结构节点中确定出因素节点，并确定与因素节点对应的影响因素后，统计因素节点在因素结构树中的出现次数，由于存在多个影响因素，故因素节点与影响因素对应，其出现次数也存在多个。可选地，首先统计因素结构树中的分裂条件的出现次数，由于分裂条件是某一类因素特征值取值范围内的某个数值，故可将该分裂条件的出现次数等同于该因素特征值对应因素节点的出现次数，提升了获取因素节点的出现次数的便利性。另外，由于因素结构树可能存在多个，故需要获取每个因素结构树中因素节点出现的子次数，并将所有的子次数叠加为因素节点的出现次数。

S402：根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。

由于出现次数和影响因素存在对应关系，故可根据出现次数的数值，按照从大到小的顺序对多个影响因素进行排序，比如出现次数为4，3，5，对应的影响因素分别为海陆位置、地形和气压带，则输出排序后的多个影响因素为气压带、海陆位置和地形。影响因素的排序越前，就证明该影响因素对事件的影响程度越大。

通过图4所示实施例可知，在本申请实施例中，通过统计因素节点在因素结构树中的出现次数，其中，出现次数存在多个，并根据出现次数对与因素节点对应的多个影响因素进行排序，并输出排序后的多个影响因素，实现了对事件影响因素重要性的获取，适应了用户对影响因素重要性的需求。

请参阅图5，图5是本申请实施例五提供的一种自动查找物流信息的方法的实现流程图。相对于图1对应的实施例，本实施例对S103进行细化后得到S501～S502，详述如下：

S501：分别获取每个所述结构节点在所述因素结构树中的权重值。

在确定出因素结构树的多个结构节点后，分别获取每个结构节点在因素结构树中的权重值。权重值在将多个数据样本与学习模型进行拟合时，根据学习模型预设的权重算式自动生成，故在本申请实施例中，在因素结构树生成后直接进行权重值的获取。另外，由于因素结构树可能存在多个，故在获取多个因素结构树中每个结构节点的权重值后，将一类结构节点的权重值进行加法运算，其中，一类结构节点对应一个样本因素。

举例来说，若按照上述的训练函数进行因素结构树的构建，则权重算式可以设置为：

其中，Weight _i指示某个结构节点的权重值，g _i为该结构节点对应数据样本的第一依赖数，h _i为该结构节点对应数据样本的第二依赖数。

S502：将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。

在本申请实施例中，设置权重阈值，若进行加法运算后的某类结构节点的权重值大于权重阈值，则将该类结构节点作为因素节点进行输出。由于结构节点对应样本因素，故上述过程实质上是将大于预设的重要程度的样本因素作为事件的影响因素进行输出。

通过图5所示实施例可知，在本申请实施例中，通过分别获取每个结构节点在所述因素结构树中的权重值，并将一类结构节点的权重值叠加，将叠加后的权重值大于预设的权重阈值的一类结构节点作为因素节点进行输出，通过对结构节点进行筛选，提升了输出的因素节点的有效性。

对应于上文实施例所述的一种确定事件影响因素的方法，图6示出了本申请实施例提供的一种确定事件影响因素的装置的一个结构框图，参照图6，该装置包括：

获取单元61，用于获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

拟合单元62，用于将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

输出单元63，用于从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。

可选地，所述拟合单元62，包括：

构建单元，用于根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数；

取值获取单元，用于获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数；

收益计算单元，用于根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益；

二分单元，用于若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作；

继续二分单元，用于对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。

可选地，所述收益计算单元，包括：

计算子单元，用于根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益；

比对单元，用于获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。

可选地，若存在多个所述影响因素，则所述输出单元63，包括：

统计单元，用于统计所述因素节点在所述因素结构树中出现的出现次数；

排序单元，用于根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。

可选地，所述输出单元63，包括：

权重获取单元，用于分别获取每个所述结构节点在所述因素结构树中的权重值；

输出子单元，用于将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。

图7是本申请实施例提供的终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70以及存储器71，所述存储器71中存储有可在所述处理器70上运行的计算机可读指令72，例如确定事件影响因素的程序。所述处理器70执行所述计算机可读指令72时实现上述各个确定事件影响因素的方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，所述处理器70执行所述计算机可读指令72时实现上述装置实施例中各单元的功能，例如图6所示单元61至63的功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。例如，所述计算机可读指令72可以被分割成获取单元、拟合单元及输出单元，各单元具体功能如上所述。

所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种确定事件影响因素的方法，其特征在于，包括：

获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
如权利要求1所述的方法，其特征在于，所述将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树，包括：

根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数；

获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数；

根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益；

若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作；

对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
如权利要求2所述的方法，其特征在于，所述计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益，包括：

根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益；

获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。
如权利要求1所述的方法，其特征在于，若存在多个所述影响因素，所述将与所述因素节点对应的样本因素输出为所述事件的影响因素，还包括：

统计所述因素节点在所述因素结构树中出现的出现次数；

根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。
如权利要求1所述的方法，其特征在于，所述从所述因素结构树的结构节点中确定出因素节点，包括：

分别获取每个所述结构节点在所述因素结构树中的权重值；

将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
一种自动查找物流信息的装置，其特征在于，包括：

获取单元，用于获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

拟合单元，用于将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

输出单元，用于从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
如权利要求6所述的装置，其特征在于，所述拟合单元，包括：

构建单元，用于根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数；

取值获取单元，用于获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数；

收益计算单元，用于根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益；

二分单元，用于若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作；

继续二分单元，用于对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
如权利要求7所述的装置，其特征在于，所述收益计算单元，包括：

计算子单元，用于根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益；

比对单元，用于获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。
如权利要求6所述的装置，其特征在于，若存在多个所述影响因素，所述输出单元，包括：

统计单元，用于统计所述因素节点在所述因素结构树中出现的出现次数；

排序单元，用于根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。
如权利要求6所述的装置，其特征在于，所述输出单元，包括：

权重获取单元，用于分别获取每个所述结构节点在所述因素结构树中的权重值；

输出子单元，用于将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
根据权利要求11所述的终端设备，其特征在于，所述将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树，包括：

根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数；

获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数；

根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益；

若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作；

对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
根据权利要求12所述的终端设备，其特征在于，所述计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益，包括：

根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益；

获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。
根据权利要求11所述的终端设备，其特征在于，若存在多个所述影响因素，所述将与所述因素节点对应的样本因素输出为所述事件的影响因素，还包括：

统计所述因素节点在所述因素结构树中出现的出现次数；

根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。
根据权利要求11所述的终端设备，其特征在于，所述从所述因素结构树的结构节点中确定出因素节点，包括：

分别获取每个所述结构节点在所述因素结构树中的权重值；

将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

获取与事件相关的多个数据样本，所述数据样本包括标签特征值和多个因素特征值，所述标签特征值用于指示事件结果，每个所述因素特征值分别与一个预设的样本因素对应；

将所述多个数据样本与预设的学习模型进行拟合，并将拟合完成的所述学习模型输出为因素结构树；

从所述因素结构树的结构节点中确定出因素节点，并将与所述因素节点对应的样本因素输出为所述事件的影响因素。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

根据所述多个数据样本构建数据样本集，将每个所述数据样本的标签特征值设置为所述数据样本集的标签参数，并将每个所述数据样本的所述多个因素特征值设置为所述数据样本集的输入参数；

获取所述输入参数内与每个所述样本因素对应的所述因素特征值的取值范围，并对所述取值范围进行二分操作直至得到N个二分点，其中，N为大于零的整数；

根据所述数据样本集构建所述因素结构树的根节点，并计算根据多个所述样本因素对应的所述N个二分点对所述根节点进行分裂得到的最佳分裂收益；

若所述最佳分裂收益大于预设的收益阈值，则根据所述最佳分裂收益对应的二分点对所述根节点进行二分操作；

对将所述根节点进行二分操作后得到的节点继续进行二分操作，直到基于二分操作得到的节点构建的所述因素结构树达到预设的停止条件。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

根据所述二分点将所述数据样本集分为第一样本集和第二样本集，并将所述第一样本集和第二样本集输入预设的收益算式，得到分裂收益；

获取多个所述样本因素的所述N个二分点对应的多个所述分裂收益，并将数值最大的所述分裂收益作为所述最佳分裂收益。
根据权利要求16所述的计算机可读存储介质，其特征在于，若存在多个所述影响因素，所述计算机可读指令被至少一个处理器执行时还实现如下步骤：

统计所述因素节点在所述因素结构树中出现的出现次数；

根据所述出现次数对与所述因素节点对应的多个所述影响因素进行排序，并输出排序后的多个所述影响因素。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

分别获取每个所述结构节点在所述因素结构树中的权重值；

将所述权重值大于预设的权重阈值的所述结构节点作为所述因素节点进行输出。