WO2020215237A1

WO2020215237A1 - 用于数据处理的方法、装置和介质

Info

Publication number: WO2020215237A1
Application number: PCT/CN2019/084049
Authority: WO
Inventors: 卫文娟; 刘春辰; 崔绿叶; 冯璐
Original assignee: 日本电气株式会社; 卫文娟
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-10-29
Also published as: JP2022537009A; JP2024016198A; US20220215291A1

Abstract

本公开的实施例涉及用于数据处理的方法、设备和计算机可读存储介质。一种用于数据处理的方法包括获取关于多个因素的观测样本集合，该观测样本集合中的一个观测样本包括多个因素的相应观测值。该方法还包括基于观测样本集合，确定多个因素之间存在的依赖关系集合，依赖关系集合中的一个依赖关系指示多个因素中彼此关联的一个因素对。该方法还包括基于依赖关系集合，确定多个因素的因果关系序列，该因果关系序列指示彼此关联的所述因素对中的一个因素是另一因素的原因。本公开的实施例还提供了能够实现上述方法的设备和计算机可读存储介质。本公开的实施例能够快速且准确地发现大量因素间的因果关系，并基于该因果关系来影响目标因素的观测值。

Description

用于数据处理的方法、装置和介质

技术领域

本公开的实施例涉及机器学习领域，并且更具体地，涉及用于数据处理的方法、装置和计算机可读存储介质。

背景技术

随着信息技术的飞速发展，数据规模迅速增长。在这样的背景和趋势下，机器学习受到越来越广泛的关注。其中，因果发现在现实生活中具有广泛的应用，例如在供应链、医疗健康和零售等领域。在此所述的因果发现是指从关于多个因素的样本数据中发现多个因素间存在的因果关系。例如，在零售领域，因果发现的结果能够被用来辅助制定各种销售策略；在医疗健康领域，因果发现的结果能够被用来辅助制定对患者的治疗方案等。

然而，随着技术的发展，单个系统中可能存在因果关系的各种因素的数目显著地增加。此外，人们还常常关注不同系统间的联动。这导致了要针对其发现因果关系的因素的数目可能高达成百上千个。在此情况下，快速且准确地发现大量因素间存在的因果关系变得越来越重要。

发明内容

本公开的实施例提供了用于数据处理的方法、装置和计算机可读存储介质。

在本公开的第一方面，提供一种用于数据处理的方法。该方法包括：获取关于多个因素的观测样本集合，该观测样本集合中的每个观测样本包括多个因素的相应观测值；基于该观测样本集合来确定多个因素之间存在的依赖关系集合，该依赖关系集合中的一个依赖关系指示多个因素中彼此关联的一个因素对；以及基于该依赖关系集合，确定多个因素的因果关系序列，该因果关系序列指示彼此关联的因素对中的一个因素是另一因素的原因。

本公开的第二方面，提供一种用于数据处理的装置。该装置包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令当由至少一个处理单元执行时，使得该装置执行动作，动作包括：获取关于多个因素的观测样本集合，该观测样本集合中的每个观测样本包括多个因素的相应观测值；基于该观测样本集合来确定多个因素之间存在的依赖关系集合，该依赖关系集合中的一个依赖关系指示多个因素中彼此关联的一个因素对；以及基于该依赖关系集合，确定多个因素的因果关系序列，该因果关系序列指示彼此关联的因素对中的一个因素是另一因素的原因。

本公开的第三方面，提供一种计算机可读存储介质，该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。

提供发明内容部分是为了以简化的形式来介绍一系列概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征，也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

从下文的公开内容和权利要求中，本发明的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的，参考附图来给出优选实施例的非限制性描述，在附图中：

图1A和图1B示出了根据本公开的实施例的用于数据处理的示例系统的框图；

图2示出了根据本公开的实施例的用于确定多个因素间的因果关系的示意图；

图3示出了根据本公开的实施例的示例方法的流程图；

图4示出了根据本公开的实施例的示例方法的流程图；

图5示出了根据本公开的实施例的示例方法的流程图；

图6示出了根据本公开的实施例的示例方法的流程图；以及

图7示出了可以用来实施本公开的实施例的示例设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例中，术语“因果结构”(causal structure)一般是指描述系统中的各个因素间的因果关系的结构，在本文中也被称为“因果关系序列”。术语“因素”也被称为“变量”。术语“观测样本”指代能够被直接观测到的多个因素的一组观测值，其中能够被直接观测到的因素也被称为“观测变量”。

如上所述，在实际生活中，期望快速且准确地发现大量观测变量间存在的因果关系。

在客户服务领域中，为了确定哪些因素将影响客户对电信运营商的满意度，可以收集大量客户的消费行为数据(诸如，客户等级、每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用等)、满意度调查数据以及运营商策略数据。收集的每一种类型的数据也被称为一种因素(或变量)的观测值。通过发现这些因素间存在的因果关系，能够确定影响客户满意度的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来提高客户对电信运营商的满意度。

在健康领域中，为了确定影响患者血压的因素，可以收集大量患者的一系列生理指标(即，一系列因素的观测值)，诸如心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等。通过发现这些生理指标之间存在的因果关系，能够确定影响患者血压的生理指标(即，因素)。进一步地，可以通过影响该生理指标或者针对该生理指标制定相应策略，来使患者的血压保持稳定。

在商品销售领域中，为了确定影响目标商品(例如，雨伞)销量的因素，可以收集外部因素数据(诸如，天气、季节、温度、日期、店铺大小等)，该商品的销售数据(诸如，该商品的销量、该商品的价格等)，以及一个或多个关联商品(例如，冰淇淋)的销售数据等。收集的每一种类型的数据作为一种因素的观测值。通过发现这些因素间存在的因果关系，能够确定影响目标商品的销量的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来提高目标商品的销量。

在软件开发领域中，为了确定影响故障率和/或软件开发周期的因素，可以收集软件开发的各种因素的信息，包括但不限于软件开发的总体信息(诸如，开发周期、开发投入的资源等)和软件开发的各个阶段的信息。软件开发的各个阶段的信息例如可以包括架构阶段的信息(诸如，软件架构方法、软件架构层级数量等)、编码阶段的信息(诸如，代码长度、函数数量、编程语言、模块数量等)、测试阶段的信息(诸如，单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率等)、软件发布后运行阶段的信息(诸如，运行阶段的正确率或故障率等)。收集的每一种类型的数据作为一种因素的观测值。通过发现这些因素间存在的因果关系，能够确定影响软件开发周期和/或故障率的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来降低软件开发周期和/或故障率。

一些传统方案主要针对具有较少因素(例如，不超过100个因素)的系统，采用基于约束的方法或基于分数的方法来搜索整个变量空间以发现可能的因果关系。例如，在基于约束的方法中，通常通过针对多个因素应用条件独立测试来发现其中的因果结构。然而，当需要搜索的因素数目较多时，条件独立测试的结果将变得不可靠。此外，发现因果结构往往需要利用从不包括任何因素到包括所有其他因素的条件集合来测试任意两个因素间的依赖关系，这将导致巨大的计算开销。在基于分数的方法中，通常通过优化度量因果结构与样本数据之间的匹配度的得分来发现因果结构。然而，由于搜索空间的超指数增长，这些方案往往难以适用于针对许多因素(例如，成百上千个)的因果结构(也称为“高维因果结构”)的发现。

根据本公开的实施例，提出了一种用于数据处理的方案。该方案能够快速且准确地实现高维因果结构的发现，从而能够解决上述问题和/或其他潜在问题。以下将结合上述示例场景来详细描述本公开的各实施例。应当理解，这仅仅是出于说明的目的，不旨在以任何方式限制本发明的范围。

图1A示出了根据本公开的实施例的用于数据处理的系统100的示例框图。系统100例如可以发现多个因素间的因果关系。应当理解，图1A所示的系统100仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1A所示，系统100可以包括因果关系确定装置120。因果关系确定装置120可以接收关于多个因素的观测样本集合110，并且从中确定指示多个因素间的因果关系的因果关系序列130。可选地，在一些实施例中，系统100可以进一步包括观测样本采集装置(图1A中未示出)，用于采集关于多个因素的观测样本集合110。观测样本采集装置可以实时地、定期地或不定期地采集多个因素的观测值，以得到观测样本集合110。在一些实施例中，观测样本采集装置可以包括一个或多个采集单元，分别用于采集不同类型的因素的观测值。

观测样本集合110可以包括与一个或多个目标因素有关的多个因素的观测样本。观测样本集合110例如可以表示为X＝{x ₁，x ₂，...，x _D}∈R ^N×D，其中N表示观测样本集合110中的观测样本的总数目，D表示因素的总数目，观测样本集合110中的每个观测样本包括D个因素的一组观测值。在本文中，D个因素的集合也被表示为V＝{v ₁，v ₂，...，v _D}，并且v _i(其中1≤i≤D)表示D个因素中的第i个因素。向量x _i∈R ^N(其中1≤i≤D)表示第i个因素的N个观测值。例如，x _i，n(其中，1≤i≤D并且1≤n≤N)表示第i个因素的第n个观测值。

以上述关于电信运营商的客户满意度的场景为例，例如目标因素为“客户满意度”，因素集合V可以包括与客户属性有关的因素(例如，客户等级、客户号码等)、与客户行为有关的因素(例如，每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用等)、与客户反馈有关的因素(例如，投诉次数、客户满意度)以及针对客户制定的策略因素(例如，超套提醒次数、时机等)中的一种或多种。等。以因素“客户等级”(即，v _i)为例，向量x _i可以由N个客户的等级组成，并且x _i，n可以表示N个客户中的第n个客户的等级。以因素“每月消费的上网流量”(即，v _i)为例，向量x _i可以由N个客户每月消费的上网流量组成，并且x _i，n可以表示N个客户中的第n个客户每月消费的上网流量。因果关系序列130例如可以指示客户等级、每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用、客户满意度等因素之间的因果关系，如目标因素“客户满意度”的原因是哪些因素。

以上述关于患者血压的场景为例，例如目标因素为“血压”，因素集合V可以包括心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等。以因素“心率”(即，v _i)为例，向量x _i可以由N个患者的心率组成，并且x _i，n可以表示N个患者中的第n个患者的心率。以因素“心输出量”(即，v _i)为例，向量x _i可以由N个患者的心输出量组成，并且x _i，n可以表示N个患者中的第n个患者的心输出量。因果关系序列130例如可以指示心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等因素之间的因果关系，如目标因素“血压”的原因是哪些因素。

以上述商品销售场景为例，例如目标因素为“目标商品销量”，因素集合V可以包括外部因素(诸如，天气、季节、温度、日期、店铺大小等)，与目标商品(例如，雨伞)的销售行为有关的因素(诸如，目标商品的销量、目标商品的价格等)，与一个或多个关联商品(例如，冰淇淋)的销售行为有关的因素(诸如，关联商品的销量、关联商品的价格等)以及针对目标商品的销售策略因素(诸如，促销次数、频率等)中的一种或多种。以因素“温度”(即，v _i)为例，向量x _i可以由N天的温度组成，并且x _i，n可以表示第n天的温度。以因素“目标商品销量”(即，v _i)为例，向量x _i可以由N天的雨伞销量组成，并且x _i，n可以表示第n天的雨伞销量。因果关系序列130例如可以指示天气、季节、温度、日期、店铺大小、目标商品销量、目标商品价格、关联商品销量、关联商品价格等因素之间的因果关系，如目标因素“目标商品销量”的原因是哪些因素。

以上述软件开发场景为例，例如目标因素为“软件开发周期”或“软件运行阶段故障率”，因素集合v可以包括软件开发的总体因素(诸如，开发周期、开发投入的资源等)和软件开发的各个阶段的因素中的一种或多种。软件开发的各个阶段的因素例如可以包括架构阶段的因素(诸如，软件架构方法、软件架构层级数量等)、编码阶段的因素(诸如，代码长度、函数数量、编程语言、模块数量等)、测试阶段的因素(诸如，单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率等)、软件发布后运行阶段的因素(诸如，运行阶段的正确率、运行阶段故障率等)。以因素“开发周期”(即，v _i)为例，向量x _i可以由N个软件产品的开发周期组成，并且x _i，n可以表示第n个软件产品的开发周期。以因素“代码长度”(即， v _i)为例，向量x _i可以由N个软件产品的代码长度组成，并且x _i，n可以表示第n个软件产品的代码长度。因果关系序列130例如可以指示软件开发周期、开发投入的资源、架构方法、架构层级数量、代码长度、函数数量、编程语言、模块数量、单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率、运行阶段的正确率、运行阶段故障率等因素之间的因果关系。例如，目标因素“开发周期”的原因是哪些因素，目标因素“运行阶段故障率”的原因是哪些因素等。

如图1A所示，因果关系确定装置120例如可以包括依赖关系确定单元121和因果关系确定单元122。在一些实施例中，依赖关系确定单元121可以基于观测样本集合110来确定多个因素之间存在的依赖关系集合。该依赖关系集合中的每个依赖关系指示多个因素中彼此关联的一个相应因素对。在一些实施例中，因果关系确定单元122可以基于由依赖关系确定单元121确定的依赖关系集合来确定因素关系序列130。因素关系序列130可以指示存在依赖关系的因素对之间的因果关系(即，一个因素是另一因素的原因)。

应当理解，系统100中所包括的这些装置和/或装置中的单元仅是示例性的，而不旨在限制本公开的范围。应当理解的是，系统100还可以包括未示出的附加装置和/或单元。例如，在一些实施例中，系统100还可以进一步包括因果关系呈现装置(未示出)，以用于呈现因果关系序列130的表示。

在一些实施例中，因果关系呈现装置可以以视觉、听觉等不同方式来呈现因果关系序列130的表示。例如，因果关系呈现装置可以以图形、图表、文本等方式来呈现因果关系序列130。在一些实施例中，因果关系呈现装置可以呈现因果关系序列130的全部的表示，也即，所有因素间的因果关系。备选地，在一些实施例中，因果关系呈现装置可以仅呈现因果关系序列130的一部分的表示，例如，与一个或多个目标因素相关联的因果关系。在一些实施例中，当目标因素的原因包括多个因素时，因果关系呈现装置可以进一步呈现多个因素的相应重要程度，例如以不同颜色和/或表示不同重要程度的数值等方式来呈现多个因素的相应重要程度。本公开的实施例在此方面不受限制。

图1B示出了根据本公开的实施例的用于数据处理的系统105的示例框图。系统105例如可以应用和优化如图1A所示的因果关系序列130。应当理解，图1B所示的系统105仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1B所示，系统105可以包括观测样本影响装置140。观测样本影响装置140可以基于因果关系序列130，从多个因素中确定作为目标因素的原因的至少一个因素。观测样本影响装置140可以通过改变至少一个因素的观测值来影响目标因素的观测值，从而得到经改变的观测样本集合150。经改变的观测样本集合150中的至少一个观测样本包括至少一个因素的经改变的观测值。

以上述关于电信运营商的客户满意度的场景为例，目标因素例如为“客户满意度”，因果关系序列130例如可以指示目标因素“客户满意度”的原因是哪些因素(例如，套餐用尽之前的提醒、优惠套餐等)。观测样本影响装置140例如可以通过影响和改变这些因素的观测值、和/或针对这些因素制定相应策略(例如，在套餐用尽前向客户提供更多提醒、向客户提供更多优惠套餐)，来提高客户对电信运营商的满意度。

以上述关于患者血压的场景为例，目标因素例如为“血压”，因果关系序列130例如可以指示目标因素“血压”的原因是哪些生理指标。观测样本影响装置140例如可以通过影响和改变这些生理指标、和/或针对这些生理指标制定相应策略，来使患者的血压保持稳定。

以上述商品销售场景为例，目标因素例如为“雨伞销量”，因果关系序列130例如可以指示目标因素“雨伞销量”的原因是哪些因素(例如，天气、可供销售的雨伞数量等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在下雨时提高可供销售的雨伞数量)，来提高目标商品雨伞的销量。

以上述软件开发场景为例，目标因素例如为“开发周期”，因果关系序列130例如可以指示目标因素“开发周期”的原因是哪些因素(例如，架构层级数量、编程语言等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低软件架构复杂度、使用更友好的编程语言等)，来降低软件开发的周期。又例如，目标因素可以为“运行阶段软件故障率”，因果关系序列130例如可以指示目标因素“运行阶段软件故障率”的原因是哪些因素(例如，代码长度、模块数量等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低代码长度、减少模块数量等)，来降低运行阶段软件故障率。

如图1B所示，系统105可以包括因果关系优化装置160。因果关系优化装置160可以基于经改变的观测样本集合150来对因果关系序列130进行优化，从而提高因果关系序列130的准确性。在一些实施例中，因果关系优化装置160可以基于经改变的观测样本集合150来重新发现多个因素间的因果关系(例如，与因果关系确定装置120执行的过程类似)，从而得到经优化的因果关系序列。以此方式，本公开的实施例能够进一步提高因果发现的准确性和鲁棒性。

尽管如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和因果关系优化装置160被示出为彼此分离，然而应当理解，这仅仅出于说明的目的，而无意于限制本公开的范围。在一些实施例中，如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和因果关系优化装置160可以被实现在同一物理设备中或者多个不同的物理设备中。在一些实施例中，如图1A所示的因果关系确定装置120和如图1B所示的因果关系优化装置160可以作为相同装置来实现。本公开的实施例在此方面不受限制。

图2示出了根据本公开的实施例的用于确定多个因素间的因果关系的示意图。出于简化和便于说明的目的，在图2中假设观测样本集合110所涉及的因素(即，观测变量)的数目(即，D)为5。如图2所示，观测样本集合110包括关于因素v ₁、v ₂、v ₃、v ₄和v ₅的多个观测样本。依赖关系确定单元121可以基于观测样本集合110来确定因素v ₁、v ₂、v ₃、v ₄和v ₅之间存在的依赖关系集合，其被表示为骨架图210。例如，依赖关系集合210指示因素v ₁和v ₂彼此关联，因素v ₂和v ₄彼此关联，因素v ₃和v ₄彼此关联，并且因素v ₃和v ₅彼此关联。因果关系确定单元122可以基于依赖关系集合210来确定因素v ₁、v ₂、v ₃、v ₄和v ₅的因果关系序列，其例如被表示为有向无环图130。例如，因果关系序列130指示因素v ₂是因素v ₁的原因(如边缘v ₂→v ₁所示)，因素v ₂是因素v ₄的原因(如边缘v ₂→v ₄所示)，因素v ₃是因素v ₄的原因(如边缘v ₃→v ₄所示)，并且因素v ₃是因素v ₅的原因(如边缘v ₃→v ₅所示)。

图3示出了根据本公开的实施例的用于确定多个因素间的因果关系的方法300的流程图。例如，方法300可以由如图1A所示的因果关系确定装置120来执行。应当理解的是，方法300还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框310处，因果关系确定装置120获取关于多个因素的观测样本集合(例如，如图1A和图2所示的观测样本集合110)。观测样本集合中的一个观测样本包括多个因素的相应观测值。

在框320处，因果关系确定装置120(例如，依赖关系确定单元121)基于观测样本集合来确定多个因素之间存在的依赖关系集合(例如，如图2所示的骨架图210)。依赖关系集合中的一个依赖关系指示多个因素中彼此关联的一个因素对。

在一些实施例中，为了确定依赖关系集合，因果关系确定装置120可以基于多个因素中的任意两个因素的相应观测值来估计这两个因素之间的相关系数。例如，相关系数可以是Spearman相关系数或者Kendall相关系数中的任一项。基于所估计的每两个因素的相关系数，因果关系确定装置120可以建立相关系数矩阵S。例如，假设因素的总数目为D，则S为D×D的矩阵。假设矩阵S中第j行第k列的元素为S _jk，则S _jk可以如下被确定：

或者

其中，ρ _jk表示D个因素中的第j个因素与第k个因素的Spearman相关系数，τ _jk表示D个因素中的第j个因素与第k个因素的Kendall相关系数。Spearman相关系数和Kendall相关系数的计算是本领域技术人员已知的，在此不再赘述。此外，可以利用任何已知或将来开发的方法或手段来计算两个因素间的相关系数，而不仅限于Spearman相关系数和Kendall相关系数。应当理解，Spearman相关系数和Kendall相关系数仅被视为相关系数的示例，而不旨在限制本公开的范围。

在一些实施例中，因果关系确定装置120可以基于所估计的相关系数矩阵S来建立用于确定依赖关系集合(即，骨架图210)的目标函数(本文也称为“第一目标函数”)。因果关系确定装置120可以通过使第一目标函数最小化来确定依赖关系集合。在一些实施例中，例如，因果关系确定装置120可以基于图形化Lasso算法来学习精度矩阵Ω，其表示因素之间的相应依赖关系。例如，Ω可以如下被确定：

Ω＝argmin _Ω≥0{tr(SΩ)-log|Ω|+λ∑ _j≠k|Ω _jk|} (2)

其中λ为预定义的系数。如果所确定的矩阵Ω中第j行第k列的元素Ω _jk为0，则表示D个因素中的第j个因素和第k个因素不相关；如果元素Ω _jk不为0，则表示D个因素中的第j个因素和第k个因素彼此相关(但不一定具有因果关系)。假设依赖关系集合利用矩阵M来表示，则矩阵M中的元素M _jk＝Ω _jk≠0。以此方式，因果关系确定装置120能够基于观测样本集合来确定多个因素间的依赖关系集合，如图2中的骨架图210所示。在下文中，“依赖关系集合”与“骨架图”可互换地使用。

备选地，在一些实施例中，因果关系确定装置120可以通过对多个因素应用条件独立测试来确定依赖关系集合M。条件独立测试可以用于确定两个因素在给定条件集合下是否彼此独立。在传统的条件独立测试中，当判断两个因素是否独立时，需要将所有其他因素的任意组合作为上述条件集合。当因素的数目(即，D)较多时，其计算开销将会很大。如果条件集合中包括很多其他因素，则上述两个因素将很容易被确定为是彼此独立的。为了能够快速且准确地实现高维因果结构的发现，在一些实施例中，当通过对多个因素应用条件独立测试来确定依赖关系集合时，因果关系确定装置120可以限制条件集合中的其他因素的数目为1。以此方式，除了能够降低条件独立测试的计算开销，也可以降低被判定为彼此独立的因素对的数目，从而有利于后续因果关系序列的发现。

以此方式，通过确定依赖关系集合，本公开的实施例能够减小待搜索的变量空间的大小，从而能够快速地发现大量因素之间的因果关系。

在框330，因果关系确定装置120(例如，因果关系确定单元122)基于依赖关系集合，确定多个因素的因果关系序列。因果关系序列可以指示彼此关联的因素对中的一个因素是另一因素的原因。

在一些实施例中，为了确定因果关系序列，因果关系确定装置120可以针对由依赖关系集合指示的多个彼此关联的因素对，确定彼此关联的每个因素对中的一个因素对另一因素的影响。在一些实施例中，为了确定每个因素对中的一个因素对另一因素的影响，因果关系确定装置120可以基于预定分布(例如，高斯分布或者其他分布)来建立第二目标函数，从而通过使第二目标函数最小化来确定每个因素对中的一个因素对另一因素的影响。第二目标函数例如可以基于如下两个因素来建立：第一，使得所发现的因果结构对于观测数据样本具有较好的数据拟合度；第二，使得所发现的因果结构仍然是稀疏的。

在一些实施例中，假设因素的总数目为D，针对多个因素对中的每一个而确定的影响利用矩阵B来表示，则B可以如下被确定：

其中X＝{x ₁，x ₂，...，x _D}∈R ^N×D表示观测样本集合，N表示X中的观测样本的总数目，D表示因素的总数目。向量x _i∈R ^N(其中1≤i≤D)表示第i个因素(即，因素v _i)的N个观测值。x _i，n(其中，1≤i≤D并且1≤n≤N)表示第i个因素(即，因素v _i)的第n个观测值。向量β _i∈R ^D-1(其中1≤i≤D)表示每个因素对因素v _i的相应影响。例如，如果β _ij≠0，则表示因素v _j可能是因素v _i的直接原因；如果β _ij＝0，则表示因素v _j对因素v _i没有影响，因此不可能是因素v _i的直接原因。|B| ₀表示矩阵B中的非零元素的总数目，其是对因果结构散度的估计，并且

约束条件G{β ₁，...，β _D}∈DAG表示要确定的因果结构为有向无环图，并且约束条件

M表示要确定的因果结构是之前确定的骨架图M(例如，如图2所示的骨架图210)的子集。

在一些实施例中，因果关系确定装置120可以基于针对多个因素对而确定的相应影响和观测样本集，来确定因果关系序列130。例如，图4示出了根据本公开的实施例的用于确定因果关系序列的方法400的流程图。方法400可以由如图1A所示的因果关系确定装置120来执行。应当理解的是，方法400还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框410处，因果关系确定装置120可以获取历史因果关系序列和历史因果关系得分。在此假设历史因果关系序列利用Q _S来表示，并且历史因果关系得分利用f(Q _S)来表示。

在一些实施例中，在初始情况下，因果关系确定装置120可以将历史因果关系序列初始化为空序列，也即Q _S＝{}。因果关系确定装置120可以确定与空序列相对应的初始因果关系得分，以作为历史因果关系得分，也即：

其中

并且

在上述公式(4)中，假设因果关系序列由有向无环图G＝{V，E}来表示，其中V表示图G中的所有节点(例如，骨架图210中具有边缘的所有节点)的集合，并且E表示图G中的所有边缘的集合。例如，在如图2所示的示例中，V＝{v ₁，v ₂，v ₃，v ₄，v ₅}。V\U表示V中除节点集合U以外的所有节点(也即，V\v _i表示V中除v _i以外的所有节点)。S(β _i)表示β _i的支持集合，也即节点v _i的父节点(也即，表示因素v _i的潜在原因的节点)的集合。约束条件

表示集合S(β _i)是集合V\U与集合S(m _i)的交集的子集，其中集合S(m _i)表示在骨架图M(例如，骨架图120)中与节点v _i具有边缘的节点的集合。例如，在如图2所示的示例中，f(Q _S)＝f({})＝SBIC(v ₁|v ₂)+SBIC(v ₂|(v ₁，v ₄))+SBIC(v ₃|(v ₄，v ₅))+SBIC(v ₄|(v ₂，v ₃))+SBIC(v ₅|v ₃)。

在框420，因果关系确定装置120基于历史因果关系序列Q _S和由依赖关系集合(例如，骨架图210)指示的多个因素对，确定可能加入到因果关系序列中的一个或多个候选因素。在一些实施例中，一个或多个候选因素可以包括候选节点集合V\Q _S所对应的所有因素，候选节点集合V\Q _S可以表示节点集合V中除Q _S所包括的节点之外的所有节点。

如果一个或多个候选因素不存在(即，集合V\Q _S为空)，则在框470处，因果关系确定装置120可以输出历史因果关系序列Q _S作为所确定的因果关系序列130。

如果一个或多个候选因素存在，则在框440处，因果关系确定装置120可以确定与一个或多个候选因素相对应的一个或多个候选因果关系得分。例如，针对候选节点集合V\Q _S中的每个候选节点v _i(即，v _i∈V\Q _S)，与之对应的候选因果关系序列Q _S’＝Q _S∪v _i，并且该候选因果关系序列的得分为f(Q _S’)＝f(Q _S)+SBIC(v _i|Q _S)-SBIC(v _i|V\v _i)。

在框450，因果关系确定装置120可以基于所确定的一个或多个候选因果关系得分，从一个或多个候选因素中选择要加入到因果关系序列中的候选因素。

在一些实施例中，因果关系确定装置120可以从一个或多个候选因果关系得分中确定最小候选因果关系得分，并且选择与最小候选因果关系得分相关联的候选因素，以用于加入到因果关系序列130中。

附加地或者备选地，在一些实施例中，为了能够更快地确定因果关系序列，因果关系确定装置120可以获取与待确定的因果关系序列相关联的约束条件。

在一些实施例中，因果关系确定装置120可以获取指示该约束条件的专家信息，并且基于所获取的专家信息来确定该约束条件。以图2所示的示例为例，专家信息例如可以指示节点v ₃在节点v ₄的前面，也即与节点v ₃对应的因素可能是与节点v ₄对应的因素的原因，但是与节点v ₄对应的因素不可能是与节点v ₃对应的因素的原因。

附加地或备选地，在一些实施例中，因果关系确定装置120可以基于历史因果关系序列和由骨架图120所指示的多个彼此关联的因素对，来确定约束条件。例如，在如图2所示的示例中，假设当前Q _S指示节点v ₃所对应的因素是节点v ₄所对应的因素的原因(也即，因果关系序列130中存在边缘v ₃→v ₄)。此外，根据骨架图M可以确定节点v ₁和v ₂彼此关联，节点v ₂和v ₄彼此关联，因素v ₃和v ₄彼此关联，并且因素v ₃和v ₅彼此关联。因此，节点v ₁、v ₂和v ₄构成强连接节点集合，并且节点v ₃和v ₅构成强连接节点集合。在此情况下，例如因果关系确定装置120可以确定节点集合{v ₃，v ₅}在节点集合{v ₁，v ₂，v ₄}的前面。也即，节点集合{v ₃，v ₅}中的某个节点可能是节点集合{v ₁，v ₂，v ₄}中的某个节点的原因，但是节点集合{v ₁，v ₂，v ₄}中的任何节点不可能是节点集合{v ₃，v ₅}中的某个节点的原因。

在一些实施例中，响应于获取与待确定的因果关系序列相关联的约束条件，因果关系确定装置120可以从一个或多个候选因素中选择要加入到因果关系序列中的候选因素，使得所选择的候选因素的加入符合获取的约束条件。例如，当与最小候选因果关系得分相关联的候选因素的加入将违背该约束条件时，因果关系确定装置120可以选择另一候选因素(例如，与次小候选因果关系得分相关联的候选因素)，以用于加入到因果关系序列130中。

以此方式，通过利用约束条件能够在因果关系序列的确定过程中限制候选因素的数目，从而能够更快地确定因果关系序列。

在框460，响应于候选因素被选择，因果关系确定装置120可以更新历史因果关系序列Q _S和历史因果关系得分f(Q _S)。例如，因果关系确定装置120可以利用与所选择的候选因素相对应的候选因果关系序列Q _S’来替换历史因果关系序列Q _S，并且利用与候选因果关系序列Q _S’相对应的得分f(Q _S’)来替换历史因果关系得分f(Q _S)。

在一些实施例中，因果关系确定装置120可以迭代地执行方法400中的框410-460，直至所有可能的候选因素被搜索完为止(即，执行至框470)。

图5示出了根据本公开的实施例的用于影响目标因素的观测值的方法500的流程图。例如，方法500可以由如图1B所示的观测样本影响装置140来执行。在一些实施例中，方法500可以在方法300之后被执行。应当理解的是，方法500还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框510处，观测样本影响装置140基于因果关系序列，从多个因素中确定作为目标因素的原因的至少一个因素。然后，在框520处，观测样本影响装置140通过改变至少一个因素的观测值来影响目标因素的观测值。在一些实施例中，例如，观测样本影响装置140可以通过影响和改变至少一个因素和/或针对至少一个因素制定相应策略，来影响目标因素的观测值。

以上述关于电信运营商的客户满意度的场景为例，目标因素例如为“客户满意度”。观测样本影响装置140可以基于因果关系序列130来确定目标因素“客户满意度”的原因是哪些因素(例如，套餐用尽之前的提醒、优惠套餐等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在套餐用尽前向客户提供更多提醒、向客户提供更多优惠套餐)，来提高客户对电信运营商的满意度。

以上述关于患者血压的场景为例，目标因素例如为“血压”。观测样本影响装置140可以基于因果关系序列130来确定目标因素“血压”的原因是哪些生理指标。观测样本影响装置140可以进一步通过影响和改变这些生理指标、和/或针对这些生理指标制定相应策略，来使患者的血压保持稳定。

以上述商品销售场景为例，目标因素例如为“雨伞销量”。观测样本影响装置140可以基于因果关系序列130来确定目标因素“雨伞销量”的原因是哪些因素(例如，天气、可供销售的雨伞数量等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在下雨时提高可供销售的雨伞数量)，来提高目标商品雨伞的销量。

以上述软件开发场景为例，目标因素例如为“开发周期”。观测样本影响装置140可以基于因果关系序列130来确定目标因素“开发周期”的原因是哪些因素(例如，架构层级数量、编程语言等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低软件架构复杂度、使用更友好的编程语言等)，来降低软件开发的周期。又例如，目标因素可以为“运行阶段软件故障率”。观测样本影响装置140可以基于因果关系序列130来确定目标因素“运行阶段软件故障率”的原因是哪些因素(例如，代码长度、模块数量等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低代码长度、减少模块数量等)，来降低运行阶段软件故障率。

图6示出了根据本公开的实施例的用于优化因果关系的方法600的流程图。例如，方法600可以由如图1B所示的因果关系优化装置160来执行。在一些实施例中，方法600可以在方法500之后被执行。应当理解的是，方法600还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框610处，因果关系优化装置160获取关于多个因素的经改变的观测样本集合。在一些实施例中，经改变的观测样本集合中的至少一个观测样本可以包括至少一个因素(例如，至少一个因素是目标因素的原因)的经改变的观测值。然后，在框620处，因果关系优化装置160可以基于经改变的观测样本集合来优化因果关系序列。在一些实施例中，例如，因果关系优化装置160可以基于经改变的观测样本集合150来重新发现多个因素间的因果关系(例如，与因果关系确定装置120执行的过程类似)，从而得到经优化的因果关系序列。以此方式，本公开的实施例能够进一步提高因果发现的准确性和鲁棒性。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。例如，如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和/或因果关系优化装置160可以由设备700来实施。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701可被配置为执行上文所描述的各个过程和处理，例如方法300、400、500和/或600。例如，在一些实施例中，方法300、400、500和/或600可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法300、400、500和/或600中的一个或多个步骤。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言-诸如Smalltalk、C++等，以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种用于数据处理的方法，包括：

获取关于多个因素的观测样本集合，所述观测样本集合中的一个观测样本包括所述多个因素的相应观测值；

基于所述观测样本集合，确定所述多个因素之间存在的依赖关系集合，所述依赖关系集合中的一个依赖关系指示所述多个因素中彼此关联的一个因素对；以及

基于所述依赖关系集合，确定所述多个因素的因果关系序列，所述因果关系序列指示彼此关联的所述因素对中的一个因素是另一因素的原因。
根据权利要求1所述的方法，其中所述多个因素包括目标因素，并且所述方法还包括：

基于所述因果关系序列，从所述多个因素中确定作为所述目标因素的原因的至少一个因素；以及

通过改变所述至少一个因素的观测值来影响所述目标因素的观测值。
根据权利要求2所述的方法，还包括：

获取关于所述多个因素的经改变的观测样本集合，所述经改变的观测样本集合中的至少一个观测样本包括所述至少一个因素的经改变的观测值；以及

基于所述经改变的观测样本集合，优化所述因果关系序列。
根据权利要求1所述的方法，其中确定所述依赖关系集合包括：

针对所述多个因素中的任意两个因素，基于所述观测样本集合中的所述两个因素的相应观测值来估计所述两个因素之间的相关系数；

基于所述估计的结果，建立用于确定所述依赖关系集合的第一目标函数；以及

通过使所述第一目标函数最小化来确定所述依赖关系集合。
根据权利要求4所述的方法，其中所述相关系数包括以下任一项；

Spearman相关系数，或者

Kendall相关系数。
根据权利要求1所述的方法，其中确定所述依赖关系集合包括：

通过对所述多个因素应用条件独立测试来确定所述依赖关系集合。
根据权利要求1所述的方法，其中确定所述因果关系序列包括：

针对由所述依赖关系集合指示的多个彼此关联的因素对，确定每个因素对中的一个因素对另一因素的影响；以及

基于针对所述多个因素对而确定的相应影响和所述观测样本集合，确定所述因果关系序列。
根据权利要求7所述的方法，其中确定每个因素对中的一个因素对另一因素的影响包括：

基于预定分布，建立用于针对所述多个因素对来确定所述相应影响的第二目标函数；以及

通过使所述第二目标函数最小化来确定每个因素对中的一个因素对另一因素的影响。
根据权利要求8所述的方法，其中所述预定分布为高斯分布。
根据权利要求7所述的方法，其中确定所述因果关系序列包括迭代地执行以下操作至少一次：

获取历史因果关系序列和与所述历史因果关系序列相对应的历史因果关系得分；

基于所述历史因果关系序列和所述多个因素对，确定可能加入到所述因果关系序列中的一个或多个候选因素；

响应于所述一个或多个候选因素存在，基于所述历史因果关系得分、针对所述多个因素对而确定的所述相应影响和所述观测样本集合，确定与所述一个或多个候选因素相对应的一个或多个候选因果关系得分；

基于所述一个或多个候选因果关系得分，从所述一个或多个候选因素中选择要加入到所述因果关系序列中的候选因素；以及

基于所选择的所述候选因素，更新所述历史因果关系序列和所述历史因果关系得分。
根据权利要求10所述的方法，还包括：

响应于所述一个或多个候选因素不存在，将所述历史因果关系序列确定为所述因果关系序列。
根据权利要求10所述的方法，其中获取所述历史因果关系序列和所述历史因果关系得分包括：

将所述历史因果关系序列初始化为空序列；以及

确定与所述空序列相对应的初始因果关系得分，以作为所述历史因果关系得分。
根据权利要求10所述的方法，其中从所述一个或多个候选因素中选择所述候选因素包括：

从所述一个或多个候选因果关系得分中确定最小候选因果关系得分；以及

从所述一个或多个候选因素中选择与所述最小候选因果关系得分相关联的所述候选因素。
根据权利要求10所述的方法，其中从所述一个或多个候选因素中选择所述候选因素包括：

获取与待确定的所述因果关系序列相关联的约束条件；以及

从所述一个或多个候选因素中选择要加入到所述因果关系序列中的所述候选因素，使得所述候选因素的所述加入符合所述约束条件。
根据权利要求14所述的方法，其中获取所述约束条件包括：

获取指示所述约束条件的信息；以及

基于所述信息来确定所述约束条件。
根据权利要求14所述的方法，其中获取所述约束条件包括：

基于所述历史因果关系序列和所述多个因素对，确定所述约束条件。
一种用于数据处理的装置，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述装置执行动作，所述动作包括：

获取关于多个因素的观测样本集合，所述观测样本集合中的一个观测样本包括所述多个因素的相应观测值；

基于所述观测样本集合，确定所述多个因素之间存在的依赖关系集合，所述依赖关系集合中的一个依赖关系指示所述多个因素中彼此关联的一个因素对；以及

基于所述依赖关系集合，确定所述多个因素的因果关系序列，所述因果关系序列指示彼此关联的所述因素对中的一个因素是另一因素的原因。
根据权利要求17所述的装置，其中所述多个因素包括目标因素，并且所述动作还包括：

基于所述因果关系序列，从所述多个因素中确定作为所述目标因素的原因的至少一个因素；以及

通过改变所述至少一个因素的观测值来影响所述目标因素的观测值。
根据权利要求18所述的装置，其中所述动作还包括：

获取关于所述多个因素的经改变的观测样本集合，所述经改变的观测样本集合中的至少一个观测样本包括所述至少一个因素的经改变的观测值；以及

基于所述经改变的观测样本集合，优化所述因果关系序列。
根据权利要求17所述的装置，其中确定所述依赖关系集合包括：

针对所述多个因素中的任意两个因素，基于所述观测样本集合中的所述两个因素的相应观测值来估计所述两个因素之间的相关系数；

基于所述估计的结果，建立用于确定所述依赖关系集合的第一目标函数；以及

通过使所述第一目标函数最小化来确定所述依赖关系集合。
根据权利要求20所述的装置，其中所述相关系数包括以下任一项：

Spearman相关系数，或者

Kendall相关系数。
根据权利要求17所述的装置，其中确定所述依赖关系集合包括：

通过对所述多个因素应用条件独立测试来确定所述依赖关系集合。
根据权利要求17所述的装置，其中确定所述因果关系序列包括：

针对由所述依赖关系集合指示的多个彼此关联的因素对，确定每个因素对中的一个因素对另一因素的影响；以及

基于针对所述多个因素对而确定的相应影响和所述观测样本集合，确定所述因果关系序列。
根据权利要求23所述的装置，其中确定每个因素对中的一个因素对另一因素的影响包括：

基于预定分布，建立用于针对所述多个因素对来确定所述相应影响的第二目标函数；以及

通过使所述第二目标函数最小化来确定每个因素对中的一个因素对另一因素的影响。
根据权利要求24所述的装置，其中所述预定分布为高斯分布。
根据权利要求23所述的装置，其中确定所述因果关系序列包括迭代地执行以下操作至少一次：

获取历史因果关系序列和与所述历史因果关系序列相对应的历史因果关系得分；

基于所述历史因果关系序列和所述多个因素对，确定可能加入到所述因果关系序列中的一个或多个候选因素；

响应于所述一个或多个候选因素存在，基于所述历史因果关系得分、针对所述多个因素对而确定的所述相应影响和所述观测样本集合，确定与所述一个或多个候选因素相对应的一个或多个候选因果关系得分；

基于所述一个或多个候选因果关系得分，从所述一个或多个候选因素中选择要加入到所述因果关系序列中的候选因素；以及

基于所选择的所述候选因素，更新所述历史因果关系序列和所述历史因果关系得分。
根据权利要求26所述的装置，其中所述动作还包括：

响应于所述一个或多个候选因素不存在，将所述历史因果关系序列确定为所述因果关系序列。
根据权利要求26所述的装置，其中获取所述历史因果关系序列和所述历史因果关系得分包括：

将所述历史因果关系序列初始化为空序列；以及

确定与所述空序列相对应的初始因果关系得分，以作为所述历史因果关系得分。
根据权利要求26所述的装置，其中从所述一个或多个候选因素中选择所述候选因素包括：

从所述一个或多个候选因果关系得分中确定最小候选因果关系得分；以及

从所述一个或多个候选因素中选择与所述最小候选因果关系得分相关联的所述候选因素。
根据权利要求26所述的装置，其中从所述一个或多个候选因素中选择所述候选因素包括：

获取与待确定的所述因果关系序列相关联的约束条件；以及

从所述一个或多个候选因素中选择要加入到所述因果关系序列中的所述候选因素，使得所述候选因素的所述加入符合所述约束条件。
根据权利要求30所述的方法，其中获取所述约束条件包括：

获取指示所述约束条件的信息；以及

基于所述信息来确定所述约束条件。
根据权利要求30所述的方法，其中获取所述约束条件包括：

基于所述历史因果关系序列和所述多个因素对，确定所述约束条件。
一种计算机可读存储介质，所述计算机可读存储介质具有在其上存储的机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-16中的任一项所述的方法。