WO2019137444A1 - 用于执行机器学习的特征工程的方法及系统 - Google Patents

用于执行机器学习的特征工程的方法及系统 Download PDF

Info

Publication number
WO2019137444A1
WO2019137444A1 PCT/CN2019/071201 CN2019071201W WO2019137444A1 WO 2019137444 A1 WO2019137444 A1 WO 2019137444A1 CN 2019071201 W CN2019071201 W CN 2019071201W WO 2019137444 A1 WO2019137444 A1 WO 2019137444A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
data table
data
configuration item
field
Prior art date
Application number
PCT/CN2019/071201
Other languages
English (en)
French (fr)
Inventor
陈雨强
戴文渊
杨强
孙迪
黄亚建
杨慧斌
安超
Original Assignee
第四范式(北京)技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 第四范式(北京)技术有限公司 filed Critical 第四范式(北京)技术有限公司
Publication of WO2019137444A1 publication Critical patent/WO2019137444A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

提供一种用于执行机器学习的特征工程的方法及系统。所述方法包括:获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;选择所述数据表中的部分数据记录;以及向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。

Description

用于执行机器学习的特征工程的方法及系统 技术领域
本公开总体说来涉及机器学习领域,更具体地讲,涉及一种用于执行机器学习的特征工程的方法及系统。
背景技术
随着海量数据的出现,人们倾向于使用机器学习技术来从数据中挖掘出价值。
训练机器学习模型的基本过程主要包括:
1、导入包含历史数据记录或预测数据记录的数据集(例如,数据表);
2、完成特征工程,其中,通过对数据集中的数据记录的属性信息进行各种处理,以得到各个特征,这些特征构成的特征向量可作为机器学习训练样本或机器学习预测样本;
3、训练模型,其中,按照设置的机器学习算法(例如,逻辑回归算法、决策树算法、神经网络算法等),基于经过特征工程所得到的机器学习训练样本来学习出模型;或者,执行预估,其中,利用训练出的模型针对机器学习预测样本来给出预测结果。
数据表中的每条数据记录可包括多个属性信息(即,字段),而特征可指示字段本身或字段的局部、或字段的组合等各种字段处理(或运算)结果,以便更好地反映数据分布以及字段间的内在关联与潜在含义,因此,特征工程质量的好坏直接决定了机器学习问题刻画的准确性,进而影响模型的优劣。
在现有的机器学习平台上,在执行特征工程步骤时,通常按照设置的特征抽取方法来直接生成机器学习样本的特征,并将生成的特征输入到模型训练或预测步骤,在这一过程中,用户很难了解数据记录在特征抽取过程中的具体情况,相应地,也就缺少对这一过程的掌控。
发明内容
本公开的示例性实施例在于提供一种用于执行机器学习的特征工程的方法及系统,以解决现有技术存在的难以了解数据记录在特征抽取过程中的具体情况的问题。
根据本公开的示例性实施例,提供一种用于执行机器学习的特征工程的方法,包括:获取作为数据源的数据表,其中,数据表的一行对应一条数据 记录,数据表的一列对应一个字段;获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;选择所述数据表中的部分数据记录;以及向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
根据本公开的另一示例性实施例,提供一种用于执行机器学习的特征工程的系统,包括:数据表获取装置,用于获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;配置项获取装置,用于获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;数据记录选择装置,用于选择所述数据表中的部分数据记录;以及过程展示装置,用于向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
根据本公开的另一示例性实施例,提供一种用于执行机器学习的特征工程的计算机可读存储介质,其中,在所述计算机可读存储介质上记录有用于执行机器学习的特征工程的方法的计算机程序。
根据本公开的另一示例性实施例,提供一种用于执行机器学习的特征工程的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如上所述的用于执行机器学习的特征工程的方法。
在根据本公开示例性实施例的用于执行机器学习的特征工程的方法及系统中,通过对特征生成过程进行可视化展示,能够方便用户直观地了解特征生成过程,有助于用户掌握特征生成过程中出现的问题。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本公开示例性实施例的用于执行机器学习的特征工程的方法的流程图;
图2示出根据本公开示例性实施例的展示数据表中的字段名称和字段值数据类型的示例;
图3示出根据本公开示例性实施例的预览数据表中的数据记录的示例;
图4示出根据本公开示例性实施例的提示用户配置项存在错误的示例;
图5示出根据本公开示例性实施例的展示特征生成过程的示例;
图6示出根据本公开示例性实施例的提示用户出现异常的抽取步骤的示 例;
图7示出根据本公开示例性实施例的用于训练机器学习模型的DAG图的示例;
图8示出根据本公开示例性实施例的用于执行机器学习的特征工程的系统的框图。
具体实施方式
现将详细参照本公开的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本公开。在此需要说明的是,在本公开中出现的“并且/或者”、“和/或”均表示包含三种并列的情况。例如“包括A和/或B”表示如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一并且/或者步骤二”表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本公开的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本公开示例性实施例的用于执行机器学习的特征工程的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的用于执行机器学习的特征工程的系统或计算装置来执行。
参照图1,在步骤S10中,获取作为数据源的数据表。这里,数据表的一行对应一条数据记录,数据表的一列对应一个字段。换言之,数据表中的每条数据记录具有与各个字段相应的字段值。作为示例,每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例,每个字段可用于描述事件或对象在一个方面的表现或性质(例如,名字、年龄、职业等)。
作为示例,作为数据源的数据表可由用户来指定。例如,可向用户提供用于指定数据表的图形界面,并根据用户在该图形界面上执行的输入操作,将用户所指定的数据表作为数据源。
作为示例,在步骤S10中,还可向用户展示所述数据表中的各字段的字 段名称及字段值数据类型,以便用户查看和修改。例如,可响应于用户请求,向用户展示所述数据表中的各字段的字段名称及字段值数据类型。图2示出根据本公开示例性实施例的展示数据表中的字段名称和字段值数据类型的示例,如图2所示,界面的左侧列出数据表中各字段的字段名称及字段值数据类型。
作为示例,字段的字段值数据类型可为数值型(例如,整型int)、文本型(例如,字符串型string))等。
作为示例,在步骤S10中,还可预览所述数据表中的数据记录,以便用户查看和修改。例如,可响应于用户请求,向用户展示数据表中的数据记录。图3示出根据本公开示例性实施例的预览数据表中的数据记录的示例,如图3所示,可响应于用户对“预览”按钮的操作,在预览区域显示数据表中的数据记录。这里,作为示例,可提供数据表中的至少一部分数据记录作为预览数据记录,例如,可提供数据表中排在最前面和/或最后面的若干条数据记录以进行浏览,或者,可随机抽取数据表中的若干条数据记录以进行浏览。
此外,作为示例,在步骤S10中,还可自动校验所述数据表,其中,当所述数据表不存在错误时,继续执行步骤S20。进一步地,作为示例,还可当所述数据表存在错误时,提示用户所述数据表中存在错误的位置(例如,高亮显示),以便用户进行修改。
作为示例,可当确定所述数据表存在以下情况之中的至少一项时,确定所述数据表存在错误:所述数据表中的字段值不属于对应的字段的字段值范围、所述数据表中的字段值的格式不符合对应的字段的字段值格式、所述数据表中的字段值为空、所述数据表中的字段值不符合对应的字段的字段值数据类型。为此,可预先设置关于数据表的校验规则,使得某个具体的数据表导入系统时,可手动或自动地启动对数据表中各条数据记录的校验。
在步骤S20中,获取用于生成特征的配置项。这里,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段。具体说来,配置项用于生成对应的特征,具体说来,对于某个特征而言,其生成配置项用于指示该特征的名称、该特征的抽取方法以及该特征的来源字段,换言之,按照所述抽取方法对所述来源字段的字段值进行特征抽取,即可生成具有相应名称的特征的特征值。作为示例,用于设置配置项的界面可以为图形用户界面,所述图形用户界面包括用于手动编辑配置文件的文本编辑界面和/或用于显示配置项的内容选项以供手动选择的选择输入型界面。
作为示例,可借由脚本来按照所述配置项生成对应的特征。这里,脚本基于配置文件而产生。例如,参照图2,可基于配置区域内的配置文件来将相应的脚本导出到机器学习的建模项目。
作为示例,在步骤S20中,还可自动对所述配置项进行校验,其中,当 所述配置项不存在错误时,继续执行步骤S30。
作为示例,可通过语法校验和/或语义校验对所述配置项进行校验。例如,可当脚本内容中出现语句拼写错误、或者语句格式错误时,确定存在语法错误。例如,可当脚本内容中的来源字段不属于作为数据源的数据表中的字段、或者来源字段的字段值数据类型不适于对应的抽取方法时,确定存在语义错误。
进一步地,作为示例,还可当所述配置项存在错误时,提示用户所述配置项中存在错误的位置,以便用户进行修改。图4示出根据本公开示例性实施例的提示用户配置项存在错误的示例,如图4所示,可提示用户哪个配置项存在错误(例如,可标注出错配置项的位置(第13行语句)),此外,还可进一步提示错误的类型(例如,语法错误或语义错误)。
返回图1,在步骤S30中,选择所述数据表中的部分数据记录。
作为示例,所述部分数据记录可包括所述数据表中排在最前面和/或最后面的若干数据记录。例如,所述部分数据记录可包括所述数据表中的前预定数量(例如,前5行)的数据记录。
作为另一示例,所述部分数据记录可包括从所述数据表中随机抽取的若干数据记录。
这里,可选地,所述部分数据记录可以是之前在预览数据表时所展示的数据记录。
在步骤S40中,向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
这里,可通过展示特征生成过程中涉及的处理、处理对象、中间值、代码、结果和/或错误等内容来可视化地展示特征生成过程。
根据本公开的示例性实施例,通过借助少量的数据记录来展示特征生成过程,方便用户直观地了解特征生成过程中的各个环节,有助于用户发现特征工程中出现的问题。
作为示例,可响应于浏览特征生成过程的请求来执行步骤S30和步骤S40。例如,可响应于用户对用于浏览特征生成过程的按钮(例如,图2中的“结果预览”按钮)的操作,来执行步骤S30和步骤S40。通过这种方式,使得特征工程中的特征生成过程展示成为可选的项目。
作为示例,可通过列出所述部分数据记录中与待展示特征相应的来源字段值、抽取方法、按照抽取方法得到的中间值和/或特征值来展示所述特征生成过程。也就是说,可通过列出所述部分数据记录中与待展示特征相应的来源字段值、抽取方法、按照抽取方法得到的中间值和特征值之中的至少一项来展示所述特征生成过程。具体说来,可列出上述项之中的任意一个或任意多个的组合来展示所述特征生成过程。这里,作为示例,可按照特征生成的 处理顺序,依次列出相应的来源字段值、每一阶段的抽取方法以及相应的抽取结果、最终得到的特征值等。
这里,可针对部分或全部特征来展示相应的生成过程。作为示例,所述待展示特征可包括用户选择的一个或多个特征。例如,用户可通过选择配置项中限定的特征名称来选择需要展示的特征。作为另一示例,所述待展示特征可包括全部特征。
为了便于查看特征生成过程并及时调整特征生成配置,可结合配置项的显示来展示特征生成过程。作为示例,所展示的内容可叠加在用于获取配置项的区域之上或与所述区域相邻。
图5示出根据本公开示例性实施例的展示特征生成过程的示例。如图5所示,可对用户从列表中选择的特征“year1”的特征生成过程进行展示,可通过展示该特征生成过程所包括的每个抽取步骤所处理的数据值、抽取方法、处理后的数据值来进行展示,例如,如图5所示,展示内容可包括:所述部分数据记录中来源字段“Date”的字段值→抽取方法“Year”→按照抽取方法“Year”对来源字段值进行处理得到的中间值→抽取方法“Discrete”→按照抽取方法“Discrete”对中间值进行处理得到的特征值。这里,抽取方法“Year”为截取日期字段中的年份的方法,抽取方法“Discrete”为对字段进行离散化处理的方法。作为示例,可以哈希值的形式来表示经过抽取方法“Discrete”所得到的特征值。此外,所展示的内容可显示在用于获取配置项的区域的下方。
此外,作为示例,在步骤S40中,还可当所述特征生成过程中出现异常时,提示用户出现异常的抽取步骤。进一步地,还可提示用户该抽取步骤出现异常的原因。
图6示出根据本公开示例性实施例的提示用户出现异常的抽取步骤的示例。如图6所示,字段“job”的字段值不适于通过抽取方法“timestamp”进行处理,因此,可提示用户该抽取步骤异常,并提示出现异常的原因。这里,抽取方法“timestamp”为将字段值转换为时间戳型(timestamp型)的数据值的方法。
根据本公开示例性实施例的执行特征工程的方法可由诸如机器学习建模平台的人工智能工具来执行。在面向用户使用的系统中,可通过交互操作方式来执行机器学习过程,相应地,可在诸如特征生成等步骤中自动执行所述方法。
图7示出根据本公开示例性实施例的用于训练机器学习模型的DAG图的示例。
参照图7,第一步:建立数据导入节点。作为示例,可响应于用户操作对数据导入节点进行设置以获取名称为“bank”的银行业务数据表(即,将 该数据表导入机器学习平台中),其中,该数据表中可包含多条历史数据记录。
第二步:建立数据拆分节点,并将数据导入节点连接到数据拆分节点,以将上述导入的数据表拆分为训练集和验证集,其中,训练集中的数据记录用于转换为机器学习样本以学习出模型,而验证集中的数据记录用于转换为测试样本以验证学习出的模型的效果。可响应于用户操作对数据拆分节点进行设置以按照设置的方式将上述导入的数据表拆分为训练集和验证集。
第三步:建立两个特征生成节点,并将数据拆分节点分别连接到这两个特征生成节点,以对数据拆分节点输出的训练集和验证集分别进行特征生成,例如,默认数据拆分节点左侧输出的是训练集,右侧输出的是验证集。应理解,对于机器学习训练样本和测试样本而言,两者的特征生成方式是对应一致的。可响应于用户操作对特征生成节点进行配置,例如,可设置目标值字段、非目标值字段对应的特征类型、特征名称、来源字段、具体的特征抽取方法等,在这一过程中,可获取用于生成特征的配置项。在完成对特征生成节点的配置后,作为示例,可响应于浏览特征生成过程的用户请求,执行根据本公开示例性实施例的用于执行机器学习的特征工程的方法中的步骤S30和步骤S40,当用户基于展示的特征生成过程完成对所使用的特征抽取方法的校验后,可执行第四步。
第四步:建立特定算法(例如,逻辑回归)节点(也即,模型训练节点),并将左侧特征生成节点连接到逻辑回归节点,以利用逻辑回归算法基于机器学习训练样本来训练出机器学习模型。可响应于用户操作对逻辑回归节点进行设置以按照设置的逻辑回归算法来训练机器学习模型。
第五步:建立模型预测节点,并将逻辑回归节点和右侧特征生成节点连接到模型预测节点,以基于测试样本来验证训练出的机器学习模型的效果。可响应于用户操作对模型预测节点进行设置以按照设置的验证方式来验证机器学习模型的效果。
在建立包括上述步骤的DAG图之后,可根据用户的指示来运行整个DAG图。
图8示出根据本公开示例性实施例的用于执行机器学习的特征工程的系统的框图。如图8所示,根据本公开示例性实施例的用于执行机器学习的特征工程的系统包括:数据表获取装置10、配置项获取装置20、数据记录选择装置30、过程展示装置40。
数据表获取装置10用于获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段。
作为示例,数据表获取装置10还可展示所述数据表的字段名称和字段值数据类型。
作为另一示例,数据表获取装置10还可预览所述数据表中的数据记录。
作为示例,数据表获取装置10还可自动校验所述数据表,其中,当所述数据表不存在错误时,使配置项获取装置20执行操作。
作为示例,数据表获取装置10可当确定所述数据表存在以下情况之中的至少一项时,确定所述数据表存在错误:所述数据表中的字段值不属于对应的字段的字段值范围、所述数据表中的字段值的格式不符合对应的字段的字段值格式、所述数据表中的字段值为空、所述数据表中的字段值不符合对应的字段的字段值数据类型。
作为示例,数据表获取装置10还可当所述数据表存在错误时,提示用户所述数据表中存在错误的位置。
配置项获取装置20用于获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段。
作为示例,配置项获取装置20还可自动对所述配置项进行校验,其中,当所述配置项不存在错误时,使数据记录选择装置30执行操作。
作为示例,配置项获取装置20可通过语法校验和/或语义校验对所述配置项进行校验。
作为示例,配置项获取装置20还可当所述配置项存在错误时,提示用户所述配置项中存在错误的位置。
数据记录选择装置30用于选择所述数据表中的部分数据记录。
作为示例,所述部分数据记录可包括所述数据表中排在最前面和/或最后面的若干数据记录。作为另一示例,所述部分数据记录可包括从所述数据表中随机抽取的若干数据记录。
过程展示装置40用于向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
作为示例,过程展示装置40可通过列出所述部分数据记录中与待展示特征相应的来源字段值、抽取方法、按照抽取方法得到的中间值和/或特征值来展示所述特征生成过程。
作为示例,数据记录选择装置30和过程展示装置40可响应于浏览特征生成过程的请求来执行操作。
作为示例,所述待展示特征可包括用户选择的一个或多个特征;或者,所述待展示特征可包括全部特征。
作为示例,过程展示装置40所展示的内容可叠加在用于获取配置项的区域之上或与所述区域相邻。
作为示例,过程展示装置40还可当所述特征生成过程中出现异常时,提示用户出现异常的抽取步骤。
应该理解,根据本公开示例性实施例的用于执行机器学习的特征工程的系统的具体实现方式可参照结合图1至图7描述的相关具体实现方式来实现, 在此不再赘述。
根据本公开示例性实施例的用于执行机器学习的特征工程的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本公开示例性实施例的用于执行机器学习的特征工程的方法可通过记录在计算可读存储介质上的程序来实现,例如,根据本公开的示例性实施例,可提供一种用于执行机器学习的特征工程的计算机可读存储介质,其中,在所述计算机可读存储介质上记录有计算指令或计算机程序,当该计算指令或计算机程序被至少一个计算装置运行时,促使所述至少一个计算机装置执行本公开中任一实施例所描述的方法的步骤。例如执行以下步骤:获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;选择所述数据表中的部分数据记录;以及向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1至图7进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的用于执行机器学习的特征工程的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本公开示例性实施例的用于执行机器学习的特征工程的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读存储介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行用于执行机器学习的特征工程 的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的用于执行机器学习的特征工程的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
本公开的实施例还提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行本公开中任一实施例所描述的方法的步骤。例如执行以下步骤:获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;选择所述数据表中的部分数据记录;以及向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
根据本公开示例性实施例的用于执行机器学习的特征工程的方法所涉及 的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本公开示例性实施例的用于执行机器学习的特征工程的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;选择所述数据表中的部分数据记录;以及向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。

Claims (30)

  1. 一种由计算装置执行机器学习的特征工程的方法,包括:
    获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
    获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;
    选择所述数据表中的部分数据记录;以及
    向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
  2. 根据权利要求1所述的方法,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤包括:
    通过列出所述部分数据记录中与待展示特征相应的来源字段值、抽取方法、按照抽取方法得到的中间值和特征值之中的至少一项来展示所述特征生成过程。
  3. 根据权利要求1所述的方法,其中,响应于浏览特征生成过程的请求来执行所述选择所述数据表中的部分数据记录的步骤,以及所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤。
  4. 根据权利要求1所述的方法,其中,所述待展示特征包括用户选择的一个或多个特征;或者,所述待展示特征包括全部特征。
  5. 根据权利要求1所述的方法,其中,所述部分数据记录包括所述数据表中排在最前面、最后面、或最前面和最后面的若干数据记录;或者,所述部分数据记录包括从所述数据表中随机抽取的若干数据记录。
  6. 根据权利要求1所述的方法,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤包括:
    所展示的内容叠加在用于获取配置项的区域之上或与所述区域相邻。
  7. 根据权利要求1所述的方法,其中,所述获取作为数据源的数据表的步骤还包括:
    展示所述数据表的字段名称和字段值数据类型;
    或者,预览所述数据表中的数据记录;
    或者,展示所述数据表的字段名称和字段值数据类型,以及预览所述数据表中的数据记录。
  8. 根据权利要求1所述的方法,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤还包括:
    当所述特征生成过程中出现异常时,提示用户出现异常的抽取步骤。
  9. 根据权利要求1所述的方法,其中,所述获取用于生成特征的配置项的步骤还包括:
    自动对所述配置项进行校验,其中,当所述配置项不存在错误时,继续执行所述选择所述数据表中的部分数据记录的步骤。
  10. 根据权利要求9所述的方法,其中,在所述获取用于生成特征的配置项的步骤中,通过语法校验、语义校验、或语法校验和语义校验对所述配置项进行校验。
  11. 根据权利要求9所述的方法,其中,所述获取用于生成特征的配置项的步骤还包括:
    当所述配置项存在错误时,提示用户所述配置项中存在错误的位置。
  12. 根据权利要求1所述的方法,其中,所述获取作为数据源的数据表的步骤还包括:
    自动校验所述数据表,其中,当所述数据表不存在错误时,继续执行所述获取用于生成特征的配置项的步骤。
  13. 根据权利要求12所述的方法,其中,在所述获取作为数据源的数据表的步骤中,
    当确定所述数据表存在以下情况之中的至少一项时,确定所述数据表存在错误:所述数据表中的字段值不属于对应的字段的字段值范围、所述数据表中的字段值的格式不符合对应的字段的字段值格式、所述数据表中的字段值为空、所述数据表中的字段值不符合对应的字段的字段值数据类型。
  14. 根据权利要求12所述的方法,其中,所述获取作为数据源的数据表的步骤还包括:
    当所述数据表存在错误时,提示用户所述数据表中存在错误的位置。
  15. 一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行机器学习的特征工程的以下步骤:
    获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
    获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;
    选择所述数据表中的部分数据记录;以及
    向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到 待展示特征的特征值的特征生成过程。
  16. 根据权利要求15所述的系统,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤包括:
    通过列出所述部分数据记录中与待展示特征相应的来源字段值、抽取方法、按照抽取方法得到的中间值和特征值之中的至少一项来展示所述特征生成过程。
  17. 根据权利要求15所述的系统,其中,响应于浏览特征生成过程的请求来执行所述选择所述数据表中的部分数据记录的步骤,以及所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤。
  18. 根据权利要求15所述的系统,其中,所述待展示特征包括用户选择的一个或多个特征;或者,所述待展示特征包括全部特征。
  19. 根据权利要求15所述的系统,其中,所述部分数据记录包括所述数据表中排在最前面、最后面、或最前面和最后面的若干数据记录;或者,所述部分数据记录包括从所述数据表中随机抽取的若干数据记录。
  20. 根据权利要求15所述的系统,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤包括:
    所展示的内容叠加在用于获取配置项的区域之上或与所述区域相邻。
  21. 根据权利要求15所述的系统,其中,所述获取作为数据源的数据表的步骤还包括:
    展示所述数据表的字段名称和字段值数据类型;
    或者,预览所述数据表中的数据记录;
    或者,展示所述数据表的字段名称和字段值数据类型,以及预览所述数据表中的数据记录。
  22. 根据权利要求15所述的系统,其中,所述向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程的步骤还包括:
    当所述特征生成过程中出现异常时,提示用户出现异常的抽取步骤。
  23. 根据权利要求15所述的系统,其中,所述获取用于生成特征的配置项的步骤还包括:
    自动对所述配置项进行校验,其中,当所述配置项不存在错误时,执行所述选择所述数据表中的部分数据记录的步骤。
  24. 根据权利要求23所述的系统,其中,在所述获取用于生成特征的配置项的步骤中,通过语法校验、语义校验、或语法校验和语义校验对所述配 置项进行校验。
  25. 根据权利要求23所述的系统,其中,所述获取用于生成特征的配置项步骤还包括:当所述配置项存在错误时,提示用户所述配置项中存在错误的位置。
  26. 根据权利要求15所述的系统,其中,所述获取作为数据源的数据表的步骤还包括:自动校验所述数据表,其中,当所述数据表不存在错误时,执行所述获取用于生成特征的配置项的步骤。
  27. 根据权利要求26所述的系统,其中,在所述获取作为数据源的数据表的步骤中,
    当确定所述数据表存在以下情况之中的至少一项时,确定所述数据表存在错误:所述数据表中的字段值不属于对应的字段的字段值范围、所述数据表中的字段值的格式不符合对应的字段的字段值格式、所述数据表中的字段值为空、所述数据表中的字段值不符合对应的字段的字段值数据类型。
  28. 根据权利要求26所述的系统,其中,所述获取作为数据源的数据表的步骤还包括:
    当所述数据表存在错误时,提示用户所述数据表中存在错误的位置。
  29. 一种计算机可读存储介质,其中,在所述计算机可读存储介质上记录有指令,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至14任一所述的方法。
  30. 一种用于执行机器学习的特征工程的系统,包括:
    数据表获取装置,用于获取作为数据源的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
    配置项获取装置,用于获取用于生成特征的配置项,其中,所述配置项用于分别指示每个特征的名称、抽取方法和来源字段;
    数据记录选择装置,用于选择所述数据表中的部分数据记录;以及
    过程展示装置,用于向用户展示按照所述配置项,基于所述部分数据记录中的字段值来得到待展示特征的特征值的特征生成过程。
PCT/CN2019/071201 2018-01-12 2019-01-10 用于执行机器学习的特征工程的方法及系统 WO2019137444A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810029394.1A CN108228861B (zh) 2018-01-12 2018-01-12 用于执行机器学习的特征工程的方法及系统
CN201810029394.1 2018-01-12

Publications (1)

Publication Number Publication Date
WO2019137444A1 true WO2019137444A1 (zh) 2019-07-18

Family

ID=62640342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/071201 WO2019137444A1 (zh) 2018-01-12 2019-01-10 用于执行机器学习的特征工程的方法及系统

Country Status (2)

Country Link
CN (1) CN108228861B (zh)
WO (1) WO2019137444A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560462A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228861B (zh) * 2018-01-12 2020-09-01 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统
CN110188886B (zh) * 2018-08-17 2021-08-20 第四范式(北京)技术有限公司 对机器学习过程的数据处理步骤进行可视化的方法和系统
CN110209902B (zh) * 2018-08-17 2023-11-14 第四范式(北京)技术有限公司 对机器学习过程中的特征生成过程可视化的方法和系统
CN109144648B (zh) * 2018-08-21 2020-06-23 第四范式(北京)技术有限公司 统一地执行特征抽取的方法及系统
CN110457329B (zh) * 2019-08-16 2022-05-06 第四范式(北京)技术有限公司 一种实现个性化推荐的方法及装置
CN110502579A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 用于批量和实时特征计算的系统和方法
CN111625692B (zh) * 2020-05-27 2023-08-22 抖音视界有限公司 特征抽取方法、装置、电子设备和计算机可读介质
CN111767985B (zh) * 2020-06-19 2022-07-22 深圳市商汤科技有限公司 一种神经网络的训练方法、视频识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090105984A1 (en) * 2007-10-19 2009-04-23 Zhen Wen Methods and Apparatus for Dynamic Data Transformation for Visualization
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881488B (zh) * 2015-06-05 2017-04-05 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN110442417A (zh) * 2016-01-08 2019-11-12 第四范式(北京)技术有限公司 特征抽取方法、机器学习方法及其装置
CN106779088B (zh) * 2016-12-06 2019-04-23 第四范式(北京)技术有限公司 执行机器学习流程的方法及系统
CN113220688A (zh) * 2017-07-04 2021-08-06 第四范式(北京)技术有限公司 拼接数据记录的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090105984A1 (en) * 2007-10-19 2009-04-23 Zhen Wen Methods and Apparatus for Dynamic Data Transformation for Visualization
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560462A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质
CN112560462B (zh) * 2020-12-11 2023-08-01 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质

Also Published As

Publication number Publication date
CN108228861A (zh) 2018-06-29
CN108228861B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
WO2019137444A1 (zh) 用于执行机器学习的特征工程的方法及系统
US11934301B2 (en) System and method for automated software testing
CN111652380B (zh) 针对机器学习算法进行算法参数调优的方法及系统
US20240037020A1 (en) System and Method for Automated Software Testing
EP3757779B1 (en) Application assessment system to achieve interface design consistency across micro services
US10437828B2 (en) Controlled reference process extensibility framework
US20190251471A1 (en) Machine learning device
CN109993316B (zh) 执行机器学习流程的方法及系统
WO2019129060A1 (zh) 自动生成机器学习样本的特征的方法及系统
CN112424748B (zh) 源代码文件推荐通知
US20160078368A1 (en) Artificial intelligence & knowledge based automation enhancement
JP5936240B2 (ja) データ処理装置、データ処理方法、およびプログラム
CN108008942B (zh) 对数据记录进行处理的方法及系统
US11231971B2 (en) Data engine
US20130254669A1 (en) Development life cycle management tool for set-top box widgets
WO2021037066A1 (zh) 用于批量和实时特征计算的系统和方法
Mueller et al. Python for data science for dummies
WO2020008991A1 (ja) 検証自動化装置、検証自動化方法、およびコンピュータ読み取り可能な記録媒体
KR20140050323A (ko) 라이선스 검증 방법 및 그 장치
US20190325341A1 (en) Artificial intelligence & knowledge based automation enhancement
JP7277694B2 (ja) 情報処理装置、その制御方法及びプログラム
US20170131973A1 (en) Software specification dependence relation verification apparatus and software specification dependence relation verification method
US8775873B2 (en) Data processing apparatus that performs test validation and computer-readable storage medium
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム
US20230213897A1 (en) Information processing device, information processing method, and computer program product

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19738321

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19738321

Country of ref document: EP

Kind code of ref document: A1