WO2018133596A1 - 一种基于名义属性的连续型特征构造方法 - Google Patents

一种基于名义属性的连续型特征构造方法 Download PDF

Info

Publication number
WO2018133596A1
WO2018133596A1 PCT/CN2017/116131 CN2017116131W WO2018133596A1 WO 2018133596 A1 WO2018133596 A1 WO 2018133596A1 CN 2017116131 W CN2017116131 W CN 2017116131W WO 2018133596 A1 WO2018133596 A1 WO 2018133596A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
user
item
field
nominal
Prior art date
Application number
PCT/CN2017/116131
Other languages
English (en)
French (fr)
Inventor
董守斌
马雅从
张晶
胡金龙
Original Assignee
华南理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华南理工大学 filed Critical 华南理工大学
Publication of WO2018133596A1 publication Critical patent/WO2018133596A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the invention relates to the field of feature engineering in machine learning, in particular to a continuous feature construction method based on nominal attributes.
  • This coding method has a certain physical meaning although each dimension represents whether a certain nominal attribute or categorical variable appears, but for different samples, this feature representation defaults to the same distance between each other by the same value.
  • This coding method will lead to the problem that the feature dimension is too large.
  • the invention provides a continuous feature construction method based on nominal attribute, which can realize semi-automatic feature construction, and can make the difference between the generated samples more obvious than the commonly used nominal attribute One-Hot coding. And it has strong scalability, which can be accelerated by parallel computing technology, so that machine learning algorithm engineers can focus on the combination of nominal properties of features without excessive consideration of the specific construction process.
  • the features of this method are often linear. Features, with obvious physical meaning, strong interpretability, can achieve better prediction results through specific feature selection process and simple linear prediction model, especially suitable for the construction of machine learning systems in industrial applications.
  • the object of the present invention is to overcome the shortcomings and shortcomings of the prior art, and to provide a continuous feature construction method based on nominal attributes, which is divided into offline training and online prediction, and can be applied not only to "users".
  • the context of the item pair also applies to the more general classification and regression prediction problems with nominal or categorical variable characteristics, and the features produced by the construction method of the present invention compared to the conventional One-Hot and Dummy coding.
  • the difference between the samples is more obvious, the generated features have strong interpretability, and the problem of over-fitting due to high dimensional sparsity of the features can be alleviated to some extent.
  • the technical solution provided by the present invention is: a continuous feature construction method based on a nominal attribute, comprising the following steps:
  • Data preprocessing including data table integration, data representation, and missing value processing
  • the data table integration refers to the integration of existing data tables, placing all fields in the data set in the same table.
  • the data representation refers to converting the current nominal attribute field into a new nominal attribute field if necessary, and the specific representation method is determined according to different applications and different prediction requirements.
  • the missing value processing includes two cases of missing field culling and missing value filling, and culling the field in which the data missing is more serious. For a field whose missing condition is not serious, if it is a nominal attribute field, one of the missing parts is used. The new attribute value is padded, or it is padded with the KNN algorithm. If it is a continuous field, the mean padding or other padding method is used.
  • step 2) combining the business background knowledge to determine the feature construction framework of the current prediction or classification problem, including the following steps:
  • Each primary node includes at least one leaf node, and each leaf node stores a nominal attribute field name in the data table.
  • the leaf nodes under the “user” of the primary node usually represent the characteristics and attributes of the user, and the users are divided into multiple different categories, and the leaves under the “items” of the primary node The node represents the characteristics and attributes of the item.
  • the leaf node under “indicator” represents the degree of matching between the user and the item, such as the similarity between the user description and the item description, whether a user and the item appear in the same sample, etc., "user indicator”
  • the leaf node below only represents a certain indicator of the user, such as the age of the user, the balance of the account, etc.
  • the leaf node under the "item indicator” represents an indicator of the item itself, such as the price of the item.
  • the leaf node under the “index” stores the continuous feature field name except the nominal attribute
  • all the leaf nodes under the “window” store all the nominal attributes. Field name.
  • the leaf nodes in the “calculation method” refer to the statistical methods set according to the current forecasting requirements or business background knowledge, such as sum, mean, standard deviation, median, and mode.
  • step 3 the feature construction framework determined according to step 2) generates a specific feature construction path.
  • one of the feature construction paths includes the trunk and each master node on the trunk.
  • the selected one leaf node traverses all the possible feature construction paths in the order of "backbone-master node-leaf node", and for the general application scenario with nominal attributes, the following steps are required:
  • step 4 the corresponding features are constructed according to the feature construction path, including the following steps:
  • the resulting feature for each path is given by:
  • y represents the field in the leaf node under the "user indicator", “item indicator” or “indicator” master node in the current path
  • f represents a custom calculation mode
  • Cyf determines the composition of each path
  • F Cyf, i represents the feature value of the i-th sample with respect to the path Cyf
  • Y i represents the set of the index field values of all samples in the sample index set S Cyf,i of the i-th sample, namely:
  • C i represents the set of all values in the i-th sample for each nominal attribute field in set C
  • the set of all values of the nominal attribute field is the same as the jth sample.
  • calculation method f is defined as sum (sum), average (average) and standard deviation (std), the features generated by the three calculation methods can be respectively given by the following formula:
  • Each path is constructed according to step 4.2).
  • the feature construction paths of all samples generate features, they are placed in the same table as the training set, where the samples are rows, the fields are characteristic fields, and the field names are Constructs a path name for this feature.
  • step 5 a feature subset with the best effect on prediction accuracy is selected from all features by a feature selection algorithm and a prediction model is constructed.
  • the related data set refers to the training set after the feature selection and the data of all the nominal attribute fields involved in the construction of the training set, and the data sets will be used for the generation of the features of the online sample,
  • the field names of the features in the training set are still named after the feature construction path, and all the fields of the two data sets are placed in the same table, and the saved prediction model will be used for the prediction of the online samples.
  • step 7 preprocessing and feature extraction are performed on the sample data that needs to be predicted online, including the following steps:
  • a field that is not culled during offline training but has missing data in the current sample data is processed by KNN algorithm or mean padding.
  • each feature construction path ie, the feature field name
  • step 8 the prediction model obtained by offline training is used to predict the sample to be predicted after feature extraction in step 7).
  • the present invention has the following advantages and beneficial effects:
  • the present invention provides a method for listing all features of different granularity based on heat.
  • the feature construction method in the present invention has a relatively good extensibility.
  • the user is allowed to create a custom leaf node based on the service background, so that the method can automatically construct a feature that is more realistic.
  • the "user-item” limitation is removed, and only the size of the window can be set to perform feature construction for the nominal attribute.
  • the feature construction method in the present invention is independent of each other in the implementation manner, and is suitable for parallelization.
  • the "user-item” method in the present invention has the characteristics of strong interpretability and good practical significance, such as "the total number of clicks of current users on all advertisements" often represents the user's possibility of clicking on all advertisements. Sex.
  • the features constructed by the feature construction method in the present invention are often linear features, and the feature selection can be simply performed by Pearson correlation coefficients, and a better classification or prediction effect can be obtained by using a simpler linear model.
  • the nominal attribute adopts One-Hot coding, and the distance of the feature vector between different attributes is always fixed.
  • the features constructed by the method of the present invention zoom in or out through the fields in the indicator nodes for distances between different attributes.
  • FIG. 1 is a schematic construction method of the present invention and its corresponding entire machine learning system.
  • Figure 3 is a feature construction framework for a general application scenario with a nominal attribute field.
  • the continuous attribute feature construction method based on the nominal attribute described in this embodiment is an important part of the whole machine learning system, and is responsible for generating all the features required for the training model, and determining the upper limit of the accuracy of the entire prediction model.
  • the method is divided into two parts: offline training and online prediction.
  • the features are constructed offline, and the features of the sample to be predicted are generated on the line according to the existing training set, without recalculation. Specifically, the following steps are included:
  • Data preprocessing including data table integration, data representation, missing value processing, and so on.
  • the data table integration refers to integrating existing data tables, and all fields in the data set are placed in the same table;
  • the data representation refers to converting the current nominal attribute field into a new nominal attribute field.
  • the specific representation method is determined according to different applications and different prediction requirements;
  • the missing value processing includes missing field culling and missing value filling, and culling fields with serious data missing, and fields with less serious missing conditions If it is a nominal attribute field, the missing part is filled with a new attribute value, or it is padded by the KNN algorithm. If it is a continuous field, the mean padding or other padding method is used.
  • Each primary node includes at least one leaf node, and each leaf node stores a nominal attribute field name in the data table.
  • the leaf nodes under the “user” of the primary node usually represent the characteristics and attributes of the user, and the users are divided into multiple different categories, and the leaves under the “items” of the primary node The node represents the characteristics and attributes of the item.
  • the leaf node under “indicator” represents the degree of matching between the user and the item, such as the similarity between the user description and the item description, whether a user and the item appear in the same sample, etc.
  • “user indicator” The leaf node below only represents a certain indicator of the user, such as the age of the user, the balance of the account, etc., and the leaf node under the "item indicator” represents an indicator of the item itself, such as the price of the item.
  • the leaf node under the "index” stores the continuous feature field name except the nominal attribute
  • all the leaf nodes under the “window” store all the nominal attributes. Field name.
  • the leaf nodes under “calculation method” refer to the statistical methods set according to the current forecasting requirements or business background knowledge, such as sum, mean, standard deviation, median, and mode.
  • each node in the method is set, and the corresponding field name is stored in the node, and the structure of the whole method is described by the JSON file and is used together with the preprocessed data set in step 1) as the feature construction process.
  • the JSON file content is as follows (corresponding to Table 1), the more general framework structure is shown in Figure 2, here only three user nominal attributes are shown. "User ID”, “User Attribute A”, “User Attribute B” and two item attributes "Item ID”, “Item Attribute C” and Table 1 correspond to each other, and the actual use process is set according to the number of possible fields. Different numbers of leaf nodes;
  • the unrealizable path is removed in advance.
  • the feature of "All users have the total heat of all items” is the same in each sample.
  • the characteristics of "Current user's current item occurrence" It is a goal that needs to be predicted or classified, and is an unrealizable path.
  • the size of the window needs to be determined in advance, that is, how many leaf nodes are included in one window; and the leaf node combination rule is set: the leaf nodes under the "window” main node are combined. Traversing all leaf node combinations that match the window size and combination rules; for each leaf node combination under the window, it is combined with different leaf nodes under the "node” of the master node and different leaf nodes under "computation mode", and finally constitutes All possible feature construction paths.
  • the resulting feature for each path is given by:
  • y represents the field in the leaf node under the "user indicator", “item indicator” or “indicator” master node in the current path
  • f represents a custom calculation mode
  • Cyf determines the composition of each path
  • F Cyf, i represents the feature value of the i-th sample with respect to the path Cyf
  • Y i represents the set of the index field values of all samples in the sample index set S Cyf,i of the i-th sample, namely:
  • C i represents the set of all values in the i-th sample for each nominal attribute field in set C
  • the set of all values of the nominal attribute field is the same as the jth sample.
  • calculation method f is defined as sum (sum), average (average) and standard deviation (std), the features generated by the three calculation methods can be respectively given by the following formula:
  • the calculation of the feature uses the data query statement to complete the calculation of the above formula.
  • the aggregation function is determined according to all the leaf nodes of the calculation mode, and finally the structure of the feature is implemented by the GROUP BY operation (to "user-item"
  • the GROUP BY operation to "user-item”
  • the specific operation statement is shown in Table 2 below.
  • each dimension feature is generated (how many depends on how many leaf nodes are in the calculation mode node).
  • the field of each dimension of the feature space Named user_field@item_field@indication_field@std_dev or user_field@item_field@indication_field@mean, where user_field, item_field, and indication_field are string variables representing the user and the field names of the leaf nodes under the main node of the item and indicator.
  • user_field, item_field, and indication_field are string variables representing the user and the field names of the leaf nodes under the main node of the item and indicator.
  • it is expressed in the form of attributes1@attributes2@...@indication_field@operation. Since this step is independent of each query, it can be easily parallelized.
  • Each path is constructed according to step 4.2).
  • the feature construction paths of all samples generate features, they are placed in the same table as the training set, where the samples are rows, the fields are characteristic fields, and the field names are Constructs a path name for this feature.
  • step 6.1 Save the features in step 5) of the offline training, and put them in the same table as the other fields except the indicator field in step 1), as shown in Table 3 below.
  • the actual field name of feature 1 is named in the form of a string of user_field@item_field@indication_field@mean;
  • the present invention provides a new method for constructing nominal attribute features, which can be applied not only to scenes with "user-item” pairs, but also to more general nominal attributes. Or the classification and regression prediction problems of categorical variable features. Compared with the traditional One-Hot and Dummy coding, the characteristics of the construction method of the present invention make the difference between the samples more obvious, and the generated features have strong interpretability. With practical promotion value, it is worth promoting.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于名义属性的连续型特征构造方法,包括步骤:1)数据预处理;2)根据业务背景知识设置特征构造框架;3)产生具体的特征构造路径;4)根据特征构造路径构造相应的特征并产生训练集;5)对训练集进行特征选择并构建预测模型;6)将相关的数据集以及预测模型保存并结束离线训练过程;7)将需要进行线上预测的样本数据进行预处理以及特征提取;8)利用离线训练得到的预测模型对样本进行预测。所述方法不仅可以应用于具有"用户-物品"对的场景,同时也适用于更为一般的带有名义属性或分类变量特征的分类和回归预测问题,与传统的One-Hot和Dummy编码相比,所述方法所产生的特征使得样本之间差异更加明显,产生的特征具有较强的可解释性。

Description

一种基于名义属性的连续型特征构造方法 技术领域
本发明涉及机器学习中的特征工程领域,尤其是指一种基于名义属性的连续型特征构造方法。
背景技术
随着大数据时代的到来以及互联网的兴起,各种机器学习算法被用于挖掘数据中所蕴含的具有商业价值的信息,而特征工程则是机器学习系统中的一个关键步骤,决定着系统的精度的上限,特征构造则是特征工程中的一个重要组成部分。目前关于特征构造大多是基于规则的人工提取,很大程度上依赖于工程师对于业务背景的理解,难以在较短时间内一次性提取出较为全面的特征,尤其是针对名义属性特征或分类变量特征如“黄、红、蓝”一类的颜色特征,往往将名义属性转换为彼此之间距离为相同长度的稀疏向量,采用One-Hot编码或Dummy编码的方式对特征进行构造。这种编码方式虽然每个维度代表着某种名义属性或分类变量是否出现,具有一定的物理意义,但是对于不同的样本,这种特征表示形式默认彼此之间的距离为相同的定值,这一点可能与现实情况相悖,并且当名义属性取值过多的时候,这种编码方式会导致特征维度过大的问题。
本发明提供一种基于名义属性的连续型特征构造方法,这种方法可以实现半自动特征构造,与当前较为常用的名义属性One-Hot编码相比能使产生的样本之间的差异性更加明显,并且具有较强的可扩展性,可以使用并行计算技术进行加速,让机器学习算法工程师可以专注于特征名义属性的组合而不需要过多地考虑具体的构造过程,该方法构造的特征往往为线性特征,具有明显的物理意义,可解释性较强,通过特定的特征选择过程以及简单的线性预测模型就可以达到较好的预测效果,尤其适合于工业应用上的机器学习系统的构建。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于名义属性的连续型特征构造方法,这种方法分为离线训练和线上预测两个部分,不仅可以应用于具有“用户-物品”对的场景,同时也适用于更为一般的带有名义属性或分类变量特征的分类和回归预测问题,与传统的One-Hot和Dummy编码相比,本发明的构造方法所产生的特征使得样本之间差异更加明显,产生的特征具有较强的可解释性,并且能够在一定程度上缓解因为特征高维稀疏而导致的过拟合等问题。
为实现上述目的,本发明所提供的技术方案为:一种基于名义属性的连续型特征构造方法,包括以下步骤:
1)数据预处理,包括数据表整合、数据表示形式、缺失值处理;
2)根据业务背景知识设置特征构造框架;
3)产生具体的特征构造路径;
4)根据特征构造路径构造相应的特征并产生训练集;
5)对训练集进行特征选择并构建预测模型;
6)将相关的数据集以及预测模型保存并结束离线训练过程;
7)将需要进行线上预测的样本数据进行预处理以及特征提取;
8)利用离线训练得到的预测模型对样本进行预测。
在步骤1)中,所述数据表整合指的是将现有的数据表进行整合,将数据集中的所有字段置于同一张表中。所述数据表示形式指的是在必要的情况下将当前的名义属性字段转换为新的名义属性字段,具体的表示方法根据不同的应用场合以及不同的预测需求决定。所述缺失值处理包括缺失字段剔除和缺失值填 充两种情况,对于其中数据缺失较为严重的字段进行剔除,对于缺失情况不严重的字段,若其为名义属性字段,则将缺失部分的用一个新的属性值填充,或者采用KNN算法对其进行填充,若其为连续型字段,则采用均值填充或其他填充方法。
在步骤2)中,结合业务背景知识确定当前预测或分类问题的特征构造框架,包括以下步骤:
2.1)确定特征构造框架的主干以及主干上的所有主节点。对于“用户-物品”这种应用场景,主干分为“用户-物品-指标-计算方式”、“用户-用户指标-计算方式”、“物品-物品指标-计算方式”三种,主节点指的是主干上的节点,包括“用户”、“物品”、“指标”、“计算方式”、“物品指标”、“用户指标”六种;对于一般的带有名义属性或分类变量的应用场景,主干则仅有“窗口-指标-计算方式”一种,相应的主节点仅有“窗口”、“指标”和“计算方式”三种。
2.2)确定主节点下的叶子节点。每个主节点下至少包括一个叶子节点,每个叶子节点都存储着数据表中的一个名义属性字段名。对于“用户-物品”这种应用场景,主节点“用户”下的叶子节点通常都代表着用户的特点和属性,都将用户划分为多个不同的类别,而主节点“物品”下的叶子节点则代表的是物品的特点和属性。“指标”下的叶子节点则代表着用户和物品之间的匹配的程度,如用户描述与物品描述之间的相似度、某个用户和物品是否在同一个样本中出现等,“用户指标”下的叶子节点则仅表示用户的某种指标,如用户的年龄、账户的余额等,“物品指标”下的叶子节点则代表着物品自身的某种指标,如物品的价格等。对于一般的带有名义属性或分类变量的应用场景,“指标”下的叶子节点存储的通常为除名义属性外的连续型特征字段名,“窗口”下的所有叶子节点存储所有的名义属性的字段名。而“计算方式”下的叶子节点则指的是根据当前的预 测需求或者业务背景知识所设置的统计方式,如求和、均值、标准差、中位数、众数等。
在步骤3)中,根据步骤2)所确定的特征构造框架产生具体的特征构造路径,对于“用户-物品”这种应用场景而言,其中一条特征构造路径包含主干以及主干上每个主节点所选择的一个叶子节点并按照“主干-主节点-叶子节点”的顺序遍历所有可能的特征构造路径,而对于一般的带有名义属性的应用场景,则需要经过以下步骤:
3.1)确定窗口的大小,即确定一个窗口内包含多少个叶子节点;
3.2)设定叶子节点组合规则:将“窗口”主节点下的叶子节点进行组合,遍历所有符合窗口大小和组合规则的叶子节点组合;
3.3)对于窗口下的每种叶子节点组合,与主节点“指标”下不同的叶子节点和“计算方式”下不同的叶子节点进行组合,最终构成所有可能的特征构造路径。
在步骤4)中,根据特征构造路径构造相应的特征,包括以下步骤:
4.1)确定当前特征构造路径中包含的所有名义属性字段,对于“用户-物品”场合,当前路径的名义属性字段根据当前路径的主节点“用户”和“物品”选择的叶子节点决定,对于一般的带有名义属性的应用场景,则根据“窗口”主节点下的叶子节点组合所包含的名义属性字段决定。
4.2)设步骤4.1)中确定的名义属性字段集合为C={A,B,…},其中A和B均代表名义属性字段名,在“用户-物品”场合下,集合的大小为1或2,对于一般的带有名义属性的应用场景,集合大小至少为1.每条路径最终产生的特征都由下式给出:
F Cyf,i=f(Y i)
其中y表示当前路径中“用户指标”、“物品指标”或“指标”主节点下的叶子节点中的字段,f表示自定义的计算方式,Cyf确定了每一条路径的组成结构,F Cyf,i表示第i个样本关于路径Cyf的特征取值,Y i表示第i个样本的样本索引集合S Cyf,i中所有样本的指标字段取值的集合,即:
Y i={y j|j∈S Cyf,i}
S Cyf,i的定义表达式如下式所示:
Figure PCTCN2017116131-appb-000001
其中S表示所有样本的索引集合,C i表示第i个样本中对于集合C中每个名义属性字段的所有取值的集合,C j=C i表示第i个样本中对于集合C中每个名义属性字段的所有取值的集合与第j个样本相同。
若将计算方式f分别定义为求和(sum),平均(average)和标准差(std),则这三种计算方式下产生的特征可以分别由下面的式子给出:
Figure PCTCN2017116131-appb-000002
Figure PCTCN2017116131-appb-000003
Figure PCTCN2017116131-appb-000004
4.3)将每条路径都按照步骤4.2)进行特征构造,当所有样本的特征构造 路径产生特征之后,将其置于同一张表中作为训练集,其中样本为行,字段为特征的字段,字段名以构造该特征的路径命名。
在步骤5)中,通过特征选择算法从所有特征中挑选出对于预测精度效果最好的特征子集并构建预测模型。
在步骤6)中,所述相关的数据集指的是特征选择后的训练集和训练集构建时所涉及的所有名义属性字段的数据,这些数据集将用于线上样本的特征的产生,训练集中的特征的字段名依旧保持以特征构造路径命名,并将两个数据集所有字段置于同一张表中,保存的预测模型则将用于线上样本的预测。
在步骤7)中,将需要进行线上预测的样本数据进行预处理以及特征提取,包括以下步骤:
7.1)将线上待预测的样本数据进行预处理,这里与离线训练过程中的预处理步骤对应,将离线训练过程中因为缺失严重而被剔除的字段在当前的样本数据中加以剔除,对于其他在离线训练过程中未被剔除而在当前样本数据中存在数据缺失的字段,则采用KNN算法或者均值填充处理。
7.2)对线上待预测的样本数据进行特征提取,这一过程依旧与离线训练过程相对应,首先从步骤6)中得到的数据表中读取每一个特征构造路径即特征字段名,根据特征构造路径以及路径相应的名义属性字段,将与待预测样本名义属性字段取值完全相同的训练集样本对应当前的路径的特征取值复制到待预测样本中。
在步骤8)中,利用离线训练得到的预测模型对步骤7)中特征提取后的待预测样本进行预测。
本发明与现有技术相比,具有如下优点与有益效果:
1、很多预测问题或者推荐问题采用基于热度的特征进行分类或预测具有较 好的效果,本发明提供了一种可以将不同粒度的基于热度的所有特征罗列出来的方法。
2、本发明中的特征构造方法具有较为良好的扩展性,在“用户-物品”方法中允许用户基于业务背景创建自定义的叶子节点,使得方法可以自动地构造出较符合现实情况的特征,在通用的特征构造方法中则摆脱了“用户-物品”的限制,只需要设定窗口的大小就可以针对名义属性进行特征构造。
3、本发明中的特征构造方法在实现方式上每条特征构造路径之间彼此独立,适合并行化。
4、本发明中的“用户-物品”方法构造的特征可解释性较强,具有较好的现实意义,如“当前用户对所有广告的点击总数”往往代表着用户对所有广告的点击的可能性。
5、本发明中的特征构造方法构造出来的特征往往为线性特征,可以简单地通过皮尔逊相关系数进行特征选择,并且使用较为简单的线性模型就可以得到较好的分类或者预测效果。
6、与当前较为常用的名义属性One-Hot编码相比能使产生的特征之间的差异性更加明显,名义属性采用One-Hot编码往往不同属性之间的特征向量的距离均为定值,本发明的方法构造出的特征对于不同属性之间的距离通过指标节点中的字段进行放大或缩小。
7、在线上预测中,无需重新构造特征,只需要从离线训练数据中直接提取特征即可,避免了在线上进行预测的时候由于算法复杂度过高导致时间开销过大的问题。
附图说明
图1是本发明的特征构造方法及其相应的整个机器学习系统。
图2是基于“用户-物品”应用场景的特征构造方法整体框架。
图3是含有名义属性字段的一般应用场景的特征构造框架。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所述的基于名义属性的连续型特征构造方法是整个机器学习系统中的重要一环,负责产生训练模型所需的所有特征,决定着整个预测模型精度的上限,同时本方法分成离线训练和线上预测两个部分,离线构造特征,线上根据已有的训练集产生待预测样本特征,无需重新计算。具体包括以下步骤:
1)数据预处理,包括数据表整合、数据表示形式、缺失值处理等。所述数据表整合指的是将现有的数据表进行整合,将数据集中的所有字段置于同一张表中;所述数据表示形式指的是将当前的名义属性字段转换为新的名义属性字段,具体的表示方法根据不同的应用场合以及不同的预测需求决定;所述缺失值处理包括缺失字段剔除和缺失值填充两种情况,对于其中数据缺失严重的字段进行剔除,对于缺失情况不严重的字段,若其为名义属性字段,则将缺失部分的用一个新的属性值填充,或者采用KNN算法对其进行填充,若其为连续型字段,则采用均值填充或其他填充方法。
表1 数据集表示形式
ID 用户ID 用户属性A 用户属性B 物品ID 物品属性C 是否发生 相似度
1 1 1 2 1 2 0 0.25
2 1 2 1 2 2 1 0.45
3 2 2 2 3 1 1 0.80
实际实现效果如表1所示,将当前数据集中的所有名义属性以及相关的指 标字段等数据存储到同一张表中并进行数据预处理,其中字段“ID”代表样本标号。
2)根据业务背景知识设置特征构造框架,包括以下步骤:
2.1)确定特征构造框架的主干以及主干上的所有主节点。对于“用户-物品”这种应用场景,主干分为“用户-物品-指标-计算方式”、“用户-用户指标-计算方式”、“物品-物品指标-计算方式”三种,主节点指的是主干上的节点,包括“用户”、“物品”、“指标”、“计算方式”、“物品指标”、“用户指标”六种;对于一般的带有名义属性或分类变量的应用场景,主干则仅有“窗口-指标-计算方式”一种,相应的主节点仅有“窗口”、“指标”和“计算方式”三种。
2.2)确定主节点下的叶子节点。每个主节点下至少包括一个叶子节点,每个叶子节点都存储着数据表中的一个名义属性字段名。对于“用户-物品”这种应用场景,主节点“用户”下的叶子节点通常都代表着用户的特点和属性,都将用户划分为多个不同的类别,而主节点“物品”下的叶子节点则代表的是物品的特点和属性。“指标”下的叶子节点则代表着用户和物品之间的匹配的程度,如用户描述与物品描述之间的相似度、某个用户和物品是否在同一个样本中出现等,“用户指标”下的叶子节点则仅表示用户的某种指标,如用户的年龄、账户的余额等,“物品指标”下的叶子节点则代表着物品自身的某种指标,如物品的价格等。对于一般的带有名义属性或分类变量的应用场景,“指标”下的叶子节点存储的通常为除名义属性外的连续型特征字段名,“窗口”下的所有叶子节点存储所有的名义属性的字段名。而“计算方式”下的叶子节点则指的是根据当前的预测需求或者业务背景知识所设置的统计方式,如求和、均值、标准差、中位数、众数等。
根据经验设定方法中的每个节点,并将相应的字段名存入节点中,并采用 JSON文件对整个方法的结构进行描述并与步骤1)中预处理后的数据集一起作为特征构造过程的输入,其中对于“用户-物品”这种应用场景,其JSON文件内容如下所示(与表1对应),更为一般的框架结构如图2所示,这里仅展示三个用户名义属性包括"用户ID","用户属性A","用户属性B"和两个物品属性"物品ID","物品属性C"与表1相互对应,实际使用过程中根据所或许的字段的数目不同设置不同数目的叶子节点;
Figure PCTCN2017116131-appb-000005
对于含有名义属性的更为一般的应用场景,则不区分“用户”或者“物品”这两种主节点,统一采用“窗口”,窗口下包含所有的名义属性字段,其框架结构如图3所示。
3)产生具体的特征构造路径:对于“用户-物品”这种应用场景,根据JSON文件中的叶子节点进行路径组合,先选择主干再选择每个主节点上的叶子节点,如“用户ID”—“物品属性C”—“相似度”—“mean”代表着当前用户与当前物品属性C下的物品的平均相似度,实际实现中这里的组合只会将除了计算方式节点外的叶子节点进行路径组合,因为计算方式节点的计算是以浮点数计 算为主,而其他节点的计算则与查询匹配和集合的交等运算为主,并且在组合出所有可能的路径之后,会对一些不必要或者是不可实现的路径预先进行去除,如“所有用户对所有物品的总热度”这类的特征在每个样本中的取值是一样的,“当前用户对当前物品是否发生”这类的特征则是需要预测或分类的目标,属于不可实现的路径。
对于含有名义属性的更为一般的应用场景,则需要预先确定窗口的大小,即确定一个窗口内包含多少个叶子节点;设定叶子节点组合规则:将“窗口”主节点下的叶子节点进行组合,遍历所有符合窗口大小和组合规则的叶子节点组合;对于窗口下的每种叶子节点组合,与主节点“指标”下不同的叶子节点和“计算方式”下不同的叶子节点进行组合,最终构成所有可能的特征构造路径。
4)根据特征构造路径构造相应的特征并产生训练集,包括以下步骤:
4.1)确定当前特征构造路径中包含的所有名义属性字段,对于“用户-物品”场合,当前路径的名义属性字段根据当前路径的主节点“用户”和“物品”选择的叶子节点决定,对于一般的带有名义属性的应用场景,则根据“窗口”主节点下的叶子节点组合所包含的名义属性字段决定。
4.2)设步骤4.1)中确定的名义属性字段集合为C={A,B,…},其中A和B均代表名义属性字段名,在“用户-物品”场合下,集合的大小为1或2,对于一般的带有名义属性的应用场景,集合大小至少为1.每条路径最终产生的特征都由下式给出:
F Cyf,i=f(Y i)
其中y表示当前路径中“用户指标”、“物品指标”或“指标”主节点下的叶子节点中的字段,f表示自定义的计算方式,Cyf确定了每一条路径的组成结构,F Cyf,i表示第i个样本关于路径Cyf的特征取值,Y i表示第i个样本的样本索引集 合S Cyf,i中所有样本的指标字段取值的集合,即:
Y i={y j|j∈S Cyf,i}
S Cyf,i的定义表达式如下式所示:
Figure PCTCN2017116131-appb-000006
其中S表示所有样本的索引集合,C i表示第i个样本中对于集合C中每个名义属性字段的所有取值的集合,C j=C i表示第i个样本中对于集合C中每个名义属性字段的所有取值的集合与第j个样本相同。
若将计算方式f分别定义为求和(sum),平均(average)和标准差(std),则这三种计算方式下产生的特征可以分别由下面的式子给出:
Figure PCTCN2017116131-appb-000007
Figure PCTCN2017116131-appb-000008
Figure PCTCN2017116131-appb-000009
在实际实现中,对特征的计算采用数据查询语句来完成对上述公式的计算,首先根据计算方式的所有叶子节点确定聚合函数,最后再采用GROUP BY操作实现特征的构造(以“用户-物品”场合为例,具体操作语句如下表2所示)。
每执行一次GROUP BY操作就会产生多个维度的特征(具体是多少个取决于计算方式节点有多少个叶子节点),对于“用户-物品”这种应用场合,特征空 间的每个维度的字段名为user_field@item_field@indication_field@std_dev或者是user_field@item_field@indication_field@mean,其中user_field、item_field和indication_field为字符串变量,代表着用户和物品和指标主节点下叶子节点的字段名。对于更为一般的应用场合,则采用attributes1@attributes2@...@indication_field@operation这一形式表示,由于这一步骤每次查询都是相互独立的,因此可以很容易地进行并行化。
表2 特征构造操作
行号 SQL
1 SELECT user_field,item_field,
2 STD(indication_field)AS user_field@item_field@std_dev,
3 MEAN(indication_field)AS user_field@item_field@mean
4 FROM表1
5 GROUP BY user_field,item_field
4.3)将每条路径都按照步骤4.2)进行特征构造,当所有样本的特征构造路径产生特征之后,将其置于同一张表中作为训练集,其中样本为行,字段为特征的字段,字段名以构造该特征的路径命名。
5)对训练集进行特征选择并构建预测模型:如采用皮尔逊相关系数对训练集进行特征选择,将训练集中的所有特征进行特征选择,并计算各个特征与和目标的相关系数,当相关系数大于指定阈值时,则保留该特征,否则去除该特征,经过上述步骤得到特征子集之后,计算两两特征之间的相关系数,从该子集中挑选出特征之间两两相关性较弱的子集作为最终的特征集合,最后选择精度较好的预测模型进行模型训练。
6)在进行线上预测之前,需先把离线训练过程中必要的数据保存下来,以便在线上预测过程中使用,其中包括:
6.1)将离线训练的步骤5)中的特征保存下来,与其步骤1)中除了指标字 段以外的其他字段放到同一张表中,如下表3所示。其中特征1的实际字段名以user_field@item_field@indication_field@mean的字符串形式命名;
6.2)将步骤5)得到的模型和相关参数保存。
表3 训练样本信息
用户ID 用户属性A 用户属性B 物品ID 物品属性C 特征1 特征2
1 1 2 1 2 0 0.25
1 2 1 2 2 1 0.45
2 2 2 3 1 1 0.80
7)将需要进行线上预测的样本数据进行预处理以及特征提取:将表3中的特征的字段名取出,得到产生特征的所有路径组合,对于每一条路径,根据相应的名义属性字段对表3进行去重,再和待预测样本数据表进行左连接,从而得到当前路径的特征。
8)利用离线训练得到的预测模型对步骤7)中特征提取后的待预测样本进行预测。
综上所述,在采用以上方案后,本发明为名义属性特征构造提供了新的方法,不仅可以应用于具有“用户-物品”对的场景,同时也适用于更为一般的带有名义属性或分类变量特征的分类和回归预测问题,与传统的One-Hot和Dummy编码相比,本发明的构造方法所产生的特征使得样本之间差异更加明显,产生的特征具有较强的可解释性,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

  1. 一种基于名义属性的连续型特征构造方法,其特征在于,包括以下步骤:
    1)数据预处理,包括数据表整合、数据表示形式、缺失值处理;
    2)根据业务背景知识设置特征构造框架;
    3)产生具体的特征构造路径;
    4)根据特征构造路径构造相应的特征并产生训练集;
    5)对训练集进行特征选择并构建预测模型;
    6)将相关的数据集以及预测模型保存并结束离线训练过程;
    7)将需要进行线上预测的样本数据进行预处理以及特征提取;
    8)利用离线训练得到的预测模型对样本进行预测。
  2. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特征在于:在步骤1)中,所述数据表整合指的是将现有的数据表进行整合,将数据集中的所有字段置于同一张表中;所述数据表示形式指的是将当前的名义属性字段转换为新的名义属性字段,具体的表示方法根据不同的应用场合以及不同的预测需求决定;所述缺失值处理包括缺失字段剔除和缺失值填充两种情况,对于其中数据缺失严重的字段进行剔除,对于缺失情况不严重的字段,若其为名义属性字段,则将缺失部分的用一个新的属性值填充,或者采用KNN算法对其进行填充,若其为连续型字段,则采用均值填充或其他填充方法。
  3. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特征在于:在步骤2)中,结合业务背景知识确定当前预测或分类问题的特征构造框架,包括以下步骤:
    2.1)确定特征构造框架的主干以及主干上的所有主节点
    对于“用户-物品”这种应用场景,主干分为“用户-物品-指标-计算方式”、“用 户-用户指标-计算方式”、“物品-物品指标-计算方式”三种,主节点指的是主干上的节点,包括“用户”、“物品”、“指标”、“计算方式”、“物品指标”、“用户指标”六种;对于带有名义属性或分类变量的应用场景,主干则仅有“窗口-指标-计算方式”一种,相应的主节点仅有“窗口”、“指标”和“计算方式”三种;
    2.2)确定主节点下的叶子节点
    每个主节点下至少包括一个叶子节点,每个叶子节点都存储着数据表中的一个名义属性字段名,对于“用户-物品”这种应用场景,主节点“用户”下的叶子节点通常都代表着用户的特点和属性,都将用户划分为多个不同的类别,而主节点“物品”下的叶子节点则代表的是物品的特点和属性,“指标”下的叶子节点则代表着用户和物品之间的匹配的程度,“用户指标”下的叶子节点则仅表示用户的某种指标,“物品指标”下的叶子节点则代表着物品自身的某种指标,对于带有名义属性或分类变量的应用场景,“指标”下的叶子节点存储的通常为除名义属性外的连续型特征字段名,“窗口”下的所有叶子节点存储所有的名义属性的字段名,而“计算方式”下的叶子节点则指的是根据当前的预测需求或者业务背景知识所设置的统计方式;
    在步骤3)中,根据步骤2)所确定的特征构造框架产生具体的特征构造路径,对于“用户-物品”这种应用场景而言,其中一条特征构造路径包含主干以及主干上每个主节点所选择的一个叶子节点并按照“主干-主节点-叶子节点”的顺序遍历所有可能的特征构造路径,而对于带有名义属性的应用场景,则需要经过以下步骤:
    3.1)确定窗口的大小,即确定一个窗口内包含多少个叶子节点;
    3.2)设定叶子节点组合规则:将“窗口”主节点下的叶子节点进行组合,遍历所有符合窗口大小和组合规则的叶子节点组合;
    3.3)对于窗口下的每种叶子节点组合,与主节点“指标”下不同的叶子节点和“计算方式”下不同的叶子节点进行组合,最终构成所有可能的特征构造路径;
    在步骤4)中,根据特征构造路径构造相应的特征,包括以下步骤:
    4.1)确定当前特征构造路径中包含的所有名义属性字段,对于“用户-物品”场合,当前路径的名义属性字段根据当前路径的主节点“用户”和“物品”选择的叶子节点决定,对于带有名义属性的应用场景,则根据“窗口”主节点下的叶子节点组合所包含的名义属性字段决定;
    4.2)设步骤4.1)中确定的名义属性字段集合为C={A,B,…},其中A和B均代表名义属性字段名,在“用户-物品”场合下,集合的大小为1或2,对于带有名义属性的应用场景,集合大小至少为1,每条路径最终产生的特征都由下式给出:
    F Cyf,i=f(Y i)
    式中,y表示当前路径中“用户指标”、“物品指标”或“指标”主节点下的叶子节点中的字段,f表示自定义的计算方式,Cyf确定了每一条路径的组成结构,F Cyf,i表示第i个样本关于路径Cyf的特征取值,Y i表示第i个样本的样本索引集合S Cyf,i中所有样本的指标字段取值的集合,即:
    Y i={y j|j∈S Cyf,i}
    S Cyf,i的定义表达式如下式所示:
    Figure PCTCN2017116131-appb-100001
    式中,S表示所有样本的索引集合,C i表示第i个样本中对于集合C中每个 名义属性字段的所有取值的集合,C j=C i表示第i个样本中对于集合C中每个名义属性字段的所有取值的集合与第j个样本相同;
    若将计算方式f分别定义为求和sum,平均average和标准差std,则这三种计算方式下产生的特征分别由下面的式子给出:
    Figure PCTCN2017116131-appb-100002
    Figure PCTCN2017116131-appb-100003
    Figure PCTCN2017116131-appb-100004
    4.3)将每条路径都按照步骤4.2)进行特征构造,当所有样本的特征构造路径产生特征之后,将其置于同一张表中作为训练集,其中样本为行,字段为特征的字段,字段名以构造该特征的路径命名。
  4. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特征在于:在步骤5)中,通过特征选择算法从所有特征中挑选出对于预测精度效果最好的特征子集并构建预测模型。
  5. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特征在于:在步骤6)中,所述相关的数据集指的是特征选择后的训练集和训练集构建时所涉及的所有名义属性字段的数据,这些数据集将用于线上样本的特征的产生,训练集中的特征的字段名依旧保持以特征构造路径命名,并将两个数据集所有字段置于同一张表中,保存的预测模型则将用于线上样本的预测。
  6. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特 征在于:在步骤7)中,将需要进行线上预测的样本数据进行预处理以及特征提取,包括以下步骤:
    7.1)将线上待预测的样本数据进行预处理,这里与离线训练过程中的预处理步骤对应,将离线训练过程中因为缺失严重而被剔除的字段在当前的样本数据中加以剔除,对于其他在离线训练过程中未被剔除而在当前样本数据中存在数据缺失的字段,则采用KNN算法或者均值填充处理;
    7.2)对线上待预测的样本数据进行特征提取,这一过程依旧与离线训练过程相对应,首先从步骤6)中得到的数据表中读取每一个特征构造路径即特征字段名,根据特征构造路径以及路径相应的名义属性字段,将与待预测样本名义属性字段取值完全相同的训练集样本对应当前的路径的特征取值复制到待预测样本中。
  7. 根据权利要求1所述的一种基于名义属性的连续型特征构造方法,其特征在于:在步骤8)中,利用离线训练得到的预测模型对步骤7)中特征提取后的待预测样本进行预测。
PCT/CN2017/116131 2017-01-17 2017-12-14 一种基于名义属性的连续型特征构造方法 WO2018133596A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710034428.1A CN106897776A (zh) 2017-01-17 2017-01-17 一种基于名义属性的连续型特征构造方法
CN201710034428.1 2017-01-17

Publications (1)

Publication Number Publication Date
WO2018133596A1 true WO2018133596A1 (zh) 2018-07-26

Family

ID=59197925

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/116131 WO2018133596A1 (zh) 2017-01-17 2017-12-14 一种基于名义属性的连续型特征构造方法

Country Status (2)

Country Link
CN (1) CN106897776A (zh)
WO (1) WO2018133596A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897776A (zh) * 2017-01-17 2017-06-27 华南理工大学 一种基于名义属性的连续型特征构造方法
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
CN107844560B (zh) * 2017-10-30 2020-09-08 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108776673B (zh) * 2018-05-23 2020-08-18 哈尔滨工业大学 关系模式的自动转换方法、装置及存储介质
CN109146083B (zh) * 2018-08-06 2021-07-23 创新先进技术有限公司 特征编码方法和装置
CN111651524B (zh) * 2020-06-05 2023-10-03 第四范式(北京)技术有限公司 利用机器学习模型进行线上预测的辅助实现方法及装置
CN113892939A (zh) * 2021-09-26 2022-01-07 燕山大学 一种基于多特征融合的人体静息状态下呼吸频率监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030176931A1 (en) * 2002-03-11 2003-09-18 International Business Machines Corporation Method for constructing segmentation-based predictive models
CN101226521A (zh) * 2008-02-18 2008-07-23 南京大学 一种用于多义性数据对象预测建模的机器学习方法
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104134017A (zh) * 2014-07-18 2014-11-05 华南理工大学 一种基于紧凑特征表示的蛋白质作用关系对抽取方法
CN105550275A (zh) * 2015-12-09 2016-05-04 中国科学院重庆绿色智能技术研究院 一种微博转发量预测方法
CN106897776A (zh) * 2017-01-17 2017-06-27 华南理工大学 一种基于名义属性的连续型特征构造方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792770B1 (en) * 2007-08-24 2010-09-07 Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030176931A1 (en) * 2002-03-11 2003-09-18 International Business Machines Corporation Method for constructing segmentation-based predictive models
CN101226521A (zh) * 2008-02-18 2008-07-23 南京大学 一种用于多义性数据对象预测建模的机器学习方法
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN104134017A (zh) * 2014-07-18 2014-11-05 华南理工大学 一种基于紧凑特征表示的蛋白质作用关系对抽取方法
CN105550275A (zh) * 2015-12-09 2016-05-04 中国科学院重庆绿色智能技术研究院 一种微博转发量预测方法
CN106897776A (zh) * 2017-01-17 2017-06-27 华南理工大学 一种基于名义属性的连续型特征构造方法

Also Published As

Publication number Publication date
CN106897776A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
WO2018133596A1 (zh) 一种基于名义属性的连续型特征构造方法
CN108733798B (zh) 一种基于知识图谱的个性化推荐方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN112364976B (zh) 基于会话推荐系统的用户偏好预测方法
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
Wang et al. Trust-aware collaborative filtering with a denoising autoencoder
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN113255908B (zh) 基于事件序列进行业务预测的方法、神经网络模型和装置
CN106997488A (zh) 一种结合马尔科夫决策过程的动作知识提取方法
CN113255895A (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN115051929B (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN111985152B (zh) 一种基于二分超球面原型网络的事件分类方法
CN114943216A (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
CN111078840B (zh) 一种基于文档向量的电影评论情感分析方法
CN117743694B (zh) 基于图节点特征增强的多层迁移学习跨域推荐方法及系统
CN117252665B (zh) 业务推荐方法、装置、电子设备及存储介质
CN112765458B (zh) 基于度量分解和标签自适应分配权重的混合推荐方法
CN110457543B (zh) 一种基于端到端多视角匹配的实体消解方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17892137

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 171019)

122 Ep: pct application non-entry in european phase

Ref document number: 17892137

Country of ref document: EP

Kind code of ref document: A1