WO2021174779A1 - 数据预处理系统、方法、计算机设备及可读存储介质 - Google Patents

数据预处理系统、方法、计算机设备及可读存储介质 Download PDF

Info

Publication number
WO2021174779A1
WO2021174779A1 PCT/CN2020/111629 CN2020111629W WO2021174779A1 WO 2021174779 A1 WO2021174779 A1 WO 2021174779A1 CN 2020111629 W CN2020111629 W CN 2020111629W WO 2021174779 A1 WO2021174779 A1 WO 2021174779A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
machine learning
automatic machine
standardized
learning model
Prior art date
Application number
PCT/CN2020/111629
Other languages
English (en)
French (fr)
Inventor
张楠
王健宗
瞿晓阳
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021174779A1 publication Critical patent/WO2021174779A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Abstract

一种数据预处理方法,可以用于智能工厂等场景中。所述方法包括:将采集到数据标准化以形成标准化训练数据及标准化测试数据(S201);将所述标准化训练数据及所述标准化测试数据存储在本地节点(S202);通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数(S203);将训练完成的自动机器学习模型的表达式写入智能合约(S204);通过智能合约将所述模型参数同步至区块链节点(S205);读取所述本地节点的标准化测试数据(S206);调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理(S207)。所述方法能够适应复杂场景,提高区块链的数据处理能力。

Description

数据预处理系统、方法、计算机设备及可读存储介质
本申请申明2020年07月30日递交的申请号为202010752209.9、名称为“数据预处理系统、方法、计算机设备及可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据预处理系统、方法、计算机设备及可读存储介质。
背景技术
随着科技的发展,人们开始区块链技术和机器学习应用与工业场景中。
在工业场景中,工业物联网中多源数据的完整性和有效性往往决定其应用场景的有效性。鉴于区块链本身的不可篡改特性,我们认为将区块链技术运用到工业场景中,则可以确保工业场景中的各个数据的有效性。然而在实际使用过程中,本申请人发现:由于各类数据在采集环境或传输环境均容易受到外界干扰,容易出现数据丢失现象。目前区块链技术中的基于简单规则的合约缺乏数据处理能力,对缺失数据可能无法及时发现和处理,无法保证数据的完整性和有效性。
为克服上述问题,我们代替使用了机器学习算法,其可以以数据预处理的方式通过拟合工业数据缺失值进行预测填充。但是发明人发现这种数据预处理方式缺乏安全性,其在对数据防护的安全层面上存在不足,在数据处理的过程中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据库损坏或数据丢失现象,且依赖于中心化数据库,使核心数据库服务器负载较大,并且存在信任问题。此外、由于工业数据属于多源异构数据,针对不同工业场景的机器学习算法可能完全不同,难以选择一个通用的机器学习算法适应不同工业场景。
发明内容
有鉴于此,本申请提出一种数据预方法,能够适应复杂场景,提高区块链的数据处理能力。
首先,为实现上述目的,本申请提出一种数据处理方法,所述方法包括:
将收集到数据标准化以形成标准化训练数据及标准化测试数据;
将所述标准化训练数据及所述标准化测试数据存储在本地节点;
通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
将训练完成的自动机器学习模型的表达式写入智能合约;
通过智能合约将所述模型参数同步至区块链节点;
读取所述本地节点的标准化测试数据;
调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
为了能够适应复杂场景,提高区块链的数据处理能力,本申请还提供了一种数据预处理系统,所述系统包括:
收集模块,用于收集外部采集设备采集到的数据,还用于将收集到的数据标准化以形成标准化训练数据及标准化测试数据并存储在本地节点;
自动机器学习模块,用于利用所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
区块链模块,用于将所述训练完成的自动机器学习模型的表达式写入智能合约,通过所述智能合约将所述模型参数同步至区块链节点,还用于读取所述本地节点的标准化测试数据并调用写入所述训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
为了能够适应复杂场景,提高区块链的数据处理能力,本申请还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
将收集到数据标准化以形成标准化训练数据及标准化测试数据;
将所述标准化训练数据及所述标准化测试数据存储在本地节点;
通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
将训练完成的自动机器学习模型的表达式写入智能合约;
通过智能合约将所述模型参数同步至区块链节点;
读取所述本地节点的标准化测试数据;
调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
为了能够适应复杂场景,提高区块链的数据处理能力,本申请还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
将收集到数据标准化以形成标准化训练数据及标准化测试数据;
将所述标准化训练数据及所述标准化测试数据存储在本地节点;
通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
将训练完成的自动机器学习模型的表达式写入智能合约;
通过智能合约将所述模型参数同步至区块链节点;
读取所述本地节点的标准化测试数据;
调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
本实施方式所提出的数据处理方法,首先将采集到数据标准化以形成标准化训练数据及标准化测试数据并将标准化训练数据及标准化测试数据存储在本地节点;接着通过标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;进而训练完成的自动机器学习模型的表达式写入智能合约及通过智能合约将模型参数同步至区块链节点;其次读取本地节点的标准化测试数据;最后调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理,能够适应复杂场景,提高区块链的数据处理能力。
附图说明
图1是本申请数据处理方法一实施方式的流程示意图;
图2是本申请数据处理系统一实施方式的功能模块示意图;
图3是本申请适于实现数据处理方法的计算机设备的硬件架构示意图。
附图标记:
计算机设备 300
存储器 310
处理器 320
网络接口 330
数据处理系统 200
收集模块 201
自动机器学习模块 202
区块链模块 203
本申请目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施方式,对本申请进行进一步详细说明。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。应当理解,此处所描述的具体实施方式仅用以解释本申请,并不用于限定本申请。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
在本公开使用的术语是仅仅出于描述特定实施方式的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
本申请提出一种数据处理方法,参阅图1所示,是本申请数据处理方法一实施方式的流程示意图。该数据处理方法可以包括步骤S201~步骤S207,其中:
步骤S201:将采集到数据标准化以形成标准化训练数据及标准化测试数据。
具体地,通过多个采集设备用于采集数据并将收集到的数据标准化以形成标准化训练数据及标准化测试数据并存储在本地节点上。
在本实施方式中,多个采集设备可以为各类工业传感器,不同采集设备采集到的数据结构不同,因此收集到的数据结构多样化。
在本实施方式中,针对数据结构多样化,智能设备将采集到的数据进行标准化以生成标准化测试数据及标准化训练数据。详细而言,主要是对数据结构化整理,对于连续数据会缩放到[0,1]之间,类别数据会使用数据编码,便于自动机器学习算法的训练和预测,对于缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。
步骤S202,将所述标准化训练数据及标准化测试数据存储在本地节点。
步骤S203,通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
具体地,训练完成的自动机器学习模型及模型参数还存储在本地节点。
在本实施方式中,通过标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数的步骤,具体包括如下步骤:
将标准化训练数据同步至区块链节点;
利用存储在区块链节点的标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
具体地,将训练的标准化数据存入区块链,实现本地数据与区块链数据的交互,并且利用区块链的不可篡改性:区块链中的每一笔数据一旦写入就不可以再改动,从存储层确保数据不被篡改。
详细而言,将训练的标准化数据上传至区块链中:基于训练的标准化数据得到对应的摘要信息,具体来说,摘要信息由训练的标准化数据进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证训练的标准化数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S204,将训练完成的自动机器学习模型的表达式写入智能合约。
步骤S205,通过智能合约将模型参数同步至区块链节点。
具体地,智能合约写入训练完成的自动机器学习模型,模型参数同步至区块链节点,各节点可通过条用智能合约对数据进行预处理。
步骤S206,读取本地节点的标准化测试数据。
步骤S207,调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理。
在本实施方式中,所述调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理的步骤,具体包括如下步骤:
判断标准化测试数据是否有数据缺失;
若标准化测试具有缺失,补全缺失数据;
将处理后的标准化测试数据同步至区块链节点。
本实施方式通过区块链技术和自动机器学习技术协同完成在节点上的数据预处理。通过区块链存储,解决了传统的解决了传统的数据上传存储与处理方法依赖于中心化数据库的信任问题。数据存储数据处理放在区块链中完成,利用区块链的不可篡改特点很好的提高了数据存储准确安全性以及数据处理的安全性。在区块链的智能合约中加入训练完成的自动机器学习模型,使得该系统能适应复杂场景,提高区块链的数据处理能力,最终实现区块链的数据智能化处理。
本实施方式所提出的数据处理方法,首先将采集到数据标准化以形成标准化训练数据及标准化测试数据并将标准化训练数据及标准化测试数据存储在本地节点;接着通过标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;进而训练完成的自动机器学习模型的表达式写入智能合约及通过智能合约将模型参数同步至区块链节点;其次读取本地节点的标准化测试数据;最后调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理,能够适应复杂场景,提高区块链的数据处理能力。
为了使得本申请更加容易理解,以下提供一个具体示例。
需要说明的是,本具体示例可以用于智能工厂中,从而推动智慧城市的建设。
对于单一机器学习算法难以适应不同工业场景缺失数据补充的问题,引入自动机器学习(AutoML)代替传统的机器学习,对于利用区块链技术传输存储节点数据难以处理缺失值的问题,将训练好的AutoML模型引入区块链的智能合约中,各节点通过调用智能合约可对数据进行预处理,从而实现区块链的数据智能化处理。
各类工业传感器设备采集数据,将采集到的数据进行标准化,将其划分为训练数据集与测试数据集,它们分别用于AutoML模型的训练与性能的评估。经训练获得的训练模型参数被写入智能合约,编译后被部署到区块链中。测试数据即实际工作中需存入区块链中的数据通过智能合约置入的规则(拟合参数),进行模型预测和数据拟合,补全缺失数据。
具体步骤如下:
S1,通过传感器上传,智能设备收集等方式收集数据,将收集到的数据进行标准化处理,形成用于训练的训练数据与用于测试的测试数据并存入到本地节点,此时的数据为标准化数据,而且并没有存入区块链。
S2,将步骤S1中的用于训练的标准化数据存入区块链,实现本地数据与区块链数据的交互,从存储层确保数据不可篡改;
S3,利用步骤S2中的数据训练AutoML模型,将训练完成的模型及参数存储到本地节点,以免重复训练所造成的计算资源浪费,此时的模型系数并没有存入区块链;
S4,首先将模型算法表达式写入智能合约,然后将步骤S3得到的参数通过调用智能合约存入区块链
S5,读取存储在本地的标准化测试数据,这里的数据的是待处理数据,调用步骤S4中的嵌入了机器学习算法的智能合约对标准化测试数据进行预处理;
S6,将处理后的数据存入区块链。
在本具体示例中,通过区块链技术和AutoML技术协同来完成在节点上的数据预处理。本申请能够很好的将AutoML与区块链相结合,使用区块链存储,解决了传统的数据上传存储与处理方法依赖于中心化数据库的信任问题。数据存储数据处理放在区块链中完成,利用区块链的不可篡改特点很好的提高了数据存储准确安全性以及数据处理的安全性。在区块链的智能合约中加入AutoML算法,使得该方法能适应复杂场景,提高区块链的数据处理能力。最终实现区块链的数据智能化处理。本具体示例可行性高,可靠性强,解决了传统的数据上传存储与处理方法依赖于中心化数据库的信任问题,提高了区块链的数据挖掘能力。提高了数据存储准确安全性以及数据处理的安全性,最终实现区块链的数据智能化处理。
基于上述实施例一种提供的数据预处理方法,本实施例中提供一种数据预处理系统,具体地,图2示出了该数据预处理系统的可选的功能模块示意图,该数据预处理系统被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请。本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令指令段,比程序本身更适合描述数据预处理系统在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图2所示,数据预处理系统由收集模块201、自动机器学习模块202、区块链模块203组成,其中:
收集模块201,用于收集外部采集设备采集到的数据,还用于将收集到的数据标准化以形成标准化训练数据及标准化测试数据并存储在本地节点。。
具体地,所述外部采集设备可以为各类工业传感器及智能设备,收集模块201收集所述各类工业传感器及智能设备采集到的数据。不同采集设备采集到的数据结构不同,因此收集模块201收集到的数据结构多样化。
在本实施方式中,针对数据结构多样化,收集模块201将收集到的数据进行标准化以生成标准化测试数据及标准化训练数据。详细而言,主要是对数据结构化整理,对于连续数据会缩放到[0,1]之间,类别数据会使用数据编码,便于自动机器学习算法的训练和预测,对于缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。标准化训练数据及标准化测试数据存入本地节点,同时,将训练的标准化数据存入区块链,实现本地数据与区块链数据的交互,并且利用区块链的不可篡改性:区块链中的每一笔数据一旦写入就不可以再改动,从存储层确保数据不被篡改。
详细而言,将训练的标准化数据上传至区块链中:基于训练的标准化数据得到对应的摘要信息,具体来说,摘要信息由训练的标准化数据进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证训练的标准化数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包括了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
自动机器学习模块202,用于接收所述标准化训练数据,并利用标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
具体地,自动机器学习模块202预先创建有自动机器学习模型,并利用标准化训练数据训练自动机器学习模型,进而生成训练完成的自动机器学习模型及模型参数。收集模块201还通过本地节点存储训练完成的自动机器学习模型及模型参数。
区块链模块203,用于将训练完成的自动机器学习模型的表达式写入智能合约,通过智能合约同步将所述模型参数至区块链节点,用于读取本地节点的标准化测试数据并调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
具体地,区块链模块203还用于将标准化训练数据同步至区块链节点,自动机器学习模块202还利用存储在区块链节点的标准化训练数据训练自动机器学习模型,保证数据的准确安全性。
在本实施方式中,区块链模块203,还用于通过写入训练完成的自动机器学习模型的表达式的智能合约判断标准化测试数据是否有数据缺失,若有数据缺失,补全缺失数据;同时处理后的标准化测试数据同步至区块链节点。通过区块链技术和自动机器学习技术协同完成在节点上的数据预处理。通过区块链存储,解决了传统的解决了传统的数据上传存储与处理方法依赖于中心化数据库的信任问题。数据存储数据处理放在区块链中完成,利用区块链的不可篡改特点很好的提高了数据存储准确安全性以及数据处理的安全性。在区块链的智能合约中加入训练完成的自动机器学习模型,使得该系统能适应复杂场景,提高区块链的数据处理能力,最终实现区块链的数据智能化处理。
本实施方式所提出的数据处理系统200,通过收集模块收集数据并进行标准化处理形成标准化训练数据及标准化测试数据;进而通过自动机器学习模块利用标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;接着将训练完成的自动机器学习模型的表达式写入智能合约,模型参数通过智能合约同步至区块链节点,通过区块链模块读取本地节点的标准化测试数据并调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理,能够适应复杂场景,提高区块链的数据处理能力。
本申请还提出一种计算机设备,参阅图3所示,是本申请适于实现数据处理方法的计算机设备的硬件架构示意图。
本实施方式中,计算机设备300是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,计算机设备300至少包括但不限于:可通过系统总线相互通信链接存储器310、处理器320、网络接口330。其中:
存储器310至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器310可以是计算机设备300的内部存储模块,例如该计算机设备300的硬盘或内存。在另一些实施例中,存储器310也可以是计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器310还可以既包括计算机设备400的内部存储模块也包括其外部存储设备。本实施例中,存储器310通常用于存储安装于计算机设备300的操作系统和各类应用软件,例如数据预处理方法的程序代码等。此外,存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器320在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制计算机设备300的总体操作,例如执行与计算机设备300进行数据交互或者通信相关的控制和处理等。本实施例中,处理器320用于运行存储器310中存储的程序代码或者处理数据。
网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在计算机设备300与其他计算机设备之间建立通信链接。例如,网络接口330用于通过网络将计算机设备300与外部终端相连,在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件310-330的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器310中的数据处理方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器320)所执行,以完成本申请。
本申请还提供一种可读存储介质,可读存储介质其上存储有计算机可读指令,计算机可读指令被处理器执行时实现以下步骤:
将采集到数据标准化以形成标准化训练数据及标准化测试数据;
将标准化训练数据及标准化测试数据存储在本地节点;
通过标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
训练完成的自动机器学习模型的表达式写入智能合约;
通过智能合约将模型参数同步至区块链节点;
读取本地节点的标准化测试数据;
调用写入训练完成的自动机器学习模型的表达式的智能合约对标准化测试数据进行预处理。
本实施例中,所述计算机可读存储介质可以是非易失性,也可以是易失性。计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的数据预处理方法的程序代码等。此外,可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
上述本申请实施方式序号仅仅为了描述,不代表实施方式的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方式方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,移动终端,空调器,或者网络设备等)执行本申请各个实施方式的方法。
以上仅为本申请的优选实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (19)

  1. 一种数据预处理方法,其中,所述方法包括:
    将收集到数据标准化以形成标准化训练数据及标准化测试数据;
    将所述标准化训练数据及所述标准化测试数据存储在本地节点;
    通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
    将训练完成的自动机器学习模型的表达式写入智能合约;
    通过智能合约将所述模型参数同步至区块链节点;
    读取所述本地节点的标准化测试数据;
    调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
  2. 如权利要求1的数据预处理方法,其中,所述调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理的步骤,具体包括:
    判断所述标准化测试数据是否有数据缺失;
    若所述标准化测试数据有缺失,补全缺失数据;
    将处理后的标准化测试数据同步至所述区块链节点。
  3. 如权利要求1的数据预处理方法,其中,所述通过标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数的步骤,包括:
    将所述标准化训练数据同步至区块链节点;
    利用存储在所述区块链节点的标准化训练数据训练所述自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
  4. 如权利要求1的数据预处理方法,其中,还包括如下步骤:
    存储所述训练完成的自动机器学习模型及模型参数至所述本地节点。
  5. 如权利要求1的数据预处理方法,其中,所述将收集到数据标准化以形成标准化训练数据及标准化测试数据的步骤,具体包括:
    将连续数据缩放到[0,1]之间,类别数据使用数据编码,便于自动机器学习算法的训练和预测;
    将缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。
  6. 一种数据预处理系统,其中,所述系统包括:
    收集模块,用于收集外部采集设备采集到的数据,还用于将收集到的数据标准化以形成标准化训练数据及标准化测试数据并存储在本地节点;
    自动机器学习模块,用于利用所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
    区块链模块,用于将所述训练完成的自动机器学习模型的表达式写入智能合约,通过所述智能合约将所述模型参数同步至区块链节点,还用于读取所述本地节点的标准化测试数据并调用写入所述训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
  7. 如权利要求6的数据预处理系统,其中,所述区块链模块还用于:
    通过所述写入所述训练完成的自动机器学习模型的表达式的智能合约判断所述标准化测试数据是否有数据缺失,若有数据缺失,补全缺失数据;
    将处理后的标准化测试数据同步至所述区块链节点。
  8. 如权利要求6的数据预处理系统,其中,
    所述区块链模块,还用于将标准化训练数据同步至所述区块链节点;
    所述自动机器学习模块,还利用存储在所述区块链节点的标准化训练数据训练所述自动机器学习模型。
  9. 如权利要求6的数据预处理系统,其中,
    所述收集模块,还用于通过所述本地节点存储所述训练完成的自动机器学习模型及所述模型参数。
  10. 如权利要求1的数据预处理系统,其中,所述收集模块还用于:
    将连续数据缩放到[0,1]之间,类别数据使用数据编码,便于自动机器学习算法的训练和预测;
    将缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。
  11. 一种计算机设备,其中,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
    将收集到数据标准化以形成标准化训练数据及标准化测试数据;
    将所述标准化训练数据及所述标准化测试数据存储在本地节点;
    通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
    将训练完成的自动机器学习模型的表达式写入智能合约;
    通过智能合约将所述模型参数同步至区块链节点;
    读取所述本地节点的标准化测试数据;
    调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
  12. 如权利要求11的计算机设备,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    判断所述标准化测试数据是否有数据缺失;
    若所述标准化测试数据有缺失,补全缺失数据;
    将处理后的标准化测试数据同步至所述区块链节点。
  13. 如权利要求11的计算机设备,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    将所述标准化训练数据同步至区块链节点;
    利用存储在所述区块链节点的标准化训练数据训练所述自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
  14. 如权利要求11的计算机设备,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    存储所述训练完成的自动机器学习模型及模型参数至所述本地节点。
  15. 如权利要求11的计算机设备,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    将连续数据缩放到[0,1]之间,类别数据使用数据编码,便于自动机器学习算法的训练和预测;
    将缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。
  16. 一种计算机可读存储介质,其中,所述计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    将收集到数据标准化以形成标准化训练数据及标准化测试数据;
    将所述标准化训练数据及所述标准化测试数据存储在本地节点;
    通过所述标准化训练数据训练自动机器学习模型以生成训练完成的自动机器学习模型及模型参数;
    将训练完成的自动机器学习模型的表达式写入智能合约;
    通过智能合约将所述模型参数同步至区块链节点;
    读取所述本地节点的标准化测试数据;
    调用写入训练完成的自动机器学习模型的表达式的智能合约对所述标准化测试数据进行预处理。
  17. 如权利要求16的计算机可读存储介质,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    判断所述标准化测试数据是否有数据缺失;
    若所述标准化测试数据有缺失,补全缺失数据;
    将处理后的标准化测试数据同步至所述区块链节点。
  18. 如权利要求16的计算机可读存储介质,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    将所述标准化训练数据同步至区块链节点;
    利用存储在所述区块链节点的标准化训练数据训练所述自动机器学习模型以生成训练完成的自动机器学习模型及模型参数。
    19如权利要求16的计算机可读存储介质,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    存储所述训练完成的自动机器学习模型及模型参数至所述本地节点。
  19. 如权利要求16的计算机可读存储介质,其中,所述计算机可读指令还可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    将连续数据缩放到[0,1]之间,类别数据使用数据编码,便于自动机器学习算法的训练和预测;
    将缺失数据补充为-1,形成用于训练的训练数据和用于测试的测试数据。
PCT/CN2020/111629 2020-07-30 2020-08-27 数据预处理系统、方法、计算机设备及可读存储介质 WO2021174779A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010752209.9 2020-07-30
CN202010752209.9A CN111882074A (zh) 2020-07-30 2020-07-30 数据预处理系统、方法、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
WO2021174779A1 true WO2021174779A1 (zh) 2021-09-10

Family

ID=73205772

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/111629 WO2021174779A1 (zh) 2020-07-30 2020-08-27 数据预处理系统、方法、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111882074A (zh)
WO (1) WO2021174779A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629098A (zh) * 2023-04-23 2023-08-22 江苏高智电力设计咨询有限公司 一种电力设计的设计校验系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595185A (zh) * 2018-04-11 2018-09-28 暨南大学 一种将以太坊智能合约转换成超级账本智能合约的方法
CN109615015A (zh) * 2018-12-18 2019-04-12 北京工业大学 一种基于区块链智能合约与机器学习的数据预处理方法
CN109684861A (zh) * 2019-01-11 2019-04-26 阳光电源股份有限公司 基于区块链的能源数据存储方法、系统及数据审核中心
CN110490305A (zh) * 2019-08-22 2019-11-22 腾讯科技(深圳)有限公司 基于区块链网络的机器学习模型处理方法及节点
US10528890B1 (en) * 2019-07-24 2020-01-07 Kpmg Llp Blockchain-based training data management system and method for trusted model improvements

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370634A1 (en) * 2018-06-01 2019-12-05 International Business Machines Corporation Data platform to protect security of data used by machine learning models supported by blockchain

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595185A (zh) * 2018-04-11 2018-09-28 暨南大学 一种将以太坊智能合约转换成超级账本智能合约的方法
CN109615015A (zh) * 2018-12-18 2019-04-12 北京工业大学 一种基于区块链智能合约与机器学习的数据预处理方法
CN109684861A (zh) * 2019-01-11 2019-04-26 阳光电源股份有限公司 基于区块链的能源数据存储方法、系统及数据审核中心
US10528890B1 (en) * 2019-07-24 2020-01-07 Kpmg Llp Blockchain-based training data management system and method for trusted model improvements
CN110490305A (zh) * 2019-08-22 2019-11-22 腾讯科技(深圳)有限公司 基于区块链网络的机器学习模型处理方法及节点

Also Published As

Publication number Publication date
CN111882074A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
WO2021189899A1 (zh) 链路状态的追踪方法、装置、电子设备及计算机存储介质
WO2020082611A1 (zh) 基于区块链平台进行深度学习的方法、电子装置
CN108449313B (zh) 电子装置、互联网服务系统风险预警方法及存储介质
WO2020042503A1 (zh) 风控系统的验证方法、装置、设备及存储介质
CN110309123A (zh) 数据库操作的处理方法、装置、计算机设备及存储介质
CN112559635B (zh) 以太坊联盟链节点的业务处理方法、装置、设备及介质
CN110162344A (zh) 一种隔离限流的方法、装置、计算机设备及可读存储介质
CN112506486A (zh) 搜索系统建立方法、装置、电子设备及可读存储介质
CN108833592A (zh) 云主机调度器优化方法、装置、设备及存储介质
CN111291022A (zh) 一种基于区块链的数据存储系统
WO2021174779A1 (zh) 数据预处理系统、方法、计算机设备及可读存储介质
CN114844792A (zh) 基于lua语言的动态监控方法、装置、设备及存储介质
CN116302580B (zh) 纳米继电器算力资源调度方法及装置
CN108256986A (zh) 基于云计算的薪资计算方法、应用服务器及计算机可读存储介质
CN115471215B (zh) 一种业务流程处理方法及装置
CN116860856A (zh) 一种财务数据处理方法、装置、计算机设备及存储介质
CN110674150A (zh) 一种bmc设置策略更新方法和设备
CN116302328A (zh) 智能合约数据处理方法和系统
CN111435356A (zh) 数据特征提取方法、装置、计算机设备以及存储介质
CN110908644B (zh) 状态节点的配置方法、装置、计算机设备和存储介质
CN113918296A (zh) 模型训练任务调度执行方法、装置、电子设备及存储介质
CN114186976A (zh) 工作流程流转方法、装置、计算机设备及存储介质
CN114461531A (zh) 测试用例的平台适应性测试方法、装置、设备及存储介质
CN114170700A (zh) 一种考勤方法及装置
CN112732925A (zh) 基于图谱的确定投资数据的方法、存储介质及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20923580

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20923580

Country of ref document: EP

Kind code of ref document: A1