WO2017193769A1

WO2017193769A1 - 机器学习模型之间进行转换的方法与设备

Info

Publication number: WO2017193769A1
Application number: PCT/CN2017/080844
Authority: WO
Inventors: 梅鹍; 安春霖; 程大伟; 刘汪根
Original assignee: 星环信息科技（上海）有限公司
Priority date: 2016-05-11
Filing date: 2017-04-18
Publication date: 2017-11-16
Also published as: CN106022483A; CN106022483B

Abstract

一种单机机器学习模型与分布式机器学习模型之间进行转换的方法与设备。与现有技术相比，该方法获取模型训练参数信息，并对其进行数据类型转换或描述文件解析，然后根据所述模型训练参数信息训练出分布式机器学习模型（S13），再将所述分布式机器学习模型转换为单机机器学习模型（S14）；该方法还获取单机机器学习模型（S26），提取出所述单机机器学习模型参数信息，对所述单机机器学习模型参数信息进行数据类型转换或描述文件解析，然后根据所述单机机器学习模型构造分布式机器学习模型（S28）。该方法可实现单机机器学习模型与分布式机器学习模型之间的相互转换，大大增加了两者之间的兼容性。

Description

机器学习模型之间进行转换的方法与设备

技术领域

本申请涉及计算机领域，尤其涉及一种单机机器学习模型与分布式机器学习模型之间进行转换的技术。

背景技术

R语言主要用于统计分析、绘图和数据挖掘，提供了很多第三方包用于数据分析和数据挖掘。Python语言是计算领域科学家开发的，可以运用到统计学和数据挖掘领域，也提供了很多用于机器学习的函数库。然而在大数据时代，面对海量数据处理，由于R语言和python语言的核心运行环境是单线程的，只能局限在处理单机能负载的数据量，无法对大数据量进行处理。而Spark(其提供了一个抽象的分布式数据集RDD，使编程模型更加灵活和高效，能够充分利用内存来提升性能)作为高效的分布式计算平台，可以很好地弥补R和python的可伸缩性问题。在此背景下，SparkR和pyspark应运而生。SparkR是往Spark中增加R语言API和运行时的支持，其主要包括两个部分：SparkR包和JVM后端。SparkR包是一个R的扩展包，安装之后，在R的运行环境里提供了RDD和DataFrame API。JVM后端是Spark Core中的一个组件，提供了R解释器和JVM虚拟机之间的桥接功能，能够让R代码创建Java类的实例、调用Java对象的实例方法或者Java类的静态方法。Pyspark是往Spark中增加python语言API的支持。其主要是通过Py4J，用于本地python语言和java SparkContext objects的通信。

然而，目前SparkR和Pyspark技术都存在缺陷。SparkR主要有两方面的缺陷。一方面是SparkR RDD API的实现相比原生的Scala RDD API来说性能有所下降，主要是因为在调用SparkR RDD API的时候，要启动R worker进程，将分区数据传给R worker，R worker再将结果返回。另外分区数据的序列化和反序列化也会增加时间开销，带来性能下降。另一方面是SparkR对R数据类型以及R原生机器学习模型的支持还不是很完善。这导致R原生单机机器学习模型和Spark原生机器学习模型之间不能相互通用，这一点大大影响了SparkR的可用性。Pyspark也有两方面的缺陷。一方面是数据和代码传输的时候会启动Py4J和spark work进程，数据和函数的序列化和反序列化会增加时间开销，带来性能下降。另一方面是pyspark不能实现python原生单机机器学习模型和spark原生机器学习模型之间的通用。

发明内容

本申请的一个目的是提供一种单机机器学习模型与分布式机器学习模型之间进行转换的方法与设备。

根据本申请的一个方面，提供了一种用于将分布式机器学习模型转换为单机机器学习模型的方法，其中，该方法包括：

获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；

若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；

根据所述模型训练参数信息，训练出分布式机器学习模型；

将所述分布式机器学习模型转换为单机机器学习模型。

根据本申请的另一个方面，还提供了一种用于将单机机器学习模型转换为分布式机器学习模型的方法，其中，该方法包括：

获取单机机器学习模型；

提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；

根据所述单机机器学习模型构造分布式机器学习模型；

根据所述分布式机器学习模型对分布式训练数据进行预测。

根据本申请的又一个方面，还提供了一种用于将分布式机器学习模型转换为单机机器学习模型的第一设备，其中，该设备包括：

第一装置，用于获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；

第二装置，用于若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；

第三装置，用于根据所述模型训练参数信息，训练出分布式机器学习模型；

第四装置，用于将所述分布式机器学习模型转换为单机机器学习模型。

根据本申请的再一个方面，还提供了一种用于将单机机器学习模型转换为分布式机器学习模型的第二设备，其中，该设备包括：

第六装置，用于获取单机机器学习模型；

第七装置，用于提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；

第八装置，用于根据所述单机机器学习模型构造分布式机器学习模型；

第九装置，用于根据所述分布式机器学习模型对分布式训练数据进行预测。

根据本申请的另一个方面，还提供了一种单机机器学习模型与分布式机器学习模型之间进行转换的第三设备，其中，该设备包括如上所述的第一设备，以及如上所述的第二设备。

与现有技术相比，本申请获取模型训练参数信息，并对其进行数据类型转换或描述文件解析，然后根据所述模型训练参数信息训练出分布式机器学习模型，再将所述分布式机器学习模型转换为单机机器学习模型；本申请还获取单机机器学习模型，提取出所述单机机器学习模型参数信息，对所述单机机器学习模型参数信息进行数据类型转换或描述文件解析，然后根据所述单机机器学习模型构造分布式机器学习模型；本申请可实现单机机器学习模型与分布式机器学习模型之间的相互转换，大大增加了两者之间的兼容性。进一步地，本申请可实现R或者python等单机语言原生的单机机器学习模型与基于Java、Scala等语言的分布式机器学习模型之间的相互转换，同时本申请在进行转换时不需要启动本地进行类型转换的work进程和分布式进程，减少了时间的开销，提高了性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于将分布式机器学习模型转换为单机机器学习模型的方法流程图；

图2示出根据本申请另一个方面的一种用于将单机机器学习模型转换为分布式机器学习模型的方法流程图；

图3示出根据本申请又一个方面的一种用于将分布式机器学习模型转换为单机机器学习模型的第一设备示意图；

图4示出根据本申请再一个方面的一种用于将单机机器学习模型转换为分布式机器学习模型的第二设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种用于将分布式机器学习模型转换为单机机器学习模型的方法流程图。

该方法包括步骤S11、步骤S12、步骤S13和步骤S14。具体地，在步骤S11中，第一设备1获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；在步骤S12中，第一设备1若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；在步骤S13中，第一设备1根据所述模型训练参数信息，训练出分布式机器学习模型；在步骤S14中，第一设备1将所述分布式机器学习模型转换为单机机器学习模型。

在此，所述第一设备1包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、平板电脑、笔记本电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，第一设备1还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然，本领域技术人员应能理解上述第一设备1仅为举例，其他现有的或今后可能出现的第一设备1如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在步骤S11中，第一设备1获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据。

在此，所述分布式训练数据用于训练出分布式机器学习模型。相应地，单机训练数据用于训练出单机机器学习模型。通常情况下，针对本地少量的预测数据利用所述单机机器学习模型进行预测，针对分布式存储的大量预测数据利用所述分布式机器学习模型进行预测。

优选地，在步骤S11中，第一设备1获取基于第一语言的模型训练参数信息。

在此，所述第一语言包括但不限于R语言、Python语言等。其中，R是用于统计分析、绘图的语言和操作环境，Python是一种面向对象、解释型计算机程序设计语言。所述模型训练参数信息可以是描述文件的格式，如JSON格式的数据描述文件，XML格式或PMML格式的模型描述文件；所述模型训练参数信息也可以是函数参数的形式。

其中，JSON是一种轻量级的数据交换语言，定义了一种轻量级的数据交换格式。XML是一种类似于HTML的扩展性标识语言，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据和定义数据类型等。PMML是一种事实标准语言，用于呈现数据挖掘模型。

例如，若所述模型训练参数信息为函数参数的形式，当获取基于R语言或者python语言的模型训练参数信息，所述分布式训练数据作为分布式机器学习模型训练函数的一个参数传入。

优选地，在步骤S11中，第一设备1获取用户设备发送的模型训练参数信息。

例如，用户可在用户设备(例如笔记本电脑等)上的R语言开发环境中编写R语言脚本，或者在python语言开发环境中编写python语言脚本。其中，所述R语言脚本和所述python语言脚本包括所述模型训练参数信息。然后，用户可通过所述用户设备向所述第一设备1发送所述R语言脚本或所述 python语言脚本。

在步骤S12中，第一设备1若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换。

例如，若所述模型训练参数信息为描述文件的格式，将基于第一语言的所述模型训练参数信息解析为基于第二语言的所述模型训练参数信息；若所述模型训练参数信息为函数参数的形式，将基于第一语言的所述模型训练参数信息转换为基于第二语言的所述模型训练参数信息。在此，通过数据类型转换或者描述文件解析来达到此目的。

优选地，在步骤S12中，第一设备1利用所述第一语言与第二语言的语言转换工具对所述模型训练参数信息进行数据类型转换，以获得基于所述第二语言的所述模型训练参数信息；或者，利用描述文件解析工具对所述模型训练参数信息进行描述文件解析，以获得基于所述第二语言的所述模型训练参数信息。

在此，所述第二语言包括但不限于Java语言、Scala语言等，所述语言转换工具包括但不限于rJava，所述描述文件解析工具包括但不限于xml文件解析、json数据格式解析和PMML文件解析等。其中，Java是一种可以撰写跨平台应用程序的面向对象的程序设计语言；Scala是一门多范式的编程语言，一种类似Java的编程语言；rJava是一个R语言和Java语言的通信接口，通过底层JNI(Java Native Interface，Java本地接口)实现调用，允许在R中直接调用Java的对象和方法。rJava还提供了Java调用R的功能，是通过JRI(Java/R Interface)实现的。正是由于rJava是底层接口，并使用JNI作为接口调用，所以效率非常高。

例如，若所述模型训练参数信息为函数参数的形式，可利用rJava对所述模型训练参数信息进行数据类型转换，将所述模型训练参数信息转换为Java、Scala语言可识别的参数。若所述模型训练参数信息为描述文件的格式，可以利用xml文件解析工具、json文件解析工具或PMML文件解析工具对模型数据描述文件进行解析，将其解析为Java、Scala语言可识别的参数信息。

当然，本领域技术人员应能理解上述第一语言、第二语言、语言转换工具和文件解析工具仅为举例，其他现有的或今后可能出现的第一语言、第二语言、语言转换工具和文件解析工具如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在步骤S13中，第一设备1根据所述模型训练参数信息，训练出分布式机器学习模型。

例如，若所述模型训练参数信息为函数参数的形式，可通过rJava将数据类型转换后的Java、Scala语言可识别的参数，传给底层机器学习库定义好的分布式函数接口，训练出分布式机器学习模型。主要是利用rJava的J函数，用法为J("类名"，"函数方法"，参数一，参数二,...)，其中，一个“函数方法”对应一种训练出分布式机器学习模型的训练函数，J函数起调用Java函数方法的作用。在此，可通过多种分布式机器学习模型的训练函数相应地训练出多种分布式机器学习模型。

再例如，若所述模型训练参数信息为描述文件的格式，可通过xml文件解析、JSON文件解析工具或者PMML文件解析工具将数据类型解析为Java、Scala语言可以识别的参数信息，传给底层机器学习库定义好的分布式函数接口，训练出分布式机器学习模型。

在步骤S14中，第一设备1将所述分布式机器学习模型转换为单机机器学习模型。

例如，所述分布式机器学习模型主要用于对云端分布式存储的大量预测数据进行预测，所述单机机器学习模型主要用于对用户设备端本地少量的预测数据进行预测。

优选地，在步骤S14中，第一设备1将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。

例如，将基于Java或Scala等所述第二语言描述的所述分布式机器学习模型转换为基于R或Python等所述第一语言描述的所述单机机器学习模型。

优选地，在步骤S14中，第一设备1利用所述语言转换工具或所述描述文件解析工具将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。

例如，若所述模型训练参数信息为函数参数的形式，可通过rJava将基于 Java或Scala等语言描述的所述分布式机器学习模型转换为基于R语言描述的所述单机机器学习模型。若所述模型训练参数信息为描述文件的格式，可以利用xml文件解析工具、json文件解析工具或者PMML文件解析工具等所述描述文件解析工具将所述分布式机器学习模型转换为基于R或者Python等所述第一语言的单机机器学习模型。

更优选地，在步骤S14中，第一设备1提取出所述分布式机器学习模型参数信息；若所述分布式机器学习模型参数信息为描述文件的格式，则利用所述描述文件解析工具对所述分布式机器学习模型参数信息进行描述文件解析，否则，利用所述语言转换工具对所述分布式机器学习模型参数信息进行数据类型转换，以获得基于所述第一语言的机器学习模型参数信息；根据所述机器学习模型参数信息构造基于所述第一语言的单机机器学习模型。

例如，若所述模型训练参数信息为函数参数的形式，可提取出所述分布式机器学习模型参数信息，然后通过rJava对其进行数据类型转换，将基于Java或Scala等语言描述的所述分布式机器学习模型参数信息转换为基于R或Python等语言描述的模型参数信息，再根据基于R或Python等语言描述的模型参数信息构造出基于R或Python等语言描述的单机机器学习模型。

再例如，若所述模型训练参数信息为描述文件的格式，可提取出所述分布式机器学习模型的模型描述文件，然后利用xml文件解析工具、json文件解析工具或者PMML文件解析工具对模型描述文件进行解析，将利用xml或者json描述的模型转换为基于R或者python等语言描述的模型参数信息，再根据所述模型参数信息构造出基于R或者python等所述第一语言描述的单机机器学习模型。

优选地，所述方法还包括：第一设备1将所述单机机器学习模型返回至所述用户设备。

例如，将所述单机机器学习模型返回至所述用户设备，用于对所述用户设备端本地少量的预测数据进行预测。具体地，可通过调用所述单机机器学习模型自带的predict(预测)函数对所述用户设备端本地少量的预测数据进行预测。

图2示出根据本申请另一个方面的一种用于将单机机器学习模型转换为分布式机器学习模型的方法流程图。该方法包括步骤S26、步骤S27、步骤S28和步骤S29。具体地，在步骤S26中，第二设备2获取单机机器学习模型；在步骤S27中，第二设备2提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；在步骤S28中，第二设备2根据所述单机机器学习模型构造分布式机器学习模型；在步骤S29中，第二设备2根据所述分布式机器学习模型对分布式训练数据进行预测。

在此，所述第二设备2包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、平板电脑、笔记本电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，第二设备2还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然，本领域技术人员应能理解上述第二设备2仅为举例，其他现有的或今后可能出现的第二设备2如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在步骤S26中，第二设备2获取单机机器学习模型。

例如，所述单机机器学习模型根据用户设备端本地的单机训练数据训练得到，在此，获取用户设备发送的所述单机机器学习模型。相应地，分布式机器学习模型根据分布式训练数据训练得到。通常情况下，针对本地少量的预测数据利用所述单机机器学习模型进行预测，针对分布式存储的大量预测数据利用所述分布式机器学习模型进行预测。

优选地，在步骤S26中，第二设备2获取基于第一语言的单机机器学习模型。

在此，所述第一语言包括但不限于R语言、Python语言等。其中，R是用于统计分析、绘图的语言和操作环境，Python是一种面向对象、解释型计算机程序设计语言。

例如，所述基于第一语言的单机机器学习模型可以是基于R或Python等语言描述的单机机器学习模型。

在步骤S27中，第二设备2提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换。

例如，在根据所述单机机器学习模型构造分布式机器学习模型之前，首先提取出所述单机机器学习模型参数信息。其中，所述单机机器学习模型参数信息可以是描述文件的格式，如JSON格式的数据描述文件，XML格式或PMML格式的模型描述文件；所述单机机器学习模型参数信息也可以是函数参数的形式。若所述单机机器学习模型参数信息为描述文件的格式，则对其进行描述文件解析；若所述单机机器学习模型参数信息为函数参数的形式，则对其进行数据类型转换。

在此，JSON是一种轻量级的数据交换语言，定义了一种轻量级的数据交换格式。XML是一种类似于HTML的扩展性标识语言，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据和定义数据类型等。PMML是一种事实标准语言，用于呈现数据挖掘模型。

优选地，在步骤S27中，第二设备2利用所述第一语言与第二语言的语言转换工具对所述单机机器学习模型参数信息进行数据类型转换，以获得基于所述第二语言的机器学习模型参数信息；或者，利用描述文件解析工具对所述单机机器学习模型参数信息进行描述文件解析，以获得基于所述第二语言的机器学习模型参数信息。

在此，所述第二语言包括但不限于Java语言、Scala语言等，所述语言转换工具包括但不限于rJava。其中，Java是一种可以撰写跨平台应用程序的面向对象的程序设计语言；Scala是一门多范式的编程语言，一种类似Java的编程语言；rJava是一个R语言和Java语言的通信接口，通过底层JNI(Java Native Interface，Java本地接口)实现调用，允许在R中直接调用Java的对象和方法。rJava还提供了Java调用R的功能，是通过JRI(Java/R Interface)实现的。正是由于rJava是底层接口，并使用JNI作为接口调用，所以效率非常高。

例如，若所述单机机器学习模型参数信息为函数参数的形式，可提取出所述单机机器学习模型参数信息，然后通过rJava对模型参数信息进行数据类型转换，将基于R语言描述的模型参数信息转换为基于Java或Scala等语言描述的模型参数信息。

再例如，若所述单机机器学习模型参数信息为描述文件的格式，可提取出所述单机机器学习模型的描述文件，然后通过xml文件解析工具、JSON文件解析工具或者PMML文件解析工具将模型描述文件转换成基于Java或者Scala等语言描述的模型参数信息。

在步骤S28中，第二设备2根据所述单机机器学习模型构造分布式机器学习模型。

例如，可通过rJava调用分布式机器模型的构造函数，得到分布式机器学习模型。主要是利用rJava的.jnew函数，用法为.jnew("模型类名"，参数一，参数二，...)，其中，一个“模型类名”对应一种分布式机器学习模型的Java类名，.jnew函数起创建一个Java对象的作用，该对象即是分布式机器学习模型。在此，可通过多种分布式机器学习模型的构造函数相应地构造出多种分布式机器学习模型。

优选地，在步骤S28中，第二设备2根据所述机器学习模型参数信息构造基于所述第二语言的分布式机器学习模型。

例如，可以根据基于Java或Scala等语言描述的所述机器学习模型参数信息构造出基于Java或Scala等语言描述的分布式机器学习模型。

再例如，还可以根据基于Java或者Scala等语言描述的所述机器学习模型xml描述文件，JSON描述文件和PMML描述文件等，利用相对应的文件解析工具构造出基于Java或者Scala等语言描述的分布式机器学习模型。

在步骤S29中，第二设备2根据所述分布式机器学习模型对分布式训练数据进行预测。

例如，将所述分布式机器学习模型用于对云端分布式存储的大量预测数据进行预测。具体地，可通过调用所述分布式机器学习模型的预测函数，对所述分布式训练数据进行预测。主要是利用model$predict函数，用法为model$predict(data,...)，其中，model是指所述分布式机器学习模型，predict是指所述分布式机器学习模型的预测函数，data是指所述分布式训练数据。

优选地，所述方法还包括：第二设备2获取用户设备发送的分布式训练数据。

例如，用户设备可通过数据提取函数得到存储在分布式存储介质或者分布式数据库中的所述分布式训练数据，然后用户设备将所述分布式训练数据发送至第二设备2。

图3示出根据本申请又一个方面的一种用于将分布式机器学习模型转换为单机机器学习模型的第一设备1，其中，第一设备1包括第一装置11、第二装置12、第三装置13和第四装置14。

具体地，所述第一装置11获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；所述第二装置12若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；所述第三装置13根据所述模型训练参数信息，训练出分布式机器学习模型；所述第四装置14将所述分布式机器学习模型转换为单机机器学习模型。

所述第一装置11获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据。

优选地，所述第一装置11获取基于第一语言的模型训练参数信息。

优选地，所述第一装置11获取用户设备发送的模型训练参数信息。

例如，用户可在用户设备(例如笔记本电脑等)上的R语言开发环境中编写R语言脚本，或者在python语言开发环境中编写python语言脚本。其中，所述R语言脚本和所述python语言脚本包括所述模型训练参数信息。然后，用户可通过所述用户设备向所述第一设备1发送所述R语言脚本或所述python语言脚本。

所述第二装置12若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换。

优选地，所述第二装置12利用所述第一语言与第二语言的语言转换工具对所述模型训练参数信息进行数据类型转换，以获得基于所述第二语言的所述模型训练参数信息；或者，利用描述文件解析工具对所述模型训练参数信息进行描述文件解析，以获得基于所述第二语言的所述模型训练参数信息。

所述第三装置13根据所述模型训练参数信息，训练出分布式机器学习模型。

所述第四装置14将所述分布式机器学习模型转换为单机机器学习模型。

优选地，所述第四装置14将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。

优选地，所述第四装置14利用所述语言转换工具或所述描述文件解析工具将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。

例如，若所述模型训练参数信息为函数参数的形式，可通过rJava将基于Java或Scala等语言描述的所述分布式机器学习模型转换为基于R语言描述的所述单机机器学习模型。若所述模型训练参数信息为描述文件的格式，可以利用xml文件解析工具、json文件解析工具或者PMML文件解析工具等所述描述文件解析工具将所述分布式机器学习模型转换为基于R或者Python等所述第一语言的单机机器学习模型。

更优选地，所述第四装置14提取出所述分布式机器学习模型参数信息；若所述分布式机器学习模型参数信息为描述文件的格式，则利用所述描述文件解析工具对所述分布式机器学习模型参数信息进行描述文件解析，否则，利用所述语言转换工具对所述分布式机器学习模型参数信息进行数据类型转换，以获得基于所述第一语言的机器学习模型参数信息；根据所述机器学习模型参数信息构造基于所述第一语言的单机机器学习模型。

优选地，所述第一设备1还包括第五装置(图中未示出)；所述第五装置将所述单机机器学习模型返回至所述用户设备。

图4示出根据本申请再一个方面的一种用于将单机机器学习模型转换为分布式机器学习模型的第二设备2，其中，第二设备2包括第六装置26、第七装置27、第八装置28和第九装置29。

具体地，所述第六装置26获取单机机器学习模型；所述第七装置27提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；所述第八装置28根据所述单机机器学习模型构造分布式机器学习模型；所述第九装置29根据所述分布式机器学习模型对分布式训练数据进行预测。

所述第六装置26获取单机机器学习模型。

优选地，所述第六装置26获取基于第一语言的单机机器学习模型。

所述第七装置27提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换。

优选地，所述第七装置27利用所述第一语言与第二语言的语言转换工具对所述单机机器学习模型参数信息进行数据类型转换，以获得基于所述第二语言的机器学习模型参数信息；或者，利用描述文件解析工具对所述单机机器学习模型参数信息进行描述文件解析，以获得基于所述第二语言的机器学习模型参数信息。

所述第八装置28根据所述单机机器学习模型构造分布式机器学习模型。

优选地，所述第八装置28根据所述机器学习模型参数信息构造基于所述第二语言的分布式机器学习模型。

所述第九装置29根据所述分布式机器学习模型对分布式训练数据进行预测。

优选地，所述第二设备2还包括第十装置(图中未示出)；所述第十装置获取用户设备发送的分布式训练数据。

本申请还提供了一种单机机器学习模型与分布式机器学习模型之间进行转换的第三设备，其中，第三设备包括如上所述的第一设备1，以及如上所述的第二设备2。

在优选的实施例中，所述第三设备既可通过本申请一个方面所述方法将分布式机器学习模型转换为单机机器学习模型，也可通过本申请另一个方面所述方法将单机机器学习模型转换为分布式机器学习模型；即，所述第三设备可实现单机机器学习模型与分布式机器学习模型之间的双向转换。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种用于将分布式机器学习模型转换为单机机器学习模型的方法，其中，该方法包括：

获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；

若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；

根据所述模型训练参数信息，训练出分布式机器学习模型；

将所述分布式机器学习模型转换为单机机器学习模型。
根据权利要求1所述的方法，其中，所述获取模型训练参数信息包括：

获取基于第一语言的模型训练参数信息；

其中，所述将所述分布式机器学习模型转换为单机机器学习模型包括：

将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。
根据权利要求2所述的方法，其中，所述对所述模型训练参数信息进行数据类型转换包括：

利用所述第一语言与第二语言的语言转换工具对所述模型训练参数信息进行数据类型转换，以获得基于所述第二语言的所述模型训练参数信息；

其中，所述对所述模型训练参数信息进行描述文件解析包括：

利用描述文件解析工具对所述模型训练参数信息进行描述文件解析，以获得基于所述第二语言的所述模型训练参数信息。
根据权利要求3所述的方法，其中，所述将所述分布式机器学习模型转换为单机机器学习模型包括：

利用所述语言转换工具或所述描述文件解析工具将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。
根据权利要求4所述的方法，其中，所述将所述分布式机器学习模型转换为单机机器学习模型包括：

提取出所述分布式机器学习模型参数信息；

若所述分布式机器学习模型参数信息为描述文件的格式，则利用所述描述文件解析工具对所述分布式机器学习模型参数信息进行描述文件解析，否则，利用所述语言转换工具对所述分布式机器学习模型参数信息进行数据类型转换，以获得基于所述第一语言的机器学习模型参数信息；

根据所述机器学习模型参数信息构造基于所述第一语言的单机机器学习模型。
根据权利要求1所述的方法，其中，所述获取模型训练参数信息包括：

获取用户设备发送的模型训练参数信息；

其中，所述方法还包括：

将所述单机机器学习模型返回至所述用户设备。
一种用于将单机机器学习模型转换为分布式机器学习模型的方法，其中，该方法包括：

获取单机机器学习模型；

提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；

根据所述单机机器学习模型构造分布式机器学习模型；

根据所述分布式机器学习模型对分布式训练数据进行预测。
根据权利要求7所述的方法，其中，所述获取单机机器学习模型包括：

获取基于第一语言的单机机器学习模型。
根据权利要求8所述的方法，其中，所述对所述单机机器学习模型参数信息进行数据类型转换包括：

利用所述第一语言与第二语言的语言转换工具对所述单机机器学习模型参数信息进行数据类型转换，以获得基于所述第二语言的机器学习模型参数信息；

其中，所述对所述单机机器学习模型参数信息进行描述文件解析包括：

利用描述文件解析工具对所述单机机器学习模型参数信息进行描述文件解析，以获得基于所述第二语言的机器学习模型参数信息；

其中，所述根据所述单机机器学习模型构造分布式机器学习模型包括：

根据所述机器学习模型参数信息构造基于所述第二语言的分布式机器学习模型。
根据权利要求7至9中任一项所述的方法，其中，所述方法还包括：

获取用户设备发送的分布式训练数据。
一种用于将分布式机器学习模型转换为单机机器学习模型的第一设备，其中，该设备包括：

第一装置，用于获取模型训练参数信息，其中，所述模型训练参数信息包括分布式训练数据；

第二装置，用于若所述模型训练参数信息为描述文件的格式，则对所述模型训练参数信息进行描述文件解析，否则，对所述模型训练参数信息进行数据类型转换；

第三装置，用于根据所述模型训练参数信息，训练出分布式机器学习模型；

第四装置，用于将所述分布式机器学习模型转换为单机机器学习模型。
根据权利要求11所述的设备，其中，所述第一装置用于：

获取基于第一语言的模型训练参数信息；

其中，所述第二装置用于：

将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。
根据权利要求12所述的设备，其中，所述对所述模型训练参数信息进行数据类型转换包括：

利用所述第一语言与第二语言的语言转换工具对所述模型训练参数信息进行数据类型转换，以获得基于所述第二语言的所述模型训练参数信息；

其中，所述对所述模型训练参数信息进行描述文件解析包括：

利用描述文件解析工具对所述模型训练参数信息进行描述文件解析，以获得基于所述第二语言的所述模型训练参数信息。
根据权利要求13所述的设备，其中，所述第四装置用于：

利用所述语言转换工具或所述描述文件解析工具将所述分布式机器学习模型转换为基于所述第一语言的单机机器学习模型。
根据权利要求14所述的设备，其中，所述第四装置用于：

提取出所述分布式机器学习模型参数信息；

若所述分布式机器学习模型参数信息为描述文件的格式，则利用所述描述文件解析工具对所述分布式机器学习模型参数信息进行描述文件解析，否则，利用所述语言转换工具对所述分布式机器学习模型参数信息进行数据类型转换，以获得基于所述第一语言的机器学习模型参数信息；

根据所述机器学习模型参数信息构造基于所述第一语言的单机机器学习模型。
根据权利要求11所述的设备，其中，所述第一装置用于：

获取用户设备发送的模型训练参数信息；

其中，所述设备还包括：

第五装置，用于将所述单机机器学习模型返回至所述用户设备。
一种用于将单机机器学习模型转换为分布式机器学习模型的第二设备，其中，该设备包括：

第六装置，用于获取单机机器学习模型；

第七装置，用于提取出所述单机机器学习模型参数信息，若所述单机机器学习模型参数信息为描述文件的格式，则对所述单机机器学习模型参数信息进行描述文件解析，否则，对所述单机机器学习模型参数信息进行数据类型转换；

第八装置，用于根据所述单机机器学习模型构造分布式机器学习模型；

第九装置，用于根据所述分布式机器学习模型对分布式训练数据进行预测。
根据权利要求17所述的设备，其中，所述第六装置用于：

获取基于第一语言的单机机器学习模型。
根据权利要求18所述的设备，其中，所述对所述单机机器学习模型参数信息进行数据类型转换包括：

利用所述第一语言与第二语言的语言转换工具对所述单机机器学习模型参数信息进行数据类型转换，以获得基于所述第二语言的机器学习模型参数信息；

其中，所述对所述单机机器学习模型参数信息进行描述文件解析包括：

利用描述文件解析工具对所述单机机器学习模型参数信息进行描述文件解析，以获得基于所述第二语言的机器学习模型参数信息；

其中，所述第八装置包括：

根据所述机器学习模型参数信息构造基于所述第二语言的分布式机器学习模型。
根据权利要求17至19中任一项所述的设备，其中，所述设备还包括：

第十装置，用于获取用户设备发送的分布式训练数据。
一种单机机器学习模型与分布式机器学习模型之间进行转换的第三设备，其中，该设备包括如权利要求11至16中任一项所述的第一设备，以及如权利要求17至20中任一项所述的第二设备。