WO2020232874A1

WO2020232874A1 - 基于迁移学习的建模方法、装置、计算机设备和存储介质

Info

Publication number: WO2020232874A1
Application number: PCT/CN2019/102740
Authority: WO
Inventors: 马新俊
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-20
Filing date: 2019-08-27
Publication date: 2020-11-26
Also published as: CN110210625A; CN110210625B

Abstract

一种基于迁移学习的建模方法，包括：将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征；将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征；将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

Description

基于迁移学习的建模方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年05月20日提交中国专利局，申请号为2019104188205，申请名称为“基于迁移学习的建模方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种基于迁移学习的建模方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术领域的高速发展，现实生活中获取的数据成指数级增长。如何对海量的数据进行快速有效的处理，进而提取出用户所需要的有价值的信息，是研究者们普遍关心的问题。随着机器学习领域的不断创新，研究者们提出了迁移学习，迁移学习是指将一个场景中学到的知识迁移到另一个场景中，使得模型在大量全新的场景中也能做出很好的预测。

传统地对于模型的建立都需要大量的有业务表现的样本，但某些新开展的业务可能没有足够的样本，依据传统方法难以构建有效的模型；如果仅使用少量的当前业务数据建模，服务器在训练模型时容易过拟合且训练得到的模型不稳定；如果使用由其他业务的样本构建的模型，鉴于不同业务客群可能存在较大差别，训练得到的模型效果可能显著下降，无法在仅有少量带标签样本的情况下构建有效的模型。

发明内容

根据本申请公开的各种实施例，提供一种基于迁移学习的建模方法、装置、计算机设备和存储介质。

一种基于迁移学习的建模方法，包括：

获取待学习标签样本和目标标签样本；

将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。

一种基于迁移学习的建模装置，包括：

样本获取模块，用于获取待学习标签样本和目标标签样本；

特征降维模块，用于将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

列特征获取模块，用于将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

行特征获取模块，用于将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

模型训练模块，用于将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。

计算机可读指令一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待学习标签样本和目标标签样本；

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取待学习标签样本和目标标签样本；

将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型计算机可读指令。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中基于迁移学习的建模方法的应用环境图。

图2为根据一个或多个实施例中基于迁移学习的建模方法的方法流程图。

图3为根据一个或多个实施例中基于迁移学习的建模方法中进行目标模型更新的方法流程图。

图4为根据一个或多个实施例中基于迁移学习的建模方法中确定权重信息的方法流程图。

图5为根据一个或多个实施例中基于迁移学习的建模方法装置的框图。

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例中所提供的基于迁移学习的建模方法可以应用于如图1所示的应用环境中，服务器120从终端110获取待学习标签样本和目标标签样本，服务器120将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征，服务器120将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征，服务器120将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，服务器120将权重信息高于预设权重阈值的第一降维特征作为通用行特征，服务器120将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

下述实施方式以基于迁移学习的建模方法应用于图1的服务器为例进行说明，但需要说明的是，实际应用中该方法并不仅限应用于上述服务器。

如图2所示，为其中一个实施例中的基于迁移学习的建模方法的流程图，该方法具体包括以下步骤：

步骤202，获取待学习标签样本和目标标签样本。

待学习标签样本和目标标签样本代表不同业务种类的标签样本，待学习标签样本为业务A的有表现样本，目标标签样本为极少量的业务B的有表现样本。可以理解的是，待学习标签样本和目标标签样本都是带有标签信息的样本。

具体地，迁移学习是指将一个场景中学到的知识迁移到另一个场景中。在迁移学习中，已有的知识叫做源域，要学习的新知识叫做目标域，将已经学习到的知识迁移到另一种未知的知识的学习，即从源域迁移到目标域。可以理解的是，源域可为待学习标签样本，目标域可为目标标签样本。

举例说明，假设已经有了一个可以高精确度分辨猫和狗的模型，若想训练一个能够分别不同品种的狗的目标模型，需要做的不是从头训练数据以得到目标模型，而是通过提取通用行特征和通用列特征，利用通用行特征和通用列特征训练最后几层神经元，得到可以分辨狗的品种的目标模型，这就是迁移学习。

在其中一个实施例中，源域可以是用户进行车辆贷款时偿还能力的待学习标签样本，目标域可以是用户进行小额贷款时偿还能力的目标标签样本，服务器通过迁移学习车辆贷款类业务的建模方法，以此建立小额贷款类业务的目标模型，使得目标模型能够对用户进行小额贷款时的偿还能力进行评估。

服务器可从其他服务器中获取待学习标签样本和目标标签样本，也可从终端获取待学习标签样本和目标标签样本。带有标签信息的样本是指该样本中已有事先定义的标签信息。举例说明，例如当待学习标签样本为一个小狗的图片时，该待学习标签样本中的标签信息为“小狗”。

步骤204，将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征。

服务器将对待学习标签样本和目标标签样本进行核主成份分析，核主成份分析是将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上。即，将待学习标签样本和目标标签样本进行降维处理，核主成份分析是机器学习中非常有效的降维，可把原来很高维度的数据用很少的一些代表性维度来表示，比如1000多维用100维来表示，而不丢失关键的数据信息。

具体地，服务器采用核主成份分析为源域(即业务A)和目标域(即业务B)的样本学习得到一个共同的跨数据域子空间，并将所有样本映射到该子空间，获得新的特征表示。即，服务器将得到与待学习标签样本对应的第一降维特征，以及与目标标签样本对应的第二降维特征。

在其中一个实施例中，当待学习标签样本和目标标签样本需要进行降维到K时，可进行如下步骤：1)去平均值(即去中心化)，即每一位特征减去各自的平均值。2)计算协方差矩阵。3)用特征值分解方法求协方差矩阵的特征值与特征向量。4)对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。5)将数据转换到k个特征向量构建的新空间中，即Y＝PX。即通过获取第一特征平均值和第二特征平均值，再进行去平均值，获取与目标特征对应的特征值和特征向量，服务器再根据特征值对特征向量进行排序，得到排序结果，同时根据排序结果大于预设阈值的特征向量建立跨数据域子空间，再将待学习标签样本和目标标签样本映射到跨数据域子空间中，能够准确地得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征。

步骤206，将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征。

具体地，通用特征获取模型是解决迁移学习中源域和目标域分布不同的问题，在学习获取上述新的子空间中，采用最小化最大均值差异的方法减小域间边缘概率分布差异，同时将最小化最大均值差异扩展到域间的条件概率分布、联合匹配边缘概率分布和条件概率分布。最小化最大均值差异是指对每一个样本进行投影并求和，利用和的大小表述两个数据的分布差异。可以理解的是，跨数据域子空间通过将源域和目标域映射到相同的空间(或者将其中之一映射到另一个的空间中)并最小化源域和目标域的距离来完成知识迁移。

可以理解的是，假设有随机变量X与Y，此时，P _{(X＝a，Y＝b)}用于表示X＝a且Y＝b的概率，这类包含多个条件且所有条件同时成立的概率为联合概率，联合概率的一览表称为联合分布。与联合概率对应的，P _(X＝a)或P _(Y＝b)这类仅与单个随机变量有关的概率为边缘概率，边缘概率的一览表称为边缘分布。在条件Y＝b成立的情况下，X＝a的概率，记作P _{(X＝a|Y＝b)}或P _(a|b)。条件概率的分布即条件概率分布，即已知两个相关的随机变量X和Y，随机变量Y在条件{X＝x}下的条件概率分布是指当已知X的取值为某个特定值x之时，Y的概率分布。服务器通过将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，能够准确地得到通用列特征。

步骤208，将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征。

步骤210，将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

由于源域中某些待学习标签样本与目标域样本无关，即源域中的每个实例对目标域模型训练的贡献不同，源域中的实例对目标域模型适用度高的，权重就高，适用度低的，权重就低。服务器根据获取源域中的每个实例对目标域模型训练的贡献度，进一步获取通用行特征，利用L2，1范数选择源域中的相关实例进行模型训练，得到适用于业务B的目标模型，可以理解的是，L2，1范数是指行稀疏选择特征，用于服务器获取通用行特征。

具体地，服务器将获取得到的通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，即完成迁移学习的过程，能够得到较优的目标模型。

本实施例中，服务器将待学习标签样本和目标标签样本核主成份分析，得到第一降维特征和第二降维特征，可把原来高维度的数据用很少的一些代表性维度来表示，而不丢失关键的数据信息，再将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征，将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征，通过通用列特征和通用行特征能够在仅有少量带标签样本的情况下实现源域至目标域的迁移学习，从而完成目标模型的建立。

在其中一个实施例中，如图3所示，该方法还包括以下步骤：

步骤302，获取待评测样本，将待评测样本输入目标模型中，输出与待评测样本对应的样本标签信息。

待评测样本是指对目标模型进行验证的样本，服务器将待评测样本输入目标模型中，能够输出与待评测样本对应的样本标签信息。可以理解的是，待评测样本是不带有标签信息的样本。

步骤304，将样本标签信息进行显示，获取与样本标签信息对应的标签更正信息。

步骤306，根据标签更正信息对目标模型中的权值进行调节，根据每次调节后的权值对目标模型进行更新，得到更新后的目标模型。

服务器将样本标签信息进行显示的方式包括但不限于在线显示和发送至对应的终端进行显示，当服务器将样本标签信息进行显示后，将获取与样本标签信息对应的标签更正信息。

举例说明，例如当待评测样本为用户车辆贷款承受能力样本，且用户车辆贷款承受能力的样本标签信息为“中等级”时，将该样本标签信息进行显示，若服务器接收终端返回的标签更正信息为“高等级”时，服务器将根据标签更正信息对目标模型中的权值进行调节，并根据每次调节后的权值对目标模型进行更新，得到更新后的目标模型。

本实施例中，可通过终端的介入，达到对目标模型的在线学习和实时更新，根据终端返回的标签更正信息进一步更新目标模型，提高目标模型的对样本的处理能力。用户实际使用时，当用户修正结果后，将修正的结果也并入训练集，再次训练模型，更新模型，进行下一轮预测。服务器通过获取待评测样本，再将待评测样本输入目标模型中，输出与待评测样本对应的样本标签信息，然后将样本标签信息进行显示，并获取标签更正信息，根据标签更正信息对目标模型中的权值进行调节，根据每次调节后的权值对目标模型进行更新，得到更新后的目标模型，能够实现目标模型的实时更新。

在其中一个实施例中，该方法还包括：将第一降维特征和第二降维特征进行特征比对，得到特征相似度；将特征相似度高于预设相似阈值时的第一降维特征作为通用列特征。

具体地，将与源域对应的第一降维特征和与目标域对应的第二降维特征进行特征相似度比对，并将特征相似度高于预设相似阈值时的第一降维特征作为通用列特征，通用列特征用于结合通用行特征对基础模型进行训练，得到目标模型。

本实施例中，服务器将第一降维特征和第二降维特征进行特征比对，得到特征相似度；将特征相似度高于预设相似阈值时的第一降维特征作为通用列特征，通用列特征用于进行模型的迁移学习，进一步得到目标模型。

在其中一个实施例中，如图4所示，该方法还包括以下步骤：

步骤402，将第一降维特征输入与目标标签样本对应的基础模型进行测试，输出与待学习标签样本对应的样本标签信息。

步骤404，将样本标签信息进行显示，获取与样本标签信息对应的标签正误信息。

具体地，样本标签信息是指待学习标签样本所对应的标签信息，标签正误信息是对基于待学习标签样本中的标签信息对该样本标签信息做出的正误判别信息。服务器将第一降维特征输入与目标标签样本对应的基础模型进行测试，输出与待学习标签样本对应的样本标签信息，并将样本标签信息进行在线显示或发送至对应的终端进行显示。

举例说明，例如当待学习标签样本为一小狗的图片时，该待学习标签样本中的标签信息为“小狗”，当服务器将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到的样本标签信息为“小猫”时，此时服务器将根据基于待学习标签样本中的标签信息对样本标签信息的正误进行判别，标签正误信息包括但不限于正确和错误。

步骤406，根据标签正误信息评估第一降维特征，得到与第一降维特征对应的特征贡献度信息。

步骤408，根据特征贡献度信息确定第一降维特征的权重信息。

其中，基础模型用于获得源域中的每个实例对目标域模型训练的贡献度，服务器再根据获取到的贡献度进一步确定权重信息，当权重高时，意味着该特征适用度高，当权重低时，意味着该特征适用度低。将适用度高的特征筛选出来得到通用行特征，以用于后续进一步建立目标模型。

具体地，服务器根据标签正误信息评估第一降维特征对于目标域模型训练的特征贡献度，得到特征贡献度信息，并根据特征贡献度信息确定第一降维特征的权重信息，并将权重信息高于预设权重阈值的第一降维特征作为通用行特征。

本实施例中，服务器将第一降维特征输入与目标标签样本对应的基础模型进行测试，输出与待学习标签样本对应的样本标签信息，并将样本标签信息进行显示，能够获取与样本标签信息对应的标签正误信息，通过标签正误信息进一步判断第一降维特征对目标域模型训练的贡献度，即根据标签正误信息评估第一降维特征，得到与第一降维特征对应的特征贡献度信息，根据特征贡献度信息确定第一降维特征的权重信息，能够进一步确定通用行特征，服务器根据通用行特征和通用列特征进行迁移学习，进而建立适用于目标域的目标模型。

在其中一个实施例中，该方法还包括：将通用列特征和通用行特征分成预定数量份的训练特征集；依次将训练特征集输入基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。

预定数量份的训练特征集用于对基础模型进行训练，得到已训练的目标模型，实现从源域到目标域的迁移学习。

本实施例中，服务器将通用列特征和通用行特征分成预定数量份的训练特征集，并依次将训练特征集输入基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型，能够基于迁移学习实现在少量带标签样本的情况下构建有效的模型。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图5所示，为一实施例中的基于迁移学习的建模装置的示意图，该装置包括：

样本获取模块502，用于获取待学习标签样本和目标标签样本；

特征降维模块504，用于将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征；

列特征获取模块506，用于将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

行特征获取模块508，用于将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征；

模型训练模块510，用于将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

在一个实施例中，模型训练模块包括：标签信息输出模块，用于获取待评测样本，将待评测样本输入目标模型中，输出与待评测样本对应的样本标签信息；更正信息获取模块，用于将样本标签信息进行显示，获取与样本标签信息对应的标签更正信息；模型更新模块，用于根据标签更正信息对目标模型中的权值进行调节，根据每次调节后的权值对目标模型进行更新，得到更新后的目标模型。

在一个实施例中，列特征获取模块包括：特征比对模块，用于将第一降维特征和第二降维特征进行特征比对，得到特征相似度；相似度判断模块，用于将特征相似度高于预设相似阈值时的第一降维特征作为通用列特征。

在一个实施例中，行特征获取模块包括：将第一降维特征输入与目标标签样本对应的基础模型进行测试，输出与待学习标签样本对应的样本标签信息；将样本标签信息进行显示，获取与样本标签信息对应的标签正误信息；根据标签正误信息评估第一降维特征，得到与第一降维特征对应的特征贡献度信息；根据特征贡献度信息确定第一降维特征的权重信息。

在一个实施例中，模型训练模块包括：将通用列特征和通用行特征分成预定数量份的训练特征集；依次将训练特征集输入基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。

关于基于迁移学习的建模装置的具体限定可以参见上文中对于基于迁移学习的建模方法的限定，在此不再赘述。上述基于迁移学习的建模装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述基于迁移学习的建模装置可以实现为一种计算机可读指令的形式。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端。当该计算机设备为终端时，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于迁移学习的建模方法。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：获取待学习标签样本和目标标签样本；将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征；将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征；将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

上述对于计算机设备的限定可以参见上文中对于基于迁移学习的建模方法的具体限定，在此不再赘述。

请继续参阅图6，一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取待学习标签样本和目标标签样本；将待学习标签样本和目标标签样本进行核主成份分析，得到与待学习标签样本对应的第一降维特征，与目标标签样本对应的第二降维特征；将第一降维特征和第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；将第一降维特征输入与目标标签样本对应的基础模型进行测试，得到与第一降维特征对应的权重信息，将权重信息高于预设权重阈值的第一降维特征作为通用行特征；将通用列特征和通用行特征输入与目标标签样本对应的基础模型中进行模型训练，得到目标模型。

上述对于计算机可读存储介质的限定可以参见上文中对于基于迁移学习的建模方法的具体限定，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于迁移学习的建模方法，包括：

获取待学习标签样本和目标标签样本；

将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。
根据权利要求1所述的方法，其特征在于，所述将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型之后，还包括：

获取待评测样本，将所述待评测样本输入所述目标模型中，输出与所述待评测样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签更正信息；及

根据所述标签更正信息对所述目标模型中的权值进行调节，根据每次调节后的权值对所述目标模型进行更新，得到更新后的目标模型。
根据权利要求1所述的方法，其特征在于，所述将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征，包括：

将所述第一降维特征和所述第二降维特征进行特征比对，得到特征相似度；及

将所述特征相似度高于预设相似阈值的第一降维特征作为通用列特征。
根据权利要求1所述的方法，其特征在于，所述将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，包括：

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，输出与所述待学习标签样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签正误信息；

根据所述标签正误信息评估所述第一降维特征，得到与所述第一降维特征对应的特征贡献度信息；及

根据所述特征贡献度信息确定所述第一降维特征的权重信息。
根据权利要求1所述的方法，其特征在于，所述将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型进行模型训练，得到目标模型，包括：

将所述通用列特征和所述通用行特征分成预定数量份的训练特征集；及

依次将所述训练特征集输入所述基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。
一种基于迁移学习的建模装置，包括：

样本获取模块，用于获取待学习标签样本和目标标签样本；

特征降维模块，用于将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

列特征获取模块，用于将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

行特征获取模块，用于将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

模型训练模块，用于将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。
根据权利要求6所述的装置，其特征在于，所述模型训练模块包括：

标签信息输出模块，用于获取待评测样本，将所述待评测样本输入所述目标模型中，输出与所述待评测样本对应的样本标签信息；

更正信息获取模块，用于将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签更正信息；及

模型更新模块，用于根据所述标签更正信息对所述目标模型中的权值进行调节，根据每次调节后的权值对所述目标模型进行更新，得到更新后的目标模型。
根据权利要求6所述的装置，其特征在于，所述列特征获取模块包括：

特征比对模块，用于将所述第一降维特征和所述第二降维特征进行特征比对，得到特征相似度；及

相似度判断模块，用于将所述特征相似度高于预设相似阈值的第一降维特征作为通用列特征。
根据权利要求6所述的装置，其特征在于，行特征获取模块还用于将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，输出与所述待学习标签样本对应的样本标签信息；将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签正误信息；根据所述标签正误信息评估所述第一降维特征，得到与所述第一降维特征对应的特征贡献度信息；及根据所述特征贡献度信息确定所述第一降维特征的权重信息。
根据权利要求6所述的装置，其特征在于，模型训练模块还用于将所述通用列特征和所述通用行特征分成预定数量份的训练特征集；及依次将所述训练特征集输入所述基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待学习标签样本和目标标签样本；

将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取待评测样本，将所述待评测样本输入所述目标模型中，输出与所述待评测样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签更正信息；及

根据所述标签更正信息对所述目标模型中的权值进行调节，根据每次调节后的权值对所述目标模型进行更新，得到更新后的目标模型。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述第一降维特征和所述第二降维特征进行特征比对，得到特征相似度；及

将所述特征相似度高于预设相似阈值的第一降维特征作为通用列特征。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，输出与所述待学习标签样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签正误信息；

根据所述标签正误信息评估所述第一降维特征，得到与所述第一降维特征对应的特征贡献度信息；及

根据所述特征贡献度信息确定所述第一降维特征的权重信息。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述通用列特征和所述通用行特征分成预定数量份的训练特征集；及

依次将所述训练特征集输入所述基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待学习标签样本和目标标签样本；

将所述待学习标签样本和所述目标标签样本进行核主成份分析，得到与所述待学习标签样本对应的第一降维特征，与所述目标标签样本对应的第二降维特征；

将所述第一降维特征和所述第二降维特征输入已训练的通用特征获取模型中，得到通用列特征；

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，得到与所述第一降维特征对应的权重信息，将所述权重信息高于预设权重阈值的第一降维特征作为通用行特征；及

将所述通用列特征和所述通用行特征输入与所述目标标签样本对应的基础模型中进行模型训练，得到目标模型。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取待评测样本，将所述待评测样本输入所述目标模型中，输出与所述待评测样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签更正信息；及

根据所述标签更正信息对所述目标模型中的权值进行调节，根据每次调节后的权值对所述目标模型进行更新，得到更新后的目标模型。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述第一降维特征和所述第二降维特征进行特征比对，得到特征相似度；及

将所述特征相似度高于预设相似阈值的第一降维特征作为通用列特征。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述第一降维特征输入与所述目标标签样本对应的基础模型进行测试，输出与所述待学习标签样本对应的样本标签信息；

将所述样本标签信息进行显示，获取与所述样本标签信息对应的标签正误信息；

根据所述标签正误信息评估所述第一降维特征，得到与所述第一降维特征对应的特征贡献度信息；及

根据所述特征贡献度信息确定所述第一降维特征的权重信息。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述通用列特征和所述通用行特征分成预定数量份的训练特征集；及

依次将所述训练特征集输入所述基础模型的输入变量中进行训练，直到所有训练特征集训练完毕，得到已训练的目标模型。