WO2024012219A1

WO2024012219A1 - 一种模型的训练方法的相关装置

Info

Publication number: WO2024012219A1
Application number: PCT/CN2023/103919
Authority: WO
Inventors: 戴全宇; 吴鹏; 李昊轩; 董振华; 唐睿明
Original assignee: 华为技术有限公司
Priority date: 2022-07-15
Filing date: 2023-06-29
Publication date: 2024-01-18
Also published as: CN117436540A

Abstract

本申请实施例公开了一种模型的训练方法和相关装置，用于提高预测模型的泛化能力。本申请实施例方法包括：根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率，计算错误归咎模型的损失函数，然后根据错误归咎模型的损失函数对错误归咎模型的参数进行更新，其中，错误归咎模型的第一输出用于表征第一误差的预测值，错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差。

Description

一种模型的训练方法的相关装置

本申请要求于2022年7月15日提交中国专利局、申请号为202210836072.4、发明名称为“一种模型的训练方法的相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型的训练方法的相关装置。

背景技术

随着人工智能技术的发展，个性化推荐系统得到了越来越广泛的应用。

个性化推荐系统的工作流程是：利用样本数据进行训练，以得到预测模型，然后利用预测模型预测用户对待推荐的物品的喜好程度，然后根据预测的结果为用户推荐物品。其中，样本数据包括用户行为、商品特征和上下文信息。这些样本数据都是具有标签(即对物品的喜好程度)的，一般来自于用户和推荐系统的历史交互日志中。

然而，样本数据受到选择偏置问题的影响，样本数据的分布是有偏的，具体可以理解为，样本数据仅包含部分用户对部分物品的喜好程度，而不是包含所有用户对所有物品的喜好程度，即部分不具有标签的数据未包含在样本数据中。其中，选择偏置包括用户选择偏置和系统曝光偏置。

以用户选择偏置为例，在电影评分网站中，用户倾向于对自己特别喜欢或不喜欢的电影进行评分，所以采集到的样本数据大多是用户对自己特别喜欢或不喜欢的电影的评分，而缺少用户对喜欢程度一般的电影的评分。

而在有偏的样本数据上训练，得到的预测模型也是有偏的，导致预测模型输出的用户对物品的喜好程度不准确，影响推荐的成功率。

为了解决上述问题，除了具有标签的样本数据外，还需要利用不具有标签的数据对预测模型进行训练。目前，能够利用具有标签的数据对预测模型进行训练的方法主要是引入错误归咎(Error Imputation)模型。

在普通的学习方法中，都是利用预测模型对样本数据进行预测，然后根据预测结果和标签之间的误差构建损失函数，再根据损失函数对预测模型的参数进行更新。而对于不具有标签的数据来说，预测结果和标签之间的误差是无法直接计算的。而错误归咎(Error Imputat ion)模型恰好能够解决这个问题，错误归咎模型可以输出预测结果和标签之间的误差的预测值，可以利用该预测值代替预测结果和标签之间的误差，以构建损失函数，从而完成对预测模型的参数的更新。

然而，利用已有的错误归咎模型训练得到的预测模型的泛化能力较弱，这导致预测模型对于某些输入数据的预测结果的准确率较低。因此，如何通过训练错误归咎模型，以提高预测模型的泛化能力是亟需解决的问题。

发明内容

本申请实施例提供了一种模型的训练方法和相关装置，用于提高预测模型的泛化能力。

第一方面，本申请提供了一种模型的训练方法，包括：根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率，计算错误归咎模型的损失函数，第一误差是指预测模型对于第一样本数据的预测结果与第一样本数据的标签间的差值，错误归咎模型的第一输出用于表征第一误差的预测值，错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差；根据错误归咎模型的损失函数对错误归咎模型的参数进行更新。

错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差。由于预测模型的泛化边界主要由预测模型的误差、偏差和方差决定，而预测模型是利用错误归咎模型训练得到的，所以本申请利用包括偏差项和方差项的损失函数对错误归咎模型进行训练，能够提高预测模型的泛化能力，提高预测模型的稳定性，使得训练后的预测模型接近无偏模型，从而提升模型的预测准确度。

作为一种可实现的方式，偏差项是根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的；和/或方差项是根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的。

在双稳健学习(Doubly Robust Learning)方法中，会同时利用样本数据被观测的概率以及误差的预测值来训练预测模型，而在本申请中，偏差项是可根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的，方差项也是根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的，根据双稳健学习方法的优势可知，本申请的方法能够进一步提高预测模型的泛化能力，使得训练后的预测模型更接近无偏模型，进一步地提升模型的预测准确度。

作为一种可实现的方式，错误归咎模型的损失函数是根据偏差项的权重和方差项的权重，对偏差项和方差项进行加权求和得到的。

作为一种可实现的方式，偏差项的权重和/或方差项的权重是根据第一样本数据得到的。

根据第一样本数据动态计算偏差项的权重和方差项的权重，使得偏差项的权重和方差项的权重能够适应第一样本数据，提高偏差项的权重和方差项的权重的准确性，从而提升错误归咎模型的损失函数的准确性，提升对错误归咎模型的训练效果，从而提升预测模型的广泛性。

作为一种可实现的方式，偏差项为其中，D表示全样本空间,(u,i)表示第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示第一误差，表示第一样本数据被观测的概率；当o_u,i的取值为1时，o_u,i表示第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示第一样本数据未被观测到。

作为一种可实现的方式，方差项为其中，D表示全样本空间,(u,i)表示第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_ui表示第一误差，表示第一样本数据被观测的概率；当o_u,i的取值为1时，o_u,i表示第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示所述第一样本数据未被观测到。

作为一种可实现的方式，第一样本数据被观测的概率是目标概率模型根据输入的第一样本数据输出的，目标概率模型可以通过预先的训练得到。

作为一种可实现的方式，在根据错误归咎模型的损失函数对错误归咎模型的参数进行更新之后，方法还包括：根据预测模型对于第二样本数据的预测结果的第二误差、错误归咎模型的第二输出、第二样本数据被观测的概率以及第二样本数据的指示信息，计算预测模型的损失函数，错误归咎模型的第二输出用于表征第二误差的预测值，指示信息用于指示第二样本数据是否被观测到，第二样本数据可以与第一样本数据相同，也可以与第一样本数据不同；当第二样本数据与第一样本数据不同时，第二样本数据可以是具有标签的数据，也可以是不具有标签的数据；根据预测模型的损失函数对预测模型的参数进行更新。

错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差。由于预测模型的泛化边界主要由预测模型的误差、偏差和方差决定，所以利用错误归咎模型的损失函数训练得到错误归咎模型，再利用错误归咎模型的输出训练预测模型，能够提高预测模型的泛化能力，提高预测模型的稳定性，使得训练后的预测模型接近无偏模型，从而提升模型的预测准确度。

第二方面，本申请提供了一种模型的训练装置，包括：计算单元，用于根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率，计算错误归咎模型的损失函数，错误归咎模型的第一输出用于表征第一误差的预测值，错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差；更新单元，用于根据错误归咎模型的损失函数对错误归咎模型的参数进行更新。

作为一种可实现的方式，方差项为其中，D表示全样本空间,(u,i)表示第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示第一误差，表示第一样本数据被观测的概率；当o_u,i的取值为1时，o_u,i表示第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示所述第一样本数据未被观测到。

作为一种可实现的方式，第一样本数据被观测的概率是目标概率模型根据输入的第一样本数据输出的。

作为一种可实现的方式，计算单元，还用于根据预测模型对于第二样本数据的预测结果的第二误差、错误归咎模型的第二输出、第二样本数据被观测的概率以及第二样本数据的标签，计算预测模型的损失函数，错误归咎模型的第二输出用于表征第二误差的预测值，第二样本数据的标签指示用户对对象的评价是否被观测到；更新单元，还用于根据预测模型的损失函数对预测模型的参数进行更新。

第三方面，本申请提供了一种计算机设备，计算机设备包括：存储器和处理器。处理器，用于执行存储器中存储的计算机程序或指令，以使计算机设备执行如第一方面中任一项的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质具有程序指令，当程序指令被直接或者间接执行时，使得第一方面中任一的方法被实现。

第五方面，本申请提供了一种芯片系统，芯片系统包括至少一个处理器，处理器用于执行存储器中存储的计算机程序或指令，当计算机程序或指令在至少一个处理器中执行时，使得第一方面中任一项的方法被实现。

第六方面，本申请提供了一种计算机程序产品，包括指令，当指令在计算机上运行时，使得计算机执行第一方面中任一项的方法。

附图说明

图1为推荐系统的架构示意图；

图2为电影评分的示意图；

图3为广告推荐系统的原理示意图；

图4为本申请实施例提供的模型的训练方法的一个实施例的示意图；

图5为本申请实施例提供的模型的训练方法的概括示意图；

图6为本申请实施例中的CVR的预测网络架构示意图；

图7为本申请实施例提供的模型的训练装置的结构示意图；

图8为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”以及相应术语标号等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“至少一项”是指一项或者多项，“多项”是指两项或两项以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

请参阅图1，图1为推荐系统的架构示意图。该推荐系统包括：日志库、离线训练模块以及线上预测模块。

日志库中存储有日志，该日志用于记录用户在前端展示列表中的一系列的行为数据，如浏览、点击、评论、下载等。

离线训练模块用于根据日志进行离线训练，以得到预测模型，预测模型用于预测用户对某一对象的喜好程度，需要说明的是，本申请实施例对该对象的种类不做具体限定，例如，该对象可以是新闻、广告、电影、歌曲、商品等。预测模型部署于在线上，形成线上预测模块。

线上预测模块用于基于用户的请求访问、对象特征和上下文信息输出推荐结果，如图1所示，推荐结果为展示列表中的对象1、对象2和对象3。

用户对于推荐结果的行为数据构成用户反馈数据，又会被添加到日志库中的日志。

本申请实施例可以应用于图1中的离线训练模块。

应理解，用于训练预测模型的样本数据会受到选择偏置问题的影响，其中，选择偏置包括用户选择偏置和系统曝光偏置。

为了便于理解，下面结合图2和图3对用户选择偏置和系统曝光偏置进行说明。

如图2所示，表格的横向表示不同的电影，表格的纵向表示不同的用户，表格中的数据表示用户对电影的评分，由于用户是有选择地对电影进行评分，所以导致部分电影的评分是未知的，表格中的问号表示该用户对该电影的评分是未知的，这便是用户选择偏置。已有的训练方法往往只选择用户对电影的评分为已知的这部分数据作为样本数据进行训练，所以训练得到的预测模型也是有偏的。

如图3所示，在广告推荐过程中，主要包括曝光、点击和转化三个环节，曝光是指将广告推荐给用户，点击是指用户点击了推荐的广告，转换是指用户在点击推荐的广告后购买了广告中的商品。在曝光环节，广告并不是随机推荐给用户，而是有选择性地推荐给用户，在点击环节，用户点击的广告仅限于推荐的广告，所以用户对未推荐的广告的点击行为是未知的，这便是系统曝光偏置。在已有的训练方法中，会利用用户对推荐的广告的行为数据作为样本数据进行训练，所以训练得到的预测模型也是有偏的。

由此可见，若要实现预测模型无偏，可以采用两种方法。一种方法是，除了利用具有标签的数据训练预测模型外，还利用不具有标签的数据训练预测模型；以图2为例，具有标签的数据是指用户已评分的电影，不具有标签的数据是指用户未评分的电影。另一种方法是，通过预测样本数据被观测到的概率来调整被观测到的数据的分布，使得有偏的被观测到的数据在经过调整后趋向无偏。同时采用上述两种方法的训练方法可以称为双稳健学习(Doubly Robust Learning)方法。

应理解，在训练过程中，需要根据预测模型的预测结果和标签之间的误差构建损失函数，再根据损失函数对预测模型的参数进行更新。而对于不具有标签的数据来说，该误差是无法直接计算的。为此，通过错误归咎(Error Imputation)模型对该误差进行预测，并利用将错误归咎模型输出的误差的预测值构建损失函数，再根据损失函数对预测模型的参数进行更新。这样，便可以利用全样本数据(包括具有标签的数据和不具有标签的数据)对预测模型进行训练，从而使得训练得到的预测模型接近无偏的。

为了提高错误归咎模型的性能，以提高预测模型的泛化能力，本申请实施例提供了一种模型的训练方法，该方法属于双稳健学习(Doubly Robust Learning)方法，使用该方法计算错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差。由于预测模型的泛化边界主要由预测模型的误差、偏差和方差决定，而预测模型是利用错误归咎模型训练得到的，所以本申请实施例利用包括偏差项和方差项的损失函数对错误归咎模型进行训练，能够间接提高预测模型的泛化能力。

本申请实施例可以应用于多种场景。例如，本申请实施例可以应用于转化率预测场景，即可以利用本申请实施例提供的方法训练出的预测模型预测转化率，其中，转化率可以理解为用户在点击了商品的情况下购买该商品的概率。本申请实施例可以应用于点击率预测场景，即可以利用本申请实施例提供的方法训练出的预测模型预测点击率，其中，点击率可以理解为在推荐了某物品的情况下用户点击该物品的概率。

下面对本申请实施例提供的模型的训练方法进行具体介绍。

如图4所示，本申请实施例提供了一种模型的训练方法的一个实施例，包括：

步骤101，通过目标概率模型根据输入的第一样本数据输出第一样本数据被观测的概率。

目标概率模型也可以称为倾向性得分预测模型。

具体地，将第一样本数据输入到目标概率模型中，目标概率模型会输出第一样本数据被观测的概率，即第一样本数据被观测的概率是目标概率模型根据输入的第一样本数据输出的。

第一样本数据一般包括用户和目标对象两部分，目标对象可以是电影、新闻、商品等。

第一样本数据被观测的概率可以理解为能够获取到第一样本数据的概率。以第一样本数据是电影为例，第一样本数据被观测的概率可以理解为，用户对某一电影评分的概率，或者说，能够获取到用户对某一电影的评分的概率。

需要说明的是，目标概率模型可以通过预先训练得到，由于目标概率模型是较为成熟的模型，故在此不对目标概率模型的训练过程进行详细说明。除此之外，目标概率模型也可以与错误归咎模型、预测模型一同训练。

由于第一样本数据被观测的概率也可以是预先设定好的，所以步骤101是可选的。

步骤102，根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率，计算错误归咎模型的损失函数，错误归咎模型的损失函数包括偏差项和方差项。

其中，第一误差是指预测模型对于第一样本数据的预测结果与第一样本数据的标签间的差值。

错误归咎模型的第一输出用于表征第一误差的预测值。

偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差，其中，该偏差项和方差项可以通过预测模型的实际损失函数与理论损失函数计算得到。

偏差项可以由第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率中的至少一个参数得到，作为一种可实现的方式，偏差项是根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的。

例如，偏差项为其中，D表示全样本空间,(u,i)表示第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示第一误差，表示第一样本数据被观测的概率；

当o_u,i的取值为1时，o_u,i表示第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示第一样本数据未被观测到。

同样地，方差项可以由第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率中的至少一个参数得到，作为一种可实现的方式，方差项是根据第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率得到的。

例如，方差项为其中，D表示全样本空间,(u,i)表示第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示第一误差，表示第一样本数据被观测的概率；

根据偏差项和方差项的公式中可以看出，偏差项和方差项都包含参数o_u,i，且当o_u,i的取值为1时，o_u,i表示第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示所述第一样本数据未被观测到。当o_u,i的取值为0时，偏差项中的为0，同样地，方差项中的也为0，因此，可以认为本申请实施例中的第一样本数据都是被观测到的样本数据，即带标签的样本数据。

错误归咎模型的损失函数可以是根据偏差项的权重和方差项的权重，对偏差项和方差项进行加权求和得到的。

相应地，错误归咎模型的损失函数可以表示为其中，λ_ξ(x_u,i)表示偏差项的权重，x_u,i表示第一样本数据。

偏差项的权重和/或方差项的权重可以是超参数，也可以是根据第一样本数据得到的。

步骤103，根据错误归咎模型的损失函数对错误归咎模型的参数进行更新。

具体地，利用错误归咎模型的损失函数，可以采用随机梯度下降的方法更新错误归咎模型的参数，由于随机梯度下降的方法是较成熟的技术，故在此不做详述。

步骤104，根据预测模型对于第二样本数据的预测结果的第二误差、错误归咎模型的第二输出、第二样本数据被观测的概率以及第二样本数据的指示信息，计算预测模型的损失函数，错误归咎模型的第二输出用于表征第二误差的预测值，指示信息用于指示第二样本数据是否被观测到。

第二样本数据可以与第一样本数据相同，也可以与第一样本数据不同；当第二样本数据与第一样本数据不同时，第二样本数据可以是具有标签的数据，也可以是不具有标签的数据。

需要说明的是，当第二样本数据是具有标签的数据时，则可以计算得到第二误差；当第二样本数据是不具有标签的数据时，第二误差是无法计算的，只能利用第二误差的预测值。而对于全样本空间来说，既包含具有标签的数据，也包含不具有标签的数据，所以认为预测模型的损失函数是根据第二误差和错误归咎模型的第二输出得到的。

具体地，预测模型的损失函数可以表示为其中，在该公式中，o_u,i用于表征第二样本数据是否被观测到，e_u,i表示第二误差，表示错误归咎模型的第二输出，表示第二样本数据被观测的概率。

当o_u,i的取值为1时，o_u,i表示第二样本数据被观测到；当o_u,i的取值为0时，o_u,i表示第二样本数据未被观测到。

从公式中可以看出，当o_u,i的取值为0时，第二样本数据未被观测到(即不具有标签)，公式中的的取值为0，此时不需要第二误差e_u,i，利用第二误差的预测值即可完成计算；当o_u,i的取值为1时，第二样本数据被观测到(即具有标签)，公式中的的取值为0，此时不需要第二误差的预测值利用第二误差e_u,i即可完成计算。

步骤105，根据预测模型的损失函数对预测模型的参数进行更新。

具体地，根据预测模型的损失函数，可以采用随机梯度下降的方法更新预测模型的参数，由于随机梯度下降的方法是较成熟的技术，故在此不做详述。

其中，预测模型可以是任意预测模型，例如，预测模型可以是基于矩阵分解的协同过滤模型(Matrix Factorization Collaborative Filtering Model，MF)、基于神经网络的协同过滤模型(Neural Collaborative Filtering Model，NCF)、一种基于分解机的神经网络用于点击率预测(A Factorization-Machine based Neural Network for CTR Prediction，DeepFM)模型和用于广告点击预测的深度交叉网络(Deep&Cross Network for Ad Click Predictions，DCN)模型。

需要说明的是，在训练过程中，错误归咎模型的参数更新过程和预测模型的参数更新过程一般是交替进行的，即先保持预测模型的参数不变，利用部分样本数据通过步骤101至步骤103对错误归咎模型的参数进行更新，然后保持错误归咎模型的参数不变，再利用一部分样本数据通过步骤104对预测模型的参数进行更新。

在本申请实施例中，错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差。由于预测模型的泛化边界主要由预测模型的误差、偏差和方差决定，而预测模型是利用错误归咎模型训练得到的，所以本申请实施例利用包括偏差项和方差项的损失函数对错误归咎模型进行训练，能够提高预测模型的泛化能力，提高预测模型的稳定性，使得训练后的预测模型接近无偏模型，从而提升模型的预测准确度。

并且，基于前文说明可知，可以通过利用不具有标签的数据训练预测模型进行训练，以使得预测模型接近无偏，也可以通过调整被观测到的数据的分布使得预测模型接近无偏，而本申请实施例同时使用了样本数据被观测的概率以及误差的预测值来训练预测模型建立错误归咎模型的损失函数，能够使得训练后预测模型更接近无偏，进一步地提升模型的预测准确度。基于上文的说明，如图5所示，本申请实施例提供的方法可以概括为：对日志中样本数据进行特征提取和预测，这里的预测是指对样本数据进行预测以及对样本数据的预测结果的误差进行预测；然后根据预测结果和预测结果的误差的预测值计算偏差项和方差项，再对偏差项和方差项进行加权求和，以得到错误归咎模型的损失函数；还可以根据预测结果和预测结果的误差的预测值计算预测模型的损失函数；最后利用错误归咎模型的损失函数和预测模型的损失函数交替训练错误归咎模型和预测模型，以对错误归咎模型和预测模型的参数进行更新。

为了便于理解，下面提供了一个应用例。

在该应用例中，将本申请实施例提供的方法应用于图6所示的CVR的预测网络架构中，该网络架构包括三部分，网络架构的第一部分是点击率(Click Through Rate，CTR)预测模型，用于CTR的预估；网络架构的第二部分是转化率(Post-click Conversion Rate，CVR)的预测模型，用于CVR的预估；网络架构的第三部分是错误归咎模型，用于错误归咎的预估。CTR预测模型、CVR预测模型以及错误归咎模型都是用于点击率预测的一种基于分解机的神经网络(A Factorization-Machine based Neural Network for CTR Prediction，DeepFM)，需要说明的是，DeepFM也可以采用其他神经网络替换。

CTR预测模型、CVR预测模型以及错误归咎模型都包括：表征层、深度模型塔和分解机模型塔，其中，CTR预测模型和CVR预测模型共享表征层。表征层用于将离散的特征(包括用户特征和物品特征)转换成样本表征(即低维的向量)，深度模型塔和分解机模型塔用于根据输入的样本表征输出预估结果。

从图6中可以看出，CTR预测模型的预估结果为CTR，CTR可以作为CVR预测过程中样本数据被观测的概率；CVR预测模型的预估结果为CVR，错误归咎模型的预估结果为CVR的误差预测。

采用本申请实施例提供的方法，由于将CTR作为CVR预测过程中样本数据被观测的概率，所以可以根据CTR和CVR的误差预测建立错误归咎模型损失函数，根据CTR、CVR和CVR的误差预测建立CTR预估双稳健损失函数，然后根据这两个损失函数训练错误归咎模型和CVR预测模型。为了说明本申请实施例提供的方法的效果，下面提供了一具体示例，在该示例中，将本申请实施例提供的方法与已有的训练方法进行比较。

具体地，使用某一浏览器广告的数据进行试验，数据集如下表1所示。

表1数据集(M：百万，K：千)

利用表1所示的训练集，使用本申请实施例提供的方法和已有的训练方法分别对CTR预测模型和CVR预测模型进行训练，然后利用训练后的模型和测试集进行预测，最后对预测结果进行统计，统计结果如下表2所示，其中，CTR是指点击率(Click Through Rate)，CVR是指转化率(Post-click Conversion Rate)，CTCVR是指点击转化率(Post-view Click-through&Conversion Rate)。

表2统计结果

其中，DCN是指用于广告点击预测的深度交叉网络(Deep&Cross Network for Ad Click Predictions)，ESMM是指全空间多任务学习模型(Entire Space Multi-Task Model)，DR-JL是指双稳健联合学习(Doubly Robust Joint Learning)，Multi-IPW是指多任务逆倾向性得分加权CVR估计器(Multi-task Inverse Propensity Weighting CVR Estimator)，Multi-DR是指多任务双稳健CVR估计器(Multi-task Doubly Robust CVR Estimator)，MRDR是指更稳健的双稳健(More Robust Doubly Robust)，DR-BIAS是指将本申请实施例中的偏差项作为错误归咎模型的损失函数进行训练的方法，DR-MSE是指本申请实施例图4所示的训练方法，AUC(Area Under Curve)是预测结果的准确率的评价指标，具体可以理解为，如果随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率。

从表2可以看出，使用本申请实施例提供的方法训练得到的CTR预测模型、CVR预测模型和CTCVR预测模型的预测准确率更高。

如图7所示，本申请还提供了一种模型的训练装置的实施例，包括：计算单元201，用于根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和第一样本数据被观测的概率，计算错误归咎模型的损失函数，错误归咎模型的第一输出用于表征第一误差的预测值，错误归咎模型的损失函数包括偏差项和方差项，偏差项用于表征预测模型的实际损失函数与理论损失函数间的偏差，方差项用于表征预测模型的实际损失函数与理论损失函数间的方差；更新单元202，用于根据错误归咎模型的损失函数对错误归咎模型的参数进行更新。

作为一种可实现的方式，计算单元201，还用于根据预测模型对于第二样本数据的预测结果的第二误差、错误归咎模型的第二输出、第二样本数据被观测的概率以及第二样本数据的标签，计算预测模型的损失函数，错误归咎模型的第二输出用于表征第二误差的预测值，第二样本数据的标签指示用户对对象的评价是否被观测到；更新单元202，还用于根据预测模型的损失函数对预测模型的参数进行更新。

图8为本申请实施例提供的一种计算机设备的结构示意图。如图8所示，计算机设备900通常为服务器，搭载有上述的模型的训练装置。计算机设备900由一般性的总线体系结构来实现。

计算机设备900包括至少一个处理器901、通信总线902、存储器903以及至少一个通信接口904。

可选地，处理器901是一个通用中央处理器(central processing unit,CPU)、网络处理器(network processor，NP)、微处理器、或者是一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信总线902用于在上述组件之间传送信息。通信总线902分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，存储器903是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备。可替换的，存储器903是随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备。可替换的，存储器903是电可擦可编程只读存储器(electrically erasable programmable read-only Memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。可选地，存储器903是独立存在的，并通过通信总线902与处理器901相连接。可选地，存储器903和处理器901集成在一起。

通信接口904使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口904包括有线通信接口。可选地，通信接口904还包括无线通信接口。其中，有线通信接口例如为以太网接口。以太网接口是光接口，电接口或其组合。无线通信接口为无线局域网(wireless local area networks，WLAN)接口，蜂窝网络通信接口或其组合等。

在具体实现中，作为一种实施例，处理器901包括一个或多个CPU，如图8中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备900包括多个处理器，如图8中所示的处理器901和处理器905。这些处理器中的每一个是一个单核处理器(single-CPU)，或者是一个多核处理器(multi-CPU)。这里的处理器指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在一些实施例中，存储器903用于存储执行本申请方案的程序代码99，处理器901执行存储器903中存储的程序代码99。也就是说，计算机设备900通过处理器901以及存储器903中的程序代码99，来实现上述的方法实施例。

本申请实施例还提供一种芯片，包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序，以执行前述各实施例的方法。

可选地，该芯片该包括存储器，该存储器与该处理器通过电路或电线与存储器连接。进一步可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理，并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。

在一些实现方式中，所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤，例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。

本申请实施例提供的方法可以由一个芯片实现，也可以由多个芯片协同实现。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令，其包括用于执行为计算机设备所设计的程序。

该计算机设备可以如前述图7对应实施例中模型的训练装置的功能。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现前述各个实施例所示的方法中的流程。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种模型的训练方法，其特征在于，包括：

根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和所述第一样本数据被观测的概率，计算所述错误归咎模型的损失函数，所述错误归咎模型的第一输出用于表征所述第一误差的预测值，所述错误归咎模型的损失函数包括偏差项和方差项，所述偏差项用于表征所述预测模型的实际损失函数与理论损失函数间的偏差，所述方差项用于表征所述预测模型的实际损失函数与理论损失函数间的方差；

根据所述错误归咎模型的损失函数对所述错误归咎模型的参数进行更新。
根据权利要求1所述的方法，其特征在于，所述偏差项是根据所述第一误差、所述错误归咎模型的第一输出和所述第一样本数据被观测的概率得到的；和/或

所述方差项是根据所述第一误差、所述错误归咎模型的第一输出和所述第一样本数据被观测的概率得到的。
根据权利要求1或2所述的方法，其特征在于，

所述错误归咎模型的损失函数是根据所述偏差项的权重和所述方差项的权重，对所述偏差项和所述方差项进行加权求和得到的。
根据权利要求3所述的方法，其特征在于，所述偏差项的权重和/或所述方差项的权重是根据所述第一样本数据得到的。
根据权利要求1至4中任意一项所述的方法，其特征在于，所述偏差项为其中，D表示全样本空间,(u,i)表示所述第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征所述第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示所述第一误差，表示所述第一样本数据被观测的概率；

当o_u,i的取值为1时，o_u,i表示所述第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示所述第一样本数据未被观测到。
根据权利要求1至5中任意一项所述的方法，其特征在于，所述方差项为其中，D表示全样本空间,(u,i)表示所述第一样本数据，u表示用户，i表示目标对象，o_u,i用于表征所述第一样本数据是否被观测到，表示错误归咎模型的第一输出，e_u,i表示所述第一误差，表示所述第一样本数据被观测的概率；

当o_u,i的取值为1时，o_u,i表示所述第一样本数据被观测到；当o_u,i的取值为0时，o_u,i表示所述第一样本数据未被观测到。
根据权利要求1至6中任意一项所述的方法，其特征在于，所述第一样本数据被观测的概率是目标概率模型根据输入的所述第一样本数据输出的。
根据权利要求1至7中任意一项所述的方法，其特征在于，在所述根据所述错误归咎模型的损失函数对所述错误归咎模型的参数进行更新之后，所述方法还包括：

根据所述预测模型对于第二样本数据的预测结果的第二误差、所述错误归咎模型的第二输出、所述第二样本数据被观测的概率以及所述第二样本数据的指示信息，计算所述预测模型的损失函数，所述错误归咎模型的第二输出用于表征所述第二误差的预测值，所述指示信息用于指示所述第二样本数据是否被观测到；

根据所述预测模型的损失函数对所述预测模型的参数进行更新。
一种模型的训练装置，其特征在于，包括：

计算单元，用于根据预测模型对于第一样本数据的预测结果的第一误差、错误归咎模型的第一输出和所述第一样本数据被观测的概率，计算所述错误归咎模型的损失函数，所述错误归咎模型的第一输出用于表征所述第一误差的预测值，所述错误归咎模型的损失函数包括偏差项和方差项，所述偏差项用于表征所述预测模型的实际损失函数与理论损失函数间的偏差，所述方差项用于表征所述预测模型的实际损失函数与理论损失函数间的方差；

更新单元，用于根据所述错误归咎模型的损失函数对所述错误归咎模型的参数进行更新。
一种计算机设备，其特征在于，所述计算机设备包括：存储器和处理器；

所述处理器，用于执行存储器中存储的计算机程序或指令，以使所述计算机设备执行如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得如权利要求1至8中任一所述的方法被实现。
一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，所述处理器用于执行存储器中存储的计算机程序或指令，当所述计算机程序或所述指令在所述至少一个处理器中执行时，使得如权利要求1至8中任一所述的方法被实现。
一种计算机程序产品，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行权利要求1至8中任一项所述的方法。